Documente Academic
Documente Profesional
Documente Cultură
(5)
est le test qui maximise la puissance parmi tous les
tests dont la probabilit de fausse alarme est infrieur
0
. La courbe ROC du test reprsente la probabilit la
puissance de test en fonction de la fausse alarme.
4.2. Entropie et Distance de Kullback-Leibler
Soit MC un modle de chane de Markov de matrice
de transition P, et soit p la probabilit stationnaire de ce
modle (p.P=P). Alors l'entropie de ce modle est
donne par :
,
( ) ( ) ( , ) log( ( , ))
i j
H P p i P i j P i j =
(6)
La distance de Kullback-Leibler entre deux modles
de chane de Markov MC
0
:={P
0
,p
0
} et MC
1
:={P
1
,p
1
} est
donne par :
1
1 0 1 1
0
,
( , )
( // ) ( ) ( , ) log( )
( , )
i j
P i j
D P P p i P i j
P i j
=
(7)
Soit logp(y
1
,,y
T
) la log-vraisemblance d'une
squence de taille T, alors d'aprs la proprit
dquipartition asymptotique, si la squence (y
1
,,y
T
)
est issue du modle MC
1
la fonction
1 1
1
log ( ,..., / )
T
p y y H
T
converge en distribution vers une loi gaussienne dont la
moyenne et l'oppos de l'entropie de MC
1
, par contre si
la squence est issue du modle MC
0
, la fonction
1 1
1
log ( ,..., / )
T
p y y H
T
converge en distribution vers une loi
gaussienne dont la moyenne est l'oppos de la somme de
l'entropie du modle MC
0
et la distance de Kullback-
Leibler entre les deux modles (H(P
0
)+D(P
0
//P
1
).
5. Performances de la mthode
Dans cette section on prsente la validation de
l'approximation du trafic par des modles de chane de
Markov, et on prsente l'valuation de la performance
de la mthode de dtection dans le cas de deux services
(hypothse simple contre hypothse simple) travers les
courbes ROC.
5.1. Validation des modles de chane de Markov
Pour cette tude on considre deux trafics, le trafic
http et les applications Telnet. Les modles de chane de
Markov pour ces deux applications est ralis sur 8836
sessions (5900 sessions http et 2836 sessions Telnet).
On note MC
1
:={P
1
,p
1
} le modle de chane de Markov
associ l'application http (hypothse H
1
), et
Revue Mditerranenne des Tlcommunications vol. 1, n1, 2011 Mediterranean Telecommunication Journal
14
H. DAHMOUNI - MODELES DE CHAINE DE MARKOV POUR LA CLASSIFICATION AUTOMATIQUE DES SERVICES
MC
0
:={P
0
,p
0
} ce associ l'application Telnet
(hypothse H
0
), avec
0
0 1 0 0 0
0.005 0.60 0.387 0.006 0.021
0.001 0.421 0.578 0 0
0.886 0 0 11.4 0
0.2 0.63 0 0.05 0.12
P
(
(
(
( =
(
(
(
1
0 0.953 0.002 0.045 0
0.014 0.685 0.201 0.079 0.021
0.002 0.676 0.206 0.083 0.002
0.696 0.002 0.001 0.30 0.001
0.474 0.30 0.001 0.08 0.145
P
(
(
(
( =
(
(
(
Une connexion TCP typique dbute par les changes
SYN (client vers serveur), SYN-ACK (serveur vers le
client) et puis ACK (client vers serveur). Pour les
probabilits initiales, on considre que le dbut des
observations correspondent au dbut des connexions,
cest dire, les squences de paquets observes
commencent toutes par le paquet SYN (E
1
), on prend
donc p
1
(E
1
)=p
0
(E
1
)=1.
Pour valider l'approximation de ces deux
applications par les modles de chane de Markov, nous
nous basons sur une validation par de trafic simul (par
la mthode de mont-Carlo) et aussi par la vrification
des deux proprits de convergence de la log-
vraisemblance de la squence de chaque application.
Dans le cas ou la probabilit de transition est nulle, on
la remplace par une valeur trop petite epsilon, dans cette
tude on prend epsilon=0.00001.
La figure 1 prsente les courbes de la fonction de
rpartition inverse du rapport de log-vraisemblance
(quation 5) sous l'hypothse H
0
, et la fonction de
rpartition du rapport de log-vraisemblance sous
l'hypothse H
1
, pour les squence de taille 30 (courbes
gauche ) et de taille 50 (courbes droite).
Figure 1. Fonction de rpartition et rpartition inverse
du rapport log-vraisemblance sous H
0
et H
1
pour T=30
( Gauche) et T=50 ( Droite)
La figure 2 (courbe gauche) respectivement
(courbe droite) prsente la fonction de distribution de
1 0
1
log ( ,..., / )
T
p y y H
T
, respectivement
1 1
1
log ( ,..., / )
T
p y y H
T
, la
moyenne de cette distribution est gale l'entropie du
modle MC
0
, respectivement MC
1
Ces courbes
confirme les rsultats de convergence de la proprit
dquipartition asymptotique 4.2.
Figure 2. Distribution de log-vraisemblance sous H0 (
Gauche) et sous H
1
( Droite)
Figure 3. distribution de logvraisemblance sous H
0
(
gauche) et sous H
1
( droite).
La figure 3. (courbe droite), respectivement
(courbe gauche), prsente la fonction de distribution
de log-vraisemblance sous H
1
, respectivement sous H
0
,
sachant que le trafic est gnr par le trafic Telnet,
respectivement par http. La moyenne de cette fonction
est bien l'oppos de la somme de l'entropie de MC
0
et la
distance de kullback-Leibler entre le modle MC
0
et
MC
1
, respectivement la somme de l'entropie de MC
0
et
la distance de KullbackLeibler entre le modle MC
1
et
MC
0
.
5.2. Evaluation de performances de la mthode
L'valuation de la mthode de dtection est
reprsente par les courbes ROC, qui trace la puissance
de test en fonction de la fausse alarme. On prsente ci-
dessous les courbes ROC pour diffrentes tailles (T) des
squences observes.
La figure 4 (courbes gauche) prsente les courbes
ROC pour l'application HTTP contre Telnet, et les
courbes droite reprsentent l'application HTTPS
Revue Mditerranenne des Tlcommunications vol. 1, n1, 2011 Mediterranean Telecommunication Journal
15
H. DAHMOUNI - MODELES DE CHAINE DE MARKOV POUR LA CLASSIFICATION AUTOMATIQUE DES SERVICES
contre Telnet [6][5] pour diffrentes taille de la
squence dobservation (T).
Figure 4. courbes ROC de http/Telent ( D) et de
https/Telnet ( G)
On observe que la vitesse de croissance de courbes
ROC en fonction de la taille de la squence est
diffrente dans les deux cas, cela est d la diffrence
entre les distances de Kullback-Leibler entre les
modles. Cette diffrence est confirme par les rsultats de
Nakagawa et al [8][8] sur la dpendance entre la
convergence de la puissance de test et la distance de
Kullback-Leibler entre les modles.
6. Conclusion & Perspectives
Dans ce papier on a prsent une mthode de
dtection et de classification de service base sur l'ordre
de la squence de paquets de contrle dans chaque
trafic. La mthode a t applique de trafics rels de
rseau mobiles d'Orange France. Les rsultats obtenus
montrent que la performance de la mthode est
meilleure quand la distance de Kullback-Leibler entre
les modles est grande, dans le cas contraire il est
ncessaire d'observer une longue squence de paquets
afin de dtecter la nature de trafic. L'application de la
mthode un trafic mixte est faisable, en s'appuyant sur
une connaissance priori de la rpartition de trafic dans
le mixte, et sur l'application de formule de Bayes pour
dterminer un modle de chane de Markov pour le
mixte moins le service dtecter.
7. Bibliographies
[1] Roughan M. Sen S,. Spatscheck O. and Duffield N,
" Class-of-Service Mapping for QoS: A statistical
signature-based approach to IP traffic
Classification". In ACM/ SIGCOMM IMC,
November 2004.
[2] Moore A.W and Papagiannaki K., "Toward the
accurate Identification of network Application". In
PAM March 2005.
[3] Moore A.W. and Zuev D., "Internet Traffic
Classification Using Bayesian Analysis techniques.
IN ACM SIGMETRICS, 2005
[4] Karagiannis T., Papagiannaki K. and Faloutsos M.,
" BLINC: Multilevel Traffic Classification in the
Dark", In ACM SIGCOMM, 2005
[5] Dahmouni, H. Ross D., Morin B. and Vaton S.,
"Impact of data traffic composition on GPRS
performance". In ITC 19, September 2005.
[6] Ye N., Zhang Y. and C.M. Borror," Robustness of
the Markov-Chain Model for Cyber-Attack
Detection". IEEE Transactions on Reliability, Vol.
53, N1, 2004.
[7] Kwitt R., Strohmeier T. and Hofmann U.," Machine
Learning for Perceptual QoS", In Proc. CISTA
2005.
[8] Nakagawa K. and Kanaya F., "On the Converse
Theorem in Statistical Hypothesis Testing for
Markov Chains", IEEE Trans. On information
theory, 1993.
[9] W. Li, M. Canini, W. Moore, R. Bolla, Efficient
application identification and the temporal and
spatial stability of classification schema. Computer
Networks 2008.
[10] A. Madhukar and C. Williamson. A Longitudinal
Study of P2P Traffic Classification. MASCOTS,
2006.
[11] CoralReef:
http://www.caida.org/tools/measurement/coralreef/.
[12] S. Sen, O. sparscheck, D. Wang. Accurate, Scalable
In-Network Identification of P2P Traffic Using
Application Signatures. 13th international
conference on WWW, 2004.
[13] IANA: http://www.iana.org/assignments/port-numbers
[14] WEKA: http://www.cs.waikato.ac.nz/ml/weka/
[15] M. Ye, J. Wu, Ke Xu, and D.M Chiu. Identify p2p
traffic by inspecting data transfer behaviour. In
Proceedings of the 8th International IFIP-TC 6
Networking Conference, 2009.