Documente Academic
Documente Profesional
Documente Cultură
Arnaud Revel
revel.arnaud@gmail.com
Plan
1
Introduction
Formalisation
Cas multi-classes
Bibliographie
Plan
1
Introduction
Formalisation
Cas separable
Cas non-separable
Cas multi-classes
Bibliographie
Formalisation
Soit un ensemble dapprentissage S = {(xi , yi )}1..n dont les
elements obeissent `
a la loi jointe P(x, y ) = P(x)P(y |x)
Calcul du risque
Pour mesurer la qualite dune hypoth`ese h on va considerer une
fonction de co
ut Q(z = (x, y ), ) [a, b] que lon cherche `a
minimiser
Exemple de fonction de co
ut
Co
ut 0/1 : vaut 0 lorsque les etiquettes prevues et observees
concident, 1 sinon : utilise en classification
Erreur quadratique : (f (x) y )2 : utilise en regression
R
On cherche `a minimiser : R() = Q(z, )dP(z)
(2)
Plan
1
Introduction
Formalisation
Cas separable
Cas non-separable
Cas multi-classes
Bibliographie
Notion de marge :
Dans le cas separable, on va
considerer les points les plus pr`es
de lhyperplan separateur :
vecteurs supports (support
vectors).
Pour tout point de lespace des
exemples, la distance `a
lhyperplan separateur est donnee
par :
|w x + b|
(3)
r=
||w||
On appelle marge d la distance entre les 2 classes
Cest cette distance d quon souhaiterait maximiser
Quantification de la marge :
2
||w||
(5)
Maximisation de la marge :
Le probl`eme revient alors `
a trouver w et b tels que d =
est maximale (xi , yi )
Sous les contraintes :
(
w x + b 1, si yi = 1
w x + b < 1, si yi = 1
2
||w||
(6)
(7)
Maximisation de la marge :
Cette minimisation est possible sous les conditions dites de
Karush-Kuhn-Tucker (KKT)
Soit le Lagrangien L :
PN
i =1 i [yi (w
xi + b) 1]
0, j 0
=0
Le probl`eme dual :
Le probl`eme sexprime sous forme duale comme la
minimisation de :
W () =
N
X
i =1
1 XX
i j yi yj (xi xj )
2
(8)
i =1 j=1
Etant donne : yi (w xi + b) 1 i
pour i = 1, ..., N et i 0
PN
i =1 i
1
2
PN PN
i =1
j=1 i j yi yj xi
xj
Plan
1
Introduction
Formalisation
Cas separable
Cas non-separable
Cas multi-classes
Bibliographie
(9)
Le kernel trick
La resolution des SVM ne sappuient que sur le produit
scalaire < xi , xj > entre les vecteurs dentree
Si les donnees dapprentissage sont plongees dans un espace
de plus grande dimension via la transformation : x (x),
le produit scalaire devient :
K (xi , xj ) =< (xi ), (xj ) >
(10)
Etant
donne : yi (w (xi ) + b) 1 i , pour i = 1, ..., N et
i 0
Probl`eme dual
Minimiser L() =
PN
i =1 i
1
2
PN PN
i =1
j=1 i j yi yj K(xi , xj )
Exemples de noyaux
Noyau polyn
ome de degre 2 `
a 2 variables
Transformee non-lineaire :
x = (x1 , x2 )
2x1 ,
K (x, y ) = (x) (y ) = (1 + x y )2
Plan
1
Introduction
Formalisation
Cas separable
Cas non-separable
Cas multi-classes
Bibliographie
Cas multi-classes
Les Separateurs `a vaste marge ont ete developpes pour traiter des
probl`emes binaires mais ils peuvent etre adaptes pour traiter les
probl`emes multi-classes.
Strategie un contre tous
Lidee consiste simplement `
a transformer le probl`eme `a k
classes en k classifieurs binaires.
Le classement est donne par le classifieur qui repond le mieux.
Pb : beaucoup dexemples negatifs !
Cas multi-classes
Strategie un contre un
classifieurs
Cette fois le probl`eme est transforme en k(k1)
2
binaires : chaque classe i etant en effet comparee `a chaque
classe j.
Le classement est donne par le vote majoritaire ou un graphe
acyclique de decision.
Plan
1
Introduction
Formalisation
Cas separable
Cas non-separable
Cas multi-classes
Bibliographie
Exemple dapplications
Plan
1
Introduction
Formalisation
Cas separable
Cas non-separable
Cas multi-classes
Bibliographie
Bibliographie
CANU, S. (2007).
Machines `
a noyaux pour lapprentissage statistique.
Techniques de ling
enieur - Dossier : TE5255.
Cortes, C. and Vapnik, V. (1995).
Support-vector networks.
Machine Learning, 20(3) :273297.
Guermeur, Y. and Paugam-Moisy, H. (1999).
Apprentissage Automatique, chapter Th
eorie de lapprentissage de Vapnik et SVM, Support Vector
Machines, pages 109138.
Herm
es.
http ://www.loria.fr/ guermeur/SVM-final.ps.