Documente Academic
Documente Profesional
Documente Cultură
Rappel du Sommaire
1 Introduction
Apprentissage automatique
2 Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...)
Julien Ah-Pine (julien.ah-pine@univ-lyon2.fr)
3 Les machines à vecteurs supports (“Support Vector Machines”)
Université Lyon 2
4 Les arbres de décisions (“Decision Trees”)
M2 DM 2018/2019
5 Décider en comité (“Ensemble Learning”)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 1 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 2 / 358
L’apprentissage automatique (AA) (“Machine Learning”) est à la Quelques références et domaines d’application faisant intervenir l’AA :
croisée de plusieurs disciplines : I Les statistiques (“Statistical Machine Learning”) : modèles d’AA
I Les statistiques : pour l’inférence de modèles à partir de données. traités sous l’angle des statistiques [Hastie et al., 2011, Dreyfus, 2008].
I Les probabilités : pour modéliser l’aspect aléatoire inhérent aux I L’intelligence artificielle (“Artifical Intelligence”) : modèles d’AA
données et au problème d’apprentissage. mettant l’accent sur le raisonnement, l’inférence et la représentation
I L’intelligence artificielle : pour étudier les tâches simples de des connaissances
reconnaissance de formes que font les humains (comme la [Cornuéjols and Miclet, 2003, Mitchell, 1997, Alpaydin, 2010].
reconnaissance de chiffres par exemple), et parce qu’elle fonde une I La fouille de données (“Data Mining”) : lorsque les objets étudiés
branche de l’AA dite symbolique qui repose sur la logique et la sont stockés dans des bases de données volumineuses
représentation des connaissances. [Han and Kamber, 2006].
I L’optimisation : pour optimiser un critère de performance afin, soit I La reconnaissance de formes (“Pattern Recognition”) : lorsque les
d’estimer des paramètres d’un modèle, soit de déterminer la meilleure objets concernés sont de type “signal” comme les images, les vidéos ou
décision à prendre étant donné une instance d’un problème. le son [Bishop, 2006].
I L’informatique : puisqu’il s’agit de programmer des algorithmes et I Le traitement automatique du langage - TAL (“Natural Langage
qu’en AA ceux-ci peuvent être de grande complexité et gourmands en Processing” - NLP) : lorsque les problèmes concernent l’analyse
termes de ressources de calcul et de mémoire. linguistique de textes [Manning and Schütze, 1999, Clark et al., 2010].
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 5 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 6 / 358
Apprentissage automatique :
I Supervisé : on dispose d’un ensemble d’objets et pour chaque objet
Plus récemment :
une valeur cible associée ; il faut apprendre un modèle capable de
I La science des données (“Data science”) : approche(s) prédire la bonne valeur cible d’un objet nouveau.
pluri-disciplinaire pour l’extraction de connaissances à partir de données I Non supervisé : on dispose d’un ensemble d’objets sans aucune valeur
hétérogènes [Cleveland, 2001, Abiteboul et al., 2014]. cible associée ; il faut apprendre un modèle capable d’extraire les
I Les données massives (“Big data”) : mettant l’accent sur les régularités présentes au sein des objets pour mieux visualiser ou
problématiques “4V” (volume, variété, vélocité, véracité) et des appréhender la structure de l’ensemble des données.
éléments de solutions issus du stockage/calcul distribué I Par renforcement : on dispose d’un ensemble de séquences de
[Leskovec et al., 2014]. décisions (politiques ou stratégiques) dans un environnement
dynamique, et pour chaque action de chaque séquence une valeur de
I Pour plus de ressources, consultez le site récompense (la valeur de récompense de la séquence est alors la
http://www.kdnuggets.com. somme des valeurs des récompenses des actions qu’elle met en
oeuvre) ; il faut apprendre un modèle capable de prédire la meilleure
décision à prendre étant donné un état de l’environnement.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 7 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 8 / 358
Introduction L’apprentissage automatique Introduction L’apprentissage automatique
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 9 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 10 / 358
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 11 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 12 / 358
Introduction L’apprentissage automatique Introduction L’apprentissage automatique
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 13 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 14 / 358
FEATURE
MATRIX
Dans ce qui suit nous présentons des exemples simples de régression
et de catégorisation qui sont à vocation pédagogique. DATABASE
(numerical NUMERICAL CLASSIFI- CLASSIFI-
data, texts, REPRESENTA -CATION -CATION
images, TION ALGORITHM OUTPUT
networks, …)
Nous présentons également quelques méthodes relativement simples
PROXIMITY
qui nous permettront de mettre en lumière certains concepts et MATRIX
sous-problèmes traités en apprentissage supervisé.
CLASSIFI-
-CATION
ASSESSMENT
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 21 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 22 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Introduction
1.0
1
L’apprentissage automatique
Quelques méthodes simples en guise d’illustration
0.5
Différentes caractéristiques des méthodes d’apprentissage supervisé
(Quelques) Problèmes théoriques en apprentissage automatique
Evaluation et comparaison de modèles en apprentissage supervisé
0.0
y
−0.5
−1.0
−2 −1 0 1 2 3
x
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 23 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 24 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Régression linéaire simple (suite) Régression linéaire multiple (polynôme de degré > 1)
Régression linéaire simple
La régression linéaire simple fait l’hypothèse que la fonction f est un
polynôme de degré 1 et clairement ceci n’est pas une hypothèse
1.0
f (X ) = a + bX + cX 2
Dans ce cas P = {a, b, c} et on cherche à minimiser :
0.0
y
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 27 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 28 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
ˆ
f (x) = Pi=1
n
i=1 Kλ (x, xi )
−1.0
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 29 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 30 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
appartient au voisinage de x.
Les estimateurs à noyau généralisent la méthode précédente en
donnant des poids différents aux plus proches voisins xi de x selon la
0.0
y
λ 2π 2 λ
−2 −1 0 1 2 3
x Pour toute fonction noyau, λ est un paramètre important qui permet
de préciser la notion de voisinage autour de x.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 31 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 32 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
1.0
0.5
0.8
●
●
● ●
●
●
0.6
0.0
●
● ●● ● ●
y
●●● ●●
● ●
X^2
● ● ● ●
● ● ● ● ●● ●
● ● ●
●●● ●
● ● ● ●
0.4
● ●● ●●
●
−0.5
● ● ●
● ● ● ●
● ●● ● ●
● ● ● ●● ●
● ● ●●● ●
● ●
● ● ● ●
0.2
● ● ●
● ●
●
●● ●
● ●
−1.0
● ●
● ● ● ●
●
● ●
0.0
−2 −1 0 1 2 3 ●
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 33 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 34 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Régression linéaire multiple avec variables artificielles Régression linéaire multiple (suite)
On attribue des valeurs numériques à chacune des deux classes Hypothèse : Z = g (X ) = a + bX 1 + cX 2 (polynôme de degré 1 des
comme par exemple C1 ↔ 1 et C2 ↔ −1. {X j }2j=1 )
En vert on a tracé la frontière de décision.
On remplace Y variable discrète par Z une variable numérique
remplie de −1 et 1.
1.0
On traite le problème comme une régression linéaire multiple :
Z = g (X ).
0.8
Pour un nouveau x on applique la règle de décision suivante : ● ●
●
●
●
●
0.6
●
● ●● ● ●
●●
C1 si ĝ (x) ≥ 0 ● ●●● ●
X^2
● ● ●
ˆ
f (x) = ● ●
● ● ●●
● ●
●●● ●● ●
●
C2 si ĝ (x) < 0 ● ● ● ●
0.4
● ●● ●●
● ● ●
● ●● ●
● ●● ● ● ●
● ● ● ●● ●
● ● ●●● ●
● ●
● ● ● ●
0.2
● ● ●
● ●
La ligne de niveau {x ∈ R2 : ĝ (x) = 0} est la frontière de décision. ● ●
●
●● ●
●
● ● ●
●
●
●
● ●
0.0
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 35 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 36 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
Régression linéaire multiple (suite) Méthode des k plus proches voisins (k-ppv)
Hypothèse : Z = g (X ) = a + bX 1 + cX 2 + dX 1 X 2 (polynôme de Nous avons utilisé la régression linéaire associée à des variables
degré 2 des {X j }2j=1 ). artificielles pour un problème de catégorisation.
En bleu on a tracé la frontière de décision. Nous voyons une autre approche simple qui est un modèle non
paramétrique : les k plus proches voisins.
1.0
● ●
●
● relative afin de déterminer la classe de x.
●
●
Formellement nous avons la fonction de prédiction suivante :
0.6
●
●● ● ● ●
●●● ●●
● ●
X^2
● ● ● ●
● ● ● ● ●● ● ●
● ●
● ●
●●● ●
|{xi ∈ Vk (x) : yi = Cl }|
fˆ(x) = arg max
● ●
0.4
● ●● ●●
● ● ●
● ● ●
● ● ●
● ●
●
●●● ●
● ●
● ●● ●
●
Cl ∈Y k
● ● ●
● ● ● ● ●
0.2
● ● ●
● ●
●
où Vk (x) est l’ensemble des k plus proches xi de x et |{xi ∈Vk (x):yi =Cl }|
●● ●
● ● ●
● ● ● ●
●
●
●
● k
0.0
●
est la proportion d’objets appartenant à la classe Cl parmi les k plus
0.0 0.2 0.4 0.6 0.8 1.0
X^1
proches voisins.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 37 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 38 / 358
Introduction Quelques méthodes simples en guise d’illustration Introduction Quelques méthodes simples en guise d’illustration
1.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.8
0.8
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ●
● ●
0.6
0.6
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●● ●
● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●● ●
● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●●● ●●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
X^2
X^2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
●● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
●● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●● ●● ● ● ●● ●●
●●●
● ●●●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●●● ●●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
0.4
0.4
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●●
● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
●
● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
●
● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●● ● ●●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●
●● ●
● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●
●● ●
● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ●
●● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ●
●● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ●●● ● ● ● ●●● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
0.2
● 0.2 ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ●
● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ●
● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ● ● ●
● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ● ● ●
● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.0
0.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
X^1 X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 39 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 40 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 41 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 42 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
En d’autres termes, le biais inductif est l’ensemble des hypothèses Lorsque les données n’ont pas toutes une importance uniforme, une
implicites que l’on fait lorsque l’on utilise une méthode façon de généraliser le scr est l’utilisation de concepts issus de la
d’apprentissage supervisé pour résoudre un problème de régression ou décision statistique.
de catégorisation.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 45 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 46 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Fonction de performance et décision statistique (suite) Fonction de perte quadratique et fonction de régression
Etudions plus particulièrement EX ,Y (`) dans le cas d’une fonction de
Etant donné E, il s’agit de déterminer f qui minimise l’espérance
perte quadratique :
empirique de la perte mesurée sur l’ensemble d’apprentissage. Z Z
min EX ,Y (`2 ) = (f (x) − y )2 P(x, y )dxdy
f
La régression linéaire multiple par MCO est un cas particulier puisqu’il X Y
s’agit de minimiser EX ,Y (`) en prenant : En écrivant P(X , Y ) = P(Y |X )P(X ) on peut réécrire :
I une fonction de perte quadratique : `2 (f (X ), Y ) = (Y − f (X ))2 ,
EX ,Y (`2 ) = EX (EY |X (`2 |X ))
I une distribution uniforme pour le couple (X , Y ),
I une fonction de prédiction polynomiale de degré 1 des {X j }pj=1 : On a le problème équivalent :
Z Z
p 2
f (X ) = a0 +
X
aj X j
min EX (EY |X (`2 |X )) = (f (x) − y ) P(y |x)dy P(x)dx
f X Y
j=1
Pour minimiser EX ,Y (`2 ) il suffit de résoudre le problème suivant :
Z
On peut généraliser et utiliser d’autres types de fonction de perte ou ∀x ∈ X : min EY |X (`2 |X = x) = (f (x) − y )2 P(y |x)dy
en donnant différents poids selon P(X , Y ). f Y
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 49 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 50 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Fonction de perte quadratique et fonction de régression Fonction de perte quadratique et fonction de régression
(suite) (suite)
f (x) étant un élément de Y on peut alors écrire : En somme, nous obtenons la solution générique suivante que l’on
Z appelle fonction de régression :
∀x ∈ X : min EY |X ((z − y ) |X = x) = (z − y )2 P(y |X = x)dy
2 f ∗ (x) = EY |X (Y |X = x)
z∈Y Y
Autrement dit la fonction qui minimise au point x l’espérance d’une
Pour résoudre ces problèmes, on cherche les points critiques : fonction de perte quadratique, EX ,Y (`2 ), est l’espérance de Y sous la
probabilité conditionnelle P(Y |X = x).
∂
E ((z − y )2 |X = x) = 0 La fonction de perte quadratique est un sous-cas de la famille de
∂z Y |X
fonction de perte suivante dite de Minkowski :
OnRobtient alors ∀x ∈ X les équations normales suivantes :
Z Z
2 Y (zR − y )P(y |X = x)dy = EX ,Y (`r (f (X ), Y )) = |f (x) − y |r P(x, y )dxdy
R 0 X Y
⇔ Y zP(y |X = x)dy = Y yP(y |X = x)dy
R Le cas de `2 est souvent utilisé car elle conduit à la solution simple
⇔ z = Y yP(y |X = x)dy
que nous venons de voir mais le principe d’espérance de fonction de
⇔ z = EY |X (Y |X = x)
perte permet d’avoir plusieurs types de fonction de performance.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 51 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 52 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Fonction de performance pour la catégorisation (suite) Fonction de perte binaire et classifieur bayésien
L’espérance de perte s’écrit alors : Pour des données discrètes, la fonction de perte la plus simple est
celle associée à la matrice de perte suivante :
Z X
EX ,Y (L) = L(Cl , f (X ))P(X , Cl )dx
1 si l 6= l 0
X C ∈Y
l
Lll 0 =
Comme précédemment, on peut considérer l’espérance conditionnelle 0 si l = l 0
et obtenir l’écriture équivalente suivante : Dans ce cas, nous avons :
X
EX EY |X (L|X ) ∀x ∈ X : f ∗ (x) = arg min Lll 0 P(Cl |X = x)
Cl 0 ∈Y C ∈Y
Puis, pour minimiser l’espérance de la fonction de perte, il suffit de l
minimiser en chaque point x ∈ X et on obtient le problème équivalent = arg min(1 − P(Cl 0 |X = x))
Cl 0 ∈Y
suivant :
= arg max P(Cl 0 |X = x)
∀x ∈ X : min EY |X (L|X = x) Cl 0 ∈Y
f
La solution est alors : Autrement dit, la fonction de prédiction est telle que : f ∗ (x) = Cl ssi
X P(Cl |X = x) = maxCl 0 ∈Y P(Cl 0 |X = x). Cette approche est appelée
∀x ∈ X : f ∗ (x) = arg min L(Cl , Cl 0 )P(Cl |X = x)
Cl 0 ∈Y C ∈Y classifieur bayésien.
l
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 55 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 56 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
Rappelons que X = (X 1 , . . . , X p )
est un vecteur aléatoire de L’estimation de P(X = x) n’est pas nécessaire car c’est un
dimension p. En utilisant successivement les probabilités dénominateur commun aux probabilités a posteriori de chaque classe.
conditionnelles (P(A, B) = P(A|B)P(B)) on a : La fonction de décision pour x = (x1 , . . . , xp ) est f ∗ (x) = Cl ssi
P(X |Y ) = P(X 1 , . . . , X p |Y ) P(Cl |X = x) = maxCl 0 ∈Y P(Cl 0 |X = x) où :
= P(X 1 |Y , X 2 , . . . , X p )P(X 2 , . . . , X p |Y ) P(Cl 0 |X = x) ∝ P(Cl 0 )P(X 1 = x1 |Cl 0 ) . . . P(X p = xp |Cl 0 )
1 2 p p−1 p p
= P(X |Y , X , . . . , X ) . . . P(X |Y , X )P(X |Y )
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 57 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 58 / 358
Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé Introduction Dif. caractéristiques des méthodes d’apprentissage supervisé
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 61 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 62 / 358
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
1.0
0.5
0.5
0.0
0.0
y
y
−0.5
−0.5
−1.0
−1.0
−2 −1 0 1 2 3 −2 −1 0 1 2 3
x x
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 63 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 64 / 358
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Dans l’exemple de régression, la complexité d’un modèle ou d’une Dans ce qui suit, nous étudions des propriétés qui font appel à des
classe d’hypothèses H est l’ordre du polynôme. outils probabilistes. Nous rappelons quelques propriétés de linéarité de
l’opérateur espérance E.
Si l’ordre est trop petit, il y a sous-apprentissage et s’il est trop grand
il y a sur-apprentissage. Supposons que X soit une variable aléatoire et que b et a soient deux
Pour le polynôme de degré 1 : réels alors :
I la complexité des données et celle du modèle ne coı̈ncident pas,
I l’erreur mesurée sur les données E est très grande,
EX (aX + b) = aEX (X ) + EX (b)
I mais la fonction de prédiction étant une droite la variance du modèle = aEX (X ) + b
est faible (si on change E la “droite changera peu”).
Pour le polynôme de degré 12 : Supposons que X soit un vecteur aléatoire et que b et A soient
I la complexité des données et celle du modèle ne coı̈ncident pas, respectivement un vecteur et une matrice carrée qui nous sont donnés
I l’erreur mesurée sur les données E est très faible, alors :
I mais la fonction de prédiction est instable et donc la variance du modèle
est très grande (si on change E la “courbe changera beaucoup”). EX (AX + b) = AEX (X ) + b
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 65 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 66 / 358
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Erreur de prédiction
polynôme de degré 1.
1.0
modèle et implique une meilleure généralisation.
0.5
0.5
Mais une trop grande complexité donne parfois trop de flexibilité : sur
E l’erreur diminue mais la variance du modèle sera plus forte. Ainsi, si
0.0
0.0
y
y
les données de test sortent de la région des données E, le
−0.5
−0.5
−1.0 comportement de la fonction de prédiction risque d’être chaotique.
Ce problème est moins fort lorsque n est grand comme on vient de le
−1.0
−2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x voir mais jusqu’à un certain point.
Bien sûr plus on a de données meilleure est l’estimation !
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 73 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 74 / 358
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Pour rappel, une fonction indicatrice ind est telle que ind(A) = 1 si la
proposition A est vraie ; ind(A) = 0 sinon.
−0.5
Exemple : la dimension VC de Soit u1 , . . . , up , v ∈ R où au moins un des ui est non nul. Rappelons
H = {f : R2 → R : f (X ) = a0 + a1 X 1 + a2 X 2 } (polynôme de degré que l’ensemble des points x = (x1 , . . . , xp ) ∈ Rp qui satisfait
1) est vc(H) = 3 l’équation linéaire suivante est appelé un hyperplan de Rp :
u1 x1 + . . . + un xn = v ce qui est équivalent à hu, xi = v
où hu, vi = u> v est le produit scalaire canonique de Rp .
Les hyperplans généralisent dans Rp , le point dans R, la droite dans
R2 et le plan dans R3 .
Nous pouvons alors généraliser la dimension VC de l’exemple
précédent :
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Introduction (Quelques) Problèmes théoriques en apprentissage automatique Introduction (Quelques) Problèmes théoriques en apprentissage automatique
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
FEATURE
1 Introduction MATRIX
CLASSIFI-
-CATION
ASSESSMENT
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 87 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 88 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Mesures d’évaluation pour le problème de régression (code Mesures d’évaluation pour le problème de catégorisation
R) binaire
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Mesures d’évaluation pour le problème de catégorisation Mesures d’évaluation pour le problème de catégorisation
binaire (suite) binaire (suite)
En statistique on interprète souvent une classe comme étant la classe fˆ(x)
“positive” (C1 par exemple) et l’autre classe comme étant la classe Total
C1 C2
“négative” (resp. C2 ). Par exemple C1 =“Malade” et C2 =“Sain”. C1 a b a+b
Dans ce cas, les différentes valeurs du tableau de contingence sont y
C2 c d c +d
aussi connues sous les vocables suivants : Total a+c b+d a+b+c +d =n
fˆ(x)
Total
C1 C2
Taux d’erreur (“Error rate” ou “Misclassification Rate”) :
C1 a b a+b
y b+c
C2 c d c +d
err (fˆ) =
Total a + c b + d a + b + c + d = n n
a =Vrais positifs (“True Positive”, tp) Taux de réussite ou de reconnaissance (“Accuracy Rate”) :
b =Faux négatifs (“False Negative”, fn)
a+d
c =Faux positifs (“False Positive”, fp) acc(fˆ) = = 1 − err (fˆ)
d =Vrais négatifs (“True Negative”, tn) n
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 99 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 100 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Mesures d’évaluation pour le problème de catégorisation Mesures d’évaluation pour le problème de catégorisation
binaire (suite) binaire (code R)
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
1.0
●
● ●
● ● ● ●
0.8
● ●●● ● ● ●
0.8
● ● ● ●
●
● ● ●●●
● ● ●
● ● ●
● ● ●
● ● ●● ● ● ● ● ●
● ●
●● ● ● ● ● ● ●● ● ● ● ●
● ● ● ●
●● ● ● ●
●
0.6
● ● ● ● ●
0.6
● ●●● ● ● ●
● ●● ● ●● ● ● ●●● ●
● ● ● ● ●● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
X^2
● ● ●
● ● ● ● ● ● ●●● ● ●
● ● ● ● ●● ●
X^2
● ● ● ● ● ●● ● ●
● ● ● ●
●●● ●
● ● ● ● ● ● ●●● ● ●
●● ● ● ● ● ● ● ●
● ● ●● ● ● ● ●● ● ●●
● ●
0.4
● ●● ●● ● ● ●● ● ● ●
0.4
● ● ● ● ● ●● ●●
● ● ● ● ● ● ●
● ●● ●● ● ● ● ● ●
● ● ● ● ●● ● ●● ●● ●
● ●● ● ● ● ● ● ● ● ●
●● ● ● ●● ● ● ●
● ● ●●● ● ● ●● ●
● ●
● ● ● ●
● ●
● ●●● ● ●
● ● ● ●● ●
0.2
● ● ● ● ●
● ● ● ●● ●
0.2
● ●
●●● ● ●● ● ●
●● ● ● ● ●● ● ● ●●
● ● ●● ● ● ●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ●
● ● ●
● ● ●
0.0
● ●
0.0
● ● ●
● ●
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
X^1 X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 105 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 106 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
1.0
1.0
0.8
●
●
● ● ●
0.8
●
● ● ●●●
● ●
●
● ●
●
0.6
● ● ● ●
● ●● ● ●
● ● ●
0.6
● ● ●
● ●●● ●
● ●● ● ●●
● ● ●●● ● ● ●
● ● ● ●
X^2
● ● ●● ● ●
● ● ● ● ●●●
0.4
● ● ● ● ●●
●● ●
●●● ●
● ●
● ● ●● ● ● ●
0.4
● ● ● ●● ●●
● ● ●
● ●
● ●● ●● ● ●
● ● ● ● ● ● ●
● ● ● ● ●● ●
● ● ● ●●● ● 0.2
● ● ● ●
● ● ● ● ●● ●
0.2
● ●
● ●●
●●● ●
●
●● ● ●
● ● ●
●
0.0
● ● ● ● ●
●
● ●
●
0.0
X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 107 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 108 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
1.0
●
0.8
0.8
●
True positive rate
0.6
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0
False positive rate 0.0 0.2 0.4 0.6 0.8 1.0
False positive rate
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 109 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 110 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Courbe ROC et AUC “Area Under the Curve” Mesures d’évaluation pour le problème de catégorisation
multiclasse
Pour qu’un modèle soit intéressant il faut qu’il soit meilleur qu’un
classifieur aléatoire : la courbe ROC du modèle doit pour cela être Quand Y = {C1 , C2 , . . . , Cq } avec q > 2, on parle d’un problème de
au-dessus de la diagonale. catégorisation multiclasse.
La matrice de confusion est alors une matrice carrée N d’ordre q.
On peut comparer deux types de fonction de prédiction en utilisant
Le terme N(l, l 0 ) = Nll 0 indique le nombre d’objets x de T
les courbes ROC : le modèle dont la courbe est au-dessus de l’autre
appartenant à la classe Cl et ayant été affecté à la classe Cl 0 par fˆ(x).
est le meilleur.
Idéalement, il faudrait que les termes hors diagonale ne contiennent
La courbe ROC permet une évaluation graphique des performances que des 0 ce qui conduirait à un taux d’erreur nul.
d’un classifieur. On peut par aussi résumer le graphique par un Le taux de reconnaissance est la somme des termes de la diagonale
nombre appelé “Area Under the Curve” qui est l’indice auc. auc(fˆ) divisée par le cardinal de T.
est la mesure de la surface sous la courbe ROC.
L’analyse de la matrice de confusion permet de déterminer les paires
Idéalement on souhaite déterminer un modèle fˆ tel que auc(fˆ) = 1. de classes les plus difficiles à séparer.
Le modèle fˆ est meilleur que fˆ0 si auc(fˆ) > auc(fˆ0 ). Des tests statistiques permettent également de comparer les résultats
Le modèle fˆ est meilleur que le classifieur aléatoire si auc(fˆ) > 0.5. de plusieurs modèles et sur plusieurs bases de données
[Alpaydin, 2010, Cornuéjols and Miclet, 2003].
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 111 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 112 / 358
Introduction Evaluation et comparaison de modèles en apprentissage supervisé Introduction Evaluation et comparaison de modèles en apprentissage supervisé
Mesures d’évaluation pour le problème de catégorisation Autres critères pour comparer deux modèles
multiclasse (suite)
Au-delà des critères de performances de type erreur de prédiction ou
en généralisation, il faut également tenir compte de plusieurs autres
Dans le cas multiclasses on a la matrice de confusion N de taille critères lorsque l’on compare des algorithmes d’apprentissage
(q × q) : supervisé :
I La complexité en termes de temps de traitement et en termes
fˆ(x)
d’espace mémoire : on parle d’algorithmes ou de modèles scalables ou
C1 . . . Cq non.
N= C1 I L’inteprétabilité du modèle estimé : au-delà d’une simple prédiction
y .. de valeurs ou de classe, est-ce que le modèle estimé permet une
.
meilleure connaissance sur le processus génératif qui engendre les
Cq
observations (X , Y ) ou s’agit-il d’une “boı̂te noire” ?
On généralise au cas multiclasses (avec un coût uniforme) le taux I La capacité des modèles à s’adapter à des données qui peuvent être
hétérogènes et/ou manquantes et/ou aberrantes et/ou non
d’erreur (“Error rate” ou “Misclassification Rate”) et le taux de
pertinentes vis à vis du problème considéré.
reconnaissance (“Accuracy rate”) :
P Principe de simplicité dit du rasoir d’Occam : à erreur de prédiction
l6=l 0 Nll 0 comparable, on préfèrera le modèle de complexité la moindre
err (fˆ) = P et acc(fˆ) = 1 − err (fˆ)
l,l 0 Nll 0 permettant l’interprétation la plus simple du phénomène étudié.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 113 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 114 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 117 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 118 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression linéaire multiple et MCO (suite) Régression linéaire multiple et MCO (suite)
L’étape d’induction consiste à estimer les paramètres P étant données Nous avons :
les données d’entraı̂nement E. a0 1 x11 x12 . . . x1p y1
La méthode classique est les Moindres Carrés Ordinaires (MCO) : a1 1 x21 x22 . . . x1p y2
a=. ; X = . ; y=.
.. ..
n
X .. .. . ... ... . ..
scr (f ) = (yi − f (xi ))2 ap 1 xn1 xn2 . . . xnp yn
i=1
n p Notons par ailleurs X> la matrice transposée de X.
Nous avons alors l’écriture matricielle suivante :
X X
= (yi − (a0 + aj xij ))2
i=1 j=1 scr (f ) = (y − Xa)> (y − Xa)
Du point de vue statistique, l’utilisation de ce modèle suppose que les On cherche à déterminer les paramètres P = {aj }pj=0 représentés par
observations yi sont des réalisations de v.a. Yi i.i.d.. le vecteur a qui minimise scr (f ) : c’est un problème d’optimisation
Introduisons les notations suivantes : quadratique non contraint :
I a, le vecteur colonne de taille p + 1 contenant les paramètres.
âmco = arg min (y − Xa)> (y − Xa)
I X, la matrice des données de taille (n × (p + 1)) à laquelle on a ajouté a∈Rp+1
une 1ère colonne remplie de 1.
La solution s’obtient en recherchant les points a tel que ∇scr (a) = 0.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 119 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 120 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Si f : Rp+1 → R est différentiable, alors la fonction ∇f défini par : On développe scr (f ) de la manière suivante :
∂f
∂a0 (a)
∂f scr (f ) = (y − Xa)> (y − Xa)
∂a1 (a)
∇f (a) = .
= y> − (Xa)> (y − Xa)
..
∂f
∂ap (a) = y> y − y> Xa − (Xa)> y + (Xa)> Xa
est appelé gradient de f . = y> y − y> Xa − a> X> y + a> X> Xa
∇f est une fonction de Rp+1 dans Rp+1 et peut être vue comme un
champ de vecteurs (fonction qui associe à tout point un vecteur).
Quelques formules de dérivations dans le cas multivarié. La dérivée est On a donc la solution suivante :
calculée par rapport à la variable x. A est une matrice de réels de
taille (m × n) et y un vecteur de réels de taille (m × 1) : ∇scr (f ) = 0 ⇔ 2X> Xa − 2X> y = 0
−1
I Si f (x) = y> Ax ou si f (x) = x> A> y alors ∇f (x) = A> y. ⇔ âmco = X> X X> y
I Si A est carrée et f (x) = x> Ax alors ∇f (x) = (A + A> )x.
I Si A est carrée symétrique et f (x) = x> Ax alors ∇f (x) = 2Ax.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 121 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 122 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression linéaire multiple et MCO (suite) Régression linéaire multiple et MCO (suite)
Une fois estimé âmco on peut calculer les prédictions du modèle pour Interprétation géométrique :
un quelconque x ∈ X :
y
−1
> > >
ˆ
f (x) = x âmco = x X X X> y x1
0 −1
Pour calculer l’erreur de prédiction on regarde ce que prédit le modèle
ŷ = X X> X X> y
estimé pour les données E données par les lignes de X :
ŷ | {z }
−1 Opérateur de projection
ŷ = Xâmco = X X> X X> y
Régression linéaire multiple et MCO (suite) Régression linéaire multiple et MCO (suite)
Les MCO supposent que la matrice X> X est non singulière Pour apprécier la plus ou moins grande adéquation du modèle linéaire
(inversible). On suppose donc que X est de plein rang. En pratique, vis à vis des données, on peut calculer l’erreur quadratique relative
ce sont les variables colinéaires qui rendent la matrice X> X singulière. et/ou le coefficient de détermination :
On pourra alors supprimer ces redondances au préalable. Pn
(yi − ŷi )2
scrrel (f ) = Pi=1
n ; coefdet (f ) = 1 − scrrel
Par ailleurs, les MCO supposent également que n > p, càd le nombre i=1 (yi − y)
2
de données est supérieur au nombre de variables explicatives. Dans le
cas contraire, (comme cela se produit pour les problèmes de grandes coefdet (f ) est également appelé le “R 2 ” : s’il est proche de 0 cela veut
dimensions), on pourra réduire l’espace de représentation X au dire que le modèle estimé ne marche pas mieux que la moyenne y.
préalable (ACP par exemple, régression sur composantes principales). Attention ! Le “R 2 ” augmente naturellement si le nombre de
variables explicatives augmente donc il ne permet pas de comparer
Si X> X est singulière alors il existe une infinité de âmco : les
des modèles linéaires n’ayant pas le même nombre de variables. Dans
coefficients ne sont pas uniques et le problème n’est pas identifiable.
ce cas, on utilsera le “R 2 ajusté”.
Nous verrons plus loin qu’au-delà des artefacts que nous venons de Par ailleurs, il existe d’autres procédures statistiques permettant de
mentionner pour régler le problème de singularité de X> X, il exsite valider ou non le modèle estimé notamment lorsque nous nous
des méthodes élégantes permettant de pallier à ce problème. plaçons dans un cadre gaussien.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 125 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 126 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression linéaire multiple et modèle gaussien Régression linéaire multiple et modèle gaussien (suite)
Nous réinterprétons la régression linéaire multiple dans un cadre La vraisemblance (“likelihood”) est la probabilité d’observer
probabiliste. Nous avons le modèle suivant pour tout i = 1, . . . , n : l’échantillon :
vr (a, σ 2 ) = P(Y1 , . . . , Yn |X1 , . . . , Xn ; a, σ 2 )
Yi = Xi> a + i
Les Yi sont supposés i.i.d. nous avons alors :
Nous faisons de plus l’hypothèse que le vecteur Yn
= (1 , . . . , n ) ∼ N (0, σ 2 In ) où In est la matrice identité d’ordre n. 2
vr (a, σ ) = P(Yi |Xi ; a, σ 2 )
Autrement dit les i sont i.i.d. selon N (0, σ 2 ). i=1
2 !
Yi − Xi> a
On en déduit la relation suivante : 1 1
= √ exp −
2πσ 2 2 σ
2 > 2
P(Y |X ; a, σ ) ∼ N (X a, σ )
L’estimateur du MV est la valeur des paramètres qui maximise la
L’étude de la régression linéaire multiple dans un cadre probabiliste probabilité d’observer l’échantillon. On résoud donc le problème :
nous permet d’introduire le principe d’inférence de maximum de Y n
vraisemblance (MV) et des propriétés statistiques des estimateurs max P(Yi |Xi ; a, σ 2 )
(a,σ 2 )∈Rp+1 ×R
associés. i=1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 127 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 128 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression linéaire multiple et modèle gaussien (suite) Régression linéaire multiple et modèle gaussien (suite)
Il est plus commode de maximiser, de manière équivalente, le Estimateur du MV :
logarithme de la vraisemblance : n
X
n n amv = arg max log(P(Yi |Xi ; a, σ 2 ))
a∈Rp+1 i=1
Y X
2 2
lvr (a, σ ) = log( P(Yi |Xi ; a, σ )) = log(P(Yi |Xi ; a, σ 2 ))
i=1 i=1 On a la solution analytique :
Dans le modèle gaussien cela se réduit à : −1
amv = X> X X> Y
n > a 2
!!
X 1 Y i − X 1
lvr (a, σ 2 ) = log √ exp − i
Espérance de amv :
2πσ 2 2 σ
i=1 −1
n 1 Y − X > a 2 > >
!
√ EY |X (amv |X) = EY |X X X X Y |X
i
X
i
= − log 2πσ 2 −
2 σ −1
i=1
n = X> X X> EY |X (Y |X)
n n 1 X 2
= − log(2π) − log(σ 2 ) − 2 Yi − Xi> a
>
−1
2 2 2σ
i=1
= X X X> Xa = a
Nous avons la propriété suivante : max lvr (a, σ 2 ) ⇔ min scr (f ) L’estimateur du MV est donc sans biais.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 129 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 130 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
L’écriture matricielle de la fonction objectif devient : Supposons que âmco est l’estimation des MCO sur X et y. Nous
n
> >
o avons donc : amco = (X> X)−1 X> Y , EY |X (amco |X) = a et
âridge = arg min (y − Xa) (y − Xa) + λa a −1
a∈Rp VY |X (amco |X) = σ 2 X> X
On a la solution analytique suivante : Espérance de aridge :
−1 −1
> >
âridge = X> X + λIp X> y EY |X (aridge |X) = EY |X X X + λIp X Y |X
−1
Les prédictions sont alors données par : = EY |X >
X X + λIp >
X Xamco |X
ŷ = y 1 + Xâridge et fˆ(x) = y +x> âridge −1
|{z} n
|{z} = X> X + λIp X> XEY |X (amco |X)
âridge,0 âridge,0
−1
où x est un vecteur quelconque de taille (p × 1) et x est de terme = X> X + λIp X> Xa
xj −xj
général : xj = σ̂xj .
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 141 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 142 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 143 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 144 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Interprétation à partir de la décomposition en valeurs singulières de X. Dans le cas de l’estimateur ridge la prédiction vaut ŷ = Xâridge :
Soit X = UDV> la svd de X où : −1
ŷ = X(X> X + λIp )−1 X> y = UD D2 + λIp DU> y
I U de taille (n × p) comporte en colonnes les vecteurs représentant une p
base orthonormée du sous-espace engendré par les colonnes de X. X dj2
V de taille (p × p) comporte en colonnes les vecteurs représentant une
= uj (uj )> y
I
dj2 + λ
base orthonormée du sous-espace engendré par les lignes de X. j=1
I D de taille (p × p) comporte sur sa diagonale les valeurs singulières de Le terme (uj )> y est la jème coordonnée de y dans la base U.
X : d1 ≥ d2 ≥ . . . ≥ dp ≥ 0.
La régression ridge diminue cette coordonnée d’un facteur
La prédiction par l’estimateur des MCO est ŷ = Xâmco : dj2 /(dj2 + λ) ≤ 1 par rapport à la régression classique.
ŷ = X(X> X)−1 X> y Plus dj2 est petit plus le ratio dj2 /(dj2 + λ) est petit. Par ailleurs,
= UDV> (UDV> )> UDV>
−1
(UDV> )> y rappelons que uj est le vecteur propre orthonormée de X> X associé à
−1 la valeur propre dj2 . Ainsi, les coordonnées sur les axes de variance
UDV> VDU> UDV> VDU> y
=
= UU > remarquant que U> U = Ip ) petite (dj2 petit) sont davantage pénalisées par la régression ridge.
Pp y (en
j j > j Remarque : l’expression précédente utilisant la SVD de X permet de
= j=1 u (u ) y (où u est la jème colonne de U)
calculer facilement les estimations du modèle quand λ varie.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 145 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 146 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
> cv_ridge_fit$lambda.min 8 8 8 8 8 8 8
[1] 1.411404
12
> coef(cv_ridge_fit,s = "lambda.min")
9 x 1 sparse Matrix of class "dgCMatrix"
10
1
(Intercept) 2.4751813
8
nb_bathrooms 12.2056258
area_site 0.3146111
Coefficients
6
size_living_space 9.9314174
nb_garages 1.9833801
4
nb_rooms 0.7228990
nb_bedrooms -0.1651591
2
age_in_years -0.1319908
nb_fire_places 3.1537881
0
0 5 10 15 20 25 30
L1 Norm
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 149 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 150 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
log(Lambda)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 151 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 152 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
2
n p
a2
X
0
X
âlasso = arg min yi − aj xij + λkak`1
a∈Rp
−1
i=1 j=1
−2
−4 −2 0 2 4
ŷ = y 1 + Xâlasso et fˆ(x) = y +x> âlasso
a1
|{z} n |{z}
âlasso,0 âlasso,0
En vert la frontière ridge : a12 + a22 = 4. où x est un objet quelconque et x est un vecteur de taille (p × 1) et
xj −xj
En orange la frontière lasso : |a1 | + |a2 | = 2. de terme général : xj = σ̂xj .
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 155 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 156 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
où kâmco k`1 est une constante pré-calculée. d’améliorer le plus un critère de sélection de modèles,
F descendante : on part du modèle avec p variables et on enlève
Une méthode consiste alors à faire varier τ de 0 à 1. On voit que
itérativement la variable qui permet d’améliorer le plus un critère
lorsque τ vaut 1 on a âlasso = âmco .
de sélection de modèles.
On peut alors procéder par validation croisée comme pour ridge.
Les critères de selection de modéles sont de plusieurs sortes :
Cependant, le problème n’ayant pas de solution analytique la I R 2 ajusté,
détermination du chemin de régularisation semble plus ardue. I Cp de Mallows,
Néanmoins, l’étude des propriétés du problème lasso a permis de I le critère AIC (Akaı̈ke Information Criterion),
mettre en place des algorithmes efficaces I le critère BIC (Bayesian Information Criterion) . . .
[Efron et al., 2004, Friedman et al., 2010].
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 157 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 158 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
> cv_lasso_fit$lambda.min 0 2 2 2 2 5 6 7
[1] 0.1118513
15
> coef(cv_lasso_fit,s = "lambda.min")
9 x 1 sparse Matrix of class "dgCMatrix"
1
10
(Intercept) 5.09977407
nb_bathrooms 12.29607390
area_site 0.05614472
Coefficients
size_living_space 13.17482462
5
nb_garages 2.19026979
nb_rooms .
nb_bedrooms -0.64604491
age_in_years -0.12713019
0
nb_fire_places 3.09783476
0 5 10 15 20 25 30 35
L1 Norm
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 161 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 162 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Régression lasso (code R) Petite synthèse des régressions pénalisées ridge et lasso
plot(cv_lasso_fit) Les régressions ridge et lasso tentent de diminuer la variance des
estimateurs (au prix d’un biais) afin d’obtenir une plus faible erreur en
7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6 6 6 5 2 2 2 2 2 2 2 2 2 2
généralisation.
300
parcimonieuse.
−3 −2 −1 0 1 2
En pratique, elle est performante mais connaı̂t des limites dans
log(Lambda) certaines situations.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 163 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 164 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 165 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 166 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
L’estimateur elasticnet vu jusqu’à présent est dit “naı̈f”. On peut écrire la fonction objectif de l’estimateur lasso comme suit :
En théorie, il permet de tenir compte des limites du lasso identifiées âlasso = arg min a> (X> X)a − 2y> Xa + λ1 kak`1
précédemment. a∈Rp
En pratique, il ne donne satisfaction que lorsqu’il est proche de On montre que celle de l’estimateur elasticnet peut s’écrire :
l’estimateur ridge ou de l’estimateur lasso. >
> X X + λ2 Ip
Ce comportement est en fait dû à un double effet de âen = arg min a a − 2y> Xa + λ1 kak`1
a∈Rp 1 + λ2
rétrécissement qui porte atteinte au modèle (on a une faible
diminution de la variance pour une forte augmentation du biais). Les variables étant centrées-réduites, X> X = Σ̂ la matrice
L’estimateur elasticnet âen retenu est alors un ré-échelonnement variance-covariance empirique. On a par ailleurs :
de la solution précédente : X> X + λ2 Ip
= (1 − γ)Σ̂ + γIp
p 1 + λ2
âen = (1 + λ2 )ânen = 1 + λ2 â∗
en posant γ = λ2 /(1 + λ2 ).
En pratique, l’estimateur ré-échelonné âen donne de meilleurs Elasticnet peut donc être vu comme un lasso où la matrice de
résultats pour 0 < α < 1 et peut ainsi surpasser le lasso. variance-covariance est rétrécie càd proche de la matrice identité.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 171 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 172 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
plot(cv_eln_fit)
cv_eln_fit$lambda.min
coef(cv_eln_fit,s = "lambda.min")
> cv_eln_fit$lambda.min
10
[1] 0.4708726
> coef(cv_eln_fit,s = "lambda.min")
Coefficients
9 x 1 sparse Matrix of class "dgCMatrix"
1
5
(Intercept) 4.4651671
nb_bathrooms 12.5107837
area_site 0.1169648
size_living_space 11.9379818
nb_garages 1.9046787
0
nb_rooms .
nb_bedrooms .
age_in_years -0.1231138 0 5 10 15 20 25 30 35
nb_fire_places 2.9517174 L1 Norm
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 173 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 174 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la régression
nouvelles composantes.
I Régression sur composantes principales (“Principal Component
250
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 175 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 176 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 177 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 178 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 183 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 184 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Fonction discriminante basée sur les MCO Fonction discriminante basée sur les MCO (suite)
Nous avons vu en introduction comment utiliser les MCO pour un Formules de dérivation de l’opérateur trace :
∂tr (AX)
problème de catégorisation binaire en utilisant des variables I
∂X = A>
>
artificielles. ∂tr (X A)
I
∂X =A
>
Dans le cas général des problèmes multiclasses, on représente les I
∂tr (X AX)
= AX + A> X
∂X
différentes classes par des vecteurs binaires qui aboutit à la matrice En développant scr (tr est un opérateur linéaire) on obtient :
binaire Y introduite précédemment.
Dans ce contexte, le critère scr est défini par : scr (g ) = tr (A> X> XA) − tr (A> X> Y) − tr (Y> XA) + tr (Y> Y)
2
n X
X q Xp En appliquant les formules de dérivation on obtient :
scr (g ) = yil − xij alj ∂scr (g )
i=1 l=1 j=0 = 2X> XA − 2X> Y
∂A
L’écriture matricielle de la fonction de perte est : ∂scr (g )
En posant ∂A = 0 on détermine les points critiques et il vient :
scr (g ) = tr (Y − XA)> (Y − XA) −1
 = X> X X> Y
où tr est l’opérateur trace d’une matrice carrée.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 185 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 186 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Fonction discriminante basée sur les MCO (exemple) Fonction discriminante basée sur les MCO (code R)
> #estimation utilisant lm
> X=data.frame(x1=X[,1],x2=X[,2])
1.0
> lm_disc_fit=lm(y~x1+x2,data=X)
> #estimation utilisant la solution analytique
> XX=as.matrix(cbind(rep(1,n),X))
0.8
> a=solve(t(XX)%*%XX)%*%t(XX)%*%y
> a
0.6
> y_hat
[,1] [,2] [,3]
0.0
Fonction discriminante basée sur les MCO (exemple) Fonction discriminante basée sur les MCO (suite)
1.0
L’avantage du critère des MCO est qu’il permet de déterminer une
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
solution analytique.
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.8
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
I Elle est sensible aux données aberrantes.
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
I Quand q est grand et p est petit, il arrive souvent que les frontières de
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
plusieurs classes. Dans ces cas, utiliser des hyperplans dans X comme
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
X^2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
frontière n’est pas suffisant il faut utiliser des expansions de base
0.4
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
[Hastie et al., 2011].
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Rappelons que la méthode des MCO est identique à la méthode du
0.2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
MV avec l’hypothèse que la probabilité conditionnelle de Y sachant
X est gaussienne. Or ici, les données cibles sont binaires et la loi
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 189 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 190 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
catégorisation dans le cadre duquel on prédit une variables discrète à
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
partir de variables explicatives continues.
0.8
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Nous aborderons d’abord les méthodes géométriques : on cherche à
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.4
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
fondamentales.
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 195 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 196 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Le théorème de Huygens, nous permet d’établir que : Pour déterminer la solution optimale on développe les conditions de
premier ordre suivantes :
Σ̂ = Σ̂b + Σ̂w ⇒ a> Σ̂a = a> Σ̂b a + a> Σ̂w a >
∇r (a) = 0 ⇔ 2 aΣ̂ ba
> Σ̂a
− 2 a(a>Σ̂Σ̂a)
b aΣ̂a
=0
Formellement dans le cadre de l’analyse discriminante on cherche à >2
⇔ a>1Σ̂a Σ̂b − aa>Σ̂Σ̂a ba
Σ̂ a = 0
résoudre le problème d’optimisation suivant :
⇔ Σ̂b − r (a)Σ̂ a = 0
a> Σ̂b a
arg max r (a) = ⇔ Σ̂b a = r (a)Σ̂a
a∈X a> Σ̂a
Ainsi la solution du problème précédent est donnée par la solution du
C’est un problème d’optimisation non contraint. r (a) est également problème de décomposition spectrale généralisée suivant :
connu sous le nom de quotient de Rayleigh.
Pour déterminer les solutions il faut déterminer les points critiques : Σ̂b a = λΣ̂a
∇r (a) = 0 a∗ est en fait le vecteur propre de la matrice Σ̂−1 Σ̂b associé à la plus
grande valeur propre.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 197 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 198 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
1.0
retrouve au dénominateur du quotient de Rayleigh.
Cette métrique permet de tenir compte de la dispersion et de
0.8
l’orientation des nuages de points selon les différentes variables et de
normaliser automatiquement l’hétérogénéité de cette dispersion.
0.6
Prenons le cas de variables indépendantes (Σ̂w diagonale) mais de
variances non constantes (σx2k 6= σx2l , ∀k 6= l = 1, . . . , p). Dans ce cas
X^2
la distance de Mahalanobis s’ecrit :
0.4
p
X (xik − xjk )2
σ̂x2k
0.2
k=1
σ̂x k étant l’estimateur sans biais de σx k .
0.0
Ainsi, si une variable est de forte variance alors elle aura moins de
poids dans le calcul de la distance. La métrique de Mahalanobis 0.0 0.2 0.4 0.6 0.8 1.0
X^1
permet de réduire l’impact de l’hétéroscédasticité.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 201 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 202 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
L’AFD que nous venons de voir est une approche géométrique. Elle
1.0
P(Cl |X ) =
P(X )
g (X )πl
Pq l
0.0
=
0.0 0.2 0.4 0.6 0.8 1.0 k=1 gk (X )πk
X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 203 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 204 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Analyse discriminante probabiliste (fc. disc. linéaires) Analyse discriminante probabiliste (modèle général)
L’homoscédasticité aboutit à une règle d’affection linéaire : En résumé, nous pouvons avoir 3 hypothèses :
I Hypothèse de gaussianité : ∀k, P(Ck |X ) ∼ Np (µk , Σkw ).
1
hk (x) = − µ> Σ−1 µk + x> Σ−1
w µk + log πk
I Hypothèse d’homoscédasticité : ∀k, Σkw = Σw .
2 k w I Hypothèse d’équiprobabilité : ∀k, P(Ck ) = πk = 1/q.
En supposant l’équiprobabilité des classes (∀k, πk = 1/q) on a : Si on suppose toutes les hypothèses, on obtient la règle de décision
1 géométrique de l’AFD classique.
arg max hk (x) = arg max x> Σw −1 µk − µ> Σ−1 µk
Ck ∈Y Ck ∈Y 2 k w Si on suppose toutes les hypothèses sauf l’équiprobabilité, on obtient
la règle de décision dite probabiliste de l’analyse dicriminante linéaire.
= arg min(x − µk )> Σ−1
w (x − µk )
Ck ∈Y Dans ce cas, la méthode traite mieux les cas non-équiprobables. La
fonction de discrimination ainsi que les frontières en découlant sont
Si on estime Σw par l’estimateur (non biaisée) on a : linéaires dans l’espace X.
q
1 XX Si on ne suppose que le modèle paramétrique gaussien, on obtient
Σ̂w = (xi − µ̂l )(xi − µ̂l )> une méthode dite analyse discriminante quadratique. Dans ce cas,
n−q
l=1 xi ∈Cl
le plus général des 3, on obtient des fonctions discriminantes
On retrouve la règle basée sur la distance de Mahalanobis. quadratiques et les frontières dans X sont courbées.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 207 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 208 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Dans le cas de l’analyse discriminante quadratique, on estime les Dans le cas de données de grande dimension, où dans le cas de petits
paramétres du modèle comme suit, ∀k = 1, . . . , q : échantillons d’entraı̂nement, n < p, on a pour chaque classe Ck ,
|Ck | << p. L’estimateur Σ̂kw est instable car la matrice n’est pas de
|Ck | plein rang et est donc singulière.
π̂k =
n Si |Ck | << p les petites valeurs propres de Σ̂kw sont biaisées (elles
1 X sont trop petites par rapport à la valeur théorique) et ceci a un
µ̂k = xi
|Ck | impact sur son inverse (qui intervient dans ĥk ). Supposons que
xi ∈Ck
1 X {λkj }j=1,...,p et {ukj }j=1,...,p sont les valeurs et vecteurs propres de Σ̂kw
Σ̂kw = (xi − µ̂k )(xi − µ̂k )> alors nous avons :
|Ck | p
xi ∈Ck
k −1
X ukj [ukj ]>
[Σ̂w ] =
Les fonctions discriminantes quadratiques sont, ∀k = 1, . . . , q : j=1
λkj
1 1 Ainsi les axes principaux associés aux valeurs propres les plus petites
hk (x) = − (x − µk )> [Σkw ]−1 (x − µk ) + log πk − log det(Σkw ) jouent un rôle sur-estimé dans les fonctions discriminantes.
2 2
Dans [Friedman, 1989], on propose de régulariser la matrice de
La règle de décision est donc : fˆ(x) = arg maxCk ∈Y ĥk (x) variance-covariance afin de tenir compte de ce problème.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 209 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 210 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
De plus, on suppose que chaque fonction logit peut être Dans les équations précédentes, la classe Cq , prise comme référence,
représentée par un modèle linéaire. est traitée de manière particulière. Afin de rendre uniforme le
Le modèle spécifié précédemment conduit aux propriétés suivantes traitement des classes nous poserons plus particulièrement et de façon
∀k = 1, . . . , q − 1 : équivalente :
Remarque : le choix de la classe Cq au dénominateur est arbitraire L’appellation softmax vient du fait que s’il existe une classe Ck telle
mais fait jouer à cette dernière un rôle particulier. que ak0 + a> k x est largement supérieure aux autres classes Cl 6= Ck
alors, la fonction softmax retourne une valeur proche de 1. Ainsi la
Nous pouvons clairement vérifier que ql=1 P(Y = Cl |X = x) = 1.
P
fonction agit comme la “fonction max” excepté qu’elle est
Ici, l’ensemble des paramètre est P = {(al0 , al )}q−1
l=1 . différentiable.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 213 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 214 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 215 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 216 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
Input : f ∈ C 2 , x0
En remplaçant P(Y = Cl |xi ; al ) par la forme paramétrique introduite 1 k ←0
précédemment, on a : 2 Tant que condition d’arrêt non satisfaite faire
q X
n 3 x(k+1) ← x(k) − ∇2 f (x(k) )−1 ∇f (x(k) )
exp(al0 + a>
l xi )
X
lvr (P) = yil log Pq 4 k ←k +1
>
l=1 i=1 k=1 exp(ak0 + ak xi ) 5 Fin Tant que
6 Output : x(k)
Le problème n’ayant pas de solution analytique, on a recourt à des
outils d’optimisation numérique. Dans le cas de la régression où la matrice ∇2 f (x) est appelée matrice hessienne de f en x avec :
logistique, on utilise l’algorithme de Newton-Raphson (ou la 2
∂2f ∂2f
méthode IRLS “Iteratively Reweighted Least Squares”) pour ∂ f
∂x ∂x ∂x1 ∂x2 · · · ∂x1 ∂xn
déterminer une solution approchée de l’estimateur du MV. Pour cela, ∂12 f 1 ∂2f ∂2f
∂x ∂x ∂x ∂x · · · ∂x2 ∂xn
il faut déterminer le gradient de la lvr par rapport à al ainsi que la ∇2 f = .
2
.
1 2
.
2
.
. .. ··· ..
matrice hessienne. 2 2 2
∂ f ∂ f ∂ f
∂xn ∂x1 ∂xn ∂x2 · · · ∂xn ∂xn
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 217 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 218 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
1.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.8
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
fonctions objectif que les MCO telle que la log-vraisemblance.
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Dans le cas de la régression logistique polytomique utilisant les
0.6
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
fonctions softmax, notons l’ensemble des paramètres
X^2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.4
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
q
X
(1 − α)kal k`1 + αkal k2`2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
max lvr (P) − λ
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
l=1
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 221 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 222 / 358
Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...) Méthodes linéaires pour la catégorisation
0 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 1 1 1 1 1 1 1 0
0.8
15
0.6
10
Coefficients: Response 3
Misclassification Error
0.4
5
0
0.2
−5
0.0
0 10 20 30 40 50 −10 −8 −6 −4 −2
L1 Norm log(Lambda)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 225 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 226 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
Hyperplans de séparation entre deux classes Hyperplans de séparation optimale entre deux classes
On suppose un problème avec deux catégories C1 et C2 . Dans le cas des svm, on cherche la frontière linéaire représentée par
Il existe une infinité d’hyperplans permettant de séparer deux nuages a0 ∈ R et a ∈ Rp telle que :
de points linéairement séparable.
a0 + a> x ≥ δ
pour tout x ∈ C1
a0 + a> x ≤ −δ pour tout x ∈ C2
1.0
avec δ ≥ 0.
Contrairement aux fonctions discriminantes où on regardait
0.8
0.0 0.2 0.4 0.6 0.8 1.0 Marge”) afin d’obtenir une meilleure généralisation.
X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 229 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 230 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
1
0.8 o o
o o
o o o o
o o
o o o o o
o o o 1
o
oo o
0.6 o
o
o
x o kak
o o o o
X2
o x
o o
o
o o o
0.4 o
oo 1
o oo o
o
o o o oo oo o kak
−1
x o o o
o o
0.2 o o
o
o oo o
o o o o
o o
o o o
o
o
0.0 o
0.0 0.2 0.4 0.6 0.8
X1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 233 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 234 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
La marge δ = 1/kak donc 2/kak est l’épaisseur de la bande (ou tube). Reprenons le problème primal suivant :
Il n’y a uniquement que quelques points (ceux marqués d’une croix
min p 12 kak2
dans l’exemple précédent) qui participent à la définition de la a0 ,a∈R
frontière (cf plus loin). slc ∀i, yi (a> xi + a0 ) ≥ 1
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
où α ∈ R+n et µ ∈ R+n sont les multiplicateurs de Lagrange. Comme ∀i, µi ≥ 0, la dernière condition implique que ∀i, 0 ≤ αi ≤ c.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 245 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 246 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
Nous obtenons la solution α̂ et le vecteur normal de la frontière de Nous avons les interprétations suivantes :
décision âsvm ∈ X, est tel que : 1 Si α̂i > 0 alors xi participe à la définition de âsvm .
2 Comme µ̂i ξˆi = 0 (KKT), alors ξˆi = 0 ⇒ µ̂i > 0 et dans ce cas,
n
X 0 ≤ α̂i < c.
âsvm = α̂i yi xi Par ailleurs, si ξˆi = 0 alors α̂i yi (â>
svm xi + âsvm,0 ) − 1 = 0 (KKT).
i=1 Ainsi, si de plus 0 < α̂i , cela implique que xi est sur une frontière de la
Les conditions KKT suivantes permettent par ailleurs de caractériser bande puisque yi (â> svm xi + âsvm,0 ) = 1.
également la solution optimale obtenue vis à vis du primal : 3 On en déduit également que ξˆi > 0 ⇒ µ̂i = 0 et dans ce cas α̂i = c.
Alors, xi est dans l’intérieur de la bande puisque
∀i, αi yi (a> xi + a0 ) − (1 − ξi ) = 0
yi (â> ˆ
svm xi + âsvm,0 ) = 1 − ξi . En fonction du signe du membre de droite,
∀i, µi ξi = 0 il peut être bien ou mal catégorisé.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 247 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 248 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
On obtient âsvm,0 à l’aide de l’équation suivante pour n’importe quel On remarquera la similitude entre la fonction objectif du svm et les
vecteur support (càd tel que 0 < α̂i < c) : modèles pénalisés précédents :
n
âsvm,0 = yi − â> 1 X
svm xi min kak2 +c ξi
a0 ,a∈R ,ξ∈Rn
p 2 |{z}
i=1
La fonction de décision fˆ(x) dépend alors de la fonction pénalité | {z }
perte
ĝ (x) = â>
svm x + âsvm,0 :
Le svm nécessite également le “tuning” du paramètre c qui arbitre
ˆ C1 si ĝ (x) > 0 entre la fonction de perte et la fonction de pénalité.
f (x) =
C2 sinon c peut être sélectionné par validation croisée comme indiquer en slide
147 (mais en utilisant le taux d’erreur comme critère).
Le problème dual est plus simple à résoudre que le problème primal.
Il existe aussi des travaux pour déterminer le chemin de
Le problème dual permet de faire dépendre la compléxité du
régularisation d’un svm, càd le calcul de âsvm (c) pour c ∈ [0, ∞].
problème en fonction de n plutôt qu’en fonction de p !
Dans [Hastie et al., 2004], les auteurs montrent que âsvm (c) est
Les svm peuvent ainsi traiter les problèmes de grande dimension linéaire par morceaux (comme le lasso). Leur algorithme est inspiré de
(n << p) plus efficacement que les modèles linéaires précédents ! lars.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 249 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 250 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
> summary(res_svmpath)
0.8
Call:
0.6
svmpath(x = X, y = c, trace = TRUE)
*
*
*
X2
* *
Number of steps: 146 * * * * *
**
0.4
Selected steps: *
Lambda Error Size.Elbow Support SumEps
1 12.319518 6 2 100 60.25142
0.2
50 2.385540 5 3 64 29.16954
100 0.391334 5 3 34 16.97741
146 0.001727 5 3 13 11.50147
0.0
X1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 251 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 252 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
On appelle une matrice de produits scalaires une matrice de Gram On vérifie bien en effet que : K (x, y) = φ(x)> φ(y).
La matrice K doit alors satisfaire les propriétés suivantes : En utilisant K , la complexité de calcul reste en O(dim(X)) plutôt que
I Symétrie : ∀i, j, Kij = Kji . O(dim(F)) !
I Semi-définie positivité : ∀z ∈ Rn , z> Kz ≥ 0.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 257 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 258 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 259 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 260 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
1
o oo o o o oo o o
o o
o o o o
o o x o
o o o o o o
o o o o o o o
o
o oo o o oo o
o o x o o o
0.6 0.6
o x o x
o o x o o x
o o
X2
X2
oo o o oo o o
o x o o x o
o o o o o o o o
x o x x
o o o o o o
o o o o x o o o
o o o o o o o o
0.4 o o o 0.4 o o o
oo o oo o
o o o o
x o o o o o
o o o o
−1
−1
o o o o
oo o o oo o oo o o oo o
o o o o
0.2 o o 0.2 o o
o o o o
o o o o
o o
o o
0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8
X1 X1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 263 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 264 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
1
x oo o o o oo o o
o o
o o o o
x x x o
o o o o o o
x o oo o o o o o oo o o o
o o x o o x
0.6 o 0.6 o
o x o o
o o x o o x
o o
X2
X2
oo o o oo o o
o x o o x o
o o o o o o o o
x x x o
x o o o o o
x o o o x o o o
o o o x o o o o
0.4 o o o 0.4 o o o
oo o oo o
o o o o
x o o x o o
o o o o
−1
−1
o o o o
oo o o oo x oo o o oo o
o o o o
0.2 x o 0.2 o o
x x o x
o o o o
o o
x o
0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8
X1 X1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 265 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 266 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
D’autres méthodes utilisent le “un contre un” conduisant à Par ailleurs, la régression ridge ajoute au scr une fonction de pénalité :
q(q − 1)/2 classifieurs. Ensuite un vote ou un DAG (Directed Acyclic X n 2
Graph) permet de prendre la décision finale. Il est également possible min p yi − (a0 + a> x) + λkak2
a0 ,a∈R
d’apprendre de façon jointe q classifieurs [Weston et al., 1999]. i=1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 267 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 268 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
50
0 si |y − f (x)| <
` (f (x), y ) =
|y − f (x)| − sinon
40
perte avec tolérance de epsilon (l_epsilon)
30
On peut interpréter ` de la façon suivante :
I On tolère des erreurs d’ajustement jusqu’à une quantité .
20
I Au delà de le poids d’une erreur est linéaire et non quadratique.
I ` est plus robuste vis à vis du bruit.
Les svm pour la régression combinent ` (f (x), y ) et la fonction de
10
pénalité quadratique :
0
n
X
min c ` (f (xi ), yi ) + kak2 −6 −4 −2 0
y−f(x) (résidu)
2 4 6
a0 ,a∈Rp
i=1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 269 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 270 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 273 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 274 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
1.0
> res_svm_lin=svm(y~x,data=data.frame(x,y),kernel="linear",cost=10,epsilon=eps,type="eps-regression")
> res_svm_pol=svm(y~x,data=data.frame(x,y),kernel="polynomial",degree=2,cost=10,epsilon=eps,type="eps-regression")
> res_svm_rbf=svm(y~x,data=data.frame(x,y),kernel="radial",gamma=2,cost=10,epsilon=eps,type="eps-regression") MCO
0.5
> data.frame(res_svm_lin$index,res_svm_lin$coefs,x[res_svm_lin$index],y[res_svm_lin$index])
SVM lin + eps
res_svm_lin.index res_svm_lin.coefs x.res_svm_lin.index. y.res_svm_lin.index.
1 1 10.00000 -1.4733525 0.1362840 SVM lin − eps
0.0
3 3 10.00000 0.4577512 0.9431111
y
4 4 -10.00000 2.5648452 -0.8626718
5 6 -3.08357 2.5031562 -0.7718411
6 7 -10.00000 2.7939771 -0.9898869
−0.5
−2 −1 0 1 2 3
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 275 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique
x M2 DM 2018/2019 276 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les machines à vecteurs supports (“Support Vector Machines”)
1.0
à des modèles non linéaires dans X.
Formellement, les svm appliquées au problème de régression MCO
SVM lin
0.5
consistent à résoudre le problème suivant :
SVM pol 2
max − 12 ni=1 nj=1 (αi+ − αi− )(αj+ − αj− )K (xi , xj )
P P
SVM rbf 2
α+ ,α− ∈Rn
− ni=1 (αi+ + αi− ) − ni=1 yi (αi+ − αi− )
0.0
P P
y
slc ∀i, 0 ≤ αi+ ≤ c
−
∀i,
Pn0 ≤ α+i ≤ c−
−0.5
i=1 (αi − αi ) = 0
La fonction de prédiction est alors :
−1.0
X n
ˆ
f (x) = âsvm,0 + (α̂i+ − α̂i− )K (xi , x) −2 −1 0 1 2 3
x
i=1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 277 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 278 / 358
Les machines à vecteurs supports (“Support Vector Machines”) Les arbres de décisions (“Decision Trees”)
MCO
SVM lin
2 Les méthodes linéaires et leurs pénalisations (ridge, lasso, ...)
0.5
SVM pol 2
−2 −1 0 1 2 3
x
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 279 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 280 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
Un arbre décisionnel est une structure hiérarchique qui peut être f m , la fonction de discrimination du nœud m est une fonction
représenté par un graphe dont les nœuds représentent des simple. Mais, l’ensemble des fonctions f m de chaque nœud de l’arbre
sous-espaces de X. tout entier aboutit à une fonction de décision complexe.
La racine contient tout X tandis que les feuilles des régions unitaires. Les méthodes de cette famille se distinguent selon :
Entre la racine et les feuilles, les nœuds intermédiaires représentent I Le type de fonction f m choisi pour discriminer un ensemble de points.
0
des régions emboı̂tées : X = X1 ⊕ . . . ⊕ Xm ⊕ . . . ⊕ Xp avec p 0 ≤ p I Le type de critère permettant d’évaluer la qualité d’une fonction de
et chaque Xm peut être à nouveau décomposé en sous-régions. . . discrimination.
A chaque nœud m est associé une région Xm ⊂ X et une fonction A chaque feuille de l’arbre est associée un élément de Y :
de décision dénotée f m qui prend en entrée un élément x ∈ Xm et I Pour un problème de catégorisation il s’agit donc d’une classe.
0 Pour un problème de régression il s’agit donc d’un réel.
qui donne en sortie un sous-espace Xm ⊂ Xm . I
Les arbres décisionnels sont considérées comme des méthodes non Chaque feuille correspond à une région de X et tout x appartenant à
paramétriques dans la mesure où : une même feuille a le même élément de Y associé à la feuille.
I Aucune hypothèse sur la distribution de probabilités des classes. Comme pour les svm nous traiterons d’abord le problème de
I La structure de l’arbre n’est pas donnée à l’avance : on ajoute nœuds, catégorisation puis celui de régression.
arcs et feuilles, en fonction des données à l’étude.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 281 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 282 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
X = R+2 X X = R+2 X
y y
o x o x x ≤ x0 x > x0
o x x o x x
o o o x x o o o x x
x x x x x
x x x x x x
o x o x
x x
x0
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 283 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 284 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
X = R+2 X X = R+2 X
y y
o x x ≤ x0 x > x0 o x x ≤ x0 x > x0
o x x o x x
o o o o o o
y1 x x y1 x x
x x x x x x
x y > y1 y ≤ y1 x y > y1 y ≤ y1
x x x x
y2
o x o x
x o x o
y ≤ y2 y > y2
x0 x0
o x
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 285 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 286 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
Arbre de décision (ad) pour la catégorisation Arbre de décision (ad) pour la catégorisation (suite)
On considère Y = {C1 , . . . , Cq } comme un ensemble discret. On parle
alors d’arbre de classification. L’apprentissage (“tree induction”) consiste à construire un ad étant
Par contre X peut être hétérogène (càd mélange de variables donné E.
continues et discrètes). Il existe de très nombreux arbres permettant de découper l’espace X
Nous traiterons essentiellement des méthodes univariées càd à de sorte à n’avoir aucune erreur.
chaque nœud m on utilise une seule variable X j ∈ A pour définir f m . Si on applique le principe du rasoir d’Occam, on cherche l’ad
Si X j est discrète avec qj catégories {X j,1 , . . . , X j,qj } alors : d’erreur nulle qui est le plus petit en termes de nombre de nœuds.
∀x ∈ X, f m (x) ∈ {X j,1 , . . . , X j,qj } Ce problème est NP-complet, on a donc recourt à des
heuristiques :
Il s’agit dans ce cas d’une séparation ou division en qj régions. I On part de X tout entier : ce nœud représente la racine.
Si X j est continue alors : I Pour chaque nœud m on détermine la fonction f m permettant
∀x ∈ X, f m (x) ∈ {X j,l , X j,r } d’optimiser localement un critère.
I La fonction f m permet alors de séparer l’espace en plusieurs régions
où X j,l = {x ∈ X : xj ≤ δj } et X j,r = {x ∈ X : xj > δj } et δj ∈ R est (arcs) et chacune d’entre elles représente un nouveau nœud.
une valeur permettant de faire une séparation adéquate. Il s’agit dans I On ajoute nœuds et arcs jusqu’à satisfaire un critère d’arrêt.
ce cas d’une division en 2 régions (séparation binaire de l’espace).
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 287 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 288 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
Arbre de décision (ad) pour la catégorisation (suite) Arbre de décision (ad) pour la catégorisation (suite)
La mesure de qualité d’une division en plusieurs branches est relative Pour mesurer la pureté d’une séparation, nous utiliserons la méthode
au concept d’impureté. classique proposée par [Quinlan, 1986] qui est basée sur l’entropie :
Une séparation f m est pure si chacune des branches conduit à des q
X
m
nœuds dont les éléments sont tous de la même catégorie. ent(p ) = − P(Cl |X , m) log2 (P(Cl |X , m))
Dénotons par Nm le nombre d’éléments du nœud m. Pour la racine l=1
q
on a donc Nm = n. X
= − plm log2 (plm )
Parmi les éléments du nœud m, dénotons par Nm l le nombre de ceux
l=1
appartenant à la classe Cl . On a alors :
où par convention 0 log2 (0) = 0.
Nm
P(Cl |X , m) = lm L’entropie correspond intuitivement à la quantité d’information
N contenue ou délivrée par une source d’information.
Le nœud m est pur si ∃Cl ∈ Y : P(Cl |X , m) = 1. Ainsi, f m est Dans le cas binaire, si p1m = 1 et p2m = 0 : il faut 0 bit pour
pure si pour tous les nœuds qu’elle engendre, ceux-ci sont purs. transmettre l’information.
Pour alléger les formules nous utiliserons la notations suivante : Si p1m = p2m = 1/2 alors la quantité d’information est maximale : il
P(Cl |X , m) = plm faut 1 bit (1 pour la classe C1 et 0 pour la classe C2 ) pour
transmettre l’information.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 289 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 290 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
Arbre de décision (ad) pour la catégorisation (suite) Arbre de décision (ad) pour la catégorisation (suite)
D’autres mesures h permettant d’évaluer l’impureté d’une division Si un nœud m n’est pas pur alors l’objectif est de séparer le
existent. Dans le cas binaire q = 2, ces critères doivent vérifier : sous-ensemble de ce nœud de sorte à réduire les impuretés.
I ∀p ∈ [0, 1] : h(1/2, 1/2) ≥ h(p)h(1 − p).
I h(0, 1) = h(1, 0) = 0.
Comme on cherche l’ad le plus petit, intuitivement, on choisit
I h(p, 1 − p) est % par rapport à p sur [0, 1/2] et & sur [1/2, 0]. localement la séparation qui réduit le plus l’impureté.
Des exemples classiques sont donc l’entropie (ent), l’indice de Gini Supposons qu’au nœud m, il y a Nm k objets qui suivent la branche k.
(gini) et l’erreur de classification (cerr ) : Il s’agit des objets x tel que f (x) = X j,k où X j est la variable ayant
m
Arbre de décision (ad) pour la catégorisation (suite) Arbre de décision (ad) pour la catégorisation (suite)
Pour alléger les formules notons :
L’ad se construit de façon récursive : à chaque nœud on cherche
P(Cl |X , m, X j,k
)= m
pkl localement la variable X j minimisant l’impureté d’une nouvelle
division et ce jusqu’à ce que l’on obtienne une séparation pure.
L’impureté totale issue de la division engendrée par X j est : Il existe un biais à cette approche : les variables qualitatives ayant
qj q beaucoup de catégories donnent une plus faible entropie.
m j
X Nm X k m m
ent(p , X ) = − pkl log2 (pkl ) I Nous pouvons alors décider de nous restreindre à des ad binaires càd
Nm chaque division est composée de deux branches. Mais dans le cas d’une
k=1 l=1
variable qualitative à qj catégories, il existe 2qj −1 − 1 possibilités et
A chaque nœud on détermine X j qui minimise ent(p m , X j ). dans le cas général, si qj est grand le problème devient exponentiel.
Si X j est qualitative, les séparations sont données par les différentes I En revanche, pour un problème de catégorisation binaire ({C1 , C2 }), on
catégories {X j,1 , . . . , X j,qj }. peut ordonner les catégories de X j dans l’ordre décroissant de pk1 m
et
traiter ensuite cet ordre telle une variable ordonnées avec cette fois-ci
Si X j est quantitative, il faut en plus déterminer δj donnant la uniquement qj − 1 possibilités de séparation.
meilleure division {X j,l , X j,r }. A la base il y a Nm − 1 possibilités. Le I Dans ce cas on préfèrera un ad binaire puisque celui-ci peut retrouver
meilleur point de division est toujours entre deux objets adjacents de l’ad avec plusieurs branches si ce cas était le meilleur.
classes distinctes.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 293 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 294 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
Arbre de décision (ad) pour la catégorisation (suite) Arbre de décision (ad) pour la catégorisation (suite)
Un autre problème survient si le critère d’arrêt est l’obtention de θ peut-être vu comme un paramètre de la complexité de l’ad
feuilles toutes pures (càd on s’arrête une fois que tous les nœud similaire au k du k-ppv dans le contexte des méthodes non
terminaux obtenus n’ont qu’une seule classe représentée). Dans ce paramétriques.
cas, on risque (i) d’avoir un ad trop grand et (ii) de faire du Si θ est petit, la variance est large alors que l’ad est grand de sorte à
sur-apprentissage. reproduire les données d’entraı̂nement de façon précise.
Pour remédier à ce problème, on se donne un seuil θ ∈ [0, 1] en Si θ est grand, la variance est plus faible et l’arbitrage biais-variance
dessous duquel on estime que la pureté obtenue est suffisante. nous indique que le biais risque en revanche d’être plus grand.
Dans la suite nous utiliserons les notations suivantes :
Ainsi la condition d’arrêt de l’apprentissage est que pour tout nœud I X est la matrice initiale des données avec n objets {X1 , . . . , Xn } et p
final m : ent(m) ≤ θ. attributs {X 1 , . . . , X p }.
Chaque feuille m est alors associée à la classe la plus représentative I Xm est la matrice des données relatives au nœud m qui comporte Nm
càd la classe Cl tel que ∀l 0 6= l : plm ≥ plm0 . objets et les p attributs. Il s’agit d’une sous-matrice de X.
I On remarquera qu’un nœud fils comporte un sous-ensemble des objets
Dans certaines applications, on représente chaque feuille m par la
de son nœud parent.
distribution de probabilités (p1m , . . . , pqm ). Par exemple si on souhaite I L’algorithme qui suit synthétise différentes évolutions des ad (CART
calculer un risque associé aux catégorisations données par l’ad. [Breiman et al., 1984], ID3[Quinlan, 1986], C4.5[Quinlan, 1993]).
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 295 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 296 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
Fonction : DivisionAttribut
Fonction : ArbreGeneration Input : Xm
Input : Xm , θ 1 MinE ← +∞
1 Si ent(p m ) ≤ θ faire 2 Pour tout Attribut X j de {X 1 , . . . , X p } faire
2 Créer une feuille et l’étiqueter avec la classe majoritaire 3 Si X j est qualitative avec qj catégories faire
3 Retour 4 E ← ent(p m , X j )
4 Fin Si 5 Si E < MinE faire MinE ← E , j ∗ ← j Fin Si
5 j ∗ ← DivisionAttribut(Xm ) 6 Sinon (X j est quantitative)
6 Initialiser un sous-arbre S 7 Pour toute Séparation en {X j,l , X j,r } possibles faire
∗ ∗
7 Pour toute Branche m0 dans {X j ,1 , . . . , X j ,qj } faire 8 E ← ent(p m , {X j,l , X j,r })
0
8 Déterminer Xm 9 Si E < MinE faire MinE ← E , j ∗ ← j Fin Si
0
9 S 0 ← ArbreGeneration(Xm , θ) 10 Fin Pour
10 Ajouter S 0 à une branche de S 11 Fin Si
11 Fin Pour 12 Fin Pour
13 Output : j ∗
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 297 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 298 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
> res_dt=rpart(c~.,data=XX)
> res_dt
n= 100
0.8
[1] 0.01
0.0 0.2 0.4 0.6 0.8 1.0
X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 299 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 300 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
1.0
1.0
0.8
0.8
0.6
0.6
X^2
X^2
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
X^1 X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 301 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 302 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
1.0
> res_dt=rpart(c~.,data=XX)
> res_dt
0.8
n= 99
0.6
* denotes terminal node
X^2
0.4
1) root 99 66 1 (0.3333333 0.3333333 0.3333333)
2) X2< 0.5467184 66 33 1 (0.5000000 0.5000000 0.0000000)
4) X1< 0.4895161 33 0 1 (1.0000000 0.0000000 0.0000000) * 0.2
5) X1>=0.4895161 33 0 2 (0.0000000 1.0000000 0.0000000) *
3) X2>=0.5467184 33 0 3 (0.0000000 0.0000000 1.0000000) *
0.0
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 303 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 304 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
1.0
On considère maintenant Y = R. On parle alors d’arbre de
régression.
X peut toujours être hétérogène (càd mélange de variables continues
0.8
et discrètes).
Ce qui change par rapport aux arbres de classification c’est la fonction
0.6
ind(x, m) =
0.0 0.2 0.4 0.6 0.8 1.0 0 sinon
X^1
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 305 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 306 / 358
Les arbres de décisions (“Decision Trees”) Les arbres de décisions (“Decision Trees”)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 313 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 314 / 358
Décider en comité (“Ensemble Learning”) Introduction Décider en comité (“Ensemble Learning”) Introduction
Un jury doit décider collectivement sur une question dont les réponses Ce résultat peut s’appliquer aux problèmes d’apprentissage
sont 0 ou 1. automatique et donne l’intuition de base de nombreuses méthodes
d’ensemble :
Supposons que la bonne réponse soit 1, qu’un votant quelconque a I Supposons que pour un problème de catégorisation binaire, nous
une probabilité p de donner la bonne réponse et que chaque votant disposons de plusieurs classifieurs indépendants les uns des autres et
est indépendant des autres. que chacun d’entre eux possède un taux d’erreur inférieur à 50%
Le mode de scrutin est le vote majoritaire. (“weak classifier”).
Quel serait le nombre de votants N qu’il faudrait faire participer au
I Alors, un vote majoritaire de ces classifieurs donnerait (selon le
théorème du jury de Condorcet) un taux d’erreur collectif plus petit
jury pour avoir une grande probabilité P que la majorité donne la
que les taux d’erreurs individuels.
bonne réponse 1 ?
Dans le cas d’un problème de régression, nous pouvons intuitivement
Tout dépend de p :
transposer ce raisonnement en prenant une moyenne (ou une
I Si p > 1/2 alors ajouter des votants dans le jury permet d’augmenter
la probabilité P que la décision majoritaire soit 1. De plus, si p > 1/2 tendance centrale) de plusieurs régresseurs.
alors P → 1 lorsque N → ∞. Remarquons qu’il existe cependant deux limites à ce résultat :
I Si p ≤ 1/2 alors ajouter des votants dans le jury fait décroı̂tre P et I L’hypothèse que les votants sont mutuellement indépendants.
dans ce cas le jury optimal est composé d’un seul individu (N = 1). I Le résultat concerne une décision entre uniquement deux alternatives.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 315 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 316 / 358
Décider en comité (“Ensemble Learning”) Introduction Décider en comité (“Ensemble Learning”) Introduction
“Wisdom of the crowd ! But what crowd ?” Différents ingrédients d’une méthode d’ensemble
Le principe sous-jacent au théorème du jury de Condorcet a été vérifié
dans d’autres contextes : la réponse collective de plusieurs individus On peut identifier différents éléments des méthodes d’ensemble
amateurs peut être meilleure que celle d’un seul expert. (permettant notamment de faire la distinction entre elles)
J.M. Surowiecki, Phd et journaliste économiste, a écrit en 2004 un [Rokach, 2010] :
livre célèbre “The Wisdom of Crowds : Why the Many Are Smarter I Un ensemble d’entraı̂nement E = {(xi , yi )}.
Than the Few and How Collective Wisdom Shapes Business, I Un (ou plusieurs) modèle d’apprentissage de base permettant d’obtenir
Economies, Societies and Nations”. des fonctions de prédiction fˆ étant donné un ensemble d’entraı̂nement
et une (ou plusieurs) méthode d’inférence (le cas échéant).
Cependant, pas toute foule est sage : les bulles spéculatives par I Un générateur de diversité permettant d’obtenir des fonctions de
exemple (“mais pourquoi tu cours ... ben parce que tu cours !”). prédictions diverses.
Selon Surowiecki, une foule est sage si elle vérifie les principes de : I Un mécanisme d’agrégation permettant de combiner les résultats
I diversité : les opinions doivent être diverses ; donnés par différentes fonctions de prédiction en un seul.
I indépendance : une opinion ne doit pas dépendre d’autres opinions ;
I décentralisation : une opinion ne doit pas être soumise à une autorité Ces différents ingrédients font écho aux différents principes cités
supérieure ; précédemment.
I agrégation : les opinions individuelles peuvent être agrégées en une
opinion collective.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 317 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 318 / 358
Décider en comité (“Ensemble Learning”) Introduction Décider en comité (“Ensemble Learning”) Introduction
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 321 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 322 / 358
Décider en comité (“Ensemble Learning”) Bagging Décider en comité (“Ensemble Learning”) Bagging
Méthode proposée par Breiman [Breiman, 1996] en 1996. Notons fˆE une fonction de prédiction inférée d’un ensemble
Le bagging consiste à : d’entraı̂nement E = {(xi , yi )}i=1,...,n dont les éléments sont des
1 créer plusieurs échantillons bootstrap à partir de E, réalisations i.i.d. d’une loi jointe inconnue P(X , Y ) où Y ∈ R.
2 inférer une fonction de prédiction d’un même modèle d’apprentissage Dans ce cas, la fonction de prédiction du bagging est :
de base sur chaque échantillon bootstrap, fˆbag (x) = EE (fˆE (x))
3 agréger les prédictions données par chaque fonction :
F par un vote majoritaire si c’est un problème de catégorisation, Soit (x, y ) un couple quelconque donné, l’espérance de l’erreur
F par une moyenne si c’est un problème de régression. quadratique sous E de fˆE pour ce couple vaut :
h i2 h i2
La méthode d’apprentissage de base utilisée en 2 doit être de forte EE y − fE (x)ˆ 2 ˆ
= y − 2y EE (fE (x)) + EE fE (x) ˆ
variance : un “petit” changement de l’ensemble d’apprentissage doit
générer un “grand” changement dans la fonction de prédiction estimée Comme toute v.a. Z , E(Z 2 ) ≥ (E(Z ))2 , on voit alors que
h pour
(sinon manque de diversité et le bagging n’apporte pas grand chose). i2
EE fˆE (x) ≥ (EE (fˆE (x)))2 et donc :
Le modèle utilisé est ainsi en général les arbres décisionnels. Mais
d’autres techniques reposant sur des familles hypothèses complexes h i2
tels que les réseaux de neuronnes peuvent être utilisées. ˆ
EE y − fE (x) ≥ (y − EE (fˆE (x)))2
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 323 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 324 / 358
Décider en comité (“Ensemble Learning”) Bagging Décider en comité (“Ensemble Learning”) Bagging
Analyse théorique du bagging en régression (suite) Analyse théorique du bagging en régression (suite)
Supposons désormais que nous raisonnons avec un couple aléatoire
(X , Y ) de loi P(X , Y ). L’inégalité précédente conduit à la relation : Le gain potentiel que l’on peut obtenir avec le bagging dépend de
h i2 l’écart entre ces deux éléments :
EX ,Y EE Y − fˆE (X ) ≥ EX ,Y (Y − EE (fˆE (X )))2
2
EE [fE (x)] ≥ (EE (fE (x)))2
Ceci est équivalent à :
Si la variance de fE (x) est très forte cela veut dire que
h i2 EE [fE (x)]2 − (EE (fE (x)))2 est grand et donc le gain est important.
Y − fˆE (X ) ˆE (X )))2
EE EX ,Y ≥ EX ,Y (Y − E E ( f
| {z } On voit donc qu’il est préférable d’utiliser une méthode de base de
fˆbag (X ) forte variance afin d’espérer observer une amélioration forte due au
L’espérance de la perte quadratique de fˆbag est plus petite que bagging.
l’espérance sous E de l’espérance de la perte quadratique de fˆE . On remarquera
que si la variance est nulle alors
2
Ce résultat montre que la moyenne de plusieurs fonctions de EE [fE (x)] = (EE (fE (x)))2 et l’inégalité du slide précédent devient
prédiction apprises sur différents échantillons fait en moyenne moins également une égalité (pas de gain).
d’erreur qu’une seule fonction de prédiction apprise sur un échantillon.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 325 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 326 / 358
Décider en comité (“Ensemble Learning”) Bagging Décider en comité (“Ensemble Learning”) Bagging
Analyse théorique du bagging en catégorisation (suite) Analyse théorique du bagging en catégorisation (suite)
Décider en comité (“Ensemble Learning”) Bagging Décider en comité (“Ensemble Learning”) Bagging
Analyse théorique du bagging en catégorisation (suite) Analyse théorique du bagging en catégorisation (suite)
On dit que fbag est “order-correct” pour x si [Breiman, 1996] : Dans l’expression précédente, c’est bien le fait d’avoir
arg max Pbs (Y |X ) = arg max P(Y |X ) (fbag “order-correct”) qui
fbag (x) = arg max P(Cl 0 |x)
Cl 0 ∈Y permet d’atteindre le résultat optimal et non pas nécessairement le
fait d’avoir Pbs (Y |X ) = P(Y |X ).
Si fbag est “order-correct” pour x alors :
En effet, si fbag est “order-correct” pour tout x ∈ X alors
acc(fbag ) = acc(f ∗ ) (mais plus facile à dire qu’à faire !).
X
ind(fbag (x) = Cl )P(Cl |x) = max P(Cl 0 |x)
Cl 0 ∈Y
Cl ∈Y Un bon classifieur bagging est donc celui qui est “order-correct” pour
Soit alors C l’ensemble des x pour lesquel fbag est “order-correct” et |C| grand par rapport à |C|.
notons C son complémentaire. Nous avons alors : Ce résultat permet aussi de montrer que, contrairement au problème
Z de régression, des classifieurs bootstrap {fˆEj }j=1,...,k peu performants
acc(fbag ) = max P(Cl 0 |x)P(x)dx donneront un classifieur bagging d’encore moins bonne qualité.
x∈C Cl 0 ∈Y Par ailleurs, ici aussi, la forte variance de la méthode d’apprentissage
Z X de base est requise : si les {fˆEj }j=1,...,k sont quasi-identiques alors C
+ ind(fbag (x) = Cl )P(Cl |x) P(x)dx est stable et pas d’amélioration due au bagging alors que si
x∈C Cl ∈Y {fˆEj }j=1,...,k sont variables on aura tendance à augmenter C.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 331 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 332 / 358
Décider en comité (“Ensemble Learning”) Les forêts aléatoires (“random forest”) Décider en comité (“Ensemble Learning”) Les forêts aléatoires (“random forest”)
Décider en comité (“Ensemble Learning”) Les forêts aléatoires (“random forest”) Décider en comité (“Ensemble Learning”) Les forêts aléatoires (“random forest”)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 335 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 336 / 358
Décider en comité (“Ensemble Learning”) Les forêts aléatoires (“random forest”) Décider en comité (“Ensemble Learning”) Les forêts aléatoires (“random forest”)
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 337 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 338 / 358
Décider en comité (“Ensemble Learning”) Les forêts aléatoires (“random forest”) Décider en comité (“Ensemble Learning”) Boosting
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 339 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 340 / 358
Décider en comité (“Ensemble Learning”) Boosting Décider en comité (“Ensemble Learning”) Boosting
Boosting AdaBoost
Vers la fin des années 80, Kearns et Valiant pose le “hypothesis AdaBoost est une méthode de boosting proposée par Freund et
boosting problem” dans le cadre de l’apprentissage PAC : Schapire 5 en 1996 [Freund et al., 1996].
“this problem asks whether an efficient learning algorithm (in the
C’est un algorithme itératif et à chaque itération, une nouvelle
distribution-free model of Valiant) that outputs an hypothesis whose
fonction de prédiction est estimée mais de façon a palier aux erreurs
performance is only slightly better than random guessing implies the
des fonctions de prédictions précédentes.
existence of an efficient algorithm that outputs an hypothesis of
Comme les forêts aléatoires, l’algorithme repose sur :
arbitrary accuracy ”.
I un échantillonage des données de E,
Schapire en 90 [Schapire, 1990] répond positivement au problème I un modèle de base simple pour éviter le sur-apprentissage.
posé. Les méthodes dites de boosting se développent alors et elles
Comme précédemment, les ad sont souvent utilisés avec le boosting.
visent à construire à partir de prédicteurs individuels “faible” (“weak
learner”), un prédicteur collectif “fort” (“strong learner”). Mais contrairement aux forêts aléatoires :
I adaboost combine séquentiellement les fonctions de prédiction et non
Un weak learner peut être vu comme un prédicteur faiblement corrélé
a posteriori comme pour les fôrets aléatoires,
à la variable cible Y tandis qu’un strong learner est un prédicteur I adaboost modifie à chaque itération la distribution de probabilités sur
arbitrairement fortement corrélé à Y (càd qu’on peut le construire de E pour le rééchantillonnage.
façon a produire des prédictions de plus en plus corrélées avec Y ).
5. Prix Gödel 2003
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 341 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 342 / 358
Décider en comité (“Ensemble Learning”) Boosting Décider en comité (“Ensemble Learning”) Boosting
Ci-dessous on présente adaboost pour la catégorisation binaire. On 14 Normaliser wt+1 en calculant wt+1 = wt+1 /z t
suppose Y = {−1, 1} et le weak learner f : X → {−1, 1}. 15 Fin Pour
16 Output : {fˆt , αt }t=1,...,T
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 343 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 344 / 358
Décider en comité (“Ensemble Learning”) Boosting Décider en comité (“Ensemble Learning”) Boosting
Décider en comité (“Ensemble Learning”) Boosting Décider en comité (“Ensemble Learning”) Boosting
adaboost nécessite un weak learner càd qu’il se base sur une classe Théorème.
d’hypothèses H à fort biais, dont le taux d’erreur est à peine inférieur L’erreur d’entraı̂nement est bornée supérieurement comme suit :
à celui d’un classifieur aléatoire.
T
Si H est trop complexe alors err (fˆt ) est faible et l’échantillonnage 1 X ˆ
Y
ind(fab (xi ) 6= yi ) ≤ zt
suivant basé sur wt+1 contiendra peu d’objets (càd peu d’objets n
i:xi ∈E t=1
auront de forte probabilité) et qui sont du bruit (ces objets sont
essentiellement du bruit). C’est pour cela que le classifieur de base adaboost peut-être vue comme la minimisation de la borne supérieure
doit être faible. de l’erreur empirique [Schapire and Singer, 1999].
En pratique, on utilise des arbres de décisions basés sur une (voire Les z t étant positifs on peut minimiser T
Q t t
t=1 z en minimisant z à
deux) variables. H est donc à forte variance mais également à fort chaque itération t. Remarquons que :
biais. On parle de “decision stump”. X X
zt = wit+1 = wit exp(−αt yi fˆt (xi ))
i i
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 347 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 348 / 358
Décider en comité (“Ensemble Learning”) Boosting Décider en comité (“Ensemble Learning”) Boosting
AdaBoost “binaire” (optimisation de la borne supérieure) AdaBoost “binaire” (optimisation de la borne supérieure)
Nous pouvons aussi optimiser z t comme fonction ˆt ) (erreur
de err ˆt
(f
Nous pouvons optimiser z t comme fonction de αt : pondérée). A l’optimum on sait que αt = 21 log 1−errˆ(tf ) . Si on
err (f )
injecte cette relation dans z t il vient :
∂z t X
=0 ⇔ − wit yi fˆt (xi ) exp(−αt yi fˆt (xi )) = 0 X
∂αt zt = wit exp(−αt yi fˆt (xi ))
i
X X i
⇔ − wit exp(−αt ) + wit exp(αt ) = 0 X X
= wit exp(−αt ) + wit exp(αt )
i:fˆt (xi )=yi i:fˆt (xi )6=yi
i:fˆt (xi )=yi i:fˆt (xi )6=yi
⇔ − exp(−αt )(1 − err (fˆt )) + exp(αt )err (fˆt ) = 0
! = exp(−αt )(1 − err (fˆt )) + exp(αt )err (fˆt )
1 1 − err (fˆt ) q
⇔ αt = log = 2 err (fˆt )(1 − err (fˆt ))
2 err (fˆt )
1.0
Ceci justifie la valeur de αt donnée dans l’algorithme. On voit alors qu’il faut choisir à chaque t, fˆt
0.8
0.6
2 err(1−err)
qui minimise
0.4
err (fˆt ) = ni=1 wit ind(fˆt (xi ) 6= yi ).
0.2
P
0.0
0.0 0.2 0.4 0.6 0.8 1.0
err
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 349 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 350 / 358
Décider en comité (“Ensemble Learning”) Boosting Décider en comité (“Ensemble Learning”) Boosting
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 353 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 354 / 358
Décider en comité (“Ensemble Learning”) Boosting Décider en comité (“Ensemble Learning”) Boosting
Friedman, J., Hastie, T., and Tibshirani, R. (2010). Leskovec, J., Rajaraman, A., and Ullman, J. D. (2014).
Regularization paths for generalized linear models via coordinate descent. Mining of massive datasets.
Journal of statistical software, 33(1) :1. Cambridge University Press.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 355 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 356 / 358
Décider en comité (“Ensemble Learning”) Boosting Décider en comité (“Ensemble Learning”) Boosting
Rokach, L. (2010).
Ensemble-based classifiers.
Artificial Intelligence Review, 33(1-2) :1–39. Weston, J., Watkins, C., et al. (1999).
Schapire, R. E. (1990). Support vector machines for multi-class pattern recognition.
In ESANN, volume 99, pages 219–224.
The strength of weak learnability.
Machine learning, 5(2) :197–227. Zhou, G., Zhang, J., Su, J., Shen, D., and Tan, C. (2004).
Schapire, R. E. and Singer, Y. (1999). Recognizing names in biomedical texts : a machine learning approach.
Bioinformatics, 20(7) :1178–1190.
Improved boosting algorithms using confidence-rated predictions.
Machine learning, 37(3) :297–336. Zou, H. and Hastie, T. (2005).
Sun, Y., Deng, H., and Han, J. (2012). Regularization and variable selection via the elastic net.
Journal of the Royal Statistical Society : Series B (Statistical Methodology), 67(2) :301–320.
Probabilistic models for text mining.
In Mining text data, pages 259–295. Springer.
Valiant, L. G. (1984).
A theory of the learnable.
Communications of the ACM, 27(11) :1134–1142.
Vapnik, V. N. (1995).
The nature of statistical learning theory.
Springer-Verlag New York, Inc., New York, NY, USA.
J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 357 / 358 J. Ah-Pine (Univ-Lyon 2) Apprentissage automatique M2 DM 2018/2019 358 / 358