Documente Academic
Documente Profesional
Documente Cultură
Aurélien Garivier
aurelien.garivier@gmail.com
12 et 13 juin 2013
Qu’est-ce que l’apprentissage supervisé ? Présentation de la problématique
Roadmap
1 Qu’est-ce que l’apprentissage supervisé ?
Présentation de la problématique
Les règles de classification/régression
La méthodes des k plus proches voisins
2 Choix de modèle et fléau de la dimension
3 Régression logistique
4 Arbres de décision
5 Réseaux de neurones
6 Agrégation de modèles
Super-learning
Bagging, Boosting, Random Forest
7 Support Vector Machines
8 Compléments
Qu’est-ce que l’apprentissage supervisé ? Présentation de la problématique
Data Mining
Comment trouver un diamant dans un tas de
charbon sans se salir les mains
Qu’est-ce que l’apprentissage supervisé ? Présentation de la problématique
1 Apprentissage supervisé :
A partir
d’un échantillon d’apprentissage
Dn = (x1 , y1 ), . . . , (xn , yn ) , inférer la relation entre x et y.
Synonymes : discrimination, reconnaissance de formes
Voc : xi = caractéristique = feature = variable explicative
3 Apprentissage séquentiel :
A chaque date n, prendre une décision à l’aide des données passées.
Qu’est-ce que l’apprentissage supervisé ? Présentation de la problématique
Différentes approches :
Détecteur de spam
Risque de crédit
Prédiction des pics d’ozone
Aide au diagnostic médical (ex : Breast Cancer)
Aide au pilotage
Moteurs de recommandation, apprentissage sur les graphes
etc. . .
Qu’est-ce que l’apprentissage supervisé ? Présentation de la problématique
Algorithme de d’apprentissage
●
● ● ● ●
● ● ● ●
● ● ●
● ●
15 ●
●●
● ● ●
●
● ●
● ●
●
● ● ●● ● ● ● ● ● ● ● ● ● ●
● ●●●
● ●
●●●● ● ●● ● ●● ● ●●
●● ● ● ●
●
●
●● ● ● ● ●●
● ● ●
●
● ● ● ● ●● ● ●
●● ●●●● ● ● ● ●● ● ● ●●●●● ● ●●● ● ●
● ●● ●●● ●●●● ●
● ●●
●●●
● ●● ●●●●
●● ●
●
●
● ●●●● ●●
●● ● ● ●●● ●
● ●● ●● ●● ●
●● ● ● ● ● ● ● ●
● ● ● ●●●● ● ● ●●● ●● ●● ●● ● ● ● ● ● ●
● ●
●●● ●● ●● ● ●●● ●●● ●● ●● ●
●●
●
●● ● ●● ● ●● ●● ● ●
● ●
● ● ● ● ●
● ●
●● ●
● ●● ● ● ● ● ● ●●
● ●
● ●
● ● ● ●
● ● ● ● ●
● ●
● ● ● ● ● ●
●● ●●
●●●● ● ●
● ● ●● ● ●● ●
●
●
●●●● ● ● ●
●● ●
● ●● ●
● ● ● ●
●
education.num
● ● ● ● ● ● ● ● ●
●● ●● ● ●● ● ●
●● ●
●● ● ●●● ●●● ●●●● ●● ● ● ● ● ● ●
10
●●
● ● ●●● ● ●●● ● ● ●●●●● ●● ● ●●● ●●
●●
● ● ● ●● ●
● ● ● ●●● ●●●
● ●●●●●● ● ● ●●●● ● ● ●●●●● ● ●●
● ●● ● ●
●●●● ●●
●● ●
● ●●●
● ●●
●● ●●
●● ●
● ● ●● ● ●● ● ●● ● ● ●
●●●
●
●● ● ●●
● ●● ● ● ● ●
●●●● ●●
●
●
●●
● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●
● ● ● ● ●
● ● ● ●● ● ●
●●●
●● ● ●
●● ●●
●
●● ●● ●●
●● ●
●●● ●
● ● ●
● ●
●● ● ●
● ● ●
● ● ● ● ● ● ●
●●● ●● ● ● ● ●● ●
●● ● ● ●
● ● ●●● ● ●
●● ● ●
● ● ● ● ● ● ● ●● ● ● ● ●
● ● ● ●●●
●●
● ●●
● ●● ●● ●●
●●●
●
●● ●●●●● ●●
●
● ●●
●
● ●●●●●● ●
●●●● ●●
●
●● ● ● ●●● ● ●●
● ● ●● ●●● ● ● ●●
●
●●
●● ●● ● ● ● ●
●●●
●●
●● ●
●
● ●●● ●●●
●
● ● ●●●● ●●
● ●●
●●
●● ●●●●●
●●
●●
●
● ●● ●
● ●● ●●
● ●● ● ●● ●● ● ● ●●● ●
●
●
●
● ● ●
●● ● ●●
● ● ●
●
●
● ●● ● ● ●● ● ● ● ●●●●
● ●● ● ●●
●●● ●
● ● ● ● ● ● ● ● ● ●
●
●
● ● ●
●
● ● ●
●
● ●
●
●
●●●● ● ●● ●
●● ● ● ● ● ● ● ● ● ●
●●●
● ● ●
●● ●
●●● ●● ● ● ● ●
●
●●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ●
●
● ●● ● ●
●
●●
5
● ●
● ● ●
●
●
● ● ● ●
● ● ●
● ● ● ● ● ●
● ●
●
● ● ●
● ●
● ● ●● ●
●
● ●
● ● ● ●
● ●
20 40 60 80
age
Qu’est-ce que l’apprentissage supervisé ? Présentation de la problématique
1.0
●
●
0.8
●
●
●
●
●
●
●
●
●
● ●
0.6
● ●
● ●
shell.weight
● ● ● ●
●
●
● ● ●
●
●
● ●
● ● ● ●● ●● ●
● ● ● ●
● ● ● ●● ●●●● ●
● ●●
●●●
● ●●● ● ●
● ● ● ●
●●●●●●● ● ● ●
0.4
●● ● ●● ●
●●●● ●
● ● ● ●●
●● ●
● ● ●● ● ● ●● ●●
●●●●●
●
●● ● ●●
● ●
●● ●●● ●●●●● ● ●
● ●●●
●● ● ● ●●
● ●● ●●
● ● ●
●●●●
● ●●●● ●
●●
●● ●●●
● ● ●
●●● ● ●● ●●
●●
●●
●●
●● ●● ●
●
●●●
●● ● ● ●
●●●
●●● ●●
●
●●●
● ● ●
● ● ●
● ●
●●●● ●●
● ●● ●●●●
●●
●
●● ●
● ●
●● ●●●
●● ●●
● ●●●●
● ● ●● ●
● ●● ●●● ●● ●
●● ●●●●
●● ●● ●● ●●●
● ● ● ●●
●●●
●
●
●
●●● ● ●
● ●
●●●●●●●
●● ●●●●
● ●●
●●
●●●●● ●
● ●
●●●●●●
●●
●●●●● ●● ●
●●
●●● ●●
● ● ●● ●●
●● ●
●● ●
● ●●● ●●●●●●
● ● ●● ●●
0.2
● ●●● ●●●
●● ●●●●
●●● ●
●● ●●
● ● ●●
● ●
● ●●● ●●●
●●
● ●
● ● ●●● ● ●
●●●●●●
● ●●●● ●
●
●● ● ●
●● ●
●●●●
●●●●●●
●● ●●●● ●
● ●
● ●●
● ●●●●●
●●
●
●●
●●
●●
●●●
●●●●● ● ●
● ●●
●●●●●●● ●
●●
●●●●
●●● ●●
●●
●●
●●● ●● ●
●●● ●●
●● ●● ●● ●●
● ●●●●●
●●● ●●●
● ●
● ● ●●●●●
●
● ●●
●
●●
●● ●●●
●●●●
●● ●●●
●● ●●●●
●● ●● ●
●
●
● ● ●● ●●
●● ●●
●● ●
●
●●● ●
●●●●●●
●●
●
●●●●● ●
●●●
● ●●
●
●● ●●●
●●
●
●●● ●●●
●●●●● ●
●● ● ●●
●
● ●●
●● ●●●●
●● ●
●●●●●
●●●●●●●●●
0.0
● ●● ●●●
● ●●● ●●
diameter
Stratégie du Data-Mining
Apprentissage statistique
Stratégie du Data-Mining
Apprentissage statistique
Stratégie du Data-Mining
Apprentissage statistique
Stratégie du Data-Mining
Apprentissage statistique
Stratégie du Data-Mining
Apprentissage statistique
Qu’est-ce que l’apprentissage supervisé ? Présentation de la problématique
Bibliographie - Ressources
Pattern Classification (2001) - Wiley Interscience, R. Duda, P.
Hart, D. Stork
http://wikistat.fr/
Logiciels
Référence :
http://cran.r-project.org/
The R Project for Statistical Computing
Avantages : libre, ouvert, bien documenté, à la pointe de la
recherche
Inconvénients : pas ‘presse-bouton’, syntaxe, pas très rapide
(MAIS extensions en C possibles !)
Aide en ligne + google indispensables : logiciel vivant !
Alternatives :
Tous les Data Managers s’y mettent (SAS, Oracle, IBM
Dataminer...)
Quelques outils dédiés faciles à utiliser, par exemple See5/C5.0
http://www.rulequest.com/see5-info.html
Qu’est-ce que l’apprentissage supervisé ? Les règles de classification/régression
Roadmap
1 Qu’est-ce que l’apprentissage supervisé ?
Présentation de la problématique
Les règles de classification/régression
La méthodes des k plus proches voisins
2 Choix de modèle et fléau de la dimension
3 Régression logistique
4 Arbres de décision
5 Réseaux de neurones
6 Agrégation de modèles
Super-learning
Bagging, Boosting, Random Forest
7 Support Vector Machines
8 Compléments
Qu’est-ce que l’apprentissage supervisé ? Les règles de classification/régression
Classification multi-classe
Pour certaines règles de classification, extension possible
directement (exemple : kNN, régression logistique).
Sinon, deux possibilités de se ramener à la classification
binaire :
OvA (One vs. All) Pour chaque classe, construire un
classifieur pour discriminer entre cette classe et
tout le reste.
Défaut : classes souvent très déséquilibrées (à
prendre en compte)
AvA (All vs. All) Pour chaque paire de classes
(C1 , C2 ), construire un classifieur pour
discriminer entre c1 et C2 .
A priori, ≈ n2 /2 classifieurs MAIS classifs entre
paires plus rapides ET classes équilibrées =⇒
souvent plus rapide.
Puis Error-Correcting Output Codes, typiquement : vote
majoritaire
Qu’est-ce que l’apprentissage supervisé ? Les règles de classification/régression
Théorème :
La meilleure règle possible est la règle de Bayes :
en classification : avec Y = {0, 1} et
η(x) = P (Y = 1|X = x) :
f ∗ (x) = E[Y |X = x] .
Données simulées
Exemple : salaires
salaire (bleu: >=50K$, rouge: <50k$) données simulées (bleu: >=50K$, rouge: <50k$)
● ●
● ●●
● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ●
15
● ●● ● ● ● ●●
● ● ● ●
●
15
●●
● ● ● ●
● ● ● ● ● ●
● ● ●
●
● ● ● ● ● ● ● ●
● ●● ● ● ●● ● ●● ● ●● ● ● ● ● ● ●
● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●
● ● ● ● ● ●
●
● ●●
●
● ●
●●●● ● ●● ● ●● ● ●●
●● ● ● ●
●
●
●
●
●
● ●●
●
●● ● ● ● ●● ● ●
● ● ● ● ● ● ●
● ●
●
●●● ● ●● ● ●● ● ● ●●
●
● ● ● ● ●
● ● ● ●● ● ● ●● ●
● ● ● ●● ● ● ● ● ● ●● ● ●●● ●●● ● ● ● ●●● ● ● ●● ● ● ●
● ● ● ●● ● ● ● ●● ● ● ●●
● ●
●● ● ●● ●● ●
●●
● ● ●
●●●●● ●
●●●● ● ●● ● ●
● ● ●●● ●
●●● ●● ●
●
● ●● ● ●
●● ●●● ● ● ●●●●● ● ●●
● ● ● ●● ● ●
●
● ● ● ● ● ● ● ● ●
● ● ● ●● ●
● ●● ●●● ●●●● ●
● ●
●●
●●
● ●● ●
●●●
●● ●
●
●
● ●●● ● ●●
●● ● ● ●●● ●●
●●●● ●● ●● ● ● ● ● ● ● ● ● ●● ● ●
● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ●●● ● ● ● ●●● ●● ●● ●● ● ● ● ● ● ● ●
● ●
●●● ●● ●● ● ●●● ● ●● ●● ●● ●
●●
● ● ● ●
●
● ● ● ● ●●
● ●● ● ●
●
● ●
● ●
● ●
● ●
● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●● ● ● ●
● ●●● ● ● ● ● ● ●
● ●● ● ● ● ● ● ●●● ●
● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ●● ● ● ●●
●● ● ● ● ●● ● ●
● ● ● ● ● ● ●
●
● ●● ●●● ● ●
● ●● ● ● ● ●●
● ● ● ● ● ● ●
●
●● ●● ● ● ● ● ●● ● ●● ● ●● ● ●● ● ●
● ●
●
● ● ●● ● ●
● ● ●●●●● ● ●
●●● ● ●● ● ● ● ●●● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ● ●●● ●● ●
education.num
education.num
● ● ● ● ● ● ●
10
● ● ● ● ● ●●●
●● ● ●●● ●● ● ● ●● ● ●● ● ● ● ●● ● ●
● ● ●
● ●● ●● ● ● ●● ● ● ● ●● ● ● ●●●● ●● ● ●
●● ●
●● ● ● ●●● ●●●●
●●
●
●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●
● ● ● ● ●● ●● ●● ● ●● ● ● ●●●●●●● ●● ●● ● ●
● ●●● ● ● ● ●
10
●●
● ● ●●
● ● ● ●●● ●●●● ●
●
●●●●●● ●● ●●● ●● ● ●●● ● ●
●●
● ●●● ●● ● ●● ● ● ●●●●● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ●
● ● ●●● ● ● ●●●● ● ● ●● ●
●● ●● ● ● ●●●● ●● ● ●●
● ● ●● ●
● ●
●●●● ●●
●● ●
● ●●●
● ●●
●●●● ●●
●● ●
● ● ●● ● ●● ● ●● ● ● ●
●●●
●
●● ● ●●
● ●● ● ● ● ● ●
● ● ● ● ● ● ● ●●
●●●● ●●
●
● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●
●
●
● ● ● ●● ● ●
● ● ●● ●
● ● ● ● ● ● ●
● ● ●●
●
●●
●●
●●● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●
● ● ● ●●
●
● ●
● ●● ● ●●●● ●● ● ● ●● ●● ● ●● ● ●● ● ● ●
● ● ● ●● ●●● ● ● ● ●
●
●●
●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ● ●●●● ● ●● ● ● ● ●● ● ●●● ●●
● ●●
●●
● ● ●●● ●● ●
● ●● ●● ●
●●●●
● ● ● ●● ● ● ● ● ●
●●●●●
● ● ● ●●●●●●● ●● ●●
●●●●●
● ●●●● ●● ●●●●●
● ●●●
● ●●
●●●●● ● ● ●
● ● ●●
● ● ●
●
● ●
● ●●●●●●●
● ●●●●
●●● ●
●●
●●●● ●●●●●
●●●● ●●●
●● ● ●● ● ●● ●●
● ●● ● ● ●●● ● ● ● ●●
●● ●● ● ●●●● ●●●
● ● ● ● ● ●
● ● ●● ● ●● ●
●●● ●●●● ●● ● ●● ● ●
●● ●
●●●● ● ●● ● ●●● ●
● ● ●● ●
●
●●● ● ●
●●● ● ● ● ●
●●●●●
●●● ● ● ● ● ●
● ● ●●
●● ● ● ●● ●● ●● ●●●
●● ● ● ●●●
● ●
● ●●●● ●● ● ●
●
● ● ●●● ●● ●
●
●● ●
● ● ●● ● ● ● ● ●
●●●●
●●
●● ●
●
●
● ●●● ●● ● ●●
● ●
● ●●●●
●
●●●●●●● ●●●●
● ●
●●●●●●
●●
●●
●●●●● ●● ●
● ●● ●● ●●
●● ● ● ●● ●● ● ●●
●● ● ●●●●
● ● ●
●
●●●●●
● ● ●● ● ●
●● ● ●
●
● ●●
● ●
●
●
● ●● ● ● ●● ● ● ● ●●● ●
● ●● ● ●● ● ●● ●●●●●●●● ● ●●● ● ● ● ● ● ●● ● ● ● ●
●
●
● ● ● ● ● ● ● ● ● ●
●
●
● ● ●
● ● ● ● ●● ● ●
● ● ●
● ● ● ● ● ●
● ● ●● ● ●
● ● ● ●
●
●
●●●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●
●●●● ● ● ●● ● ● ● ● ● ● ●
●● ●●
●
● ● ● ● ●
● ● ●
●●
●●● ●● ● ● ● ● ● ●
● ●
●● ●●●● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ● ● ●
●
●
●● ● ●
5
● ● ● ● ● ● ● ●
●● ● ●
5
● ●● ●● ● ●
● ● ● ● ●
● ●
● ● ●
● ● ● ● ● ● ● ●● ● ●
● ● ● ● ● ●
● ● ● ● ● ●
●
●
● ● ● ● ● ● ●● ●
● ● ●
● ●
● ● ● ● ● ●
● ● ● ●
● ● ●● ●
●
● ● ●
● ● ● ●
● ●
● ● ●
● ● ●
20 40 60 80 20 30 40 50 60 70 80
age age
Qu’est-ce que l’apprentissage supervisé ? Les règles de classification/régression
Roadmap
1 Qu’est-ce que l’apprentissage supervisé ?
Présentation de la problématique
Les règles de classification/régression
La méthodes des k plus proches voisins
2 Choix de modèle et fléau de la dimension
3 Régression logistique
4 Arbres de décision
5 Réseaux de neurones
6 Agrégation de modèles
Super-learning
Bagging, Boosting, Random Forest
7 Support Vector Machines
8 Compléments
Qu’est-ce que l’apprentissage supervisé ? La méthodes des k plus proches voisins
Définition
régression :
k
1X
fn (x) = y(j)
k
j=1
Qu’est-ce que l’apprentissage supervisé ? La méthodes des k plus proches voisins
Propriétés de k-NN
Qualités :
simplicité
interprétabilité ( ?)
pas de consistance (quel que soit k)
MAIS asymptotiquement erreur au plus 2x supérieure à la
règle de Bayes.
possibilité de faire croı̂tre k avec n, consistance (théorique)
par exemple pour k = log(n)
Paramétrage :
quelle métrique sur X ?
=⇒ au minimum, normaliser les variables (pb pour les qualitatives)
Quelle valeur de k choisir ?
Qu’est-ce que l’apprentissage supervisé ? La méthodes des k plus proches voisins
Qualités de kNN
Sur-apprentissage
Qu’est-ce que l’apprentissage supervisé ? La méthodes des k plus proches voisins
Sur-apprentissage
On dit qu’une règle de classification est en sur-apprentissage
si elle “colle trop” aux données d’entraı̂nement.
Le sur-apprentissage apparaı̂t facilement dans les modèles
complexes, quand on cherche à apprendre trop de choses par
rapport à la richesse des données disponibles.
L’inverse du sur-apprentissage est le “sous-apprentissage”
(pas une notion aussi claire) : il consiste à utiliser un modèle
trop grossier.
Le sur-apprentissage est plus trompeur, car l’ajustement aux
données d’entraı̂nement paraı̂t très bon !
Erreur d’apprentissage faible, ex : R2 en ajustement linéaire.
Beaucoup de méthodes d’apprentissage font intervenir un ou
plusieurs paramètres. Suivant la valeur de celui-ci, on peut
tomber dans le sur-apprentissage : il faut ajuster les
paramètres pour l’éviter.
Qu’est-ce que l’apprentissage supervisé ? La méthodes des k plus proches voisins
Equilibre biais-variance
Décomposition biais-variance
risque = (variabilité +) approximation + estimation
Validation croisée
Pour ajuster les paramètres, il existe
des méthodes structurelles (ex : critères AIC, BIC, etc.) ;
des méthodes de validation sur les données (ex : échantillon de
test, validation croisée).
Méthode 0 : découpage train/test
Inconvénient : on apprend sur peu de données
Solution très souvent adoptée : validation croisée
Choix de modèle et fléau de la dimension
Dans [0, 1]d , combien de points doit contenir une grille régulière
pour que tout point ait un voisin de la grille au plus à distance 0.1 ?
d = 1 : 5 points 0.1 0.3 0.5 0.7 0.9
1.0
● ● ● ● ● ● ●
0.8
● ● ● ● ● ● ●
● ● ● ● ● ● ●
0.6
d = 2 : 49 points ● ● ● ● ● ● ●
0.4
● ● ● ● ● ● ●
0.2
● ● ● ● ● ● ●
● ● ● ● ● ● ●
0.0
0.0 0.2 0.4 0.6 0.8 1.0
d = 10 : 976562500000 points
d = 20 : 976562500000000000000000000 points
Choix de modèle et fléau de la dimension
Introduction
Odds
Modèle binomial
Choix de modèle
Régression logistique
Introduction
Régression logistique
Odds
Régression logistique
Modélisation d’une variable qualitative à 2 modalités
Plusieurs possibilités :
probit : g est la fonction inverse de la fonction de répartition d’une
loi normale, mais son expression n’est pas explicite.
log-log : g(π) = ln[− ln(1 − π)], mais cette fonction est
dissymétrique.
π ex
logit : g(π) = logit(π) = ln avec g −1 (x) = .
1−π 1 + ex
1 − πX
Régression logistique
Interprétation des coefficients
Régression logistique
Significativité des coefficients
H0 : βi = 0.
Régression logistique
Modèle binomial
P LAN D ’ EXPÉRIENCE
Pour i ∈ {1, · · · , I}, on effectue ni mesures de la variable Y .
yi désigne le nombre de réalisations Y = 1.
On suppose que πi est la probabilité de succès de Y sachant que
les x 1 , · · · , x p appartiennent au goupe i
Régression logistique
Modèle binomial
logit(πi ) = x0i β ou πi = , i = 1, . . . , I.
1 + exi β
0
La log-vraisemblance s’écrit
yi
L(β) = ΠIi=1 Cnyi g −1 (x0i β) (1 − g −1 (x0i β))ni −yi .
β est estimé par maximisation de la log-vraisemblance. Il n’y a
pas de solution analytique, celle-ci est obtenue par des méthodes
numériques itératives (algorithme de Newton Raphson).
L’optimisation fournit une estimation b de β. On peut alors en
déduire les estimations ou prévisions des probabilités πi et celles
des effectifs
exi b
0
bi =
π et ybi = ni π
bi .
1 + e xi b
0
Régression logistique
Modèle binomial
R EMARQUES
Régression logistique
Choix de modèle - Recherche pas à pas
Régression logistique
Choix de modèle - Recherche pas à pas
Les logiciels calculent en plus l’AIC pour finaliser le choix pour une
meilleure qualité prédictive.
Régression logistique
Régression logistique
Interprétabilité : NON
Critique : OUI ! (très utilisé pour le scoring)
Consistance : NON (sauf si le modèle est exact)
Minimax : NON
Parameter-free : OUI
Vitesse : OUI
Online : possible
Régression logistique
Introduction
Construction d’un arbre binaire
I Principe
I Critère de division
I Règle d’arrêt
I Affectation
Critères d’homogénéité
I Y quantitative
I Y qualitative
Élagage
I Construction de la séquence d’arbres
I Recherche de l’arbre optimal
Arbres binaires
Introduction
Arbres binaires
Introduction
Arbres binaires
Introduction
Avantages / Inconvénients
La méthode CART (Classification And Regression Tree) fournit
des solutions sous formes graphiques simples à interpréter.
Arbres binaires
Construction d’un arbre binaire
Un noeud est défini par le choix conjoint d’une variable parmi les
explicatives et d’une division qui induit une partition en deux
classes.
Arbres binaires
Construction d’un arbre binaire
C RITÈRE DE DIVISION
Arbres binaires
Construction d’un arbre binaire
Arbres binaires
Construction d’un arbre binaire
C RITÈRE DE DIVISION
Arbres binaires
Construction d’un arbre binaire
Arbres binaires
Construction d’un arbre binaire
R ÈGLE D ’ ARRÊT
Arbres binaires
Construction d’un arbre binaire
A FFECTATION
Une fois les critères d’arrêt atteints, il faut affecter une valeur à chaque
feuille.
Arbres binaires
Critère d’homogénéité - Cas quantitatif
nj nj
2 X
X X
2
bj =
Dj par D (yij − y.j ) et b=
D par D (yij − y.j )2 .
i=1 j=1 i=1
Arbres binaires
Critère d’homogénéité - Cas qualitatif
Arbres binaires
Critère d’homogénéité - Cas qualitatif
Arbres binaires
Critère d’homogénéité - Cas qualitatif
E NTROPIE
et
2 X
X m
b = −2 nlk nlk
D par D n+k log .
n+k n+k
k =1 l=1
Arbres binaires
Critère d’homogénéité - Cas qualitatif
C RITÈRE DE G INI
X
Le critère de Gini du noeud k est défini par Dk = plk phk avec
l6=h
X nlk nhk
bk =
l, h = 1, . . . , m et est estimé par D .
n+k n+k
l6=h
1
Le désordre Dk est maximal si plk = ; l’échantillon présente
m
autant d’éléments de chaque modalité.
Arbres binaires
Critère d’homogénéité - Cas qualitatif
C RITÈRE DE G INI
b − n+1 D
b =D
∆ b 1 − n+2 D
b 2.
n n
Arbres binaires
Elagage
Principe
Construire une suite emboîtée de sous-arbres de l’arbre
maximum par élagage successif.
Choisir, parmi cette suite, l’arbre optimal au sens d’un critère.
Arbres binaires
Elagage
Arbres binaires
Elagage
C(A) = D(A) + γK .
Arbres binaires
Elagage
Par conséquent,
D(N ) − D(AN )
C(A0 ) ≥ C(A) ⇐⇒ γ ≤ = α.
|AN | − 1
Amax = AK ⊃ AK −1 ⊃ . . . ⊃ A1
Arbres binaires
Elagage
Arbres binaires
Elagage
Une estimation sans biais est obtenue par l’utilisation d’un autre
échantillon (validation) ou encore par validation croisée.
Arbres binaires
Elagage
Arbres binaires
Arbres de décision
Interprétabilité : OUI !
Consistance : OUI (sous certaines réserves) MAIS instable !
Minimax : NON !
Parameter-free : NON
Vitesse : OUI
Online : NON
Réseaux de neurones
Réseau mono-couche
Src : http://insanedev.co.uk/open-cranium/
Réseaux de neurones
Réseau mono-couche
Réseau mono-couche
Src : http://www.makhfi.com
Présentation
Réseaux de neurones
Présentation
Réseaux de neurones
Fonction de transition
Réseaux de neurones
Architecture du perceptron
y = φ(x 1 , · · · , x p , β) où β = (βj,k ,l ),
Réseaux de neurones
Apprentissage du perceptron
Réseaux de neurones
Apprentissage du perceptron
∂Q
∆bjkl (i) = −τ jkl (i) (b) + αbjkl (i − 1).
∂bjkl
Réseaux de neurones
Apprentissage du perceptron
Réseaux de neurones
Algorithme de rétropropagation du gradient
Initialisation
I Les poids βj,k ,l par tirage aléatoire selon une loi uniforme sur [0; 1].
I Normalisation dans [0; 1] des données d’apprentissage.
I Fin du Pour
Fin du Tant que
Réseaux de neurones
Utilisation du perceptron multicouches
Réseaux de neurones
Utilisation du perceptron multicouches
Réseaux de neurones
Utilisation du perceptron multicouches
Réseaux de neurones
Inconvénients / Avantages de cette méthode
Inconvénients :
I Temps de calcul important.
I Taille de l’échantillon.
I Aspect boîte noire : impossible de connaître l’influence effective
d’une entrée (variable) sur le système dès qu’une couche cachée
intervient.
I Minimum local de Q.
Avantages :
I Applications aux situations non linéaires.
I Pondération d’interactions possibles.
Réseaux de neurones
Réseaux de neurones
Interprétabilité : NON !
Critique : NON
Consistance : NON (mais bonne approximation)
Minimax : NON
Parameter-free : NON
Vitesse : NON
Online : OUI
Agrégation de modèles Super-learning
Roadmap
1 Qu’est-ce que l’apprentissage supervisé ?
Présentation de la problématique
Les règles de classification/régression
La méthodes des k plus proches voisins
2 Choix de modèle et fléau de la dimension
3 Régression logistique
4 Arbres de décision
5 Réseaux de neurones
6 Agrégation de modèles
Super-learning
Bagging, Boosting, Random Forest
7 Support Vector Machines
8 Compléments
Agrégation de modèles Super-learning
Super-learning
On cherche à prédire
séquentiellement un phénomène
(cours de bourse, charge
d’électricité, météo)
On n’utilise aucun modèle
(probabiliste ou autre) sur le
phénomène
On s’appuie sur des experts plus
ou moins fiables
On cherche à faire (au moins)
aussi bien que le meilleur expert
Agrégation de modèles Super-learning
Cadre mathématique
Observations y1 , y2 , . . . ∈ Y - on note yt = (ys )s≤t
Stratégie randomisée
Stratégie randomisée :
On définit le regret :
Références
log(N ) M 2 β
E [Rn (p̂)] ≤ + n
β 8
p
En particulier, pour β = 1/M 8 log(N )/n, on obtient :
r
n
E [Rn (p̂)] ≤ M log N
2
Extensions
Objectif : prédire, jour après jour, les hauteurs des pics d’ozone du
lendemain (ou les concentrations horaires, heure après heure)
Résultats
Gestion de portefeuilles
[Cover ’91] Universal Portfolios
[Györfi & Urban & Vajda ’07] Kernel-based semi-log-optimal
portfolio selection strategies
Roadmap
1 Qu’est-ce que l’apprentissage supervisé ?
Présentation de la problématique
Les règles de classification/régression
La méthodes des k plus proches voisins
2 Choix de modèle et fléau de la dimension
3 Régression logistique
4 Arbres de décision
5 Réseaux de neurones
6 Agrégation de modèles
Super-learning
Bagging, Boosting, Random Forest
7 Support Vector Machines
8 Compléments
P LAN
Introduction
Familles de modèles aléatoires
I Bagging
I Forêts aléatoires
Familles de modèles adaptatifs
I Principes du Boosting
I Algorithme de base
I Pour la régression
I Modèle additif pas à pas
I Régression et boosting
I Compléments
Agrégation de modèles
Introduction
Considérons B échantillons indépendants notés zb=1,...,B et
construisons une agrégation de modèles :
B
b 1 Xb
Si Y est quantitative : φB (.) = φzb (.).
B
i=1
Moyenne des résultats obtenus pour les modèles associés à
chaque échantillon. n o
Si Y est qualitative : φbB (.) = argmax card b ; φbz (.) = j . b
j
Comité de modèles constituer pour voter et élire la réponse la
plus probable.
Agrégation de modèles
Familles de modèles aléatoires - Bagging
Algorithme
Soit x0 à prévoir.
Soit z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon.
Pour b = 1, . . . , B
I Tirer un échantillon bootstrap z∗b .
I Estimer φbzb (x0 ) sur l’échantillon bootstrap.
B
1 Xb
Calculer l’estimation φbB (x0 ) = φzb (x0 ) ou le résultat du vote.
B
b=1
Agrégation de modèles
Familles de modèles aléatoires - Bagging
U TILISATION
Agrégation de modèles
Familles de modèles aléatoires - Bagging
U TILISATION
Agrégation de modèles
Familles de modèles aléatoires - Bagging
U TILISATION
Agrégation de modèles
Familles de modèles aléatoires - Bagging
U TILISATION
Avantages / Inconvénients :
Agrégation de modèles
Familles de modèles aléatoires - Forêts aléatoires
Agrégation de modèles
Familles de modèles aléatoires - Forêts aléatoires
Algorithme
Pour b = 1, . . . , B
I Tirer un échantillon bootstrap z∗b .
I Estimer un arbre sur cet échantillon avec randomnisation des
variables : la recherche de chaque noeud optimal est précédé d’un
tirage aléatoire d’un sous-ensemble de q prédicteurs.
B
b 1 Xb
Calculer l’estimation φB (x0 ) = φzb (x0 ) ou le résultat du vote.
B
b=1
Agrégation de modèles
Familles de modèles aléatoires - Forêts aléatoires
É LAGAGE
La stratégie d’élagage peut, dans le cas des forêts aléatoires, être plus
élémentaire qu’avec le bagging en se limitant à des arbres de taille q
relativement réduite voire même triviale q ≈ 2.
Agrégation de modèles
Familles de modèles aléatoires - Forêts aléatoires
É LAGAGE
Agrégation de modèles
Familles de modèles aléatoires - Forêts aléatoires
I NTERPRÉTATION
Comme pour tout modèle construit par agrégation, il n’y a pas
d’interprétation directe.
I NTERPRÉTATION
Agrégation de modèles
Familles de modèles aléatoires - Forêts aléatoires
I NTERPRÉTATION
I Dans le cas contraire, c-à-d si une des classes est moins fréquente
et plus difficile à discriminer, le 3ème critère présente un avantage :
il donne une certaine importance aux variables qui sont
nécessaires à la discrimination d’une classe difficile alors que
celles-ci sont négligées par les 2 autres critères.
Agrégation de modèles
Familles de modèles adaptatifs - Boosting
Idée : Cet algorithme concentre ses efforts sur les observations les
plus difficiles à ajuster et l’agrégation de l’ensemble des modèles
permet d’échapper au sur-ajustement.
Agrégation de modèles
Familles de modèles adaptatifs - Boosting
Agrégation de modèles
Familles de modèles adaptatifs - Boosting
A LGORITHME DE BASE
Adaboost discret : Version originale du boosting pour un problème de
discrimination élémentaire à deux classes en notant δ la fonction de
discrimination à valeurs dans {−1, 1}.
Algorithme
Soient x0 à prévoir et z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon.
Initialiser les poids ω = {ωi = 1/n; i = 1, . . . , n}.
Pour m = 1, . . . , M
I Estimer δm sur l’échantillon pondéré par ω.
I Calculer le taux d’erreur apparent
Pn
ωi 1Iδ (x )6=y
EP = i=1Pn m i i .
b
i=1 ωi
R ÉGRESSION
Soit x0 à prévoir et z = {(x1 , y1 ), . . . , (xn , yn )} un échantillon.
Initialiser p par la distribution uniforme
p = (pi = 1/n; i = 1, . . . , n) .
Pour m = 1 à M
I Tirer avec remise dans z un échantillon z∗m suivant p.
I Estimer φbm sur l’échantillon initial z avec Q fonction de perte :
m
X
lm (i) = Q yi , φbm (xi , Lm = sup lm (i), b
m = pi lm (i),
i=1,···n i=1
1−lm (i)/Lm c
m
ωi = βm pi où .βm =
Lm − b m
ωi
I Calculer les nouvelles probabilités : pi := Pn .
i=1 ωi
b 0 ) moyenne ou médiane des prévisions φbm (x0 )
Calculer φ(x
1
pondérées par des coefficients log .
βm
Agrégation de modèles
Familles de modèles adaptatifs - Boosting
R ÉGRESSION
Sur-ajustement :
I Le nombre d’itérations peut être contrôlé par un échantillon de
validation. Comme pour d’autres méthodes (perceptron), il suffit
d’arrêter la procédure lorsque l’erreur estimée sur cet échantillon
arrive à se dégrader.
Instabilité :
I Les modèles construits à base d’arbres sont très instables : une
légère modification des données est susceptible d’engendrer de
grandes modifications dans les paramètres (les seuils et feuilles) du
modèle. C’est justement cette propriété qui rend cette technique
très appropriée à une amélioration par agrégation.
Agrégation de modèles
Conclusions
Interprétabilité :
I L’interprétabilité des arbres de décision sont une des raisons de
leur succès. Cette propriété est évidemment perdue par
l’agrégation d’arbres ou de tout autre modèle. Néanmoins, surtout
si le nombre de variables est très grand, il est important d’avoir une
indication de l’importance relative des variables entrant dans la
modélisation.
Agrégation de modèles
Agrégation de modèles Bagging, Boosting, Random Forest
Interprétabilité : NON !
Critique : NON
Consistance : NON (mais empiriquement efficace)
Minimax : NON
Parameter-free : NON
Vitesse : NON
Online : OUI
Plan
Introduction
Fondements mathématiques
◮ Problème d’apprentissage.
◮ Cas linéaire. Maximisation de la marge.
◮ Cas linéaire. Marges larges relaxées.
◮ De la linéarité à la non-linéarité : Fonction noyau et Condition de
Mercer.
Conclusion
Support Vecteurs Machine
Introduction
LE CAS XOR
Le cas XOR {(0, 0); (0, 1); (1, 0), (1, 1)} n’est pas linéairement
séparable, si on place les points dans un plan à dimension 2.
< w, x > +b = 0
yf (x) > 0.
X n
1
L(w, b, λ) = ||w||2 − λi [yi (< w, xi > +b) − 1] .
2
i=1
Ce point-selle vérifie
En calculant les dérivées partielles du lagrangien, avec les λ∗i non nuls
seulement pour les points supports, on obtient :
n
X n
X
w∗ = λ∗i yi xi et λ∗i yi = 0.
i=1 i=1
lagrangien
n
X n
1X
W (λ) = λi − λi λj yi yj < xi , xj > .
2
i=1 i,j=1
avec
1
b∗ = − [< w∗ , svclass+1 > + < w∗ , svclass−1 >] .
2
Remarques :
k (x, y) = Φ(x).Φ(y).
Remarques :
Ces conditions ne donnent pas d’indication pour la construction
des noyaux.
Elles ne permettent pas de savoir comment est Φ.
En pratique, on combine des noyaux simples pour en obtenir des
plus complexes.
Linéaire
k (x, y) =< x, y > .
Polynômial
Gaussien
2 /σ 2
k (x, y) = e−||x−y|| .
Laplacien
2
k (x, y) = e−||x−y||1 /σ .
Interprétabilité : NON !
Critique : possible
Consistance : OUI
Minimax : possible
Parameter-free : NON !
Vitesse : NON
Online : NON
Compléments
Big Data
Big Data = données massives, grand défi de la décennie 2010-2020 :
Big Science : environnement, physique, génomique, épidémiologie...
Technologies de l’information : réseaux de capteurs, internet...
Ce qui change :
Volume : p grandit avec n
régression en grande dimension, sparsité
tests multiples (faux positifs), matrices aléatoires
Vitesse
parallélisation massive, paradigme “map-reduce”
traitement décentralisé avec coût de communication élevé
nécessité de spécifier niveau de confiance, diagnostic du modèle
Variabilité
dérive temporelle, détection de ruptures, robustesse
lois de Pareto (cf Zipf, langages naturels, etc.)
problème du transfert, apprentissage supervisé faible
aspect séquentiel, boucle fermée
Compléments