Documente Academic
Documente Profesional
Documente Cultură
2
Plan
Plandu
ducours
coursDESS-GLA
DESS-GLA2001/2002
2001/2002etetModalité
Modalité
Contenu de ce cours:
• Une introduction à diverses méthodes et techniques
d’apprentissage automatique et des systèmes adaptatifs
• La fouille de données:
» Rappel base et entrepôts de données (ODBC, OLAP).
» L’analyse de données
» Le processus de la fouille de données
» Algorithmes pour la fouille de données et environnements
Modalité du module
– 14 séances Cours-TP-TP-TD Mardi Matin (9h30-12h30)
– Enseignants: V. Corruble, J-D. Zucker
– 1 mini-projet (apprentissage par renforcement) + 1 DataMining.
I. L’apprentissage: généralités
Votre
Votredéfinition:
définition:
I.1 Définition
reproduit
vivipare mange possède
viande bec
mange possède mange
herbe écaille graines
Raisons pratiques/économiques:
Découvrir de nouvelles K, de nouveaux motifs, des régularités
(le Data Mining, Web Mining, Text Mining )
• Raisons scientifiques/théoriques
– Mieux comprendre l’apprentissage humain
• Raisons historiques/expérimentales
– La quantité d’information: WWW, Entrepots de données (Data Warehouse), etc.
10
• On-line Behaviour
– Where are they now?
– What are they reading?
– Where did they come from?
• Historical Behaviour
– What did they buy last time?
– Where do they spend most of their time?
– How long do they stay?
• Customer Identity
– Are they male or female?
– What are their interests?
• When visitors use one site area or service, what else will they be interested in?
12
I.5 Enjeux pour l’e-commerce: bénéfices
Technique Advantage Benefit
Discover major paths through your Improve effectiveness of web site
Path Analysis web site, those that lead to sales and design, measure the impact of
what drives web site performance. creatives (e.g. animated pictures)
Discover where your best customers Assess success of advertising and
Referral Analysis
are coming from. affiliations with other web sites
Recommend the mix of products,
Discover which products are bought
Shopping Basket Analysis services and offers that customers are
together or in sequence
most likely to buy - increase sales.
Predict who is most likely to respond
Improve response to campaings -
Marketing Campaign Analysis to different marketing programs,
increase sales.
measure campaing response.
Gain deeper understanding of
Identify customers who exhibit similar
customers, develop personalised
Curstomer Profiling and Segmentation behaviours and have similar needs or
offers and campaigns - maximise your
preferences.
marketing ROI.
Develop targeted customer retention
Predict customers who are most likely
Churn Modeling and loyalty programs - reduce
to leave.
customer attrition.
Understand customer lifetime value
LifeTime Value Modeling Maximise customer profitability
and profitability.
© J-D. ZUCKER LIP6
13
14
Méthodes d’apprentissage
16
Apprentissage inductif
Mangeable ?
Etat
Observation Reinf
Action
18
Connaissances
Apprises ou Révisées
Apprentissage
Fonctionnalités
Environnement
20
• Une tâche T
– Apprendre un concept, des règles, une grammaire, ...
• T: Jouer au dames
22
Superposé II.1
24
1. La tâche ne doit pas être déterministe. Des problèmes qui ont des
solutions ou des petits espaces de recherche(s) sont inintéressants !
26
Caractéristiques Ci: RN=roi noirs, RR=roi rouge, DN=dames noires, DR=dames rouges, PNM=pieces
noires menacées , PRM=pieces rouges menacées
28
• Evaluation xpérimentale
– tests (benchmarks),
• Evaluation théorique
– complexité des algorithmes,
I. L’apprentissage: généralités
30
Environnement
Récompense Perception
Action
✓Agent autonome
✓Apprentissage en ligne
✓Apprentissage modifie l'env.
✓Monde peut être non déterministe © J-D. ZUCKER LIP6
31
≠ Apprentissage supervisé:
un professeur dit la bonne action à prendre en Si
32
✓ Point communs:
✓ intéractions, sous-buts, incertitude de l'environnement.
✓ l'expérience permet d'apprendre...
© J-D. ZUCKER LIP6
34
0 1 1 0
.......
Bandit 1 Bandit 2 Bandit 3 Bandit k
Il y a k machines à sous
Chacune donne 0 ou 1 avec une loi de probabilité cachée
On peut jouer h coups.
Comment choisir les machines pour optimiser le gain?
Soit
• Un TicTacToe à 9 cases
• Comment apprendre à évaluer une position ?
Apprentissage Supervisé:
• Un ensemble de couple (positions notes): , 10
36
π
B) Apprendre Q la fonction d'utilité liée aux actions (Q-learning)
Choisir l'action a qui maximise Q(Si,a):
l'utilité supposée de l'action a dans l'état Si
Requiert un modèle limité de l'environnement: on n'a besoin que de mesurer la valeur d'une
action et non l'état résultant de l'action (pas de look-ahead) (exemple: attraper une plume,
blitz)
38
r(s,a)
r(s,a)récompense
récompenseimmédiate
immédiate(inconnue
(inconnueau
audépart)
départ)
0 100
But
0 0
0 0
0 0 100
0 0
0 0
Critères de gains
➤ Horizon fini k
∑ r = r + r +...+r
t =0
t 0 1 k
∑ t 0 1 2 r3 +...
γ t
t =0
r = r + γr + γ 2
r + γ 3
➤ En moyenne
1 k
lim ∑ rt
k →∞ k
t =0
40
+2
6 16.0 2
+10
0 59.0 10
+11
0 58.4 11
Récompense Cumulée
∞
π
➤ On définit la récompense cumulée V (st) = ∑γ t =0
t
rt
π
➤ Le problème: trouver π * = argmax( v (s))
π
90 100
But
0
81 90 100
V*(s)=V π*
V*(s)=Vπ*(s)
(s)récompense
récompensecumulée
cumuléeoptimale
optimale
© J-D. ZUCKER LIP6
42
Une stratégie
??
44
• Propriété de Markov
P(s t | st −1 , at −1 ) = P(s t | st −1 , at −1 , st − 2 , a t − 2 ,...)
• Alors
Q(s, a) = R(s, a) + γ ∑ P( s ′ | s, a) max Q(′∈ s ′, a ′ )
s′ ∈S a A
46
➤ La politique optimale π* ?
➤pas d'exemples de la forme (s,a)
➤ La récompense cumulée V* ?
➤L'agent choisira alors s1 plutôt que s2 car V*(s1) > V*(s2) et comme il faut
choisir une action.
π *( s) = argmax(r(s,a) + γ V * (δ (s,a)))
a
Q(s,a)
Q(s,a)
90 100
But
81 0
72 81
81 90 100
81 90
72 81
48
Q(S,a)=r(s,a) + γ V*(δ(s,a))
➤ On a : V * ( s) = max Q(s,a')
a'
^
Pour chaque couple s, a initialisé la table Q(s,a) à zéro.
Pour l'état courant s
Répéter
Choisir une action a et l'exécuter (exploration vs. exploitation)
Réception d'une récompense immédiate r
Observer le nouvel état s'
∧ ∧
MAJ de Q( s, a ) ← r ( s, a ) + γ max Q(δ (s,a),a')
a'
s <-- s'
Exemple illustratif...
^
On Prend γ =0.9 72
Q(s,a)
100
63
81
∧ ∧
Q( s, a ) ← r + γ max Q(δ (s,a),a' ) ) adroite
a'
← 0 + 0.9 max{63,81,100}} ^
9090 100 Q(s,a)
← 90
63
81
50
Convergence
➤ Démonstration ∆ n
∧
≡ max Qn( s, a ) − Q( s, a )
s ,a
∧ ∧
Q n + 1( s, a ) − Q( s, a ) = ( r + γ max Qn( s' ,a')) - ( r + γ max Q( s' ,a' ))
a' a'
∧ ∧
Q n + 1( s, a ) − Q( s, a ) = γ max Qn ( s' ,a') − max Q( s' ,a' )
a' a'
∧ ∧
Q n + 1( s, a ) − Q( s, a ) ≤ γ max Qn( s' ,a') − Q( s' ,a' )
a'
∧ ∧
Q n + 1( s, a ) − Q( s, a ) ≤ γ max Qn( s' ' ),a' ) − Q( s' ' ,a' )
s ,a '
∧
Q n + 1( s, a ) − Q( s, a ) ≤ γ ∆ n
➤ En moyenne
1 k
lim E ∑ rt
k →∞ k t =0
© J-D. ZUCKER LIP6
52
^
Pour chaque couple s, a initialisé la table Q(s,a) à zéro.
Pour l'état courant s
Répéter
Choisir une action a et l'exécuter
Réception d'une récompense immédiate r
Observer le nouvel état s'
∧ ∧ ∧ ∧
MAJ de Q n ( s, a ) ← Q n − 1( s, a ) + αn r ( s,a ) +γ max
a'
Q n-1( δ (s,a),a') ) −Q n −1( s ,a )
s <-- s'
erreur temporelle (TD error)
∧
Q(2 ) ( st , at ) = rt + γrt + 1 + γ 2 max Q( st + 2,a)
a
...
∧
Q(n ) ( st , at ) = rt + γrt + 1+...+ γ n max Q( st + n,a)
a
[ ]
Q(λ ) ( st , at ) = (1 − λ ) Q(1) ( st , at ) + λ Q(2 ) ( st , at ) + λ 2 Q(3) ( st , at ) +....
∧
Q(λ ) ( st , at ) = rt + γ (1 − λ ) max Q( st,a) + λQ(λ ) ( st + 1, at + 1)
a
© J-D. ZUCKER LIP6
54
Soit
➤ Un damier à 9 cases
Donner
Approche
➤ a) un apprentissage par renforcement basé sur l'action
On associe à chacune des 512 positions une valeur initiale égale à V(st=0)=0.5 (sauf pour
les positions perdantes 0. et gagnantes 1.).
On joue ensuite contre un opposant en choisissant l'action qui mène à la position de plus
haute récompense (pour laquelle V(s) est maximale) ou parfois on choisit
β) un autre coup, dit exploratoire.
aléatoirement (β
56
Notre
mouvement { c* c
Mouvement de
l'adversaire
{ d
Notre
mouvement
{ e* e
Mouvement de
l'adversaire
{ f MAJ
Notre
mouvement { g*
α = 0.1
Mouvement de
l'adversaire
{ V(x) := 0.5 + 0.1 x [1. - 0.5]
Notre
mouvement
{ x
Mouvement de
l'adversaire { y
MAJ
V(z) = 1
Notre
mouvement { z* MAJ
Position
Positiongagnante
gagnante
ï L'état x passe d'une valeur de 0.5 à 0.55
ï Si l'adversaire joue toujours y dans la position x sa valeur ne cessera d'augmenter [m'me
si x est, dans l'absolu, une position perdante]
© J-D. ZUCKER LIP6
58
Résumé
Bibliographie
Apprentissage en général
Dietterich, T. (1990). Readings in Machine Learning. Morgan Kaufmann.
Langley. P. (1996). Elements of Machine Learning. Morgan Kaufmann.
Mitchell, T. (1998). Machine Learning. MacGraw Hill.
http://www.ai.univie.ac.at/oefai/ml/ml-resources.html
60
V. Conclusions
Exemple: TD-Gammon
62
Bibliographie
Apprentissage en général
Dietterich, T. (1990). Readings in Machine Learning. Morgan Kaufmann.
Langley. P. (1996). Elements of Machine Learning. Morgan Kaufmann.
http://www.ai.univie.ac.at/oefai/ml/ml-resources.html