Sunteți pe pagina 1din 34

Participation de lIRISA DEFT

Apprentissage par boosting et lazy-learning

Christian Raymond, Vincent Claveau


IRISA, INSA, CNRS - Rennes

2 juillet 1815

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

1 / 31

Introduction

Participation de lIRISA premire participation participation aux deux tches Contexte background en apprentissage et en RI dlais dentranement trs courts mthodes apprentissage et RI simples, non informes

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

2 / 31

Tche 1 : arbres de dcision et boosting

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

3 / 31

Tche 1 : arbres de dcision et boosting

Pr-traitement des donnes

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

4 / 31

Tche 1 : arbres de dcision et boosting

Pr-traitement des donnes

Attributs de description utiliss pour la classication

le texte (mots sauf ponctuation) + une tiquette


tiquettes morpho-syntaxiques + liste de connaissances (i.e. villes, pays, titres de noblesse, grade militaire. . .) tout ce qui nest pas dune catgorie prcdente ou morpho-syntaxique (noms, adjectifs, verbes)

2 3

frquence dapparition dans le texte des catgories prcdentes idem que le premier, mais sans (1.3) gures de style ?

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

5 / 31

Tche 1 : arbres de dcision et boosting

Arbre de dcision ID3/C4.5

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

6 / 31

Tche 1 : arbres de dcision et boosting

Arbre de dcision ID3/C4.5

Arbre de dcision : critre entropie

critre automatique darrt (MDL) : pas de dveloppement pas de critres vraiment discriminants mauvaise gnralisation performance tche 1 S 0.15 la rsolution ne doit pas tre envisage par une classication brutale en annepas de prise en compte de lerreur relative (1810 est aussi diffrent de 1809 que 1900)

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

7 / 31

Tche 1 : arbres de dcision et boosting

Arbre de dcision M5

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

8 / 31

Tche 1 : arbres de dcision et boosting

Arbre de dcision M5

Arbre de dcision : critre variance

minimiser la somme des variances autour de lanne mdiane dans chaque nud prise en compte de lerreur relative identier des priodes temporelles plutt que des annes performance tche 1 S 0.17 mesure dvaluation plutt que variance pas dindices performants pour dcider si les documents sont antrieurs ou postrieurs une priode

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

9 / 31

Tche 1 : arbres de dcision et boosting

Arbre de dcision M5

Arbre de dcision : critre variance

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

9 / 31

Tche 1 : arbres de dcision et boosting

Arbre peigne

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

10 / 31

Tche 1 : arbres de dcision et boosting

Arbre peigne

Arbre peigne

approche prcdente a du sens plutt que discriminer antrieur/postrieur : discriminer lappartenance une priode ou pas minimiser la variance seulement dans le nud gauche larbre trouve des indices caractristiques de priodes temporelles . . . mais la construction sinterrompt rapidement : seules certaines priodes sont facilement caractrisables

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

11 / 31

Tche 1 : arbres de dcision et boosting

Arbre peigne

Arbre peigne

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

11 / 31

Tche 1 : arbres de dcision et boosting

Boosting

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

12 / 31

Tche 1 : arbres de dcision et boosting

Boosting

Boosting

manque vident de caractristiques fortement discriminantes : approche de classication moins rigide combinaison de classieurs faibles Boosting AdaBoost.MH : approche brutale S 0.23

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

13 / 31

Tche 1 : arbres de dcision et boosting

Rduction multi-label binaire

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

14 / 31

Tche 1 : arbres de dcision et boosting

Rduction multi-label binaire

Rduction multi-label binaire


problme multi-classes multi-label/binaire anne ensemble des positionnements temporels/chaque anne possible 1840 POST1800 , POST1801 , . . . , POST1839 boosting multi-classes/multi-labels : AdaBoost.MH si un label est retrouv, on vote pour lensemble des annes postrieures sinon antrieures on choisi lanne qui rassemble le plus de vote amlioration trs signicative des rsultats : S 0.33 sur tche 1 cette rduction binaire est toujours rigide : 1839 est tout autant antrieur 1840 que 1800 approches base de modle peu performantes en ltat
Raymond, Claveau (IRISA) IRISA @ DEFT 2 juillet 1815 15 / 31

Tche 1 : arbres de dcision et boosting

Rduction multi-label binaire

Vote des classieurs faibles en fonction de la prsence ou labsence du descripteur slectionn


Tour 1 2 5 8 10 12 17 18 19 21 24 25 28 descripteur toit VINDI3S avoit reich monsieur1 DETMS #lettraccent>65.5 tlgraphie allemagne cit MOT lit PREP DETMS milieux prsident socit des nations prsence [1813, 1944] [1934, 1944] [1802, 1944] 1944 [1826, 1944] [1802, 1832] 1930 [1932, 1944] [1802, 1811] [1932, 1944] [1802, 1944] [1835, 1944] [1942, 1943] [1935, 1944] [1935, 1944]
IRISA @ DEFT

absence [1879, 1944] [1802, 1937] 1942 [1802, 1943] [1802, 1825] [1833, 1944] [1802, 1931] [1813, 1931] 1944 [1802, 1834] 1944 [1802, 1941] [1802, 1934] [1802, 1934]
2 juillet 1815 16 / 31

Raymond, Claveau (IRISA)

Tche 1 : lazy-learning

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

17 / 31

Tche 1 : lazy-learning

Vision de la tche

lments prendre en compte classication supervise multilabel


structure des labels (proximit 1D)

traitement sur des donnes bruites par OCR variabilit intra-classe ?


2 articles de la mme anne ne traitent pas du mme sujet bruit

approche robuste approche simple et adapte

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

18 / 31

Tche 1 : lazy-learning

propos dapprentissage

Espace de reprsentation vs. classieur reprsentation sac-de-mot classes disjointes dans lespace de reprsentation certains classieurs ne sont pas du tout adapts, dautres sont inutilement complexes approche robuste : k-plus-proches voisins
mesure de similarit procdure de vote des voisins

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

19 / 31

Tche 1 : lazy-learning

propos dapprentissage

+1837 +1902 feature 2

+1935 +1809 +1899

+1810 +1903 +1902

feature 1
Raymond, Claveau (IRISA) IRISA @ DEFT 2 juillet 1815 20 / 31

Tche 1 : lazy-learning

propos dapprentissage

+1837 +1902 feature 2

+1935 +1809 +1899

+1810 +1903 +1902

SVM linear kernel 1902 vs. others feature 1


IRISA @ DEFT 2 juillet 1815 21 / 31

Raymond, Claveau (IRISA)

Tche 1 : lazy-learning

propos dapprentissage

+1837 +1902 feature 2

+1935 +1809 +1899

+1810 +1903 +1902

SVM RBF kernel 1902 vs. others feature 1

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

22 / 31

Tche 1 : lazy-learning

propos dapprentissage

+1837 +1902 feature 2

2-NN +?

+1935 +1809 +1899

+1810 +1903 +1902

feature 1
Raymond, Claveau (IRISA) IRISA @ DEFT 2 juillet 1815 23 / 31

Tche 1 : lazy-learning

K-plus proches voisins

Mesure de similarit proximit entre un article inconnu et les articles connus mesure standard en RI : Okapi-BM25 [Robertson 98]
TFBM25 (t, d) = IDFBM25 (t) =
tf (k1 +1) tf +k1 (1b+bdl/dlavg ) log Ndf +0.5 df +0.5

autre mesure non-soumise : Hiemstra [Hiemstra 99]


modle de langue pour RI

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

24 / 31

Tche 1 : lazy-learning

K-plus proches voisins

En pratique aucun prtraitement sur lOCR tiquetage (TreeTagger), on garde les lemmes des mots pleins discrimination des termes augmente sim(d1 , d? ) =
t

TFBM25 (t, d? ) TFBM25 (t, d1 ) IDFBM25 (t)3

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

25 / 31

Tche 1 : lazy-learning

K-plus proches voisins


Procdure de vote 50 plus proches voisins 50 dates
vote pondr par la proximit

propagation aux annes proches


utilisation de la mme gaussienne que celle utilise pour le score : lanne n reoit 1 sim(d1 , d? ), les annes n 1 et n + 1 reoivent 0.969 sim(d1 , d? )

lanne propose est celle qui a reu le plus grand poids de vote

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

26 / 31

Tche 1 : lazy-learning

K-plus proches voisins


Procdure de vote 50 plus proches voisins 50 dates
vote pondr par la proximit

propagation aux annes proches


utilisation de la mme gaussienne que celle utilise pour le score : lanne n reoit 1 sim(d1 , d? ), les annes n 1 et n + 1 reoivent 0.969 sim(d1 , d? )

lanne propose est celle qui a reu le plus grand poids de vote

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

27 / 31

Tche 1 : lazy-learning

Rsultats
Rsultats quantitatifs track 1 (500 mots) : S = 0.472 track 2 (300 mots) : S = 0.430 conforme aux rsultats par leave-one-out obtenus lors de la phase de dveloppement Autres considrations cot calculatoire faible : pas de modle, pas dentranement calcul des similarits rapide : vecteur creux, chiers inverss ajout de nouveaux exemples facile

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

28 / 31

Tche 2 : appariement rsum/article

Outline

Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

29 / 31

Tche 2 : appariement rsum/article

Vision de la tche

Tche classique de recherche dinformation similarit entre requte (rsum) et documents (articles) Mme problme, mme solution recherche du 1 plus-proche voisin tiquetage avec TreeTagger, on ne garde que les mots pleins similarit calcule avec Okapi-BM25 pas dadjudication en cas de darticles assigns plusieurs rsums

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

30 / 31

Tche 2 : appariement rsum/article

Rsultats

Rsultats quantitatifs track 1 : 99.5% track 2 : 99%

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

31 / 31

Conclusion

Conclusions

propos des tches trs diffrentes par leur niveau de difcult trs similaires (selon nous) par besoin de calculer des distances entre documents Bilan bons rsultats/classements dans les deux tches emploi de mthodes standard de RI dlai trop court pour mettre en uvre des techniques innovantes

Raymond, Claveau (IRISA)

IRISA @ DEFT

2 juillet 1815

32 / 31

S-ar putea să vă placă și