9 Claveau

Participation de lIRISA DEFT
Apprentissage par boosting et lazy-learning
Christian Raymond, Vincent Claveau

IRISA, INSA, CNRS - Rennes
2 juillet 1815
Raymond, Claveau (IRISA)
IRISA @ DEFT
2 juillet 1815
1 / 31
Introduction
Participation de lIRISA premire participation participation aux deux tches Contexte background en apprentissage et en RI dlais dentranement trs courts mthodes apprentissage et RI simples, non informes
IRISA @ DEFT
2 juillet 1815
2 / 31
Tche 1 : arbres de dcision et boosting
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
3 / 31
Pr-traitement des donnes
Outline
IRISA @ DEFT
2 juillet 1815
4 / 31
Pr-traitement des donnes
Attributs de description utiliss pour la classication
le texte (mots sauf ponctuation) + une tiquette

tiquettes morpho-syntaxiques + liste de connaissances (i.e. villes, pays, titres de noblesse, grade militaire. . .) tout ce qui nest pas dune catgorie prcdente ou morpho-syntaxique (noms, adjectifs, verbes)
2 3
frquence dapparition dans le texte des catgories prcdentes idem que le premier, mais sans (1.3) gures de style ?
IRISA @ DEFT
2 juillet 1815
5 / 31
Arbre de dcision ID3/C4.5
Outline
IRISA @ DEFT
2 juillet 1815
6 / 31
Arbre de dcision ID3/C4.5
Arbre de dcision : critre entropie
critre automatique darrt (MDL) : pas de dveloppement pas de critres vraiment discriminants mauvaise gnralisation performance tche 1 S 0.15 la rsolution ne doit pas tre envisage par une classication brutale en annepas de prise en compte de lerreur relative (1810 est aussi diffrent de 1809 que 1900)
IRISA @ DEFT
2 juillet 1815
7 / 31
Arbre de dcision M5
Outline
IRISA @ DEFT
2 juillet 1815
8 / 31
Arbre de dcision M5
Arbre de dcision : critre variance
minimiser la somme des variances autour de lanne mdiane dans chaque nud prise en compte de lerreur relative identier des priodes temporelles plutt que des annes performance tche 1 S 0.17 mesure dvaluation plutt que variance pas dindices performants pour dcider si les documents sont antrieurs ou postrieurs une priode
IRISA @ DEFT
2 juillet 1815
9 / 31
Arbre de dcision M5
Arbre de dcision : critre variance
IRISA @ DEFT
2 juillet 1815
9 / 31
Arbre peigne
Outline
IRISA @ DEFT
2 juillet 1815
10 / 31
Arbre peigne
Arbre peigne
approche prcdente a du sens plutt que discriminer antrieur/postrieur : discriminer lappartenance une priode ou pas minimiser la variance seulement dans le nud gauche larbre trouve des indices caractristiques de priodes temporelles . . . mais la construction sinterrompt rapidement : seules certaines priodes sont facilement caractrisables
IRISA @ DEFT
2 juillet 1815
11 / 31
Arbre peigne
Arbre peigne
IRISA @ DEFT
2 juillet 1815
11 / 31
Boosting
Outline
IRISA @ DEFT
2 juillet 1815
12 / 31
Boosting
Boosting
manque vident de caractristiques fortement discriminantes : approche de classication moins rigide combinaison de classieurs faibles Boosting AdaBoost.MH : approche brutale S 0.23
IRISA @ DEFT
2 juillet 1815
13 / 31
Rduction multi-label binaire
Outline
IRISA @ DEFT
2 juillet 1815
14 / 31

problme multi-classes multi-label/binaire anne ensemble des positionnements temporels/chaque anne possible 1840 POST1800 , POST1801 , . . . , POST1839 boosting multi-classes/multi-labels : AdaBoost.MH si un label est retrouv, on vote pour lensemble des annes postrieures sinon antrieures on choisi lanne qui rassemble le plus de vote amlioration trs signicative des rsultats : S 0.33 sur tche 1 cette rduction binaire est toujours rigide : 1839 est tout autant antrieur 1840 que 1800 approches base de modle peu performantes en ltat
Raymond, Claveau (IRISA) IRISA @ DEFT 2 juillet 1815 15 / 31
Vote des classieurs faibles en fonction de la prsence ou labsence du descripteur slectionn

Tour 1 2 5 8 10 12 17 18 19 21 24 25 28 descripteur toit VINDI3S avoit reich monsieur1 DETMS #lettraccent>65.5 tlgraphie allemagne cit MOT lit PREP DETMS milieux prsident socit des nations prsence [1813, 1944] [1934, 1944] [1802, 1944] 1944 [1826, 1944] [1802, 1832] 1930 [1932, 1944] [1802, 1811] [1932, 1944] [1802, 1944] [1835, 1944] [1942, 1943] [1935, 1944] [1935, 1944]
IRISA @ DEFT
absence [1879, 1944] [1802, 1937] 1942 [1802, 1943] [1802, 1825] [1833, 1944] [1802, 1931] [1813, 1931] 1944 [1802, 1834] 1944 [1802, 1941] [1802, 1934] [1802, 1934]
2 juillet 1815 16 / 31
Tche 1 : lazy-learning
Outline
IRISA @ DEFT
2 juillet 1815
17 / 31
Vision de la tche
lments prendre en compte classication supervise multilabel

structure des labels (proximit 1D)
traitement sur des donnes bruites par OCR variabilit intra-classe ?

2 articles de la mme anne ne traitent pas du mme sujet bruit
approche robuste approche simple et adapte
IRISA @ DEFT
2 juillet 1815
18 / 31
propos dapprentissage
Espace de reprsentation vs. classieur reprsentation sac-de-mot classes disjointes dans lespace de reprsentation certains classieurs ne sont pas du tout adapts, dautres sont inutilement complexes approche robuste : k-plus-proches voisins
mesure de similarit procdure de vote des voisins
IRISA @ DEFT
2 juillet 1815
19 / 31
+1837 +1902 feature 2
+1935 +1809 +1899
+1810 +1903 +1902
feature 1
+1837 +1902 feature 2
+1935 +1809 +1899
+1810 +1903 +1902
SVM linear kernel 1902 vs. others feature 1

IRISA @ DEFT 2 juillet 1815 21 / 31
+1837 +1902 feature 2
+1935 +1809 +1899
+1810 +1903 +1902
SVM RBF kernel 1902 vs. others feature 1
IRISA @ DEFT
2 juillet 1815
22 / 31
+1837 +1902 feature 2
2-NN +?
+1935 +1809 +1899
+1810 +1903 +1902
feature 1
K-plus proches voisins
Mesure de similarit proximit entre un article inconnu et les articles connus mesure standard en RI : Okapi-BM25 [Robertson 98]
TFBM25 (t, d) = IDFBM25 (t) =
tf (k1 +1) tf +k1 (1b+bdl/dlavg ) log Ndf +0.5 df +0.5
autre mesure non-soumise : Hiemstra [Hiemstra 99]

modle de langue pour RI
IRISA @ DEFT
2 juillet 1815
24 / 31
En pratique aucun prtraitement sur lOCR tiquetage (TreeTagger), on garde les lemmes des mots pleins discrimination des termes augmente sim(d1 , d? ) =
t
TFBM25 (t, d? ) TFBM25 (t, d1 ) IDFBM25 (t)3
IRISA @ DEFT
2 juillet 1815
25 / 31

Procdure de vote 50 plus proches voisins 50 dates
vote pondr par la proximit
propagation aux annes proches

utilisation de la mme gaussienne que celle utilise pour le score : lanne n reoit 1 sim(d1 , d? ), les annes n 1 et n + 1 reoivent 0.969 sim(d1 , d? )
lanne propose est celle qui a reu le plus grand poids de vote
IRISA @ DEFT
2 juillet 1815
26 / 31

Procdure de vote 50 plus proches voisins 50 dates
vote pondr par la proximit
propagation aux annes proches

utilisation de la mme gaussienne que celle utilise pour le score : lanne n reoit 1 sim(d1 , d? ), les annes n 1 et n + 1 reoivent 0.969 sim(d1 , d? )
lanne propose est celle qui a reu le plus grand poids de vote
IRISA @ DEFT
2 juillet 1815
27 / 31
Rsultats
Rsultats quantitatifs track 1 (500 mots) : S = 0.472 track 2 (300 mots) : S = 0.430 conforme aux rsultats par leave-one-out obtenus lors de la phase de dveloppement Autres considrations cot calculatoire faible : pas de modle, pas dentranement calcul des similarits rapide : vecteur creux, chiers inverss ajout de nouveaux exemples facile
IRISA @ DEFT
2 juillet 1815
28 / 31
Tche 2 : appariement rsum/article
Outline
IRISA @ DEFT
2 juillet 1815
29 / 31
Vision de la tche
Tche classique de recherche dinformation similarit entre requte (rsum) et documents (articles) Mme problme, mme solution recherche du 1 plus-proche voisin tiquetage avec TreeTagger, on ne garde que les mots pleins similarit calcule avec Okapi-BM25 pas dadjudication en cas de darticles assigns plusieurs rsums
IRISA @ DEFT
2 juillet 1815
30 / 31
Rsultats
Rsultats quantitatifs track 1 : 99.5% track 2 : 99%
IRISA @ DEFT
2 juillet 1815
31 / 31
Conclusion
Conclusions
propos des tches trs diffrentes par leur niveau de difcult trs similaires (selon nous) par besoin de calculer des distances entre documents Bilan bons rsultats/classements dans les deux tches emploi de mthodes standard de RI dlai trop court pour mettre en uvre des techniques innovantes
IRISA @ DEFT
2 juillet 1815
32 / 31

9 Claveau

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

9 Claveau

Încărcat de

Drepturi de autor:

Formate disponibile

Participation de lIRISA DEFT

Apprentissage par boosting et lazy-learning

Christian Raymond, Vincent Claveau

Raymond, Claveau (IRISA)

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Pr-traitement des donnes

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Pr-traitement des donnes

Attributs de description utiliss pour la classication

le texte (mots sauf ponctuation) + une tiquette

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Arbre de dcision ID3/C4.5

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Arbre de dcision ID3/C4.5

Arbre de dcision : critre entropie

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Arbre de dcision : critre variance

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Arbre de dcision : critre variance

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Rduction multi-label binaire

Raymond, Claveau (IRISA)

Tche 1 : arbres de dcision et boosting

Rduction multi-label binaire

Rduction multi-label binaire

Tche 1 : arbres de dcision et boosting

Rduction multi-label binaire

Vote des classieurs faibles en fonction de la prsence ou labsence du descripteur slectionn

Raymond, Claveau (IRISA)

Raymond, Claveau (IRISA)

lments prendre en compte classication supervise multilabel

traitement sur des donnes bruites par OCR variabilit intra-classe ?

approche robuste approche simple et adapte

Raymond, Claveau (IRISA)

Raymond, Claveau (IRISA)

+1837 +1902 feature 2

+1935 +1809 +1899

+1810 +1903 +1902

+1837 +1902 feature 2

+1935 +1809 +1899

+1810 +1903 +1902

SVM linear kernel 1902 vs. others feature 1