Documente Academic
Documente Profesional
Documente Cultură
2 juillet 1815
IRISA @ DEFT
2 juillet 1815
1 / 31
Introduction
Participation de lIRISA premire participation participation aux deux tches Contexte background en apprentissage et en RI dlais dentranement trs courts mthodes apprentissage et RI simples, non informes
IRISA @ DEFT
2 juillet 1815
2 / 31
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
3 / 31
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
4 / 31
2 3
frquence dapparition dans le texte des catgories prcdentes idem que le premier, mais sans (1.3) gures de style ?
IRISA @ DEFT
2 juillet 1815
5 / 31
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
6 / 31
critre automatique darrt (MDL) : pas de dveloppement pas de critres vraiment discriminants mauvaise gnralisation performance tche 1 S 0.15 la rsolution ne doit pas tre envisage par une classication brutale en annepas de prise en compte de lerreur relative (1810 est aussi diffrent de 1809 que 1900)
IRISA @ DEFT
2 juillet 1815
7 / 31
Arbre de dcision M5
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
8 / 31
Arbre de dcision M5
minimiser la somme des variances autour de lanne mdiane dans chaque nud prise en compte de lerreur relative identier des priodes temporelles plutt que des annes performance tche 1 S 0.17 mesure dvaluation plutt que variance pas dindices performants pour dcider si les documents sont antrieurs ou postrieurs une priode
IRISA @ DEFT
2 juillet 1815
9 / 31
Arbre de dcision M5
IRISA @ DEFT
2 juillet 1815
9 / 31
Arbre peigne
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
10 / 31
Arbre peigne
Arbre peigne
approche prcdente a du sens plutt que discriminer antrieur/postrieur : discriminer lappartenance une priode ou pas minimiser la variance seulement dans le nud gauche larbre trouve des indices caractristiques de priodes temporelles . . . mais la construction sinterrompt rapidement : seules certaines priodes sont facilement caractrisables
IRISA @ DEFT
2 juillet 1815
11 / 31
Arbre peigne
Arbre peigne
IRISA @ DEFT
2 juillet 1815
11 / 31
Boosting
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
12 / 31
Boosting
Boosting
manque vident de caractristiques fortement discriminantes : approche de classication moins rigide combinaison de classieurs faibles Boosting AdaBoost.MH : approche brutale S 0.23
IRISA @ DEFT
2 juillet 1815
13 / 31
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
14 / 31
absence [1879, 1944] [1802, 1937] 1942 [1802, 1943] [1802, 1825] [1833, 1944] [1802, 1931] [1813, 1931] 1944 [1802, 1834] 1944 [1802, 1941] [1802, 1934] [1802, 1934]
2 juillet 1815 16 / 31
Tche 1 : lazy-learning
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
17 / 31
Tche 1 : lazy-learning
Vision de la tche
IRISA @ DEFT
2 juillet 1815
18 / 31
Tche 1 : lazy-learning
propos dapprentissage
Espace de reprsentation vs. classieur reprsentation sac-de-mot classes disjointes dans lespace de reprsentation certains classieurs ne sont pas du tout adapts, dautres sont inutilement complexes approche robuste : k-plus-proches voisins
mesure de similarit procdure de vote des voisins
IRISA @ DEFT
2 juillet 1815
19 / 31
Tche 1 : lazy-learning
propos dapprentissage
feature 1
Raymond, Claveau (IRISA) IRISA @ DEFT 2 juillet 1815 20 / 31
Tche 1 : lazy-learning
propos dapprentissage
Tche 1 : lazy-learning
propos dapprentissage
IRISA @ DEFT
2 juillet 1815
22 / 31
Tche 1 : lazy-learning
propos dapprentissage
2-NN +?
feature 1
Raymond, Claveau (IRISA) IRISA @ DEFT 2 juillet 1815 23 / 31
Tche 1 : lazy-learning
Mesure de similarit proximit entre un article inconnu et les articles connus mesure standard en RI : Okapi-BM25 [Robertson 98]
TFBM25 (t, d) = IDFBM25 (t) =
tf (k1 +1) tf +k1 (1b+bdl/dlavg ) log Ndf +0.5 df +0.5
IRISA @ DEFT
2 juillet 1815
24 / 31
Tche 1 : lazy-learning
En pratique aucun prtraitement sur lOCR tiquetage (TreeTagger), on garde les lemmes des mots pleins discrimination des termes augmente sim(d1 , d? ) =
t
IRISA @ DEFT
2 juillet 1815
25 / 31
Tche 1 : lazy-learning
lanne propose est celle qui a reu le plus grand poids de vote
IRISA @ DEFT
2 juillet 1815
26 / 31
Tche 1 : lazy-learning
lanne propose est celle qui a reu le plus grand poids de vote
IRISA @ DEFT
2 juillet 1815
27 / 31
Tche 1 : lazy-learning
Rsultats
Rsultats quantitatifs track 1 (500 mots) : S = 0.472 track 2 (300 mots) : S = 0.430 conforme aux rsultats par leave-one-out obtenus lors de la phase de dveloppement Autres considrations cot calculatoire faible : pas de modle, pas dentranement calcul des similarits rapide : vecteur creux, chiers inverss ajout de nouveaux exemples facile
IRISA @ DEFT
2 juillet 1815
28 / 31
Outline
Tche 1 : arbres de dcision et boosting Pr-traitement des donnes Arbre de dcision ID3/C4.5 Arbre de dcision M5 Arbre peigne Boosting Rduction multi-label binaire Tche 1 : lazy-learning Tche 2 : appariement rsum/article
IRISA @ DEFT
2 juillet 1815
29 / 31
Vision de la tche
Tche classique de recherche dinformation similarit entre requte (rsum) et documents (articles) Mme problme, mme solution recherche du 1 plus-proche voisin tiquetage avec TreeTagger, on ne garde que les mots pleins similarit calcule avec Okapi-BM25 pas dadjudication en cas de darticles assigns plusieurs rsums
IRISA @ DEFT
2 juillet 1815
30 / 31
Rsultats
IRISA @ DEFT
2 juillet 1815
31 / 31
Conclusion
Conclusions
propos des tches trs diffrentes par leur niveau de difcult trs similaires (selon nous) par besoin de calculer des distances entre documents Bilan bons rsultats/classements dans les deux tches emploi de mthodes standard de RI dlai trop court pour mettre en uvre des techniques innovantes
IRISA @ DEFT
2 juillet 1815
32 / 31