Documente Academic
Documente Profesional
Documente Cultură
DE REZOLVARE
A PROBLEMELOR REALE
Laura Dioan
Tema 4
Text mining
MIRPR
Task-uri
Regsirea informaiei
Text mining
MIRPR
Task-uri
Regsirea informaiei
MIRPR
Regsirea informaiei
Definire
Tipologie
Proces
Evaluare
Alte denumiri
MIRPR
Definiie
Ex.
Pagini web pt pregtirea unei excursii
Materiale educaionale pentru nvarea unui concept
MIRPR
Regsirea imaginilor
Regsirea muzicii
Regsirea vorbirii
Formularea interogrii
Selectarea rezultatelor
MIRPR
manual
automat
MIRPR
Formularea interogrii
MIRPR
Selectarea rezultatelor
ordonarea lor
gruparea lor
MIRPR
Rapelul
Acurateea
Scorul F1
Text mining
MIRPR
Task-uri
Regsirea informaiei
MIRPR
Definire
Direcii n automatizare
Categorizarea textelor
MIRPR
Categoriile
Exemple de probleme
Cuvinte
Documente
nvare supervizat
Clasificarea textelor,
Filtrarea,
Detectarea subiectelor
nvare nesupervizat
Indexarea semantic,
construcia automat a tezaurelor,
extragerea cuvintelor cheie
Clusterizarea documentelor,
Detectarea subiectelor
MIRPR
supervizat
nesupervizat
obinute de la experi
codificate sub form de reguli
Definirea problemei
MIRPR
date de test
(di), i =1,n (n = nr datelor de test)
(d,c)=true, dac d c
false, altfel
Tipuri de categorii
MIRPR
Categorii ierarhice
Directoarele de e-mail, MESH
Categorii liniare
Seciunile unui ziar, Reuters
Categorii suprapuse
Reuters, MESH
Categorii disjuncte
Directoarele de e-mail, seciunile unui ziar
Indexarea documentelor
MIRPR
Indexarea documentelor
Utilizarea modelului de clasificare pentru stabilirea categoriilor
fiecrui document de test
Indexarea documentelor
MIRPR
Indexarea documentelor
Utilizarea modelului de clasificare pentru stabilirea categoriilor
fiecrui document de test
Indexarea documentelor
MIRPR
4 pai:
Linearizarea documentelor
Filtrarea
Aducerea la form canonic
Ponderarea
Reducerea dimensiunii
vocabularului
MIRPR
nlturarea formatrii
Ex. eliminarea etichetelor n cazul documentelor HTML
Tokenization
Parsare (segmentare)
Transforamrea tuturor literelor n litere mici
nlturarea semnelor de punctuaie
Iniial
Liniarizat
Filtrarea
MIRPR
Segmentat
Filtrat
Lematizarea
MIRPR
Filtrat
Redus
Ponderarea
un singur document
o colecie de documente
MIRPR
Frecvenele pot fi
Indexarea documentelor
MIRPR
Reducerea dimensiunii
MIRPR
Creterea eficacitii
Reducerea timpului de nvare a modelului de clasificare
Evitarea nvrii pe derost a modelului de clasificare
Poate consta n
Extragerea atributelor
o mulime de noi atribute determinate pe baza celor originale
proiecia unui vector R-dimensional ntr-unul r-dimensional
(r < R)
noile atribute (mai puine) reprezint o transformare a
atributelor originale
MIRPR
Selecia implic
MIRPR
Notaie
Xi Rn Xi=(x1i, x2i, ..., xni)
Y Rn Y=(y1, y2, ..., yn)
Scoruri posibile
MIRPR
R(i)=cov(Xi, Y)/(var(Xi)var(Y))1/2
R(i)k=1,...,n(xk,i- Xia)(yk-Ya)/(k=1,...,n(xk,i- Xia)2k=1,...,n(yk-Ya)2)1/2
R2(i) relaie de dependen liniar ntre Xi i Y
Eroarea de clasificare
Informaia teoretic
MIRPR
Critici
MIRPR
Cutarea
Wrapper
Filter
Embedded
MIRPR
Wrapper
Filter
Funcia obiectiv este un clasificator care evalueaz fiecare submulime prin puterea
ei predictiv
Alegerea atributelor este dependent de performana clasificatorului (algoritmului
de nvare)
Algoritmul de nvare = cutie neagr pentru evaluarea submulimii de atribute n
funcie de puterea de nvare (clasificare) a acesteia
Funcia obiectiv evalueaz fiecare submulime doar pe baza coninutului ei
Alegerea atributelor este independent de performana clasificatorului
Selecia atributelor este un pas anterior nvarii
Embedded
Ideea de baz
MIRPR
Algoritm
MIRPR
best-first
branch-and-bound
simulated annealing
algoritmi genetici
greedy
Forward selection
Backward selection
Validare
Validare-ncruciat
Arbori de decizie
Reele neuronale
Maini cu suport vectorial
Algoritmi evolutivi, etc
Ideea de baz
MIRPR
Evaluare
Msuri liniare
Msuri neliniare
Informaia mutual
MIRPR
http://jmlr.csail.mit.edu/papers/volume3/guyo
n03a/guyon03a.pdf
http://jmlr.csail.mit.edu/proceedings/papers/v
4/guerif08a/guerif08a.pdf
http://courses.cs.tamu.edu/rgutier/cs790_w02
/l5.pdf
Indexarea documentelor
MIRPR
Definire
MIRPR
Determinarea unei noi mulimi de atribute determinate pe baza celor originale proiecia
unui vector R-dimensional ntr-unul r-dimensional (r < R)
Noile atribute (mai puine) reprezint o transformare a atributelor originale
Clasificare transformarea are drept scop evidenierea discriminrii ntre clase ntr-un spaiu
mai mic
Scop
MIRPR
Alte denumiri
Transformarea Karhunen-Love
(teoria comunicaiilor)
Tipologie
MIRPR
Algoritm
xi=(x1i,x2i,...,xni)
Scop
MIRPR
MIRPR
Algoritm
MIRPR
Pp. c:
exist 2 clase,
i media instanelor din clasa i, i=1,2
n nr. total de instane
ni nr. de instane din clasa i
Se calculeaz
mprtierea intra-clas (scatter within class) Sw
Sw=i=1,2xclasai(x-i)(x-i)T
mprtierea ntre clase (scatter between classes) Sb
Sb=i=1,2ni(i-)(i-)T, unde =1/nxclasainii
Se maximizeaz
raportul dintre
ptratul diferenei mediilor (claselor) i
mprtierea intra-clas
Soluie
w=S-1w(1-2)
Indexarea documentelor
MIRPR
Indexarea documentelor
Utilizarea modelului de clasificare pentru stabilirea categoriilor
fiecrui document de test
MIRPR
Arbori de decizie
Reele neuronale artificiale
Maini cu suport vectorial
Algoritmi evolutivi
Reele Bayesiene
Cum se aleg parametrii?
Indexarea documentelor
MIRPR
Indexarea documentelor
Utilizarea modelului de clasificare pentru stabilirea categoriilor
fiecrui document de test
Algoritm
Pp c:
MIRPR
Raportul dintre
mprtierea intra-clas
Soluie
Sw=i=1,2,...,kxclasai(x-i)(x-i)T
mprtierea ntre clase (scatter between classes) Sb
Se maximizeaz
exist k clase,
i media instanelor din clasa i, i=1,2,...,k
n nr total de instane
ni nr de instane din clasa i, i=1,2,...,k
w=S-1w(1-2)
http://research.cs.tamu.edu/prism/lectures/pr/pr_l10.pdf
http://www.dtreg.com/lda.htm
http://www.music.mcgill.ca/~ich/classes/mumt611_05/classifiers/lda_theory.pdf
MIRPR
http://134.58.34.50/~marc/DM_course/slides_selecti
on.pdf
http://www.esi.uem.es/~jmgomez/tutorials/eacl03/sl
ides.pdf