Sunteți pe pagina 1din 47

METODE INTELIGENTE

DE REZOLVARE
A PROBLEMELOR REALE
Laura Dioan
Tema 4

Text mining

MIRPR

Task-uri

Regsirea informaiei

Clasificarea automat a textelor

Text mining

MIRPR

Task-uri

Regsirea informaiei

Clasificarea automat a textelor

MIRPR

Regsirea informaiei

Definire

Tipologie

Proces

Evaluare

Regsirea informaiei definire

Alte denumiri

MIRPR

Information retrieval (IR),


Information storage and retrieval (ISR)
Information organization and retrieval (IOR)

Definiie

Regsirea ntr-o colecie de obiecte a unei submulimi de


obiecte care servesc unui anumit scop

Ex.
Pagini web pt pregtirea unei excursii
Materiale educaionale pentru nvarea unui concept

Regsirea informaiei tipologie

MIRPR

n funcie de tipul de informaie

Regsirea textelor text mining

Regsirea imaginilor

Regsirea muzicii

Regsirea vorbirii

Regsirea ncruciat a limbajului

ntrebarea ntr-o limb, rspunsul n alt(e) limb(i)

Regsirea informaiei proces


Pai n procesul de regsire
Indexarea i reprezentarea obiectelor din
baza de cunotine

Formularea interogrii

Potrivirea interogrii cu obiectele

Selectarea rezultatelor

MIRPR

Regsirea informaiei proces

Indexarea obiectelor din baza de cunotine

fixarea unei anumite reprezentri a obiectelor


poate fi

manual
automat

MIRPR

extragerea unor atribute (brute)


texte separarea n cuvinte, eliminarea cuvintelor vide, etc
imagini distribuia culorilor i a formelor
muzic frecvena notelor

Formularea interogrii

Fixarea unei anumite reprezentri a interogrii


Interogarea un profil (ablon) pe care l vor respecta
anumite obiecte (documente)

texte anumite cuvinte care trebuie s apar n text


imagini anumite culori sau forme care trebuie s apar n
imagini
muzic anumite (succesiuni de) note care trebuie s apar n
melodii

Regsirea informaiei proces

Potrivirea interogrii cu obiectele

MIRPR

Cu ajutorul unei funcii de similaritate sau de


tip rang
Tipologie

potrivire perfect (exact)


potrivire parial

Selectarea rezultatelor

ordonarea lor
gruparea lor

Regsirea informaiei - evaluare


Msuri de performan
Precizia

MIRPR

Rapelul

proporia obiectelor relevante care sunt regsite


nr. obiecte relevante regsite / nr. obiecte relevante

Acurateea

proporia obiectelor regsite care sunt relevante


nr. obiecte relevante regsite / nr. obiecte regsite

proporia obiectelor corect regsite

Scorul F1

media armonic a preciziei i rapelului

Text mining

MIRPR

Task-uri

Regsirea informaiei

Clasificarea automat a textelor

MIRPR

Clasificarea automat a textelor

Definire

Direcii n automatizare

Abordarea bazat pe nvare

Abordarea bazat pe cunotine

Clasificarea automat a textelor


Definire

Categorizarea textelor

Atribuirea unor categorii (predefinite) documentelor


Documentele

MIRPR

Categoriile

rapoarte tehnice, pagini web, mesaje, cri


subiecte (art, economie),
pertinene (mesaje spam, pagini web pt aduli)

Exemple de probleme
Cuvinte

Documente

nvare supervizat

Etichetarea prilor de vorbire

Clasificarea textelor,
Filtrarea,
Detectarea subiectelor

nvare nesupervizat

Indexarea semantic,
construcia automat a tezaurelor,
extragerea cuvintelor cheie

Clusterizarea documentelor,
Detectarea subiectelor

Clasificarea automat a textelor


Direcii n automatizare

Abordarea bazat pe nvare

Experii eticheteaz o parte din exemple


Algoritmul eticheteaz noi exemple

nvarea poate fi:

MIRPR

supervizat
nesupervizat

Abordarea bazat pe cunotine

Cunotinele despre clasificare sunt

obinute de la experi
codificate sub form de reguli

Clasificarea automat a textelor


nvare definire

Definirea problemei

Se d un set de documente D, |D|=N+n i un set de


categorii C, |C|=k, sub forma

MIRPR

date de antrenament (di, ci), unde


i =1,N (N = nr datelor de antrenament)
di D, ci C

date de test
(di), i =1,n (n = nr datelor de test)

Se cere s se aproximeze o funcie necunoscut de


clasificare
:DxC{true, false}
definit astfel:

(d,c)=true, dac d c
false, altfel

pentru orice pereche de documente i categorii (d,c).

Clasificarea automat a textelor


nvare definire

Tipuri de categorii

n funcie de modul de organizare

MIRPR

Categorii ierarhice
Directoarele de e-mail, MESH

Categorii liniare
Seciunile unui ziar, Reuters

n funcie de apartenena documentelor la


categorii

Categorii suprapuse
Reuters, MESH

Categorii disjuncte
Directoarele de e-mail, seciunile unui ziar

Clasificarea automat a textelor


nvare proces

Analiza documentelor de antrenament

Indexarea documentelor

Construirea unei reprezentri a documentelor transformarea


documentelor ntr-o form interpretabil de ctre clasificator

MIRPR

Obinerea unor concepte/termeni reprezentative(i) atribute


Calcularea unor ponderi pt aceste atribute

Reducerea dimensiunii (a numrului de concepte/atribute/termeni


reprezentative(i) pentru document)
Selecia atributelor
Extragerea atributelor

nvarea unui model de clasificare

Clasificarea noilor documente(de test)

Indexarea documentelor
Utilizarea modelului de clasificare pentru stabilirea categoriilor
fiecrui document de test

Clasificarea automat a textelor


nvare proces

Analiza documentelor de antrenament

Indexarea documentelor

Construirea unei reprezentri a documentelor transformarea


documentelor ntr-o form interpretabil de ctre clasificator

MIRPR

Obinerea unor concepte/termeni reprezentative(i) atribute


Calcularea unor ponderi pt aceste atribute

Reducerea dimensiunii (a numrului de concepte/atribute/termeni


reprezentative(i) pentru document)
Selecia atributelor
Extragerea atributelor

nvarea unui model de clasificare

Clasificarea noilor documente(de test)

Indexarea documentelor
Utilizarea modelului de clasificare pentru stabilirea categoriilor
fiecrui document de test

Clasificarea automat a textelor


nvare proces

Indexarea documentelor

Construirea unei reprezentri a documentelor


transformarea documentelor ntr-o form

MIRPR

interpretabil de ctre clasificator


indexat (organizat, ordonat)

Obinerea unor concepte/termeni reprezentative(i)


atribute i calcularea unor ponderi pt aceste atribute

4 pai:

Linearizarea documentelor
Filtrarea
Aducerea la form canonic
Ponderarea

Reducerea dimensiunii
vocabularului

Clasificarea automat a textelor


nvare proces

Linearizarea documentelor (segmentare)

Procesul de reducere a documentelor la un vector de termeni


(atribute)

MIRPR

modelul sac de cuvinte (bag of words)


o matrice
pe linii documentele
pe coloane termenii
o celul 1/0 dac termenul curent apare n documentul curent

Identificarea termenilor se face n 2 etape:

nlturarea formatrii
Ex. eliminarea etichetelor n cazul documentelor HTML

Tokenization
Parsare (segmentare)
Transforamrea tuturor literelor n litere mici
nlturarea semnelor de punctuaie

Iniial

Liniarizat

Interactive query expansion modifies


queries using terms from a user. Automatic
query expansion expands queries
automatically.

interactive query expansion modifies


queries using terms from a user automatic
query expansion expands queries
automatically

Clasificarea automat a textelor


nvare proces

Filtrarea

Alegerea termenilor care s reprezinte documentul


astfel nct s permit

MIRPR

descrierea coninutului documentului


diferenierea documentului de alte documente dintr-o
colecie dat

nlturarea celor mai frecveni termeni (stopwords)


adverbe, prepoziii

gsii ntr-o list predefinit


a cror frecven n toate documentele este mai mic de
un anumit prag (5%)

Segmentat

Filtrat

interactive query expansion modifies


queries using terms from a user automatic
query expansion expands queries
automatically

interactive query expansion modifies


queries terms automatic query expansion
expands queries automatically

Clasificarea automat a textelor


nvare proces

Aducerea la form canonic

Lematizarea

MIRPR

Analiz morfologic a termenilor pentru identificarea tuturor


formelor de baz posibile
Poate aciona asupra mai multor termeni
Acioneaz n funcie de context
Ex. better good

Reducerea termenilor la rdcin (stemming)

Acioneaz asupra unui singur termen


Ex. "computer", "computing", "compute" "comput"
Algoritmul de stemming
al lui Martin Porter
din WordNet

Filtrat

Redus

interactive query expansion modifies


queries terms automatic query expansion
expands queries automatically

interact queri expan modifi queri term


automat queri expan expand queri automat

Clasificarea automat a textelor


nvare proces

Ponderarea

Ponderarea termenilor conform unui anumit model


Ponderi relative la

un singur document

o colecie de documente

MIRPR

TF cu ct un termen este mai frecvent ntr-un document, cu att el este mai


important pentru acel document
IDF cu ct un termen apare n mai multe documente, cu att el este mai puin
important n descrierea semanticii acelui document

Frecvenele pot fi

frecvena invers n document (inverse document frequency IDF)

o combinaie ntre TF i IDF

frecvena termenilor (term frequency TF)

Binare prezena sau absena termenului


Reale ([0,1]) importana termenului

Fiind dat un set D de documente i un set T de termeni, ponderea pij


a termenului ti n documentul dj (i=1,2,...,|T|, j=1,2,...,|D|) poate fi:

binar: pij = 1, dac ti apare n dj


0, altfel
TF: pij=tfij (nr. de apariii a termenului ti n documentul dj)
TF.IDF: pij=tfij*log2(|D|/dfi), unde dfi=nr. de documente n care apare
termenul ti

Clasificarea automat a textelor


nvare proces

Analiza documentelor de antrenament

Indexarea documentelor

MIRPR

Construirea unei reprezentri a documentelor


transformarea documentelor ntr-o form interpretabil de
ctre clasificator
Obinerea unor concepte/termeni reprezentative(i) atribute
Calcularea unor ponderi pt aceste atribute

Reducerea dimensiunii (a numrului de


concepte/atribute/termeni reprezentative(i) pentru
document)
Selecia atributelor
Extragerea atributelor

nvarea unui model de clasificare

Clasificarea noilor documente(de test)

Clasificarea automat a textelor


nvare proces

Reducerea dimensiunii

Are drept scop

MIRPR

Creterea eficacitii
Reducerea timpului de nvare a modelului de clasificare
Evitarea nvrii pe derost a modelului de clasificare

Poate consta n

Selecia atributelor (feature selection)


o submulime a atributelor iniiale (originale)

Extragerea atributelor
o mulime de noi atribute determinate pe baza celor originale
proiecia unui vector R-dimensional ntr-unul r-dimensional
(r < R)
noile atribute (mai puine) reprezint o transformare a
atributelor originale

Clasificarea automat a textelor


nvare proces
Reducerea dimensiunii Selecia atributelor

MIRPR

Dndu-se o mulime de atribute Xk=(xk1, xK2,...,xkm) pentru un


document dkD, s se gseasc o submulime XKp=(xK,i1,
xK,i2,...,xK,ip), cu p < m care s optimizeze o funcie obiectiv J(XKm)

Fc. obiectiv eroarea de clasificare

Selecia implic

O strategie de cutare pentru selecia submulimilor candidat

cutare exhaustiv toate submulimile posibile nefezabil


cutare strategic

prin ordonarea atributelor


pe baza unei metrici
i alegerea celor care depesc un anumit prag
prin selectarea unei anumite submulimi de atribute
se alege o submulime optimal

O funcie obiectiv pentru evaluarea acestor submulimi candidat

msur a calitii unei submulimi de atribute


ajut selecia unei noi submulimi candidat

Clasificarea automat a textelor


nvare proces
Reducerea dimensiunii Selecia atributelor Prin ordonarea
atributelor

Pp. c avem n date (xk, yk), k=1,2,...,n

MIRPR

xk Rm xk = (xk1, xk2, ..., xkm)


yk R

Se calculeaz o funcie scor pentru fiecare pereche S(i)=(xki,yk)

cu ct scorul este mai mare, cu att variabila este mai important

i se ordoneaz atributele n funcie de acest scor

Notaie
Xi Rn Xi=(x1i, x2i, ..., xni)
Y Rn Y=(y1, y2, ..., yn)

Clasificarea automat a textelor


nvare proces
Reducerea dimensiunii Selecia atributelor Prin ordonarea
atributelor

Scoruri posibile

Coeficientul de corelaie al lui Pearson

MIRPR

R(i)=cov(Xi, Y)/(var(Xi)var(Y))1/2
R(i)k=1,...,n(xk,i- Xia)(yk-Ya)/(k=1,...,n(xk,i- Xia)2k=1,...,n(yk-Ya)2)1/2
R2(i) relaie de dependen liniar ntre Xi i Y

Eroarea de clasificare

Mai muli clasificatori cu o singur variabil

(xki, yk), k=1,2,...,n


Se stabilete eroarea de clasificare pt fiecare i=1,2,...,n
Se ordoneaz variabilele n funcie de eroare
Cu ct eroarea este mai mic cu att variabila este mai important

Informaia teoretic

Informaia mutual ntre densitatea variabilei Xi i densitatatea variabilei Y


I(i)=xyp(xi,y)log(p(xi,y)/(p(xi)p(y)))dxdy
p(x) probabilitatea densitii lui x greu de estimat

Clasificarea automat a textelor


nvare proces

MIRPR

Reducerea dimensiunii Selecia atributelor


Prin ordonarea atributelor

Critici

poate determina submulimi de atribute


redundante

nu ine cont de corelarea atributelor

un atribut nefolositor n izolaie poate fi util n


combinaie cu alte atribute

Clasificarea automat a textelor


nvare proces

MIRPR

Reducerea dimensiunii Selecia atributelor Prin


alegerea unei submulimi de atribute

Cutarea

Cutare exhaustiv toate submulimile posibile nefezabil


Cutare strategic alegerea doar a unor submulimi

Funcia obiectiv tipuri

Wrapper
Filter
Embedded

Clasificarea automat a textelor


nvare proces
Reducerea dimensiunii Selecia atributelor Prin alegerea
unei submulimi de atribute

Funcia obiectiv tipuri

MIRPR

Wrapper

Filter

Funcia obiectiv este un clasificator care evalueaz fiecare submulime prin puterea
ei predictiv
Alegerea atributelor este dependent de performana clasificatorului (algoritmului
de nvare)
Algoritmul de nvare = cutie neagr pentru evaluarea submulimii de atribute n
funcie de puterea de nvare (clasificare) a acesteia
Funcia obiectiv evalueaz fiecare submulime doar pe baza coninutului ei
Alegerea atributelor este independent de performana clasificatorului
Selecia atributelor este un pas anterior nvarii

Embedded

Alegerea atributelor are loc n timpul nvrii

Clasificarea automat a textelor


nvare proces
Reducerea dimensiunii Selecia atributelor Prin alegerea unei submulimi
de atribute Wrapper

Ideea de baz

MIRPR

Wrapper a nveli, a mpacheta


Funcia obiectiv este un clasificator care evalueaz fiecare submulime prin puterea ei predictiv
Alegerea atributelor este dependent de performana clasificatorului (algoritmului de nvare)
Algoritmul de nvare = cutie neagr pentru evaluarea submulimii de atribute n funcie de puterea
de nvare (clasificare) a acesteia

Algoritm

Se alege o metod de clasificare (nvare)


Se caut configuraia optim (submuime de atribute i parametri ai
clasificatorului)

Se alege o submulime de atribute


Se repet

nvarea i optimizarea clasificatorului


cuantificarea performanei clasificatorului
alegerea unei noi submulimi de atribute

pn cnd se obine cea mai bun performan n nvare

Clasificarea automat a textelor


nvare proces
Reducerea dimensiunii Selecia atributelor Prin alegerea unei submulimi
de atribute Wrapper

Cum se alege o submulime?

MIRPR

best-first
branch-and-bound
simulated annealing
algoritmi genetici
greedy

Forward selection

Backward selection

Variabilele sunt eliminate progresiv din submulime

Cum se stabilete performana algoritmului de nvare?

Variabilele sunt ncorporate progresiv n submuimi tot mai mari

Validare
Validare-ncruciat

Care algoritm de nvare s se foloseasc?

Arbori de decizie
Reele neuronale
Maini cu suport vectorial
Algoritmi evolutivi, etc

Clasificarea automat a textelor


nvare proces
Reducerea dimensiunii Selecia atributelor Prin alegerea unei
submulimi de atribute Filter

Ideea de baz

MIRPR

Funcia obiectiv evalueaz fiecare submulime doar pe baza coninutului ei


Alegerea atributelor este independent de performana clasificatorului
Selecia atributelor este un pas anterior nvarii

Evaluare

Distana sau msura separabilitii claselor

Ex. distana (Euclidean, Hamming, etc) ntre clase

Corelaia i msuri de informaie teoretic

Submulimile bune conin atribute

Msuri liniare

puternic corelate cu ieirea


ne-corelate ntre ele
Coeficientul de corelaie

Msuri neliniare

Informaia mutual

Clasificarea automat a textelor


nvare proces

MIRPR

Reducerea dimensiunii Selecia atributelor


Prin alegerea unei submulimi de
atribute

http://jmlr.csail.mit.edu/papers/volume3/guyo
n03a/guyon03a.pdf
http://jmlr.csail.mit.edu/proceedings/papers/v
4/guerif08a/guerif08a.pdf
http://courses.cs.tamu.edu/rgutier/cs790_w02
/l5.pdf

Clasificarea automat a textelor


nvare proces

Analiza documentelor de antrenament

Indexarea documentelor

MIRPR

Construirea unei reprezentri a documentelor


transformarea documentelor ntr-o form interpretabil de
ctre clasificator
Obinerea unor concepte/termeni reprezentative(i) atribute
Calcularea unor ponderi pt aceste atribute

Reducerea dimensiunii (a numrului de


concepte/atribute/termeni reprezentative(i) pentru
document)
Selecia atributelor
Extragerea atributelor

nvarea unui model de clasificare

Clasificarea noilor documente(de test)

Clasificarea automat a textelor


nvare proces
Reducerea dimensiunii Extragerea atributelor

Definire

MIRPR

Determinarea unei noi mulimi de atribute determinate pe baza celor originale proiecia
unui vector R-dimensional ntr-unul r-dimensional (r < R)
Noile atribute (mai puine) reprezint o transformare a atributelor originale

Dndu-se o mulime de atribute Xk=(xk1, xk2,...,xkm), s se gseasc o transformare


zk=g(xk):RmRp cu p < m astfel nct transformarea zk s pstreze (cea mai parte
din) informaia atributelor iniiale

Transformarea optim cea care nu determin creterea probabilitii de eroare


Transformarea poate fi

Liniar y = Wx, W Mm,p


Ne-liniar greu de determinat

Transformarea este ghidat de o funcie obiectiv care trebuie optimizat (min/max)

Metode de extragere a atributelor n funcie de criteriul msurat de funcia obiectiv:

Reprezentare a semnalului transformarea are drept scop reprezentarea datelor cu o


acuratee ct mai bun ntr-un spaiu mai redus

Clasificare transformarea are drept scop evidenierea discriminrii ntre clase ntr-un spaiu
mai mic

Analiza componentelor principale

Analiza discriminantului liniar

Clasificarea automat a textelor


nvare proces

Metode de reducere a dimensiunii Extragerea


atributelor Analiza componentelor principale

Scop

MIRPR

Transformarea unui set de variabile posibil corelate ntr-un


set de variabile necorelate ntre ele (componente
principale)
Prima component principal are cea mai mare varian
cuantific cea mai mare variabilitate posibil a datelor
ACP determin axele care explic cel mai bine dispersia
datelor (norul de puncte)
Descrierea datelor ntr-un spaiu dimensional mai mic

Alte denumiri
Transformarea Karhunen-Love
(teoria comunicaiilor)

Clasificarea automat a textelor


nvare proces

Metode de reducere a dimensiunii Extragerea atributelor


Analiza componentelor principale

Tipologie

MIRPR

ACP liniar date separabile liniar


ACP bazat pe kernele date neseparabile liniar

Algoritm

Pp c avem un set de date xi, i=1,2,..,n cu m atribute (xi Rm xi =(xi1,


xi2,...,xim))
Scderea mediei din fiecare dat (pe fiecare dimensiune) centrarea
datelor

Calcularea matricii de covariaie C

C = (cij), i, j =1,2,...,m, cij = cov(xi, xj), unde


cov(X,Y)=i=1,2,...,n(Xi-Xa)(Yi-Ya)/(n-1)

xi=(x1i,x2i,...,xni)

Determinarea vectorilor proprii vp i a valorilor proprii vp (eigenvector,


eigenvalue) corespunztoare matricii de covariaie A vp= vp vp
Alegerea componentelor i formarea vectorului de caracteristici (atribute)

xij=xij xja, unde xja= (x1j+x2j+...+xnj)/n

Se ordoneaz vectorii proprii descresctor dup valorile proprii atributele n


ordinea importanei
Formarea vectorului de caracteristici cu acei vectori proprii care se doresc a fi
reinui

Derivarea noilor date

Se nmulete vectorul de caracteristici cu vectorul datelor centrate

Clasificarea automat a textelor


nvare proces

Metode de reducere a dimensiunii Extragerea


atributelor Analiza discriminantului liniar

Scop

MIRPR

Determinarea unei combinaii liniare de atribute care s


separe datele (n clase) ct mai bine
Modelarea diferenelor ntre clase
Proiectarea datelor pe o linie/plan/hiperplan pentru a se
observa o mai bun separabilitate a datelor care este
cea mai bun proiecie?
y = wTx

Clasificarea automat a textelor


nvare proces

Metode de reducere a dimensiunii Extragerea atributelor


Analiza discriminantului liniar

Gsirea celei mai bune proiecii necesit definirea unei msuri


de separare ntre proieciile datelor
Distana ntre proieciile mediilor corespunztoare
datelor din fiecare clas

MIRPR

Nu este foarte bine pentru c nu se ine cont


de dispersia datelor n interiorul claselor

Fisher maximizarea raportului dintre


diferena mediilor i mprtierea n interiorul
claselor

o proiecie astfel nct:


exemplele din aceeai clas sunt proiectate
foarte aproape unele de altele
proieciile mediilor fiecrei clase sunt ct
mai deprtate unele de altele

Clasificarea automat a textelor


nvare proces

Metode de reducere a dimensiunii Extragerea atributelor


Analiza discriminantului liniar

Algoritm

MIRPR

Pp. c:

exist 2 clase,
i media instanelor din clasa i, i=1,2
n nr. total de instane
ni nr. de instane din clasa i

Se calculeaz
mprtierea intra-clas (scatter within class) Sw
Sw=i=1,2xclasai(x-i)(x-i)T
mprtierea ntre clase (scatter between classes) Sb
Sb=i=1,2ni(i-)(i-)T, unde =1/nxclasainii

Se maximizeaz
raportul dintre
ptratul diferenei mediilor (claselor) i
mprtierea intra-clas

Soluie
w=S-1w(1-2)

Clasificarea automat a textelor


nvare proces

Analiza documentelor de antrenament

Indexarea documentelor

Construirea unei reprezentri a documentelor transformarea


documentelor ntr-o form interpretabil de ctre clasificator

MIRPR

Obinerea unor concepte/termeni reprezentative(i) atribute


Calcularea unor ponderi pt aceste atribute

Reducerea dimensiunii (a numrului de concepte/atribute/termeni


reprezentative(i) pentru document)
Selecia atributelor
Extragerea atributelor

nvarea unui model de clasificare

Clasificarea noilor documente(de test)

Indexarea documentelor
Utilizarea modelului de clasificare pentru stabilirea categoriilor
fiecrui document de test

Clasificarea automat a textelor


nvare proces

nvarea unui model de clasificare

Alegerea unui algoritm de nvare

MIRPR

Fixarea/optimizarea parametrilor algoritmului

Arbori de decizie
Reele neuronale artificiale
Maini cu suport vectorial
Algoritmi evolutivi
Reele Bayesiene
Cum se aleg parametrii?

Construirea modelului de clasificare i salvarea


lui

Clasificarea automat a textelor


nvare proces

Analiza documentelor de antrenament

Indexarea documentelor

Construirea unei reprezentri a documentelor transformarea


documentelor ntr-o form interpretabil de ctre clasificator

MIRPR

Obinerea unor concepte/termeni reprezentative(i) atribute


Calcularea unor ponderi pt aceste atribute

Reducerea dimensiunii (a numrului de concepte/atribute/termeni


reprezentative(i) pentru document)
Selecia atributelor
Extragerea atributelor

nvarea unui model de clasificare

Clasificarea noilor documente(de test)

Indexarea documentelor
Utilizarea modelului de clasificare pentru stabilirea categoriilor
fiecrui document de test

Clasificarea automat a textelor


nvare proces

Metode de reducere a dimensiunii Extragerea atributelor Analiza


discriminantului liniar

Algoritm

Pp c:

MIRPR

Se caut k-1 vectori de proiecie


Se calculeaz

Raportul dintre

Ptratul diferenei mediilor (claselor) i

mprtierea intra-clas

Soluie

mprtierea intra-clas (scatter within class) Sw

Sw=i=1,2,...,kxclasai(x-i)(x-i)T
mprtierea ntre clase (scatter between classes) Sb

Sb=i=1,2,...,kni(i-)(i-)T, unde =1/nxclasainii

Se maximizeaz

exist k clase,
i media instanelor din clasa i, i=1,2,...,k
n nr total de instane
ni nr de instane din clasa i, i=1,2,...,k

w=S-1w(1-2)

http://research.cs.tamu.edu/prism/lectures/pr/pr_l10.pdf
http://www.dtreg.com/lda.htm
http://www.music.mcgill.ca/~ich/classes/mumt611_05/classifiers/lda_theory.pdf

Clasificarea automat a textelor


nvare proces

Metode de reducere a dimensiunii


Extragerea atributelor

MIRPR

Analiza componentelor principale


Analiza componentelor independente
Scalare multidimensional
Hri topografice

http://134.58.34.50/~marc/DM_course/slides_selecti
on.pdf
http://www.esi.uem.es/~jmgomez/tutorials/eacl03/sl
ides.pdf

S-ar putea să vă placă și