Documente Academic
Documente Profesional
Documente Cultură
Autor: mat. Radu CREULESCU Coordonator: Prof. univ. dr. ing. Lucian N. VINAN
SIBIU, 2009
Cuprins 1 2 Introducere i obiective principale .............................................................................. 3 Metaclasificatori n clasificarea de documente text .................................................... 6 2.1 2.1.1 2.1.2 2.1.3 2.1.4 3 3.1 3.1.1 3.1.2 3.1.3 3.1.4 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.3 3.3.1 3.3.2 3.3.3 4 5 Metaclasificator neadaptiv bazat pe sum ponderat (Eurovision)..................... 7 Metaclasificator neadaptiv bazat pe sum (M-SUM) ..................................... 7 Metaclasificator neadaptiv bazat pe sum normalizat (M-ESUM) ............... 9 Metaclasificator neadaptiv bazat pe sum ponderat (M-WSUM) ...............10 Cercetri privind alte variante de ponderare a elementelor vectorilor ..........11 Postclasificare utiliznd metoda Backpropagation ...........................................13 Modelul neuronului artificial ........................................................................ 15 Arhitectura reelelor neuronale...................................................................... 17 nvarea reelelor neuronale......................................................................... 17 Perceptronul .................................................................................................. 21 Metoda Backpropagation .................................................................................. 24 Perceptroni multistrat cu funcie de activare neliniar.................................. 24 Perceptronul multistrat .................................................................................. 24 Algoritmul Backpropagation......................................................................... 26 Rezultate privind evitarea saturrii ieirii neuronilor.................................... 29 Rezultate privind utilizarea reelei BP n cadrul metaclasificatorului (M-BP) .30 Influena numrului de neuroni de pe stratul ascuns..................................... 32 Influena coeficientului de nvare............................................................... 34 Rezultate obinute n cazul antrenrii pe setul AV1 i ale testrii pe TV1 ... 37
Pagina 2 din 42
Introducere i obiective principale prezentate n [Mora08]. n cadrul metaclasificatorului final aceti metaclasificatori neadaptivi (selectori) vor avea un rol de preclasificare. n cele ce urmeaz propun un metaclasificator format dintr-un selector neadaptiv folosit n faza de preclasificare i o reea neuronal n faza de postclasificare, pe care l voi evalua.
Fig. 1.1 Etape n procesul de clasificare automat de documente n capitolul 3 am prezentat arhitectura reelelor neuronale cu structura de tip feed-forward precum i cunotinele matematice de baz necesare pentru dezvoltarea unei reele cu nvare Pagina 4 din 42
Introducere i obiective principale supervizata de tip backpropagation. Aceast reea o voi utiliza n etapa de postclasificare din cadrul metaclasificatorului adaptiv. Reelei i se vor prezenta la intrare un set de vectori de valori corespunztoare pentru fiecare clas generat de ctre selector iar la ieire va prezice clasa corespunztoare documentului curent. n finalul capitolului sunt prezentate rezultatele obinute n urma unor simulri efectuate utiliznd diverse seturi de date n ultimul capitol am prezentat o serie de concluzii extrase n urma analizei rezultatelor obinute pe baza de date Reuters [Reut00]. De asemenea sunt propuse cteva perspective de dezvoltare n acest domeniu.
Pagina 5 din 42
Metaclasificatori n clasificarea de documente text n cazul metaclasificatorilor adaptivi, exist posibilitatea ca, dup o perioad de utilizare s apar suspiciunea ca, dei un clasificator este ales la un moment dat ca fiind cel mai potrivit pentru clasificarea documentului curent, acesta s clasifice incorect acel document. n acest caz, se va alege clasa cu o valoare mai mic cu un prag =0.5 fa de clasa cu valoarea cea mai mare dat de acel clasificator. Astfel, acurateea clasificrii finale a metaclasificatorului s-a mbuntit ajungnd la 93,87% n cazul celui bazat pe cosinus. Avnd n vedere faptul c limita maxim prezentat mai sus este 98,63%, aceste rezultate obinute sunt ncurajatoare. n acest capitol voi prezenta realizarea unui nou metaclasificator. Acesta este realizat dintr-un metaclasificator neadaptiv care va folosi o sum ponderat pentru stabilirea clasei finale urmat de un metaclasificator neuronal adaptiv. Acest metaclasificator neuronal utilizeaz un metaclasificator neadaptiv cu rol de preclasificare, i o reea neural cu rol de postclasificare. Reeaua neuronal va fi prezentat n capitolul urmtor.
neadaptiv
bazat
pe
sum
ponderat
Metaclasificatorul, propus n continuare, conine cei 9 clasificatori utilizai n seciunea anterioar i pleac de la premisa c ar conta i numrul i locul pe care apare fiecare clas n parte. De exemplu n cazul a doi clasificatori i 3 clase, dac o clas apare o dat pe locul 1 i o dat pe locul 3 i o alt clas apare de 2 ori pe locul 2, este posibil ca cea de-a doua clas s fie mai valoroas, chiar dac nu a obinut niciodat locul 1.
Pagina 7 din 42
Valorile funciilor de decizie pentru clasificatorii de tip SVM se afl n intervalul (-,) dar n apropierea valorii 0, iar pentru clasificatorul de tip Bayes valorile se afl n intervalul (-, 0). Avnd n vedere aceste diferene i pentru a putea realiza nsumarea valorilor vectorilor, am transpus valorile vectorilor n intervalul [1, ).
Vi = Vi + min(V ) + 1
(2.1)
Astfel, pentru fiecare vector cea valorile lor de ieire ai clasificatorilor de tip SVM se pstreaz. La fel i pentru clasificatorul de tip Bayes. Pentru a putea realiza nsumarea acestor vectori n urmtorul pas am normalizat vectorii aducnd valorile acestora n intervalul (0,1].
Vi =
Vi max(V )
(2.2)
n cazul metaclasificatorului care realizeaz doar sumele (numit in continuare M-SUM) am nsumat cele 16 valori ale acestor 9 vectori, vezi Fig. 2.2, clasa ctigtoare fiind clasa cu valoarea cea mai mare obinut. Class = max
ci ,i =1,16 9
V [ k ]
k =1 i
(2.3)
Acest metaclasificator, fiind unul neadaptiv, va obine ntotdeauna acelai rezultat pentru o anumit instan de intrare. n cazul rulrii pe cele 2351 documente de test (setul T1 din [Cret08]) am obinut un numr de 313 documente clasificate eronat, care reprezint o acuratee a clasificrii de 86,68%, cu 0,59% mai mare dect valoarea obinut folosind votul majoritar i toi cei 9 clasificatori. Astfel putem concluziona c metoda bazat pe luarea n considerare doar a clasei nvingtoare (majority vote) are dezavantaje fa de metoda prezentat mai sus. n acest
Pagina 8 din 42
Metaclasificatori n clasificarea de documente text caz, exist ansa ca o clas care poate niciodat nu a obinut locul 1 dar a obinut valori apropiate de maxim s fie n final clasa corect.
Pagina 9 din 42
n urma acestei ponderri, am obinut un numr de 316 erori de clasificare, ceea ce reprezint o acuratee a clasificrii pe setul T1 de 86,55% pentru aceast metod. Rezultatele obinute sunt cu 0,12% mai slabe dect cele obinute direct pe sum.
Pagina 10 din 42
Metaclasificatori n clasificarea de documente text n acest caz am obinut un numr de 305 documente clasificate eronat pe setul T1, acurateea clasificrii pentru acest metaclasificator fiind de 87,02%. Aceast acuratee de clasificare obinut este cea mai mare care a fost obinut prin utilizarea unui metaclasificator neadaptiv, dar evident mai mic dect limita maxim de 98,63%, la care poate ajunge teoretic metaclasificatorul.
n acest experiment pentru ponderi am ales valori mici, diferena dintre ele fiind de 0,1. Astfel, ponderea valorii clasei cele mai probabile va fi de 2,5 iar a celei mai puin probabile va fi 1. Ideea este de a nu face o diferen foarte mare ntre clasele de pe diferite poziii, dar totui s favorizm puin clasa situat pe o poziie superioar. n acest caz, metaclasificatorul a avut un numr de 304 documente clasificate incorect, ajungnd astfel la o acuratee de clasificare de
Pagina 11 din 42
Metaclasificatori n clasificarea de documente text 87,07%. Alegerea ponderrii distincte pentru fiecare loc cu valori apropiate este benefic n acest context.
Pas 1,0 (M-1.0W)
De aceea, n urmtorul experiment am ponderat clasele cu valori descresctoare distincte cu pasul 1. Astfel, pentru prima poziie valoarea ponderii este de 16, pentru a doua poziie valoarea ponderii este de 15 .a.m.d. pn la ultima poziie la care valoarea ponderii este de 1. n acest caz numrul de documente incorect clasificate de ctre metaclasificator a sczut la 303, ceea ce reprezint o acuratee a clasificrii de 87,11%.
Pas 0,5 (M-0.5W)
Totui, cele mai bune rezultate le-am obinut n cazul n care valorile ponderilor scad liniar cu un pas egal cu valoarea 0,5. Valoarea de prima poziie va fi ponderat cu valoarea 8,5 .a.m.d. descresctor pn la ultima poziie unde valoare ponderii este 1,0. Astfel, numrul de documente incorect clasificate de ctre metaclasificator a sczut la 301 rezultnd o acuratee a clasificrii de 87,20%. n Fig. 2.5 prezentm comparativ rezultatele obinute n acest capitol.
Influena modului de ponderare
87.4 87.2 87 Acurateea clasificrii 86.8 86.6 86.4 86.2 86 85.8 85.6 85.4
M -V M M -E SU M M M -H W M -0 .1 W M -0 .5 W M -W SU M -1 .0 W M -S U M
87.11
86.09
86.22
Pagina 12 din 42
Metaclasificator bazat pe reea neuronal paralelism masiv reprezentare i procesare distribuit abiliti de nvare abiliti de generalizare adaptabilitate procesarea a informaiei pe baz de context toleran la erori consum redus de energie
Calculatoarele numerice actuale domin net omul n ceea ce privete prelucrrile numerice. Totui, omul poate fr efort s rezolve unele probleme complexe de percepie i recunoatere a formelor cu o vitez incomparabil superioar celor mai performante calculatoare. Aceasta diferen provine din arhitectura complet diferit fa de cea a mainii von Neuman. Inspirate din reelele neuronale biologice, Reelele Neuronale Artificiale (RNA) sunt sisteme de calcul cu paralelism masiv constituite dintr-un numr mare de elemente de procesare simple - numite neuroni - cu multe interconexiuni ntre ele. Modelele propuse pentru RNA respect anumite principii de organizare presupuse ca fiind folosite n creierul uman. Considerm urmtoarele proleme de interes pentru domeniul tiinei calculatoarelor i ingineriei:
Clasificarea de patternuri - problema este de a atribui unui pattern de intrare,
reprezentat printr-un vector de trsturi una sau mai multe clase prespecificate.Ca i aplicaii binecunoscute amintesc recunoaterea de caractere, clasificarea de documente, clasificarea celulelor sangvine etc.
Clustering/grupare - cunoscut i sub denumirea de clasificarea nesupervizat de
patternuri n care nu avem date de antrenament la care s cunoatem clasele. Algoritmul de clustering va exploata similaritatea dintre patternuri i va plasa patternuri similare n acelai cluster. Ca i aplicaii amintim cele de compresie de date, analiza datelor i data mining.
Aproximarea funciei - presupunem un set de n date de antrenament etichetate,
care au fost generate de o funcie necunoscut (susceptibile la zgomot). Problema este de a gsi o estimare ct mai exact a funciei necunoscute.
Predicie/pronostic - dndu-se un set de n eantioane preluate ntr-o secven de
timp, problema este de a prezice valoarea urmtorului eantion. Spre exemplu aceast problem are un impact semnificativ pe piaa de capital. Pagina 14 din 42
economie sunt probleme de optimizare. Ideea acestui algoritm este de a gsi o soluie care satisface un set de constrngeri astfel nct funcia scop este maximizat sau minimizat.
Memoria adresabil prin coninut - n modelul von Neumann, o intrare n
memorie este accesat doar prin intermediul adresei, care este independent de coninutul memoriei. Mai mult dect att, dac se produce o eroare n calcularea adresei, se poate obine o valoare complet diferit. Memoria asociativ sau memoria adresabil prin coninut poate fi accesat prin coninutul ei. Coninutul memoriei poate fi obinut chiar dac avem o intrare incomplet sau un coninut distorsionat. n evoluia RNA exist trei perioade distincte. Prima are loc n anii '40, prin munca de pionierat a lui McCulloch i Pitts. A doua perioad, n anii '60, are la baz teorema lui Rosenblatt de convergen a perceptronului i demonstrarea de ctre Minsk i Papert a limitrilor perceptronului simplu. Abia ncepnd cu anii '80 domeniul RNA i-a redobndit interesul. Aceasta are la baz introducerea noiunii de energie n reeaua Hopfield n 1982 i gsirea algoritmului de nvare cu retropropagarea erorii (Backpropagation) pentru reele cu propagare nainte (feedforward) multistrat, propus iniial de Paul Werbos, n 1974, i redescoperit i popularizat de Rumelhart et al n 1986.[Maca03]
x1 x2
w1 w2
xn
wn
Pagina 15 din 42
Metaclasificator bazat pe reea neuronal Acest neuron artificial calculeaz suma ponderat a n semnale de intrare, adaug o valoare numit prag i apoi aplic acestei valori o funcie de activare genernd ca ieire o valoare cuprins n intervalul (0,1) S = xi wi +
i =1 n
y = f (S )
(3.1)
n aceste relaii xi reprezint semnalul intrrii i i wi sinapsa (ponderea, tria sinaptic) asociat acestei intrri. Termenul reprezint o valoare de prag (de offset, bias), care deplaseaz (transpune) ieirea S a neuronului. Ieirii S i se aplic o funcie de activare f care va transpune (normaliza) ieirea neuronului n domeniul de valori dorit. Exist o analogie a acestui model cu neuronul biologic: interconectrile modeleaz axonul i dendritele, ponderile conexiunilor reprezint sinapsele, iar funcia de activare aproximeaz activitatea din soma (corpul neuronului). Modelul de neuron propus de McCulloch-Pitts a fost generalizat n mai multe feluri. Una dintre cele mai evidente modificri este utilizarea de funcii de activare n locul funciei de prag. Pentru funcia de activare, cele mai des ntlnite funcii sunt cele prezentate n Fig. 3.2: 1, if x 0 a - funcia de activare treapt, step ( x) = 0, if x < 0 + 1, if x 0 b - funcia de activare semn, sign( x) = 1, if x < 0 c - funcia de activare sigmoidal, sigmoid ( x) =
1 1 + e x
( m x )2 2 2
1 -1
Modelul neuronului prezentat anterior, avnd funcia de activare treapt este modelul iniial propus de McCulloch i Pitts n 1943. Cel mai popular model al neuronului a devenit ns cel cu funcia de activare sigmoidal, care este strict monoton cresctoare, mrginit i derivabil:
Pagina 16 din 42
Metaclasificator bazat pe reea neuronal Principalul avantaj al RNA n raport cu sistemele expert clasice este acela c, n loc de a folosi un set de reguli date de un expert uman, are loc o nvare prin exemple. Din punct de vedere al organizrii datelor de intrare, exist dou categorii de nvare [Jain96]: nvarea nesupervizat, n care se prezint reelei doar datele de intrare fr a se specifica i ieirea dorit pentru acestea, astfel c reeaua nu are nicio informaie despre prezena sau valoarea erorii. n acest caz, reeaua este lsat s evolueze liber, urmnd ca la sfrit s constatm rezultatul nvrii. Reeaua analizeaz corelaiile ntre datele de intrare i organizeaz datele n categorii pe baza acestor corelaii. nvarea supervizat, n care mulimea de exemple de antrenament este organizat sub forma de perechi intrare-ieire, specificnd reelei la fiecare pas care trebuie s fie ieirea corect, urmnd ca reeaua s generalizeze datele de intrare. Ponderile sunt modificate astfel nct reeaua s produc ieiri ct mai apropiate de rspunsul corect. nvarea prin ntrire ("reinforcement learning") este o variant a nvrii supervizate n care se furnizeaz reelei doar o informaie despre prezena erorii nu i a valorii propriu zise a ei. Fiecare tip de reea i modific ponderile n funcie de anumite reguli de nvare care depind att de tipul datelor de intrare ct i de modul de construcie al reelei. Din punctul acesta de vedere, exist patru tipuri consacrate de reguli de nvare principale: nvare prin corecia erorii; regula lui Boltzmann; regula lui Hebb; nvarea competitiv.
w =
unde E este eroarea global (dependent de w) i este viteza de nvare (mrimea pasului fcut pe direcia gradientului). Aceast relaie st la baza nvrii n reelele feedforward multistrat. Pagina 18 din 42
E w
(3.3)
Metaclasificator bazat pe reea neuronal Ideea de baz este de a utiliza panta gradientului pentru a cuta n spaiul ipotezelor de posibili vectori de ponderi pentru a gsi acele ponderi care aproximeaz cel mai bine exemplele de antrenament. Aceast regul este important, deoarece furnizeaz bazele algoritmului Backpropagation, care este utilizat n cazul reelelor cu multe uniti interconectate. Panta gradientului caut s determine vectorul pondere care minimizeaz eroarea pornind de la un vector pondere iniial arbitrar, care este apoi modificat repetat n pai mici. La fiecare pas, vectorul pondere este modificat n direcia n care produce o pant descendent de-a lungul suprafeei erorii. Acest proces continu pn cnd eroarea minim global este atins. Regula de nvare a perceptronului simplu propus de Rosenblatt n 1962 folosete o variant simplificat a regulii de minimizare a erorii. n acest caz avem (3.4) n care w i x sunt vectorul ponderilor i vectorul de intrare, d este ieirea dorit i y ieirea real. Regula de nvare pentru reeaua Adaline (strat de perceptroni cu ieirea liniar), cunoscut i ca Regula Widrow-Hoff, are i ea la baz minimizarea erorii
w = ( d y )x
wij = x j (Ti y i )
(3.5)
unde wij este ponderea legturii ieirii i cu intrarea j, x vectorul de intrare, T vectorul dorit la ieire i y vectorul ieirii reale. Se poate demonstra c regula anterioar este o particularizare a regulii gradientului n cazul definirii erorii conform E= 1 N (T y i ) 2 2 i =1 i (3.6)
1+ e x fiind strile celorlalte uniti, wij coeficienii sinaptici, valori de prag iar T "temperatura". Alegerea noii stri se face n concordan cu probabilitatea pi. Pentru a nva asocieri ntre vectori de intrare i vectori de ieire se procedeaz astfel: rulare n mod forat ("clamped") - pentru fiecare pereche de vectori intrare-ieire se
unde ~i = wij x j i x
j i
(3.7)
foreaz unitile de intrare i ieire la aceste valori reeaua evolund pn la atingerea echilibrului termic. Dup atingerea acestui echilibru se determin probabilitatea ca dou uniti
Pagina 19 din 42
Metaclasificator bazat pe reea neuronal s fie simultan active. Se repet experiena pentru fiecare pereche de vectori intrare-ieire. Se estimeaz <ij>+ probabilitatea ca unitile i i j s fie active simultan cnd unitile vizibile sunt forate la valorile dorite. rulare n mod liber ("free") - se repet paii anteriori fornd ns doar unitile de
intrare, cele de ieire fiind lsate s evolueze liber. Se estimeaz <ij>- probabilitatea ca unitile i i j s fie active simultan cnd unitile de ieire sunt libere. Ponderile coeficienilor sinaptici se modific apoi conform regulii de nvare Boltzmann wij = ( < ij > + < ij > ) unde este rata de nvare. (3.8)
Regula de nvare Boltzmann poate fi privit ca i un caz special de nvare prin reducere a erorii, n care eroarea nu este msurat direct ci ca diferen a corelaiei ntre ieiri n cele dou moduri. Se ncearc astfel ca reeaua s evolueze la fel att n mod forat ct i liber.
wij = yi xi (3.9) unde xi i yj sunt activitile celor doi neuroni i i j conectai prin sinapsa wij i este rata de nvare. Regula lui Hebb este plauzibil biologic i prezint avantajul c nvarea se face n mod local, modificarea ponderii unei sinapse depinznd doar de neuronii alturai ceea ce faciliteaz implementarea n circuite VLSI.
Metaclasificator bazat pe reea neuronal Regula de modificare a ponderilor sinaptice este: (x j w * ) i = i * i j (3.10) wij = 0 i i* Se observ c se modific numai vectorul ponderilor legturilor sinaptice al neuronului ctigtor. Efectul aplicrii acestei reguli de nvare este acela c vectorul w (memorat) se apropie de vectorul de intrare. Conform regulii de nvare competitiv reeaua va termina nvarea (actualizarea ponderilor) doar n momentul n care rata de nvare este 0. Un pattern de intrare particular poate activa diferite uniti de ieire la iteraii diferite pe durata nvrii. Aceasta duce la un comportament stabil al sistemului de nvare. Un sistem este stabil dac nici un pattern din datele de antrenament nu-i schimb categoria dup un numr finit de iteraii de nvare. O metod de a obine un sistem stabil este de a fora rata de nvare s descreasc gradual pe parcursul procesului de nvare pn cnd devine 0. Aceast ngheare artificial a nvrii cauzeaz o alt problem numit adaptibilitate, care reprezint abilitatea unei reele de a se adapta la noi date. Aceasta este cunoscut ca dilema stabilitate-adaptabilitate a lui Grossberg.
3.1.4 Perceptronul
Una din cele mai simple reele neurale este perceptronul (o singur celul). este prezentat n figura
X0=1 X1 X2 w0 w1 w2 wn Xn
Fig. 3.3 Calcularea ieirii perceptronului
O(x )
Pagina 21 din 42
Metaclasificator bazat pe reea neuronal Perceptronul poate fi considerat a fi reprezentarea unei suprafee de decizie ntr-un hiperplan n spaiul n-dimenisonal al intrrilor. Ecuaia acestui hiperplan de decizie este W X =0 Astfel perceptronul poate fi utilizat ca fi un clasificator binar sau un predictor (Taken = +1 or Not_Taken = -1). Bineneles acest perceptron poate clasifica corect doar un set de exemple ( X ).care sunt linear separabile. De exemplu funcia logic XOR nu poate fi reprezentat de un singur perceptron. Problema principal este cum s formulm o regul de nvare pentru un perceptron simplu pentru a nva corect un set de vectori de antrenament pe care l vom nota cu D. Dac considerm pentru fiecare exemplu (vector de antrenament) o regul de nvare supervizat
d D este necesar s cunoatem ieirea corespunztoare denumit td.
n
E (w ) =
1 (t d Od ) 2 2 dD
Dat fiind formula pentru E ( w ) suprafaa trebuie s fie ntotdeauna un paraboloid cu un singur minim global. Bineneles n particular w care d minimul clasific n cea mai bun msur exemplul X dk , k=0,1,..,n.. Gradientul E (w ) se noteaz
E E E n E , ,..., ik E ( w ) = = w0 w1 wn k =0 wk
unde ik sunt vectorii unitate ortogonali in spaiul n dimensional. Se tie c gradientul specific direcia n care se produce cea mai rapid micorare a lui E. n acest caz regula de nvare ar fi
wk wk
Dar:
E = wk wk
Pagina 22 din 42
Metaclasificator bazat pe reea neuronal Aceast regul se numete regula de gradient descendent sau regula delta. Implementarea algoritmului este descris mai jos [Vintan07]:
Initialize each Wk to random values Until
2 2 , n n
For each pair (xd, td), from training examples, DO: Compute Od For each Wk, DO:
wk wk + (t d Od ) x dk wk = wk + wk
O idee alternativ este gsirea aproximrii gradientului descendent prin actualizarea ponderilor incremental, urmat de calcularea erorii pentru fiecare exemplu de antrenament. O modalitate de a implementa stohastic acest gradient descendent este s considerm eroarea distinct E d ( w) = 1 (t d Od )2 2
Utiliznd aleator exemplele Xd obinem o aproximare rezonabil a micorrii gradientului n comparaie cu eroarea global E ( w) Regula stohastic pentru gardientul descendent este:
Initialize each wk randomly to
2 2 n ,+ n
Until the termination condition is met ( E d ( w) < T or Od > T , etc.) , DO: For each (xd, td), DO: Compute Od For each wk, do:
wk wk + (t d Od ) x dk
Regula standard a gradientului descendent este consumatoare de timp datorit nsumrii a multiplelor exemple dar se utilizeaz adesea cu o rat de nvare per exemplu mai mare dect rata de nvare per exemplu la regula stohastic cu gradientul incremental descendent. Dac
E(W ) are multiple minime locale gradientul stohastic poate evita n unele cazuri oprirea n
aceste minime locale deoarece utilizeaz diverse E d (W ) n gsirea minimului Dac considerm ieirea perceptronului O( X ) = sgn(W X ) n locul O( X ) = W X atunci aceast regul se denumete regula de antrenare a perceptronului
wk wk + (t o )xk , ()k = 0,1,..., n
Pagina 23 din 42
Metaclasificator bazat pe reea neuronal Dac exemplul de antrenament este corect clasificat (t=o) nu se actualizeaz nicio pondere. Presupunem acum o=-1 i t = +1. n acest caz toate ponderile wk cu valorile pozitive xk vor fi incrementate iar celelalte ponderi wk vor fi decrementate. Similar pentru o = +1 and t = -1 toate ponderile wk cu valori xk negative vor fi incrementate iar restul ponderilor wk vor fi decrementate. Ca i o regul intuitiv dac sgn t = sgn x k atunci wk va fi incrementat iar altfel wk va fi decrementat.
Nk j =1
wij (k ) x j (k )
)
Pagina 24 din 42
(3.11)
Metaclasificator bazat pe reea neuronal activarea unitii i din stratul k+1, Nk numrul de uniti din stratul k i f este funcia de activare. Notm ui (k + 1) argumentul funciei f, deci
k ui (k + 1) = j =1 wij (k ) x j (k )
(3.12)
Pentru fiecare vector de ieire eroarea global este dat de 1 N 2 (Ti xi ) 2 i =1 xi fiind activitile stratului de ieire i Ti valorile dorite la ieire. Numim eroare a unei uniti: pentru ultimul strat
E=
(3.13)
(3.14)
(3.15)
(3.16)
wij (k ) = x j (k ) erri (k + 1)
(3.17)
Relaiile anterioare pun n eviden "retropropagarea erorii" ("backpropagation"). Ele sugereaz ideea c informaia de eroare de la ieire se propaga napoi prin reea contrar sensului legturilor sinaptice (lucru ns foarte puin plauzibil a avea loc n reelele neuronale biologice.) Cu toat aceast, probabil, ndeprtare de funcionarea reelelor neuronale biologice regula backpropagation a fcut aceste reele foarte populare ducnd la renaterea interesului i utilizrii reelelor neuronale. ntotdeauna trebuie nvate asocieri ntre mai muli vectori de intrare i de ieire. n acest caz, funcia de eroare total este suma funciilor de eroare corespunztoare perechilor individuale intrare/ieire. Aceast eroare poate fi minimizat n dou moduri: 1 off-line - se determin, pentru fiecare pereche intrare/ieire modificarea ce trebuie adus coeficienilor sinaptici. Aceste modificri se sumeaz i se aplic numai dup ce au fost prezentate toate perechile intrare/ieire. Algoritmul realizeaz o optimizare determinist dup gradient a erorii totale. Pagina 25 din 42
Metaclasificator bazat pe reea neuronal 2 on-line - modificarea coeficienilor calculat pentru o pereche intrare/ieire este aplicat imediat dup prezentarea acestei perechi. Algoritmul realizeaz o optimizare dup gradient pentru eroarea total. Prezint, n raport cu precedentul, avantajul c este n general mai rapid i poate prsi unele minime locale ale funciei de eroare total. n ceea ce privete parametrul - mrimea pasului n direcia gradientului - acesta determin viteza de convergen spre un minim al erorii E. Cnd este redus, convergena este lent dar traiectoria urmeaz n mod fidel relieful funciei de eroare. Dac E are minime locale, procedura determinist poate eua n acestea. Cnd este mare, traiectoria nu mai urmrete fidel relieful funciei de eroare, ceea ce poate duce la imposibilitatea convergenei (salturi de o parte i de alta a minimului cutat), dar permite uneori evadarea din minime locale. n practic se ncepe cu un relativ mare, iar apoi, pe msur ce reeaua nva, aceast valoare se reduce treptat. O interpretare geometric poate ajuta la explicarea rolului neuronilor (cu funcie de activare) de pe stratul ascuns. Fiecare unitate din stratul de intrare formeaz un hiperplan n spaiul eantioanelor de antrenament. Graniele dintre clasele eantioanelor de antrenament pot fi aproximate de ctre hiperplane. O unitate de pe nivelul ascuns formeaz o hiperregiune pentru ieirile unitilor de pe primul nivel. O suprafa de decizie este obinut prin efectuarea unei operaii AND ntre hiperplane. Unitile de pe nivelul de ieire combin suprafeele de decizie create de unitile de pe nivelul ascuns prin efectuarea operaiilor OR logice. Acest scenariu este doar pentru a explica rolul unitilor ascunse, iar comportamentul normal al reelei, dup ce reeaua este antrenat, poate diferi. De cele mai multe ori se utilizeaz un singur strat de neuroni ascuni (reele cu trei straturi), deoarece s-a demonstrat c o asemenea reea (avnd un numr suficient de neuroni n stratul intermediar) poate aproxima orict de bine orice funcie avnd un numr finit de discontinuiti dac funciile de activare ale neuronilor stratului ascuns sunt de tip sigmoidal.
Metaclasificator bazat pe reea neuronal forward care conin dou nivele de uniti, cu funcia de activare sigmoid, fiecare unitate de pe un nivel fiind conectat cu toate unitile de pe nivelul anterior. Aceasta este o versiune a algoritmului backpropagation care calculeaz, incremental sau stohastic, panta gradientului.
Backpropagation (exemple_antrenament, , nin, nout, nhidden) Fiecare exemplu de antrenament este o pereche de forma
x , s , unde
condiia
de
terminare
nu
este
ndeplinit
execut
(exemplu,
eroarea....) o Pentru fiecare x , s din exemple_antrenament execut Propag semnalul forward prin reea: 1. se introduce instana
pentru fiecare neuron din reea Propag eroarea napoi prin reea - backward 2. pentru 3. pentru fiecare fiecare neuron neuron de de ieire pe din reea ascuns se se calculeaz calculeaz eroarea conform formulei (3.14) stratul eroarea conform formulei (3.15) 4. calculeaz
w ji = erri x ji
pentru
nivelele
anterioare
prin
w ji w ji + w ji
Algoritmul este descris aici pentru o reea feed-forward coninnd dou straturi de uniti cu funcia sigmoid de activare n cazul general (Fig. 3.4). Fiecare unitate de pe fiecare strat este conectat cu toate unitile de pe stratul precedent. Unitile de pe stratul de intrare sunt Pagina 27 din 42
Metaclasificator bazat pe reea neuronal considerate uniti repetoare care prezint la ieire valoarea primit la intrare. De asemenea sunt prezentate formulele de calcul pentru aceast reea att pentru pasul forward ct i pentru pasul backward. Pentru pasul backward s-a luat n considerare formula de calculul a erorii prezentat
n out
n ecuaia
(3.20)
Strat intermediar Strat de iesire
Strat de intrare
neuroni
nin
nhidden
neuroni
neuroni
nout
Pentru acest caz, conform [Brea06], formulele generale date de regula backpropagation devin, cu notaiile urmtoare: ponderea legturii neuronului h (hidden) din stratul intermediar (2) cu neuronul i din stratul de intrare ("input") (1) 2[h] w23[o][h] valoarea de prag a neuronului h din stratul intermediar (2) ponderea legturii neuronului o (output) din stratul de ieire (3) cu neuronul h din stratul intermediar (2) 3[o] Out1[i] Out2[h] Out3[o] Scop[i] F(.) valoarea de prag a neuronului o din stratul de ieire (3) valoarea ieirii neuronului i din stratul de intrare valoarea ieirii neuronului h din stratul de intermediar valoarea ieirii neuronului o din stratul de ieire valoarea dorit la ieire funcia de activare a tuturor neuronilor
w12[h][i]
nin, nhidden, nout numrul de neuroni din stratul 1, 2 respectiv 3 Pagina 28 din 42
n in
Out 3 [o] = F(
n out
n hidden h =1
23
w =
E = 2 (Out3 [o] Scop[o]) F '(Out3 [o]) 3 [o] E = 2 (Out3[o] Scop[o]) F '(Out3[o]) Out2 [h] w23[o][h]
out
n E = 2 (Out3[o] Scop[o]) F ' (Out3[o]) w23[o][h] F ' (Out2 [h]) (3.24) 2 [h] o=1
E w12 [h][i ]
= 2 (Out3[o] Scop[o]) F ' (Out3[o]) w23[o][h] F ' (Out2 [h]) Out1[i ] (3.25)
o=1
nout
Considernd pentru funcia F funcia sigmoid clasic, derivata se determin uor din valoarea funciei conform relaiei:
F ( x) = F ( x)i(1 F ( x) )
(3.26)
Metaclasificator bazat pe reea neuronal neuroni de intrare, 2 neuroni n stratul ascuns i un singur neuron de ieire, cu funcii de activare sigmoide pentru toi neuronii, care s rezolve binecunoscuta problema XOR. Am folosit la antrenare metoda backpropagation clasic, nvare off-line i rata de nvare constant = 1. Evoluia comparativ a erorii reelei n primii 4001 pai este prezentat n Fig. 3.5.
Evolutia erorii pentru problema XOR
6.00E-01 5.00E-01
Eroarea
2501
3001
3501
4001
n primele etape de antrenament prima variant duce la o nvare mai rapid deoarece eroarea determinat de reea este mai mare. n urmtoarele ns, pe msura apropierii valorii ieirii de valorile de saturaie ale funciei sigmoide nvarea devine foarte lent. n varianta a doua valorile dorite la ieire se ating repede datorit evitrii zonei de saturaie a funciei sigmoide. Rezult deci c scalarea domeniului semnalului de intrare la domeniul 0.1 0.9 este benefic i a fost aplicat n toate experimentele descrise n lucrare n care neuronii au funcia de activare sigmoid.
3.3 Rezultate
privind
utilizarea
reelei
BP
cadrul
metaclasificatorului (M-BP)
Metaclasificatorul realizat se bazeaz pe o preclasificare de documente prezentat n seciunea 2.1.3 i o reea neuronal de tip feed-forward cu nvare online. Am dorit s includem n metaclasificatorul M-BP (Metaclasificator cu reea BackPropagation) o reea neuronal deoarece am considerat c un metaclasificator adaptiv poate va reui s se adapteze i la datele cu probleme, care exist n setul de antrenare/testare. Reelele neuronale sunt sisteme care se adapteaz la schimbrile survenite n seturile de date astfel c metaclasificatorul M-BP devine unul mult mai adaptiv dect metodele SBDE i SBCOS dezvoltate i prezentate n [Mor06].
Pagina 30 din 42
Metaclasificator bazat pe reea neuronal Cel mai bun rezultat de pn acum prezentat n lucrare s-a obinut cu ajutorul metaclasificatorului bazat pe cosinus, unde acurateea de clasificare a atins valoarea de 93,87% pe setul de test T1 cu 2351 documente. Pentru antrenarea i testarea reelei Backpropagation am plecat de la setul de vectori obinut de metaclasificatorul neadaptiv, prezentat n seciunea 2.1.3. Am antrenat acel metaclasificator att pentru setul de antrenament A1 (4702 documente) ct i pe setul de test T1 (2351 documente) [Cret08] Ca i intrare n acest metaclasificator avem setul de date, iar la ieire, obinem un set de vectori, cte un vector pentru fiecare document de intrare, de 16 elemente fiecare. Setul de vectori obinut pornind de la setul de documente de antrenare A1, pe care l vom numi n continuare setul AV1, va fi folosit n etapa de antrenare a reelei. Setul de vectori obinut pornind de la setul de documente de testare T1, numit n continuare TV1, va fi folosit att n etapa de testare ct i n etapa de determinare a configuraiei reelei. n ceea ce privete arhitectura reelei backpropagation, am ales una care conine dou straturi de uniti cu funcia sigmoid de activare, iar fiecare unitate de pe fiecare strat este conectat cu toate unitile de pe stratul precedent. Deoarece la intrare avem la dispoziie vectori de 16 elemente reeaua va avea pe stratul de intrare 16 neuroni. La ieire metaclasificatorul trebuie s prezic clasa n care se gsete documentul curent. Atunci reeaua Backpropagation va avea la ieire tot un numr de 16 neuroni deoarece avem 16 clase distincte. n stratul ascuns avem un numr variabil de neuroni, alegerea acestui numr va fi fcut n funcie de rezultatele simulrilor care vor fi prezentate n seciunea urmtoare (3.3.1). n faza de antrenare, deoarece reeaua este una cu nvare supervizat, pentru setul de antrenare am creat un set cu rspunsurile corecte pentru fiecare document n parte. Un astfel de rspuns conine valoarea 1 pe poziia clasei corecte i valoarea 0 n rest. Structura metaclasificatorului adaptiv M-BP este prezentat n Fig. 3.6.
Pagina 31 din 42
Metaclasificator bazat pe reea neuronal prezentate n continuare unele grafice nu coboar cu eroarea de antrenare pn la valoarea minim obinut de cea mai bun configuraie testat.
Coeficientul de invatare etha constant 1
95 93 91 Acuratetea clasificarii 89 87 85 83 81 79 77 75
50 0 40 0 38 0 35 0 33 0 31 0 29 0 27 0 25 0 23 0 21 0 19 0 17 0
17 19 20 32 36 38 48 49 52
Fig. 3.7 Influena numrului de neuroni de pe stratul ascuns asupra acurateei de clasificare. Coeficient de nvare =1
n acest grafic am nceput cu un numr mic de neuroni pe stratul ascuns pentru a avea un timp de nvare relativ mic (din punct de vedere al calculelor efectuate), dar, n momentul n care am ajuns la valori totale ale erorii de antrenare n jur de 200, timpul de antrenare crete, iar, datorit coeficientului de nvare mare, reeaua ncepe s fluctueze n jurul unei valori a erorii totale. Din acest motiv am oprit evaluarea reelei la un numr de 52 de neuroni pe stratul ascuns chiar dac acurateea de clasificare cretea. n seciunea urmtoare prezentm experimente n care modificm i pasul de nvare. n cazurile n care reeaua este mai simpl (are un numr mai mic de neuroni pe stratul ascuns), de la un moment dat, eroarea total a nceput s scad foarte ncet, moment n care am oprit antrenarea reelei. De aceea, din acel punct nu vor mai fi valori n graficele pe care le prezint. Am modificat numrul de neuroni utiliznd multiplii lui 16 (v. Fig. 3.8 i 3.10). Pe msur ce am crescut numrul neuronilor de pe stratul ascuns pstrnd pas de nvare =1, eroarea a sczut de la 0,2 la 0,04 per exemplu. Cea mai bun valoare a acurateei de clasificare obinut pn n acest Pagina 33 din 42
Metaclasificator bazat pe reea neuronal moment este de 94,26%, fiind deja superioar celei mai bune valori obinute cu metaclasificatorul de tip SBCOS cu 9 clasificatoare (93,32%). Totui, o dat cu creterea numrului de neuroni de pe stratul ascuns am observat c timpul de antrenare pentru reea scade, chiar dac numrul de calcule care trebuie efectuate crete. n cazul n care avem muli neuroni pe stratul ascuns reeaua ajunge mai repede la o eroare mai mic iar fluctuaiile apar la valori mici ale erorii. Numrul mai mare de neuroni pe stratul ascuns duce la o micorare mai rapid a erorii datorit unei distribuii mai adecvate. Aceast convergen superioar compenseaz timpul necesar efecturii unui numr mult mai mare de calcule. De asemenea i acurateea clasificrii crete semnificativ.
Acureteea de clasificare
95,00
90,00
85,00
80,00
500
400 340
200 180
160 140
n Fig. 3.8 am prezentat doar evoluia reelei pentru un numr de neuroni pe stratul ascuns egal cu 38, 52 i 64 deoarece acestea au obinut rezultatele cele mai bune n cazul coeficientului de nvare constant. n acest grafic am cobort cu eroarea de nvare pn la valoarea de 130 Pagina 34 din 42
Metaclasificator bazat pe reea neuronal (coeficientul de nvare a ajuns la 0,01), deoarece reeaua nu a mai fluctuat mult n jurul erorii i astfel timpul de antrenare a fost redus. n acest caz, cu un numr de 52 de neuroni pe stratul ascuns numrul de vectori incorect clasificai pentru o eroare total de antrenare egal cu 170 este de 136. n acest grafic am prezentat i rezultate obinute pe o reea cu 64 de neuroni pe stratul ascuns, caz n care eroarea total de antrenare a sczut la valoarea de 130, iar numrul de documente incorect clasificate s-a redus la 95, ceea ce reprezint o acuratee de clasificare de 95,96%. Am observat c, odat cu creterea numrului de neuroni de pe stratul ascuns, se mbuntete acurateea clasificrii, deoarece putem ajunge la o eroare de antrenare mult mai mic. Am efectuat i unele experimente n care numrul de neuroni de pe stratul ascuns este mai mare, regula de alegere a numrului de neuroni de pe stratul ascuns fiind multipli ai lui 16.
100,00
95,00
Acureteea de clasificare
90,00
80,00
75,00
500 400 340 320 300 280 260 240 220 200 180 160 140 120 100 80
60
40
Fig. 3.9 Influena numrului de neuroni de pe stratul ascuns asupra acurateei de clasificare. Coeficient de nvare diferit
n acest caz, arhitectura cu 160 de neuroni pe stratul ascuns a obinut cele mai multe rezultate bune, dar n momentul n care eroarea total de antrenare a sczut pn la valoarea 70, Pagina 35 din 42
Metaclasificator bazat pe reea neuronal timpul de antrenare pentru ca eroarea s scad la valoarea 60 a depit 24 ore. De aceea am realizat o arhitectur a reelei cu 192 de neuroni pe stratul ascuns care a reuit s coboare la o eroare de antrenare egal cu 40, caz n care numrul de documente incorect clasificate este de doar 11. Acest numr reprezint o acuratee a clasificrii pentru metaclasificatorul M-BP de 99,53%. O eroare total de antrenare egal cu 40 nseamn o eroare medie per exemplu egal cu 0,017. Experimentele prezentate au fost rulate pe un calculator P-IV dual core la 1.9GHz cu 2Gb DRAM i sistem de operare Windows Vista. Prezentm n Fig. 3.10 rezultatele comparative ntre arhitectura reelei cu 52 neuroni pe stratul ascuns i coeficient de nvare 1 i respectiv aceeai arhitectur, dar coeficient de nvare descresctor n timp Pentru a ajunge la prima oprire (eroare 500) reeaua are nevoie de mai mult timp deoarece pornete de la o eroare mare dar care scade foarte repede. Timpii pentru urmtoarele opriri ale reelei sunt timpii necesari reelei pentru a ajunge de la valoarea erorii de la pasul curent la valoarea erorii de la urmtoarea oprire.
Timp antrenare
100000
10000
secunde
1000 100
10
1
22 0 20 0 50 0 40 0 34 0 32 0 30 0 28 0 26 0 24 0 18 0
Fig. 3.10 Timpul de antrenare - comparaie ntre dou arhitecturi cu 52 neuroni pe stratul ascuns
Rezultatele prezentate n aceast seciune au fost obinute antrennd i testnd reeaua Backpropagation pe setul TV1 care conine 2351 vectori. n seciunea urmtoare prezentm rezultatele obinute n cazul antrenrii pe setul AV1 (4702 vectori) i ale testrii pe setul TV1.
Pagina 36 din 42
3.3.3 Rezultate obinute n cazul antrenrii pe setul AV1 i ale testrii pe TV1
Prezint rezultate doar pentru arhitecturi ale reelei cu un numr de neuroni mai mare de 96 pe stratul ascuns i un coeficient de nvare descresctor n timp. i n acest caz, pentru testare, oprim reeaua n momentul n care atinge un anumit prag al erorii de antrenare, o testm pentru a obine numrul de documente incorect clasificate, dup care continum cu antrenarea. n acest caz eroarea total de antrenare este obinut ca o sum a tuturor celor 4702 erori, ceea ce reprezint o medie a erorii per exemplu de 0,11 n cazul erorii totale egale cu 500. n acest experiment am ajuns la o eroare total egal cu 80, ceea ce nseamn o eroare medie de 0,017 per exemplu.
Evoluia BP-MC
96 neuroni strat ascuns 128 neuroni strat ascuns 160 neuroni strat ascuns
110
80
n acest caz, arhitectura cu 176 de neuroni pe stratul ascuns a obinut cele mai multe valori minime pentru numrul de documente incorect clasificate, dar, n momentul n care eroarea total de antrenare a sczut sub valoarea 100, rezultatele cele mai bune au fost obinute de arhitectura cu 192 de neuroni pe stratul ascuns. n acest caz am obinut un numr de 14 documente incorect clasificate, ceea ce reprezint o acuratee de clasificare a metaclasificatorului Pagina 37 din 42
Metaclasificator bazat pe reea neuronal de 99,40%. Diferena fa de cea mai bun valoare fa de cea cu 176 de neuroni pe stratul ascuns este de doar 3 documente incorect clasificate.
Pagina 38 din 42
Metaclasificator bazat pe reea neuronal n tabelul de mai sus am prezentat numrul de documente incorect clasificate obinut de arhitecturile testate. Pentru fiecare arhitectur am prezentat valoarea obinut pentru toate testele efectuate n timpul antrenrii reelei. Astfel, n coloana a doua se afl valorile erorii totale de antrenament la care reeaua a fost oprit i testat. n prima coloan sunt date valorile coeficientului de nvare care a fost folosit pentru reea, astfel nct eroarea de antrenare a reelei s coboare la valoarea precizat. Acest nou metaclasificator cu o reea neuronal cu numr suficient de mare de neuroni pe stratul ascuns a reuit s depeasc i limita maxim de 98,63% la care ar fi putut ajunge teoretic clasificatorii inclui n cadrul metaclasificatorului. Foarte interesant, acest metacalsificator neuronal cu nvare supervizat a demonstrat faptul c acurteea de 98,63% nu este de fapt limita maxim a metaclasificrii aa cum eu considerasem. Datorit procesului de nvare supervizat aceast limit poate fi depit. Spre exemplu n cazul unui vectoor de intrare n reea al crui element maxim nu se afl situat pe poziia clasei corecte acesta poate activa la ieire celula corect tocmai datorit unui proces de nvare adecvat (n care reelei i s-au mai livrat exemple asemntoare)
Pagina 39 din 42
Concluzii
4 Concluzii
n acest referat de doctorat prezint contribuiile mele n domeniul clasificrii de documente text. Din tot fluxul de etape necesare n procesul de regsire al informaiilor, m-am axat n acest referat pe etapa de metaclasificare. n aceast etap combin eficiena mai multor clasificatori individuali diferii n scopul obinerii unor rezultate superioare de clasificare a documentelor. Am gndit acest metaclasificator ca fiind format din dou componente. O component, considerat ca fiind etapa de preclasificare, realizat dintr-un metaclasificator (selector) neadaptiv i o alt component, considerat ca fiind etapa de postclasificare, realizat dintr-o reea neuronal de tip backpropagation n capitolul 1 am prezentat o vedere de ansamblu asupra procesului de regsire al informaiilor detaliind etapa de metaclasificare. n capitolul urmtor am prezentat o serie de metaclasificatori neadaptivi care folosesc diferite procedee pentru ponderarea valorilor generate de ctre fiecare clasificator n parte cu scopul de a mbunti acurateea final a clasificrii. n prima seciune am prezentat un metaclasificator care nsumeaz simplu toate valorile generate de ctre clasificatoare. Rezultatele obinute de acest metaclasificator sunt mai bune dect votul majoritar, dar nu semnificativ. n urmtoarele seciuni am prezentat o serie de experimente care ncearc diferite valori pentru a pondera vectorii generai de ctre clasificatori. Aceste valori pondereaz vectorii, n funcie de ordinea obinut de fiecare clas n cadrul vectorului. Cele mai bune rezultate obinute au fost de 301 documente incorect clasificate, ceea ce reprezint o acuratee a clasificrii de 87,20%. Aceste rezultate s-au obinut cnd am utilizat ponderarea liniar cu pasul de 0,5. Vectorii obinui n urma acestei etape vor fi utilizai i n urmtoarea etap din metaclasificator, cea de postclasificare. Chiar dac cele mai bune rezultate au fost obinute cu ponderarea prezentat mai sus, n urmtoarea etap din metaclasificator am folosit rezultatele obinute utiliznd ponderarea de tip Eurovision care a obinut un scor 87,03%. n capitolul 3 am prezentat elementele necesare pentru dezvoltarea unei reele neuronale de tip backpropagation, adaptat pentru funcionarea n acest context. Parametrii reelei care au fost experimentai n aceast lucrare sunt numrul de neuroni de pe stratul ascuns i coeficientul de nvare al reelei. Algoritmul prezentat se aplic reelelor feed-forward care conin 2 nivele de uniti cu funcia de activare sigmoid, fiecare unitate de pe un nivel fiind conectat la toate Pagina 40 din 42
Concluzii unitile de pe nivelul anterior. Deoarece reeaua neuronal prezentat este o reea cu nvare supervizat, a avut nevoie de o etap de antrenare. Pentru antrenare i ulterior testare am folosit iniial acelai set de vectori numit TV1. Folosind acest set am testat influena numrului de neuroni de pe stratul ascuns i a coeficientului de nvare asupra acurateei de clasificare. Astfel am variat numrul de neuroni de pe stratul ascuns ntre valoarea 17 i valoarea 52 cu un coeficient de nvare constant (=1). Cele mai bune rezultate au fost obinute de arhitectura cu 52 de neuroni pe stratul ascuns, ajungnd la o acuratee a clasificrii de 94,26%. Totui odat cu creterea numrului de neuroni de pe stratul ascuns am observat c timpul de antrenare pentru reea nu crete, chiar dac numrul de calcule care trebuie efectuate cresc. De aceea am ncercat i utilizarea unui numr mai mare de neuroni pe stratul ascuns. Tot n acest capitol am prezentat experimente realizate utiliznd seturi diferite pentru antrenare i testare. n acest caz am folosit i valori descresctoare ale coeficientului de nvare. n momentul n care am redus i coeficientul de nvare am reuit s antrenm reeaua pn la o valoare mic a erorii de antrenare (medie 0,017 per exemplu de antrenament). Cele mai bune rezultate (99,40% acuratee de clasificare!) le-am obinut folosind o reea neuronal cu 192 de neuroni pe stratul ascuns. Totui, comparativ ca numr de rezultate bune pe parcursul antrenrii chiar nainte de a atinge eroarea de antrenare minim, le-am obinut utiliznd o reea cu 176 de neuroni pe stratul ascuns. n urma experimentelor efectuate am observat c introducerea unei reele neuronale n cadrul metaclasificatorului face ca acesta s se adapteze mult mai bine la documentele care trebuie clasificate, reuind astfel s clasifice i documentele cu problem pe care metaclasificatorii prezentai anterior nu au reuit s le nvee. Acest nou metaclasificator a reuit s depeasc i limita maxim de 98,63% la care ar fi putut ajunge teoretic clasificatorii inclui n cadrul metaclasificatorului. Ca i dezvoltri ulterioare se ncearc mbuntirea reelei neuronale, astfel nct aceasta s convearg mult mai rapid. De asemenea s-ar putea testa reeaua nlocuind funcia de activare sigmoid cu alte tipuri de funcii de activare.
Pagina 41 din 42
Bibliografie
5 Bibliografie
[Brea06] [Cret08] Breazu, M., Tehnici fractale i neuronale n compresia de imagini, Editura universitii Lucian Blaga din Sibiu, ISBN 978-973-739-251-0, 2006 Cretulescu R., Support Vector Machine versus Bayes Nave, 2nd PhD report, Lucian Blaga University of Sibiu, 2008, http://webspace.ulbsibiu.ro/radu.kretzulescu/html/phdreport2.pdf Haykin, S., Neural Networks: A comprehensive Foundation, MacMillan College, New York, 1994 Hebb, D.O., The Organization of Behavior, John Wiley & Sons, New York, 1949 Jaeger, S., Huanfeng, M., Drmann, D., Combinig Calssifiers with Informational Confidence, Studies in Computational Intelligence (SCI) 90, pag. 163-191, 2008 Jain, A., Mao, J., Mohiuddin, K.M., Artificial Neural Networks: A Tutorial, Journal of IEEE Computational Science and Engineering, pp. 31-44, 1996 Kung S.Y., Digital Neural Networks, Prentice Hall, New Jersey, 1993 Morariu, D., Vintan, L., Tresp, V., Meta-classification using SVM classifier for Text Document, Proceedings of the 3rd International Conference on Machine Learning and Pattern Recognition (MLPR06), ISSN 1503-5313, vol. 15, pp. 222-227, Barcelona, Spain, October, 2006. Morariu, D., Text Mining Methods based on Support Vector Machine, Ed. MatrixRom, Bucureti, 2008. Misha Wolf and Charles Wicksteed Reuters Corpus: http://www.reuters.com/researchandstandards/corpus/ lansat n noiembrie 2000, accesat n septembrie 2009 Vinan N. L., Prediction Techniques in Advanced Computing Architectures (in limba engleza), Editura Matrix Rom, Bucureti, ISBN 978-973-755-137-5, 2007 Wassermann, P.D., Neural Computing. Theory and Practice, Van Nostrand Reinhold, 1989
[Mora08] [Reut00]
[Vintan07] [Wass89]
Pagina 42 din 42