PHD Report 3

Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare i Automatizri
Evaluarea filtrrii informaiilor prin utilizarea unei ontologii de domeniu

(Metaclasificator bazat pe reea neuronal)
Referat de doctorat nr. 3
Autor: mat. Radu CREULESCU Coordonator: Prof. univ. dr. ing. Lucian N. VINAN
SIBIU, 2009
Introducere i obiective principale
Cuprins 1 2 Introducere i obiective principale .............................................................................. 3 Metaclasificatori n clasificarea de documente text .................................................... 6 2.1 2.1.1 2.1.2 2.1.3 2.1.4 3 3.1 3.1.1 3.1.2 3.1.3 3.1.4 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.3 3.3.1 3.3.2 3.3.3 4 5 Metaclasificator neadaptiv bazat pe sum ponderat (Eurovision)..................... 7 Metaclasificator neadaptiv bazat pe sum (M-SUM) ..................................... 7 Metaclasificator neadaptiv bazat pe sum normalizat (M-ESUM) ............... 9 Metaclasificator neadaptiv bazat pe sum ponderat (M-WSUM) ...............10 Cercetri privind alte variante de ponderare a elementelor vectorilor ..........11 Postclasificare utiliznd metoda Backpropagation ...........................................13 Modelul neuronului artificial ........................................................................ 15 Arhitectura reelelor neuronale...................................................................... 17 nvarea reelelor neuronale......................................................................... 17 Perceptronul .................................................................................................. 21 Metoda Backpropagation .................................................................................. 24 Perceptroni multistrat cu funcie de activare neliniar.................................. 24 Perceptronul multistrat .................................................................................. 24 Algoritmul Backpropagation......................................................................... 26 Rezultate privind evitarea saturrii ieirii neuronilor.................................... 29 Rezultate privind utilizarea reelei BP n cadrul metaclasificatorului (M-BP) .30 Influena numrului de neuroni de pe stratul ascuns..................................... 32 Influena coeficientului de nvare............................................................... 34 Rezultate obinute n cazul antrenrii pe setul AV1 i ale testrii pe TV1 ... 37
Metaclasificator bazat pe reea neuronal ................................................................. 13
Concluzii ................................................................................................................... 40 Bibliografie................................................................................................................ 42
Pagina 2 din 42
Introducere i obiective principale
1 Introducere i obiective principale

Majoritatea informaiilor din lumea real se gsesc n format text. Aceste date sunt considerate ca avnd un format semistructurat, deoarece nu conin metainformaii despre structura lor. Modelarea i implementarea de tehnici pentru lucrul cu date semistructurate au crescut continuu n ultimii ani. Mai mult dect att aplicaiile de regsire a informaiilor ca i metode de indexare a documentelor de tip text au fost adaptate astfel nct s funcioneze cu aceste documente nestructurate. Tehnicile tradiionale de regsire a informaiei devin astfel inadecvate pentru cutarea n colecii mari de date nestructurate. De obicei, doar o mic parte din documentele disponibile sunt relevante, la un moment dat pentru utilizator. Fr a ti ce conin aceste colecii mari de date, este dificil de a formula interogri eficiente pentru analiza i extragerea de informaii interesante. Astfel c, n ultimii ani utilizatorii au nevoie de tot mai multe unelte pentru a compara diferite documente din punct de vedere al gradului de relevan i utilitate precum i gsirea de reguli pentru organizarea lor. Clasificarea de text este un proces general, care include numeroi pai care trebuie executai pentru a rezolva aceast problem. Fiecare dintre aceti pai are o influen major asupra acurateei finale de clasificare. n acest referat, prezint contribuiile mele n dezvoltarea i mbuntirea unui metaclasificator bazat pe clasificatoare de tip SVM i Naive Bayes. Acest metaclasificator va cuprinde n etapa de postclasificare o reea neuronal feed-forward cu nvare de tip Backpropagation. Consider procesul de clasificare automat de documente ca o nlnuire de etape (Fig. 1.1). Fiecare etap primete la intrare anumii parametri, i proceseaz i i transmite mai departe urmtoarei etape. n acest referat m-am axat mai mult pe ultima etap din acest proces, cea a metaclasificatorului. Ca i componente ale metaclasificatorului am inclus mai muli clasificatori de tip SVM, prezentai n [Mora06], i un clasificator de tip Naive Bayes dezvoltat i prezentat n [Cret08]. n capitolul 2 am dezvoltat i prezentat mai muli metaclasificatori neadaptivi, care folosesc diferite metode de ponderare a rezultatelor ntoarse de fiecare clasificator n parte pentru calcularea clasei corespunztoare documentului primit de ctre metaclasificator la intrare. Etapele de preprocesare pentru crearea vectorilor de intrare pentru metaclasificatori sunt Pagina 3 din 42
Introducere i obiective principale prezentate n [Mora08]. n cadrul metaclasificatorului final aceti metaclasificatori neadaptivi (selectori) vor avea un rol de preclasificare. n cele ce urmeaz propun un metaclasificator format dintr-un selector neadaptiv folosit n faza de preclasificare i o reea neuronal n faza de postclasificare, pe care l voi evalua.
Fig. 1.1 Etape n procesul de clasificare automat de documente n capitolul 3 am prezentat arhitectura reelelor neuronale cu structura de tip feed-forward precum i cunotinele matematice de baz necesare pentru dezvoltarea unei reele cu nvare Pagina 4 din 42
Introducere i obiective principale supervizata de tip backpropagation. Aceast reea o voi utiliza n etapa de postclasificare din cadrul metaclasificatorului adaptiv. Reelei i se vor prezenta la intrare un set de vectori de valori corespunztoare pentru fiecare clas generat de ctre selector iar la ieire va prezice clasa corespunztoare documentului curent. n finalul capitolului sunt prezentate rezultatele obinute n urma unor simulri efectuate utiliznd diverse seturi de date n ultimul capitol am prezentat o serie de concluzii extrase n urma analizei rezultatelor obinute pe baza de date Reuters [Reut00]. De asemenea sunt propuse cteva perspective de dezvoltare n acest domeniu.
Pagina 5 din 42
Metaclasificatori n clasificarea de documente text
2 Metaclasificatori n clasificarea de documente text

Metaclasificarea sau clasificarea hibrid se bazeaz pe predicia clasificatorului (algoritmului) corect pentru o problem particular, pe baza caracteristicilor vectorului de intrare i a istoriei clasificrilor. Una dintre problemele principale care apare cnd sunt utilizai n practic algoritmi de clasificare este de a determina dac clasificatorul obinut este fezabil i pentru noi instane. Utilizarea metaclasificrii este una dintre cele mai simple soluii de abordare ale acestei probleme. Avnd mai muli clasificatori de baz, ideea este de a nva un metaclasificator care prezice gradul de corectitudine pentru fiecare dintre clasificatorii de baz. Selectarea unui clasificator pentru a eticheta o instan se face n funcie de ncrederea acordat acelui clasificator, ncredere dobndit n urma clasificrilor corecte realizate de acesta pentru instane de tipul respectiv. Regula de clasificare a metaclasificatorului este ca fiecare clasificator de baz s atribuie o clas la instana curent cu o anumit probabilitate i apoi metaclasificatorul s decid dac care clasificare este cea mai demn de ncredere. Pe lng creterea acurateei de clasificare prin exploatarea sinergismului mai multor clasificatoare, un alt avantaj al metaclasificrii const n posibilitatea de exploatare a paralelismelor funcionale (utiliznd sisteme multiprocesor). Clasificatorii de tip SVM i de tip Bayes prezentai n [Cret08] au ca set de antrenare un numr de 4702 documente selectate din baza de date Reuters i un set de testare de 2351 documente. Maximul acurateei de clasificare a fost obinut de clasificatorul de tip SVM, cu nucleu polinomial de grad 2 folosind reprezentarea Cornell Smart pentru date, atingnd valoarea de 87,11%. Mai muli clasificatori de tip SVM i un clasificator de tip Bayes au fost combinai pentru a crea un metaclasificator care s mbunteasc acurateea clasificrii. Limita teoretic maxim a acurateei de clasificare la care se poate ajunge folosind aceast combinaie de clasificatori este de 98,63% Au fost implementate 3 tipuri de metaclasificatori: unul neadaptiv bazat pe votul majoritar i dou adaptive, bazate pe cozi de erori, unul folosind distana euclidian i unul bazat pe cosinus. Dintre toi acetia, metaclasificatorul bazat pe cosinus a mbuntit acurateea de clasificare, ajungnd la valoarea de 93,10%.[Cret08]. Pagina 6 din 42
Metaclasificatori n clasificarea de documente text n cazul metaclasificatorilor adaptivi, exist posibilitatea ca, dup o perioad de utilizare s apar suspiciunea ca, dei un clasificator este ales la un moment dat ca fiind cel mai potrivit pentru clasificarea documentului curent, acesta s clasifice incorect acel document. n acest caz, se va alege clasa cu o valoare mai mic cu un prag =0.5 fa de clasa cu valoarea cea mai mare dat de acel clasificator. Astfel, acurateea clasificrii finale a metaclasificatorului s-a mbuntit ajungnd la 93,87% n cazul celui bazat pe cosinus. Avnd n vedere faptul c limita maxim prezentat mai sus este 98,63%, aceste rezultate obinute sunt ncurajatoare. n acest capitol voi prezenta realizarea unui nou metaclasificator. Acesta este realizat dintr-un metaclasificator neadaptiv care va folosi o sum ponderat pentru stabilirea clasei finale urmat de un metaclasificator neuronal adaptiv. Acest metaclasificator neuronal utilizeaz un metaclasificator neadaptiv cu rol de preclasificare, i o reea neural cu rol de postclasificare. Reeaua neuronal va fi prezentat n capitolul urmtor.
2.1 Metaclasificator (Eurovision)
neadaptiv
bazat
pe
sum
ponderat
Metaclasificatorul, propus n continuare, conine cei 9 clasificatori utilizai n seciunea anterioar i pleac de la premisa c ar conta i numrul i locul pe care apare fiecare clas n parte. De exemplu n cazul a doi clasificatori i 3 clase, dac o clas apare o dat pe locul 1 i o dat pe locul 3 i o alt clas apare de 2 ori pe locul 2, este posibil ca cea de-a doua clas s fie mai valoroas, chiar dac nu a obinut niciodat locul 1.
2.1.1 Metaclasificator neadaptiv bazat pe sum (M-SUM)

n metaclasificator sunt inclui 8 clasificatori de tip SVM i unul de tip Bayes. Fiecare dintre acetia produce un vector care conine 16 scalari, vezi Fig. 2.1. Fiecare scalar reprezint valoarea funciei de decizie a clasificatorului pentru clasa respectiv. Pn acum n [Mora08] se alegea ntotdeauna valoarea cea mai mare i clasa corespunztoare a acestei valori era considerat clasa pe care o prezice clasificatorul respectiv. Pentru fiecare document n parte vom obine 9 astfel de vectori.
Pagina 7 din 42
Fig. 2.1 Metaclasificator neadaptiv
Valorile funciilor de decizie pentru clasificatorii de tip SVM se afl n intervalul (-,) dar n apropierea valorii 0, iar pentru clasificatorul de tip Bayes valorile se afl n intervalul (-, 0). Avnd n vedere aceste diferene i pentru a putea realiza nsumarea valorilor vectorilor, am transpus valorile vectorilor n intervalul [1, ).
Vi = Vi + min(V ) + 1
(2.1)
Astfel, pentru fiecare vector cea valorile lor de ieire ai clasificatorilor de tip SVM se pstreaz. La fel i pentru clasificatorul de tip Bayes. Pentru a putea realiza nsumarea acestor vectori n urmtorul pas am normalizat vectorii aducnd valorile acestora n intervalul (0,1].
Vi =
Vi max(V )
(2.2)
n cazul metaclasificatorului care realizeaz doar sumele (numit in continuare M-SUM) am nsumat cele 16 valori ale acestor 9 vectori, vezi Fig. 2.2, clasa ctigtoare fiind clasa cu valoarea cea mai mare obinut. Class = max
ci ,i =1,16 9
V [ k ]
k =1 i
(2.3)
Acest metaclasificator, fiind unul neadaptiv, va obine ntotdeauna acelai rezultat pentru o anumit instan de intrare. n cazul rulrii pe cele 2351 documente de test (setul T1 din [Cret08]) am obinut un numr de 313 documente clasificate eronat, care reprezint o acuratee a clasificrii de 86,68%, cu 0,59% mai mare dect valoarea obinut folosind votul majoritar i toi cei 9 clasificatori. Astfel putem concluziona c metoda bazat pe luarea n considerare doar a clasei nvingtoare (majority vote) are dezavantaje fa de metoda prezentat mai sus. n acest
Pagina 8 din 42
Metaclasificatori n clasificarea de documente text caz, exist ansa ca o clas care poate niciodat nu a obinut locul 1 dar a obinut valori apropiate de maxim s fie n final clasa corect.
Fig. 2.2 Metaclasificator neadaptiv bazat pe sum (M-SUM)
2.1.2 Metaclasificator neadaptiv bazat pe sum normalizat (M-ESUM)

Aceast metod are la baz metoda prezentat n seciunea 2.1 doar c nainte de nsumarea celor 16 valori din cei 9 vectori se realizeaz o ponderare a acestor valori. Astfel n cazul acestei ponderri vom atribui n fiecare vector pentru clasa de pe locul 1, valoarea 12, pentru clasa de pe locul 2 valoarea 10 iar n continuare pentru fiecare clas de pe urmtoarele locuri valori descresctoare pn la valoarea 1. Astfel n fiecare vector clasele de pe primele 11 locuri vor avea valori diferite iar celelalte clase, pn la 16, vor avea valoarea 1. Domeniul de reprezentare a valorilor vectorilor este {1, 2, 3, ...,10,12}, vezi Fig. 2.3. Dup aceast etap se va realiza nsumarea vectorilor i selectarea clasei care obine valoarea cea mai mare, analog cu metoda anterior prezentat n par. 2.1.1.
Pagina 9 din 42
Fig. 2.3 Metaclasificator neadaptiv bazat pe sum ponderat (M-ESUM)
n urma acestei ponderri, am obinut un numr de 316 erori de clasificare, ceea ce reprezint o acuratee a clasificrii pe setul T1 de 86,55% pentru aceast metod. Rezultatele obinute sunt cu 0,12% mai slabe dect cele obinute direct pe sum.
2.1.3 Metaclasificator neadaptiv bazat pe sum ponderat (M-WSUM)

n aceast seciune introducem un nou metaclasificator neadaptiv bazat pe sum ponderata (notat n continuare M-WSUM). Acest metaclasificator n pasul n care se realizeaz ponderarea, am decis ca n fiecare vector reprezentat ca n Par. 2.1.1, pentru clasa de pe primul loc, noua valoare s fie vechea valoare nmulit cu 12. Pentru clasa de pe locul 2 va fi vechea valoare nmulit cu 10, pentru locul 3 valoarea veche nmulit cu 9 .a.m.d. pentru toate celelalte clase; valoarea minim cu care nmulim va fi 1. n cazul acesta domeniul de reprezentare al valorilor vectorilor este (0,12], vezi Fig. 2.4. Ca i mai sus, n continuare se vor nsuma valorile celor 9 vectori i se va alege ca i clas nvingtoare clasa care obine valoare maxim.
Fig. 2.4 - Metaclasificator neadaptiv bazat pe sum ponderat (M-WSUM)
Pagina 10 din 42
Metaclasificatori n clasificarea de documente text n acest caz am obinut un numr de 305 documente clasificate eronat pe setul T1, acurateea clasificrii pentru acest metaclasificator fiind de 87,02%. Aceast acuratee de clasificare obinut este cea mai mare care a fost obinut prin utilizarea unui metaclasificator neadaptiv, dar evident mai mic dect limita maxim de 98,63%, la care poate ajunge teoretic metaclasificatorul.
2.1.4 Cercetri privind alte variante de ponderare a elementelor vectorilor

n aceast seciune prezint cteva experimente efectuate asupra valorilor de ponderare pentru elementele celor 9 vectori rezultai n urma folosirii celor 9 clasificatori. Aceste valori reprezint ponderea care este nmulit cu valoarea obinut de o clas n cadrul clasificatorului nainte de a realiza nsumarea celor 9 rezultate.
2.1.4.1 njumtirea ponderii (M-HW)

n primul experiment am ales ca valoarea de ponderare s se njumteasc pentru fiecare clas, clasele fiind n prealabil ordonate descresctor. Astfel, valoarea clasei de pe prima poziie se nmulete cu constanta 16, valoarea clasei de pe a doua poziie se nmulete cu constanta 8, cea de pe a treia poziie cu constanta 4 i aa mai departe, valorile claselor de pe ultimele 12 poziii se nmulesc cu constanta 1. n acest caz doar clasele de pe primele 4 poziii vor avea ponderi distincte, celelalte rmnnd cu valoarea iniial. Ideea este de a favoriza foarte mult primele locuri. Rezultatul obinut de metaclasificator este de 324 documente incorect clasificate, ceea ce reprezint o acuratee a clasificrii de 86,22%. Conform rezultatelor obinute, se observ c clasa corect nu este ntotdeauna prima clas ntoars de fiecare clasificator n parte. Aceast concluzie am formulat-o i n cazul votului majoritar care a obinut o acuratee de clasificare de 86,09% adic 327 documente clasificate incorect.
2.1.4.2 Ponderi mici descresctoare linear

Pas 0,1 (M-0.1W)
n acest experiment pentru ponderi am ales valori mici, diferena dintre ele fiind de 0,1. Astfel, ponderea valorii clasei cele mai probabile va fi de 2,5 iar a celei mai puin probabile va fi 1. Ideea este de a nu face o diferen foarte mare ntre clasele de pe diferite poziii, dar totui s favorizm puin clasa situat pe o poziie superioar. n acest caz, metaclasificatorul a avut un numr de 304 documente clasificate incorect, ajungnd astfel la o acuratee de clasificare de
Pagina 11 din 42
Metaclasificatori n clasificarea de documente text 87,07%. Alegerea ponderrii distincte pentru fiecare loc cu valori apropiate este benefic n acest context.
Pas 1,0 (M-1.0W)
De aceea, n urmtorul experiment am ponderat clasele cu valori descresctoare distincte cu pasul 1. Astfel, pentru prima poziie valoarea ponderii este de 16, pentru a doua poziie valoarea ponderii este de 15 .a.m.d. pn la ultima poziie la care valoarea ponderii este de 1. n acest caz numrul de documente incorect clasificate de ctre metaclasificator a sczut la 303, ceea ce reprezint o acuratee a clasificrii de 87,11%.
Pas 0,5 (M-0.5W)
Totui, cele mai bune rezultate le-am obinut n cazul n care valorile ponderilor scad liniar cu un pas egal cu valoarea 0,5. Valoarea de prima poziie va fi ponderat cu valoarea 8,5 .a.m.d. descresctor pn la ultima poziie unde valoare ponderii este 1,0. Astfel, numrul de documente incorect clasificate de ctre metaclasificator a sczut la 301 rezultnd o acuratee a clasificrii de 87,20%. n Fig. 2.5 prezentm comparativ rezultatele obinute n acest capitol.
Influena modului de ponderare
87.4 87.2 87 Acurateea clasificrii 86.8 86.6 86.4 86.2 86 85.8 85.6 85.4
M -V M M -E SU M M M -H W M -0 .1 W M -0 .5 W M -W SU M -1 .0 W M -S U M
87.2 87.03 86.68 86.56 87.07
87.11
86.09
86.22
Fig. 2.5 - Comparaie rezultate metaclasificatori neadaptivi
Pagina 12 din 42
Metaclasificator bazat pe reea neuronal
3 Metaclasificator bazat pe reea neuronal

Deoarece metodele prezentate att n capitolul anterior ct i n [Cret08] nu obin rezultate satisfctoare, am dezvoltat un metaclasificator care s i modifice comportamentul n funcie de datele de intrare mult mai dinamic dect metaclasificatoarele bazate pe distan euclidian i cosinus. Pentru a face aceasta, am realizat un metaclasificator care n faza de postclasificare utilizeaz o reea neuronal de tip backpropagation pentru a selecta clasa nvingtoare. n aceast metod ca i intrare pentru reeaua neuronal vom avea vectorul de ieire a preclasificrii obinute n seciunea 2.1.3. Am folosit aceti vectori deoarece au obinut cele mai bune rezultate n etapa neadaptiv de preclasificare. Pentru antrenarea reelei neuronale am folosit setul A1 de 4702 documente iar pentru testarea reelei am folosit setul T1 de 2351 documente. Ambele seturi au fost iniial procesate folosind preclasificarea prezentat n seciunea 2.1.3 i pentru fiecare document obinem un vector de 16 elemente deoarece dispunem de 16 clase distincte. n consecin reeaua neuronal de tip backpropagation cu un nivel ascuns pe care am dezvoltat-o are 16 neuroni pe stratul de intrare i 16 neuroni pe stratul de ieire. Pentru simplificarea problemei, pe stratul de ieire am decis utilizarea tot a unui numr de 16 neuroni, reeaua activnd pentru un document doar unul din cei 16 neuroni de ieire.
3.1 Postclasificare utiliznd metoda Backpropagation

Prin dezvoltarea sistemelor inteligente, unele inspirate din reelele neuronale biologice, au fost obinute numeroase soluii avantajoase. Cercettorii din multe domenii tiinifice proiecteaz reele neuronale artificiale pentru a rezolva o varietate de probleme cum ar fi: recunoaterea de patternuri, predicie, optimizare i control etc. Abordri convenionale au fost propuse pentru rezolvarea acestor probleme. De asemenea, pot fi aplicate cu succes n foarte multe domenii care nu sunt suficient de flexibile pentru utilizarea altor metode. n acestea reelele artificiale neuronale furnizeaz o alternativ viabil [Hayk94]. n lungul curs al evoluiei, creierul uman a dobndit multe trsturi care nu se regsesc n modelul von Neumann sau n calculatoarele paralele moderne. Unele dintre aceste trsturi ar fi (conform [Jain96]): Pagina 13 din 42
Metaclasificator bazat pe reea neuronal paralelism masiv reprezentare i procesare distribuit abiliti de nvare abiliti de generalizare adaptabilitate procesarea a informaiei pe baz de context toleran la erori consum redus de energie
Calculatoarele numerice actuale domin net omul n ceea ce privete prelucrrile numerice. Totui, omul poate fr efort s rezolve unele probleme complexe de percepie i recunoatere a formelor cu o vitez incomparabil superioar celor mai performante calculatoare. Aceasta diferen provine din arhitectura complet diferit fa de cea a mainii von Neuman. Inspirate din reelele neuronale biologice, Reelele Neuronale Artificiale (RNA) sunt sisteme de calcul cu paralelism masiv constituite dintr-un numr mare de elemente de procesare simple - numite neuroni - cu multe interconexiuni ntre ele. Modelele propuse pentru RNA respect anumite principii de organizare presupuse ca fiind folosite n creierul uman. Considerm urmtoarele proleme de interes pentru domeniul tiinei calculatoarelor i ingineriei:
Clasificarea de patternuri - problema este de a atribui unui pattern de intrare,
reprezentat printr-un vector de trsturi una sau mai multe clase prespecificate.Ca i aplicaii binecunoscute amintesc recunoaterea de caractere, clasificarea de documente, clasificarea celulelor sangvine etc.
Clustering/grupare - cunoscut i sub denumirea de clasificarea nesupervizat de
patternuri n care nu avem date de antrenament la care s cunoatem clasele. Algoritmul de clustering va exploata similaritatea dintre patternuri i va plasa patternuri similare n acelai cluster. Ca i aplicaii amintim cele de compresie de date, analiza datelor i data mining.
Aproximarea funciei - presupunem un set de n date de antrenament etichetate,
care au fost generate de o funcie necunoscut (susceptibile la zgomot). Problema este de a gsi o estimare ct mai exact a funciei necunoscute.
Predicie/pronostic - dndu-se un set de n eantioane preluate ntr-o secven de
timp, problema este de a prezice valoarea urmtorului eantion. Spre exemplu aceast problem are un impact semnificativ pe piaa de capital. Pagina 14 din 42

Optimizare - o varietate mare de probleme din matematic, statistic, inginerie i
economie sunt probleme de optimizare. Ideea acestui algoritm este de a gsi o soluie care satisface un set de constrngeri astfel nct funcia scop este maximizat sau minimizat.
Memoria adresabil prin coninut - n modelul von Neumann, o intrare n
memorie este accesat doar prin intermediul adresei, care este independent de coninutul memoriei. Mai mult dect att, dac se produce o eroare n calcularea adresei, se poate obine o valoare complet diferit. Memoria asociativ sau memoria adresabil prin coninut poate fi accesat prin coninutul ei. Coninutul memoriei poate fi obinut chiar dac avem o intrare incomplet sau un coninut distorsionat. n evoluia RNA exist trei perioade distincte. Prima are loc n anii '40, prin munca de pionierat a lui McCulloch i Pitts. A doua perioad, n anii '60, are la baz teorema lui Rosenblatt de convergen a perceptronului i demonstrarea de ctre Minsk i Papert a limitrilor perceptronului simplu. Abia ncepnd cu anii '80 domeniul RNA i-a redobndit interesul. Aceasta are la baz introducerea noiunii de energie n reeaua Hopfield n 1982 i gsirea algoritmului de nvare cu retropropagarea erorii (Backpropagation) pentru reele cu propagare nainte (feedforward) multistrat, propus iniial de Paul Werbos, n 1974, i redescoperit i popularizat de Rumelhart et al n 1986.[Maca03]
3.1.1 Modelul neuronului artificial

Modelul neuronului artificial [Wass89], [Kung93] are la baz modelul propus de McCulloch i Pitts i generalizat apoi n multe feluri. Prezentm n continuare cea mai des ntlnit variant.
x1 x2
w1 w2
xn
wn
Fig. 3.1 Modelul neuronului artificial
Pagina 15 din 42
Metaclasificator bazat pe reea neuronal Acest neuron artificial calculeaz suma ponderat a n semnale de intrare, adaug o valoare numit prag i apoi aplic acestei valori o funcie de activare genernd ca ieire o valoare cuprins n intervalul (0,1) S = xi wi +
i =1 n
y = f (S )
(3.1)
n aceste relaii xi reprezint semnalul intrrii i i wi sinapsa (ponderea, tria sinaptic) asociat acestei intrri. Termenul reprezint o valoare de prag (de offset, bias), care deplaseaz (transpune) ieirea S a neuronului. Ieirii S i se aplic o funcie de activare f care va transpune (normaliza) ieirea neuronului n domeniul de valori dorit. Exist o analogie a acestui model cu neuronul biologic: interconectrile modeleaz axonul i dendritele, ponderile conexiunilor reprezint sinapsele, iar funcia de activare aproximeaz activitatea din soma (corpul neuronului). Modelul de neuron propus de McCulloch-Pitts a fost generalizat n mai multe feluri. Una dintre cele mai evidente modificri este utilizarea de funcii de activare n locul funciei de prag. Pentru funcia de activare, cele mai des ntlnite funcii sunt cele prezentate n Fig. 3.2: 1, if x 0 a - funcia de activare treapt, step ( x) = 0, if x < 0 + 1, if x 0 b - funcia de activare semn, sign( x) = 1, if x < 0 c - funcia de activare sigmoidal, sigmoid ( x) =
1 1 + e x
( m x )2 2 2
d - funcia de activare gaussian, Gauss ( x ) = e
1 -1
Fig. 3.2 Funciile de activare cel mai frecvent ntlnite
Modelul neuronului prezentat anterior, avnd funcia de activare treapt este modelul iniial propus de McCulloch i Pitts n 1943. Cel mai popular model al neuronului a devenit ns cel cu funcia de activare sigmoidal, care este strict monoton cresctoare, mrginit i derivabil:
Pagina 16 din 42

1 (3.2) 1 + e x unde este un factor de scar lund valori strict pozitive. Pentru tinznd la infinit f (x) =
funcia sigmoid devine funcia treapt.
3.1.2 Arhitectura reelelor neuronale

Exist o varietate de tipuri de structuri de reele, fiecare dintre acestea rezult din diferite posibiliti de calcul i n funcie de problema care trebuie rezolvat. O reea neuronal poate fi privit ca un graf orientat ponderat, n care neuronii sunt nodurile, iar arcele orientate (cu ponderile asociate) sunt legturile ntre neuroni Din punct de vedere al construciei, reelele neuronale se mpart n dou categorii principale: reelele feed-forward i reelele recurente. n reelele feed-forward (cu propagare nainte), legturile dintre neuroni sunt unidirecionale i nu exist bucle de reacie (legturi de la un neuron de pe un strat superior la un neuron de pe un strat inferior). n reelele feed-forward, legturile pot pleca de la topologii arbitrare, neexistnd nici o legtur spre stratul anterior sau legturi care sar peste un anumit strat. n aceste tipuri de reele, toi neuronii de pe un anumit strat sunt actualizai sincron, la o anumit perioad de timp. Aceste reele sunt reele statice ele neavnd un comportament dinamic propriu-zis, ieirea reelei depinznd doar de valoarea curent a intrrii, nu i de valorile anterioare ale intrrii. Reelele recurente sunt reele n care pot exista legturi napoi, un neuron de pe un strat superior avnd legturi cu neuroni de pe nivelurile inferioare. De asemenea, n reelele recurente pot exista legturi care sar peste anumite straturi. n acest caz, reeaua reprezint un graf orientat complet i are un comportament dinamic propriu-zis. n aceast categorie se ncadreaz reelele competitive, hrile topografice ale lui Kohonen, reeaua Hopfield, reeaua recurent Elman, maina Boltzmann i modelele ART.
3.1.3 nvarea reelelor neuronale

Capacitatea de nvare este o trstur fundamental a inteligenei. O definiie a nvrii fiind dificil de dat, dar vom spune c, n contextul RNA, nvarea const n modificarea reelei pentru a-i adapta comportamentul la necesitile rezolvrii unei probleme. n general sunt modificai coeficienii de conectivitate sinaptic, uneori modificndu-se i numrul de uniti i / sau configuraia reelei. nvarea este important prin posibilitatea de adaptare la un mediu n schimbare (sistemele de IA clasice sunt rigide), fiind util i n cazul n care mediul nu evolueaz, dar pentru care nu dispunem de un model. Pagina 17 din 42
Metaclasificator bazat pe reea neuronal Principalul avantaj al RNA n raport cu sistemele expert clasice este acela c, n loc de a folosi un set de reguli date de un expert uman, are loc o nvare prin exemple. Din punct de vedere al organizrii datelor de intrare, exist dou categorii de nvare [Jain96]: nvarea nesupervizat, n care se prezint reelei doar datele de intrare fr a se specifica i ieirea dorit pentru acestea, astfel c reeaua nu are nicio informaie despre prezena sau valoarea erorii. n acest caz, reeaua este lsat s evolueze liber, urmnd ca la sfrit s constatm rezultatul nvrii. Reeaua analizeaz corelaiile ntre datele de intrare i organizeaz datele n categorii pe baza acestor corelaii. nvarea supervizat, n care mulimea de exemple de antrenament este organizat sub forma de perechi intrare-ieire, specificnd reelei la fiecare pas care trebuie s fie ieirea corect, urmnd ca reeaua s generalizeze datele de intrare. Ponderile sunt modificate astfel nct reeaua s produc ieiri ct mai apropiate de rspunsul corect. nvarea prin ntrire ("reinforcement learning") este o variant a nvrii supervizate n care se furnizeaz reelei doar o informaie despre prezena erorii nu i a valorii propriu zise a ei. Fiecare tip de reea i modific ponderile n funcie de anumite reguli de nvare care depind att de tipul datelor de intrare ct i de modul de construcie al reelei. Din punctul acesta de vedere, exist patru tipuri consacrate de reguli de nvare principale: nvare prin corecia erorii; regula lui Boltzmann; regula lui Hebb; nvarea competitiv.
3.1.3.1 Reguli de nvare prin corecie a erorii ("error-correction rules")

n nvarea supervizat, reeaua dispune de ieirea dorit pentru fiecare vector de intrare. n timpul nvrii, ieirea reelei nu este de obicei egal cu aceast valoare dorit. Principiul coreciei erorii folosete semnalul de eroare pentru modificarea ponderilor n scopul minimizrii erorii. Relaia cea mai general de modificare a unui coeficient sinaptic w conform acestei reguli este (evoluie n direcia gradientului)
w =
unde E este eroarea global (dependent de w) i este viteza de nvare (mrimea pasului fcut pe direcia gradientului). Aceast relaie st la baza nvrii n reelele feedforward multistrat. Pagina 18 din 42
E w
(3.3)
Metaclasificator bazat pe reea neuronal Ideea de baz este de a utiliza panta gradientului pentru a cuta n spaiul ipotezelor de posibili vectori de ponderi pentru a gsi acele ponderi care aproximeaz cel mai bine exemplele de antrenament. Aceast regul este important, deoarece furnizeaz bazele algoritmului Backpropagation, care este utilizat n cazul reelelor cu multe uniti interconectate. Panta gradientului caut s determine vectorul pondere care minimizeaz eroarea pornind de la un vector pondere iniial arbitrar, care este apoi modificat repetat n pai mici. La fiecare pas, vectorul pondere este modificat n direcia n care produce o pant descendent de-a lungul suprafeei erorii. Acest proces continu pn cnd eroarea minim global este atins. Regula de nvare a perceptronului simplu propus de Rosenblatt n 1962 folosete o variant simplificat a regulii de minimizare a erorii. n acest caz avem (3.4) n care w i x sunt vectorul ponderilor i vectorul de intrare, d este ieirea dorit i y ieirea real. Regula de nvare pentru reeaua Adaline (strat de perceptroni cu ieirea liniar), cunoscut i ca Regula Widrow-Hoff, are i ea la baz minimizarea erorii
w = ( d y )x
wij = x j (Ti y i )
(3.5)
unde wij este ponderea legturii ieirii i cu intrarea j, x vectorul de intrare, T vectorul dorit la ieire i y vectorul ieirii reale. Se poate demonstra c regula anterioar este o particularizare a regulii gradientului n cazul definirii erorii conform E= 1 N (T y i ) 2 2 i =1 i (3.6)
3.1.3.2 Regula de nvare Boltzmann

Mainile Boltzmann sunt reele recurente simetrice (wij = wji), constnd din uniti binare. Un subset al neuronilor reelei sunt vizibili i interacioneaz cu mediul (cei de intrare i de ieire) iar ceilali sunt ascuni. Starea unei ieiri este 0 sau 1 cu o probabilitate
pi = 1
~ xi T
1+ e x fiind strile celorlalte uniti, wij coeficienii sinaptici, valori de prag iar T "temperatura". Alegerea noii stri se face n concordan cu probabilitatea pi. Pentru a nva asocieri ntre vectori de intrare i vectori de ieire se procedeaz astfel: rulare n mod forat ("clamped") - pentru fiecare pereche de vectori intrare-ieire se
unde ~i = wij x j i x
j i
(3.7)
foreaz unitile de intrare i ieire la aceste valori reeaua evolund pn la atingerea echilibrului termic. Dup atingerea acestui echilibru se determin probabilitatea ca dou uniti
Pagina 19 din 42
Metaclasificator bazat pe reea neuronal s fie simultan active. Se repet experiena pentru fiecare pereche de vectori intrare-ieire. Se estimeaz <ij>+ probabilitatea ca unitile i i j s fie active simultan cnd unitile vizibile sunt forate la valorile dorite. rulare n mod liber ("free") - se repet paii anteriori fornd ns doar unitile de
intrare, cele de ieire fiind lsate s evolueze liber. Se estimeaz <ij>- probabilitatea ca unitile i i j s fie active simultan cnd unitile de ieire sunt libere. Ponderile coeficienilor sinaptici se modific apoi conform regulii de nvare Boltzmann wij = ( < ij > + < ij > ) unde este rata de nvare. (3.8)
Regula de nvare Boltzmann poate fi privit ca i un caz special de nvare prin reducere a erorii, n care eroarea nu este msurat direct ci ca diferen a corelaiei ntre ieiri n cele dou moduri. Se ncearc astfel ca reeaua s evolueze la fel att n mod forat ct i liber.
3.1.3.3 Regula de nvare Hebb

Cea mai veche regula de nvare este postulatul lui Hebb, aprut n 1949 n Organization of behavior[Hebb49]. Aceasta are la baz observaia neurobiologic: Dac ambii neuroni legai printr-o sinaps sunt activi simultan coeficientul sinaptic al acestei legturi crete. Matematic, regula lui Hebb poate fi descris astfel:
wij = yi xi (3.9) unde xi i yj sunt activitile celor doi neuroni i i j conectai prin sinapsa wij i este rata de nvare. Regula lui Hebb este plauzibil biologic i prezint avantajul c nvarea se face n mod local, modificarea ponderii unei sinapse depinznd doar de neuronii alturai ceea ce faciliteaz implementarea n circuite VLSI.
3.1.3.4 Regula de nvare competitiv

Spre deosebire de nvarea bazat pe regula lui Hebb (n care mai muli neuroni pot fi activi simultan), n cazul nvrii competitive ntre unitile de ieire are loc o competiie pentru activare. n final, o singur unitate va fi activ la un moment dat. Acest fenomen este cunoscut ca nvingtorul ia totul (winner takes all). Cea mai simpl reea competitiv const dintr-un singur strat de neuroni, fiecare conectat la vectorul de intrare. Fiecare neuron i stabilete activarea dup care, n urma unui proces de competiie, se determin un singur neuron i* ctigtor.
Pagina 20 din 42
Metaclasificator bazat pe reea neuronal Regula de modificare a ponderilor sinaptice este: (x j w * ) i = i * i j (3.10) wij = 0 i i* Se observ c se modific numai vectorul ponderilor legturilor sinaptice al neuronului ctigtor. Efectul aplicrii acestei reguli de nvare este acela c vectorul w (memorat) se apropie de vectorul de intrare. Conform regulii de nvare competitiv reeaua va termina nvarea (actualizarea ponderilor) doar n momentul n care rata de nvare este 0. Un pattern de intrare particular poate activa diferite uniti de ieire la iteraii diferite pe durata nvrii. Aceasta duce la un comportament stabil al sistemului de nvare. Un sistem este stabil dac nici un pattern din datele de antrenament nu-i schimb categoria dup un numr finit de iteraii de nvare. O metod de a obine un sistem stabil este de a fora rata de nvare s descreasc gradual pe parcursul procesului de nvare pn cnd devine 0. Aceast ngheare artificial a nvrii cauzeaz o alt problem numit adaptibilitate, care reprezint abilitatea unei reele de a se adapta la noi date. Aceasta este cunoscut ca dilema stabilitate-adaptabilitate a lui Grossberg.
3.1.4 Perceptronul
Una din cele mai simple reele neurale este perceptronul (o singur celul). este prezentat n figura
X0=1 X1 X2 w0 w1 w2 wn Xn
Fig. 3.3 Calcularea ieirii perceptronului
O(x )
X = {x0 , x1 ,..., xn }, reprezint vectorul cu valorile de intrare,

W = {w0 , w1 ,..., wn }, reprezint vectorul cu valorile ponderilor O( X ) = W X = w0 + wk xk , reprezint ieirea
k =1 n
+ 1 if O( X ) > 0 , reprezint semnul la ieire. Y = 1 if O( X ) 0
Pagina 21 din 42
Metaclasificator bazat pe reea neuronal Perceptronul poate fi considerat a fi reprezentarea unei suprafee de decizie ntr-un hiperplan n spaiul n-dimenisonal al intrrilor. Ecuaia acestui hiperplan de decizie este W X =0 Astfel perceptronul poate fi utilizat ca fi un clasificator binar sau un predictor (Taken = +1 or Not_Taken = -1). Bineneles acest perceptron poate clasifica corect doar un set de exemple ( X ).care sunt linear separabile. De exemplu funcia logic XOR nu poate fi reprezentat de un singur perceptron. Problema principal este cum s formulm o regul de nvare pentru un perceptron simplu pentru a nva corect un set de vectori de antrenament pe care l vom nota cu D. Dac considerm pentru fiecare exemplu (vector de antrenament) o regul de nvare supervizat
d D este necesar s cunoatem ieirea corespunztoare denumit td.
n
Dac Od = w0 + wk x dk este ieirea real o msur comun a erorii E este:

k =1
E (w ) =
1 (t d Od ) 2 2 dD
Dat fiind formula pentru E ( w ) suprafaa trebuie s fie ntotdeauna un paraboloid cu un singur minim global. Bineneles n particular w care d minimul clasific n cea mai bun msur exemplul X dk , k=0,1,..,n.. Gradientul E (w ) se noteaz
E E E n E , ,..., ik E ( w ) = = w0 w1 wn k =0 wk
unde ik sunt vectorii unitate ortogonali in spaiul n dimensional. Se tie c gradientul specific direcia n care se produce cea mai rapid micorare a lui E. n acest caz regula de nvare ar fi
W W + W , unde W = E (W ) , = rata de nvare (a un numr real mic

pozitiv). Aceasta este echivalent cu :
wk wk
Dar:
E , ()k = 0,1,..., n wk (t W X ) 2 1 = xdk (t d Od ) (t d Od ) = (t d Od ) d wk d D 2 dD dD
E = wk wk
n final regula de nvare supervizat este:
wk wk + (t d Od ) xdk , ()k = 0,1,..., n

d D
Pagina 22 din 42
Metaclasificator bazat pe reea neuronal Aceast regul se numete regula de gradient descendent sau regula delta. Implementarea algoritmului este descris mai jos [Vintan07]:
Initialize each Wk to random values Until
E ( w) < T (threshold ), DO Initialize each Wk = 0
2 2 , n n
For each pair (xd, td), from training examples, DO: Compute Od For each Wk, DO:
wk wk + (t d Od ) x dk wk = wk + wk
For each wk, DO:
O idee alternativ este gsirea aproximrii gradientului descendent prin actualizarea ponderilor incremental, urmat de calcularea erorii pentru fiecare exemplu de antrenament. O modalitate de a implementa stohastic acest gradient descendent este s considerm eroarea distinct E d ( w) = 1 (t d Od )2 2
Utiliznd aleator exemplele Xd obinem o aproximare rezonabil a micorrii gradientului n comparaie cu eroarea global E ( w) Regula stohastic pentru gardientul descendent este:
Initialize each wk randomly to
2 2 n ,+ n
Until the termination condition is met ( E d ( w) < T or Od > T , etc.) , DO: For each (xd, td), DO: Compute Od For each wk, do:
wk wk + (t d Od ) x dk
Regula standard a gradientului descendent este consumatoare de timp datorit nsumrii a multiplelor exemple dar se utilizeaz adesea cu o rat de nvare per exemplu mai mare dect rata de nvare per exemplu la regula stohastic cu gradientul incremental descendent. Dac
E(W ) are multiple minime locale gradientul stohastic poate evita n unele cazuri oprirea n
aceste minime locale deoarece utilizeaz diverse E d (W ) n gsirea minimului Dac considerm ieirea perceptronului O( X ) = sgn(W X ) n locul O( X ) = W X atunci aceast regul se denumete regula de antrenare a perceptronului
wk wk + (t o )xk , ()k = 0,1,..., n
Pagina 23 din 42
Metaclasificator bazat pe reea neuronal Dac exemplul de antrenament este corect clasificat (t=o) nu se actualizeaz nicio pondere. Presupunem acum o=-1 i t = +1. n acest caz toate ponderile wk cu valorile pozitive xk vor fi incrementate iar celelalte ponderi wk vor fi decrementate. Similar pentru o = +1 and t = -1 toate ponderile wk cu valori xk negative vor fi incrementate iar restul ponderilor wk vor fi decrementate. Ca i o regul intuitiv dac sgn t = sgn x k atunci wk va fi incrementat iar altfel wk va fi decrementat.
3.2 Metoda Backpropagation

3.2.1 Perceptroni multistrat cu funcie de activare neliniar
Perceptronii cu un singur strat de parametri modificabili nu pot clasifica dect mulimi liniar separabile de vectori de intrare. Acest lucru a fost demonstrat nc din 1969 de ctre Minsky i Papert i a ndeprtat interesul cercettorilor de reelele neuronale. Se tia de atunci c pentru perceptronii multistrat aceste probleme nu apar dar nu era clar cum s se modifice ponderile straturilor ascunse. Problema contribuiei unitilor interne a fost rezolvat i diseminat pe scar larg abia n 1986 ducnd la renaterea interesului pentru reelele neuronale.
3.2.2 Perceptronul multistrat

Cea mai popular categorie de reele feed-forward multistrat este perceptronul multistrat n care fiecare unitate de calcul utilizeaz funcia de prag sau funcia sigmoid. Perceptronii multistrat pot forma funcii de decizie complexe i pot reprezenta orice funcie boolean. Dezvoltarea algoritmului de nvare backpropagation pentru determinarea ponderilor n perceptronii multistrat a fcut ca aceste reele s devin foarte populare n cercetare. O reea feed-forward este un caz particular de reea nerecurent, n care neuronii sunt aranjai n straturi. Fiecare neuron primete intrarea doar de la neuronii de pe stratul anterior i transmite ieirea sa numai neuronilor de pe stratul urmtor, neexistnd legturi n cadrul unui strat. Problema pe care trebuie s o rezolve reeaua este aceea de a nva asocierea ntre vectori de intrare i de ieire. Rezolvarea contribuiei unitilor interne are la baz derivarea funciilor compuse. Fie
xi (k + 1) = f
Nk j =1
wij (k ) x j (k )
)
Pagina 24 din 42
(3.11)
Metaclasificator bazat pe reea neuronal activarea unitii i din stratul k+1, Nk numrul de uniti din stratul k i f este funcia de activare. Notm ui (k + 1) argumentul funciei f, deci
k ui (k + 1) = j =1 wij (k ) x j (k )
(3.12)
Pentru fiecare vector de ieire eroarea global este dat de 1 N 2 (Ti xi ) 2 i =1 xi fiind activitile stratului de ieire i Ti valorile dorite la ieire. Numim eroare a unei uniti: pentru ultimul strat
E=
(3.13)
erri = (Ti xi ) f (ui )

pentru un strat ascuns k
N k +1 j =1
(3.14)
erri (k ) = f [ui (k ) ] errj (k + 1) wij (k )
(3.15)
Cu aceste notaii se poate demonstra c modificarea parametrilor n direcia gradientului

E wij (k ) devine, pentru toate straturile, wij (k ) =
(3.16)
wij (k ) = x j (k ) erri (k + 1)
(3.17)
Relaiile anterioare pun n eviden "retropropagarea erorii" ("backpropagation"). Ele sugereaz ideea c informaia de eroare de la ieire se propaga napoi prin reea contrar sensului legturilor sinaptice (lucru ns foarte puin plauzibil a avea loc n reelele neuronale biologice.) Cu toat aceast, probabil, ndeprtare de funcionarea reelelor neuronale biologice regula backpropagation a fcut aceste reele foarte populare ducnd la renaterea interesului i utilizrii reelelor neuronale. ntotdeauna trebuie nvate asocieri ntre mai muli vectori de intrare i de ieire. n acest caz, funcia de eroare total este suma funciilor de eroare corespunztoare perechilor individuale intrare/ieire. Aceast eroare poate fi minimizat n dou moduri: 1 off-line - se determin, pentru fiecare pereche intrare/ieire modificarea ce trebuie adus coeficienilor sinaptici. Aceste modificri se sumeaz i se aplic numai dup ce au fost prezentate toate perechile intrare/ieire. Algoritmul realizeaz o optimizare determinist dup gradient a erorii totale. Pagina 25 din 42
Metaclasificator bazat pe reea neuronal 2 on-line - modificarea coeficienilor calculat pentru o pereche intrare/ieire este aplicat imediat dup prezentarea acestei perechi. Algoritmul realizeaz o optimizare dup gradient pentru eroarea total. Prezint, n raport cu precedentul, avantajul c este n general mai rapid i poate prsi unele minime locale ale funciei de eroare total. n ceea ce privete parametrul - mrimea pasului n direcia gradientului - acesta determin viteza de convergen spre un minim al erorii E. Cnd este redus, convergena este lent dar traiectoria urmeaz n mod fidel relieful funciei de eroare. Dac E are minime locale, procedura determinist poate eua n acestea. Cnd este mare, traiectoria nu mai urmrete fidel relieful funciei de eroare, ceea ce poate duce la imposibilitatea convergenei (salturi de o parte i de alta a minimului cutat), dar permite uneori evadarea din minime locale. n practic se ncepe cu un relativ mare, iar apoi, pe msur ce reeaua nva, aceast valoare se reduce treptat. O interpretare geometric poate ajuta la explicarea rolului neuronilor (cu funcie de activare) de pe stratul ascuns. Fiecare unitate din stratul de intrare formeaz un hiperplan n spaiul eantioanelor de antrenament. Graniele dintre clasele eantioanelor de antrenament pot fi aproximate de ctre hiperplane. O unitate de pe nivelul ascuns formeaz o hiperregiune pentru ieirile unitilor de pe primul nivel. O suprafa de decizie este obinut prin efectuarea unei operaii AND ntre hiperplane. Unitile de pe nivelul de ieire combin suprafeele de decizie create de unitile de pe nivelul ascuns prin efectuarea operaiilor OR logice. Acest scenariu este doar pentru a explica rolul unitilor ascunse, iar comportamentul normal al reelei, dup ce reeaua este antrenat, poate diferi. De cele mai multe ori se utilizeaz un singur strat de neuroni ascuni (reele cu trei straturi), deoarece s-a demonstrat c o asemenea reea (avnd un numr suficient de neuroni n stratul intermediar) poate aproxima orict de bine orice funcie avnd un numr finit de discontinuiti dac funciile de activare ale neuronilor stratului ascuns sunt de tip sigmoidal.
3.2.3 Algoritmul Backpropagation

Algoritmul Backpropagation nva ponderile pentru o reea pe mai multe nivele, dnduse o reea cu o mulime fix de uniti i de interconexiuni. El utilizeaz panta gradientului pentru a ncerca s minimizeze ptratul erorii dintre valoarea ieirii reelei i valoarea int pentru acele ieiri. Problema nvrii n Backpropagation este de a cuta n spaiul mare al ipotezelor definit de toate valorile posibile ale ponderilor pentru toate unitile din reea. Algoritmul Backpropagation este prezentat n continuare. Algoritmul descris aici se aplic reelelor feedPagina 26 din 42
Metaclasificator bazat pe reea neuronal forward care conin dou nivele de uniti, cu funcia de activare sigmoid, fiecare unitate de pe un nivel fiind conectat cu toate unitile de pe nivelul anterior. Aceasta este o versiune a algoritmului backpropagation care calculeaz, incremental sau stohastic, panta gradientului.
Backpropagation (exemple_antrenament, , nin, nout, nhidden) Fiecare exemplu de antrenament este o pereche de forma
x , s , unde
x reprezint valorile vectorului de intrare i s reprezint valorile s

ale vectorului de ieire. reprezint rata de nvare care este o valoare (0,1] nin numrul de neuroni de pe stratul de intrare nhidden numrul de neuroni de pe stratul ascuns nout numrul de neuroni de pe stratul de ieire intrarea pentru unitatea i de la unitatea j este notat cu xji ponderea de la unitatea i la unitatea j este notat wji Se creeaz o reea feed-forward cu nin intrri, nhidden uniti ascunse i noutuniti de ieire Se iniializeaz toate ponderile din reea cu valori aleatoare mici (de exemplu Pn cnd i
2 2 , )[Vintan07] nin nin
condiia
de
terminare
nu
este
ndeplinit
execut
(exemplu,
eroarea....) o Pentru fiecare x , s din exemple_antrenament execut Propag semnalul forward prin reea: 1. se introduce instana
x n reea i se calculeaz ieirea y
pentru fiecare neuron din reea Propag eroarea napoi prin reea - backward 2. pentru 3. pentru fiecare fiecare neuron neuron de de ieire pe din reea ascuns se se calculeaz calculeaz eroarea conform formulei (3.14) stratul eroarea conform formulei (3.15) 4. calculeaz
w ji = erri x ji
pentru
nivelele
anterioare
prin
propagarea backward a erorii 5. se actualizeaz ponderile reelei
w ji w ji + w ji
Algoritmul este descris aici pentru o reea feed-forward coninnd dou straturi de uniti cu funcia sigmoid de activare n cazul general (Fig. 3.4). Fiecare unitate de pe fiecare strat este conectat cu toate unitile de pe stratul precedent. Unitile de pe stratul de intrare sunt Pagina 27 din 42
Metaclasificator bazat pe reea neuronal considerate uniti repetoare care prezint la ieire valoarea primit la intrare. De asemenea sunt prezentate formulele de calcul pentru aceast reea att pentru pasul forward ct i pentru pasul backward. Pentru pasul backward s-a luat n considerare formula de calculul a erorii prezentat
n out
n ecuaia
E = (Out 3 [o] Scop[o])

o =1
(3.20)
Strat intermediar Strat de iesire
Strat de intrare
neuroni
nin
nhidden
neuroni
neuroni
nout
Fig. 3.4 - Arhitectura reelei
Pentru acest caz, conform [Brea06], formulele generale date de regula backpropagation devin, cu notaiile urmtoare: ponderea legturii neuronului h (hidden) din stratul intermediar (2) cu neuronul i din stratul de intrare ("input") (1) 2[h] w23[o][h] valoarea de prag a neuronului h din stratul intermediar (2) ponderea legturii neuronului o (output) din stratul de ieire (3) cu neuronul h din stratul intermediar (2) 3[o] Out1[i] Out2[h] Out3[o] Scop[i] F(.) valoarea de prag a neuronului o din stratul de ieire (3) valoarea ieirii neuronului i din stratul de intrare valoarea ieirii neuronului h din stratul de intermediar valoarea ieirii neuronului o din stratul de ieire valoarea dorit la ieire funcia de activare a tuturor neuronilor
w12[h][i]
nin, nhidden, nout numrul de neuroni din stratul 1, 2 respectiv 3 Pagina 28 din 42
3.2.3.1 Pasul forward
Out 2 [h] = F( w 12 [h][i] Out1[i] + 2 [h] )

i =1
n in
(3.18) (3.19) (3.20)
Out 3 [o] = F(
n out
n hidden h =1
23
[o][h] Out 2 [h] + 3 [o] )

2
E = (Out 3 [o] Scop[o])

o =1
3.2.3.2 Pasul backward

E , unde w poate fi 3[o], w23[o][h], 2[h], w12[h][i] w
w =
(3.21) (3.22) (3.23)
E = 2 (Out3 [o] Scop[o]) F '(Out3 [o]) 3 [o] E = 2 (Out3[o] Scop[o]) F '(Out3[o]) Out2 [h] w23[o][h]
out
n E = 2 (Out3[o] Scop[o]) F ' (Out3[o]) w23[o][h] F ' (Out2 [h]) (3.24) 2 [h] o=1
E w12 [h][i ]
= 2 (Out3[o] Scop[o]) F ' (Out3[o]) w23[o][h] F ' (Out2 [h]) Out1[i ] (3.25)
o=1
nout
Considernd pentru funcia F funcia sigmoid clasic, derivata se determin uor din valoarea funciei conform relaiei:
F ( x) = F ( x)i(1 F ( x) )
(3.26)
3.2.4 Rezultate privind evitarea saturrii ieirii neuronilor

Aceast problem se pune n cazul n care neuronii din stratul de ieire au funcia de activare sigmoid. Pentru a adapta spaiul problemei la spaiul reelei neuronale cea mai simpl soluie este translatarea domeniului valorilor componentelor vectorilor aplicai ieirii reelei [VMIN VMAX] printr-o funcie liniar n domeniul [L H] cu L = 0.0 i H = 1.0 (avnd n vedere domeniul de ieire al neuronilor cu funcii de activare sigmoide clasice). Am comparat aceast prim variant cu o a doua variant, n care am realizat translatarea n domeniul [L H] cu L = 0.1 i H = 0.9. Pentru comparaie am ales o reea feed-forward cu 2 Pagina 29 din 42
Metaclasificator bazat pe reea neuronal neuroni de intrare, 2 neuroni n stratul ascuns i un singur neuron de ieire, cu funcii de activare sigmoide pentru toi neuronii, care s rezolve binecunoscuta problema XOR. Am folosit la antrenare metoda backpropagation clasic, nvare off-line i rata de nvare constant = 1. Evoluia comparativ a erorii reelei n primii 4001 pai este prezentat n Fig. 3.5.
Evolutia erorii pentru problema XOR
6.00E-01 5.00E-01
Eroarea
4.00E-01 3.00E-01 2.00E-01 1.00E-01 0.00E+00 1 501 1001 1501 2001

Pas
cu prag 0.1 si 0.9 cu prag 1.0 si 0.0
2501
3001
3501
4001
Fig. 3.5 Evoluia erorii n cazul problemei XOR
n primele etape de antrenament prima variant duce la o nvare mai rapid deoarece eroarea determinat de reea este mai mare. n urmtoarele ns, pe msura apropierii valorii ieirii de valorile de saturaie ale funciei sigmoide nvarea devine foarte lent. n varianta a doua valorile dorite la ieire se ating repede datorit evitrii zonei de saturaie a funciei sigmoide. Rezult deci c scalarea domeniului semnalului de intrare la domeniul 0.1 0.9 este benefic i a fost aplicat n toate experimentele descrise n lucrare n care neuronii au funcia de activare sigmoid.
3.3 Rezultate
privind
utilizarea
reelei
BP
cadrul
metaclasificatorului (M-BP)
Metaclasificatorul realizat se bazeaz pe o preclasificare de documente prezentat n seciunea 2.1.3 i o reea neuronal de tip feed-forward cu nvare online. Am dorit s includem n metaclasificatorul M-BP (Metaclasificator cu reea BackPropagation) o reea neuronal deoarece am considerat c un metaclasificator adaptiv poate va reui s se adapteze i la datele cu probleme, care exist n setul de antrenare/testare. Reelele neuronale sunt sisteme care se adapteaz la schimbrile survenite n seturile de date astfel c metaclasificatorul M-BP devine unul mult mai adaptiv dect metodele SBDE i SBCOS dezvoltate i prezentate n [Mor06].
Pagina 30 din 42
Metaclasificator bazat pe reea neuronal Cel mai bun rezultat de pn acum prezentat n lucrare s-a obinut cu ajutorul metaclasificatorului bazat pe cosinus, unde acurateea de clasificare a atins valoarea de 93,87% pe setul de test T1 cu 2351 documente. Pentru antrenarea i testarea reelei Backpropagation am plecat de la setul de vectori obinut de metaclasificatorul neadaptiv, prezentat n seciunea 2.1.3. Am antrenat acel metaclasificator att pentru setul de antrenament A1 (4702 documente) ct i pe setul de test T1 (2351 documente) [Cret08] Ca i intrare n acest metaclasificator avem setul de date, iar la ieire, obinem un set de vectori, cte un vector pentru fiecare document de intrare, de 16 elemente fiecare. Setul de vectori obinut pornind de la setul de documente de antrenare A1, pe care l vom numi n continuare setul AV1, va fi folosit n etapa de antrenare a reelei. Setul de vectori obinut pornind de la setul de documente de testare T1, numit n continuare TV1, va fi folosit att n etapa de testare ct i n etapa de determinare a configuraiei reelei. n ceea ce privete arhitectura reelei backpropagation, am ales una care conine dou straturi de uniti cu funcia sigmoid de activare, iar fiecare unitate de pe fiecare strat este conectat cu toate unitile de pe stratul precedent. Deoarece la intrare avem la dispoziie vectori de 16 elemente reeaua va avea pe stratul de intrare 16 neuroni. La ieire metaclasificatorul trebuie s prezic clasa n care se gsete documentul curent. Atunci reeaua Backpropagation va avea la ieire tot un numr de 16 neuroni deoarece avem 16 clase distincte. n stratul ascuns avem un numr variabil de neuroni, alegerea acestui numr va fi fcut n funcie de rezultatele simulrilor care vor fi prezentate n seciunea urmtoare (3.3.1). n faza de antrenare, deoarece reeaua este una cu nvare supervizat, pentru setul de antrenare am creat un set cu rspunsurile corecte pentru fiecare document n parte. Un astfel de rspuns conine valoarea 1 pe poziia clasei corecte i valoarea 0 n rest. Structura metaclasificatorului adaptiv M-BP este prezentat n Fig. 3.6.
Pagina 31 din 42
Fig. 3.6 Metaclasificator adaptiv M-BP
3.3.1 Influena numrului de neuroni de pe stratul ascuns

Deoarece nu exist o formul matematic pentru calcularea numrului optim de neuroni necesari pe stratul ascuns, n aceast seciune prezentm experimentele realizate n vederea determinrii numrului optim de neuroni pentru reeaua prezentat n Fig. 3.6. Experimentele prezentate n aceast seciune sunt efectuate pe setul TV1, att antrenarea ct i testarea. Ca i metod de evaluare, am oprit antrenarea reelei dup ce aceasta a ajuns din punct de vedere al erorii de antrenare la o anumit valoare, am evaluat reeaua pe ntreg setul din punct de vedere al numrului de documente incorect clasificate, dup care am continuat antrenarea. Valorile erorii la care am oprit antrenarea reelei sunt calculate ca fiind sum a tuturor erorilor obinute pentru fiecare exemplu n parte din setul TV1. Pentru calculul erorii am folosit formula Error! Reference source not found.). Evaluarea reelei n acel punct se face ca fiind numrul de documente incorect clasificate de ctre reea. Avnd n vedere c setul TV1 conine 2351 vectori i c eroarea pe fiecare vector reprezint o sum de 16 elemente, eroarea total va avea valori supraunitare. Vom ncepe testarea pornind de la o valoare a erorii totale egal cu 500, ceea ce nseamn o eroare medie pe fiecare vector de 0,21. Ideea este de ajunge cu eroarea de antrenare la o valoare ct mai mic ntr-un timp ct mai scurt. n graficul urmtor (Fig. 3.7) prezentm evoluia acurateei de clasificare a MC-BP n funcie de numrul de neuroni de pe stratul ascuns. Iniial am pornit de la un numr de 17 neuroni pe stratul ascuns. Toate experimentele prezentate n aceast seciune au coeficientul de nvare =1. n momentul n care timpul necesar reelei pentru a reduce eroarea de antrenare devine mare am oprit antrenarea reelei pentru acea configuraie. Din acest motiv, n graficele Pagina 32 din 42
Metaclasificator bazat pe reea neuronal prezentate n continuare unele grafice nu coboar cu eroarea de antrenare pn la valoarea minim obinut de cea mai bun configuraie testat.
Coeficientul de invatare etha constant 1
95 93 91 Acuratetea clasificarii 89 87 85 83 81 79 77 75
50 0 40 0 38 0 35 0 33 0 31 0 29 0 27 0 25 0 23 0 21 0 19 0 17 0
17 19 20 32 36 38 48 49 52
Eroarea de antrenare a reelei
Fig. 3.7 Influena numrului de neuroni de pe stratul ascuns asupra acurateei de clasificare. Coeficient de nvare =1
n acest grafic am nceput cu un numr mic de neuroni pe stratul ascuns pentru a avea un timp de nvare relativ mic (din punct de vedere al calculelor efectuate), dar, n momentul n care am ajuns la valori totale ale erorii de antrenare n jur de 200, timpul de antrenare crete, iar, datorit coeficientului de nvare mare, reeaua ncepe s fluctueze n jurul unei valori a erorii totale. Din acest motiv am oprit evaluarea reelei la un numr de 52 de neuroni pe stratul ascuns chiar dac acurateea de clasificare cretea. n seciunea urmtoare prezentm experimente n care modificm i pasul de nvare. n cazurile n care reeaua este mai simpl (are un numr mai mic de neuroni pe stratul ascuns), de la un moment dat, eroarea total a nceput s scad foarte ncet, moment n care am oprit antrenarea reelei. De aceea, din acel punct nu vor mai fi valori n graficele pe care le prezint. Am modificat numrul de neuroni utiliznd multiplii lui 16 (v. Fig. 3.8 i 3.10). Pe msur ce am crescut numrul neuronilor de pe stratul ascuns pstrnd pas de nvare =1, eroarea a sczut de la 0,2 la 0,04 per exemplu. Cea mai bun valoare a acurateei de clasificare obinut pn n acest Pagina 33 din 42
Metaclasificator bazat pe reea neuronal moment este de 94,26%, fiind deja superioar celei mai bune valori obinute cu metaclasificatorul de tip SBCOS cu 9 clasificatoare (93,32%). Totui, o dat cu creterea numrului de neuroni de pe stratul ascuns am observat c timpul de antrenare pentru reea scade, chiar dac numrul de calcule care trebuie efectuate crete. n cazul n care avem muli neuroni pe stratul ascuns reeaua ajunge mai repede la o eroare mai mic iar fluctuaiile apar la valori mici ale erorii. Numrul mai mare de neuroni pe stratul ascuns duce la o micorare mai rapid a erorii datorit unei distribuii mai adecvate. Aceast convergen superioar compenseaz timpul necesar efecturii unui numr mult mai mare de calcule. De asemenea i acurateea clasificrii crete semnificativ.
3.3.2 Influena coeficientului de nvare

n continuare vom prezenta experimente efectuate pe acelai numr de neuroni pe stratul ascuns, dar cu un coeficient de nvare care scade n timp. Practic, oprim antrenarea reelei la anumite valori ale erorii totale de antrenare, efectum testarea, i continum antrenarea reelei cu un coeficient de nvare micorat. De exemplu, pn la o valoare a erorii totale egal cu 350, coeficientul de nvare este 1, ntre 340 i 320 este 0,9, ntre 320 i 300 este 0,8 i scade pn la valoarea de 0,1 la o valoare a erorii de 150.
Evoluia BP-MC. Coeficient de nvare diferit

100,00
Acureteea de clasificare
95,00
90,00
38 neuroni strat ascuns
85,00
80,00

75,00
500
400 340
320 300 280
260 240 220
200 180
160 140

Fig. 3.8 Influena numrului de neuroni de pe stratul ascuns asupra acurateei de clasifcare. Coeficient de nvare diferit
n Fig. 3.8 am prezentat doar evoluia reelei pentru un numr de neuroni pe stratul ascuns egal cu 38, 52 i 64 deoarece acestea au obinut rezultatele cele mai bune n cazul coeficientului de nvare constant. n acest grafic am cobort cu eroarea de nvare pn la valoarea de 130 Pagina 34 din 42
Metaclasificator bazat pe reea neuronal (coeficientul de nvare a ajuns la 0,01), deoarece reeaua nu a mai fluctuat mult n jurul erorii i astfel timpul de antrenare a fost redus. n acest caz, cu un numr de 52 de neuroni pe stratul ascuns numrul de vectori incorect clasificai pentru o eroare total de antrenare egal cu 170 este de 136. n acest grafic am prezentat i rezultate obinute pe o reea cu 64 de neuroni pe stratul ascuns, caz n care eroarea total de antrenare a sczut la valoarea de 130, iar numrul de documente incorect clasificate s-a redus la 95, ceea ce reprezint o acuratee de clasificare de 95,96%. Am observat c, odat cu creterea numrului de neuroni de pe stratul ascuns, se mbuntete acurateea clasificrii, deoarece putem ajunge la o eroare de antrenare mult mai mic. Am efectuat i unele experimente n care numrul de neuroni de pe stratul ascuns este mai mare, regula de alegere a numrului de neuroni de pe stratul ascuns fiind multipli ai lui 16.
Evoluia BP-MC. Coeficient de nvare diferit
100,00
95,00
Acureteea de clasificare
90,00

85,00
128 neuroni strat ascuns 160 neuroni strat ascuns
80,00
75,00
500 400 340 320 300 280 260 240 220 200 180 160 140 120 100 80
60
40
Fig. 3.9 Influena numrului de neuroni de pe stratul ascuns asupra acurateei de clasificare. Coeficient de nvare diferit
n acest caz, arhitectura cu 160 de neuroni pe stratul ascuns a obinut cele mai multe rezultate bune, dar n momentul n care eroarea total de antrenare a sczut pn la valoarea 70, Pagina 35 din 42
Metaclasificator bazat pe reea neuronal timpul de antrenare pentru ca eroarea s scad la valoarea 60 a depit 24 ore. De aceea am realizat o arhitectur a reelei cu 192 de neuroni pe stratul ascuns care a reuit s coboare la o eroare de antrenare egal cu 40, caz n care numrul de documente incorect clasificate este de doar 11. Acest numr reprezint o acuratee a clasificrii pentru metaclasificatorul M-BP de 99,53%. O eroare total de antrenare egal cu 40 nseamn o eroare medie per exemplu egal cu 0,017. Experimentele prezentate au fost rulate pe un calculator P-IV dual core la 1.9GHz cu 2Gb DRAM i sistem de operare Windows Vista. Prezentm n Fig. 3.10 rezultatele comparative ntre arhitectura reelei cu 52 neuroni pe stratul ascuns i coeficient de nvare 1 i respectiv aceeai arhitectur, dar coeficient de nvare descresctor n timp Pentru a ajunge la prima oprire (eroare 500) reeaua are nevoie de mai mult timp deoarece pornete de la o eroare mare dar care scade foarte repede. Timpii pentru urmtoarele opriri ale reelei sunt timpii necesari reelei pentru a ajunge de la valoarea erorii de la pasul curent la valoarea erorii de la urmtoarea oprire.
Timp antrenare
100000
10000
secunde
1000 100
52-etha=1 52-etha diferit
10
1
22 0 20 0 50 0 40 0 34 0 32 0 30 0 28 0 26 0 24 0 18 0
Eroare de antrenare pe setul TV1
Fig. 3.10 Timpul de antrenare - comparaie ntre dou arhitecturi cu 52 neuroni pe stratul ascuns
Rezultatele prezentate n aceast seciune au fost obinute antrennd i testnd reeaua Backpropagation pe setul TV1 care conine 2351 vectori. n seciunea urmtoare prezentm rezultatele obinute n cazul antrenrii pe setul AV1 (4702 vectori) i ale testrii pe setul TV1.
Pagina 36 din 42
3.3.3 Rezultate obinute n cazul antrenrii pe setul AV1 i ale testrii pe TV1
Prezint rezultate doar pentru arhitecturi ale reelei cu un numr de neuroni mai mare de 96 pe stratul ascuns i un coeficient de nvare descresctor n timp. i n acest caz, pentru testare, oprim reeaua n momentul n care atinge un anumit prag al erorii de antrenare, o testm pentru a obine numrul de documente incorect clasificate, dup care continum cu antrenarea. n acest caz eroarea total de antrenare este obinut ca o sum a tuturor celor 4702 erori, ceea ce reprezint o medie a erorii per exemplu de 0,11 n cazul erorii totale egale cu 500. n acest experiment am ajuns la o eroare total egal cu 80, ceea ce nseamn o eroare medie de 0,017 per exemplu.
Evoluia BP-MC
100 99 98 Acuratetea de clasificare 97 96 95 94 93
96 neuroni strat ascuns 128 neuroni strat ascuns 160 neuroni strat ascuns
92 91 90 350 320 290 260 230 200 170 140
110
80
Eroarea de antrenare pe setul AV1

Fig. 3.11 Acurateea de clasificare n cazul antrenrii pe setul AV1 i a testrii pe setul TV1
n acest caz, arhitectura cu 176 de neuroni pe stratul ascuns a obinut cele mai multe valori minime pentru numrul de documente incorect clasificate, dar, n momentul n care eroarea total de antrenare a sczut sub valoarea 100, rezultatele cele mai bune au fost obinute de arhitectura cu 192 de neuroni pe stratul ascuns. n acest caz am obinut un numr de 14 documente incorect clasificate, ceea ce reprezint o acuratee de clasificare a metaclasificatorului Pagina 37 din 42
Metaclasificator bazat pe reea neuronal de 99,40%. Diferena fa de cea mai bun valoare fa de cea cu 176 de neuroni pe stratul ascuns este de doar 3 documente incorect clasificate.
Coeficientul de nvare Eroarea total de antrenare

1 1 1 1 0,9 0,9 0,8 0,8 0,7 0,7 0,6 0,6 0,6 0,6 0,5 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0,1 0,1 0,1 0,1 0,01 0,01 500 450 400 350 340 330 320 310 300 290 280 270 260 250 240 230 220 210 200 190 180 170 160 150 140 130 120 110 100 90 80
Numr de neuroni pe stratul ascuns

96 381 345 278 221 214 199 196 186 173 161 155 149 139 123 116 112 108 102 100 91 88 77 76 67 56 128 369 325 282 226 220 212 209 199 190 177 168 158 147 141 132 124 114 109 104 97 83 80 70 61 57 53 49 160 368 334 268 223 213 200 194 185 170 170 161 154 146 134 127 120 106 98 87 81 71 68 62 56 46 42 36 32 176 376 324 282 232 222 206 199 194 184 170 164 154 142 130 124 111 103 91 82 73 64 58 56 43 35 33 27 25 22 21 17 192 374 321 288 224 217 217 205 195 184 167 160 152 145 132 128 115 99 96 85 76 64 57 53 49 41 35 30 28 23 19 14
Tabel 3.1 Numr de documente incorect clasificate
Pagina 38 din 42
Metaclasificator bazat pe reea neuronal n tabelul de mai sus am prezentat numrul de documente incorect clasificate obinut de arhitecturile testate. Pentru fiecare arhitectur am prezentat valoarea obinut pentru toate testele efectuate n timpul antrenrii reelei. Astfel, n coloana a doua se afl valorile erorii totale de antrenament la care reeaua a fost oprit i testat. n prima coloan sunt date valorile coeficientului de nvare care a fost folosit pentru reea, astfel nct eroarea de antrenare a reelei s coboare la valoarea precizat. Acest nou metaclasificator cu o reea neuronal cu numr suficient de mare de neuroni pe stratul ascuns a reuit s depeasc i limita maxim de 98,63% la care ar fi putut ajunge teoretic clasificatorii inclui n cadrul metaclasificatorului. Foarte interesant, acest metacalsificator neuronal cu nvare supervizat a demonstrat faptul c acurteea de 98,63% nu este de fapt limita maxim a metaclasificrii aa cum eu considerasem. Datorit procesului de nvare supervizat aceast limit poate fi depit. Spre exemplu n cazul unui vectoor de intrare n reea al crui element maxim nu se afl situat pe poziia clasei corecte acesta poate activa la ieire celula corect tocmai datorit unui proces de nvare adecvat (n care reelei i s-au mai livrat exemple asemntoare)
Pagina 39 din 42
Concluzii
4 Concluzii
n acest referat de doctorat prezint contribuiile mele n domeniul clasificrii de documente text. Din tot fluxul de etape necesare n procesul de regsire al informaiilor, m-am axat n acest referat pe etapa de metaclasificare. n aceast etap combin eficiena mai multor clasificatori individuali diferii n scopul obinerii unor rezultate superioare de clasificare a documentelor. Am gndit acest metaclasificator ca fiind format din dou componente. O component, considerat ca fiind etapa de preclasificare, realizat dintr-un metaclasificator (selector) neadaptiv i o alt component, considerat ca fiind etapa de postclasificare, realizat dintr-o reea neuronal de tip backpropagation n capitolul 1 am prezentat o vedere de ansamblu asupra procesului de regsire al informaiilor detaliind etapa de metaclasificare. n capitolul urmtor am prezentat o serie de metaclasificatori neadaptivi care folosesc diferite procedee pentru ponderarea valorilor generate de ctre fiecare clasificator n parte cu scopul de a mbunti acurateea final a clasificrii. n prima seciune am prezentat un metaclasificator care nsumeaz simplu toate valorile generate de ctre clasificatoare. Rezultatele obinute de acest metaclasificator sunt mai bune dect votul majoritar, dar nu semnificativ. n urmtoarele seciuni am prezentat o serie de experimente care ncearc diferite valori pentru a pondera vectorii generai de ctre clasificatori. Aceste valori pondereaz vectorii, n funcie de ordinea obinut de fiecare clas n cadrul vectorului. Cele mai bune rezultate obinute au fost de 301 documente incorect clasificate, ceea ce reprezint o acuratee a clasificrii de 87,20%. Aceste rezultate s-au obinut cnd am utilizat ponderarea liniar cu pasul de 0,5. Vectorii obinui n urma acestei etape vor fi utilizai i n urmtoarea etap din metaclasificator, cea de postclasificare. Chiar dac cele mai bune rezultate au fost obinute cu ponderarea prezentat mai sus, n urmtoarea etap din metaclasificator am folosit rezultatele obinute utiliznd ponderarea de tip Eurovision care a obinut un scor 87,03%. n capitolul 3 am prezentat elementele necesare pentru dezvoltarea unei reele neuronale de tip backpropagation, adaptat pentru funcionarea n acest context. Parametrii reelei care au fost experimentai n aceast lucrare sunt numrul de neuroni de pe stratul ascuns i coeficientul de nvare al reelei. Algoritmul prezentat se aplic reelelor feed-forward care conin 2 nivele de uniti cu funcia de activare sigmoid, fiecare unitate de pe un nivel fiind conectat la toate Pagina 40 din 42
Concluzii unitile de pe nivelul anterior. Deoarece reeaua neuronal prezentat este o reea cu nvare supervizat, a avut nevoie de o etap de antrenare. Pentru antrenare i ulterior testare am folosit iniial acelai set de vectori numit TV1. Folosind acest set am testat influena numrului de neuroni de pe stratul ascuns i a coeficientului de nvare asupra acurateei de clasificare. Astfel am variat numrul de neuroni de pe stratul ascuns ntre valoarea 17 i valoarea 52 cu un coeficient de nvare constant (=1). Cele mai bune rezultate au fost obinute de arhitectura cu 52 de neuroni pe stratul ascuns, ajungnd la o acuratee a clasificrii de 94,26%. Totui odat cu creterea numrului de neuroni de pe stratul ascuns am observat c timpul de antrenare pentru reea nu crete, chiar dac numrul de calcule care trebuie efectuate cresc. De aceea am ncercat i utilizarea unui numr mai mare de neuroni pe stratul ascuns. Tot n acest capitol am prezentat experimente realizate utiliznd seturi diferite pentru antrenare i testare. n acest caz am folosit i valori descresctoare ale coeficientului de nvare. n momentul n care am redus i coeficientul de nvare am reuit s antrenm reeaua pn la o valoare mic a erorii de antrenare (medie 0,017 per exemplu de antrenament). Cele mai bune rezultate (99,40% acuratee de clasificare!) le-am obinut folosind o reea neuronal cu 192 de neuroni pe stratul ascuns. Totui, comparativ ca numr de rezultate bune pe parcursul antrenrii chiar nainte de a atinge eroarea de antrenare minim, le-am obinut utiliznd o reea cu 176 de neuroni pe stratul ascuns. n urma experimentelor efectuate am observat c introducerea unei reele neuronale n cadrul metaclasificatorului face ca acesta s se adapteze mult mai bine la documentele care trebuie clasificate, reuind astfel s clasifice i documentele cu problem pe care metaclasificatorii prezentai anterior nu au reuit s le nvee. Acest nou metaclasificator a reuit s depeasc i limita maxim de 98,63% la care ar fi putut ajunge teoretic clasificatorii inclui n cadrul metaclasificatorului. Ca i dezvoltri ulterioare se ncearc mbuntirea reelei neuronale, astfel nct aceasta s convearg mult mai rapid. De asemenea s-ar putea testa reeaua nlocuind funcia de activare sigmoid cu alte tipuri de funcii de activare.
Pagina 41 din 42
Bibliografie
5 Bibliografie
[Brea06] [Cret08] Breazu, M., Tehnici fractale i neuronale n compresia de imagini, Editura universitii Lucian Blaga din Sibiu, ISBN 978-973-739-251-0, 2006 Cretulescu R., Support Vector Machine versus Bayes Nave, 2nd PhD report, Lucian Blaga University of Sibiu, 2008, http://webspace.ulbsibiu.ro/radu.kretzulescu/html/phdreport2.pdf Haykin, S., Neural Networks: A comprehensive Foundation, MacMillan College, New York, 1994 Hebb, D.O., The Organization of Behavior, John Wiley & Sons, New York, 1949 Jaeger, S., Huanfeng, M., Drmann, D., Combinig Calssifiers with Informational Confidence, Studies in Computational Intelligence (SCI) 90, pag. 163-191, 2008 Jain, A., Mao, J., Mohiuddin, K.M., Artificial Neural Networks: A Tutorial, Journal of IEEE Computational Science and Engineering, pp. 31-44, 1996 Kung S.Y., Digital Neural Networks, Prentice Hall, New Jersey, 1993 Morariu, D., Vintan, L., Tresp, V., Meta-classification using SVM classifier for Text Document, Proceedings of the 3rd International Conference on Machine Learning and Pattern Recognition (MLPR06), ISSN 1503-5313, vol. 15, pp. 222-227, Barcelona, Spain, October, 2006. Morariu, D., Text Mining Methods based on Support Vector Machine, Ed. MatrixRom, Bucureti, 2008. Misha Wolf and Charles Wicksteed Reuters Corpus: http://www.reuters.com/researchandstandards/corpus/ lansat n noiembrie 2000, accesat n septembrie 2009 Vinan N. L., Prediction Techniques in Advanced Computing Architectures (in limba engleza), Editura Matrix Rom, Bucureti, ISBN 978-973-755-137-5, 2007 Wassermann, P.D., Neural Computing. Theory and Practice, Van Nostrand Reinhold, 1989
[Hayk94] [Hebb49] [Jaeg08] [Jain96] [Kung93] [Mora06]
[Mora08] [Reut00]
[Vintan07] [Wass89]
Pagina 42 din 42

PHD Report 3

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

PHD Report 3

Încărcat de

Drepturi de autor:

Formate disponibile

Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare i Automatizri

Evaluarea filtrrii informaiilor prin utilizarea unei ontologii de domeniu

Referat de doctorat nr. 3

Introducere i obiective principale

Metaclasificator bazat pe reea neuronal ................................................................. 13

Concluzii ................................................................................................................... 40 Bibliografie................................................................................................................ 42

Introducere i obiective principale

1 Introducere i obiective principale

Metaclasificatori n clasificarea de documente text

2 Metaclasificatori n clasificarea de documente text

2.1 Metaclasificator (Eurovision)

2.1.1 Metaclasificator neadaptiv bazat pe sum (M-SUM)

Metaclasificatori n clasificarea de documente text

Fig. 2.1 Metaclasificator neadaptiv

Fig. 2.2 Metaclasificator neadaptiv bazat pe sum (M-SUM)

2.1.2 Metaclasificator neadaptiv bazat pe sum normalizat (M-ESUM)

Metaclasificatori n clasificarea de documente text

Fig. 2.3 Metaclasificator neadaptiv bazat pe sum ponderat (M-ESUM)

2.1.3 Metaclasificator neadaptiv bazat pe sum ponderat (M-WSUM)

Fig. 2.4 - Metaclasificator neadaptiv bazat pe sum ponderat (M-WSUM)

2.1.4 Cercetri privind alte variante de ponderare a elementelor vectorilor

2.1.4.1 njumtirea ponderii (M-HW)

2.1.4.2 Ponderi mici descresctoare linear

87.2 87.03 86.68 86.56 87.07

Fig. 2.5 - Comparaie rezultate metaclasificatori neadaptivi

Metaclasificator bazat pe reea neuronal

3 Metaclasificator bazat pe reea neuronal

3.1 Postclasificare utiliznd metoda Backpropagation

Metaclasificator bazat pe reea neuronal

3.1.1 Modelul neuronului artificial

Fig. 3.1 Modelul neuronului artificial

d - funcia de activare gaussian, Gauss ( x ) = e

Fig. 3.2 Funciile de activare cel mai frecvent ntlnite

Metaclasificator bazat pe reea neuronal

funcia sigmoid devine funcia treapt.

3.1.2 Arhitectura reelelor neuronale

3.1.3 nvarea reelelor neuronale

3.1.3.1 Reguli de nvare prin corecie a erorii ("error-correction rules")

3.1.3.2 Regula de nvare Boltzmann

3.1.3.3 Regula de nvare Hebb

3.1.3.4 Regula de nvare competitiv

X = {x0 , x1 ,..., xn }, reprezint vectorul cu valorile de intrare,

+ 1 if O( X ) > 0 , reprezint semnul la ieire. Y = 1 if O( X ) 0

Dac Od = w0 + wk x dk este ieirea real o msur comun a erorii E este:

W W + W , unde W = E (W ) , = rata de nvare (a un numr real mic

E , ()k = 0,1,..., n wk (t W X ) 2 1 = xdk (t d Od ) (t d Od ) = (t d Od ) d wk d D 2 dD dD

n final regula de nvare supervizat este:

wk wk + (t d Od ) xdk , ()k = 0,1,..., n

E ( w) < T (threshold ), DO Initialize each Wk = 0

For each wk, DO:

3.2 Metoda Backpropagation

3.2.2 Perceptronul multistrat

erri = (Ti xi ) f (ui )

erri (k ) = f [ui (k ) ] errj (k + 1) wij (k )

Cu aceste notaii se poate demonstra c modificarea parametrilor n direcia gradientului

3.2.3 Algoritmul Backpropagation

x reprezint valorile vectorului de intrare i s reprezint valorile s

2 2 , )[Vintan07] nin nin

x n reea i se calculeaz ieirea y

propagarea backward a erorii 5. se actualizeaz ponderile reelei

E = (Out 3 [o] Scop[o])

Fig. 3.4 - Arhitectura reelei

Metaclasificator bazat pe reea neuronal