Sunteți pe pagina 1din 297

Clin Enchescu Calculul Neuronal

Coperta: XXXXXXXXXXXXX

Copyright autorul, 2009

ISBN 978-973-133-460-8

Director: Mircea Trifu Fondator: dr. T.A. Codreanu Tiparul executat la Casa Crii de tiin 400129 Cluj-Napoca; B-dul Eroilor nr. 6-8 Tel./fax: 0264-431920 www.casacartii.ro; e-mail: editura@casacartii.ro

Clin Enchescu

CALCULUL NEURONAL

Casa Crii de tiin Cluj-Napoca, 2008

CUPRINS
Introducere ................................................................................................................. 9 I. Elemente generale de Inteligen Artificial............................................................ 12
I.1. Sisteme de Inteligen Artificial............................................................................................................12 I.2. Calculul neuronal n cadrul AI................................................................................................................16 I.3. Ce este calculul neuronal?.......................................................................................................................17 I.4. Istoric al dezvoltrii calculului neuronal.................................................................................................17 I.5. Concluzii .................................................................................................................................................19

II Noiuni generale.................................................................................................... 22
II.1. Elemente de baz ale calculului neuronal ..............................................................................................22 II.1.1. Neuronul biologic ........................................................................................................................22 II.1.2. Neuronul artificial .......................................................................................................................24 II.1.3. Diferene ntre neuronul biologic i neuronul artificial ...............................................................26 II.2. Reele neuronale artificiale ....................................................................................................................26 II.3. Modul de operare al reelelor neuronale ................................................................................................28 II.4. Taxonomia reelelor neuronale ..............................................................................................................29 II.5. Calculul neuronal versus Inteligena Artificial i calculul algoritmic..................................................31 II.5.1. Programare versus nvare .........................................................................................................32 II.5.2. Memorii asociative distributive ...................................................................................................32 II.5.3. Tolerana la deteriorri ................................................................................................................33 II.5.4. Recunoaterea formelor (Pattern Recognition)............................................................................33 II.5.5. Sintez .........................................................................................................................................33 II.5.6. Calculul neuronal versus calculul algoritmic...............................................................................34 II.6. Domenii de utilizare ale reelelor neuronale ..........................................................................................35 II.6.1. Procesarea limbajului ..................................................................................................................35 II.6.2. Comprimarea datelor ...................................................................................................................37 II.6.3. Recunoaterea caracterelor ..........................................................................................................37 II.6.4. Probleme combinatoriale.............................................................................................................38 II.6.5. Recunoaterea formelor...............................................................................................................38 II.6.6. Prelucrarea semnalelor ................................................................................................................39 II.6.7. Modelare economic i financiar ...............................................................................................40 II.6.8. Servo-control ...............................................................................................................................40 II.6.9. Teoria aproximrii .......................................................................................................................41 II.7. Clasificare..............................................................................................................................................41 II.8. Tehnologii implicate n dezvoltarea calculului neuronal .......................................................................44 II.8.1. Simulatoare software ...................................................................................................................44 II.8.2. Acceleratoare hardware ...............................................................................................................45 II.8.3. Procesoare neuronale...................................................................................................................45 II.8.4. Procesoare optice.........................................................................................................................46

III. Procesul de nvare ............................................................................................ 48


III.1. Noiuni generale ...................................................................................................................................48 III.2. Algoritmi de nvare............................................................................................................................49 III.2.1. nvare pe baza minimizrii unei funcii eroare ........................................................................49 III.2.2. nvare Hebbian ......................................................................................................................51 III.2.3. nvare competitiv...................................................................................................................52 III.2.4. nvare Boltzmann ....................................................................................................................53 III.3. Paradigme de nvare ..........................................................................................................................55 III.3.1. nvare supervizat....................................................................................................................55 III.3.2. nvare nesupervizat................................................................................................................56 III.3.3. nvare ntrit (reinforcement) ................................................................................................57 III.4. Natura statistic a procesului de nvare .............................................................................................58 III.4.1. Generaliti.................................................................................................................................58 III.4.2. Contradicia dintre varian i bias .............................................................................................62 5

III.4.3. Modelul general al procesului de nvare..................................................................................63 III.4.4. Capacitatea de generalizare ........................................................................................................69

IV. Perceptroni .......................................................................................................... 76


IV.1. Perceptronul simplu .............................................................................................................................76 IV.1.1. Modul de operare al PS..............................................................................................................76 IV.1.2. PS cu funcie de activare f(x) = sgn(x).......................................................................................77 IV.1.3. PS cu funcie de activare liniar.................................................................................................82 IV.1.4. PS cu funcie de activare neliniar .............................................................................................84 IV.1.5. PS stohastic ................................................................................................................................86 IV.1.6. Capacitatea de memorare a PS...................................................................................................90 IV.1.7. Interpretarea geometric a PS ....................................................................................................92 IV.2. Perceptronul multistrat (PMS) .............................................................................................................95 IV.2.1. Legea de nvare BP .................................................................................................................95 IV.2.2. Variante ale legii de nvare BP pentru PMS............................................................................98 IV.2.3. Interpretarea geometric a PMS ...............................................................................................105

V. nvarea activ .................................................................................................. 110


V.1. Introducere...........................................................................................................................................110 V.2. Un cadru general pentru aproximarea activ .......................................................................................110 V.2.1. Preliminarii................................................................................................................................110 V.2.2. Algoritmi de alegere a exemplelor ............................................................................................112 V.3. nvare activ. Aproximarea funciilor continue monoton cresctoare i mrginite ..........................115 V.3.1. Limita inferioar pentru nvarea pasiv..................................................................................116 V.3.2. Algoritmul nvrii active (AIA)..............................................................................................117 V.3.3. Simulri experimentale i alte investigaii.................................................................................122 V.4. nvare activ. Aproximarea funciilor derivabile cu derivata mrginit ...........................................123 V.4.1. Limita inferioar a numrului de exemple ................................................................................124 V.4.2. Obinerea unei strategii optimale de alegere a exemplelor........................................................126 V.4.3. Algoritmul de nvare activ (AIA) .........................................................................................129 V.4.4. Distribuia exemplelor selectate ................................................................................................130

VI. nvarea nesupervizat..................................................................................... 132


VI.1. Generaliti.........................................................................................................................................132 VI.2. Invarea nesupervizat Hebbian simpl ..........................................................................................134 VI.2.1. Modelul liniar simplu...............................................................................................................134 VI.2.2. Regula lui Oja ..........................................................................................................................136 VI.2.3. Alte reguli de nvare nesupervizat .......................................................................................140 VI.3. Analiza componentei principale.........................................................................................................140 VI.3.1. PCA - Analiza Componentei Principale aplicat la PS ............................................................142 VI.4. Hri de trsturi (feature detection) ..................................................................................................145 VI.5. nvarea nesupervizat competitiv ..................................................................................................151 VI.5.1. Generaliti...............................................................................................................................151 VI.5.2. Invarea competitiv...............................................................................................................152 VI.5.3. Studiul convergenei ................................................................................................................156 VI.6. Aplicaii ale nvrii nesupervizate ...................................................................................................158 VI.6.1. Scheme auto-organizabile ........................................................................................................158 VI.6.2. Hri de trsturi (feature mapping) .........................................................................................168

VII. Proprietatea de aproximant universal a reelelor neuronale .......................... 174


VII.1. Teorema lui Kolmogorov i perceptronul multistrat.........................................................................174 VII.1.1. Preliminarii .............................................................................................................................174 VII.1.2. Teorema fundamental ...........................................................................................................175 VII.1.3. Demonstraii ...........................................................................................................................176 VII.2.Teorema lui Stone-Weierstrass i perceptronul multistrat .................................................................181 VII.2.1. Introducere..............................................................................................................................181 VII.2.2. Notaii i definiii....................................................................................................................181 VII.2.3. Teoreme fundamentale i demonstraii...................................................................................184 VII.3. Aplicaii ale teoremei lui Stone-Weierstrass la reele neuronale ......................................................186 VII.3.1. Introducere..............................................................................................................................186 VII.3.2. Exemple de reele neuronale ce satisfac teorema lui Stone-Weierstrass.................................186 6

VII.4. Proprieti fundamentale de aproximare ale reelelor neuronale.......................................................191 VII.4.1. Noiuni introductive................................................................................................................191 VII.4.2. Enunuri i rezultate................................................................................................................192 VII.4.3. PMS pentru aproximarea unei funcii i a derivatelor sale .....................................................194 VII.5. Limitele aplicrii n practic a proprietilor reelelor neuronale......................................................203 VII.5.1. Echivalena polinomial .........................................................................................................203 VII.5.2. Influena procesului de nvare..............................................................................................205

VIII. Reelele neuronale ca i metode de aproximare -interpolare ............................ 208


VIII.1. Problema aproximrii ......................................................................................................................209 VIII.1.1. Metode de aproximare globale ..............................................................................................209 VIII.1.2. Metode de aproximare locale ................................................................................................210 VIII.1.3. Caracterizarea metodelor de aproximare ...............................................................................211 VIII.2. Aproximarea funciilor netede.........................................................................................................212 VIII.2.1. Alegerea reelei neuronale aproximante ................................................................................213 VIII.2.2. Influena numrului de date de antrenament .........................................................................213 VIII.2.3. Reele neuronale i teoria regularizrii..................................................................................214 VIII.3. Proprietatea de cea mai bun aproximant ......................................................................................235 VIII.3.1. Aplicaia 1: Reele neuronale de tip BP (Back Propagation).................................................238 VIII.3.2. Aplicaia 2: Reele neuronale de regularizare........................................................................239

IX. Aplicaiile teoriei regularizrii la reelele neuronale ........................................... 242


IX.1. Reele neuronale de tip PMSR............................................................................................................242 IX.1.1. Construcia reelei neuronale de tip PMSR ..............................................................................242 IX.1.2. Reducerea dimensionalitii reelei neuronale PMSR ..............................................................244 IX.2. Proprietile reelelor neuronale de tip PMSR ....................................................................................262

X. Studiul aplicativ a performanelor calculului neuronal ........................................ 266


X.1. Modul practic de construcie a reelei neuronale .................................................................................266 X.2. Studiul comparativ dintre reelele neuronale i metodele clasice de aproximare interpolare ..............269

XI. Concluzii ........................................................................................................... 284


XI.1. Concluzii generale..............................................................................................................................284 XI.2. Perspective .........................................................................................................................................287

XII. Bibliografie...................................................................................................... 288

Introducere

Creierul uman, ntr-o analogie cu un calculator, este un sistem de procesare a informaiilor caracterizat prin complexitate, neliniaritate i paralelism. Creierul uman are capacitatea de a-i organiza activitatea neuronal n aa fel nct s realizeze activiti complexe (recunoaterea formelor, percepie, control motric etc.) mult mai rapid i mai performant dect cel mai puternic super - calculator construit vreodat de om [9]. Dac ar fi s analizm doar vzul uman [105] acesta poate fi asimilat ca un proces de prelucrare informaional: funcia sistemului vizual uman este de a oferi o reprezentare a mediului nconjurtor i de a oferi informaia necesar pentru a interaciona cu acest mediu nconjurtor [169]. Creierul reuete ca n aproximativ 100-200 ms. s rezolve o problem complex ca aceea a recunoaterii unei persoane, pe cnd un sistem de calcul necesit mult mai mult timp pentru sarcini mult mai simple. La natere, creierul omului deja are o structur complex, dar ce este mai important, are capacitatea de a-i "defini" propriile "reguli" prin ceea ce este denumit ca fiind "experien" i "nvare". Aceast experien este construit n ani i ani de zile, cea mai puternic dezvoltare avnd loc n primii doi ani de via, cnd aproximativ 1 milion de sinapse sunt formate n fiecare secund. Cum funcioneaz creierul uman? Rspunsul la aceast ntrebare este departe de a fi cunoscut. Totui, s-a reuit ca n ultima perioad de timp, s se fac progrese nsemnate n descifrarea modului de funcionare a sistemului neuronal. O contribuie nsemnat au avut-o progresele aprute n neuro-fiziologie, care au nsemnat un mare pas nainte n explicarea fenomenelor neurologice. ncercarea de a modela structura i modul de funcionare al creierului uman au pus bazele unei noi discipline numit "calcul neuronal". "Calculul neuronal" este o disciplin complex care folosete cunotine din numeroase alte discipline tradiionale: biologie, neurologie, anatomie, chimie, fizic, matematic, informatic etc. De aceea, studiul calculului neuronal trebuie s se bazeze pe abordri complexe care s confere un cadru teoretic i aplicativ riguros, care s-l transforme ntr-o disciplin matur, cu un aparat tiinific bine pus la punct. De aceea, n aceast carte, vom ncerca s contribuim la studiul calculului neuronal printr-o analiz din punct de vedere matematic. Ideea de baz o va reprezenta faptul c o reea neuronal este o schem de aproximare-interpolare. Din acest punct de vedere, vom putea folosi rezultatele consacrate ale analizei numerice pentru un studiu teoretic i practic al calculului neuronal. De asemenea, vom folosi elementele calculului neuronal pentru a mbuntii proprietile de aproximare ale unor clase de funcii. Analogia dintre o reea neuronal i o metod de aproximare se obine dac analizm cu atenie procesul nvrii pe baza unor exemple. De fapt, vom arta n aceast carte, c o reea neuronal nu este altceva dect o reprezentare particular a mai multor metode de aproximare. n particular, o reea neuronal fr straturi ascunse (perceptron simplu) corespunde metodelor liniare de aproximare, iar reelele neuronale cu unul sau mai multe straturi ascunse corespund metodelor de aproximare polinomial. Din cele menionate pn acum rezult cu claritate importana studiului procesului de nvare pe baza unor exemple, ceea ce ne va permite s abordm tehnologia calculului neuronal prin prisma teoriei aproximrii. Procesul de nvare a reprezentat ntotdeauna problema central n ncercarea de a nelege ce este "inteligena" i de a construi maini "inteligente". Este adevrat ns, c n
9

cadrul teoriei clasice a Inteligenei Artificiale, procesului de nvare nu i se acord o importan prea mare. De aceea, muli ani, testul Turing [112] a reprezentat o unitate de msur folosit de membrii comunitii Inteligenei Artificiale. De fapt, definiia dat noiunii de "inteligen" n sensul lui Turing poate fi privit mai degrab ca o capacitate de a rezolva probleme, de a demonstra teoreme, de a juca ah etc. n contrast cu aceast abordare simplist, cercetrile din cadrul calculului neuronal in cont de complexitatea acestei probleme, precum i de dificultatea de a ncerca s implementm chiar i o "frm" de inteligen folosind un program ce ruleaz pe un sistem clasic de calcul. O tentativ de a "construi" sisteme inteligente trebuie s se bazeze pe existena competenei perceptuale, motrice i lingvistice. De aceea, folosind procesul de nvare ca un nucleu al calculului neuronal, vom putea nelege i analiza modul de funcionare i de construcie a unor sisteme "inteligente". Am amintit, i vom arta riguros acest lucru, c procesul de nvare supervizat este echivalent cu aproximarea sau interpolarea unei funcii. Cu alte cuvinte, teoria aproximrii poate juca un rol esenial n definirea unor noiuni deosebit de abstracte i dificil de cuantificat din cadrul Inteligenei Artificiale. Dac o reea neuronal este echivalent cu o schem de aproximare, este foarte important s se analizeze din aceast prism proprietile sale: proprietatea de aproximant universal, proprietatea de cea mai buna aproximant, cadrul general de aplicabilitate, performanele de aproximare. Vom face ns i o definire riguroas a noiunii de "proces de nvare" pe care l-am folosit pn acum ca un termen generic. De asemenea, foarte important este comparaia dintre calculul algoritmic i cel neuronal, comparaie care scoate n eviden urmtoarea concluzie: calculul algoritmic necesit programare, adic stabilirea unui set de reguli care s caracterizeze a priori calculul ce urmeaz a fi implementat pe calculator; reelele neuronale nva, "absorb" experiena, modificndu-i structura intern n scopul efecturii aciunii dorite. Cartea este structurat pe unsprezece capitole, care in cont de aspectele tratate i de contribuiile aduse n acest domeniu. Capitolul I conine o prezentare general a Inteligenei Artificiale. De asemenea, se prezint calculul neuronal ca o component dominant i definitorie a Inteligenei Artificiale. n acest context, se ncearc definirea noiunii de calcul neuronal, precum i un studiu istoric al dezvoltrii calculului neuronal. Capitolul II, care are un caracter introductiv, conine tratarea unor subiecte generale: elemente de baz ale calculului neuronal, ce l face s fie diferit de alte metode de calcul, la ce poate fi utilizat, care sunt implicaiile tehnologice ale calcului neuronal, clasificarea reelelor neuronale, domenii de utilizare, care este stadiul actual de dezvoltare al calculului neuronal. n Capitolul III se trateaz riguros din punct de vedere matematic noiunea definitorie a calculului neuronal i anume procesul de nvare. Se prezint principalii algoritmi de nvare din calculul neuronal: nvarea ca un proces de optimizare a unei funcii eroare, nvarea competitiv, nvarea Hebbiana i nvarea Boltzmann. De asemenea, sunt prezentate i principalele paradigme de nvare: nvarea supervizat, nvarea nesupervizat i nvarea ntrit (reinforcement). n acest capitol se face o analiz detaliat a procesului de nvare prin prisma unui proces statistic. Aceast analiz statistic permite definirea riguroas a procesului general de nvare, precum i definirea unei noiuni de mare important n cadrul calculului neuronal, capacitatea de generalizare a unei reele neuronale. n Capitolul IV se prezint elementele definitorii a unei reele neuronale cu propagare direct a informaiilor i anume, perceptronul. n prima parte a acestui capitol se prezint cea mai simpl reea neuronal numit perceptron simplu (un strat de intrare i un strat de ieire), studiindu-se proprietile sale. Se trec n revist diferite tipuri de perceptroni simpli cu
10

diferite funcii de activare. n continuare, se trece la o arhitectur mai complex si anume la perceptronul multistrat, care are n componena sa i straturi ascunse. De asemenea, se face o analiz a legilor de nvare supervizat. Din aceast clas de algoritmi supervizai, algoritmul de nvare Back Propagation este analizat din punct de vedere matematic, cu variantele sale i cu anumite mbuntiri. Capitolul V este dedicat unei metode de nvare supervizate, numit nvare activ. Metoda prezentat este bazat pe o implicare activ a antrenorului n procesul de nvare, acesta lund decizii legate de alegerea exemplelor de nvat. Sunt prezentate performanele acestei metode de nvare ca un studiu al aproximrii funciilor continue monoton cresctoare i a funciilor derivabile cu derivata mrginit. Analiza proceselor de nvare nesupervizate se face n Capitolul VI. Acest capitol conine cele mai importante trsturi ale nvrii nesupervizate i anume: nvarea Hebbian, analiza componentelor principale, nvarea nesupervizat competitiv. Tot n acest capitol se prezint i aplicaiile nvrii nesupervizate n cadrul schemelor auto-organizabile i ale hrilor de trsturi. Capitolul VII cuprinde analiza proprietii de aproximant universala a reelelor neuronale. n acest scop se folosete Teorema lui Kolmogorov, precum i Teorema lui StoneWeierstrass. Analiza din acest capitol stabilete condiiile pe care trebuie s le satisfac o reea neuronal pentru a satisface proprietatea de aproximant universal. Se analizeaz cele mai reprezentative exemple de reele neuronale. Analiza teoretic este ntrit de o analiz a limitelor pe care le are implementarea practic a reelelor neuronale. n Capitolul VIII se analizeaz reelele neuronale ca i metode de aproximare. Se definete problema aproximrii n contextul calcului neuronal. De asemenea, se prezint aproximarea funciilor netede cu ajutorul reelelor neuronale. Folosind teoria regularizrii se construiesc reele neuronale cu performane foarte bune de aproximare-interpolare. Proprietatea de cea mai bun aproximant este luat n considerare n analiza unor clase generale de reele neuronale. Capitolul IX este dedicat aplicrii teoriei regularizrii n contextul construirii unor reele neuronale folosite ca metode de aproximare. Se construiete reeaua neuronal de tip PMSR (Perceptron MultiStrat de Regularizare) i se analizeaz proprietile pe care le are o astfel de reea neuronal. Capitolul X conine elemente de aplicare i implementare a reelelor neuronale de tip PMSR (Perceptron MultiStrat de Regularizare) i se comparar performanele reelelor neuronale ca i metode de aproximare, n raport cu metodele clasice: polinoame Lagrange, Newton, Hermite i spline. Concluziile, precum i perspectivele viitoare de cercetare din domeniul calculului neuronal, sunt cuprinse n Capitolul XI. Lista bibliografic cuprinztoare se gsete la sfritul crii.

11

I. Elemente generale de Inteligen Artificial

I.1. Sisteme de Inteligen Artificial


Scopul Inteligenei Artificiale (AI Artificial Intelligence) este de a dezvolta algoritmi sau metode pentru sistemele de calcul, care s simuleze modul de gndire uman [8]. Evident, propoziia aceasta nu trebuie luat ca o definiie riguroas a conceptului de AI. Ceea ce trebuie totui remarcat n aceast propoziie este utilizarea termenului de "gndire", i nu de "inteligen", cu scopul de lrgi cmpul aplicaiilor care pot fi considerate ca aparinnd AI, ca de exemplu percepia, prelucrri de limbaj etc. Un sistem AI trebuie s fie capabil s efectueze 3 lucruri principale [93]: 1. memorare de cunotine; 2. aplicarea cunotinelor dobndite (memorate) pentru a rezolva probleme; 3. dobndirea de noi cunotine prin experien. De asemenea, un sistem AI este constituit din trei componente:

Reprezentare

nvare

Gndire

Fig. 1.1.: Modelul unui sistem AI cu cele 3 componente ale sale.

S analizm fiecare dintre componentele unui astfel de sistem AI: 1. Reprezentare: Una dintre cele mai distincte trsturi ale unui sistem AI este posibilitatea de a utiliza un limbaj constituit din simboluri, cu ajutorul crora se pot construi structuri pentru a reprezenta 2 elemente: cunotine generale despre o problem de rezolvat; cunotine specifice despre soluia problemei de rezolvat;

Simbolurile trebuie descrise de obicei n termeni ct mai familiari, pentru a face reprezentarea simbolic a unui sistem AI ct mai uor de neles de ctre un subiect uman. De aceea, claritatea simbolisticii folosite de sistemele AI le face att de utile n cadrul procesului de comunicaie om-main.
12

n terminologia AI, prin termenul de "cunotine" nelegem de fapt o alt form de exprimare pentru noiunea de dat. Dar, dac privim din punct de vedere al unei reprezentri declarative, cunotinele reprezint o mulime static de fapte, reunit cu o mulime de proceduri generale de prelucrare i manipulare a faptelor. De fapt, trstura caracteristic a reprezentrilor declarative o constituie faptul c aceste reprezentri conin un neles intrinsec prin prisma unui utilizator uman, independent de utilizarea lor n cadrul unui sistem AI. ntr-o reprezentare procedural, cunotinele sunt incluse ntr-un cod executabil care acioneaz de fapt n afara nelesului acestor cunotine. Ambele tipuri de cunotine, declarative i procedurale, sunt necesare pentru a putea rezolva majoritatea problemelor. 2. Gndirea: n cea mai simpl definiie, putem spune despre gndire c reprezint abilitatea de a rezolva probleme. Dar pentru ca un sistem s poat fi calificat ca un sistem dotat cu gndire, acesta trebuie s satisfac anumite condiii [93]: sistemul trebuie s fie capabil s exprime i s rezolve o gam larg de probleme i de tipuri de probleme; sistemul trebuie s fie capabil s extrag, din informaiile memorate, informaii explicite i informaii implicite; sistemul trebuie s posede un mecanism de control care s determine, atunci cnd o soluie a fost obinut, care operaie s fie aplicat unei probleme particulare, sau, cnd trebuie oprit orice activitate relativ la problema de rezolvat. Rezolvarea problemelor poate fi privit de fapt ca o problem de cutare (searching). Conform cu [110], metoda clasic de a aborda o problem de cutare este de a folosi reguli, date i control. Regulile acioneaz asupra datelor, iar controlul acioneaz asupra regulilor. S considerm un exemplu clasic, problema comisionarului voiajor (traveling salesman problem), care necesit determinarea celui mai scurt drum care trece prin fiecare ora, dar drumul nu are voie s treac dect o dat printr-un ora. n aceast problem datele sunt alctuite din toate oraele de vizitat, precum i din matricea distanelor dintre aceste orae. Regulile reprezint modul de alegere a urmtorului ora de vizitat, iar controlul constituie decizia de a aplica o regul sau alta, precum i momentul de aplicare al acelei reguli. n practic, de cele mai multe ori ns cunotinele disponibile sunt limitate (de exemplu n diagnosticul medical), putnd fi incomplete sau inexacte. n astfel de situaii, se folosesc proceduri de gndire probabilistice, permind astfel sistemelor AI s ia n considerare i nedeterminarea. 3. nvarea: Procesul de nvare poate fi reprezentat grafic prin intermediul schemei din Fig.1.2. Dup cum se vede din schem, mediul nconjurtor furnizeaz anumite informaii elementului de nvare, care la rndul su utilizeaz aceast informaie pentru a mbogii i mbuntii coninutul unei baze de cunotine, iar n final elementul de procesare utilizeaz baza de cunotine pentru a efectua sarcina dorit.

13

Mediul nconjurtor

Element de nvare

Baza de cunotine

Element de procesare

Feedback
Fig.1.2: Schema pentru reprezentarea procesului de nvare.

Informaia furnizat de mediul nconjurtor sistemului de nvare (maina) este n general, imperfect, elementul de nvare netiind s umple golurile lsate de informaiile lips, sau, s ignore elementele neeseniale. De aceea, maina lucreaz mai mult pe baza deduciilor, ajustndu-i permanent comportamentul pe baza feedback-ului obinut de la elementul de procesare. nvarea se refer la dou tipuri de procesri de informaii: procesare informaional inductiv; procesare informaional deductiv. n procesarea inductiv, regulile i formele generale sunt deduse pe baza unor date sau experimente discrete. Pe de alt parte, n procesarea deductiv, regulile generale sunt utilizate pentru a determina anumite fapte specifice. Ca un exemplu de nvare inductiv, putem considera nvarea bazat pe similaritate, iar ca un exemplu de nvare deductiv procesul de demonstrare a unei teoreme pe baza unor axiome sau teoreme existente. nvarea, avnd la baz un proces explicativ, utilizeaz i nvarea inductiv i nvarea deductiv. Importana bazelor de cunotine, precum i dificultile unui proces de nvare au condus la dezvoltarea mai multor metode pentru a augmenta bazele de cunotine. Mai concret, dac exist experi ntr-un anumit domeniu, este mult mai uor s beneficiem de experiena lor ntr-o form compilat, dect de a duplica aceast experien. Aceasta reprezint de fapt ideea ce se afl la baza sistemelor expert. Pn n acest moment ne-am familiarizat doar cu elemente constitutive ale unor maini AI simbolice. Ceea ce ne va interesa n continuare, este cum s comparm aceste sisteme expert cu calculul neuronal, respectiv, reelele neuronale ca i nite modele cognitive? Pentru a rspunde la aceast ntrebare ne vom folosi de modelul descris de [93], care presupune trei nivele: 1. Nivelul explicativ. n cadrul AI clasic, efortul principal este concentrat pe construcia reprezentrilor simbolice. De obicei, aceste reprezentri sunt discrete i arbitrare, de exemplu proprieti abstracte, n locul unor imagini analogice. Din punct de vedere al procesului cognitiv, este evident c nu ne putem pune problema unei reprezentri mentale, modelarea procesului cognitiv fcndu-se pe baza unei procesri secveniale a reprezentrilor simbolice. n cadrul calculului neuronal, procesele cognitive sunt total diferite de cele din AI clasic. Scopul calculului neuronal este de a construi modele paralele de procesare distribuit (PDP - Parallel Distributed Processing). Aceste modele PDP presupun c procesarea informaiei se face prin interaciunea unui numr mare de neuroni, fiecare neuron trimind semnale excitatorii sau inhibitorii ctre ali neuroni ai reelei neuronale de care aparin [174]. Mai mult chiar, reelele neuronale pun un mare pre pe explicarea neuro-biologic a fenomenelor cognitive.
14

2. Metoda de procesare. n AI clasic, modul de procesare este secvenial, ca la calculatoarele clasice von Neumann. Chiar dac nu exist o ordine predeterminat, operaiile trebuie efectuate n maniera pas-cu-pas. Acest mod de procesare secvenial are ca surs de inspiraie natura secvenial a limbajului natural, trebuind s observm c AI tradiional s-a nscut la puin timp dup maina von Neumann. Pe de alt parte, procesarea paralel reprezint una din trsturile definitorii ale reelelor neuronale. Paralelismul este esenial nu numai pentru modul de procesare al informaiilor de ctre o reea neuronal, dar i sursa principal a flexibilitii lor. Paralelismul poate fi masiv n cadrul reelelor neuronale (sute de mii de neuroni), ceea ce le confer acestora o remarcabil robustee. Procesul de calcul, fiind distribuit relativ la un numr mare de neuroni, deviaia calculelor generate de un numr mic de neuroni nu l afecteaz. Date de intrare zgomotoase, deteriorate sau incomplete pot fi folosite totui de reeaua neuronal, o reea neuronal parial deteriorat putnd funciona satisfctor, nvarea unei reele neuronale netrebuind s fie perfect; performanele reelei neuronale se degradeaz continuu i nu abrupt. Astfel, sistemele PDP aproximeaz flexibilitatea unui sistem continuu, n contrast evident cu rigiditatea sistemelor AI tradiionale bazate pe simbolica discret [175]. O alt trstur demn de menionat a paralelismului o reprezint faptul c cunotinele nu sunt reprezentate prin expresii declarative, ci prin structura i nivelul de activare al reelei neuronale. De aceea, coninutul necesar descrierii unei probleme nu reprezint altceva dect nsi reeaua neuronal. Calculul secvenial reprezint trstura fundamental a AI tradiional, n timp ce calculul paralel caracterizeaz calculul neuronal. 3. Structura de reprezentare. Dup cum am vzut, AI tradiional are la baz reprezentarea simbolic, care posed o structur cvasi lingvistic. Ca i expresiile limbajului natural, expresiile din AI tradiional sunt n general complexe, fiind construite din simboluri simple ntr-o manier sistematic. Cu ajutorul unei mulimi limitate de simboluri, noi expresii pline de coninut pot fi construite pe baza analogiei dintre structurile semantice i sintactice. Natura i structura reprezentrii sunt o problem crucial a reelelor neuronale. Acest subiect nu a fost pus nici un moment la ndoial de partizanii celor dou tabere ale AI clasic i calculului neuronal. De fapt, s-au adus numeroase critici din acest punct de vedere la adresa reelelor neuronale, cea mai competent critic [93] subliniind urmtoarele avantaje n favoarea AI tradiional fa de calculul neuronal: reprezentrile mentale prezint n mod caracteristic o structur combinatorial i o semantic combinatorial; procesele mentale sunt senzitive la structura combinatorial a reprezentrii asupra creia opereaz. ntr-o reea neuronal reprezentarea este distribuit. Totui, trebuie s subliniem faptul c cele mai multe reele neuronale propuse, ca i candidai pentru reprezentarea structural distribuit, au mai de grab un caracter ad-hoc; ele rezolv problema relativ la o clas particular ntr-o manier ce nu permite o extindere simpl. n concluzie, putem defini AI simbolic ca fiind manipularea formal a unui limbaj algoritmic i reprezentarea datelor dup modelul top-down. Pe de alt parte, putem defini reelele neuronale ca fiind procesoare simple distribuite ce posed o capacitate natural de a nva, modul lor de operare fiind mai de grab de tip buttom-up. De aceea, pentru implementarea unor aplicaii cu caracter cognitiv, cea mai bun soluie ar fi de a construi un
15

puternic model structural conexionist, care s mbine puterea ambelor direcii din AI: AI tradiional i reelele neuronale. Astfel, am fi n stare s combinm trsturile pozitive ale reelelor neuronale adaptivitate, robustee, uniformitate, cu cele ale AI simbolic - reprezentare, inferen i universalitate. Un astfel de hibrid poate fi eficient dac reuim s stabilim cu precizie domeniile de eficien a celor dou constituente: AI simbolic este mai eficient pentru procesarea limbajului, planificare sau gndire explicit; reelele neuronale sunt mai eficiente n cadrul proceselor perceptuale, recunoaterea formelor i memorie asociativ.

I.2. Calculul neuronal n cadrul AI


Calculul neuronal reprezint o alternativ viabil fa de metodele de calcul tradiional, care timp de civa zeci de ani au dominat tiinele cognitive i domeniul AI , cu toate c modelele matematice generate cu ajutorul calculului neuronal rmn nc controversate. Calculul neuronal se bazeaz pe o serie de modele matematice inspirate din neurobiologie, numite modele conexioniste sau reele neuronale. Reelele neuronale pot fi caracterizate prin trei trsturi computaionale generale: - straturi distincte de uniti de calcul interconectate; - reguli recursive de modificare a "triei" conexiunilor dintre unitile de calcul; - uniti de calcul simple i omogene. Utiliznd doar aceste trei trsturi se pot construi i modela sisteme deosebit de puternice i elegante, corespunztoare memoriei, percepiei, categorizrii, controlului motric, recunoaterii formelor i chiar pentru gndirea uman. n acest capitol vom ncerca s rspundem la ntrebrile: ce este calculul neuronal? ce l face s fie diferit de alte metode de calcul? la ce poate fi utilizat? care sunt implicaiile tehnologice ale calcului neuronal? cum s-a dezvoltat istoric calculul neuronal? care este stadiul actual de dezvoltare al calculului neuronal? Pentru a rspunde la aceste ntrebri vom prezenta dou din cele mai importante modele conexioniste care stau la baza calcului neuronal: perceptronul simplu i perceptronul multistrat, mpreun cu elementele lor definitorii.

16

I.3. Ce este calculul neuronal?


Creierul uman este cel mai complex sistem de calcul. Capacitatea creierului uman de a gndi, memora, de a rezolva probleme complexe au tentat n ultima perioad de timp un mare numr de cercettori, n ncercarea de a modela modul su de operare. Aceste ncercri de a crea un sistem de calcul care s cuprind trsturile fundamentale ale creierului uman, au generat o nou direcie de cercetare, care poate fi numit pe scurt calcul neuronal. Oricine poate sesiza faptul c creierul uman este de departe superior oricrui calculator digital, aproape n orice domeniu. Un exemplu elocvent: un copil de 1 an de zile este mult mai rapid i mai precis n recunoaterea obiectelor i a persoanelor dect cel mai avansat sistem de inteligen artificial, rulnd pe cel mai puternic supercalculator. Creierul uman are numeroase trsturi care s-au dorit a fi modelate cu ajutorul unor sisteme de calcul artificiale [54]: este robust i tolerant la deteriorri; celulele nervoase din creier mor zilnic fr a afecta performanele sale; este flexibil, putndu-se adapta la un nou mediu prin "nvare", pentru aceasta nu trebuie s fie programat ntr-un limbaj de programare (Pascal, C, Fortran, Lisp etc.); poate prelucra informaii incomplete, inconsistente, probabilistice; este un sistem cu un nalt grad de paralelism; este de dimensiuni mici, compact, disipnd o foarte mic cantitate de energie.

Doar n activiti de calcul bazate pe operaii algebrice putem spune c un sistem de calcul electronic (un computer) depete performanele creierului uman. Trsturile de mai sus ale creierului uman constituie o motivaie real pentru necesitatea studiului calculului neuronal. Calculul neuronal, aa cum am mai precizat, reprezint o alternativ viabil la metodele de calcul tradiional, bazate pe programarea unei secvene de instruciuni, indiferent dac modul de procesare este serial sau paralel [99]. Calculul secvenial a fost introdus de von Neumann [201], constituind baza tuturor echipamentelor de calcul existente astzi. Calculul neuronal are ca surs de inspiraie cunotinele acumulate de tiinele neurologice, cu toate c nu ntotdeauna elementele folosite sunt plauzibile din punct de vedere biologic. n aceast carte dorim s prezentm un nou model de calcul, neglijnd pn la o limit plauzibilitatea biologic, noi fiind interesai de alte trsturi ale modelului de calcul neuronal.

I.4. Istoric al dezvoltrii calculului neuronal


Putem considera anul 1943, momentul de natere a calculului neuronal cnd microbiologistul W. McCullogh i matematicianul W. Pitts, public lucrarea fundamental "A Logical Calculus of Ideas Immanent in Nervous Activity" [138]. Modelul de neuron artificial aparine acestor cercettori. Aceast lucrare a constituit punctul de pornire a trei domenii de cercetare: Calculatoare digitale. John von Neumann a caracterizat aceast lucrare ca o schem funcional a unui creier electronic.
17

Inteligen Artificial. Marvin Minsky, unul din cei mai importani cercettori ai domeniului Inteligenei Artificiale, a fost inspirat de ideea inteligenei macroscopice coninut n lucrarea de referin [144], ducnd la dezvoltarea primelor sisteme expert. Calcul neuronal. Un mare numr de cercettori, ncepnd cu F. Rosenblatt, au dezvoltat bazele acestui model de calcul, avnd la baz o arhitectur inspirat de modelele neurologice biologice, reelele neuronale.

Urmtorii 50 de ani de la lucrarea lui McCullogh i Pitts cunosc un efort considerabil n domeniul cercetrii logicii discrete i a modului de operare al reelelor neuronale. Reelele neuronale au fost concepute ca sisteme universale de calcul, existnd o analogie cu mainile cu stri finite [144]. La extremitatea opus logicii discrete, au fost dezvoltate o serie de cercetri avnd la baz aspectul continuu. Cunoscut sub numele de neuro-dinamic sau teoria cmpului neuronal, aceste teorii utilizeaz ecuaii difereniale pentru a descrie activitatea nervoas cerebral [3], [18], [164], [208], [210]. Aproximativ n jurul anului 1960, ntlnim unul din momentele de vrf ale cercetrii calculului neuronal, prin activitatea desfurat de un grup de cercettori condui de F. Rosenblatt. elul activitii lor l-a reprezentat problema determinrii prin nvare a triilor sinaptice, relativ la o problem dat. Pentru aceasta au construit modelul de reea neuronal numit Perceptron, constituit din neuroni grupai pe straturi succesive, cu o propagare direct a informaiei, de la stratul de intrare ctre stratul de ieire. Perceptronul prezint o mare importan, nu numai din punct de vedere istoric, ci i prin prisma faptului c din perceptron au evoluat aproape toate celelalte modele de reele neuronale. De asemenea, perceptronul este unica reea neuronal pentru care s-a reuit demonstrarea convergenei unei legi de nvare. Din momentul n care s-a cunoscut teorema de convergen, calculul neuronal a cptat un statut de cercetare aparte, o armat ntreag de cercettori dedicndu-i-se i fiindu-i alocate importante resurse financiare. Entuziasmul nu a durat prea mult deoarece s-a neles c teorema de convergen a legii de nvare a perceptronului simplu (perceptron cu un singur strat) are un caracter limitat. Acest lucru a fost pus n eviden de M. Minsky i S. Papert, n cartea lor Perceptrons [145]. Cam n aceeai perioad, modele simple de reele neuronale au fost construite de cercettorii Widrow i Hoff [207], model numit Adaline (Adaptive Linear Neuron), iar mai trziu Madaline (Multiple Adaptive Linear Neuron). Aceste reele neuronale reprezentau implementarea cu ajutorul calculului neuronal a unei clase de funcii liniare adaptive. M. Minsky i S. Papert au artat folosind argumente geometrice, c un perceptron simplu este capabil s reprezinte doar probleme pentru care spaiul datelor de intrare este liniar separabil. Celebrul exemplu XOR (SAU EXCLUSIV), problem care nu poate fi rezolvat cu un perceptron simplu, aparine celor doi cercettori. Era clar c perceptronul simplu are o capacitate de reprezentare limitat la clasa funciilor liniar separabile. Limitarea putea fi nlturat prin adugarea de straturi ascunse la topologia perceptronului simplu, obinndu-se perceptronul multistrat (multylayered perceptron). Din pcate, n acea perioad nu s-a putut descoperi o lege de nvare pentru perceptronul multistrat. M. Minsky i S. Papert chiar i-au manifestat ndoiala c o astfel de lege de nvare ar exista, propunnd abandonarea calculului neuronal n favoarea altor metode ale Inteligenei Artificiale. A urmat o perioad de aproape 20 de ani, n care doar civa cercettori temerari au continuat s mai lucreze n acest domeniu. Tema major abordat de acetia o reprezint cercetrile legate de memoriile asociative, bazate pe corespondena dintre vectorii de intrare, cnd acetia au un grad suficient de mic de similaritate. De fapt, acest subiect al memoriilor asociative fusese abordat mai nainte de
18

Taylor [192] i Steinbuch [187], Anderson [7], Willshaw [209], Marr [133], Kohonen [114] [115]. Grossberg [87] redefinete problema general a nvrii ntr-o reea neuronal. O alt direcie de dezvoltare este datorat lui Cragg i Temperlay [36], care au reformulat modelul McCullogh-Pitts ca un sistem de spin magnetic, dup modelul fizic. n acest model s-a considerat c memoria const din histerezisul formei domeniului ateptat la un astfel de sistem. Caianiello [29] construiete o teorie statistic, folosind idei ale mecanicii statistice. Aceleai preocupri le regsim la Little [129] i la Hopfield [101]. Lui Hopfield i se datoreaz conceptul foarte important de funcie energetic ataat reelei neuronale i cea de memorie privit prin prisma unor atractori dinamici stabili [100]. Hinton i Sejnowski [98], Peretto [156] dezvolt ideea de neuron stohastic care se comport aproximativ ca un neuron McCullogh-Pitts, n funcie de o anumit probabilitate analog temperaturii fizice din mecanica statistic. Amit [4] dezvolt teoria sistemelor magnetice aleatoare, numite spin glasses, care constituie preludiul implicrii puternice a mecanicii statistice n domeniul calculului neuronal. Totui, cel mai important moment al dezvoltrii calcului neuronal l reprezint momentul descoperirii unei legi de nvare pentru perceptronul multistrat, lege de nvare numit Propagare-napoi (BackPropagation). Idea de baz aparine lui Werbos [204], dar este reformulat independent i adus n atenia lumii tiinifice de Rumelhart, Hinton i Williams [172]. Din acest moment se pune n eviden caracterul universal al calculului neuronal, construindu-se i un mare numr de aplicaii practice, lumea tiinific acordndu-i o justificat atenie. O analiz mai detaliat a aspectului istoric a dezvoltrii calculului neuronal se poate gsi n lucrarea [6].

I.5. Concluzii
Tot ceea ce am prezentat n acest capitol reprezint o pledoarie n favoarea calculului neuronal. Din punct de vedere teoretic problemele sunt deosebit de atractive i bine fundamentate; din punct de vedere practic aplicarea calculului neuronal i prin urmare construcia unei reele neuronale trebuie s fie precedat de rspunsuri date la urmtoarele ntrebri: Care este arhitectura optimal? Cte straturi sunt necesare? Ci neuroni sunt necesari n fiecare strat? Cte conexiuni sinaptice sunt necesare i cum trebuie organizate acestea? Ce fel de funcie de activare trebuie s folosim? Ce lege de nvare este mai eficient? Trebuie s folosim o lege de nvare sincron sau asincron, determinist sau stohastic? Cte exemple trebuie s prezentm reelei neuronale pentru a nva ceea ce dorim noi? De cte ori trebuie s-i prezentm aceste exemple? E nevoie ca procesul de nvare s fie supervizat sau poate fi doar rentrit? Ce poate efectua de fapt o reea neuronal construit pentru o anumit problem? Cte probleme poate ea rezolva? Ct de bine? Ct de repede? Ct de robust este reeaua neuronal fa de date incorecte, deteriorri sau eliminri de neuroni? Poate reeaua neuronal generaliza cu succes? Ce fel de clase de funcii poate reprezenta?

19

Cum poate fi implementat din punct de vedere software i hardware reeaua neuronal? Care sunt avantajele i dezavantajele diferitelor implementri hardware posibile, ce performane au n raport cu simularea software? Bineneles, aceste ntrebri nu trebuie privite individual, ci n contextul aplicaiei ce urmeaz a fi rezolvat. Rspunsul la o ntrebare, ca de exemplu, ce arhitectur trebuie s folosim, este cunoscut, atrgnd n mod automat rspunsuri la o serie de alte ntrebri. Acest capitol introductiv, a vrut s pun n eviden faptul c problema abordat, a calculului neuronal, este suficient de complex, dar c se pare c este i va fi o metod foarte important att din punct de vedere teoretic, ct i practic.

n finalul acestui capitol voi ncerca o definiie formal a calculului neuronal, preluat din lucrarea [2]:

Calculul neuronal este studiul unor reele celulare care au capacitatea natural de a stoca cunotine pe baza experienei acumulate. Un astfel de sistem ce are la baz calculul neuronal este comparabil cu creierul uman n sensul c cunotinele sunt acumulate prin antrenament i nu prin programare, fiind stocate prin intermediul unor modificri a unor noduri funcionale. Cunotinele mbrac forma unor stri stabile sau cicluri de stri relativ la o mulime de operaii. O proprietate principal a unor astfel de reele este de a reconstrui aceste stri sau cicluri de stri ca rspuns i la stimuli incomplei sau zgomotoi.

20

21

II Noiuni generale

II.1. Elemente de baz ale calculului neuronal


Cercetrile actuale n domeniul calculului neuronal sunt motivate de dorina de a construi reele neuronale artificiale. Dei, dup cum i numele de reele neuronale o implic, la nceput scopul a fost modelarea matematic a reelelor neuronale biologice, astzi gama aplicabilitii lor este aproape universal. Din punct de vedere neuro-fiziologic, modelele construite cu ajutorul reelelor neuronale artificiale sunt extrem de simplificate, ele au totui suficiente trsturi care surprind cele mai importante trsturi ale "calculului" biologic.

II.1.1. Neuronul biologic


Unitatea celular fundamental a sistemului nervos, i n particular a creierului, este neuronul. Creierul uman este constituit din aproximativ 1011 neuroni, fiecare neuron fiind interconectat cu aproximativ 104 ali neuroni. n Fig. 1.1. este reprezentat schematic un neuron biologic. Neuronul biologic este constituit din trei pri fundamentale [89]: Arborele dendritic care colecteaz semnalele de intrare de la ali neuroni. Soma care transform n anumite condiii semnalele de intrare n semnale de ieire. Axonul care transmite semnalul de ieire ctre ali neuroni prin intermediul arborelui axonic.

Neuronii sunt interconectai prin intermediul unor legturi numite sinapse, care reprezint punctele de contact dintre ramurile arborelui axonic ale unui neuron pre-sinaptic i ramurile arborelui dendritic ale unui neuron post-sinaptic. Neuronii comunic ntre ei prin intermediul unor semnale electrice, numite poteniale de aciune sau impulsuri, care sunt propagate de-a lungul axonului, prin pstrarea amplitudinii i formei semnalului electric, pn cnd ntlnesc legtura sinaptic. La sinaps o substan chimic, numit neuro-transmitor, este stocat ntr-un numr mare de vezicule. Potenialul de aciune elibereaz coninutul anumitor vezicule ctre cletele sinaptic. Moleculele neuro-transmitorului ajung la membrana neuronului post-sinaptic, unde recepia acestor molecule induc un potenial de aciune post-sinaptic (PSP). PSP-urile generate n diferite puncte ale arborelui dendritic difuzeaz prin atenuare ctre soma, unde ele sunt integrate. Dac suma total a PSP-urilor integrate n limita unui scurt interval de timp depete un anumit prag (threshold) de aproximativ cteva zecimi de minivoli, numit nivel de activare, neuronul va deveni activ, genernd un potenial de aciune de-a lungul axonului.

22

Contribuia unui semnal de intrare la PSP caracterizeaz mrimea numit trie sinaptic sau eficien sinaptic. Un astfel de semnal de intrare are o valoare de aproximativ 1 minivolt, putnd fi un semnal excitator sau un semnal inhibitor, n funcie de influena pozitiv sau negativ pe care o are n a face un neuron ca s devin activ. Trebuie s subliniem faptul c PSP-ul nu este unic determinat de semnalul de intrare. Diferite surse de zgomot, n relaie cu fluctuaiile de cantitate de neuro-transmitor chimic, eliberat la conexiunea sinaptic, implic o relaie de intrare-ieire de tip probabilistic. Intervalul de timp dintre momentul emisiei unui semnal la soma neuronului presinaptic i momentul emisiei unui semnal indus de ctre neuronul post-sinaptic, este de aproximativ 1-2 msec. De aici rezult c un neuron poate avea o emisie maximal de circa 500-1000 semnale pe secund, care ntr-o reea neuronal este redus de circa 3-5 ori. Din aceste considerente de dinamic a activitii neuronale, se poate observa faptul c neuronul biologic este un dispozitiv biologic lent n comparaie cu dispozitivele electronice construite de om - acestea pot fi chiar de sute de mii de ori mai rapide dect un neuron biologic. Cu toate acestea, orice sistem de calcul bazat pe dispozitive electronice are performane inferioare creierului uman constituit din neuroni. Concluzia evident este c puterea de calcul al creierului uman nu este datorat vitezei de procesare a neuronilor constitutivi, ci largii interconectri a unor dispozitive biologice lente - neuronii, care efectueaz operaii simple: integrarea semnalelor sosite de-a lungul arborelui dendritic i emisia unui semnal de-a lungul axonului, dac semnalul de intrare integrat depete nivelul de activare.

Fig. 2.1.: Reprezentarea schematic a neuronului biologic. 1 - Arborele dendritic; 2 - Soma (corpul celular); 3 - Nucleul celulei neuronale; 4 - Axonul; 5 - Arborele axonic; 6 - Conexiuni sinaptice. 23

Modificarea triei sinaptice este rezultatul unui proces de nvare [148]. Legtura sinaptic i modul de procesare a semnalelor de ctre neuron formeaz mecanismul de baz al capacitii de memorare al creierului.

II.1.2. Neuronul artificial


ntr-o reea neuronal artificial, unitatea analog neuronului biologic este o unitate de procesare simpl, care va fi numit neuron artificial, sau mai simplu neuron. Un neuron artificial are mai multe ci de intrare care corespund arborelui dendritic. Celei de-a i-a cale de intrare n neuronul al j-lea i corespunde o valoare numeric real xi, echivalentul semnalului electric din modelul biologic al neuronului. Fiecare mrime de intrare xi este ponderat valoarea numeric real wji, echivalentul triei sinaptice din modelul biologic al neuronului. Produsul xi wji reprezint al i-lea semnal de intrare dentritic n al j-lea neuron artificial. Aceste valori sunt integrate (sumate), pe baza unui proces similar celui realizat de soma neuronului biologic. Suma ponderat

x
i

w ji reprezint argumentul unei funcii, numit funcie de

activare care va determina valoarea de ieire axonic yj din neuron. Cele mai utilizate funcii de activare sunt: - funcia liniar: f : R R, f ( x) = x
1, x 0 - funcia treapt (Heaviside): f : R {0,1}, f ( x) = 0, x < 0

(2.1) (2.2)

1, x 1 - funcia ramp: f : R [1,1], f ( x) = x (1,1) 1, x < 1

(2.3)

- funcia sigmoidal: f : R (0,1), f ( x) =

1 1 + e x
e x ex e x + e x

(2.4)

- funcia tangent hiperbolic: f : R (1,1), f ( x) = tanh( x) =


1, x 0 - funcia signum: f : R {1,1}, f ( x) = sgn( x) = 1, x < 0

(2.5)

(2.6)

Acestea sunt exemple de funcii de activare care sunt cel mai frecvent utilizate n aplicaiile practice. Funcia de activare depinde de modelul de reea neuronal ales i de tipul problemei pe care dorim s o rezolvm, alegerea sa nefiind constrns de nici o condiie, dect eventual de analogia cu modelul biologic. Valoarea obinut prin aplicarea funciei de activare este propagat pe cile de ieire, echivalente arborelui axonic din modelul biologic.
24

n Fig. 2.1. avem reprezentarea schematic a neuronului artificial. n concluzie, neuronul artificial efectueaz urmtoarele operaii: Integrare (Sumare): I j = w ji x i
i=0 n

(2.7)
n

Activare (Transfer): y j = f ( I j ) = f ( w ji x i )
i=0

(2.8)

n cele ce urmeaz vom considera nivelul de activare implicit sau explicit, n funcie de necesiti, fr ca aceasta s influeneze ntr-un fel generalitatea rezultatelor obinute.

x0 x1 xi xn

wj0 wj1 wji wjn


Sumare Ij Activare f(Ij)

yj

Fig. 2.2.: Reprezentarea schematic a neuronului artificial. Indicele j reprezint al j-lea neuron din reeaua neuronal artificial.

Obs.2.1.: Termenul xo se numete bias, avnd o valoare constant xo = +1 sau xo = -1. Rolul termenului bias este de a permite includerea implicit sau explicit a nivelului de activare i , care reprezint pragul de activare al neuronului artificial. De exemplu, presupunnd c avem funcia de activare signum,
1, x 0 f (x) = , 0, x < 0

atunci putem avea una dintre situaiile: a). Nivel de activare i explicit: Integrare: I j = w ji x i j
i =1 n

25

Activare: y j = f ( I j )

b). Nivel de activare i implicit: notnd w j 0 = j , x0 = -1 Integrare: I j = w ji x i 0


i=0 n

Activare: y j = f ( I j ) Acest model matematic al neuronului artificial, propus pentru prima dat de McCullogh i Pitts [138], dei foarte simplu, reprezint o unitate de calcul foarte puternic. McCullogh i Pitts au demonstrat c un ansamblu de neuroni artificiali interconectai este capabil, n principiu, s efectueze orice calcul, cu condiia alegerii corespunztoare a triilor sinaptice wji. Acest lucru nseamn c un ansamblu de neuroni artificiali interconectai ntr-un ansamblu numit reea neuronal, poate efectua orice calcul pe care poate s-l efectueze un sistem de calcul clasic, chiar dac nu ntotdeauna la fel de repede sau convenabil.

II.1.3. Diferene ntre neuronul biologic i neuronul artificial


Neuronul biologic comport totui multe alte elemente care n modelul simplu al neuronului artificial au fost cu bun tiin omise [96]. Cele mai semnificative diferene sunt urmtoarele: Neuronul biologic rspunde la semnalele de intrare ntr-un mod continuu i nu discret, ceea ce se numete rspuns gradual. Dar relaia neliniar dintre semnalul de intrare i semnalul de ieire la un neuron biologic este o trstur universal, care apare i la neuronul artificial prin intermediul funciei de activare. Neuronii biologici nu au toi acelai moment fix de activare i nici nu acioneaz sub controlul central al unui tact generat de un ceas. Cantitatea de substan neuro-transmitoare eliberat de sinaps poate varia ntr-un mod impredictibil. Acest efect poate fi modelat, considernd o generalizare stohastic a dinamicii modelului determinist McCullogh-Pitts.

Chiar dac uneori vom face apel la realismul biologic, vom fi interesai de trsturile i capacitatea de calcul ale modelului de reea neuronal artificial i nu de aplicabilitatea direct n modelarea creierului. Legtura dintre reelele neuronale biologice i artificiale nu este important la nivelul modelrii detaliate, ci la nivelul reprezentrii i la nivelul algoritmic [138]. Dei implementrile biologice i artificiale ale algoritmilor sunt diferite, totui exist numeroase trsturi comune la nivel algoritmic.

II.2. Reele neuronale artificiale


Reelele neuronale artificiale sunt constituite din numeroi neuroni artificiali interconectai ntre ei. Neuronii constitueni sunt de obicei organizai n mulimi distincte numite straturi (layers). Exist i cazuri de reele neuronale particulare, avnd o topologie special, cnd neuronii nu sunt organizai pe straturi bine definite, ci pe anumite submulimi
26

de neuroni. O reea neuronal clasic const dintr-o secven de straturi de neuroni, cu conexiuni totale sau aleatore ntre neuronii coninui n straturi succesive. ntotdeauna vom avea pentru o reea neuronal, cel puin dou straturi de neuroni, ce au rolul de a comunica cu mediul exterior: un strat de intrare: care are rolul de a prelua datele de intrare xi, i = 0, , n cu termen bias (vezi Obs. 1.1) sau x0 = 1, i = 1, , n fr termen bias. Vectorul x = (x0, x1, ..., xn) sau x = (x1, x2, ..., xn) va fi numit vector de intrare al reelei neuronale. un strat de ieire: unde se obin rezultatele yj, j = 1, , m furnizate de reeaua neuronal, ca rspuns la vectorul de intrare prezentat la stratul de intrare i al propagrii acestor date de la stratul de intrare ctre stratul de ieire. Vectorul y = (y1, y2, ..., ym) se numete vector de ieire al reelei neuronale. toate celelalte straturi ale reelei neuronale, dac exist, diferite de stratul de intrare i de stratul de ieire, vor fi denumite straturi ascunse (hidden layers). Neuronii din stratul de intrare au ntotdeauna ca i funcie de activare funcia liniar, rolul lor fiind doar de-a propaga ctre stratul succesor vectorul de intrare. De aceea, stratul de intrare are doar rolul unui zone tampon, de preluare a datelor de intrare fr a efectua nici o procesare a cestora. Ceilali neuroni, din celelalte straturi, pot avea orice funcii de activare. Obs. 2.2.: Cnd vom spune despre o reea neuronal c are n straturi, nu vom lua n calcul i stratul de intrare, ceea ce nseamn c vom avea n - 1 straturi ascunse + stratul de ieire.

Straturi ascunse x1 x2 xi xn
Strat de intrare Strat de ieire

y1 y2 yj ym

Fig. 2.3.: Arhitectura general a unei reele neuronale.

27

II.3. Modul de operare al reelelor neuronale


Vom considera n cele ce urmeaz reele neuronale directe (feed-forward) [70], la care propagarea informaiilor se face de la stratul de intrare ctre stratul de ieire, fr a exista conexiuni de tip feedback ntre neuroni dintr-un acelai strat sau ctre neuronii situai ntr-un strat predecesor. Reelele neuronale care conin legturi sinaptice ntre neuroni coninui n acelai strat sau ntre neuronii unui strat oarecare i neuronii unui strat predecesor se numesc reele neuronale recurente (feedback). Vom presupune c avem o reea neuronal cu l straturi (vezi Obs.2.2), cu urmtoarea configuraie: n neuroni n stratul de intrare. nj neuroni n cel de-al j-lea strat ascuns, j = 1, ..., l - 1 . m neuroni n stratul de ieire.
w (jik ) tria sinaptic dintre neuronul al i-lea situat n stratul k - 1 i neuronul al j-lea situat pe stratul k.

fk funciile de activare corespunztoare stratului k, k = 1, 2,..., l.

Modul de operare al reelei neuronale directe este urmtorul:

pentru stratul de intrare (stratul 0): prezentarea vectorului de intrare

x = ( x0 , x1 ,K, xn ) ;
n

pentru stratul 1:
1 Integrare: I (j1) = w (ji ) xi , j = 1,2,..., n1 ; i =0

Activare: y (1) = f1 ( I (1) ) = f1 ( w (1) x i ), j = 1,2,..., n1 ; j j ji


i=0

pentru stratul ascuns k, k = 2,...,l-1: Integrare: I (j k ) = w (jik ) y i( k 1) , j = 1,2,..., nk ;


i=0 nk 1

Activare:

y (jk ) = f k ( I (j k ) ) = f k ( w (jik ) y i( k 1) ), j = 1,2,..., nk ;


i=0

nk 1

pentru stratul de ieire l: Integrare: I (j l ) = w (jil ) y i( l 1) , j = 1,2,..., m ;


i=0 nl 1

28

Activare: y (jl ) = f l ( I (j l ) ) = f l ( w(jil ) y i( l 1) ), j = 1,2,..., m ;


i=0

nl 1

Pentru a putea implementa o problem folosind calculul neuronal, respectiv pentru a construi o reea neuronal relativ la acea problem, vom avea de luat n considerare dou etape principale [70]: nvare (Antrenament); Generalizare (Testare).

nvarea (antrenamentul). Reprezint procesul de modificare a triilor sinaptice ca rspuns la vectorul de intrare prezentat la stratul de intrare al reelei neuronale (uneori i a vectorului int prezentat la stratul de ieire al reelei neuronale), n scopul configurrii reelei neuronale pentru a executa aciunea dorit. Generalizarea (testarea). Dup ce reeaua neuronal a fost nvat pe baza unui numr suficient de exemple, ea va fi capabil s induc o relaie complet de interpolare sau extrapolare a exemplelor nvate. Generalizarea reprezint faza de rspuns a reelei neuronale, cnd prezentndu-i-se vectori de intrare noi care nu au fost prezentai n faza de antrenare, vectorul de ieire va fi cel ateptat, cu o posibil eroare foarte mic. Calitatea rspunsurilor n faza de generalizare reprezint elul fazei de nvare - trebuie s nvm reeaua neuronal pn cnd va generaliza suficient de bine. Modul de operare al reelei neuronale poate fi influenat de modul de operare al neuronilor dintr-un strat, pe baza a dou operaii posibile: Normalizarea. Reprezint procesul de scalare a vectorului de ieire al unui strat al reelei neuronale, astfel nct suma total a componentelor acestui vector s fie constant. Acest lucru este ntlnit i la reelele neuronale biologice, unde neuronii de pe un strat sunt conectai la ceilali neuroni ai aceluiai strat, fcnd posibil ca fiecare neuron s-i auto-ajusteze semnalul de ieire n concordan cu semnalul total de ieire a stratului. Rezultatul operaiei de normalizare este c pstreaz un nivel constant de activitate la nivelul unui strat de neuroni. Competiia (concurena). Reprezint procesul de interaciune al unui neuron de pe un strat al reelei neuronale, cu ceilali neuroni de pe acelai strat. Neuronul sau un grup de neuroni care genereaz valori de ieire maximale, vor fi declarai ctigtori, fiind singurii a cror valoare de ieire va fi propagat mai departe.

Reelele neuronale ce conin straturi cu mod de operare competitiv, le vom numi reele neuronale competitive, iar cele care nu conin straturi competitive le vom numi reele neuronale pasive.

II.4. Taxonomia reelelor neuronale


Avnd n vedere caracteristicile unei reele neuronale prezentate n paragraful precedent, i anume [90]: funcii de activare liniare vs. funcii de activare neliniare; mod de operare direct (feedforward) vs. mod de operare recurent;
29

lege de nvare supervizat vs. lege de nvare nesupervizat; straturi concurente vs. straturi pasive. Putem prezenta o privire de ansamblu asupra realizrilor de pn acum n domeniul calculului neuronal, i anume o taxonomie a reelelor neuronale. Fr a avea pretenia de a cuprinde n totalitate diversa clas de reele neuronale existent, totui cele patru caracteristici de mai sus permit o ncadrare a majoritii reelelor neuronale.

Clasificarea reelelor neuronale: - liniare


- directe - nvare nesupervizat Asociator liniar: - Anderson (1976) [7]; - Willshaw (1977) [209]; - nvare supervizat Regresii liniare multiple: - Kohonen (1990) [117]; - recurente - nvare supervizat - competitiv Art - Adaptive Resonance Theory: - Grossberg (1987) [86]; - pasiv Boltzmann, Recurrent Back-Propagation, Jordan Nets: - Ackley, Hinton & Sejnowski (1985); - Pineda (1989); - Jordan (1986); - nvare nesupervizat - competitiv Art - Adaptive Resonance Theory: - Grossberg (1987) [86]; - pasiv BSB - Brain State in a Box, Hopfield Nets, Interactive Activation:
30

- neliniare
- directe - nvare nesupervizat - competitiv Feature Maps: - Kohonen (1983) [116]; - pasiv Infomax: - Linsker (1987) [128]; - nvare supervizat - competitiv Competitive Learning: - Rumelhart & Zipser (1986) [172][173][174]; - pasiv Perceptron, Delta-Rule, Back-Propagation: - Rosenblatt (1962) [170]; - Widrow & Hoff (1960) [207]; - Rumelhart & al. (1986) [172];

- recurente - la fel ca la reele neuronale liniare-recurente.

II.5. Calculul neuronal versus Inteligena artificial i calculul algoritmic


Folosind termeni de informatic, am putea descrie creierul ca un sistem de calcul paralel, compus din aproximativ 1011 procesoare. Folosind modelul simplu McCullogh-Pitts, rezult c fiecare procesor execut un program foarte simplu: integrare i activare (II.1.2). Faza de activare reprezint generarea unui semnal de ieire, reprezentat printr-un numr real y, semnal care este propagat ctre alte "procesoare" (neuroni), care la rndul lor efectueaz un calcul similar. Diferena dintre acest mod de procesoare al informaiilor i procesarea clasic von Neumann este evident. n calculul neuronal avem un numr mare de procesoare, fiecare
31

executnd un calcul simplu (integrare-activare), spre deosebire de calculul tradiional unde unul sau cteva procesoare execut secvene complexe de calcule.

II.5.1. Programare versus nvare


Spre deosebire de sistemele expert dezvoltate ca elemente de Inteligen Artificial, unde baza de cunotine este explicitat sub forma unui set de reguli implementate de un programator folosind un anumit limbaj de programare, calculul neuronal, respectiv reelele neuronale i genereaz propriile seturi de reguli din nvarea exemplelor nvate. nvarea este realizat pe baza unei legi de nvare care ajusteaz triile sinaptice ale reelei neuronale ca rspuns la exemplele de antrenament. Pentru ca reeaua neuronal s execute task-ul dorit, nu este nevoie s scriem nici un fel de program. Trebuie doar s nvm reeaua, prin prezentarea unui numr suficient de exemple relevante, cu scopul de a ajunge la o generalizare performant. Dac ntr-un model de calcul tradiional - program, sistem expert - apar cereri de informaii noi sau cereri de a modifica informaiile existente, setul de reguli care implementeaz baza de cunotine nu este capabil s interpoleze rspunsul dorit. Programatorul, expertul, va trebui s construiasc noi reguli, folosind instruciunile unui limbaj de programare, testnd interaciunea acestor noi reguli cu cele vechi implementate. Putem defini principalul neajuns al sistemelor tradiionale de calcul: imposibilitatea de a genera reguli noi sau de a le modifica automat pe cele vechi, reguli ce reprezint baza de cunotine a task-ului ce se dorete a fi rezolvat.

II.5.2. Memorii asociative distributive


O caracteristic important a calcului neuronal este modul de stocare a datelor de ctre reeaua neuronal. Unitatea de memorare o reprezint tria sinaptic. Starea curent de cunotine a reelei neuronale va fi caracterizat de valorile numerice reale ce corespund n acel moment triilor sinaptice. O dat de intrare n reeaua neuronal nu va fi stocat ntr-o poziie unic, ci va fi distribuit n reeaua neuronal, mprind spaiul de memorare i cu alte date de intrare. Reelele neuronale pot fi utilizate i ca memorii asociative. Acest lucru nseamn c dup ce am antrenat reeaua neuronal, dac i prezentm o dat distorsionat din mulimea de antrenament, reeaua neuronal va genera un rspuns similar cu cel al datei nedistorsionate. Un caz particular l reprezint reelele neuronale auto-asociative, unde vectorul de intrare coincide cu vectorul de ieire. Prezentndu-i-se un vector de intrare distorsionat, la stratul de ieire vom obine vectorul restaurat.

32

II.5.3. Tolerana la deteriorri


Sistemele de calcul tradiionale sunt inutilizabile la apariia celui mai minor defect la unitatea de memorie. Este suficient deteriorarea unui singur bit de memorie pentru ca datele memorate s se altereze. La reelele neuronale, deteriorarea unor neuroni sau a unor trii sinaptice, nu atrage dup sine o deteriorare abrupt a performanelor. Cu ct avem un grad mai mare de degradare al reelei neuronale, cu att se deterioreaz performanele reelei neuronale, fr ca aceasta si nceteze funcionarea. Tolerana la deteriorri a reelei neuronale este datorat modului distribuit de stocare a datelor. Tolerana la deteriorri este o caracteristic fundamental a reelelor neuronale biologice. n sistemul nervos, zilnic se degradeaz cteva mii de neuroni, fr ca aceasta s afecteze, cel puin pn la o anumit vrst, funcionalitatea i robusteea activitii sale. Acest fenomen poate fi privit ca o trstur fundamental a evoluiei inteligenei [96].

II.5.4. Recunoaterea formelor (Pattern Recognition)


Sistemele de calcul neuronal sunt deosebit de eficiente n aciuni legate de recunoaterea formelor. Reelele neuronale s-au dovedit a fi mult superioare sistemelor statistice tradiionale sau sistemelor expert. Un exemplu elocvent de recunoatere a formelor este nsi abilitatea de a translata simbolurile de pe aceast pagin n cuvinte, propoziii, fraze pline de coninut. Recunoaterea formelor este o aciune care necesit capabilitatea de a cuprinde simultan o mare cantitate de informaii i de a emite rspunsuri generale. Recunoaterea formelor necesit sisteme de calcul capabile s "neleag" date pariale sau deformate [42]. Reelele neuronale posed capacitatea de a nva i de a construi structuri unice relative la o problem dat, fiind din acest motiv deosebit de eficiente n recunoaterea formelor. Capacitatea reelelor neuronale de a selecta combinaii de trsturi pertinente pentru o anumit problem le face s fie superioare sistemelor statistice. De asemenea, capacitatea reelelor neuronale de a deduce aceste trsturi pertinente, prin nsi modul lor de aciune i nu prin intervenia deliberat a unui programator, le face s fie superioare i sistemelor expert.

II.5.5. Sintez
Problema nvrii reelelor neuronale, este echivalent din multe puncte de vedere cu problema aproximrii i interpolrii unei funcii continue. n aceast analogie, a nva reeaua neuronal cu ajutorul unei legi de nvare supervizate, nseamn a determina acea funcie parametric f w pentru care:
y = F ( x, w )

unde w reprezint mulimea triilor sinaptice ale reelei neuronale. S-a demonstrat faptul c reelele neuronale sunt aproximatori universali, fiind capabile s aproximeze arbitrar de bine orice aplicaie continu [44], [57]. Aceast capacitate a reelelor neuronale artificiale de a
33

sintetiza funcii continue complexe, este analog cu abilitatea reelelor neuronale biologice de a nva micri coordonate complexe, ca de exemplu de a folosi unelte, de a face sport.

II.5.6. Calculul neuronal versus calculul algoritmic


Un algoritm reprezint descrierea unei secvene de instruciuni i ordinea de execuie a acestor instruciuni, care au ca scop atingerea unui el. Evident aceast definiie nu cuprinde nici pe departe trsturile fundamentale ale calculului algoritmic. De aceea, cea mai bun cale de a caracteriza calculul neuronal este de a enumera caracteristicile echipamentelor pe care algoritmul se implementeaz, adic calculatorul von Neumann: singur unitate central (CPU); efectuarea calculelor n ordine secvenial; mulime mare de instruciuni prin care se descrie algoritmul; instruciunile pentru descrierea algoritmului sunt stocate n memorie; operanzii folosii n calcule, precum i rezultatele obinute sunt stocate n memorie, n locaii bine stabilite; Datele necesare algoritmului sunt localizate.

Descrierea de mai sus corespunde tipului de calcul secvenial, cunoscut sub numele de SISD (Single Instruction Single Datastream) [99]. Variaiile invocate n cadrul calculului paralel nu reprezint altceva dect variante ale SISD: SIMD (Single Instruction Multiple Datastream): fiecare instruciune opereaz pe mai multe date. MISD (Multiple Instruction Single Datastream): mai multe instruciuni opereaz n paralel asupra unor date, o instruciune pe dat, dar mai multe instruciuni simultan. Denumirea consacrat este de arhitectur pipeline. MIMD (Multiple Instruction Multiple Datastream): mai multe operaii opereaz pe mai multe date simultan. Acest lucru se reduce de obicei la mai multe maini SISD interconectate.

Chiar dac aceste variante de sisteme de calcul pot implementa calculul algoritmic paralel, ceea ce duce la o eficientizare a vitezei de calcul, trstura fundamental rmne procesarea secvenial a datelor. Din cele prezentate pn acuma s ncercm s caracterizm calculul neuronal: exist un numr mare de elemente de procesare (neuroni); fiecare element de procesare efectueaz un numr mic de calcule simple (adunri, nmuliri, comparaii); fiecare element de procesare este conectat la multe alte elemente de procesare; numrul de conexiuni dintre elementele de procesare este mult mai mare dect al elementelor de procesare;

34

tria legturii dintre elementele de procesare este variabil, i ceea ce este foarte important, este faptul c reeaua neuronal i modific singur tria acestei legturi; dac la un sistem de calcul von Neumann, instruciunile care se execut de elementul de procesare caracterizeaz deplin aciunea de executat, la o reea neuronal elementele de procesare efectueaz calcule simple, independente de aciunea de executat; reeaua neuronal nva cum s execute aciunea dorit prin antrenament (experien); de aceea ea nu este programat prin intermediul unui set de reguli descrise a priori; informaia este distribuit n reeaua neuronal, fiind stocat n triile legturilor sinaptice dintre neuroni.

Comparaia dintre calculul algoritmic i calculul neuronal scoate n eviden urmtoarea concluzie: Calculul algoritmic necesit programare, adic stabilirea unui set de reguli care s caracterizeze a priori calculul ce urmeaz a fi implementat pe calculator; Reelele neuronale nva, absorb experien, modificndu-i structura intern n scopul efecturii aciunii dorite.

II.6. Domenii de utilizare ale reelelor neuronale


Din cele prezentate pn acum, rezult faptul c reelele neuronale sunt utile ntr-o gam foarte diversificat de aplicaii. Dac studiem literatura de specialitate relativ la domeniul aplicativ al reelelor neuronale, vom gsi aplicarea lor n toate domeniile activitii umane. Pornind de la art, tiine naturale, tiine sociale, industrie, agricultur, mergnd pn la sport, divertisment, aproape c nu existe domeniu n care s nu gsim aplicaii ale calculului neuronal. Acest lucru nu este de mirare, deoarece analiznd trsturile calculului neuronal (I.2) deducem caracterul su universal. Totui, cea mai adecvat utilizare a calculului neuronal o reprezint domeniile apropiate percepiei i gndirii umane.

II.6.1. Procesarea limbajului


Conversii text-limbaj

T. Sejnowski i C. Rosenberg [183] au aplicat sistemele de calcul neuronal n domeniul translatrii unui text scris n limbaj vorbit. Proiectul lor, numit Nettalk, a avut la baz o reea neuronal direct cu dou straturi, nvat pe baza unei legi de nvare supervizat. Dup cum se vede n Fig.2.4, reeaua neuronal Nettalk cuprinde un strat de intrare cu 7 neuroni, valorile admisibile de intrare fiind caracterele alfabetului englez i semnele de punctuaie. Stratul ascuns este constituit din 80 de neuroni, iar stratul de ieire din 26 de neuroni, fiecare corespunznd unei uniti fonetice, numit fonem. Reeaua neuronal a fost antrenat cu ajutorul unui dicionar de 1024 cuvinte. Dup 10 edine de antrenament s-a
35

obinut o pronunie inteligibil, iar dup circa 50 de edine de antrenament s-a obinut o acuratee de 95% n pronunie. S-a constatat faptul c reeaua neuronal a reuit s extrag din datele nvate o serie de trsturi eseniale procesului de vorbire. Astfel, neuronii din stratul ascuns rspund difereniat, prin valori de activare mai mari sau mai mici, la vocale sau consoane. Analiznduse structura intern i modul de stocare a datelor n reea, s-a regsit nsi structura fonologic a limbii engleze. Deteriorri premeditate ale reelei neuronale Nettalk, au dus la o degradare continu i lent a performanelor sale, dar nu catastrofal, deteriorare imediat recuperat printr-o nou faz de re-antrenare.

\z\ Stratul de ieire (Foneme)

Strat ascuns

T h i

h e input

Fig.2.4.: Arhitectura general a reelei neuronale Nettalk.

Un produs similar de conversie text scris-text pronunat, avnd la baz un sistem expert, produs de firma DEC i numit DecTalk, a necesitat un efort uria de programare al unei echipe de 35 specialiti, timp de 2 ani de zile, fr a obine un produs superior reelei neuronale Nettalk. Aceeai arhitectur ca la reeaua Nettalk a fost aplicat de Qian i Sejnowski [163] la determinarea structurii secundare a proteinelor, n scopul de a transcrie secvene de DNA pentru coduri de proteine.

Procesarea limbajelor naturale

D. Rumelhart i J. McClelland [174] au introdus reelele neuronale n domeniul procesrii limbajului natural. Prin procesare a unui limbaj natural vom nelege studiul modului de construcie a regulilor unui limbaj. D. Rumelhart i J. McClelland au studiat acest proces cu ajutorul unei reele neuronale capabile s nvee timpul trecut (Past Tense) al limbii engleze. nvnd reeaua neuronal, ea a progresat din faza unui nceptor care face greeli de tipul bring-bringed, pn la o faz de specialist n care era capabil de a determina timpul trecut pentru verbe neregulate. Abilitatea reelei neuronale de a generaliza pe baza unor date incomplete i de a se auto-organiza, au permis ca reeaua neuronal s genereze rspunsuri corecte cnd i s-a prezentat un verb nou sau necunoscut.
36

II.6.2. Comprimarea datelor


G.W. Cottrell, D.Zipser i P. Munro [33] au utilizat reelele neuronale n scopul de a comprima eficient informaii corespunztoare unor imagini grafice. Imaginile grafice ocup, n funcie de rezoluia de reprezentare i de numrul de culori folosit, un spaiu de memorare foarte mare, ajungnd pn la ordinul mega-octeilor. Compresia imaginilor reprezint o necesitate practic, deoarece spaiul de memorare este foarte costisitor, i n acelai timp timpul de transfer al unei imagini este evident influenat de dimensiunea spaiului de memorare necesar pentru respectiva imagine. Sistemul de calcul neuronal conceput de Cottrell, Munro i Zipser are la baz o reea neuronal cu trei straturi, capabil a comprima o imagine, i bineneles capabil i de a o decomprima fr distorsiuni. Este important de menionat legea de nvare nesupervizat folosit pentru a nva reeaua neuronal, care a permis ca ea s se auto-configureze, fr intervenia specialitilor. Cu aceast reea neuronal s-a reuit comprimarea datelor la un factor de 8:1, cu o decomprimare ireproabil a imaginii originale.

II.6.3. Recunoaterea caracterelor


Un domeniu important de utilizare a reelelor neuronale l reprezint domeniul interpretrii vizuale i al clasificrii simbolurilor. Recunoaterea scrisului de mn. Cercettori ai companiei Nestor Inc. din SUA, au dezvoltat un sistem de calcul neuronal care are ca i dispozitiv de intrare a datelor o tablet digitizoare, pe care se poate scrie cu ajutorul unui Light-Pen. Reeaua neuronal a fost antrenat cu diferite scrisuri de mn, ea fiind capabil s interpreteze un scris de mn oarecare cu o nalt acuitate. Exist un mare numr de sisteme de recunoatere optic a caracterelor, numite OCR (Optical Character Recognition). Ceea ce difereniaz reelele neuronale fa de sistemele OCR tradiionale este flexibilitatea. Dup nvare, reeaua neuronal este capabil s recunoasc o mare diversitate de scrieri i s fac presupuneri pertinente relativ la caracterele confuze. Cercettorii companiei Nestor au construit o reea neuronal pentru scrierea japonez (Kanji). Prin folosirea reelelor neuronale n acest domeniu, s-a fcut posibil eliminarea dificultilor de a cuantifica elementele specifice ale unui limbaj. Prelucrarea imaginilor. K. Fukushima [72], [73] a elaborat un sistem de calcul neuronal pentru recunoaterea imaginilor, cu aplicabilitate practic n domeniul recunoaterii caracterelor. Reeaua neuronal construit, are la baz un sistem performant de recunoatere a formelor, numit Neocognitron. Neocognitronul este de fapt o reea neuronal cu mai multe straturi ce simuleaz modul de prelucrare a imaginilor de ctre cortexul uman. Straturile ascunse succesive de neuroni ale Neocognitronului au rolul de a extrage trsturi definitorii ale imaginii fr a fi influenate de orientare sau distorsiuni. La nivelul stratului de intrare formele sunt unic determinate, o dat cu propagarea informaiei ctre stratul de ieire, activndu-se doar anumii neuroni, care corespund unor trsturi definitorii ale imaginii.
37

II.6.4. Probleme combinatoriale


Reelele neuronale au fost folosite cu succes la rezolvarea problemelor NP-complete (Non Polynomial). Este cunoscut faptul c problemele combinatoriale NP-complete necesit timpi de calcul care cresc exponenial cu numrul de date de intrare. Ca un test (benchmark), celebra problem a comis-voiajorului care trebuie s strbat un numr dat de orae, folosind drumul cel mai scurt, reprezint un test de msur a performanelor unor reele neuronale. Literatura de specialitate conine un numr impresionant de soluii ale acestei probleme, majoritatea bazate pe o arhitectur particular de reea neuronal, numit reea neuronal de tip Hopfield. Cercettorii J. Hopfield i D. Tank [101], au fost primii care au aplicat calculul neuronal n domeniul rezolvrii problemelor combinatoriale NP-complete. Ei au construit o reea neuronal pentru a rezolva problema comis voiajorului, atandu-i o funcie energetic dependent de starea neuronilor constitueni. Minimul funciei energetice, corespunde unei stri stabile a neuronilor, drumul minim fiind astfel regsit. H. Szu [191] a mbuntit reeaua neuronal construit de Hopfield i Tank, utiliznd o funcie energetic care conduce la stri mai stabile i prin urmare la soluii mai performante.

II.6.5. Recunoaterea formelor


Clasificarea formelor Dup cum am artat, n domeniul recunoaterii formelor (pattern recognition), sistemele de calcul neuronal au performane superioare sistemelor expert sau sistemelor clasice de calcul [199]. Exist o gam foarte diversificat de aplicabilitate a sistemelor de calcul neuronal n acest domeniu. Unul din exemplele semnificative, l reprezint aplicarea reelei neuronale de tipul BP (BackPropagation) n clasificarea intelor radar. R. Gorman i T. Sejnowski [84] au construit o reea neuronal tip BP cu dou straturi; stratul de intrare conine un numr de 60 de neuroni, corespunznd la cele 60 benzi de frecven necesare detectrii unei inte radar, stratul de ieire al reelei neuronale, conine un numr de neuroni corespunznd la numrul de inte radar; stratul ascuns are un numr de 12 neuroni. Dup faza de antrenament, reeaua neuronal s-a comportat ca un operator radar supercalificat. Control industrial Rezultate foarte bune s-au obinut aplicnd reelele neuronale tip BP la recunoaterea imaginilor furnizate de camere video, pentru a conduce un robot. D. Glover [83] a folosit pentru digitalizarea imaginilor video un procesor optic Fourier, care lucreaz n timp real. Reeaua neuronal era constituit din 2 straturi: stratul ascuns cu un numr de 20-40 neuroni, iar stratul de ieire un numr corespunztor de neuroni de comand pentru robot. Aplicnd aceast reea neuronal n domeniul controlului industrial, s-au obinut rezultate interesante. n cadrul cercetrii conduse de Glover, s-a pus n eviden pentru prima dat fenomenul de supra-antrenament (overtraining), adic faptul c prezentarea unui numr prea mare de exemple de antrenament poate duce la distrugerea datelor memorate pn atunci. Acest lucru se explic prin faptul c reeaua neuronal se auto-configureaz iniial n
38

concordan cu tendina statistic a datelor de antrenament, prezentarea unor noi date irelevante producnd deviaii de la tendina statistic general. Fenomenul de supra-antrenament este unul din principalele neajunsuri ale legilor de nvare supervizate care ncearc s nvee date eronate sau irelevante, implicnd modificri semnificative asupra triilor sinaptice, fa de ajustri minore ale triilor sinaptice provocate de datele corecte, care genereaz erori minime.

II.6.6. Prelucrarea semnalelor


Predicie Dup cum se tie, problemele de predicie pentru serii haotice sunt dificil de rezolvat dac utilizm metode convenionale liniare sau polinomiale. Lapedes i Farbes [125] au construit o reea neuronal pentru predicia unei serii haotice, reprezentnd soluiile numerice ale unei ecuaii difereniale, cunoscut sub numele de ecuaia Mackey-Glass [131]:
dx 0.2 x ( t ) = 01 x ( t ) + . dt 1 + x 10 ( t )

(2.9)

unde reprezint un factor de ntrziere. Ideea de baz const n a antrena reeaua neuronal cu o mulime de date de forma:
x ( t ), x ( t ), x( t 2 ),..., x( t ( n 1) )

(2.10)

iar ca date int, date cunoscute de forma x ( t + T ) . Parametrul controleaz haoticitatea rezultatelor numerice. Reeaua neuronal construit de Lapedes i Farbes are trei straturi, 2 straturi ascunse, un strat de ieire constituit dintr-un singur neuron liniar (cu funcie de activare liniar). Ceea ce s-a constatat la aceast reea neuronal este aparenta sa capabilitatea de a reprezenta n straturile ascunse legea de generare a unei astfel de serii haotice. Modelarea sistemelor, filtrarea semnalelor Aceeai autori, Lapedes i Farbes, au obinut rezultate interesante n domeniul modelrii unor sisteme. ncercarea lor s-a bazat pe modelarea funciei corespunztoare sistemului:
dx x(t ) dt
2

(2.11)

Reeaua neuronal coninea n stratul de intrare doi neuroni, corespunznd valorilor dx . Reeaua x ( t ) i x ( t 0.001) , iar stratul de ieire un singur neuron corespunznd valorii dt neuronal avea dou straturi ascunse, fiecare strat avnd cte 10 neuroni. nvarea reelei s-a fcut cu ajutorul unor date corespunznd unor semnale cu band unic limitat, ca o sum de 20 de sinusoide. Dei, nvarea reelei neuronale s-a fcut relativ la ecuaia (2.11), ea a nvat de fapt forma general a mecanismului de modelare, comportndu-se satisfctor la semnale arbitrare prezentate la stratul de intrare. Reelele neuronale au fost folosite i n aplicaii de filtrare a semnalelor, cu scopul de a elimina zgomotul perturbator. S-au construit n acest fel reele neuronale aplicate n domeniul
39

medicinii [148], pentru a elimina zgomotul produs de imperfeciunea aparatelor de msur EKG, EEG etc. Reelele neuronale sunt folosite i n domeniul telecomunicaiilor, pentru a elimina zgomotul i interferena semnalelor.

II.6.7. Modelare economic i financiar


Modelarea sistemelor economice i financiare cu scopul de a permite analize i prognoze eficiente, este de o foarte mare importan. Determinarea unor elemente de tendin economico-financiar cum ar fi consum, pre, inflaie, volum de vnzri, necesar de aprovizionat etc., sunt n general greu de abordat datorit numrului mare de parametri i a imprevizibilii variaiei lor [48]. Reelele neuronale au cptat n acest domeniu o recunoatere semnificativ. Mari companii, cum ar fi Boeing, Volvo, Philips, folosesc sisteme de calcul neuronal n domeniul managementului firmei [148].

II.6.8. Servo-control
Deosebit de dificil este problema controlului i conducerii unor sisteme complexe servo-mecanice (roboi). Dificultatea const n a gsi metode computaionale acceptabile pentru a compensa variaiile fizice din sistem [88]. Dei uneori este posibil a construi formule matematice care s descrie erori provocate de variaii fizice - erori provocate de alinierea axelor, deviaii ale organelor n micare - dou probleme sunt de luat n considerare: Prima problem: de cele mai multe ori este aproape imposibil s msurm cu acuratee variaiile fizice. A doua problem: complexitatea computaional necesar pentru a rezolva problemele variaiilor fizice poate fi nefezabil din punct de vedere economic, necesitnd o putere de calcul uria i echipamente speciale.

Cu toate acestea exist numeroase modele de calcul neuronal care stau la baza conducerii unor roboi. Un exemplu semnificativ este robotul comandat de o reea neuronal folosit pentru conducerea unui vehicul. D. Pomerleau [160] a construit n acest scop o reea neuronal cu dou straturi. Stratul de intrare const dintr-o imagine digitizat de 30x32 pixeli i 8x32 pixeli de la un sistem video de proximitate. Stratul ascuns coninea 29 de neuroni, iar stratul de ieire 45 de neuroni dispui liniar. Neuronii din centrul stratului de ieire corespundeau pentru direcia nainte, cei din stnga i dreapta pentru viraj stnga, respectiv dreapta. Dup ce reeaua neuronal a fost antrenat cu un numr de 1200 de imagini simulate, ea a fost capabil s conduc un automobil cu o vitez de 25 km/h. Viteza limitat era datorat mai ales faptului c echipamentul de calcul utilizat pentru a implementa reeaua neuronal, un microsistem Sun-3, nu avea vitez de calcul mare.

40

II.6.9. Teoria aproximrii


Putem considera o reea neuronal ca o implementare a unei reguli de calcul ce ne permite s obinem un vector de ieire m-dimensional, cunoscnd vectorul de intrare ndimensional corespunztor. Aceast regul implementat de reeaua neuronal corespunde de fapt unei clase de funcii f : R n R m . De fapt, n aceast carte vom prezenta rezultate care dovedesc c reelele neuronale sunt din multe puncte de vedere superioare metodelor de aproximare-interpolare polinomiale. n aceste paragrafe am prezentat doar o parte a domeniului de aplicare a reelelor neuronale, fr a avea pretenia de a epuiza n totalitate posibilitile de aplicare a calcului neuronal. Dup cum am mai menionat, reelele neuronale sunt modul de implementare a calculului neuronal, care este practic un instrument universal, cu avantaje i dezavantaje fa de metodele de calcul clasic sau cele bazate pe sistemele expert.

II.7. Clasificare
Pentru a avea o imagine de ansamblu asupra modelelor de calcul neuronal construite pn n prezent, vom prezenta o clasificare a reelelor neuronale din punct de vedere al domeniului de utilizare.

Domeniul de utilizare 1. Predicie 2. Clasificare 3. Asociere de date 4. Conceptualizare de date 5. Filtrri de date 6. Optimizare

Legea de nvare Supervizat Supervizat Supervizat Nesupervizat Nesupervizat Nesupervizat

Vom prezenta n continuare reelele neuronale existente pentru fiecare domeniu de utilizare. 1. Reele neuronale pentru predicie Delta Bar Delta (DBD) Direct Random Search (DRS) Fiecare trie sinaptic are propriul coeficient de nvare auto-ajustabil. Similar cu BP, ncorpornd un aspect aleatoriu, ce ine cont de nvarea cu succes a unor date. Fiecare trie sinaptic are propriul coeficient de nvare i propriul coeficient inerial auto-ajustabil.
41

Extended Delta Bar Delta (EDBD)

Back-Propagation (BP)

Modificarea triilor sinaptice se face prin propagarea napoi a erorii dintre vectorul de ieire i vectorul int, de la stratul de ieire ctre stratul de intrare. Recirculation La fel ca pentru BP, dar este o reea neuronal auto-asociativ (II.2.2).

Back-Propagation (BP_RCIRC)

with

Digital Neural Network Architecture Reea neuronal cu o lege de nvare (DNNA) special, care permite implementarea reelei pe un chip siliconic produs de firma Neural Semiconductor din SanDiego. Self-Organizing Map Propagation (SOM_BP) into Back- Reea neuronal hibrid ce folosete prima dat o lege de nvare nesupervizat, pentru a separa conceptual datele de intrare, nainte de a fi folosite pentru predicie. O variant a modelului BP, unde neuronii din straturile ascunse sunt adugai unul cte unul la arhitectura reelei, testnduse la fiecare adugare performanele reelei neuronale. Reeaua neuronal cea mai simpl, constituit dintr-un singur neuron boolean. De interes istoric [206]. Reea neuronal cu mai multe straturi, neuronii fiind elemente de procesare de tip Adaline. Reea neuronal direct cu un singur strat. Reea neuronal direct cu dou sau mai multe straturi.

Cascade Corelation (Cascade)

Adaptive Linear Network (Adaline)

Muliple Adaline Network (Madaline)

Simple Perceptron (PS) Multy-Layer Perceptron (PMS)

2. Reele neuronale pentru clasificare La baza acestor reele neuronale st metoda de auto-organizare dezvoltat de T. Kohonen [117]. Categorial Learning (Catlrnn) Fiecare categorie de ieire are propriul set de noduri pentru nvarea punctelor centrale ale datelor de intrare, avnd un strat tip Kohonen fr funcie de atracie. Se nva relaia existent ntre stratul de ieire i stratul tip Kohonen. Stratul Kohonen nu are funcie de atracie. Fiecare categorie de ieire are propriul set de noduri. Stratul Kohonen are un
42

Counterpropagation (Cntrprop)

Learning Vector Quantization (LVQ)

mecanism activ, bazat pe o funcie de atracie i o metod de limitare. Probabilistic Neural Networks (PNN) Sunt generate funcii probabilistice empirice de probabilitate, utiliznd reele neuronale pentru a implementa clasificatori Bayesieni.

Self-Organizing Map into Categorization Reea neuronal hibrid ce utilizeaz un (SOM_CAT) strat Kohonen bidimensional, cu un mecanism activ de separare a datelor de intrare, nainte de a fi categorizate.

3. Reele neuronale pentru asocieri de date Bidirectional (BAM) Associative Memory Reeaua neuronal nva perechi de vectori (A1, B1), (A2, B2), .... Cnd i se prezint o versiune distorsionat a lui Ai, reeaua neuronal va genera perechea potrivit Bi. Completion Reeaua neuronal nva o serie de vectori de date de intrare. Cnd i se prezint un vector de intrare distorsionat, reeaua va genera vectorul restaurat. Reea neuronal avnd un mod de operare similar cu reelele tip Hopfield, aprnd n plus o lege de nvare special numit revenire simulat (simulated annealing). Un vector de intrare este comparat cu ceilali vectori memorai, determinnduse distana minim la acetia pe baza unei distane specifice, numit distan Hamming. Lateral Mod de operare similar cu cel al reelei neuronale tip Hamming, dar selectarea unui vector se face printr-un proces similar cu cel biologic, numit inhibiie lateral, de tip competitiv. Similar cu modelul de reea neuronal tip Hamming, ns folosete o alt metod de a determina distana dintre doi vectori. Recognition O serie de vectori predefinii sunt memorai iniial, fiind folosii n continuare ca o baz de clasificare a vectorilor de intrare urmtori. Reeaua permite acordarea sa pentru a detecta vectori variabili n timp.
43

Boltzmann (Boltzcmp)

Pattern

Boltzmann Input-Output (Boltz-IO)

Hamming Network (Hamming)

Hamming Network Inhibition (Hamlatin)

with

Hopfield Network (Hopfield)

Spatio-Temporal (SPR)

Pattern

4. Reea neuronal pentru conceptualizare Adaptive Resonance Theory I Reea neuronal care creeaz categorii ale datelor (Art I) de intrare. Un factor de vigilen urmrete i regularizeaz numrul de categorii formate. Self-Organizing Map (SOM) Datele de intrare sunt proiectate ntr-o manier similar cu cea ntlnit la sistemele biologice, ntr-un strat bi-dimensional.

5. Filtrarea datelor Recirculation (recirc) Datele de intrare sunt netezite prin comprimare dup care sunt restaurate. Reeaua neuronal se comport ca un filtru pentru joas frecven, a crui punct de tranziie este determinat de numrul de straturi ascunse.

6. Optimizare Hopfield Network (Hopfield) Similar cu modelul de reea neuronal tip Hamming, ns folosete o alt metod de a determina distana dintre doi vectori.

II.8. Tehnologii implicate n dezvoltarea calculului neuronal


Din cele prezentate, rezult c aplicarea calculului neuronal este puternic influenat de dezvoltarea unor tehnologii corespunztoare, care s duc la o rspndire general a calculului neuronal. Exist la ora actual aproximativ 750 de firme [165], care au ca obiect de activitate dezvoltarea de sisteme de calcul neuronal, fr a mai pune la socoteal marile universiti, institute de cercetri, mari companii, unde exist departamente distincte de cercetare teoretic i aplicativ n domeniul calculului neuronal.

II.8.1. Simulatoare software


Am subliniat n repetate rnduri faptul c trsturile calculului neuronal l fac pe acesta s fie diferit de calculul tradiional (von Neumann), totui cea mai accesibil metod de a construi reele neuronale l reprezint simulatoarele software, care ruleaz pe calculatoare clasice secveniale sau paralele. Aceast idee nu este prea fericit, pentru c n fond rpete nsi ideea fundamental a calculului neuronal, calculul distribuit, trstur care se pstreaz doar la nivelul de concepie, nu ns i la cel de execuie. Lista simulatoarelor software existente pe piaa comercial este impresionant. Din cele mai importante merit s amintim Neural Works Professional II/Plus al firmei Neural Ware Inc. din Pittsburgh [148], BrainMaker al firmei California Scientific Software, Neural Network Utility (NNU) al firmei IBM, Neural-Desk al firmei Neural Computer Sciences, MacBrain al firmei Neurix, NeuroWindows al firmei Ward Systems Group [165].
44

II.8.2. Acceleratoare hardware


O mbuntire adus performanelor reelelor neuronale implementate prin intermediul simulatoarelor software pe calculatoare secveniale sau paralele, l reprezint utilizarea acceleratoarelor hardware. Acceleratoarele hardware sunt circuite electronice specializate implementrii metodei calculului neuronal, degrevnd unitatea central de un mare numr de operaii. Ele se ataeaz la calculatoarele clasice, transformndu-le n sisteme de calcul foarte rapide, care permit aplicaii de calcul neuronal n timp real. Vom prezenta cele mai importante realizri n acest domeniu: pentru o documentaie mai complet se poate consulta [55]: Mark III, Mark IV: produse de firma TRW din SUA, reprezint procesoare de uz general pentru o mare gam de aplicaii n domeniul calcului neuronal. Conin un numr de circa 417 000 legturi sinaptice, putnd fi ataate ca un echipament periferic la un calculator din familia VAX; NEP (Network Emulation Processor): dezvoltat de firma IBM, reprezint un accelerator hardware avnd la baz un procesor VLSI. Cu ajutorul acceleratorului NEP se pot rula aplicaii complexe de calcul neuronal, fiind de obicei utilizat ca un emulator pentru PAN (Parallel Associative Network) al firmei IBM. NEP conine o serie de interfee locale de mare vitez, putnd fi conectat n cascad la alte acceleratoare NEP, permind reele neuronale de foarte mari dimensiuni; Anza, Anza Plus: acceleratoare hardware special construite pentru simularea modului de funcionare a reelelor neuronale pe un mediu de calcul secvenial. Anza este capabil de a realiza o putere de calcul de 150 000 de interconexiuni pe secund. Aceast unitate de msur, numr de interconexiuni pe secund, este factorul de msur a performanelor computaionale ale unei reele neuronale; Delta II: Procesor n virgul mobil, are o capacitate de calcul de 11 000 000 interconexiuni pe secund, admind o arhitectur de cuplare n cascad. Firma productoare SAIC livreaz o dat cu acceleratorul hardware i un mediu de dezvoltare de aplicaii avnd la baz calculul neuronal. Pentru o documentaie mai complet se poate consulta lucrarea [55].

II.8.3. Procesoare neuronale


n ultima perioad s-au dezvoltat i implementat sisteme de calcul neuronal pe chipuri siliconice. Prezentm cteva realizri semnificative, o lista mai complet putnd fi gsit n [68], [165], [185]: ENN (Electronic Neural Network): Chip siliconic elaborat de firma AT&T, avnd un numr de 256 neuroni i mai mult de 100 000 legturi sinaptice. ENN este curent utilizat n domeniul compresiei imaginilor, cu scopul de a transmite imagini de mari dimensiuni n timp real pe linii telefonice. Silicon Retina, Silicon Ear: Chipuri care implementeaz elementele senzoriale ale vzului i auzului uman. Domeniul lor de aplicabilitate, mai ales n servo-control, biologie, medicin.
45

80170NX ETANN (Electrically Trainable Analog Neural Network): chip neuronal care permite un strat de intrare cu maximum 128 neuroni, putnd efectua 64 de operaii de integrare la fiecare trei milisecunde. Firma productoare Intel Neural Network Group.

II.8.4. Procesoare optice


Procesoarele optice reprezint o soluie care a dat foarte bune rezultate n domeniul calculului neuronal [5], [185]. Aceste procesoare optice posed multe trsturi comune cu sistemele de calcul neuronal, fiind constituite din matrice de procesoare simple, analoge neuronilor din reeaua neuronal. De asemenea, modul de operare al procesoarelor optice conine o larg scal de paralelism. Ca i realizri deosebite n utilizarea procesoarelor optice n calculul neuronal, menionm: firma Hitachi din Japonia a construit un procesor optic corespunznd unei memorii autoasociative cu dou straturi, avnd topologia: 32-neuroni n stratul de intrare, 29 neuroni n stratul ascuns, 26 neuroni n stratul de ieire. Procesorul optic coninea circa 1 000 neuroni/cm2; firma japonez Mitsubishi a creat unul din cele mai puternice procesoare optice dinamice, avnd o densitate de 2 000 de neuroni/cm2., cu un numr de 4 straturi de neuroni cu topologie variabil.

46

47

III. Procesul de nvare


III.1. Noiuni generale
n capitolul precedent am analizat o serie de proprieti ale calculului neuronal, respectiv ale reelelor neuronale. Cea mai semnificativ proprietate o reprezint fr nici o ndoial capacitatea reelelor neuronale de a nva din mediul nconjurtor i de a-i mbunti performanele pe baza acestui proces de nvare. Reeaua neuronal nva pe baza unui proces iterativ de ajustare a triilor sinaptice i eventual al nivelului de activare. Dac procesul de nvare decurge bine, atunci reeaua neuronal acumuleaz tot mai multe informaii, la fiecare iteraie. Evident c atunci cnd folosim termenul de "proces de nvare" ne situm ntr-o terminologie mult prea larg, care este dependent de mai muli factori. Fr a ncerca s teoretizm prea mult putem s observm foarte simplu c termenul de "proces de nvare" este folosit n maniere total diferite de un psiholog sau de un profesor atunci cnd pred. De aceea trebuie s ncercm s fim mai riguroi n definirea "nvrii" i a "procesului de nvare", deoarece vom folosi de acum ncolo foarte des aceste noiuni. Pentru aceasta vom defini, n contextul calculului neuronal, "nvarea", n felul urmtor [50]: Def. 3.1: nvarea este un proces prin care parametri reelei neuronale sunt adaptai permanent prin intermediul unor stimuli provenii de la mediul nconjurtor cruia i aparine reeaua neuronal. Tipul de nvare este determinat de forma de modificare a parametrilor reelei neuronale. Definiia de mai sus conine urmtoarea secven de evenimente [93]: Evenimentul 1: Reeaua neuronal primete stimuli de la mediul nconjurtor; Evenimentul 2: Reeaua neuronal se modific ca rspuns la stimuli; Evenimentul 3: Ca urmare a acestor modificri permanente, care afecteaz structura sa intern, reeaua neuronal rspunde de fiecare dat ntr-un nou mod mediului de la care vin stimuli.

S ncercm s dm o formulare matematic acestui proces descris mai sus. Pe baza celor prezentate mai sus i n capitolul anterior, am vzut c ceea ce se modific n cadrul procesului de nvare este tria sinaptic. De aceea, avem formularea matematic cea mai general a procesului de nvare exprimat prin formula:

w ji ( t + 1) = w ji ( t ) + w ji ( t )

(3.1)

wji(t + 1) i wji(t) reprezint noua i vechea valoare a triei sinaptice wji care unete axonul neuronului i de o dendrit a neuronului j.
w ji ( t ) reprezint ajustarea aplicat triei sinaptice wji(t), la momentul t, obinndu-se

valoarea wji(t + 1) la momentul t + 1, n urma procesului de ajustare.


48

Ecuaia (3.1) conine n mod evident efectele Evenimentelor 1, 2 i 3 prezentate mai sus. Ajustarea w ji ( t ) este obinut ca urmare a unor stimuli ai mediului nconjurtor (Evenimentul 1), iar valoarea modificat a triei sinaptice wji(t + 1) definete schimbarea din reeaua neuronal, ca un rezultat al stimulilor prezentai reelei neuronale (Evenimentul 2). Din momentul (t + 1) reeaua neuronal rspunde ntr-un mod nou mediului nconjurtor, deoarece tria sinaptic s-a modificat, devenind wji(t + 1) (Evenimentul 3). Def. 3.2: Vom numi algoritm de nvare, un set de reguli predefinite care soluioneaz problema "nvrii". Evident, pentru o anumit reea neuronal nu exist un unic algoritm de nvare. Mai degrab exist o mulime de legi de nvare, fiecare dintre ele avnd o serie de avantaje i de dezavantaje. Ceea ce face ca algoritmii de nvare s fie diferii este modul de calcul al ajustrii triei sinaptice w ji ( t ) . Un alt factor important relativ la procesul de nvare este modul de raportare a unei reele neuronale la mediul nconjurtor [181]. n acest context putem defini: Def. 3.3: Vom numi paradigm de nvare, un model al mediului nconjurtor n care are loc procesul de nvare al reelei neuronale. Pe aceast baz, putem formula taxonomia fundamental a procesului de nvare:
Procesul de nvtare
Algoritmi de nvtare
nvtare pe baza minimizrii unei functii eroare nvtare Boltzmann nvtare Hebbian nvtare competitiv nvtare supervizat

Paradigme de nvtare
nvtare nesupervizat nvtare ntrit

Fig. 3.1.: Taxonomia fundamental a procesului de nvare.

III.2. Algoritmi de nvare


III.2.1. nvare pe baza minimizrii unei funcii eroare

n capitolul anterior am introdus noiunile:


x = ( x1 , x 2 ,K, x n ), = 1,K, P - al - lea vector (dat) de intrare din mulimea de

antrenament;
y = ( y1 , y 2 , K, y m ), = 1, K, P - al - lea vector (dat) de ieire generat de reeaua

neuronal cnd la stratul de intrare a fost prezentat vectorul x. S introducem urmtoarea notaie:
49

z = z1 , z 2 ,K , z m , = 1,K , P pentru al - lea vector (dat) int, care reprezint rezultatul dorit a se obine la stratul de ieire atunci cnd la stratul de intrare a fost prezentat vectorul x.

Vectorul x reprezint stimulul mediului nconjurtor, iar vectorul y este rspunsul reelei neuronale la stimulul de intrare x. n cursul procesului de nvare, vectorii y i z sunt diferii. Diferena dintre cei doi vectori reprezint vectorul eroare e = ( e1 , e2 ,K, e m ), = 1,K, P , definit matematic de formula:
ek = z k y k , k = 1, K, m, = 1,K, P

(3.2)

Scopul procesului de nvare ce are la baz un algoritm de nvare pe baza minimizrii unei funcii eroare este, dup cum i spune i numele, minimizarea unei funcii eroare (cost) ce este construit din semnalul de eroare ek , k = 1,K, m, = 1,K, P . Prin

aceasta, ntr-o interpretare statistic, vectorul de ieire y tinde ctre vectorul int z. Astfel, procesul de nvare se transform ntr-o problem de optimizare obinuit. Cea mai des utilizat funcie de eroare este funcia abatere medie ptratic MSE (Mean Square Error), definit astfel:
2 1 m MSE = E (e k ) , = 1, K, P 2 k =1

(3.3)

unde am notat cu E operatorul de medie statistic. Dup cum se vede din formula de mai sus, MSE reprezint funcia eroare relativ la prezentarea celui de-al - lea vector (dat) de intrare din mulimea de antrenament. Evident, putem defini o funcie eroare general, care ine cont de diferena dintre vectorii de ieire y i vectorii int z relativ la toat mulimea de antrenament. Putem scrie:

1 P m 2 MSE = E ek 2 =1 k =1

( )

(3.4)

Procesul de minimizare al funciei eroare MSE n raport cu parametrii reelei neuronale, deci i procesul de nvare, este o metod de optimizare cunoscut, numit metoda gradientului descendent [30]. n sine, metoda de optimizare nu prezint probleme, dar din punct de vedere al calculului neuronal, aceast minimizare este echivalent cu procesul de nvare, fiind necesare informaii despre caracteristicile statistice ale procesului de nvare. Putem evita acest lucru, considernd o soluie aproximativ a problemei de optimizare, i anume, suma ptratelor erorilor dintre vectorului de ieire y i vectorului int z:
MSE = 1 m 2 ( ek ) , ' = 1,K, P 2 k =1

(3.5)

50

Procesul de nvare va consta n minimizarea funciei eroare (3.5), n raport cu triile sinaptice wji, pe baza metodei gradientului conjugat. Obinem ajustarea triei sinaptice pe baza relaiei:
w = ji MSE = e x i j w ji

(3.6)

Constanta real reprezint rata de nvare. Formula de mai sus este cunoscut n calculul neuronal sub numele de regula delta. Din regula delta se poate observa c ajustarea triilor sinaptice n procesul de nvare este proporional cu produsul dintre stimulul (semnalul) de intrare i semnalul de eroare. Dac am reprezenta graficul funciei eroare n raport cu triile sinaptice wji ce caracterizeaz reeaua neuronal, am obine o hiper-suprafa, numit suprafa eroare. Putem ntlni dou cazuri distincte n studiul suprafeei eroare, i anume: dac reeaua neuronal este constituit doar din neuroni ce au ca funcie de activare funcia liniar (2.1), atunci funcia eroare este o funcie cvadratic n raport cu triile sinaptice, iar suprafaa eroare are un punct unic de minim. dac reeaua neuronal este constituit din neuroni ce au ca funcie de activare funcii neliniare (2.2), (2.3), (2.4), (2.5), (2.6) atunci suprafaa eroare are un punct de minim global i numeroase alte minime locale.

n oricare situaie, procesul de nvare sau de minimizare a funciei eroare const din pornirea dintr-un punct arbitrar al suprafeei eroare (ce se obine din valorile de iniializare ale triilor sinaptice ale reelei neuronale) i din deplasarea pas cu pas ctre punctul de minim global. Evident, nu este posibil ca s atingem acest punct al suprafeei eroare n orice context, deoarece procesul de deplasare se poate bloca n punctele de minim local.

III.2.2. nvare Hebbian


Denumirea de nvare Hebbian se datoreaz Postulatului lui Hebb, care n lucrarea sa The Organization of Behaviour [94], emite una din cele mai faimoase ipoteze din neuropsihologie: "Cnd un axon al celulei nervoase A este suficient de aproape de faza de excitare a unei celule nervoase B, i n mod repetat sau persistent ia parte la activarea sa, un anumit proces de cretere sau de modificare metabolic are loc ntr-una sau n ambele celule nervoase, astfel nct eficiena celulei nervoase A este mrit din punct de vedere al contribuiei la activarea celulei B". Pe baza acestui postulat, Hebb a propus un model celular de nvare asociativ, care are ca rezultat o modificare de durat n activitatea unor "ansambluri de celule nervoase" spaial distribuite. S nu uitm c postulatul lui Hebb este fcut ntr-un context neurobiologic. De aceea, vom ncerca s analizm i s interpretm acest postulat prin prisma noastr de interes, i anume a calculului neuronal [188]:

51

dac doi neuroni aflai de o parte i alta a unei sinapse sunt activai simultan (sincron), atunci tria sinaptic se mrete; dac doi neuroni aflai de o parte i alta a unei sinapse sunt activai asincron (un neuron activ i cellalt inactiv), atunci tria sinaptic se micoreaz sau este eliminat.

Atunci, putem s definim ceea ce nseamn o legtur sinaptic privit din acest punct de vedere [93], i pe care o numim sinaps Hebbian: Def. 3.4: O sinaps Hebbian este o sinaps care utilizeaz un mecanism dependent temporal, cu un puternic caracter local i interactiv, cu scopul de a mri tria sinaptic ca o funcie de corelaie dintre activitatea presinaptic i postsinaptic. Conceptul de nvare Hebbian poate fi generalizat dac lum n considerare c pe de o parte o activitate pozitiv corelat produce mrirea triei sinaptice, i pe de alt parte c activitatea necorelat sau negativ corelat produce micorarea triei sinaptice. Mergnd mai departe, putem s clasificm modificrile sinaptice ca fiind [153]: modificri sinaptice Hebbiene; modificri sinaptice anti-Hebbiene; modificri sinaptice non-Hebbiene.

Formularea matematic general a postulatului lui Hebb, se face n felul urmtor:

w = f x i , y , i = 1,K, n, j = 1, K, m ji j

(3.7)

unde f( , ) este o funcie de dou variabile, prima variabil reprezentnd activitatea presinaptic xi , iar a doua variabil reprezentnd activitatea postsinaptic y i .

III.2.3. nvare competitiv


nvarea competitiv se bazeaz pe un proces concurenial ntre neuronii din stratul de ieire, existnd un neuron "ctigtor", n detrimentul celorlali neuroni. Dac n ceilali algoritmi de nvare prezentai pn acum, toi neuronii din stratul de ieire puteau genera valori de ieire mai mari sau mai mici, n algoritmul de nvare competitiv, doar neuronul de ieire "ctigtor" este activ (genereaz o valoare nenul), ceilali neuroni de ieire devenind inactivi (genereaz valoarea zero). Conform cu [173] exist trei elemente fundamentale ntr-un proces de nvare bazat pe un algoritm de nvare competitiv: exist o mulime de neuroni identici, cu singura excepie a existenei unor trii sinaptice distribuite aleator ntre neuroni, care vor provoca un rspuns distinct la o mulime dat de stimuli de intrare; exist o limitare a triei sinaptice dintre oricare doi neuroni;
52

exist un mecanism care permite competiia dintre neuroni, competiie ce are ca rezultat faptul c doar un neuron (sau un grup de neuroni) este declarat ctigtor, mecanismul permindu-i ctigtorului s devin activ, ceilali neuroni nvini devenind inactivi.

S explicitm n cele ce urmeaz modelul general matematic al nvrii competitive. n acest algoritm de nvare se consider c fiecrui neuron i se aloc o "cantitate fix" de trie sinaptic. Pe aceast baz, avem relaia normalizat:

w
i

ji

= 1, j = 1,2,...

(3.8)

Cnd un anumit neuron nva, nseamn c i va modifica starea, ncercnd s-i apropie vectorul triei sinaptice w ctre vectorul de intrare x. Atunci, conform cu legea de nvare competitiv standard avem relaia matematic:
(x w ji ), dac neuronul j este cstigtor w ji = i 0, dac neuronul j este nvins

(3.9)

III.2.4. nvare Boltzmann


Algoritmul de nvare Boltzmann are la baz o metod probabilistic derivat din teoria termodinamicii i din teoria informaional [97]. Vom prezenta n cele ce urmeaz elementele generale ale algoritmului de nvare Boltzmann. O reea neuronal Boltzmann este constituit dintr-o structur neuronal recurent, neuronii constitueni opernd ntr-o manier binar: fie sunt activi, starea lor fiind reprezentat prin valoarea +1, fie sunt inactivi, starea lor fiind reprezentat prin valoarea -1. Reeaua neuronal Boltzmann este caracterizat printr-o funcie energetic E, a crei valoare este determinat de starea particular a fiecrui neuron individual aparinnd reelei neuronale. Funcia energetic este definit astfel:
E= 1 w ji s j si 2 i j ,i j

(3.10)

unde si reprezint starea neuronului i, sj reprezint starea neuronului j, iar wji reprezint tria sinaptic dintre neuronii i i j. Relaia i j pune n eviden faptul c nici un neuron nu are conexiune ctre el nsui. Modul de operare al reelei neuronale Boltzmann: la un anumit pas din cadrul procesului de nvare se alege n mod aleator un neuron, fie acesta neuronul j, i se modific starea acestuia: sj - sj (3.11)

53

la o anumit "temperatur" T 1 ce caracterizeaz procesul de nvare, cu probabilitatea:


P sj sj =

1 1+ e
E j T

(3.12)

unde Ej reprezint modificarea energetic a reelei neuronale ca urmare a transformrii sj - sj. dac aceast regul se aplic repetat reeaua neuronal va atinge un punct de echilibru termic.

Reeaua neuronal Boltzmann este constituit din dou tipuri de neuroni: neuroni vizibili - reprezint neuronii care interfaeaz reeaua neuronal cu mediul nconjurtor n care opereaz; neuroni invizibili - care au un mod de operare liber.

Reeaua neuronal Boltzmann are dou moduri de operare: condiii impuse - toi neuronii vizibili sunt setai la o stare specific determinat de mediul nconjurtor; condiii libere - toi neuronii, vizibili i invizibili sunt lsai s opereze liber.

Vom nota cu:


c + corelaia condiional dintre strile neuronilor i i j, aflai n condiii impuse; ji c corelaia necondiional dintre strile neuronilor i i j, aflai n condiii ji

libere. Ambele corelaii c + i c sunt luate ca medii ale tuturor strilor posibile ale reelei ji ji neuronale, cnd aceasta se gsete n punctul de echilibru termic. Atunci putem s definim matematic:
+ c + = P s j si ji

(3.13)

c = P s j si ji

(3.14)

unde am notat:
si - starea neuronului i, dac neuronii vizibili se gsesc n starea i neuronii

invizibili se gsesc n starea ;


+ P - probabilitatea condiional ca neuronii vizibili s se gseasc n starea iar

toi neuronii invizibili n starea , dac reeaua neuronal este n modul de operare impus;
1

T nu reprezint temperatura fizic, ci un parametru ce caracterizeaz starea reelei neuronale.

54

P - probabilitatea condiional ca neuronii vizibili s se gseasc n starea

iar toi neuronii invizibili n starea , dac reeaua neuronal este n modul de operare liber. Atunci regula de nvare Boltzmann poate fi definit matematic astfel:

w ji = c + c , i j ji ji
parametrul R reprezint rata de nvare.

(3.15)

III.3. Paradigme de nvare


III.3.1. nvare supervizat
Modificarea triilor sinaptice este fcut pe baza comparaiei dintre vectorul de ieire y = ( y1 , y 2 ,..., y m ) , = 1,....,P obinut la stratul de ieire i vectorul int
z = ( z1 , z 2 ,..., z m ), = 1,..., P , ce reprezint rezultatul dorit a se obine la stratul de ieire, cnd la stratul de intrare s-a prezentat vectorul de intrare x = ( x0 , x1 ,..., xn ), = 1,..., P din mulimea de antrenament.

Vectorul int z este furnizat de un profesor (antrenor-supervizor), de unde i denumirea de nvare supervizat. nvarea supervizat presupune prezentarea de ctre un antrenor a unor perechi de date de forma (x , z ), = 1,..., P ce formeaz o mulime de date, numit mulime de antrenament:
T=

{( x

, z ) = 1,2,K, P

(3.16)

Diferena dintre rspunsul obinut y i rspunsul dorit z, reprezint eroarea i este folosit pentru a modifica triile sinaptice, pe baza unui algoritm specific, numit lege de nvare. Putem reprezenta nvarea supervizat cu ajutorul urmtoarei diagrame [93]:

55

Antrenor z Mediul nconjurtor y Reea neuronal

e
Fig. 3.2.: Diagrama nvrii supervizate.

Se observ din aceast diagrama echivalena paradigmei de nvare supervizat cu algoritmul de nvare bazat pe minimizarea funciei eroare [16].

III.3.2. nvare nesupervizat


n cadrul nvrii nesupervizate nu exist profesor (antrenor) [64]. Reeaua neuronal trebuie s fie n stare s descopere singur modele, trsturi, corelaii sau categorii n mulimea datelor de intrare i s le codifice sub forma unor date de ieire [176], [177]. Neuronii i conexiunile reelei neuronale trebuie s reprezinte un anumit grad de autoorganizare (self-organization). nvarea nesupervizat poate fi utilizat doar atunci cnd n mulimea datelor de intrare exist redundan. Fr redundan este imposibil de a descoperi vreun model (patern) sau trstur n mulimea datelor de intrare. Din acest punct de vedere redundana asigur cunoaterea [13]. n diagrama de mai jos este reprezentat paradigma nvrii nesupervizate:

Mediul nconjurtor

Reea neuronal

Fig. 3.3.: Diagrama nvrii nesupervizate.

n cadrul nvrii nesupervizate nu avem la dispoziie exemple ale funciei ce trebuie nvat de ctre reeaua neuronal. Mai degrab avem informaii despre o msur a calitii reprezentrii la care trebuie s ajung reeaua neuronal prin procesul de nvare, iar parametri acesteia vor fi optimizai n raport cu aceast msur. O dat ce procesul de nvare s-a terminat i reeaua neuronal a fost acordat la trsturile statistice ale datelor de intrare,
56

ea va fi capabil s formeze reprezentri interne care s codifice trsturile datelor de intrare i s creeze n mod automat noi clase. Pentru ca o reea neuronal s poat efectua o nvare nesupervizat putem utiliza un algoritm de nvare Hebbian sau un algoritm de nvare competitiv.

III.3.3. nvare ntrit (reinforcement)


nvarea ntrit poate fi definit ca fiind nvarea on-line a unei relaii de intrareieire (input-output) prin intermediul unui proces de ncercri i erori desemnate s maximizeze un index scalar de performan numit semnal de ntrire (reinforcement signal). Ideea de nvare ntrit are la origine [140] studiile psihologice efectuate asupra nvrii animalelor (dresaj). Definiia care pare a fi cea mai potrivit a fost dat de Sutton [189] i de Barto [14]: Def. 2.5: Dac n urma aciunii unei reele neuronale se obine o stare caracterizat ca fiind pozitiv, atunci tendina reelei neuronale de a produce acelai rezultat va crete sau va fi ntrit. Altfel, celelalte aciuni care au ca rezultat efecte negative vor descrete tendina reelei neuronale de a produce acel rezultat. Conform clasificrii lui Sutton [190] paradigma nvrii ntrite poate fi: nvare ntrit neasociativ - reeaua neuronal are rolul de a selecta o unic aciune optimal, n loc de a face asocierea diferitelor aciuni cu diferii stimuli; nvare ntrit asociativ - mediul nconjurtor pune la dispoziie informaii adiionale, altele dect semnalul de ntrire, prin care o relaie de forma stimul-aciune trebuie nvat.
ntrire primar Mediul nconjurtor

Critic
ntrire euristic Element de nvare

Aciuni

Baz de cunotine

Element de prelucrare Sistem de nvare

Fig. 3.4.: Diagrama nvrii ntrite. 57

n diagram, avem un element numit critic care are rolul de a transforma semnalele primare de ntrire, recepionate de la mediul nconjurtor, ntr-un semnal de calitate numit semnal euristic de ntrire. Ambele semnale de ntrire sunt codificate prin intermediul unor scalari reali. Sistemul de nvare este constituit din cele trei componente normale pentru orice sistem AI (Artificial Intelligence): elementul de nvare este responsabil de toate modificrile ce trebuie operate n baza de cunotine; elementul de prelucrare este responsabil de selectarea unor aciuni aleatoare pe baza unei distribuii, care la rndul ei este determinat de cunotinele stocate n baza de cunotine i de mediul nconjurtor de care aparine sistemul de nvare.

Pe baza stimulilor de intrare de la mediul nconjurtor i de la baza de cunotine, elementul de prelucrare va determina relaia: intrare distribuia relaiei aciunilor de ieire Sistemul descris mai sus este capabil s nvee i n condiii de ntrire temporal, adic, sistemul de nvare poate observa o secven temporal de stimuli de intrare care genereaz semnalul de ntrire euristic.

III.4. Natura statistic a procesului de nvare

III.4.1. Generaliti
S considerm un fenomen descris printr-un vector x Rn ce reprezint o mulime de variabile independente, i un scalar real2 z R ce reprezint o variabil dependent. Elementele vectorului x pot fi considerate ca avnd interpretri fizice diferite [162]. S presupunem de asemenea, c avem o mulime de N msurtori (observaii) ale variabilei x, i anume: x1, x2, x3, ..., xN i o mulime corespunztoare de scalari z, notat: z1, z2, z3, ..., zN (3.18) (3.17)

n mod obinuit, nu posedm informaiile necesare despre relaia exact dintre variabilele x i z. De aceea, vom nota aceast relaie astfel:

Pe baza unor observaii anterioare efectuate n Cap. II, am vzut c studiul unei reele neuronale cu m neuroni n stratul de ieire poate fi redus la studiul a m reele neuronale cu un unic neuron n stratul de ieire. De aceea, nu reducem deloc generalitatea cnd considerm c z R , n loc de z Rm.

58

z = f ( x) +

(3.19)

unde f este o funcie de variabila x, iar este eroarea reprezentat sub forma unei variabile aleatoare. Eroarea semnific eroarea pe care o facem n estimarea dependenei funcionale dintre variabilele x i z. Ecuaia (3.19) de mai sus este un model statistic [93], numit model regresiv, putnd fi reprezentat ca n figura de mai jos:

f(x)

Fig. 3.5: Modelul statistic regresiv corespunztor ecuaiei (3.19).

Conform cu [205], putem defini funcia f a modelului regresiv ca fiind:


f ( x ) = E[ z x ]

(3.20)

unde E este operatorul de medie statistic [67]. E[ z x ] reprezint media condiional [21], semnificnd faptul c vom obine, n medie, valoarea z, dac avem o realizare particular a lui x. n particular, dac relaia funcional dintre variabilele x i z este cunoscut cu exactitate, vom avea n modelul regresiv eroarea = 0, ceea ce este un caz ideal ce nu se prea ntlnete n practic. S analizm proprietile modelului regresiv: Fiind dat o realizare a variabilei aleatoare x, valoarea medie a erorii este nul, adic:
E[ x ] = 0

(3.21)

Eroarea este necorelat cu funcia f(x), adic:


E[ f ( x ) ] = 0

(3.22)

Ultima relaie este cunoscut n statistic sub numele de principiul ortogonalitii, semnificaia sa fiind faptul c toate informaiile noastre despre variabila aleatoare x au fost codificate n funcia de regresie f. De fapt, esena acestui model este de a prediciona pe z pe baza lui x. Prin modelul regresiv statistic am luat n considerare o interpretare pur matematic. S vedem cum se ncadreaz n aceast interpretare calculul neuronal. O reea neuronal reprezint de fapt un mecanism fizic pentru a implementa acest obiectiv: predicionarea lui z pe baza lui x. Acest lucru se realizeaz prin codificarea
59

informaiei coninut n mulimea de antrenament T = {(x i , z i ) i = 1,2, K, N} n triile sinaptice. Este evident interpretarea, din punct de vedere al calcului neuronal, dat celor dou mrimi x i z: x reprezint vectorul (stimulul) de intrare n reeaua neuronal, iar z reprezint valoarea int, dorit a se obine la stratul de ieire al reelei neuronale. S notm cu w vectorul triilor sinaptice a reelei neuronale, care va avea rolul de a aproxima modelul regresiv exprimat prin ecuaia (3.19) i reprezentat grafic n Fig. 3.5. Conform cu notaiile introduse n capitolul anterior, vom nota cu y valoarea de ieire generat de reeaua neuronal. Atunci, prin propagarea valorii de intrare x de la stratul de intrare ctre stratul de ieire, unde obinem valoarea y, putem scrie corespondena:

y = F ( x, w )

(3.23)

De asemenea, datorit faptului c mulimea de antrenament conine i vectori int, care sunt furnizai de un antrenor, este evident analogia cu paradigma nvrii supervizate. De aceea, modificarea vectorului triilor sinaptice se va face printr-un proces iterativ, ca rspuns la semnalul eroare:
e= zy

(3.24)

Dac ar fi s reprezentm grafic modelul regresiv (3.19), sub noua sa interpretare dat de calculul neuronal, am obine diagrama de mai jos:

y x F(x,w) e z

Fig. 3.6: Modelul corespunztor calculului neuronal.

Conform celor prezentate n III.3.1., modificarea vectorului triilor sinaptice, se face folosind un algoritm de nvare de tip corecie a erorii MSE (3.3) sau (3.4). Putem atunci scrie:
E( w ) = 1 1 1 2 2 E e 2 = E ( z y) = E ( z F( x, w ) ) 2 2 2

[ ]

(3.25)

Optimizarea reelei neuronale nseamn minimizarea funciei eroare. Pentru aceasta relaia (3.25) devine:

E( w ) =

1 2 E ( z f ( x ) + f ( x ) F( x, w ) ) = 2

60

1 2 E ( z f ( x ) ) + E ( z f ( x ) )( f ( x ) F( x, w ) ) + 2 1 1 1 2 2 2 + E ( f ( x ) F( x, w ) ) = E ( z f ( x ) ) + E ( f ( x ) F( x, w ) ) 2 2 2 =

[ [

] [

]
(3.26)

n ecuaia de mai sus s-au folosit urmtoarele relaii:

E ( z f ( x ) )( f ( x ) F( x, w ) ) = E ( f ( x ) F( x, w ) ) = = E[ f ( x ) ] E[ F( x, w )]
E[ F( x, w )] = 0

(3.27)

(3.28)

Deoarece primul termen al ecuaiei (3.26) depinde de vectorul triilor sinaptice w0, care este vectorul care minimizeaz funcia eroare E (w ) , rezult c acesta va minimiza de asemenea i integrala:

E ( f ( x ) F ( x, w ) )

]=

Rn

g( x )( f ( x ) F( x, w ) ) dx
2

(3.29)

unde g(x) reprezint funcia de densitate probabilistic a lui x. Putem concluziona c w0 este vectorul triilor sinaptice care are proprietatea c F(x, w0) este aproximarea MSE a funciei de medie condiional f ( x ) = E[ z x ] . Aceasta reprezint natura statistic a procesului de nvare, pus n eviden prin intermediul msurii performanei MSE. Din relaiile (3.20) i (3.26) obinem:
E( w )
2 1 E ( z E[ z x ]) 2

(3.30)

care ne arat c din toate funciile, modelul regresiv este cea mai bun estimare a rspunsului dorit (int) z, dac se cunoate vectorul de intrare x. Termenul de "cea mai bun" trebuie considerat n sensul optimizrii MSE. Msura (performanele) mediului nconjurtor sunt reprezentate prin intermediul funciei de densitate probabilistic g(x), avnd un rol determinant n determinarea vectorului triilor sinaptice optim w0. O reea neuronal optimizat (antrenat) n acest fel va genera, n medie, erori minime pentru valori ale vectorului de intrare x, care sunt cel mai probabil s fie prezentate reelei neuronale [58]. De aceea, o reea neuronal ce are vectorul triilor sinaptice w0 nu va avea performane asemntoare ntr-un alt mediu nconjurtor, caracterizat printr-o funcie de densitate probabilistic diferit de g(x).

61

III.4.2. Contradicia dintre varian i bias


Din paragraful anterior, am vzut c pe baza modelului regresiv, distana dintre funcia de aproximat f(x) i funcia aproximant F(x,w) - reeaua neuronal, poate fi definit astfel:

( f ( x) F( x, w) ) 2 = ( E[ z x] F( x, w) )

(3.31)

Deoarece avem disponibile informaiile int (dorite a se obine la stratul de ieire al reelei neuronale), am amintit deja despre necesitatea existenei n acest caz a unei paradigme de nvare supervizate. De aceea, avem dreptul s introducem noiunea i notaia de mulime de antrenament:
T = {(x i , z i ) i = 1,2, K, N}

(3.32)

Informaia coninut n mulimea de antrenament va fi transferat, pe baza procesului de minimizare a funciei eroare (3.26), triilor sinaptice w. n acest fel, funcia aproximant F(x,w) (adic reeaua neuronal) este evident dependent de mulimea de antrenament T. Pentru a pune clar n eviden aceast dependen vom nota funcia aproximant F(x,w) cu F(x,w,T). S notm operatorul de medie relativ la toate elementele mulimii de antrenament T, cu ET. Atunci distana dintre funcia de aproximat f ( x ) = E[ z x ] i funcia aproximant F(x,w,T), se poate scrie:

[ ]= E [( E[ z x ] E [ F( x, w, T ) ] + E [ F( x, w, T ) ] F( x, w, T ) ) ] = = ( E [ F( x, w, T ) ] E[ z x ]) + E [( F( x, w, T ) E [ F( x, w, T ) ]) ]
ET ( E[ z x ] F( x, w, T ) )
T T 2 2 T 2 2 T T T

(3.33)

S analizm relaia de mai sus. Observm ca distana dintre funcia de aproximat f ( x ) = E[ z x ] i funcia aproximant F(x,w,T) poate fi descris ca suma a doi termeni: primul termen: ET [ F( x, w, T ) ] E[ z x ] reprezint Bias-ul aproximantei F(x,w,T), msurat n raport cu funcia regresiv (de aproximat) f ( x ) = E[ z x ] .

media global ET ( F( x, w, T ) ET [ F( x, w, T ) ]) aproximante F(x,w,T).

reprezint variana funciei

Dac, funcia aproximant F(x,w,T) este, n medie, diferit de funcia de aproximat f ( x ) = E[ z x ] , atunci spunem c avem de-a face cu un aproximator Bias a lui f(x). Pe de alt parte, dac avem:
62

E T [ F ( x , w, T ) ] = f ( x )

(3.34)

atunci spunem c avem un aproximator fr Bias a lui f(x). O aproximant F(x,w,T) fr Bias a lui f(x) poate avea totui o eroare MSE mare, dac variana aproximantei F(x,w,T) este mare. De aceea cele mai bune rezultate le putem obine atunci cnd aproximanta F(x,w,T) (adic reeaua neuronal) are att Biasul, ct i variana mic. Din pcate, n aplicaiile practice, deoarece dimensionalitatea mulimii de antrenament este finit, obinem un Bias mic cu preul unei variane mari. Doar n situaii teoretice, cnd avem de-a face cu mulimi de antrenament infinit dimensionale, putem spera la un Bias i la o varian mic. Astfel, suntem pui n faa unei "contradicii", a crei efect l reprezint o slab convergen a procesului de nvare. Cum putem totui face fa acestei "contradicii" bias / varian ? Soluia poate fi introducerea voluntar a bias-ului, ceea ce va avea ca efect reducerea varianei. Evident trebuie s facem n aa fel nct introducerea bias-ului s nu "duneze" reelei neuronale care are rolul de funcie aproximant. Pentru aceasta, trebuie s subliniem c bias-ul nu este "duntor" doar dac contribuia sa la eroarea MSE este semnificativ doar n acele regiuni care nu aparin clasei anticipate. Aceasta va presupune ns includerea bias-ului n nsi arhitectura reelei neuronale, adic constrngerea arhitecturii reelei neuronale. Aceast soluie va fi de fapt i strategia noastr ulterioar, n tentativa de a construi reele neuronale cu performane deosebite din punct de vedere a teoriei aproximrii.

III.4.3. Modelul general al procesului de nvare

Din studiul statistic al procesului de nvare am vzut echivalena problemei aproximrii unei funcii descrise cu ajutorul unei mulimi de antrenament T = {( x i , z i ) i = 1,2,K, N} cu procesul de nvare al unei reele neuronale pe baza aceleai mulimi de antrenament T = {( x i , z i ) i = 1,2,K, N} . De asemenea, modelele de aproximare prezentate corespundeau paradigmei de nvare supervizat. Conform cu [198], un model de nvare supervizat are trei componente reprezentabile astfel:

63

Mediul nconjurtor X descris de distribuia P(x)

x1,x2,...,xN

Antrenor (Profesor)

T = {( x i , z i ) i = 1,2, K , N }

Reea neuronal: wW

F(x,w) z
Fig. 3.7: Modelul Vapnik al nvrii supervizate.

Cele trei componente sunt: Mediul nconjurtor X - care transmite stimulul x X, generat de o distribuie probabilistic oarecare fixat P(x); Antrenorul - care furnizeaz rspunsurile int z3, ce se doresc a se obine la ieirea reelei neuronale, pentru orice vector de intrare x, n concordan cu distribuia probabilistic fix P( z x ) . Vectorii x i z sunt legai prin relaie funcional necunoscut f:

z = f ( x)

(3.35)

Reeaua neuronal F(x, w) - este capabil s implementeze relaia funcional dintre x i z, descris prin relaia:

y = F ( x, w )

(3.36)

z, furnizat de antrenor. Selecia funciei F(x,w) se bazeaz deci, pe cele N elemente ale mulimii de antrenament T, care sunt independent i identic distribuite. Problema nvrii: Problema fundamental a nvrii supervizate este dac mulimea de antrenament T = {( x i , z i ) i = 1,2,K, N} conine suficiente informaii pentru a putea construi o funcie aproximant F(x, w), deci o reea neuronal, capabil s nvee ct mai bine datele de antrenament i n plus s aib capacitatea de generalizare.

Problema nvrii const n selectarea, pe baza unei mulimi de antrenament T = {( x i , z i ) i = 1,2,K, N} cunoscut a priori, a funciei F(x,w) ce aproximeaz vectorul int

Revenim la cazul general cnd vectorul int z este considerat un vector z Rm i nu un scalar.

64

Proprietatea de generalizare reprezint capabilitatea unei reele neuronale de a rspunde la date de intrare ce nu au fcut parte din mulimea de antrenament. Este evident faptul c scopul nvrii unei reele neuronale trebuie s fie obinerea unei bune capaciti de generalizare. Generalizarea poate fi privit, dac considerm reeaua neuronal ca o aplicaie ntre spaiul datelor de intrare i spaiul datelor de ieire (obinute la stratul de ieire), ca fiind abilitatea de interpolare a aplicaiei respective [186]. S presupunem c dup ce o reea neuronal a efectuat faza de nvare, dorim s extragem o lege care s defineasc comportamentul ei. Vom reprezenta schematic modul de extragere a unei legi n Fig.3.8.

X T

R G

Fig.3.8.: Reprezentarea schematic a modului de extragere a unei legi (dup [40]).

S explicm schema din figura de mai sus. X reprezint spaiul tuturor datelor de intrare, perechi de forma (vectori de intrare, vectori int), date ce sunt consistente cu o anumit lege R. n procesul de nvare, o submulime a legii R, notat T, i care reprezint mulimea de antrenament, este folosit pentru a nva o reea neuronal. Dup ce procesul de nvare s-a terminat, testm capacitatea de generalizare a reelei, cu ajutorul unei submulimi G R, disjunct de T. Putem deci concluziona c performanele reelei neuronale, relative la submulimea T R, reprezint capacitatea de memorare a reelei, iar performanele relative la submulimea G R, reprezint capacitatea de generalizare a reelei neuronale. De obicei T i G sunt alese aleator din mulimea R, ambele fiind generate de aceeai lege de distribuie. De fapt, n procesul de nvare, reeaua neuronal nva doar elementele submulimii T, fr a ti nimic despre G i R. De aceea, este natural ca aceast reea neuronal, s fie capabil de a generaliza orice mulime de date de intrare care este consistent cu T. Acest lucru este reprezentat n Fig.3.9.

65

U
G1

G2
T G3

Fig.3.9: Reprezentarea schematic a capacitii de generalizare a unei reele neuronale (dup [40]).

Problema generalizrii poate fi ngreunat dac saturm procesul de nvare a reelei neuronale printr-un numr prea mare de date de antrenament. n aceast situaie capacitatea de generalizare a reelei neuronale este slab. Ca un exemplu, n Fig.3.10. se prezint problema generalizrii datorit suprasaturrii procesului de nvare, privit prin prisma interpolrii datelor de antrenament.

(a)

(b)

Fig.3.10. :Reprezentarea schematic a problemei generalizrii, unde avem: - date de antrenament; - date pentru generalizare; (a) nvare reuit, generalizare bun; (b) nvare saturat, generalizare slab.

Aceste elemente referitoare la capacitatea de generalizare a reelei neuronale, sugereaz posibilitatea de a cuantifica estimativ capacitatea reelei neuronale de a generaliza, n funcie de arhitectura sa i de dimensiunea mulimii de antrenament. Pentru aceasta, vom selecta din numeroasele posibiliti de cuantificare a generalizrii, urmtoarele [96]: Numrul mediu de posibiliti de generalizare n raport cu o mulime de antrenament. Probabilitatea ca reeaua neuronal antrenat s genereze, n medie, rspunsuri corecte pentru date de intrare alese aleator din spaiul datelor de intrare. Probabilitatea ca reeaua neuronal antrenat s genereze, n medie, rspunsuri incorecte pentru date de intrare alese aleator din spaiul datelor de intrare.
66

Rspunsul la Problema nvrii poate fi obinut dac privim aceast problem prin prisma teoriei aproximrii, adic studiem nvarea unei reele neuronale ca o problem de aproximare: s gsim funcia F(x,w) care aproximeaz cel mai bine funcia dorit f(x) [196] . S notm cu d eroarea dintre vectorul int z, ce se dorete a se obine pentru vectorul de intrare x, i rspunsul generat de reeaua neuronal, exprimat prin funcia aproximant F(x,w). Definim aceast eroare cu ajutorul distanei Euclidiene:
d ( z; F( x, w ) ) = z F( x, w )
2

(3.37)

Vom defini funcionala risc [196] ca fiind media erorii definite mai sus: R( w ) = d ( z; F( x, w ) )dP( x, z) (3.38)

Integrala de mai sus este considerat n sens Riemann-Stieljes, iar P(x,z) reprezint distribuia probabilistic a vectorului de intrare x i a vectorului int z. n noua formulare, Problema nvrii devine Problema minimizrii: Problema minimizrii: S se minimizeze funcionala risc (3.38) n raport cu clasa de funcii aproximante F(x,w), cnd w W. Problema minimizrii este complicat [93] datorit faptului c distribuia probabilistic P(x,z) este necunoscut, dup cum se vede i din relaia de mai jos:

P(x, z) = P(z, x)P( x)

(3.39)

Singura informaie disponibil este cea coninut n mulimea de antrenament T = {( x i , z i ) i = 1,2,K, N} . De aceea, vom face apel la principiul inductiv al minimizrii riscului empiric dezvoltat de Vapnik [197]. Ideea fundamental a principiul inductiv al minimizrii riscului empiric este de a utiliza un set independent de date de antrenament T = {( x i , z i ) i = 1,2,K, N} pentru funcia aproximant F(x,w), cu scopul de a defini funcionala risc empiric:
1 N d (z i ; F(x i , w)) N i =1

Remp ( w ) =

(3.40)

Funcionala risc empiric nu mai este n acest moment dependent de distribuia probabilistic P(x,z). Teoretic, la fel ca i funcionala risc R(w) (3.38), funcionala risc empiric Remp(w) (3.40) poate fi minimizat n raport cu parametrul w, care corespunde triilor sinaptice ale reelei neuronale. S facem notaiile: wemp - vectorul triilor sinaptice care minimizeaz funcionala risc empiric Remp(w);
67

F(x,wemp) - funcia aproximant (reeaua neuronal) corespunztoare lui wemp; w0 - vectorul triilor sinaptice care minimizeaz funcionala risc R(w); F(x,w0) - funcia aproximant (reeaua neuronal) corespunztoare lui w0. Problema nvrii, respectiv problema minimizrii devine n aceast abordare: n ce condiii funcia aproximant F(x,wemp) este "suficient de aproape" de aproximant dorit F(x,w0) ? Condiia de apropiere va fi msurat prin diferena dintre riscul empiric Remp(w) i riscul R(w). Pentru orice valoare fixat w* a vectorului triilor sinaptice, funcionala risc R(w*) determin media urmtoarei variabile aleatoare:
Aw = d z; F( x, w )

(3.41)

dimensionalitatea mulimii de antrenament T = {( x i , z i ) i = 1,2,K, N} tinde la infinit, atunci media aritmetic a variabilei aleatoare Aw va converge ctre media sa. Aceast remarc ne d dreptul, din punct de vedere teoretic, s utilizm n locul funcionalei risc R(w), funcionala risc empiric Remp(w). Dar nu trebuie s ne ateptm ca vectorul triilor sinaptice ce minimizeaz funcionala risc empiric Remp(w) s minimizeze de asemenea i funcionala risc R(w). Pentru aceasta vom aplica principiul minimizrii riscului empiric [197] , formulat astfel: n locul funcionalei risc R(w) vom construi funcionala risc empiric Remp(w) conform formulei (3.40), utiliznd mulimea dat de antrenament T = {( x i , z i ) i = 1,2,K, N} ; fie wemp vectorul triilor sinaptice care minimizeaz funcionala risc R(w) relativ la spaiul triilor sinaptice W. Dac dimensionalitatea N a mulimii de antrenament tinde la infinit i dac funcionala risc empiric Remp(w) va converge uniform ctre funcionala risc R(w), atunci funcionala risc empiric Remp(w) va converge n probabilitate ctre cea mai mic valoare posibil a funcionalei risc R(w), w W. Uniform convergena se definete astfel:

Pe de alt parte, funcionala risc empiric Remp(w*) reprezint media aritmetic a variabilei aleatoare Aw . Pe baza unor elemente clasice de teoria probabilitilor, dac

Prob sup R( w ) Remp ( w ) > 0, dac N wW

(3.42)

Ultima relaie reprezint condiia necesar i suficient pentru valabilitatea principiul minimizrii riscului empiric.

68

III.4.4. Capacitatea de generalizare


Vom urma o idee prezentat n [96], pentru a studia prin prisma acestor elemente, capacitatea de generalizare a unei reele neuronale. Fie o mulime de reele neuronale cu o arhitectur dat fixat, specificat prin numrul de straturi, numrul de neuroni din fiecare strat, conexiuni sinaptice, funcii de activare. Fiecrei reele neuronale i corespunde o mulime de trii sinaptice, pe care o vom nota w. O mulime de trii sinaptice w poate fi interpretat ca un punct n spaiul triilor sinaptice posibile, spaiu pe care-l vom numi tot spaiul triilor sinaptice W. Cnd vom considera media n raport cu mulimea reelelor neuronale, ea va reprezenta media n raport cu spaiul triilor sinaptice, medie calculat n raport cu o densitate probabilistic a priori, notat (w). Putem defini volumul disponibil V0 al spaiului triilor sinaptice: V0 = dw( w) (3.43)

Orice punct w din spaiul triilor sinaptice, reprezint o reea neuronal ce implementeaz funcia F(x,w), funcie corespunztoare valorilor generate de neuronii din stratul de ieire, cnd la stratul de intrare se prezint vectorul de intrare x. Astfel, spaiul triilor sinaptice este partiionat ntr-o mulime de submulimi disjuncte, cte una pentru fiecare funcie f(x), pe care mulimea de reele neuronale o poate implementa. Volumul subspaiului care implementeaz o funcie particular f este: V0 ( f ) = dw ( w) f ( w)
1, F( x,w ) = f ( x ), () x X f (w) = 0, altfel

(3.44)

unde:

(3.45)

Fracia din spaiul triilor sinaptice, care implementeaz o funcie dat f, sau probabilitatea de a obine funcia f, cnd alegem trii sinaptice aleatoare, conform distribuiei (w) este:
R0 ( f ) = V0 ( f ) V0

(3.46)

nsumnd n raport cu mulimea tuturor funciilor, putem defini entropia informaional:


S 0 = R0 ( f ) log 2 R0 ( f )
f

(3.47)

69

S0 reprezint diversitatea funcional a arhitecturii reelelor neuronale. Dac S0 are o valoare mare, avem nevoie de mai mult informaie pentru a specifica o funcie particular. n cazul n care avem K funcii posibile, de volum egal V0(f), obinem:
1 , dac f celor K functii de volum egal V0 ( f ) = K 0, altfel

(3.48)

Atunci obinem: S 0 = log 2 K sau 2 S0 = K

(3.49)

S considerm o paradigm de nvare supervizat, n care se prezint perechi de date ( x i , z i ) , ce corespund unei aplicaii int:
z i = f ( x i ), i = 1, K, N

(3.50)

Presupunnd c reeaua neuronal a nvat cu succes (funcia eroare converge ctre zero), punctul w ce corespunde acestei reele neuronal, va fi localizat ntr-un subspaiu al triilor sinaptice ce este compatibil cu datele de antrenament ( x i , z i ) . Presupunnd c mulimea de antrenament conine N perechi de date ( x i , z i ) , atunci volumul subspaiului rmas este:
VN = dw( w ) I ( F, x i )
i =1 N

(3.51)

unde:

1, F( x i , w ) = f ( x i ) I ( F, x i ) = altfel 0,

(3.52)

VN va conine subspaiul corespunztor funciei int f , mpreun cu alte subspaii corespunztoare altor funcii ce coincid cu f pe mulimea datelor de antrenament. Evident, cu ct N este mai mare, mulimea funciilor ce coincid cu f pe mulimea datelor de antrenament este mai mic. De aici rezult c procesul de nvare poate fi privit ca un proces de reducere continu a spaiului admisibil al triilor sinaptice, adic:

V0 V1 V2 ... VN

(3.53)

Partea din spaiul triilor sinaptice ce corespunde unei funcii particulare f, se modific dup nvarea a N exemple, de la R0(f) (3.46) la:
RN ( f ) = VN ( f ) VN

(3.54)

VN(f) reprezint volumul spaiului triilor sinaptice consistent att cu funcia f, ct i cu exemplele de nvat ( x i , z i ) . Avem:

70

VN ( f ) = dw ( w ) f ( w ) I ( F, x i ) = V0 ( f ) I ( F, x i )
i =1 i =1

(3.55)

Entropia corespunztoare este:

S N = RP ( f ) log 2 RN ( f )
f

(3.56)

SN reprezint o msur a numrului de funcii implementabile, ce sunt compatibile cu mulimea de antrenament. SN - SN-1 reprezint cantitatea de informaie obinut prin nvarea datei xN. Dac nvarea s-a desfurat cu succes, obinem: SN = S0 - N (3.57)

n acest fel putem s ne gndim la o limit a numrului necesar de date de antrenament pentru a nva o aplicaie particular f sau putem s ne gndim la estimarea eficienei procesului de nvare [40]. Utilizarea factorului I ( f , x i ) n relaia (3.55) introduce o discriminare puternic ntre triile sinaptice consistente sau inconsistente cu data de antrenament xi. De aceea, mai ales atunci cnd mulimea valorilor de ieire este o submulime a lui R (mulimea numerelor reale - ceea ce nseamn c avem o funcie de activare liniar sau sigmoidal sau tangenta hiprbolic), trebuie s relaxm aceast discriminare. Acest lucru se poate face nlocuind factorul I ( f , x i ) cu un factor neted, i anume

e , unde reprezint parametrul ce controleaz descreterea funciei exponeniale de mai sus de la valoarea 1, unde nu exist eroare, la valoarea 0, unde exist erori mari, iar reprezint eroarea generat la stratul de ieire de data de antrenament xi.
S presupunem c avem o mulime de antrenament x1, x2,..., xN aleas aleator cu ajutorul unei distribuii P(x), fiecare xi, i=1,,N fiind independent. Atunci, fiecare factor I ( f , x i ) este independent de ceilali, ceea ce ne permite s considerm o medie n raport cu mulimea tuturor datelor de antrenament. Vom folosi pentru aceast medie notaia <>, obinnd:
VN ( f ) = V0 ( f )

I( f , x )
=1 i

= V0 ( f ) g N ( f )

(3.58)

Media este relativ la x1, x2,..., xN , cu triile sinaptice corespunztoare P(xi), i avem:
g( f ) = I ( f , x ) = Prob( f ( x ) = f ( x ))

(3.59)

reprezentnd: probabilitatea ca o funcie particular f s fie egal cu funcia int f n punctul x, punct ales aleator de distribuia P(x);
71

g(f) se numete abilitatea de generalizare a lui f, specificnd de fapt ct de mult f se apropie de f . g(f) [0,1] fiind independent de mulimea de antrenament.

S notm cu PN(f) probabilitatea ca o funcie f s implementeze, dup nvarea a N exemple de antrenament, funcia int f . Atunci:
PN ( f ) = V (f) VN ( f ) P VN VP

(3.60)

Aproximarea de mai sus se bazeaz pe ipotez c VN nu variaz mult n raport cu o mulime de antrenament, deci VN VN pentru orice mulime de antrenament. Cu ajutorul formulei (3.60) putem calcula distribuia abilitii de generalizare n raport cu toate funciile posibile f:
N ( g) PN ( f ) ( g g( f )) VN ( f ) ( g g( f )) =
f f

= g N V0 ( f ) ( g g( f )) g N 0 ( g)
f

(3.61)

Prin normalizare obinem:


N ( g) = g N 0 ( g)

(g

* N

) 0 ( g * ) dg *

(3.62)

Deoarece distribuia iniial 0 ( g) = V01 V0 ( f ) ( g g( f )) depinde doar de


f

arhitectura reelei neuronale i de restricia a priori ncorporat n (w), rezult din (3.62) urmtorul rezultat remarcabil: Putem calcula distribuia P(w) dup N exemple de antrenament, dac cunoatem distribuia abilitii de generalizare, nainte de faza de nvare. Putem s considerm i valoarea medie a abilitii de generalizare:
G( N ) = g N
0 1

g ( g)dg = g
0 1 0

N +1 N

0 ( g)dg

0 ( g)dg

(3.63)

Reprezentnd grafic G(N) n raport cu N-numrul de date de antrenament, obinem curba de nvare. G(N) poate fi folosit pentru a determina N n scopul nvrii reelei neuronale la un nivel corespunztor de performan. Comportamentul asimptotic a lui N(g) i deci i a lui G(N), cnd N , este determinat de forma distribuiei iniiale 0(g) n jurul punctului g = 1. Avem dou posibiliti:
72

Exist o tranziie abrupt de lungime ntre g = 1 i urmtoarea valoare g = g0, pentru care 0(g0). Atunci avem:
1 G( N ) e
N

(3.64)

Dac nu exist tranziii abrupte la 0(g), atunci avem:


1 G( N ) 1 N

(3.65)

Aceste rezultate deosebite prezentate n acest paragraf au o mare importan teoretic: Putem calcula media probabilistic a abilitii de generalizare corect, cnd reeaua neuronal a fost antrenat utiliznd o mulime de antrenament cu N elemente, dac cunoatem n principiu o funcie ce poate fi calculat nainte de nceperea fazei de antrenare. Practic ns e dificil s exploatm aceste rezultate, deoarece un calcul analitic al distribuiei a priori 0(g) este posibil doar pentru probleme simple. De asemenea, utilizarea abilitii de generalizare medie, n raport cu subspaiile spaiului triilor sinaptice, consistente cu mulimea de antrenament, nu este foarte potrivit, deoarece n practic legea de nvare poate favoriza unele subspaii n raport cu altele. n fond, o procedur de nvare reprezint un drum n spaiul triilor sinaptice, drum ce reprezint ajustarea gradual a triilor sinaptice cu scopul minimizrii funciei eroare i nu o alegere aleatoare a triilor sinaptice restricionate de mulimea de antrenament. Densitatea probabilistic iniial (w) ncorporeaz ntr-un fel acest efect, dar nu n totalitate. De aceea, vom ncerca s studiem abilitatea de generalizare n cel mai ru caz i nu n cel mediu. Pentru a simplifica analiza noastr, vom considera problema clasificrii binare, care corespunde unei reele neuronale ce are n stratul de ieire un singur neuron cu funcie de activare sgn(x). Ne intereseaz g(f) pentru funcia f pe care o implementeaz reeaua neuronal, pentru a ti ct de bine aproximeaz funcia f, funcia int f . S considerm o mulime de antrenament, constituit din P perechi de puncte ( x i , z i ) , i = 1,,N, cu z i = f ( x i ), i = 1, K, N . Fie g N ( F ) numrul de mulimi de antrenament, de dimensionalitate N, corect clasificate de funcia F(,w), implementat de reeaua neuronal. Scopul legii de nvare este de a ajusta triile sinaptice, astfel nct s maximizm g N ( F ) , adic g N ( F ) = 1, n condiiile unei nvri perfecte. Diferena dintre g(f) i g N ( f ) este datorat faptului c g(f) reprezint ct de bine aproximeaz funcia f funcia int f , n timp ce g N ( f ) reprezint ct de bine aproximeaz funcia f funcia int f , ca o medie relativ la o mulime de antrenament cu N elemente. Cu alte cuvinte g N ( f ) reprezint o aproximant a lui g(f) , n condiii ideale:
73

g N ( f ) g ( f ),

(3.66)

n practic ns, avem relaia:

g N ( F ) > g( f )
pentru funcia F(,w) obinut ca urmare a procesului de nvare.

(3.67)

Dac ns vom considera o funcie arbitrar f din mulimea funciilor pe care reeaua neuronal le poate implementa i o funcie F(,w) asociat mulimii de antrenament, vom fi n stare s estimm ct de proast poat fi aproximarea funciei int f de ctre f, n cel mai ru caz. Cum acest cel mai ru caz este aplicabil oricrei funcii f implementabile de reeaua neuronal, obinem rezultatul:
Prob(max g N ( f ) g( f ) > ) 4 m(2 N ) e
2 N 8

(3.68)

unde m(N) este o funcie ce depinde de dimensionalitatea N a mulimii de antrenament, fiind numit funcie de cretere i reprezint numrul maxim de funcii diferite (binare n cazul nostru) care pot fi implementate de reeaua neuronal pe baza unei mulimi de antrenament cu N elemente. Foarte importanta relaie (3.68) a fost obinut de Vapnik i Chervonenkis [196]. Membrul stng al relaiei de mai sus reprezint probabilitatea ca cea mai slab aproximare s depeasc o limit , pentru orice funcie implementabil de ctre reeaua neuronal. Dac de exemplu = 0.01, vom ti cu probabilitatea de 99% c g N ( f ) i g(f) sunt la distana de cel mult una de alta, pentru orice funcie f implementabil de reeaua neuronal. Dac procesul de nvare s-a desfurat cu succes, obinnd un rezultat perfect, adic g N ( F ) = 1, atunci vom ti cu o probabilitate foarte mare c:

g( f w ) > 1 -

(3.69)

Dac funcia de activare este funcia sgn(x) sau funcia treapt, avem un numr total de 2N funcii binare diferite, deci, n general: m(N) 2N (3.70)

Limitrile funciei de cretere pot fi generate i de arhitectura reelei neuronale. De exemplu dac triile sinaptice pot lua valori doar ntr-o mulime de valori cu k valori distincte, atunci: m(N) k|w| unde |w| reprezint numrul total de conexiuni sinaptice ale reelei neuronale. Vapnik i Chervonenkis au demonstrat c forma funciei de cretere este ntotdeauna ca cea din Fig.3.11.
74

(3.71)

log 2m

P
d VC
Fig.3.11.: Graficul funciei de cretere m(N) (Conform [196]).

Astfel m(N) = 2N pentru N dVC i m(N) constant pentru N > dVC. Punctul dVC se numete dimensiunea Vapnik-Chervonenkis, sau mai simplu dimensiunea VC. n situaia cnd dimensiunea VC este finit, ea verific inegalitatea:
m( N ) N dVC + 1

(3.72)

75

IV. Perceptroni
IV.1. Perceptronul simplu
Perceptronul simplu reprezint unul din primele modele de calcul neuronal construite, fiind de departe cea mai studiat i analizat reea neuronal. De aceea, interesul de a studia perceptronul simplu nu este numai de factur istoric ci i tiinific, proprietile sale putnd fi regsite la orice reea neuronal. Perceptronul simplu nv cu ajutorul unei legi de nvare supervizate. Arhitectura perceptronului simplu const din stratul de intrare i stratul de ieire, neexistnd straturi ascunse. Vom studia diferite tipuri de perceptroni simpli, legea de nvare, capacitatea de generalizare i capacitatea de stocare a informaiilor. Vom folosi n cele ce urmeaz notaia prescurtat PS pentru perceptronul simplu.

IV.1.1. Modul de operare al PS


n Fig. 4.1. avem un exemplu de PS, cu n neuroni n stratul de intrare (eventual n + 1 dac termenul Bias este explicit reprezentat, vezi Obs.2.1) i m neuroni n stratul de ieire.

Bias x0

x1 x2 xi xn

y1 yj ym

Fig. 4.1.: PS cu n neuroni (+1 termen Bias - opional) i m neuroni n stratul de ieire.

Modul de operare al PS: Integrare: I j = w ji x i , j = 1,..., m


i=0 n

(4.1)

Activare: y j = f ( w ji x i ), j = 1,..., m
i=0

(4.2)

76

Legea de nvare supervizat a PS:

Faza de nvare const din prezentarea PS a unor (x , z ), = 1, K, P dintr-o mulime de antrenament cu P elemente.

perechi

de

date

x = ( x 0 , x1 ,..., x n ), = 1,..., P , reprezint mulimea vectorilor de intrare; z = ( z1 , z 2 ,..., z m ), = 1,..., P reprezint mulimea vectorilor int; y = ( y1 , y 2 ,..., y m ), = 1,..., P reprezint mulimea vectorilor de ieire care se obin la stratul de ieire, ca rezultat la prezentarea vectorului de intrare x , = 1,..., P la stratul de intrare.

Scopul fazei de nvare este minimizarea diferenelor:


y z , j = 1,..., m, = 1,..., P j j

(4.3)

nvarea optim reprezentnd urmtoarea relaie:


y = z , j = 1,..., m, = 1,..., P sau j j

(4.4) (4.5)

z = f ( w ji x i ), j = 1,..., m, = 1,..., P j
i=0

IV.1.2. PS cu funcie de activare f(x) = sgn(x)


Vom considera la nceput cel mai simplu caz, cel al perceptronului deterministic, cu funcia de activare f(x)=sgn(x), cu mulimea de valori pentru vectorii de intrare i vectorii int {-1,+1}. n scriere vectorial relaia (4.5) devine:
z = sgn( w x ), = 1,..., P

(4.6)

Interpretarea acestei relaii: Procesul de nvare trebuie s determine mulimea triilor sinaptice w n aa fel nct orice vector de intrare x s aib proiecia pe vectorul triilor sinaptice w de semn egal cu vectorul int z . Frontiera dintre regiunile spaiului n +1 dimensional (sau n dimensional dac nu explicitm termenul Bias), pentru care vectorul de intrare x are proiecie negativ sau pozitiv pe vectorul w, este un hiperplan de ecuaie:
wx = 0

(4.7)

Acest hiperplan trece prin originea sistemului de axe i este perpendicular pe vectorul triilor sinaptice w. Condiia ca PS s nvee corect este ca hiperplanul (4.7) s divid vectorii de intrare x n dou clase corespunznd la vectori int z = 1 sau z = +1 .

77

IV.1.2.1. Liniar separabilitatea Din cele menionate mai nainte, rezult c PS poate nva cu succes o anumit problem dac aceasta este liniar separabil, adic dac exist un hiperplan n spaiul datelor de intrare care s separe vectorii (punctele de intrare) x dup criteriul: x Semiplan1 z = 1 x Semiplan2 z = +1 Un astfel de hiperplan trebuie gsit pentru fiecare neuron de ieire. n caz contrar problema este nerezolvabil cu ajutorul PS. n scriere vectorial relaia (4.2) poate fi rescris astfel:

y = sgn( w x w 0 )

(4.8)

Condiia ca PS s poat nva problema formulat cu mulimea datelor de antrenament (x , z ), = 1, K , P este ca n spaiul n-dimensional al datelor de intrare ( x1 , x 2 ,..., x n ) regiunile corespunztoare valorilor z = +1 i z = 1 s fie separate de un hiperplan n-1 dimensional, de ecuaie:

w x = w0

(4.9)

Exemplul 4.1. S considerm problema AND (I LOGIC), dat prin tabela de adevr: x1 0 0 1 1 x2 0 1 0 1 z -1 -1 -1 +1

n Fig. 4.2. avem reprezentarea geometric a problemei AND i un exemplu de PS care o rezolv. Dac considerm din nou aceeai problem AND, reprezentnd implicit termenul Bias, obinem reprezentarea geometric din Fig.4.3.
(a) x2
(1,1)

(b)

y1

(0,1)

w 1.5 1 x1 x0=-1 x1

(0,0)

(1,0)

x2

Fig. 4.2: (a) Reprezentarea geometric a problemei AND, soluia fiind dat de hiperplanul (dreapta) ce separ punctele de intrare n planul ( x1 , x 2 ) ; (b) Un exemplu de PS ce implementeaz funcia AND. 78

x2

x3

x1
Fig 4.3.: Reprezentarea geometric a problemei AND, termenul Bias fiind reprezentat explicit, ca o nou dimensiune a spaiului de intrare. Vectorul triilor sinaptice w = (1.5, 1, 1) este perpendicular pe planul ce separ punctele de intrare i trece prin origine.

Exemplul 4.2.: S considerm problema XOR (SAU EXCLUSIV), dat prin tabela de adevr: x1 0 0 1 1 x2 0 1 0 1 z -1 +1 +1 -1

Aplicnd relaia (4.10) pentru problema XOR, obinem sistemul: w1 + w2 w0 < 0 w w w < 0 1 2 0 w1 w2 w0 > 0 w1 + w2 w0 > 0 Combinnd inecuaiile 1 i 4 obinem w1 < 0 , iar din inecuaiile 2 i 3 obinem w1 > 0 , ceea ce evident este imposibil. n Fig. 4.4. se observ c nu putem duce un hiperplan (dreapt) care s separe punctele (vectorii) de intrare corespunztoare vectorilor int z = +1 i z = 1 . Problema XOR este un exemplu clasic de problem care nu este liniar separabil, lucru pus n eviden de Minsky i Papert n [145], deci nu poate fi implementat cu un PS, indiferent ce fel de lege de nvare folosim.

79

x2

(0,1)

(1,1)

x1
(0,0) (1,0)
Fig.4.4.: Reprezentarea geometric a problemei XOR.

IV.1.2.2. Legea de nvare

Vom considera n cele ce urmeaz probleme liniar separabile, ncercnd s construim un algoritm de determinare a triilor sinaptice. Cea mai simpl alegere este bazat pe legea lui Hebb [94] care specific faptul c o legtur sinaptic este ntrit atunci cnd att semnalul pre-sinaptic, ct i post-sinaptic sunt mari. Conform acestei legi vom considera o modificare a triilor sinaptice proporional cu produsul dintre valoarea pre-sinaptic i post-sinaptic, adic n cazul nostru:
w jk = w jk + w jk , j = 1, K, m, k = 0, K, n

(4.10) (4.11)

2 z x k , z y j j j w jk = , j = 1, K, m, k = 0, K, n altfel 0,

sau:
w jk = ( z y ) x k , j = 1, K, m, k = 0, K, n j j

(4.12)

R se numete rata de nvare, controlnd mrimea ajustrii sinaptice. De obicei se consider ( 0,1) .

IV.1.2.3. Convergena legii de nvare Vom presupune c avem de-a face cu o problem rezolvabil, adic liniar separabil, pentru care exist un PS care s o implementeze. Vom demonstra c legea de nvare (4.12) va genera soluia corect, adic va determina vectorul w al triilor sinaptice, ntr-un numr finit de pai. Demonstraia se bazeaz pe ideile cuprinse n [6].

80

Demonstraie: Fiecare pas al procesului de nvare comport prezentarea unui vector de intrare u , triile sinaptice fiind modificate conform relaiei (4.12). Uneori putem avea wik = 0 , cnd relaia (4.4) este satisfcut. Fie M numrul care exprim de cte ori vectorul x a generat modificri ale triilor sinaptice, adic w 0 n cadrul procesului de nvare. Atunci folosind o scriere matricial avem: W = M u (4.13)

presupunnd c la Pasul 0 am avut toate triile sinaptice iniializate cu zero. Fie M = M numrul total al pailor efectuai n cadrul procesului de nvare i

1 D(w ) = min w x [96]. w

Avem:
w w = M u w M min u w = M D(w ) | w |

(4.14)

S calculm variaia triei sinaptice, la prezentarea unui singur vector de intrare u :


| w | 2 = (w + u ) 2 w 2 = 2 (u ) 2 + 2 w u 2 (u ) 2 + 2 n (4.15)
i cum u k = 1, k = 1, n (u ) 2 = n .

Din relaia (4.13) avem:


| w | 2 2 n + 2 n = n ( + 2 )

(4.16)

Sumnd inegalitatea (4.16) pentru M pai obinem:


| w | 2 M n ( + 2 )

(4.17)

Din relaia (4.14), prin ridicare la ptrat avem:


w 2 (w ) 2 2 M 2 D(w ) 2 | w | 2

2 M 2 D(w ) 2 w 2 (w ) 2 2 2 | w | | w | | w |2
Folosind relaia (4.17) obinem:

(4.18)

w 2 (w ) 2 2 M 2 D(w ) 2 MD(w ) 2 = n ( + 2 ) | w | 2 | w | 2 Mn ( + 2 )

(4.19)

Membrul stng al acestei inegaliti reprezint produsul scalar normalizat al vectorilor w i w *, care este ptratul cosinusului unghiului dintre cei doi vectori. Obinem:
81

1 cos 2 =

w 2 (w ) 2 MD(w ) 2 2 2 n ( + 2 ) | w | | w | + 2 M n 2 D (w )

(4.20) (4.21)

Membrul drept al relaiei de mai sus, reprezint un numr finit, aa c am obinut faptul c legea de nvare a PS converge ntr-un numr finit de pai M la soluia dorit. n relaia (4.21) este demn de remarcat c numrul M necesar de pai pentru convergen, este proporional cu dimensionalitatea datelor de intrare, nedepinznd de cardinalitatea mulimii de antrenament. Acest rezultat este adevrat din punct de vedere teoretic, dar nu i practic, cci ntr-o faz de nvare se prezint toate datele de antrenament.

IV.1.3. PS cu funcie de activare liniar


Vom considera n acest paragraf PS cu funcie de activare liniar, f ( x ) = x . PS cu funcie de activare liniar prezint avantajul c putem s-i atam o funcie cost, E ( w ) , numit funcie eroare sau funcie energetic ce msoar eroarea produs la stratul de ieire a PS, ca o funcie derivabil n raport cu triile sinaptice.

IV.1.3.1. Modul de operare. Soluii explicite

Fie x = ( x 0 , x1 ,..., x n ), = 1,..., P mulimea vectorilor de intrare. Atunci valoarea

de ieire obinut la al j-lea neuron al stratului de ieire, relativ la al -lea vector de intrare este:
y = w jk x k , j = 1, m j k =0 n

(4.22)

Relaia care dorim s fie satisfcut n urma procesului de nvare, dac z reprezint vectorul int, este:
z = w jk x k , j = 1, K, m, = 1, K, P j
k =0 n

(4.23)

Fie Q M P P (R) o matrice ptratic de ordinul P, numit matrice de covarian, definit astfel: 1 n q = x i x i (4.24) n i=0 Dac matricea Q este nesingular avem:

82

w ji =

1 P P 1 z j (q ) xi , j = 1, m, i = 0, n n =1 =1

(4.25)

ntr-adevr, pentru aceast alegere a triilor sinaptice avem satisfcut condiia:


I j = w ji x i =
i=0 P P n P P 1 n P P 1 1 n 1 1 z j (q ) x i x i = 1 1 z (q 1 ) ( n x i x i ) = j n i=0 = = = = i=0 P

= z (q 1 ) q = z = z , j j j
=1 =1 =1

j = 1, K, m, = 1, K, P

1, = unde = reprezint simbolul lui Kroenecker. Atunci: 0,


y = f ( I j ) = I j = z , = 1, K, P, j = 1, K, m j j

Alegerea triilor sinaptice w n conformitate cu (4.25) este posibil doar dac matricea Q este nesingular, ceea ce este echivalent cu condiia ca vectorii de intrare x = ( x 0 , x1 ,..., x n ), = 1,..., P s fie liniar independeni. Condiia de liniar independen a vectorilor de intrare este suficient, dar nu i necesar. Putem gsi soluia PS i n cazul cnd vectorii de intrare nu sunt liniar independeni, dar prin alt metod. Mulimea vectorilor de intrare x = ( x 0 , x1 ,..., x n ), = 1,..., P poate fi liniar independent doar dac P n , ceea ce evident este o restricie sever asupra capacitii de memorare a PS. IV.1.3.2. Legea de nvare gradient descendent Metoda prezentat n paragraful anterior este aplicabil practic doar dac matricea de covarian Q este nesingular, ceea ce este o restricie foarte puternic. Presupunnd ns c Q este nesingular, utilizarea formulei (4.25) este dificil, deoarece dac avem un numr mare de date de antrenament, adic P este mare, avem de inversat o matrice de mare dimensiune. De aceea, suntem interesai s determinm o lege iterativ de nvare, bazat pe modificri succesive ale triilor sinaptice, pornind de la valori arbitrare. Atam PS o msur a erorii prin intermediul unei funcii cost, numit funcie eroare, definit astfel:

E( w) =

n 1 m P 1 m P 1 ( z i yi ) 2 = 2 1 ( z i wik x k ) 2 2 i =1 = i =1 = k =0

(4.26)

Funcia eroare E (w ) este dependent de triile sinaptice i de datele de antrenament


( x , z ), = 1, K, P . Cnd triile sinaptice se apropie de soluia dorit (4.23), atunci E( w) 0 . Considernd reprezentarea geometric a funciei eroare n spaiul triilor sinaptice w, vom folosi cunoscutul algoritm gradient descendent. Acest algoritm presupune modificarea triilor sinaptice wik cu o cantitate proporional cu gradientul lui E( w) :
83

w ik =

P E = ( z i y i ) x k , i = 1, K, m, k = 0, K, n w ik =1

(4.27)

Notnd eroarea obinut la neuronul al i - lea din stratul de ieire, relativ la al - lea vector de intrare cu:
i = z i y i , i = 1, K, m,

(4.28)

obinem:

w ik = i x k , i = 1, K, m, k = 0, K, n

(4.29)

Formula de mai sus este numit regula delta sau legea Adaline sau legea WidrowHoff [207] sau legea LMS (Least Mean Square) [172]. n lucrarea [68] se studiaz n detaliu, convergena legii de nvare a PS, bazat pe metoda gradient descendent [20].

IV.1.4. PS cu funcie de activare neliniar


n acest paragraf vom studia PS cu funcie de activare neliniar, derivabil de tipul celor prezentate n II.1.1.2.

IV.1.4.1. Modul de operare

Dac x = ( x 0 , x1 ,..., x n ), = 1,..., P reprezint vectorii de intrare, neuronii din stratul de ieire vor genera urmtoarele valori:
n

y = f ( I j ) = f ( w jk x k ), j = 1, K, m, = 1, K, P j
k =0

(4.30)

Relaia care dorim s fie satisfcut dup faza de nvare este:


z = y , j = 1, K, m, = 1, K, P j j

(4.31)

sau
z = f ( w jk x k ), j = 1, K, m, = 1, K, P j
k =0 n

(4.32)

84

IV.1.4.2. Legea de nvare gradient-descendent

Atam PS funcia de eroare:

E ( w) =

n 1 m P 1 m P 1 ( z i yi ) 2 = 2 1 [z i f ( wik x k )]2 2 i =1 = i =1 = k =0

(4.33)

Aplicnd algoritmul gradientului descendent obinem:


wik =
P

E = wik
n n k =0 k =0

(4.34)

= [ zi f ( wik xk )] f ' ( wik xk ) xk , i = 1, K m,k = 0, K n


=1

Corecia wik ce se aplic unei trii sinaptice dup prezentarea vectorului de intrare x este:
w ik = i x k , i = 1, K, m, k = 0, K, n

(4.35) (4.36)

unde:

i = ( z i yi ) f ' ( wik x k )
k =0

Este convenabil s utilizm pentru PS funcii de activare de tipul:

f1( x ) = tanh( x ), f 2 ( x ) =
Deoarece:

1 1 + ex

(4.37)

f1' ( x ) = 1 tanh 2 ( x ) = 1 f1 ( x ), f 2' ( x ) = e x 1 = f 2 ( x )( 1 f 2 ( x )) 1 + e x 1 + e x

(4.38)

ceea ce elimin necesitatea de a mai calcula derivate. Condiiile de existen a unei soluii sunt aceleai ca i n cazul PS cu funcie de activare liniar, adic liniar independena vectorilor de intrare x , deoarece soluia problemei noastre este echivalent cu soluia problemei PS liniar, cnd valorile int sunt f 1 ( z ), j = 1, K, m . j Problema care apare la PS cu funcie de activare neliniar este dac legea de nvare avnd la baz algoritmul gradient-descendent, converge la soluia optimal, cnd soluia exist. Se poate ntmpla ca pentru anumite probleme, suprafaa eroare, corespunznd funciei eroare, s prezinte o form neregulat cu o mulime de vi, care vor avea puncte de minim local pe lng posibilul minim global. n aceste puncte de minim local algoritmul gradientului descendent se poate mpotmoli, genernd o soluie incorect.

85

IV.1.5. PS stohastic
S ncercm s gsim o justificare a comportamentului stohastic [121] al neuronilor i implicit al reelei neuronale din care fac parte. n reelele neuronale biologice (II.1.1.1.), neuronii genereaz semnale de mrime variabil, existnd anumii factori de ntrziere n legtura sinaptic, fluctuaii aleatoare datorate eliberrii substanei neuro-transmitoare de ctre vezicule i alte asemenea elemente cu comportament aleator. Aceste efecte pot fi considerate n cazul modelelor de neuroni artificiali, respectiv reelelor neuronale artificiale, ca un zgomot [211] reprezentabil cu ajutorul unei fluctuaii termice [178]. Introducerea parametrului temperatur n studiul reelelor neuronale nu trebuie privit prin prisma temperaturii fizice; temperatura va reprezenta un parametru de control al zgomotului din date sau parametrul de control al momentului, cnd comportamentul deterministic al reelei neuronale este depit. Pentru a nelege mai bine modelul stohastic al PS, va trebui s studiem analogia dintre reelelor neuronale i sistemele fizice magnetice. IV.1.5.1. Sisteme magnetice O descriere simpl a unui material magnetic const dintr-o mulime de atomi magnetici, aranjai ntr-o matrice care reprezint structura cristalin a materialului. Aceti atomi magnetici sunt numii spini. Un spin poate fi orientat n diferite direcii, numrul de posibiliti depinznd de tipul atomului considerat. Cel mai simplu model este aa numitul model atomic spin 1 2 , n care doar dou direcii sunt posibile. Modelul spin 1 2 este reprezentat ntr-o matrice corespunztoare, numit modelul Ising, avnd ataat o variabil y j = 1 n fiecare punct al matricei.

Fig.4.5: Modelul simplificat al unui material magnetic, descris cu ajutorul modelului Ising.

Analogia cu un PS cu funcia de activare f(x) = sgn(x) este evident. Un neuron va lua valoarea +1 sau -1 dup cum spinul din materialul magnetic este orientat n sus sau jos. Modelul Ising nu este deplin specificat pn cnd nu se cunoate dinamica i interaciunile dintre spini. ntr-un material magnetic, fiecare spin este influenat de ctre cmpul magnetic I j existent n acel punct. Cmpul magnetic I j este constituit din dou mrimi:
86

I j = I ext + I int j

(4.39)

unde:
I ext reprezint cmpul magnetic extern aplicat de mediul exterior materialului magnetic; I int reprezint cmpul magnetic intern produs de ctre ceilali spini ai materialului j magnetic.

Vom obine astfel urmtoarea relaie matematic:


I j = w ji y i + I ext , j = 1, n
i =1 n

(4.40)

termenul

w
i =1

ji

y i reprezint cmpul magnetic intern al spinului al j-lea, ca o sum a

contribuiilor cmpurilor magnetice ale celorlali spini; w ji reprezint tria interaciunii de schimb, adic influena spinului Si asupra cmpului magnetic al spinului Sj.

Cmpul magnetic I j al spinului al j-lea controleaz dinamica sa. La temperaturi joase un spin tinde s se alinieze paralel cu cmpul su magnetic I j , acionnd asupra lui n aa fel nct s-l fac s satisfac relaia:

y j = sgn( I j ), j = 1, n

(4.41)

La temperaturi mai ridicate, apare fenomenul fluctuaiei termice care face ca spinii s oscileze ntre cele dou direcii corespunztoare lui +1 i -1. ntotdeauna vor fi prezente dou tendine: cmp magnetic - care tinde s alinieze spinii; fluctuaie termal - tinde s distrug alinierea spinilor. Pentru a descrie matematic fenomenul fluctuaiei termice n modelul Ising, ne vom folosi de dinamica Glauber [82]. n dinamica Glauber, regulile deterministe sunt nlocuite de urmtoarea regul stohastic:

+ 1, Pr ob( f ( I j )) yj = , j = 1,2, , n 1, Pr ob(1 f ( I j ))

(4.42)

care reprezint legea de modificare a valorii unui spin. Funcia f, care este echivalentul funciei de activare a neuronului artificial, se alege de obicei ca fiind funcia sigmoidal Glauber:

f (I ) = f (I ) =

1 1 + e 2 I

(4.43)

Parametrul este dependent de temperatura absolut T, prin relaia:


= 1 , k = 1.38 10 16 erg / K k T
87

(4.44)

Constanta k este constanta Boltzmann. Putem rescrie relaia (4.42) sub forma:
Prob(y j = 1) = f ( I j ) = 1 1+ e
m 2 I j

(4.45)

Temperatura controleaz panta sigmoidei n jurul valorii I j = 0 . Cnd T 0 ( ) atunci f se comport ca o funcie treapt (Heaviside), iar cnd T ( 0) atunci f se comport aleator. Aplicnd dinamica Glauber asupra unui material magnetic constituit dintr-un singur spin, nu mai intervine influena cmpului intern generat de ceilali spini, ci doar cmpul magnetic extern. Putem calcula media magnetizrii, notat y astfel:
y = Pr ob(+1) (+1) + Pr ob(1) (1) = e I e I 1 1 = I I = 1 + e 2 I 1 + e 2 I e + e I e + e I e I e I = I = tanh( I ) e + e I =

(4.46)

Dac considerm un material magnetic constituit din mai muli spini, nlocuind fluctuaia termic real cu valoarea sa medie, metod cunoscut sub numele de Teoria Cmpului Mediu (Mean Field Theory), vom avea:
I j = w ji yi + I ext
i =1 n

(4.47)

nlocuind n relaia (4.46) obinem:


y j = tanh( I j ) = tanh( w ji yi + I ext )
i =1 n

(4.48)

IV.1.5.2. Mod de operare. Legea de nvare

ntr-un PS stohastic vom avea pe baza relaiei (4.45):


Prob(y = 1) = f ( I ) = j j 1 1+ e
m 2 I j

, j = 1, m, = 1, P

(4.49)

unde:
I = w ji xi , j = 1, m, = 1, P j
i =1 n

(4.50)

Pe baza Teoriei Cmpului Mediu vom avea:

88

y = tanh( w ji x i ), j = 1, m j
i =1

(4.51)

unde y va reprezenta valoarea medie a lui y relativ la un anumit numr de date de j j intrare. Legea de nvare, poate fi similar cu legea de nvare a PS cu funcie de activare f(x) = sgn(x).
w ji = j xi , j = 1, m, i = 1, n, = 1, P

(4.52) (4.53)

unde:
j = z y , j = 1, m j j

Legea de nvare (4.52) va descrete valoarea medie a funciei eroare ataat PS stohastic:
E ( w) =
1 2

( z
i =1 =1

yi ) 2

(4.54)

Deoarece z i , y i {1,+1} putem rescrie relaia de mai sus sub forma:


E ( w) = (1 zi yi )
i =1 =1 n P

(4.55)

de unde obinem valoarea medie a funciei eroare:


E (w ) = (1 z i y i ) =
i =1 =1 m = 1 z i tanh( wik x k ) i =1 =1 k =1 n P n P

(4.56)

Variaia erorii, relativ la modificarea triilor sinaptice, devine:


E (w ) =
i =1 n n m P (tanh( I )) E ( w) j w ji = w ji z i = w ji w ji j =1 i =1 j =1 =1 m

= [1 zi tanh( I i )] sec h 2 ( I i )
i =1 j =1 =1

(4.57)

(tanh( x)) = sec h 2 ( x) . x Deoarece tanh(x) < 1, rezult c E( w ) < 0 , deci legea de nvare micoreaz permanent funcia eroare.
Am folosit formula (4.56) i

89

IV.1.6. Capacitatea de memorare a PS

Problemele pentru care dorim s gsim un rspuns sunt urmtoarele: Cte perechi de date aleatoare (vectori de intrare, vectori int) putem stoca ntr-un PS, avnd o arhitectur dat? Cte perechi de date aleatoare (vectori de intrare, vectori int) pot fi nvate de un PS, utiliznd o anumit lege de nvare supervizat?

Rspunsul la prima ntrebare va defini capacitatea maximal Pmax pe care un PS o poate atinge pe baza unui legi de nvare. Pentru un PS avnd funcie de activare liniar sau neliniar capacitatea maximal este simplu de determinat ca urmare a condiiei de liniar independen a datelor de intrare. Avnd P vectori de intrare aleatori x , = 1, K , P de dimensiune n, o condiie necesar pentru liniar independen este P n , de unde rezult Pmax = n. Problema determinrii capacitii maximale Pmax pentru un PS avnd ca funcie de activare funcia f(x) = sgn(x) este mult mai dificil de tratat, implicnd un studiu relativ la liniar separabilitatea vectorilor de intrare x , = 1,K , P . Utiliznd o serie de rezultate obinute de Mitchinson i Durbin [146], vom demonstra c in cazul unui PS avnd ca vectori de intrare, P vectori aleatori n-dimensionali, x , = 1, K , P , i ca funcie de activare f(x)=sgn(x), rezultatul este: Pmax = 2n (4.58)

Relaia de mai sus este valabil n limita lui n foarte mare, pentru n mic fiind doar o relaie aproximativ. Deoarece neuronii din stratul de ieire sunt independeni unul de altul, putem simplifica studiul capacitii maximale lund n considerare doar un singur neuron n stratul de ieire, fr ca generalitatea rezultatelor s fie afectat. Dup cum am vzut n Cap. IV.1.3 liniar separabilitatea vectorilor de intrare x , = 1, K , P const n a determina un hiperplan (care trece prin origine dac nivelul de activare este zero) care s separe n dou semiplane distincte mulimile de puncte:
S+1 = {x | z = +1, {1,2,..., P}} i S1 = {x | z = 1, {1,2,..., P}}

unde S+1 S-1 = (4.59) S notm cu C(P,n) numrul de moduri n care putem determina un hiperplan care s separe liniar P puncte aleatoare din spaiul n-dimensional al vectorilor de intrare x , = 1,K , P . Pentru valori mici ale lui P, rezultatul ateptat trebuie s fie:
C( P , n ) = 2 p
90

(4.60)

deoarece n aceast situaie vom gsi ntotdeauna un hiperplan care s separe liniar punctele (vectorii) de intrare x , = 1, K , P . Dac P are o valoare mare, rezultatul ateptat va verifica relaia:
C( P , n ) 2 p

(4.61)

deoarece n acest caz nu vom putea determina ntotdeauna un hiperplan care s realizeze liniar separabilitatea punctelor de intrare x , = 1, K , P . Vom calcula n cele ce urmeaz C(P,n) prin inducie. Prima dat vom avea nevoie de o serie de informaii preliminare: Distribuia aleatoare a punctelor de intrare x , = 1, K , P nu este necesar, ci este doar o garanie a generalitii rezultatelor. Vom spune c mulimea punctelor de intrare x , = 1, K , P este n poziie general, dac nu exist dou puncte care s fie situate pe o dreapt ce trece prin origine. Vom numi soluie un hiperplan care realizeaz liniar separabilitatea punctelor de intrare x , = 1, K , P , deci C(P,n) reprezint numrul de soluii.

S pornim de la un numr de P puncte de intrare x , = 1, K , P de dimensiune n. Adugnd un nou punct x P+1 la mulimea punctelor de intrare, obinem relaia de recuren [146]: C( P + 1, n ) = C( P , n ) + C( P , n 1 ) (4.62) Iternd relaia de recuren pentru P , P 1, P 2,...,2,1 obinem:
0 1 P 1 C( P , n ) = CP1 C( 1, n ) + CP1 C( 1, n 1 )+ ...+ CP1 C( 1, n P + 1 )

(4.63) (4.64)

2, P m unde C( 1, m ) = 0, P > m, m 0

Atunci putem rescrie (4.63) sub forma:


i C( P , n ) = 2 CP1 i=0 n 1

(4.65)

De aici obinem urmtorul grafic reprezentat n Fig.4.6 [96]: P = 2, putem trage concluzia c Observnd tranziia abrupt care apare n punctul n Pmax=2n. Cu ct n este mai mare, tranziia este mai abrupt, ajungnd s devin asimptotic. Acest rezultat grafic, poate fi dovedit i analitic, deoarece:
C (2n, n) = 2 P 1 C (2n, n) 1 = 2 2P

adic, graficul funciei C(P,n)/2P trece ntr-adevr prin punctul de coordonate (2, 0.5).
91

C(P,n)/2P

1 0.5

P/n 0 1
P

Fig.4.6. Graficul funciei C(P,n)/2 n raport cu P/n. Graficul reprezint media cazurilor cnd n = 2, 3,..., 1000.

De remarcat valabilitatea rezultatului obinut pentru P n. n aceast situaie avem:


i i C( P , n ) = 2 CP1 = 2 CP11P1+i1i = 2( 1 + 1 ) P1 = 2 2 P1 = 2 P i=0 i=0 n 1 n 1

(4.66)

IV.1.7. Interpretarea geometric a PS


Vom studia, din punct de vedere geometric, funcia eroare ataat PS. Vom lua n considerare un PS avnd ca funcie de activare o funcie continu i derivabil. Dup cum am menionat n II.1.1.2. ca i funcii de activare, cea mai utilizat este funcia sigmoid sau funcia tangent hiperbolic. De exemplu considerm funcia sigmoid 0, x < 0 1 , R , dac atunci f f ( x) = (funcia treapt), dac f ( x) = x 1+ e 1, x 0 0 atunci f funcie liniar. n acest fel, rezultatele deduse pentru funcia de activare sigmoid rmn valabile, ca i un caz particular, pentru funcia de activare signum, treapt, liniar. Fie f funcia de activare neliniar continu i derivabil a unui PS, pentru care considerm doar un singur neuron de ieire, folosind motivaia de simplificare a notaiei. La neuronul de ieire vom obine valoarea:
y = f ( wk xk ) = f ( wk xk + w0 ), = 1, P
k =0 k =1 n n

(4.67)

92

Hiperplanul de ecuaie w1 x1 + w2 x 2 + ...+ wn x n + w0 = 0 reprezint hiperplanul ce trebuie s realizeze liniar separabilitatea punctelor de intrare x , = 1, P . S considerm spaiul conjugat al spaiului punctelor de intrare. Corespondena dintre spaiul punctelor de intrare X R n i spaiul conjugat, stabilete o coresponden de tipul punct-hiperplan. Fie w1 x1 + w2 x 2 + ...+ wn x n + w0 = 0 ecuaia unui hiperplan din spaiul de intrare. n spaiul conjugat acestui hiperplan i va corespunde un punct de coordonate ( w1 , w2 ,..., wn ) . n
* * * mod similar, toate hiperplanele ce trec printr-un punct dat ( x1 , x2 ,..., xn ) satisfac relaia * * * w1 x1 + w2 x 2 + ...+ wn x n + w0 = 0 , ceea ce reprezint ecuaia unui hiperplan n spaiul conjugat.

x2 2 d1 2

w2 1 3

3 d1 1 0 x1 0 w1

Fig.4.7.: Reprezentarea grafic a corespondenei punct-hiperplan dintre spaiul punctelor de intrare i spaiul conjugat.

Deoarece spaiul conjugat este raportat la triile sinaptice ale PS, vom numi de acum nainte spaiul conjugat, spaiul triilor sinaptice (weight space). Pe baza corespondenei punct-hiperplan, punctelor de intrare x , = 1, P le vor corespunde hiperplane n spaiul conjugat al triilor sinaptice, care vor partiiona spaiul triilor sinaptice. Vom avea n spaiul triilor sinaptice:
i C( P , n ) = 2 CP1 - regiuni nelimitate n 1 i=0

n CP1

- regiuni limitate

(4.68)

Un punct care aparine unei regiuni din spaiul conjugat al triilor sinaptice reprezint un hiperplan n spaiul punctelor de intrare, care separ liniar punctele de intrare. Mutnd un punct n spaiul conjugat al triilor sinaptice, dintr-o regiune n alt regiune adiacent, hiperplanul conjugat corespunztor spaiului punctelor de intrare este deplasat relativ la un punct de intrare. Fiecare punct x , = 1, P al spaiului de intrare poate fi etichetat n dou moduri, n funcie de vectorul int, i anume:
93

x + z = +1 x z = 1, = 1, P

(4.69)

Aceast etichetare introduce o orientare corespunztoare a hiperplanelor conjugate din spaiul conjugat al triilor sinaptice. De aceea fiecare regiune a spaiul triilor sinaptice va avea ataat o etichet P dimensional de simboluri + i -. Conform acestei interpretri, PS va avea o soluie liniar separabil dac n spaiul triilor sinaptice vom gsi o regiune etichetat doar cu --...-. Cu ct o regiune din spaiul triilor sinaptice va avea mai multe simboluri -, ea va fi mai apropiat de soluia optimal. Soluia optimal a unui PS cu funcie de activare continu i derivabil se obine aplicnd o lege de nvare tip gradient descendent, care s minimizeze diferena dintre vectorul de ieire y i vectorul int z. Funcia eroare n spaiul conjugat al triilor sinaptice corespunde numrului de puncte de intrare care genereaz o valoare de ieire eronat n raport cu valoarea int. n fiecare regiune a spaiul triilor sinaptice funcia eroare este constant, avnd valoarea E=i, dac n eticheta ataat acelei regiuni vom avea un numr de i simboluri de +. Dac PS are soluie, deci datele sunt liniar separabile, suprafaa funciei eroare este regulat, avnd o form parabolic. Dac ns PS nu are soluie, suprafaa regulat a funciei eroare este spart de o mulime de suprafee ce corespund minimelor locale, neexistnd o regiune cu eticheta ----...-. S ncercm s determinm numrul mediu al minimelor locale ale suprafeei eroare pentru o problem solvabil cu ajutorul unui PS. Acest calcul are importan din punctul de vedere al nelegerii complexitii problemei i a adoptrii unei strategii de nvare corespunztoare, n scopul evitrii blocajului n puncte de minim local. Pentru cazul bidimensional n = 2, avem [27]:

n( n 1 ) numrul regiunilor n spaiul triilor sinaptice; 2 2 E = n numrul segmentelor sau semidreaptelor ce delimiteaz aceste regiuni. R = n +1+
n medie, putem considera c o regiune va avea un numr de S = 2 E / R linii de frontier. Condiia necesar i suficient pentru ca o regiune s fie o regiune de minim relativ pentru funcia eroare este ca, dup ce traversm orice linie frontier, s gsim o valoare mai mare pentru funcia eroare. Atunci numrul mediu de minime relative este: Numr mediu minime relative = n cazul general n 3, vom avea:
1 C ( P + 1, n + 1) 2 1 E = n C ( P, n) 2 R=

R 2S

(4.70)

(4.71)

94

de unde, pe baza aproximaiei S = relative pentru funcia eroare:

2E 2n , putem obine numrul mediu al minimelor R R . 22n

Numr mediu minime relative =

(4.72)

IV.2. Perceptronul multistrat (PMS)


Minsky i Papert [145] au subliniat limitele PS, care este capabil s reprezinte doar funcii liniar separabile. Puterea de reprezentare a PMS a fost intuit cu mult timp nainte, dar nu s-a putut gsi o lege de nvare dect n ultimii ani. Aceast lege de nvare, bazat tot pe un algoritm de optimizare tip gradient descendent, este numit propagare napoi (BP - Back Propagation). Descoperirea BP a constituit unul din momentele cruciale ale dezvoltrii calculului neuronal. Cu ajutorul unui PMS se poate reprezenta orice funcie continu pe un interval compact [62], [63], [65].

IV.2.1. Legea de nvare BP


S considerm un PMS avnd o arhitectur general ca cea din Fig.2.3. Vom folosi urmtoarele notaii: numr total de straturi : l = ( l 1 ) straturi ascunse + 1 strat de ieire.
w k , k = 1, K, l - tria sinaptic corespunztoare conexiunii dintre neuronul al i-lea din ji

stratul ( k 1 ) i neuronul al j-lea din stratul k . Stratul de intrare este considerat ca fiind stratul cu numrul 0, iar stratul de ieire este stratul cu numrul l.

n k , k = 1, K, l - numrul de neuroni ai stratului al k-lea. Stratul de intrare este considerat ca avnd n0 = n neuroni, iar stratul de ieire are nl = m neuroni.
I jk , k = 1, K, l, j = 1, K, n k - valoarea de intrare pentru neuronul al j-lea din stratul al k-lea. y k , k = 1, K, l, j = 1, K, n k - valoarea de ieire din neuronul al j-lea al stratului k. Valoarea j

de ieire a neuronilor din stratul de ieire este: y j = y lj , j = 1, K, m . Termenul Bias va fi reprezentat implicit. Funcia de activare folosit pentru PMS va fi neliniar, derivabil i mrginit, cele mai des folosite funcii folosite fiind funcia sigmoidal i funcia tangent hiperbolic:
f1 ( x ) = 1 ex ex , f 2 ( x ) = tanh( x ) = x x 1+ e e + e x

95

n cele ce urmeaz, pentru a simplifica notaia, vom evita scrierea indicelui superior , care indic al -lea vector (punct) de intrare al mulimii de antrenament, atunci cnd nu exist pericol de confuzie. Modul de operare al PMS poate fi exprimat matematic astfel: Integrare: I jk = w ji yik 1 , k = 1, K, l, j = 1, K, n k , I j0 = x j , j = 1, K, n
i =1 nk 1

(4.73)

Activare:
k j

y = f ( I jk ) = f ( w k y ik 1 ) == f ( w k 1 f ( w k 1 f (...( f ( w 1 k x ik )... ), ji ji ji2 ji


i =1 i1 =1 i2 =1 ik =1

nk 1

nk 1

nk 2

(4.74)

k = 1, K, l, j = 1, K, n k

PMS va genera la stratul de ieire valorile:


y j = f ( w lji1 f ( w lji21 f (...( f ( w 1 l x ik )... ), j = 1, K, m ji
i1 =1 i2 =1 il =1 nl 1 nl 2 n

(4.75)

Considerm funcia eroare E(w) ca o msur a performanelor PMS, exprimat ca ptratul diferenei dintre vectorii int i valoarea obinut la stratul de ieire:
E (w ) =
=

1 P m ( z j y j ) 2 = 2 =1 j =1

nl 2 nl 1 n 1 P m 1 ( z j f (1 w lji1 f (i1 w lji21 f (...( f ( w 1jil x ik )... )) 2 , j = 1,K, m (4.76) 2 = j =1 il =1 i1 = 2=

Funcia eroare E(w) este continu i derivabil n raport cu triile sinaptice. Algoritmul gradientului descendent, corespunztor legii de nvare BP, pornind de la stratul de ieire ctre stratul de intrare, este:
w lji =
P E = ( z y ) f ' ( I jl 1 ) y il 1 , j = 1, K, m, i = 1, K, nl 1 j j l w ji =1

(4.77)

sau notnd:
lj = f ' ( I lj 1 ) y il 1 , j = 1, K, m,

(4.78)

obinem:
w lji = lj y il 1 j = 1, K, m, i = 1, K, nl 1
=1 P

(4.79)

Ecuaia (4.79) se numete regula delta-generalizat. Pentru triile sinaptice, corespunztoare conexiunilor dintre stratul k-1 i stratul k, k 1, vom propaga eroarea kj obinut la stratul k napoi ctre stratul k-1, utiliznd algoritmul gradientului descendent:
96

w k = kj y ik 1 , k = 1, K, l 1, j = 1, K, n k , i = 1, K, n k 1 ji
=1

(4.80) (4.81)

unde:

k kj = f ' ( I jk 1 ) w ij +1 ik 1 , j = 1, K, n k , k = 1, K, l 1 i =1

nk + 1

n general, formula de modificare a triilor sinaptice are forma:


w k = kj y ik 1 , k = 1, K, l 1, j = 1, K, n k , i = 1, K, n k 1 ji
=1 P

(4.82)

formul reprezentat grafic n Fig.4.8. Pe baza acestor relaii matematice, s descriem legea de nvare BP a PMS, utiliznd o descriere algoritmic: Pasul 1: Iniializm triile sinaptice cu valori aleatoare mici (din intervalul (-1, 1)):
w k (0,1), j = 1, K, n k , i = 1, K, n k 1 , k = 1, K, l . ji

Iniializm = 1. Pasul 2: Aplicm la stratul de intrare, vectorul de intrare x, iniializnd:


y 0 = x , j = 1, K, n j j

Pasul 3: Propagm vectorul de intrare x, ctre stratul de ieire, utiliznd formulele:


y k = f ( I jk ) = f ( w k yik 1 ), k = 1, K, l, j = 1, K, n k j ji
i =1 nk 1

Dac k = l obinem valorile de ieire ale PMS:


y lj = f ( I lj ) = f ( w lji y il 1 ), j = 1, K, m
i =1 nl 1

Pasul 4: Calculm erorile lj relativ la stratul de ieire:


lj = f ' ( I lj ) ( z y ), j = 1, K, m j j

Pasul 5: Propagm erorile lj de la stratul de ieire ctre stratul de intrare:


k kj = f ' ( I jk ) w ij +1 ik +1 , j = 1, K, n k , k = l 1, l 2,..,2,1 i =1 nk + 1

Pasul 6: Actualizm triile sinaptice pe baza formulelor:


97

w k = kj y ik 1 ji w k = w k + w k , k = 1, K, l, j = 1, K, n k , i = 1, K, n k 1 ji ji ji

Pasul 7: Dac P SAU E(w) < atunci = + 1 i Goto Pasul 2, altfel STOP.
k1
1

k2
2

kj
j

knk
nk

Stratul k

wjik

Neuronul i

Stratul k-1

Fig.4.8.: Reprezentarea schematic a modului de propagare napoi a erorii 1 , 2 ,..., nk din stratul k ctre stratul k-1, pe baza creia se modific triile sinaptice w ji .
k

IV.2.2. Variante ale legii de nvare BP pentru PMS

Legea de nvare BP a constituit obiectul a numeroase ncercri de mbuntire, n special din punct de vedere al vitezei de convergen, care n aceast form clasic este prea lent. Exist de fapt un numr mare de parametrii care pot fi variai n cadrul legii de nvare BP pentru PMS. Dintre aceti parametri putem aminti: arhitectura PMS (numr de straturi, numr de neuroni n fiecare strat, conexiuni sinaptice), dimensiunea mulimii de antrenament i natura sa, legea de nvare etc. Nu vom ncerca s rspundem la toate aceste probleme, deoarece fiecare dintre ele constituie direcii de cercetare distincte n domeniul calculului neuronal. IV.2.2.1. Diferite tipuri de funcii eroare

1 P m ( z j y j ) 2 folosit de legea de nvare 2 =1 j =1 BP nu este singura alegere posibil. n general factorul ptratic ( z y )2 poate fi nlocuit cu j j

Funcia cvadratic eroare E (w ) =

98

orice funcie continu i derivabil F ( z , y ) . n aceast situaie, singurul lucru care se j j modific n cadrul legii de nvare BP este: Pasul 4:
lj = f ' ( I lj ) ( z y ), j = 1, K, m, =1,,P se modific n j j

lj =

1 f ' ( I lj ) F' ( z , y ), j = 1, K, m,. = 1, K P j j 2

(4.83)

Dac particularizm funciile de activare, pentru f ( x) = tan( x) obinem urmtoarele modificri pentru Pasul 4 al legii de nvare BP: Pasul 4:
lj = z y , j = 1,K , m, = 1,K , P j j

(4.84)

Observm c n acest caz nu mai apare factorul f ' ( I lj ) , ceea ce nseamn c atunci cnd I este ntr-o vecintate a lui zero i suprafaa corespunztoare funciei eroare are o curbur pronunat, nu vom avea fenomene divergente sau oscilatorii, asigurnd pai mici descendeni pe suprafa.
l j

n lucrarea lui Fahlman [71] ntlnim urmtoarea alegere pentru legea de nvare BP: Pasul 4:
lj = [ f ' ( I lj ) + 1 ]( z y ), j = 1, K, m, = 1, K, P j j 10

(4.85)

Aceast alegere aduce ca mbuntire faptul c lj 0 chiar i atunci cnd I lj este mare, contribuind i n aceast situaie la modificarea triilor sinaptice. Alt variant propus tot de Fahlman [71], modific erorile lj n aa fel nct variaiile mari ale diferenei z y s fie atenuate. Pentru aceasta Pasul 4 se modific astfel: j j Pasul 4:
1 lj = arctan ( z y ) , j=1,,m,=1,,P j 2 j

(4.85)

O alt metod, se bazeaz pe netezirea suprafeei generate de funcia eroare, pentru a evita blocarea n puncte de minim relativ. Acest lucru se face cu preul pierderii temporare a unor trsturi a datelor, care pe parcurs vor fi restaurate, pn cnd algoritmul BP ajunge n regiunea potrivit din spaiul triilor sinaptice. Acest lucru este realizat prin metoda revenirii simulate (simulated annealing), metod care adaug un anumit zgomot la datele de intrare, prin intermediul parametrului temperatur [55], dup care temperatura este sczut gradual, sistemul stabilizndu-se ntr-o configuraie energetic minimal. Ca un exemplu n acest sens putem meniona [157], unde s-a considerat urmtoarea funcie eroare: P m 2 ( z j y j ) , sgn( z j ) = sgn( y j ) =1 j =1 E (w ) = P m (4.86) ( z y ) 2 , sgn( z ) = sgn( y ) j j j j =1 j =1

99

unde este un parametru ce este mrit gradual de la 0 la 1. Acest lucru va implica faptul c prima dat vom fi interesai s obinem semnul potrivit pentru y relativ la z , abia dup j j aceea interesndu-ne mrimea absolut a lui y . j

IV.2.2.2. Termeni ineriali

Legea de nvare BP a PMS este puternic influenat de alegerea valorii parametrului - rata de nvare. O valoare mare a lui poate duce la fenomene oscilatorii i chiar la divergen, n timp ce valori mici ale lui determin viteze reduse de convergen. De aceea, a aprut idea de a aduga la triile sinaptice w k din ecuaia deltaji generalizat (4.79) un termen inerial, numit momentum, cu rolul de a elimina oscilaiile algoritmului de nvare i de a evita blocarea n puncte de minim relativ. Termenul momentum va fora ca direcia de modificare s fie media direcilor cele mai descendente pe suprafaa funciei eroare. Termenul momentum ne va permite s facem pai mari pe suprafaa funciei eroare, n procesul de nvare, fr pericolul oscilaiilor divergente. Termenul momentum este implementat ca i o contribuie a iteraiei anterioare n modificarea triilor sinaptice [157]:
w k (t + 1) = ji E + w k (t ), ji w k ji

(4.87)

Coeficientul este numit coeficient momentum, (0,1) , cea mai bun valoare, determinat prin experimente practice, fiind = 0.9. Efectul ecuaiei (4.87) este urmtorul: dac ne gsim pe o regiune plat a suprafeei E va avea o valoare aproximativ constant la fiecare iteraie, iar triile funciei eroare, w k ji sinaptice vor converge ctre:
w k ji E , 1 w k ji

(4.88)

unde rata de nvare a devenit

. 1

Pe de alt parte, n situaii oscilatorii, w k rspunde doar cu coeficientul la ji 1 E , ceea ce va accelera tendinele pe termen lung cu factorul fr a fluctuaiile lui w k 1 ji amplifica oscilaiile.

IV.2.2.3. Modificarea adaptiv a ratei de nvare

n paragraful precedent, am subliniat importana alegerii corespunztoare a parametrului - rata de nvare. Alegerea sa este dificil, fiind bazat ndeosebi pe
100

considerente practice dect pe considerente teoretice. Chiar dac alegerea iniial a lui s-a dovedit a fi inspirat, pe parcursul avansrii fazei de nvare, se poate ntmpla ca s nu mai aib o valoare corespunztoare. De aceea s-a luat n considerare posibilitatea modificrii adaptive a ratei de nvare, o dat cu procesul de nvare. Pentru aceasta vom verifica influena modificrii unei trii sinaptice asupra funciei eroare. Dac funcia eroare nu descrete, putem micora rata de nvare . Pe de alt parte, ne putem atepta s ntlnim situaii cnd avem descreteri prea mari ale funciei eroare, care pot influena negativ nvarea ulterioar i prin urmare va trebui s mrim rata de nvare . Aceste considerente pot fi implementate matematic prin relaia:
a, a > 0 E < 0, | E | mare = b , E > 0 , a, b, c R 0, altfel +

(4.89)

unde E reprezint variaia funciei eroare. Exist n literatura de specialitate un mare numr de lucrri consacrate acestei teme, putnd meniona ca fiind de interes [107], [200].

IV.2.2.4. Algoritmi de minimizare a funciei eroare

Legea de nvare BP s-a dovedit n practic destul de ineficient: convergen destul de lent, blocarea n puncte de minim relativ. De aceea s-au propus, pe baza unor metode de optimizare din analiza numeric, i ali algoritmi de minimizare a funciei eroare. Dintre numeroasele metode luate n considerare, rezultate foarte bune s-au obinut cu metoda gradientului conjugat [161]. Metoda gradientului conjugat, construiete o mulime de n direcii de cutare, fiecare fiind conjugat una fa de alta, n aa fel nct minimizarea de-a lungul unei direcii ui nu distruge minimizarea produs de o direcie anterioar ui-k, cu alte cuvinte, direciile nu interfereaz. S ncercm s determinm minimul absolut al funciei eroare E(w) ataat PMS. Vom aproxima E(w) cu ajutorul dezvoltrii sale n serie Taylor n punctul w0 din spaiul triilor sinaptice:
E (w ) = E (w 0 ) +
i

1 E 0 2E (w ) wi + ( w 0 ) wi w j +... 2 i , j wi w j wi

1 wHw bw + c 2

(4.90)

unde am renumerotat triile sinaptice w ji wk n aa fel nct s folosim doar un indice, din considerente de simplificare a notaiei. produsul . reprezint produsul scalar a doi vectori. 2f c = E (w 0 ), b = E (w 0 ), ( H ) ij = (w 0 ) (4.91) wi w j
101

Matricea H, este o matrice ptratic de ordinul n, pozitiv ( y 0, y H y > 0 ) i reprezint Hessiana lui E n punctul w0. Avem relaia:
E = H w b

definit

(4.92)

ceea ce implic faptul c la o variaie a variabilei w cu cantitatea w, va genera o variaie a gradientului, de forma:
(E ) = H (w )

(4.93)

S presupunem c E a fost minimizat de-a lungul unei direcii ui, ntr-un punct unde gradientul -gi+1 a lui E este perpendicular pe direcia ui, adic:
u i g i +1 = 0

(4.94)

Cutm o nou direcie de minimizare ui+1. Cu scopul de a pstra minimizarea lui E de-a lungul direciei ui, vom impune condiia ca gradientul lui E s rmn perpendicular pe ui, adic:
u i g i +1 = 0

(4.95)

altfel va trebui s minimizm din nou, ntr-o direcie care este o component a direciei anterioare ui. Combinnd (4.94) i (4.95) obinem:
0 = u i (g i +1 g i + 2 ) = u i (E ) = u i H u i +1

(4.96)

Vectorii ui i ui+1 care satisfac relaia (4.96) se numesc vectori conjugai. Pornind dintr-un punct arbitrar w0 din spaiul conjugat, prima direcie de minimizare aleas este:
g 0 = E (w 0 )

(4.97)

de unde va rezulta alegerea unui nou punct w1. Pentru i 0 calculm direciile:
u i +1 = g i +1 + i u i

(4.98)

unde parametrul i este ales astfel nct u i A u i +1 = 0 i toi gradienii succesivi perpendiculari, adic:
i = g i +1 g i +1 , g k = f (w k ), k 0 gi gi

(4.99)

Calculm noul punct de minimizare:


w i + 2 = w i +1 + i +1u i +1

(4.100)

unde coeficientul I+1 este astfel ales nct s minimizeze E(wi+2). Direciile ui construite n acest fel sunt dou cte dou conjugate. Acest algoritm de minimizare este numit algoritmul Fletches-Reeves.
102

n cadrul algoritmului Fletches-Reeves, deoarece apar erori de aproximare i rotunjire a datelor n virgul mobil, trebuie s relum de mai multe ori cele n direcii, care teoretic ar trebui s fie suficiente pentru convergena la soluia optimal. De aceea, vom avea nevoie de direcii de repornire un+1 = gn+1. Powell [161] a mbuntit algoritmul Fletches-Reeves, mbuntiri pe care le vom prezenta n continuare: a). Valoarea coeficienilor I La fiecare etap de minimizare, unghiul i dintre vectorii gi i ui poate fi definit astfel:
u i = sec i g i

(4.101)

sau nlocuind i cu i+1 avem:


i u i = tan i +1 g i +1

(4.102)

Putem elimina ||ui|| din (4.101) i (4.102), obinnd:

tan i +1 = sec i

g i +1 gi

> tan i

g i +1 gi

(4.103)

nlocuind n (4.99) valoarea lui i cu noua valoare:


i= g i +1 (g i +1 g i ) gi gi

(4.104)

astfel nct:
i g i +1 g i +1 g i gi
2 i

i tan i +1 sec i

g i +1 g i gi

(4.105)

deci i+1 i iar ui+1 este ndreptat ctre cea mai abrupt direcie descendent. b). Procedura de repornire Repornirea cu un+1 = gn+1 este ineficient n practic, de aceea o metod care s in seama de valorile derivatei de ordinul doi este de dorit. Fie ut o direcie descendent arbitrar de repornire. Presupunnd c E(w) este cvadratic, ceea ce este adevrat n majoritatea aplicaiilor practice, cutm o nou direcie ui+1 care s fie o combinaie liniar a vectorilor ut i gt, gt+1 ,..., gi+1, astfel nct ut, ut+1,... sunt vectori conjugai doi cte doi. O expresie care asigur suficiena acestei condiii este:
u i +1 = g i +1 + i u i + i* u t

(4.106)

unde i este calculat n aa fel nct ui+1 s fie conjugat cu ui:


i= g i +1 (g i +1 g i ) u i (g i +1 g i )
103

(4.107)

iar I* asigur conjugarea lui ui+1 cu ut:


i* = g i +1 (g t +1 g t ) u i (g t +1 g t )

(4.108)

Pentru a fi siguri c direcia rezultat este descendent i nu ascendent pe suprafaa funciei eroare, impunem condiia:
u i g i > 0, () i > t

(4.109)

n continuare, trebuie s asigurm dup repornire ortogonalitatea vectorilor gi-1 i gi, pentru a preveni ca aproximarea s tind ctre o limit nenul. Pentru aceasta impunem condiia:

g i 1 g i 0.2 g i

(4.110)

De asemenea, noua direcie trebuie s fie suficient de descendent, de aceea vom avea condiia:

1 .2 g i

u i g i 0.8 g i

(4.111)

Dac condiiile (4.110) i (4.111) nu sunt satisfcute, vom reporni cu i = t - 1. n Fig.4.9 am reprezentat rezultatele legi de nvare pentru un PMS ce implementeaz problema XOR, considernd algoritmul clasic BP i algoritmul gradientului conjugat.

Funcia eroare E(w)


0.5

BackPropagation Gradient conjugat

0 0

100

200 numr iteraii

300

10

-8

10 -2

Fig. 4.9.: Legea de nvare BP i legea de nvare bazat pe gradientul conjugat. 104

IV.2.3. Interpretarea geometric a PMS


n IV.1.6 am studiat PS din punct de vedere al capacitii de memorare, utiliznd o serie de argumente geometrice, pentru a deduce rezultatul foarte important Pmax 2n. Pentru a simplifica analiza noastr, vom porni de la un PMS cu dou straturi, cu urmtoarea arhitectur: stratul de intrare cu n neuroni; stratul ascuns cu h neuroni; stratul de ieire cu un singur neuron; funcia de activare poate fi funcia signum, funcia treapt sau funcia sigmoidal cu parametrul mare. Neuronii din stratul de intrare conectai la un neuron al stratului ascuns constituie un PS. De asemenea, neuronii din stratul ascuns mpreun cu neuronul din stratul de ieire constituie un alt PS.

PS

PS

Fig.4.10.: Reprezentarea PS care pot fi considerai la un PMS: strat de intrare-neuron din stratul ascuns; strat ascuns-neuron de ieire.

n IV.1.6 am dedus relativ la un PS c avem un numr de C(P,n) funcii diferite implementabile (4.65), (4.66). Cum n stratul ascuns avem h neuroni, rezult c din stratul de intrare i stratul ascuns vom avea C(P,n)h funcii implementabile diferite. Acest numr, reprezint numrul maxim de funcii implementabile, care de obicei n problemele practice nu este atins, deoarece nu orice implementare este demn de luat n considerare. De exemplu, cazul n care toi neuronii din stratul de ascuns genereaz ca valoare de ieire valoarea zero, nu transmit nici o informaie ctre stratul de ieire, o astfel de implementare fiind evident neviabil. Introducem urmtoarele noiuni [26]: Def.4.1. Vom numi problem, una din cele 2P posibiliti distincte de a partiiona mulimea celor P date de intrare n dou clase distincte. Def.4.2. Vom numi funcie reea, o funcie ce corespunde legii implementate de un PMS particular. Dou funcii reea sunt diferite, cnd relativ la aceeai arhitectur a PMS, aplicaia implementat este diferit.
105

Pot exista PMS diferii care s implementeze aceeai funcie reea. Mulimea partiionrilor posibile ale celor P puncte de intrare, realizate de toate funciile reea, o vom numi mulimea problemelor solvabile. Mulimea problemelor solvabile este o submulime a mulimii problemelor. Def.4.3. Vom numi soluie, orice funcie reea ce realizeaz partiionarea spaiului datelor de intrare, conform problemei date. S reprezentm intuitiv aceste concepte, considernd un PMS cu n=h=2. Reprezentarea geometric o avem in Fig.4.11. n Fig 4.11.a. avem reprezentarea spaiului datelor de intrare ce corespund stratului de intrare, partiionat de cele dou drepte x i y ce corespund celor doi neuroni ai stratului ascuns. Toate punctele de intrare coninute ntr-unul din cele patru regiuni etichetate 00, 01, 10, 11, vor fi aplicate prin intermediul funciei de activare ntr-un unic punct, corespunztor spaiului datelor stratului ascuns. Fiecare punct din spaiul corespunztor stratului ascuns este partiionat de dreapta z (Fig.4.11.b) ce corespunde neuronului din stratul de ieire. n acest fel cele patru puncte 00, 10, 11 respectiv 01 vor fi aplicate prin intermediul funciei de activare n punctul 0, respectiv 1, ale stratului datelor de ieire (Fig.4.11.c). n cazul PMS putem avea mai multe soluii la aceeai problem. Considernd de exemplu, relativ la spaiul datelor de intrare, alte dou drepte x i y care s realizeze partiionarea punctelor de intrare, obinem alt soluie. S calculm probabilitatea PS, ca alegnd aleator o problem, ea s aib cel puin o soluie:
PS = numr _ probleme _ solvabile numr _ probleme _ solvabile = numr _ probleme 2P

Deoarece nu tim s calculm numrul de probleme solvabile, vom ncerca s deducem o margine superioar a acestui numr, bazndu-ne pe inegalitatea:

PS =

numr _ probleme _ solvabile numr _ functii _ retea 2n 2n

106

x2

(a) 00

01 11

10

y x1

x
Spatiul corespunztor punctelor de intrare

(b)

y
0

z
1

01

11

x 00 10

Spatiul corespunztor stratului ascuns

0 (c)

Spatiul corespunztor stratului de iesire


Fig.4.11.: Reprezentarea geometric a datelor corespunztore diferitelor straturi ale PMS: strat de intrare (a), strat ascuns (b), strat de ieire (c).

Pentru cazul PS inegalitatea de mai sus devine egalitate. S notm cu m numrul de puncte n care sunt aplicate cele P puncte n-dimensionale ale stratului de intrare, de ctre cei h neuroni ai stratului ascuns: m {1,2,..., R( h, n )} unde R(h,n) este definit n IV.1.6, reprezentnd numrul de regiuni n care spaiul n-dimensional de intrare este partiionat de h hiperplane. Fie Bm(P,n,h) numrul funciilor reea care realizeaz corespondena celor P puncte de intrare din spaiul n-dimensional la exact m puncte h-dimensionale corespunztoare spaiului datelor stratului ascuns. Atunci:
107

R( h ,n ) m=1

( P , n , h ) = C( P , n )h

(4.112)

Conform cu (4.71), R( h, n ) = practic), vom avea:

1 C( h + 1, n ) . Dac h n (lucru care se ntmpl n 2


(4.113)

R(h,n) = 2h, pentru h n

Lund n considerare i PS format din stratul ascuns i neuronul stratului de ieire, vom avea numrul total de funcii reea:
R( h ,n ) m=1

( P , n , h ) C( m, h )

(4.114)

Generalizarea pentru un PMS cu mai multe straturi ascunse este imediat. Obinem formula general pentru numrul total de funcii reea:
R( n1 ,n ) R( n2 ,n1 ) m1 =1

...

R( nl 1 ,nl 2 ) ml 1 =1

m2 =1

m1

( P , n , n1 ) Bm2 ( m, n1 , n2 )...Bml 1 ( ml 2 , nl 2 , nl 1 ) C( ml 1 , nl 1 )

S calculm o valoare aproximativ pentru Bm(P,n,h). Vom folosi pentru aceasta o construcie combinatorial [27]. S notm cu RbP numrul de aranjamente a P puncte n Rb regiuni. Fie Am(P) numrul de moduri n care putem dispune P puncte n exact m regiuni distincte, fr a lsa vreo regiune vid. Atunci avem:
Rb

m RbP = CRb Am ( P ) m=1

(4.115)

Utiliznd principiul includerii-excluderii obinem:


k Am ( P ) = ( 1 )k Cm ( m k ) P k =0 m

(4.116)

Presupunnd n continuare c punctele sunt etichetate diferit, numrul de moduri n care putem aranja punctele n cele P regiuni, fr a amesteca puncte cu etichete diferite, este un numr mai mic dect RbP . n total, putem s etichetm i s le aranjm n regiuni, ntr-un numr de ( 2Rb )m moduri. Atunci numrul de aranjamente a punctelor cu etichete diferite, n cele RbP regiuni este:
m n = CRb Am ( P ) 2 m ( 2 Rb ) P m=1 Rb

(4.117)

m Putem considera pentru Bm(P,n,h) valoarea aproximativ CRb Am ( P0 ) unde P0 reprezint numrul de puncte pentru care numrul total de funcii din (4.112) trebuie s fie egal cu numrul total de regiuni R(h,n). Atunci P0 va satisface ecuaia:

108

R( h, n ) P0 = C( P , n )h

(4.118)

Prin logaritmare obinem:


h log 2 C( P , n ) log 2 R( h, n )

P0 =

(4.119)

n condiiile satisfacerii condiiei (4.112) avem:

P0 = log 2 C( P , n )
Astfel avem aproximarea:
R Bm ( P , n , h ) Cm ( h ,n ) Am ( P0 )

(4.120)

(4.121)

iar n* devine:
n = 1 2P
R( h ,n ) m=1

m R( h ,n )

Am ( P0 ) 2 m

(4.122)

1 reprezint factorul de mediere relativ la toate posibilitile de etichetare a 2P punctelor de intrare.


unde factorul Cu aproximarea (4.121), numrul mediu de funcii care realizeaz o partiionare corect a punctelor de intrare n spaiul punctelor corespunztoare stratului ascuns, este:
1 2P
R( h ,n ) m=1

( P, n , h ) 2 m

(4.123)

Utiliznd cele deduse mai sus avem:


1 C( P , n )h P P 2 2
R( h ,n ) m=1

Bm ( P, n , h ) 2 m

C( P , n )h R( h ,n ) 2 2P

(4.124)

C( P , n )h (4.125) 2P Din formula (4.125) obinem valoarea aproximativ a capacitii maximale a PMS PS 2 R( h ,n )

[27]:

nh (4.126) log 2 Rezultatul de mai sus este valabil n limita P, n, h foarte mari fiind similar cu cel dedus n (4.65). Pmax
109

V. nvarea activ
V.1. Introducere

n formele clasice de nvare supervizat pe baza unei mulimi de exemple, datele de antrenament sau exemplele sunt de obicei alese conform unei distribuii arbitrare fixate necunoscute. n acest sens, antrenorul este pur i simplu un recipient pasiv de informaii despre funcia de nvat (funcia int). Problema care ne intereseaz este dac antrenorul poate avea un rol mai activ, adic pe lng a indica rspunsul dorit s ncerce s indice i care date de antrenament trebuie selectate pentru a obine performane ct mai bune. Exist desigur nenumrate moduri n care antrenorul poate fi mai activ. S considerm, de exemplu, cazul extrem unde cel care nva, pune ntrebri pur i simplu pentru a afla informaiile de care are nevoie. Pentru analiza noastr, ne vom concentra atenia asupra situaiei n care antrenorului i se permite s-i aleag singur exemplele, pentru aproximarea funciilor. Cu alte cuvinte, antrenorului i se poate permite s decid de unde s ia eantioane pentru a putea aproxima funcia int. S observm c acest lucru este n contrast direct cu cazul pasiv cnd antrenorului i se prezentau aleator exemple din domeniul de definiie sau exemplele erau alese conform unei distribuii uniforme (n spaiul unidimensional real R aceasta coincide cu date echidistante). n analiza noastr vom pstra neschimbai ceilali parametri care influeneaz procesul de nvare i vom compara nvarea activ cu cea pasiv, care difer doar prin modul de alegere a exemplelor [56]. O ntrebare important este dac aceste moduri de alegere activ a exemplelor i permit antrenorului s nvee cu un numr mai mic de exemple. Exist principii de alegere a exemplelor? Vom dezvolta un cadru general pentru alegerea exemplelor pentru aproximarea (nvarea) funciilor reale. Vom aplica aceste principii de alegere a exemplelor pe nite clase specifice de funcii. Am obinut limite teoretice pentru numrul de exemple necesare pentru nvarea funciilor reale din aceste clase, la nvarea activ i pasiv i vom face o serie de simulri experimentale pentru a demonstra superioritatea nvrii active.

V.2. Un cadru general pentru aproximarea activ


V.2.1. Preliminarii

n cele ce urmeaz vom avea nevoie s introducem o serie de noiuni: Fie F clasa funciilor definite pe D cu valori n Y, unde Y R.
F = f : D Rn Y R
110

(5.1)

Din aceast clas de funcii F face parte i funcia int f care trebuie aproximat cu ajutorul unei scheme de aproximare. Mulimea de antrenament T este un set de date constituit din perechi formate din puncte ale domeniului D i valorile funciei f n aceste puncte. Astfel:

T = {(x i , yi ) x i D, yi = f (x i ), i = 1,2,..., N}

(5.2)

Fie H o schem de aproximare. Aceasta este o clas de funcii (definite pe mulimea D cu valori n Y) din care va fi aleas funcia care ncearc s aproximeze funcia int f F. Vom folosi notaia H nu numai pentru a ne referi la clasa funciilor aproximante (funciile care ncearc s aproximeze funcia int), dar i la algoritmul dup care antrenorul alege o funcie aproximant: h H pe baza setului de date T. Cu alte cuvinte, H denot o schem de aproximare care este de fapt un cuplu H, A, unde A este un algoritm care are ca date de intrare mulimea T i ca rezultat de ieire o funcie h H.

Exemplul 5.1 : Dac considerm funciile definite pe Rn cu valori n R, exemple tipice pentru H sunt: clasa funciilor polinomiale de un ordin dat, clasa funciilor spline de un anumit ordin, Radial Basis Functions cu un numr limitat de noduri etc. Fie dC o metric pentru a determina ct de bun este aproximarea fcut de ctre antrenor. Mai precis, metrica dC msoar eroarea pe submulimea C D. Putem s facem urmtoarele observaii: pentru orice submulimi C1 i C2 ale lui D astfel nct C1 C2 , d C1 ( f1 , f 2 ) d C2 ( f1 , f 2 ) ; dD (f1, f2) reprezint distana aproximrii pe ntregul domeniu; aceasta reprezint criteriul de baz pentru aprecierea corectitudinii aproximrii.
p
1

Exemplul 5.2: Pentru funcii reale definite pe Rn cu valori n R, un exemplu de metric este metrica LC definit astfel: d C ( f1 , f 2 ) = ( f1 f 2 dx ) p .
C p

Fie mulimea C o partiie a domeniului D. Presupunem c punctele din domeniul D, alese pentru reprezentarea funciei f, partiioneaz domeniul D ntr-un set de submulimi N disjuncte Ci C astfel nct U C = D . i i =1 Exemplul 5.3: Pentru funcii definite pe intervalul [0, 1] cu valori n R i setul de date D, un mod natural de a partiiona intervalul [0, 1] este n intervale de forma [xi, xi+1). Mulimea C poate fi mulimea tuturor intervalelor (nchise, deschise, semi-nchise sau semi-deschise) [a, b] [0, 1]. Scopul antrenorului (opernd cu o schem de aproximare H) este de a furniza o funcie aproximant h H (care este aleas pe baza exemplelor din mulimea de antrenament T) ca o aproximant a unei funcii necunoscute f F.

111

Va trebui ns s formulm un criteriu pentru aprecierea competenei antrenorului. n literatura de specialitate, se folosete criteriul PAC (Probably Approximatevily Correct) [195], [15] drept criteriu de apreciere a algoritmilor de nvare. Am adaptat aici pentru scopurile noastre un criteriu PAC pentru a determina eficacitatea schemei de aproximare descris mai sus. Def. 5.1: O schem de aproximare se spune c nva P-PAC o funcie f F dac pentru orice > 0 i orice 1 > > 0 i pentru P o distribuie arbitrar pe D, alege setul de date D i calculeaz o funcie aproximant h H astfel nct dD (h, f) < cu o probabilitate mai mare dect 1 - . Clasa de funcii F este nvabil P-PAC dac schema de aproximare poate nva P-PAC orice funcie f F. Clasa F este PAC nvabil dac schema de aproximare poate nva P-PAC clasa pentru orice distribuie P [149]. Trebuie s facem o clarificare a definiiei de mai sus. S observm c distana d este arbitrar. Nu e nevoie ca aceasta s fie legat de distribuia P n conformitate cu care sunt alese datele din mulimea D, ceea ce nu este valabil pentru distanele folosite n formulrile clasice ale PAC.

V.2.2. Algoritmi de alegere a exemplelor


n paragrafele anterioare am introdus bazele nvrii pasive. Aceasta corespunde unui antrenor pasiv care i alege exemplele n conformitate cu distribuia probabilistic P definit pe domeniul D. Dac un astfel de antrenor pasiv i alege exemplele i produce o funcie aproximant h astfel nct dC (h, f) < i cu probabilitatea mai mare dect 1 - , acesta nseamn c a nvat P-PAC funcia f. Def. 5.2: Numrul exemplelor de care are nevoie antrenorul pentru a nva funcia f se numete complexitatea mulimii de antrenament. O alternativ a nvrii pasive, o reprezint existena posibilitii de a permite antrenorului de a-i alege exemplele, adic nvarea activ [56]. La nceput, mulimea de antrenament i va furniza antrenorului cteva informaii privitoare la funcia int; n particular, probabil l informeaz despre regiunile interesante sau dificil de nvat ale funciei, sau regiunile unde eroarea de aproximare este mare i are nevoie de exemple suplimentare. Pe baza acestui tip de informaii (alturi de alte informaii despre clasa de funcii n general) antrenorul trebuie s fie capabil s decid de unde va fi ales urmtorul exemplu (dat de antrenament). Putem formaliza aceast noiune n felul urmtor: notm cu T = {(x i , yi ) x i D, yi = f (x i ), i = 1,2,..., N} mulimea de antrenament, setul de date (coninnd N puncte) la care antrenorul are acces. Schema de aproximare acioneaz asupra acestui set de date i alege o funcie h H (care se potrivete cel mai bine cu datele conform algoritmului A ce corespunde schemei de aproximare). S notm cu Ci , i = 1, K ( N ) 5, o partiie a domeniului D i notm cu:
5

Numrul de regiuni K(N,) n care se mparte domeniul D de ctre N puncte date, depinde de geometria spaiului D i de schema de partiionare folosit. Pentru axa real R partiionarea se face n intervale ca i n exemplul dat, iar K(N) = N + 1.

112

FT = { f F f (x i ) = yi , (x i , yi ) T}

(5.3)

mulimea tuturor funciilor din F care trec prin punctele din mulimea de antrenament T. Funcia int poate fi orice funcie din mulimea FT. S definim mai nti un criteriu de eroare [149]: eC (H, T, F) = sup dC (h, f), unde f FT (5.4)

eC este o msur a erorii maxime pe care poate s o aib schema de aproximare (pe regiunea C). Aceasta, evident depinde de date, de schema de aproximare i de clasa de funcii care trebuie aproximat. Ea nu depinde de funcia int (cu excepia indirect, n sensul c datele sunt generate de funcia int, dar aceast dependen este deja evideniat n expresia de mai sus). Avem astfel o schem de msurare a incertitudinii (eroarea maxim posibil) pe diferite regiuni ale spaiului D. O posibil strategie [56] pentru a selecta noi exemple poate fi ca pur i simplu s lum noi exemple n regiunea Ci , unde eroarea este cea mai mare. S presupunem c avem o procedur P care face acest lucru. P poate alege exemplul din regiunea C n centrul regiunii sau s-l aleag dup orice alt metod. Acest lucru poate fi descris algoritmic astfel [52]: Algoritm activ A 1. [Iniializare] Se alege un exemplu (x1, y1) T n acord cu procedura P. 2. [Obinerea de noi partiii] Se mparte domeniul D n regiuni C1,..., Ck(1) pe baza acestui exemplu. 3. [Se calculeaz incertitudinea] Se calculeaz eCi , pentru fiecare i. 4. [Actualizarea general i condiia de oprire] Presupunem c la pasul j, domeniul D este partiionat n regiunile Ci , i = 1,..., K(j). Se calculeaz eCi pentru fiecare i i n regiunea cu eroarea cea mai mare se alege nc un exemplu n conformitate cu procedura P. Acesta este punctul (xj+1, yj+1). Acest punct re-partiioneaz domeniul D. Dac eroarea maxim eD pe ntregul domeniu D este mai mic dect atunci algoritmul se oprete; altfel se reia de la Pasul 2. Algoritmul de mai sus este o posibil strategie activ. Oricum, acesta poate fi optimizat pentru a ne da localizarea precis a urmtorului exemplu. S ne imaginm pentru un moment, c antrenorul ntreb care este valoarea funciei n punctul x D. Valoarea obinut aparine mulimii: FT(x) = { f ( x ) f FT } . S presupunem c valoarea este y FT(x). De fapt, antrenorul are acum un nou exemplu, perechea (x, y) pe care o poate aduga la setul de date de antrenament T pentru a obine un nou set mai larg de date T * = T U (x, y ) . Schema de aproximare H poate aplica noul set de date la o nou funcie aproximant h. Se poate calcula: eC (H, T, F) = sup (h, f), unde f FT
113

(5.5)

Evident eD(H, T, F) msoar acum eroarea maxim posibil privitor la noul set de date. Aceasta depinde de (x, y). Pentru un x fixat noi nu tim valoarea lui y pe care ar trebui s o cunoatem dac alegem punctul ca un nou exemplu. Prin urmare, un gnd firesc ar fi s alegem cel mai nefavorabil caz, s presupunem c lum cea mai nefavorabil valoare pentru y i s continum cu aceast valoare algoritmul. Aceasta ne va produce cea mai mare eroare posibil pe care o putem obine alegndu-l pe x ca nou exemplu. Astfel eroarea (pe ntregul domeniul de definiie D) este:
y FT ( x )

sup e D ( H , T' , F ) = sup e D ( H , T U {x, y}, F )


y FT ( x )

(5.6)

Am dori s avem posibilitatea de a obine punctul x cu care se minimizeaz eroarea maxim. Astfel, pe baza acestui argument, exemplul optim este:
x new = arg min sup e D ( H , T U {x, y}, F )
x D y F ( x ) T

(5.7)

Aceasta reprezint strategia principal de alegere a noului exemplu. Urmtorul algoritm este un algoritm optimal de nvare activ: Algoritmul activ B (Optimal) 1. [Iniializare] Se alege un exemplu (x1, y1) n conformitate cu procedura P. 2. [Calculul noului exemplu] Se aplic expresia (5.7) i se obine un punct nou x2. Calculm valoarea funciei n acest punct obinem y2 i obinem un nou exemplu (x2, y2) care se adaug mulimii de date de antrenament. 3. [Regula de actualizarea general i condiia de oprire a algoritmului] S presupunem c la pasul j avem mulimea de date de antrenament Tj (constnd din j exemple). Se calculeaz xj+1 conform expresiei (5.7) i calculnd valoarea funciei n punctul xj+1 obinem un nou exemplu (xj+1, yj+1) i astfel un nou set de date i o nou funcie aproximant. n general, ca i n algoritmul A, algoritmul se oprete atunci cnd eroarea total eD (H, Tk, F) este mai mic dect precizia . Conform procesului de calcul, este clar c dac alegem un alt exemplu dect cel obinut prin regula (5.7), obinem o valoare y i o funcie consistent cu toate punctele din setul de date (inclusiv cu noua dat), ceea care ar fora antrenorul s fac o eroare mai mare dect dac antrenorul ar alege punctul xnew (conform (5.7)). n acest sens algoritmul B este optimal. El difer de asemenea, de algoritmul A prin faptul c nu are nevoie de o schem de partiionare sau de o procedur P de alegere a unui exemplu ntr-o anumit regiune a spaiului. Oricum, calculul lui xnew inerent n algoritmul B este mai costisitor din punct de vedere computaional dect cel din algoritmul A. Merit s observm c, pentru formularea noastr important este calculul erorii eD (H, T, F). Astfel, am notat mai devreme c aceasta este o msur a erorii maxime posibile pe care schema de aproximare este forat s o fac n aproximarea funciei din F folosind setul de date T. Dac dorim o schem de aproximare independent, aceasta se poate obine minimiznd eD relativ la mulimea tuturor schemelor posibile:
114

inf ( H , D, F )
H

(5.8)

Orice schem de aproximare poate s genereze o eroare cel puin tot att de mare ca cea din expresia de mai sus. O alt limitare este cea impus erorii eD ca s fie independent de mulimea de date. Astfel, avnd o schem de aproximare H, dac setul de date T este ales arbitrar, se poate calcula probabilitatea: P{eD (H, T, F) > } Dac avem o ntr-o schem de aproximare independent de date:
P inf ( H , T , F ) >
H

(5.9)

(5.10)

V.3. nvare activ. Aproximarea funciilor continue monoton cresctoare i mrginite


S considerm urmtoarea clas de funcii definite pe intervalul [0, 1] R cu valori n
F = { f 0 f (x ) M , x R, f ( x) f ( y ) x y}

R:

(5.11)

Pe baza celor prezentate n paragraful anterior va trebuie s specificm termenii H, dC i procedura P pentru partiionarea domeniului D = [0, 1]. Pentru nceput vom presupune c schema de aproximare H este metoda spline de ordinul I [31]. Aceast metod determin funcia monoton care interpoleaz liniar datele din setul de date D. O cale natural de partiionare a domeniul D este mprirea lui n intervale: [0, x1), [x1, x2),..., [xi, xi+1),..., [xn , 1] Metrica dC pe care o vom considera este metrica Lp dat de relaia:
d C ( f1 , f 2 ) =

(5.12)

f1 f 2 dx

1 p

(5.13)

Interesul nostru este de a compara complexitatea mulimii de antrenament n nvarea pasiv i activ. Vom face acest lucru lund n considerare o distribuiei uniform, adic antrenorul pasiv i va alege exemplele uniform din domeniul su [0, 1]. Pe de alt parte, vom arta cum rezultatele generale din paragraful precedent se transform ntr-un algoritm activ specific de alegere a exemplelor i vom obine limite pentru calculul complexitii mulimii de antrenament.

115

V.3.1. Limita inferioar pentru nvarea pasiv


Teorema 5.1: Orice algoritm de nvare pasiv (mai exact, orice schem de aproximare care i extrage exemplele uniform i interpoleaz datele pentru orice funcie mrginit arbitrar) va avea nevoie de cel puin
1M 1 ln exemple pentru a nva P-PAC clasa de funcii, 2 2 unde P este o distribuie uniform.
p

Demonstraie: S considerm distribuia uniform pe [0, 1] i o subclas de funcii care este nul pe intervalul A = [0,1 (2 / M ) p ] F. S presupunem c antrenorul pasiv extrage uniform l exemple oarecare. Atunci toate exemplele vor fi extrase din intervalul A cu probabilitatea (1 - (2 / M)p)l. Rmne s artm c pentru subclasa considerat, oricare ar fi funcia int furnizat de antrenor, se poate genera o eroare mai mare. Presupunem c antrenorul consider c funcia aproximant este h. S notm cu:

(1 ( 2 / M ) p ,1)

h( x ) dx

1 p

(5.14)

Avem relaia evident: 0 (Mp(2/M)p)1/p = 2. Dac < atunci se poate considera c funcia int este:

0, x [0, 1 (2 / M ) p ] g( x ) = p M, x [1 (2 / M ) , 1]

(5.15)

Pe de alt parte, dac atunci se poate considera c funcia int este g = 0. n primul caz din inegalitatea triunghiului rezult:
d (h, g ) =

[ 0 ,1]

g h dx
1

1 p

p p g h dx [1( 2 / M ) p ,1] 1

(5.16)

p p p M p dx h dx = 2 > (1( 2 / M ) p ,1) (1( 2 / M ) p ,1)

n al doilea caz avem:


d (h, g ) =

[ 0 ,1]

g h dx

1 p

p p 0 h dx = > (1( 2 / M ) p ,1)

(5.17)

Trebuie s aflm ct de mare trebuie s fie l, astfel nct evenimentul ca toate exemplele s fie extrase din A s aib o probabilitate mai mic dect . Pentru ca s avem (1 (2 / M ) p ) l > trebuie ca l <
116

1 1 ln . p ln(1 (2 / M ) )

Avem inegalitatea cunoscut:


1 1 1 , 2 2 ln(1 ) folosind aceast inegalitate i considernd = (2/M)p obinem c pentru

pentru <
1

M 1p 1M 1 1 1 < avem ln( ) < ln . 2 2 2 2 ln(1 (2 / M ) p )


1 M 1 ln , probabilitatea ca toate exemplele s 2 2 fie extrase din A este mai mare dect . Prin urmare, antrenorul pasiv este obligat s fac o eroare de cel puin , cu o probabilitatea mai mare dect , astfel nct nvarea PAC nu poate avea loc.
p

Deci, n afara cazului cnd l >

V.3.2. Algoritmul nvrii active (AIA)


n seciunea anterioar am calculat limita inferioar pentru nvarea PAC pasiv a clasei de funcii considerate, relativ la o distribuie uniform. n cele ce urmeaz, vom obine o strategie pentru nvarea activ care va alege exemplele pe baza informaiilor despre funcia int din exemplele anterioare. Vom determina formal o limit superioar a numrului de exemple pe care-l cere nvarea PAC a clasei de funcii. Ct timp limita superioar este cazul cel mai nefavorabil, numrul efectiv de exemple pe care le cere aceast strategie difer, depinznd n mare msur de funcia de aproximat. Vom demonstra empiric performana acestei strategii pentru diferite tipuri de funcii pentru a pune n eviden aceast diferen. S considerm o schem de aproximare de felul celei descrise mai nainte care se ncearc s aproximeze funcia int f F pe baza setului de date D.

yi+1 yi

xi

xi+1

Fig. 5.1: Mulimea FD const din toate funciile coninute n dreptunghiurile reprezentate i care trec prin punctele de antrenament (de exemplu funciile reprezentate cu linie punctat). Funcia aproximant h este reprezentat cu linie continu. 117

Putem presupune, fr a pierde generalitatea, c cunoatem valoarea funciei n punctele x = 0 i x = 1. Punctele {xi,| i = 1,2,...,N} mpart domeniul n N + 1 intervale Ci (i = 1,2,...,N) unde Ci = [xi, xi+1] (x0 = 0, xN +1 = 1). Monotonia funciilor din F ne permite s obinem nite dreptunghiuri care delimiteaz valorile pe care funcia int le poate lua n punctele din domeniul su de definiie. Mulimea tuturor funciilor care se ncadreaz n aceste dreptunghiuri este FT. S calculm mai nti eCi(H, T, F) pentru un interval Ci. Pe acest interval funcia este constrns s se ncadreze n dreptunghiul corespunztor. n Fig. 5.2. este reprezentat la o scar mrit un astfel de dreptunghi.
(xi+1, yi+1)

(xi, yi) B 0

Fig. 5.2: Desenul mrit al intervalului Ci = [xi, xi+1]. Eroarea maxim pe care o poate avea schema de aproximare este indicat de zona haurat. Aceasta se ntmpl atunci cnd considerm c funcia int are valoarea yi pe tot intervalul.

Eroarea maxim pe care schema de aproximare o poate avea (indicat de zona haurat) este dat de relaia:
C i B A p p AB p h f ( xi ) dx = x dx = 1 0 B ( p + 1) p
p
1 p

(5.18)

unde A = f (xi+1) - f (xi) iar B = (xi+1 - xi). Evident eroarea pe ntregul domeniu este:
p p e D = eCi i =0 N

(5.19)

Calculul lui eC este necesar pentru a implementa o strategie activ motivat de algoritmul A, prezentat anterior. Pentru aceasta trebuie s alegem un exemplu din intervalul cu eroarea cea mai mare; adic avem nevoie de o procedur P pentru a determina cum s obinem un nou exemplu n acest interval, i anume, alegem noul exemplu n mijlocul intervalului cu eroarea cea mai mare obinnd urmtorul algoritm:
118

Algoritmul de alegere a exemplelor i de nvare activ 1. [Pasul iniial] Aflm valorile funciei int n punctele x = 0 i x = 1. La acest pas, domeniul [0,1] este compus dintr-un singur interval: [0,1]. 1 1 (1 0) p f (1) f (0) . Calculm E1 = 1 ( p + 1) p Fie T1 = E1. Dac T1 < Atunci STOP i funcia aproximant este funcia liniar care interpoleaz datele; Altfel considerm mijlocul intervalului [0,1] i partiionm domeniului n dou intervale 0, 1 1 ,1 . 2 2 2. [Actualizarea general i condiia de oprire a algoritmului] Presupunnd c la pasul al klea, partiia intervalului [0,1] este [x0 = 0, x1), [x1, x2),..., [xk-1, xk = 1], calculm eroarea 1 1 (xi xi 1 ) p f ( xi ) f ( xi 1 ) , i = 1, 2, , k. Mijlocul intervalului normalizat Ei = 1 p ( p + 1) care are eroarea Ei maxim este luat n considerare pentru alegerea noului exemplu. Se

k p calculeaz eroarea total normalizat Tk = E ip , procesul se termin cnd Tk . i =1 Funcia aproximant h pentru fiecare pas la este o interpolare liniar a datelor alese pn atunci, iar funcia aproximant final h este obinut dup terminarea ntregului proces. S ne imaginm c alegem ca nou exemplu punctul x Ci = [xi, xi+1] i obinem valoarea y FT(x) (adic y este n dreptunghiul corespunztor) cum este reprezentat n Fig. 5.3.

(xi+1,yi+1) yi+1 y

yi (xi,,yi)

xi Ci1 Ci

x Ci2

xi+1

Fig. 5.3: Situaia cnd alegem din intervalul Ci un nou exemplu. Acesta mparte intervalul Ci n dou sub-intervale i cele dou zone haurate indic noile restricii ale funciei. 119

Acesta adaug un nou interval prin mprirea intervalul Ci n dou sub-intervale C i1 i


C i2 unde C i1 = [xi, x) i C i2 = [x, xi+1]. Mai obinem, de asemenea, dou dreptunghiuri mai mici

n interiorul celui iniial n care funcia este acum constrns s se ncadreze. Eroarea msurat prin eC poate fi recalculat lund n considerare acestea. Obs. 5.1: Adugarea unui nou exemplu (x, y) nu schimb valoarea erorii pe nici un alt interval. Ea are efect doar asupra intervalului Ci care a fost partiionat. Eroarea total pe tot acest interval se exprim prin relaia:
1 p p eCi (H , D' , F ) = p + 1 ( x xi )( y f ( xi )) + ( xi +1 x) +
1

+ (( f ( xi +1 ) f ( xi )) y ) ) p =
p

(5.20)

= G ( zr + ( B z )( A r ) )

1` p

unde am folosit notaiile: z = x - xi; r = y - f (xi); A = f(xi+1) - f(xi) i B = xi+1 - xi. Evident 0 z B i 0 r A. S considerm lema: Lema 5.1:
1 B = arg min z[ 0, B ] sup r[ 0, A] G zr p + ( B z )( A r ) p p 2 Demonstraie: Fie z[0, B]. Exist trei cazuri care trebuie luate n considerare:

Cazul 1: z > B/2, atunci fie z = B/2 + unde > 0. Obinem:


sup r[ 0, A] G zr p + ( B z )( A r ) p

1 p

= sup r[ 0, A] G zr p + ( B z )( A r ) p
sup r[ 0, A] G zr p + ( B z )( A r ) p =

= sup r[ 0, A] G ( B / 2 + )r + ( B / 2 )( A r ) p = = G sup r[ 0, A] B / 2(r + ( A r ) ) + (r ( A r ) p )


p p p

))

1 p

Pentru r = a expresia creia i s-a aplicat supremum devine:


B / 2(r p + ( A r ) p ) + (r p ( A r ) p ) = (B/2 + ) Ap.

Pentru orice alt r [0, A] trebuie s artm c:


B / 2(r p + ( A r ) p ) + (r p ( A r ) p ) (B/2 + ) Ap

sau
B / 2((r / A) p + (1 (r / A)) p ) + ((r / A) p (1 (r / A)) p ) (B/2 + )

Fie =

r (evident [0,1]) i s observm c (1 - ) p 1 - p i p - (1 - ) p 1, A


120

inegalitatea de mai sus fiind demonstrat).


1 1

Prin urmare: sup r[ 0, A] G ( zr p + ( B z )( A r ) p ) p = G ( B / 2 + ) p A Cazul 2: Fie z = B/2 - pentru > 0. Analog ca n Cazul 1 se arat c:
1 1

sup r[ 0, A] G ( zr p + ( B z )( A r ) p ) p = G ( B / 2 + ) p A

Cazul 3: Fie z = B/2. Atunci:


1

sup r[ 0, A] G ( zr p + ( B z )( A r ) p ) p =
1 1

n acest caz, expresia de mai sus se reduce la GA(B/2)1/p. Considernd aceste trei cazuri, lema este demonstrat. Lema de mai sus mpreun cu Obs.5.1 dovedete c alegerea optimal a noului punct din intervalului Ci este mijlocul intervalului. n particular, avem: min x[xi , xi +1 ] sup y[ f ( xi ), f ( xi +1 )] eCi (H , T U ( x. y ), F ) = 1 p xi +1 xi p = ( f ( xi +1 ) f ( xi )) = p + 1 2 eC ( H , T , F ) = i 1 2p Cu alte cuvinte, dac antrenorul este obligat s-i aleag urmtorul exemplu n intervalul Ci , acesta va asigura minimizarea erorii. n particular, dac eroarea pe intervalul Ci este eCi , eroarea pe aceast regiune este redus dup alegerea exemplului n mijlocul acestui
1

= G ( B / 2) p sup r[ 0, A] (r p + ( A r ) p ) p

(5.21)

interval i poate avea valoarea maxim: eCi / 2 p . Care este ns intervalul din care trebuie s alegem un nou exemplu pentru a minimiza eroarea maxim posibil pe ntreg domeniul D? S observm c dac antrenorul alege urmtorul exemplu n intervalul Ci atunci:
p N eC ( H , T , F ) p p e D (H , T U (x. y ), F ) = j =0, j i eC j (H , T , F ) + i 2 1

min xCi sup yFT

Din descompunerea de mai sus, este clar c exemplul optimal conform cu algoritmul B, este mijlocul intervalului Cj care are eroarea maxim eCj(H, T, F) pe baza datelor de antrenament T. Astfel putem enuna urmtoarea teorem [56]: Teorema 5.2: Algoritmul AIA (Algoritmul nvrii Active) este un algoritm optimal relativ la clasa de funcii monotone i mrginite.
121

Ne vom concentra atenia asupra determinrii numrului de exemple de care are nevoie algoritmul AIA pentru a nva funcia int necunoscut cu precizia . Pentru aceasta s considerm urmtoarea teorem [56]:
M Teorema 5.3: Algoritmul AIA converge n cel mult pai.
p

Demonstraie: Vom da o schi a demonstraiei acestei teoreme. Mai nti, s considerm o gril uniform de puncte distincte aparinnd domeniului [0, 1]. Acum s ne imaginm c antrenorul activ lucreaz exact aa cum a fost descris mai sus, dar cu o mic deosebire, el nu poate s aleag dect puncte aflate pe gril. Astfel la al k-lea pas, n loc de a alege mijlocul intervalului cu cea mai mare eroare, va alege punctul din gril care este cel mai apropiat de mijloc. Evident, intervalele obinute la pasul k sunt de asemenea separate de punctele din gril. Dac antrenorul a ales toate punctele din gril, atunci eroarea maxim posibil pe care o poate face este mai mic dect . Pentru a dovedi aceast ultim aseriune, fie = /M i s considerm mai nti un interval: [k, (k+1)]. tim c urmtoarele relaii sunt adevrate pe acest interval: f (k) = h(k) f (x), h(x) f ((k +1)) = h((k +1)) Astfel: | f (x) - h(x) | f ((k + 1)) - f (k) i
( k +1) ( k +1)

( f ((k + 1) ) f (k ) )
p

f ( x) h( x) dx

( f ((k + 1) ) f (k ) ) p dx
p

Deci:

[ 0 ,1]

f h dx =

[ 0 , )

f h dx + K +

[1 ,1]

f h dx

(( f ( ) f (0)) p + ( f (2 ) f ( )) p + K + ( f (1 ) f (1 2 )) p + + ( f (1) f (1 )) p ) ( f ( ) f (0) + f (2 ) f ( ) + K + + f (1) f (1 )) p ( f (1) f (0)) p M


p

Dac = (/M)p eroarea dup norma Lp poate fi cel mult

[ 0 ,1]

f h dx

1 p

Astfel antrenorul activ trece de la un pas la altul alegnd exemple din grila de puncte. Convergena poate apare la orice pas, dar evident c dup ce s-au luat n considerare toate valorile funciei int necunoscute n toate punctele grilei, eroarea este probabil mai mic dect i algoritmul se poate opri n acest moment.

V.3.3. Simulri experimentale i alte investigaii


Obiectivul nostru este s caracterizm performanele algoritmului AIA ca o strategie de nvare activ. S ne reamintim c algoritmul AIA este o strategie adaptiv de alegere a
122

exemplelor i numrul de exemple de care are nevoie pentru a converge depinde de natura specific a funciei int. Am calculat deja limita superioar a numrului de exemple de care are nevoie n cel mai nefavorabil caz. Vom ncerca n cele ce urmeaz s analizm modul n care strategie difer de alegerea aleatoare i echidistant a exemplelor (echivalent cu nvarea pasiv) fa de alegerea exemplelor cu ajutorul algoritmului AIA (echivalent cu nvarea activ). Am efectuat simulri pe funcii monoton cresctoare arbitrare pentru a caracteriza mai bine condiiile n care strategia activ poate s depeasc ambele strategii pasive cu alegerea exemplelor aleator i cea cu alegerea uniform a exemplelor. Distribuia punctelor selectate cu algoritmul AIA Aa cum s-a menionat anterior, punctele selectate de algoritmul AIA depind de specificul funciei int. De observat felul n care se aleg exemplele. n regiunile unde funcia se schimb mai mult (astfel de regiuni pot fi considerate ca avnd o mai mare densitate informaional i prin urmare mai greu de nvat), algoritmul AIA alege mai multe exemple. n regiunile unde funcia nu se schimb prea mult (corespunznd zonelor de densitate de informaional mic mai uor de nvat), algoritmul AIA alege mai puine exemple. De fapt, densitatea punctelor par s urmeze derivata funciei int aa cum se vede din Fig. 5.4.

Fig. 5.4.: Linia mai deschis indic densitatea datelor alese pentru un exemplu de funcie monoton cresctoare. Linia neagr indic derivata aceleai funcii.

V.4. nvare activ. Aproximarea funciilor derivabile cu derivata mrginit


Fie familia de funcii derivabile, cu derivata mrginit:
df d F = f : [0,1] R | f ( x) este derivabila si dx
123

(5.22)

S observm cteva lucruri despre aceast clas. Mai nti nu exist nici o restricie direct referitor la valorile pe care le pot lua funciile din clasa F. Cu alte cuvinte, M > 0, f F , x [0,1] pentru care f (x) > M. Oricum derivata nti este mrginit, ceea ce nseamn c o funcie oarecare care aparine lui F nu poate avea variaii mari. Vrem s investigm n continuare posibilitatea producerii unei strategii de nvare activ a acestei clase. Mai nti s deducem limita inferioar a numrului de exemple de care are nevoie un antrenor (indiferent dac este pasiv sau activ) pentru a nva aceast clas cu o precizie . De asemenea, vom deduce de asemenea limita superioar a numrului de exemple pe care le alege algoritmul activ. S specificm cteva elemente necesare pentru aceast clas de funcii. Schema de aproximare H este o schem de aproximare spline de ordinul I, domeniul D = [0, 1] este partiionat n intervale de ctre datele din coninute n intervalele : [xi, xi+1], iar metrica dC este o metric L1 dat de relaia
d C ( f 1 , f 2 ) = f 1 ( x) f 2 ( x) dx
C

Rezultatele din aceast seciune pot fi extinse la o norm Lp dar ne mrginim la o metric L1 pentru a simplifica prezentarea.

V.4.1. Limita inferioar a numrului de exemple


Teorema 5.4: Orice algoritm de nvare (indiferent dac este pasiv sau activ) trebuie s aleag cel puin (d / ) exemple (indiferent dac sunt alese aleator, uniform sau alese cu o strategie activ) pentru a nva PAC clasa F. Demonstraie: Prezentm n cele ce urmeaz o schi a demonstraiei [149]. S presupunem c antrenorul alege m exemple (pasiv, n conformitate cu o distribuie, sau activ). Antrenorul poate s obin o eroare mai mare sau egal cu dac alege mai puin de (d/) exemple. S presupunem c n fiecare din cele m puncte care au fost alese de ctre antrenor, funcia are valoarea 0. Astfel, antrenorul este constrns s genereze o funcie aproximant aparinnd lui F i care aproximeaz funcia int cu precizia . Cele m puncte alese de antrenor mpart regiunea [0, 1] n (cel mult) m + 1 intervale diferite. Fie lungimile acestor intervale: b1, b2,..., bm+1. Avem urmtoarea Lem: Lema 5.2: Exist funcii f F astfel nct f interpoleaz datele i kd [0,1] f dx > 4(m + 1) unde k este o constant arbitrar aproape de 1. Demonstraie: S considerm Fig. 5.5. Funcia f este indicat de linia continu. Aa cum se vede, f i schimb semnul n fiecare punct x = xi. Fr a pierde generalitatea s considerm un interval [xi, xi+1] de lungime bi. Fie mijlocul intervalului z = (xi + xi+1)/2. Pe acest interval funcia ia valoarea:
124

d ( x xi ), pentru x [ xi , z ] f ( x) = d ( x xi +1 ), pentru x [ z + , xi +1 ] d ( x z ) 2 d (bi ) , pentru x [ z , z + ] + 2 2

Prin calcule simple obinem:

xi +1

xi

2 b b d bi f dx > d i + b i = 4 2 2

xi 0 z bi

xi+1 1

Figura 5.5:. Construcia funciei care satisface lema.

Evident, poate fi ales mic, astfel nct s avem:

xi +1

xi

f dx >

kdbi 2 4

unde k este aproape de 1 aa cum am dorit. Considernd funcia pe ntregul interval [0,1] obinem:

f dx >

kd 4

b
i

m +1

Acum considerm urmtoarea lem pe care nu o demonstrm deoarece demonstraia este elementar, folosindu-se principiul induciei.

125

Lema 5.3: Pentru o mulime de numere reale b1,..., bm astfel nct b1 + b2 + ... + bm = 1 este adevrat urmtoarea inegalitate:
2 2 b12 + b2 +K+ bm

1 m

S presupunem c antrenorul alege o funcie aproximant h. Fie h dx = . Dac > , se poate considera funcia int f = 0. n cazul acesta
[ 0 ,1]

f h dx = > . Pe de alt parte, dac < , putem considera pe f (ca mai sus). n acest

caz,

f h dx f dx h dx =
0 0

kd . 4(m + 1)

Evident, dac m < (kd/8) - 1, antrenorul va alege o aproximant cu o eroare mai mare dect . n orice situaie antrenorul este obligat s aleag o aproximant cu o eroare egal sau mai mare cu , dac sunt alese mai puin de (d / ) exemple (indiferent cum sunt alese aceste exemple).

V.4.2. Obinerea unei strategii optimale de alegere a exemplelor


n Fig. 5.6. am reprezentat o mulime date de antrenament coninnd informaii despre o funcie int necunoscut. Se tie c funcia are derivata nti mrginit de d, deci este clar c funcia int este obligat s fie cuprins n paralelogramele prezentate n figur. Pantele laturilor sunt d respectiv -d. Astfel, FT conine toate funciile care sunt coninute n interiorul paralelogramelor i interpoleaz setul de date. Putem acum s calculm eroarea schemei de aproximare pe orice interval C (dat de relaia eC(H, T, F)) pentru acest caz. S amintim c schema de aproximare H este o schem spline de ordinul I, i c setul de date de antrenament T const din puncte de forma (x, y). Fig. 5.7. prezint situaia pe un interval particular Ci = [xi, xi+1]. Eroarea maxim pe care schema de aproximare H o poate avea pe acest interval este dat de jumtate din aria paralelogramului (deci de aria zonei haurate). eCi(H, T, F) = sup f FT

Ci

h f dx =

d 2 Bi2 Ai2 4d

(5.23)

unde Ai = | f (xi+1) - f (xi)| i Bi = xi+1 - xi.

126

yi+1

yi

xi

xi+1

Fig. 5.6: O descriere a situaiei pentru un o mulime de date de antrenament oarecare. Setul de funcii FT const din toate funciile care se cuprind n paralelogramele prezentate i trec prin punctele mulimii de antrenament (de exemplu funciile reprezentate cu linie ntrerupt). Funcia de aproximat (int) este reprezentat cu linie continu.

yi+1

yi 0 xi

B Ci xi+1

Fig. 5.7:.Versiunea mrit a intervalului Ci. Eroarea maxim pe care o poate avea schema de aproximare este indicat de zona haurat.

Evident, eroarea maxim pe care schema de aproximare o poate avea pe ntreg domeniul de definiie D este dat de: eD(H, T, F) = sup f FT

j =0

Cj

h f dx = e C j
j =0

(5.24)

Calculul erorii eC este foarte important pentru elaborarea unei strategii active de alegere a exemplelor. S ne imaginm c alegem punctul x din intervalul Ci ca un nou
127

exemplu, valoarea y aparinnd deci lui FT(x). Acesta adaug nc un interval i mparte intervalul Ci n dou intervale C i1 i C i2 , cum este prezentat n Fig.5.8. Obinem, de asemenea, dou paralelograme corespunztoare mai mici, n interiorul crora este cuprins funcia int.

(xi+1,yi+1)

(xi,yi)

Ci1

Ci2

Ci

Fig. 5.8.: Situaia cnd n intervalul Ci este ales un nou exemplu. Acesta mparte intervalul n dou sub-intervale i cele dou zone haurate indic noile constrngeri ale funciei.

Adugarea noului punct la setul de date T ' = T U ( x, y ) ne cere s refacem funcia aproximant. De asemenea, se cere actualizarea erorii eC, adic acum trebuie s calculm eC (H, T, F). Mai nti observm c adugarea noului punct la setul de date nu afecteaz eroarea pe nici un alt interval, n afara celui divizat de ctre acesta, Ci. S observm c paralelogramele (a cror arie dau eroarea pe fiecare interval) nu sunt afectate de noul punct. Astfel:
eC j (H, T, F) = eCi (H, T, F) = 1/(4d)(d2Bj2 - Aj2) pentru j i.

(5.25)

Pentru intervalul Ci, eroarea total este calculat acum astfel: jumtate din suma ariilor celor dou paralelograme (paralelogramele haurate n Fig.5.8.): eCi (H, T, F) = (1/4d)((d2u2 - v2) + (d2(Bi - u)2 - (Ai - v)2)) = = 1/(4d)((d2u2 + d2(Bi - u)2) - (v2 + (Ai - v)2)) (5.26) unde u = x - xi, v = y - yi. S observm c u[0, Bi] pentru xi x xi+1. Oricum, fiind un punct x fixat (acesta fixeaz valoarea lui u), valorile posibile pe care v le poate lua sunt constrnse de geometria paralelogramului. n particular, v se poate afla
128

doar n interiorul paralelogramului. Pentru un x fixat, tim c FT(x) reprezint mulimea valorilor posibile pentru y. Deoarece v = y - yi este clar c v FT(x) - yi. Evident, dac y < yi obinem v < 0, i Ai - v > Ai. Analog, dac y > yi+1 obinem c v > Ai. S enunm urmtoarea lem: Lema 5.4:

B = arg min u[0,B] sup v{T ( x ) yi } H 1 (u , v) 2 unde H1(u,v) = ((d2u2 + d2(B - u)2) - (v2 + (A - v)2))

(5.27)

1 2 2 d B A 2 = min u[0,B] sup v{T ( x ) yi } H 2 (u, v) 2 unde H2(u,v) = ((d2u2 + d2(B - u)2) - (v2 + (A - v)2)).

(5.28)

Folosind lema de mai sus n ecuaia (5.26), observm c: minxCi sup yFT ( x ) eCi(H, T (x, y), F) = 1/(8d)(d2Bi2 - Ai2) = = 1/2 eCi(H, T, F) Cu alte cuvinte, alegnd mijlocul intervalului Ci ca nou exemplu avem garantat reducerea erorii la jumtate. Aceasta ne permite s formulm un algoritm de nvare activ care este optimal n sensul implicat n formularea noastr.

V.4.3. Algoritmul de nvare activ (AIA)


1. [Pasul iniial] Se afl valorile funciei n punctele x = 0 i x = 1. La acest pas domeniul D = [0,1] este compus dintr-un singur interval: C1 = [0,1]. Calculm eroarea 1 2 eC1 = d 2 f (1) f ( 0) i eD = eC1 . 4d Dac eD < , atunci STOP i funcia de aproximare este interpolarea liniar a punctelor; altfel calculm mijlocul intervalului pentru a partiiona domeniul n dou sub-intervale [0, 1/2), [1/2, 1]. 2. [Actualizarea general a datelor i condiia de oprire a algoritmului] La pasul k, presupunem c intervalului [0, 1] este partiionat astfel: [x0 = 0, x1), [x1, x2),..., [xk-1, xk = 1] Pentru fiecare i = 1,2,,k calculm eroarea: eCi = 1/(4d)(d2(xi - xi-1)2 - |yi - yi-1|2) Mijlocul intervalului cu eroarea cea mai mare va fi utilizat pentru a alege noul punct.

Eroarea total e D = eCi este calculat la fiecare pas; procesul se termin cnd eD < .
i =1

Funcia de aproximare h la fiecare pas este o interpolare liniar a tuturor punctelor din setul de date, iar aproximanta final se obine dup terminarea ntregului proces.

129

S artm c exist o limit superioar a numrului de exemple de care are nevoie algoritmul AIA pentru a nva o clas de funcii. Teorema 5.5: Algoritmul AIA va nva PAC clasa de funcii o eroare mai mic dect d + 1 exemple. utiliznd cel mult 4 Demonstraie: S presupunem c avem o gril cu n puncte echidistante, aflate la distana de 1/(n-1) unul de cellalt. Antrenorul nu poate alege puncte doar de pe gril. Astfel, la pasul k, n loc s se aleag mijlocul intervalului cu eroarea cea mai mare, se va alege punctul de pe gril cel mai apropiat de acest mijloc. S presupunem c au fost alese n acest fel toate punctele de pe gril: avem astfel n-1 intervale i conform argumentelor aduse mai sus, eroarea maxim pe fiecare interval este limitat de: 2 2 1 2 1 1 2 1 2 d yi yi 1 d 4 d n 1 4 d n 1 Dac exist (n-1) de astfel de intervale atunci eroarea total este limitat de:
(n 1) 1 2 1 1 1 d = n 1 4d 4 d n 1
2

Este uor de artat c pentru n > d / (4) +1, eroarea maxim este mai mic dect . Astfel, antrenorul nu are nevoie s aleag mai mult de d / (4) +1 exemple pentru a nva funcia cu precizia . De menionat c antrenorul va identifica funcia int cu precizia cu probabilitatea 1, urmnd strategia descris de algoritmul activ AIA. Acum avem o limit inferioar i una superioar a numrului de exemple necesare pentru nvarea PAC a clasei de funcii.

V.4.4. Distribuia exemplelor selectate


Algoritmul activ AIA alege exemplele adaptiv pe baza exemplelor selectate anterior. Astfel distribuia exemplelor din domeniul D al funciei depinde de funcia int arbitrar. S observm c algoritmul alege (exemple mai puine n locurile n care funcia int este dreapt i mai multe n locurile unde funcia int are o pant mai abrupt. Cu alte cuvinte, dac funcia are valori apropiate n punctele xi i n xi+1, atunci ea poate avea orice valori ntre aceste puncte. Oricum, dac f(xi+1) este mult mai mare (sau mult mai mic) dect f(xi), atunci, datorit mrginirii derivatei funciei de constanta d, funcia ar crete sau descrete constant pe ntregul interval. Deci, densitatea exemplelor este invers proporional cu magnitudinea derivatei nti a funciei int.

130

131

VI. nvarea nesupervizat


VI.1. Generaliti
nvarea reprezint procesul de modificare ale triilor sinaptice a reelei neuronale, ca rspuns al acesteia la datele de antrenament prezentate la stratul de intrare i uneori la stratul de ieire - n cadrul nvrii supervizate - cu scopul configurrii reelei neuronale pentru a executa aciunea dorit [59]. n cadrul nvrii nesupervizate nu exist profesor (antrenor). Reeaua neuronal trebuie s fie n stare s "descopere" singur modele, trsturi, corelaii sau categorii n mulimea datelor de intrare i s le codifice sub forma unor date de ieire. Neuronii i conexiunile reelei neuronale trebuie s reprezinte un anumit grad de auto-organizare (selforganization). nvarea nesupervizat poate fi utilizat doar atunci cnd n mulimea datelor de intrare exist redundan. Fr redundan este imposibil de a descoperi vreun model (patern) sau trstur n mulimea datelor de intrare. Din acest punct de vedere redundana asigur cunoaterea [96]. Tipurile de modele detectabile de ctre o reea neuronal cu nvare nesupervizat depind de arhitectura reelei neuronale. Analiznd posibilitile a ceea ce pot reprezent datele de ieire ale unei astfel de reele neuronale, avem urmtoarele cazuri [96]: 1. Similaritate. Valoarea de ieire real generat de unicul neuron de ieire al stratului de ieire al reelei neuronale ne poate furniza informaii relativ la gradul de similaritate al unei noi date de intrare relativ la un model mediu prezentat reelei neuronale n trecut. Reeaua neuronal va nva treptat ceea ce reprezint un model mediu. 2. Analiza componentei principale (PCA - Principal Component Analysis) [109]. Extinznd cazul precedent la situaia reelei neuronale cu mai muli neuroni de ieire n stratul de ieire, ajungem la construcia unei mulimi de axe de-a lungul crora se msoar gradul de similaritate relativ la date de antrenament prezentate anterior. Este folosit ca o metod inspirat din statistic, numit Analiza Componentei Principale, n care se iau n considerare direciile vectorilor proprii ale matricei de corelaie ale datelor de intrare. 3. Clustering. O reea neuronal cu valori de ieire binare, avnd un unic neuron de ieire activ (genernd valoare binar 1) iar ceilali neuroni de ieire inactivi (genernd valorile binare 0), va desemna crei categorii aparine un vector de intrare. Apartenena la o anumit categorie trebuie efectuat de reeaua neuronal pe baza informaiilor de corelare a vectorilor de intrare. Vectorii de intrare similari sau asemntori vor constitui o mulime numit cluster (nor), fiind clasificai n aceeai clas de ieire, mai precis, acelai neuron din stratul de ieire va fi activat. 4. Prototipuri. n acest caz reeaua neuronal va forma categorii ca i n cazul clusteringului, dar valoarea de ieire nu va fi o unic valoare binar 1, ci un prototip sau exemplar reprezentativ al clasei sau categoriei corespunztoare. Reeaua neuronal se comport n acest caz i ca o memorie asociativ. 5. Codificare. Valoarea de ieire al unei reele neuronale poate s reprezinte versiunea codificat a datelor de intrare prezentate la stratul de intrare al reelei neuronale,
132

codificare fcut folosind un numr ct mai mic de bii, pstrnd ct mai mult din relevana informaiei originale. O astfel de codificare este necesar pentru o compresie a datelor, preliminar transmisiei acestora printr-un canal de transmisie cu band limitat (presupunnd c la cellalt capt al canalului de transmisie exist o reea neuronal decodificatoare, cu funcie invers reelei neuronale de codificare). 6. Hri de trsturi (Feature Mapping). Aceast situaie apare n cazul cnd stratul de ieire al reelei neuronale posed o arhitectur geometric fix (ca de exemplu o matrice bidimensional) i doar cte un neuron de ieire este activ la un moment dat. n acest fel, vectorii de intrare prezentai la stratul de intrare al reelei neuronale sunt aplicai la diferite puncte din schema (harta) reprezentat de stratul de ieire, obinndu-se o hart topografic a vectorilor de intrare, vectorii de intrare asemntori fiind ntotdeauna aplicai unor puncte apropiate ale hrii de trsturi reprezentat de stratul de ieire. Aceste cazuri nu sunt n mod necesar distincte, putnd fi combinate n diferite alte cazuri. De exemplu, cazul de codificare poate fi executat cu ajutorul cazului analizei componentei principale, sau a cazului de clustering, aceast metod fiind denumit n acest context cuantificare vectorial (vector quantization) [155]. De asemenea, analiza componentei principale poate fi folosit pentru aa numita reducere dimensional (dimensionality reduction) a datelor de intrare, nainte de a fi aplicat clusteringul sau hrile de trsturi. Reducerea dimensional este necesar mai ales atunci cnd cutm modele ntr-o mulime de date necunoscut - un spaiu de date de mare dimensionalitate avnd un numr mic de exemple. Trebuie s subliniem c nvarea nesupervizat poate fi util chiar n situaii unde este posibil i nvarea supervizat, ca de exemplu: BackPropagation pentru un PMS este un algoritm de nvare lent, deoarece valorile triilor sinaptice dintr-un strat depind de triile sinaptice ale celorlalte straturi. Acest lucru poate fi evitat pn la o anumit limit prin utilizarea unor algoritmi de nvare nesupervizat sau a unor algoritmi de nvare hibrizi supervizai-nesupervizai. Uneori, chiar i dup faza de antrenament al unei reele neuronale cu un algoritm de nvare supervizat este util a aplica reelei neuronale i o faz de nvare nesupervizat, astfel ca reeaua neuronal s reueasc o adaptare gradual la datele de intrare. n general arhitectura reelelor neuronale antrenate nesupervizat, este simpl: cele mai multe dintre ele sunt alctuite dint-un singur strat, cu propagarea direct a informailor de la stratul de intrare ctre stratul de ieire(cu excepia modelului ARTAdaptive Resonance Theory); stratul de ieire al acestor reele neuronale conine un numr mult mai mic de neuroni dect stratul de intrare, excepie fcnd cazul hrilor de trsturi. arhitectura acestor reele neuronale este mult mai apropiat de modelele neurobiologice naturale dect orice alt arhitectur de reea neuronal.

Vom considera n acest capitol o serie de tehnici de nvare bazate pe o regul Hebb modificat [69], [94]. De asemenea, vectorii de ieire ce se obin la stratul de ieire i vom considera cu valori reale continue, fr a li se aplica metoda winner-take-all (neuronul din stratul de ieire cu cea mai mare valoare de ieire este declarat nvingtor, fiind singurul neuron considerat activ). Scopul principal l va reprezenta gradul de similaritate al datelor de intrare sau proiecia acestora de-a lungul componentelor principale.

133

VI.2. nvarea nesupervizat Hebbian simpl


VI.2.1. Modelul liniar simplu

S facem urmtoarele convenii:


avem o mulime de vectori de intrare x = ( x1 ,..., x n ), = 1, K, P 6, obinut cu ajutorul unei distribuii probabilistice P(x);

componentele xi ale vectorului de intrare x le considerm ca avnd valori continue reale sau discrete booleene {-1,+1}; fiecare pas din faza de nvare presupune: generarea unui vector de intrare x din distribuia probabilistic P(x), aplicarea vectorului de intrare x la stratul de intrare al reelei neuronale;

dup ce reeaua neuronal a nvat destul, ea va trebui s fie capabil s ne msoare conformitatea unui vector de intrare oarecare cu distribuiei probabilistic P. S considerm cel mai simplu caz al unei reele neuronale de tip PS, (Perceptron Simplu), cu un singur neuron n stratul de ieire, cu funcie de activare liniar, model pe care-l vom numi pe scurt Model Liniar Simplu MLS.

w1

w2

w3

wi

wn

x1

x2

x3

xi

xn

Fig. 6.1.: Arhitectura unui MLS. Neuronul de ieire are funcia de activare liniar.

Deoarece funcia de activare a neuronului din stratul de ieire este liniar, putem s scriem:

Din considerente de simplificare a scrierii vom renuna la termenul Bias indicele superior care reprezint indexul mulimii de antrenament.

x0 i atunci cnd nu exist pericol de confuzie i la

134

y = w j x j = wT x = x T w
j =1

(6.1)

unde x T nseamn transpusa vectorului coloan x, iar produsul " " reprezint produsul matricial. Dorina noastr, dup cum am mai amintit, este ca neuronul de ieire s genereze o valoare de ieire y care s reprezinte o msur scalar a gradului de familiaritate: cu ct un vector de intrare are o probabilitate mai mare cu att valoarea de ieire generat y trebuie s fie mai mare. Acest lucru reprezint chiar strategia de nvare Hebbian, exprimabil matematic prin relaia:
wi = y xi

(6.2)

unde reprezint rata de nvare. Mrimea de ieire y capt valori din ce n ce mai mari, pe msur ce prezentm vectori de intrare stratului de intrare. Vectorii de intrare cu frecvena cea mai mare vor avea evident cea mai mare influen n procesul de nvare, producnd i cea mai mare valoare de ieire y. Acest lucru ns prezint i un inconvenient: triile neuronale au valori din ce n ce mai mari, ceea ce implic faptul c procesul de nvare nu se oprete niciodat. De aceea vom ncerca o analiz mai detaliat a relaiei (6.2). S presupunem c la un moment dat exist un punct de echilibru stabil pentru triile sinaptice w. Dup ce procesul de nvare a evoluat suficient, vectorul w trebuie s se gseasc ntr-o vecintate V a punctului de echilibru stabil, fluctuaiile n jurul acestui punct fiind proporionale cu rata de nvare , n medie, poziia sa ns coincide cu punctul de echilibru stabil. Cu alte cuvinte, dorina noastr este ca media modificrilor triilor sinaptice s fie zero, adic:

w i = y x i =

w
j =1

x j x i = C ij w j = C w = 0
j =1

(6.3)

unde notaia reprezint media n raport cu distribuia probabilistic P(x), iar C matricea de corelaie, definit astfel:

C ij = xi x j
sau n notaie matricial:
C = x xT

(6.4)

(6.5)

Obs.6.1: a). Matricea C nu reprezint exact matricea de covarian n sensul teoriei probabilitilor, unde, matricea de covarian este reprezentat ca fiind ( xi xi ) ( x j x j ) .

135

b). Matricea de covarian C este simetric: c ij = c ji . De aceea, ea are toate valorile proprii reale, iar vectorii proprii pot fi considerai ortogonali. c). Matricea de covarian C este pozitiv semi-definit:
u T C u = u T x x T u = u T x x T u = ( x T u) 2 0 ( ) u

(6.6)

deci toi vectorii si proprii sunt mai mari sau egali cu zero. Revenind la relaia (6.5), punctul ipotetic de echilibru stabil w reprezint un vector propriu al matricei de covarian C cu valoarea proprie 0. Dar acesta nu poate fi stabil, cci n mod necesar matricea de covarian C are i valori proprii strict pozitive, de aceea orice fluctuaie de-a lungul direciei date de un vector propriu cu valoare proprie strict pozitiv va crete exponenial. Astfel, direcia cu cea mai mare valoare proprie max relativ la matricea C, va deveni dominant, w va tinde gradual ctre vectorul propriu ce corespunde la valoarea proprie max . Din cele prezentate pn acuma rezult urmtoarea concluzie: Legea de nvare Hebbian (6.2) are doar puncte fixe w instabile.

VI.2.2. Regula lui Oja


Pentru ca s prevenim fenomenul de divergen ce apare n nvarea Hebbian, trebuie s limitm creterea valorilor vectorului triilor sinaptice w. n literatura de specialitate exist mai multe variante [96] ale aceleai idei: - renormalizarea vectorilor triilor sinaptice dup fiecare pas al procesului de nvare w ' = w , alegnd astfel nct |w'| = 1. n lucrarea [150], Oja prezint o metod mai eficient, modificnd legea de nvare Hebbian (6.2), astfel nct vectorii triilor sinaptice s tind ctre o valoare constant |w| = 1, fr a mai fi necesar o renormalizare manual dup fiecare pas al procesului de nvare. Vectorul triilor sinaptice w va tinde ctre un vector propriu al matricei de covarian C, ce are valoarea proprie maximal max . Acest vector propriu este numit vector propriu maximal. Regula lui Oja [151], const n a aduna un termen reductiv, proporional cu y2, la legea de nvare Hebbian (6.2):

w i = y( x i yw i )

(6.7)

S observm analogia dintre regula lui Oja i legea de nvare Delta (3.6); deoarece factorul de modificare al triilor sinaptice w depinde de diferena dintre vectorul de intrare xi i valoarea de ieire propagat napoi ywi, regula de nvare a lui Oja seamn cu o lege de nvare Delta invers. S artm c ntr-adevr legea de nvare Oja face ca vectorul triilor sinaptice w s tind ctre un vector unitar sau ctre un vector propriu maximal. Pentru aceasta s analizm comportamentul unui proces de nvare nesupervizat bazat pe regula lui Oja.
136

Se prezint la stratul de intrare al reelei neuronale vectori de intrare x, generai de o distribuie Gaussian bidimensional; am considerat cazul unei reele neuronale cu doi neuroni n stratul de intrare, deci vectorul de intrare i vectorul triilor sinaptice au cte dou componente: x = (x1, x2) i w = (w1, w2). Iniial, vectorul triilor sinaptice a fost iniializat cu valori aleatoare mici, actualiznd acest vector pentru fiecare vector de intrare prezentat la stratul de intrare al reelei neuronale conform cu regula lui Oja (6.7). n Fig.6.2 liniile subiri arat c vectorul triilor sinaptice |w| crete n primele faze ale procesului de nvare, ajungnd ca dup ce acest proces evolueaz, s se stabilizeze la o valoare constant 1, iar n continuare s fluctueze pe un arc de cerc ce corespunde cercului |w| = 1. n aceeai figur se observ c convergena la cercul unitar (cu centrul n origine i raza egal cu 1) a fost mult mai rapid n cazul (b) dect n cazul (a). Vectorii reprezentai cu ajutorul unor sgei reprezint vectorii medii ai triilor sinaptice. Interpretarea poziiei lor este urmtoarea: deoarece suntem n cazul modelului liniar simplu, i neuronul de ieire are ataat o funcie de transfer liniar, valoarea de ieire y reprezint componenta vectorului de intrare x de-a lungul direciei vectorului triilor sinaptice w. n cazul (a), datele generate de distribuia probabilistic P(x) au o medie aproximativ nul, valoarea de ieire y va avea de asemenea, n medie, o valoare aproximativ nul, indiferent de direcia vectorului triilor sinaptice w, avnd totui o magnitudine mai mare pentru direcia gsit n urma procesului de nvare. n cazul (b), valoarea medie a lui y este maximizat relativ la direcia gsit n urma procesului de nvare.

Fig.6.2.: Exemplu relativ la legea de nvare nesupervizat Oja. Punctele reprezint 1000 de date de nvare generate de distribuia probabilistic P(x). Sgeile reprezint vectorul mediu al triilor sinaptice dup un numr mare de actualizri efectuate de procesul de nvare. Liniile subiri reprezint traiectoriile vectorului triilor sinaptice w n timpul procesului de nvare: (a) pentru 2500 de pai de nvare; (b) pentru 1000 de pai de nvare.

n ambele cazuri (a) i (b) direcia gsit de legea de nvare nesupervizat bazat pe regula lui Oja determin valori de ieire y mai mari dect orice alt direcie, cnd procesul de nvare se bazeaz pe vectori de intrare generai de distribuia probabilistic original. Pentru vectori de intrare generai de alt distribuie probabilistic nefamiliar cu procesul
137

de nvare, acetia vor tinde s genereze valori mai mici pentru |y|, chiar dac aceste valori au n medie o magnitudine mai mare. Astfel, reeaua neuronal construiete un index de similaritate relativ la distribuia probabilistic privit ca un ntreg, dar nu i n mod necesar pentru un vector de intrare particular x. n concluzie, putem afirma faptul c regula lui Oja alege n urma procesului de nvare, direcia w de maximizare a valorii y 2 . Pentru date de intrare ca cele din cazul (a) cu medie nul, aceasta corespunde cazului maximizrii varianei. S demonstrm c ntr-adevr aplicarea legii de nvare nesupervizate bazate pe regula lui Oja face ca vectorul triilor sinaptice s convearg la un vector w ce posed urmtoarele proprieti: Vectorul w este unitar avnd | w | = 1 sau

w
i =1

2 i

= 1.

Direcia vectorului propriu: w este situat ntr-o vecintate a vectorului propriu maximal a matricei de covarian C. Maximizarea covarianei: w are o direcie ce maximizeaz y 2 .

Folosind relaiile (6.1) i (6.5) avem:


y 2 = ( w T x ) 2 = w T xx T w = w T Cw

(6.8)

Pentru un vector al triilor sinaptice cu |w| fixat i pentru o matrice de covarian simetric C, rezultate cunoscute [21] afirm c forma cvadratic w T Cw este maximizat cnd vectorul triilor sinaptice w are direcia unui vector propriu maximal a lui C. Astfel, aceast direcie maximizeaz y 2 , deci Proprietatea 3 este o consecin simpl a Proprietii 2. De aceea, trebuie s demonstrm doar proprietatea 1 i proprietatea 2. Conform afirmaiilor fcute pentru relaia (6.3), cnd atingem un punct de echilibru, variaia medie a modificrilor triilor sinaptice trebuie s fie nul, adic:
0 = w i = yx i y 2 w i =
n n n

w
j =1

x j x i w j x j w k x k wi =
j =1 k =1

= Cij w j w j C jk w k w i j =1 j =1 k =1

(6.9)

sau n scriere matricial:


0 = w = Cw w T Cw w

(6.10)

Dac notm:
= w T Cw

(6.11)

Atunci ntr-un punct de echilibru vom avea:

138

0 = Cw w sau Cw = w
2

(6.12)

= w T Cw = w T w = w (6.13) Ecuaia (6.12) arat c un vector al triilor sinaptice w ce corespunde unui punct de echilibru, trebuie s fie un vector propriu a matricei de covarian C. De asemenea, relaia (6.13) exprim faptul c |w| = 1. Singurul lucru ce ne-a mai rmas de demonstrat este c = max .

Orice vector propriu normalizat a matricei de covarian C satisface relaia (6.10), dar numai vectorul propriu ce corespunde lui max este stabil. Pentru a demonstra acest lucru, fie w vectorul triilor sinaptice situat ntr-o vecintate a unui vector propriu normalizat a matricei de covarian C, notat c. Atunci putem scrie relaiile:
w = c +

(6.14) (6.15)

cu:

Cc = c i c = 1
Utiliznd relaia (6.9), variaia medie a lui va fi:
= w = C(c + )

= c + C ( c ) Cc c T Cc c (c ) C c
T T

(c ) Cc + O( 2 ) =
T

= C 2 T c c + O( 2 ).

n continuare, alegem componenta variaiei lui de-a lungul direciei unui alt vector propriu normalizat al matricei de covarian C, notat c. Pentru aceasta nmulim la stnga relaia (6.16) cu (c)T, ignornd termenii de ordinul O(2):

[ (( c )

+ T C(c + ) (c + ) =

(6.16)

(c )

= c

= 2 c

( )

2 T c c
T

]( )

( )

(6.17)

unde:
(c ) T c =

(6.18)

datorit ortogonalitii vectorilor , iar


1 , dac = = 0 , dac

(6.19)

reprezint simbolul delta a lui Kroenecker. S analizm relaia (6.17): pentru componenta lui de-a lungul vectorului c va crete ceea ce va provoca instabilitatea soluiei, dac > . Atunci, dac nu este cea mai mare valoare proprie max va exista ntotdeauna o direcie instabil. Pe de alt parte, un vector propriu ce corespunde lui max este stabil in orice direcie, incluznd chiar i direcia c. Adic exact ceea ce trebuia s demonstrm.
139

Obs.6.2:. Demonstraia noastr nu a avut reuit s dovedeasc convergena metodei la o soluie, ci doar c n medie avem un punct fix al regulii lui Oja. Pentru demonstrarea convergenei trebuie folosite tehnici mai complexe, ca de exemplu teoria aproximrii stohastice [120], [152].

VI.2.3. Alte reguli de nvare nesupervizat


Regula lui Oja (6.8) nu este singura metod de transformare a regulii de nvare nesupervizat Hebbian (6.2) astfel nct triile sinaptice s rmn mrginite. Linsker [127], [128] utilizeaz o tehnic de tiere (clipping): triile sinaptice individuale wi sunt constrnse s satisfac relaia:

w wi w+
Yuille et al. [214] au utilizat regula:

(6.20)

w i = yx i w i w

(6.21)

care face ca vectorul triilor sinaptice w s convearg ctre acelai vector propriu maximal ca i cel obinut cu ajutorul regulii lui Oja. Singura diferen const n faptul c nu se mai impune condiia ca vectorul triilor sinaptice s fie de modul unitar ci w = max . Regula lui Yuille (6.21) are dezavantajul c, fa de regula lui Oja, nu este local - pentru a actualiza o trie sinaptic wi avem nevoie de informaii despre toate celelalte trii sinaptice wj ,ji. Avem ns avantajul existenei unei funcii cost asociate reelei neuronale, de forma:
1 n n 1 n 1 1 2 E = Cij w i w j + w i2 = w T Cw w 2 i =1 j =1 4 i =1 2 4
2

(6.22)

Efectul medierii wi n relaia (6.21) este din punct de vedere matematic echivalent cu aplicarea unei metode gradient descendente relativ la suprafaa generat de funcia cost (6.22).

VI.3. Analiza componentei principale

O metod de analiz a datelor, inspirat din statistic [12], este metoda cunoscut sub denumirea analiza componentei principale (PCA - Principal Component Analysis). Metoda este ntlnit i n teoria comunicailor sub denumirea de transformata Karhunen-Loeve, fiind asemntoare cu metoda celor mai mici ptrate. Dup Linsker [128], PCA este echivalent cu maximizarea coninutului informaional al semnalului de ieire n situaii unde acest semnal respect o distribuie probabilistic Gaussian. Scopul metodei PCA este de a determina o mulime de m vectori ortogonali n spaiul datelor de intrare, astfel nct aceti vectori s conin ct mai mult din variana acestor date.
140

Proiectnd datele din spaiul original n-dimensional n spaiul m-dimensional generat de vectorii determinai, se realizeaz o operaie de reducere dimensional, operaie care trebuie ns s rein cea mai mare parte a informaiei intrinseci a datelor de intrare. De obicei m << n, ceea ce implic faptul c datele de intrare, dup ce au fost supuse operaiei de reducie dimensional, sunt mult mai simplu de manipulat. Ca un exemplu, poate fi prezentat cutarea unor clustere de date. n Fig.6.3. este prezentat un exemplu preluat din Linsker [128], unde se poate observa c de obicei clusterele de date sunt mult mai uor de pus n eviden prin proiecia pe o direcie de varian mai mare dect pe o direcie de varian mai mic. PCA determin c prima component principal s fie situat de-a lungul direciei cu varian maxim. A dou component principal este constrns s fie situat n subspaiul perpendicular pe primul spaiu. n cadrul acestui subspaiu a doua component principal este considerat de-a lungul direciei cu varian maxim. Procesul continu n acelai fel: a treia component principal este considerat de-a lungul direciei de varian maxim din subspaiul perpendicular pe primele dou spaii.

Fig.6.3. Ilustrarea modului de lucru al PCA. OA reprezint direcia primei componente principale a distribuiei generate de norul datelor de intrare. Proiecia pe direcia OA conine mai mult informaie despre structura datelor de intrare dect proiecia pe alt direcie OB (Dup Linsker [128]).

n general se poate dovedi faptul ca cea de-a k direcie a componentei principale este de-a lungul direciei unui vector propriu ce corespunde celei de-a k valori proprii maximale a matricei de covarian total ( xi i )(x j j ) , unde i = xi . Obs.6.3.: Pentru date de intrare cu media nul, i = 0 suntem n cazul matricei de covarian C, definit n (6.5). n cele ce urmeaz vom considera c ne aflm n aceast situaie, i prin matrice de covarian vom nelege matricea C definit n (6.5). Pn acuma am vzut c prima component principal - ce corespunde direciei varianei maxime nerestricionate - corespunde unui vector propriu maximal a lui C. S dovedim n continuare afirmaia fcut mai sus, relativ la cea de-a k component principal: pentru aceasta vom scrie variana de-a lungul unei direcii date de un vector unitar u:
u2 = x T u

( )

= u T xx T u = u T Cu

(6.24)

Aplicnd metoda diagonalizrii formei ptratice u T Cu , obinem:


2 u2 = u

(6.25)
141

unde u este componenta vectorului u de-a lungul vectorului propriu c ce corespunde valorii proprii a matricei de covarian C. S considerm n continuare c valorile proprii sunt n ordine descresctoare:
1 2 ... n

(6.26)

cu 1 = max . Procedm n continuare la aplicarea procedeului induciei matematice, presupunnd c principalele componente de la 1 la k - 1 sunt de-a lungul direciilor date de primii k - 1 vectori proprii. Ce-a de-a k component principal este constrns s fie perpendicular pe aceste direcii, astfel c avem:
u1u 2 ... u k 1 = 0

(6.27)

Maximiznd u2 relativ la condiia (6.27) de mai sus, innd cont c u este un vector 2 unitar, deci |u| = 1 sau u = 1 , obinem [96]:

1, dac j = k uj = altfel 0,

(6.28)

ceea ce dovedete c cea de-a k component principal este de-a lungul celui de-al k vector propriu. Mai mult chiar, relaia (6.25) dovedete c variana u2 este egal cu k cnd vectorul unitar u este de-a lungul direciei celei de-a k componente principale.

VI.3.1. PCA - Analiza Componentei Principale aplicat la PS

Aplicarea regulii lui Oja (6.7) va conduce la determinarea unui vector al triilor sinaptice w care maximizeaz ptratul mediu al valorilor de ieire Y 2 . Pentru cazul luat n discuie, cu date de intrare avnd o medie nul (Obs.6.3), vectorul triilor sinaptice reprezint prima component principal. Ar fi de dorit s avem o reea neuronal cu m neuroni de ieire care s realizeze extragerea primelor m componente principale. Acest lucru a fost realizat de Sanger [176] i Oja [150] care au construit o reea neuronal cu arhitectur PS (Perceptron Simplu). Vom lua n considerare cazul PS cu funcie de activare liniar [68], cazul PS cu funcie de activare neliniar fiind tratat n [151]. A i-a valoare de ieire generat de al i-lea neuron de ieire al PS va fi:
Yi = wij x j = w T x = xT w i , i = 1,2,..., m i
j =1 n

(6.29)

142

unde wi reprezint vectorul triilor sinaptice corespunztor celui de-al i-lea neuron de ieire, iar x reprezint vectorul de intrare. Ambii vectori sunt n-dimensionali. Regula de nvare a lui Sanger [176] este:
i wij = Yi x j Yk wkj k =1

(6.30)

Regula de nvare a lui Oja (cu m neuroni) [151], este de fapt regula Oja (6.7) aplicat unui model de reea neuronal cu m neuroni n stratul de ieire:
n wij = Yi x j Yk wkj k =1

(6.31)

Diferena dintre cele dou legi de nvare este dat doar de limit superioar a sumrii: i - pentru regula Sanger, respectiv n - pentru regula Oja. Evident, cele dou reguli coincid pentru modelul de reea neuronal liniar simplu (Fig.6.1), unde m = 1 i pentru primul neuron de ieire i = 1, deci vom ti ntotdeauna c primul neuron al stratului de ieire va detecta prima component principal a datelor de intrare8. Pentru ambele reguli de nvare vectorii triilor sinaptice wi converg ctre vectori ortogonali unitari:
w T w j = ij i

(6.32)

Pentru regula lui Sanger vectorii triilor sinaptice devin exact primele m direcii ale componentelor principale, adic:
w i = c i

(6.33)

unde ci reprezint vectorul propriu normalizat al matricei de corelaie C, vector ce corespunde celei de-a i-a valoare proprie maximal i, valorile proprii fiind considerate n ordine descresctoare, ca n (6.26). S schim demonstraia relaiei (6.33). Pentru aceasta s substituim relaia (6.29) n relaia (6.30) i s considerm media:
wij =

w
p i

= ip x p x j wip x p w kq x q w kj
p k =1 q

= wip C pj wkq C pq wip wkj p k =1 pq

(6.34)

Dup cum am mai amintit, n general preferm s studiem date cu media nul. Reamintim faptul c reeaua neuronal "descoper" vectorii proprii ai matricii de covarian C (1.5), n timp ce componentele principale sunt vectori proprii ai matricii de covarian total cu media nul nu exist nici o diferen. 143
x i

i x j j , unde

i = xi

. Pentru date de intrare

sau n scriere matricial, separnd termenul k = i, avem:


wi i 1 = Cwi wT Cwi w k wT Cwi wi i k =1 k

(6.35)

S aplicm principiul induciei matematice: presupunem adevrat faptul c vectorii triilor sinaptice converg ctre vectorii proprii corespunztori pentru k = 1, 2, ..., i - 1, adic w k = ck , pentru k < i . innd cont de expresia:
x yT x y

(6.36)

care reprezint proiecia unui vector x perpendicular pe un vector unitar y, avem n relaia (6.35):
wi = (Cwi ) wT Cwi wi i

(6.37)

unde notaia (Cwi ) reprezint proiecia lui Cwi pe subspaiul ortogonal pe primii i - 1 vectori proprii. Deoarece C conserv acest subspaiu, avem relaia:

(Cwi ) = Cwi

(6.38)

S presupunem c vectorul triilor sinaptice wi are o component ce nu aparine acestui subspaiu. Pentru aceast component, primul termen din membrul drept al relaiei (6.37) nu produce nimic, iar pentru al doilea termen aceasta va cauza o descretere ctre zero. Astfel, vectorul wi se relaxeaz n acest subspaiu. Dar, cnd restricionm la ntregul subspaiu, ntreaga relaie (6.37) devine regula lui Oja pentru modelul simplu liniar (6.7) relativ la al i-lea neuron din stratul de ieire, i astfel, converge la vectorul propriu maximal din subspaiu, care este ci cu valoarea proprie . Pentru fiecare lege de nvare, Sanger sau Oja (cu m neuroni), avem un mecanism similar; neuronii din stratul de ieire proiecteaz un vector de intrare x n spaiul generat de primele m componente principale. S analizm fiecare din cele dou legi de nvare nesupervizate n parte: a). Regula lui Sanger: regula lui Sanger este mai util n aplicaii practice deoarece extrage componentele principale individual i n ordine, genernd un rezultat reproductibil9 relativ la o mulime de date de intrare, cu condiia ca valorile proprii s nu fie degenerate; valori de ieire diferite sunt statistic necorelate variana lor descrescnd constant o dat cu creterea lui i. Astfel, n aplicaii practice referitoare la compresii de date i codificare de date vor fi necesari tot mai puini bii de informaie pentru valori de ieire ulterioare;

Reproductibilitatea este n valoare absolut, deoarece, datorit semnului , pot aprea diferene de semn.

144

poate fi util o analiz a varianei valorilor de ieire, care de fapt reprezint valoarea proprie corespunztoare, ca o msur a utilitii acelor valori de ieire; putem considera un prag al varianei pn la care s considerm o valoare de ieire ca fiind util.

b). Regula lui Oja (cu m neuroni): - regula lui Oja (cu m neuroni) genereaz vectori ai triilor sinaptice ce pot s difere de la un set de date de antrenament la altul, depinznd de condiiile iniiale i de datele de antrenament prezentate reelei neuronale; - n medie, variana valorilor de ieire generate de neuronii de ieire este aceeai; acest fapt poate fi folosit n unele aplicaii relativ la reele neuronale cu mai multe straturi, ca de exemplu PMS [68], unde se dorete o mprtiere uniform a informaiei ntre neuroni. Nici una din cele dou reguli de nvare nu are ns caracter local. De aceea, operaia de actualizare a triilor sinaptice wij necesit mai mult informaie dect este disponibil la neuronul al i-lea din stratul de intrare i la neuronul al j-lea din stratul de ieire. De aceea, Sanger [176] sugereaz o reformulare a legii sale de nvare (6.30), n aa fel nct s captureze i caracterul de localitate:
i 1 wij =Yi x j Yk wkj Yi wij k =1

(6.39)

VI.4. Hri de trsturi (feature detection)


Metodele de nvare Hebbiene au fost aplicate n diferite variante pentru a nva reele neuronale numite detectoare de trsturi sau hri de trsturi (feature detection), ca o analogie cu retina ochiului, stratul de intrare fiind o matrice bi-dimensional de pixeli, numit "retin". De obicei, mulimea datelor de intrare este bine definit i restrns la o anumit clas de simboluri - ca de exemplu modele de litere, modele de cifre, modele de code-baruri etc. rolul neuronilor din stratul de ieire fiind acela de a deveni mai sensibili la unul din modelele prezentate la stratul de intrare. Analogia cu retina ochiului uman este evident; anumite grupuri de celule specializate rspund difereniat la diferiii stimuli optici. Demn de remarcat este faptul c o astfel de reea neuronal nu are rolul de a reduce dimensionalitatea datelor de intrare, ci de a transforma informaia prezentat la stratul de intrare al reelei neuronale. Conform cu [19] putem defini mrimea numit selectivitate a unei valori de ieire Yi , generat de al i-lea neuron de ieire astfel:
Si = 1 Yi max Yi

(6.40)

145

unde prin Yi nelegem media valorilor de ieire ale neuronului al i-lea de ieire relativ la mulimea tuturor datelor de intrare posibile. Selectivitatea Si tinde la 1 dac al i-lea neuron de ieire genereaz valori mari doar pentru o anumit dat de intrare (cnd datele de intrare sunt discrete) sau pentru o mulime restrns de date de intrare (cnd avem mulimea datelor de intrare continu). Selectivitatea Si tinde la 0 dac al i-lea neuron de ieire genereaz valori egale sau aproximativ egale pentru toate datele de intrare. Problema care se pune este cum s construim arhitectura unei reele neuronale i cum s nvm reeaua neuronal n aa fel nct la nceputul procesului de nvare valorile de ieire Yi s aib o selectivitate sczut, apropiat de zero, iar pe parcursul procesului de nvare selectivitatea s tind ctre 1. Mai mult chiar, am dori ca diferii neuroni din stratul de ieire s devin foarte senzitivi la anumite date de intrare. Dac aranjm neuronii din stratul de ieire al reelei neuronale ntr-o configuraie geometric, ca de exemplu o matrice bidimensional, dorina noastr este ca date de intrare similare s genereze rspunsuri la stratul de ieire n regiuni identice sau foarte apropiate. n acest fel se obin i schemele de trsturi (feature mapping) asupra crora vom reveni n capitolul urmtor. Analogia cu reelele neuronale biologice este evident. Cercetri efectuate [105] au pus n eviden existena unor neuroni n cortexul vizual (de exemplu n regiunea 17 sau V1) care rspund preferenial la stimuli vizuali sub form de bar sau de vrfuri. Linsker [127], [128], a dezvoltat un exemplu de reea neuronal pentru detectarea trsturilor, bazat pe un algoritm de nvare competitiv (competitive learning). Exemplul su este motivat de proprietile celulelor sistemelor vizuale ale mamiferelor, din primele faze de dezvoltare. Deoarece, aceste proprieti se dezvolt la unele mamifere nainte de natere, ele nu sunt rezultatul vreunei experiene de structurare [112]. Mecanismul vizual conine un exemplu corespunztor de detecie de trsturi. Aspectele simple legate de form, ca de exemplu contrastul i orientarea, sunt analizate de primele straturi neuronale; aceste trsturi sunt combinate pentru a forma trsturi mai complexe n straturile neuronale mai profunde. n orice strat retinal sau cortical vom gsi grupuri de celule avnd funcii similare. Fiecare celul prelucreaz semnale provenite din cmpul receptiv, care este o regiune limitat a spaiului vizual. Chiar dac funcia de activare a unei celule biologice este n general neliniar [68], aproximarea prin intermediul unei sume liniare este satisfctoare, formarea trsturilor aprnd i n acest caz. Reeaua neuronal a lui Linsker are urmtoarea arhitectur: neuronii reelei neuronale au funcii de activare liniar; neuronii sunt organizai pe straturi bidimensionale, indexate astfel: A (stratul de intrare), B, C, etc.; ntre straturi exist conexiuni de propagare direct (feed-forward); fiecare neuron dintr-un strat (cu excepia stratului de intrare) are conexiuni doar cu un grup de neuroni situai ntr-o aceeai vecintate din stratul precedent, vecintate numit cmp receptiv.

Aceste cmpuri receptive care limiteaz un grup de neuroni dintr-un strat reprezint elementul esenial al reelei neuronale tip Linsker; aceasta permite ca neuronii dintr-un strat s "rspund" la corelaii geometrice spaiale ale datelor din stratul anterior.

146

Fig.6.4. Arhitectura reelei neuronale multistrat a lui Linsker ce are la baz un algoritm de nvare Hebbian. n figur se pot observa cmpurile receptive ale unor neuroni situai n straturile succesive ale reelei neuronale.

S presupunem c avem un neuron care primete valori (stimuli) de intrare de la un cmp receptiv constituit din K neuroni, numerotai 1,2,...,K situat n stratul precedent. Atunci acest neuron va genera urmtoarea valoare de ieire:
Y = a + w jjV j
j =1 K

(6.41)

unde: Vj reprezint fie datele de intrare xj, dac neuronul este situat n stratul B, fie valorile de ieire generate de neuronii din cmpul receptiv al neuronului, dac acesta este situat intr-unul din straturile C, D, .... termenul a este termenul Bias i poate fi omis din reprezentare [68].

Legea de nvare utilizat de Linsker este de tip Hebbian i poate fi exprimat prin formula:
wi = (Vi Y + bVi + cY + d )

(6.42)

unde parametrii b, c, d pot fi alei n aa fel nct s produc diferite tipuri de comportament ale reelei neuronale. Pentru a preveni creterea indefinit a triilor sinaptice putem impune tehnica de mrginire, prin care:

w wi w+

(6.43)

Pentru a fi mai apropiai de realismul biologic, putem utiliza n locul metodei (6.43) de mrginire explicit, o combinaie de trii sinaptice inhibitorii:
147

w wi 0
sau trii sinaptice excitatorii:

(6.44)

0 wi w+

(6.45)

Calculm n continuare media wi de modificare a triilor sinaptice. Pentru aceasta, presupunem c toate valorile de intrare Vi au aceeai medie V , ceea ce ne permitem s scriem:

Vi = V + vi
Atunci din relaia (6.42) obinem:
w = (V + v ) a + w (V + v ) + bV + c (a + w j V ) + d = i i j j j j = C ij w j + w j j j

(6.46)

(6.47)

unde: i reprezint constante obinute ca i combinaii liniare ale constantelor a, b i V; Cij reprezint matricea de covarian vi v j intrare n neuronul considerat. Relaia (6.47) poate fi obinut i prin alt analiz. S considerm funcia energetic (cost):
E = 1 wT Cw + w j 2 2 j

KxK dimensional a valorilor de

(6.48)

Primul termen, w T Cw reprezint variana valorii de ieire Y, ca o extensie la ntreaga matrice de covarian, ca n relaia (6.8). Cel de-al doilea termen reprezint un multiplicator Lagrange care are rolul de a impune restricia:

w
j

(6.49)

Aplicnd tehnica gradientului descendent mediu, relativ la funciei energie (6.48), dup cum am vzut n [55]:

wi =

E wi

(6.50)

obinem exact legea de nvare a lui Linsker (6.47).


148

Deci, legea de nvare Linsker ncearc s maximizeze variana valorii de ieire n raport cu restricia (6.49) i cu condiia de mrginire (6.43). Se poate remarca similaritatea cu regula lui Oja (6.7), care de asemenea maximizeaz variana valorii de ieire n raport cu restricia w 2 = 1, dar fr a mai avea i o condiie de mrginire. j
j

Starea de echilibru a legii de nvare a lui Linsker ar nsemna ca membrul drept al relaiei (6.47) s fie nul, ceea ce ar presupune ca vectorul (1, 1, ..., 1) s fie un vector propriu al matricei de covarian C. n realitate, conform cu [96], triile sinaptice vor tinde la limita intervalului de mrginire, ctre w- dac w 0 i ctre w+ dac w 0 . Dac ar exista mai mult dect o trie sinaptic care s nu aib o valoare egal cu una din valorile extreme wsau w+ atunci legea de nvare Linsker (6.47) ar deveni instabil. Pentru a dovedi acest lucru, s presupunem prin absurd contrariul i s notm cu w* = w + o perturbaie fa de presupusul punct de echilibru. n particular, vom alege astfel nct j = 0, unde j = 0 dac wj este la limita intervalului de mrginire.
j

Atunci, aplicnd legea de nvare a lui Linsker (6.47), obinem:


= C

(6.51)

Deoarece matricea C este pozitiv definit (6.6), din relaia de mai sus rezult c mrimea || crete nedefinit, astfel nct punctul ales nu poate fi un punct de echilibru ceea ce este o contradicie, deci afirmaia fcut nu este adevrat. Aplicarea n practic a metodei lui Linsker se face astfel [128]: se realizeaz procesul de nvare relativ la triile sinaptice dintre stratul de intrare A i stratul urmtor B, dup care se realizeaz procesul de nvare relativ la triile sinaptice dintre stratul B i C, dup aceea dintre stratul C i D, etc.; se simuleaz existena doar a unui strat la un moment dat, utiliznd ca valori de intrare matricea de covarian calculat pe baza valorilor de ieire ale stratului precedent; pentru a modifica triile sinaptice pe baza legii de nvare utilizm regula medie (6.47) i nu regula propriu-zis (6.42). n acest fel avem nevoie doar de matricea de covarian pentru a simula modul de operare al unui neuron.

Ca un exemplu, prezentm rezultatele unei simulri efectuate de Linsker n lucrarea [127]. La stratul de intrare A s-au prezentat date numerice aleatoare, n aa fel nct matricea de covarian s fie proporional cu matricea unitate. Aplicnd faza de nvare, triile sinaptice dintre stratul de intrare A i B, care sunt funcie de parametrii i , s-au obinut valori egale cu limita superioar a intervalului de mrginire w+. Neuronii din stratul B au avut de efectuat doar o mediere a valorilor de ieire din stratul de intrare A, ceea ce a provocat puternica lor corelare deoarece cmpurile lor receptive s-au suprapus unul peste altul; o activitate puternic a unui neuron din stratul B va fi ntlnit i la neuronii vecini.

149

Fig. 6.5. Schema ce reprezint triile sinaptice pozitive (excitatorii) i negative (inhibitorii) din cmpurile receptive ale neuronilor reelei lui Linsker. (a) O celul de expansiune situat n stratul C. (b) O celul de orientare selectiv din stratul G (dup Linsker [127]).

Ca un rezultat al acestei corelaii ntre neuronii vecini din stratul B, neuronii din stratul C se dezvolt sub forma unor celule de expansiune (center-sorround cells), dup cum se poate vedea n Fig. 6.5 (a), unde s-au reprezentat cu + i - triile sinaptice ce corespund valorilor extremale ale intervalului de mrginire w+ i w-. Aceste celule de expansiune vor avea un rspuns maximal, dac n centrul lor receptiv avem stimuli de forma: o pat alb nconjurat de un fundal negru sau o pat neagr nconjurat de un fundal alb.

Fig. 6.6. Funcia ce reprezint covariana triilor sinaptice. Funcia este denumit "plria mexican".

Neuronii din stratul C au ca i funcie de corelaie funcia numit "plria mexican" (mexican hat) - vezi Fig. 6.6; neuronii vecini sunt pozitiv corelai, n timp ce neuronii mai ndeprtai sunt negativ corelai. Aceast corelaie este un rezultat al procesului de nvare i nu a fost impus a priori. n urmtoarele straturi D, E, F corelaiile au generat celule de expansiune cu "calote" tot mai nguste pentru "plria mexican". Tendina negativ a corelaiilor devine tot mai accentuat. n stratul G, Linsker a modificat parametri, mrind raza cmpurilor receptive, ceea ce a provocat ca harta triilor sinaptice s nu mai fie circular simetric, ca n Fig.6.5. (a). Neuronii acestui strat prezint conexiuni alternante negative i pozitive ca n Fig. 6.5 (b). Aceti neuroni sunt numii celule de orientare-selectiv (orientation selective cells) i au un rspuns maximal la o bar luminoas de o orientare particular ntr-un fundal ntunecos.
150

Echivalena biologic este pus n eviden la sistemul vizual al mamiferelor: celule de expansiune au fost descoperite n retin, iar celule de orientare selectiv n cortex [169].

VI.5. nvarea nesupervizat competitiv


VI.5.1. Generaliti

n Cap.VI.1 am studiat tehnici de nvare nesupervizate, bazate pe legea de nvare Hebbian, n care toi sau majoritatea neuronilor din stratul de ieire genereaz valori de ieire. Tehnicile de nvare nesupervizate competitive se bazeaz pe faptul c doar un neuron sau doar un neuron dintr-un grup de neuroni al stratului de ieire devine (devin) activ, genernd o valoare de ieire. Neuronii din stratul de ieire sunt n competiie ("lupt") pentru a deveni neuronul "nvingtor", deci pentru a genera o valoare de ieire. Datorit acestei strategii, straturile care prezint un astfel de comportament competiional, se mai numesc i straturi "ctigtorul-ia-totul" ("winner-take-all"). Existena reelelor neuronale ce au la baz o strategie de nvare nesupervizat competitiv este justificat de dorina rezolvrii problemelor legate de categorizarea sau organizarea n clustere a datelor de intrare. Datele de intrare similare vor trebui s fie clasificate n aceeai categorie sau cluster i vor trebui s provoace activarea acelorai (aceluiai) neuroni (neuron) din stratul de ieire. Clasele, sau clusterii, ce corespund organizrii datelor de intrare, trebuie s fie "descoperite" de ctre reeaua neuronal n cadrul procesului de nvare pe baza corelaiilor ce exist ntre datele de intrare. Vom vedea n acest capitol c o aplicaie imediat a acestor tehnici de nvare nesupervizat competitiv este codificarea i comprimarea datelor (fr a fi singurele aplicaii) pe baza cuantificrii vectoriale (vector quantization), unde un vector de intrare este nlocuit cu un index numeric ce reprezint numrul - al ctelea neuron de ieire a devenit "nvingtor" n stratul de ieire, ca urmarea a competiiei provocate de propagarea vectorului de intrare n reeaua neuronal, de la stratul de intrare ctre stratul de ieire. Alte aplicaii pot fi ntlnite n [117]. nainte de a analiza trsturile reelelor neuronale organizate pe baza tehnicii de nvare nesupervizat competitiv, este util s prezentm i o serie de dezavantaje generale ale lor [96]: pentru fiecare categorie sau cluster trebuie s existe cte un neuron de ieire (i bineneles i conexiunile necesare). Cu n neuroni de ieire putem reprezenta doar n categorii sau clustere, fat de 2n categorii sau clustere reprezentabile cu un cod binar; aceste reele neuronale nu mai pstreaz trstura de toleran la deteriorri [68]. Dac se deterioreaz un neuron din stratul de ieire se pierde o ntreag categorie sau un ntreg cluster; aceste reele neuronale nu sunt capabile de a reprezenta cunotine ierarhice. Doi vectori de intrare aparin sau nu unei aceeai categorii sau unui aceluiai cluster. De aceea, n cadrul unei categorii sau unui cluster nu pot exista subcategorii sau sub-clustere. Adugarea unor noi straturi ascunse nu rezolv problema, cci este clar c strategia "ctigtorul-ia-totul" nu permite nici un fel de ierarhizare.
151

VI.5.2. nvarea competitiv

S studiem pentru nceput un model simplu de reea neuronal, de tip PS (Perceptron Simplu) [55], constituit dintr-un strat de intrare, un strat de ieire i fr straturi ascunse. n Fig. 6.7. avem reprezentat arhitectura unei astfel de reele neuronale. Se observ c avem de-a face de data aceasta, cu dou tipuri de conexiuni: conexiuni excitatorii: ntre neuronii din stratul de intrare i neuronii din stratul de ieire wij 0 (sunt necesare la acest model i auto-conexiuni excitatorii de la un neuron din stratul de ieire la el nsui); conexiuni inhibitorii: de la un neuron din stratul de ieire la alt neuron din stratul de ieire; rolul acestor conexiuni este de a permite neuronilor din stratul de ieire s se inhibe reciproc - mecanism numit inhibiie lateral; y1
Stratul de ieire yi

ym

Stratul de intrare

x1

x2

xj

xn-1

xn

Fig.6.7. Arhitectura unei reele neuronale simple ce implementeaz mecanisme de nvare competitiv. Conexiunile excitatorii sunt simbolizate cu linii continue, iar cele inhibitorii cu linii ntrerupte.

Vom considera n cele ce urmeaz ca valori posibile pentru neuronii din stratul de intrare i ieire, valorile binare {0,1}. De asemenea, n urma "competiiei" vom considera un singur neuron de ieire ca fiind "nvingtor", deci singurul care va genera valoarea de ieire 1. Neuronul "nvingtor" relativ la un vector de intrare x = ( x1 , x 2 ,..., x n ) va fi acel neuron care va avea valoare cea mai mare [55]:
I i = wij x j = w i x
j =1 n

adic:
w i* x w i x ( ) i
152

(6.52)

Relaia de mai sus definete neuronul de ieire "nvingtor" i*, pentru care:
y i* = 1

(6.53)

Dac triile sinaptice dintre stratul de intrare i stratul de ieire sunt normalizate, relativ la fiecare neuron din stratul de ieire, adic: |wi| = 1 () i atunci relaia (6.52) este echivalent cu relaia: (6.54)

w i* x w i x

() i

(6.55)

Interpretarea relaiei: neuronul "nvingtor" este neuronul din stratul de ieire care are vectorul normalizat al triilor sinaptice wi cel mai apropiate de vectorul de intrare x. Problema pe care dorim s o studiem n continuare este cum s "alegem" triile sinaptice wi pe baza unei legi de nvare, n aa fel nct reeaua neuronal s fie capabil de a "descoperii" clusterii din datele de intrare. Pentru aceasta, faza de nvare trebuie s cuprind etapele: atribuirea de valori aleatoare mici triilor sinaptice wi; alegerea unui vector de intrare x din cadrul mulimii de antrenament (eventual vectorul de intrare poate fi generat independent de ctre o distribuie aleatoare P(x)); prezentarea vectorului de intrare la stratul de intrare i propagarea sa ctre stratul de ieire; determinarea neuronului "nvingtor" i* din stratul de ieire, pe baza relaiei (6.55); actualizarea triilor sinaptice wi*j doar pentru neuronul nvingtor i*, cu scopul de a intrare x curent apropia ct mai mult vectorul triilor sinaptice wi* de vectorul de (vezi interpretarea de mai sus a relaiei (6.55)). Relaia de actualizare cea mai natural este:

wi* j = x j

(6.56)

relaia (6.56) prezint dezavantajul creterii nemrginite a triilor sinaptice ale neuronului nvingtor i* ,care devin dominante n procesul de competiie. Pentru a preveni acest fenomen, corectm relaia (6.56) cu ajutorul unei faze de normalizare:

wi'* j = wi* j () j
alegerea lui fiind fcut astfel nct:

(6.57)

w
j =1

' i* j

=1

(6.58)

153

sau

(w
n j =1

2 ' i* j

=1

(6.59)

combinnd relaiile (6.56) i (6.58) obinem legea de nvare:


xj = n wi* j x j j =1

wi* j

(6.60)

alt posibilitate de alegere pentru legea de nvare, conform cu [96], este legea de nvare competitiv standard:
wi * j = x j wi * j

(6.61)

Legea de nvare competitiv standard provoac deplasarea vectorului triilor sinaptice wi* direct ctre vectorul de intrare x. Legea de nvare competitiv standard este echivalent cu legea de nvare (6.10) dac datele de intrare sunt normalizate. n [87], Grossberg construiete o reea neuronal care conine un strat de intrare suplimentar de neuroni, care realizeaz operaia de normalizare. S mai subliniem nc o dat faptul c legea de nvare acioneaz doar asupra triilor sinaptice ale neuronului "nvingtor" i* pentru care yi * = 1. Pentru restul neuronilor din stratul de ieire, care nu au fost "nvingtori", avem
yi = 0() j i *

(6.62)

Putem atunci s definim o lege de nvare general pentru toi neuronii reelei neuronale (de fapt doar pentru neuronii situai n stratul de ieire):

wij = yi x j wij

, i = 1, m , j = 1, n

(6.63)

Dac inem cont de cele prezentate la nceputul acestui Capitol, observm analogia legii de nvare de mai sus (6.63) cu o lege de nvare tip Hebb, mai precis cu legea de nvare Sanger (6.30), respectiv legea de nvare Oja (6.7). Pentru a nelege mai bine modul de operare al legilor de nvare nesupervizate competitive vom folosi un model geometric (inspirat din [96]). Vom considera cazul cnd dimensiunea spaiului datelor de intrare este 3. Astfel un vector de intrare este un vector tridimensional de forma x = x1 , x 2 , x3 . Pentru cazul vectorilor de intrare binari, acetia ocup vrfurile unui cub unitar n spaiul tridimensional. Deoarece fenomenul de clustering este greu de studiat n cazul discret al vectorilor de intrare binari, vom extinde studiul la vectori de intrare cu valori reale aparinnd intervalului [0,1].

154

Vom reprezenta dispunerea geometric a punctelor de intrare pe o sfer unitar sub forma unor puncte, dup cum se vede n Fig. 6.8. de mai jos.

Fig. 6.8. Reprezentarea geometric a nvrii nesupervizate competitive. Punctele reprezint vectorii de intrare iar cruciuliele cei trei vectori ai triilor sinaptice care conecteaz neuronii din stratul de intrare cu cei trei neuroni ai stratului de ieire. (a) Configuraia vectorilor nainte de nvare. (b) Configuraia vectorilor dup nvare.

De asemenea, vectorii triilor sinaptice, care corespund conexiunilor dintre neuronii din stratul de intrare i neuronul al i-lea din stratul de ieire, pot fi reprezentai sub forma unui vector tridimensional w i = (wi1 , wi 2 , wi 3 ) pe sfera unitate (sub forma unor cruciulie n Fig. 6.8). Reprezentarea pe sfera unitate este justificat de normalizarea (6.54) (adic |wi| = 1, () i). Analiznd Fig. 6.8. avem: O stare iniial a procesului de nvare; O posibil stare final a procesului de nvmnt: fiecare neuron din stratul de ieire a descoperit un cluster n mulimea vectorilor de intrare, procesul de nvare a provocat deplasarea vectorului triilor sinaptice ctre centrul de greutate al clusterului corespunztor.

Aceasta reprezint esena procesului de nvare nesupervizat competitiv: detectarea de clustere n mulimea vectorilor de intrare. Interpretarea geometric a procesului de nvare este urmtoarea: relaia (6.52) definete neuronul "nvingtor" relativ la un vector de intrare x, i anume neuronul care genereaz cea mai mare valoare de ieire wi x; "nvingtorul" relativ la un vector de intrare (un punct pe sfera unitate din Fig. 6.8) va fi cel mai apropiat vector al triilor sinaptice ( o cruciuli de pe sfera unitate din Fig. 6.8); vectorul triilor sinaptice wi ce corespunde neuronului "nvingtor" este modificat pe baza legii de nvare (6.60) sau (6.61), fiind deplasat ctre vectorul de intrare x curent;

155

n acest fel vectorii de intrare x provoac competiia neuronilor din stratul de ieire ncercnd s "aduc" vectorul corespunztor al triilor sinaptice ct mai aproape de el; n Fig. 6.8. (b) avem reprezentat o posibil stare final stabil a procesului de nvare, cnd neuronii din stratul de ieire sunt declarai nvingtori n mod echiprobabil.

Problema care poate constitui un obstacol pentru a se atinge o stare final stabil (nvare cu succes) a procesului de nvare, este c pot exista vectori ai triilor sinaptice wi situai la o distan prea mare de orice vector de intrare, consecina fiind c neuronul din stratul de ieire care-i corespunde nu va niciodat un "nvingtor" i prin urmare nu va nva niciodat (de fapt nu va fi niciodat actualizat pe baza relaiilor (6.60) sau (6.61)). Un astfel de neuron din stratul de ieire ce nu "nvinge" niciodat este numit neuron mort. Existena neuronilor mori poate fi prevenit prin mai multe strategii posibile: putem iniializa vectorii triilor sinaptice cu valori egale cu vectori de intrare provenii din mulimea de antrenament; putem actualiza i vectorii "nvini" folosind relaiile (6.60) sau (6.61), ns cu o rat de nvare foarte mic [173]; prin aceasta vectorul triilor sinaptice ce corespunde unui neuron din stratul de ieire ce este un "nvins permanent" va fi deplasat ctre media vectorilor de intrare ceea ce va crete ansele acelui neuron ca s devin un neuron "nvingtor"; putem folosi o versiune modificat a vectorilor de intrare x, sub forma x+(1)v, unde v reprezint un vector constant cu care au fost iniializai toi vectorii triilor sinaptice wi. Pe parcursul procesului de nvare parametrul parcurge gradual valori cresctoare de la 0 la 1, ceea ce provoac iniial ( 0) apropierea vectorilor triilor sinaptice ctre vectorul v, pe msur ce procesul de nvare progreseaz ( 1) acetia se apropie de vectorii de intrare [95]; putem utiliza un termen Bias [54] sub forma unui nivel de activare i aplicat la valoarea de intrare n neuronii stratului de ieire Ij (6.52); pentru neuronii care nu reuesc s nving putem regla nivelul de activare i n aa fel nct acetia s genereze o valoare de ieire mai mare, ceea ce le crete ansa de a deveni "nvingtori" [19].

VI.5.3. Studiul convergenei


Dup cum am menionat n paragraful precedent, problema convergenei legii de nvare competitive ctre o "soluie optim" este foarte dificil deoarece noiunea de "soluie optim" relativ la o problem de clustering nu este definibil riguros din punct de vedere matematic. n literatura de specialitate, de cel mai mare interes s-a bucurat legea de nvare competitiv standard (6.61), pentru care s-a ataat o funcie cost [167] de urmtoarea form:
F ( wij ) = 1 M i x j wij 2 i j

1 x w i* 2

(6.64)

156

unde M i este o pondere ce reprezint matricea de apartenen la clustering, mai precis, specific dac un vector de intrare x determin ca al i-lea neuron de ieire s fie declarat nvingtor. Acest lucru poate exprimat matematic astfel:
1 , dac i = i * ( ) M i = 0, altfel

(6.65)

Deoarece neuronul nvingtor i* este funcie de parametri i wij, matricea de apartenen clustering M i se va modifica pe parcursul procesului de nvare. Dac aplicm metoda clasica a gradientului descendent [54] relativ la funcia cost (6.64) vom obine:
wij = F = M i x j wij wij

(6.66)

Formula de mai sus reprezint exact legea de nvare competitiv standard (6.61), nsumat relativ la toi vectorii de intrare x pentru care al i-lea neuron de ieire este "nvingtorul". n acest fel, pentru o rat de nvare , suficient de mic, n medie, legea de nvare va provoca o descretere treptat a funciei cost (6.64) pn la atingerea unui minim local. Din pcate, punctele de minim local sunt numeroase, ele corespunznd la diferite posibiliti de clustering ale datelor de intrare. Dar meritul introducerii funciei cost este incontestabil: ea ne permite s cuantificm calitatea clusteringului prin prisma valorii minimului local. S remarcm totui c nu avem nici o garanie teoretic care s ne garanteze atingerea minimului global a funciei cost (6.64), chiar dac aplicm o serie de procedee de optimizare, cum ar fi de exemplu revenirea simulat (simulated annealing). Modificarea triilor sinaptice se poate face i printr-o acumulare a modificrilor provocate prin prezentarea unor vectori de intrare x, P' P, actualizarea lor efectiv fiind fcut abia dup ce s-au totalizat schimbrile wij provocate de prezentarea vectorilor de intrare x 1 , x 2 ,..., x p din mulimea de antrenament. Demonstrarea efectiv a stabilitii i a convergenei legii de nvare competitiv (6.66) a putut fi demonstrat doar pentru cazul particular al unor date mprtiate eficient, adic exist o mulime de clustere pentru care proiecia (overlap) minim xx a unui cluster depete proiecia maxim dintre acel cluster i oricare altul. O metod practic [96], aplicabil n calculul neuronal, este descreterea ratei de nvare n timpul procesului de nvare. Acest lucru este necesar deoarece o rat de nvare mare la nceputul procesului de nvare ncurajeaz lrgirea cadrului de explorare pe parcurs ce procesul nainteaz, rate de nvare mici permit rafinri ale triilor sinaptice. S-au impus urmtoarele tipuri de rate de nvare, funcie de timpul parcurs de procesul de nvare:
( t ) = 0 t , 1, sau (t ) = 0 ( 1 t )

(6.65)

O alt posibilitate este de a stabili la nceputul procesului de nvare o anumit funcie cost i de a deduce o lege de nvare pe baza acestei funcii cost. Un exemplu interesant poate fi gsit n [11], unde forma ptratic (6.64) este nlocuit cu:
F ( wij ) = 1 ( 2 M i 1) x j wij p i j
157
p

(6.66)

VI.6. Aplicaii ale nvrii nesupervizate


VI.6.1. Scheme auto-organizabile
Schemele auto-organizabile, numite SOM (Self-Organizing Map) reprezint de fapt un model particular de reea neuronal, pentru care neuronii constitueni devin sensibili la anumii vectori de intrare sau clase de vectori de intrare, prin intermediul unui proces de nvare nesupervizat competitiv. Neuronii sensibili la diferii vectori de intrare tind s se ordoneze, ca i cum reeaua neuronal ar reprezenta un sistem de coordonate, pentru vectorii de intrare. Localizarea spaial sau coordonatele unui anumit neuron al reelei neuronale va corespunde unui domeniu particular al mulimii vectorilor de intrare. Fiecare neuron sau grup de neuroni se comport ca un decodor pentru acelai vector de intrare. Conform cercetrilor medicale, s-a putut pune n eviden, o hart topografic foarte detaliat a creierului, i n mod special al cortexului cerebral. Numeroasele formaiuni corticale din masa celular par a conine mai multe "hri" [113], adic o locaie particular a rspunsului neuronal din hart corespunde direct unei caliti i modaliti a semnalului senzorial. Unele hri, ndeosebi cele ce corespund ariilor senzoriale, sunt ordonate n concordan cu anumite trsturi dimensionale ale semnalelor senzoriale; de exemplu, n zonele vizuale, s-a dovedit existena unor hri pentru orientarea liniilor i pentru culori. O alt hart seniorial este harta somatotropic care conine o reprezentare a corpului uman, adic a suprafeei pielii. Anumite hri reprezint caliti abstracte ale semnalelor senzoriale. De exemplu, n zona responsabil de procesarea cuvintelor, rspunsurile neuronale sunt organizate n concordan cu categoriile i valorile semantice ale cuvintelor. Toate cercetrile efectuate n ultima perioad de timp vin s confirme faptul c reprezentare intern a informaiei n creier este spaial. Pe aceast baza s-au construit reelele neuronale de tip SOM, ca o ncercare de a modela biologia creierului uman. VI.6.1.1. Algoritmul S considerm o reea neuronal bidimensional de neuroni ca aceea reprezentat n Fig.6.9. Modul de aranjare a acestor neuroni poate fi dreptunghiular, hexagonal etc. S considerm c vectorii de intrare x Rn, prezentai la stratul de intrare, sunt conectai prin intermediul neuronilor stratului de intrare la toi ceilali neuroni ai reelei neuronale. Conform notailor uzuale, wi = (wi1,wi2,...,win) Rn va reprezenta vectorul triilor sinaptice ce corespunde celui de-al i-lea neuron al reelei. Cea mai simpl msur a corelaiei dintre vectorul de intrare x i vectorul triilor sinaptice wi o reprezint produsul scalar x wi. Dac necesitile practice impun o mai mare rigurozitate, se pot folosi i alte criterii pentru a alege neuronul ce corespunde vectorului de intrare x bazat pe o distan Euclidian dintre x i wi. Distana minim va defini neuronul "nvingtor" wc.

158

x
w1 w2 w3 w4

wi

Fig.6.9. Arhitectura unei reele neuronale de tip SOM.

Este esenial n formarea schemelor (hrilor) de neuroni, ca neuronii care particip la procesul de nvare s nu fie afectai independent unul de altul (ca i n cazul nvrii competitive nesupervizate), ci ca submulimi de neuroni corelate topologic, fiecare neuron dintr-o astfel de submulime suferind o corecie similar. n timpul procesului de nvare astfel de submulimi selectate vor nconjura diferii neuroni. Corecia pe care o vom efectua la fiecare neuron va tinde s devin tot mai lin, pe msur ce procesul de nvare progreseaz. Cel mai important rezultat al acestui tip de nvare corelat spaial l constituie faptul c vectorii triilor sinaptice tind ctre vectori ordonai de-a lungul axelor reelei neuronale [117]. n reelele neuronale biologice, nvarea corelat spaial este implementat cu ajutorul diferitelor conexiuni feedback laterale i cu alte tipuri de interaciuni laterale. n modelul nostru artificial, vom fora interaciunile laterale direct din arhitectura general a reelei neuronale. Pentru aceasta vom defini pentru fiecare neuron c o submulime numit vecintate i notat Nc. Def 3.1: Vecintatea Nc este o submulime centrat n acel neuron c pentru care avem ce-a mai bun corelaie cu vectorul de intrare, adic:
x w c = min{ x w i
i

(6.67)

Raza vecintii Nc poate fi o funcie de timp: considerente experimentale au dovedit c la nceputul procesului de nvare este avantajoas o raz mare pentru Nc care, pe msur ce procesul de nvare progreseaz, se ngusteaz tot mai mult, ca n Fig.6.10. Explicaia acestui proces de reducere monoton a razei vecintii Nc este c la nceput o raz mare corespunde unei rezoluii spaiale dezordonate a procesului de nvare, dup care ngustarea razei mbuntete rezoluia spaial a reelei neuronale. Este chiar posibil ca procesul de nvare s sfreasc cu Nc={c}, ceea ce de fapt corespunde unui proces de nvare competitiv nesupervizat.

159

Nc(t1) Nc(t2)

Nc(t3)

Fig.6.10. Exemplu de vecinti topologice Nc(t), cu t1 < t2 < t3.

Procesul de nvare poate fi exprimat matematic astfel:


(x w i ), dac i N c wi = 0, dac i N c

(6.68)

unde 0 < < 1 reprezint rata de nvare, fiind un parametru descresctor dependent de timp = (t). O alt posibilitate o reprezint introducerea unei funcii scalare de proximitate (vecintate) tip "kernel" hci=hci(t), asfel nct avem:
, dac i N c wi = hci (x w i ), hci = 0, dac i N c

(6.69)

Inspirndu-ne din modelele biologice, unde interaciunile laterale au forma unei curbe tip "clopot" (bell shape), putem considera o form mai general pentru funcia kernel: notnd cu rc i ri vectorii de poziie ce corespund coordonatelor neuronilor c i i, obinem:
hci = h0 e
ri rc 2
2

(6.70)

unde h0=h0(t) i = (t) sunt funcii descresctoare de timp. VI.6.1.2. Experimente i simulri Vom folosi o serie de rezultate practice, obinute n [117], n urma unor simulri a funcionrii reelelor neuronale de tip SOM. Rezultatele simulrii vor pune n eviden fenomenul suferit de vectorii triilor sinaptice, de a tinde s aproximeze funcia de densitate probabilistic cu care sunt generai vectorii de intrare. n exemplele pe care le vom prezenta, vectorii de intrare au fost alei din considerente de vizualizare ca fiind bi-dimensionali, funcia de densitate probabilistic care-i genereaz fiind selectat arbitrar n aa fel nct s
160

aib o distribuie uniform peste aria demarcat de frontierele triunghiulare i ptratice. n afara frontierelor funcia de densitate probabilistic este nul. Vectorii de intrare x sunt generai independent i aleator de ctre funcia de densitate probabilistic sunt aplicai stratului de intrare i folosii pentru a modifica triile sinaptice pe baza procesului de nvare. Vectorii triilor sinaptice wi sunt reprezentai ca puncte n acelai sistem de coordonate, ca i vectorii de intrare x; pentru a putea indica crui neuron i corespunde vectorul triilor sinaptice wi, punctele corespunztoare vectorului wi au fost conectate printr-o latice de puncte, conform cu topologia reelei neuronale. Cu alte cuvinte, o linie ce conecteaz doi vectori wi i wj are rolul de a indica faptul c neuronii i i j sunt adiaceni n arhitectura reelei neuronale. n Fig 6.11. aranjamentul neuronilor este rectangular. n Fig.6.12. neuronii sunt interconectai prin intermediul unui lan liniar. n ambele exemple se poate observa modul de evoluie al procesului de autoorganizare. Valorile iniiale pentru vectorii triilor sinaptice au fost obinute dintr-o distribuie aleatoare, dintr-un domeniu limitat de valori.

20

100

1000

10000

25000

Fig.6.11. Vectorii triilor sinaptice pe parcursul procesului de nvare. Reeaua neuronal are o arhitectur de tablou bi-dimensional. Lng fiecare figur sunt trecute numrul de iteraii din procesul de nvare.

161

Fig.6.12. Vectorii triilor sinaptice pe parcursul procesului de nvare. Reeaua neuronal are o arhitectur de tablou uni-dimensional. Lng fiecare figur sunt trecute numrul de iteraii din procesul de nvare.

Un alt exemplu de reea neuronal bi-dimensional ce reprezint o funcie de densitate probabilistic tri-dimensional este reprezentat n Fig.6.13. Obs.6.4: a). Deoarece n acest caz procesul de nvare este un proces stocastic, precizia statistic final depinde de numrul de pai efectuai de procesul de nvare, care trebuie s fie suficient de mare. O regul inspirat din considerente practice [117] este ca numrul pailor de nvare s fie cel puin 500 numrul de neuroni ai reelei neuronale. b). Pentru primii 1000 de pai ai procesului de nvare, rata de nvare trebuie s aib o valoare apropiat de 1, urmnd ca n timp s descreasc monoton. O alegere rezonabil pentru rata de nvare este:
t (t ) = 0.91 1000

(6.71)

Ordonarea triilor sinaptice apare de fapt n prima faz a procesului de nvare, paii finali fiind necesari pentru reglarea fin. n faza de reglare fin a triilor sinaptice, rata de nvare trebuie s ia valori mici, de exemplu 0.01. c). O atenie deosebit trebuie acordat alegerii vecintii Nc=Nc(t). Dac vecintatea de pornire aleas este prea mic, schema nu se va ordona global, aprnd o mulime de "parcele" n care ordonarea se schimb n mod discontinuu. Acest fenomen poate fi nlturat dac pornim procesul de nvare cu o vecintate Nc=Nc(0) mai larg, pe care apoi o ngustm n timp. Este recomandabil ca raza de pornire a vecintii s fie mai mare dect jumtate din diametrul reelei neuronale. Dup faza de ordonare (aproximativ primii 1000 de pai), vecintatea poate fi ngustat liniar, cu un neuron.
162

d). Uneori este util normalizarea vectorilor de intrare x, nainte de a fi prezentai la stratul de intrare al reelei neuronale n cadrul procesului de nvare. Avantajul normalizrii este mbuntirea preciziei deoarece vectorii rezultai tind s aib aceeai dinamic.

Fig.6.13. Reprezentarea unei funcii de densitate probabilistic uniform tri-dimensional prin intermediul unei scheme auto-organizabile bi-dimensional.

e). Un alt aspect menionat mai devreme, este posibilitatea de a aplica o msur mai general a distanei dintre vectori. De exemplu, dac msura o reprezint msura de similaritate a produsului, atunci ecuaiile procesului de nvare pot fi rescrise astfel:

x w c = max{x w i }
i

(6.72)

w i +x , dac i N c w i = w i +x w i , dac i N c
unde rata de nvare (0,); de exemplu = 100 / t.

(6.73)

163

VI.6.1.3. nvarea vectorial cuantificat

A. Generaliti Metoda vectorial cuantificat (VQ - Vector Quantization) este o metod care realizeaz aproximarea unei funcii de densitate probabilistic continu P(x) a vectorilor de intrare x, folosind un numr finit de vectori de codificare wi, i = 1, 2 ,..., k aparinnd unei mulimi numit cod. Dup ce s-a ales mulimea cod, aproximarea lui x reprezint de fapt determinarea unui vector de referin wc, situat "cel mai aproape" de x. Poziia optim a vectorilor wi este aceea care minimizeaz funcia eroare:
E = x w c P(x)dx
r

(6.74)

unde c=c(x) reprezint indexul vectorului de codificare cel mai apropiat de x (vectorul "nvingtor"):
x w c = min{ x w i
i

(6.75)

Conform cu [78], plasarea optimal a vectorilor de codificare wi n spaiul datelor de intrare, dat de minimizarea funciei eroare (6.74), reprezint o aproximare a funciei de
n

densitate probabilistic P(x) n + r , n fiind dimensionalitatea vectorilor x i wi. Aplicarea criteriului celor mai mici ptrate (r = 2) relativ la regula delta [54], va defini asimptotic valorile optimale. Fie wc cel mai apropiat vector de codificare de vectorul de intrare x, n metrica Euclidian. Optimizarea gradient descendent [54] a funciei eroare E (6.74) n spaiul vectorilor wc va genera ecuaia:
(x w c ), pentru i = c w i = 0, pentru i c

(6.76)

cu rata de nvare (0,1) o funcie scalar monoton descresctoare. n general, dac exprimm disimilaritatea dintre x i wi prin intermediul unei funcii distan d(x, wi), trebuie ca prima dat s identificm vectorul "nvingtor" wc, astfel nct:

d (x, w c ) = min{d (x, w i )}


i

(6.77)

Dup aceasta, trebuie aleas o regul de actualizare (lege de nvare) n aa fel nct distana d s descreasc monoton: corecia wi trebuie aleas astfel nct :
grad wi d (x, w i ) w i < 0

(6.78)

Dac SOM este utilizat pentru clasificarea formelor (pattern classifier), unde neuronii sunt grupai n submulimi, fiecare submulime corespunznd unei clase discrete de forme, atunci problema devine un proces decizional, trebuind a fi tratat ntr-o manier puin
164

diferit. SOM, ca orice metod de VQ, este destinat aproximrii valorile semnalelor de intrare sau a funciei lor de densitate probabilistic, prin cuantificarea vectorilor de codificare situai n spaiul de intrare, pentru a minimiza o funcie de eroare. Pe de alt parte, dac mulimea semnalelor de intrare trebuie clasificat cu ajutorul unui numr finit de categorii, atunci diferii vectori de codificare vor fi reprezentanii fiecrei clase, identitatea lor n cadrul clasei nemaifiind important. De fapt, doar deciziile efectuate la frontiera clasei sunt importante. Prin aceasta, devine posibil definirea unor valori pentru vectorii de codificare astfel nct ei s defineasc frontiere decizionale optimale ntre clase. Aceste strategii au fost introduse de Kohonen [117] i sunt denumite nvare vectorial cuantificat (LVQ Learning Vector Quantization). B. nvarea vectorial cuantificat de tip I (LVQ1) Dac mai muli vectori de codificare sunt asignai fiecrei clase i fiecare dintre ei este etichetat cu simbolul clasei corespunztoare, atunci regiunile ce corespund claselor n spaiul vectorilor de intrare x sunt definite printr-o simpl comparaie de proximitate a lui x cu wi; astfel eticheta celui mai apropiat vector de codificare wi definete clasificarea vectorului de intrare x. Pentru ca procesului de nvare s genereze poziia optim a vectorilor wi, trebuie s stabilim pentru aceti vectori valori iniiale pe baza oricrei metode clasice VQ sau prin algoritmul SOM. Aceste valori iniiale corespund aproximativ funciei de densitate probabilistic P(x) a datelor de intrare. Urmtoarea faz o reprezint determinarea etichetelor vectorilor de codificare, prin prezentarea unui numr de vectori de intrare cu clasificare cunoscut i prin asignarea diferiilor neuroni ai reelei la diferite clase pe baza votului majoritar obinut prin frecvena cu care fiecare vector wi este mai apropiat de vectorii de calibrare a unei anumite clase. Precizia clasificrii poate fi mbuntit dac vectorii wi sunt actualizai pe baza urmtorului algoritm de nvare: vom "ndeprta" vectorii de codificare wi de suprafeele decizionale, cu scopul de a demarca frontierele claselor cu mai mare acuratee. Fie wc vectorul cel mai apropiat de vectorul de intrare x, distan fiind n metrica Euclidian. Aplicm la stratul de intrare un vector de intrare x a crui clasificare este cunoscut i actualizm vectorul wi dup legea:

(x w c ), dac x este clasificat corect w c = (x w c ), dac x este clasificat incorect w i = 0, pentru i c

(6.79)

Obs 6.5: a). Deoarece relaia de mai sus reprezint o adaptare fin, valoarea recomandabil pentru rata de nvare la nceputul procesului de nvare este 0.01, care va descrete treptat ctre 1, n decursul a 100.000 pai de nvare. b). Semnul minus n cazul unei clasificri incorecte a vectorului x are semnificaia c coreciile sunt efectuate n concordan cu legea (6.73) aplicat clasei creia aparine wc, dar cu funcia de densitate probabilistic a clasei nvecinate extras din clasa lui wc. Cu alte cuvinte, aplicm funciei |p(x|Ci)P(Ci)-p(x|Cj)P(Cj)| clasica metod VQ unde: Ci i Cj sunt clasele vecine; p(x|Ci) este funcia de densitate probabilistic condiional a vectorilor de intrare x ce aparin clasei Ci; P(Ci) este probabilitatea a priori de apariie a reprezentailor clasei Ci;
165

n Fig. 6.14 avem un exemplu n care vectorii de intrare x sunt bidimensionali, iar funciile de densitate probabilistic ale claselor au poriuni comune. Suprafaa de decizie definit de procesul de clasificare este local liniar.

Fig. 6.14. (a) Funcia de densitate probabilistic a vectorilor de intrare x = (x1,x2) reprezentat prin puncte. Avem dou funcii de densitate probabilistic de tip Gauss, corespunznd la dou clase diferite C1 i C2, avnd centrele reprezentate cu cruce de culoare alb, respectiv cercule alb. Curba solid reprezint suprafaa decizional optim teoretic. (b) Punctele reprezint reprezentanii clasei C1, cerculeele reprezint reprezentanii clasei C2; Curba solid: suprafaa de decizie pentru LVQ, curba punctat:suprafaa de decizie teoretic optim.

C. nvarea vectorial cuantificat de tip II (LVQ2) Algoritmul de nvare LVQ1 poate fi mbuntit prin urmtoarea strategie, numit nvare vectorial cuantificat de tip II - LVQ2: s presupunem c doi vectori de codificare wi i wj, ce aparin la dou clase diferite i sunt vecinii cei mai apropiai relativ la spaiul datelor de intrare, sunt n faza iniial n poziie greit. Suprafaa de discriminare (incorect n acest caz) este ntotdeauna definit ca planul mediator a vectorilor wi i wj; s definim o "fereastr" (window) simetric de lime nenul n jurul planului mediator a lui wi i wj i s stabilim urmtoarea regul:

Asupra vectorilor wi i wj se vor efectua corecii dac i numai dac x este coninut n fereastr, dar de partea eronat a planului mediator (vezi Fig. 6.15).

166

Fig.6.15. n figura de mai sus este reprezentat "fereastra" din algoritmul de nvare LVQ2. Curbele din figur reprezint distribuia claselor vectorilor de intrare x.

Ecuaiile corespunztoare acestei ajustri a vectorilor de codificare wi i wj sunt:


w j = (x w j ) w i = (x w i )

(6.80)

dac Ci este cea mai apropiat clas, dar x aparine clasei Cj Ci, unde Cj este vecina celei mai apropiate clase Ci. n toate celelalte cazuri:

w k = 0,

k i, j

Limea optimal a ferestrei trebuie determinat experimental, depinznd de numrul datelor de intrare pentru nvare. Dac numrul datelor de nvare este relativ mic, atunci se poate alege o lime de la 10% pn la 20% din diferena dintre wi i wj. Dac dimensionalitatea datelor de antrenament este mare, atunci avem nevoie de o definiie mai practic a dimensiunii ferestrei. Este recomandabil ideea de a defini fereastra n termeni de distane di i dj la wi i wj cu o raie constant s. n acest fel, frontierele ferestrei devin nite hiper-sfere. Vom putea spune astfel c x aparine ferestrei dac:
di d j min , > s d j di

(6.81)

Dac notm cu L limea minim a ferestrei, atunci:


s= 1 L 1+ L

(6.82)

Dimensiunea optim a ferestrei depinde de numrul de date de intrare de antrenamentnvare. De asemenea, rata de nvare trebuie s aib o valoare de pornire mic de aproximativ 0.02, urmnd a fi micorat treptat pe parcursul procesului de nvare, tinznd ctre valori foarte mici (zero) dup aproximativ 10 000 de pai.
167

D. nvarea vectorial cuantificat de tip III (LVQ3) Algoritmul de nvare LVQ2 s-a bazat pe ideea deplasrii frontierei decizionale practice ctre frontiera teoretic optim, numit i frontier decizional Bayes. Algoritmul nu ia ns n considerare ce se ntmpl pe parcursul proceselor de nvare lungi, cu poziionarea vectorilor de codificare wi. n literatura de specialitate au fost puse n eviden dou tipuri de efecte negative, aprute pe parcursul procesului de nvare: deoarece coreciile efectuate asupra vectorilor de codificare wi sunt proporionale cu diferena x - wi sau x wj, corecia efectuat asupra lui wi (clasa corect) este de magnitudine mai mare dect cea efectuat asupra lui wj (clasa incorect); aceasta va conduce la descreterea monoton a distanei w i w j . Remediul compensrii acestui efect nedorit, este de a accepta toi vectorii de antrenament din "fereastr" i de a impune doar condiia ca wi i wj s aparin unul la clasa corect i cellalt la clasa incorect. dac procesul de nvare (6.80) continu peste o anumit limit, poate conduce la un punct asimptotic de echilibru al vectorului wi care ns s nu fie optimal. De aceea, este necesar s prevedem anumite corecii n legea de nvare, corecii care s asigure faptul c wi aproximeaz continuu distribuia clasei.

Combinnd aceste idei, vom obine un algoritm mbuntit [117], numit LVQ3:
w i = (x w i ) w j = (x w j )

(6.82)

unde wi i wj sunt doi din cei mai apropiai vectori de codificare de vectorul x, vectorii x i wj aparin aceleiai clase, n timp ce x i wi aparin la clase diferite, iar x este situat n "fereastr";
w k = (x w k ), k {i, j}

iar x, wi i wj aparin aceleiai clase. Obs 6.6: a). Valorile folosite n aplicaiile practice pentru parametrul sunt din intervalul 0.2 - 0.5. Valoarea optimal a lui este dependent de dimensiunea ferestrei, fiind mai mic pentru ferestre mai nguste. b). Algoritmul LVQ1 modific la un pas al procesului de nvare doar un vector wi, n timp ce algoritmii LVQ2 i LVQ3 modific doi vectori de codificare wi i wj.

VI.6.2. Hri de trsturi (feature mapping)


VI.6.2.1. Algoritmul Algoritmul de nvare (6.69) este numit i algoritmul Kohonen pentru scheme de trsturi (feature extraction). Problemele care apar sunt urmtoarele:
168

ce fel de schem produce algoritmul ? converge algoritmul de nvare ? apar probleme cu blocarea algoritmului n stri non-optimale (minime locale)? cum depinde rspunsul la aceste ntrebri de forma i evoluia n timp a funciei de proximitate kernel hik i a ratei de nvare ? sunt valorile acestor parametrii optimale ?

Rspunsul la aceste ntrebri este dificil, majoritatea studiilor avnd n vedere doar scheme unidimensionale. Studiul va folosi o funcie cost (eroare), bazat pe o extensie a nvrii competitive din lucrarea [168]:
E (wij ) = 1 M k hik x j wij 2 i jk

1 hic x w i 2 i

(6.83)

1, dac M i = 0,

i = c( ) altfel

(6.84)

M i reprezint matricea de apartenen la clustering. Relaia c() vrea s pun n eviden faptul c neuronul "nvingtor" c, depinde de datele de antrenament.

Aplicnd metoda gradientului descendent [54] relativ la funcia cost (6.83) vom obine:
wijj = E = M k hik x j wij = hic x j wij wij k

(6.85)

Relaia de mai sus reprezint algoritmul lui Kohonen (6.69) nsumat relativ la mulimea datelor de antrenament. Astfel, n medie, pentru o rat de nvare suficient de mic, algoritmul lui Kohonen provoac descreterea funciei cost (6.83), pn cnd se atinge un punct de minim, care poate fi ns un punct de minim local. Pentru a obine un punct de echilibru, vom impune condiia:

wij = 0
de unde vom obine:

(6.86)

h ( x
ic

wij = 0

(6.87)

Aceast ecuaie este dificil de rezolvat. n cazul unei distribuii probabilistice uniforme a vectorilor de intrare x, ecuaia poate fi satisfcut de o distribuie uniform [96] a vectorilor wi n acelai spaiu, cu condiia ignorrii frontierelor. Pentru cazul general, soluia este de a lua n considerare o aproximare continu, de forma:

r rc (x)

[x w(r)]P(x)dx = 0
169

(6.88)

Suma discret

relativ la mulimea vectorilor de antrenament, se transform prin

intermediul aproximrii continue n integrala

distribuie aleatoare a vectorilor de intrare x, indexul i al vectorului de ieire s fie considerat un vector de poziie r. Atunci vom scrie hr rc (x) n loc de hrrc (x) ; n mod normal se alege o funcie de proximitate h care s fie dependent doar de distana dintre r i "nvingtorul" rc(x). Pentru o distribuie probabilistic dat P(x), se cunoate o soluie explicit a ecuaiei (6.88) doar pentru cazul unidimensional sau pentru anumite cazuri particulare multidimensionale care permit factorizarea ntr-un produs de cazuri unidimensionale [168]. Soluia obinut n aceast situaie arat c triile sinaptice iau valori constant cresctoare sau descresctoare, cu o funcie de densitate probabilistic a neuronilor de ieire proporional cu P(x)2/3 n vecintatea punctului x. Evident, o reprezentare ideal ar trebui s genereze funcia de densitate probabilistic P(x) n loc de P(x)2/3, ceea ce arat c algoritmul lui Kohonen tinde s subevalueze regiunile cu probabilitate mare i s supraevalueze regiunile cu probabilitate mic. Vom schia n cele ce urmeaz, calculul care justific afirmaia de mai sus, c funcia de probabilitate probabilistic a neuronilor de ieire tinde ctre P(x)2/3 [96]: nlocuind n ecuaia (6.88) vectorul de poziie r cu variabila z, i presupunnd c funcia de proximitate hz zc (x) este o funcie mrginit par, atunci putem exprima termenul de integrat din (6.88) n factori de puteri: = zc(x) - z termenii mai mici dect
2

P ( x ) dx .

Aceasta va permite, ca pentru o

(6.89)

vor fi ignorai. Prin aceasta vom obine:

hz zc (x) devine h- , de unde pe baza ipotezei de paritate aceasta va deveni h ; x devine w(zc) sau w(z + ), i astfel x-w(z) se expandeaz n termenul:
w '+ 1 2 w" 2

(6.90) )), dezvoltndu-se n: (6.91) ), care se dezvolt n: (6.92) i


2

P(x) devine P(w(zc)) = P(w(z + P(w) +

P'(w)w'

dx devine dw(x +

), obinndu-se w'(x + (w' + w") d

nlocuind aceste relaii n ecuaia (6.88), grupnd dup puterile lui termenilor de ordin mai mare fiind neglijai), obinem:

(restul

h (w'+ w")(P(w) + P' (w)w')(w'+w")d = = h (w ' P(w ) + w ' ( w" P(w ) + w ' P' (w ) ))d = = w ' ( w" P(w ) + w ' P' (w ) ) h d = 0
1 2 2 2 2 3 2 2 3 2 2 2

(6.93)

170

Termenul n va dispare datorit paritii funciei de proximitate h . Presupunnd c w'(z) este nenul, vom avea:
3 2

w" P(w ) + w ' 2 P' (w ) = 0

(6.94)

de unde obinem:
d w" 2 P' (w )w ' 2 d log w ' = = = log P(w ) dz w' 3 P(w ) 3 dz
w ' P(w )
2 3

(6.95)

(6.96)

Deoarece funcia de densitate probabilistic a neuronilor de ieire n spaiul w (sau n spaiul x) este |dz / dw| sau |1 / w'|, relaia de mai sus reprezint rezultatul dorit. Obs. 6.7: Ecuaia diferenial (6.94) poate fi rezolvat pentru o valoare particular a distribuiei probabilistice P(x). De exemplu dac P(x) x atunci rezolvnd ecuaia (6.94) vom obine w(z) z, unde = 1 / (1 + 2 / 3).

VI.6.2.2. Convergena algoritmului Analiza stabilitii algoritmului nu ne spune nimic despre problema convergenei algoritmului, ci doar despre strile sale de echilibru. Evident, algoritmul trebuie s ajung la o stare de echilibru. n lucrarea [34] se face o analiz detaliat a problemei convergenei algoritmului lui Kohonen, obinndu-se condiiile pe care trebuie s le satisfac rata de nvare (t) pentru a sigura convergena algoritmului. Analiza se bazeaz pe considerarea algoritmului lui Kohonen ca un proces Markovian. Problema convergenei algoritmului se consider ca avnd dou faze distincte: faza 1: faza de instabilitate i oscilaie a algoritmului; faza 2: algoritmul tinde s adapteze triile sinaptice, reeaua genernd tot mai precis funcia de densitate probabilistic P(x). De cele mai multe ori faza de instabilitate este faza cea mai ndelungat a convergenei algoritmului. Geszti [79] studiaz problema convergenei algoritmului n cazul unidimensional. Studiul se bazeaz pe observaia c un ir monoton cresctor sau descresctor de trii sinaptice wi rmne monoton n procesul de nvare. Acest lucru poate fi pus n eviden prin rescrierea legii de nvare a lui Kohonen:
w i = hic (x w i )

(6.97)

sub forma:

(w i x )new = (1 hic )(w i x )old


171

(6.98)

Distana wi - x de la o trie sinaptic wi la o dat de intrare x este multiplicat cu factorul (1 - hic). Acest factor de multiplicare tinde ctre 1 cu ct ne deprtm de neuronul "nvingtor" c. Prin aceasta, ordinea monoton a valorilor triilor sinaptice nu se poate schimba.

n Fig.6.16 se pune n eviden tocmai acest fenomen [96]: (a) wi (b) wi Frontier

x x i c

Figura 6.16: Scheme Kohonen unidimensionale. (a) Orice regiune monoton a triilor sinaptice rmne monoton pe parcursul procesului de nvare. (b) Frontiera dintre dou regiuni monotone poate s se deplaseze cu un pas la un pas al procesului de nvare.

Fenomenele cele mai interesante apar la frontiera dintre regiunile monoton ordonate. O astfel de frontier poate sri dintr-o parte n alta aa cum se vede n Fig. 6.16 (a). De asemenea, frontierele pot s se anuleze la punctele de ntlnire. Dar, n nici ntr-un caz nu pot apare noi frontiere. n Fig. 6.16 (b) putem nelege ct timp este necesar pentru ca procesul de nvare s devin stabil. Abia la sfritul procesului de nvare instabilitatea tinde s difuzeze, ajungnd a fi eliminat.

172

173

VII. Proprietatea de aproximant universal a reelelor neuronale


Caracteristica definitorie a reelelor neuronale ca i metode de calcul o reprezint capacitatea lor de a nva. Pentru a rezolva o anumit problem nu este necesar elaborarea unui algoritm care s descrie succesiunea de operaii care duc la rezolvarea acelei probleme, ci prezentarea unor exemple pe baza crora reeaua neuronale s fie capabil s se configureze n aa fel nct rezultatele pe care le va genera la stratul de ieire s reprezinte soluii ale problemei nvate. Procesul de nvare, privit prin prisma prezentrii unor exemple (date de antrenament), cu scopul obinerii unor rezultate predefinite reprezint de fapt un proces echivalent cu cel al aproximrii unei funcii de mai multe variabile. Astfel, procesul de nvare ca i un proces de aproximare a unei aplicaii definite pe un spaiu de intrare cu valori ntr-un spaiu de ieire, poate fi privit i ca un proces de sintez a unei memorii asociative, care genereaz la prezentarea unor exemple nvate rezultatele dorite, iar la prezentarea unor exemple noi are capacitatea de a generaliza [60]. n ultimii ani, reelele neuronale ca i cadru de aplicare al calculului neuronal, s-au dovedit a fi metode eficiente pentru a rezolva probleme dificile care nici mcar nu erau abordabile printr-un calcul algoritmic tradiional. Acest lucru a fcut ca numeroi cercettori s efectueze o analiz riguroas a proprietilor matematice care fac ca reelele neuronale s fie instrumente att de eficiente. n acest capitol vom pune n eviden capacitatea reelelor neuronale de a fi metode universale de aproximare, studiind prin prisma diferitelor rezultate matematice cum putem pune n eviden acest lucru i cum poate fi exploatat acest lucru n aplicarea practic a calculului neuronal. Proprietatea de aproximant universal poate fi definit n felul urmtor: Def.7.1: Fie F o familie de funcii i G F o subfamilie de funcii a lui F. Se noteaz cu d funcia msura dintre dou elemente arbitrare a lui F (d (f , f) = 0). Vom spune c subfamilia de funcii G posed Proprietatea de Aproximant Universal (PAU) n raport cu F i d, dac pentru orice funcie f F, exist un ir infinit de funcii gn G, n N cu proprietatea:

lim d ( f , g n ) = 0

VII.1. Teorema lui Kolmogorov i perceptronul multistrat


VII.1.1. Preliminarii
Reamintim faptul c o reea neuronal de tip perceptron multistrat, notat pe scurt PMS, este o reea neuronal cu propagare direct (feedforward) avnd un strat de intrare cel puin un strat ascuns i un strat de ieire. Deoarece un PMS cu mai muli neuroni n stratul de ieire poate fi considerat ca fiind compus din atia PMS cu un unic neuron n stratul de ieire, ci are PMS iniial n startul de ieire, putem restrnge studiul nostru la un PMS avnd un neuron unic n stratul de ieire.
174

De asemenea, deoarece n general datele de intrare aparin unui mulimi mrginite, vom restrnge studiul nostru la hiper-cubul n-dimensional In = [0,1] x [0,1] x ... x [0,1]. Funciile de activare ale neuronilor vor fi funcii de tip sigmoidal. Cel mai popular 1 . model de funcie sigmoidal utilizat n calculul neuronal o reprezint funcia ( x ) = 1 + e x n general, o funcie : R [0,1] se numete funcie sigmoidal dac satisface urmtoarea definiie: Def.7.2: Funcia : R [0,1] se numete funcie sigmoidal dac satisface urmtoarele proprieti: (S1) Exist limitele t + = lim ( x ) i t = lim ( x ) , iar t+ t-.
x x

(S2) este derivabil i exist cR astfel nct '(c) 0. Def.7.3: O funcie se va numi funcie de tip PMS() dac este o combinaie liniar finit de compuneri ale unor transformri afine a mulimii numerelor reale cu o funcie sigmoidal , adic funcii de forma:

w
i =1

( 2) i

wi(1) x + wi( 0 ) ,wi( 2 ) , wi(1) , wi( 0 ) R

(7.1)

Def.7.4: Fie dat funcia f: In R. Funcia f: (0,) R se va numi modulul de continuitate al funciei f dac
f ( ) = sup{ f ( x1 , x 2 ,..., x n ) f ( y1 , y 2 ,..., y n ) , ( x1 , x 2 ,..., x n ), ( y1 , y 2 ,..., y n ) I n , x i yi < , i = 1,2,..., n}

(7.2)

VII.1.2. Teorema fundamental

La cel de-al II-lea Congres Internaional de matematic de la Paris din anul 1990, Hilbert, n faimoasa sa lucrare "Matematische Probleme", a enunat o list de 23 de probleme, pe care a considerat-o ca fiind de o importan deosebit pentru dezvoltarea ulterioar a matematicii. Problema a-13-a, formulat ca o ipotez concret minor, implic aflarea soluiilor unor ecuaii polinomiale: pot fi rdcinile unei ecuaii algebrice polinomiale exprimate ca radicali, sume i compuneri de funcii de o singur variabil? Hilbert a emis ipoteza c rdcinile ecuaiei x7 + ax3 + bx2 + cx + 1 = 0 , ca i funcii de coeficienii a, b, c, nu pot fi reprezentate ca sume i produse de funcii de una sau chiar de dou variabile. Aceast ipotez a fost contrazis de Arnold [10]. Mai mult chiar, Kolmogorov [118] a enunat teorem general de reprezentare, afirmnd c orice funcie continu f :In R, n 2 poate fi reprezentat sub forma:
2 n +1 n f ( x1 , x 2 ,..., x n ) = q pq ( x p ) p =1 q =1

(7.3)

unde: q, q = 1, 2, ..., 2n+1 sunt funcii continue de o singur variabil, fiind dependente de funcia f.
175

pq, p = 1, 2, ..., n, q = 1, 2, ..., 2n+1 sunt funcii continue de o singur variabil, fiind independente de funcia f. Putem formula acum teoremele fundamentale de aproximare derivate din teorema de reprezentare a lui Kolmogorov [124]: Teorema 7.1: Fie nN, n 2, : R [0,1] o funcie sigmoidal, f C(In), R+. Atunci exist kN i funciile q, pq de tip PMS() astfel nct:
2 n +1 n f ( x1 , x 2 ,..., x n ) q pq ( x p ) < , ()( x1 , x 2 ,..., x n ) I n (7.4) p =1 q =1

Construcia lui Kolmogorov este suficient de complicat pentru construcia funciilor de tip PMS(), de aceea conform cu [124], vom enuna o teorem fundamental aplicabil reelelor neuronale: Teorema 7.2: Fie n N, n 2, : R [0,1] o funcie de tip sigmoidal, f C([0,1]) i > 0. n +k < , iar Atunci pentru orice m N astfel nct m 2n + 1 i mn f
mn 1 f <k , k fiind o constant real pozitiv, funcia f poate fi aproximat cu m 2m 3n precizia cu ajutorul unui PMS ce are dou straturi ascunse, astfel: - nm(m + 1) neuroni n primul strat ascuns; - m2(m + 1)n neuroni n cel de-al doilea strat ascuns, avnd o funcie de activare pentru care toate triile sinaptice - cu excepia celor ce leag ultimul strat ascuns de neuronul de ieire - i termenii Bias [68] care sunt aceeai pentru toate funciile g care satisfac condiia || g || || f || i g g.

Obs.7.1: n teorema de mai sus prin || || s-a notat norma supremum, definit astfel || f || = sup {|f(x)| , x X} (7.5)

Teorema de mai sus are mai mult un caracter de existen i nu unul practic, garantnd posibilitatea construciei unui PMS cu dou straturi ascunse, avnd trii sinaptice universale, cu excepia celor care unesc al doilea strat ascuns de neuronul de ieire, care sunt dependente de funcia de aproximat.

VII.1.3. Demonstraii
Vom ncerca s demonstrm cele dou teoreme fundamentale de mai sus, folosindu-ne de o serie de rezultate enunate i demonstrate n [60], [124]. Pentru nceput vom enuna urmtoarea Lem ajuttoare: Lema 7.1: Fie : R [0,1] o funcie de tip sigmoidal i [a,b] R un interval real nchis. Atunci mulimea funciilor:

176

k f : [a, b] R f ( x) = wi (vi x + u i ),wi , vi , u i R i =1 este dens n mulimea C([a , b]).

(7.6)

Demonstraie: Din teorema lui Kolmogorov (7.3) avem:


2 n +1 n f ( x1 , x 2 ,..., x n ) = q pq ( x p ) p =1 q =1

S alegem intervalul real nchis [a , b] R astfel nct: pq(In) [a , b] oricare ar fi p = 1, 2 ,..., n i q = 1, 2, ..., 2n+1 Conform cu Lema 7.1 pentru orice q = 1, 2, ..., 2n+1 exist o funcie gq PMS() asftel nct: | gq(x) - q(x) | < /(2n(2n+1)), oricare ar fi x [a , b] Deoarece gq sunt funcii uniform continue, exist un numr real pozitiv astfel nct: | gq(x) - gq(y) | < /(2n(2n+1)), oricare ar fi x, y [a,b] cu |x - y| < De asemenea, pentru orice p = 1, 2, ..., n i q = 1,2, ..., 2n+1 exist o funcie hpq PMS() astfel nct: | hpq(x) - pq(y) | < , oricare ar fi x [0,1] Atunci pentru orice (x1,x2,...,xn) In avem satisfcut condiia: 2 n +1 n g q hpq ( x p ) f ( x1 , x 2 ,..., x n ) < p =1 q =1 Lema 7.2 : Fie : R [0,1] o funcie de tip sigmoidal, o constant strict pozitiv, k N, x1 < y1 < x2 < y2 < ... < xk < yk numere reale i g: {1,2, ..., k} R o funcie oarecare. Atunci exist funcia PMS() de forma:
( x) = wi (vi x + u i ),wi , vi , u i R
i =1 k

(7.7)

astfel nct: | (x) - g(j) | < , oricare ar fi x [xj, yj] , j = 1, 2, ..., k i |||| max g ( j ) + . 1 j k Demonstraie: Fie y0 R, i s alegem funcia g astfel nct g(0) = 0. S notm cu: M = max g ( j ) . 1 j k Deoarece funcia : R [0,1] este o funcie de tip sigmoidal, exist un numr real z R astfel nct: 0 < (x) < /4 Mk oricare ar fi x < z i 1 - /4 Mk < (x) < 1 oricare ar fi x > z Pentru fiecare i = 1, 2, ..., k fie vix + ui transformarea afin real ce transform n mod unic intervalul [yi-1, xi] n intervalul [-z, z]. S mai notm cu wi = g(i) - g(i -1). Atunci pentru fiecare x [xi, yi] i pentru fiecare j = 1, 2, ..., k vom avea:

w (u x + v ) g ( j ) w (u x + v ) g ( j ) + w (u x + v )
i i i i i i i i i i =1 i =1 i = j +1

g (i ) (ui x + v i ) (ui +1 x + v i +1 ) + g ( j ) (u j +1 x + v j ) 1 +
i =1 k

j 1

(7.8)

+ wi (ui x + v i ) Mj / 2 Mk + M ( k j ) / 2 Mk
i = j +1

177

Bazndu-ne pe Lema de mai sus vom ncerca s demonstrm Teorema 7.2, care reprezint o teorem fundamental a calculului neuronal.

Demonstraia teoremei 7.2: Folosindu-ne de Lema 7.2 construim urmtoarea familie de mulimi de funcii de tip PMS(): { iq i N }, q = 1, 2, ..., m. Pentru fiecare i N i pentru fiecare q = 1, 2, ..., m definim o familie de subintervale ale intervalului dat [0,1], considernd acele subintervale pe care valorile date sunt aproximate de funciile iq astfel: q j q 1 j 1 I iq = i + i +1 , i + i +1 I [0,1] j = 0,1,...., m i m m m m De asemenea, definim urmtoarele funcii: j g iq : 0,1,..., m i R, g iq ( j ) = i m S alegem urmtoarele numere reale wpq, p = 1, 2, ..., n, q = 1, 2, ..., m pe care le vom numi ntreg-independente dac satisfac condiia:

w
p =1

pq

z p 0 , oricare ar fi z1,z2,...,zk Z
n

(7.9)

Cu ajutorul lor definim funciile q: In R astfel:


q ( x1 , x 2 ,..., x n ) = w pq x p
p =1

(7.10)

Mai facem urmtoarele notaii: vi precizia cu care valorile g iq ( j ) aparinnd intervalelor Aijq I i j sunt aproximate de ctre funcii de tip PMS(); Di = { j / mi | j = 0,1,...,mi }, i N;

Deoarece q(Di) este finit pt. orice i N i orice q = 1, 2, ..., m exist un numr real i care s aib proprietatea c distana dintre dou valori q(Di) s fie mai mare dect 2i, pentru orice q = 1, 2, ..., m. Funciile q sunt uniform continue, deci exist vi > 0 cu proprietatea c dac (x1, x2, ..., xn), (y1,y2,...,yn) In, i | xp - yp| < vi, p = 1, 2, ..., n atunci: |q(x1,x2,...,xn) - p(y1,y2,...,yn)| < vi Conform cu Lema 7.2 pentru orice q = 1, 2, ..., m exist o funcie iq de tip PMS() cu proprietatea c: j iq ( x ) i < v i , () x Aijq , j = 0,1,..., m i m Construim m familii de funcii: n q n q q n i : I R,i N i (x1 ,..., x n ) = w pq i ( x p ),( x1 ,..., x n ) I p =1
178

i fie Biq familia paralelipipedelor n-dimensionale coninute n In i cu vrfurile n mulimea I iq . Notm ( B) = B Din , B Biq , care este o mulime format dintr-un singur punct oricare ar fi q = 1, 2, ..., m. Atunci:

iq ( B) iq ( ( B) ) i , iq ( ( B)) + i

Deoarece numerele reale wpq, p = 1,2,...,n, q = 1,2,...,m sunt ntreg-independente (7.9) avem:
iq ( B1 ) iq ( B2 ) = ,

() B , B
1

Biq

Fie funcia f C(In). Deoarece m 2n + 1, exist > 0 astfel nct: n / (m-n) + (1 + n / 2 (n-m)) < 1 n continuare, vom construi prin inducie, folosind Lema 7.2, o familie de funcii de tip PMS() {i | i N} i un ir cresctor de numere naturale {ki | i N} astfel nct: || i || i-1 || f || i:
f j qk j i f
q =1 j =1 m i

(7.11)

(7.12)

S fixm urmtoarele valori: 0 0 (funcia nul), i k0 = 0. S presupunem c pentru orice j < i, j i kj sunt definite. Facem urmtoarea notaie:
hi = f j qk j
q =1 j =1 m i 1

Deoarece In este o mulime compact i hi sunt funcii uniform continue, atunci exist ki N cu ki > ki-1 astfel nct diagonalele paralelipipedelor n-dimensionale qk j ( B) sunt mai mici dect || hi || / 2, pentru orice q = 1, 2, ..., m. Pe baza Lemei 7.2 exist i de tip PMS(), astfel nct : () q = 1,2,...,m, () B B kqj , () x q j ( ( B )) k j , q j ( ( B) ) + k j s avem: k k | i - hi ((B)) / (m - n) | < || hi || / 2 (m - n) i || i || < || hi || / 2 (m - n) + || hi || / 2 (m - n)

Deoarece, || hi || i-1 || f || rezult c avem || i || i-1 || f ||, deci relaia (7.11) este adevrat. Pentru a verifica relaia (7.12) este suficient s artm c:
hi i qk j hi
q =1 m

deoarece

f j qk j = hi i qk j
q =1 j =1 q =1

iar presupunerea induciei ne garanteaz c || hi || i-1 || f ||.

179

Oricare ar fi (x1,x2,...,xn) In exist cel puin m - n valori distincte ale lui q pentru care exist un paralelipiped n-dimensional B q Bkqj cu (x1,x2,...,xn) Bq. Dac pentru q = 1, 2, ..., m - n, (x1,x2,...,xn) Bq, B q B kqj atunci avem:

i qk j ( x1 , ..., x n ) hi ( ( B q )) / ( m n) < hi / 2( m n) i hi ( x 1 ,..., x n ) hi ( ( B q )) < hi / 2


Din relaiile de mai sus avem:
hi ( x1 ,..., x n ) i qi ( x1 ,..., x n ) == k
q =1 m n m n q =1

( h ( x ,..., x
i 1

) h Bq

( ( ))) / ( m n) h

Pentru q = m-n+1, ..., m, tim c:

i qki ( x1 ,..., xn ) i hi / (m n) + hi / 2(m n)


de unde se obine:
h( x 1 ,..., x n ) i qki ( x 1 ,..., x n ) hi i qk i +
q =1 q =1 m mn

q = m n +1

q ki

( + n / (m n) + n / 2 (m n )) hi = hi

Pentru > 0 s considerm i N astfel nct i || f || < . Pentru fiecare j = 1, 2, ..., i s notm pqj = w pq qki . Deoarece kqi PMS ( ) pqj PMS ( ) . Obinem:
m i n f ( x 1 ,..., x n ) j pqj ( x p ) < p =1 q =1 j =1

() ( x ,..., x ) I
1 n

Din analiza modului de construcie a demonstraiei Teoremei 7.2 putem s determinm o estimare a numrului de neuroni din straturile ascunse: S considerm funciile 1q i familiile de paralelipipede n-dimensionale B1q , q = 1, 2, ..., m, definite ca n construcia teoremei de mai sus. Funciile 1q sunt de forma:

a (b
qi i =1

m +1

qi

x + cqi )

Ca i mai sus, construim o funcie 1 ce are valori prescrise pe intervale ce conin imaginile paralelipipedelor n-dimensionale B1q prin funciile 1q . Existnd m familii i fiecare familie coninnd (m + 1)n paralelipipede n-dimensionale, rezult c funcia 1 este de forma:
( m +1)n

d (v y + u )
j j j j =1

180

Atunci funcia f poate fi aproximat cu precizia de funcia:


m m ( m +1) n n n m +1 1 w pq 1q ( x p ) = d j v j w pq a qi (bqi x p + cqi ) + u j p =1 q =1 j =1 p =1 i =1 q =1 m

VII.2. Teorema lui Stone-Weierstrass i perceptronul multistrat

VII.2.1. Introducere
n acest subcapitol vom folosi Teorema lui Stone-Weierstrass [111] i funcia cosinus sigmoidal a lui Gallant i White [74] pentru a stabili faptul c PMS cu un singur strat ascuns, ce au ca funcii de activare funcii arbitrare de tip sigmoidal, pot aproxima orice funcie msurabil Borel, cu orice precizie dorit, condiia fiind ca PMS s conin un numr nelimitat de neuroni n stratul ascuns [103]. Aceste rezultate stabilesc capacitatea reelelor neuronale de tip PMS de a fi aproximatori universali. Aplicarea practic a considerentelor teoretice ce vor fi prezentate n continuare, poate fi uneori nereuit datorit unei faze de nvare nepotrivit, datorit unui numr necorespunztor de neuroni n stratul ascuns sau a prezenei unei reguli stohastice, i nu determinist ntre datele de intrare i cele de ieire. De aceea, n cadrul acestui subcapitol nu vom aborda problema practic a numrului de neuroni necesari pentru a aproxima o funcie cu o anumit precizie [67].

VII.2.2. Notaii i definiii


Fie F = {f | f: E R} o familie de funcii reale. Def.7.5: Familia de funcii F se numete algebr dac F este nchis relativ la operaiile de adunare, nmulire i nmulire cu un scalar. Def.7.6: Familia de funcii F se numete separabil pe E dac oricare ar fi x, y E, cu x y, exist o funcie f F astfel nct f (x) f (y). Def.7.7: Familia de funcii F se numete nenul dac oricare ar fi x E, exist o funcie f F astfel nct f (x) 0. Teorema Stone - Weierstrass: Fie F o algebr de funcii reale definite pe o mulime compact K. Dac F este separabil pe K (Definiia 7.6) i nenul pe K (Definiia 7.7), atunci nchiderea uniform B a mulimii F const din mulimea tuturor funciilor continue pe K (altfel spus F este K - dens relativ la spaiul funciilor continue pe K). Def.7.8: Mulimea An = {A : Rn R | A(x) = wx + b, w, x Rn, b R, n N} se numete mulimea transformrilor afine de la Rn la R. Obs.7.2: Interpretarea definiiei de mai sus, n contextul reelelor neuronale este urmtoarea:
181

x Rn reprezint vectorul de intrare, prezentat la stratul de intrare al reelei neuronale; w Rn reprezint vectorul triilor sinaptice dintre stratul de intrare i stratul ascuns al reelei neuronale. b R reprezint termenul Bias; wx reprezint produsul scalar al celor doi vectori n-dimensionali w i x.

Def.7.9: Pentru orice funcie msurabil (Borel) G : Rn R, n N, vom construi urmtoarea familie de funcii:

(G) = f : R
n

m R f ( x ) = i G ( Ai ( x ) ), x R n , i R, Ai A n , n, m N i =1 (7.13)

Obs.7.3: Orice funcia f n(G) corespunde unui PMS de forma celui din figura de mai de jos:

G x1 x2 xn G

f(x)

w
G

Fig.7.1: O reea neuronal de tip PMS avnd un singur strat ascuns, compus din: - un strat de intrare cu n neuroni de intrare; - un strat ascuns cu m neuroni avnd ca funcie de activare funcia sigmoidal G; - un strat de ieire avnd un singur neuron de ieire; - stratul de intrare este conectat cu stratul ascuns prin intermediul triilor sinaptice wi Rn; - statul ascuns este conectat cu stratul de ieire prin intermediul triilor sinaptice R.

Obs.7.4: Conform cu cele prezentate n [68], modul de operare al PMS cu o arhitectur ca cea al reelei neuronale din Fig.7.1 de mai sus, este: se aplic la stratul de intrare vectorul de intrare x = (x1,x2,...,xn); se calculeaz pentru fiecare neuron j din stratul ascuns valoarea de integrare:
I j = w ji x i + w j 0 = wx + b
i =1 n

se aplic funcia de activare (transfer) sigmoidal G, obinndu-se valoarea de ieire al fiecrui neuron din stratul ascuns j:
y j = G( I j ) = G( wx + b)
182

se propag valorile generate de neuronii din stratul ascuns yj ctre stratul de ieire (compus dintr-un singur neuron), obinndu-se valoarea de ieire al PMS:
y = j y j = j G (I j )
j =1 j =1 m m

(7.14)

Evident, orice funcie f n(G) corespunde unui PMS cu un strat ascuns de tipul celui prezentat n Fig.7.1 de mai sus. n Definiia 7.2 am vzut modul de definire al unei funcii sigmoidale. Vom prezenta n cele ce urmeaz o serie de funcii sigmoidale [68] folosite n tehnica calculului neuronal, ca i funcii de activare al neuronilor din stratul ascuns. Exemplul 4.1: Vom folosi n cele ce urmeaz funcia indicator definit astfel: 0, x A 1 A : R {0,1},1 A ( x) = 1, x A (i). Funcia treapt (Heaviside): 1 (x ) = 1{ x 0} (ii). Funcia ramp: 2 (x ) = x 1{ 0 x 1} + 1{ x >1} (iii). Funcia cosinus sigmoidal:
3 (x ) = 1 + cos( x + 3 / 2) 2 1{ / 2 x / 2} + 1{ x > / 2}

(7.15) (7.16)

(7.17)

Definiia 7.10: Pentru orice funcie msurabil G : Rn R, n N, vom construi urmtoarea familie de funcii:

(G) = f : R
n

li m R f ( x ) = i G (Aij ( x ) ), x R n , i R, Aij A n , li , n, m N i =1 j =1

(7.18)

S facem urmtoarele notaii: Cn = { f: Rn R | f funcie continu } Mn = { f: Rn R | f funcie msurabil Borel } Obs.7.4: (i) Oricare ar fi funcia G msurabil Borel rezult c:

n(G) Mn, n(G) Mn


(ii). Oricare ar fi funcia G continu rezult c:

n(G) Cn, n(G) Cn


Def.7.10: Fie S o submulime a spaiului metric (X, ). Vom spune c S este - dens n submulimea T, dac pentru orice > 0 i pentru orice t T, exist un element s S astfel nct (s, t) < .
183

Obs.7.5: Definiia de mai sus arat c un element a mulimii S poate aproxima cu orice precizie dorit un element al mulimii T. Def.7.11: Submulimea S Cn se numete uniform dens pe un compact n Cn, dac pentru orice submulime compact K Rn, S este K - dens n Cn, unde: K(f, g) =supx K| f(x) - g(x) | , f, g Cn. Def.7.12: Un ir de funcii {fn} converge uniform pe un compact la funcia f dac pentru orice compact K Rn avem: lim K ( f n , f ) = 0 n

VII.2.3. Teoreme fundamentale i demonstraii

Conform cu lucrarea [103], suntem n stare s enunm urmtoarea teorem: Teorema 7.4 : Fie G: Rn R o funcie continu i neconstant. Atunci mulimea n(G) este uniform dens pe un compact n Cn. Demonstraie: Pentru demonstraia acestei teoreme ne vom folosi de Teorema lui Stone Weierstass. Fie K Rn o mulime compact. Este banal de artat c mulimea n(G) este o algebr pe K. Vom art n continuare faptul c mulimea n(G) este separabil pe K (Definiia 7.6) i nenul pe K (Definiia 7.7): separabil: dac x, y K cu x y atunci exist A An astfel nct G(A(x)) G(A(y)). Pentru a dovedi aceast afirmaie este suficient s alegem dou numere reale a, b R, a b astfel nct G(a) G(b). Alegem funcia A An astfel nct s satisfac relaia: A(x) = a i A(y) = b. Atunci: G(A(x)) = G(a) G(b) = (A(y)) i prin urmare mulimea n(G) este separabil pe K n sensul Definiiei 7.6. nenul: pentru ca s avem satisfcut condiia de ne-nulitate n sensul Definiiei 7.7 trebuie s artm c exist o funcie G(A()) constant nenul. Pentru aceasta fie b R un numr real cu proprietatea c G(b) 0. S alegem funcia A An dat prin relaia: A(x) = 0 x + b. Atunci oricare ar fi x K avem: G(A(x)) = G(b) 0. Aplicnd Teorema lui Stone-Weierstrass rezult c mulimea n(G) este K - dens n spaiul funciilor reale continue pe K, adic ceea ce trebuia demonstrat. Obs.7.6: (i).Teorema de mai sus arat faptul c reelele neuronale de tip sunt capabile de a aproxima cu orice precizie dorit orice funcie continu pe o mulime compact. Condiia ca funcia s fie definit pe un compact se realizeaz relativ simplu, cci datele de intrare ale unei reele neuronale sunt ntotdeauna mrginite. (ii). De notat faptul c funcia de activare G a neuronilor din stratul ascuns poate fi orice funcie continu neconstant, nefiind obligatorie condiia ca funcia de activare s fie o funcie de tip sigmoidal. Evident, majoritatea funciilor de activare de tip
184

sigmoidal folosite n practic satisfac condiia de continuitate, deci sunt o alegere bun. (iii). Reelele neuronale de tip nu au dect o importan teoretic, nu sunt utilizate n aplicaiile practice. De aceea, aplicarea rezultatelor obinute pentru acest tip de reele neuronale poate fi folosit n practic considernd cazul particular al reelelor neuronale tip cu li =1 pentru orice i, obinndu-se astfel reele neuronale de tip care sunt exact reele neuronale de tip PMS cu un singur strat ascuns. Importantul rezultat formulat mai sus sub forma Teoremei 7.4 a fost generalizat de ctre Hornik, K., Stinchcombe, M., White, H. [103] care enun i demonstreaz urmtoarele teoreme: Teorema 7.5: Pentru orice funcie continu neconstant G, orice numr natural n N i orice msur pe Rn, mulimea n(G) este K - dens n spaiul funciilor reale msurabile Mn. Teorema de nai sus, a crei demonstraie se gsete n [103], stabilete faptul c o reea neuronal de tip poate aproxima orice funcie msurabil cu orice precizie dorit. Capacitatea de aproximare a reelei neuronale de tip nu este dependent de funcia de activare G a neuronilor din stratul ascuns, nu este dependent de dimensionalitatea spaiului de intrare n i nu este dependent de spaiul de intrare a crui caracteristic este dat de msura . Din toate cele menionate mai sus putem trage concluzia fireasc: reelele neuronale de tip sunt aproximatori universali. Condiia de continuitate a funciei de activare G face ca rezultatele enunate pn acum s nu poat fi aplicate reelelor neuronale de tip PMS care au ca funcie de activare funcia treapt (Heaviside) 1. Dup cum am vzut ns n [66], neuronii biologici au un mod de funcionare care justific folosirea funciei treapt. Neuronul sumeaz semnalele provenite din arborele dendritic, emind un semnal axonic cnd suma semnalelor dendritice a depit un prag, numit prag sau nivel de activare. Chiar dac studiul nostru nu este foarte preocupat de semnificaia biologic, nu trebuie s uitm faptul c calculul neuronal are ca surs de inspiraie modelul biologic al creierului uman, prin urmare trebuie s avem n vedere i aceste aspecte biologice inspiratoare ale calculului neuronal. De aceea, vom reformula rezultatele obinute pn acum pentru funcii de activare de tip sigmoidal, deci i pentru funcia treapt, n general condiia de continuitate a funciei de activare nemaifiind necesar. Teorema 4.6: Pentru orice funcie de activare de tip sigmoidal , orice numr natural n N i orice msur pe Rn, mulimea n() este uniform dens pe un compact n Cn i K dens n spaiul funciilor reale msurabile Mn. Evident, conform Observaiei 7.5 (iii), toate teoremele enunate relativ la cazul mai general al reelelor neuronale de tip se pot aplica relativ la cazul particular al reelelor neuronale de tip care sunt echivalente cu PMS avnd un singur strat ascuns.

185

VII.3. Aplicaii ale teoremei lui Stone - Weierstrass la reele neuronale


VII.3.1. Introducere
n acest subcapitol ne vom concentra atenia asupra utilizrii Teoremei lui StoneWeierstrass n construirea unor arhitecturi de reele neuronale care s satisfac condiiile teoremei amintite, i s satisfac proprietatea de aproximant universal. Implicnd Teorema Stone-Weierstrass n construcia reelelor neuronale, vom ncerca s artm c acestea sunt capabile de a calcula anumite expresii polinomiale. Pentru aceasta, ne vom baza pe principiul enunat n lucrarea [32]: dac avem dou reele neuronale care a cror valori de ieire coincid cu valorile generate de funciile date f i g, atunci combinnd cele dou reele neuronale, vom obine o reea neuronal mai mare care va genera valori de ieire corespunznd unei expresii polinomiale n f i g. Vom da o formulare echivalent [111], [171] pentru Teorema lui Stone-Weierstrass cu cea enunat n subcapitolul precedent, diferena fiind doar c n aceast formulare Teorema poate fi mai uor aplicat n aplicaii practice. Teorema Stone-Weierstass: Fie D Rn un domeniu compact, i fie familia de funcii F = { f : D Rn | f funcie continue } care satisface urmtoarele condiii: (i). Funcia identic: Funcia identic 1(x) = x, x D aparine mulimii F. (ii). Separabilitate: Oricare ar fi x1, x2 D, x1 x2, exist f F astfel nct f (x1) f (x2). (iii). nchidere algebric: Dac f, g F, atunci oricare ar fi a, b R avem fg F i af + bg F. Atunci F este dens n mulimea C(D) a funciilor continue pe D, adic oricare ar fi > 0 i oricare ar fi g F, atunci exist o funcie f F astfel nct | f (x) - g (x) | < , oricare ar fi x D.

VII.3.2. Exemple de reele neuronale ce satisfac teorema lui Stone - Weierstrass


n cele ce urmeaz ne va interesa studiul reelelor neuronale de tip PMS cu un singur strat ascuns10, avnd o arhitectur de reea neuronal ca cea din Fig. 7.1. S analizm trsturile generale ale unei astfel de reele neuronale din punct de vedere al aplicrii Teoremei lui Stone - Weierstrass: - Familia de funcii care corespunde acestui tip de reea neuronal este conform Obs.7.4:

10

Am demonstrat n subcapitolul anterior c un PMS cu un singur strat ascuns, avnd un numr nelimitat de neuroni n stratul ascuns are proprietatea de aproximant universal. De aceea, purtm discuia relativ la un PMS cu un singur strat ascuns fr a restrnge generalitatea.

186

N n F = f : D R n R f (x1 , x 2 ,..., x n ) = i G wij x j + b j , i , wij , b j R, n, N N i =1 j =0 (7.19)

(i). Funcia identic: conform Teoremei lui Stone - Weierstrass va trebui s artm c funcia identic aparine mulimii F: s alegem funcia de activare a neuronilor din stratul ascuns de tip sigmoidal treapt (7.15): s setm triile sinaptice ale conexiunilor dintre stratul de intrare i stratul ascuns egale cu zero: wij = 0. s setm triile sinaptice ale conexiunilor dintre stratul ascuns i stratul de ieire astfel: i = 1, i {1,2,...,N} i j = 0, j {1,2,...,N}, j i.

Atunci, oricare ar fi x = (x1,x2,...,xn) D avem:


N N N n f (x1 ,..., x n ) = i G x j 0 + 0 = i G( 0) = i 1 = 1 j=0 i=0 i=0 i=0

Astfel, am demonstrat faptul c reelele neuronale de tip PMS satisfac condiia de funcie identic a Teoremei lui Stone - Weierstrass. (ii). Separabilitate: trebuie s artm c reelele neuronale de tip PMS (7.19) au proprietatea de a lua valori distincte pentru date de intrare distincte. Pentru aceasta este suficient ca funcia calculat de ctre reeaua neuronal s fie strict monoton. Deoarece funciile de activare ale neuronilor ascuni, folosite n practic, sunt de tip sigmoidal i acestea sunt toate strict monotone, vom avea: oricare ar fi x = (x1,x2,...,xn) D i y = (x1,x2,...,xn) D cu x y avem:
x y G ( x ) G ( y ) i G( x ) i G( y ) f ( x ) f ( y )
i =1 i =1 N N

(iii). nchidere algebric - aditiv: - fie f F, atunci :


N1 n1 ( ( f (x1 , x 2 ,..., x n ) = i G wij1) x j + bi(1) , i , wij1) , bi(1) R, n1 , N 1 N i =1 j =0

- fie g F, atunci :
N2 n2 ( ( g (x1 , x 2 ,..., x n ) = i G wij2 ) x j + bi( 2 ) , i , wij2 ) , bi( 2) R, n2 , N 2 N i =1 j =0 - fie a,b R. Atunci, pentru a arta c af + bg F, vom face construi urmtoarea reea neuronal:

187

f x g

+
b

af+bg

Fig. 7.2: Arhitectura unei reele neuronale tip PMS care demonstreaz faptul c dac f, g F, atunci i af + bg F, adic satisfacerea condiiei de nchidere algebric aditiv.

(iii). nchidere algebric - multiplicativ: - trebuie s mai artm c putem modela cu ajutorul unei reele neuronale de tip PMS i produsul a dou funcii fg pentru a putea trage concluzia c putem aplica Teorema lui Stone - Weierstrass acelei familii de reele neuronale. Datorit faptului c neuronul din stratul de ieire are o funcie de activare liniar (funcia identic), va trebui s putem reprezenta produsul fg ca o sum de funcii. Astfel, punctul crucial al aplicrii Teoremei lui Stone - Weierstrass la o familie de reele neuronale este de a gsi funciile care transform produsele n sume. n cele ce urmeaz vom studia o serie de reele neuronale care satisfac condiiile Teoremei lui Stone - Weierstrass, reamintind nc o dat faptul c condiiile de (i) funcie identic, (ii) separabilitate i (iii) nchidere algebric aditiv sunt satisfcute de toate reelele neuronale de tip PMS, care constituie obiectul nostru de studiu.

VII.3.2.1. Reele neuronale de tip exponenial

Evident, funcia exponenial este un candidat natural pentru funcia cutat ce transform produsul n sum. Bazndu-ne pe relaia algebric:
e x e y = e x+y

(7.20)

vom construi prima clas de reele neuronale ce satisfac Teorema lui Stone - Weierstrass.

Teorema 7.7: Fie A mulimea funciilor calculabile de reele neuronale de tip exponenial: n wij xi N n j =1 A = f : [0,1] R f ( x1 , x 2 ,..., x n ) = i e , i , wij R, n, N N (7.21) i =1 atunci mulimea A este dens n mulimea Lp([0,1]n) unde 1 p . Demonstraie: Fie f i g A. Atunci:
f (x1 , x 2 ,..., x n ) = i e
i =1 N

wij x j
j =1

, i , wij R, n, N N
188

g (x1 , x 2 ,..., x n ) = k e
k =1

wkj x j
j =1

, i , wkj R, n, M N

Vom avea:
f (x1 , x 2 ,..., x n ) g ( x1 , x 2 ,..., x n ) = l e
l =1 NM

wlj x j
j =1

, l , wli R, n, N , M N

unde

l = i k , iar wlj = wij + wkj

Atunci f g A, deci A este dens n mulimea Lp([0,1]n), unde 1 p .

VII.3.2.2. Reele neuronale de tip Fourier

Reelele neuronale de tip Fourier au fost introduse pentru prima dat de Gallant i White n lucrarea [74] pentru implementarea seriilor Fourier cu ajutorul reelelor neuronale. Aceste serii Fourier satisfac Teorema lui Stone - Weierstrass, avnd la baz urmtoarea identitate trigonometric ce transform produsul n sum: cos ( a + b ) = cos a cos b - sin a sin b (7.22)

n [74], se introduce o form echivalent a seriilor Fourier, avnd la baz funcia cosinus sigmoidal definit n Exemplul 7.1 (7.17), i scris n forma echivalent:
1 x 0, 2 1 + cos 2x ( ), 1 < x<0 cos ig ( x ) = 2 2 x0 1,

(7.23)

Teorema 7.8: Fie B mulimea funciilor calculabile de reele neuronale de tip Fourier:
N n n B = f : [0,1] R f (x1 , x 2 ,..., x n ) = i cos ig wij x j + i , i , j , wij R, n, N N i =1 j =1 (7.24) atunci mulimea B este dens n mulimea Lp([0,1]n), unde 1 p .

Demonstraie: Bazndu-ne pe identitatea (7.22) i pe forma pe care o are o funcie de tip cosinus sigmoid, rezult imediat c dac f i g B, atunci f g B, deci B este dens n mulimea Lp([0,1]n), unde 1 p .

189

VII.3.2.3. Reele neuronale de tip

Dup cum am vzut n Teorema 7.6 enunat mai nainte, reelele neuronale de tip satisfac condiiile Teoremei lui Stone - Weierstrass, fapt dovedit pe baza unor complexe rezultate din analiza real. De aceea, bazndu-ne pe ideile de mai sus, vom relua reelele neuronale de tip simplificnd demonstraia faptului c ele satisfac Teorema lui Stone Weierstrass. Dup cum am vzut, este suficient s artm c produsul a dou funcii satisface condiia de nchidere multiplicativ. Pentru aceasta ne vom baza pe urmtoarea identitate algebric:

x n x m = e n ln x e m ln x = e (

n + m ) ln x

= x n+m

(7.25)

Teorema 7.9: Fie C mulimea funciilor calculabile de reele neuronale de tip :


n N w n C = f : [0,1] R f (x1 , x 2 ,..., x n ) = i x j ij , i , wij R, n, N N (7.26) i =1 j =1

atunci mulimea C este dens n mulimea Lp([0,1]n), unde 1 p .

VII.3.2.4. Reele neuronale de tip exponenial - generalizat

Reelele neuronale de tip exponenial - generalizat reprezint o generalizare a reelelor neuronale de tip exponenial, la care baza o reprezint constanta lui Euler e. De data aceasta baza funciei exponeniale poate fi orice funcie real. Acest tip de reea neuronal se obine printr-o pre-procesare a datelor de intrare ce se prezint apoi unei reele neuronale de tip . n acest fel, dac g reprezint funcia de pre-procesare a datelor de intrare, atunci stratul ascuns al reelei neuronale de tip va fi capabil de a calcula funcii polinomiale de forma g ( x1 ) n1 g ( x 2 ) n2 ... g ( x N ) n N . Teorema 7.10: Fie D mulimea funciilor calculabile de reele neuronale de tip :
wij n N n D = f : [0,1] R f ( x1 , x 2 ,..., x n ) = i g (x j ) , g C ([0,1]), i , wij R, n, N N i =1 j =1 (7.27)

atunci mulimea D este dens n mulimea Lp([0,1]n), unde 1 p .

190

VII.3.2.5. Reele neuronale de tip BP (BackPropagation)

Reelele neuronale de tip BP (BackPropagation), sunt de fapt reele neuronale de tip PMS, cu unul sau mai multe straturi ascunse, avnd ca i funcie de activare a neuronilor din stratul ascuns, funcia sigmoidal logistic:
( x) = 1 1 + e x

(7.28)

iar ca algoritm de nvare, popularul algoritm BackPropagation, prezentat pe larg n IV.2.1. Pentru a putea aplica acestui tip de reea neuronal Teorema lui Stone - Weierstrass, trebuie s mai introducem urmtoarea relaie algebric:
w1 w2 1 1 1 1 = + 1 + w 1 x 1 + w 2 x w1 w 2 1 + w1 x w 2 w1 1 + w 2 x

(7.29)

Pe baza relaiei algebrice (7.20) se combin reelele neuronale de tip exponenial cu relaia (7.29), obinndu-se reelele neuronale de tip BP. Atunci putem enuna urmtoarea teorem: Teorema 7.11: Fie E mulimea funciilor calculabile de reele neuronale de tip BP:
1 n wikj x j N K n 1 + e j =1 , , w R, n, N , K N E = f : [0,1] R f ( x1 , x 2 ,..., x n ) = i i ikj i =1 j =1 (7.30)

atunci mulimea E este dens n mulimea Lp([0,1]n), unde 1 p .

VII.4. Proprieti fundamentale de aproximare ale reelelor neuronale

VII.4.1. Noiuni introductive


Reeaua neuronal poate fi privit ca o lege de calcul ce genereaz m valori de ieire atunci cnd calculul pornete de la n date de intrare. Cu alte cuvinte, o reea neuronal implementeaz o familie de funcii definite pe Rn cu valori n mulimea Rm. Evident, ntrebarea care o punem este ct de bine putem aproxima o astfel de funcie f : Rn Rm cu ajutorul unei reele neuronale, dac presupunem c putem avea orici neuroni n straturile ascunse. Modul de msurare a preciziei aproximrii depinde de modul de msurare al "apropierii" dintre dou funcii, care "apropiere" la rndul ei este dependent de problema
191

specific pe care dorim s o rezolvm. Dac, ntr-o aplicaie dat, interesul nostru este ca reeaua neuronal s nvee la fel de bine toate datele de antrenament ce aparin unei mulimi compacte X Rn, atunci cea mai potrivit msur a "apropierii" o constituie distana uniform dintre funcii:

,K = sup f (x ) g (x )
x X

(7.31)

n alte aplicaii, privim datele de antrenament ca nite variabile aleatoare, interesndune performana medie, media fiind considerat n raport cu msura a spaiului de intrare Rn, unde ( Rn) < . n acest caz, vom msura "apropierea" cu distana Lp():

p , =

f ( x ) g ( x ) d ( x )

1/ p

(7.32)

unde 1 p < , cazul p = 2 al abaterii medii ptratice fiind cel mai popular. Ceea ce am reuit s artm pn acum este capacitatea reelelor neuronale de a fi aproximatori universali, cu condiia ca funciile de activare ale neuronilor constitueni s satisfac condiia de integrabilitate sau s fie funcii sigmoidale (vezi Def 7.1). n acest capitol ne vom ocupa de relaxarea condiiilor pe care trebuie s le satisfac funcia de activare a neuronilor pentru ca reeaua neuronal s pstreze capacitatea de aproximant universal. Urmrind ideea prezentat de K. Hornik n [102], vom arta c dac funcia de activarea neuronilor este mrginit i neconstant, atunci pentru o msur arbitrar a spaiului de intrare, PMS poate aproxima orict de bine orice funcie ce aparine spaiului Lp(), dac "apropierea" este msurat de p, (7.32) i exist orici neuroni n stratul ascuns. De asemenea, vom stabili faptul c dac funcia de activare este continu, mrginit i neconstant, atunci pentru orice spaiu de intrare X Rn atunci PMS poate aproxima orict de bine orice funcie continu definit pe X, n raport cu distana p, (7.32), stratul ascuns avnd orici neuroni n stratul ascuns. Aceste afirmaii ne vor permite s admitem concluzia lui Hornik [102]: "ceea ce asigur reelelor neuronale PMS proprietatea de a fi aproximatori universali nu este dat de specificul funciei de activare a neuronilor ci mai degrab de arhitectura intrinsec a reelei neuronale".

VII.4.2. Enunuri i rezultate


Vom considera o arhitectur de reea neuronal de tip PMS ca aceea prezentat n Fig.7.1, cu un singur strat ascuns i cu un singur neuron n stratul de ieire. Atunci mulimea de funcii implementat de aceast reea neuronal cu m neuroni n unicul strat ascuns este:
m m (G ) = f : R n R f ( x ) = i G (w i x + ), w i , x R n , i , R n i =1

(7.33)

Mulimea tuturor funciilor implementate de reele neuronale de tip PMS ce au orici neuroni n stratul ascuns este:
192

m n ( G) = U n ( G) m= 1

(7.34)

Vom folosi n cele ce urmeaz urmtoarele notaii: oricare ar fi 1 p < , notm:


f
p ,

[
{

Rk

f ( x ) d ( x )
p ,

1 p

(7.35) (7.36)
<

p , ( f , g ) = f g

L p ( ) = f : R n R f

p ,

(7.37) (7.38)

C ( X ) = { f : X R f continu pe X }

D f (x ) =

1 + ...+ k f (x ), = 1 + ...+ k x1 1 ... x k k

(7.39)

C m R n = f : R n R f continu pe X , D f , m continu pe X
oricare ar fi X Rn i oricare ar fi f C m R n , notm:
f
m,u , X

( ) {

(7.40)

( )

= max sup D f (x )
m x X

(7.41)

oricare ar fi f C m R n , o msur finit pe Rn i oricare ar fi 1 p < , notm:


= n D f R m
p

( )

m , p ,

p d

(7.42)

Def.7.13: Submulimea X Lp ( ) se numete dens n Lp ( ) dac oricare ar fi f Lp ( ) i oricare ar fi > 0, exist o funcie g X astfel nct p , ( f , g ) < .

Def.7.14: Submulimea S C(X) se numete dens n C(X) dac oricare ar fi f C(X) i oricare ar fi > 0, exist o funcie g S astfel nct u , X ( f , g ) < . Def.7.15: Submulimea S Cm(Rn) se numete uniform m-dens pe compact n Cm(Rn) dac oricare ar fi f Cm(Rn), oricare ar fi submulimea compact X Rn i oricare ar fi > 0, exist o funcie g = g (f, X, ) S astfel nct f g m,u , X < . Def.7.16: Se numete spaiu Sobolev ponderat, mulimea definit astfel:

193

C m , p ( ) = f C m R n

( )

m , p ,u

<

(7.43)

Obs.7.7: Dac msura are suportul compact, atunci Cm,p() = Cm(Rk). Def.7.17: Submulimea S Cm,p() se numete dens n Cm,p(), dac oricare ar fi f Cm,p() i oricare ar fi > 0, exist o funcie g = g (f,) S astfel nct f g m, p ,u < . n continuare vom enuna teoremele care constituie rezultatele de baz ale acestui subcapitol, inspirate de lucrarea [102]: Teorema 7.12: Dac funcia G este mrginit i neconstant, atunci mulimea n (G ) este dens n Lp ( ) , oricare ar fi o msur finit definit pe Rn.

Teorema 7.13: Dac funcia G este continu, mrginit i neconstant, atunci mulimea n (G ) este dens n C(X), oricare ar fi submulimea compact X Rn. Teorema 7.14: Dac funcia G Cm(Rn) este mrginit i neconstant, atunci mulimea n (G ) este uniform m-dens pe compact n Cm(Rn) i dens n Cm,p() pentru orice msur definit pe Rn cu suport compact. Teorema 7.15: Dac funcia G Cm(Rn) este neconstant i toate derivatele sale pn la ordinul m sunt mrginite, atunci mulimea n (G ) este dens n Cm,p() pentru orice msur finit definit pe Rn.

Demonstraia acestor teoreme se bazeaz pe o metod folosit pentru prima dat de Cybenko [37], care aplic teorema lui Hahn-Banach, precum i teoremele de reprezentare pentru funcionale liniare continue pe spaiile de funcii luate n discuie. Pentru detalii relative la demonstraia acestor teoreme se poate consulta lucrarea [102].

VII.4.3. PMS pentru aproximarea unei funcii i a derivatelor sale


n capitolele precedente am vzut c o reea neuronal de tip PMS are capacitatea de a aproxima orict de bine o funcie f : Rn R. n aplicaiile practice, de o mare nsemntate este nu numai capacitatea de a aproxima o funcie necunoscut f, ci i derivatele sale. Astfel, lucrrile lui Jordan [110] din domeniul roboticii sugereaz ideea c o reea neuronal este capabil nu numai de a aproxima o funcie ci i derivatele acelei funcii. Jordan a aplicat o reea neuronal pentru a nva un robot micri deosebit de fine, ceea ce a i reuit, explicaia succesului fiind dat de capacitatea reelei neuronale de a nva pe lng funcia necunoscut de descriere a micrii i matricea Jacobian a acelei funcii de micare. Cu toate c rezultatele experimentale sugereaz aceast capacitate a reelelor neuronale de a aproxima o funcie necunoscut i derivatele sale, rezultate teoretice care s garanteze aceast proprietate nu au fost obinute pn n anul 1990, an n care Hornik, Stinchcombe i White public lucrarea [104]. Deoarece, se pune problema aproximrii nu numai a unei funcii necunoscute, ci i a derivatelor sale necunoscute, intuiia sugereaz folosirea unor funcii de activare derivabile
194

pentru neuronii din stratul ascuns. Evident, justificarea acestei intuiii nu este imediat. S considerm din nou clasa de reele neuronale de tip PMS cu o arhitectur ca aceea prezentat n Fig.7.1 (n-neuroni n stratul de intrare, m - neuroni n stratul ascuns, un singur neuron n stratul de ieire, xi Rn vectorii de intrare, wi Rn, i = 1, 2, ..., m vectorii triilor sinaptice dintre stratul de intrare i stratul ascuns, ki R, i = 1, 2, ..., m triile sinaptice dintre stratul ascuns i stratul de ieire, G funcia de activare a neuronilor din stratul ascuns):
m (G ) = f : R n : R f (x) = k i G (w i x ), w i , x R n , k i R, G : R R i =1

(7.44)

Funciile f (G) au urmtoarele derivate pariale de ordinul nti:


f ( x ) m = k j w ji G' w j x , i = 1,2,..., n x i j =1

(7.45)

Rezultatele prezentate pn acum ne permit s afirmm existena unor trii sinaptice f ( x ) kj, wji R pentru care funcia poate aproxima derivata funciei necunoscute x i F ( x ) F: R n R, . x i Problema este c alegerea triilor sinaptice kj, wji R din formula (7.45) pentru F ( x ) aproximarea derivatei nu reprezint neaprat alegerea potrivit pentru a aproxima x i funciei necunoscute F conform formulei (7.44). Ceea ce vom prezenta n cele ce urmeaz, va dovedi existena unor trii sinaptice ale F ( x ) unui PMS capabil de a aproxima att o funcie necunoscut F, ct i derivatele sale . x i Pentru aceasta, ne vom baza pe o serie de rezultate prezentate n lucrarea [104], i anume vom arta c pentru o anumit clas de reele neuronale de tip PMS, mulimea (G) este dens n spaii de funcii unde distana dintre funcii se msoar lund n considerare distana dintre derivatele funciei (inclusiv derivata de ordin zero). Vom introduce o serie de definiii care stabilesc contextul matematic al teoremelor care vor fi enunate n acest paragraf, i care vor stabili riguros ceea ce ne-am propus, adic construcia unei reele neuronale de tip PMS care s fie capabile de a aproxima o funcie necunoscut i derivatele sale. Def. 7.18: Fie S un spaiu de funcii. Funcia : S R+ se numete distan sau metric dac satisface proprietile: oricare ar fi f ,g S, (f , g) 0; oricare ar fi f ,g, h S, (f , h) (f , g) + (g , h); (f , g) = 0 dac i numai dac f = g.

Def. 7.19: Fie S un spaiu de funcii. Dac : S R + este o metric pe S atunci cuplul (S, ) se numete spaiu metric. Capacitatea mulimii (G) de a aproxima spaiul de funcii S se poate descrie cu ajutorul conceptului de - densitate:
195

Def.7.20: Fie U R n, S = { f | f : U R } i (S, ) un spaiu metric. Oricare ar fi g (G), definim restricia lui g la U astfel: gU(x) = g(x), oricare ar fi x U i nedefinit pentru x U; Dac oricare ar fi f S i oricare ar fi > 0 exist g (G) astfel nct (f , gU) < , atunci spunem c (G) conine o submulime - dens n S. Dac n plus, gU S oricare g (G), atunci spunem c (G) este - dens n S. Relum Definiia 7.15 de m - uniform densitate pe un compact relativ la mulimea (G). Def.7.21: Fie m, l {0} N, 0 m l, U R n i S Cl(U). Dac oricare ar fi f S, > 0 i mulimea compact K U exist g (G) astfel nct:
max sup D f (x ) D g (x ) <
m x K

atunci spunem c mulimea (G) este m - uniform dens pe compact n S. Vom nota cu m o metric care induce o convergen m - uniform pe compactul K. K Dei metrica m este dependent i de mulimea U, din considerente de simplificare a notaiei K nu vom mai specifica i mulimea U. Suntem astfel n stare s ntrevedem importana rezultatelor enunate pn acum: Dac mulimea (G) este m - uniform dens pe compact n S, indiferent de alegerea funciei f S, a preciziei > 0 i a mulimii compacte K U ntotdeauna exist un PMS de tipul celui prezentat n Fig.7.1 cu proprietatea c funcia g (G) are toate derivatele de ordin m ale restriciei sale gU K la o distan mai mic dect fa de derivatele lui f pe compactul K. Dup ce identifica noiunilor matematice necesare, vom da teoremele de caracterizare a mulimilor G i U care asigur condiiile ca mulimea (G) s fie m - uniform dens pe compact n S, deosebit de util fiind alegerea S Cm(U). Fa de paragraful anterior unde am introdus spaiul Lp(), vom modifica notaia acestui spaiu n aa fel nct s punem n eviden i mulimea de definiie U, astfel:
L p (U , ) = f : U R f masurabila, f

p ,U ,

f d

1 p

< ,1 p <

(7.46)

Obs.7.8: i).Distana dintre dou funcii f,g Lp(U, ) se msoar prin metrica:
p ,U , f g
p ,U ,

ii). p,U, (f, g) = 0 dac f i g difer pe o mulime de msur nul. Pentru a putea msura distana dintre dou funcii, innd cont de distana dintre derivatele lor, vom introduce o metric definit pe un spaiu de funcii Sobolev. Vom prelua o serie de elemente definite n paragraful anterior, dezvoltndu-le n concordan cu scopul nostru.
196

Def. 7.22: Se numete spaiu Sobolev urmtoarea mulime de funcii:


m S p (U , ) = f C m (U ) D f

p ,U ,

< , ( ) m

(7.47)

Obs.7.9: i). Putem s definim norma Sobolev:


f D f m p p ,U ,
p
1

m , p ,U ,

(7.48)

ii). Putem s definim distana (metrica) Sobolev:


m, ( f , g ) = f g p
m , p ,U ,

m f , g S p (U , )

(7.49)

iii). Metrica Sobolev ine cont n mod explicit de distana dintre derivate. Dou m funcii din mulimea S p (U , ) sunt "apropiate" n metrica Sobolev m, dac toate p derivatele de ordin 0 m sunt "apropiate" n metrica Lp.
m Def.7.23: Notm cu S p ( loc) spaiul de funcii Sobolev:

m m S p (loc ) = f C m R n ()U R n ,U deschis si marginit f S p (U , )

( )

(7.50)

unde reprezint msura Lebesgue.


m Pentru a putea defini o metric pe spaiul S p ( loc) s facem notaia:

U = x R n xi < , i = 1,2,..., n

(7.51)

m Atunci putem defini metrica spaiului S p ( loc) astfel:

m,loc ( f , g) = p
i =1

1 min f g 2i

m , p ,U i ,

m ,1 , f , g S p ( loc)

(7.52)

m Obs.7.10: Dou funcii din mulimea S p (U , ) sunt "apropiate" n metrica Sobolev m,loc dac p

toate derivatele de ordin 0 m sunt "apropiate" n metrica Lp pe submulimi deschise i mrginite din Rn.
m Spaiile de funcii S p (U , ) nu conin funcii derivabile peste tot, exceptnd mulimile

de msur nul (de exemplu funcii difereniabile pe poriuni - piecewise differentiable). Vom arta c cu ajutorul reelelor neuronale de tip PMS, exist posibilitatea de a aproxima orict de bine astfel de funcii. Pentru a putea aborda aceast problem va fi necesar n cele ce urmeaz s lucrm cu o noiune generalizat de derivat. De aceea vom introduce conceptul de distribuie i de derivat distribuional, conform cu Schwartz [182]. Introducem urmtoarele notaii:
197

supp f = cl { x U f(x) 0 } unde f C(U), iar cl (closure) are semnificaia de nchidere a mulimii; C0(U) = { f C(U) supp f este o mulime compact };
C 0 (U ) = C (U ) I C 0 (U ) mulimea funciilor indefinit derivabile cu derivatele continue i suport compact;

Def. 7.24: Se numete distribuie de la U la R o aplicaie liniar T : C 0 (U ) R, adic ce are proprietatea: T ( a1 + a2 ) = aT (1) + bT (2), a, b R, 1, 2 C 0 (U ) .

Dac K U este o submulime compact, facem notaia: - spaiul funciilor msurabile: L1 (K, ) = { f : U R - spaiul funciilor local integrabile: L1,loc (U) = { L1 (K, ) K U, K mulime compact };
- oricare ar fi f L1,loc (U) definim distribuia Tf : C 0 (U ) R n felul urmtor:

f d < };

T f ( ) = f d , C 0 (U ) U

(7.53)

- oricare ar fi distribuia T putem defini derivata distribuional T: C 0 (U ) R astfel:


T ( ) = ( 1) T D , C 0 (U )

(7.52)

Obs.7.11: i). T este de asemenea o aplicaie liniar de la C 0 (U ) la R;

ii). Dac f Cm(R) atunci T f = TD f pentru m. n acest caz, derivata

distribuional este identic cu derivata clasic. ntr-adevr avem: T f ( ) = ( 1) T f D = ( 1)

f ( D )d = ( D f )d = T ( ), C (U )
U U D f 0

Chiar dac derivata clasic nu exist, poate exista un element h L1,loc (U), astfel nct s avem Tf = Th.. n acest caz, putem scrie h = f, iar f se numete derivata generalizat a lui f. Dac f Cm(U), atunci f = Df. Putem acum s definim spaiul Sobolev ce reprezint mulimea funciilor ce au derivata generalizat de ordin pn la m aparinnd lui Lp(U, ): Wpm (U ) = f L1,loc (U ) f L p (U , ) , 0 m
198

(7.55)

clasic. Norma i metrica spaiului Wpm (U ) generalizeaz norma i metrica spaiului


m S p (U , ) , astfel:

m Spaiul Wpm (U ) include spaiul S p (U , ) ca i funciile ce nu sunt derivabile n sensul

m , p ,U

= f m

p , f Wpm (U ) p ,U ,
p

(7.56)

m ( f , g) = f g p

m , p ,U

, f , g Wpm (U )

(7.57)

Dou funcii din spaiul Sobolev Wpm (U ) sunt "apropiate" n metrica Sobolev m p (7.57) dac toate derivatele generalizate sunt "apropiate" n metrica Lp(U, ). Ne intereseaz s determinm acele condiii asupra mulimilor G i U care determin ca reelele neuronale de tip PMS s fie m - dens n spaiul Wpm (U ) . Prin aceasta, reelele p neuronale de tip PMS sunt capabile de a aproxima o funcie necunoscut i derivatele sale generalizate, cu orice precizie dorit, dac reeaua neuronal are n stratul ascuns un numr suficient de neuroni.

Condiiile pe care trebuie s le satisfac mulimea U sunt: (C1): U s fie o submulime deschis i mrginit a lui R n; (C2): mulimea restriciilor funciilor din C 0 R n relativ la U s fie m - dens n p spaiul W
m p

(U ) ;

( )

Obs.7.12: Motivul existenei condiiei (C2) este dat de posibilitatea ca alegerea lui U s fie astfel fcut nct C 0 R n s nu fie m - dens n spaiul Wpm (U ) , atunci putndu-se construi p funcii care s aparin spaiului Sobolev Wpm (U ) i care nu sunt aproximabile cu o precizie

( )

dat de orice reea neuronal. Conform cu [104], pn n prezent nu se cunosc condiii necesare i suficiente asupra mulimii U n aa fel nct spaiul de funcii C 0 R n s fie m - dens n spaiul Wpm (U ) . Din p

( )

fericire ns exist o serie de condiii suficiente asupra mulimii U care asigur condiia ca spaiul de funcii C 0 R n s fie m - dens n spaiul Wpm (U ) . Vom prezenta n cele ce p

( )

urmeaz dou astfel de condiii asupra mulimii U, i anume "condiia de segment" i "condiia de form stelat n raport cu un punct". S notm cu U complementara mulimii U n raport cu Rn i fie frontiera mulimii U notat U definit astfel:
U = clU I clU

(7.58)

Def.7.25: Mulimea deschis U verific "condiia de segment" dac oricare ar fi x U exist o vecintate Vx a lui x i yx Rn, astfel nct dac z cl U Vx, atunci segmentul z + t yx, 0 < t < 1 aparine mulimii U.

199

Teorema 7.16: (Adams, [1]) Dac U verific "condiia de segment", atunci spaiul de funcii C 0 R n este m - dens n spaiul Wpm (U ) pentru orice 1 p < i m = 0, 1, 2, .... p

( )

Def.7.26: Mulimea U verific "condiia de form stelat n raport cu un punct" dac exist un punct x U astfel nct orice segment de dreapt cu captul n punctul x are o unic intersecie cu frontiera U a domeniului U. Teorema 7.17: (Maz'ja [137]) Dac mulimea mrginit U verific "condiia de form stelat n raport cu un punct", atunci spaiul de funcii C 0 R n este m - dens n spaiul p
W
m p

(U ) pentru orice 1 p < i m = 0, 1, 2, ....


C

( )

Def.7.26: Notm cu C R n spaiul funciilor rapid descresctoare, definit astfel:


n n

( ) (R ) = {f C (R ) () , multi indici, x
1 i n

D f (x) 0, pt. x

unde x = x11 x 2 2 ...x n n si x = max xi

Obs.4.13: C 0 R n C R n .

( )

( )

nainte de a formula teoremele fundamentale care ne asigur capacitatea unui PMS de a aproxima o funcie necunoscut precum i a derivatelor sale cu orice precizie dorit, s recapitulm spaiile de funcii definite, precum i metricile definite pe aceste spaii, metrici care msoar distana dintre funcii precum i dintre derivatele lor pn la un anumit ordin:
(1) C0 (R n ) spaiul funciilor rapid descresctoare;

(C (R ), ) ;
n m K

m (2) S p (U , ) spaiul funciilor din Cm(U) care au derivatele de ordin m Lp(U, ) -

integrabile, pentru U i alei corespunztor;

( S (U , ), ) ;
m p m p ,
m (3) S p ( loc) spaiul funciilor din Cm(Rn) care au derivatele de ordin pn la m Lp(U,

) - integrabile, pentru toate submulimile mrginite U Rn;

( S ( loc), ) ;
m p m p , loc

(4) Wpm (U ) spaiul funciilor care au derivatele generalizate de ordin pn la m Lp(U, ) - integrabile;

(W (U ), ) ;
m p m p

Dup ce am recapitulat cele mai importante elementele matematice introduse, s definim acele condiii pe care trebuie s le satisfac mulimile G i U, astfel nct reelele
200

neuronale de tip PMS s aib proprietatea de aproximant universal n aceste spaii. n acest scop vom urma rezultatele prezentate n [104]. Teorema 7.18: Fie m Z+ i G S1m ( R, ) o funcie nenul. Atunci mulimea (G) este m uniform dens pe compact n C R n .

( )

Demonstraia se poate gsi n [104], bazndu-se pe reprezentarea integral Fourier a reelelor neuronale de tip PMS cu un singur strat ascuns, avnd un numr nelimitat de neuroni n stratul ascuns, propus prima dat de Irie i Miyake [106]. Analiznd teorema de mai sus, tragem concluzia c dac funcia G de activare a neuronilor aparine spaiului G S1m ( R, ) ,
atunci (G) poate aproxima orice funcie ce aparine spaiului C R n , precum i derivatele sale de ordin pn la m. Din pcate, condiia de apartenen G S1m ( R, ) este mult prea puternic, mai ales pentru aplicaii practice, eliminnd funciile de activare de tip logistic i tangent hiperbolic care nu aparin nici mcar spaiului S10 (R, ) . n general, teorema de mai sus nu este valabil pentru funcii de activare G de tip sigmoidal. Din fericire, putem slbi condiiile de apartenen asupra funciei de activare a neuronilor din stratul ascuns G. Pentru acest motiv introducem definiia de mai jos:

( )

Def.7.27: Fie l Z+. Funcia de activare G se numete l-finit dac G Cl(R) i 0 < D l G d < . Lema 7.3: Dac funcia de activare G este l-finit pentru orice 0 m l, atunci exist o funcie de activare H S1m ( R, ) , astfel nct (H) (G). Lema de mai sus slbete condiiile impuse de Teorema 7.18 asupra funciei de activare G. Conform cu Lema 7.3, este suficient ca funcia de activare G s fie l-finit, i atunci mulimea (G) va conine o submulime (H) care va fi m-uniform dens pe compact n C R n pentru 0 m l. Din punct de vedere practic, condiia este foarte important cci funciile de activare cele mai importante de tip sigmoidal, ca de exemplu funcia de activare logistic sau tangent hiperbolic, satisfac condiia de l-finitudine. S analizm mai n detaliu condiia ca funcia de activare G s fie l-finit:

( )

- dac G S1m ( R, ) , atunci pentru orice 0 k m avem - dac G Cl+1(R) i - dac

Gd = 0 ;

D G d < , atunci D
l

l +1

Gd = 0 ;

l +1

Gd exist i este nenul, atunci

D G d = .
l

Obs.7.14: Cteva exemple de funcii care nu satisfac condiiile Teoremei 7.18: dac G = sin atunci G C(R), dar oricare ar fi l atunci

D G d = ;
l

201

dac G este funcie polinomial de gradul m atunci G C(R), pentru l m avem D l G d = , iar pentru l > m avem D l G d = 0; n general, orice funcie polinomial sau trigonometric nu este l-finit; Din Teorema 7.18 i din Lema 7.3 obinem urmtoarele corolare: Corolarul 7.1: Dac funcia de activare G este l-finit, atunci pentru orice 0 m l mulimea (G) este m-uniform dens pe compact n C R n .

Corolarul 7.2: Dac funcia de activare G este l-finit, U Rn o submulime deschis, atunci m pentru orice 0 m l mulimea (G) este m-uniform dens pe compact n S p (U , ) , 1 p <

( )

. Corolarul 7.3: Dac funcia de activare G este l-finit, este o metric cu suport compact, m atunci pentru orice 0 m l mulimea (G) S p (R n , ) i (G) este m, - dens n p
m S p Rn , .

Corolarul 4.4: Dac funcia de activare G este l-finit, atunci pentru orice 0 m l (G) este m m, loc - dens n S p ( loc) . p S construim n cele ce urmeaz un model de reea neuronal de tip PMS ce are capacitatea de a aproxima o funcie necunoscut f : R2 R precum i a derivatelor sale f f pariale de ordinul nti f 1 = : R 2 R i f 2 = : R 2 R . Schema din figura de mai x1 x 2 jos este un pic diferit de arhitectura obinuit a reelelor neuronale deoarece pune n eviden i modul de propagare a calculelor.

x1 w11 w21 w12 w22 x2

DG

x x x x

x
G

x x x x x

+ + +

f1 f f2

k1 k2

DG Fig7.3: Arhitectura unei reele neuronale capabil a aproxima o funcie f i derivatele sale pariale f1 i f2 ordinul I: - linia continu corespunde funciei f; - linia continu corespunde derivatelor pariale f1 i f2 de ordinul I a funciei f; - neuron de intrare; neuron aditiv; neuron multiplicativ; - G neuron cu funcia de activare G; DG neuron cu funcia de activare DG.

202

VII.5. Limitele aplicrii n practic a proprietilor reelelor neuronale


n analiza capacitii de aproximant universal a reelelor neuronale, ca de altfel i pentru alte metode de aproximare-interpolare, nu se iau n considerare limitrile proprietilor acestor metode ca urmare a implementrii lor pe calculatoare secveniale de tip von Neuman [201] (vezi Cap. II). Aspectul pe care dorim s l analizm prin prisma aplicrii practice, adic a implementrii pe un sistem de calcul tradiional secvenial sau chiar paralel, este proprietatea de aproximant universal a reelelor neuronale. Am vzut n acest capitol c ntr-adevr reelele neuronale posed aceast proprietate de aproximant universal, fiind capabile s aproximeze orice funcie continu cu orice precizie dorit. Ceea ce am artat n acest capitol pn n acest moment ne d dreptul de a utiliza reelele neuronale pentru a aproxima funcii continue. Ceea ce dorim s analizm n continuare este influena implementrii pe un calculator secvenial a reelei neuronale, deci de fapt a simulrii modului de funcionare a unei reele neuronale. De ce este important aceast analiz? Deoarece, chiar dac n Cap. I am prezentat o serie de elemente hardware de calcul neuronal, acestea au nc un caracter limitat, folosirea reelelor neuronale este nc n proporie de 90% bazat pe simularea funcionrii lor pe sisteme de calcul secveniale (sau paralele). De aceea, majoritatea argumentelor tiinifice folosite n studiul reelelor neuronale ca i metode de aproximare - interpolare sunt confirmate folosind un mediu secvenial i nu distribuit ceea ce ridic o serie de probleme de care este bine s se in cont. Care este problema de a simula funcionarea unei reele neuronale pe un sistem de calcul secvenial, privit prin prisma teoriei aproximrii? Vom arta n cele ce urmeaz c o reea neuronal, simulat prin implementat pe un sistem de calcul serial, nu mai posed din punct de vedere practic aceast proprietate de aproximant universal. Cum trebuie interpretate aceste rezultate? Rezultatul enunat mai sus nu distruge capacitatea de aproximant universal a reelelor neuronale. Ceea ce am artat i demonstrat mai nainte n acest capitol rmne perfect adevrat relativ la proprietatea de aproximant universal a reelelor neuronale. ns, trebuie avut grij n folosirea argumentelor practice obinute prin simularea unei reele neuronale pe un sistem de calcul secvenial (sau paralel) ca dovezi ale capacitii unei reele neuronale de a fi o metod de aproximare universal. Argumentaia de mai nainte este valabil de altfel pentru orice metod de aproximare distribuit a crei simulare se face prin implementarea pe sisteme de calcul secveniale.

VII.5.1. Echivalena polinomial


S considerm o reea neuronal general de tipul celei din Fig. 7.1, care posed proprietatea de aproximant universal. O astfel de reea neuronal este o reea neuronal de tip PMS avnd un singur strat ascuns, compus din: un strat de intrare cu n neuroni de intrare;
203

un strat ascuns cu N neuroni avnd ca funcie de activare funcia sigmoidal G; un strat de ieire avnd un singur neuron de ieire; stratul de intrare este conectat cu stratul ascuns prin intermediul triilor sinaptice wi Rn; statul ascuns este conectat cu stratul de ieire prin intermediul triilor sinaptice vi R. Valoarea generat la stratul de ieire, de unicul neuron de ieire, ce are ca funcie de activare o funcie de activar liniar este:
N

y = v j G( I j )
j =1

(7.59)

Cea mai general formulare este ntlnit n situaia cnd fiecare neuron din stratul ascuns are o funcie de activare particular, dup cum vedea de altfel n capitolele urmtoare, cnd vom construi reele neuronale de tip PMSR (Perceptron MultiStrat de Regularizare). De aceea, vom putea scrie, n cel mai general caz, c valoarea generat de reeaua neuronal este:
y = v j Gj (I j )
j =1 N

(7.60)

Funciile de activare Gj sunt funcii neliniare, evaluarea lor fcndu-se pe un sistem de calcul secvenial. Aceasta nseamn c funcia de activare va fi calculat utiliznd o aproximaie polinomial care este implementat ca baz de calcul pe orice sistem de calcul secvenial. De aceea, n momentul evalurii funciei de activare relativ la un neuron ascuns, putem considera ca aceast funcie de activare este echivalent cu un polinom. Aceast echivalen are un dublu sens: sens practic: evaluarea efectiv a funciilor de activare Gj se face pe un sistem de calcul; sens teoretic: funciile de activare sunt analitice i avnd deci un echivalent polinomial. S notm echivalentul polinomial al funciilor de activare n felul urmtor:
Gi ( x ) = ai, 0 + ai,1 x + ai, 2 x 2 +K , i = 1, K, N

(7.61)

Obs.7.15: Polinomul echivalent poate fii diferit pe anumite domenii de funcia de activare echivalent, dar va exista ntotdeauna i va fi convergent ctre funcia de activare echivalent pe domeniul de definiie al acesteia [212]. Pe baza acestei echivalene polinomiale, putem exprima valoarea generat de reeaua neuronal n felul urmtor:

204

y = v j Gi ( I i ) = v i ( a i, 0 + ai,1 I i + ai, 2 I i2 + K ) =
i =1 i =1

= v i a i, 0 + ai,1 w i x + a i, 2 ( w i x ) + K = b0 + b1 x + b2 x 2 + K
2 i =1

(7.61)

unde am introdus notaia:


bk = v i a i,k w ik
i =1 N

(7.62)

n concluzie, n momentul cnd se simuleaz modul de funcionare a unei reele neuronale prin implementarea pe un calculator secvenial sau paralel, valoarea generat de acea reea neuronal poate fi considerat ca fiind valoarea generat de un polinom:
y = P( x ) = b0 + b1 x + b2 x 2 + K

(7.63)

VII.5.2. Influena procesului de nvare


Pentru a dovedi aseriunea pe care am fcut-o c o reea neuronal, simulat prin implementarea pe un sistem de calcul serial, nu mai posed din punct de vedere practic proprietatea de aproximant universal, vom studia procesul de nvare al reelei neuronale care este de fapt un proces de aproximare-interpolare al unei funcii necunoscute, exprimate printr-o mulime discret de puncte, i anume mulimea de antrenament. Pentru aceasta vom analiza modificrile pe care le provoac asupra reelei neuronale aproximante procesul de antrenament (nvare) i cum se reflect aceste modificri asupra coeficienilor bk din polinomul P(x) (7.63). Dup cum am vzut, un termen polinomial este de forma:
bk = v i ai,k w ik
i =1 N

(7.64)

S introducem notaiile: notm cu vi modificarea celei de-a i-a trii sinaptice ce leag al i-lea neuron din stratul ascuns de neuronul de neuronul de ieire; notm cu wi modificarea celei de-a i-a trii sinaptice ce leag neuronii din stratul de intrare de al i-lea neuron din stratul ascuns; notm cu aik modificarea coeficientului aik:

notm cu bik modificarea coeficientului bik. Atunci putem scrie:

205

bk + bk = (v i + v i )( aik + aik )( w i + w i ) =
k i =1

= (v i aik + v i aik + v i aik )( w ik + kw ik 1 w i ) + O( 2 ) =


i =1 N

(7.65)

= ( v i aik w ik + kv i a ik w ik 1 + v i aik w ik + aik w ik v i ) + O( 2 )


i =1

Influena asupra coeficienilor polinomului P (7.63) este:


bk = ( kv i aik w ik 1 w i + v i aik w ik + v i aik w ik ) + O( 2 )
i =1 N

(7.66)

S studiem capacitatea reelei neuronale de a modifica coeficienii bk a polinomului P (7.63). Pentru aceasta, s analizm formula de mai sus care exprim variaia valorii bk acestor coeficieni polinomiali. Conform cu [212] putem considera c datorit echivalenei polinomiale coeficienii polinomiali satisfac relaia:

bk 0 cnd k

(7.67)

Conform cu ecuaia (7.65), i innd cont de relaia de mai sus (7.67) rezult c coeficienii aik trebuie s descreasc mai rapid dect creterea lui w ik , atunci cnd k crete. Considernd atunci termenii relaiei (7.66) obinem:
kv i aik w ik 1 w i 0 , cnd k

(7.68) (7.69) (7.70)

vi aik w ik 0, cnd k vi aik w ik 0, cnd k

Deoarece termenii ce conin pe k, k 2 pot fi neglijai, dac trecem la limit n relaia (7.66) obinem:
lim bk = 0
k

(7.71)

Aceast limit ne arat c modificrile coeficienilor polinomului echivalent P, datorate modificrilor triilor sinaptice n cadrul procesului de nvare, tind la zero atunci cnd gradul polinomului k crete la infinit. Acest rezultat este independent de algoritmul de nvare utilizat. Altfel spus, termenii polinomului P de ordin mai mare dect MAX, nu vor mai fi modificai de ctre procesul de nvare, adic de modificrile triilor sinaptice. Motivul este datorat preciziei de reprezentare numerice a calculatorului secvenial pe care se implementeaz reeaua neuronal, care are o anumit limit inferioar mai mare dect variaia coeficienilor bk. Din aceast cauz polinomul echivalent P (7.64) poate fi considerat ca suma a dou polinoame:

206

P( x ) = PMAX ( x ) + PN ( x ) =

MAX i=0

bi x i +

i i = MAX +1

b x

(7.72)

Reeaua neuronal implementat pe sistemul de calcul poate fi astfel considerat ca un polinom finit de grad MAX, care corespunde termenului PMAX. Polinomul care corespunde termenului PN are coeficieni care nu se mai modific n urma procesului de nvare, adic n urma modificrii triilor sinaptice. Acest termen poate fi considerat ca un termen ce corespunde unui zgomot de reprezentare a datelor. n concluzie, dac implementm o reea neuronal pe un sistem de calcul secvenial, datorit unor limitri tehnologice care influeneaz reprezentarea datelor, reeaua neuronal se comport ca o metod de aproximare finit n raport cu mulimea datelor de antrenament, ne mai avnd proprietatea de aproximant universal. Cu toate acestea, proprietile de aproximant a reelei neuronale sunt foarte importante, i, dup cum vom vedea n continuare, superioare metodelor clasice ale analizei numerice. Pentru a obine rezultate de o precizie care s confirme n totalitate afirmaiile teoretice, reeaua neuronal ar trebui implementat pe un hardware adecvat calculului neuronal.

207

VIII. Reelele neuronale ca i metode de aproximareinterpolare

S considerm o funcie y = f (x), f : X Y, care aplic vectorul x vectorului y. Forma analitic a funciei f este necunoscut, ea putnd fi o abstracie a unui proces fizic, ca de exemplu previzionarea temperaturii y de azi, cunoscnd temperaturile x din anii precedeni. Singura informaie accesibil este reprezentat de o mulime de observaii T = (x, f(x)). Aceste observaii sunt de cele mai multe ori corupte mai ales datorit imperfeciunii aparatelor de msur. Scopul nostru principal este de a reconstrui funcia f, avnd la dispoziie doar mulimea "zgomotoas" de observaii T = (x, f(x)). Evident, nu este posibil s determinm n mod unic funcia f, deoarece avem la dispoziie doar o cantitate limitat de informaii despre aceast funcie, de aceea ceea ce ne putem propune ca i obiectiv, este de a determina o aproximant F a funciei f [85]. Problema care trebuie analizat cu mare atenie este faptul c ne propunem s aproximm funcia f cu ajutorul funciei F, relativ la mulimea de observaii T = (x ,f (x)), aceasta aproximare corespunde fazei de nvare, iar mulimea de observaii T = (x , f (x)) corespunde mulimii de antrenament din cadrul calculului neuronal. Dar funcia aproximant F trebuie s aib performane de aproximare bune pe tot domeniul de definiie X al funciei f - aceasta ar corespunde capacitii de generalizare a unei reele neuronale din cadrul calculului neuronal. Cum s msurm ns calitatea aproximrii funciei f de ctre funcia F ? Cea mai comun metod de msurare uzual a calitii aproximrii se bazeaz eroarea ptratic:
Eg =
2 1 ( f ( x) F( x) ) dx 2 X

(8.1)

Eg corespunde erorii de generalizare a unei reele neuronale. Deoarece funcia f nu este cunoscut pentru orice x aparinnd domeniului de definiie X, uneori va trebui s aproximm eroarea de aproximare bazndu-ne pe mulimea de observaii T = (x , f (x)). Obinem eroarea ptratic :
El = et =
t T

1 2 ( f ( x ) F( x ) ) 2 t T

(8.2)

El corespunde erorii de nvare a unei reele neuronale. Pentru a msura performanele aproximrii vom utiliza adeseori i eroarea, numit eroare medie ptratic ( MSE - Mean Squared Error):
E MSE = 1 1 El = T T

( f ( x ) F( x ) )
t T

(8.3)

208

Cum se determin o aproximant F a funciei f ? De obicei, funcia F este o funcie parametric F(x,w), parametri fiind optimizai cu scopul minimizrii erorii de aproximare. n teoria aproximrii acest proces de optimizare se numete estimarea parametrilor, n timp ce n teoria calculului neuronal acest proces de optimizare se numete nvare. Este bine s subliniem urmtoarele probleme: Problema reprezentrii: ce aproximare s folosim, adic care clas de funcii f poate fi aproximat de ctre clasa de funcii aproximante F(x,w). Problema alegerii: ce algoritm s utilizm pentru a determina valorile optimale ale parametrilor w P, pentru o alegere dat a funciei aproximante F(x,w). Problema implementrii: care este modalitatea implementrii eficiente a algoritmului, utiliznd echipamente paralele sau dac este posibil neuronale.

VIII.1. Problema aproximrii


Pentru orice schem de aproximare putem construi o reea neuronal. Numele generic de reea poate fi privit n fond ca o notaie grafic pentru o larg clas de algoritmi. n acest context, o reea neuronal este o funcie reprezentat ca o compunere a mai multor funcii de baz. S formulm n continuare problema aproximrii, considernd o metric indus de o norm, pentru a putea msura distana dintre funcia de aproximat f i funcia aproximant F: Def.8.1 (Problema aproximrii): Dac f(x) este o funcie continu i F(x,w) este o funcie aproximant ce depinde continuu de parametrii w P i de variabila x, problema aproximrii este determinarea parametrilor w*, astfel nct:

[F (w*, x ), f (x)] [F (w, x ), f (x)], ()w P .


Dac problema aproximrii are soluie, ea se numete cea mai bun aproximant. Dup cum vom vedea, existena celei mai bune aproximante este determinat de clasa de funcii creia i aparine funcia aproximant F(x,w).

VIII.1.1. Metode de aproximare globale


S analizm cteva exemple de funcii aproximante F(x,w) : Rn R i s punem n eviden i clasele de reele neuronale care-i corespund [159]:

209

cazul liniar clasic: F( w, x ) = w x , w, x Rn . Reeaua neuronal ce i corespunde este un PS (Perceptronul Simplu), o reea neuronal ce nu are straturi ascunse. m schema de aproximare clasic ce este liniar ntr-o baz de funcii {i }i =1 :
F( w, x ) = w i i ( x )
i =1 m

Reeaua neuronal ce i corespunde este un PMS (Perceptron Multistrat), cu un singur strat ascuns. Putem identifica n aceast reprezentare numeroase scheme de aproximare ca de exemplu interpolarea spline, dezvoltarea n serii de polinoame ortogonale, sau dac funciile de baz i sunt produse de puteri, atunci funcia aproximant F este un polinom. schema de funcii sigmoidale compuse, de tipul BP (Back Propagation - IV.2.1), poate fi scris astfel: F( w, x ) = w i1 w i2 ... w iy x iy ... i i1 iy 2 unde reprezint funcia de activare sigmoidal. Aceast schem da aproximare nu este foarte uzual n teoria clasic a aproximrii funciilor continue.

VIII.1.2. Metode de aproximare locale


Modelarea parametric local ncearc s rezolve problemele metodelor clasice de aproximare prin divizarea spaiului datelor de intrare, n domenii mai mici, care pot sau nu s fie disjuncte. Fiecare domeniu este aproximat, de obicei, prin utilizarea unei funcii aproximante simple pe acel domeniu. Este ns adevrat c dac complexitatea problemei de aproximat este redus prin aceast aproximare local, variana problemei crete. De foarte mare importan este numrul i poziia domeniilor, o bun alegere ducnd la foarte bune rezultate de aproximare. Cel mai simplu model de aproximare local l reprezint modelul local constant, unde spaiul datelor de intrare este divizat n domenii disjuncte, fiecare domeniu fiind aproximat cu o constant care reprezint media valorilor relativ la acel domeniu.

Fig. 8.1: Metod de aproximare bazat pe modelul local constant. ... reprezint funcia de aproximat; reprezint funcia aproximant;

reprezint punctele mulimii de antrenament. 210

Ca exemple de metode de aproximare local putem meniona metodele spline [23], partiionarea recursiv [108] i RBF (Radial Basis Functions). Metodele locale de aproximare au performane bune cnd spaiul datelor de intrare are o dimensionalitate mic ( 3), performanele acestor metode nu mai sunt corespunztoare pentru dimensionaliti mai mari dect 3. Acest lucru este datorat faptului c numrul de domenii necesare crete exponenial cu dimensionalitatea spaiului de intrare, numrul de date de antrenament fiind de asemenea foarte mare n acest caz.

VIII.1.3. Caracterizarea metodelor de aproximare


Metodele de aproximare discutate pn n acest moment prezint o serie de avantaje i dezavantaje. Care metod este mai potrivit, depinde de problema concret ce trebuie rezolvat: numrul de date de antrenament, dimensionalitatea spaiului de intrare, cunotine a-priori despre problema de rezolvat etc. Din cele prezentate, putem trage concluzia c metodele de aproximare bazate pe calculul neuronal, pot fi clasificate n dou mari clase: metode de aproximare locale; metode de aproximare globale. Caracterizarea general a acestor dou metode de aproximare, cuprinde urmtoarele trsturi [126]: metode de aproximare locale: necesit un numr redus de date de antrenament; flexibilitatea aproximrii este dependent de setrile iniiale, cum ar fi de exemplu numrul de neuroni existeni n stratul ascuns; procesul de nvare (optimizare a parametrilor) este ndelungat, obinerea unui punct de minim absolut este dificil.

metode de aproximare globale: necesit un numr mare de date de antrenament; flexibilitatea aproximrii este foarte bun, datorit dependenei de numrul, poziia i dimensiunea domeniilor locale. Dac este necesar, noi domenii pot fi adugate sau eliminate (nvare incremental); procesul de nvare (optimizare a parametrilor) este de obicei rapid, deoarece majoritatea parametrilor au doar o influen local.

211

VIII.2. Aproximarea funciilor netede


O reea neuronal, este ineficient ca i metod de aproximare, dac reuete doar s nvee o mulime de antrenament, dar nu reuete s generalizeze [45]. Dorina noastr este ca funcia aproximant F(x,w) s generalizeze relativ la spaiul datelor de intrare X i pe baza mulimii datelor de antrenament T = (x, f(x)), s reconstruiasc ct mai bine funcia de aproximat f. n general, dorina noastr nu este uor de satisfcut. De exemplu, dac funcia de aproximat este funcia carte de telefon - aplic unui nume un numr de telefon, atunci nu avem nici o problem n a crea o list de cutare (look-up table), care s conin nume i numere de telefon. Dar, este imposibil ca s obinem numrul de telefon al unei persoane inexistente n lista de cutare. Pentru a face aproximarea posibil relativ la ntregul spaiu al datelor de intrare, funcia de aproximat f trebuie s fie redundant, n sensul c mulimea finit de antrenament trebuie s conin date relativ la toat funcia. De aceea, pentru a msura performanele de generalizare a funciei aproximante F(x,w) trebuie s folosim eroarea de generalizare Eg (8.1). Aproximarea unei funcii netede pe baza unei mulimi de antrenament T = (x , f (x)) nseamn crearea unei funcii aproximante F(x,w), cu urmtoarele proprieti: eroarea de nvare trebuie s fie ct mai mic, deoarece estimarea parametrilor funciei aproximante F(x,w) se face pe baza datelor din mulimea de antrenament T = (x , f (x)); funcia aproximant F(x,w) trebuie s fie ct mai neted, deoarece se presupune c funcia de aproximat f este neted;

Cele dou proprieti cerute sunt ntr-un fel contradictorii: o aproximare foarte neted nu poate aproxima bine mulimea de antrenament T = (x , f (x)). Acest fenomen este echivalent cu bias (III.4.2). pe de alt parte o aproximare foarte bun a mulimii de antrenament de antrenament T = (x , f (x)) compromite netezimea aproximrii. Acest fenomen este echivalent cu variana (III.4.2).

Fenomenul prin care obinem o eroare de nvare El mic, dar o eroare de generalizare Eg mare (deci o netezime slab a aproximrii) se numete supra-saturaie (overfitting), iar fenomenul opus se numete sub-saturaie (underfitting). Echilibrul care trebuie realizat ntre aproximri cu bias mare i varian mare se numete contradicia bias versus varian, pe care am analizat-o prin perspectiva statisticii n III.4.2.

212

VIII.2.1. Alegerea reelei neuronale aproximante


Alegerea funciei aproximante F(x,w), deci a reelei neuronale, depinde de performanele msurate prin prisma erorii de nvare El i a erorii de generalizare Eg , n situaia n care acceptm restriciile menionate mai sus. Pentru aceast alegere trebuie s fie satisfcute condiiile: (C1) funcia aproximant F(x,w), deci reeaua neuronal, este suficient de flexibil pentru a putea aproxima ct mai bine funcia de aproximat f aceast nseamn un bias mic; (C2) variana funciei aproximante F(x,w) este limitat. Condiia (C1) este influenat de alegerea arhitecturii reelei neuronale, existnd mai multe posibiliti de satisfacere a condiiilor de netezime. Algoritmul de nvare a reelei neuronale, care coincide n teoria aproximrii cu estimarea parametrilor funciei aproximante F(x,w), nu influeneaz condiia (C1). Algoritmul de nvare ncearc doar s minimizeze eroarea de nvare El, relativ la mulimea de antrenament T = (x , f (x)). Cum putem atunci influena condiia (C2), deci variana funciei aproximante F(x,w)? O soluie posibil pentru a limita variana este limitarea flexibilitii modelului parametric, adic a reelei neuronale, prin stabilirea unor limite relativ la arhitectura reelei neuronale: numr de straturi, numr de neuroni n straturile ascunse, numr de trii sinaptice, dimensionalitatea mulimii de antrenament etc. Putem defini n acest scop o valoare numit grad de libertate, care va fi numrul maxim de parametrii utilizai pentru aproximare, valoare care va caracteriza de fapt variana maxim. De foarte mare ajutor pentru estimarea parametrilor funciei aproximante F(x,w) sunt unele cunotine a priori despre funcia de aproximat f. Acest lucru va fi tratat pe larg ntr-un capitol urmtor.

VIII.2.2. Influena numrului de date de antrenament


Dup cum vom vedea i n capitolele urmtoare, dimensionalitate datelor de antrenament respectiv de testare au o mare importan n aproximarea unei funcii netede de ctre o reea neuronale. Acest lucru este evident, deoarece estimarea parametrilor este un proces puternic dependent de numrul acestor parametri.

213

Fig. 8.2: Eroare de nvare El

i eroarea de generalizare Eg

Dup cum se vede i din figura de mai sus, avem urmtoarele probleme: Date de antrenament T = (x, f (x)) puine. Eroarea de nvare El va fi mic, deoarece modelul parametric (reeaua neuronal) este suficient de flexibil ca s aproximeze un numr redus de date de antrenament. Funcia aproximant F(x,w) ce va rezulta n urma procesului de estimare a parametrilor va generaliza ns slab, eroarea de generalizare Eg va fi mare. Date de antrenament T = (x, f (x)) multe. Eroarea de nvare El va fi mare, deoarece modelul parametric (reeaua neuronal) nu mai este suficient de flexibil ca s aproximeze un numr mare de date de antrenament. Funcia aproximant F(x,w) ce va rezulta n urma procesului de estimare a parametrilor va generaliza ns bine, eroarea de generalizare Eg va fi mic.

Determinarea numrului necesar de date de antrenament T = (x , f (x)) este dificil n aplicaiile practice, fiind dependent de flexibilitatea modelului parametric (reeaua neuronal) ales. O important influen o are i dimensionalitatea funciei de aproximat f : X Rn Y Rm, definit ca suma dintre dimensionalitatea spaiului de intrare n plus dimensionalitatea m a spaiului de ieire, adic (n + m). Dac dimensionalitatea n + m este mare, atunci avem nevoie de un numr mai mare de date de antrenament T = (x , f (x)). Acest fenomen este cunoscut n literatura de specialitate sub numele de problema dimensionalitii (course of dimensionality). Concluzia evident este c funciile de aproximat f, de dimensionalitate (n + m) mare, sunt foarte dificil de aproximat, cu excepia faptului cnd cunotine a priori reduc complexitatea problemei.

VIII.2.3. Reele neuronale i teoria regularizrii


n general orice metod de aproximare posed un algoritm specific de determinare a mulimii optime a parametrilor w. O strategie general, care chiar dac nu ntotdeauna este cea mai eficient, o reprezint aplicarea unor metode de relaxare ca de exemplu gradientul
214

descendent sau gradientul conjugat [136], sau revenirea simulat n spaiul parametrilor, care au ca el minimizarea erorii relativ la mulimea datelor de antrenament T = (x , f (x)). Dup cum am vzut pn n acest moment, dac considerm nvarea reelelor neuronale prin perspectiva teoriei aproximrii, putem stabili o echivalen ntre nvarea de ctre o reea neuronal a unei funcii netede (smooth) i o problem standard de aproximare reconstrucia unei suprafee pe baza unei mulimi de antrenament T = (x , f (x)). n aceast analogie, a nva nseamn a aproxima exemplele (datele de antrenament), adic coordonatele datelor de intrare x Rn, precum i nlimea dorit a suprafeei z n acel punct. A generaliza nseamn estimarea nlimii z ntr-un punct x care nu face parte din mulimea datelor de antrenament. Aceasta nseamn interpolarea sau mai general aproximarea suprafeei n puncte situate n plan printre datele de nvare. Din acest punct de vedere, problema reconstruciei unei suprafee sau problema aproximrii aparine unei clase generice de probleme numite probleme inverse [93]. O problem invers poate fi bine-definit (well-posed) sau ru-definit (ill-posed). Termenul de problem bine-definit a fost folosit n matematica aplicat, prima dat de Hadamand la nceputul acestui secol [122]. Def. 8.2: Problema aproximrii unei funcii f : X Y se numete bine-definit dac sunt satisfcute urmtoarele condiii [147], [193]: (C1) Condiia de existen: Oricare ar fi x X, exist y Y, astfel nct y = f (x); (C2) Condiia de unicitate: Oricare ar fi x, t X, avem f (x) = f (t), dac i numai dac x = t; (C3) Condiia de continuitate: funcia f este continu. Def. 8.3: Problema aproximrii unei funcii f : X Y se numete ru-definit dac nu este satisfcut cel puin una dintre condiiile (C1), (C2), (C3) din Definiia 8.2. Din acest punct de vedere, procesul de nvare a unei reele neuronale, sau problema de aproximare a unei funcii netede pe baza unei mulimi de antrenament este ru-definit, n sensul c datele de antrenament nu sunt suficiente pentru a reconstrui n mod unic funcia n puncte unde nu avem date de antrenament (condiia de unicitate (C2) nu este satisfcut). De asemenea, nu ntotdeauna datele de antrenament sunt de o mare acuratee, ele fiind n general zgomotoase, ceea ce duce la invalidarea condiiei de continuitate (C3). De aceea, trebuie s lum n considerare o serie de ipoteze a priori despre funcie, ipoteze care s transforme o problem ru-definit ntr-o problem bine-definit. Referindu-ne la proprietatea de generalizare, acest lucru nu este posibil dac avem de-a face cu o funcie aleatoare. Proprietatea de generalizare se bazeaz pe faptul c lumea nconjurtoare este la un anumit nivel redundant i n particular, poate fi caracterizat ca fiind neted, adic mici modificri ale unor parametri de intrare se reflect n mici modificri ale valorilor de ieire [123]. Aceast ipotez de netezime este cea mai slab i general ipotez care permite existena procesului de aproximare. Evident, c alte ipoteze mai puternice despre o funcie, ca de exemplu faptul c este liniar sau convex sau c este invariant n raport cu un anumit grup de transformri etc., uureaz problema aproximrii acelei funcii. Netezimea unei funcii poate fi msurat n mai multe moduri, cea mai bun fiind utilizarea unei funcionale ce conine derivate ale funciei considerate. Concluzionnd, putem spune c dac nu avem nici o informaie disponibil despre o funcie de aproximat multidimensional, singura ipotez ce poate fi luat n considerare este o
215

netezime ridicat a acestei funcii. Altfel, numrul de date de antrenament necesare ar fi total nepractic, deci problema ar fi nerezolvabil. Tehnicile de aproximare care se folosesc de restricia referitoare la netezime sunt cunoscute sub denumirea de tehnici de regularizare standard. Aceast metod a fost introdus pentru prima dat de Tikhonov n anul 1963 [194]. Regularizarea standard are la baz o problem variaional de a gsi acea suprafa care minimizeaz o funcional cost ce const din doi termeni: Termenul eroare standard: primul termen E S ( f ) = dintre valoarea obinut y = f (x) i valoarea dorit z; Termenul de regularizare: al doilea termen E R ( f ) =
2 1 ( zi y i ) msoar distana 2 i

1 2 Pf msoar costul asociat cu 2 o funcional ||Pf||2 care conine informaii a priori referitoare la f, P fiind de obicei un operator diferenial. Alegerea operatorului P este dependent de problema concret de rezolvat. Operatorul P este numit stabilizator n sensul c stabilizeaz soluia, fcndo neted, deci continu.

Atunci, problema noastr const n a determina hipersuprafaa f care minimizeaz expresia:


2 1 1 ( zi y i ) + 2 Pf 2 i 2

(8.4)

unde: i reprezint indexul mulimii datelor de antrenament; reprezint parametrul de regularizare ce controleaz compromisul dintre gradul de netezime al soluiei i precizia de aproximare. Conform cu [17], regularizarea standard genereaz soluii echivalente cu spline-ul generalizat, ceea ce ar permite exploatarea rezultatelor din tehnicile de aproximare-interpolare spline n cadrul procesului de nvare a reelelor neuronale i viceversa.

VIII.2.3.1. Problema regularizrii i regula lui Bayes

Dup cum am vzut mai nainte, problema nvrii unei reele neuronale este echivalent cu problema regularizrii (8.4). Ceea ce dorim s cunoatem este dac, ntradevr, acestei afirmaii putem s-i dm o justificare matematic consistent. S presupunem c cunoatem mulimea de date T, care conine mulimea de N puncte pentru aproximarea funciei f : R n R , sau, dac privim prin prisma calculului neuronal, mulimea de N date de antrenament:

T = (x i , y i ) x i R n , y i R, i = 1,2, K, N

(8.5)

unde mulimea T poate fi afectat de zgomot, adic de imperfeciunea aparatelor de msur.


216

Atunci:
f ( x i ) = yi + i , i = 1,2, K, N

(8.6)

variabilele i fiind variabile aleatoare independente, generate cu ajutorul unei distribuii probabilistice date. Problema de rezolvat este determinarea funciei f, mai bine spus a unei aproximante, pornind de la mulimea de date de antrenament T. Pentru aceasta vom apela la o strategie probabilistic, considernd funcia de determinat f ca i realizarea unui cmp probabilistic aleator cu o distribuie probabilistic iniial cunoscut. S introducem urmtoarele notaii [80]:
P [ f T ] - probabilitatea condiional a funciei f, dac se cunoate mulimea de antrenament T;
P [ T f ] - probabilitatea condiional a mulimii de antrenament T, dac se cunoate

funcia f;

P [ f ] - probabilitatea iniial (a priori) a cmpului de probabilitate f. Aceast probabilitate include cunotinele noastre a priori despre funcia f, putnd fi folosit pentru a impune anumite restricii asupra modelului, asignnd probabiliti mari doar acelor funcii ce satisfac restriciile impuse.

putem determina probabilitatea a posteriori P [ f T ] , prin aplicarea regulii lui Bayes:


P [ f T ] P [ T f ]P [ f ]

Putem presupune c distribuiile probabilistice P [ T f ] i P [ f ] sunt cunoscute, atunci

(8.7)

S presupunem c variabilele aleatore i ce corespund zgomotului din formula (8.6) sunt distribuite pe baza unei distribuii probabilistice normale, avnd variana . Atunci putem scrie:
P [T f ] e
1 2 2

( yi f ( x i ) )
i =1

(8.8)

Modelul pentru distribuia probabilistic a priori P [ f ] poate fi aleas analog cu cazul determinist (cnd funcia f este definit pe o submulime finit a lui R n [135]. Pe aceast baz avem:
P [ f ] e [ f ]

(8.9)

unde [f] este o funcional de netezire de tipul termenului de regularizare din capitolul precedent, iar un parametru real pozitiv. Forma acestei distribuii probabilistice favorizeaz acele funcii pentru care termenul de regularizare [f] este mic. Pe baza relaiei lui Bayes (8.7) probabilitatea a posteriori a lui f poate fi scris sub forma:
217

P [ f T] e

N 1 2 2 ( yi f ( x i ) ) + 2 [ f ] 2 2 i =1

(8.10)

O soluie simpl pentru estimarea probabilistic a funciei f din relaia de mai sus (8.10) este aa numita estimare MAP (Maximum A Posteriori) care consider acea funcie care maximizeaz probabilitatea a posteriori P [ f T ] , ceea ce presupune minimizarea exponentului exponenialei din membrul drept al relaiei (7.82):
P f optim T = max{P [ f T ] f F} = max e

1 2 2

z f ( x ) [ f ]

(8.11)

Cu alte cuvinte, estimarea MAP este de fapt minimizarea urmtoarei funcionale:


H[ f ] = ( yi f ( x i )) + [ f ]
2 i =1 N

(8.12)

unde = 2 2 . Observm identitatea dintre funcionala de mai sus i problema regularizrii (8.4). Din formula parametrului de regularizare se poate observa rolul acestuia de reglare a echilibrului dintre nivelul zgomotului i i presupunerile a priori despre soluie sau, altfel spus, echilibrul dintre gradul de netezime a soluiei i eroarea de aproximare. Dac introducem, conform cu [159], termenul de complexitate a ipotezelor, definit astfel:

C() = log P ()
vom obine:
C( f T ) = C( f ) + C( T f ) + c

(8.13)

(8.14)

termenul c depinde de probabilitatea a priori P [ f ] , depinznd doar de funcia f. Din cele artate, estimarea MAP coincide cu metoda regularizrii, dac zgomotul este gaussian i distribuia probabilistic a priori P [ f ] este o distribuie gaussian relativ la o funcional liniar dependent de funcia f (8.9). Astfel, termenul eroare standard din ecuaia regularizrii (8.4) corespunde termenului C(T|f), n timp ce termenul de regularizare corespunde lui C(f) din ecuaia (8.14). Distribuia probabilistic a priori P [ f ] poate reprezenta i alte cunotine a priori i nu numai cele legate de regularizare, adic netezime. Alte caliti, ca de exemplu convexitate, pozitivitate, proprieti locale pot fi incluse prin intermediul acestei informaii a priori. O extensie i o generalizare a tehnicilor de regularizare o constituie modelele aleatoare Markov, care permit o mai mare flexibilitate n definirea condiiilor de generalizare, exprimabile de exemplu n termeni de netezime local (piecewise smoothness) [77].

218

VIII.2.3.2. Soluia problemei regularizrii. Soluia 1

S definim problema regularizrii: Problema regularizrii: S se determine funcia f care minimizeaz funcionala E(f), definit astfel: E( f ) = E S ( f ) + E R ( f ) unde ES(f) este termenul eroare standard, ER(f) este termenul de regularizare, iar este parametrul de regularizare. Minimizarea funcionalei E(f) se face pe baza evalurii diferenialei lui E(f). Pentru aceasta, vom folosi difereniala Frechet, care este pentru funcionala E(f) [38]:

d dE( f , h) = ( f + h) d =0
unde funcia h este o funcie fixat de variabil x.

(8.15)

O condiie necesar pentru ca funcia f(x) s fie un punct de extrem relativ pentru funcionala E(f) este ca difereniala dE(f, h) s fie nul n f(x), pentru orice funcie h H (H fiind un spaiu Hilbert). Atunci avem:
dE( f ) = dE S ( f ) + dE R ( f ) = 0

(8.16)

S evalum fiecare termen al ecuaiei difereniale de mai sus: Termenul eroare standard:
d 1 d dE S ( f , h) = E S ( f + h) = d = 0 2 d
i

[z
i i

= z i f ( x i ) h( x i ) h( x i )| = 0 =

2 f ( x i ) h( x i ) = =0 (8.17) z i f ( x i ) h( x i ) i

Teorema 8.1 (Teorema de reprezentare a lui Riesz) [39]: Fie g o funcional liniar mrginit, definit pe un spaiu Hilbert H. Atunci exist o unic funcie h0 H astfel nct:
g = (h, h0 ) H , () h H

De asemenea avem: g H.

= h0

, unde H* este conjugatul (dualul) spaiului Hilbert

Pe baza Teoremei 8.1, s rescriem relaia (8.17):


dE S ( f , h) = h, ( z i f ) (x x i ) i H
219

(8.18)

unde ( x x i ) este distribuia delta Dirac centrat n punctul xi. Termenul de regularizare:
dE R ( f , h) =
R

d E R ( f + h) d
=0

=0

1 d 2 d

( P[ f + h])
Rn

dx

=0

(8.19)

= n P[ f + h]Phdx

= n PfPhdx = ( Ph, Pf ) H
R

Dac notm cu P* operatorul adjunct (conjugat) al operatorului P, avem:

dE R ( f , h) = ( h, P Pf ) H

(8.20)

Revenind la condiia de minimizare (8.16) i nlocuind expresiile obinute, avem:


1 dE( f , h) = 2 h, P Pf (z i f ) ( x x i ) = 0 i H

(8.21)

Relaia de mai sus este satisfcut n sens distribuional, dac i numai dac:
P Pf 1 1 ( z i f ) (x x i ) = 0 P Pf = ( z i f ) (x x i ) i i

(8.22) Ecuaia de mai sus este cunoscut sub numele de ecuaia Euler - Lagrange pentru funcionala E(f) [159].

VIII.2.3.3. Funciile Green i teoria regularizrii

Soluia problemei regularizrii, dedus mai sus, poate fi scris sub forma:
P Pf ( x ) = 1 ( z i f (x i )) (x x i ) i

(8.23)

Ecuaia de mai sus este o pseudo-ecuaie diferenial cu derivate pariale n necunoscuta f. Soluia ecuaiei se obine ca o transformare integral, n care va apare funcia Green a operatorului diferenial P*P [35], [159]. S notm cu G(x;xi) funcia Green centrat n punctul xi. Prin definiie, funcia Green G(x;xi) satisface ecuaia diferenial cu derivate pariale:
P PG(x; x i ) = 0

(8.24)

cu excepia punctului x = xi, unde funcia Green G(x;xi) are o nesingularitate. Putem atunci rescrie relaia de mai sus, cu ajutorul distribuiei delta Dirac:
P PG(x; x i ) = (x x i )
220

(8.25)

Aplicnd atunci transformarea integral ecuaiei (8.23), conform cu [35], obinem: f ( x ) = n G( x; ) ( )d


R

(8.26)

unde funcia () reprezint membrul drept al ecuaiei (8.23), iar variabila x a fost nlocuit cu variabila . Funcia () poate fi scris sub forma:
( ) = 1 z i f ( i ) ( x i ) i

(8.27)

Substituind relaia (8.27) n relaia (8.26), inter-schimbnd ordinea de sumare i de integrare, folosind de asemenea proprietile funciei delta, obinem [35]:
f ( x) = 1 z i f ( x i ) G( x ; x i ) i

(8.28)

Relaia de mai sus ne arat c soluia f(x) a problemei regularizrii este o combinaie liniar de funcii Green centrate n punctele xi, care vor fi numite centre de expansiune, iar z i f (x i ) coeficienii vor fi numii coeficienii expansiunii.

VIII.2.3.4. Soluia problemei regularizrii. Soluia 2

Cnd dorim s caracterizm o funcie prin faptul c este neted, privim netezimea ca o msur a comportamentului oscilator al funciei [80]. Cu alte cuvinte, vom spune despre o funcie derivabil c este mai neted dect alt funcie derivabil, dac oscileaz mai puin. Din punct de vedere al domeniului frecvenelor, care sunt reprezentate de dou funcii netede, vom spune c o funcie este mai neted dect alta, dac are o energie mai mic la o frecven mai mare. Coninutul de frecvene nalte a unei funcii poate fi msurat astfel [80]: filtrarea n band nalt a funciei; msurarea puterii semnalului filtrat - aceasta este de fapt norma L2 a semnalului filtrat;
2

Pornind de la aceast interpretare fizic, termenul de regularizare Pf astfel:


2

poate fi definit

Pf

~ 2 f ( s) = n ds ~ R G( s)

(8.29)

221

unde notaia

1 indic transformata Fourier [75]; ~ este un filtru trece-sus, reprezentat G printr-o funcie ce tinde la zero cnd ||s|| i pentru care clasa de funcii ce corespund unui astfel de filtru bine definit este nevid.
~

Un exemplu de astfel de clas de funcii G bine definite se gsete n [43], funcionala ce reprezint termenul de regularizare este o semi-norm, cu un spaiu nul finit. n funcie de alegerea funciei G, funcionala ce corespunde termenului de regularizare Pf poate avea sau nu un spaiu nul vid, i de aceea exist o clas de funcii invizibile pentru aceast funcional. Pentru a rezolva aceast problem, vom defini o relaie de echivalen relativ la mulimea funciilor care difer pentru un element al spaiului nul al 2 termenului regularizrii Pf .
2

S exprimm primul termen, termenul eroare standard, din cadrul problemei regularizrii, n funcie de transformata Fourier a funciei f: ~ f ( x ) = C n ds f ( s)e ixs
R

(8.30)

Vom obine funcionala:

~ ~ H f = z i C n ds f ( s) e ixs
i R

[]

~ 2 f ( s) + n ds ~ R G( s )

(8.31)

Deoarece funcia f este real, transformata sa Fourier satisface condiia:


~ ~ f ( s) = f ( s)

(8.32)

Funcionala (8.31) poate fi rescris astfel:

~ ~ H f = z i C n ds f ( s) e ix i s
i R

[]

+ n ds
R

~ ~ f ( s) f ( -s) ~ G( s )

(8.33)

Pentru a minimiza funcionala de mai sus, impunem condiia ca derivata sa n raport ~ cu f s fie nul:

~ H f = 0,t R n ~ f (t )
n urma calculelor obinem:

[]

(8.34)

222

~ ~ ~ H f f ( s)f ( s) ~ ix i s 2 + ~ n ds ~ ~ = ~ = ~ z i CRn ds f ( s)e f ( t) f ( t) i f ( t) R G( s)f ( t) ~ ~ f ( s) f ( s) = 2 ( zi f ( x i )) n ds ~ e ix i s + 2 n ds ~ ( s t) = 2 ( zi f ( x i )) n ds ( s t)e ix i s + R R R G( s) f ( t) i i ~ ~ f ( t ) f ( t ) +2 ~ = 2 ( zi f ( x i ))e ix i t + 2 ~ G( t) G( t) i (8.35)

[]

nlocuind n ecuaia (8.35), fcnd schimbarea de variabil t - t i multiplicnd ~ ambii membrii ai ecuaiei cu G( t) , obinem:

( z i f ( x i ))e ix i t ~ ~ f ( t ) = G( t ) i
S introducem notaia:

(8.36)

wi =

(z

f (x i ))

, i = 1,2, K

(8.37)

~ Presupunnd c funcia G este simetric, adic transformata sa Fourier este real, i aplicnd ultimei ecuaii (8.36) transformata Fourier, obinem:
f ( x) =

w (x
i i

x)G(x) = wi G(x; xi )
i

(8.38)

S ne reamintim, c mai nainte am definit o relaie de echivalen, prin care, toate funciile care difer printr-un termen ce aparine spaiului nul al termenului de regularizare 2 Pf , sunt echivalente. Atunci cea mai general soluie pentru problema de minimizare (8.34) este:
f ( x ) = w i G(x; x i ) + p( x )
i

(8.39)
2

unde p(x) este un termen din spaiul nul al termenului de regularizare Pf


k

Sau, dac notm cu { } =1 o baz a spaiului nul k-dimensional al termenului de regularizare Pf


2

, iar cu d coeficieni reali, avem:


f ( x ) = w i G( x ; x i ) + d ( x )
i =1 =1 N k

(8.40)

223

, i = 1,2, K din relaia (8.39)? Pentru aceasta vom evolua funcia f n punctele xj, j = 1, 2,, N care corespund centrelor de expansiune.
Cum s determinm coeficienii necunoscui w i =
f x j = wi G x j ; x i , j = 1,2,K, N
i

(z

f (x i ))

( )

(8.41)

Introducnd notaiile:

f = f (x 1 ), f (x 2 ), K, f (x N )
z = [ z1 , z 2 , K, z N ]
T

(8.42) (8.43)

G ( x 1 ; x 1 ) G( x 1 ; x 2 ) K G ( x 1 ; x N ) G ( x 2 ; x 1 ) G( x 2 ; x 2 ) K G ( x 2 ; x N ) G= M M M G( x N ; x 1 ) G( x N ; x 2 ) K G ( x N ; x N )

(8.44)

w = [ w1 , w 2 , K, w N ]

(8.45)

Putem atunci rescrie relaiile (8.36) i (8.41) n form matricial:

w=

1 (z f ), f = G w

(8.46)

Eliminnd pe f i rearanjnd termenii obinem:

(G + I)w = z

(8.47)

unde I este matricea identic de ordinul N. Dac matricea (G + I ) este inversabil, atunci obinem soluia:
w = (G + I) z
1

(8.48)

Soluia de mai sus se bazeaz pe urmtoarele date: alegerea operatorului pseudo-diferenial P i prin urmare a funciei Green asociate G(xi ;xj), i, j = 1,2,,N; cunoaterea vectorului z (8.43); alegerea parametrului de regularizare .
224

VIII.2.3.5. Diferite clase de stabilizatori

Dup cum am vzut n VIII.2.3.4., problema regularizrii ne conduce la considerarea unei clase de stabilizatori de forma (8.29):

~ 2 f ( s) [ f ] = n ds ~ R G( s)

(8.49)

care conduce la soluii ale problemei regularizrii de aceeai form (8.38), (8.39), (8.40). n funcie de proprietile funciei Green G, vom obine diferii stabilizatori. Fiecare stabilizator corespunde la diferite prezumii a priori asupra netezimii funciei de aproximat. A. Stabilizatori radiali Cea mai mare parte a stabilizatorilor utilizai n practic posed proprietatea de simetrie radial, care se exprim matematic:
[ f ( x ) ] = [ f ( Rx ) ]

(8.50)

oricare ar fi R o matrice de rotaie. Aceast proprietate reflect prezumia a priori c toate variabilele au aceeai relevan, neexistnd direcii privilegiate. Dup cum vom vedea, aceti stabilizatori invariani rotaional, corespund aa numitelor Radial Basis Functions (RBF) G( x ) . De fapt, metoda RBF este o metod general ce poate fi aplicat n general pentru a aproxima sau interpola orice funcie continu. Ea are o importan practic deosebit n cadrul tehnologiei calculului neuronal, reelele neuronale aproximante care rezult, avnd proprieti superioare celorlalte tipuri de reele neuronale ntlnite n practica aplicrii calculului neuronal. Considerente matematice relativ la RBF Funciile de tip RBF pot fi studiate n cazul cel mai general, i anume, ca soluie a problemei interpolrii reale, problem care poate fi formulat astfel: Def. 8.4: (Problema interpolrii): Fiind dat mulimea de N puncte distincte {x i R n i = 1,2,..., N }i mulimea de N numere reale {yi R i = 1,2,..., N }, s se gseasc
F(x i ) = yi , i = 1,2,..., N

funcia F : Rn R ce satisface condiia de interpolare:

(8.51)

Metoda RBF const n alegerea funciei cutate F, de forma:


F( x ) = ci h( x x i ) + d i pi ( x ) , m n
i =1 i =1 N m

(8.52)

unde: h : Rn R este o funcie continu numit funcie RBF;


225

definite de la Rn la R ; k N un numr natural dat.

{p

este norma Euclidian definit pe Rn;


i

i = 1,2,..., m} este o baz a spaiului liniar k-1(Rn) de polinoame algebrice

Analiznd forma soluiei (8.52) descoperim de fapt identitatea acestei forme cu soluia general a problemei regularizrii (8.28). Regsim de fapt ntr-un context particular ceea ce am dovedit deja ntr-un context mai general. Analiznd forma funciei RBF (8.52), avem ca necunoscute: N coeficieni ci; m coeficieni di; deci un total de (N + m) necunoscute. Din condiiile de interpolare (8.51) obinem N ecuaii liniare. Restul de m ecuaii liniare se vor obine prin impunerea urmtoarelor restricii [158]:

c p (x ) = 0 ,
i =1 i j i

j = 1,2,..., m

(8.53)

Obinem astfel, urmtorul sistem (N + m) ecuaii liniare cu (N + m) necunoscute:


F(x i ) = yi , i = 1,2,..., N N c p x = 0 , j = 1,2,..., m i j ( i ) i =1

(8.54)

Pentru a putea studia rezolvabilitatea sistemului de N + m ecuaii cu N + m necunoscute avem nevoie de o serie de rezultate ajuttoare [142]. Def. 8.5: O funcie continu f : [0 , ) R se numete condiional (strict) pozitiv definit de ordinul k pe Rn, dac pentru orice puncte distincte x1, x2, ..., xN Rn i orice scalari c1, c2, ..., cN R pentru care avem inegalitatea:

c p(x ) = 0, () p (R ) ,
i =1 i i k 1 n

forma ptratic satisface

c c f ( x
N N i =1 j =1 i j

x j 0(> 0)

(8.55)

Notaia 8.1: Vom nota clasa funciilor condiional pozitiv definite de ordinul k pe Rn cu Pk(Rn). Obs. 8.1: Pentru k = 0 mulimea Pk(Rn) a funciilor condiional pozitiv definite se reduce la mulimea funciilor pozitiv definite [142]. Conform cu [142], o condiie suficient de existen a unei soluii de forma (8.52) pentru problema aproximrii este ca funcia h Pk(Rn), adic funcia h trebuie s fie
226

condiional pozitiv definit de ordinul k pe Rn. Din acest motiv, este deosebit de important s fim n stare s dm o caracterizare ct mai complet acestei clase de funcii. Def. 8.6: O funcie f : [0 , ) R se numete complet monoton pe intervalul [0 , ) dac f C(0 , ) i dac satisface condiia:

( 1) i

i f ( x ) 0 , x ( 0, ), i N x i

(8.56)

Notaia 8.2: Vom nota cu Mk mulimea funciilor a cror derivat de ordinul k este complet monoton pe intervalul [0 , ). Teorema 8.2: Oricare ar fi numrul natural k N, dac funcia h este continu pe intervalul k k h [0, ) i ( 1) ( r) este complet monoton pe intervalul (0 , ), atunci avem h(r2) r k Pk(Rn). S analizm implicaiile acestei teoreme: dac derivata de ordinul k a funciei h este complet monoton, atunci funcia F de forma (8.52) poate fi folosit pentru a rezolva problema interpolrii (8.51). De exemplu, dac considerm funciile h(r ) = r 2 i funcia 1 g (r ) = r log r avem c h(r), g(r) M2 i conform cu Teorema 8.2, rezult c h(r 2 ) = r 2 2 i g (r 2 ) = r 2 log r aparin mulimii P2. Pe aceast baz, este posibil s interpolm orice mulime dat de puncte utiliznd funciile h(r2) sau g(r2) ca i funcii RBF n construcia funciei F de forma (8.52), unde polinomul folosit are gradul I. Pentru cazul particular k = 0, se obine ca i caz particular al Teoremei 8.2 binecunoscuta teorem a lui Schoenberg [179] relativ la funcii pozitiv definite. n acest caz, forma funciei F (8.52), devine:
F( x ) = ci h( x x i
i =1 N
3

(8.57)

Pentru a determina coeficienii necunoscui ci impunem cele N condiii de interpolare (8.51):


F(x i ) = yi , i = 1,2,..., N .

Aceste condiii substituite n relaia (8.57), conduc la sistemul liniar: Hc = y unde avem notaiile: (y)i = yi ; (c)i = ci ; (H)ij = h x i x j . Teorema 8.2 ne asigur de faptul c sistemul (8.58) are ntotdeauna soluie, deoarece matricea H este inversabil, fiind condiional strict pozitiv definit.
227

(8.58)

Obs. 8.2: Teorema 8.2 ne d doar o condiie suficient, ceea ce nseamn c multe alte funcii pot fi folosite ca i funcii de tip RBF fr a fi condiional pozitiv definite. O alt teorem ce ne asigur o condiie suficient este urmtoarea: Teorema 8.3: Fie o funcie h : [0 , ) R+, avnd derivata de ordinul I neconstant dar complet monoton pe intervalul (0 , ). Atunci pentru orice puncte distincte x1, x2, ..., xN Rn avem relaia:

( 1) N 1 det h x i x j

)>0

(8.59)

Pe baza Teoremei 8.3, putem construi o list de funcii ce pot fi folosite pentru a rezolva n practic problema interpolrii unei anumite mulimi de puncte date:
h( r ) = e h( r ) =
r c
2

( Gaussian)
1

(c h( r ) = ( c
h( r ) = r

+ r2 + r2

( liniar)

) )

>0 0< <1

(8.60)

n [132] i [43] se arat c n cazul acestui stabilizator invariant rotaional (8.50), funcionala din ecuaia (8.49) este o semi-norm i atunci problema variaional asociat este bine-definit. Vom considera n cele ce urmeaz dou exemple importante pentru tehnica calculului neuronal [80]: Exemplul 8.1: Spline Duchon n lucrarea [41] consider ca msur a netezimii stabilizatori de forma:
[ f ] = n ds s
R 2m

~ 2 f ( s)

(8.61)

Rezultatul problemei variaionale este n acest caz, conform cu [41]:

~ G( s) =

1 s
2m

(8.62)

Funcia RBF corespunztoare este:


x G (x ) =
2mn

ln x , dac 2m > n si n este par x


2mn

, altfel

(8.63)

228

n acest caz, spaiul nul al stabilizatorului [ f ] este spaiul vectorial al mulimii polinoamelor de grad mai mic sau egal cu m, de n variabile. Dimensiunea acestui spaiu n vectorial este k = Cn + m 1 . Dac particularizm pentru m = 2 i n = 2, obinem funcia:
G( x ) = x ln x
2

(8.64)

numit funcia thin plate [91], reprezentat grafic n Figura 8.3.

Exemplul 8.2: Spline multidimensional O clas important de stabilizatori se gsete n lucrarea [139]. Meinguet consider funcionale de forma:
O f
m 2

i1 ...i m

Rn

dx i1 ...im f ( x )

(8.65)

unde i1 ...im =

m , m 1. Acest tip de stabilizator este invariant rotaional i x i1 ... x im

translaional. Mai mult, deoarece operatorul diferenial implicat este omogen, o transformare scalar a variabilelor are ca efect nmulirea funcionalei cu o constant. Funcia Green ataat acestui tip de stabilizator este radial, invariant translaional i satisface urmtoarea ecuaie diferenial distribuional:

( 1) m 2 m G( x ) = ( x )

(8.66)

unde 2m reprezint Laplacianul de ordinul m n spaiul n-dimensional. Soluia acestei ecuaii difereniale se obine utiliznd metoda transformrii generalizate Fourier [76], fiind:
x G( x ) =
2mn

ln x , dac 2m > n si n este par x


2mn

altfel

(8.67)

Din relaia de mai sus rezult c restricia 2m > n este necesar a fi impus pentru a obine o funcie Green care s nu fie singular n origine. S presupunem n continuare c avem condiia 2m > n satisfcut. Din teoria funciilor spline se tie c dac stabilizatorul este de ordinul m, atunci funcia Green este condiional pozitiv definit de ordinul m. Pe baza rezultatelor anterioare putem afirma, dac se cunoate m N, pentru a interpola mulimea de puncte {(x i , yi ) R n R i = 1,2,..., N } putem folosi urmtoarea funcie:
f ( x ) = ci G( x x i ) + pm 1 ( x )
i =1 N

(8.68)

unde pm-1(x) este un polinom de gradul (m 1). n cazul particular n = m = 2, funcionala de minimizat este:
229

O2 f

2 f 2 2 f 2 2 f 2 = 2 dxdy 2 + + 2 R xy y x

(8.69)

iar funcia Green ataat este funcia h( r ) = r 2 ln r .

Fig. 8.3: Graficul funciei RBF G( x ) = x

ln x (thin plate).

Exemplul 8.3: Gaussian S considerm un stabilizator de forma:


[ f ] = n ds e
R s2

~ 2 f ( s)

(8.70)

Parametrul este un parametru real pozitiv fixat. Rezultatul problemei variaionale este n acest caz, conform cu [80]:
~ G( s ) = e s2

(8.71)

Funcia RBF corespunztoare este:


G( x ) = e
x
L1

(8.72)

230

Funcia Gaussian este pozitiv definit, i dup cum vom vedea, funciile pozitiv definite pot defini norme de forma stabilizatorului (8.49). Deoarece acest stabilizator este o norm, spaiul su nul conine doar elementul zero, nemai fiind nevoie s adugm la soluia problemei variaionale (8.39) i termenul corespunztor spaiului nul, care termen apare la spline. Comparnd funcia Gaussian cu spline-ul observm la prima existena parametrului real pozitiv de care depinde, n timp ce spline-urile fiind funcii omogene nu depind de nici un parametru de scalare. n Figura 8.4 avem reprezentarea grafic a funciei Gaussiene.

Fig. 8.4.: Graficul funciei RBF G( x ) = e

Exemplul 5.4: Alte funcii RBF

Utiliznd diferii ali stabilizatori, conform cu [80], n tehnica calculului neuronal se pot folosi urmtoarele funcii de tip RBF:

G( x ) =
G( x ) =

+ c 2 - funcia multi-cvuadratic
- funcia multi-cvadratic invers

(8.73) (8.74)

1 x
2

+ c2

De asemenea, din cele dou exemple de mai sus avem:


G( x ) = x G( x ) = x
2n

ln x - spline

(8.75) (8.76)

2 n +1

- spline
231

G( x ) = e

L1

- Gaussian

(8.77)

B. Stabilizatori de tip produs tensorial O alt posibilitate de a alege stabilizatorul o constituie produsul tensorial, care este o funcie de forma:
n ~ ~ G( s ) = g ( s i ) i' =1

(8.78)

~ unde si este a i - a coordonat a vectorului n-dimensional s, iar g o funcie de o singur variabil, corespunztor aleas. Dac g este o funcie pozitiv definit, atunci funcionala (stabilizatorul) [ f ] este o norm, avnd spaiul nul vid [80]. Dac considerm funcia din (8.68) vom obine stabilizatorul:

[ f ] = n ds
R

~ 2 f ( s) ~ g ( si )
i =1 n

(8.79)

care va conduce la o funcie Green de forma produs tensorial:


G( x ) = g( x i )
i' =1 n

(8.80)

unde xi este a i - a coordonat a vectorului n-dimensional x, iar funcia g(x) este transformata ~ Fourier a funciei g (x). Un exemplu cu aplicaii practice importante, din punct de vedere al implementrii hardware VLSI, este alegerea urmtoarei funcii:
~ g ( s) = 1 1 + s2

(8.81)

care conduce la funcia Green:


G( x ) = e
i' =1 n xi

=e

xi
i =1

=e

L1

(8.82)

Calculul normei L1 a vectorului x se face mult mai uor dect norma Euclidian L2, de aceea n aplicaiile practice acest lucru este de preferat. Dar, deoarece funcia Green G(x) (8.81) nu este suficient de neted (vezi Fig. 8.5) , performanele sale nu sunt foarte bune, depinznd de aplicaia concret.

232

Fig. 8.5: Graficul funciei RBF G( x ) = e

L1

C. Stabilizatori aditivi

Dup cum am vzut mai nainte, putem s derivm schemele de aproximare de tip produs tensorial n contextul cadrului general al teoriei regularizrii, i deci al calculului neuronal. n cele ce urmeaz, vom vedea c i schemele de aproximare aditive se pot ncadra n acelai cadru general al calculului neuronal. Printr-o schem de aproximare aditiv vom nelege o funcie aproximant de forma:
f ( x ) = fi ( x i )
i =1 n

(8.82)

unde fi reprezint funcii reale de o singur variabil i care vor fi denumite n continuare componentele aditive al funciei f, iar xi a i - a component a vectorului x. Modele aditive de aproximare de forma de mai sus (8.82) sunt ntlnite mai ales n statistic [92]. Aceste modele aditive de aproximare sunt eficiente deoarece, fiind o compunere aditiv de funcii reale unidimensionale, au o complexitate sczut, i o trstur foarte important, ntlnit de fapt la modelele lineare, i anume, aceea de a putea studia separat influena diferitelor variabile. Pentru a obine un astfel de model de aproximare aditiv, din punct de vedere al calculului neuronal, va trebui s alegem un stabilizator corespunztor, i anume:

233

G( x ) = i g( x i )
i =1

(8.83)

unde i R sunt parametrii reali fixai. De fapt o astfel de alegere a stabilizatorului va duce la o schem de aproximare aditiv, ca aceea din (8.82), mai precis de forma:
fi ( x ) = i j G x i x j
j =1 N

(8.84)

Componentele aditive nu sunt independente, deoarece apare o singur mulime de coeficieni { i R i = 1,2,K , N }. Va trebui s scriem stabilizatorul n forma (8.49), unde ~ funcia G( s) este transformata Fourier a funciei Green G(x). Pentru a simplifica deduciile s considerm cazul bidimensional n = 2, urmnd a generaliza rezultatele obinute pentru cazul oarecare. Atunci putem scrie [80]:
~ ~ ~ G( s) = 1 g ( s1 ) ( s2 ) + 2 g ( s2 ) ( s1 )

(8.85)

Dac considerm stabilizatorul (n cazul n = 2):


[ f ] = n ds
R

~ 2 f ( s)
~ ~ 1 g ( s1 )e + 2 g ( s2 )e s2
2

s1

(8.86)

Acest stabilizator va conduce la o funcie Green de forma:


G( x, y) = 1 g( x ) e
2 2

+ 2 g( y) e

2 2

(8.87)

S presupunem c tim a priori c forma funciei de aproximat f este aditiv, adic de forma (8.82). Atunci, vom aplica metoda regularizrii prin aplicarea unei restricii de netezime asupra funciei nu ca un tot unitar, ci asupra fiecrei componente aditive, aplicnd o funcional de regularizare de forma:
n n 1 H[ f ] = yi f j ( x i ) + i i =1 j =1 i =1 N 2

f i ( s) Rn ds g ( s) ~

(8.88)

unde parametrii i sunt parametri pozitivi, care permit impunerea a diferite grade de netezime asupra diferitelor componente aditive. Prin minimizarea funcionalei de mai sus, nelund n considerare eventualii termeni ce corespund spaiului nul, obinem:
f ( x ) = c i G( x x i )
i'1 N

(8.89)

unde:
234

G( x x i ) = j g x j x i
j =1

(8.90)

Introducem pentru coeficieni notaia:


cij = ci j

(8.91)

obinem pentru o component aditiv forma:

fi ( x i ) = cij g x i x j
j =1

(8.92)

Componentele aditive nu sunt independente datorit faptului c coeficienii i sunt fixai. Evident, independena componentelor aditive poate fi obinut prin anularea condiiei de fixare impus coeficienilor i.

VIII.3. Proprietatea de cea mai bun aproximant


Problema Aproximrii a fost formulat n Definiia 8.1, ea coninnd urmtoarea formulare: dac f(x) este o funcie continu i F(x,w) este o funcie aproximant ce depinde continuu de parametrii w P i de variabila x, problema aproximrii este determinarea parametrilor w*, astfel nct:
[ F( w*, x ), f ( x )] [ F( w, x ), f ( x )] ,

( ) w P

Dac problema aproximrii are soluie, ea se numete cea mai bun aproximant. Dup cum vom vedea, existena celei mai bune aproximante este determinat de clasa de funcii creia i aparine funcia aproximant F(x,w). Am vzut din cele prezentate pn acum c nvarea unei reele neuronale pe baza unei mulimi de exemple de antrenament este echivalent cu problema aproximrii unei funcii necunoscute f(x) pe baza unei mulimi de puncte discrete T = (x, f(x)) numit mulime de antrenament. Pentru a putea caracteriza metodele de aproximare, deci i reelele neuronale, trebuie luat n considerare problema fundamental a reprezentrii: Problema reprezentrii: care mulime de funcii poate fi aproximat de funcia aproximant F i ct de precis poate fi realizat aceast aproximare? Din rezultatele Cap. VII am vzut c reele neuronale de tip PMS pot aproxima orict de bine o funcie continu, dac avem un numr nelimitat de neuroni n stratul ascuns. Din punct de vedere matematic acest lucru nseamn c mulimea funciilor ce poate fi calculat de acest tip de reele neuronale este dens. Aceast proprietate nu este ns caracteristic numai pentru reelele neuronale ci i pentru polinoame algebrice, fapt dovedit prin intermediul
235

clasicei Teoreme a lui Weierstrass. Pentru a caracteriza ns "calitatea" unei reele neuronale nu este suficient ca aceast s satisfac Teorema lui Weierstrass. Aproape orice reea neuronal de tip PMS ca cea din Fig. 7.1, avnd o funcie de activare neliniar pentru neuronii stratului ascuns va satisface aceast proprietate a lui Weierstrass. Deoarece, majoritatea schemelor de aproximare, printre care i reelele neuronale, satisfac proprietatea lui Weierstrass, avem nevoie de o caracteristic suplimentar. i literatura de specialitate n domeniul teoriei aproximrii reflect aceast problem, ncercnd s accentueze alte proprieti ale schemelor de aproximare. O astfel de proprietate, prin care vom ncerca o caracterizare suplimentar a reelelor neuronale, privite ca i scheme de aproximare, va fi proprietatea de cea mai buna aproximant, pe care o vom nota BAP (Best Approximation Property). ntr-o definiie neformal putem s spunem despre o schem de aproximare c satisface BAP dac n mulimea funciilor aproximante (n cazul reelelor neuronale aceasta poate fi {F ( x , w ) w R}) exist o funcie unic ce are distana minim fa de o mulime mai larg de funcii . S considerm mulimea general a funciilor ce poate fi calculat cu ajutorul unui PMS avnd un singur strat ascuns, un singur neuron n stratul de ieire, ca acela din Fig. 7.1:
N N = f C (U ) f (x ) = vi H i (x ), U R n , H i C (U ), N , n N i =1

(8.93)

unde funciile Hi sunt de form H i = G(x; w i ) , wi reprezint vectorii triilor sinaptice ce leag neuronii din stratul de intrare de intrare de al i - lea neuron din stratul ascuns. Dac alegerea funciilor Hi este corespunztoare, atunci mulimea de funcii N poate fi dens n spaiul funciilor continue C(U). Dac funciile Hi sunt polinoame algebrice, densitatea mulimii N este o consecin trivial a Teoremei lui Stone-Weierstrass. Dac funciile Hi sunt funcii Green centrate n punctele xi, atunci regsim reelele neuronale de tip PMSR pe care le vom studia amnunit n capitolul urmtor, i care am vzut c pot aproxima orict de bine o funcie continu pe un domeniu compact din Rn. S ncercm n cele ce urmeaz s dm o interpretare matematic precis noiunii de BAP, cu care dorim s caracterizm reelele neuronale [81], [158]. Def. 8.7: Fie funcia f i mulimea de funcii A . Se numete distan de la funcia f la mulimea A urmtoarea expresie:
d ( f , A) = inf f a
aA

(8.94)

Def. 8.8: Dac exist un element a0 A astfel nct:


f a 0 = d ( f , A)

(8.95)

acest element se numete cea mai bun aproximant a lui f de ctre A.


236

Def. 8.9: Mulimea de funcii A se numete mulime de existen dac, pentru orice funcie f , exist cel puin o cea mai bun aproximant a lui f de ctre A. Obs. 8.3: Despre o mulime A care este o mulime de existen vom putea spune c satisface de asemenea i BAP (Proprietatea de cea mai bun aproximant). Def. 8.10: Mulimea de funcii A se numete mulime de unicitate dac, pentru orice funcie f , exist cel mult o cea mai bun aproximant a lui f de ctre A. Def. 8.11: Mulimea de funcii A se numete mulime Cebev dac este o mulime de existen i o mulime de unicitate. Dup aceste noiuni introductive, putem formula problema aproximrii prin prisma BAP: Def. 8.12 (problema aproximrii): Fiind dat funcia f i mulimea A s se gseasc o cea mai bun aproximant a lui f de ctre A. Este evident c problema aproximrii are soluie dac i numai dac mulimea A este o mulime de existen. Vom studia n cele ce urmeaz proprietile unor mulimi ce posed proprietatea BAP, i vom aplica aceste proprieti la reele neuronale pentru a putea s le nelegem mai bine din punct de vedere al teoriei aproximrii [81]. Propoziia 8.1: Orice mulime de existen este nchis. Demonstraie: Fie mulimea A o mulime de existen, i s presupunem prin reducere la absurd c nu este nchis. Atunci trebuie s existe cel puin un ir de elemente {a n } nN aparinnd mulimii A care converge la un element ce nu aparine mulimii A. Cu alte cuvinte, putem scrie:

{a n }nN , a n A, f \ A : lim d ( f , a n ) = 0
n

Acest lucru nseamn c d ( f , A) = 0 i deoarece mulimea A este o mulime de existen rezult c exist un element a0 A astfel nct:

f a0 = 0
Din proprietile normei vom avea c f = a0 , ceea ce este absurd deoarece f A i a0 A. Aceasta contrazice ipoteza fcut c mulimea A nu este nchis. Rezult c mulimea A este nchis. Reciproca acestei propoziii nu este n general adevrat, adic nu este suficient ca o mulime s fie nchis pentru ca ea s fie o mulime de existen. Teorema de mai jos va conine condiia de suficien [49]: Teorema 8.4: Fie mulimea A o mulime compact ntr-un spaiu metric . Atunci mulimea A este o mulime de existen.
237

Demonstraie: Pentru orice funcie f , putem defini funcia:

H : A R+ , H (a ) = d ( f , a )
Funcia H este o funcie continu pe mulimea compact A. Dup cum se tie ns, conform teoremei lui Weierstrass, o funcie continu pe o mulime compact ntr-un spaiu metric i atinge supremul i infimul pe acea mulime. Atunci funcia H i atinge infimul pe mulimea compact A, ceea ce conform Definiiei 8.9 nseamn c mulimea A este o mulime de existen. Din punct de vedere al teoriei aproximrii, o reea neuronal este o reprezentare a unei mulimi A de funcii parametrice, iar algoritmul de nvare a reelei neuronale corespunde de fapt algoritmului de cutare a celei mai bune aproximante a unei funcii f ctre A. n general, mulimea A nu are proprietatea BAP, doar dac ea satisface o serie de proprieti adiionale, cum ar fi proprietile stabilite de Teorema 8.4. De aceea, vom ncerca s analizm care reele neuronale satisfac aceste proprieti.

VIII.3.1. Aplicaia 1: BackPropagation

Reele

neuronale

de

tip

BP

Reelele neuronale de tip BP - BackPropagation sunt cele mai populare reele neuronale folosite n aplicaii. De fapt, este vorba de o arhitectur de tip PMS cu cel puin un strat ascuns, caracteristic fiind pentru reelele neuronale de tip BP algoritmul de nvare, numit BackPropagation (prezentat pe larg n IV.2.1). De asemenea, se consider ca reelele neuronale de tip BP au ca funcie de activare a neuronilor din straturile ascunse, o funcie sigmoidal (2.4), numit i funcie logistic, ce are urmtoarea expresie:
( x) = 1 1 + ex

(8.96)

S considerm clasa reelelor neuronale de tip BP, cu un singur strat ascuns, cu un unic neuron n stratul de ieire, cu o arhitectur asemntoare cu PMS din Fig. 7.1. Funcia de activare a celor N neuroni din stratul ascuns este funcia logistic de mai sus (8.96). Spaiul funciilor , care trebuie aproximate va fi ales spaiul funciilor continue C(U), U Rn. Atunci mulimea funciilor care poate fi calculat de aceste reele neuronale de tip BP este:
m 1 , U R n , w i R n , vi , i R n = f C (U ) f (x ) = vi ( xw i + i ) 1+ e i =1

(8.97)

Vom formula n cele ce urmeaz rezultatul cel mai important din punct al studiului teoretic i aplicativ al calculului neuronal [46]: Propoziia 8.2: Mulimea n nu este o mulime de existen, oricare ar fi n 2. Demonstraie: Dup cum am vzut n Teorema 8.4, o condiie necesar pentru ca o mulime s fie o mulime de existen este ca acea mulime s fie nchis. De aceea, pentru a dovedi c
238

mulimea n nu este o mulime de existen este suficient s artm c nu este o mulime nchis. Pentru aceasta, vom arta c un punct de acumulare a mulimii n nu-i aparine. S considerm urmtoarea funcie:
f (x ) = 1 1 1 1 + e (wx + ) 1 + e (wx + ( + ))

(8.98)

Evident avem f n , oricare ar fi n 2. Efectund un calcul simplu, obinem urmtoarea limit:


lim f ( x ) g( x ) =
0

1 2(1 + cosh( wx + ) )

(8.99)

Oricare ar fi n 2 funcia g de mai sus reprezint un punct de acumulare a mulimii n, dar nu aparine mulimii n. Rezult c mulimea n nu este nchis, deci nu poate fi o mulime de existen.

VIII.3.2. Aplicaia 2: Reele neuronale de regularizare

S considerm mulimea de reele neuronale de tip PMSR care se obin ca soluie a problemei de regularizare (8.4), formulat ntr-un paragraf anterior:
m n = f C (U ) f (x) = ii (x ), U R n , i R i =1

(8.100)

unde funciile i ( x ) = G(x; x i ) reprezint funcii Green centrate n punctele xi Rn. Ca i caz particular putem considera funciile RBF (Radial Basis Functions), cnd avem:

i ( x ) = G( x - x i

(8.101)

ntrebarea pe care ne-o punem n continuare este dac aceast mulime de funcii aproximante asociate reelelor neuronale de regularizare posed proprietatea BAP ? Rspunsul la aceast ntrebare este pozitiv, fiind exprimat prin propoziia: Propoziia 8.3: Mulimea n este o mulime de existen, oricare ar fi n 1. Demonstraie: Fie funcia f un element fixat al spaiului funciilor continue C(U) i a0 un element arbitrar al mulimii n. Ne punem problema s determinm cel mai apropiat punct al mulimii n de funcia f. Acest punct, dac exist, trebuie s se gseasc n mulimea:
239

{a

a f a0 f

(8.102)

Conform cu [158], aceast mulime este nchis i mrginit, deci este compact. Aplicnd Teorema 8.4 rezult c mulimea n este o mulime de existen. n funcie de norma definit pe spaiul funciilor continue C(U), cea mai bun aproximant, n ipoteza c exist, poate fi unic sau nu. Pentru a studia unicitatea celei mai bune aproximante s definim noiunea de convexitate strict. Def. 8.13: Un spaiu normat se numete strict convex, dac:
f = g =
1 2

(f

+ g) = 1 f = g

(8.103)

Interpretarea geometric a definiiei de mai sus: un spaiu este strict convex dac sfera unitar nu conine segmente de dreapt pe suprafaa sa. Propoziia 8.4: Mulimea n este o mulime Cebev dac spaiul normat al funciilor continue C(U) este strict convex. Demonstraie: Am demonstrat mai nainte c mulimea n este o mulime de existen. Pentru a dovedi c este o mulime Cebev, adic unicitatea celei mai bune aproximante, trebuie s mai artm c mulimea n este i o mulime de unicitate. Vom demonstra acest lucru prin reducere la absurd. S presupunem c exist dou funcii f1 i f2 aparinnd de n ce reprezint cea mai bun aproximant ctre o funcie g C(U). S mai notm cu distana de la g la mulimea n. Aplicnd inegalitatea triunghiului, vom obine:
1 2

( f1 + f 2 ) g

1 2

f1 g +

1 2

f2 g
1 2

(8.104)

Deoarece spaiul n este un spaiu vectorial este evident c lui rezult c:


1 2

( f1 + f 2 )

( f 1 + f 2 ) n iar din definiia

. De aici obinem:

- dac = 0, atunci f1 = f2 = g; - dac 0, atunci putem scrie relaia (8.104) sub forma:
1 f1 g f 2 g + =1 2

(8.105)

Acest lucru nseamn c vectorii

f1 g f 2 g , i semi-suma lor vectorial au norma unitar, i deoarece condiia de strict convexitate este satisfcut, rezult c f1 = f2.

Conform cu literatura de specialitate [166], spaiul funciilor continue C(U) nzestrat cu norma Lp, 1 < p < este strict convex. Atunci, putem afirma c mulimea reelelor neuronale de regularizare posed proprietatea BAP, avnd un unic element cu proprietatea BAP.
240

241

IX. Aplicaiile teoriei regularizrii la reelele neuronale

n acest capitol ne propune s aplicm elementele teoretice deduse n capitolul anterior n contextul calculului neuronal. Am vzut analogia dintre problema regularizrii - care este de fapt o problem de teoria aproximrii - i problema nvrii supervizate a unei reele neuronale, care este o problem fundamental a calculului neuronal. Pe baza soluiei problemei regularizrii vom construi o reea neuronal general de tip PMS, cu un singur strat ascuns, pe care o vom numi Perceptron Multi Strat Regularizat - PMSR. Vom ncerca s gsim soluii viabile care s in seama de dimensionalitatea datelor de antrenament precum i de distribuia particular a acestor date de antrenament. De asemenea, vom face un studiu practic, prin construcia unor reele neuronale efective, a cror performane vom ncerca s le subliniem.

IX.1. Reele neuronale de tip PMSR


IX.1.1. Construcia reelei neuronale de tip PMSR
n capitolul anterior, n VIII.2.3, am studiat problema regularizrii ca o problem de minimizare a unei funcionale. Am vzut cu acest prilej c soluia general a acestei probleme poate fi exprimat sub forma (8.40):
f ( x ) = w i G( x ; x i ) + d ( x )
i =1 =1 N k

unde am notat cu { } =1 o baz a spaiului nul k-dimensional al termenului de regularizare


k

Pf

cu
i

wi =

(z

f (x i ))

mulime

de

coeficieni

reali,

coeficienii

necunoscui

, i = 1,2, K ,N.

Am vzut de asemenea n VIII.2.3.5., c n funcie de clasa stabilizatorului folosit putem avea spaiul nul al termenului de regularizare vid sau nu. n ceea ce ne privete studiile noastre aplicative se vor baza pe clase de stabilizatori cu spaiul nul vid, ceea ce nseamn c fr a reduce generalitatea vom considera soluia problemei regularizrii de forma (8.38), adic:
f ( x ) = w i G ( x; x i )
i =1 N

242

Pentru a implementa aceast soluie a problemei regularizrii sub forma unei reele neuronale, s ne reamintim faptul c pentru a aproxima o funcie continu cu o precizie dorit este suficient s avem un PMS cu un singur strat ascuns (Cap. VII). nsi din forma soluiei problemei regularizrii se vede clar c tipul de reea neuronal creia i corespunde este de tip PMS cu un singur strat ascuns. Deci, reeaua neuronal care corespunde soluiei problemei regularizrii este un PMS de o arhitectur special, reea neuronal pe care o vom numi Perceptron MultiStrat Regularizat - PMSR, reprezentat n Fig. 9.1:

xi(1) xi
(2) ( 3)

G(x-x1)

w1
G(x-x2)

w2 wk +

xi xi

yi = f(xi)

(k )

G(x-xk)

xi( n )

wN

G(x-xN)

Figura9.1: Arhitectura reelei neuronale PMSR.

S analizm reeaua neuronal de mai sus: avem o arhitectur de reea neuronal de tip PMS cu un singur strat ascuns: stratul de intrare conine n neuroni de intrare, n fiind egal cu dimensionalitatea vectorului de intrare x i = x i(1) , x i( 2 ) ,K, x i( n ) . Termenul Bias reprezentat n startul de intrare cu un cercule rou poate sau nu s fie luat n considerare explicit sau implicit, conform consideraiilor fcute n Cap. II.; stratul ascuns avnd un numr de neuroni egal cu dimensionalitatea mulimii de antrenament T = ( x i , f ( x i )) i = 1,2,K, N . Funciile de

activare ale neuronilor din stratul ascuns sunt toate diferite. Al k -lea neuron are ca funcie de activare funcia Green centrat n punctul xk: G( x x k ) ; stratul de ieire constituit dintr-un singur neuron cu funcie de activare liniar sau dup cum vom vedea n continuare, o funcie de activare ponderat a valorilor generate de neuronii din stratul ascuns. triile sinaptice:

243

triile sinaptice dintre stratul de intrare i stratul ascuns sunt incluse n forma funciilor de activare a neuronilor din stratul ascuns. Aceste trii sinaptice nu sunt explicitate direct; triile sinaptice dintre stratul ascuns i stratul de ieire sunt reprezentate de vectorul w = ( w1 , w 2 ,K, w N ) . innd cont de modul de operare al unei reele neuronale de tip PMS, vom obine pentru reeaua noastr PMSR, ca valoare de ieire:
f ( x ) = w i G ( x; x i )
i =1 N

(9.1)

adic tocmai aceeai funcie care este soluia problemei de regularizare. n situaii speciale, dup cum artat n VIII.2.3.4., parametrii necunoscui w pot fi determinai pe baza unui calcul direct (8.48):
w = (G + I) z
1

n practic ns, o astfel de situaie este aproape imposibil, cci sunt foarte rare 1 cazurile cnd matricea ( G + I) este inversabil sau de dimensiuni care s poate permit un calcul real. De asemenea, nu trebuie s uitm influena numrului de date de antrenament N, care poate implic o complexitate computaional ce nu poate fi rezolvat, problema noastr cptnd doar un caracter teoretic. Evident ns, scopul nostru nu este numai teoretic, ci obinerea unor metode de aproximare-interpolare alternative bazate pe calculul neuronal.

IX.1.2. Reducerea dimensionalitii reelei neuronale PMSR


Din soluia problemei regularizrii (9.1) obinem o reea neuronal cu N neuroni n stratul ascuns, N reprezentnd dimensionalitatea mulimii de antrenament. Din aceast cauz, complexitatea calcului necesar a optimiza parametrii reelei neuronale PMSR pe baza procesului de nvare supervizat poate fi prohibitiv. De aceea, trebuie ca pentru probleme caracterizate printr-o dimensionalitate mare N a mulimii de antrenament s gsim o soluie aplicabil n practic, care s pstreze calitatea unei reele neuronale de tip PMSR. Pentru a rezolva aceast problem vom aborda dou soluii distincte, una bazat pe o strategie de nvare supervizat i una bazat pe o strategie mixt: o etap de nvare nesupervizat, urmat de o etap de nvare supervizat.

IX.1.2.1. Soluia clasic - nvare supervizat Ideea reducerii dimensionalitii reelei neuronale PMSR are la baz o reducere a numrului centrelor de expansiune xi, care reprezint de fapt datele de intrare corespunztoare mulimii de antrenament T. n variant clasic, aceast reducere se face prin alegerea a K noi centre de expansiune tk,, k = 1, 2, , K, unde K < N [24].
244

Vom obine astfel urmtoarea reea neuronal de tip PMSR:


F ( x ) = v i G ( x; t i )
i =1 K

(9.2)

unde coeficienii {vi R i = 1,2, K, K }i centrele de expansiune {t i R n i = 1,2,K , K }sunt necunoscui. Trebuie s subliniem c prin aceast metod am introdus o mulime nou de necunoscute, i anume, centrele de expansiune {t i R n i = 1,2,K , K }. De aceea, metoda clasic va fi eficient doar n situaia n care se obine ntr-adevr o reducere a dimensionalitii calculului, ceea ce presupune satisfacerea condiiei:
K + nK << N

(9.3)

unde K + nK reprezint: K coeficieni necunoscui

{v

R i = 1,2, K, K }- care corespund triilor sinaptice

dintre stratul ascuns i stratul de ieire; nK reprezint cele n coordonate ale celor K centre de expansiune {t i R n i = 1,2,K, K } - care corespund ntr-o form implicit triilor sinaptice dintre stratul de intrare i stratul ascuns. Pentru ca reeaua neuronal PMSR (9.2) s reprezinte o soluie optimal a problemei regularizrii, impunem urmtoarea condiie relativ la mulimea de parametri {(vi ,t i ) R R n i = 1,2,K, K }:
H[ F ] = 0, i = 1,2,K, K vi H[ F ] = 0, i = 1,2,K, K t i

(9.4)

Soluia particular a problemei de mai sus depinde de operatorul stabilizator folosit. De aceea, vom ncerca s considerm un exemplu ct mai general de stabilizator [159] . Fie stabilizatorul definit astfel:
P1 f
2

= n dx ai ( P i ( x ) )
R i=0

(9.5)

unde {ai R i = 1,2, K} este o mulime de coeficieni reali, iar P este un operator ce satisface proprietile:
P 2 i = 2 i ; P 2 i +1 = 2 i

(9.6)

2 este operatorul Laplacian.


245

Atunci stabilizatorul este invariant translaional, iar funcia Green va satisface ecuaia diferenial n sens distribuional:

( 1) a G( x ) = ( x )
i i=0 i 2i

(9.7)

Aplicnd transformata Fourier ambilor membrii ai ecuaiei de mai sus obinem:

a ( ) G( ) = 1
i i=0 i

(9.8)

Aplicarea transformatei anti-Fourier asupra funciei G() conduce la:

G( x ) =

d n

e i x

a j ( )
j =0

= n de i x dV ( )
R

(9.9)

unde V() este o funcie mrginit i nedescresctoare dac a0 0. Aplicarea teoremei lui Bochner [22], ne va conduce la concluzia c funcia Green G(x) este pozitiv definit. De asemenea, condiia a0 0 este esenial n acest calcul, deoarece, aa cum este menionat n [213], aceasta este o condiie necesar i suficient pentru ca funcia Green s convearg asimptotic la zero. Dac particularizm coeficienii:
a 0 = 1, a1 = 1 si ai = 0, i 2

(9.10)

n acest caz funcia Green este unidimensional, devenind transformata Fourier a 1 , avnd forma: funciei 1+2
G( x ) e x

(9.11)

Deoarece funcia de mai sus nu este foarte neted, reflectnd faptul c stabilizatorul conine doar derivata de ordinul 0 i 1, obinerea unei funcii Green mai netede presupune folosirea unui numr mare (ideal un numr infinit) de coeficieni ai nenuli. Un exemplu potrivit este [159]:

ai =

( 2i ) !

, i N

(9.12)

innd seama de identitatea cunoscut:

( 2i) ! = cosh( )
i=0

2i

(9.13)

vom obine funcia Green foarte neted:

246

G( x ) =

1 cosh( x )

(9.14)

Un alt exemplu interesant pentru alegerea coeficienilor ai este [213]:


ai = 2i , i N i!2 i

(9.15)

care genereaz o funcie Green de tip Gaussian multidimensional de varian . Interpretarea fizic a soluiei este simpl, dac privim variana = (t) ca o funcie de timpul t, atunci soluia va satisface ecuaia cldurii:
f ( x, ) = 2 f ( x, )

(9.16)

cu condiiile la limit:
f ( x i , ) = z i

(9.17)

Considernd parametrul regularizrii = 0, soluia problemei regularizrii poate fi interpretat fizic ca fiind temperatura procesului de propagare a cldurii ntr-o bar conductibil, care este n punctele xi n contact cu o surs de cldur. Variana va reprezenta timpul de difuzie a cldurii. Revenind la stabilizatorul (9.5) al i - lea termen al acestui stabilizator poate fi scris pe baza formulei lui Green [35]:

Rn

dx( P i f ( x ) ) = ( 1)
2

Rn

dxf ( x ) P 2 i f ( x )

(9.18)

substituind formula de mai sus n stabilizatorul (9.5), i innd cont de proprietatea (8.25), obinem: P1 f
2

= n dxf ( x ) P1 P1 f ( x )
R

(9.19)

Dac nlocuim funcia f cu funcia F (9.2) n relaia de mai sus, atunci fiecare termen ce conine funcia Green G(x) va genera o funcie delta , termenul integral transformndu-se ntr-o sum finit:

P1 f

i , j =1

v v G( t ; t )
i j i j

(9.20)

Introducnd notaiile matriciale:

(G )ij (g )ij

= G (x i ;t j ) matrice de ordinul N K = G (t i ;t j ) matrice de ordinul K K

(9.21) (9.22)

Atunci putem scrie operatorul de regularizare (9.4) sub forma matricial:


247

H[ F ] = v ( G T G + g) v 2 v G T z + z z

(9.23)

sinaptice {vi R i = 1,2,K , K } se obine astfel:

Operatorul de mai sus este o form ptratic n raport cu coeficienii necunoscui vi, astfel c minimizarea n raport cu aceti coeficieni este relativ simpl. Pentru fiecare mulime fixat de centre de expansiune {t i R n i = 1,2,K , K }, mulimea optimal de trii

v = ( G T G + g ) G T z
1

(9.24)

Evident, funcia aproximant F (9.2) nu este identic cu funcia de aproximat f, egalitatea pstrndu-se n centrele de expansiune {t i R n i = 1,2,K , K }:
F tj =
i =1

( )

z i F( x i )

G t j ;xi = f t j

( )

(9.25)

Pn n acest moment am analizat o metod de reducere a dimensionalitii reelei neuronale de tip PMSR pe baza aproximrii soluiei problemei regularizrii cu funcia (reeaua neuronal) F(x) definit de formula (9.2). Acest proces de aproximare are n vedere aproximarea unei funcionale de mai multe variabile H[F] care n general nu este convex. Cea mai simpl metod de a rezolva problema (9.4) este o metod de tip gradient descendent, adic dac folosim terminologia din tehnica calcului neuronal, un algoritm de nvare supervizat de tip BackPropagation sau o metod mbuntit de tip gradient conjugat (IV.2.2). De data aceasta, pentru a evita punctele de minim local caracteristice strategiilor de nvare bazate pe tehnici de optimizare de tip gradient, vom privi sistemul de ecuaii (9.4) ca pe un sistem dinamic, unde valorile parametrilor {t i R n i = 1,2,K , K } i

{v

R i = 1,2, K, K }reprezint coordonate ale punctelor fixe ale sistemului dinamic:

. H[ F ] v i = , i = 1,2,K, K vi . H[ F ] t i = , i = 1,2,K, K t i

(9.26)

parametrul reprezint gradul de variaie temporal a problemei, determinnd rata de convergen ctre punctul fix, fiind echivalent din punct de vedere al calculului neuronal cu rata de nvare. Pentru a depi problema neconvexitii funcionalei H[F], care genereaz mai multe puncte fixe pentru sistemul dinamic (9.26), vom folosi tehnica gradientului descendent stohastic. Prin aceast tehnic a gradientului descendent stohastic ecuaiile sistemului dinamic (9.26) devin ecuaii stohastice de tip Langevin, ecuaii folosite pentru a modela relaxarea unui sistem fizic ctre punctele fixe - de echilibru, n prezena unui zgomot perturbator [203], [130], [154] . Procesul de nvare va fi exprimat prin intermediul urmtoarelor ecuaii stohastice:
248

. H[ F ] v i = + i ( t ), i = 1,2,K, K vi . H[ F ] t i = + i ( t ), i = 1,2,K, K t i

(9.27)

variabilele i i i reprezint zgomotul perturbator, fiind numite zgomot alb, deoarece au media i variana nul. Ele mai au proprietatea [159]:

i ( t ) j ( t ) = i ( t ) j ( t ) = 2T ij ( t t )

(9.28)

parametrul T msurnd puterea zgomotului, fiind echivalent cu temperatura unui proces fizic. Rezolvarea sistemului de ecuaii se poate face printr-un procedeu Monte-Carlo, mai precis de tip Metropolis [141] . Aceasta nseamn de fapt descreterea varianei zgomotului n timpul procesului de relaxare, fiind similar cu metoda revenirii simulate (simulated annealing). Vom lua n considerare un caz mai simplu, i anume cazul n care funcia Green corespunztoare este o funcie de tip radial (VIII.2.3.5) i parametrul de regularizare este nul, adic = 0. Atunci putem scrie funcia Green sub forma:

G ( x; t ) = h x t
Dac notm eroarea de aproximare:

(9.29)

i = f ( x i ) F( x i )

(9.30)

putem rescrie termenii gradient din sistemul de ecuaii (9.27):


N H = 2 j h x j t i vi j =1

) , i = 1,2,...,K
2

(9.31)

N H = 4vi j h x j t i t i j =1

)(x

t i , i = 1,2,...,K

(9.32)

Egalnd cu zero ecuaia (9.32), obinem c centrele de expansiune ti verific n punctele fixe urmtoarea relaie:

ti =

i =1 N i =1

h x j t i
j

h x j ti

)x , i = 1,2, K, K )
i

(9.33)

Centrele de expansiune optimale ti reprezint o medie ponderat a datelor de intrare xi. Ponderea pij = j h x j t i dat ti, are o valoare mare dac eroarea de aproximare este mare i dac funcia radial h centrat n centrul de expansiune xi are o variaie rapid ntr-o vecintate a centrului de expansiune.
249

) ce corespunde punctului x , pentru un centru de expansiune


j

Aceast remarc sugereaz o metod mai rapid de a gsi o mulime semi-optimal de centre de expansiune {t i R n i = 1,2,K , K }. Astfel putem aduga o a treia ecuaie la sistemul de ecuaii stohastice (9.27):
2 H = 2 j v i h x j t i , i, j

(9.34)

Aceasta deoarece funcia radial h depinde i de variabila zgomot , motiv pentru care putem scrie h = h(r,), deci funcionala H trebuie minimizat i n raport cu acest parametru. Dup cum am vzut, din arhitectura reelei neuronale de tip PMSR, la stratul de ieire funcia de activare poate fi liniar. Putem considera i un caz mai general, cnd funcia de activare a stratului de ieire este o funcie neliniar, inversabil, pe care o vom nota cu . n acest caz, vom avea funcia aproximant (reeaua neuronal de tip PMSR):
K F( x ) = vi h x t i i =1

(9.35)

iar ecuaiile (9.31) i (9.32) devin:


N H = 2 F x j j h x j t i vi j =1

( ( )) ( ( ( ))

) , i = 1,2,...,K
2

(9.36)

N H = 4vi F x j j h x j t i t i j =1

)(x

t i , i = 1,2,...,K

(9.37)

IX.1.2.2. Soluia original - nvare nesupervizat i supervizat

Soluia clasic a problemei reducerii dimensionalitii unei reele neuronale de tip PMSR prezint o serie de dezavantaje pe care le vom analiza i pe care vom ncerca s le rezolvm. Reducerea dimensionalitii reelei neuronale de tip PMSR se bazeaz pe ideea determinrii unei mulimi noi de centre de expansiune { t i i = 1,2,K, K } , de dimensionalitate mult mai mic K << N, dect cea original { x i i = 1,2,K, N } , care consider ca i centre de expansiune punctele de intrare ale mulimii de antrenament T =

{(x , f (x ) i = 1,2,K, N )} .
i i

Prin aceasta, soluia problemei regularizrii (8.40), i anume funcia f se poate reprezenta sub forma:
f ( x ) = w i G ( x; x i )
i =1 N

(9.38)

aceasta soluie este aproximat prin funcia F, reprezentat sub forma:


250

F( x ) = vi G( x; t i )
i =1

(9.39)

Prima dificultate n construcia reelei neuronale aproximante, care corespunde funciei F este determinarea numrului de centre de expansiune K pe care trebuie s le lum n considerare, i a doua dificultate, care ar fi modul optim de alegere a noilor centre de expansiune. Chiar dac, n anumite cazuri particulare, care depind de forma particular a stabilizatorului ales, ca de exemplu n cazul unui stabilizator de tip invariant rotaional, suntem n stare s determinm o formul de calcul a noilor centre de expansiune (vezi (9.33)), soluia aleas nu pare eficient deoarece ea nu ine seama deloc de distribuia punctelor de intrare { x i i = 1,2,K, N } , ci doar de forma particular a stabilizatorului. n acest fel se pierd trsturi foarte importante care sunt exprimate prin nsi modul de distribuie a punctelor de intrare { x i i = 1,2,K, N } din mulimea de antrenament. Soluia noastr original se va baza tocmai pe aceast idee, care va ine cont de modul de distribuie a punctelor de intrare { x i i = 1,2,K, N } , i chiar mai mult, va determina numrul necesar K de centre de expansiune. Astfel se elimin o nedeterminat foarte important a calculului neuronal i anume ci neuroni sunt necesari n stratul ascuns. Strategia noastr va cuprinde: Pasul I - analiza distribuiei punctelor de intrare i alegerea punctelor relevante pentru procesul de nvare. Acest lucru se va face prin intermediul favorizrii unor puncte relevante n detrimentul altor puncte mai puin relevante. Pasul II - aplicarea unui algoritm de nvare nesupervizat bazat pe tehnici de clustering care vor determina noile centre de expansiune ti, precum i numrul acestora K. Pasul III - aplicarea unui algoritm de nvare supervizat de tip BackPropagation pentru determinarea triilor sinaptice dintre stratul ascuns i stratul de ieire.

Avantajele acestei strategii sunt cel puin urmtoarele: se ine cont de forma i modul de distribuie al punctelor de intrare { x i i = 1,2,K, N } , ceea ce va simplifica foarte mult convergena i viteza de convergen a algoritmului de nvare a reelei neuronale; numrul de neuroni K, din stratul ascuns al reelei neuronale F(x) se determin pe baza unui calcul precis i nu prin ncercri empirice care pe lng faptul c consum mult timp nu ne dau nici o garanie de a gsi o variant optim; deoarece noile centre de expansiune

{t

i = 1,2,K, K } se determin n Pasul II,

algoritmul de nvare supervizat de la Pasul III va avea de optimizat doar mulimea de parametri { vi i = 1,2,K, K } care corespund triilor sinaptice dintre stratul ascuns i stratul de ieire. n acest fel am redus cea mai dificil faz a procesului de nvare,
251

algoritmul de nvare supervizat BP relativ la un PMS cu dou straturi la un algoritm de nvare relativ la un PS (cu un singur strat).

IX.1.2.2.1. Pasul I

Pasul I va ncerca s analizeze forma i modul de distribuie punctelor de intrare x i i = 1,2,K, N } pe baza analizei distribuiei punctelor de intrare i alegerea punctelor { relevante pentru procesul de nvare. Acest lucru se va face prin intermediul favorizrii unor puncte relevante n detrimentul altor puncte mai puin relevante, deoarece, de multe ori n aplicaiile practice o serie de parametrii nu sunt altceva dect combinaii liniare a unor parametri relevani. De aceea, vom pstra configuraia iniial a punctelor de intrare { x i i = 1,2,K, N } , dar le vom aplica o transformare liniar prin intermediul unei matrici ptratice W R N N . n contextul teoriei pe care am folosit-o pn n acest moment, i pe care nu o vom prsi, deoarece ea ne asigur fundamentul matematic al corectitudinii rezultatelor obinute, acest lucru se face considernd n loc de funcia de aproximat f (9.33), funcia aproximant F de forma:

f ( x ) = F( Wx )

(9.40)

Condiia de netezime a funciei de aproximat f se va transfera asupra funciei aproximante F, ceea ce se va exprima prin intermediul funcionalei [ F ] ce corespunde termenului stabilizator. Atunci funcionala de regularizare devine:
H[ F ] = ( yi F(u i )) + [ F ]
2 i =1 N

(9.41) (9.42)

unde am notat:

u i = Wx i , i = 1,2,K, N

Dup cum am vzut, soluia acestei probleme a regularizrii, care solicit minimizarea funcionalei H[F], va fi de forma:
F ( u ) = v i G( u u i )
i =1 N

(9.43)

la care se poate aduga eventual un polinom ca termen al spaiului nul. Atunci, soluia problemei de regularizare relativ la funcia de aproximat f poate fi scris astfel:
f ( x ) = F( Wx ) = vi G( Wx Wx i )
i =1 N

(9.44)

n cazul special, care reprezint de fapt cazul cel mai des aplicat n aplicaiile practice, schema de aproximare din relaia de mai sus devine:
252

f ( x ) = vi G x x i
i =1

(9.45)

unde s-a definit urmtoarea norm ponderat:


x
W

= x WT x

(9.46)

Prin utilizarea acestei norme ponderate funciile Green de tip Gaussian nu mai sunt radiale sau mai corect ele sunt radiale doar n raport cu norma ponderat (9.46). Aceasta nseamn c forma curbelor de nivel a funciilor Gaussiene nu mai este circular ci eliptic, axele elipsei nefiind paralele cu axele de coordonate. De fapt n aceast ponderare nu matricea de ponderare W este important, ci mai degrab matricea produs W T W . De aceea este suficient s considerm matricea de ponderare ca o matrice triunghiular, folosind descompunerea Cholesky.

IX.1.2.2.2. Pasul II

Acest pas al strategiei noastre se bazeaz pe aplicarea unui algoritm de nvare nesupervizat bazat pe tehnici de clustering care vor determina noile centre de expansiune ti precum i numrul acestora K. Problema convergenei algoritmului de nvare nesupervizat competitiv ctre soluia "optim" relativ la o problem dat este o problem dificil. Aceasta deoarece noiunea de soluie optimal relativ la o problem de clustering nu este definit riguros, existnd numeroase criterii n literatura de specialitate. n practic, modul de lucru este urmtorul: prima dat se definete un algoritm i abia dup aceea se analizeaz optimalitatea sa. Pentru o putea face un studiu al problemelor de nvare nesupervizate competitive vom prezenta un cadru mai general, i anume studiul general al problemelor de clustering utiliznd cea mai general teorie: algoritmi de clustering de tip K-Means [184]. Enunul problemei: Fiind dat o mulime de puncte arbitrar distribuite P = {x1, x2, ..., xN}, xi Rn i o mulime de ponderi ataat fiecrui punct W = {w1,w2,...,wn}, wi R, s se determine o submulime de puncte ce reprezint centrele clusterelor T ={t1, t2, ..., tK}, ti Rn care optimizeaz o anumit funcie cost11. Exprimat n termeni analitici, problema formulat mai sus poate fi formulat astfel: S se determine submulimea de puncte ce reprezint centrele clusterelor i care minimizeaz urmtoarea funcie cost ( eroare):
E = e j min
j =1 m

(9.47)

unde:

11

Vom considera n cele ce urmeaz funcii cost de tipul metodei celor mai mici ptrate.

253

ej =

w
i I j

xi t j
i

w
i I j

(9.48)

iar mulimea Ij, numit mulime index este astfel definit: I j = i t j este centrul clusterului cel mai apropiat de Pi O condiie necesar de minimum este:
ej tj = 0 si 2e j tj
2

(9.49)

(9.50)

Minimul global pentru fiecare cluster este atins, dac fiecare centru de cluster ti este centrul de greutate al clusterului {xi | i Ij }:
ej t j tj = = 2 w i x i t j = 0
i I j i

w x
i I j

(9.51)

w
i I j

respectiv:
2e j t 2j = 2 wi > 0, j = 1,2,..., K ;
iI j

(9.52)

Conform cu [61] calculul minimului global al funciei cost E este o problem NPKN complet. Exist n total posibiliti de a aranja N puncte n K clustere distincte. Vom K! vedea mai departe c frontierele acestor clustere formeaz o diagram Voronoi multidimensional. Studiul teoretic comparativ al diferiilor algoritmi de clustering nu este fezabil deoarece rezultatele depind esenial de modul de distribuie al punctelor de intrare. Def 9.1.: O diagram Voronoi reprezint o partiie a spaiului Rn n regiunile Rj ce satisfac urmtoarea proprietate: P1: () punct tj aparine unei singure regiuni Rj; P2: R j = x R n x t j x t k , () j k .

(9.53)

Interpretarea relaiei P2: regiunea Rj este constituit din mulimea punctelor x Rn care au ca i cel mai apropiat centru de cluster pe tj. n aceast situaie punctele tj sunt denumite puncte Voronoi.
254

Cu aceast definiie putem s reformulm definiia unei mulimi index (9.49) astfel: I j = i x i Rj

(9.54)

Algoritmul clasic de construcie al unei diagrame Voronoi poate fi gsit n [25] sau [202], avnd la baz o metod secvenial de inserie a punctelor. Operaiile de inserare, tergere respectiv de deplasare a unui punct sunt proceduri locale, adic, aplicnd una din cele trei operaii amintite mai sus, aceasta va afecta doar o mic regiune a diagramei Voronoi, calculul putnd fi efectuat independent de numrul punctelor diagramei Voronoi. Cu ajutorul diagramei Voronoi poate fi construit triangulaia Delaunay [25], [202], unind toate punctele Voronoi care au o frontier comun cu un segment de dreapt. Algoritmul se bazeaz pe o metod de inserare secvenial adaptiv a unui nou centru de cluster n regiunea cu cea mai mare eroare relativ la funciile ei ale diagramelor Voronoi ale tuturor punctelor de intrare care au fost inserate pn n acel moment. Descrierea simplificat a algoritmului este urmtoarea [180]: Pasul 1: Iniializm primul centru de cluster cu media aritmetic ponderat ale tuturor punctelor de intrare. Regiunea corespunztoare diagramei Voronoi va fi ntregul spaiu al punctelor de intrare. Pasul 2: Se determin regiunea Re care are eroarea cea mai mare. Mulimea punctelor de intrare xi care aparin regiunii Re se partiioneaz n dou submulimi care vor reprezenta dou noi clustere, pentru care se calculeaz mulimile index i punctele care reprezint centrele noilor clustere. Pasul 2.1: Calculm axa de coordonate k care are care mai mare varian a proieciei:

k = max wi ( x il t el ) l =1, 2 ,..., N iIe

(9.5512)

Pasul 2.2: Separm toate punctele xi (i Ie) prin intermediul unui hiperplan perpendicular pe a k-a ax de coordonate ce trece prin punctul te, n dou submulimi. Pentru cele dou noi submulimi calculm mulimile index I e1 si I e2 i centrele m1 i m2 ale clusterelor astfel formate:
I e1 = i x ik t ek , i I e I e2 = i x ik t ek , i I e

} }

(9.56) (9.58)

12

x il

reprezint a l-a component a punctului de intrare n-dimensional xi. te reprezint centrul clusterului ce corespunde regiunii Re.

255

m1 =

i Ie1

w x
i i Ie1

(9.59);
i

m2 =

i Ie2

w x
i i Ie 2

(9.60)
i

Pasul 3: Actualizm diagrama Voronoi: Pasul 3.1: Se deplaseaz centrul clusterului te n centrul m1 calculat la Pasul 2.2 (9.58); Pasul 3.2: Se insereaz un nou centru de cluster n centrul m2 calculat la Pasul 2.2 (9.59); Pasul 3.3: Actualizm mulimile index ale regiunilor afectate.

Pasul 4: Pentru toate regiunile modificate: Pasul 4.1: Se deplaseaz centrul clusterului n punctul ce reprezint media aritmetic ponderat ale punctelor ce aparin acelei regiuni; Pasul 4.2: Actualizm diagrama Voronoi, mulimile index i mulimile de ale regiunilor modificate. puncte

Pasul 5: Se repet Paii 2 - 4 pn cnd este satisfcut condiia de clustering: s-au inserat un numr dat de centre de clustere i/sau eroarea maxim este mai mic dect o valoare prag impus i/sau fiecare cluster conine un numr dat de puncte de intrare;

Obs 9.1: La Pasul 2 poate fi folosit o funcie cost diferit de funcia cost E (9.47). Astfel este posibil optimizarea unei funcii cost secundare, ca de exemplu cerina ca numrul punctelor din clustere s fie aproximativ egal. Obs 9.2: Dup fiecare iteraie centrele clusterelor precum i triangulaia Delauney corespunztoare, poate fi memorat pentru o utilizare ulterioar. Mai ales, dac aplicaia este n domeniul graficii, datele memorate pot fi folosite la o reprezentare triangular ierarhic a suprafeei reprezentate de punctele de intrare date. Studiul performanelor algoritmului: Pentru a studia performanele algoritmului vom considera urmtorul caz: sunt date n plan 9 puncte cu ponderi egale;

dorim s calculm punctele care reprezint centrele clusterele ce minimizeaz funcia E (9.47); n Fig. 9.1 avem un caz special de distribuie a punctelor, deoarece pune n eviden urmtoarele fapte: minimul global nu este ntotdeauna atins dac regiunea cu cea mai mare eroare corespunztoare este subdivizat (vezi Fig 9.1 (e));
256

subdivizarea iniial provenit din Pasul 2 al algoritmului nu conduce (dup cum era previzionat) la un clustering optimal (vezi Fig. 6.1 (f));

ntotdeauna

Pe de alt parte ns, pentru majoritatea distribuiilor alese s-a atins minimul global, s-au, s-a ajuns foarte aproape de el. n Fig. 9.1. avem urmtoarele semnificaii atribuite simbolurilor: punctele de intrare date n planul bidimensional real; puncte ce reprezint centrele clusterelor pentru care se atinge minimul global cutat pentru funcia E; puncte ce reprezint centrele clusterelor calculate prin metoda algoritmului original K-Means.

(a) 1 cluster, Q = 1.0

(b) 2 clustere, Q = 1.0

(c) 3 clustere, Q = 1.0

(d) 4 clustere, Q = 1.0

(e) 5 clustere, Q = 1.367

(f) 6 clustere, Q = 1.356

(g) 7 clustere, Q = 1.067

(h) 8 clustere, Q = 1.0

(i) 9 clustere, Q = 1.0

Fig. 9.1. Simularea modului de funcionare a algoritmului de clustering bazat pe metoda original K-Means, pornind de la o distribuie particular dat de 9 puncte n planul bidimensional real; cazurile (a), (b), (c), (d), (e), (f), (g), (h), (i) corespund respectiv la 1, 2, 3, 4, 5, 6, 7, 8, 9 clustere. 257

Mrimea C (C 1) se numete calitatea reprezentrii clusterului, fiind calculat conform formulei:


C= eroarea algoritmului de clustering eroarea minimului global

(9.60)

De asemenea, vom folosi pentru a studia calitatea clusteringului realizat de algoritmul bazat pe metoda original, urmtoarele mrimi ce reprezint variaia calitii clusteringului: - variaia maxim: Cmax = max {Ci }
i =1, 2 ,...,t

(9.61)

- variaia medie:

Cmediu =
t

1 t C t i =1 i
2

(9.62)

2 - abaterea medie ptratic: C = ( Ci Cmediu ) i =1

(9.63)

Cu ajutorul acestor mrimi, s-a obinut n Tabelul 9.1 de mai jos, rezultatele aplicrii algoritmului pentru cazul t = 100 (adic 100 de teste) i 9 puncte de intrare generate aleator n planul bidimensional real. m (nr. de clustere) 1 2 3 4 5 6 7 8 9 Cmax 1.000000 1.813297 1.696984 1.881154 2.135782 2.073583 2.230519 2.618419 1.000000 Cmediu 1.000000 1.064167 1.097048 1.097230 1.144528 1.145597 1.105344 1.027692 1.000000
2 C

0.000000 1.692273 2.961433 4.335665 4.621574 5.396631 6.486076 3.168752 0.000000

Tabelul 9.1: Studiul calitii clusteringului (t = 100, n = 9, d = 2).

n figurile de mai jos, avem urmtoarele cazuri: diagrama Voronoi pentru 192 de puncte de intrare cu ponderi egale i 12 clustere, n Fig. 9.2; triangulaia Delaunay pentru cazul de mai sus n Fig. 9.3; diagrama Voronoi pentru 192 de puncte de intrare cu ponderi egale i 33 clustere, n Fig. 9.4; triangulaia Delaunay pentru cazul de mai sus n Fig. 9.5; diagrama Voronoi pentru 192 de puncte de intrare cu ponderi diferite (egale cu raza cercului cu care sunt simbolizate punctele de intrare) i 12 clustere, n Fig. 9.6; diagrama Voronoi pentru 192 de puncte de intrare cu ponderi diferite (egale cu raza cercului cu care sunt simbolizate punctele de intrare) i 33 clustere, n Fig. 9.7;
258

Fig. 9.2: Diagrama Voronoi pentru 192 de puncte de intrare cu ponderi egale i 12 clustere.

Fig. 9.3: Triangulaia Delaunay pentru cazul din Fig. 9.2;

Fig.9.4: Diagrama Voronoi pentru 192 de puncte de intrare cu de ponderi egale i 33 de clustere.

Fig.9.5. Triangulaia Delaunay pentru cazul din Fig. 9.4. .

259

Fig. 9.6: Diagrama Voronoi pentru 192 de puncte de intrare cu ponderi diferite (egale cu raza cercului cu care sunt simbolizate punctele de intrare) i 12 clustere.

Fig. 9.7: Diagrama Voronoi pentru 192 de puncte de intrare cu ponderi diferite (egale cu raza cercului cu care sunt simbolizate punctele de intrare) i 33 clustere.

Complexitatea algoritmului de clustering bazat pe metoda K-Means original este O(N n log K t), unde n este dimensionalitatea datelor, N numrul punctelor de intrare date, K numrul de clustere, t numrul de iteraii.

IX.1.2.2.3. Pasul III

n cadrul Pasului I i II al soluiei noastre originale de construcie a reelei neuronale de tip PMSR, soluia problemei regularizrii (8.40), adic funcia f reprezentat sub forma f ( x ) = w i G(x; x i ) este aproximat prin funcia F, reprezentat sub forma:
i =1 N

F( x ) = vi G( x; t i )

Dup cum am vzut noile centre de expansiune { t i i = 1,2,K, K } se determin n Pasul II, algoritmul de nvare supervizat de la Pasul III va avea de optimizat doar mulimea de parametrii { vi i = 1,2,K, K } care corespund triilor sinaptice dintre stratul ascuns i stratul de ieire. n acest fel, am redus cea mai dificil faz a procesului de nvare, algoritmul de nvare supervizat BP relativ la un PMS cu dou straturi, la un algoritm de nvare relativ la un PS (cu un singur strat). Pentru aceasta avem de parcurs urmtoarele etape (vezi Cap. II):

i =1

260

Modul de operare:
Dac x = ( x 0 , x1 ,..., x n ), = 1,..., N reprezint vectorii de intrare, neuronul din stratul de ieire vor genera urmtoarele valori:

y = F( x ) = v i G( x ; t i ), = 1, K, N
i =1

(9.64)

Relaia care dorim s fie satisfcut dup faza de nvare supervizat este:
z = y , = 1, K, N

(9.65)

sau
z = v i G( x ; t i ), = 1, K, N
i =1 K

(9.66)

Legea de nvare gradient-descendent Atam PS funcia de eroare:


E( w) =
K 1 N 1 N 1 (z y ) 2 = 2 1 z vi G(x ; t i ) 2 = = i =1 2

(9.67)

Aplicnd algoritmul gradientului descendent relativ la prezentarea mulimii de antrenament T = ( x i , f ( x i ) i = 1,2,K, N ) .

v i =

N K E = z v i G( x ; t i ) G( x ; t i ) , i = 1,2, K, K (9.68) v i =1 i =1

Corecia w i ce se aplic unei trii sinaptice la prezentarea vectorului de intrare x este:


w i = G( x ; t i ), i = 1, K, K , = 1, K, N

(9.69)

unde:
= z y

(9.70)

261

IX.2. Proprietile reelelor neuronale de tip PMSR


Tehnica regularizrii permite construirea unei reele neuronale de tip PMS, cu un singur strat ascuns. Aceast reea neuronal va pstra toate proprietile tehnicii regularizrii, i anume: reea neuronal de regularizare este un aproximator universal, putnd aproxima cu orice precizie dorit orice funcie continu pe un domeniu compact, dac n stratul ascuns avem un numr suficient de neuroni. Vom demonstra aceast aseriune n cadrul acestui paragraf. deoarece aceast metod de aproximare derivat din teorema regularizrii este liniar n coeficienii necunoscui, dup cum vom arta mai trziu n acest capitol, ea posed proprietatea de cea mai bun aproximant BAP (Best Approximation Property). Aceasta nseamn c fiind dat o funcie f, ntotdeauna exist o alegere posibil a coeficienilor, n aa fel nct funcia f este aproximat mai bine dect orice alt alegere posibil a coeficienilor. Proprietatea BAP este important mai ales din punct de vedere teoretic, ea fiind satisfcut de ctre majoritatea schemelor clasice de aproximare, ca de exemplu aproximare polinomial i aproximare spline.

Conform cu modul de operare al reelelor neuronale, funcia pe care o implementeaz reeaua neuronal PMSR este:
f ( x ) = w i G( x ; x i )
i =1 N

(9.71)

Aplicnd soluia de reducere a dimensionalitii descris mai sus se obine aproximanta:


F( x ) = vi G( x; t i )
i =1 K

(9.72)

Obs. 9.1: Dac funciile Green G(x;xi) ce reprezint funcia de activare a neuronilor din stratul ascuns sunt pozitiv definite, funcia f implementat de reeaua neuronal de regularizare reprezint interpolantul "optim", adic interpolantul ce minimizeaz funcionala || Pf ||2, chiar i fr termeni polinomiali. Obs. 6.2: Dac funciile Green G(x;xi) ce reprezint funcia de activare a neuronilor din stratul ascuns sunt pozitiv condiional definite, atunci trebuie s adugm o serie de termeni polinomiali pentru a obine interpolantul "optim". O posibilitate foarte simpl de adugare a unui termen polinomial liniar este de a efectua o conexiune direct ntre neuronii stratului de intrare i neuronul stratului de ieire, punnd ca i trii sinaptice coeficienii reali a0, a1, ...,an. Atunci funcia implementat de reeaua neuronal va fi:
f ( x ) = ci G(x; x i ) + a 0 + a1 x i( 1) +...+ a n x i( n )
i =1 N

(9.73)

262

S enunm n cele ce urmeaz rezultatul fundamental relativ la reelele neuronale de regularizare PMSR, i anume, faptul c ele sunt aproximatori universali. Teorema 9.1: Pentru orice funcie continu g definit pe o submulime compact din Rn i pentru orice funcie Green G definit ca n (9.73), exist o reea neuronal de regularizare PMSR ce implementeaz funcia f ( x ) = w i G(x; x i ) , astfel nct oricare ar fi x Rn i oricare ar fi > 0 are loc inegalitatea g( x ) f ( x ) < . Demonstraie: Fie funcia g : D Rn R, unde D este un domeniu compact. Dac D este inclus strict n Rn, putem extinde domeniul de definiie al funciei g, atand valoarea zero pentru toate punctele din Rn care nu aparin domeniului D. Funcia extins n acest fel la toat mulimea Rn o vom nota tot g, fiind o funcie continu cu suportul13 mrginit. S considerm spaiul K al funciilor test, conform definiiei date n [75] de ctre Gelfand i ilov. Pe scurt, acest spaiu K al funciilor test const din mulimea funciilor (x) ce au derivate continue de orice ordin i cu suportul mrginit (ceea ce nseamn c funcia, precum i toate derivatele sale se anuleaz n afara unui domeniu mrginit). Conform cu Anexa 1 a Capitolului I din lucrarea [75] menionat mai sus, ntotdeauna exist o funcie (x) K arbitrar de apropiat de funcia dat g, adic astfel nct:
> 0, g( x ) ( x ) < , x
i =1 N

(9.74)

Pe baza inegalitii de mai sus este suficient s artm c orice funcie test (x) K poate fi aproximat orict de bine de o compunere liniar de funcii Green, care ar corespunde funciei f din Teorema pe care o demonstrm. Vom porni de la urmtoarea identitate [158]: ( x ) = ( y) ( x y)dy
E

(9.75)

unde domeniul E de integrare este un domeniu mrginit pe care funcia (x) nu se anuleaz. Folosind relaia P PG(x; x i ) = (x x i ) i nlocuind-o n relaia de mai sus (9.75), vom obine:

( x ) = ( y) PPG ( x; y)dy
E

(9.76)

Deoarece avem (x) K iar PP este un operator auto-adjunct, avem din relaia de mai sus: ( x ) = G( x; y) PP ( y)dy
E

(9.77)

Atunci, putem rescrie relaia de mai sus astfel: ( x ) = G( x; y) ( y)dy


E
13

(9.78)

Se numete suport al funciei g, nchiderea mulimii

{x R g (x ) 0}.
n

263

unde am efectuat notaia ( x ) = PP ( x ) . Deoarece funcia G( x; y) ( y) de sub semnul integralei din formula de mai sus este continu pe poriuni (picewise continuous) pe un domeniu nchis, rezult c integrala (9.78) exist n sensul Riemann. Folosind atunci definiia integralei Riemann, relaia (9.78) poate fi rescris astfel:
( x ) = n (x k )G(x; x k ) + E x ( )
k I

(9.79)

unde:

xk sunt puncte ce aparin unei diviziuni ; I reprezint mulimea index pentru care ( x ) 0 ; Ex() este eroarea de discretizare, ce are proprietatea: lim E x ( ) = 0 .
0

Dac vom face alegerea:


f ( x ) = n (x k )G(x; x k )
k I

(9.80)

atunci combinnd relaiile (9.79) i (9.80) vom obine:


lim[ ( x ) f ( x ) ] = 0
0

(9.81)

adic tocmai ceea ce trebuia s demonstrm.

264

265

X. Studiul aplicativ a performanelor calculului neuronal

n capitolul de fa ne propunem s studiem practic capacitatea reelelor neuronale de a aproxima funcii continue pe anumite intervale mrginite. Reeaua neuronal pe care o vom folosi se bazeaz pe elementele teoretice prezentate n capitolele anterioare. Pe baza acestor rezultate vom lua n considerare o reea neuronal de tip PMSR, avnd o arhitectur cu 2 straturi: un strat de intrare, un singur strat ascuns i un strat de ieire. Dup cum am mai artat, rolul stratului de intrare este echivalent cu cel al unui buffer, care nu face altceva dect s primeasc datele de intrare i s le propage mai departe spre stratul ascuns. Avem o mulime de funcii continue pe intervalul [0,1]. Pe acest interval vom lua n considerare o mulime de antrenament cu N puncte:
T=

{(x , z)
i

x i R n , z R , i = 1,2, K, N

(10.1)

Mulimea de puncte de antrenament poate fi obinut prin trei metode: distribuie aleatoare; distribuie uniform; obinute pe baza algoritmilor de nvare activa AIA (Cap V.3).

De asemenea, vom face studiul comparativ al reelei neuronale ca i metod de aproximare-interpolare n raport cu metodele clasice de aproximare-interpolare.

X.1. Modul practic de construcie a reelei neuronale


Cele N puncte de antrenament ale reelei neuronale vor fi centrele sau nodurile pentru metodele clasice de aproximare-interpolare. S revenim la arhitectura reelei i s precizm toate elementele constituente: Stratul de intrare are n neuroni, unde n reprezint dimensionalitatea spaiului datelor de antrenament, x Rn; vom studia doar cazurile n = 1 i n = 2 din considerente de reprezentare grafic a rezultatelor. Funcia de activare a neuronilor din stratul ascuns este funcia identic, acest strat avnd doar un rol de buffer pentru datele de intrare ce se prezint reelei neuronale. Stratul ascuns are K neuroni care vor fi obinui pe baza algoritmului original de clustering prezentat n Cap. IX; n anumite situaii vom lua n considerare i cazul limit K = N, adic cazul ideal, cnd numrul neuronilor din stratul ascuns coincide cu numrul datelor de antrenament. Funciile de activare a neuronilor din startul ascuns sunt funcii de tip RBF G( x x i ) .

266

Stratul de ieire are un singur neuron, ceea ce a fost justificat teoretic n capitolele anterioare. Funcia de activare a neuronului din stratul ascuns este o funcie liniar. n situaii speciale, cnd mulimea datelor de antrenament este grupat n clustere care nu sunt disjuncte, vom lua n considerare o funcie de activare special a neuronului din stratul de ieire bazat pe o formul de ponderare a valorilor de ieire generate de neuronii din stratul ascuns. Formula este [28]:

y=

w G( x x )
i =1 K i i

G( x x i )
i =1

(10.2)

Vom obine urmtoarea arhitectur particular de reea neuronal de tip PMSR: G1 w1 x1 x2 GK Gi wi wK y

Figura 10.1.: Arhitectura reelei neuronale de tip PMSR folosit pentru experimentele aplicative din acest capitol.

Funciile de activare sunt funcii de tip RBF Gaussian, avnd formula:


G( x t i ) = e

( x ti )2
i2

, i = 1,2, K, K

(10.3)

Punctele ti Rn, reprezint centrele clusterelor obinute prin algoritmul nesupervizat original de tip K-Means explicat detaliat in Cap VIII. n cazul limit cnd N = K, avem ti = xi, i = 1,2,, N. Modul practic de construcie a reelei neuronale poate fi exprimat prin urmtorul algoritm [51], [60]: Pasul 1. Se dau: precizia de nvare dorit (sau numrul de epoci P - de cte ori se prezint mulimea de antrenament reelei neuronale). Se construiete mulimea punctelor de antrenament

T = (x i , z ) x i R n , z R , i = 1,2, K , N
267

Construcia mulimii de antrenament se poate face astfel: este fixat de nsi natura problemei, antrenorul nu are nici un grad de libertate n construcia ei. antrenorul are libertatea de a alege mulimea de antrenament. n aceast situaie avem urmtoarele variante de alegere a mulimii de antrenament: pe baza unei distribuii aleatoare; pe baza unei distribuii uniforme; pe baza algoritmilor de nvare activa AIA (Cap V.3) Pasul 2. Se aplic asupra punctelor xi din mulimea de antrenament T algoritmul de clustering, n urma cruia vom determina punctele ti, i = 1,2,, K care reprezint centrele clusterelor precum i constanta K care reprezint numrul de clustere (numrul neuronilor din stratul ascuns). De asemenea, se determin diametrul fiecrui cluster i R, i = 1,2,, N. Aceast etap poate fi eliminat dac se consider cazul limit cnd N = K, atunci ti = xi, i = 1,2,, N, fiecare punct xi reprezentnd un cluster. n acest caz i = 1. Pasul 3. Se construiesc funciile de activare ale neuronilor din stratul ascuns:
G( x t i ) = e

( x ti )2
i2

, i = 1,2, K, K

Pasul 4. Se aplic algoritmul de nvare supervizat de tip gradient descendent pentru a determina triile sinaptice wi, i = 1,2,,K. Pasul 4.1. i : = 1; (epoca 1). Pasul 4.2. Pn cnd E < (sau pn cnd i <= P) execut: Aplicm a i -a epoc de nvare folosind formulele: 1 N Calculm eroarea de nvare El = ( z i y i ) 2 , unde N i =1
y = wi e
i =1 K ( x i ti ) 2 i2

dac funcia de activare a neuronului de ieire este

funcia identic, sau


y=

w G( x t )
i =1 K i i

G( x t )
i =1 i

dac funcia de activare este funcia ponderat (10.2)

Pasul 4.3. Se actualizeaz triile sinaptice wi, i = 1,2,,K:


E , i wi = wi + wi wi Pasul 4.4. Se trece la o nou epoc de antrenament: i : = i + 1: wi =

Pasul 5. STOP nvare. Se tiprete eroarea de nvare E.

268

[Pasul 6.] (Opional) Se calculeaz eroarea de generalizare. Se consider M date aleatoare din spaiul datelor de intrare care nu fac parte din mulimea de antrenament T i se calculeaz eroarea de generalizare: 1 M Eg = ( z i yi ) 2 M i =1

X.2. Studiul comparativ dintre reelele neuronale i metodele clasice de aproximare interpolare
ntrebrile la care vom ncerca s rspundem sunt: Care metode de aproximareinterpolare sunt mai bune: cele clasice (Newton, Lagrange, Hermite, spline) sau reeaua neuronal ? n care situaii, metodele clasice dau o aproximare mai bun i care sunt condiiile n care reeaua d rezultate mai bune ? Acest studiu este structurat pe cteva idei principale: tim c metodele de interpolare clasice dau rezultate slabe n cazul n care numrul nodurilor de interpolare crete. Vom vedea c reeaua neuronal are performane foarte bune indiferent de dimensionalitatea datelor de antrenament.. Bineneles, reeaua nva mai bine punctele de antrenament cu ct numrul de prezentri (epoci) crete, dar aceasta nu este o condiie suficient.

Fig.10.2: Funcia de aproximat este polinomul: f ( x ) =

1 4 1 3 1 2 2 x x + x x 1. 4 2 3 25 i Avem 40 de puncte echidistante pe intervalul [0,1], xi = , i = 0,1, K ,40 . 40 Procesul de nvare const din 100 de epoci, 40 de centre.

269

Figura 10.3: Funcia de aproximat este polinomul: f ( x ) =

2 1 4 1 3 1 2 x x + x x 1. 25 3 2 4

Avem 40 de puncte echidistante pe intervalul [0,1], xi =

i , i = 0,1,K,40 . 40

Procesul de nvare const din 500 de epoci, 40 de centre.

Nr. Crt. 1 2 3 4

N - numrul datelor de antrenament 40 40 40 40

K - numrul de centre 40 40 40 40

P - numrul de epoci 100 500 5000 50000

El - Eroarea de nvare 12.035317 0.096177 0.032246 0.031574

Eg - Eroarea de generalizare 1.84732 0.01609 0.00727 0.00708

Tabelul10.1: Rezultatele aproximrii funciei f ( x ) =

1 4 1 3 1 2 2 x x + x x 1 cu o reea 4 2 3 25 neuronal de tip PMSR cu N = 40, K = 40 i P = 100, 500, 5 000, 50 000.

270

Fig.10.4: Funcia de aproximat este polinomul: f ( x ) =

2 1 4 1 3 1 2 x x + x x 1. 25 3 2 4 i Avem 150 de puncte echidistante pe intervalul [0,1], xi = , i = 0,1, K ,150 . 150 Procesul de nvare const din 500 de epoci, 150 de centre.

Rezultate: cu excepia reelei neuronale i a metodei spline de aproximare, metodele polinomiale clasice Newton, Lagrange, Hermite sunt divergente. Punctele de antrenament ale reelei, respectiv centrele sau nodurile polinoamelor de interpolare au fost alese fie echidistante fie aleator. Cnd punctele de antrenament sunt generate aleator, reeaua neuronal este mai performant dect metodele clasice. Dac punctele sunt generate uniform (echidistant), performanele de aproximare-interpolare ale reelei neuronale sunt apropiate de cele ale metodelor clasice. Diferena dintre reeaua neuronal i metodele clasice apare la o dimensionalitate mare a punctelor de aproximare. Acest lucru se ntmpl chiar dac punctele sunt generate uniform (echidistant).

271

Fig.10.5: Funcia de aproximat este: f ( x ) = cos( 2 x ) Avem 5 de puncte aleatoare pe intervalul [0,1]. Procesul de nvare const din 500 de epoci, 5 centre. Erorile pentru exemplul de mai sus: spline 0,3069671152; Newton 40,49784113; Lagrange 0,2561378829; reea neuronal 0,08568828; Hermite 3014889,56.

Fig.10.6: Funcia de aproximat este: f ( x ) = cos( 2 x ) Avem 5 de puncte aleatoare pe intervalul [0,1]. Procesul de nvare const din 5 000 de epoci, 5 centre. Erorile pentru exemplul de mai sus: 272

spline Newton Lagrange reea neuronal Hermite

0,2568668338; 0,026904782; 0,555861180; 0,0858866; 23838,43327.

Fig.10.7: Funcia de aproximat este: f ( x ) = cos( 2 x ) Avem 5 de puncte aleatoare pe intervalul [0,1]. Procesul de nvare const din 5 000 de epoci, 5 centre. Erorile pentru exemplul de mai sus: spline 0,574804938; Newton 38,69991224; Lagrange 0,3498677214; reea neuronal 0,3079512; Hermite 38,35027568.

Analiznd exemple reprezentate n figurile de mai sus reeaua neuronal a reuit s aproximeze funcia int f ( x ) = cos(2 x ) mai bine dect celelalte metode clasice. n dou cazuri, polinomul de interpolare Hermite are cele mai slabe performane, polinoamele de interpolare Newton i Lagrange sunt dependente n performane de distribuia nodurilor de interpolare, iar cea mai bun performan de aproximare dintre metodele clasice o are metoda spline. Nr. Crt 1 2 3 4 Reea neuronal 0,08568828 0,0858866 0,3079512 0,53529262

Spline 0,3069671152 0,2568668338 0,574804938 0,21697057

Newton 40,49784113 0,026904782 38,69991224 0,07160424

Lagrange 0,2561378829 0,555861180 0,3498677214 0,033524709

Hermite 3014889,56 23838,43328 38,35027568 99152,36216

Tabelul 10.2: Rezultatele aproximrii funciei f ( x ) = cos( 2 x ) cu o reea neuronal de tip PMSR cu N = 5 puncte aleatoare, P = 5 000, K = 5. 273

Fig.10.8: Funcia de aproximat este: f ( x ) = sin( 2 x ) Avem 100 de puncte echidistante pe intervalul [0,1], xi =
i 100 Procesul de nvare const din 1 000 de epoci, 25 de centre. Rezultate: El = 0.028025 Eg = 0.0004680 spline 2.943925 e-5; Newton, Lagrange, Hermite divergente. , i = 0,1, K ,100 .

Fig.10.9: Funcia de aproximat este polinomul: f ( x ) =

1 4 1 3 1 2 2 x x + x x 1 4 2 3 25 Avem 3 puncte de antrenament aleatoare pe intervalul [0,1].

274

Procesul de nvare const din 30 000 de epoci, 40 de centre. spline 2,724244284; Newton 3,6743029e-6; Lagrange 3,683562e-6; reea neuronal 3,902782679; Hermite 1,69884676.

Fig.10.10: Funcia de aproximat este polinomul: f ( x ) =

1 4 1 3 1 2 2 x x + x x 1 4 2 3 25 Avem 3 puncte de antrenament aleatoare pe intervalul [0,1].

Procesul de nvare const din 30 000 de epoci, 40 de centre. spline 5,985038956; Newton 710,5843598; Lagrange 30,03118536; reea neuronal 6,897794247; Hermite 5255,544475.

Testele dovedesc c dac punctele de antrenament sunt echidistante, deci centrele (nodurile) pentru metodele clasice sunt echidistante i numrul lor este, din nou metodele clasice au performane de aproximare bune.

275

Fig.10.11: Funcia de aproximat este polinomul: f ( x ) =

2 1 4 1 3 1 2 x x + x x 1 25 3 2 4 i Avem 5 de puncte echidistante pe intervalul [0,1], xi = , i = 0,1, K ,5 100 Procesul de nvare const din 30 000 de epoci, 5 centre.

Cea mai bun metod clasic de aproximare, cu cele mai bune performane, este metoda spline. Polinoamele de interpolare Hermite, Newton, Lagrange au performane de interpolare foarte slabe n cazul n care punctele sunt generate aleator i n cazul n care numrul nodurilor (punctele de antrenament), este mai mare dect 100. Exemplele prezentate confirm cele spuse mai sus. Reeaua neuronal, i metoda spline sunt cele mai bune aproximante. Chiar dac reeaua neuronal nu aproximeaz ntotdeauna mai bine dect metoda spline (mai ales dac punctele de antrenament - nodurile de interpolare sunt echidistante), totui aproximarea dat de reea se poate mbuntii ori prin mrirea numrului de antrenamente, ori prin mrirea numrului de centre i / sau puncte de antrenament. Avantajul reelelor neuronale este c sunt foarte flexibile. Pentru aceasta este nevoie ori de creterea numrului de puncte, ori de creterea numrului de antrenamente.

n continuare vom mbunti performanele de aproximare a reelelor neuronale folosind principiile nvrii active, i anume algoritmii de tip AIA (Algoritmi de nvare Activ), datele de antrenament fiind alese n aa fel nct procesul de nvare, respectiv precizia de aproximare s fie ct mai bune. Pentru aceasta am implementat o reea neuronal de tip PMSR. Am aplicat acestei reele neuronale algoritmul de nvare prezentat n Cap. IX. Generarea datelor de antrenament s-a fcut n trei moduri distincte:
276

Aleator pasiv - mulimea de date de antrenament s-a obinut prin generarea aleatoare a unor puncte din domeniul D. Uniform pasive - mulimea de date de antrenament s-a obinut prin generarea uniform (echidistant) a unor puncte din domeniul D. Activ - mulimea punctelor de antrenament s-a obinut aplicnd algoritmul AIA (Algoritmul de nvare Activ) prezentat n Cap.V.3.
3

Experimentele s-au fcut cu scopul de a aproxima funcia int:


1 1 f : [0,1] R, f (x ) = x + 3 27

(10.4)

Datele de antrenament generate printr-una din cele trei metode aleator pasiv, uniform pasiv i activ, au fost prezentate repetat reelei neuronale, n epoci de cte 1000, 5000 i 10000.

Fig.10.12: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat aleator pasiv: N = 100, 1000 de epoci, 25 de centre.

277

Fig.10.13: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat uniform pasiv: N = 100, 1 000 de epoci, 25 de centre.

278

Fig.10.14: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat activ (AIA): N = 100, 1 000 de epoci, 25 de centre.

Fig.10.15: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat aleator pasiv: N = 100, 5 000 de epoci, 25 de centre. 279

Fig.10.16: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat uniform pasiv: N = 100, 5 000 de epoci, 25 de centre.

Fig.10.17: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat activ (AIA): N = 100, 5 000 de epoci, 25 de centre. 280

Fig.10.18: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat aleator pasiv: N = 100, 10 000 de epoci, 25 de centre.

Fig.10.19: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat uniform pasiv: N = 100, 10000 de epoci, 25 de centre. 281

Fig.10.20: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de nvare supervizat activ (AIA): N = 100, 10 000 de epoci, 25 de centre.

Rigla situat n partea inferioar a fiecrei figuri vizualizeaz distribuia datelor de antrenament. Se poate observa din Fig. 10.17, Fig. 10.20, Fig. 10.23, care corespund algoritmului de nvare supervizat activ (AIA), modul de alegere a datelor de antrenament. Regiunile dificil de nvat corespund regiunilor unde avem o densitate mai mare de puncte. n cazul nostru aceste regiuni corespund poriunilor unde panta graficului funciei de aproximat este mai accentuat. Regiunile uor de nvat necesit doar cteva puncte de antrenament. n aceste regiuni panta graficului funciei este mic. Analiza performanelor de aproximare a acestei reele neuronale trebuie s ia n considerare pe lng eroarea de nvare El i eroarea de generalizare Eg. Nr. de epoci 1.000 Aleator pasiv Uniform pasiv Activ (AIA)

El = 0.00111933647 Eg = 2.00543792e-5 El = 0.00042799210 Eg = 6.62271543e-6 El = 0.00039366463 Eg = 5.98244244244

El = 0.00538671535 Eg = 9.25674175e-5 El = 6.77417526e-6 Eg = 1.19316687e-6 El = 5.59375032e-5 Eg = 1.01227192e-5

El = 0.005939686434 Eg = 0.000305306076 El = 8.411126178e-5 Eg = 1.167369815e-5 El = 5.386507373e-5 Eg = 5.824087429e-7

5.000

10.000

Tabelul 10.3: Rezultatele procesului de nvare (aproximare) a funciei int (10.4). Parametrii procesului de nvare N = 100 date de antrenament, 25 de centre. 282

Toate exemplele prezentate sunt obinute prin rularea unor programe originale. S-a simulat pe un calculator secvenial o reea neuronal de tip PMSR, algoritmii folosii fiind descrii la nceputul acestui capitol, iar pentru exemplele care implementeaz algoritmii de nvare activ AIA s-au folosit algoritmii descrii n Cap V.3. Analiznd exemplele prezentate i innd cont i de elementele teoretice, putem spune c o reea neuronal are proprieti de aproximare-interpolare superioare metodelor clasice polinomiale i la fel de bune ca metodele spline. Prin ce este superioar o reea neuronal? Prin aceea c o dat implementat reeaua neuronal se auto configureaz conform cu mulimea datelor de antrenament. Adugarea unor noi date nu presupune o reconstrucie a metodei de aproximare ci o prezentare a noilor puncte spre a fi nvate. Modificri de formule i implementri de algoritmi se fac doar o singur dat, atunci cnd se construiete reeaua i se aplic procesul de nvare. n rest, doar prezentri repetate de puncte de antrenament sunt necesare. Dac am avea la dispoziie i un hardware adecvat, adic un sistem de calcul neuronal, calculul neuronal ar fi net superior metodelor clasice. Simularea funcionrii unei reele neuronale pe un sistem de calcul secvenial este limitat de considerente de reprezentare care au fost prezentate n Cap. VII.5.

283

XI. Concluzii
XI.1. Concluzii generale
Concluziile generale ale acestei monografii ale Calculului neuronal au n vedere rezultate teoretice i experimentale obinute pe durata a peste 10 ani de cercetri. Ideea de baz a acestei lucrri este un studiu matematic riguros al reelelor neuronale, echivalena dintre numeroasele metode de aproximare i o reea neuronal de tip PMS (Perceptronul MultiStrat) cu o arhitectur ce are un singur strat ascuns. Succesul ne ntlnit al utilizrii reelelor neuronale n numeroase aplicaii practice trebuie ns dublat de un aparat teoretic care s confere calculului neuronal un statut de rigurozitate. Acest lucru a reprezentat elul pe care mi l-am propus n cadrul acestei lucrri. Demonstrarea faptului c o reea neuronal de tip PMS cu un singur strat ascuns satisface condiia de aproximant universal are o importan teoretic deosebit deoarece n felul acesta se construiete unealta matematic necesar care confer acestei clase de reele neuronale o caracteristic de aproximare. Fr o astfel de unealt matematic nu am avea nici o garanie c vom gsi vreodat soluia dorit. Este adevrat c am folosit o demonstraie de existen, dar trecerea de la PMS la PMSR s-a fcut prin indicarea clar a construciei reelei neuronale aproximante. Chiar mai mult, am obinut i o expresie analitic pentru valorile generate de reeaua neuronal care constituie aproximanta cutat. Dat fiind noutatea i complexitatea acestui domeniu, inspirat din biologie, din tentativa de a modela funcionarea celui mai complex sistem, creierul uman, abordarea noastr a trebuit s urmeze o construcie gradual. Am nceput cu elementele definitorii ale calculului neuronal, adic cu neuronul biologic i ansamblul de neuroni care constituie o reea neuronal, cu explicarea biologic a modului de funcionare. Urmtorul pas a fost modelarea matematic a modelelor biologice prin construcia neuronului artificial i a reelei neuronale artificiale, mpreun cu prezentarea aparatului matematic necesar modelului propus. Esena acestui model de reea neuronal artificial are la baz procesul de nvare. Deoarece, termenul de nvare este un termen generic, a fost nevoie de un capitol special care s trateze sistematic i s defineasc ce nelegem printr-un proces de nvare. n acest fel a trebuit s definim noiunea de algoritm de nvare i aceea de paradigm de nvare. Scopul crii fiind construcia unui aparat matematic riguros, procesul de nvare trebuia studiat prin nsi natura sa de proces statistic. n continuare am abordat problema unei clase speciale de reele neuronale i anume reelele neuronale numite perceptroni. Perceptronii reprezint cea mai general clas de reele neuronale. Analiza perceptronilor este motivat de faptul c n aceast carte dovedim calitatea de aproximator universal pe care o are aceast clas de reele neuronale. De asemenea, reelele neuronale pe care le-am propus i le-am analizat ca metode de aproximare-interpolare eficiente, sunt perceptroni cu o arhitectur particular. Studiul perceptronilor, ca de altfel studiul oricrei reele neuronale, trebuie fcut prin prisma elementului definitoriu, i anume, procesul de nvare. De aceea, am analizat procesele de nvare supervizat i nesupervizat a acestor reele neuronale numite perceptroni.
284

O dat ce s-a fundamentat aparatul matematic necesar definirii calculului neuronal am trecut la studiul proprietilor fundamentale ale reelelor neuronale, studiu care a nceput cu analiza proprietii de aproximant universal. Aceast analiz a necesitat apelarea unor elemente matematice riguroase care s poat fi aplicate calculului neuronal. Astfel am prezentat celebra Teorem a lui Kolmogorov, precum si Teorema lui Stone-Weierstrass. Cu ajutorul acestor teoreme matematice clasice, am pus bazele matematice ale proprietilor de aproximant universal ale reelelor neuronale de tip perceptron. Analiza din carte a cuprins i o serie de exemple care sunt folosite n practic, studiindu-se efectiv proprietile lor de aproximare. Deoarece, existena unei reele neuronale este n acelai timp dependent i de implementarea pe un sistem de calcul, analiza proprietilor fundamentale ale reelelor neuronale a fost completat cu limitele practice ale acestor proprieti. Din punct de vedere matematic o reea neuronal este o metod de aproximare interpolare. O astfel de metod de aproximare - interpolare aparinnd analizei numerice clasice, se definete printr-un algoritm exprimat printr-o formul matematic. Orice modificare a datelor presupune modificarea algoritmilor, respectiv modificarea expresiei matematice ce definete metoda respectiv. O reea neuronal se auto-configureaz prin intermediul procesului de nvare. Nu este necesar dect prezentarea repetat a datelor, pn la obinerea preciziei de aproximare dorite. De aceea, este clar c principiul care st la baza calculului neuronal, adic nvarea, este superior metodei clasice algoritmice care presupune descoperirea unei formule. Bazndu-ne pe aceste considerente am studiat reelele neuronale ca i metode de aproximare-interpolare. n acest context, am analizat problema aproximrii n general pentru a putea stabili cadrul n care poate fi considerat echivalena cu calculul neuronal. Aproximarea funciilor netede, utiliznd reelele neuronale s-a fcut prin introducerea unor elemente moderne din teoria aproximrii i anume teoria regularizrii. n acest context, am urmat dou ci distincte care s duc la soluia dorit, utilizabil n contextul calculului neuronal. Deoarece proprietatea de aproximant universal este caracteristic pentru majoritatea schemelor de aproximare, deci i pentru reelele neuronale, am avut nevoie de o caracteristic suplimentar. Caracteristica luat n considerare, bine cunoscut n literatura de specialitate, este proprietatea de cea mai bun aproximant. Utiliznd un aparat matematic riguros, am procedat la un studiu al reelelor neuronale ca i metode de aproximareinterpolare prin prisma acestei proprieti de cea mai bun aproximant. Am reuit astfel s stabilim care clase de reele neuronale posed aceast proprietate i care nu. Astfel, am artat n acest studiu c cea mai popular metod de nvare supervizat aplicat la reele neuronale de tip PMS, BP (BackPropagation), nu confer acestora aceast proprietate, de unde i rezultatele relativ modeste ale reelelor neuronale de tip BP, cunoscute i n general justificate doar ntr-un context particular. n schimb, reelele neuronale construite n urma studiului teoretic inspirat de teoria regularizrii, denumite reele neuronale de tip PMSR (Perceptron MultiStrat de Regularizare) posed aceast proprietate. Aplicaiile practice dovedesc performanele superioare ale acestor reele neuronale de tip PMSR fa de reelele de tip BP. Construcia reelelor neuronale de tip PMSR are o deosebit importan deoarece se abordeaz elemente fundamentale ale calcului neuronal: arhitectura reelei, numrul necesar de neuroni n stratul ascuns, reducerea dimensionalitii reelei neuronale, adic a numrului de neuroni din stratul ascuns. Acest tip de reea neuronal este analizat nu doar din punct de vedere practic, ci se formuleaz i cadrul teoretic care justific performanele acestei reele neuronale. Justificarea rezultatelor teoretice se face prin intermediul simulrii pe un sistem de calcul a modului de funcionare a reelelor neuronale de tip PMSR. Se consider o serie de exemple de funcii care se aproximeaz cu reele neuronale de tip PMSR. Se iau n
285

considerare pentru a fi nvate, deci pentru a construi o funcie aproximant care este nsi reeaua neuronal, date generate uniform sau aleator. Foarte bune rezultate se obin dac combinm arhitectura unei reele neuronale de tip PMSR cu principiile nvrii active. Aplicnd acest principiu n care antrenorul nu este un agent pasiv care doar prezint datele de nvat, ci i contribuie la alegerea lor, se obin performane de aproximare-interpolare superioare metodelor clasice din analiza numeric.

286

XI.2. Perspective
Din analiza elementelor teoretice rezult idei importante pentru aplicarea n practic a calculului neuronal. De mare actualitate este utilizarea acestor reele neuronale n nvarea unor sisteme dinamice, care evolueaz n timp. Se cunosc rezultatele foarte bune obinute cu reelele neuronale de tip RBF (Radial Basis Functions), care sunt de fapt un caz particular de reea neuronal mai general, de tip PMSR. n acest sens, ca aplicaie practic, s-ar putea face un studiu al diferiilor algoritmi de recunoatere a formelor pe baza unor exemple sau modelarea micrii motrice biologice. O alt extindere a acestui studiu ar putea fi problema fundamental a calculului neuronal: cte exemple sunt necesare procesului de nvare pentru a obine o anumit precizie? Din literatura de specialitate se cunoate c rspunsul la aceast ntrebare este influenat de dimensionalitatea spaiului de intrare n i de gradul de netezime p al clasei de funcii de aproximat. Pe baza algoritmilor de nvare activ, se poate rspunde la aceast ntrebare nu printr-o valoare a priori, ci printr-un proces dinamic de nvare care s aleag numrul de date necesar [47], [53]. De asemenea, un studiu care s cuprind mai multe tipuri de funcii de activare a neuronilor din stratul ascuns ar fi de actualitate. n aplicaiile practice din aceast carte am utilizat funcii de activare ale neuronilor din stratul ascuns de tip Gaussian. Un studiu ar putea determina care tip de funcie de activare ar fi mai eficient pentru a mbunti proprietile reelelor neuronale. Din punct de vedere teoretic, un studiu interesant se poate face pe baza algoritmului de nvare activ, n definirea regiunilor dificile de nvat. Aceasta se caracterizeaz de fapt prin erori mari de aproximare, de unde rezult necesitatea de a alege mai multe exemple din acele regiuni. Prin aceasta, se poate defini riguros noiuni generale cum ar fi, greu de nvat sau uor de nvat. Studiul teoretic referitor la reele neuronale, ca i metode de aproximare-interpolare, poate fi folosit i n teoria aproximrii. De fapt, am obinut n aceast tez, o nou expresie analitic pentru o funcie de aproximare care corespunde valorii de ieire generat de reeaua neuronal de tip PMSR. Studiile practice au artat c, mai ales acolo unde metodele polinomiale de aproximare-interpolare clasice nu sunt performante, reeaua neuronal are performane foarte bune. Aceasta se ntmpl mai ales atunci cnd avem peste 100 de date (noduri) de nvat.

287

XII. Bibliografie
1. Adams, R.A., Sobolev Spaces. New-York: Willey, 1975. 2. Alexander, I., Why neural computing? A personal view. In: Neural Computing Architectures, I. Alexander (eds.), North Oxford Academic, London, 1989. 3. Amari, S.A., Dynamics of Pattern Formation in Lateral-Inhibition Type Neural Fields. Biological Cybernetics 27, 77-87, 1977. 4. Amit, D., Modelling Brain Function. Cambridge Univesity Press, 1989. 5. Anderson, J.A., Coerent Optical Eigenstate Memory. Optical Letters 11, 56-58, 1968. 6. Anderson, J.A., Rosenfeld, E., eds. Neurocomputing: Foundation of Research. MIT Press. Cambridge, 1988. 7. Anderson, J.R., The Architecture of Cognition. Harvard University Press, 1983. 8. Angluin, D., Machine Learning, 2, 319-342, 1988. 9. Arbib, M.A. Brains, Machines and Mathematics. Springer-Verlag. Berlin, 1987. 10. Arnold, V.I., On function of three variables, Doklady Akademii Nauk USSR 114, 679681, 1957. 11. Bachmann, C.M., Cooper, L.N., Dembo, A., Zeitouni, O., A Relaxation Model for Memory with High Storage Density. Proc. of the National Academy of Sciences, USA 84, 7529-7531, 1987. 12. Baldi, P., Hornik, K., Neural Networks and Principal Component Analysis: Learning from Examples Without Local Minima. Neural Networks 2, 53-58, 1989. 13. Barlow, H.B., Unsupervised Learning. Neural Computation 1, 295, 1989. 14. Barto, A.G., Reinforcement learning and adaptive critic methods, In: White, D.E, Sofge, D.A. editors: Handbook of Intelligent Control, 469-491, New-York, Van NostradReinhold, 1992. 15. Baum, E.B., Hausler, D., What Size Net Gives Valid Generalization? Neural Computation 1, 151-160, 1989. 16. Baum, E.B., Wilczek, F., Supervised Learning of Probability Distribution by Neural Networks. In: Neural Information Processing Systems, Denver, 1987, Ed. D.Z. Anderson, 52-61, New-York, 1988. 17. Bertero, M., Poggio, T., Torre, V., Ill-posed problems in early vision. Proceedings of the IEEE, vol. 76, 869-889, 1988. 18. Beurle, R.L., Properties of a Mass of Cells Capable of Regenerating Pulses. Philosophical Transaction of the Royal Society of London, B 240, 55-94, 1956. 19. Bienenstock, E.L., Cooper, L.N., Munro, P.W., Theory for the Development of Neuron Selectivity: Orientation Specificity and Binocular Interaction in Visual Cortex. Journal of Neuroscience 2, 32-48, 1982. 20. Stancu, D., Analiz numeric. Facultatea de Matematic, Universitatea Babe-Bolyai, Cluj-Napoca. 21. Blaga, P., Calculul probabilitilor i statistic matematic. Facultatea de Matematic, Universitatea Babe-Bolyai, Cluj-Napoca, 1994. 22. Bochner, S., Voresungen ueber Fouriersche Integrale. Akademische Verlagsgesellschaft, Leipzig, 1932. 23. Boor, C., A practical guide to splines. Springer-Verlag, New-York, 1978. 24. Broomhead, D.S., Lowe, D., Multivariable functional interpolation and adaptive networks, Complex Systems, 2, 321-355, 1988. 25. Bowyer, A., Computing Dirichlet tessellations. Comp. Journal, Vol. 24, No. 2, 1981, 162166, 1981.

288

26. Budinich, M., Miloti, E., Geometrical Interpretation of the Back-Propagation Algorithm for the Perceptron. In Press, 1992. 27. Budinich, M., Miloti, E., Properties of Feedforward Neural networks. Journal Physics A: Math, Gen. 25, 1903-1914, 1992. 28. Bugmann, G., Note on the use of Weight-Averaging Output Nodes in RBF-Based Mapping Nets. Research Report CNAS-96-02, Center for Neural and Adaptive Systems, University of Plymouth, 1996. 29. Caianiello, E.R., Outline of a Theory of Thought and Thinking Machines. Journal of Theoretical Biology, 1, 204-235, 1961. 30. Coman, G., Analiz numeric. Facultatea de Matematic, Universitatea Babe-Bolyai, Cluj-Napoca, 1984. 31. Coman, G., Analiz numeric. Editura Libris, Cluj-Napoca, 1995. 32. Cotter, E. N., The Stone-Weierstrass Theorem and its application to neural networks. IEEE Transactions on Neural Networks, Vol. 1, No. 4, 290-295, 1990. 33. Cottrell, G.W., Munro, P., Zipser, D., Learning Internal Representation from Gray-Scale Images: An Example of Extensional Programming. In: Ninth Conf. of the Cognitive Science Society, Seattle, 462-473, Erlbaum, 1987. 34. Cottrel, M., Fort, J.C., A Stochastic Model of Retinotopy: A Self Organizing Process. Biological Cybernetics, 53, 405-411, 1986. 35. Courant, R., Hilbert, D., Methods of mathematical Physics. Vol. 1, 2, Intersience, London, England, 1962. 36. Cragg, B.G., Temperlay, H.N.V., The Organization of Neurons: A Cooperative Analogy. EEG and Clinical Neurophysiology 6, 85-92, 1954. 37. Cybenko, G., Approximation by superposition of a sigmoidal function. Mathematics of Control, Signals and Systems, 2, 303-314, 1989. 38. de Figuiredo, R.J.P., Chen, G., Nonlinear Feedback Control Systems. New-York, Academic Press, 1993. 39. Debnath, L., Mikuisinski, P., Introduction to Hilbert Spaces with Applications. San Diego, CA: Academic Press, 1990. 40. Denker, J., Schwartz, D., Wittner, B., Solla, S., Howard, R., Jackel, L., Large Automatic Learning, Rule Extraction and Generalization. Complex Systems, 1, 877-922, 1987. 41. Duchon, J., Spline minimizing rotation-invariant semi-norms in Sobolev spaces. In: Zeller, K., editors. Constructive Theory of functions of several variables, Lecture Notes in Mathematics, 571, Springer-Verlag, Berlin, 1977. 42. Duda, R.O., Hart, P.E, Pattern Classification and Scene Analysis. New-York: Willey, 1973. 43. Dyn, N., Interpolation and approximation by radial and related functions. In: Chui, C.K., Schumaker, L.L., Ward, D.J., editors, Approximation Theory, VI, 211-234, Academic Press, New-York, 1991. 44. Enchescu, C., Approximation Capabilities of Neural Networks; JNAIAM - Journal of Numerical Analyses, Industrial and Applied Mathematics, Volume 3, issues 3-4 (2008), November, 221-230, 2008. 45. Enchescu, C., Neural networks for function approximation; International Conference BICS2008, Bio-Inspired Computational Methods Used for Difficult Problems Solving. Development of Intelligent and Complex Systems, "Petru Maior" University of TrguMure and Romanian Academy, Trgu-Mure, November 6 7, 2008, 84-89, Editura Universitii "Petru Maior" Trgu-Mure, 2008. 46. Enchescu, C., Neural Computation Used for Functions Approximation; Advanced bioinspired computational methods / eds.: Clin Enchescu, Barna Iantovics, Florin Filip, Trgu-Mure, Editura Universitii "Petru Maior", 208-216, 2008. 47. Enchescu, C., Using Prior Information To Improve The Approximation Performances of Neural Networks; Numerical Analysis and Applied Mathematics, International
289

Conference of Numerical Analysis and Applied Mathematics 2007 (ICNAAM 2007), Corfu, Greece, September 2007, AIP American Institute of Physics, Melville, NY, USA, Weinheim, Volume 936, 170-173, 2007. 48. Enchescu, C., Data Predictions using Neural Networks.; Proceedings of the International Conference on Knowledge Engineering, Principles and Techniques KEPT2007, "Babes-Bolyai" University of Cluj-Napoca, Cluj-Napoca, June 6 8, 2007, 290297, Editura Presa Universitara Clujeana, 2007. 49. Enchescu, C., Approximation Capabilities of Neural Networks; Proceedings of the 3rd International Conference of Numerical Analysis and Applied Mathematics 2006 (ICNAAM 2006), Hersonissos, Creta, September 2006, Weinheim, Willey-VCH, Grecia 15-19 septembrie, 113-116, 2006. 50. Enchescu, C., Rdoiu D, Adjei O., Learning strategies using prior information; IJICIS International Journal of Intelligent Computing and Information Science, Vol. 5, Nr. 1, 381-393, septembrie, 2005. 51. Enchescu, C., Learning Properties for Radial Basis Functions Neural Networks; microCAD 2002 International Scientific Conference, University of Miskolc, Hungary, 25-31, Innovation and Technology Transfer Centre, 2003. 52. Enchescu, C., Active Learning for Neural Networks; Computer Science Education: Challenges for the New Millenium, Eds: Gerrit C. Van der Veer, Ioan Alfred Letia, Vrije University, Amsterdam, 27-46, Editura Casa Crii de tiin, Cluj, 1999. 53. Enchescu, C., Improving the learning performances of neural networks using a priori information; Research Seminars, Seminar on Computer Science, Preprint No.2, "BabeBolyai" University of Cluj-Napoca, Faculty of Mathematics and Computer Science, 179188, 1998. 54. Enchescu, C., Fundamentele reelelor neuronale; Editura "Casa Crii de tiin", ClujNapoca, 200 pag., ISBN 973-9204-81-8, 1998. 55. Enchescu, C., Elemente de inteligen artificial. Calculul neuronal. Universitatea Tehnic Cluj-Napoca, 1997. 56. Enchescu, C., Active learning for improving the performances of neural networks. Studia, "Universitatea Babe-Bolyai", Cluj-Napoca, 1997. 57. Enchescu, C., Aproximarea funciilor continue cu ajutorul reelelor neuronale, Academia Naval Mircea cel Btrn, Constana, Octombrie, 1997. 58. Enchescu, C., Mathematical Foundations of Neural Networks Learning. ROCNET'96. Al II-lea Simpozion Naional de reele Neuronale, Bucureti, 1996. 59. Enchescu, C., Neural Networks as aproximation methods. International Conference on Aproximation and Optimization Methods, ICAOR'96, "Universitatea Babe-Bolyai", Cluj-Napoca, 1996. 60. Enchescu, C., Referat Nr.3, Universitatea Babe-Bolyai, Facultatea de MatematicInformatic, Cluj-Napoca, 1996. 61. Enchescu,C., Metod de optimizare a procesului de nvare a reelelor neuronale. Sesiunea tiinific anual a cadrelor didactice, Universitatea Petru Maior TrguMure, Decembrie, 1996. 62. Enchescu, C., Reele neuronale i teoria aproximrii. Sesiunea tiinific anual a cadrelor didactice, Universitatea Trgu-Mure, Decembrie, 1995. 63. Enchescu, C., Properties of Neural Networks Learning, 5th International Symposium on Automatic Control and Computer Science, SACCS '95, Vol.2, 273-278, Technical University "Gh. Asachi" of Iasi, Romania, 1995. 64. Enchescu, C., Referat Nr.2, Universitatea Babe-Bolyai, Facultatea de MatematicInformatic, Cluj-Napoca, 1995. 65. Enchescu, C., Learning Techniques for Neural Networks; The Annual Meeting of the Romanian Society of Mathematical Sciences, Vol. 2, Craiova, May 26-29, 55-65, 1999.
290

66. Enchescu, C., Learning the Neural Networks from the Approximation Theory Perspective. Intelligent Computer Communication ICC '95 Proceedings, 184-187, Technical University of Cluj-Napoca, Romania, 1995. 67. Enchescu, C., Caracterizarea Reelelor Neuronale ca i metode de aproximareinterpolare. Buletinul tiinific, Universitatea Tehnic din Trgu-Mure, Vol. VII, TrguMure, Romnia, 1994. 68. Enchescu, C., Referat Nr. 1: Calcul Neuronal, Universitatea Babe-Bolyai ClujNapoca, 1994. 69. Enchescu, C., Calcul Neuronal. PC-Report 12, Agora Press, 1993. 70. Enchescu, C., Tehnologia calculului neuronal, Buletinul tiinific, Universitatea Tehnic din Trgu-Mure, Vol. VI, 1-23, Trgu-Mure, Romnia, 1993. 71. Fahlman, S.E., Fast Learning Variations on Back-Propagation: An Empirical Study. In: Proc. of the 1988 Connectionist Models Summer School, Pittsburgh, 1988. Eds. D. Touretzky, G. Hinton, T. Sejnowski, 38-51, Morgan Kaufmann, 1989. 72. Fukushima, K., Cognitron: A Self-Organizing Multilayer Neural Network. Biological Cybernetics 20, 121-136, 1975. 73. Fukushima, K., Neocognitron: A Self-Organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position. Biological Cybernetics 36, 193-202, 1980. 74. Gallant, A.R., White, H., There exists a neural network that does not make avoidable mistables. IEEE Second International Conference on Neural Networks, 657-664, SanDiego: SOS Printing, 1988. 75. Gelfand, I.M., ilov, G.E., Funcii generalizate. Editura tiinific i enciclopedic. Bucureti, 1983. 76. Gelfand, I.M., Vilenkin, N.I., Funcii generalizate. Aplicaii ale analizei armonice. Editura tiinific i enciclopedic, Bucureti, 1985. 77. Geman S., Geman, D., Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images. IEEE Transaction on Pattern Analysis and Machine Intelligence, PAMI-6: 721-741, 1984. 78. Gersho, A., On the Structure of Vector Quantizers. IEEE Trans. Inform. Theory, Vol. IT25, No. 4, 373-380, 1979. 79. Geszti, T., Physical Models of Neural Networks. Singapore: World Scientific, 1990. 80. Girosi, F., Jones, M., Poggio, T., Priors, Stabilizers and Basis Functions: from reguralization to radial, tensor and additive splines. M.I.T, A.I. Memo No. 1430, 1993. 81. F. Girosi, T. Pogio, Networks and the Best Approximation Property. Biological Cybernetics, 63, 169-176, 1990. 82. Glauber, R.J., Time-dependent Statistics of the Ising Model. Journal of Mathematical Physics 4, 294-307, 1963. 83. Glover, D. et al., Adaptive Noise Canceling: Principles and Applications. Proc. of IEEE, Vol. 63, 12, 1692-1716, 1975. 84. Gorman, R.P., Sejnowsky, T.J., Learned Classification of Sonar Targets Using a Massively-Parallel Network. IEEE Trans. on Acoustics, Speech and Signal Proc. 36, 1135-1140, 1988. 85. Gougam, L.A., Tribeche, M., Mekideche-Chafa, F., A systematic investigation of a neural network for function approximation. Neural Networks, Vol. 21, No. 9, 1311-1317, 2008. 86. Grossberg, S., Competitive Learning: From Interactive Activation to Adaptive Resonance. Cognitive Science 11(1), 23-64, 1987. 87. Grossberg, S., Adaptive Pattern Classification and Universal Recording. Parallel Development and Coding of Neural Feature Detectors. Biological Cybernetics 23, 121134, 1976. 88. Grossberg, S., Nonlinear Difference-Differential Equation in Prediction and Learning Theory. Proc. of the National Academy of Sciences, USA, 58, 1329-1334, 1968.
291

89. Gutfreund, H., Toulouse, G., The Physics of Neural Networks, Preprint, 1992. 90. Hanson, S.J., Burr, D.J., What Connectionist Models Learn: Learning and Representation in Connectionist Networks. Behavioral and Brain Sciences 13, 471-518, 1990. 91. Harder, R.L., Desmarais, R.M., Interpolation using surface splines. Journal of Aircraft, 9, 189-191, 1972. 92. Hastie, T., Tibshirani, R., Generalized additive models: some applications. Journal of American Statistical Associations, 82, 371-386, 1987. 93. Haykin, S., Neural Networks. A Comprehensive Foundation. IEEE Press, MacMillian, 1994. 94. Hebb, D.O., The Organization of Behavior. Willey, New-York, 1940. 95. Hecht-Nielsen, R., Counterpropagation Networks. Applied Optics 26, 4979-4984, 1987. 96. Hertz, J., Krogh, A., Palmer, R.G., Introduction to the Theory of Neural Computation, Addison-Wesley Publishing Co., 1992. 97. Hinton, G.E, Sejnowsky, T.J., Learning and relearning in Boltzmann machines, In Rumelhart, D.E., McClelland, J.L. editors: Parallel Distributed Processing: Explorations in Microstructure of Cognition. Cambridge, MA: MIT Press, 1986. 98. Hinton, G.E., Sejnowski, T.J. Optimal Perceptual Inference. In: Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, Washington 1986, 448-453, 1983. 99. Hockney, R.W., Jesshope, C.R., Calculatoare paralele. Arhitectur, programare i algoritmi, Ed. a II-a, Editura Tehnic, Bucureti, 1991. 100. Hopfield, J.J. Neural Networks and Physical Systems with Emergent Computational Abilities. Proc. of the National Academy of Sciences, USA, 79, 2554-2558, 1982. 101. Hopfield, J.J., Tank, D.W., Neural Computation of Decisions in Optimization Problem. Biological Cybernetics, 52, 141-152, 1985. 102. Hornik, K., Approximation Capabilities of Multilayer Feedforward Networks. Neural Networks, Vol. 4, 251-257, 1991. 103. Hornik, K., Stinchcombe, M., White, H., Multilayer feedforward networks are universal approximators. Neural Networks, Vol. 2, 359-366, 1989. 104. Hornik,K., Stinchcombe, M., White, H., Universal Approximation of an Unknown Mapping and Its Derivatives Using Multilayer Feed-forward Networks. Neural Networks, Vol.3, 551-560, 1990. 105. Hubel, D.H., Wiesel, T.N., Receptive Fields, Binocular Interaction and Functional Architecture in the Cat's Visual Cortex. Journal of Physiology, London, 160, 106-154, 1962. 106. Irie, B., Miyake, S., Capabilities of three-layered perceptrons. Proceedings of the 1988 IEEE International Conference on Neural Networks, 641-648, New-York: IEEE Press, 1988. 107. Jacobs, R.A., Increased Rates of Convergence Through Learning Rate Adaptation. Neural Networks 1, 295-307, 1988. 108. Jansen, A., van der Smagt, P., Groen, F., Nested networks for robot control. In Murray, A.F., ed., Applications of Neural Networks, 221-239, Kluwer Academic Publishers, Dordrecht, 1995. 109. Jolliffe, I.T., Principal Component Analysis. New-York: Springer Verlag, 1986. 110. Jordan, M., Generic constrains on under specified target trajectories. Proc. of the 1989 International Joint Conference on Neural Networks, 217-225, New-York: IEEE Press, 1989. 111. Kantorovich, L.V., Akilov, G.P., Functional Analysis. 2nd edition, Oxford: Pergamon, 1982. 112. Khana, T., Foundations of Neural Networks. Addison-Wesley, New-York, 1990. 113. Knudsen, E.I., S. du Lac, Esterly, D.S., Computational maps in the brain. Ann. Rev. Neuroscience, Vol. 10, 214-220, 1987.
292

114. Kohonen, T., An Adaptive Associative Memory Principle. IEEE Transaction on Computers, C-23, 444-445, 1974. 115. Kohonen, T., Associative memory: A System Theoretical Approach. Springer-Verlag, 1977. 116. Kohonen, T., Self-Organized Formation of Topologically Correct Feature Maps, Biological Cybernetics 43, 59-69, 1983. 117. Kohonen, T., The Self-Organizing Map, Proc. of the IEEE, Vol. 78, No. 9, September 1990 118. Kolmogorov, A.N., On the representation of continuos functions of many variables by superpositions of continous functions of one variable and addition. Doklady Akademii Nauk USSR 114 (5), 953-956, 1957. 119. Kreyszig, E., Advanced Engineering Mathematics. Willey, New-York, 1988. 120. Krushner, H.J., Klark, D.S., Stochastic Approximation Methods for Constrained and Unconstrained Systems. New-York: Springer-Verlag, 1978. 121. Kullbach, S., Information Theory and Statistics. Willey, New-York, 1959. 122. V. Kurkova, Learning from Data as an Inverse Problem. In COMPSTAT 2004 Proceedings on Computer statistics (J. Antoch Ed.), 1377-1384, Heidelberg: PhisicaVerlag / Springer, 2004. 123. V. Kurkova, Supervised Learning as an Inverse Problem. Research Report ICS-2004-960, Institute of Computer Science, Prague (2004). 124. Kurkova, V., Kolmogorov's theorem and multilayer Neural Networks. Neural Networks, 5, 501-506, 1992. 125. Lapedes, A., Farber, R., Nonlinear Signal Processing Using Neural Networks: Prediction and System Modeling. Technical Report LA-UR-87-2662, Los Alamos National Laboratory, 1988. 126. Lawrance, S., Tsoi, A.C., Back, A., Function approximation with neural networks and local methods: bias, variance and smoothness. Australian Conf. on Neural Networks, 1996. 127. Linsker, R., From Basic Network Principles to Neural Architectures. Proceedings of the National Academy of Sciences, USA 83, 7508-7512, 8390-8384, 8779-8783, 1986. 128. Linsker, R. Self-Organization in a Perceptual Network. Computer, March, 1988, 105117, 1988. 129. Little, W.A. The Existence of Persistent States in the Brain. Mathematical Biosciences 19, 101-120, 1974. 130. Ma, S.-K., Modern Theory of Critical Phenomena. W. A. Benjamin Inc., New-York, 1976. 131. Mackey, M.C., Glass, L. Oscillation and Chaos in Physiological Control Systems. Science 197, 287, 1977. 132. Madich, W.R., Nelson, S.A., Multivariate interpolation and conditionally positive definite functions. II. Mathematics of Computations, 54 (189): 211-230, 1990. 133. Marr, D. A Theory of Cerebellar Cortex. Journal of Phys. London, 202 437-470, 1969. 134. Marr, D. Vision., Freeman: San Francisco, 1982. 135. Marroquin, J.L., Mitter, S., Poggio, T., Probabilistic solution of ill-posed problems in computational vision. Journal of American Stat. Assoc., 82:76-89, 1987. 136. Maruter, I., Metode numerice n rezolvarea ecuaiilor neliniare., Editura Tehnic, Bucureti, 1981. 137. Maz'ja, V.G. Sobolev Spaces. New-York: Springer-Verlag, 1985. 138. McCulloch, W.S.,Pitts, W. A Logical Calculus of Ideas Immanent in Nervous Activity., Bull. of Mathematical Biophysics 5, 115-133, 1943. 139. Meinguet, J., Multivariate interpolation at arbitrary points made simple. Journal of Appl. Math. Phys. Vol. 30, 292-304, 1979.
293

140. Mendel, J.M., McLaren, R.W., Reinforcement-learning control and pattern recognition Sytems, In J.M. Mendel, Fu, K. S. editors: Adaptive, Learning, and Pattern Recognition Systems: Theory and Applications, 287-318, New-York: Academic Press, 1970. 141. Metropolis, N., Rosenbluth, M., Rosenbluth, A., Teller, A., Teller, E., Equation of state calculations by fast computing machines. Journal of Physical Chemistry, 21, 1087, 1953. 142. Micchelli, C.A., Interpolation of scattered data: Distance matrices and conditionally positive definite functions. Constr. Approx., Vol. 2, 11-22, 1986. 143. Minsky, M.L., Computation: Finite and Infinite Machines. Prentice-Hall, 1967. 144. Minsky, M.L., Steps towards artificial intelligence. Proceedings of the Institute of Radio Engineering, 49, 8-30, 1961. 145. Minsky, M.L., Papert, S.A., Perceptrons. MIT Press. Cambridge, 1969. 146. Mitchinson, G.J.,Durbin,R.M. Bounds on the Learning Capacity of Some Multilayer Networks. Biological Cybernetics 60, 345-356, 1989. 147. Morozov, V.A., Methods for solving incorrectly posed problems. Springer-Verlag, Berlin, 1984. 148. Neural Ware Inc., Neural Computing. Neural Works Professional II/Plus. 149. Niyogi, P., Active Learning by Sequential Optimal Recovery. A. I. Memo No. 1514, C.B.C.L. Paper No. 113, M.I.T, Massachusetts, 1995. 150. Oja, E., A Simplified Neuronal Model As a Principal Component Analyzer. Journal of Mathematical Biology 15, 267-273, 1982. 151. Oja, E., Neural Networks, Principal Components, and Subspaces. International Journal of Neural Systems 1, 61-68, 1989. 152. Oja, E., Karhunen, J., On Stochastic Approximation of the Eigenvectors and eigenvalues of the Expectation of a Random Matrix. Journal of Mathematical Analysis and Application 106, 69-84, 1985. 153. Palm, G, Neural Assemblies: An Alternative Approach. New-York, Springer-Verlag, 1982. 154. Parisi, G., Statistical Field Theory, Addison-Wesley, Reading, Massachusetts, 1988. 155. Pearlmutter, B.A., Hinton, G.E., G-Maximization: An Unsupervised Learning Procedure for Discovering Regularities. Neural Networks for Computing (Snowbird 1986), ed. Denker, J.S., 333-338. New-York, American Institute of Physics, 1986. 156. Peretto, P., Collective Properties of Neural Networks. A Statistical Physics Approach. Biological Cybernetics 50, 51-62, 1984. 157. Plant, D., Nowlan, S., Hinton, G., Experiments on Learning by Back-Propagation. Technical Report CMU-86-126, Dept. of Comp. Science, Carnegie Mellon University, Pittsburgh, 1986. 158. Poggio, T., Girosi, F., Networks and the best approximation property. Biological Cybernetics, 63, 169-176, 1990. 159. Poggio, T., Girosi, F., Networks for Approximation and Learning. Proceedings of the IEEE, Vol. 78, No. 9, Sept. 1990. 160. Pomerleau, D.A., ALVINN: An Autonomous Land Vehicle in a Neural Network. In: Advances in Neural Information Processing Systems I, Denver. Eds. D.S. Touretzky,305313, San Mateo, Morgan Kaufmann, 1988. 161. Powell, M.J.D., Restart Procedures for the Conjugate Gradient Method. Mathematical Programming 2, 241-254, 1977. 162. Principe, J.C., Euliano, N.R., Lefebvre, W.C., Neural and Adaptive Systems. Fundamentals through Simulations. John Willey & Sons, New-York, 2000. 163. Qian, N., Sejnowsky, T.J., Predicting the Secondary Structure of Globular Proteins Using Neural Networks Models. Journal of Molecular Biology 202, 865-885, 1988. 164. Rashevsky, N., Mathematical Biophysics. University of Chicago Press, 1938. 165. Reid, K., Zeinich, A., Neural Network Resource Guide. AI Expert 6, 50-57, 1992 166. Rice, J.R., The approximation of functions. Addison-Wesley, Reading, Mass, 1964.
294

167. Ritter, H., Schulten, K., Kohonen Self-Organizing Maps: Exploring Their Computational Capabilities. IEEE International Conference on Neural Networks, San-Diego 1988, vol. I, 109-116, New York, IEEE, 1988 168. Ritter, H., Schulten, K, On the Stationary State of Kohonen's Self-Organizing Sensory Mapping. Biological Cybernetics, 54, 99-106, 1986 169. Rose, D., Dobson, V.G., eds. Models of the Visual Cortex, Chichester: Willey, 1985. 170. Rosenblatt, F. Principles of Neurodynamics., New-York, Spartan, 1962. 171. Royden, H.L., Real Analysis. 2nd edition. New-York: Macmillan, 1968. 172. Rumelhart, D.E., Hinton, G.E.,Williams, Learning Internal Representation by Error Propagation, Nature 323, 533-536, 1986. 173. Rumelhart, D.E., Zipser, D., Feature discovery by competitive learning, Cognitive Science, 9, 75-112, 1985. 174. Rumelhart, D.E., McClelland, J.L., Exploration in the microstructure of Cognition., In: Parallel Distributed Processing. Vol. 1: Foundations. Eds. J. L. McClelland & D.E. Rumelhart, MIT Press, 1986. 175. Rumelhart, D.E., Smolensky, P., McClellaand, J.L., Hinton, G.E., Schemata and Sequential Thought processes in PDP models, In: Parallel Distributed Processing. Vol. 2: Psychological and Biological Proc. Eds. J.L. McClelland & D.E. Rumelhart, MIT Press, 1986. 176. Sanger, T.D., An Optimality Principle for Unsupervised Learning. Advances in Neural Information Processing Systems I (Denver 1988), ed. D.S. Toureretzky, 11-19.San Mateo: Morgan Kaufmann, 1989. 177. Sanger, T.D. Optimal Unsupervised Learning in a Single-Layer Linear Feedforward Neural Network. Neural Networks 2, 459-473, 1989. 178. Scofield, C.L., Learning Internal Representations in the Coulomb Energy Network. In: IEEE International Conference on Neural Networks (San-Diego 1988), Vol. I, 271-276, New-York: IEEE, 1988. 179. Schoenberg, I.J., Metric spaces and positive definite function. Ann. of Math., Vol.44, 522-536, 1938. 180. Schreiber, T., A Voronoi Diagram Based Adaptive K-Means Type Clustering Algorithm for Multidimensional Weighted Data. Technical Report, Universitat Kaiserslautern, 1989 181. Schwartz, D.B., Salaman, V.K., Solla, S.A., Denker, J.S., Exhaustive Learning. Neural Computation 2, 371-382, 1990. 182. Schwartz, L., Theorie des Distributions. Paris: Hermann, 1950. 183. Sejnowsky, T.J., Rosenberg, C.R., Parallel Networks that Learn to Pronounce English Text. Complex Systems 1, 145-168, 1987. 184. Selim, S.Z., Ismail, M.A., K-means type algorithms: A generalized convergence theorem and characterization of local optimality. IEEE Tran. Pattern Anal. Mach. Intelligence. PAMI-6, 1, 1986, 81-87, 1986 185. Shaun, M. Lawson. A Preliminary View of Japans High Performance Neurocomputers. Neurocomputing 4, 127-136. Elsevier, 1992. 186. Solla, S.A., Learning and Generalization in Layered Neural Networks: The Contiguity Problem. In: Neural Network from Models to Applications, Paris, 1988. Eds. L. Personnaz, G. Dreyfus, 168-177, Paris, 1989. 187. Steinbuch, K. Die Lernmatrix. Kybernetic 1, 36-45, 1961. 188. Stent, G.S., A physiological mechanism for Hebb's postulate of learning. Proceedings of the National Academy of Sciences of the USA, 70, 997-1001, 1973. 189. Sutton, R.S., Barto, A.G., Williams, R.J., Reinforcement learning is direct adaptive control. Proceedings of the American Control Conference, 2143-2146, Boston, 1991. 190. Sutton, R.S., Temporal credit assignment in reinforcement learning, Ph.D. Dissertation, University of Massachusetts, Amherst, 1984. 191. Szu, H. Iterative Restoration Algorithm for Nonlinear Constraint Computing.
295

192. Taylor, W.K. Electrical Simulation of Some Nervous System Functional Activities. In: Information Theory, London 1985. Ed. C. Cherry, 314-328. London, 1956. 193. Tikhonov, A.N., Arsenin, V.A., Solutions of Ill-posed Problems. Washington, DC: W.H. Winston, 1977. 194. Tikhonov, A.N., Solution of incorrectly formulated problems and regularization method. Soviet Math. Dokl., Vol. 4, 1035-1038, 1963. 195. Valiant, L.G., A theory of learnable. Communication of ACM 27 (11), 1134-1142, 1984. 196. Vapnik, V.N., Chervonenkis, A.Y., On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities. Theory of Probability and Its Application 16, 264-280, 1971. 197. Vapnik, V.N., Estimations of Dependencies Based on Empirical Data. New-York: Springer-Verlag, 1982. 198. Vapnik, V.N., Principles of risk minimization for learning theory. In Moodz, J.E., Hanson, S.J., Lipmann, R.P. editors: Neural Information Processing Systems 4, 831-838, San-Mateo, Morgan-Kaufmann, 1992. 199. Vernon, D. Neural Networks and Computer Vision, Preprint. Trinity College, Dublin, 1991. 200. Vogl, T.P., Mangis, J.K., Rigler, A.K., Zink, W.T., Alkon, D.L. Accelerating the Convergence of the Back-Propagation Method. Biological Cybernetics 59, 257-263, 1988. 201. von Neuman, J., Probabilistic Logistic and the Synthesis of Reliable Organism from Unreliable Components., In: Automata Studies, eds. C. E. Shannon & J. McCarthy, 4398. Princeton, 1956. 202. Watson, D.F., Computing the n-dimensional Delaunay tessellation with application to Voronoi polytops. Comp. Journal, Vol 24, No. 2, 1981, 172-176, 1981. 203. Wax, N., Selected papers on noise and stochastic processes. Dover Publications, NewYork, 1954. 204. Werbos, P., Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Science. Ph.D. Thesis, Harvard University, 1974. 205. White, D.A., Learning in artificial neural networks: A statistical perspective. Neural Computation 1, 425-464, 1989. 206. Widrow, B., Generalization and Information Storage in Networks of Adaline Neurons. In: Self-Organizing Systems, Chicago. Eds. M. C. Yovits, G.T. Jacobi, G. D. Goldstein, 425-461, Washington, Spartan, 1962 207. Widrow, B., Hoff, M.E., Adaptive Switching circuits., WESCON Convention Record, Part IV, 96-104, 1960. 208. Wiener, N., Cybernetics or Control and Communication in the Animal and the Machine. Wiley. New-York, 1948. 209. Willshaw, D.J., Bueman, O.P., Longuet-Higgins, H.C., Non-Holographic Associative Memory, Nature 222, 960-962, 1969. 210. Wilson, H.R.,Cowan, J.D. A Mathematical Theory of the Functional Dynamics of Cortical and Thalamic Nervous Tissues. Kybernetic 13, 55-80, 1973. 211. Winograd, S., Cowan, J.D., Reliable Computation in the presence of Noise. MIT Press. Cambridge, 1963. 212. Wray, J., Green, G.G.R., Neural Networks, Approximation Theory, and Finite Precision Computation. Neural Networks, Vol. 8, No. 1, 31-37, Pergamon, 1995. 213. Yuille, A., Grzywacz, N., The motion coherence theory. Proceedings of the International Conference on Computer Vision, 344-354, Washington D. C., IEEE Computer Society Press, 1988. 214. Yuille, A.L., Kammen, D.M., Cohen, D.S., Quadrature and the Development of Orientation Selective Cortical Cells by Hebb Rules, Biological Cybernetics 61, 183-194, 1989.
296

297