Documente Academic
Documente Profesional
Documente Cultură
Calculul Neuronal
Calculul Neuronal
CALCULUL NEURONAL
2008
CUPRINS
Introducere ........................................................................................................... 7
I. Elemente generale de Inteligen Artificial...................................................... 11
I.1. Sisteme de Inteligen Artificial ..................................................................................................... 11
I.2. Calculul neuronal n cadrul AI ......................................................................................................... 15
I.3. Ce este calculul neuronal? ................................................................................................................ 16
I.4. Istoric al dezvoltrii calculului neuronal .......................................................................................... 16
I.5. Concluzii .......................................................................................................................................... 18
VII.4.3. PMS pentru aproximarea unei funcii i a derivatelor sale .............................................. 193
VII.5. Limitele aplicrii n practic a proprietilor reelelor neuronale............................................... 202
VII.5.1. Echivalena polinomial .................................................................................................. 202
VII.5.2. Influena procesului de nvare ....................................................................................... 204
Introducere
10
Reprezentare
nvare
Gndire
12
Mediul
nconjurtor
Element de
nvare
Baza de
cunotine
Element de
procesare
Feedback
Fig.1.2: Schema pentru reprezentarea procesului de nvare.
puternic model structural conexionist, care s mbine puterea ambelor direcii din AI: AI
tradiional i reelele neuronale.
Astfel, am fi n stare s combinm trsturile pozitive ale reelelor neuronale adaptivitate, robustee, uniformitate, cu cele ale AI simbolic - reprezentare, inferen i
universalitate. Un astfel de hibrid poate fi eficient dac reuim s stabilim cu precizie
domeniile de eficien a celor dou constituente:
AI simbolic este mai eficient pentru procesarea limbajului, planificare sau gndire
explicit;
reelele neuronale sunt mai eficiente n cadrul proceselor perceptuale, recunoaterea
formelor i memorie asociativ.
15
este robust i tolerant la deteriorri; celulele nervoase din creier mor zilnic fr a afecta
performanele sale;
este flexibil, putndu-se adapta la un nou mediu prin "nvare", pentru aceasta nu trebuie
s fie programat ntr-un limbaj de programare (Pascal, C, Fortran, Lisp etc.);
Inteligen Artificial. Marvin Minsky, unul din cei mai importani cercettori ai
domeniului Inteligenei Artificiale, a fost inspirat de ideea inteligenei macroscopice
coninut n lucrarea de referin [144], ducnd la dezvoltarea primelor sisteme expert.
Taylor [192] i Steinbuch [187], Anderson [7], Willshaw [209], Marr [133], Kohonen [114]
[115]. Grossberg [87] redefinete problema general a nvrii ntr-o reea neuronal.
O alt direcie de dezvoltare este datorat lui Cragg i Temperlay [36], care au
reformulat modelul McCullogh-Pitts ca un sistem de spin magnetic, dup modelul fizic. n
acest model s-a considerat c memoria const din histerezisul formei domeniului ateptat la
un astfel de sistem. Caianiello [29] construiete o teorie statistic, folosind idei ale mecanicii
statistice. Aceleai preocupri le regsim la Little [129] i la Hopfield [101].
Lui Hopfield i se datoreaz conceptul foarte important de funcie energetic ataat
reelei neuronale i cea de memorie privit prin prisma unor atractori dinamici stabili [100].
Hinton i Sejnowski [98], Peretto [156] dezvolt ideea de neuron stohastic care se
comport aproximativ ca un neuron McCullogh-Pitts, n funcie de o anumit probabilitate
analog temperaturii fizice din mecanica statistic.
Amit [4] dezvolt teoria sistemelor magnetice aleatoare, numite spin glasses, care
constituie preludiul implicrii puternice a mecanicii statistice n domeniul calculului neuronal.
Totui, cel mai important moment al dezvoltrii calcului neuronal l reprezint
momentul descoperirii unei legi de nvare pentru perceptronul multistrat, lege de nvare
numit Propagare-napoi (BackPropagation). Idea de baz aparine lui Werbos [204], dar
este reformulat independent i adus n atenia lumii tiinifice de Rumelhart, Hinton i
Williams [172]. Din acest moment se pune n eviden caracterul universal al calculului
neuronal, construindu-se i un mare numr de aplicaii practice, lumea tiinific acordndu-i
o justificat atenie.
O analiz mai detaliat a aspectului istoric a dezvoltrii calculului neuronal se poate
gsi n lucrarea [6].
I.5. Concluzii
Tot ceea ce am prezentat n acest capitol reprezint o pledoarie n favoarea calculului
neuronal. Din punct de vedere teoretic problemele sunt deosebit de atractive i bine
fundamentate; din punct de vedere practic aplicarea calculului neuronal i prin urmare
construcia unei reele neuronale trebuie s fie precedat de rspunsuri date la urmtoarele
ntrebri:
Care este arhitectura optimal? Cte straturi sunt necesare? Ci neuroni sunt necesari n
fiecare strat? Cte conexiuni sinaptice sunt necesare i cum trebuie organizate acestea? Ce
fel de funcie de activare trebuie s folosim? Ce lege de nvare este mai eficient?
Trebuie s folosim o lege de nvare sincron sau asincron, determinist sau stohastic?
Cte exemple trebuie s prezentm reelei neuronale pentru a nva ceea ce dorim noi?
De cte ori trebuie s-i prezentm aceste exemple? E nevoie ca procesul de nvare s fie
supervizat sau poate fi doar rentrit?
Ce poate efectua de fapt o reea neuronal construit pentru o anumit problem? Cte
probleme poate ea rezolva? Ct de bine? Ct de repede? Ct de robust este reeaua
neuronal fa de date incorecte, deteriorri sau eliminri de neuroni? Poate reeaua
neuronal generaliza cu succes? Ce fel de clase de funcii poate reprezenta?
18
Cum poate fi implementat din punct de vedere software i hardware reeaua neuronal?
Care sunt avantajele i dezavantajele diferitelor implementri hardware posibile, ce
performane au n raport cu simularea software?
Bineneles, aceste ntrebri nu trebuie privite individual, ci n contextul aplicaiei ce
urmeaz a fi rezolvat. Rspunsul la o ntrebare, ca de exemplu, ce arhitectur trebuie s
folosim, este cunoscut, atrgnd n mod automat rspunsuri la o serie de alte ntrebri.
Acest capitol introductiv, a vrut s pun n eviden faptul c problema abordat, a
calculului neuronal, este suficient de complex, dar c se pare c este i va fi o metod foarte
important att din punct de vedere teoretic, ct i practic.
n finalul acestui capitol voi ncerca o definiie formal a calculului neuronal, preluat
din lucrarea [2]:
Calculul neuronal este studiul unor reele celulare care au capacitatea natural de
a stoca cunotine pe baza experienei acumulate. Un astfel de sistem ce are la baz
calculul neuronal este comparabil cu creierul uman n sensul c cunotinele sunt
acumulate prin antrenament i nu prin programare, fiind stocate prin intermediul unor
modificri a unor noduri funcionale. Cunotinele mbrac forma unor stri stabile sau
cicluri de stri relativ la o mulime de operaii. O proprietate principal a unor astfel de
reele este de a reconstrui aceste stri sau cicluri de stri ca rspuns i la stimuli incomplei
sau zgomotoi.
19
20
II Noiuni generale
Axonul care transmite semnalul de ieire ctre ali neuroni prin intermediul arborelui
axonic.
Neuronii sunt interconectai prin intermediul unor legturi numite sinapse, care
reprezint punctele de contact dintre ramurile arborelui axonic ale unui neuron pre-sinaptic i
ramurile arborelui dendritic ale unui neuron post-sinaptic.
Neuronii comunic ntre ei prin intermediul unor semnale electrice, numite poteniale
de aciune sau impulsuri, care sunt propagate de-a lungul axonului, prin pstrarea
amplitudinii i formei semnalului electric, pn cnd ntlnesc legtura sinaptic. La sinaps o
substan chimic, numit neuro-transmitor, este stocat ntr-un numr mare de vezicule.
Potenialul de aciune elibereaz coninutul anumitor vezicule ctre cletele sinaptic.
Moleculele neuro-transmitorului ajung la membrana neuronului post-sinaptic, unde
recepia acestor molecule induc un potenial de aciune post-sinaptic (PSP).
PSP-urile generate n diferite puncte ale arborelui dendritic difuzeaz prin atenuare
ctre soma, unde ele sunt integrate. Dac suma total a PSP-urilor integrate n limita unui
scurt interval de timp depete un anumit prag (threshold) de aproximativ cteva zecimi de
minivoli, numit nivel de activare, neuronul va deveni activ, genernd un potenial de aciune
de-a lungul axonului.
21
Modificarea triei sinaptice este rezultatul unui proces de nvare [148]. Legtura
sinaptic i modul de procesare a semnalelor de ctre neuron formeaz mecanismul de
baz al capacitii de memorare al creierului.
activare care va determina valoarea de ieire axonic yj din neuron. Cele mai utilizate funcii
de activare sunt:
- funcia liniar: f : R R, f ( x) x
(2.1)
1, x 0
- funcia treapt (Heaviside): f : R {0,1}, f ( x)
0, x 0
(2.2)
1, x 1
(2.3)
1
1 e x
(2.4)
e x ex
e x e x
(2.5)
(2.6)
Acestea sunt exemple de funcii de activare care sunt cel mai frecvent utilizate n
aplicaiile practice. Funcia de activare depinde de modelul de reea neuronal ales i de tipul
problemei pe care dorim s o rezolvm, alegerea sa nefiind constrns de nici o condiie,
dect eventual de analogia cu modelul biologic.
Valoarea obinut prin aplicarea funciei de activare este propagat pe cile de ieire,
echivalente arborelui axonic din modelul biologic.
23
Integrare (Sumare): I j w ji x i
(2.7)
i0
Activare (Transfer): y j f ( I j ) f ( w ji x i )
(2.8)
i0
n cele ce urmeaz vom considera nivelul de activare implicit sau explicit, n funcie
de necesiti, fr ca aceasta s influeneze ntr-un fel generalitatea rezultatelor obinute.
x0
wj0
x1
wj1
xi
wji
Sumare
Ij
Activare
f(Ij)
yj
wjn
xn
al j-lea neuron
Obs.2.1.: Termenul xo se numete bias, avnd o valoare constant xo = +1 sau xo = -1. Rolul
termenului bias este de a permite includerea implicit sau explicit a nivelului de activare i ,
care reprezint pragul de activare al neuronului artificial.
De exemplu, presupunnd c avem funcia de activare signum,
1, x 0
,
f (x)
0, x 0
atunci putem avea una dintre situaiile:
a). Nivel de activare i explicit:
n
Integrare: I j w ji x i j
i 1
24
Activare: y j f ( I j )
Integrare: I j w ji x i 0
i0
Activare: y j f ( I j )
Acest model matematic al neuronului artificial, propus pentru prima dat de
McCullogh i Pitts [138], dei foarte simplu, reprezint o unitate de calcul foarte puternic.
McCullogh i Pitts au demonstrat c un ansamblu de neuroni artificiali interconectai este
capabil, n principiu, s efectueze orice calcul, cu condiia alegerii corespunztoare a triilor
sinaptice wji. Acest lucru nseamn c un ansamblu de neuroni artificiali interconectai ntr-un
ansamblu numit reea neuronal, poate efectua orice calcul pe care poate s-l efectueze un
sistem de calcul clasic, chiar dac nu ntotdeauna la fel de repede sau convenabil.
Neuronii biologici nu au toi acelai moment fix de activare i nici nu acioneaz sub
controlul central al unui tact generat de un ceas.
Chiar dac uneori vom face apel la realismul biologic, vom fi interesai de trsturile
i capacitatea de calcul ale modelului de reea neuronal artificial i nu de aplicabilitatea
direct n modelarea creierului. Legtura dintre reelele neuronale biologice i artificiale nu
este important la nivelul modelrii detaliate, ci la nivelul reprezentrii i la nivelul algoritmic
[138]. Dei implementrile biologice i artificiale ale algoritmilor sunt diferite, totui exist
numeroase trsturi comune la nivel algoritmic.
un strat de intrare: care are rolul de a prelua datele de intrare xi, i = 0, , n cu termen
bias (vezi Obs. 1.1) sau x0 = 1, i = 1, , n fr termen bias.
Vectorul x = (x0, x1, ..., xn) sau x = (x1, x2, ..., xn) va fi numit vector de intrare al reelei
neuronale.
toate celelalte straturi ale reelei neuronale, dac exist, diferite de stratul de intrare i de
stratul de ieire, vor fi denumite straturi ascunse (hidden layers).
Straturi ascunse
x1
y1
x2
y2
xi
yj
xn
ym
Strat de
intrare
Strat de
ieire
26
x x0 , x1 ,, xn ;
pentru stratul 1:
n
(1)
(1)
Activare: y (1)
j f1 ( I j ) f1 ( w ji x i ), j 1,2,..., n1 ;
i0
Activare:
(k )
j
fk ( I
nk 1
(k )
j
27
Activare: y
nl 1
(l )
j
i0
nvare (Antrenament);
Generalizare (Testare).
Reelele neuronale ce conin straturi cu mod de operare competitiv, le vom numi reele
neuronale competitive, iar cele care nu conin straturi competitive le vom numi reele
neuronale pasive.
- neliniare
- directe
- nvare nesupervizat
- competitiv
Feature Maps:
- Kohonen (1983) [116];
- pasiv
Infomax:
- Linsker (1987) [128];
- nvare supervizat
- competitiv
Competitive Learning:
- Rumelhart & Zipser (1986) [172][173][174];
- pasiv
Perceptron, Delta-Rule, Back-Propagation:
- Rosenblatt (1962) [170];
- Widrow & Hoff (1960) [207];
- Rumelhart & al. (1986) [172];
- recurente
- la fel ca la reele neuronale liniare-recurente.
30
31
II.5.5. Sintez
Problema nvrii reelelor neuronale, este echivalent din multe puncte de vedere cu
problema aproximrii i interpolrii unei funcii continue. n aceast analogie, a nva reeaua
neuronal cu ajutorul unei legi de nvare supervizate, nseamn a determina acea funcie
parametric f w pentru care:
y F(x, w)
unde w reprezint mulimea triilor sinaptice ale reelei neuronale. S-a demonstrat faptul c
reelele neuronale sunt aproximatori universali, fiind capabile s aproximeze arbitrar de bine
orice aplicaie continu [44], [57]. Aceast capacitate a reelelor neuronale artificiale de a
32
sintetiza funcii continue complexe, este analog cu abilitatea reelelor neuronale biologice de
a nva micri coordonate complexe, ca de exemplu de a folosi unelte, de a face sport.
Descrierea de mai sus corespunde tipului de calcul secvenial, cunoscut sub numele de
SISD (Single Instruction Single Datastream) [99]. Variaiile invocate n cadrul calculului
paralel nu reprezint altceva dect variante ale SISD:
SIMD
(Single Instruction Multiple Datastream): fiecare instruciune opereaz pe mai
multe date.
MIMD (Multiple Instruction Multiple Datastream): mai multe operaii opereaz pe mai
multe date simultan. Acest lucru se reduce de obicei la mai multe maini SISD
interconectate.
Chiar dac aceste variante de sisteme de calcul pot implementa calculul algoritmic paralel,
ceea ce duce la o eficientizare a vitezei de calcul, trstura fundamental rmne procesarea
secvenial a datelor.
Din cele prezentate pn acuma s ncercm s caracterizm calculul neuronal:
numrul de conexiuni dintre elementele de procesare este mult mai mare dect al
elementelor de procesare;
33
tria legturii dintre elementele de procesare este variabil, i ceea ce este foarte
important, este faptul c reeaua neuronal i modific singur tria acestei legturi;
reeaua neuronal nva cum s execute aciunea dorit prin antrenament (experien); de
aceea ea nu este programat prin intermediul unui set de reguli descrise a priori;
informaia este distribuit n reeaua neuronal, fiind stocat n triile legturilor sinaptice
dintre neuroni.
Calculul algoritmic necesit programare, adic stabilirea unui set de reguli care s
caracterizeze a priori calculul ce urmeaz a fi implementat pe calculator;
34
obinut o pronunie inteligibil, iar dup circa 50 de edine de antrenament s-a obinut o
acuratee de 95% n pronunie.
S-a constatat faptul c reeaua neuronal a reuit s extrag din datele nvate o serie
de trsturi eseniale procesului de vorbire. Astfel, neuronii din stratul ascuns rspund
difereniat, prin valori de activare mai mari sau mai mici, la vocale sau consoane. Analiznduse structura intern i modul de stocare a datelor n reea, s-a regsit nsi structura
fonologic a limbii engleze. Deteriorri premeditate ale reelei neuronale Nettalk, au dus la o
degradare continu i lent a performanelor sale, dar nu catastrofal, deteriorare imediat
recuperat printr-o nou faz de re-antrenare.
\z\
Stratul de ieire
(Foneme)
Strat ascuns
T h i
h e input
(2.9)
(2.10)
iar ca date int, date cunoscute de forma x(t T ). Parametrul controleaz haoticitatea
rezultatelor numerice.
Reeaua neuronal construit de Lapedes i Farbes are trei straturi, 2 straturi ascunse,
un strat de ieire constituit dintr-un singur neuron liniar (cu funcie de activare liniar). Ceea
ce s-a constatat la aceast reea neuronal este aparenta sa capabilitatea de a reprezenta n
straturile ascunse legea de generare a unei astfel de serii haotice.
Modelarea sistemelor, filtrarea semnalelor
Aceeai autori, Lapedes i Farbes, au obinut rezultate interesante n domeniul
modelrii unor sisteme. ncercarea lor s-a bazat pe modelarea funciei corespunztoare
sistemului:
dx
x( t )
dt
(2.11)
II.6.8. Servo-control
Deosebit de dificil este problema controlului i conducerii unor sisteme complexe
servo-mecanice (roboi). Dificultatea const n a gsi metode computaionale acceptabile
pentru a compensa variaiile fizice din sistem [88]. Dei uneori este posibil a construi formule
matematice care s descrie erori provocate de variaii fizice - erori provocate de alinierea
axelor, deviaii ale organelor n micare - dou probleme sunt de luat n considerare:
Prima problem: de cele mai multe ori este aproape imposibil s msurm cu acuratee
variaiile fizice.
Cu toate acestea exist numeroase modele de calcul neuronal care stau la baza
conducerii unor roboi. Un exemplu semnificativ este robotul comandat de o reea neuronal
folosit pentru conducerea unui vehicul. D. Pomerleau [160] a construit n acest scop o reea
neuronal cu dou straturi. Stratul de intrare const dintr-o imagine digitizat de 30x32 pixeli
i 8x32 pixeli de la un sistem video de proximitate. Stratul ascuns coninea 29 de neuroni, iar
stratul de ieire 45 de neuroni dispui liniar. Neuronii din centrul stratului de ieire
corespundeau pentru direcia nainte, cei din stnga i dreapta pentru viraj stnga, respectiv
dreapta.
Dup ce reeaua neuronal a fost antrenat cu un numr de 1200 de imagini simulate,
ea a fost capabil s conduc un automobil cu o vitez de 25 km/h. Viteza limitat era
datorat mai ales faptului c echipamentul de calcul utilizat pentru a implementa reeaua
neuronal, un microsistem Sun-3, nu avea vitez de calcul mare.
39
II.7. Clasificare
Pentru a avea o imagine de ansamblu asupra modelelor de calcul neuronal construite
pn n prezent, vom prezenta o clasificare a reelelor neuronale din punct de vedere al
domeniului de utilizare.
Domeniul de utilizare
Legea de nvare
1. Predicie
Supervizat
2. Clasificare
Supervizat
3. Asociere de date
Supervizat
4. Conceptualizare de date
Nesupervizat
5. Filtrri de date
Nesupervizat
6. Optimizare
Nesupervizat
Back-Propagation (BP)
Back-Propagation
(BP_RCIRC)
with
into
Counterpropagation (Cntrprop)
Associative
Boltzmann
(Boltzcmp)
Pattern
Hamming
Network
Inhibition (Hamlatin)
with
Spatio-Temporal
(SPR)
Pattern
42
5. Filtrarea datelor
Recirculation (recirc)
6. Optimizare
Hopfield Network (Hopfield)
Mark III, Mark IV: produse de firma TRW din SUA, reprezint procesoare de uz general
pentru o mare gam de aplicaii n domeniul calcului neuronal. Conin un numr de circa
417 000 legturi sinaptice, putnd fi ataate ca un echipament periferic la un calculator din
familia VAX;
Anza, Anza Plus: acceleratoare hardware special construite pentru simularea modului de
funcionare a reelelor neuronale pe un mediu de calcul secvenial. Anza este capabil de a
realiza o putere de calcul de 150 000 de interconexiuni pe secund. Aceast unitate de
msur, numr de interconexiuni pe secund, este factorul de msur a performanelor
computaionale ale unei reele neuronale;
Delta II: Procesor n virgul mobil, are o capacitate de calcul de 11 000 000
interconexiuni pe secund, admind o arhitectur de cuplare n cascad. Firma
productoare SAIC livreaz o dat cu acceleratorul hardware i un mediu de dezvoltare de
aplicaii avnd la baz calculul neuronal.
Pentru o documentaie mai complet se poate consulta lucrarea [55].
ENN (Electronic Neural Network): Chip siliconic elaborat de firma AT&T, avnd un
numr de 256 neuroni i mai mult de 100 000 legturi sinaptice. ENN este curent utilizat
n domeniul compresiei imaginilor, cu scopul de a transmite imagini de mari dimensiuni
n timp real pe linii telefonice.
Silicon Retina, Silicon Ear: Chipuri care implementeaz elementele senzoriale ale vzului
i auzului uman. Domeniul lor de aplicabilitate, mai ales n servo-control, biologie,
medicin.
44
80170NX ETANN (Electrically Trainable Analog Neural Network): chip neuronal care
permite un strat de intrare cu maximum 128 neuroni, putnd efectua 64 de operaii de
integrare la fiecare trei milisecunde. Firma productoare Intel Neural Network Group.
firma Hitachi din Japonia a construit un procesor optic corespunznd unei memorii autoasociative cu dou straturi, avnd topologia: 32-neuroni n stratul de intrare, 29 neuroni n
stratul ascuns, 26 neuroni n stratul de ieire. Procesorul optic coninea circa 1 000
neuroni/cm2;
firma japonez Mitsubishi a creat unul din cele mai puternice procesoare optice dinamice,
avnd o densitate de 2 000 de neuroni/cm2., cu un numr de 4 straturi de neuroni cu
topologie variabil.
45
46
(3.1)
wji(t + 1) i wji(t) reprezint noua i vechea valoare a triei sinaptice wji care unete
axonul neuronului i de o dendrit a neuronului j.
nvtare pe baza
minimizrii unei functii eroare
nvtare Boltzmann
nvtare Hebbian
Paradigme de nvtare
nvtare competitiv
nvtare supervizat
nvtare nesupervizat
nvtare ntrit
ek z k y k , k 1,, m, 1,, P
(3.2)
(3.3)
unde am notat cu E operatorul de medie statistic. Dup cum se vede din formula de mai sus,
MSE reprezint funcia eroare relativ la prezentarea celui de-al - lea vector (dat) de intrare
din mulimea de antrenament.
Evident, putem defini o funcie eroare general, care ine cont de diferena dintre
vectorii de ieire y i vectorii int z relativ la toat mulimea de antrenament. Putem scrie:
1 P m
2
MSE E ek
2 1 k 1
(3.4)
1 m 2
ek , ' 1,, P
2 k 1
49
(3.5)
MSE
e j x i
w ji
(3.6)
Constanta real reprezint rata de nvare. Formula de mai sus este cunoscut n
calculul neuronal sub numele de regula delta. Din regula delta se poate observa c ajustarea
triilor sinaptice n procesul de nvare este proporional cu produsul dintre stimulul
(semnalul) de intrare i semnalul de eroare.
Dac am reprezenta graficul funciei eroare n raport cu triile sinaptice wji ce
caracterizeaz reeaua neuronal, am obine o hiper-suprafa, numit suprafa eroare.
Putem ntlni dou cazuri distincte n studiul suprafeei eroare, i anume:
dac reeaua neuronal este constituit doar din neuroni ce au ca funcie de activare
funcia liniar (2.1), atunci funcia eroare este o funcie cvadratic n raport cu triile
sinaptice, iar suprafaa eroare are un punct unic de minim.
dac reeaua neuronal este constituit din neuroni ce au ca funcie de activare funcii
neliniare (2.2), (2.3), (2.4), (2.5), (2.6) atunci suprafaa eroare are un punct de minim
global i numeroase alte minime locale.
n oricare situaie, procesul de nvare sau de minimizare a funciei eroare const din
pornirea dintr-un punct arbitrar al suprafeei eroare (ce se obine din valorile de iniializare ale
triilor sinaptice ale reelei neuronale) i din deplasarea pas cu pas ctre punctul de minim
global. Evident, nu este posibil ca s atingem acest punct al suprafeei eroare n orice context,
deoarece procesul de deplasare se poate bloca n punctele de minim local.
50
dac doi neuroni aflai de o parte i alta a unei sinapse sunt activai simultan
(sincron), atunci tria sinaptic se mrete;
dac doi neuroni aflai de o parte i alta a unei sinapse sunt activai asincron
(un neuron activ i cellalt inactiv), atunci tria sinaptic se micoreaz sau este
eliminat.
Atunci, putem s definim ceea ce nseamn o legtur sinaptic privit din acest punct
de vedere [93], i pe care o numim sinaps Hebbian:
Def. 3.4: O sinaps Hebbian este o sinaps care utilizeaz un mecanism dependent
temporal, cu un puternic caracter local i interactiv, cu scopul de a mri tria sinaptic ca o
funcie de corelaie dintre activitatea presinaptic i postsinaptic.
Conceptul de nvare Hebbian poate fi generalizat dac lum n considerare c pe de
o parte o activitate pozitiv corelat produce mrirea triei sinaptice, i pe de alt parte c
activitatea necorelat sau negativ corelat produce micorarea triei sinaptice. Mergnd mai
departe, putem s clasificm modificrile sinaptice ca fiind [153]:
w ji f x i , y j , i 1,, n, j 1,, m
(3.7)
ji
1, j 1,2,...
(3.8)
(3.9)
1
w ji s j si
2 i j ,i j
(3.10)
unde si reprezint starea neuronului i, sj reprezint starea neuronului j, iar wji reprezint tria
sinaptic dintre neuronii i i j. Relaia i j pune n eviden faptul c nici un neuron nu are
conexiune ctre el nsui.
Modul de operare al reelei neuronale Boltzmann:
la un anumit pas din cadrul procesului de nvare se alege n mod aleator un neuron, fie
acesta neuronul j, i se modific starea acestuia:
sj - sj
(3.11)
52
P sj sj
1 e
E j
(3.12)
dac aceast regul se aplic repetat reeaua neuronal va atinge un punct de echilibru
termic.
condiii impuse - toi neuronii vizibili sunt setai la o stare specific determinat de
mediul nconjurtor;
condiii libere - toi neuronii, vizibili i invizibili sunt lsai s opereze liber.
Ambele corelaii c ji i c ji sunt luate ca medii ale tuturor strilor posibile ale reelei
neuronale, cnd aceasta se gsete n punctul de echilibru termic. Atunci putem s definim
matematic:
c ji P s j si
(3.13)
c ji P s j si
(3.14)
unde am notat:
53
w ji c ji c ji , i j
(3.15)
cnd la stratul de intrare s-a prezentat vectorul de intrare x ( x0 , x1 ,..., xn ), 1,..., P din
mulimea de antrenament.
Vectorul int z este furnizat de un profesor (antrenor-supervizor), de unde i
denumirea de nvare supervizat. nvarea supervizat presupune prezentarea de ctre un
antrenor a unor perechi de date de forma (x , z ), 1,..., P ce formeaz o mulime de date,
numit mulime de antrenament:
, z 1,2,, P
(3.16)
54
Antrenor
z
Mediul
nconjurtor
y
Reea
neuronal
e
Fig. 3.2.: Diagrama nvrii supervizate.
Reea
neuronal
Mediul
nconjurtor
nvare ntrit neasociativ - reeaua neuronal are rolul de a selecta o unic aciune
optimal, n loc de a face asocierea diferitelor aciuni cu diferii stimuli;
pune la dispoziie informaii adiionale, altele dect semnalul de ntrire, prin care o relaie
de forma stimul-aciune trebuie nvat.
ntrire primar
Mediul
nconjurtor
r
Critic
ntrire euristic
Element de
nvare
Baz de
cunotine
Aciuni
Element de
prelucrare
Sistem de nvare
n diagram, avem un element numit critic care are rolul de a transforma semnalele
primare de ntrire, recepionate de la mediul nconjurtor, ntr-un semnal de calitate numit
semnal euristic de ntrire. Ambele semnale de ntrire sunt codificate prin intermediul unor
scalari reali. Sistemul de nvare este constituit din cele trei componente normale pentru orice
sistem AI (Artificial Intelligence):
elementul de prelucrare este responsabil de selectarea unor aciuni aleatoare pe baza unei
distribuii, care la rndul ei este determinat de cunotinele stocate n baza de cunotine
i de mediul nconjurtor de care aparine sistemul de nvare.
III.4.1. Generaliti
S considerm un fenomen descris printr-un vector x Rn ce reprezint o mulime de
variabile independente, i un scalar real2 z R ce reprezint o variabil dependent.
Elementele vectorului x pot fi considerate ca avnd interpretri fizice diferite [162].
S presupunem de asemenea, c avem o mulime de N msurtori (observaii) ale
variabilei x, i anume:
x1, x2, x3, ..., xN
(3.17)
(3.18)
Pe baza unor observaii anterioare efectuate n Cap. II, am vzut c studiul unei reele neuronale cu m neuroni n stratul de
ieire poate fi redus la studiul a m reele neuronale cu un unic neuron n stratul de ieire. De aceea, nu reducem deloc
generalitatea cnd considerm c z R , n loc de z Rm.
57
z f x
(3.19)
unde f este o funcie de variabila x, iar este eroarea reprezentat sub forma unei variabile
aleatoare. Eroarea semnific eroarea pe care o facem n estimarea dependenei funcionale
dintre variabilele x i z. Ecuaia (3.19) de mai sus este un model statistic [93], numit model
regresiv, putnd fi reprezentat ca n figura de mai jos:
f(x)
x
(3.20)
unde E este operatorul de medie statistic [67]. E z x reprezint media condiional [21],
semnificnd faptul c vom obine, n medie, valoarea z, dac avem o realizare particular a lui
x. n particular, dac relaia funcional dintre variabilele x i z este cunoscut cu exactitate,
vom avea n modelul regresiv eroarea = 0, ceea ce este un caz ideal ce nu se prea ntlnete
n practic.
S analizm proprietile modelului regresiv:
Fiind dat o realizare a variabilei aleatoare x, valoarea medie a erorii este nul,
adic:
E x = 0
(3.21)
(3.22)
y F x, w
(3.23)
(3.24)
Dac ar fi s reprezentm grafic modelul regresiv (3.19), sub noua sa interpretare dat
de calculul neuronal, am obine diagrama de mai jos:
F(x,w)
x
z
e
1
1
1
2
2
E e 2 E z y E z F x, w
2
2
2
(3.25)
E w
1
2
E z f x f x F x, w
2
59
1
2
E z f x E z f x f x F x, w
2
1
1
1
2
2
2
E f x F x, w E z f x E f x F x, w
2
2
2
(3.26)
E z f x f x F x, w E f x F x, w
E f x E F x, w
E F x, w 0
(3.27)
(3.28)
Deoarece primul termen al ecuaiei (3.26) depinde de vectorul triilor sinaptice w0,
care este vectorul care minimizeaz funcia eroare E w , rezult c acesta va minimiza de
asemenea i integrala:
E f x F x, w
g x f x F x, w dx
2
(3.29)
2
1
E z E z x
2
(3.30)
care ne arat c din toate funciile, modelul regresiv este cea mai bun estimare a rspunsului
dorit (int) z, dac se cunoate vectorul de intrare x. Termenul de "cea mai bun" trebuie
considerat n sensul optimizrii MSE.
Msura (performanele) mediului nconjurtor sunt reprezentate prin intermediul
funciei de densitate probabilistic g(x), avnd un rol determinant n determinarea vectorului
triilor sinaptice optim w0. O reea neuronal optimizat (antrenat) n acest fel va genera, n
medie, erori minime pentru valori ale vectorului de intrare x, care sunt cel mai probabil s fie
prezentate reelei neuronale [58]. De aceea, o reea neuronal ce are vectorul triilor sinaptice
w0 nu va avea performane asemntoare ntr-un alt mediu nconjurtor, caracterizat printr-o
funcie de densitate probabilistic diferit de g(x).
60
f x F x, w 2 Ez x F x, w
(3.31)
T x i , zi i 1,2, , N
(3.32)
E E z x E F x, w, T E F x, w, T F x, w, T
E F x, w, T E z x E F x, w, T E F x, w, T
ET E z x F x, w, T
(3.33)
media global ET F x, w, T ET F x, w, T
aproximante F(x,w,T).
Dac, funcia aproximant F(x,w,T) este, n medie, diferit de funcia de aproximat
f x E z x , atunci spunem c avem de-a face cu un aproximator Bias a lui f(x).
Pe de alt parte, dac avem:
61
ET F x, w, T f x
(3.34)
62
Mediul
nconjurtor X
descris de
distribuia P(x)
Antrenor
(Profesor)
x1,x2,...,xN
T x i , z i i 1,2, , N
Reea
neuronal:
wW
F(x,w) z
Fig. 3.7: Modelul Vapnik al nvrii supervizate.
z f x
(3.35)
y F x, w
(3.36)
Revenim la cazul general cnd vectorul int z este considerat un vector z Rm i nu un scalar.
63
X
R
T
S explicm schema din figura de mai sus. X reprezint spaiul tuturor datelor de
intrare, perechi de forma (vectori de intrare, vectori int), date ce sunt consistente cu o
anumit lege R. n procesul de nvare, o submulime a legii R, notat T, i care reprezint
mulimea de antrenament, este folosit pentru a nva o reea neuronal. Dup ce procesul de
nvare s-a terminat, testm capacitatea de generalizare a reelei, cu ajutorul unei submulimi
G R, disjunct de T.
Putem deci concluziona c performanele reelei neuronale, relative la submulimea
T R, reprezint capacitatea de memorare a reelei, iar performanele relative la submulimea
G R, reprezint capacitatea de generalizare a reelei neuronale. De obicei T i G sunt alese
aleator din mulimea R, ambele fiind generate de aceeai lege de distribuie.
De fapt, n procesul de nvare, reeaua neuronal nva doar elementele submulimii T, fr a ti nimic despre G i R. De aceea, este natural ca aceast reea neuronal,
s fie capabil de a generaliza orice mulime de date de intrare care este consistent cu T.
Acest lucru este reprezentat n Fig.3.9.
64
G2
G1
G3
Fig.3.9: Reprezentarea schematic a capacitii de generalizare a unei reele neuronale (dup [40]).
(a)
(b)
Rspunsul la Problema nvrii poate fi obinut dac privim aceast problem prin
prisma teoriei aproximrii, adic studiem nvarea unei reele neuronale ca o
problem de aproximare: s gsim funcia F(x,w) care aproximeaz cel mai bine
funcia dorit f(x) [196] .
S notm cu d eroarea dintre vectorul int z, ce se dorete a se obine pentru vectorul
de intrare x, i rspunsul generat de reeaua neuronal, exprimat prin funcia aproximant
F(x,w). Definim aceast eroare cu ajutorul distanei Euclidiene:
dz; F x, w z F x, w
(3.37)
Vom defini funcionala risc [196] ca fiind media erorii definite mai sus:
R w dz; F x, w dP x, z
(3.38)
Integrala de mai sus este considerat n sens Riemann-Stieljes, iar P(x,z) reprezint
distribuia probabilistic a vectorului de intrare x i a vectorului int z.
n noua formulare, Problema nvrii devine Problema minimizrii:
Problema minimizrii: S se minimizeze funcionala risc (3.38) n raport cu
clasa de funcii aproximante F(x,w), cnd w W.
Problema minimizrii este complicat [93] datorit faptului c distribuia
probabilistic P(x,z) este necunoscut, dup cum se vede i din relaia de mai jos:
(3.39)
Remp w
1 N
dz i ; Fx i , w
N i 1
(3.40)
Aw d z; F x, w
(3.41)
media aritmetic a variabilei aleatoare Aw va converge ctre media sa. Aceast remarc ne d
dreptul, din punct de vedere teoretic, s utilizm n locul funcionalei risc R(w), funcionala
risc empiric Remp(w).
Dar nu trebuie s ne ateptm ca vectorul triilor sinaptice ce minimizeaz funcionala
risc empiric Remp(w) s minimizeze de asemenea i funcionala risc R(w).
Pentru aceasta vom aplica principiul minimizrii riscului empiric [197] , formulat
astfel:
n locul funcionalei risc R(w) vom construi funcionala risc empiric Remp(w) conform
formulei (3.40), utiliznd mulimea dat de antrenament T x i , z i i 1,2,, N ;
fie wemp vectorul triilor sinaptice care minimizeaz funcionala risc R(w) relativ la
spaiul triilor sinaptice W. Dac dimensionalitatea N a mulimii de antrenament tinde la
infinit i dac funcionala risc empiric Remp(w) va converge uniform ctre funcionala risc
R(w), atunci funcionala risc empiric Remp(w) va converge n probabilitate ctre cea mai
mic valoare posibil a funcionalei risc R(w), w W. Uniform convergena se definete
astfel:
(3.42)
67
V0 dw( w)
(3.43)
V0 ( f ) dw( w) f ( w)
unde:
1, F(x,w) f ( x ), () x X
0,
altfel
f ( w)
(3.44)
(3.45)
Fracia din spaiul triilor sinaptice, care implementeaz o funcie dat f, sau
probabilitatea de a obine funcia f, cnd alegem trii sinaptice aleatoare, conform distribuiei
(w) este:
R0 ( f )
V0 ( f )
V0
(3.46)
68
(3.47)
0, altfel
(3.48)
(3.49)
(3.50)
VN dw( w) I ( F, x i )
(3.51)
1, F(x i , w) f (x i )
I ( F, x i )
altfel
0,
(3.52)
i 1
unde:
V0 V1 V2 ... VN
(3.53)
Partea din spaiul triilor sinaptice ce corespunde unei funcii particulare f, se modific
dup nvarea a N exemple, de la R0(f) (3.46) la:
RN ( f )
VN ( f )
VN
(3.54)
69
i 1
i 1
VN ( f ) dw( w) f ( w) I ( F, x i ) V0 ( f ) I ( F, x i )
(3.55)
SN RP ( f ) log 2 RN ( f )
(3.56)
(3.57)
I( f , x )
V0 ( f ) g N ( f )
(3.58)
Media este relativ la x1, x2,..., xN , cu triile sinaptice corespunztoare P(xi), i avem:
g( f ) I ( f , x) Prob( f (x) f (x))
(3.59)
reprezentnd:
V (f)
VN ( f )
P
VN
VP
PN ( f )
(3.60)
N ( g) PN ( f ) ( g g( f )) VN ( f ) ( g g( f ))
f
g N V0 ( f ) ( g g( f )) g N 0 ( g)
(3.61)
N ( g)
g N 0 ( g)
* N
*
*
(g ) 0 (g ) dg
(3.62)
arhitectura reelei neuronale i de restricia a priori ncorporat n (w), rezult din (3.62)
urmtorul rezultat remarcabil:
Putem calcula distribuia P(w) dup N exemple de antrenament, dac
cunoatem distribuia abilitii de generalizare, nainte de faza de nvare.
Putem s considerm i valoarea medie a abilitii de generalizare:
1
G( N ) g N
0
g
( g)dg
g
N 1
0 ( g)dg
0 ( g)dg
(3.63)
1 G( N ) e
(3.64)
1
N
(3.65)
g N ( f ) g ( f ),
(3.66)
g N ( F) g( f )
(3.67)
2 N
8
(3.68)
g( f w ) > 1 -
(3.69)
Dac funcia de activare este funcia sgn(x) sau funcia treapt, avem un numr total de
2 funcii binare diferite, deci, n general:
N
m(N) 2N
(3.70)
(3.71)
unde |w| reprezint numrul total de conexiuni sinaptice ale reelei neuronale.
Vapnik i Chervonenkis au demonstrat c forma funciei de cretere este ntotdeauna
ca cea din Fig.3.11.
73
log2m
P
dVC
Fig.3.11.: Graficul funciei de cretere m(N) (Conform [196]).
m( N ) N dVC 1
74
(3.72)
IV. Perceptroni
IV.1. Perceptronul simplu
Perceptronul simplu reprezint unul din primele modele de calcul neuronal construite,
fiind de departe cea mai studiat i analizat reea neuronal. De aceea, interesul de a studia
perceptronul simplu nu este numai de factur istoric ci i tiinific, proprietile sale putnd
fi regsite la orice reea neuronal. Perceptronul simplu nv cu ajutorul unei legi de nvare
supervizate. Arhitectura perceptronului simplu const din stratul de intrare i stratul de ieire,
neexistnd straturi ascunse.
Vom studia diferite tipuri de perceptroni simpli, legea de nvare, capacitatea de
generalizare i capacitatea de stocare a informaiilor.
Vom folosi n cele ce urmeaz notaia prescurtat PS pentru perceptronul simplu.
Bias x0
y1
x1
x2
yj
xi
ym
xn
Fig. 4.1.: PS cu n neuroni (+1 termen Bias - opional) i m neuroni n stratul de ieire.
Integrare: I j w ji x i , j 1,..., m
(4.1)
i0
Activare: y j f ( w ji x i ), j 1,..., m
i0
75
(4.2)
perechi
de
date
y j z j , j 1,..., m, 1,..., P
(4.3)
(4.4)
z j f ( w ji x i ), j 1,..., m, 1,..., P
(4.5)
i0
(4.6)
(4.7)
Acest hiperplan trece prin originea sistemului de axe i este perpendicular pe vectorul
triilor sinaptice w. Condiia ca PS s nvee corect este ca hiperplanul (4.7) s divid vectorii
de intrare x n dou clase corespunznd la vectori int z 1 sau z 1 .
76
y sgn( w x w0 )
(4.8)
w x w0
(4.9)
Exemplul 4.1. S considerm problema AND (I LOGIC), dat prin tabela de adevr:
x1
0
0
1
1
x2
z
-1
-1
-1
+1
0
1
0
1
y1
(b)
(1,1)
(0,1)
w
1
1.5
1
x1
(0,0)
(1,0)
x0=-1
x1
x2
Fig. 4.2: (a) Reprezentarea geometric a problemei AND, soluia fiind dat de hiperplanul (dreapta) ce
separ punctele de intrare n planul ( x1 , x2 ) ; (b) Un exemplu de PS ce implementeaz funcia
AND.
77
x2
x3
x1
Fig 4.3.: Reprezentarea geometric a problemei AND, termenul Bias fiind reprezentat explicit, ca
o nou dimensiune a spaiului de intrare. Vectorul triilor sinaptice w = (1.5, 1, 1) este
perpendicular pe planul ce separ punctele de intrare i trece prin origine.
Exemplul 4.2.: S considerm problema XOR (SAU EXCLUSIV), dat prin tabela de adevr:
x1
0
0
1
1
x2
0
1
0
1
z
-1
+1
+1
-1
w1 w2 w0 0
w1 w2 w0 0
Combinnd inecuaiile 1 i 4 obinem w1 0 , iar din inecuaiile 2 i 3 obinem w1 0 ,
ceea ce evident este imposibil. n Fig. 4.4. se observ c nu putem duce un hiperplan (dreapt)
care s separe punctele (vectorii) de intrare corespunztoare vectorilor int z 1 i
z 1 .
Problema XOR este un exemplu clasic de problem care nu este liniar separabil,
lucru pus n eviden de Minsky i Papert n [145], deci nu poate fi implementat cu un PS,
indiferent ce fel de lege de nvare folosim.
78
x2
(1,1)
(0,1)
x1
(0,0)
(1,0)
Fig.4.4.: Reprezentarea geometric a problemei XOR.
(4.10)
2 z j x k , z j y j
w jk
, j 1, , m, k 0, , n
0
,
altfel
(4.11)
w jk ( z j y j ) x k , j 1, , m, k 0, , n
(4.12)
sau:
79
Demonstraie:
Fiecare pas al procesului de nvare comport prezentarea unui vector de intrare u ,
triile sinaptice fiind modificate conform relaiei (4.12). Uneori putem avea wik 0 , cnd
relaia (4.4) este satisfcut.
Fie M numrul care exprim de cte ori vectorul x a generat modificri ale triilor
sinaptice, adic w 0 n cadrul procesului de nvare. Atunci folosind o scriere matricial
avem:
(4.13)
W M u
1
Dw
min w x [96].
w
Avem:
w w M u w M min u w M D(w ) | w |
(4.14)
i cum u k 1, k 1, n (u ) 2 n .
Din relaia (4.13) avem:
| w | 2 2 n 2 n n ( 2 )
(4.16)
(4.17)
| w |2 | w |2
| w |2
(4.18)
n ( 2 )
| w | 2 | w | 2 Mn ( 2 )
(4.19)
w 2 (w ) 2
MD(w ) 2
n ( 2 )
| w |2 | w |2
2
M n 2
D (w )
1 cos 2
(4.20)
(4.21)
y j w jk x k , j 1, m
(4.22)
k 0
Relaia care dorim s fie satisfcut n urma procesului de nvare, dac z reprezint
vectorul int, este:
n
z j w jk x k , j 1, , m, 1, , P
(4.23)
k 0
81
w ji
1 P P 1
z j ( q ) xi , j 1, m, i 0, n
n 1 1
(4.25)
P P
1 n P P 1
1 n
1
I j w ji x i z j (q ) x i x i z j (q ) ( x i x i )
n i 0 1 1
n i0
i0
1 1
z j (q 1 ) q z j z j ,
1 1
j 1, , m, 1, , P
1,
unde
reprezint simbolul lui Kroenecker. Atunci:
0,
y j f ( I j ) I j z j , 1, , P, j 1, , m
Alegerea triilor sinaptice w n conformitate cu (4.25) este posibil doar dac matricea
Q este nesingular, ceea ce este echivalent cu condiia ca vectorii de intrare
x ( x 0 , x1 ,..., x n ), 1,..., P s fie liniar independeni.
Condiia de liniar independen a vectorilor de intrare este suficient, dar nu i
necesar. Putem gsi soluia PS i n cazul cnd vectorii de intrare nu sunt liniar independeni,
dar prin alt metod.
Mulimea vectorilor de intrare x ( x 0 , x1 ,..., x n ), 1,..., P poate fi liniar
independent doar dac P n , ceea ce evident este o restricie sever asupra capacitii de
memorare a PS.
IV.1.3.2. Legea de nvare gradient descendent
Metoda prezentat n paragraful anterior este aplicabil practic doar dac matricea de
covarian Q este nesingular, ceea ce este o restricie foarte puternic. Presupunnd ns c
Q este nesingular, utilizarea formulei (4.25) este dificil, deoarece dac avem un numr
mare de date de antrenament, adic P este mare, avem de inversat o matrice de mare
dimensiune. De aceea, suntem interesai s determinm o lege iterativ de nvare, bazat pe
modificri succesive ale triilor sinaptice, pornind de la valori arbitrare.
Atam PS o msur a erorii prin intermediul unei funcii cost, numit funcie eroare,
definit astfel:
E( w)
n
1 m P
1 m P
2
(
z
y
)
(
z
wik x k ) 2
i i
i
2 i 1 1
2 i 1 1
k 0
(4.26)
82
wik
P
E
( z i yi ) x k , i 1, , m, k 0, , n
wik
1
(4.27)
Notnd eroarea obinut la neuronul al i - lea din stratul de ieire, relativ la al - lea
vector de intrare cu:
i zi yi , i 1, , m,
(4.28)
wik i x k , i 1, , m, k 0, , n
(4.29)
obinem:
Formula de mai sus este numit regula delta sau legea Adaline sau legea WidrowHoff [207] sau legea LMS (Least Mean Square) [172].
n lucrarea [68] se studiaz n detaliu, convergena legii de nvare a PS, bazat pe
metoda gradient descendent [20].
y j f ( I j ) f ( w jk x k ), j 1, , m, 1, , P
(4.30)
k 0
z j y j , j 1, , m, 1, , P
(4.31)
sau
n
z j f ( w jk x k ), j 1, , m, 1, , P
k 0
83
(4.32)
(4.33)
wik
n
k 0
(4.34)
k 0
Corecia wik ce se aplic unei trii sinaptice dup prezentarea vectorului de intrare x
este:
wik i x k , i 1, , m, k 0, , n
(4.35)
i ( zi yi ) f ' ( wik x k )
unde:
(4.36)
k 0
f1( x ) tanh( x ), f 2 ( x )
1
1 e x
(4.37)
Deoarece:
f1' ( x ) 1 tanh 2 ( x ) 1 f1 ( x ),
2
1
e x
f 2' ( x )
f 2 ( x )( 1 f 2 ( x ))
1 e x 1 e x
(4.38)
84
IV.1.5. PS stohastic
S ncercm s gsim o justificare a comportamentului stohastic [121] al neuronilor i
implicit al reelei neuronale din care fac parte. n reelele neuronale biologice (II.1.1.1.),
neuronii genereaz semnale de mrime variabil, existnd anumii factori de ntrziere n
legtura sinaptic, fluctuaii aleatoare datorate eliberrii substanei neuro-transmitoare de
ctre vezicule i alte asemenea elemente cu comportament aleator. Aceste efecte pot fi
considerate n cazul modelelor de neuroni artificiali, respectiv reelelor neuronale artificiale,
ca un zgomot [211] reprezentabil cu ajutorul unei fluctuaii termice [178].
Introducerea parametrului temperatur n studiul reelelor neuronale nu trebuie privit
prin prisma temperaturii fizice; temperatura va reprezenta un parametru de control al
zgomotului din date sau parametrul de control al momentului, cnd comportamentul
deterministic al reelei neuronale este depit.
Pentru a nelege mai bine modelul stohastic al PS, va trebui s studiem analogia
dintre reelelor neuronale i sistemele fizice magnetice.
IV.1.5.1. Sisteme magnetice
O descriere simpl a unui material magnetic const dintr-o mulime de atomi
magnetici, aranjai ntr-o matrice care reprezint structura cristalin a materialului. Aceti
atomi magnetici sunt numii spini.
Un spin poate fi orientat n diferite direcii, numrul de posibiliti depinznd de tipul
atomului considerat. Cel mai simplu model este aa numitul model atomic spin 1 2 , n care
doar dou direcii sunt posibile. Modelul spin 1 2 este reprezentat ntr-o matrice
corespunztoare, numit modelul Ising, avnd ataat o variabil y j 1 n fiecare punct al
matricei.
Fig.4.5: Modelul simplificat al unui material magnetic, descris cu ajutorul modelului Ising.
85
I j I ext I int
j
(4.39)
unde:
I j w ji y i I ext , j 1, n
(4.40)
i 1
termenul
ji
i 1
y j sgn( I j ), j 1, n
(4.41)
La temperaturi mai ridicate, apare fenomenul fluctuaiei termice care face ca spinii s
oscileze ntre cele dou direcii corespunztoare lui +1 i -1. ntotdeauna vor fi prezente dou
tendine:
cmp magnetic - care tinde s alinieze spinii;
fluctuaie termal - tinde s distrug alinierea spinilor.
Pentru a descrie matematic fenomenul fluctuaiei termice n modelul Ising, ne vom
folosi de dinamica Glauber [82]. n dinamica Glauber, regulile deterministe sunt nlocuite de
urmtoarea regul stohastic:
1, Pr ob( f ( I j ))
yj
, j = 1,2, , n
1, Pr ob(1 f ( I j ))
(4.42)
care reprezint legea de modificare a valorii unui spin. Funcia f, care este echivalentul
funciei de activare a neuronului artificial, se alege de obicei ca fiind funcia sigmoidal
Glauber:
f (I ) f (I )
1
1 e 2 I
(4.43)
1
, k 1.38 10 16 erg / K
k T
86
(4.44)
Constanta k este constanta Boltzmann. Putem rescrie relaia (4.42) sub forma:
Prob(y j 1) f ( I j )
1
1 e
2 I j
(4.45)
1 e 2 I 1 e 2 I e I e I e I e I
e I e I
I
tanh(I )
e e I
(4.46)
Dac considerm un material magnetic constituit din mai muli spini, nlocuind
fluctuaia termic real cu valoarea sa medie, metod cunoscut sub numele de Teoria
Cmpului Mediu (Mean Field Theory), vom avea:
n
I j w ji yi I ext
(4.47)
i 1
(4.48)
i 1
1
1 e
2 I j
, j 1, m, 1, P
(4.49)
unde:
n
I j w ji xi , j 1, m, 1, P
i 1
87
(4.50)
y j tanh( w ji xi ), j 1, m
(4.51)
i 1
w ji j xi , j 1, m, i 1, n, 1, P
(4.52)
unde:
j z j y j , j 1, m
(4.53)
Legea de nvare (4.52) va descrete valoarea medie a funciei eroare ataat PS
stohastic:
E ( w)
1
2
(z y )
i 1
(4.54)
E ( w) (1 zi yi )
(4.55)
i 1 1
E (w ) (1 z i y i )
i 1 1
1 z i tanh( wik x k )
i 1 1
k 1
(4.56)
E (w)
w ji w ji z i
w ji
w ji
i 1 j 1
i 1 j 1 1
n
[1 zi tanh(I i )] sec h 2 ( I i )
(4.57)
i 1 j 1 1
88
Cte perechi de date aleatoare (vectori de intrare, vectori int) putem stoca ntr-un
PS, avnd o arhitectur dat?
Cte perechi de date aleatoare (vectori de intrare, vectori int) pot fi nvate de un
PS, utiliznd o anumit lege de nvare supervizat?
(4.58)
Relaia de mai sus este valabil n limita lui n foarte mare, pentru n mic fiind doar o
relaie aproximativ.
Deoarece neuronii din stratul de ieire sunt independeni unul de altul, putem
simplifica studiul capacitii maximale lund n considerare doar un singur neuron n stratul
de ieire, fr ca generalitatea rezultatelor s fie afectat.
Dup cum am vzut n Cap. IV.1.3 liniar separabilitatea vectorilor de intrare
unde
S+1 S-1 =
(4.59)
(4.60)
deoarece n aceast situaie vom gsi ntotdeauna un hiperplan care s separe liniar punctele
(vectorii) de intrare x , 1, , P .
(4.61)
deoarece n acest caz nu vom putea determina ntotdeauna un hiperplan care s realizeze
liniar separabilitatea punctelor de intrare x , 1, , P .
Vom calcula n cele ce urmeaz C(P,n) prin inducie. Prima dat vom avea nevoie de o
serie de informaii preliminare:
Distribuia aleatoare a punctelor de intrare x , 1, , P nu este necesar, ci este doar o
garanie a generalitii rezultatelor.
Vom spune c mulimea punctelor de intrare x , 1, , P este n poziie general, dac
nu exist dou puncte care s fie situate pe o dreapt ce trece prin origine.
Vom numi soluie un hiperplan care realizeaz liniar separabilitatea punctelor de intrare
x , 1, , P , deci C(P,n) reprezint numrul de soluii.
S pornim de la un numr de P puncte de intrare x , 1, , P de dimensiune n.
Adugnd un nou punct x P1 la mulimea punctelor de intrare, obinem relaia de recuren
[146]:
(4.62)
C( P 1, n ) C( P, n ) C( P, n 1)
2, P m
unde C( 1, m )
0, P m, m 0
(4.63)
(4.64)
C( P, n ) 2 CPi1
(4.65)
i0
C (2n, n) 1
2
2P
adic, graficul funciei C(P,n)/2P trece ntr-adevr prin punctul de coordonate (2, 0.5).
90
C(P,n)/2P
0.5
P/n
0
2
P
Fig.4.6. Graficul funciei C(P,n)/2 n raport cu P/n. Graficul reprezint media cazurilor cnd
n = 2, 3,..., 1000.
n 1
i0
i0
(4.66)
k 0
k 1
y f ( wk xk ) f ( wk xk w0 ), 1, P
91
(4.67)
x2
w2
2
d1
3
d1
1
x1
w1
Deoarece spaiul conjugat este raportat la triile sinaptice ale PS, vom numi de acum
nainte spaiul conjugat, spaiul triilor sinaptice (weight space).
Pe baza corespondenei punct-hiperplan, punctelor de intrare x , 1, P le vor
corespunde hiperplane n spaiul conjugat al triilor sinaptice, care vor partiiona spaiul
triilor sinaptice. Vom avea n spaiul triilor sinaptice:
n 1
CPn1
- regiuni limitate
(4.68)
Un punct care aparine unei regiuni din spaiul conjugat al triilor sinaptice reprezint
un hiperplan n spaiul punctelor de intrare, care separ liniar punctele de intrare. Mutnd un
punct n spaiul conjugat al triilor sinaptice, dintr-o regiune n alt regiune adiacent,
hiperplanul conjugat corespunztor spaiului punctelor de intrare este deplasat relativ la un
punct de intrare.
Fiecare punct x , 1, P al spaiului de intrare poate fi etichetat n dou moduri, n
funcie de vectorul int, i anume:
92
x z 1
x z 1, 1, P
(4.69)
n( n 1 )
numrul regiunilor n spaiul triilor sinaptice;
2
E n 2 numrul segmentelor sau semidreaptelor ce delimiteaz aceste regiuni.
R n 1
R
2S
(4.70)
1
C ( P 1, n 1)
2
1
E n C ( P, n )
2
R
93
(4.71)
2E
2n , putem obine numrul mediu al minimelor
R
R
.
22n
(4.72)
1
e x e x
,
f
(
x
)
tanh(
x
)
2
1 e x
e x e x
94
n cele ce urmeaz, pentru a simplifica notaia, vom evita scrierea indicelui superior ,
care indic al -lea vector (punct) de intrare al mulimii de antrenament, atunci cnd nu exist
pericol de confuzie.
Modul de operare al PMS poate fi exprimat matematic astfel:
nk 1
Integrare: I w ji yik 1 , k 1, , l, j 1, , nk , I j0 x j , j 1, , n
k
j
(4.73)
i 1
Activare:
nk 1
y f ( I ) f ( w y
k
j
k
j
k
ji
k 1
i
i 1
nk 1
nk 2
) f ( w f ( w
k
ji1
i1 1
i2 1
k 1
ji2
(4.74)
k 1, , l, j 1, , n k
PMS va genera la stratul de ieire valorile:
nl 1
nl 2
i2 1
il 1
l
ji1
(4.75)
E (w )
1 P m
( z j y j ) 2
2 1 j 1
nl 1
nl 2
n
1 P m
l
( z j f ( w ji1 f ( w lji21 f (...( f ( w 1jil x ik )... )) 2 , j 1, , m (4.76)
2 1 j 1
i1 1
i2 1
il 1
P
E
( z j y j ) f ' ( I lj 1 ) yil 1 , j 1, , m, i 1, , nl 1
w lji
1
(4.77)
sau notnd:
(4.78)
obinem:
P
w lji lj yil 1 j 1, , m, i 1, , nl 1
(4.79)
w kji kj yik 1 , k 1, , l 1, j 1, , nk , i 1, , nk 1
(4.80)
nk 1
unde:
kj f ' ( I jk 1 ) wijk 1 ik 1 , j 1, , nk , k 1, , l 1
(4.81)
i 1
w kji kj yik 1 , k 1, , l 1, j 1, , nk , i 1, , nk 1
(4.82)
w kji (0,1), j 1, , nk , i 1, , nk 1 , k 1, , l .
Iniializm = 1.
Pasul 2: Aplicm la stratul de intrare, vectorul de intrare x, iniializnd:
y 0j x j , j 1, , n
Pasul 3: Propagm vectorul de intrare x, ctre stratul de ieire, utiliznd formulele:
nk 1
y kj f ( I jk ) f ( w kji yik 1 ), k 1, , l, j 1, , nk
i 1
y lj f ( I lj ) f ( w lji yil 1 ), j 1, , m
i 1
lj f ' ( I lj ) (z j y j ), j 1, , m
Pasul 5: Propagm erorile lj de la stratul de ieire ctre stratul de intrare:
nk 1
w kji kj yik 1
w kji w kji w kji , k 1, , l, j 1, , nk , i 1, , nk 1
Pasul 7: Dac P SAU E(w) < atunci = + 1 i Goto Pasul 2, altfel STOP.
k1
k2
1
kj
2
knk
j
nk
Stratul k
wjik
Neuronul i
Stratul k-1
1k , 2k ,..., nk
din
k
ji .
1 P m
( z j y j ) 2 folosit de legea de nvare
2 1 j 1
BP nu este singura alegere posibil. n general factorul ptratic ( z j y j )2 poate fi nlocuit cu
Funcia cvadratic eroare E (w)
97
1
f ' ( I lj ) F' ( z j , y j ), j 1, , m,. 1, P
2
(4.83)
lj z j y j , j 1,, m, 1,, P
(4.84)
Observm c n acest caz nu mai apare factorul f ' ( I lj ), ceea ce nseamn c atunci
cnd I lj este ntr-o vecintate a lui zero i suprafaa corespunztoare funciei eroare are o
curbur pronunat, nu vom avea fenomene divergente sau oscilatorii, asigurnd pai mici
descendeni pe suprafa.
n lucrarea lui Fahlman [71] ntlnim urmtoarea alegere pentru legea de nvare BP:
Pasul 4:
lj [ f ' ( I lj )
1
]( z j y j ), j 1, , m, 1, , P
10
(4.85)
lj arctan ( z j y j ) , j=1,,m,=1,,P
1
2
(4.85)
( z j y j ) , sgn( z j ) sgn( y j )
(4.86)
E (w ) P1 jm1
( z j y j ) , sgn( z j ) sgn( y j )
1 j 1
98
unde este un parametru ce este mrit gradual de la 0 la 1. Acest lucru va implica faptul c
prima dat vom fi interesai s obinem semnul potrivit pentru y j relativ la z j , abia dup
aceea interesndu-ne mrimea absolut a lui y j .
- rata de nvare. O valoare mare a lui poate duce la fenomene oscilatorii i chiar la
divergen, n timp ce valori mici ale lui determin viteze reduse de convergen.
De aceea, a aprut idea de a aduga la triile sinaptice w kji din ecuaia deltageneralizat (4.79) un termen inerial, numit momentum, cu rolul de a elimina oscilaiile
algoritmului de nvare i de a evita blocarea n puncte de minim relativ. Termenul
momentum va fora ca direcia de modificare s fie media direcilor cele mai descendente pe
suprafaa funciei eroare.
Termenul momentum ne va permite s facem pai mari pe suprafaa funciei eroare,
n procesul de nvare, fr pericolul oscilaiilor divergente. Termenul momentum este
implementat ca i o contribuie a iteraiei anterioare n modificarea triilor sinaptice [157]:
w kji (t 1)
E
w kji (t ),
k
w ji
(4.87)
Coeficientul este numit coeficient momentum, (0,1) , cea mai bun valoare,
determinat prin experimente practice, fiind = 0.9.
Efectul ecuaiei (4.87) este urmtorul: dac ne gsim pe o regiune plat a suprafeei
E
funciei eroare,
va avea o valoare aproximativ constant la fiecare iteraie, iar triile
w kji
sinaptice vor converge ctre:
w kji
E
,
1 w kji
(4.88)
.
1
considerente practice dect pe considerente teoretice. Chiar dac alegerea iniial a lui s-a
dovedit a fi inspirat, pe parcursul avansrii fazei de nvare, se poate ntmpla ca s nu
mai aib o valoare corespunztoare. De aceea s-a luat n considerare posibilitatea modificrii
adaptive a ratei de nvare, o dat cu procesul de nvare.
Pentru aceasta vom verifica influena modificrii unei trii sinaptice asupra funciei
eroare. Dac funcia eroare nu descrete, putem micora rata de nvare . Pe de alt parte, ne
putem atepta s ntlnim situaii cnd avem descreteri prea mari ale funciei eroare, care pot
influena negativ nvarea ulterioar i prin urmare va trebui s mrim rata de nvare .
Aceste considerente pot fi implementate matematic prin relaia:
a, a 0 E 0, | E | mare
b , E 0
, a, b, c R
0, altfel
(4.89)
unde E reprezint variaia funciei eroare.
Exist n literatura de specialitate un mare numr de lucrri consacrate acestei teme,
putnd meniona ca fiind de interes [107], [200].
IV.2.2.4. Algoritmi de minimizare a funciei eroare
E 0
1
2E
(w ) wi
( w 0 ) wi w j ...
wi
2 i , j wi w j
(4.90)
1
wHw bw c
2
definit
(4.92)
(E) H (w)
(4.93)
S presupunem c E a fost minimizat de-a lungul unei direcii ui, ntr-un punct unde
gradientul -gi+1 a lui E este perpendicular pe direcia ui, adic:
u i g i 1 0
(4.94)
(4.95)
altfel va trebui s minimizm din nou, ntr-o direcie care este o component a direciei
anterioare ui.
Combinnd (4.94) i (4.95) obinem:
0 u i (g i 1 g i 2 ) u i (E) u i H u i 1
(4.96)
(4.97)
u i 1 g i 1 i u i
(4.98)
g i 1 g i 1
, g k f (w k ), k 0
gi gi
(4.99)
w i 2 w i 1 i 1u i 1
(4.100)
u i sec i g i
(4.101)
i u i tan i 1 g i 1
(4.102)
tan i 1 sec i
g i 1
gi
tan i
g i 1
(4.103)
gi
g i 1 (g i 1 g i )
gi gi
(4.104)
astfel nct:
g i 1 g i 1 g i
gi
i tan i 1 sec i
g i 1 g i
gi
(4.105)
deci i+1 i iar ui+1 este ndreptat ctre cea mai abrupt direcie descendent.
(4.106)
g i 1 (g i 1 g i )
u i (g i 1 g i )
102
(4.107)
i*
g i 1 (g t 1 g t )
u i (g t 1 g t )
(4.108)
u i g i 0, () i t
(4.109)
(4.110)
De asemenea, noua direcie trebuie s fie suficient de descendent, de aceea vom avea
condiia:
1.2 g i
u i g i 0.8 g i
(4.111)
Funcia
eroare
E(w)
BackPropagation
0.5
Gradient
conjugat
0
0
200
100
300
numr iteraii
10-8
10-2
PS
PS
Fig.4.10.: Reprezentarea PS care pot fi considerai la un PMS: strat de intrare-neuron din stratul
ascuns; strat ascuns-neuron de ieire.
numr _ probleme
2P
PS
2n
2n
105
x2
01
(a)
11
00
10
y
x1
x
Spatiul corespunztor punctelor de intrare
(b)
y
0
z
1
01
11
x
00
10
(c)
Spatiul corespunztor stratului de iesire
Fig.4.11.: Reprezentarea geometric a datelor corespunztore diferitelor straturi ale PMS: strat de
intrare (a), strat ascuns (b), strat de ieire (c).
R( h ,n )
B ( P, n, h ) C( P, n )
(4.112)
m1
Conform cu (4.71), R( h, n )
1
C( h 1, n ) . Dac h n (lucru care se ntmpl n
2
(4.113)
( P, n , h ) C( m, h )
(4.114)
m1
Generalizarea pentru un PMS cu mai multe straturi ascunse este imediat. Obinem
formula general pentru numrul total de funcii reea:
R( n1 ,n ) R( n2 ,n1 )
m1 1
m2 1
R( nl 1 ,nl 2 )
...
ml 1 1
m1
( P, n , n1 ) Bm2 ( m, n1 , n2 )...Bml 1 ( ml 2 , nl 2 , nl 1 ) C( ml 1 , nl 1 )
Rb
RbP CRmb Am ( P )
(4.115)
m1
Am ( P ) ( 1 )k Cmk ( m k )P
(4.116)
k 0
n CRmb Am ( P ) 2 m ( 2 Rb )P
(4.117)
m1
R( h, n )P0 C( P, n )h
(4.118)
P0
h log2 C( P, n )
log2 R( h, n )
(4.119)
P0 log2 C( P, n )
(4.120)
(4.121)
iar n* devine:
1
n P
2
R( h ,n )
m
R( h ,n )
Am ( P0 ) 2 m
(4.122)
m1
1
reprezint factorul de mediere relativ la toate posibilitile de etichetare a
2P
punctelor de intrare.
unde factorul
1
2P
R( h ,n )
( P, n , h ) 2 m
(4.123)
m1
C( P, n )h
1
P
P
2
2
C( P, n )h R( h ,n )
Bm ( P, n , h ) 2
2
2P
m1
R( h ,n )
(4.124)
C( P, n )h
(4.125)
2P
Din formula (4.125) obinem valoarea aproximativ a capacitii maximale a PMS
PS 2 R( h ,n )
[27]:
nh
(4.126)
log 2
Rezultatul de mai sus este valabil n limita P, n, h foarte mari fiind similar cu cel
dedus n (4.65).
Pmax
108
V. nvarea activ
V.1. Introducere
n formele clasice de nvare supervizat pe baza unei mulimi de exemple, datele de
antrenament sau exemplele sunt de obicei alese conform unei distribuii arbitrare fixate
necunoscute. n acest sens, antrenorul este pur i simplu un recipient pasiv de informaii
despre funcia de nvat (funcia int).
Problema care ne intereseaz este dac antrenorul poate avea un rol mai activ, adic pe
lng a indica rspunsul dorit s ncerce s indice i care date de antrenament trebuie selectate
pentru a obine performane ct mai bune. Exist desigur nenumrate moduri n care
antrenorul poate fi mai activ. S considerm, de exemplu, cazul extrem unde cel care nva,
pune ntrebri pur i simplu pentru a afla informaiile de care are nevoie.
Pentru analiza noastr, ne vom concentra atenia asupra situaiei n care antrenorului i
se permite s-i aleag singur exemplele, pentru aproximarea funciilor. Cu alte cuvinte,
antrenorului i se poate permite s decid de unde s ia eantioane pentru a putea aproxima
funcia int. S observm c acest lucru este n contrast direct cu cazul pasiv cnd
antrenorului i se prezentau aleator exemple din domeniul de definiie sau exemplele erau alese
conform unei distribuii uniforme (n spaiul unidimensional real R aceasta coincide cu date
echidistante).
n analiza noastr vom pstra neschimbai ceilali parametri care influeneaz procesul
de nvare i vom compara nvarea activ cu cea pasiv, care difer doar prin modul de
alegere a exemplelor [56]. O ntrebare important este dac aceste moduri de alegere activ a
exemplelor i permit antrenorului s nvee cu un numr mai mic de exemple.
Exist principii de alegere a exemplelor? Vom dezvolta un cadru general pentru
alegerea exemplelor pentru aproximarea (nvarea) funciilor reale. Vom aplica aceste
principii de alegere a exemplelor pe nite clase specifice de funcii. Am obinut limite
teoretice pentru numrul de exemple necesare pentru nvarea funciilor reale din aceste
clase, la nvarea activ i pasiv i vom face o serie de simulri experimentale pentru a
demonstra superioritatea nvrii active.
F f : D Rn Y R
109
(5.1)
Din aceast clas de funcii F face parte i funcia int f care trebuie aproximat cu ajutorul
unei scheme de aproximare.
Mulimea de antrenament T este un set de date constituit din perechi formate din puncte ale
domeniului D i valorile funciei f n aceste puncte. Astfel:
T (x i , yi ) x i D, yi f (x i ), i 1,2,..., N
(5.2)
Exemplul 5.1 : Dac considerm funciile definite pe Rn cu valori n R, exemple tipice pentru
H sunt: clasa funciilor polinomiale de un ordin dat, clasa funciilor spline de un anumit ordin,
Radial Basis Functions cu un numr limitat de noduri etc.
Fie dC o metric pentru a determina ct de bun este aproximarea fcut de ctre antrenor.
Mai precis, metrica dC msoar eroarea pe submulimea C D.
Putem s facem urmtoarele observaii:
Exemplul 5.2: Pentru funcii reale definite pe Rn cu valori n R, un exemplu de metric este
1
110
Numrul de regiuni K(N,) n care se mparte domeniul D de ctre N puncte date, depinde de geometria spaiului D i de
schema de partiionare folosit. Pentru axa real R partiionarea se face n intervale ca i n exemplul dat, iar K(N) = N + 1.
111
FT f F f (x i ) yi , (x i , yi ) T
(5.3)
mulimea tuturor funciilor din F care trec prin punctele din mulimea de antrenament T.
Funcia int poate fi orice funcie din mulimea FT.
S definim mai nti un criteriu de eroare [149]:
eC (H, T, F) = sup dC (h, f), unde f FT
(5.4)
eC este o msur a erorii maxime pe care poate s o aib schema de aproximare (pe regiunea
C). Aceasta, evident depinde de date, de schema de aproximare i de clasa de funcii care
trebuie aproximat. Ea nu depinde de funcia int (cu excepia indirect, n sensul c datele
sunt generate de funcia int, dar aceast dependen este deja evideniat n expresia de mai
sus).
Avem astfel o schem de msurare a incertitudinii (eroarea maxim posibil) pe
diferite regiuni ale spaiului D. O posibil strategie [56] pentru a selecta noi exemple poate fi
ca pur i simplu s lum noi exemple n regiunea Ci , unde eroarea este cea mai mare. S
presupunem c avem o procedur P care face acest lucru. P poate alege exemplul din regiunea
C n centrul regiunii sau s-l aleag dup orice alt metod. Acest lucru poate fi descris
algoritmic astfel [52]:
Algoritm activ A
1. [Iniializare] Se alege un exemplu (x1, y1) T n acord cu procedura P.
2. [Obinerea de noi partiii] Se mparte domeniul D n regiuni C1,..., Ck(1) pe baza acestui
exemplu.
3. [Se calculeaz incertitudinea] Se calculeaz eCi , pentru fiecare i.
4. [Actualizarea general i condiia de oprire] Presupunem c la pasul j, domeniul D este
partiionat n regiunile Ci , i = 1,..., K(j). Se calculeaz eCi pentru fiecare i i n regiunea cu
eroarea cea mai mare se alege nc un exemplu n conformitate cu procedura P. Acesta este
punctul (xj+1, yj+1). Acest punct re-partiioneaz domeniul D. Dac eroarea maxim eD pe
ntregul domeniu D este mai mic dect atunci algoritmul se oprete; altfel se reia de la
Pasul 2.
Algoritmul de mai sus este o posibil strategie activ. Oricum, acesta poate fi
optimizat pentru a ne da localizarea precis a urmtorului exemplu. S ne imaginm pentru un
moment, c antrenorul ntreb care este valoarea funciei n punctul x D. Valoarea obinut
aparine mulimii: FT(x) f ( x) f FT .
S presupunem c valoarea este y FT(x). De fapt, antrenorul are acum un nou
exemplu, perechea (x, y) pe care o poate aduga la setul de date de antrenament T pentru a
obine un nou set mai larg de date T * T x, y .
Schema de aproximare H poate aplica noul set de date la o nou funcie aproximant
h. Se poate calcula:
eC (H, T, F) = sup (h, f), unde f FT
112
(5.5)
Evident eD(H, T, F) msoar acum eroarea maxim posibil privitor la noul set de
date. Aceasta depinde de (x, y). Pentru un x fixat noi nu tim valoarea lui y pe care ar trebui s
o cunoatem dac alegem punctul ca un nou exemplu. Prin urmare, un gnd firesc ar fi s
alegem cel mai nefavorabil caz, s presupunem c lum cea mai nefavorabil valoare pentru
y i s continum cu aceast valoare algoritmul. Aceasta ne va produce cea mai mare eroare
posibil pe care o putem obine alegndu-l pe x ca nou exemplu. Astfel eroarea (pe ntregul
domeniul de definiie D) este:
sup e D H, T' , F sup e D H, T x, y, F
y FT x
yFT x
(5.6)
(5.7)
inf H , D, F
(5.8)
Orice schem de aproximare poate s genereze o eroare cel puin tot att de mare ca
cea din expresia de mai sus. O alt limitare este cea impus erorii eD ca s fie independent de
mulimea de date.
Astfel, avnd o schem de aproximare H, dac setul de date T este ales arbitrar, se
poate calcula probabilitatea:
PeD (H, T, F) >
(5.9)
P inf H, T , F
H
(5.10)
F f 0 f x M , x R, f ( x) f ( y) x y
(5.11)
(5.12)
d C ( f1 , f 2 )
f1 f 2 dx
p
1
p
(5.13)
114
1M
1
ln exemple pentru a nva P-PAC clasa de funcii,
2 2
unde P este o distribuie uniform.
(1 ( 2 / M ) p ,1)
h( x ) dx
1
p
(5.14)
0, x [0, 1 (2 / M ) p ]
g( x )
p
M, x [1 (2 / M ) , 1]
(5.15)
d (h, g )
[ 0 ,1]
g h dx
p
1
p
p
p
g h dx
p
[
1
(
2
/
M
)
,
1
]
1
p
1
p
(5.16)
p
M p dx
h dx 2
p
p
(1( 2 / M ) ,1)
(1( 2 / M ) ,1)
[ 0,1]
g h dx
p
1
p
1
p
0 h dx
(1( 2 / M ) p ,1)
(5.17)
1
1
ln .
p
ln(1 (2 / M ) )
1
1
1
,
2
2 ln(1 )
folosind aceast inegalitate i considernd = (2/M)p obinem c pentru
pentru
1
1M
1
M 1p
1
ln .
avem ln( 1 )
p
2 2
2 2
ln(1 (2 / M ) )
p
1 M
1
Deci, n afara cazului cnd l ln , probabilitatea ca toate exemplele s
2 2
fie extrase din A este mai mare dect . Prin urmare, antrenorul pasiv este obligat s fac o
eroare de cel puin , cu o probabilitatea mai mare dect , astfel nct nvarea PAC nu poate
avea loc.
yi+1
yi
xi+1
xi
Fig. 5.1: Mulimea FD const din toate funciile coninute n dreptunghiurile reprezentate i
care trec prin punctele de antrenament (de exemplu funciile reprezentate cu linie
punctat). Funcia aproximant h este reprezentat cu linie continu.
116
h
A
(xi, yi)
B
0
Fig. 5.2: Desenul mrit al intervalului Ci = [xi, xi+1]. Eroarea maxim pe care o poate avea
schema de aproximare este indicat de zona haurat. Aceasta se ntmpl atunci
cnd considerm c funcia int are valoarea yi pe tot intervalul.
1
p
h f ( x ) p dx B A x dx AB
i
1
0 B
Ci
p 1 p
p
1
p
(5.18)
e Dp eCpi
(5.19)
i 0
k
p
calculeaz eroarea total normalizat Tk E ip , procesul se termin cnd Tk .
i 1
Funcia aproximant h pentru fiecare pas la este o interpolare liniar a datelor alese pn
atunci, iar funcia aproximant final h este obinut dup terminarea ntregului proces.
S ne imaginm c alegem ca nou exemplu punctul x Ci = [xi, xi+1] i obinem
valoarea y FT(x) (adic y este n dreptunghiul corespunztor) cum este reprezentat n Fig.
5.3.
(xi+1,yi+1)
yi+1
y
yi
(xi,,yi)
xi
xi+1
Ci2
Ci1
Ci
Fig. 5.3: Situaia cnd alegem din intervalul Ci un nou exemplu. Acesta mparte intervalul
Ci n dou sub-intervale i cele dou zone haurate indic noile restricii ale
funciei.
118
C i2 unde C i1 = [xi, x) i C i2 = [x, xi+1]. Mai obinem, de asemenea, dou dreptunghiuri mai mici
n interiorul celui iniial n care funcia este acum constrns s se ncadreze. Eroarea
msurat prin eC poate fi recalculat lund n considerare acestea.
Obs. 5.1: Adugarea unui nou exemplu (x, y) nu schimb valoarea erorii pe nici un alt
interval. Ea are efect doar asupra intervalului Ci care a fost partiionat. Eroarea total pe tot
acest interval se exprim prin relaia:
1
1 p
( x xi )( y f ( xi )) p ( xi 1 x)
eCi H , D' , F
p
( f ( xi 1 ) f ( xi )) y ) p
p
(5.20)
1`
G ( zr p ( B z )( A r ) p ) p
1
B
arg min z[ 0, B ] sup r[ 0, A] G zr p ( B z )( A r ) p p
2
Demonstraie: Fie z[0, B]. Exist trei cazuri care trebuie luate n considerare:
Lema 5.1:
sup r[ 0, A] G zr p ( B z )( A r ) p
1
p
sup r[ 0, A] G zr ( B z )( A r )
sup r[ 0, A] G zr ( B z )( A r )
p
1
p
sup r[ 0, A] G ( B / 2 )r p ( B / 2 )( A r ) p
G sup r[ 0, A] B / 2(r p ( A r ) p ) (r p ( A r ) p )
Pentru r = a expresia creia i s-a aplicat supremum devine:
B / 2(r p ( A r ) p ) (r p ( A r ) p ) = (B/2 + ) Ap.
sau
B / 2((r / A) p (1 (r / A)) p ) ((r / A) p (1 (r / A)) p ) (B/2 + )
Fie =
r
(evident [0,1]) i s observm c (1 - ) p 1 - p i p - (1 - ) p 1,
A
119
1
p
1
p
sup r[ 0, A] G( zr ( B z )( A r ) ) G( B / 2 ) A
p
sup r[ 0, A] G ( zr ( B z )( A r ) )
p
1
p
1
p
G ( B / 2) sup r[ 0, A] (r ( A r ) )
n acest caz, expresia de mai sus se reduce la GA(B/2)1/p. Considernd aceste trei
cazuri, lema este demonstrat.
p
Lema de mai sus mpreun cu Obs.5.1 dovedete c alegerea optimal a noului punct
din intervalului Ci este mijlocul intervalului. n particular, avem:
min xxi , xi 1 sup y f xi , f xi 1 eCi H , T x. y , F
1
1 p xi 1 xi p
f xi 1 f xi
2
p 1
eC H , T , F
i 1
(5.21)
2p
Cu alte cuvinte, dac antrenorul este obligat s-i aleag urmtorul exemplu n
intervalul Ci , acesta va asigura minimizarea erorii. n particular, dac eroarea pe intervalul Ci
este eCi , eroarea pe aceast regiune este redus dup alegerea exemplului n mijlocul acestui
1
p
N
eCp H , T , F p
eD H , T x. y , F j 0, j i eCp j H , T , F i
Din descompunerea de mai sus, este clar c exemplul optimal conform cu algoritmul
B, este mijlocul intervalului Cj care are eroarea maxim eCj(H, T, F) pe baza datelor de
antrenament T. Astfel putem enuna urmtoarea teorem [56]:
Teorema 5.2: Algoritmul AIA (Algoritmul nvrii Active) este un algoritm optimal relativ
la clasa de funcii monotone i mrginite.
120
M
Teorema 5.3: Algoritmul AIA converge n cel mult pai.
Demonstraie: Vom da o schi a demonstraiei acestei teoreme.
Mai nti, s considerm o gril uniform de puncte distincte aparinnd domeniului [0, 1].
Acum s ne imaginm c antrenorul activ lucreaz exact aa cum a fost descris mai sus, dar
cu o mic deosebire, el nu poate s aleag dect puncte aflate pe gril. Astfel la al k-lea pas, n
loc de a alege mijlocul intervalului cu cea mai mare eroare, va alege punctul din gril care
este cel mai apropiat de mijloc. Evident, intervalele obinute la pasul k sunt de asemenea
separate de punctele din gril. Dac antrenorul a ales toate punctele din gril, atunci eroarea
maxim posibil pe care o poate face este mai mic dect .
Pentru a dovedi aceast ultim aseriune, fie = /M i s considerm mai nti un
interval: [k, (k+1)].
tim c urmtoarele relaii sunt adevrate pe acest interval:
f (k) = h(k) f (x), h(x) f ((k +1)) = h((k +1))
Astfel:
| f (x) - h(x) | f ((k + 1)) - f (k) i
( k 1)
f ( x) h( x) dx
p
( k 1)
f ((k 1) ) f (k ) p dx
f ((k 1) ) f (k )
p
Deci:
[ 0 ,1]
f h dx
p
[ 0 , )
f h dx
p
[1 ,1]
f h dx
p
(( f ( ) f (0)) p ( f (2 ) f ( )) p ( f (1 ) f (1 2 )) p
( f (1) f (1 )) p ) ( f ( ) f (0) f (2 ) f ( )
f (1) f (1 )) p ( f (1) f (0)) p M p
Dac = (/M)p eroarea dup norma Lp poate fi cel mult
[ 0,1]
f h dx
p
1
p
Astfel antrenorul activ trece de la un pas la altul alegnd exemple din grila de puncte.
Convergena poate apare la orice pas, dar evident c dup ce s-au luat n considerare toate
valorile funciei int necunoscute n toate punctele grilei, eroarea este probabil mai mic
dect i algoritmul se poate opri n acest moment.
exemplelor i numrul de exemple de care are nevoie pentru a converge depinde de natura
specific a funciei int. Am calculat deja limita superioar a numrului de exemple de care
are nevoie n cel mai nefavorabil caz. Vom ncerca n cele ce urmeaz s analizm modul n
care strategie difer de alegerea aleatoare i echidistant a exemplelor (echivalent cu
nvarea pasiv) fa de alegerea exemplelor cu ajutorul algoritmului AIA (echivalent cu
nvarea activ). Am efectuat simulri pe funcii monoton cresctoare arbitrare pentru a
caracteriza mai bine condiiile n care strategia activ poate s depeasc ambele strategii
pasive cu alegerea exemplelor aleator i cea cu alegerea uniform a exemplelor.
Distribuia punctelor selectate cu algoritmul AIA
Aa cum s-a menionat anterior, punctele selectate de algoritmul AIA depind de
specificul funciei int.
De observat felul n care se aleg exemplele. n regiunile unde funcia se schimb mai
mult (astfel de regiuni pot fi considerate ca avnd o mai mare densitate informaional i prin
urmare mai greu de nvat), algoritmul AIA alege mai multe exemple.
n regiunile unde funcia nu se schimb prea mult (corespunznd zonelor de densitate
de informaional mic mai uor de nvat), algoritmul AIA alege mai puine exemple. De
fapt, densitatea punctelor par s urmeze derivata funciei int aa cum se vede din Fig. 5.4.
Fig. 5.4.: Linia mai deschis indic densitatea datelor alese pentru un exemplu de funcie monoton
cresctoare. Linia neagr indic derivata aceleai funcii.
df
F f : [0,1] R | f ( x) este derivabila si
d
dx
122
(5.22)
S observm cteva lucruri despre aceast clas. Mai nti nu exist nici o restricie
direct referitor la valorile pe care le pot lua funciile din clasa F. Cu alte cuvinte,
M 0, f F , x [0,1] pentru care f (x) > M.
Oricum derivata nti este mrginit, ceea ce nseamn c o funcie oarecare care
aparine lui F nu poate avea variaii mari.
Vrem s investigm n continuare posibilitatea producerii unei strategii de nvare
activ a acestei clase. Mai nti s deducem limita inferioar a numrului de exemple de care
are nevoie un antrenor (indiferent dac este pasiv sau activ) pentru a nva aceast clas cu o
precizie . De asemenea, vom deduce de asemenea limita superioar a numrului de exemple
pe care le alege algoritmul activ.
S specificm cteva elemente necesare pentru aceast clas de funcii. Schema de
aproximare H este o schem de aproximare spline de ordinul I, domeniul D = [0, 1] este
partiionat n intervale de ctre datele din coninute n intervalele : [xi, xi+1], iar metrica dC este
o metric L1 dat de relaia
d C ( f1 , f 2 ) f1 ( x) f 2 ( x) dx
C
d ( x xi ), pentru x [ xi , z ]
f ( x)
d ( x xi 1 ), pentru x [ z , xi 1 ]
d ( x z ) 2 d (bi )
, pentru x [ z , z ]
2
2
Prin calcule simple obinem:
xi 1
xi
2
bi
bi d bi
f dx d
b
4
2
2
2
xi
xi+1
bi
xi 1
xi
kdbi 2
f dx
4
f dx
kd m1 2
bi
4 i
124
Lema 5.3: Pentru o mulime de numere reale b1,..., bm astfel nct b1 + b2 + ... + bm = 1 este
adevrat urmtoarea inegalitate:
b12 b22 bm2
1
m
f h dx . Pe de alt parte, dac < , putem considera pe f (ca mai sus). n acest
caz,
f h dx f dx h dx
kd
.
4(m 1)
Evident, dac m < (kd/8) - 1, antrenorul va alege o aproximant cu o eroare mai mare
dect . n orice situaie antrenorul este obligat s aleag o aproximant cu o eroare egal sau
mai mare cu , dac sunt alese mai puin de (d / ) exemple (indiferent cum sunt alese aceste
exemple).
Ci
d 2 Bi2 Ai2
h f dx
4d
125
(5.23)
yi+1
yi
xi
xi+1
Fig. 5.6: O descriere a situaiei pentru un o mulime de date de antrenament oarecare. Setul
de funcii FT const din toate funciile care se cuprind n paralelogramele
prezentate i trec prin punctele mulimii de antrenament (de exemplu funciile
reprezentate cu linie ntrerupt). Funcia de aproximat (int) este reprezentat
cu linie continu.
yi+1
yi
0
B
xi
xi+1
Ci
Fig. 5.7:.Versiunea mrit a intervalului Ci. Eroarea maxim pe care o poate avea
schema de aproximare este indicat de zona haurat .
eD(H, T, F) = sup f FT
j 0
Cj
h f dx eC j
(5.24)
j 0
Calculul erorii eC este foarte important pentru elaborarea unei strategii active de
alegere a exemplelor. S ne imaginm c alegem punctul x din intervalul Ci ca un nou
126
exemplu, valoarea y aparinnd deci lui FT(x). Acesta adaug nc un interval i mparte
intervalul Ci n dou intervale C i1 i C i2 , cum este prezentat n Fig.5.8.
Obinem, de asemenea, dou paralelograme corespunztoare mai mici, n interiorul
crora este cuprins funcia int.
(xi+1,yi+1)
(xi,yi)
x
Ci1
Ci2
Ci
Fig. 5.8.: Situaia cnd n intervalul Ci este ales un nou exemplu. Acesta mparte intervalul
n dou sub-intervale i cele dou zone haurate indic noile constrngeri ale
funciei.
(5.25)
Pentru intervalul Ci, eroarea total este calculat acum astfel: jumtate din suma ariilor
celor dou paralelograme (paralelogramele haurate n Fig.5.8.):
eCi (H, T, F) = (1/4d)((d2u2 - v2) + (d2(Bi - u)2 - (Ai - v)2)) =
= 1/(4d)((d2u2 + d2(Bi - u)2) - (v2 + (Ai - v)2))
(5.26)
unde u = x - xi, v = y - yi.
S observm c u[0, Bi] pentru xi x xi+1.
Oricum, fiind un punct x fixat (acesta fixeaz valoarea lui u), valorile posibile pe care
v le poate lua sunt constrnse de geometria paralelogramului. n particular, v se poate afla
127
Lema 5.4:
1 2 2
d B A 2 min u[0,B] sup v{T ( x ) yi } H 2 (u, v)
2
unde H2(u,v) = ((d2u2 + d2(B - u)2) - (v2 + (A - v)2)).
(5.27)
(5.28)
Eroarea total e D eCi este calculat la fiecare pas; procesul se termin cnd eD < .
i 1
Funcia de aproximare h la fiecare pas este o interpolare liniar a tuturor punctelor din setul
de date, iar aproximanta final se obine dup terminarea ntregului proces.
128
d
4d n 1
4d n 1
Dac exist (n-1) de astfel de intervale atunci eroarea total este limitat de:
2
(n 1)
1 2 1
1 1
d
4d n 1
4d n 1
Este uor de artat c pentru n > d / (4) +1, eroarea maxim este mai mic dect .
Astfel, antrenorul nu are nevoie s aleag mai mult de d / (4) +1 exemple pentru a nva
funcia cu precizia . De menionat c antrenorul va identifica funcia int cu precizia cu
probabilitatea 1, urmnd strategia descris de algoritmul activ AIA.
Acum avem o limit inferioar i una superioar a numrului de exemple necesare
pentru nvarea PAC a clasei de funcii.
129
130
codificare fcut folosind un numr ct mai mic de bii, pstrnd ct mai mult din
relevana informaiei originale. O astfel de codificare este necesar pentru o compresie a
datelor, preliminar transmisiei acestora printr-un canal de transmisie cu band limitat
(presupunnd c la cellalt capt al canalului de transmisie exist o reea neuronal
decodificatoare, cu funcie invers reelei neuronale de codificare).
6. Hri de trsturi (Feature Mapping). Aceast situaie apare n cazul cnd stratul de
ieire al reelei neuronale posed o arhitectur geometric fix (ca de exemplu o matrice
bidimensional) i doar cte un neuron de ieire este activ la un moment dat. n acest
fel, vectorii de intrare prezentai la stratul de intrare al reelei neuronale sunt aplicai la
diferite puncte din schema (harta) reprezentat de stratul de ieire, obinndu-se o hart
topografic a vectorilor de intrare, vectorii de intrare asemntori fiind ntotdeauna
aplicai unor puncte apropiate ale hrii de trsturi reprezentat de stratul de ieire.
Aceste cazuri nu sunt n mod necesar distincte, putnd fi combinate n diferite alte
cazuri. De exemplu, cazul de codificare poate fi executat cu ajutorul cazului analizei
componentei principale, sau a cazului de clustering, aceast metod fiind denumit n acest
context cuantificare vectorial (vector quantization) [155]. De asemenea, analiza
componentei principale poate fi folosit pentru aa numita reducere dimensional
(dimensionality reduction) a datelor de intrare, nainte de a fi aplicat clusteringul sau hrile
de trsturi. Reducerea dimensional este necesar mai ales atunci cnd cutm modele ntr-o
mulime de date necunoscut - un spaiu de date de mare dimensionalitate avnd un numr
mic de exemple.
Trebuie s subliniem c nvarea nesupervizat poate fi util chiar n situaii unde este
posibil i nvarea supervizat, ca de exemplu:
stratul de ieire al acestor reele neuronale conine un numr mult mai mic de neuroni
dect stratul de intrare, excepie fcnd cazul hrilor de trsturi.
arhitectura acestor reele neuronale este mult mai apropiat de modelele neurobiologice
naturale dect orice alt arhitectur de reea neuronal.
Vom considera n acest capitol o serie de tehnici de nvare bazate pe o regul Hebb
modificat [69], [94]. De asemenea, vectorii de ieire ce se obin la stratul de ieire i vom
considera cu valori reale continue, fr a li se aplica metoda winner-take-all (neuronul din
stratul de ieire cu cea mai mare valoare de ieire este declarat nvingtor, fiind singurul
neuron considerat activ). Scopul principal l va reprezenta gradul de similaritate al datelor de
intrare sau proiecia acestora de-a lungul componentelor principale.
132
w1
x1
w2
x2
w3
wi
x3
wn
xi
xn
Fig. 6.1.: Arhitectura unui MLS. Neuronul de ieire are funcia de activare liniar.
Deoarece funcia de activare a neuronului din stratul de ieire este liniar, putem s
scriem:
133
x0
y w j x j wT x x T w
(6.1)
j 1
unde x T nseamn transpusa vectorului coloan x, iar produsul "" reprezint produsul
matricial.
Dorina noastr, dup cum am mai amintit, este ca neuronul de ieire s genereze o
valoare de ieire y care s reprezinte o msur scalar a gradului de familiaritate:
cu ct un vector de intrare are o probabilitate mai mare cu att valoarea de
ieire generat y trebuie s fie mai mare.
Acest lucru reprezint chiar strategia de nvare Hebbian, exprimabil matematic
prin relaia:
wi y xi
(6.2)
j 1
j 1
w j x j x i C ij w j C w = 0
(6.3)
unde notaia
reprezint media n raport cu distribuia probabilistic P(x), iar C matricea de
corelaie, definit astfel:
Cij xi x j
(6.4)
C x xT
(6.5)
( xi xi ) ( x j x j ) .
134
(6.6)
deci toi vectorii si proprii sunt mai mari sau egali cu zero.
Revenind la relaia (6.5), punctul ipotetic de echilibru stabil w reprezint un vector
propriu al matricei de covarian C cu valoarea proprie 0. Dar acesta nu poate fi stabil, cci n
mod necesar matricea de covarian C are i valori proprii strict pozitive, de aceea orice
fluctuaie de-a lungul direciei date de un vector propriu cu valoare proprie strict pozitiv va
crete exponenial. Astfel, direcia cu cea mai mare valoare proprie max relativ la matricea C,
va deveni dominant, w va tinde gradual ctre vectorul propriu ce corespunde la valoarea
proprie max .
Din cele prezentate pn acuma rezult urmtoarea concluzie:
Legea de nvare Hebbian (6.2) are doar puncte fixe w instabile.
wi y( x i ywi )
(6.7)
S observm analogia dintre regula lui Oja i legea de nvare Delta (3.6); deoarece
factorul de modificare al triilor sinaptice w depinde de diferena dintre vectorul de intrare xi
i valoarea de ieire propagat napoi ywi, regula de nvare a lui Oja seamn cu o lege de
nvare Delta invers.
S artm c ntr-adevr legea de nvare Oja face ca vectorul triilor sinaptice w s
tind ctre un vector unitar sau ctre un vector propriu maximal. Pentru aceasta s analizm
comportamentul unui proces de nvare nesupervizat bazat pe regula lui Oja.
135
deoarece suntem n cazul modelului liniar simplu, i neuronul de ieire are ataat
o funcie de transfer liniar, valoarea de ieire y reprezint componenta vectorului
de intrare x de-a lungul direciei vectorului triilor sinaptice w.
n cazul (b), valoarea medie a lui y este maximizat relativ la direcia gsit n
urma procesului de nvare.
Fig.6.2.: Exemplu relativ la legea de nvare nesupervizat Oja. Punctele reprezint 1000 de
date de nvare generate de distribuia probabilistic P(x). Sgeile reprezint vectorul
mediu al triilor sinaptice dup un numr mare de actualizri efectuate de procesul de
nvare. Liniile subiri reprezint traiectoriile vectorului triilor sinaptice w n timpul
procesului de nvare: (a) pentru 2500 de pai de nvare; (b) pentru 1000 de pai de
nvare.
n ambele cazuri (a) i (b) direcia gsit de legea de nvare nesupervizat bazat
pe regula lui Oja determin valori de ieire y mai mari dect orice alt direcie, cnd procesul
de nvare se bazeaz pe vectori de intrare generai de distribuia probabilistic original.
Pentru vectori de intrare generai de alt distribuie probabilistic nefamiliar cu procesul
136
de nvare, acetia vor tinde s genereze valori mai mici pentru |y|, chiar dac aceste valori au
n medie o magnitudine mai mare.
Astfel, reeaua neuronal construiete un index de similaritate relativ la distribuia
probabilistic privit ca un ntreg, dar nu i n mod necesar pentru un vector de intrare
particular x.
n concluzie, putem afirma faptul c regula lui Oja alege n urma procesului de
nvare, direcia w de maximizare a valorii y 2 . Pentru date de intrare ca cele din cazul (a)
cu medie nul, aceasta corespunde cazului maximizrii varianei.
S demonstrm c ntr-adevr aplicarea legii de nvare nesupervizate bazate pe
regula lui Oja face ca vectorul triilor sinaptice s convearg la un vector w ce posed
urmtoarele proprieti:
2
i
i 1
1.
0 wi yx i y 2 w i
w x
j
j 1
x i w j x j w k x k wi
j 1 k 1
(6.9)
n n
Cij w j w j C jk w k wi
j 1
j 1 k 1
0 w Cw w T Cw w
(6.10)
w T Cw
(6.11)
Dac notm:
0 Cw w sau Cw w
137
(6.12)
w T Cw w T w w 2
(6.13)
Ecuaia (6.12) arat c un vector al triilor sinaptice w ce corespunde unui punct de
echilibru, trebuie s fie un vector propriu a matricei de covarian C. De asemenea, relaia
(6.13) exprim faptul c |w| = 1. Singurul lucru ce ne-a mai rmas de demonstrat este c
max .
Orice vector propriu normalizat a matricei de covarian C satisface relaia (6.10), dar
numai vectorul propriu ce corespunde lui max este stabil. Pentru a demonstra acest lucru, fie
w vectorul triilor sinaptice situat ntr-o vecintate a unui vector propriu normalizat a matricei
de covarian C, notat c. Atunci putem scrie relaiile:
cu:
w c
(6.14)
Cc c i c 1
(6.15)
T C(c ) (c )
c C c Cc c T Cc c c C c
c Cc O( 2 )
T
(6.16)
C 2 T c c O( 2 ).
n continuare, alegem componenta variaiei lui de-a lungul direciei unui alt
vector propriu normalizat al matricei de covarian C, notat c. Pentru aceasta nmulim la
stnga relaia (6.16) cu (c)T, ignornd termenii de ordinul O(2):
2 T c c
2 c
(6.17)
unde:
(c ) T c
(6.18)
1 ,
dac
0 , dac
(6.19)
138
w wi w
(6.20)
wi yx i wi w
(6.21)
care face ca vectorul triilor sinaptice w s convearg ctre acelai vector propriu maximal ca
i cel obinut cu ajutorul regulii lui Oja. Singura diferen const n faptul c nu se mai
impune condiia ca vectorul triilor sinaptice s fie de modul unitar ci w max . Regula
lui Yuille (6.21) are dezavantajul c, fa de regula lui Oja, nu este local - pentru a actualiza
o trie sinaptic wi avem nevoie de informaii despre toate celelalte trii sinaptice wj ,ji.
Avem ns avantajul existenei unei funcii cost asociate reelei neuronale, de forma:
2
1 n n
1 n
1
1 2
E Cij wi w j wi2 w T Cw w
2 i 1 j 1
4 i 1
2
4
(6.22)
Efectul medierii wi n relaia (6.21) este din punct de vedere matematic echivalent
cu aplicarea unei metode gradient descendente relativ la suprafaa generat de funcia cost
(6.22).
O metod de analiz a datelor, inspirat din statistic [12], este metoda cunoscut sub
denumirea analiza componentei principale (PCA - Principal Component Analysis). Metoda
este ntlnit i n teoria comunicailor sub denumirea de transformata Karhunen-Loeve,
fiind asemntoare cu metoda celor mai mici ptrate. Dup Linsker [128], PCA este
echivalent cu maximizarea coninutului informaional al semnalului de ieire n situaii unde
acest semnal respect o distribuie probabilistic Gaussian.
Scopul metodei PCA este de a determina o mulime de m vectori ortogonali n spaiul
datelor de intrare, astfel nct aceti vectori s conin ct mai mult din variana acestor date.
Proiectnd datele din spaiul original n-dimensional n spaiul m-dimensional generat de
139
n general se poate dovedi faptul ca cea de-a k direcie a componentei principale este
de-a lungul direciei unui vector propriu ce corespunde celei de-a k valori proprii maximale a
matricei de covarian total xi i x j j , unde i xi .
Obs.6.3.: Pentru date de intrare cu media nul, i 0 suntem n cazul matricei de covarian
C, definit n (6.5). n cele ce urmeaz vom considera c ne aflm n aceast situaie, i prin
matrice de covarian vom nelege matricea C definit n (6.5).
Pn acuma am vzut c prima component principal - ce corespunde direciei
varianei maxime nerestricionate - corespunde unui vector propriu maximal a lui C. S
dovedim n continuare afirmaia fcut mai sus, relativ la cea de-a k component principal:
pentru aceasta vom scrie variana de-a lungul unei direcii date de un vector unitar u:
u2 x T u u T xxT u u T Cu
2
(6.24)
u2 u2
(6.25)
140
unde u este componenta vectorului u de-a lungul vectorului propriu c ce corespunde valorii
proprii a matricei de covarian C.
S considerm n continuare c valorile proprii sunt n ordine descresctoare:
1 2 ... n
(6.26)
cu 1 max .
Procedm n continuare la aplicarea procedeului induciei matematice, presupunnd c
principalele componente de la 1 la k - 1 sunt de-a lungul direciilor date de primii k - 1 vectori
proprii. Ce-a de-a k component principal este constrns s fie perpendicular pe aceste
direcii, astfel c avem:
u1u 2 ... u k 1 0
(6.27)
Maximiznd u2 relativ la condiia (6.27) de mai sus, innd cont c u este un vector
unitar, deci |u| = 1 sau u2 1 , obinem [96]:
1, dac j k
uj
altfel
0,
(6.28)
ceea ce dovedete c cea de-a k component principal este de-a lungul celui de-al k vector
propriu.
Mai mult chiar, relaia (6.25) dovedete c variana u2 este egal cu k cnd vectorul
unitar u este de-a lungul direciei celei de-a k componente principale.
Aplicarea regulii lui Oja (6.7) va conduce la determinarea unui vector al triilor
sinaptice w care maximizeaz ptratul mediu al valorilor de ieire Y 2 . Pentru cazul luat n
discuie, cu date de intrare avnd o medie nul (Obs.6.3), vectorul triilor sinaptice reprezint
prima component principal.
Ar fi de dorit s avem o reea neuronal cu m neuroni de ieire care s realizeze
extragerea primelor m componente principale. Acest lucru a fost realizat de Sanger [176] i
Oja [150] care au construit o reea neuronal cu arhitectur PS (Perceptron Simplu).
Vom lua n considerare cazul PS cu funcie de activare liniar [68], cazul PS cu
funcie de activare neliniar fiind tratat n [151].
A i-a valoare de ieire generat de al i-lea neuron de ieire al PS va fi:
n
Yi wij x j w Ti x xT w i , i 1,2,..., m
j 1
141
(6.29)
unde wi reprezint vectorul triilor sinaptice corespunztor celui de-al i-lea neuron de ieire,
iar x reprezint vectorul de intrare. Ambii vectori sunt n-dimensionali.
Regula de nvare a lui Sanger [176] este:
i
wij Yi x j Yk wkj
k 1
(6.30)
Regula de nvare a lui Oja (cu m neuroni) [151], este de fapt regula Oja (6.7)
aplicat unui model de reea neuronal cu m neuroni n stratul de ieire:
n
wij Yi x j Yk wkj
k 1
(6.31)
Diferena dintre cele dou legi de nvare este dat doar de limit superioar a
sumrii: i - pentru regula Sanger, respectiv n - pentru regula Oja. Evident, cele dou reguli
coincid pentru modelul de reea neuronal liniar simplu (Fig.6.1), unde m = 1 i pentru primul
neuron de ieire i = 1, deci vom ti ntotdeauna c primul neuron al stratului de ieire va
detecta prima component principal a datelor de intrare8.
Pentru ambele reguli de nvare vectorii triilor sinaptice wi converg ctre vectori
ortogonali unitari:
wTi w j ij
(6.32)
Pentru regula lui Sanger vectorii triilor sinaptice devin exact primele m direcii ale
componentelor principale, adic:
w i c i
(6.33)
wij
k 1 q
(6.34)
p
k 1 pq
i
Dup cum am mai amintit, n general preferm s studiem date cu media nul. Reamintim faptul c reeaua
neuronal "descoper" vectorii proprii ai matricii de covarian C (1.5), n timp ce componentele principale
sunt vectori proprii ai matricii de covarian total
x
i
i 1
Cwi wT Cwi wk wT
i Cwi wi
k
k 1
(6.35)
(6.36)
care reprezint proiecia unui vector x perpendicular pe un vector unitar y, avem n relaia
(6.35):
wi
Cwi wT
i Cwi wi
(6.37)
unde notaia Cwi reprezint proiecia lui Cwi pe subspaiul ortogonal pe primii i - 1 vectori
proprii. Deoarece C conserv acest subspaiu, avem relaia:
Cwi Cwi
(6.38)
valori de ieire diferite sunt statistic necorelate variana lor descrescnd constant o
dat cu creterea lui i. Astfel, n aplicaii practice referitoare la compresii de date i
codificare de date vor fi necesari tot mai puini bii de informaie pentru valori de
ieire ulterioare;
Reproductibilitatea este n valoare absolut, deoarece, datorit semnului , pot aprea diferene de semn.
143
i1
wij Yi x j Yk wkj Yi wij
k 1
(6.39)
Si 1
Yi
(6.40)
max Yi
144
unde prin Yi nelegem media valorilor de ieire ale neuronului al i-lea de ieire relativ la
mulimea tuturor datelor de intrare posibile.
Selectivitatea Si tinde la 1 dac al i-lea neuron de ieire genereaz valori mari doar
pentru o anumit dat de intrare (cnd datele de intrare sunt discrete) sau pentru o mulime
restrns de date de intrare (cnd avem mulimea datelor de intrare continu).
Selectivitatea Si tinde la 0 dac al i-lea neuron de ieire genereaz valori egale sau
aproximativ egale pentru toate datele de intrare.
Problema care se pune este cum s construim arhitectura unei reele neuronale i cum
s nvm reeaua neuronal n aa fel nct la nceputul procesului de nvare valorile de
ieire Yi s aib o selectivitate sczut, apropiat de zero, iar pe parcursul procesului de
nvare selectivitatea s tind ctre 1. Mai mult chiar, am dori ca diferii neuroni din stratul
de ieire s devin foarte senzitivi la anumite date de intrare. Dac aranjm neuronii din
stratul de ieire al reelei neuronale ntr-o configuraie geometric, ca de exemplu o matrice
bidimensional, dorina noastr este ca date de intrare similare s genereze rspunsuri la
stratul de ieire n regiuni identice sau foarte apropiate. n acest fel se obin i schemele de
trsturi (feature mapping) asupra crora vom reveni n capitolul urmtor.
Analogia cu reelele neuronale biologice este evident. Cercetri efectuate [105] au
pus n eviden existena unor neuroni n cortexul vizual (de exemplu n regiunea 17 sau V1)
care rspund preferenial la stimuli vizuali sub form de bar sau de vrfuri.
Linsker [127], [128], a dezvoltat un exemplu de reea neuronal pentru detectarea
trsturilor, bazat pe un algoritm de nvare competitiv (competitive learning). Exemplul
su este motivat de proprietile celulelor sistemelor vizuale ale mamiferelor, din primele faze
de dezvoltare. Deoarece, aceste proprieti se dezvolt la unele mamifere nainte de natere,
ele nu sunt rezultatul vreunei experiene de structurare [112].
Mecanismul vizual conine un exemplu corespunztor de detecie de trsturi.
Aspectele simple legate de form, ca de exemplu contrastul i orientarea, sunt analizate de
primele straturi neuronale; aceste trsturi sunt combinate pentru a forma trsturi mai
complexe n straturile neuronale mai profunde. n orice strat retinal sau cortical vom gsi
grupuri de celule avnd funcii similare. Fiecare celul prelucreaz semnale provenite din
cmpul receptiv, care este o regiune limitat a spaiului vizual. Chiar dac funcia de activare
a unei celule biologice este n general neliniar [68], aproximarea prin intermediul unei sume
liniare este satisfctoare, formarea trsturilor aprnd i n acest caz.
fiecare neuron dintr-un strat (cu excepia stratului de intrare) are conexiuni doar cu un
grup de neuroni situai ntr-o aceeai vecintate din stratul precedent, vecintate
numit cmp receptiv.
Aceste cmpuri receptive care limiteaz un grup de neuroni dintr-un strat reprezint
elementul esenial al reelei neuronale tip Linsker; aceasta permite ca neuronii dintr-un strat
s "rspund" la corelaii geometrice spaiale ale datelor din stratul anterior.
145
Fig.6.4.
Arhitectura
reelei
neuronale
multistrat a lui Linsker ce are la baz un
algoritm de nvare Hebbian. n figur se
pot observa cmpurile receptive ale unor
neuroni situai n straturile succesive ale
reelei neuronale.
Y a w jjV j
(6.41)
j 1
unde:
Vj reprezint fie datele de intrare xj, dac neuronul este situat n stratul B, fie
valorile de ieire generate de neuronii din cmpul receptiv al neuronului, dac
acesta este situat intr-unul din straturile C, D, ....
Legea de nvare utilizat de Linsker este de tip Hebbian i poate fi exprimat prin
formula:
wi Vi Y bVi cY d
(6.42)
unde parametrii b, c, d pot fi alei n aa fel nct s produc diferite tipuri de comportament
ale reelei neuronale.
Pentru a preveni creterea indefinit a triilor sinaptice putem impune tehnica de
mrginire, prin care:
w wi w
(6.43)
Pentru a fi mai apropiai de realismul biologic, putem utiliza n locul metodei (6.43) de
mrginire explicit, o combinaie de trii sinaptice inhibitorii:
146
w wi 0
(6.44)
0 wi w
(6.45)
Vi V vi
(6.46)
w (V v ) a w (V v ) bV c (a w j V ) d
i
i
j
j
j
j
(6.47)
C ij w j w j
j
j
unde:
Relaia (6.47) poate fi obinut i prin alt analiz. S considerm funcia energetic
(cost):
E 1 wT Cw + w j
2
2
j
2
(6.48)
(6.49)
wi
E
wi
(6.50)
(6.51)
Deoarece matricea C este pozitiv definit (6.6), din relaia de mai sus rezult c
mrimea || crete nedefinit, astfel nct punctul ales nu poate fi un punct de echilibru ceea ce
este o contradicie, deci afirmaia fcut nu este adevrat.
Aplicarea n practic a metodei lui Linsker se face astfel [128]:
pentru a modifica triile sinaptice pe baza legii de nvare utilizm regula medie
(6.47) i nu regula propriu-zis (6.42). n acest fel avem nevoie doar de matricea
de covarian pentru a simula modul de operare al unui neuron.
148
Fig. 6.5. Schema ce reprezint triile sinaptice pozitive (excitatorii) i negative (inhibitorii) din
cmpurile receptive ale neuronilor reelei lui Linsker. (a) O celul de expansiune situat
n stratul C. (b) O celul de orientare selectiv din stratul G (dup Linsker [127]).
Ca un rezultat al acestei corelaii ntre neuronii vecini din stratul B, neuronii din stratul
C se dezvolt sub forma unor celule de expansiune (center-sorround cells), dup cum se
poate vedea n Fig. 6.5 (a), unde s-au reprezentat cu + i - triile sinaptice ce corespund
valorilor extremale ale intervalului de mrginire w+ i w-. Aceste celule de expansiune vor
avea un rspuns maximal, dac n centrul lor receptiv avem stimuli de forma: o pat alb
nconjurat de un fundal negru sau o pat neagr nconjurat de un fundal alb.
Fig. 6.6. Funcia ce reprezint covariana triilor sinaptice. Funcia este denumit "plria
mexican".
conexiuni excitatorii: ntre neuronii din stratul de intrare i neuronii din stratul de
ieire wij 0 (sunt necesare la acest model i auto-conexiuni excitatorii de la un
neuron din stratul de ieire la el nsui);
conexiuni inhibitorii: de la un neuron din stratul de ieire la alt neuron din stratul
de ieire; rolul acestor conexiuni este de a permite neuronilor din stratul de ieire
s se inhibe reciproc - mecanism numit inhibiie lateral;
yi
y1
ym
Stratul de
ieire
Stratul de
intrare
x1
x2
xj
xn-1
xn
Vom considera n cele ce urmeaz ca valori posibile pentru neuronii din stratul de
intrare i ieire, valorile binare {0,1}. De asemenea, n urma "competiiei" vom considera un
singur neuron de ieire ca fiind "nvingtor", deci singurul care va genera valoarea de ieire 1.
Neuronul "nvingtor" relativ la un vector de intrare x x1 , x2 ,..., xn va fi acel neuron care
va avea valoare cea mai mare [55]:
n
I i wij x j w i x
j 1
adic:
w i* x w i x ( ) i
151
(6.52)
Relaia de mai sus definete neuronul de ieire "nvingtor" i*, pentru care:
yi* 1
(6.53)
Dac triile sinaptice dintre stratul de intrare i stratul de ieire sunt normalizate,
relativ la fiecare neuron din stratul de ieire, adic:
|wi| = 1 () i
(6.54)
(6.55)
Interpretarea relaiei: neuronul "nvingtor" este neuronul din stratul de ieire care are
vectorul normalizat al triilor sinaptice wi cel mai apropiate de vectorul de intrare x.
Problema pe care dorim s o studiem n continuare este cum s "alegem" triile
sinaptice wi pe baza unei legi de nvare, n aa fel nct reeaua neuronal s fie capabil de
a "descoperii" clusterii din datele de intrare. Pentru aceasta, faza de nvare trebuie s
cuprind etapele:
alegerea unui vector de intrare x din cadrul mulimii de antrenament (eventual vectorul
de intrare poate fi generat independent de ctre o distribuie aleatoare P(x));
actualizarea triilor sinaptice wi*j doar pentru neuronul nvingtor i*, cu scopul de a
apropia ct mai mult vectorul triilor sinaptice wi* de vectorul de
intrare x curent
(vezi interpretarea de mai sus a relaiei (6.55)). Relaia de actualizare cea mai natural
este:
wi* j x j
relaia (6.56) prezint dezavantajul creterii nemrginite a triilor sinaptice ale neuronului
nvingtor i* ,care devin dominante n procesul de competiie. Pentru a preveni acest
fenomen, corectm relaia (6.56) cu ajutorul unei faze de normalizare:
wi'* j wi* j j
(6.56)
(6.57)
w
j 1
'
i* j
152
(6.58)
w
n
sau
j 1
(6.59)
wi* j
2
'
i* j
xj
n
wi* j
x j
j 1
(6.60)
alt posibilitate de alegere pentru legea de nvare, conform cu [96], este legea de
nvare competitiv standard:
wi * j x j wi * j
(6.61)
yi 0 j i *
(6.62)
Putem atunci s definim o lege de nvare general pentru toi neuronii reelei
neuronale (de fapt doar pentru neuronii situai n stratul de ieire):
wij yi x j wij
, i 1, m , j 1, n
(6.63)
Dac inem cont de cele prezentate la nceputul acestui Capitol, observm analogia
legii de nvare de mai sus (6.63) cu o lege de nvare tip Hebb, mai precis cu legea de
nvare Sanger (6.30), respectiv legea de nvare Oja (6.7).
Pentru a nelege mai bine modul de operare al legilor de nvare nesupervizate
competitive vom folosi un model geometric (inspirat din [96]). Vom considera cazul cnd
dimensiunea spaiului datelor de intrare este 3. Astfel un vector de intrare este un vector
tridimensional de forma x x1 , x2 , x3 . Pentru cazul vectorilor de intrare binari, acetia
ocup vrfurile unui cub unitar n spaiul tridimensional. Deoarece fenomenul de clustering
este greu de studiat n cazul discret al vectorilor de intrare binari, vom extinde studiul la
vectori de intrare cu valori reale aparinnd intervalului [0,1].
153
O posibil stare final a procesului de nvmnt: fiecare neuron din stratul de ieire a
descoperit un cluster n mulimea vectorilor de intrare, procesul de nvare a provocat
deplasarea vectorului triilor sinaptice ctre centrul de greutate al clusterului
corespunztor.
"nvingtorul" relativ la un vector de intrare (un punct pe sfera unitate din Fig. 6.8)
va fi cel mai apropiat vector al triilor sinaptice ( o cruciuli de pe sfera unitate
din Fig. 6.8);
154
n acest fel vectorii de intrare x provoac competiia neuronilor din stratul de ieire
ncercnd s "aduc" vectorul corespunztor al triilor sinaptice ct mai aproape de
el;
n Fig. 6.8. (b) avem reprezentat o posibil stare final stabil a procesului de
nvare, cnd neuronii din stratul de ieire sunt declarai nvingtori n mod
echiprobabil.
Problema care poate constitui un obstacol pentru a se atinge o stare final stabil
(nvare cu succes) a procesului de nvare, este c pot exista vectori ai triilor sinaptice wi
situai la o distan prea mare de orice vector de intrare, consecina fiind c neuronul din
stratul de ieire care-i corespunde nu va niciodat un "nvingtor" i prin urmare nu va nva
niciodat (de fapt nu va fi niciodat actualizat pe baza relaiilor (6.60) sau (6.61)). Un astfel
de neuron din stratul de ieire ce nu "nvinge" niciodat este numit neuron mort. Existena
neuronilor mori poate fi prevenit prin mai multe strategii posibile:
putem iniializa vectorii triilor sinaptice cu valori egale cu vectori de intrare
provenii din mulimea de antrenament;
putem folosi o versiune modificat a vectorilor de intrare x, sub forma x+(1)v, unde v reprezint un vector constant cu care au fost iniializai toi vectorii
triilor sinaptice wi. Pe parcursul procesului de nvare parametrul parcurge
gradual valori cresctoare de la 0 la 1, ceea ce provoac iniial ( 0) apropierea
vectorilor triilor sinaptice ctre vectorul v, pe msur ce procesul de nvare
progreseaz ( 1) acetia se apropie de vectorii de intrare [95];
putem utiliza un termen Bias [54] sub forma unui nivel de activare i aplicat la
valoarea de intrare n neuronii stratului de ieire Ij (6.52); pentru neuronii care nu
reuesc s nving putem regla nivelul de activare i n aa fel nct acetia s
genereze o valoare de ieire mai mare, ceea ce le crete ansa de a deveni
"nvingtori" [19].
1
F ( wij ) M i x j wij
2 i j
155
1
x w i*
2
(6.64)
1, dac i i * ( )
0, altfel
(6.65)
F
M i x j wij
wij
(6.66)
Formula de mai sus reprezint exact legea de nvare competitiv standard (6.61),
nsumat relativ la toi vectorii de intrare x pentru care al i-lea neuron de ieire este
"nvingtorul". n acest fel, pentru o rat de nvare , suficient de mic, n medie, legea de
nvare va provoca o descretere treptat a funciei cost (6.64) pn la atingerea unui minim
local.
Din pcate, punctele de minim local sunt numeroase, ele corespunznd la diferite
posibiliti de clustering ale datelor de intrare. Dar meritul introducerii funciei cost este
incontestabil: ea ne permite s cuantificm calitatea clusteringului prin prisma valorii
minimului local. S remarcm totui c nu avem nici o garanie teoretic care s ne garanteze
atingerea minimului global a funciei cost (6.64), chiar dac aplicm o serie de procedee de
optimizare, cum ar fi de exemplu revenirea simulat (simulated annealing).
Modificarea triilor sinaptice se poate face i printr-o acumulare a modificrilor
provocate prin prezentarea unor vectori de intrare x, P' P, actualizarea lor efectiv fiind
fcut abia dup ce s-au totalizat schimbrile wij provocate de prezentarea vectorilor de
(t ) 0 t , 1, sau (t ) 0 1 t
(6.65)
F ( wij )
1
2 M i 1 x j wij
p ij
156
(6.66)
157
x
w1
w2
w3
w4
wi
x w c min x w i
i
(6.67)
158
Nc(t1)
Nc(t2)
Nc(t3)
x w i , dac i N c
wi
0, dac i N c
(6.68)
unde 0 < < 1 reprezint rata de nvare, fiind un parametru descresctor dependent de timp
= (t).
O alt posibilitate o reprezint introducerea unei funcii scalare de proximitate
(vecintate) tip "kernel" hci=hci(t), asfel nct avem:
, dac i N c
wi hci x w i , hci
0, dac i N c
(6.69)
Inspirndu-ne din modelele biologice, unde interaciunile laterale au forma unei curbe
tip "clopot" (bell shape), putem considera o form mai general pentru funcia kernel: notnd
cu rc i ri vectorii de poziie ce corespund coordonatelor neuronilor c i i, obinem:
hci h0 e
ri rc
(6.70)
1000
20
100
10000
25000
Fig.6.11. Vectorii triilor sinaptice pe parcursul procesului de nvare. Reeaua neuronal are o
arhitectur de tablou bi-dimensional. Lng fiecare figur sunt trecute numrul de
iteraii din procesul de nvare.
160
Fig.6.12. Vectorii triilor sinaptice pe parcursul procesului de nvare. Reeaua neuronal are o
arhitectur de tablou uni-dimensional. Lng fiecare figur sunt trecute numrul de
iteraii din procesul de nvare.
(t ) 0.91
1000
(6.71)
e). Un alt aspect menionat mai devreme, este posibilitatea de a aplica o msur mai
general a distanei dintre vectori. De exemplu, dac msura o reprezint msura de
similaritate a produsului, atunci ecuaiile procesului de nvare pot fi rescrise
astfel:
x w c maxx w i
(6.72)
w i x
, dac i N c
w i w i x
w i , dac i N c
(6.73)
162
A. Generaliti
Metoda vectorial cuantificat (VQ - Vector Quantization) este o metod care
realizeaz aproximarea unei funcii de densitate probabilistic continu P(x) a vectorilor de
intrare x, folosind un numr finit de vectori de codificare wi, i = 1, 2 ,..., k aparinnd unei
mulimi numit cod.
Dup ce s-a ales mulimea cod, aproximarea lui x reprezint de fapt determinarea unui
vector de referin wc, situat "cel mai aproape" de x. Poziia optim a vectorilor wi este aceea
care minimizeaz funcia eroare:
r
E x w c P(x)dx
(6.74)
unde c=c(x) reprezint indexul vectorului de codificare cel mai apropiat de x (vectorul
"nvingtor"):
x w c min x w i
i
(6.75)
n
nr
Aplicarea criteriului celor mai mici ptrate (r = 2) relativ la regula delta [54], va defini
asimptotic valorile optimale. Fie wc cel mai apropiat vector de codificare de vectorul de
intrare x, n metrica Euclidian. Optimizarea gradient descendent [54] a funciei eroare E
(6.74) n spaiul vectorilor wc va genera ecuaia:
x w c , pentru i c
w i
0, pentru i c
(6.76)
(6.77)
Dup aceasta, trebuie aleas o regul de actualizare (lege de nvare) n aa fel nct
distana d s descreasc monoton: corecia wi trebuie aleas astfel nct :
grad wi d (x, w i ) w i 0
(6.78)
Dac SOM este utilizat pentru clasificarea formelor (pattern classifier), unde
neuronii sunt grupai n submulimi, fiecare submulime corespunznd unei clase discrete de
forme, atunci problema devine un proces decizional, trebuind a fi tratat ntr-o manier puin
163
diferit. SOM, ca orice metod de VQ, este destinat aproximrii valorile semnalelor de
intrare sau a funciei lor de densitate probabilistic, prin cuantificarea vectorilor de codificare
situai n spaiul de intrare, pentru a minimiza o funcie de eroare. Pe de alt parte, dac
mulimea semnalelor de intrare trebuie clasificat cu ajutorul unui numr finit de categorii,
atunci diferii vectori de codificare vor fi reprezentanii fiecrei clase, identitatea lor n cadrul
clasei nemaifiind important. De fapt, doar deciziile efectuate la frontiera clasei sunt
importante. Prin aceasta, devine posibil definirea unor valori pentru vectorii de codificare
astfel nct ei s defineasc frontiere decizionale optimale ntre clase. Aceste strategii au fost
introduse de Kohonen [117] i sunt denumite nvare vectorial cuantificat (LVQ Learning Vector Quantization).
B. nvarea vectorial cuantificat de tip I (LVQ1)
Dac mai muli vectori de codificare sunt asignai fiecrei clase i fiecare dintre ei este
etichetat cu simbolul clasei corespunztoare, atunci regiunile ce corespund claselor n spaiul
vectorilor de intrare x sunt definite printr-o simpl comparaie de proximitate a lui x cu wi;
astfel eticheta celui mai apropiat vector de codificare wi definete clasificarea vectorului de
intrare x.
Pentru ca procesului de nvare s genereze poziia optim a vectorilor wi, trebuie s
stabilim pentru aceti vectori valori iniiale pe baza oricrei metode clasice VQ sau prin
algoritmul SOM. Aceste valori iniiale corespund aproximativ funciei de densitate
probabilistic P(x) a datelor de intrare.
Urmtoarea faz o reprezint determinarea etichetelor vectorilor de codificare, prin
prezentarea unui numr de vectori de intrare cu clasificare cunoscut i prin asignarea
diferiilor neuroni ai reelei la diferite clase pe baza votului majoritar obinut prin frecvena cu
care fiecare vector wi este mai apropiat de vectorii de calibrare a unei anumite clase.
Precizia clasificrii poate fi mbuntit dac vectorii wi sunt actualizai pe baza
urmtorului algoritm de nvare: vom "ndeprta" vectorii de codificare wi de suprafeele
decizionale, cu scopul de a demarca frontierele claselor cu mai mare acuratee.
Fie wc vectorul cel mai apropiat de vectorul de intrare x, distan fiind n metrica
Euclidian. Aplicm la stratul de intrare un vector de intrare x a crui clasificare este
cunoscut i actualizm vectorul wi dup legea:
(6.79)
Obs 6.5: a). Deoarece relaia de mai sus reprezint o adaptare fin, valoarea recomandabil
pentru rata de nvare la nceputul procesului de nvare este 0.01, care va descrete treptat
ctre 1, n decursul a 100.000 pai de nvare.
b). Semnul minus n cazul unei clasificri incorecte a vectorului x are semnificaia c
coreciile sunt efectuate n concordan cu legea (6.73) aplicat clasei creia aparine wc,
dar cu funcia de densitate probabilistic a clasei nvecinate extras din clasa lui wc.
Cu alte cuvinte, aplicm funciei |p(x|Ci)P(Ci)-p(x|Cj)P(Cj)| clasica metod VQ unde:
n Fig. 6.14 avem un exemplu n care vectorii de intrare x sunt bidimensionali, iar
funciile de densitate probabilistic ale claselor au poriuni comune. Suprafaa de decizie
definit de procesul de clasificare este local liniar.
Fig. 6.14. (a) Funcia de densitate probabilistic a vectorilor de intrare x = (x1,x2) reprezentat prin
puncte. Avem dou funcii de densitate probabilistic de tip Gauss, corespunznd la dou
clase diferite C1 i C2, avnd centrele reprezentate cu cruce de culoare alb, respectiv
cercule alb. Curba solid reprezint suprafaa decizional optim teoretic. (b) Punctele
reprezint reprezentanii clasei C1, cerculeele reprezint reprezentanii clasei C2; Curba
solid: suprafaa de decizie pentru LVQ, curba punctat:suprafaa de decizie teoretic
optim.
Asupra vectorilor wi i wj se vor efectua corecii dac i numai dac x este coninut n
fereastr, dar de partea eronat a planului mediator (vezi Fig. 6.15).
165
Fig.6.15. n figura de mai sus este reprezentat "fereastra" din algoritmul de nvare LVQ2.
Curbele din figur reprezint distribuia claselor vectorilor de intrare x.
(6.80)
dac Ci este cea mai apropiat clas, dar x aparine clasei Cj Ci, unde Cj este vecina celei
mai apropiate clase Ci. n toate celelalte cazuri:
w k 0, k i, j
Limea optimal a ferestrei trebuie determinat experimental, depinznd de numrul
datelor de intrare pentru nvare. Dac numrul datelor de nvare este relativ mic, atunci se
poate alege o lime de la 10% pn la 20% din diferena dintre wi i wj.
Dac dimensionalitatea datelor de antrenament este mare, atunci avem nevoie de o
definiie mai practic a dimensiunii ferestrei. Este recomandabil ideea de a defini fereastra n
termeni de distane di i dj la wi i wj cu o raie constant s. n acest fel, frontierele ferestrei
devin nite hiper-sfere. Vom putea spune astfel c x aparine ferestrei dac:
d dj
min i , s
d j di
(6.81)
1 L
1 L
(6.82)
Dimensiunea optim a ferestrei depinde de numrul de date de intrare de antrenamentnvare. De asemenea, rata de nvare trebuie s aib o valoare de pornire mic de
aproximativ 0.02, urmnd a fi micorat treptat pe parcursul procesului de nvare, tinznd
ctre valori foarte mici (zero) dup aproximativ 10 000 de pai.
166
dac procesul de nvare (6.80) continu peste o anumit limit, poate conduce la
un punct asimptotic de echilibru al vectorului wi care ns s nu fie optimal. De
aceea, este necesar s prevedem anumite corecii n legea de nvare, corecii care
s asigure faptul c wi aproximeaz continuu distribuia clasei.
Combinnd aceste idei, vom obine un algoritm mbuntit [117], numit LVQ3:
w i x w i
w j x w j
(6.82)
unde wi i wj sunt doi din cei mai apropiai vectori de codificare de vectorul x, vectorii x i wj
aparin aceleiai clase, n timp ce x i wi aparin la clase diferite, iar x este situat n "fereastr";
w k x w k , k i, j
Rspunsul la aceste ntrebri este dificil, majoritatea studiilor avnd n vedere doar
scheme unidimensionale. Studiul va folosi o funcie cost (eroare), bazat pe o extensie a
nvrii competitive din lucrarea [168]:
E wij
1
M k hik x j wij
2 i jk
1
hic x w i
2 i
(6.83)
i c
1, dac
M i
0,
(6.84)
altfel
Aplicnd metoda gradientului descendent [54] relativ la funcia cost (6.83) vom
obine:
wijj
E
M k hik x j wij hic x j wij
wij
k
(6.85)
Relaia de mai sus reprezint algoritmul lui Kohonen (6.69) nsumat relativ la
mulimea datelor de antrenament. Astfel, n medie, pentru o rat de nvare suficient de
mic, algoritmul lui Kohonen provoac descreterea funciei cost (6.83), pn cnd se atinge
un punct de minim, care poate fi ns un punct de minim local.
Pentru a obine un punct de echilibru, vom impune condiia:
wij 0
(6.86)
h x w 0
ic
ij
(6.87)
Aceast ecuaie este dificil de rezolvat. n cazul unei distribuii probabilistice uniforme
a vectorilor de intrare x, ecuaia poate fi satisfcut de o distribuie uniform [96] a vectorilor
wi n acelai spaiu, cu condiia ignorrii frontierelor. Pentru cazul general, soluia este de a
lua n considerare o aproximare continu, de forma:
r rc (x)
x w(r)P(x)dx 0
168
(6.88)
Suma discret
P(x)dx .
= zc(x) - z
(6.89)
termenii mai mici dect 2 vor fi ignorai. Prin aceasta vom obine:
w' 12 2 w"
(6.90)
(6.91)
(6.92)
nlocuind aceste relaii n ecuaia (6.88), grupnd dup puterile lui i 2 (restul
termenilor de ordin mai mare fiind neglijai), obinem:
3
2
3
2
169
(6.93)
(6.94)
de unde obinem:
d
w"
2 P' ( w ) w '
2 d
log w'
log P(w)
dz
w'
3 P( w )
3 dz
w ' P( w )
23
(6.95)
(6.96)
(6.97)
(6.98)
sub forma:
170
(a)
wi
(b)
Frontier
wi
x
x
i
c
Figura 6.16: Scheme Kohonen unidimensionale. (a) Orice regiune monoton a triilor sinaptice
rmne monoton pe parcursul procesului de nvare. (b) Frontiera dintre dou
regiuni monotone poate s se deplaseze cu un pas la un pas al procesului de nvare.
Fenomenele cele mai interesante apar la frontiera dintre regiunile monoton ordonate.
O astfel de frontier poate sri dintr-o parte n alta aa cum se vede n Fig. 6.16 (a). De
asemenea, frontierele pot s se anuleze la punctele de ntlnire. Dar, n nici ntr-un caz nu pot
apare noi frontiere.
n Fig. 6.16 (b) putem nelege ct timp este necesar pentru ca procesul de nvare s
devin stabil. Abia la sfritul procesului de nvare instabilitatea tinde s difuzeze, ajungnd
a fi eliminat.
171
172
lim d( f , gn ) 0
VII.1.1. Preliminarii
Reamintim faptul c o reea neuronal de tip perceptron multistrat, notat pe scurt
PMS, este o reea neuronal cu propagare direct (feedforward) avnd un strat de intrare cel
puin un strat ascuns i un strat de ieire.
Deoarece un PMS cu mai muli neuroni n stratul de ieire poate fi considerat ca fiind
compus din atia PMS cu un unic neuron n stratul de ieire, ci are PMS iniial n startul de
ieire, putem restrnge studiul nostru la un PMS avnd un neuron unic n stratul de ieire.
173
w
i 1
( 2)
i
(7.1)
, xi yi , i 1,2,..., n}
(7.2)
La cel de-al II-lea Congres Internaional de matematic de la Paris din anul 1990,
Hilbert, n faimoasa sa lucrare "Matematische Probleme", a enunat o list de 23 de probleme,
pe care a considerat-o ca fiind de o importan deosebit pentru dezvoltarea ulterioar a
matematicii. Problema a-13-a, formulat ca o ipotez concret minor, implic aflarea
soluiilor unor ecuaii polinomiale: pot fi rdcinile unei ecuaii algebrice polinomiale
exprimate ca radicali, sume i compuneri de funcii de o singur variabil? Hilbert a emis
ipoteza c rdcinile ecuaiei x7 + ax3 + bx2 + cx + 1 = 0 , ca i funcii de coeficienii a, b, c,
nu pot fi reprezentate ca sume i produse de funcii de una sau chiar de dou variabile.
Aceast ipotez a fost contrazis de Arnold [10]. Mai mult chiar, Kolmogorov [118] a enunat
teorem general de reprezentare, afirmnd c orice funcie continu f :In R, n 2 poate fi
reprezentat sub forma:
2 n 1
n
f x1 , x 2 ,..., x n q pq x p
q 1
p 1
(7.3)
unde: q, q = 1, 2, ..., 2n+1 sunt funcii continue de o singur variabil, fiind dependente de
funcia f.
174
pq, p = 1, 2, ..., n, q = 1, 2, ..., 2n+1 sunt funcii continue de o singur variabil, fiind
independente de funcia f.
Putem formula acum teoremele fundamentale de aproximare derivate din teorema de
reprezentare a lui Kolmogorov [124]:
Teorema 7.1: Fie nN, n 2, R [0,1] o funcie sigmoidal, f C(In), R+. Atunci
exist kN i funciile q, pq de tip PMS() astfel nct:
2 n 1
n
q 1
mn
1
, k fiind o constant real pozitiv, funcia f poate fi aproximat cu
m
2m 3n
precizia cu ajutorul unui PMS ce are dou straturi ascunse, astfel:
- nm(m + 1) neuroni n primul strat ascuns;
- m2(m + 1)n neuroni n cel de-al doilea strat ascuns, avnd o funcie de activare
pentru care toate triile sinaptice - cu excepia celor ce leag ultimul strat ascuns de neuronul
de ieire - i termenii Bias [68] care sunt aceeai pentru toate funciile g care satisfac condiia
|| g || || f || i g g.
k
f
Obs.7.1: n teorema de mai sus prin || || s-a notat norma supremum, definit astfel
|| f || = sup {|f(x)| , x X}
(7.5)
Teorema de mai sus are mai mult un caracter de existen i nu unul practic, garantnd
posibilitatea construciei unui PMS cu dou straturi ascunse, avnd trii sinaptice universale,
cu excepia celor care unesc al doilea strat ascuns de neuronul de ieire, care sunt dependente
de funcia de aproximat.
VII.1.3. Demonstraii
Vom ncerca s demonstrm cele dou teoreme fundamentale de mai sus, folosindu-ne
de o serie de rezultate enunate i demonstrate n [60], [124]. Pentru nceput vom enuna
urmtoarea Lem ajuttoare:
Lema 7.1: Fie : R [0,1] o funcie de tip sigmoidal i [a,b] R un interval real nchis.
Atunci mulimea funciilor:
175
f
:
[
a
,
b
]
R
f
(
x
)
wi vi x u i ,wi , vi , ui R
i 1
(7.6)
f x1 , x 2 ,..., x n q pq x p
p 1
q 1
g
hpq x p f x1 , x 2 ,..., x n
q
p 1
q 1
Lema 7.2 : Fie : R [0,1] o funcie de tip sigmoidal, o constant strict pozitiv, k N,
x1 < y1 < x2 < y2 < ... < xk < yk numere reale i g: {1,2, ..., k} R o funcie oarecare. Atunci
exist funcia PMS() de forma:
k
( x) wi vi x ui ,wi , vi , ui R
(7.7)
i 1
astfel nct: | (x) - g(j) | < , oricare ar fi x [xj, yj] , j = 1, 2, ..., k i |||| max
g( j) .
1 j k
Demonstraie: Fie y0 R, i s alegem funcia g astfel nct g(0) = 0. S notm cu: M =
max
g( j) .
1 j k
Deoarece funcia : R [0,1] este o funcie de tip sigmoidal, exist un numr real z R
astfel nct:
0 < (x) < /4 Mk oricare ar fi x < z i
1 - /4 Mk < (x) < 1 oricare ar fi x > z
Pentru fiecare i = 1, 2, ..., k fie vix + ui transformarea afin real ce transform n mod unic
intervalul [yi-1, xi] n intervalul [-z, z].
S mai notm cu wi = g(i) - g(i -1).
Atunci pentru fiecare x [xi, yi] i pentru fiecare j = 1, 2, ..., k vom avea:
j
w u x v g ( j ) w u x v g ( j ) w u x v
k
i 1
i 1
i j 1
j 1
g (i ) ui x vi ui 1 x vi 1 g ( j ) u j 1 x v j 1
i 1
wi ui x vi Mj / 2 Mk M k j / 2 Mk
k
i j 1
176
(7.8)
Bazndu-ne pe Lema de mai sus vom ncerca s demonstrm Teorema 7.2, care
reprezint o teorem fundamental a calculului neuronal.
Demonstraia teoremei 7.2:
Folosindu-ne de Lema 7.2 construim urmtoarea familie de mulimi de funcii de tip
PMS(): iq i N , q = 1, 2, ..., m.
I iq i i 1 , i i 1 [0,1] j 0,1,...., m i
m
m
m
m
pq
z p 0 , oricare ar fi z1,z2,...,zk Z
(7.9)
p 1
x , x ,..., x w x
n
pq
(7.10)
p 1
Di = { j / mi | j = 0,1,...,mi }, i N;
Deoarece q(Di) este finit pt. orice i N i orice q = 1, 2, ..., m exist un numr real i
care s aib proprietatea c distana dintre dou valori q(Di) s fie mai mare dect 2i, pentru
orice q = 1, 2, ..., m.
Funciile q sunt uniform continue, deci exist vi > 0 cu proprietatea c dac
(x1, x2, ..., xn), (y1,y2,...,yn) In, i | xp - yp| < vi, p = 1, 2, ..., n atunci:
|q(x1,x2,...,xn) - p(y1,y2,...,yn)| < vi
Conform cu Lema 7.2 pentru orice q = 1, 2, ..., m exist o funcie iq de tip PMS()
cu proprietatea c:
j
iq ( x) i vi , x Aijq , j 0,1,..., mi
m
Construim m familii de funcii:
n
q n
:
I
R
,
i
x
,...,
x
w pq iq ( x p ),x1 ,..., xn I n
i
i
1
n
p 1
177
( B) ( B) , ( B)
q
( B ) ( B ) ,
q
B , B
1
Biq
(7.11)
i:
m
q 1
j 1
f j qk j i f
(7.12)
i 1
q 1
j 1
hi f j qk j
Deoarece In este o mulime compact i hi sunt funcii uniform continue, atunci exist
ki N cu ki > ki-1 astfel nct diagonalele paralelipipedelor n-dimensionale qk j ( B) sunt mai
mici dect || hi || / 2, pentru orice q = 1, 2, ..., m.
Pe baza Lemei 7.2 exist i de tip PMS(), astfel nct :
() q = 1,2,...,m, () B Bkqj , () x qk j ( B) k j , qk j ( B) k j s avem:
| i - hi ((B)) / (m - n) | < || hi || / 2 (m - n) i
|| i || < || hi || / 2 (m - n) + || hi || / 2 (m - n)
Deoarece, || hi || i-1 || f || rezult c avem || i || i-1 || f ||, deci relaia (7.11) este
adevrat.
Pentru a verifica relaia (7.12) este suficient s artm c:
m
hi i qk j hi
deoarece
q 1
q 1
j 1
q 1
f j qk j hi i qk j
178
Oricare ar fi (x1,x2,...,xn) In exist cel puin m - n valori distincte ale lui q pentru care
exist un paralelipiped n-dimensional B q Bkqj cu (x1,x2,...,xn) Bq.
Dac pentru q = 1, 2, ..., m - n, (x1,x2,...,xn) Bq, B q Bkqj atunci avem:
q
kj
x , ..., x h B / m n h
q
/ 2 m n i
hi x1 ,..., x n hi B q hi / 2
Din relaiile de mai sus avem:
m n
h ( x ,..., x
m n
/ m n h
) h Bq
q 1
x ,..., x h / m n h / 2m n
q
ki
de unde se obine:
m n
q 1
q 1
q m n 1
q
ki
n / m n n / 2 (m n ) hi hi
Pentru > 0 s considerm i N astfel nct i || f || < . Pentru fiecare j = 1, 2, ..., i s
notm pqj wpq qki . Deoarece kqi PMS ( ) pqj PMS ( ) . Obinem:
m
i
n
f x1 ,..., x n j pqj x p
p 1
q 1 j 1
x ,..., x I
1
a b
m 1
qi
qi
i 1
x cqi
d v y u
j
j 1
179
m ( m 1) n
n m 1
p 1 i 1
q 1
j 1
w x
m
q 1
pq
p 1
VII.2.1. Introducere
n acest subcapitol vom folosi Teorema lui Stone-Weierstrass [111] i funcia cosinus
sigmoidal a lui Gallant i White [74] pentru a stabili faptul c PMS cu un singur strat ascuns,
ce au ca funcii de activare funcii arbitrare de tip sigmoidal, pot aproxima orice funcie
msurabil Borel, cu orice precizie dorit, condiia fiind ca PMS s conin un numr
nelimitat de neuroni n stratul ascuns [103]. Aceste rezultate stabilesc capacitatea reelelor
neuronale de tip PMS de a fi aproximatori universali. Aplicarea practic a considerentelor
teoretice ce vor fi prezentate n continuare, poate fi uneori nereuit datorit unei faze de
nvare nepotrivit, datorit unui numr necorespunztor de neuroni n stratul ascuns sau a
prezenei unei reguli stohastice, i nu determinist ntre datele de intrare i cele de ieire. De
aceea, n cadrul acestui subcapitol nu vom aborda problema practic a numrului de neuroni
necesari pentru a aproxima o funcie cu o anumit precizie [67].
(G) f : R
n
R f ( x ) i G Ai ( x ) , x R n , i R, Ai A n , n, m N
i 1
(7.13)
Obs.7.3: Orice funcia f n(G) corespunde unui PMS de forma celui din figura de mai de
jos:
G
x1
xn
f(x)
x2
G
Fig.7.1: O reea neuronal de tip PMS avnd un singur strat ascuns, compus din:
- un strat de intrare cu n neuroni de intrare;
- un strat ascuns cu m neuroni avnd ca funcie de activare funcia sigmoidal G;
- un strat de ieire avnd un singur neuron de ieire;
- stratul de intrare este conectat cu stratul ascuns prin intermediul triilor sinaptice wi
Rn;
- statul ascuns este conectat cu stratul de ieire prin intermediul triilor sinaptice R.
Obs.7.4: Conform cu cele prezentate n [68], modul de operare al PMS cu o arhitectur ca cea
al reelei neuronale din Fig.7.1 de mai sus, este:
I j w ji x i w j 0 wx b
i 1
se propag valorile generate de neuronii din stratul ascuns yj ctre stratul de ieire
(compus dintr-un singur neuron), obinndu-se valoarea de ieire al PMS:
m
j 1
j 1
y j y j j G (I j )
(7.14)
Evident, orice funcie f n(G) corespunde unui PMS cu un strat ascuns de tipul celui
prezentat n Fig.7.1 de mai sus.
n Definiia 7.2 am vzut modul de definire al unei funcii sigmoidale. Vom prezenta
n cele ce urmeaz o serie de funcii sigmoidale [68] folosite n tehnica calculului neuronal, ca
i funcii de activare al neuronilor din stratul ascuns.
Exemplul 4.1: Vom folosi n cele ce urmeaz funcia indicator definit astfel:
0, x A
1A : R 0,1,1A ( x)
1, x A
(i). Funcia treapt (Heaviside): 1 (x ) 1 x 0
(ii). Funcia ramp: 2 (x ) x 1 0 x 1 1 x 1
(7.15)
(7.16)
(x )
3
1 cos x 3 / 2
2
1 / 2 x / 2 1 x / 2
(7.17)
n
n
n
(
G
)
f
:
R
R
f
(
x
)
G
A
(
x
)
,
x
R
,
R
,
A
A
,
l
,
n
,
m
i
ij
i
ij
i
i 1
j 1
(7.18)
S facem urmtoarele notaii:
Cn = { f: Rn R | f funcie continu }
Mn = { f: Rn R | f funcie msurabil Borel }
Obs.7.4: (i) Oricare ar fi funcia G msurabil Borel rezult c:
Obs.7.5: Definiia de mai sus arat c un element a mulimii S poate aproxima cu orice
precizie dorit un element al mulimii T.
Def.7.11: Submulimea S Cn se numete uniform dens pe un compact n Cn, dac pentru
orice submulime compact K Rn, S este K - dens n Cn, unde:
184
10
Am demonstrat n subcapitolul anterior c un PMS cu un singur strat ascuns, avnd un numr nelimitat de neuroni n
stratul ascuns are proprietatea de aproximant universal. De aceea, purtm discuia relativ la un PMS cu un singur strat
ascuns fr a restrnge generalitatea.
185
i 1
j 0
f (x1 ,..., x n ) i G x j 0 0 i G 0 i 1 1
j0
i0
i0
i0
Astfel, am demonstrat faptul c reelele neuronale de tip PMS satisfac condiia de funcie
identic a Teoremei lui Stone - Weierstrass.
(ii). Separabilitate: trebuie s artm c reelele neuronale de tip PMS (7.19) au proprietatea
de a lua valori distincte pentru date de intrare distincte. Pentru aceasta este suficient ca
funcia calculat de ctre reeaua neuronal s fie strict monoton. Deoarece funciile de
activare ale neuronilor ascuni, folosite n practic, sunt de tip sigmoidal i acestea sunt
toate strict monotone, vom avea:
oricare ar fi x = (x1,x2,...,xn) D i y = (x1,x2,...,xn) D cu x y avem:
N
i 1
i 1
x y G(x ) G( y) i G x i G y f (x ) f ( y)
- fie g F, atunci :
N2
n2
186
x
g
af+bg
Fig. 7.2: Arhitectura unei reele neuronale tip PMS care demonstreaz faptul c dac
f, g F, atunci i af + bg F, adic satisfacerea condiiei de nchidere algebric aditiv.
(7.20)
vom construi prima clas de reele neuronale ce satisfac Teorema lui Stone - Weierstrass.
Teorema 7.7: Fie A mulimea funciilor calculabile de reele neuronale de tip exponenial:
n
wij xi
N
n
j 1
A f : 0,1 R f x1 , x2 ,..., xn i e
, i , wij R, n, N N (7.21)
i 1
f x1 , x2 ,..., xn i e
i 1
wij x j
j 1
, i , wij R, n, N N
187
g x1 , x2 ,..., xn k e
k 1
wkj x j
j 1
, i , wkj R, n, M N
Vom avea:
NM
f x1 , x 2 ,..., xn g x1 , x 2 ,..., x n l e
wlj x j
j 1
l 1
unde
, l , wli R, n, N , M N
Reelele neuronale de tip Fourier au fost introduse pentru prima dat de Gallant i
White n lucrarea [74] pentru implementarea seriilor Fourier cu ajutorul reelelor neuronale.
Aceste serii Fourier satisfac Teorema lui Stone - Weierstrass, avnd la baz urmtoarea
identitate trigonometric ce transform produsul n sum:
cos ( a + b ) = cos a cos b - sin a sin b
(7.22)
x
0,
2
1 cos 2x
cos ig ( x )
, x0
2
2
1
,
x0
(7.23)
Teorema 7.8: Fie B mulimea funciilor calculabile de reele neuronale de tip Fourier:
i 1
j 1
188
Dup cum am vzut n Teorema 7.6 enunat mai nainte, reelele neuronale de tip
satisfac condiiile Teoremei lui Stone - Weierstrass, fapt dovedit pe baza unor complexe
rezultate din analiza real. De aceea, bazndu-ne pe ideile de mai sus, vom relua reelele
neuronale de tip simplificnd demonstraia faptului c ele satisfac Teorema lui Stone Weierstrass.
Dup cum am vzut, este suficient s artm c produsul a dou funcii satisface
condiia de nchidere multiplicativ. Pentru aceasta ne vom baza pe urmtoarea identitate
algebric:
x n x m e n ln x e mln x e
n m ln x
x nm
(7.25)
i 1
j 1
n
D f : 0,1 R f x1 , x2 ,..., xn i g x j , g C 0,1, i , wij R, n, N N
i 1
j 1
(7.27)
189
( x)
1
1 e x
(7.28)
w1
w2
1
1
1
1
1 w1 x 1 w2 x w1 w2 1 w1 x w2 w1 1 w2 x
(7.29)
wikj x j
N
K
n
, , w R, n, N , K N
E f : 0,1 R f x1 , x2 ,..., x n i 1 e j 1
i
ikj
j 1
i 1
(7.30)
specific pe care dorim s o rezolvm. Dac, ntr-o aplicaie dat, interesul nostru este ca
reeaua neuronal s nvee la fel de bine toate datele de antrenament ce aparin unei mulimi
compacte X Rn, atunci cea mai potrivit msur a "apropierii" o constituie distana uniform
dintre funcii:
,K sup f (x ) g (x )
(7.31)
x X
n alte aplicaii, privim datele de antrenament ca nite variabile aleatoare, interesndune performana medie, media fiind considerat n raport cu msura a spaiului de intrare Rn,
unde ( Rn) < . n acest caz, vom msura "apropierea" cu distana Lp():
p ,
Rn
f (x ) g (x ) d (x )
p
1/ p
(7.32)
unde 1 p < , cazul p = 2 al abaterii medii ptratice fiind cel mai popular.
Ceea ce am reuit s artm pn acum este capacitatea reelelor neuronale de a fi
aproximatori universali, cu condiia ca funciile de activare ale neuronilor constitueni s
satisfac condiia de integrabilitate sau s fie funcii sigmoidale (vezi Def 7.1). n acest capitol
ne vom ocupa de relaxarea condiiilor pe care trebuie s le satisfac funcia de activare a
neuronilor pentru ca reeaua neuronal s pstreze capacitatea de aproximant universal.
Urmrind ideea prezentat de K. Hornik n [102], vom arta c dac funcia de
activarea neuronilor este mrginit i neconstant, atunci pentru o msur arbitrar a
spaiului de intrare, PMS poate aproxima orict de bine orice funcie ce aparine spaiului
Lp(), dac "apropierea" este msurat de p, (7.32) i exist orici neuroni n stratul ascuns.
De asemenea, vom stabili faptul c dac funcia de activare este continu, mrginit i
neconstant, atunci pentru orice spaiu de intrare X Rn atunci PMS poate aproxima orict
de bine orice funcie continu definit pe X, n raport cu distana p, (7.32), stratul ascuns
avnd orici neuroni n stratul ascuns.
Aceste afirmaii ne vor permite s admitem concluzia lui Hornik [102]:
"ceea ce asigur reelelor neuronale PMS proprietatea de a fi aproximatori
universali nu este dat de specificul funciei de activare a neuronilor ci mai
degrab de arhitectura intrinsec a reelei neuronale".
n
G f : R R f ( x ) i Gw i x , w i , x R n , i , R
i 1
m
n
(7.33)
n G mn G
(7.34)
m1
p ,
f (x ) d (x )
p
Rk
p , f , g f g
1
p
(7.35)
(7.36)
p ,
Lp f : R n R f
p,
(7.37)
C X f : X R f continu pe X
D f (x )
... f
(x ), 1 ... k
x1 ... x k
1
(7.40)
(7.39)
C m R n f : R n R f continu pe X , D f , m continu pe X
(7.38)
m, u , X
max sup D f (x )
(7.41)
m x X
m, p ,
n D f
m R
p
d
(7.42)
192
C m, p f C m R n f
m , p ,u
(7.43)
Teorema 7.13: Dac funcia G este continu, mrginit i neconstant, atunci mulimea
n G este dens n C(X), oricare ar fi submulimea compact X Rn.
Teorema 7.14: Dac funcia G Cm(Rn) este mrginit i neconstant, atunci mulimea
n G este uniform m-dens pe compact n Cm(Rn) i dens n Cm,p() pentru orice msur
definit pe Rn cu suport compact.
Teorema 7.15: Dac funcia G Cm(Rn) este neconstant i toate derivatele sale pn la
ordinul m sunt mrginite, atunci mulimea n G este dens n Cm,p() pentru orice msur
finit definit pe Rn.
Demonstraia acestor teoreme se bazeaz pe o metod folosit pentru prima dat de
Cybenko [37], care aplic teorema lui Hahn-Banach, precum i teoremele de reprezentare
pentru funcionale liniare continue pe spaiile de funcii luate n discuie. Pentru detalii
relative la demonstraia acestor teoreme se poate consulta lucrarea [102].
pentru neuronii din stratul ascuns. Evident, justificarea acestei intuiii nu este imediat. S
considerm din nou clasa de reele neuronale de tip PMS cu o arhitectur ca aceea prezentat
n Fig.7.1 (n-neuroni n stratul de intrare, m - neuroni n stratul ascuns, un singur neuron n
stratul de ieire, xi Rn vectorii de intrare, wi Rn, i = 1, 2, ..., m vectorii triilor sinaptice
dintre stratul de intrare i stratul ascuns, ki R, i = 1, 2, ..., m triile sinaptice dintre stratul
ascuns i stratul de ieire, G funcia de activare a neuronilor din stratul ascuns):
m
G f : R n : R f (x) k i Gw i x , w i , x R n , k i R, G : R R
i 1
(7.44)
f ( x ) m
k j w ji G' w j x , i 1,2,..., n
x i
j 1
(7.45)
oricare ar fi f ,g S, (f , g) 0;
oricare ar fi f ,g, h S, (f , h) (f , g) + (g , h);
(f , g) = 0 dac i numai dac f = g.
Def. 7.19: Fie S un spaiu de funcii. Dac : S R + este o metric pe S atunci cuplul (S, )
se numete spaiu metric.
Capacitatea mulimii (G) de a aproxima spaiul de funcii S se poate descrie cu
ajutorul conceptului de - densitate:
194
max sup D f (x ) D g (x )
m x K
L p U , f : U R f masurabila , f
p ,U ,
f d
p
1
p
,1 p
(7.46)
Obs.7.8: i).Distana dintre dou funcii f,g Lp(U, ) se msoar prin metrica:
p ,U , f g
p ,U ,
S pm U , f C m U D f
p ,U ,
, m
(7.47)
D f
m
m, p ,U ,
p ,U ,
(7.48)
mp , f , g f g
m, p ,U ,
f , g S pm U ,
(7.49)
iii). Metrica Sobolev ine cont n mod explicit de distana dintre derivate. Dou
funcii din mulimea S pm U , sunt "apropiate" n metrica Sobolev mp , dac toate
0 m sunt "apropiate" n metrica Lp.
derivatele de ordin
(7.50)
U x R n xi , i 1,2,..., n
(7.51)
mp ,loc f , g
i 1
1
min f g
2i
m, p ,U i ,
,1 , f , g S pm loc
(7.52)
Obs.7.10: Dou funcii din mulimea S pm U , sunt "apropiate" n metrica Sobolev mp ,loc dac
toate derivatele de ordin 0 m sunt "apropiate" n metrica Lp pe submulimi deschise i
mrginite din Rn.
Spaiile de funcii S pm U , nu conin funcii derivabile peste tot, exceptnd mulimile
de msur nul (de exemplu funcii difereniabile pe poriuni - piecewise differentiable). Vom
arta c cu ajutorul reelelor neuronale de tip PMS, exist posibilitatea de a aproxima orict
de bine astfel de funcii.
Pentru a putea aborda aceast problem va fi necesar n cele ce urmeaz s lucrm cu
o noiune generalizat de derivat. De aceea vom introduce conceptul de distribuie i de
derivat distribuional, conform cu Schwartz [182].
Introducem urmtoarele notaii:
196
f d };
T f f d , C0 U
(7.53)
T 1 T D , C0 U
(7.52)
T f 1 T f D 1
f D d D f d T , C U
U
D f
Chiar dac derivata clasic nu exist, poate exista un element h L1,loc (U), astfel
nct s avem Tf = Th.. n acest caz, putem scrie h = f, iar f se numete derivata
generalizat a lui f. Dac f Cm(U), atunci f = Df.
Putem acum s definim spaiul Sobolev ce reprezint mulimea funciilor ce au
derivata generalizat de ordin pn la m aparinnd lui Lp(U, ):
Wpm U f L1,loc U f L p U , , 0 m
197
(7.55)
S pm U , , astfel:
m, p ,U
f
m
mp f , g f g
p
, f Wpm U
p ,U ,
m, p ,U
, f , g Wpm U
(7.56)
(7.57)
Dou funcii din spaiul Sobolev Wpm U sunt "apropiate" n metrica Sobolev mp
(7.57) dac toate derivatele generalizate sunt "apropiate" n metrica Lp(U, ).
Ne intereseaz s determinm acele condiii asupra mulimilor G i U care determin
ca reelele neuronale de tip PMS s fie mp - dens n spaiul Wpm U . Prin aceasta, reelele
neuronale de tip PMS sunt capabile de a aproxima o funcie necunoscut i derivatele sale
generalizate, cu orice precizie dorit, dac reeaua neuronal are n stratul ascuns un numr
suficient de neuroni.
Condiiile pe care trebuie s le satisfac mulimea U sunt:
(C1): U s fie o submulime deschis i mrginit a lui R n;
(C2): mulimea restriciilor funciilor din C0 R n relativ la U s fie mp - dens n
spaiul Wpm U ;
Obs.7.12: Motivul existenei condiiei (C2) este dat de posibilitatea ca alegerea lui U s fie
astfel fcut nct C0 R n s nu fie mp - dens n spaiul Wpm U , atunci putndu-se construi
funcii care s aparin spaiului Sobolev Wpm U i care nu sunt aproximabile cu o precizie
dat de orice reea neuronal.
Conform cu [104], pn n prezent nu se cunosc condiii necesare i suficiente asupra
mulimii U n aa fel nct spaiul de funcii C0 R n s fie mp - dens n spaiul Wpm U . Din
fericire ns exist o serie de condiii suficiente asupra mulimii U care asigur condiia ca
spaiul de funcii C0 R n s fie mp - dens n spaiul Wpm U . Vom prezenta n cele ce
urmeaz dou astfel de condiii asupra mulimii U, i anume "condiia de segment" i
"condiia de form stelat n raport cu un punct".
S notm cu U complementara mulimii U n raport cu Rn i fie frontiera mulimii U
notat U definit astfel:
U clU clU
(7.58)
198
Teorema 7.16: (Adams, [1]) Dac U verific "condiia de segment", atunci spaiul de funcii
C0 R n este mp - dens n spaiul Wpm U pentru orice 1 p < i m = 0, 1, 2, ....
Def.7.26: Mulimea U verific "condiia de form stelat n raport cu un punct" dac exist
un punct x U astfel nct orice segment de dreapt cu captul n punctul x are o unic
intersecie cu frontiera U a domeniului U.
Teorema 7.17: (Maz'ja [137]) Dac mulimea mrginit U verific "condiia de form stelat
n raport cu un punct", atunci spaiul de funcii C0 R n este mp - dens n spaiul
, multi indici , x
C R n f C R n
D f (x) 0, pt. x
Obs.4.13: C0 R n C R n .
nainte de a formula teoremele fundamentale care ne asigur capacitatea unui PMS de
a aproxima o funcie necunoscut precum i a derivatelor sale cu orice precizie dorit, s
recapitulm spaiile de funcii definite, precum i metricile definite pe aceste spaii, metrici
care msoar distana dintre funcii precum i dintre derivatele lor pn la un anumit ordin:
(1) C0 R n spaiul funciilor rapid descresctoare;
C R , ;
m
K
(2) S pm U , spaiul funciilor din Cm(U) care au derivatele de ordin m Lp(U, ) integrabile, pentru U i alei corespunztor;
m
p
U , , mp, ;
(3) S pm loc spaiul funciilor din Cm(Rn) care au derivatele de ordin pn la m Lp(U,
S loc, ;
m
p
m
p , loc
) - integrabile;
W U , ;
m
p
m
p
199
neuronale de tip PMS s aib proprietatea de aproximant universal n aceste spaii. n acest
scop vom urma rezultatele prezentate n [104].
Teorema 7.18: Fie m Z i G S1m R, o funcie nenul. Atunci mulimea (G) este muniform dens pe compact n C R n .
Demonstraia se poate gsi n [104], bazndu-se pe reprezentarea integral Fourier a
reelelor neuronale de tip PMS cu un singur strat ascuns, avnd un numr nelimitat de neuroni
n stratul ascuns, propus prima dat de Irie i Miyake [106]. Analiznd teorema de mai sus,
tragem concluzia c dac funcia G de activare a neuronilor aparine spaiului G S1m R, ,
atunci (G) poate aproxima orice funcie ce aparine spaiului C R n , precum i derivatele
sale de ordin pn la m.
Din pcate, condiia de apartenen G S1m R, este mult prea puternic, mai ales
pentru aplicaii practice, eliminnd funciile de activare de tip logistic i tangent hiperbolic
care nu aparin nici mcar spaiului S10 R, . n general, teorema de mai sus nu este valabil
pentru funcii de activare G de tip sigmoidal.
Din fericire, putem slbi condiiile de apartenen asupra funciei de activare a
neuronilor din stratul ascuns G. Pentru acest motiv introducem definiia de mai jos:
l 1
D G d , atunci D
l
l 1
Gd 0 ;
Gd 0 ;
D G d .
l
200
D G d ;
l
S pm R n , .
Corolarul 4.4: Dac funcia de activare G este l-finit, atunci pentru orice 0 m l (G) este
mp , loc - dens n S pm loc .
S construim n cele ce urmeaz un model de reea neuronal de tip PMS ce are
capacitatea de a aproxima o funcie necunoscut f : R2 R precum i a derivatelor sale
f
f
pariale de ordinul nti f1
: R 2 R i f 2
: R 2 R . Schema din figura de mai
x1
x2
jos este un pic diferit de arhitectura obinuit a reelelor neuronale deoarece pune n eviden
i modul de propagare a calculelor.
DG
x1
x
w11
+
x
w21
w12
w22
k1
k2
x
+
x
f1
x
x
f2
x
x
x2
DG
Fig7.3: Arhitectura unei reele neuronale capabil a aproxima o funcie f i derivatele sale pariale
f1 i f2 ordinul I:
- linia continu corespunde funciei f;
- linia continu corespunde derivatelor pariale f1 i f2 de ordinul I a funciei f;
- neuron de intrare; neuron aditiv; neuron multiplicativ;
- G neuron cu funcia de activare G; DG neuron cu funcia de activare DG.
201
Cum trebuie interpretate aceste rezultate? Rezultatul enunat mai sus nu distruge
capacitatea de aproximant universal a reelelor neuronale. Ceea ce am artat i
demonstrat mai nainte n acest capitol rmne perfect adevrat relativ la proprietatea
de aproximant universal a reelelor neuronale. ns, trebuie avut grij n folosirea
argumentelor practice obinute prin simularea unei reele neuronale pe un sistem de
calcul secvenial (sau paralel) ca dovezi ale capacitii unei reele neuronale de a fi o
metod de aproximare universal. Argumentaia de mai nainte este valabil de altfel
pentru orice metod de aproximare distribuit a crei simulare se face prin
implementarea pe sisteme de calcul secveniale.
y v j G( I j )
(7.59)
j 1
Cea mai general formulare este ntlnit n situaia cnd fiecare neuron din stratul
ascuns are o funcie de activare particular, dup cum vedea de altfel n capitolele urmtoare,
cnd vom construi reele neuronale de tip PMSR (Perceptron MultiStrat de Regularizare).
De aceea, vom putea scrie, n cel mai general caz, c valoarea generat de reeaua neuronal
este:
N
y v j Gj (I j )
(7.60)
j 1
sens teoretic: funciile de activare sunt analitice i avnd deci un echivalent polinomial.
S notm echivalentul polinomial al funciilor de activare n felul urmtor:
Gi x ai,0 ai,1 x ai,2 x 2 , i 1,, N
(7.61)
Obs.7.15: Polinomul echivalent poate fii diferit pe anumite domenii de funcia de activare
echivalent, dar va exista ntotdeauna i va fi convergent ctre funcia de activare echivalent
pe domeniul de definiie al acesteia [212].
Pe baza acestei echivalene polinomiale, putem exprima valoarea generat de reeaua
neuronal n felul urmtor:
203
i 1
i 1
(7.61)
bk vi ai,k w ik
(7.62)
i 1
(7.63)
bk vi ai,k w ik
(7.64)
i 1
S introducem notaiile:
notm cu vi modificarea celei de-a i-a trii sinaptice ce leag al i-lea neuron din stratul
ascuns de neuronul de neuronul de ieire;
notm cu wi modificarea celei de-a i-a trii sinaptice ce leag neuronii din stratul de
intrare de al i-lea neuron din stratul ascuns;
204
bk bk vi vi aik aik w i w i
k
i 1
(7.65)
i 1
i 1
(7.66)
i 1
bk 0 cnd k
(7.67)
Conform cu ecuaia (7.65), i innd cont de relaia de mai sus (7.67) rezult c
coeficienii aik trebuie s descreasc mai rapid dect creterea lui w ik , atunci cnd k crete.
Considernd atunci termenii relaiei (7.66) obinem:
kvi aik w ik 1 w i 0 , cnd k
(7.68)
(7.69)
(7.70)
lim bk 0
(7.71)
205
P x PMAX x PN x
MAX
b x
i0
b x
i
i MAX 1
(7.72)
206
Eg
2
1
f x F x dx
2 X
(8.1)
1
f x F x 2
2 t T
(8.2)
E MSE
1
1
El
T
T
f x F x
t T
207
(8.3)
208
F w, x w i i x
i 1
F w, x w i1 w i2 ... w iy x iy ...
i
i1
iy
210
211
212
i eroarea de generalizare Eg
Dup cum se vede i din figura de mai sus, avem urmtoarele probleme:
descendent sau gradientul conjugat [136], sau revenirea simulat n spaiul parametrilor, care
au ca el minimizarea erorii relativ la mulimea datelor de antrenament T = (x , f (x)).
Dup cum am vzut pn n acest moment, dac considerm nvarea reelelor
neuronale prin perspectiva teoriei aproximrii, putem stabili o echivalen ntre nvarea de
ctre o reea neuronal a unei funcii netede (smooth) i o problem standard de aproximare reconstrucia unei suprafee pe baza unei mulimi de antrenament T = (x , f (x)).
n aceast analogie, a nva nseamn a aproxima exemplele (datele de antrenament),
adic coordonatele datelor de intrare x Rn, precum i nlimea dorit a suprafeei z n acel
punct. A generaliza nseamn estimarea nlimii z ntr-un punct x care nu face parte din
mulimea datelor de antrenament. Aceasta nseamn interpolarea sau mai general aproximarea
suprafeei n puncte situate n plan printre datele de nvare. Din acest punct de vedere,
problema reconstruciei unei suprafee sau problema aproximrii aparine unei clase generice
de probleme numite probleme inverse [93].
O problem invers poate fi bine-definit (well-posed) sau ru-definit (ill-posed).
Termenul de problem bine-definit a fost folosit n matematica aplicat, prima dat de
Hadamand la nceputul acestui secol [122].
Def. 8.2: Problema aproximrii unei funcii f : X Y se numete bine-definit dac sunt
satisfcute urmtoarele condiii [147], [193]:
(C1) Condiia de existen: Oricare ar fi x X, exist y Y, astfel nct y = f (x);
(C2) Condiia de unicitate: Oricare ar fi x, t X, avem f (x) = f (t), dac i numai dac x = t;
(C3) Condiia de continuitate: funcia f este continu.
Def. 8.3: Problema aproximrii unei funcii f : X Y se numete ru-definit dac nu este
satisfcut cel puin una dintre condiiile (C1), (C2), (C3) din Definiia 8.2.
Din acest punct de vedere, procesul de nvare a unei reele neuronale, sau problema
de aproximare a unei funcii netede pe baza unei mulimi de antrenament este ru-definit, n
sensul c datele de antrenament nu sunt suficiente pentru a reconstrui n mod unic funcia n
puncte unde nu avem date de antrenament (condiia de unicitate (C2) nu este satisfcut).
De asemenea, nu ntotdeauna datele de antrenament sunt de o mare acuratee, ele fiind
n general zgomotoase, ceea ce duce la invalidarea condiiei de continuitate (C3).
De aceea, trebuie s lum n considerare o serie de ipoteze a priori despre funcie,
ipoteze care s transforme o problem ru-definit ntr-o problem bine-definit.
Referindu-ne la proprietatea de generalizare, acest lucru nu este posibil dac avem de-a face
cu o funcie aleatoare. Proprietatea de generalizare se bazeaz pe faptul c lumea
nconjurtoare este la un anumit nivel redundant i n particular, poate fi caracterizat ca
fiind neted, adic mici modificri ale unor parametri de intrare se reflect n mici modificri
ale valorilor de ieire [123].
Aceast ipotez de netezime este cea mai slab i general ipotez care permite
existena procesului de aproximare. Evident, c alte ipoteze mai puternice despre o funcie, ca
de exemplu faptul c este liniar sau convex sau c este invariant n raport cu un anumit
grup de transformri etc., uureaz problema aproximrii acelei funcii.
Netezimea unei funcii poate fi msurat n mai multe moduri, cea mai bun fiind
utilizarea unei funcionale ce conine derivate ale funciei considerate.
Concluzionnd, putem spune c dac nu avem nici o informaie disponibil despre o
funcie de aproximat multidimensional, singura ipotez ce poate fi luat n considerare este o
214
netezime ridicat a acestei funcii. Altfel, numrul de date de antrenament necesare ar fi total
nepractic, deci problema ar fi nerezolvabil.
Tehnicile de aproximare care se folosesc de restricia referitoare la netezime sunt
cunoscute sub denumirea de tehnici de regularizare standard. Aceast metod a fost
introdus pentru prima dat de Tikhonov n anul 1963 [194].
Regularizarea standard are la baz o problem variaional de a gsi acea suprafa
care minimizeaz o funcional cost ce const din doi termeni:
2
1
zi y i msoar distana
2 i
1
2
Pf msoar costul asociat cu
2
2
o funcional ||Pf|| care conine informaii a priori referitoare la f, P fiind de obicei un
operator diferenial. Alegerea operatorului P este dependent de problema concret de
rezolvat. Operatorul P este numit stabilizator n sensul c stabilizeaz soluia, fcndo neted, deci continu.
2 i
2
(8.4)
Dup cum am vzut mai nainte, problema nvrii unei reele neuronale este
echivalent cu problema regularizrii (8.4). Ceea ce dorim s cunoatem este dac, ntradevr, acestei afirmaii putem s-i dm o justificare matematic consistent.
S presupunem c cunoatem mulimea de date T, care conine mulimea de N puncte
pentru aproximarea funciei f : R n R , sau, dac privim prin prisma calculului neuronal,
mulimea de N date de antrenament:
T x i , yi x i R n , yi R, i 1,2,, N
(8.5)
Atunci:
f x i yi i , i 1,2, , N
(8.6)
P f T P T f P f
(8.7)
P T f e
1
2
yi f x i
i 1
(8.8)
P f e f
(8.9)
unde [f] este o funcional de netezire de tipul termenului de regularizare din capitolul
precedent, iar un parametru real pozitiv. Forma acestei distribuii probabilistice favorizeaz
acele funcii pentru care termenul de regularizare [f] este mic.
Pe baza relaiei lui Bayes (8.7) probabilitatea a posteriori a lui f poate fi scris sub
forma:
216
P f T e
1
2
2
yi f x i 2 f
2 2 i 1
(8.10)
O soluie simpl pentru estimarea probabilistic a funciei f din relaia de mai sus
(8.10) este aa numita estimare MAP (Maximum A Posteriori) care consider acea funcie
care maximizeaz probabilitatea a posteriori P f T , ceea ce presupune minimizarea
exponentului exponenialei din membrul drept al relaiei (7.82):
1
2 2
z f x f
2
(8.11)
(8.12)
i 1
C log P
(8.13)
vom obine:
C f T C f CT f c
(8.14)
217
dE f , h f h
d
0
(8.15)
(8.16)
1 d
dE S f , h E S f h
z i f x i h x i
d
0 2 d i
0
(8.17)
z i f x i h x i h x i | 0 z i f x i h x i
Teorema 8.1 (Teorema de reprezentare a lui Riesz) [39]: Fie g o funcional liniar
mrginit, definit pe un spaiu Hilbert H. Atunci exist o unic funcie h0 H astfel nct:
g h, h0 H , h H
De asemenea avem: g
h0
H.
Pe baza Teoremei 8.1, s rescriem relaia (8.17):
dES f , h h, z i f x x i
i
H
218
(8.18)
d
E R f h
d
n P f hPhdx
R
2
1 d
P f h dx
n
R
2 d
(8.19)
n PfPhdx Ph, Pf H
R
(8.20)
1
dE f , h 2 h, P Pf z i f x x i 0
i
(8.21)
Relaia de mai sus este satisfcut n sens distribuional, dac i numai dac:
P Pf
f x x i 0 P Pf
f x x i
(8.22)
Ecuaia de mai sus este cunoscut sub numele de ecuaia Euler - Lagrange pentru
funcionala E(f) [159].
Soluia problemei regularizrii, dedus mai sus, poate fi scris sub forma:
P Pf x
f x i x x i
(8.23)
P PGx; x i 0
(8.24)
cu excepia punctului x = xi, unde funcia Green G(x;xi) are o nesingularitate. Putem atunci
rescrie relaia de mai sus, cu ajutorul distribuiei delta Dirac:
P PGx; x i x x i
219
(8.25)
f x n G x; d
(8.26)
unde funcia () reprezint membrul drept al ecuaiei (8.23), iar variabila x a fost nlocuit
cu variabila . Funcia () poate fi scris sub forma:
f i x i
(8.27)
f x i G x; x i
(8.28)
Relaia de mai sus ne arat c soluia f(x) a problemei regularizrii este o combinaie
liniar de funcii Green centrate n punctele xi, care vor fi numite centre de expansiune, iar
z i f x i
coeficienii
vor fi numii coeficienii expansiunii.
Cnd dorim s caracterizm o funcie prin faptul c este neted, privim netezimea ca o
msur a comportamentului oscilator al funciei [80]. Cu alte cuvinte, vom spune despre o
funcie derivabil c este mai neted dect alt funcie derivabil, dac oscileaz mai puin.
Din punct de vedere al domeniului frecvenelor, care sunt reprezentate de dou funcii netede,
vom spune c o funcie este mai neted dect alta, dac are o energie mai mic la o frecven
mai mare.
Coninutul de frecvene nalte a unei funcii poate fi msurat astfel [80]:
poate fi definit
astfel:
Pf
~ 2
f s
n ds ~
R
G s
220
(8.29)
1
indic transformata Fourier [75]; ~ este un filtru trece-sus, reprezentat
G
printr-o funcie ce tinde la zero cnd ||s|| i pentru care clasa de funcii ce corespund
unui astfel de filtru bine definit este nevid.
unde notaia
~
f x C n ds f se ixs
(8.30)
~
~
H f zi C n ds f s e ixs
i
~ 2
f s
n ds ~
R
G s
(8.31)
(8.32)
~
~
H f zi C n ds f s e ix i s
i
~ ~
f s f -s
n ds
~
R
G s
(8.33)
H f
0,t R n
~
f t
n urma calculelor obinem:
221
(8.34)
~
~
~
H f
f sf s
~ ix s 2
~ z i C ds f se
~ ds ~ ~
~
R
f t f t i
f t R
G sf t
~
~
f s ix s
f s
2 z i f x i ds ~ e 2 ds ~ s t 2 z i f x i ds s t e ix s
R
R
R
G s
f t
i
i
~
~
f t
f t
ix t
2 ~
2 z i f x i e 2 ~
G t
G t
i
(8.35)
z i f x i e ixi t
~
~
f t G t
i
(8.36)
S introducem notaia:
wi
f x i
, i 1,2,
(8.37)
~
Presupunnd c funcia G este simetric, adic transformata sa Fourier este real, i
aplicnd ultimei ecuaii (8.36) transformata Fourier, obinem:
f x wi xi xGx wi Gx; xi
i
(8.38)
(8.39)
regularizare Pf
i 1
f x wi Gx; x i d x
222
(8.40)
f x i
(8.39)? Pentru aceasta vom evolua funcia f n punctele xj, j = 1, 2,, N care corespund
centrelor de expansiune.
f x j wi G x j ; x i , j 1,2,, N
(8.41)
Introducnd notaiile:
f f x 1 , f x 2 , , f x N
z z1 , z 2 , , z N
(8.42)
(8.43)
G x 1 ; x 1 G x 1 ; x 2 G x 1 ; x N
G x 2 ; x 1 G x 2 ; x 2 G x 2 ; x N
G x N ; x 1 G x N ; x 2 G x N ; x N
(8.44)
w w1 , w2 , , w N
(8.45)
z f , f G w
(8.46)
G Iw z
(8.47)
unde I este matricea identic de ordinul N. Dac matricea G I este inversabil, atunci
obinem soluia:
w G I z
1
(8.48)
~ 2
f s
f n ds ~
R
G s
(8.49)
care conduce la soluii ale problemei regularizrii de aceeai form (8.38), (8.39), (8.40). n
funcie de proprietile funciei Green G, vom obine diferii stabilizatori. Fiecare stabilizator
corespunde la diferite prezumii a priori asupra netezimii funciei de aproximat.
A. Stabilizatori radiali
Cea mai mare parte a stabilizatorilor utilizai n practic posed proprietatea de
simetrie radial, care se exprim matematic:
f x f Rx
(8.50)
Fx i yi , i 1,2,..., N
(8.51)
i 1
i 1
(8.52)
Analiznd forma soluiei (8.52) descoperim de fapt identitatea acestei forme cu soluia
general a problemei regularizrii (8.28). Regsim de fapt ntr-un context particular ceea ce
am dovedit deja ntr-un context mai general.
Analiznd forma funciei RBF (8.52), avem ca necunoscute:
N coeficieni ci;
m coeficieni di;
deci un total de (N + m) necunoscute.
Din condiiile de interpolare (8.51) obinem N ecuaii liniare. Restul de m ecuaii
liniare se vor obine prin impunerea urmtoarelor restricii [158]:
N
c p x 0 ,
i
j 1,2,..., m
(8.53)
i 1
i 1
(8.54)
c px 0, p R ,
N
i 1
k 1
inegalitatea:
c c f x
N
i 1 j 1
x j 0 0
(8.55)
Notaia 8.1: Vom nota clasa funciilor condiional pozitiv definite de ordinul k pe Rn cu
Pk(Rn).
Obs. 8.1: Pentru k = 0 mulimea Pk(Rn) a funciilor condiional pozitiv definite se reduce la
mulimea funciilor pozitiv definite [142].
Conform cu [142], o condiie suficient de existen a unei soluii de forma (8.52)
pentru problema aproximrii este ca funcia h Pk(Rn), adic funcia h trebuie s fie
225
condiional pozitiv definit de ordinul k pe Rn. Din acest motiv, este deosebit de important s
fim n stare s dm o caracterizare ct mai complet acestei clase de funcii.
Def. 8.6: O funcie f : [0 , ) R se numete complet monoton pe intervalul [0 , ) dac
f C(0 , ) i dac satisface condiia:
1 i
i f
x 0 , x 0, , i N
x i
(8.56)
Notaia 8.2: Vom nota cu Mk mulimea funciilor a cror derivat de ordinul k este complet
monoton pe intervalul [0 , ).
Teorema 8.2: Oricare ar fi numrul natural k N, dac funcia h este continu pe intervalul
k
k h
[0, ) i 1
r este complet monoton pe intervalul (0 , ), atunci avem h(r2)
k
r
Pk(Rn).
S analizm implicaiile acestei teoreme: dac derivata de ordinul k a funciei h este
complet monoton, atunci funcia F de forma (8.52) poate fi folosit pentru a rezolva
3
i 1
(8.57)
Fx i yi , i 1,2,..., N .
Aceste condiii substituite n relaia (8.57), conduc la sistemul liniar:
Hc = y
(8.58)
Obs. 8.2: Teorema 8.2 ne d doar o condiie suficient, ceea ce nseamn c multe alte funcii
pot fi folosite ca i funcii de tip RBF fr a fi condiional pozitiv definite.
O alt teorem ce ne asigur o condiie suficient este urmtoarea:
Teorema 8.3: Fie o funcie h : [0 , ) R+, avnd derivata de ordinul I neconstant dar
complet monoton pe intervalul (0 , ). Atunci pentru orice puncte distincte x1, x2, ..., xN
Rn avem relaia:
1 N 1 det h x i x j
(8.59)
Pe baza Teoremei 8.3, putem construi o list de funcii ce pot fi folosite pentru a
rezolva n practic problema interpolrii unei anumite mulimi de puncte date:
h r e
h r
r
c
c
h r c
Gaussian
1
r2
h r r
(8.60)
0 1
liniar
f n ds s
2m
~ 2
f s
(8.61)
1
~
G s 2 m
s
(8.62)
x
Gx
2 mn
2 mn
227
, altfel
(8.63)
G x x ln x
2
(8.64)
O f
i1 ...i m
unde i1 ...im
Rn
dx i1 ...im f x
(8.65)
m
, m 1. Acest tip de stabilizator este invariant rotaional i
xi ... xi
1
translaional. Mai mult, deoarece operatorul diferenial implicat este omogen, o transformare
scalar a variabilelor are ca efect nmulirea funcionalei cu o constant.
Funcia Green ataat acestui tip de stabilizator este radial, invariant translaional i
satisface urmtoarea ecuaie diferenial distribuional:
1 m 2 m G x x
(8.66)
x
G x
2mn
2 mn
altfel
(8.67)
Din relaia de mai sus rezult c restricia 2m > n este necesar a fi impus pentru a
obine o funcie Green care s nu fie singular n origine. S presupunem n continuare c
avem condiia 2m > n satisfcut.
Din teoria funciilor spline se tie c dac stabilizatorul este de ordinul m, atunci
funcia Green este condiional pozitiv definit de ordinul m. Pe baza rezultatelor anterioare
putem afirma, dac se cunoate m N, pentru a interpola mulimea de puncte
x i , yi R n R i 1,2,..., N putem folosi urmtoarea funcie:
f (x) ci G x x i pm1 x
i 1
(8.68)
O f
2 f 2 2 f 2 2 f 2
2 dxdy 2
2
R
xy
y
x
(8.69)
G x x ln x (thin plate).
2
~ 2
f s
(8.70)
~
G s e
(8.71)
G x e
229
L1
(8.72)
Funcia Gaussian este pozitiv definit, i dup cum vom vedea, funciile pozitiv
definite pot defini norme de forma stabilizatorului (8.49). Deoarece acest stabilizator este o
norm, spaiul su nul conine doar elementul zero, nemai fiind nevoie s adugm la soluia
problemei variaionale (8.39) i termenul corespunztor spaiului nul, care termen apare la
spline.
Comparnd funcia Gaussian cu spline-ul observm la prima existena parametrului
real pozitiv de care depinde, n timp ce spline-urile fiind funcii omogene nu depind de nici
un parametru de scalare. n Figura 8.4 avem reprezentarea grafic a funciei Gaussiene.
G x e x .
2
G x
c 2 - funcia multi-cvuadratic
1
c2
(8.73)
(8.74)
G x x
2n
G x x
2 n 1
ln x - spline
- spline
(8.75)
(8.76)
230
G x e
L1
- Gaussian
(8.77)
(8.78)
i' 1
f n ds
R
~ 2
f s
(8.79)
g~si
i 1
G x g x i
(8.80)
i' 1
unde xi este a i - a coordonat a vectorului n-dimensional x, iar funcia g(x) este transformata
Fourier a funciei g~ (x).
Un exemplu cu aplicaii practice importante, din punct de vedere al implementrii
hardware VLSI, este alegerea urmtoarei funcii:
g~ s
1
1 s2
(8.81)
G x e
xi
xi
i 1
L1
(8.82)
i' 1
Calculul normei L1 a vectorului x se face mult mai uor dect norma Euclidian L2, de
aceea n aplicaiile practice acest lucru este de preferat. Dar, deoarece funcia Green G(x)
(8.81) nu este suficient de neted (vezi Fig. 8.5) , performanele sale nu sunt foarte bune,
depinznd de aplicaia concret.
231
G x e
L1
C. Stabilizatori aditivi
Dup cum am vzut mai nainte, putem s derivm schemele de aproximare de tip
produs tensorial n contextul cadrului general al teoriei regularizrii, i deci al calculului
neuronal. n cele ce urmeaz, vom vedea c i schemele de aproximare aditive se pot ncadra
n acelai cadru general al calculului neuronal.
Printr-o schem de aproximare aditiv vom nelege o funcie aproximant de forma:
n
f x fi x i
(8.82)
i 1
unde fi reprezint funcii reale de o singur variabil i care vor fi denumite n continuare
componentele aditive al funciei f, iar xi a i - a component a vectorului x.
Modele aditive de aproximare de forma de mai sus (8.82) sunt ntlnite mai ales n
statistic [92]. Aceste modele aditive de aproximare sunt eficiente deoarece, fiind o
compunere aditiv de funcii reale unidimensionale, au o complexitate sczut, i o trstur
foarte important, ntlnit de fapt la modelele lineare, i anume, aceea de a putea studia
separat influena diferitelor variabile.
Pentru a obine un astfel de model de aproximare aditiv, din punct de vedere al
calculului neuronal, va trebui s alegem un stabilizator corespunztor, i anume:
232
G x i g x i
(8.83)
i 1
fi x i j G x i x j
j 1
(8.84)
~
G s 1 g~ s1 s2 2 g~ s2 s1
(8.85)
f n ds
R
f s
1 g~ s1 e
s 2
2
2 g~ s2 e
s 2
1
(8.86)
G x, y 1 g x e
2 2
2 g y e
2 2
(8.87)
n
n
1
H f yi f j x i
i 1
j 1
i 1 i
N
f i s
Rn ds g~ s
(8.88)
unde parametrii i sunt parametri pozitivi, care permit impunerea a diferite grade de netezime
asupra diferitelor componente aditive.
Prin minimizarea funcionalei de mai sus, nelund n considerare eventualii termeni ce
corespund spaiului nul, obinem:
N
f x ci G x x i
i'1
unde:
233
(8.89)
G x x i j g x j x i
j 1
(8.90)
cij
ci
(8.91)
fi x i cij g x i x j
j 1
(8.92)
clasicei Teoreme a lui Weierstrass. Pentru a caracteriza ns "calitatea" unei reele neuronale
nu este suficient ca aceast s satisfac Teorema lui Weierstrass. Aproape orice reea
neuronal de tip PMS ca cea din Fig. 7.1, avnd o funcie de activare neliniar pentru neuronii
stratului ascuns va satisface aceast proprietate a lui Weierstrass. Deoarece, majoritatea
schemelor de aproximare, printre care i reelele neuronale, satisfac proprietatea lui
Weierstrass, avem nevoie de o caracteristic suplimentar. i literatura de specialitate n
domeniul teoriei aproximrii reflect aceast problem, ncercnd s accentueze alte
proprieti ale schemelor de aproximare. O astfel de proprietate, prin care vom ncerca o
caracterizare suplimentar a reelelor neuronale, privite ca i scheme de aproximare, va fi
proprietatea de cea mai buna aproximant, pe care o vom nota BAP (Best Approximation
Property).
ntr-o definiie neformal putem s spunem despre o schem de aproximare c
satisface BAP dac n mulimea funciilor aproximante (n cazul reelelor neuronale aceasta
poate fi F ( x , w ) w R) exist o funcie unic ce are distana minim fa de o mulime mai
larg de funcii .
S considerm mulimea general a funciilor ce poate fi calculat cu ajutorul unui
PMS avnd un singur strat ascuns, un singur neuron n stratul de ieire, ca acela din Fig. 7.1:
i 1
N f C U f x vi H i x , U R n , H i C U , N , n N
(8.93)
d f , A inf f a
aA
(8.94)
f a0 d f , A
acest element se numete cea mai bun aproximant a lui f de ctre A.
235
(8.95)
Def. 8.9: Mulimea de funcii A se numete mulime de existen dac, pentru orice funcie
f , exist cel puin o cea mai bun aproximant a lui f de ctre A.
Obs. 8.3: Despre o mulime A care este o mulime de existen vom putea spune c satisface
de asemenea i BAP (Proprietatea de cea mai bun aproximant).
Def. 8.10: Mulimea de funcii A se numete mulime de unicitate dac, pentru orice funcie
f , exist cel mult o cea mai bun aproximant a lui f de ctre A.
Def. 8.11: Mulimea de funcii A se numete mulime Cebev dac este o mulime de
existen i o mulime de unicitate.
Dup aceste noiuni introductive, putem formula problema aproximrii prin prisma
BAP:
Def. 8.12 (problema aproximrii): Fiind dat funcia f i mulimea A s se gseasc
o cea mai bun aproximant a lui f de ctre A.
Este evident c problema aproximrii are soluie dac i numai dac mulimea A este o
mulime de existen.
Vom studia n cele ce urmeaz proprietile unor mulimi ce posed proprietatea BAP,
i vom aplica aceste proprieti la reele neuronale pentru a putea s le nelegem mai bine din
punct de vedere al teoriei aproximrii [81].
Propoziia 8.1: Orice mulime de existen este nchis.
Demonstraie: Fie mulimea A o mulime de existen, i s presupunem prin reducere
la absurd c nu este nchis.
Atunci trebuie s existe cel puin un ir de elemente a n nN aparinnd mulimii A
care converge la un element ce nu aparine mulimii A. Cu alte cuvinte, putem scrie:
an nN , an A, f \ A : lim d f , an 0
n
f a0 0
Din proprietile normei vom avea c f = a0 , ceea ce este absurd deoarece f A i a0
A. Aceasta contrazice ipoteza fcut c mulimea A nu este nchis. Rezult c mulimea A
este nchis.
Reciproca acestei propoziii nu este n general adevrat, adic nu este suficient ca o
mulime s fie nchis pentru ca ea s fie o mulime de existen. Teorema de mai jos va
conine condiia de suficien [49]:
Teorema 8.4: Fie mulimea A o mulime compact ntr-un spaiu metric . Atunci mulimea
A este o mulime de existen.
236
H : A R , H a d f , a
Funcia H este o funcie continu pe mulimea compact A. Dup cum se tie ns,
conform teoremei lui Weierstrass, o funcie continu pe o mulime compact ntr-un spaiu
metric i atinge supremul i infimul pe acea mulime. Atunci funcia H i atinge infimul pe
mulimea compact A, ceea ce conform Definiiei 8.9 nseamn c mulimea A este o mulime
de existen.
Din punct de vedere al teoriei aproximrii, o reea neuronal este o reprezentare a unei
mulimi A de funcii parametrice, iar algoritmul de nvare a reelei neuronale corespunde de
fapt algoritmului de cutare a celei mai bune aproximante a unei funcii f ctre A. n general,
mulimea A nu are proprietatea BAP, doar dac ea satisface o serie de proprieti adiionale,
cum ar fi proprietile stabilite de Teorema 8.4.
De aceea, vom ncerca s analizm care reele neuronale satisfac aceste proprieti.
VIII.3.1. Aplicaia 1:
BackPropagation
Reele
neuronale
de
tip
BP
1
1 ex
(8.96)
1
n f C U f x vi
, U R n , w i R n , vi , i R
xwi i
1 e
i 1
(8.97)
Vom formula n cele ce urmeaz rezultatul cel mai important din punct al studiului
teoretic i aplicativ al calculului neuronal [46]:
Propoziia 8.2: Mulimea n nu este o mulime de existen, oricare ar fi n 2.
Demonstraie: Dup cum am vzut n Teorema 8.4, o condiie necesar pentru ca o mulime
s fie o mulime de existen este ca acea mulime s fie nchis. De aceea, pentru a dovedi c
237
1
1
1
wx
wx
1 e
1 e
(8.98)
1
21 cosh wx
(8.99)
n f C U f (x) ii x , U R n , i R
i 1
(8.100)
i x G x - x i
(8.101)
ntrebarea pe care ne-o punem n continuare este dac aceast mulime de funcii
aproximante asociate reelelor neuronale de regularizare posed proprietatea BAP ?
Rspunsul la aceast ntrebare este pozitiv, fiind exprimat prin propoziia:
Propoziia 8.3: Mulimea n este o mulime de existen, oricare ar fi n 1.
Demonstraie: Fie funcia f un element fixat al spaiului funciilor continue C(U) i a0 un
element arbitrar al mulimii n.
Ne punem problema s determinm cel mai apropiat punct al mulimii n de funcia f. Acest
punct, dac exist, trebuie s se gseasc n mulimea:
238
a f a0 f
(8.102)
Conform cu [158], aceast mulime este nchis i mrginit, deci este compact. Aplicnd
Teorema 8.4 rezult c mulimea n este o mulime de existen.
n funcie de norma definit pe spaiul funciilor continue C(U), cea mai bun
aproximant, n ipoteza c exist, poate fi unic sau nu. Pentru a studia unicitatea celei mai
bune aproximante s definim noiunea de convexitate strict.
Def. 8.13: Un spaiu normat se numete strict convex, dac:
f g
1
2
g 1 f g
(8.103)
Interpretarea geometric a definiiei de mai sus: un spaiu este strict convex dac sfera
unitar nu conine segmente de dreapt pe suprafaa sa.
Propoziia 8.4: Mulimea n este o mulime Cebev dac spaiul normat al funciilor
continue C(U) este strict convex.
Demonstraie: Am demonstrat mai nainte c mulimea n este o mulime de existen.
Pentru a dovedi c este o mulime Cebev, adic unicitatea celei mai bune aproximante,
trebuie s mai artm c mulimea n este i o mulime de unicitate. Vom demonstra acest
lucru prin reducere la absurd.
S presupunem c exist dou funcii f1 i f2 aparinnd de n ce reprezint cea mai bun
aproximant ctre o funcie g C(U). S mai notm cu distana de la g la mulimea n.
Aplicnd inegalitatea triunghiului, vom obine:
1
2
f1 f 2 g
1
2
f1 g
1
2
f2 g
1
2
f1 f 2
(8.104)
1
2
. De aici obinem:
- dac = 0, atunci f1 = f2 = g;
- dac 0, atunci putem scrie relaia (8.104) sub forma:
1 f1 g f 2 g
1
2
f1 g
f2 g
(8.105)
239
240
i 1
f x wi Gx; x i d x
Pf
wi
cu
f x i
mulime
de
coeficieni
reali,
coeficienii
necunoscui
, i 1,2, ,N.
f x wi G x; x i
i 1
241
Pentru a implementa aceast soluie a problemei regularizrii sub forma unei reele
neuronale, s ne reamintim faptul c pentru a aproxima o funcie continu cu o precizie dorit
este suficient s avem un PMS cu un singur strat ascuns (Cap. VII).
nsi din forma soluiei problemei regularizrii se vede clar c tipul de reea
neuronal creia i corespunde este de tip PMS cu un singur strat ascuns. Deci, reeaua
neuronal care corespunde soluiei problemei regularizrii este un PMS de o arhitectur
special, reea neuronal pe care o vom numi Perceptron MultiStrat Regularizat - PMSR,
reprezentat n Fig. 9.1:
G(x-x1)
xi1
w1
xi
G(x-x2)
w2
xi 3
wk
x
k
i
yi = f(xi)
G(x-xk)
wN
xi
G(x-xN)
activare ale neuronilor din stratul ascuns sunt toate diferite. Al k -lea neuron
are ca funcie de activare funcia Green centrat n punctul xk: Gx x k ;
stratul de ieire constituit dintr-un singur neuron cu funcie de activare
liniar sau dup cum vom vedea n continuare, o funcie de activare
ponderat a valorilor generate de neuronii din stratul ascuns.
triile sinaptice:
242
f x wi G x; x i
(9.1)
i 1
w G I z
1
n practic ns, o astfel de situaie este aproape imposibil, cci sunt foarte rare
1
cazurile cnd matricea G I este inversabil sau de dimensiuni care s poate permit un
calcul real.
De asemenea, nu trebuie s uitm influena numrului de date de antrenament N, care
poate implic o complexitate computaional ce nu poate fi rezolvat, problema noastr
cptnd doar un caracter teoretic. Evident ns, scopul nostru nu este numai teoretic, ci
obinerea unor metode de aproximare-interpolare alternative bazate pe calculul neuronal.
F x vi G x; t i
(9.2)
i 1
K nK N
(9.3)
unde K + nK reprezint:
H F
0, i 1,2,, K
vi
(9.4)
H F
0, i 1,2,, K
t i
n dx ai P i x
R
(9.5)
i 0
unde ai R i 1,2, este o mulime de coeficieni reali, iar P este un operator ce satisface
proprietile:
P 2i 2i ; P 2i 1 2i
(9.6)
1 a Gx x
i
2i
(9.7)
i0
a G 1
i
(9.8)
i 0
e i x
n de i x dV
R
(9.9)
j 0
unde V() este o funcie mrginit i nedescresctoare dac a0 0. Aplicarea teoremei lui
Bochner [22], ne va conduce la concluzia c funcia Green G(x) este pozitiv definit. De
asemenea, condiia a0 0 este esenial n acest calcul, deoarece, aa cum este menionat n
[213], aceasta este o condiie necesar i suficient pentru ca funcia Green s convearg
asimptotic la zero.
Dac particularizm coeficienii:
a0 1, a1 1 si ai 0, i 2
(9.10)
(9.11)
Deoarece funcia de mai sus nu este foarte neted, reflectnd faptul c stabilizatorul
conine doar derivata de ordinul 0 i 1, obinerea unei funcii Green mai netede presupune
folosirea unui numr mare (ideal un numr infinit) de coeficieni ai nenuli. Un exemplu
potrivit este [159]:
ai
1
, i N
2i !
(9.12)
2i
2i ! cosh
i0
245
(9.13)
G x
1
cosh x
(9.14)
2i
ai
i!2 i
, i N
(9.15)
f x,
2 f x,
(9.16)
f x i , zi
(9.17)
cu condiiile la limit:
Rn
dx P i f x 1
2
Rn
dxf x P 2i f x
(9.18)
substituind formula de mai sus n stabilizatorul (9.5), i innd cont de proprietatea (8.25),
obinem:
P1 f
n dxf x P1 P1 f x
R
(9.19)
Dac nlocuim funcia f cu funcia F (9.2) n relaia de mai sus, atunci fiecare termen
ce conine funcia Green G(x) va genera o funcie delta , termenul integral transformndu-se
ntr-o sum finit:
P1 f
v v Gt ; t
K
(9.20)
i , j 1
Gij
Gx i ;t j matrice de ordinul N K
(9.21)
g ij
Gt i ;t j matrice de ordinul K K
(9.22)
H F v G T G g v 2v G T z z z
(9.23)
Operatorul de mai sus este o form ptratic n raport cu coeficienii necunoscui vi,
astfel c minimizarea n raport cu aceti coeficieni este relativ simpl. Pentru fiecare
mulime fixat de centre de expansiune t i R n i 1,2,, K , mulimea optimal de trii
v G T G g G T z
1
(9.24)
F tj
i 1
z i F x i
G t j ;xi f t j
(9.25)
.
H F
v i
, i 1,2,, K
vi
.
H F
t i
, i 1,2,, K
t i
(9.26)
.
H F
v i
i t , i 1,2,, K
vi
.
H F
t i
i t , i 1,2,, K
t i
(9.27)
i t j t i t j t 2T ij t t
(9.28)
parametrul T msurnd puterea zgomotului, fiind echivalent cu temperatura unui proces fizic.
Rezolvarea sistemului de ecuaii se poate face printr-un procedeu Monte-Carlo, mai precis de
tip Metropolis [141] . Aceasta nseamn de fapt descreterea varianei zgomotului n timpul
procesului de relaxare, fiind similar cu metoda revenirii simulate (simulated annealing).
Vom lua n considerare un caz mai simplu, i anume cazul n care funcia Green
corespunztoare este o funcie de tip radial (VIII.2.3.5) i parametrul de regularizare este
nul, adic = 0. Atunci putem scrie funcia Green sub forma:
(9.29)
i f x i Fx i
(9.30)
G x; t h x t
N
H
2 j h x j t i
vi
j 1
N
H
4vi j h x j t i
t i
j 1
, i = 1,2,...,K
2
t i , i = 1,2,...,K
(9.31)
(9.32)
ti
h x j t i
i 1
N
i 1
h x j t i
x
, i 1,2, , K
(9.33)
Ponderea pij j h x j t i
dat ti, are o valoare mare dac eroarea de aproximare este mare i dac funcia radial h
centrat n centrul de expansiune xi are o variaie rapid ntr-o vecintate a centrului de
expansiune.
248
2
H
2 j vi h x j t i ,
i, j
(9.34)
Aceasta deoarece funcia radial h depinde i de variabila zgomot , motiv pentru care
putem scrie h = h(r,), deci funcionala H trebuie minimizat i n raport cu acest parametru.
Dup cum am vzut, din arhitectura reelei neuronale de tip PMSR, la stratul de ieire
funcia de activare poate fi liniar. Putem considera i un caz mai general, cnd funcia de
activare a stratului de ieire este o funcie neliniar, inversabil, pe care o vom nota cu .
n acest caz, vom avea funcia aproximant (reeaua neuronal de tip PMSR):
K
F x v i h x t i
i 1
(9.35)
N
H
2 F x j j h x j t i
vi
j 1
N
H
4 v i F x j j h x j t i
t i
j 1
, i = 1,2,...,K
2
(9.36)
t i , i = 1,2,...,K
(9.37)
x , f x i 1,2,, N .
i
f x wi G x; x i
i 1
(9.38)
F x vi G x; t i
(9.39)
i 1
numrul de neuroni K, din stratul ascuns al reelei neuronale F(x) se determin pe baza
unui calcul precis i nu prin ncercri empirice care pe lng faptul c consum mult
timp nu ne dau nici o garanie de a gsi o variant optim;
IX.1.2.2.1. Pasul I
f x F Wx
(9.40)
(9.41)
u i Wx i , i 1,2,, N
(9.42)
i 1
unde am notat:
Dup cum am vzut, soluia acestei probleme a regularizrii, care solicit minimizarea
funcionalei H[F], va fi de forma:
N
F u vi Gu u i
(9.43)
i 1
f x F Wx vi GWx Wx i
(9.44)
i 1
n cazul special, care reprezint de fapt cazul cel mai des aplicat n aplicaiile practice,
schema de aproximare din relaia de mai sus devine:
251
f x vi G x x i
i 1
(9.45)
x WT x
(9.46)
Prin utilizarea acestei norme ponderate funciile Green de tip Gaussian nu mai sunt
radiale sau mai corect ele sunt radiale doar n raport cu norma ponderat (9.46). Aceasta
nseamn c forma curbelor de nivel a funciilor Gaussiene nu mai este circular ci eliptic,
axele elipsei nefiind paralele cu axele de coordonate.
De fapt n aceast ponderare nu matricea de ponderare W este important, ci mai
degrab matricea produs W T W . De aceea este suficient s considerm matricea de
ponderare ca o matrice triunghiular, folosind descompunerea Cholesky.
IX.1.2.2.2. Pasul II
E e j min
j 1
unde:
11
Vom considera n cele ce urmeaz funcii cost de tipul metodei celor mai mici ptrate.
252
(9.47)
w
i I j
ej
xi t j
(9.48)
wi
i I j
(9.49)
ej
2e j
0 si
0
tj
t j2
(9.50)
Minimul global pentru fiecare cluster este atins, dac fiecare centru de cluster ti este
centrul de greutate al clusterului {xi | i Ij }:
ej
2 wi x i t j 0
t j
i I
j
w x
i
tj
(9.51)
i I j
i I j
respectiv:
2e j
t 2j
2 wi 0, j 1,2,..., K ;
(9.52)
iI j
Conform cu [61] calculul minimului global al funciei cost E este o problem NPKN
complet. Exist n total
posibiliti de a aranja N puncte n K clustere distincte. Vom
K!
vedea mai departe c frontierele acestor clustere formeaz o diagram Voronoi
multidimensional.
Studiul teoretic comparativ al diferiilor algoritmi de clustering nu este fezabil
deoarece rezultatele depind esenial de modul de distribuie al punctelor de intrare.
Def 9.1.: O diagram Voronoi reprezint o partiie a spaiului Rn n regiunile Rj ce
satisfac urmtoarea proprietate:
P1: () punct tj aparine unei singure regiuni Rj;
P2: R j x R n x t j x t k ,() j k .
(9.53)
Cu aceast definiie putem s reformulm definiia unei mulimi index (9.49) astfel:
I j i x i Rj
(9.54)
Algoritmul clasic de construcie al unei diagrame Voronoi poate fi gsit n [25] sau
[202], avnd la baz o metod secvenial de inserie a punctelor. Operaiile de inserare,
tergere respectiv de deplasare a unui punct sunt proceduri locale, adic, aplicnd una din cele
trei operaii amintite mai sus, aceasta va afecta doar o mic regiune a diagramei Voronoi,
calculul putnd fi efectuat independent de numrul punctelor diagramei Voronoi.
Cu ajutorul diagramei Voronoi poate fi construit triangulaia Delaunay [25], [202],
unind toate punctele Voronoi care au o frontier comun cu un segment de dreapt.
Algoritmul se bazeaz pe o metod de inserare secvenial adaptiv a unui nou centru
de cluster n regiunea cu cea mai mare eroare relativ la funciile ei ale diagramelor Voronoi
ale tuturor punctelor de intrare care au fost inserate pn n acel moment.
Descrierea simplificat a algoritmului este urmtoarea [180]:
Pasul 1: Iniializm primul centru de cluster cu media aritmetic ponderat ale tuturor
punctelor de intrare. Regiunea corespunztoare diagramei Voronoi va fi ntregul spaiu al
punctelor de intrare.
Pasul 2: Se determin regiunea Re care are eroarea cea mai mare. Mulimea punctelor de
intrare xi care aparin regiunii Re se partiioneaz n dou submulimi care vor reprezenta
dou noi clustere, pentru care se calculeaz mulimile index i punctele care reprezint
centrele noilor clustere.
Pasul 2.1: Calculm axa de coordonate k care are care mai mare varian a
proieciei:
k max wi x il t el
l 1, 2 ,..., N
iIe
Pasul 2.2: Separm toate punctele xi (i Ie) prin intermediul unui hiperplan
perpendicular pe a k-a ax de coordonate ce trece prin punctul te, n dou
submulimi. Pentru cele dou noi submulimi calculm mulimile
index I e1 si I e2 i centrele m1 i m2 ale clusterelor astfel formate:
(9.56)
(9.58)
I e1 i x ik t ek , i I e
I e2 i x ik t ek , i I e
12
(9.5512)
x il
reprezint a l-a component a punctului de intrare n-dimensional xi. te reprezint centrul clusterului ce corespunde
regiunii Re.
254
w x
i
m1
i Ie1
w x
m2
(9.59);
i
i Ie1
i Ie2
(9.60)
i
i Ie 2
Pasul 3.2: Se insereaz un nou centru de cluster n centrul m2 calculat la Pasul 2.2
(9.59);
puncte
eroarea maxim este mai mic dect o valoare prag impus i/sau
Obs 9.1: La Pasul 2 poate fi folosit o funcie cost diferit de funcia cost E (9.47). Astfel este
posibil optimizarea unei funcii cost secundare, ca de exemplu cerina ca numrul punctelor
din clustere s fie aproximativ egal.
Obs 9.2: Dup fiecare iteraie centrele clusterelor precum i triangulaia Delauney
corespunztoare, poate fi memorat pentru o utilizare ulterioar. Mai ales, dac aplicaia este
n domeniul graficii, datele memorate pot fi folosite la o reprezentare triangular ierarhic a
suprafeei reprezentate de punctele de intrare date.
Studiul performanelor algoritmului:
Pentru a studia performanele algoritmului vom considera urmtorul caz:
255
ntotdeauna
Pe de alt parte ns, pentru majoritatea distribuiilor alese s-a atins minimul global,
s-au, s-a ajuns foarte aproape de el.
n Fig. 9.1. avem urmtoarele semnificaii atribuite simbolurilor:
punctele de intrare date n planul bidimensional real;
puncte ce reprezint centrele clusterelor pentru care se atinge minimul
global cutat pentru funcia E;
puncte ce reprezint centrele clusterelor calculate prin metoda
algoritmului original K-Means.
(9.60)
Cmax max Ci
- variaia medie:
Cmediu
(9.61)
i 1, 2 ,...,t
1 t
C
t i 1 i
(9.62)
2
(9.63)
i 1
Cu ajutorul acestor mrimi, s-a obinut n Tabelul 9.1 de mai jos, rezultatele aplicrii
algoritmului pentru cazul t = 100 (adic 100 de teste) i 9 puncte de intrare generate aleator n
planul bidimensional real.
m
(nr. de clustere)
1
2
3
4
5
6
7
8
9
Cmax
1.000000
1.813297
1.696984
1.881154
2.135782
2.073583
2.230519
2.618419
1.000000
Cmediu
1.000000
1.064167
1.097048
1.097230
1.144528
1.145597
1.105344
1.027692
1.000000
C2
0.000000
1.692273
2.961433
4.335665
4.621574
5.396631
6.486076
3.168752
0.000000
257
258
F x vi G x; t i
i 1
259
Modul de operare:
(9.64)
i 1
Relaia care dorim s fie satisfcut dup faza de nvare supervizat este:
z y , 1, , N
(9.65)
z vi G x ; t i , 1, , N
(9.66)
sau
i 1
1 N
1 N
E( w) ( z y ) 2 z vi Gx ; t i
2 1
2 1
i 1
(9.67)
vi
N
K
E
z vi G x ; t i G x ; t i , i 1,2, , K (9.68)
vi
1
i 1
wi Gx ; t i , i 1, , K, 1, , N
(9.69)
z y
(9.70)
unde:
260
f x wi Gx; x i
(9.71)
i 1
F x vi G x; t i
(9.72)
i 1
Obs. 9.1: Dac funciile Green G(x;xi) ce reprezint funcia de activare a neuronilor din
stratul ascuns sunt pozitiv definite, funcia f implementat de reeaua neuronal de
regularizare reprezint interpolantul "optim", adic interpolantul ce minimizeaz funcionala
|| Pf ||2, chiar i fr termeni polinomiali.
Obs. 6.2: Dac funciile Green G(x;xi) ce reprezint funcia de activare a neuronilor din
stratul ascuns sunt pozitiv condiional definite, atunci trebuie s adugm o serie de termeni
polinomiali pentru a obine interpolantul "optim". O posibilitate foarte simpl de adugare a
unui termen polinomial liniar este de a efectua o conexiune direct ntre neuronii stratului de
intrare i neuronul stratului de ieire, punnd ca i trii sinaptice coeficienii reali a0, a1, ...,an.
Atunci funcia implementat de reeaua neuronal va fi:
N
f x ci Gx; x i a0 a1 x i 1 ... an x i n
i 1
261
(9.73)
0,
(9.74)
Pe baza inegalitii de mai sus este suficient s artm c orice funcie test (x) K
poate fi aproximat orict de bine de o compunere liniar de funcii Green, care ar
corespunde funciei f din Teorema pe care o demonstrm.
Vom porni de la urmtoarea identitate [158]:
x y x ydy
E
(9.75)
unde domeniul E de integrare este un domeniu mrginit pe care funcia (x) nu se anuleaz.
Folosind relaia P PGx; x i x x i i nlocuind-o n relaia de mai sus (9.75),
vom obine:
x y PPGx; ydy
E
(9.76)
Deoarece avem (x) K iar PP este un operator auto-adjunct, avem din relaia de
mai sus:
x Gx; y PP ydy
E
(9.77)
x Gx;y ydy
E
13
x R g x 0.
n
262
(9.78)
x n x k Gx; x k E x
(9.79)
k I
unde:
(9.80)
k I
lim x f x 0
0
263
(9.81)
264
T x i , z x i R n , z R , i 1,2, , N
(10.1)
distribuie aleatoare;
distribuie uniform;
obinute pe baza algoritmilor de nvare activa AIA (Cap V.3).
265
Stratul de ieire are un singur neuron, ceea ce a fost justificat teoretic n capitolele
anterioare. Funcia de activare a neuronului din stratul ascuns este o funcie liniar. n
situaii speciale, cnd mulimea datelor de antrenament este grupat n clustere care nu sunt
disjuncte, vom lua n considerare o funcie de activare special a neuronului din stratul de
ieire bazat pe o formul de ponderare a valorilor de ieire generate de neuronii din stratul
ascuns. Formula este [28]:
K
w G x x
i
i 1
K
(10.2)
G x x
i
i 1
G1
w1
x1
Gi
wi
x2
wK
GK
Figura 10.1.: Arhitectura reelei neuronale de tip PMSR folosit pentru experimentele aplicative
din acest capitol.
x ti 2
i2
, i 1,2, , K
(10.3)
T x i , z x i R n , z R , i 1,2,, N
266
este fixat de nsi natura problemei, antrenorul nu are nici un grad de libertate n
construcia ei.
antrenorul are libertatea de a alege mulimea de antrenament. n aceast situaie
avem urmtoarele variante de alegere a mulimii de antrenament:
pe baza unei distribuii aleatoare;
pe baza unei distribuii uniforme;
pe baza algoritmilor de nvare activa AIA (Cap V.3)
Pasul 2. Se aplic asupra punctelor xi din mulimea de antrenament T algoritmul de
clustering, n urma cruia vom determina punctele ti, i = 1,2,, K care reprezint
centrele clusterelor precum i constanta K care reprezint numrul de clustere
(numrul neuronilor din stratul ascuns). De asemenea, se determin diametrul
fiecrui cluster i R, i = 1,2,, N.
Aceast etap poate fi eliminat dac se consider cazul limit cnd N = K, atunci
ti = xi, i = 1,2,, N, fiecare punct xi reprezentnd un cluster. n acest caz i = 1.
Pasul 3. Se construiesc funciile de activare ale neuronilor din stratul ascuns:
Gx t i e
x ti 2
i2
, i 1,2, , K
y wi e
( x i ti ) 2
i2
i 1
w G x t
i
i 1
K
G x t
i 1
E
, i wi wi wi
wi
267
[Pasul 6.] (Opional) Se calculeaz eroarea de generalizare. Se consider M date aleatoare din
spaiul datelor de intrare care nu fac parte din mulimea de antrenament T i se calculeaz
eroarea de generalizare:
1 M
Eg ( z i yi ) 2
M i 1
1 4 1 3 1 2
2
x x x
x 1.
4
2
3
25
i
Avem 40 de puncte echidistante pe intervalul [0,1], xi
, i 0,1, ,40 .
40
Procesul de nvare const din 100 de epoci, 40 de centre.
268
1 4 1 3 1 2
2
x x x
x 1.
4
2
3
25
xi
i
, i 0,1,,40 .
40
1 4 1 3 1 2
2
x x x
x 1.
4
2
3
25
xi
i
, i 0,1,,40 .
40
269
1 4 1 3 1 2
2
x x x
x 1.
4
2
3
25
i
Avem 40 de puncte echidistante pe intervalul [0,1], xi
, i 0,1, ,40 .
40
Procesul de nvare const din 50000 de epoci, 40 de centre.
Nr.
Crt.
1
2
3
4
N - numrul
datelor de
antrenament
40
40
40
40
K - numrul
de centre
P - numrul
de epoci
El - Eroarea
de nvare
40
40
40
40
100
500
5000
50000
12.035317
0.096177
0.032246
0.031574
f x
Eg - Eroarea
de
generalizare
1.84732
0.01609
0.00727
0.00708
1 4 1 3 1 2
2
x x x
x 1 cu o reea
4
2
3
25
neuronal de tip PMSR cu N = 40, K = 40 i P = 100, 500, 5 000, 50 000.
270
1 4 1 3 1 2
2
x x x
x 1.
4
2
3
25
i
Avem 150 de puncte echidistante pe intervalul [0,1], xi
, i 0,1, ,150 .
150
Procesul de nvare const din 500 de epoci, 150 de centre.
271
Analiznd ultimele 4 exemple reprezentate n Fig. 10.5, Fig. 10.6, Fig. 10.7, Fig. 10.8,
reeaua neuronal a reuit n s aproximeze funcia int f x cos(2 x ) mai bine dect
celelalte metode clasice. n dou cazuri, polinomul de interpolare Hermite are cele mai slabe
performane, polinoamele de interpolare Newton i Lagrange sunt dependente n performane
de distribuia nodurilor de interpolare, iar cea mai bun performan de aproximare dintre
metodele clasice o are metoda spline.
Nr.
Crt
Spline
Newton
1
2
3
4
0,3069671152
0,2568668338
0,574804938
0,21697057
40,49784113
0,026904782
38,69991224
0,07160424
Lagrange
Reea
neuronal
Hermite
0,2561378829
0,555861180
0,3498677214
0,033524709
0,08568828
0,0858866
0,3079512
0,53529262
3014889,56
23838,43328
38,35027568
99152,36216
Tabelul 10.2: Rezultatele aproximrii funciei f x cos( 2 x) cu o reea neuronal de tip PMSR
cu N = 5 puncte aleatoare, P = 5 000, K = 5.
100
Procesul de nvare const din 1 000 de epoci, 25 de centre.
Rezultate: El = 0.028025 Eg = 0.0004680
spline 2.943925 e-5;
Newton, Lagrange, Hermite divergente.
274
, i 0,1, ,100 .
, i 0,1, ,100 .
100
1 4 1 3 1 2
2
x x x
x 1
4
2
3
25
Avem 3 puncte de antrenament aleatoare pe intervalul [0,1].
1 4 1 3 1 2
2
x x x
x 1
4
2
3
25
Avem 3 puncte de antrenament aleatoare pe intervalul [0,1].
Procesul de nvare const din 30 000 de epoci, 40 de centre.
spline
5,985038956;
Newton
710,5843598;
Lagrange
30,03118536;
reea neuronal 6,897794247;
Hermite
5255,544475.
276
1 4 1 3 1 2
2
x x x
x 1
4
2
3
25
i
Avem 5 de puncte echidistante pe intervalul [0,1], xi
, i 0,1, ,5
100
Procesul de nvare const din 30 000 de epoci, 5 centre.
, i 0,1, ,5
100
Procesul de nvare const din 30 000 de epoci, 5 centre.
Cea mai bun metod clasic de aproximare, cu cele mai bune performane, este
metoda spline.
Exemplele prezentate confirm cele spuse mai sus. Reeaua neuronal, i metoda
spline sunt cele mai bune aproximante. Chiar dac reeaua neuronal nu
aproximeaz ntotdeauna mai bine dect metoda spline (mai ales dac punctele de
antrenament - nodurile de interpolare sunt echidistante), totui aproximarea dat de
reea se poate mbuntii ori prin mrirea numrului de antrenamente, ori prin
mrirea numrului de centre i / sau puncte de antrenament. Avantajul reelelor
neuronale este c sunt foarte flexibile. Pentru aceasta este nevoie ori de creterea
numrului de puncte, ori de creterea numrului de antrenamente.
277
1
1
f : 0,1 R, f x x
3 27
(10.4)
Datele de antrenament generate printr-una din cele trei metode aleator pasiv, uniform
pasiv i activ, au fost prezentate repetat reelei neuronale, n epoci de cte 1000, 5000 i
10000.
Fig.10.15: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat aleator pasiv: N = 100, 1000 de epoci, 25 de centre.
278
Fig.10.16: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat uniform pasiv: N = 100, 1 000 de epoci, 25 de centre.
Fig.10.17: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat activ (AIA): N = 100, 1 000 de epoci, 25 de centre.
279
Fig.10.18: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat aleator pasiv: N = 100, 5 000 de epoci, 25 de centre.
Fig.10.19: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat uniform pasiv: N = 100, 5 000 de epoci, 25 de centre.
280
Fig.10.20: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat activ (AIA): N = 100, 5 000 de epoci, 25 de centre.
Fig.10.21: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat aleator pasiv: N = 100, 10 000 de epoci, 25 de centre.
281
Fig.10.22: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat uniform pasiv: N = 100, 10000 de epoci, 25 de centre.
Fig.10.23: Aproximarea funciei int (10.4) cu reeaua neuronal PMSR utiliznd un algoritm de
nvare supervizat activ (AIA): N = 100, 10 000 de epoci, 25 de centre.
Se poate observa din Fig. 10.17, Fig. 10.20, Fig. 10.23, care corespund algoritmului
de nvare supervizat activ (AIA), modul de alegere a datelor de antrenament. Regiunile
dificil de nvat corespund regiunilor unde avem o densitate mai mare de puncte. n cazul
nostru aceste regiuni corespund poriunilor unde panta graficului funciei de aproximat este
mai accentuat. Regiunile uor de nvat necesit doar cteva puncte de antrenament. n
aceste regiuni panta graficului funciei este mic.
Analiza performanelor de aproximare a acestei reele neuronale trebuie s ia n
considerare pe lng eroarea de nvare El i eroarea de generalizare Eg.
Nr. de epoci
Aleator pasiv
Uniform pasiv
Activ (AIA)
1.000
El = 0.00111933647
Eg = 2.00543792e-5
El = 0.00538671535
Eg = 9.25674175e-5
El = 0.005939686434
Eg = 0.000305306076
5.000
El = 0.00042799210
Eg = 6.62271543e-6
El = 6.77417526e-6
Eg = 1.19316687e-6
El = 8.411126178e-5
Eg = 1.167369815e-5
10.000
El = 0.00039366463
Eg = 5.98244244244
El = 5.59375032e-5
Eg = 1.01227192e-5
El = 5.386507373e-5
Eg = 5.824087429e-7
Tabelul 10.3: Rezultatele procesului de nvare (aproximare) a funciei int (10.4). Parametrii
procesului de nvare N = 100 date de antrenament, 25 de centre.
Toate exemplele prezentate sunt obinute prin rularea unor programe originale. S-a
simulat pe un calculator secvenial o reea neuronal de tip PMSR, algoritmii folosii fiind
descrii la nceputul acestui capitol, iar pentru exemplele care implementeaz algoritmii de
nvare activ AIA s-au folosit algoritmii descrii n Cap V.3. Analiznd exemplele
prezentate i innd cont i de elementele teoretice, putem spune c o reea neuronal are
proprieti de aproximare-interpolare superioare metodelor clasice polinomiale i la fel de
bune ca metodele spline.
Prin ce este superioar o reea neuronal? Prin aceea c o dat implementat reeaua
neuronal se auto configureaz conform cu mulimea datelor de antrenament. Adugarea unor
noi date nu presupune o reconstrucie a metodei de aproximare ci o prezentare a noilor puncte
spre a fi nvate. Modificri de formule i implementri de algoritmi se fac doar o singur
dat, atunci cnd se construiete reeaua i se aplic procesul de nvare. n rest, doar
prezentri repetate de puncte de antrenament sunt necesare. Dac am avea la dispoziie i un
hardware adecvat, adic un sistem de calcul neuronal, calculul neuronal ar fi net superior
metodelor clasice. Simularea funcionrii unei reele neuronale pe un sistem de calcul
secvenial este limitat de considerente de reprezentare care au fost prezentate n Cap. VII.5.
283
284
XI. Concluzii
XI.1. Concluzii generale
Concluziile generale ale acestei monografii ale Calculului neuronal au n vedere
rezultate teoretice i experimentale obinute pe durata a peste 10 ani de cercetri. Ideea de
baz a acestei lucrri este un studiu matematic riguros al reelelor neuronale, echivalena
dintre numeroasele metode de aproximare i o reea neuronal de tip PMS (Perceptronul
MultiStrat) cu o arhitectur ce are un singur strat ascuns. Succesul ne ntlnit al utilizrii
reelelor neuronale n numeroase aplicaii practice trebuie ns dublat de un aparat teoretic
care s confere calculului neuronal un statut de rigurozitate. Acest lucru a reprezentat elul pe
care mi l-am propus n cadrul acestei lucrri.
Demonstrarea faptului c o reea neuronal de tip PMS cu un singur strat ascuns
satisface condiia de aproximant universal are o importan teoretic deosebit deoarece n
felul acesta se construiete unealta matematic necesar care confer acestei clase de reele
neuronale o caracteristic de aproximare. Fr o astfel de unealt matematic nu am avea nici
o garanie c vom gsi vreodat soluia dorit. Este adevrat c am folosit o demonstraie de
existen, dar trecerea de la PMS la PMSR s-a fcut prin indicarea clar a construciei reelei
neuronale aproximante. Chiar mai mult, am obinut i o expresie analitic pentru valorile
generate de reeaua neuronal care constituie aproximanta cutat.
Dat fiind noutatea i complexitatea acestui domeniu, inspirat din biologie, din
tentativa de a modela funcionarea celui mai complex sistem, creierul uman, abordarea
noastr a trebuit s urmeze o construcie gradual.
Am nceput cu elementele definitorii ale calculului neuronal, adic cu neuronul
biologic i ansamblul de neuroni care constituie o reea neuronal, cu explicarea biologic a
modului de funcionare. Urmtorul pas a fost modelarea matematic a modelelor biologice
prin construcia neuronului artificial i a reelei neuronale artificiale, mpreun cu prezentarea
aparatului matematic necesar modelului propus. Esena acestui model de reea neuronal
artificial are la baz procesul de nvare.
Deoarece, termenul de nvare este un termen generic, a fost nevoie de un capitol
special care s trateze sistematic i s defineasc ce nelegem printr-un proces de nvare. n
acest fel a trebuit s definim noiunea de algoritm de nvare i aceea de paradigm de
nvare. Scopul crii fiind construcia unui aparat matematic riguros, procesul de nvare
trebuia studiat prin nsi natura sa de proces statistic.
n continuare am abordat problema unei clase speciale de reele neuronale i anume
reelele neuronale numite perceptroni. Perceptronii reprezint cea mai general clas de reele
neuronale. Analiza perceptronilor este motivat de faptul c n aceast carte dovedim calitatea
de aproximator universal pe care o are aceast clas de reele neuronale. De asemenea,
reelele neuronale pe care le-am propus i le-am analizat ca metode de aproximare-interpolare
eficiente, sunt perceptroni cu o arhitectur particular. Studiul perceptronilor, ca de altfel
studiul oricrei reele neuronale, trebuie fcut prin prisma elementului definitoriu, i anume,
procesul de nvare. De aceea, am analizat procesele de nvare supervizat i nesupervizat
a acestor reele neuronale numite perceptroni.
285
considerare pentru a fi nvate, deci pentru a construi o funcie aproximant care este nsi
reeaua neuronal, date generate uniform sau aleator.
Foarte bune rezultate se obin dac combinm arhitectura unei reele neuronale de tip
PMSR cu principiile nvrii active. Aplicnd acest principiu n care antrenorul nu este un
agent pasiv care doar prezint datele de nvat, ci i contribuie la alegerea lor, se obin
performane de aproximare-interpolare superioare metodelor clasice din analiza numeric.
287
288
XI.2. Perspective
Din analiza elementelor teoretice rezult idei importante pentru aplicarea n practic a
calculului neuronal. De mare actualitate este utilizarea acestor reele neuronale n nvarea
unor sisteme dinamice, care evolueaz n timp. Se cunosc rezultatele foarte bune obinute cu
reelele neuronale de tip RBF (Radial Basis Functions), care sunt de fapt un caz particular de
reea neuronal mai general, de tip PMSR. n acest sens, ca aplicaie practic, s-ar putea face
un studiu al diferiilor algoritmi de recunoatere a formelor pe baza unor exemple sau
modelarea micrii motrice biologice.
O alt extindere a acestui studiu ar putea fi problema fundamental a calculului
neuronal: cte exemple sunt necesare procesului de nvare pentru a obine o anumit
precizie? Din literatura de specialitate se cunoate c rspunsul la aceast ntrebare este
influenat de dimensionalitatea spaiului de intrare n i de gradul de netezime p al clasei de
funcii de aproximat. Pe baza algoritmilor de nvare activ, se poate rspunde la aceast
ntrebare nu printr-o valoare a priori, ci printr-un proces dinamic de nvare care s aleag
numrul de date necesar [47], [53].
De asemenea, un studiu care s cuprind mai multe tipuri de funcii de activare a
neuronilor din stratul ascuns ar fi de actualitate. n aplicaiile practice din aceast carte am
utilizat funcii de activare ale neuronilor din stratul ascuns de tip Gaussian. Un studiu ar putea
determina care tip de funcie de activare ar fi mai eficient pentru a mbunti proprietile
reelelor neuronale.
Din punct de vedere teoretic, un studiu interesant se poate face pe baza algoritmului
de nvare activ, n definirea regiunilor dificile de nvat. Aceasta se caracterizeaz de fapt
prin erori mari de aproximare, de unde rezult necesitatea de a alege mai multe exemple din
acele regiuni. Prin aceasta, se poate defini riguros noiuni generale cum ar fi, greu de
nvat sau uor de nvat.
Studiul teoretic referitor la reele neuronale, ca i metode de aproximare-interpolare,
poate fi folosit i n teoria aproximrii. De fapt, am obinut n aceast tez, o nou expresie
analitic pentru o funcie de aproximare care corespunde valorii de ieire generat de reeaua
neuronal de tip PMSR. Studiile practice au artat c, mai ales acolo unde metodele
polinomiale de aproximare-interpolare clasice nu sunt performante, reeaua neuronal are
performane foarte bune. Aceasta se ntmpl mai ales atunci cnd avem peste 100 de date
(noduri) de nvat.
289
290
XII. Bibliografie
1. Adams, R.A., Sobolev Spaces. New-York: Willey, 1975.
2. Alexander, I., Why neural computing? A personal view. In: Neural Computing
Architectures, I. Alexander (eds.), North Oxford Academic, London, 1989.
3. Amari, S.A., Dynamics of Pattern Formation in Lateral-Inhibition Type Neural Fields.
Biological Cybernetics 27, 77-87, 1977.
4. Amit, D., Modelling Brain Function. Cambridge Univesity Press, 1989.
5. Anderson, J.A., Coerent Optical Eigenstate Memory. Optical Letters 11, 56-58, 1968.
6. Anderson, J.A., Rosenfeld, E., eds. Neurocomputing: Foundation of Research. MIT
Press. Cambridge, 1988.
7. Anderson, J.R., The Architecture of Cognition. Harvard University Press, 1983.
8. Angluin, D., Machine Learning, 2, 319-342, 1988.
9. Arbib, M.A. Brains, Machines and Mathematics. Springer-Verlag. Berlin, 1987.
10. Arnold, V.I., On function of three variables, Doklady Akademii Nauk USSR 114, 679681, 1957.
11. Bachmann, C.M., Cooper, L.N., Dembo, A., Zeitouni, O., A Relaxation Model for
Memory with High Storage Density. Proc. of the National Academy of Sciences, USA 84,
7529-7531, 1987.
12. Baldi, P., Hornik, K., Neural Networks and Principal Component Analysis: Learning
from Examples Without Local Minima. Neural Networks 2, 53-58, 1989.
13. Barlow, H.B., Unsupervised Learning. Neural Computation 1, 295, 1989.
14. Barto, A.G., Reinforcement learning and adaptive critic methods, In: White, D.E, Sofge,
D.A. editors: Handbook of Intelligent Control, 469-491, New-York, Van NostradReinhold, 1992.
15. Baum, E.B., Hausler, D., What Size Net Gives Valid Generalization? Neural Computation
1, 151-160, 1989.
16. Baum, E.B., Wilczek, F., Supervised Learning of Probability Distribution by Neural
Networks. In: Neural Information Processing Systems, Denver, 1987, Ed. D.Z. Anderson,
52-61, New-York, 1988.
17. Bertero, M., Poggio, T., Torre, V., Ill-posed problems in early vision. Proceedings of the
IEEE, vol. 76, 869-889, 1988.
18. Beurle, R.L., Properties of a Mass of Cells Capable of Regenerating Pulses.
Philosophical Transaction of the Royal Society of London, B 240, 55-94, 1956.
19. Bienenstock, E.L., Cooper, L.N., Munro, P.W., Theory for the Development of Neuron
Selectivity: Orientation Specificity and Binocular Interaction in Visual Cortex. Journal of
Neuroscience 2, 32-48, 1982.
20. Stancu, D., Analiz numeric. Facultatea de Matematic, Universitatea Babe-Bolyai,
Cluj-Napoca.
21. Blaga, P., Calculul probabilitilor i statistic matematic. Facultatea de Matematic,
Universitatea Babe-Bolyai, Cluj-Napoca, 1994.
22. Bochner, S., Voresungen ueber Fouriersche Integrale. Akademische Verlagsgesellschaft, Leipzig, 1932.
23. Boor, C., A practical guide to splines. Springer-Verlag, New-York, 1978.
24. Broomhead, D.S., Lowe, D., Multivariable functional interpolation and adaptive
networks, Complex Systems, 2, 321-355, 1988.
25. Bowyer, A., Computing Dirichlet tessellations. Comp. Journal, Vol. 24, No. 2, 1981, 162166, 1981.
291
26. Budinich, M., Miloti, E., Geometrical Interpretation of the Back-Propagation Algorithm
for the Perceptron. In Press, 1992.
27. Budinich, M., Miloti, E., Properties of Feedforward Neural networks. Journal Physics A:
Math, Gen. 25, 1903-1914, 1992.
28. Bugmann, G., Note on the use of Weight-Averaging Output Nodes in RBF-Based
Mapping Nets. Research Report CNAS-96-02, Center for Neural and Adaptive Systems,
University of Plymouth, 1996.
29. Caianiello, E.R., Outline of a Theory of Thought and Thinking Machines. Journal of
Theoretical Biology, 1, 204-235, 1961.
30. Coman, G., Analiz numeric. Facultatea de Matematic, Universitatea Babe-Bolyai,
Cluj-Napoca, 1984.
31. Coman, G., Analiz numeric. Editura Libris, Cluj-Napoca, 1995.
32. Cotter, E. N., The Stone-Weierstrass Theorem and its application to neural networks.
IEEE Transactions on Neural Networks, Vol. 1, No. 4, 290-295, 1990.
33. Cottrell, G.W., Munro, P., Zipser, D., Learning Internal Representation from Gray-Scale
Images: An Example of Extensional Programming. In: Ninth Conf. of the Cognitive
Science Society, Seattle, 462-473, Erlbaum, 1987.
34. Cottrel, M., Fort, J.C., A Stochastic Model of Retinotopy: A Self Organizing Process.
Biological Cybernetics, 53, 405-411, 1986.
35. Courant, R., Hilbert, D., Methods of mathematical Physics. Vol. 1, 2, Intersience,
London, England, 1962.
36. Cragg, B.G., Temperlay, H.N.V., The Organization of Neurons: A Cooperative Analogy.
EEG and Clinical Neurophysiology 6, 85-92, 1954.
37. Cybenko, G., Approximation by superposition of a sigmoidal function. Mathematics of
Control, Signals and Systems, 2, 303-314, 1989.
38. de Figuiredo, R.J.P., Chen, G., Nonlinear Feedback Control Systems. New-York,
Academic Press, 1993.
39. Debnath, L., Mikuisinski, P., Introduction to Hilbert Spaces with Applications. San
Diego, CA: Academic Press, 1990.
40. Denker, J., Schwartz, D., Wittner, B., Solla, S., Howard, R., Jackel, L., Large Automatic
Learning, Rule Extraction and Generalization. Complex Systems, 1, 877-922, 1987.
41. Duchon, J., Spline minimizing rotation-invariant semi-norms in Sobolev spaces. In:
Zeller, K., editors. Constructive Theory of functions of several variables, Lecture Notes
in Mathematics, 571, Springer-Verlag, Berlin, 1977.
42. Duda, R.O., Hart, P.E, Pattern Classification and Scene Analysis. New-York: Willey,
1973.
43. Dyn, N., Interpolation and approximation by radial and related functions. In: Chui, C.K.,
Schumaker, L.L., Ward, D.J., editors, Approximation Theory, VI, 211-234, Academic
Press, New-York, 1991.
44. Enchescu, C., Approximation Capabilities of Neural Networks; JNAIAM - Journal of
Numerical Analyses, Industrial and Applied Mathematics, Volume 3, issues 3-4 (2008),
November, 221-230, 2008.
45. Enchescu, C., Neural networks for function approximation; International Conference
BICS2008, Bio-Inspired Computational Methods Used for Difficult Problems Solving.
Development of Intelligent and Complex Systems, "Petru Maior" University of TrguMure and Romanian Academy, Trgu-Mure, November 6 7, 2008, 84-89, Editura
Universitii "Petru Maior" Trgu-Mure, 2008.
46. Enchescu, C., Neural Computation Used for Functions Approximation; Advanced bioinspired computational methods / eds.: Clin Enchescu, Barna Iantovics, Florin Filip,
Trgu-Mure, Editura Universitii "Petru Maior", 208-216, 2008.
47. Enchescu, C., Using Prior Information To Improve The Approximation Performances of
Neural Networks; Numerical Analysis and Applied Mathematics, International
292
293
66. Enchescu, C., Learning the Neural Networks from the Approximation Theory
Perspective. Intelligent Computer Communication ICC '95 Proceedings, 184-187,
Technical University of Cluj-Napoca, Romania, 1995.
67. Enchescu, C., Caracterizarea Reelelor Neuronale ca i metode de aproximareinterpolare. Buletinul tiinific, Universitatea Tehnic din Trgu-Mure, Vol. VII, TrguMure, Romnia, 1994.
68. Enchescu, C., Referat Nr. 1: Calcul Neuronal, Universitatea Babe-Bolyai ClujNapoca, 1994.
69. Enchescu, C., Calcul Neuronal. PC-Report 12, Agora Press, 1993.
70. Enchescu, C., Tehnologia calculului neuronal, Buletinul tiinific, Universitatea
Tehnic din Trgu-Mure, Vol. VI, 1-23, Trgu-Mure, Romnia, 1993.
71. Fahlman, S.E., Fast Learning Variations on Back-Propagation: An Empirical Study. In:
Proc. of the 1988 Connectionist Models Summer School, Pittsburgh, 1988. Eds. D.
Touretzky, G. Hinton, T. Sejnowski, 38-51, Morgan Kaufmann, 1989.
72. Fukushima, K., Cognitron: A Self-Organizing Multilayer Neural Network. Biological
Cybernetics 20, 121-136, 1975.
73. Fukushima, K., Neocognitron: A Self-Organizing Neural Network Model for a
Mechanism of Pattern Recognition Unaffected by Shift in Position. Biological
Cybernetics 36, 193-202, 1980.
74. Gallant, A.R., White, H., There exists a neural network that does not make avoidable
mistables. IEEE Second International Conference on Neural Networks, 657-664, SanDiego: SOS Printing, 1988.
75. Gelfand, I.M., ilov, G.E., Funcii generalizate. Editura tiinific i enciclopedic.
Bucureti, 1983.
76. Gelfand, I.M., Vilenkin, N.I., Funcii generalizate. Aplicaii ale analizei armonice.
Editura tiinific i enciclopedic, Bucureti, 1985.
77. Geman S., Geman, D., Stochastic relaxation, Gibbs distributions and the Bayesian
restoration of images. IEEE Transaction on Pattern Analysis and Machine Intelligence,
PAMI-6: 721-741, 1984.
78. Gersho, A., On the Structure of Vector Quantizers. IEEE Trans. Inform. Theory, Vol. IT25, No. 4, 373-380, 1979.
79. Geszti, T., Physical Models of Neural Networks. Singapore: World Scientific, 1990.
80. Girosi, F., Jones, M., Poggio, T., Priors, Stabilizers and Basis Functions: from
reguralization to radial, tensor and additive splines. M.I.T, A.I. Memo No. 1430, 1993.
81. F. Girosi, T. Pogio, Networks and the Best Approximation Property. Biological
Cybernetics, 63, 169-176, 1990.
82. Glauber, R.J., Time-dependent Statistics of the Ising Model. Journal of Mathematical
Physics 4, 294-307, 1963.
83. Glover, D. et al., Adaptive Noise Canceling: Principles and Applications. Proc. of IEEE,
Vol. 63, 12, 1692-1716, 1975.
84. Gorman, R.P., Sejnowsky, T.J., Learned Classification of Sonar Targets Using a
Massively-Parallel Network. IEEE Trans. on Acoustics, Speech and Signal Proc. 36,
1135-1140, 1988.
85. Gougam, L.A., Tribeche, M., Mekideche-Chafa, F., A systematic investigation of a neural
network for function approximation. Neural Networks, Vol. 21, No. 9, 1311-1317, 2008.
86. Grossberg, S., Competitive Learning: From Interactive Activation to Adaptive
Resonance. Cognitive Science 11(1), 23-64, 1987.
87. Grossberg, S., Adaptive Pattern Classification and Universal Recording. Parallel
Development and Coding of Neural Feature Detectors. Biological Cybernetics 23, 121134, 1976.
88. Grossberg, S., Nonlinear Difference-Differential Equation in Prediction and Learning
Theory. Proc. of the National Academy of Sciences, USA, 58, 1329-1334, 1968.
294
89. Gutfreund, H., Toulouse, G., The Physics of Neural Networks, Preprint, 1992.
90. Hanson, S.J., Burr, D.J., What Connectionist Models Learn: Learning and Representation
in Connectionist Networks. Behavioral and Brain Sciences 13, 471-518, 1990.
91. Harder, R.L., Desmarais, R.M., Interpolation using surface splines. Journal of Aircraft, 9,
189-191, 1972.
92. Hastie, T., Tibshirani, R., Generalized additive models: some applications. Journal of
American Statistical Associations, 82, 371-386, 1987.
93. Haykin, S., Neural Networks. A Comprehensive Foundation. IEEE Press, MacMillian,
1994.
94. Hebb, D.O., The Organization of Behavior. Willey, New-York, 1940.
95. Hecht-Nielsen, R., Counterpropagation Networks. Applied Optics 26, 4979-4984, 1987.
96. Hertz, J., Krogh, A., Palmer, R.G., Introduction to the Theory of Neural Computation,
Addison-Wesley Publishing Co., 1992.
97. Hinton, G.E, Sejnowsky, T.J., Learning and relearning in Boltzmann machines, In
Rumelhart, D.E., McClelland, J.L. editors: Parallel Distributed Processing: Explorations
in Microstructure of Cognition. Cambridge, MA: MIT Press, 1986.
98. Hinton, G.E., Sejnowski, T.J. Optimal Perceptual Inference. In: Proc. of the IEEE
Conference on Computer Vision and Pattern Recognition, Washington 1986, 448-453,
1983.
99. Hockney, R.W., Jesshope, C.R., Calculatoare paralele. Arhitectur, programare i
algoritmi, Ed. a II-a, Editura Tehnic, Bucureti, 1991.
100. Hopfield, J.J. Neural Networks and Physical Systems with Emergent Computational
Abilities. Proc. of the National Academy of Sciences, USA, 79, 2554-2558, 1982.
101. Hopfield, J.J., Tank, D.W., Neural Computation of Decisions in Optimization Problem.
Biological Cybernetics, 52, 141-152, 1985.
102. Hornik, K., Approximation Capabilities of Multilayer Feedforward Networks. Neural
Networks, Vol. 4, 251-257, 1991.
103. Hornik, K., Stinchcombe, M., White, H., Multilayer feedforward networks are universal
approximators. Neural Networks, Vol. 2, 359-366, 1989.
104. Hornik,K., Stinchcombe, M., White, H., Universal Approximation of an Unknown
Mapping and Its Derivatives Using Multilayer Feed-forward Networks. Neural Networks,
Vol.3, 551-560, 1990.
105. Hubel, D.H., Wiesel, T.N., Receptive Fields, Binocular Interaction and Functional
Architecture in the Cat's Visual Cortex. Journal of Physiology, London, 160, 106-154,
1962.
106. Irie, B., Miyake, S., Capabilities of three-layered perceptrons. Proceedings of the 1988
IEEE International Conference on Neural Networks, 641-648, New-York: IEEE Press,
1988.
107. Jacobs, R.A., Increased Rates of Convergence Through Learning Rate Adaptation.
Neural Networks 1, 295-307, 1988.
108. Jansen, A., van der Smagt, P., Groen, F., Nested networks for robot control. In Murray,
A.F., ed., Applications of Neural Networks, 221-239, Kluwer Academic Publishers,
Dordrecht, 1995.
109. Jolliffe, I.T., Principal Component Analysis. New-York: Springer Verlag, 1986.
110. Jordan, M., Generic constrains on under specified target trajectories. Proc. of the 1989
International Joint Conference on Neural Networks, 217-225, New-York: IEEE Press,
1989.
111. Kantorovich, L.V., Akilov, G.P., Functional Analysis. 2nd edition, Oxford: Pergamon,
1982.
112. Khana, T., Foundations of Neural Networks. Addison-Wesley, New-York, 1990.
113. Knudsen, E.I., S. du Lac, Esterly, D.S., Computational maps in the brain. Ann. Rev.
Neuroscience, Vol. 10, 214-220, 1987.
295
296
140. Mendel, J.M., McLaren, R.W., Reinforcement-learning control and pattern recognition
Sytems, In J.M. Mendel, Fu, K. S. editors: Adaptive, Learning, and Pattern Recognition
Systems: Theory and Applications, 287-318, New-York: Academic Press, 1970.
141. Metropolis, N., Rosenbluth, M., Rosenbluth, A., Teller, A., Teller, E., Equation of state
calculations by fast computing machines. Journal of Physical Chemistry, 21, 1087, 1953.
142. Micchelli, C.A., Interpolation of scattered data: Distance matrices and conditionally
positive definite functions. Constr. Approx., Vol. 2, 11-22, 1986.
143. Minsky, M.L., Computation: Finite and Infinite Machines. Prentice-Hall, 1967.
144. Minsky, M.L., Steps towards artificial intelligence. Proceedings of the Institute of Radio
Engineering, 49, 8-30, 1961.
145. Minsky, M.L., Papert, S.A., Perceptrons. MIT Press. Cambridge, 1969.
146. Mitchinson, G.J.,Durbin,R.M. Bounds on the Learning Capacity of Some Multilayer
Networks. Biological Cybernetics 60, 345-356, 1989.
147. Morozov, V.A., Methods for solving incorrectly posed problems. Springer-Verlag,
Berlin, 1984.
148. Neural Ware Inc., Neural Computing. Neural Works Professional II/Plus.
149. Niyogi, P., Active Learning by Sequential Optimal Recovery. A. I. Memo No. 1514,
C.B.C.L. Paper No. 113, M.I.T, Massachusetts, 1995.
150. Oja, E., A Simplified Neuronal Model As a Principal Component Analyzer. Journal of
Mathematical Biology 15, 267-273, 1982.
151. Oja, E., Neural Networks, Principal Components, and Subspaces. International Journal of
Neural Systems 1, 61-68, 1989.
152. Oja, E., Karhunen, J., On Stochastic Approximation of the Eigenvectors and eigenvalues
of the Expectation of a Random Matrix. Journal of Mathematical Analysis and
Application 106, 69-84, 1985.
153. Palm, G, Neural Assemblies: An Alternative Approach. New-York, Springer-Verlag,
1982.
154. Parisi, G., Statistical Field Theory, Addison-Wesley, Reading, Massachusetts, 1988.
155. Pearlmutter, B.A., Hinton, G.E., G-Maximization: An Unsupervised Learning Procedure
for Discovering Regularities. Neural Networks for Computing (Snowbird 1986), ed.
Denker, J.S., 333-338. New-York, American Institute of Physics, 1986.
156. Peretto, P., Collective Properties of Neural Networks. A Statistical Physics Approach.
Biological Cybernetics 50, 51-62, 1984.
157. Plant, D., Nowlan, S., Hinton, G., Experiments on Learning by Back-Propagation.
Technical Report CMU-86-126, Dept. of Comp. Science, Carnegie Mellon University,
Pittsburgh, 1986.
158. Poggio, T., Girosi, F., Networks and the best approximation property. Biological
Cybernetics, 63, 169-176, 1990.
159. Poggio, T., Girosi, F., Networks for Approximation and Learning. Proceedings of the
IEEE, Vol. 78, No. 9, Sept. 1990.
160. Pomerleau, D.A., ALVINN: An Autonomous Land Vehicle in a Neural Network. In:
Advances in Neural Information Processing Systems I, Denver. Eds. D.S. Touretzky,305313, San Mateo, Morgan Kaufmann, 1988.
161. Powell, M.J.D., Restart Procedures for the Conjugate Gradient Method. Mathematical
Programming 2, 241-254, 1977.
162. Principe, J.C., Euliano, N.R., Lefebvre, W.C., Neural and Adaptive Systems.
Fundamentals through Simulations. John Willey & Sons, New-York, 2000.
163. Qian, N., Sejnowsky, T.J., Predicting the Secondary Structure of Globular Proteins
Using Neural Networks Models. Journal of Molecular Biology 202, 865-885, 1988.
164. Rashevsky, N., Mathematical Biophysics. University of Chicago Press, 1938.
165. Reid, K., Zeinich, A., Neural Network Resource Guide. AI Expert 6, 50-57, 1992
166. Rice, J.R., The approximation of functions. Addison-Wesley, Reading, Mass, 1964.
297
167. Ritter, H., Schulten, K., Kohonen Self-Organizing Maps: Exploring Their Computational
Capabilities. IEEE International Conference on Neural Networks, San-Diego 1988, vol. I,
109-116, New York, IEEE, 1988
168. Ritter, H., Schulten, K, On the Stationary State of Kohonen's Self-Organizing Sensory
Mapping. Biological Cybernetics, 54, 99-106, 1986
169. Rose, D., Dobson, V.G., eds. Models of the Visual Cortex, Chichester: Willey, 1985.
170. Rosenblatt, F. Principles of Neurodynamics., New-York, Spartan, 1962.
171. Royden, H.L., Real Analysis. 2nd edition. New-York: Macmillan, 1968.
172. Rumelhart, D.E., Hinton, G.E.,Williams, Learning Internal Representation by Error
Propagation, Nature 323, 533-536, 1986.
173. Rumelhart, D.E., Zipser, D., Feature discovery by competitive learning, Cognitive
Science, 9, 75-112, 1985.
174. Rumelhart, D.E., McClelland, J.L., Exploration in the microstructure of Cognition., In:
Parallel Distributed Processing. Vol. 1: Foundations. Eds. J. L. McClelland & D.E.
Rumelhart, MIT Press, 1986.
175. Rumelhart, D.E., Smolensky, P., McClellaand, J.L., Hinton, G.E., Schemata and
Sequential Thought processes in PDP models, In: Parallel Distributed Processing. Vol. 2:
Psychological and Biological Proc. Eds. J.L. McClelland & D.E. Rumelhart, MIT Press,
1986.
176. Sanger, T.D., An Optimality Principle for Unsupervised Learning. Advances in Neural
Information Processing Systems I (Denver 1988), ed. D.S. Toureretzky, 11-19.San
Mateo: Morgan Kaufmann, 1989.
177. Sanger, T.D. Optimal Unsupervised Learning in a Single-Layer Linear Feedforward
Neural Network. Neural Networks 2, 459-473, 1989.
178. Scofield, C.L., Learning Internal Representations in the Coulomb Energy Network. In:
IEEE International Conference on Neural Networks (San-Diego 1988), Vol. I, 271-276,
New-York: IEEE, 1988.
179. Schoenberg, I.J., Metric spaces and positive definite function. Ann. of Math., Vol.44,
522-536, 1938.
180. Schreiber, T., A Voronoi Diagram Based Adaptive K-Means Type Clustering Algorithm
for Multidimensional Weighted Data. Technical Report, Universitat Kaiserslautern, 1989
181. Schwartz, D.B., Salaman, V.K., Solla, S.A., Denker, J.S., Exhaustive Learning. Neural
Computation 2, 371-382, 1990.
182. Schwartz, L., Theorie des Distributions. Paris: Hermann, 1950.
183. Sejnowsky, T.J., Rosenberg, C.R., Parallel Networks that Learn to Pronounce English
Text. Complex Systems 1, 145-168, 1987.
184. Selim, S.Z., Ismail, M.A., K-means type algorithms: A generalized convergence theorem
and characterization of local optimality. IEEE Tran. Pattern Anal. Mach. Intelligence.
PAMI-6, 1, 1986, 81-87, 1986
185. Shaun, M. Lawson. A Preliminary View of Japans High Performance Neurocomputers.
Neurocomputing 4, 127-136. Elsevier, 1992.
186. Solla, S.A., Learning and Generalization in Layered Neural Networks: The Contiguity
Problem. In: Neural Network from Models to Applications, Paris, 1988. Eds. L.
Personnaz, G. Dreyfus, 168-177, Paris, 1989.
187. Steinbuch, K. Die Lernmatrix. Kybernetic 1, 36-45, 1961.
188. Stent, G.S., A physiological mechanism for Hebb's postulate of learning. Proceedings of
the National Academy of Sciences of the USA, 70, 997-1001, 1973.
189. Sutton, R.S., Barto, A.G., Williams, R.J., Reinforcement learning is direct adaptive
control. Proceedings of the American Control Conference, 2143-2146, Boston, 1991.
190. Sutton, R.S., Temporal credit assignment in reinforcement learning, Ph.D. Dissertation,
University of Massachusetts, Amherst, 1984.
191. Szu, H. Iterative Restoration Algorithm for Nonlinear Constraint Computing.
298
192. Taylor, W.K. Electrical Simulation of Some Nervous System Functional Activities. In:
Information Theory, London 1985. Ed. C. Cherry, 314-328. London, 1956.
193. Tikhonov, A.N., Arsenin, V.A., Solutions of Ill-posed Problems. Washington, DC: W.H.
Winston, 1977.
194. Tikhonov, A.N., Solution of incorrectly formulated problems and regularization method.
Soviet Math. Dokl., Vol. 4, 1035-1038, 1963.
195. Valiant, L.G., A theory of learnable. Communication of ACM 27 (11), 1134-1142, 1984.
196. Vapnik, V.N., Chervonenkis, A.Y., On the Uniform Convergence of Relative Frequencies
of Events to Their Probabilities. Theory of Probability and Its Application 16, 264-280,
1971.
197. Vapnik, V.N., Estimations of Dependencies Based on Empirical Data. New-York:
Springer-Verlag, 1982.
198. Vapnik, V.N., Principles of risk minimization for learning theory. In Moodz, J.E.,
Hanson, S.J., Lipmann, R.P. editors: Neural Information Processing Systems 4, 831-838,
San-Mateo, Morgan-Kaufmann, 1992.
199. Vernon, D. Neural Networks and Computer Vision, Preprint. Trinity College, Dublin,
1991.
200. Vogl, T.P., Mangis, J.K., Rigler, A.K., Zink, W.T., Alkon, D.L. Accelerating the
Convergence of the Back-Propagation Method. Biological Cybernetics 59, 257-263,
1988.
201. von Neuman, J., Probabilistic Logistic and the Synthesis of Reliable Organism from
Unreliable Components., In: Automata Studies, eds. C. E. Shannon & J. McCarthy, 4398. Princeton, 1956.
202. Watson, D.F., Computing the n-dimensional Delaunay tessellation with application to
Voronoi polytops. Comp. Journal, Vol 24, No. 2, 1981, 172-176, 1981.
203. Wax, N., Selected papers on noise and stochastic processes. Dover Publications, NewYork, 1954.
204. Werbos, P., Beyond Regression: New Tools for Prediction and Analysis in the Behavioral
Science. Ph.D. Thesis, Harvard University, 1974.
205. White, D.A., Learning in artificial neural networks: A statistical perspective. Neural
Computation 1, 425-464, 1989.
206. Widrow, B., Generalization and Information Storage in Networks of Adaline Neurons.
In: Self-Organizing Systems, Chicago. Eds. M. C. Yovits, G.T. Jacobi, G. D. Goldstein,
425-461, Washington, Spartan, 1962
207. Widrow, B., Hoff, M.E., Adaptive Switching circuits., WESCON Convention Record,
Part IV, 96-104, 1960.
208. Wiener, N., Cybernetics or Control and Communication in the Animal and the Machine.
Wiley. New-York, 1948.
209. Willshaw, D.J., Bueman, O.P., Longuet-Higgins, H.C., Non-Holographic Associative
Memory, Nature 222, 960-962, 1969.
210. Wilson, H.R.,Cowan, J.D. A Mathematical Theory of the Functional Dynamics of
Cortical and Thalamic Nervous Tissues. Kybernetic 13, 55-80, 1973.
211. Winograd, S., Cowan, J.D., Reliable Computation in the presence of Noise. MIT Press.
Cambridge, 1963.
212. Wray, J., Green, G.G.R., Neural Networks, Approximation Theory, and Finite Precision
Computation. Neural Networks, Vol. 8, No. 1, 31-37, Pergamon, 1995.
213. Yuille, A., Grzywacz, N., The motion coherence theory. Proceedings of the International
Conference on Computer Vision, 344-354, Washington D. C., IEEE Computer Society
Press, 1988.
214. Yuille, A.L., Kammen, D.M., Cohen, D.S., Quadrature and the Development of
Orientation Selective Cortical Cells by Hebb Rules, Biological Cybernetics 61, 183-194,
1989.
299
300