Sunteți pe pagina 1din 23

Curs nr.

1
Introducere
1.1 Reele neuronale artificiale definiie, proprieti
Preocuparea pentru reelele neuronale artificiale, denumite n mod curent reele neuronale,
a fost motivat de recunoaterea faptului c modul n care calculeaz creierul fiinelor vii este
complet diferit de cel al calculatoarelor numerice convenionale. Fiind modele simplificate ale
creierului uman, ele dein capacitatea de a nva, spre deosebire de calculatoarele convenionale,
care rmn totui mai eficiente pentru sarcinile bazate pe operaii aritmetice precise i rapide
Reelele neuronale nu dispun de uniti de procesare puternice, dimpotriv, acestea sunt
caracterizate printr-o simplitate extrem, ns interaciunile lor pe ansamblu produc rezultate
complexe datorit numrului mare de conexiuni.
Reelele neuronale artificiale (RNA) sunt ansambluri de elemente de procesare simple,
puternic interconectate i opernd n paralel, denumite uneori procesoare paralel distribuite,
neurocomputere sau modele conexioniste. RNA reprezint o ncercare de a simula, cel puin parial,
structura i funciile creierului specifice organismelor vii. Dei nu exist o definiie general
acceptat, se poate spune c RNA reprezint un sistem de procesare al semnalelor, compus dintr-un
numr mare de procesoare elementare interconectate, denumite neuroni artificiali sau noduri care
coopereaz pentru rezolvarea unor sarcini specifice. Aceste noduri sunt puternic interconectate prin
intermediul unor legturi numite interconexiuni prin care se propag informaie numeric. n
reelele neuronale informaia nu mai este memorat n zone bine precizate, ca n cazul
calculatoarelor standard, ci este memorat difuz n toat reeaua. Modalitatea de adaptare la
condiiile specifice mediului const n modificarea ponderilor asociate conexiunilor dintre neuroni
i eventual a structurii RNA.
Originea acestor reele trebuie cutat n studierea reelelor bioelectrice din creier formate de
neuroni i sinapsele acestora. Principala trstur a acestor reele este capacitatea de a nva pe
baz de exemple, folosindu-se de experiena anterioar pentru a-i mbunti performanele.
Astfel de modele conexioniste ofer anumite avantaje, caracteristice sistemelor neuronale
reale (biologice) i care nu sunt ntlnite n cazul sistemelor de calcul tradiionale, secveniale:
- O proprietate deosebit de important a RNA este aceea de a nva i de a se adapta;
- Posibilitatea de a opera cu date imprecise;
- Capacitatea de generalizare, n sensul n care RNA va opera corect i cu date de intrare care nu
au fost prezentate n timpul procesului de antrenament;
- Datorit gradului ridicat de paralelism , funcionarea defectuoas sau chiar pierderea unui numr
de neuroni nu afecteaz semnificativ performana sistemului global. RNA reprezint deci sisteme
tolerante la erori;
- Capacitatea de a aproxima orice funcie continu neliniar cu gradul de acuratee dorit. Astfel
RNA pot fi folosite cu succes n modelarea sistemelor neliniare;
- Datorit numrului mare de intrri i ieiri, RNA modeleaz cu uurin sisteme multivariabil;
- Implementrile hardware ale RNA, de exemplu prin intermediul circuitelor integrate pe scar
larg (VLSI), fac posibil utilizarea RNA pentru cazul aplicaiilor n timp real.
2. Neuronul biologic.
Modul n care funcioneaz creierul este nc un mister. Totui anumite aspecte privind
structura creierului sunt deja cunoscute. n particular, este bine cunoscut faptul c creierul este
format din celule numite neuroni, despre care se presupune c ne ofer capacitatea de a memora, a
gndi, a folosi experienele dobndite anterior.

Creierul uman const dintr-o reea de 1010...1011 neuroni puternic interconectai. Fiecare
neuron este interconectat cu ali neuroni. Numrul de conexiuni poate varia de la 1000 la 10.000
dar pot exista i neuroni care au 200.000 de ali neuroni conectai.
Neuronii care alctuiesc creierul efectueaz sarcini simple i la o vitez nu prea mare (timp
de rspuns 103s) dar sunt puternic interconectai si lucreaz n paralel. Avnd n vedere faptul c
circuitele electronice care stau la baza calculatoarelor actuale au timpi de rspuns mult mai mici
(109s) i totui sunt surclasate de ctre creier n rezolvarea unor probleme complexe (vedere,
decizii pe baza unor date incomplete etc.), rezult c puterea computaional a creierului rezid n
faptul c milioane de neuroni opereaz simultan. Evident, ar fi de dorit realizarea de sisteme care s
lucreze cu viteza componentelor electronice i s fie caracterizate de conectivitatea creierului.
n fig.1 este prezentat structura unei celule nervoase.

Fig.1 Structura neuronului biologic


Se pot distinge urmtoarele pri constituente:
- Soma sau corpul celulei reprezint partea central a celulei care realizeaz majoritatea funciilor
logice ale neuronului. Corpul celulei conine mecanismul genetic i metabolic necesar meninerii
activitii neuronului.
- Axonul (ieirea celulei) reprezint o prelungire a corpului celulei (citoplasm), unic i n general
nearborizat. Funcia axonilor este aceea de a conduce influxul nervos de la corpul celular la
dendritele sau corpul celular al altui neuron sau la o celul efectoare.
- Dendritele (intrrile neuronului) sunt prelungiri ale citoplasmei relativ scurte, groase i bogat
ramificate. Funcia lor este aceea de a recepiona informaii i de a le conduce pn la corpul
neuronului. n funcie de tipul neuronului el poate avea pn la 104 dendrite.
Contactul dintre neuroni se realizeaz prin intermediul sinapselor. Sinapsele dintre doi
neuroni se realizeaz n trei feluri: ntre butonii terminali ai axonului unui neuron i dendritele altui

neuron (sinapse axo-dendritice); ntre butonii terminali ai axonului unui neuron i corpul altui
neuron (sinapse axo-somatice); ntre butonii terminali ai axonului unui neuron poriunea incipient
a axonului altui neuron (sinapse axo-axonale). Stocarea informaiei n neuroni se presupune c este
efectuat prin intermediul conexiunilor sinaptice, mai precis prin tiparele pe care le formeaz
acestea i prin ponderea pe care o are fiecare legtur n parte.

Fig. 2. Reprezentare schematic a neuronului biologic


n fig.2 se ofer o reprezentare schematic a neuronului biologic din perspectiva teoriei
prelucrrii informaiei. Conform acestui model simplificat al neuronului, corpul celulei primete
semnale de la ali neuroni prin intermediul conexiunilor sinaptice ajustabile. Cnd un neuron este
activat, produce impulsuri nervoase care sunt transmise, fr atenuare, de-a lungul axonului, spre
ali neuroni. Rata impulsurilor ieirii neuronului depinde att de intensitatea semnalelor de intrare
ct i de ponderile sinaptice aferente acestora. Se poate spune c neuronul opereaz ntr-o form
mixt, digital-analogic. Informaia transmis ntre neuroni, sub forma impulsurilor nervoase
(poteniale de aciune), poate fi considerat semnal digital. Densitatea impulsurilor este cea care
codeaz informaia i poate fi privit ca un semnal analogic.
O trstur important a reelei neuronale biologice este plasticitatea. Ca rspuns la
stimulrile primite, la nivelul conexiunilor se produc schimbri pe termen lung, astfel nct
conexiunile care ajut la obinerea de rezultate pozitive sunt ntrite, iar cele care determin
rezultate nedorite sunt slbite. De asemenea, neuronii pot forma n timp noi conexiuni cu ali
neuroni Aceste mecanisme stau la baza capacitii de adaptare a creierului la stimulii primii, pe
care o numim n mod convenional nvare
n mod analog funcioneaz i o reea neuronal artificial. n cea mai general form a sa, o
reea neuronal este o main proiectat pentru a modela felul n care creierul rezolv o anumit
problem sau execut o funcie cu un anumit scop; reeaua este de obicei implementat folosindu-se
componente electronice sau simulat printr-un program
3. Neuronul artificial
Neuronul artificial denumit uneori procesor elementar sau, mai simplu nod, ncearc s imite
structura i funcionarea neuronului biologic. Exist numeroase modele prezentate n literatur, dar

cel mai rspndit are la baz modelul elaborat de McCulloch-Pitts n 1943. Astfel se poate
considera c neuronul artificial este format dintr-un numr de intrri, fiecare dintre acestea fiind
caracterizat de propria pondere sinaptic. De exemplu, semnalul xj prezent la intrarea sinapsei j
este conectat la neuronul k prin multiplicare cu ponderea wkj (fig.3).

Fig. 3: Modelul neuronului artificial


O alt component a modelului neuronului artificial prezentat n fig.3 o reprezint
sumatorul destinat nsumrii intrrilor ponderate. Rezultatul obinut n urma nsumrii se numete
intrarea net a neuronului i se calculeaz cu relaia:
N

uk wkj x j

(1)

j 1

Pentru limitarea nivelului amplitudinii semnalului de ieire al neuronului, acesta este de


obicei prevzut cu o funcie de activare, , astfel nct semnalul de ieire al neuronului va fi:
yk uk k uk bk

(2)

n care k reprezint valoarea pragului de activare (treshold) al neuronului. Uneori ieirea


neuronului se exprim folosind termenul bk denumit factor al deplasrii scrii (bias). Aceast
deplasare a scrii este negativul pragului de activare.
Valoarea:
k u k k

poart denumirea de potenial de activare.


n ceea ce privete tipul funciei de activare, aceasta este de regul o funcie neliniar; n
cele ce urmeaz se va face o prezentare a celor mai rspndite tipuri de funcii de activare (fig.4):
- Funcia prag:

- Funcia prag simetric sau funcia signum:

- Funcia sigmoid:

- Funcia tangent hiperbolic:

Funciile sigmoid i tangent hiperbolic reprezint unele dintre funciile de activare cel
mai des folosite la implementarea RNA, unul dintre motive reprezentndu-l calculul simplu al
derivatelor acestora.
- Funcia liniar:
- Funcia liniar cu saturaie:

- Funcia liniar cu saturaie, simetric:

- Funcia gaussian:

Fig. 4: Funciile de activare cele mai utilizate n cazul neuronului artificial


Analiznd comparativ modelele neuronului real (biologic) i neuronului artificial se pot
face urmtoarele observaii [6]:
- Din punct de vedere al implementrii este practic imposibil i chiar ineficient ca modelul
artificial al neuronului s copieze exact comportamentul i structura celui biologic.
- RNA sunt proiectate pentru rezolvarea unor probleme specifice i deci arhitectura i
trsturile RNA depind de problema pe care trebuie s o rezolve.
- Un neuron real produce la ieire o secven de impulsuri i nu o anumit valoare
cum este cazul celui artificial. Reprezentarea ratei de activare printr-un singur numr (yk) ignor
informaia care ar putea fi coninut de exemplu n faza impulsurilor.
- Unele celule nervoase biologice efectueaz o nsumare neliniar a intrrilor. Pot exista
chiar operaii logice (I, SAU, NU) efectuate la nivelul dendritelor.
- Ieirile neuronilor nu se modific n mod sincron i nu toi au acelai tip de ntrziere.
- Cantitatea de substan transmitoare (mediator chimic) eliberat la nivelul sinapsei
poate s varieze ntr-un mod imprevizibil. Fenomenul este aproximat grosier prin intermediul
funciei de activare.

Arhitecturi ale RNA


Neuronii pot fi conectai n diferite moduri pentru a forma o reea neuronal. De-a lungul
timpului, au fost ncercate multe structuri diferite de reele neuronale, unele bazate pe imitarea a
ceea ce un biolog vede sub microscop, altele mai mult pe o analiz matematic a problemei.
Arhitectura unei reele neuronale se refer la modul n care sunt plasate unitile funcionale
(topologie) i la modul n care acestea sunt interconectate (conectivitate).
Un model uzual de topologie consider neuronii organizai n mai multe straturi. O reea neuronal
multistrat conine dou sau mai multe straturi de neuroni. Primul strat primete intrrile din mediu.
Ieirile neuronilor din acest strat constituie intrri pentru neuronii stratului urmtor. Ieirea reelei
este format din ieirile neuronilor ultimului strat. Straturile situate ntre primul i ultimul nivel sunt
straturi ascunse ale reelei. Schema unei astfel de topologii este dat in figura 5.
Motivul acestei complicri a arhitecturii este legat de faptul c, uneori, arhitecturile mai
simple se dovedesc incapabile de a rezolva o problem sau o clas de probleme. Dac o reea dat
nu poate rezolva o problem, este uneori suficient s mrim numrul neuronilor din reea, pstrnd
vechea arhitectur. In alte situaii, pentru rezolvarea problemei este necesar s modificm
arhitectura reelei, introducnd unul sau mai multe straturi neuronale noi. n general nodurile de
intrare sunt pasive, n sensul c nu modific datele. Rolul neuronilor din stratul de intrare este doar
de a multiplica semnalul de la intrare pentru a-1 aplica la intrrile neuronilor din stratul urmtor. n
cazul reelelor care conin bucle de reacie, neuronii de intrare pot primi semnale i de la neuroni din
straturile urmtoare ale reelei. Neuronii din stratul ascuns i cel de ieire sunt activi, avnd rol n
prelucrarea datelor. Neuronii din straturile ascunse au rolul de a colecta semnalele, de a le prelucra
i de a distribui semnalul de ieire ctre alte uniti. Unitile de ieire colecteaz semnalele de la
alte uniti, l prelucreaz i transmit semnalul pe care l obin mediului extern.

Fig. 5 O reea neuronal cu dou straturi ascunse


n reeaua din figura anterioar nu exist conexiuni ntre neuronii aceluiai strat. Semnalul se
propag n reea dinspre stratul de intrare spre cel de ieire. Din punctul de vedere al modului n
care sunt conectai neuronii, putem avea RNA total conectate sau parial conectate. Se spune despre
o RNA c este total conectat dac fiecare nod din fiecare strat este conectat la fiecare neuron din
stratul precedent (fig.6).

Fig. 6. RNA feedforward total conectat


Dac anumite conexiuni sinaptice lipsesc se spune c RNA este parial conectat
(fig.7).

Fig. 7. RNA feedforward parial conectat


RNA total conectate au un caracter general, n sensul in care pot fi folosite ntr-o gam larg
de probleme, dar rezultatele nu sunt ntotdeauna cele mai bune. RNA parial conectate introduc
anumite restrngeri, care reprezint tocmai cunotine apriorice despre problema de rezolvat i care
reduc gradul de generalitate al unei RNA. Prin restrngerea cmpului de recepie al neuronilor se
efectueaz o extragere a trsturilor locale iar n straturile ce urmeaz acestea sunt combinate pentru
a se forma trsturi de ordin superior. Astfel, RNA parial conectate pot da rezultate mai bune dect
RNA total conectate n rezolvarea anumitor probleme specifice, cu condiia exploatrii
cunotinelor apriorice despre problema dat.
Modul de amplasare a unitilor determin topologia reelei. Din punctul de vedere al
acesteia exist:
- Reele in care nu are importan (din punctul de vedere al algoritmilor de funcionare
i/sau de nvare) poziia geometric a unitilor. Astfel de topologii sunt asociate reelelor
organizate pe nivele i reelelor Hopfield. n reprezentrile schematice ale reelelor organizate pe
nivele, unitile aceluiai nivel sunt reprezentate grupat dei poziia lor nu are semnificaie pentru
procesul de funcionare i cel de nvare.
- Reele n care este esenial organizarea geometric, relaiile de vecintate dintre uniti
intervenind n algoritmul funcionare sau n cel de nvare. Astfel de topologii sunt cele asociate
reelelor Kohonen sau reelelor celulare (fig. 8). Esenial n acest caz este definirea unei relaii de
vecintate intre uniti.

Fig. 8. Exemple de reele neuronale celulare


Principalele tipuri de topologii sunt:
- Arbitrar. Mulime de uniti pe care nu este definit nici o relaie de ordine. n acest caz
nu are importan nici locul i nici distanele dintre uniti. Un model cu o astfel de topologie este
modelul Hopfield. De regul, acestei topologii i corespunde o conectivitate total;
- Pe nivele. Unitile sunt mprite in mai multe submulimi, numite nivele. n cadrul unui
nivel nu are importanii modul de aranjare a unitilor. In aceast categorie intr reelele
feedforward cu unul sau mai multe nivele;
- Cu structur geometric. Unitile sunt amplasate in nodurile unei grile unidimensionale,
bidimensionale sau chiar tridimensionale. n acest caz se poate defini o funcie distan intre uniti.
in aceast categorie intr reelele de tip Kohonen i cele celulare. in practic se utilizeaz i
arhitecturi mixte in care fiecare nivel poate avea o anumit structur geometric.
Fluxul informaional reprezint modul n care "curge" informaia prin reea de la unitile
care preiau datele de intrare ctre unitile care produc semnalul de ieire.Din punctul de vedere al
modului de propagare al semnalului prin RNA, se pot distinge dou tipuri de topologii: RNA
feedforward (cu propagare nainte) i RNA recurente (feedback, cu propagare napoi). RNA
feedforward (cu propagare nainte) sunt caracterizate de prezena unui strat de neuroni de intrare, un
numr de straturi ascunse (posibil i fr) i un strat de neuroni de ieire. Definitoriu pentru acest tip
de RNA este faptul c un neuron primete semnale doar de la neuroni aflai in stratul/straturi
precedent/precedente. Se pot imagina i modele mai sofisticate de arhitecturi multistrat. Putem
astfel considera arhitecturi de reea n care exist conexiuni intre neuronii aceluiai strat. De
asemenea, uneori poate fi util s considerm conexiuni de la un neuron spre neuroni aflai n stratul
anterior (mai apropiat de intrarea reelei). Alteori, conexiunile pot lega doi neuroni care nu se afl
neaprat n straturi adiacente.
RNA recurente se individualizeaz prin existena unui semnal de reacie, din partea
neuronilor de ordin superior, pentru cei de ordin inferior sau chiar pentru propriile lor intrri
(fig.9).

Fig. 9. RNA recurent


Tipuri i algoritmi de instruire
Odat ce o topologie de reea a fost aleas pentru o anumit aplicaie, reeaua este pregtit
pentru nceperea procesului de antrenament. Pentru a demara acest proces, ponderile sunt
iniializate la valori aleatoare, dup care nvarea propriu-zis ncepe. RNA achiziioneaz
cunotinele prin instruire (nvare). nvarea presupune adaptarea parametrilor liberi ai RNA
(ponderi, praguri, rat de nvare, uneori chiar forma funciei de activare sau structura reelei) ca
urmare a stimulilor mediului n care se gsete reeaua.
Vectorii de instruire sunt prezentai RNA n mod secvenial iar ponderile sinaptice,
care memoreaz practic cunotinele reelei, sunt adaptate pentru a extrage informaia pe care aceti
vectori o conin.
Tipul de nvare este determinat de maniera n care sunt ajustai parametrii liberi ai RNA.
Dei n literatura de specialitate dedicat RNA [1], [5], [8] exist o mare diversitate de opinii n
ceea ce privete modul de clasificare al algoritmilor i tipurilor de nvare, fig.10 ncearc s
sintetizeze principalele direcii.

Fig. 10 Principalele moduri de instruire ale RNA

Exist trei tipuri de nvare: supervizat, nesupervizat i prin ntrire.


- nvarea de tip supervizat
Este caracterizat de prezena unui supervizor care cunoate cu exactitate modul de
asociere al intrrilor RNA cu ieirile acesteia, conform fig.11.

Fig. 11 Sistem cu nvare supervizat


Parametrii RNA sunt modificai sub influena combinat a vectorilor de antrenament i a
semnalului de eroare (diferena dintre rspunsul dorit i cel actual). Scopul final al algoritmului de
antrenament este ca RNA s emuleze, optim n sens statistic, supervizorul.
- nvarea de tip nesupervizat (cu autoorganizare)
Este caracterizat de absena unui semnal sau supervizor care s aprecieze
corectitudinea asociaiilor intrare-ieire (fig.12). RNA va descoperii singur legitile coninute
n datele de intrare printr-o reprezentare intern adecvat a trsturilor vectorului de intrare.

Fig. 12 Sistem cu nvare nesupervizat


- nvarea prin ntrire
Urmrete maximizarea unei mrimi scalare (indice de performan sau semnal de
ntrire) n urma unei aciuni efectuate de ctre sistemul supus nvrii. Dac modificrile
aduse conduc spre o stare mai bun dect cea precedent, tendina sistemului de a produce acea
aciune particular este ntrit.
Algoritmi de nvare
- Algoritmi de nvare bazai pe corecia erorii
Fie x(n) vectorul de intrare aplicat unei RNA. Dac se noteaz ieirea neuronului k
prin y k n , semnalul de eroare poate fi definit ca fiind diferena dintre ieirea dorit pentru neuronul
k i ceea ce furnizeaz n etapa actual de ctre acelai neuron:
ek n d k n yk n

10

Scopul final al algoritmilor bazai pe corecia erorii este de a minimiza aa-numita


funcie de cost. Unul dintre criteriile frecvent utilizate n alegerea funciei de cost este cel al erorii
ptratice medii, care urmrete minimizarea valorii medii ptratice pentru suma erorilor ptratice
aferente stratului de ieire al RNA:
1

J E ek2 n
2 k

n care E[.] semnific media n sens statistic.


Una dintre metodele de minimizarea a funciei de cost J n raport cu parametrii RNA este
metoda gradientului descendent.
De cele mai multe ori proprietile statistice ale procesului nu sunt cunoscute. n acest caz
se ofer o soluie aproximativ pentru problema de optimizare, prin utilizarea drept funcie de
cost a valorii instantanee a sumei erorilor ptratice:
1
n ek2 n
2 k
Graficul aplicaiei J n funcie de ponderile RNA poart denumirea de suprafa a
erorii. n figura 13 este prezentat reprezentarea suprafeei erorii pentru cazurile unui element
liniar, iar n figura 14 pentru cazul unui element neliniar.

Fig. 13.Suprafaa erorii pentru cazul unui neuron liniar

11

Fig.14. Suprafaa erorii pentru cazul unui neuron neliniar


Se poate desprinde ideea conform creia minimizarea erorii unui neuron liniar este mai
uoar dect minimizarea unui neuron neliniar (de ex. sigmoidal). Pentru cazul elementului liniar
eroarea are un minim global, uor de localizat pe cnd pentru neuronul neliniar, suprafaa erorii
poate avea minime locale.
- Algoritmi de nvare de tip Boltzmann
Sunt inspirai din teoria informaiei i din termodinamic, neuronii constituind o structur
recurent caracterizat de aa-numita funcie energie:
1
E wij s j si
2 i j
unde si reprezint starea neuronului i, adic +1 (neuron activ) sau -1 (neuron
inactiv).
Maina Boltzmann opereaz prin alegerea aleatoare a unui neuron i schimbarea strii
acestuia. Astfel schimbarea ponderilor se va face innd cont de corelaiile dintre starea
neuronului i i cea a neuronului j.

- Algoritmul de nvare de tip competitiv


Este caracterizat de competiia ntre neuronii de ieire ai RNA, ctigtorul acesteia urmnd
s fie activat. Spre deosebire de RNA care se bazeaz pe ali algoritmi de nvare i la care exist
posibilitatea ca mai muli neuroni s fie activi simultan, la RNA bazate pe algoritmi de nvare
de tip competitiv doar un singur neuron este activ la un moment dat. Practic, fiecare neuron al
unei astfel de RNA va deveni specializat, n urma procesului de nvare, n recunoaterea unei
anumite trsturi prezent n datele de intrare. Acest lucru este posibil avnd n vedere modalitatea
de adaptare a ponderilor:
x j w ji , dac neuronul " j " a ctigat competiia
w ji
0, altfel
Prin aceasta, ponderea wj a neuronului j, ctigtor al competiiei, se apropie i mai mult
de tiparul x prezentat la intrare.

12

Reele neuronale de tip perceptron

n cadrul acestui capitol se prezint o clas deosebit de importante de RNA de tip cu


propagare nainte a semnalului (feedforward). Este vorba de RNA perceptron simplu, respectiv o
generalizare a acestuia, perceptronul multistrat (RNA-MLP, Multilayer Perceptron). Printre
primii autori care au fundamentat principiile teoretice legate de perceptronul simplu/multistrat
se regsesc Rosenblatt [11], Widrow [12] i respectiv Rumelhart, Hinton,Williams [13]. Cei din
urm autori fundamenteaz i celebrul algoritm de antrenament pentru RNA-MLP i anume
algoritmul cu propagare napoi a erorii (BP, backpropagation). Toate aceste aspecte sunt extensiv
tratate de ctre S.Haykin n una dintre cele mai bune cri referitoare la domeniul RNA [5].
Interesul deosebit fa de aceste reele neuronale a fost generat, printre altele, de capacitatea
acestora de a generaliza adic de a opera cu date diferite de cele prezentate n etapa de antrenament
i de a nva plecnd de la o distribuie aleatoare a ponderilor sinaptice ale reelei. n consecin
acest tip de reele poate fi folosit cu succes n diversele aplicaii ce conin clasificatori.
RNA de tip perceptron cu un singur neuron

n acest paragraf sunt prezentate arhitectura i algoritmii de antrenament pentru cazul RNA
cu un singur neuron: perceptronul simplu i RNA ADALINE antrenat cu algoritmul LMS.
Perceptronul simplu are o aplicabilitate practic limitat datorit valorii binare a ieirii sau
datorit imposibilitii clasificrii tiparelor (vectorilor de intrare) neliniari. El se constituie
ns ca punct de plecare n studiul perceptronului multistrat.
Perceptronul simplu
Arhitectura unei astfel de RNA este prezentat n figura 15. Se poate afirma c perceptronul
simplu reprezint o particularizare a modelului McCulloch-Pitts al neuronului artificial pentru cazul
n care funcia de activare este de tip treapt unitate bipolar.

Fig 15. Arhitectura perceptronului simplu.


Scopul perceptronului simplu este de a clasifica n una din cele dou clase
disponibile (y = +1 sau y = -1) un set de stimuli exteriori.
Funcionarea sa pote fi descris prin urmtoarele ecuaii:
N

v wi xi
i 1

1, dac x n C1
y v sgn v
1, dac x n C2
Regiunile de decizie vor fi separate de ctre un hiperplan definit de relaia:
N

w x 0
i 1

i i

13

Ca i particularizare pentru cazul N = 2 ecuaia precedent ia forma:


w1 x1 w2 x2 0
ceea ce reprezint ecuaia unei drepte n planul determinat de x2 i x 1 . n acest caz,
tiparele vor fi separate printr-o dreapt. Un exemplu de astfel de problem liniar separabil
l constituie funcia I logic iar ca i contraexemplu se poate considera funcia SAUEXCLUSIV (fig.16). Pentru cazul N = 3 ecuaia descrie un plan iar pentru N > 3 un hiperplan.

Fig. 16. Tabela de adevr i ilustrarea separabilitii funciilor logice I i SAU-EXCLUSIV


n concluzie, perceptronul simplu poate fi folosit cu succes doar n cazul particular al
clasificrii tiparelor liniar separabile, adic a tiparelor care sunt situate, ntr-un caz general, de-o
parte i de alta al unui hiperplan. Avnd n vedere notaiile urmtoare:
x n 1, x1 n , x2 n ,..., xN n = vector de intrare,
T

w n n , w1 n , w2 n ,..., wN n = vectorul ponderilor sinaptice,


T

n = prag,

y n = rspuns actual,
d n = rspuns dorit,

n = rata de nvare, de regul 0 1 ,


paii algoritmului (tip Rosenblatt) de antrenament aferent perceptronului simplu vor fi:
a) Iniializarea: w 0 0 ;
b) Calcul rspuns actual: y n sgn wT n x n , n care funcia sgn(.)

reprezint funcia signum.

14

c) Modificarea ponderilor sinaptice: w n 1 w n d n y n x n


n care :

1, dac x n C1
d n
1, dac x n C2
d) Incrementarea lui n cu o unitate i salt la pct.b)
RNA Adaline. Algoritmul LMS
Algoritmul celor mai mici ptrate (LMS - Least Mean Square), cunoscut i sub denumirea
de algoritmul Widrow-Hoff sau regula delta, este destinat antrenrii unei RNA format dintrun singur neuron liniar. Ceea ce l difereniaz de algoritmul de antrenament al perceptronului
simplu este modul de calcul al semnalului de eroare, care n acest caz nu este cuantizat iar
funcia de activare poate fi liniar.
Avnd n vedere aceste aspecte, algoritmul LMS poate fi formulat n modul urmtor:

a) Etapa de iniializare: pentru wk 0 0 , k = 1,2, ..., N


b) Etapa de filtrare:
N

y n wj n x j n
j 0

e n d n y n
wk n 1 wk n e n xk n , k=1,2,,N

Formularea algoritmului LMS s-a fcut din perspectiva unei filtrri spaiale.
El poate fi utilizat n aceeai msur n rezolvarea problemelor de filtrare temporal,
considernd c x(n) reprezint eantioane ale vectorului de intrare la momente de timp diferite:
x n x n , x n 1 ,..., x n N 1

RNA ADALINE (Adaptive Linear Element) folosete algoritmul de antrenament LMS


(Widrow-Hoff) n scopul clasificrii tiparelor. Structura ei este prezentat n figura 17. n
timpul etapei de antrenament, tiparele sunt aplicate direct RNA, ea urmnd s descopere singur
caracteristicile acestora. Experiena acumulat de ctre RNA este coninut n valorile w1 , ..., wN i
.

Fig. 17. Structura RNA ADALINE.

15

Deducerea regulilor de modificare a ponderilor pentru cazul perceptronului simplu

Algoritmul de modificare a ponderilor urmrete minimizarea erorii la nivelul neuronului


sau al stratului neuronal de ieire.
Eroarea la nivelul neuronului de ieire k:
ek n d k n y k n
Pentru cuantificarea erorii la nivelul neuronului/neuronilor de ieire se definete o
funcie de cost, uneori denumit i criteriu de performan [14]. O posibil form pentru aceasta
este:
1

J E ek2 n
2 k

cu E[.] reprezentnd media n sens statistic.


Una dintre metodele folosite pentru obinerea minimului funciei J este bazat pe gradientul
acesteia. Ilustrarea metodei pailor descendeni se poate face prin urmtoarea figur:

Fig. 18: Ilustrarea grafic a metodei pailor descendeni


Conform acestei metode incrementul de modificare a ponderilor este dat de ecuaia:
J
wn J
w
Pentru c proprietile statistice nu sunt de regul cunoscute, se poate folosi n loc de J,
suma erorilor ptratice instantanee:
E av n

1
2

ek2 n
k

Pentru cazul prezentat anterior, k=1 i = sgn, se obine:


w n e n x n d n y n x n

16

Consideraii asupra valorii ratei de nvare (instruire)

n cazul algoritmilor de antrenament prezentai anterior rata de nvare trebuie s


satisfac condiia:
0 1, ct .
pentru a asigura convergena algoritmului.
Dac este aleas la o valoare prea mic, rezult un proces lent de nvare, vectorul
pondere modificndu-se foarte puin de la o iteraie la alta. Dac este prea mare, algoritmul poate
s nu sesizeze punctul de minim, ceea ce conduce la un proces de nvare oscilant care s-ar putea
s nu convearg niciodat.
Exist diverse procedee (figura 19) prin care rata de nvare poate fi modificat de-a
lungul epocilor de antrenament, obinndu-se astfel o rat de nvare variabil:
- Metoda aproximrii stochastice: n
- Metoda caut apoi converge: n

c
, c ct .
n

0
, 0 , ct .
n
1

Fig. 19. Metode de modificare a ratei de nvare


Capacitatea perceptronului simplu
Se refer la numrul de tipare maxim, pmax , care poate fi stocat ntr-o reea cu N intrri.
Pentru cazul unitilor care furnizeaz valori continue (liniare sau neliniare) numrul maxim de
tipare intrare-ieire este dat de condiia de independen liniar:
pmax N
Pentru cazul unitilor cu neliniaritate de tip prag:
pmax = 2N

17

RNA de tip perceptron cu mai multe straturi

Perceptronul multistrat (RNAMLP, Multilayer Perceptron) reprezint o generalizare a


perceptronului simplu prezentat n capitolul anterior. Este o RNA de tip feedforward (cu propagare
nainte a semnalului) compus din (fig.20):
- un strat de intrare;
- unul sau mai multe straturi ascunse;
- strat de ieire.

Fig. 20. Perceptron cu dou straturi.


Se deosebesc dou etape n realizarea unei aplicaii cu RNA. Prima reprezint etapa de
antrenament sau de nvare n care sunt aplicate perechi de tipare intrare ieire corect asociate,
iar RNA i modific parametrii liberi pentru a nva aceste asociaii. A doua etap
presupune utilizarea propriuzis a RNA; se pot aplica n acest caz vectori de intrare diferii de
cei din etapa de antrenament, urmnd ca RNA, pe baza capacitii de generalizare, s furnizeze
un rspuns adecvat. Pentru algoritmul de antrenament corespunztor RNAMLP se definete
eroarea la nivelul neuronului j din stratul de ieire, n a n- a iteraie:
ej n d j n y j n
n care d j reprezint rspunsul dorit iar y j rspunsul actual al RNAMLP.
Eroarea instantanee la nivelul ntregului strat de ieire poate fi definit ca suma
erorilor ptratice ale neuronilor de ieire:
n 1 e2j n
2 j
Fie T numrul total de tipare de antrenament. n acest caz, eroarea pentru ntreg setul de
date de antrenament reprezint funcia de cost ce va trebui minimizat:
T
av n 1 n
T n 1

Exist dou moduri n care se pot adapta ponderile RNAMLP n cursul etapei de
antrenament:
modul tipar cu tipar, (pattern by pattern) n care dup aplicarea fiecrei perechi de tipare
intrareieire ponderile sunt actualizate;
modul lot de tipare, (batch) n care ponderile sunt calculate o singur dat pe baza tuturor
perechilor de tipare intrareieire disponibile.

18

Determinarea numrul de straturi ascunse i de neuroni/strat ascuns.


Numrul optim de straturi ascunse i de neuroni/strat ascuns este dificil de precizat

apriori.
n general, un singur strat ascuns e suficient pentru rezolvarea majoritii problemelor.
n mod excepional, se pot folosi dou, cel mult trei straturi ascunse.
De regul, numrul de neuroni afereni straturilor de intrare respectiv ieire este dictat
de natura aplicaiei. Neuronii structurilor ascunse au rolul foarte important de a detecta trsturile,
legitile, regularitile coninute n tiparele de antrenament.
Un numr prea mare de neuroni ascuni/strat influeneaz n mod negativ capacitatea de
generalizare a RNA. Totodat conduce la sporirea volumului de date care urmeaz a fi procesat i
deci la o durat sporit pentru etapa de antrenament. Un numr prea mic de neuroni nu este suficient
pentru formarea unei reprezentri interne a datelor adecvat i poate conduce la o eroare medie
ptratic mare pe parcursul epocilor de antrenament i implicit la o eroare mare corespunztoare nu
numai datelor de test ci i celor de antrenament.
n concluzie, numrul optim de neuroni ascuni se va determina experimental.

Reele neuronale artificiale bazate pe funcii radiale


Reele neuronale artificiale bazate pe funcii radiale reprezint o abordare diferit a modului
de realizare a unei RNA. Acest proces este vzut de aceast dat ca o problema de aproximare a
unei curbe ntr-un spaiu multidimensional. Conform acestui punct de vedere, nvarea este
echivalent cu gsirea unei suprafee ntr-un spaiu multidimensional care s se potriveasc
cu cea descris de datele de intrare. Generalizarea reelelor neuronale bazate pe funcii radiale
(Radial Basis Function RBF) reprezint n acest caz capacitatea de interpolare a RNA vizavi
de datele de test.
Comparativ cu o RNA-MLP, RNA-RBF pot s solicite mai muli neuroni dar antrenarea
acestora necesit mai puin timp dect n cazul perceptronului. Explicaia acestui fapt este
urmtoarea: ieirile neuronilor sigmoidali ai stratului ascuns sunt semnificative pentru regiuni
largi ale spaiului de intrare n timp ce neuronii bazai pe funcii radiale rspund doar la regiuni
relativ mici din spaiul de intrare. n consecin, RNA-RBF se comport mai bine cnd sunt
disponibili muli vectori de antrenament.
Modelul unui neuron RBF este prezentat n fig.21. n acest caz intrarea net este constituit
din norma diferenei vectoriale ||t - x||.

Fig 22. Arhitectura unui neuron RBF.

19

Un exemplu tipic pentru funcia de activare este: x e x reprezentat n fig.22. Se


2

constat c funcia radial are un maxim dac intrarea e nul. Dac distana dintre t i x descrete,
valoarea ieirii crete. Adic neuronul radial se comport ca un detector care produce 1 la ieire
de fiecare dat cnd tiparul de intrare e identic cu vectorul pondere t.

Fig. 22. Form tipic pentru funcia de activare radial


O RNA-RBF prezint structural trei straturi (fig.23):

Fig. 23. Arhitectura unei RNA-RBF


- stratul ascuns, care furnizeaz funcii care constituie o baz pentru vectorii de
intrare; aceste funcii poart denumirea de funcii radiale;
- stratul de ieire alctuit din neuroni cu funcie de activare liniar.
Transformarea spaiului de intrare n spaiul neuronilor ascuni este neliniar pe cnd
transformarea spaiului neuronilor ascuni n spaiul neuronilor de ieire este liniar.
Problema interpolrii

Problema interpolrii poate fi formulat n felul urmtor:


Fiind date N puncte diferite xi R p | i = 1,2,...,N i un numr echivalent de numere reale

d R
i

| i = 1,2,...,N s se gseasc funcia F : R p R1 care satisface condiia de interpolare:

F xi di , i 1, 2,...., N .

Tehnica bazat pe funcii radiale const n alegerea funciei F cu urmtoarea form:


N

F x wi x xi
i 1

20

unde x xi | i 1, 2,..., N reprezint o mulime de N funcii arbitrare, de regul neliniare,


cunoscute sub denumirea de funcii radiale. Notaia ||.|| semnific o norm, de regul cea euclidian.
Punctele cunoscute xi R p , i 1, 2,..., N reprezint centrele funciilor radiale.
Rezultatele teoretice i experimentale arat c alegerea funciei neliniare (.) nu este crucial
pentru performanele ulterioare ale unui RNA RBF. Aceasta poate fi, de exemplu:

1/2

, c 0, r 0

sau

r2
, 0, r 0
2
2

r exp

Strategii de nvare pentru RNA bazate pe funcii radiale

Exista mai multe metode de antrenament ale RNA-RBF, deosebirea ntre ele constnd n
metoda de alegere a centrilor funciilor radiale.
- Metoda bazat pe creterea reelei
Iniial stratul ascuns nu are nici un neuron. Dup fiecare epoc, vectorul de intrare pentru
care se obine cea mai mare eroare la nivelul stratului de ieire este folosit pentru crearea
unui nou neuron prin egalizarea ponderilor acestuia cu vectorul de intrare. Se calculeaz apoi
ponderile stratului liniar. Dac se ajunge la eroarea (performana) dorit sau dac se atinge
un numr maxim de neuroni pentru stratul ascuns, procesul de antrenament va fi ncheiat.
- Metoda centrilor fici, alei aleator
Reprezint una dintre cele mai simple abordri i presupune funcii radiale fixe care
definesc funciile de activare ale stratului ascuns. Locaiile centrilor funciilor sunt alese aleator
dintre vectorii de intrare.
- Metoda seleciei autoorganizate a centrilor
n cadrul acestei abordri este permis deplasarea locaiei centrilor funciilor radiale ntr-o
manier autoorganizat, n timp ce ponderile stratului liniar de ieire sunt calculate ntr-o manier
supervizat.
Componenta autoorganizant permite alocarea
resurselor RNA astfel nct centrii
funciilor radiale vor fi plasai doar n regiuni semnificative ale spaiului de intrare. Pentru
selecia autoorganizat a centrilor se poate folosi metoda celor mai apropiai k vecini iar
pentru nvarea supervizat se poate folosi un algoritm bazat pe corecia erorilor (de exemplu
LMS).
RNA-RBF au fost folosite cu succes n deosebi la problemele de
aproximare/interpolare [18] i predicie [19] a funciilor. RNA-RBF reprezint o soluie
alternativ n special n problemele ce presupun interpolarea, aproximarea sau predicia funciilor.
De menionat ns i posibilitarea folosirii lor n probleme de clasificare.

21

Reele neuronale artificiale recurente

n acest capitol se prezint o alt clas important de RNA i anume aceea a RN cu structur
recurent. RNA recurente sunt caracterizate de:
- uniti de procesare neliniare;
- simetria conexiunilor sinaptice (wji = wij );
- folosirea intensiv a feedback-ului .
Din aceast categorie fac parte RNA Boltzmann (RNA-B) i RNA Hopfield (RNA-H), cea
din urm fiind detaliat n cele ce urmeaz, dezvoltarea acestora fiind inspirat din fizica statistic i
termodinamic.
RNA de tip Hopfield (RNA-H)
Poate fi vzut ca o memorie asociativ sau ca o memorie adresabil prin coninut, a crei
funcie principal este regsirea tiparelor stocate n memorie, ca rspuns la prezentarea unui
tipar incomplet sau contaminat cu zgomot. Esena memoriilor adresabile prin coninut const n
transformarea tiparelor n stri stabile s ale sistemului dinamic (proces de codare) i invers
(proces de decodare).
Fiecare neuron, de tip McCulloch-Pitts, al RNA-H (fig.24) este caracterizat prin una din cele
dou stri posibile: activ (si = 1) , respectiv inactiv (si = -1). Starea unei RNA-H alctuit din N
neuroni este definit de ctre vectorul:
s s1 , s2 ,..., s N

Potenialul intern al unui neuron j este:


N

v j w ji si j
i 1

n care j reprezint pragul neuronului.

Fig.24: Arhitectura unei RNA-H cu 3 neuroni


Neuronul j i modific starea conform regulii:
1, dac v j 0
sj
1, dac v j 0

22

sau echivalent s j sgn v j . Dac v j 0 atunci s j poate lua o valoare arbitrar, +1 sau 1.

De exemplu, se poate conveni ca starea neuronului s rmn nemodificat.


n funcionarea RNA-H se pot distinge dou etape:
a.) Faza de memorare. S presupunem c se dorete stocarea a p vectori N
dimensionali u | 1, 2,..., p .
Atunci ponderea legturii dintre neuronul j si neuronul i se calculeaz cu relaia:
1 p
w ji , j ,i
N 1
De regul se consider wii 0, i.
Acelai lucru poate fi scris n form matricial astfel:
1 p
p
W T I
N 1
N
n care W reprezint matricea ponderilor sinaptice ale reelei i are dimensiunea NxN iar I
reprezint matricea identic.
Se constat faptul c ponderile RNA se calculeaz ntr-o singur epoc, spre deosebire de
RNA-MLP sau RBF.
Din ecuaia de calcul pentru ponderile RNA se constat urmtoarele:
- ieirea fiecrui neuron se constituie n intrare pentru toi ceilali neuroni ai reelei;
- nu exist autoexcitaie (self-feedback), adic wii 0, I .
- matricea ponderilor RNA este simetric
adic influena exercitat
de neuronul i asupra neuronului j este egal cu influena exercitat de neuronul j asupra
neuronului i.
b) Faza de utilizare (regsire). n aceast faz, un anumit tipar x este impus drept vector de
stare al RNA-H. De regul el reprezint o versiune incomplet sau afectat de zgomot al unui tipar
memorat. Procesul de regsire se desfoar n mod dinamic: fiecare neuron al reelei, n mod
aleator ales, estimeaz propriul potenial de activare i i stabilete starea final. Acest proces
asincron (serial) de modificare a strilor se va opri n momentul n care vectorul de stare nu se va
mai modifica. Aceasta nseamn c RNA-H a produs un vector de stare y invariant n timp, ale
crui elemente satisfac condiia de stabilitate:
N

y j sgn w ji yi i , j 1, 2,..., N
i 1

sau n form matricial:


y sgn W y
Vectorul de stare y este denumit stare stabil a spaiului fazelor sistemului.
RNA-H cu ponderi sinaptice simetrice li se poate asocia aa-numita funcie de energie:
1 N N
E w ji si s j
2 i 1 j 1
Variaia energiei E ca urmare a variaiei strii neuronului j e dat de expresia:
N

E s j w ji si
i 1
i j

Astfel, n timpul fazei de regsire a unui tipar, E descrete monoton. Schimbarea strii
RNA-H va continua pn cnd se va atinge un minim local al peisajului energetic.

23

S-ar putea să vă placă și