Sunteți pe pagina 1din 27

Capitolul 2

REELE NEURONALE ARTIFICIALE



2.1. Consideraii generale

Reelele Neuronale Artificiale (RNA) denumite i procesoare
paralel distribuite, neurocomputere sau modele conexioniste, sunt
sisteme dinamice de prelucrare a informaiei, formate dintr-un numr
mare de structuri elementare de prelucrare, puternic interconectate,
numite neuroni.
Dei preocuprile privind studiul reelelor neuronale dateaz din
anii 1940, interesul pentru acestea cunoate o adevrat explozie
ncepnd cu anii 1980.
Dintre cele mai importante caracteristici ale RNA se
menioneaz:
Prelucrarea paralel a informaiei caracteristic care permite
construirea unor arhitecturi deosebit de performante capabile
s ofere rspunsuri rapide, n timp real;
nvarea din exemple a fenomenului pentru care se
antreneaz; procesul de nvare poate fi supervizat sau
nesupervizat;
Permit modelarea unor procese complexe ale cror legi de
funcionare sunt fie prea complicate, fie nu pot fi
algoritmizate; procesul analizat nu trebuie descris prin reguli
clare;
Capacitatea de a asocia datele de intrare cu setul sau
seturile de date de antrenare cu care rezoneaz cel mai
bine. Aceast caracteristic asigur un comportament bun
chiar n condiiile unor seturi de date de intrare incomplete
sau parial greite (sunt tolerante la erori).
Memorarea distribuit a informaiei ceea ce asigur o
funcionarea relativ corect i n situaia n care anumii
neuroni se defecteaz. Fiecare neuron particip la formarea
ieirilor pentru toate seturile de vectori de intrare (antrenare).
Deteriorarea unui anumit neuron nrutete doar ntr-o mic
msur funcionarea global, datorit aportului distribuit, dat
de toi ceilali neuroni valizi. Desigur numrul de neuroni
trebuie s fie suficient de mare. Acest mecanism al memorrii
distribuite a informaiei este cel care explic i funcionarea
corect de durat a creierului uman, n care celulele nervoase
ce mor nu afecteaz funcia de gndire n general i totodat
nu afecteaz nici noiunile memorate.
Pornind de la o mulime reprezentativ de exemple de instruire, o
RNA construiete singur algoritmul pentru rezolvarea unei
probleme. Astfel, ntr-o prim etap, numit etapa de antrenare, ea
extrage informaia prezentat n mulimea de exemple, numit
mulime de antrenare, i o memoreaz n ponderile conexiunilor
dintre neuroni. n faza de lucru reeaua va folosi informaia
achiziionat n etapa de antrenare pentru a trata situaii de aceeai
natur cu cele coninute n mulimea de antrenare.
Capacitatea RNA de a rezolva probleme practice complexe
utiliznd o mulime (uneori restrns) de exemple, confer un
potenial de aplicabilitate extrem de larg.

Spectrul aplicaiilor cuprinde:
sisteme de recunoatere a caracterelor utilizate n trierea
corespondenei;
sisteme de recunoatere a semnturilor folosite n sistemul
bancar;
sistemele de recunoatere a vorbirii utilizate n traficul
aerian;
piloi automai;
sisteme n timp real pentru controlul unor procese
complexe.
Calculul neuronal, una dintre paradigmele
1
inteligenei
artificiale, reprezint actualmente un domeniu de cercetare fascinant
i o provocare intelectual i tehnologic major. RNA au modificat
imaginea noastr asupra proceselor de calcul i aspectelor
algoritmice ale inteligenei artificiale i au furnizat psihologiei un
model al proceselor mentale.

2.2. Analogia dintre structura sistemului nervos i reelele
neuronale artificiale

RNA preiau caracteristicile de baz ale structurii sistemului
nervos uman alctuit, n medie, din 10
10
10
11
celule nervoase (fig.
2.1), numite neuroni, strns interconectate, care sunt dispuse pe mai
multe straturi sau niveluri.

Soma
Axon
Nucleu
Dendrite
Sinapse
Termina ( iile
axonului)

Fig. 2.1. Structura celulei nervoase.



1
Paradigm model general
Celula nervoas este constituit din (fig. 2.1):
dendrite prin care recepioneaz diferite informaii de la ali
neuroni; ele constituie intrrile n celula nervoas i pot fi n
numr de pn la 10
4
.
corpul celulei sau soma care realizeaz o prelucrare a
stimulilor
2
generai de informaiile primite i elaboreaz
rspunsul;
un axon o fibr unic care transmite rspunsul elaborat
ctre alte celule;
sinapse terminaiile ramificate ale axonului care realizeaz
legturi cu ali neuroni (axonul unei celule umane realizeaz
n medie 10
3
legturi sinaptice cu ali neuroni).
Nucleu
Dendrite
Axon
Sinapsa
Procesor
elementar i
Ponderea
conexiunii sinaptice Wij
Procesor
elementar j
(Neuron ) i (Sinapsa) (Neuron ) j
Informa ia
de intrar

e
Ie ire Ie ire
(Axon)
Intrare
(Dendrita)

Fig. 2.2. Modelul conexiunii sinaptice

2
Stimul cuvnt de origine latin (stimulus). Definete un factor exterior care
determin excitaia (activarea) de scurt durat a unui organ sau a unei funcii
biologice, care declaneaz un proces fiziologic. n contextul reelelor neuronale
artificiale prin stimul se va nelege informaia recepionat de ctre neuronul
artificial (unitatea de procesare) prin una din conexiunile de intrare.
Neuronii nu se ating n mod direct, ci sunt separai prin spaii
numite sinapse (fig. 2.2). Acestea sunt uniti structurale i
funcionale elementare care realizeaz interaciunile dintre neuroni.
n descrierea organizrii neuronale se consider c o sinaps este
o conexiune simpl care poate impune excitarea sau inhibarea
neuronului receptor. Ambele efecte sunt locale. Ele se propag pe o
distan mic n corpul celulei i sunt nsumate la nivelul axonului.
Dac suma potenialelor de excitare depete un anumit prag, atunci
neuronul este activat i transmite un impuls mai departe spre neuronii
cu care este conectat. Legturile dintre neuroni sunt ponderate, iar
fiecare neuron aplic o transformare asupra impulsului de intrare
nainte de a-l transmite mai departe.
Stocarea informaiei n neuroni se realizeaz prin intermediul
tiparelor pe care le formeaz i prin ponderile W
ij
ale conexiunilor
sinaptice.
Tipul cel mai rspndit de sinaps este sinapsa chimic. Aceasta
convertete un semnal electric presinaptic ntr-un semnal chimic (ioni
de sodiu i potasiu) care prin difuzie traverseaz jonciunea sinaptic
i apoi este transformat din nou ntr-un semnal electric postsinaptic.
2.3. Modele formale ale neuronului artificial
2.3.1. Neuronul formal
Neuronul formal are o structur asemntoare neuronului uman.
El este o unitate elementar de procesare care realizeaz o operaie
simpl pe un set de mrimi de intrare, reprezentate prin vectorul
[ ]
1
,... ,...
T
i n
x x x = X , pentru a produce o mrime de ieire
j
y .
Intrrile sunt alctuite din semnalele venite de la ali neuroni sau
din mediul nconjurtor i sunt reprezentate, n general, prin numere
reale. Fiecare intrare
i
x are asociat o valoare real
, j i
w , numit
pondere sinaptic, care are rolul de a pondera semnalul de intrare.
Dac
,
0
j i
w > atunci ponderea este excitatoare, iar dac
,
0
j i
w <
atunci ponderea este inhibitoare. Vectorul ponderilor
,1 , ,
,... ,...
T
j j j i j n
w w w

=

W reprezint memoria proprie a
neuronului.
Funcia
de activare

y
j
x
1
x
i
x
n
x =-
n+1
1
w
1,j
w
i,j
w
n,j
w =T
n+ ,j j 1
net -T
j j
Corpul neuronului j

Fig. 2.3. Structura neuronului formal.
Corpul unui neuron oarecare j este constituit dintr-un sumator, un
prag de activare
j
T i o funcie de activare
j
f .
n general, pragul de activare este nenul i poate fi ncorporat n
vectorul ponderilor considernd o intrare suplimentar
1
1
n
x
+
=
creia i se asociaz ponderea
, 1 j n j
w T
+
= (fig. 2.3).
Starea neuronului se actualizeaz periodic dup urmtorul
mecanism:
1. se determin starea intern
j
net denumit potenialul neuronal
ca fiind suma ponderat a intrrilor
i
x , adic:

,
1
n
T
j i j i
i
net w x
=
= =

W X (2.1)

2. se compar potenialul neuronal
j
net cu pragul de activare al
neuronului
j
T , adic se modific potenialul neuronal conform
relaiei (2.2):

j j j
net net T (2.2)
3. asupra expresiei astfel obinut se aplic o funcie de activare
j
f
rezultnd valoarea ieirii neuronului respectiv:

( )
j j j
y f net = (2.3)

Funciile de activare pot fi liniare sau neliniare (fig. 2.4).
a. b. c. d. e.
F( ) x F( ) x F( ) x F( ) x F( ) x
net net net net net
1
0
1
0
1
0
1
0
1 -1
-1
0,5
+
-
f x ( )
f x ( ) f x ( ) f x ( ) f x ( )
Sigmoid Identitate

( ) f x x =

Treapt

( )
1 0
0 0
x
f x
x

=

<


Ramp
( ) [ ]
0
1 1
,
2 2
1
x
f x x x
x
<

= +

>



( )
1
1
x
f x
e

=
+


( )
( ) th
kx kx
kx kx
e e
f x
e e
kx

= =
+
=
Fig. 2.4. Tipuri de funcii de transfer.
Funcia de activare liniar este de forma
( ) f x ax b = + (2.4,a)
unde coeficientul b joac rolul pragului
j
T . Pentru 1 a = i 0 b = se
obine funcia de activare identitate (fig. 2.4, a), iar pentru 1 a = i
0 b rezult funcia de activare identitate plus prag.
Funcia de activare treapt (fig. 2.4, b)
( )
1 daca 0
0 daca 0
x
f x
x

=

<

(2.4,b)
Funcia de activare ramp (fig. 2.4, c), constituie o combinaie
ntre funciile liniar i treapt.
( ) [ ]
1 daca
1 1
daca ,
2 2
0 daca
x
f x x x
x
>

= +

<

(2.4,c)
n principiu, funcia ramp stabilete limitele maxim i minim
pentru ieirea neuronului, asigurnd o variaie liniar ntre acestea pe
intervalul [ ] , .
Funcia de activare sigmoid corespunde unor forme netezite ale
funciei ramp. Funciile sigmoid, denumite astfel dup forma n S a
reprezentrii lor grafice, sunt funcii continue, derivabile i monotone
pe ntreg intervalul de definiie. Aceste proprieti sunt eseniale
dac se dorete aplicarea unor algoritmi de nvare performani i
eficieni. Cele mai rspndite funcii sigmoid sunt:
sigmoidul logistic (fig. 2.4, d), numit i sigmoid unipolar, care
ia valori n intervalul (0, 1);

( )
1
1
x
f x
e

=
+
(2.4,d)
sigmoidul tangent hiperbolic (fig. 2.4, e), numit i sigmoid
bipolar, care ia valori n intervalul (-1, 1).
( ) ( ) tanh
kx kx
kx kx
e e
f x kx
e e

= =
+
(2.4,e)
n concluzie, funcionarea unui neuron j, vzut ca element de
procesare n intervale discrete de timp, este descris de relaiile:

( )
,
1
n
T
j i j i j j j
i
j j j
net w x T T
y f net
=
= =
=

W X
(2.5)
unde: [ ]
1
,..., ,...
T
i n
x x x = X este vectorul de intrare;
j
T pragul corespunztor neuronului;
j
f funcia de activare (treapt, sigmoid etc.).
2.3.2. Modelul McCulloch-Pitts (MCP)
Reprezint primul model formal al neuronului i a fost propus de
ctre W. McCulloch i S. Pitts n anul 1943. Att intrrile, ct i
ieirea sunt de tip binar, iar funcia de transfer este funcia treapt.
Prin urmare, funcionarea MCP este descris de relaiile:

( )
1
1 1
1, 0
0, altfel
n n
i i i i
i i
net w x T w x
net
y f net
+
= =
= =

= =


(2.6)
Obs. Fiind vorba de un singur neuron s-a renunat la indicele j
care-l desemneaz.
Acest model are meritul istoric c a pus n eviden o structur
simpl, la care relaia funcional intrare-ieire este codificat sub
forma unor valori numerice corespunznd ponderilor. La acea dat
rmnea ns deschis problema stabilirii unui algoritm de antrenare
pentru determinarea valorilor acestor ponderi.
2.3.3. Neuronul clasificator
Pornind de la modelul MCP, psihologul Rosenblatt a introdus, n
anul 1958, noiunea de perceptron sau neuron clasificator.
Perceptronul este asemntor neuronului MCP (fig. 2.5) i a fost
dezvoltat din dorina de a modela funcia de percepie vizual a
retinei.

y
j
x
1
x
i
x
n
x =-
n+1
1
1
w
1
w
i
w
n
w =T
n+1 j
net -T
j j

Fig. 2.5. Modelul perceptronului.
Ecuaiile de funcionare ale perceptronului sunt ecuaiile (2.6) ale
modelului MCP. Deosebirea provine din faptul c de aceast dat
intrrile sunt valori reale i nu valori binare de tipul 1 sau 0, funcia
de activare fiind tot de tipul treapt.
Prin urmare evoluia perceptronului este descris de:

( )
1
1 1
1, 0
0, altfel
n n
T
i i i i
i i
net w x T w x
net
y f net
+
= =
= = =

= =


W X
(2.7)
n care:
( )
1
1 1
,... ,... , 1
T
n
i n n
x x x x R
+
+
= = X este vectorul de intrare
( )
1
1 1
,... ,... ,
T
n
i n n
w w w w T R
+
+
= = W - vectorul ponderilor
Ecuaia
0
T
net = = W X (2.8)
este ecuaia unui hiperplan care mparte spaiul vectorilor de intrare
n dou regiuni de decizie. Astfel, vectorii aflai n partea pozitiv
caracterizai de
0
T
net = > W X (2.9)
aparin clasei A, iar vectorii situai n partea negativ caracterizai de
0
T
net = < W X (2.10)
aparin clasei B.
Pentru a dezvolta modelul matematic i algoritmul de instruire
sau antrenare, se efectueaz o normalizare de semn a vectorilor de
intrare notnd:

daca
daca
A
B

=

X X
Z
X X
(2.11)
n aceste condiii, hiperplanul 0
T
net = = W Z corespunztor
ecuaiei (2.8) separ clasele A i B dac i numai dac exist
inegalitatea:
0
T
A B > W Z Z (2.12)
Definiie: Dac pentru dou clase de obiecte reprezentate prin
vectori din spaiul
n
R exist un hiperplan de separare,
atunci cele dou clase se numesc liniar separabile.
De exemplu, pentru n=2 ecuaia

1 1 2 2
0
T
w x w x T = + = W Z
definete o dreapt n planul ( )
1 2
, x x care-l mparte n dou regiuni
de decizia A i B (fig. 2.6).

Clasa A
x
1
x
2
Clasa B
Dreapta de
decizie

Fig. 2.6. Separarea planului n zone de decizie.
Problema care se pune const n gsirea unui algoritm de
nvare care s determine vectorul ponderilor W astfel nct
frontiera s ajung s separe corect elementele. Cu alte cuvinte,
ieirea neuronului s fie y =1 sau y =0, dup cum intrarea aparine
clasei A sau clasei B.
Rspunsul la aceast problem a fost dat, ntr-o prim etap, de
ctre Rosenblatt. Algoritmul propus de acesta, cunoscut sub
denumirea de algoritmul standard de antrenare a perceptronuli,
modific valorile ponderilor ori de cte ori la intrarea reelei este
prezentat o configuraie (form sau pattern) incorect clasificat.
Procedura de instruire este o metod iterativ de nvare
supervizat care are ca obiectiv minimizarea distanelor punctelor
eronat clasificate fa de hiperplanul de separare.
Se consider c mulimea de antrenare, numit i mulimea de
exemple, este constituit din m perechi de forma :
( ) ( ) ( )
1 1
, ,..., , ,..., ,
k k m m
d d d Z Z Z
n care d
k
este rspunsul corect, adic:

1
0
k
k
k
daca A
d
daca B

=

Z
Z

Notm cu ( ) G W mulimea vectorilor (punctelor) din setul de
antrenare clasificai eronat de ctre vectorul pondere W curent, adic:

{ }
( ) / 0
T
k k
G = < W Z W Z (2.13)
Dac ( )
k
G Z W , atunci eroarea de clasificare
k
e este dat de
distana punctului corespunztor vectorului
k
Z , la hiperplanul de
decizie H definit de ecuaia:
0
T
= W Z (2.14)
adic
( , )
k k
e d H = Z (2.15)
Observaii:
1. Se reamintete faptul c ecuaia unui hiperplan oarecare H, care
trece prin punctul
0
Z i este perpendicular pe vectorul U este:
( )
0
0
T
= U Z Z (2.16)
2. n ipoteza c 1 = U , distana de la punctul corespunztor unui
vector oarecare
*
Z la hiperplanul H este dat de:

( )
* *
0
, ( )
T
d H Z Z = Z U (2.17)
Comparnd relaia (2.14) cu (2.16) rezult c hiperplanul de
separare H trece prin origine i este perpendicular pe vectorul
ponderilor. Prin urmare, n ipoteza c 1 = W , eroarea de clasificare,
definit de relaia (2.15), este:
( ) ( , ) 0
T T T
k k k k k
e d H = = = = Z W Z W Z W Z (2.18)
n stabilirea formei finale a relaiei (2.18) s-a inut seama de
faptul c ( )
k
G Z W , adic 0
T
k
< W Z
n concluzie, scopul algoritmului de antrenare este de a
determina vectorul ponderilor W pentru care suma:
( )
( )
T
G
E

Z
W W Z (2.19)
este minim.
Deoarece ( )
1
1 1
,... ,... ,
T
n
i n n
w w w w T R
+
+
= = W , rezult c:

1
:
n
E R R
+

iar pentru determinarea minimului se folosete o metod de gradient.
Astfel, pornind de la o estimare iniial
0
W a vectorului ponderilor
se genereaz un ir de vectori
1 2
, ,..., ,...
t
W W W folosind relaia de
recuren:

1 t t t +
= + W W W (2.20)
n care

t t
= W h (2.21)
sunt coreciile la pasul t.
n relaia (2.21), specific metodelor de gradient, este o
valoare pozitiv, numit rata sau viteza de nvare, care reprezint
mrimea deplasrii fa de
t
W n direcia dat de
t
h . n cazul unei
probleme de minimizare, direcia de deplasare este direcia de
coborre, adic direcia contrar gradientului. Prin urmare:
( )
( )
t
t
E
E
=

= =

W W
W
h W
W
(2.22)
Avnd n vedere c ( )
( )
k
T
k
G
E

Z
W W Z i innd cont de
regula de derivare a produsului scalar
( )
T

X Y Y
X
, rezult c:
( )
( )
k t t
t k
G
E
E c
=

= = =


Z W W
W
h Z
W
(2.23)
n care
{ }
/ 0
T
t k t k
G = < Z W Z este mulimea vectorilor/punctelor
clasificate eronat de ctre vectorul curent al ponderilor
t
W .
n concluzie, coreciile ponderilor sunt direct proporionale cu
suma vectorilor clasificai eronat.
Practic, la fiecare pas t se analizeaz toate exemplele din
mulimea de antrenare i se modific ponderile doar n cazul
exemplelor clasificate eronat conform urmtoarelor reguli:
(i) dac pentru un exemplu ( ) ,
k k
d X perceptronul se activeaz
cnd ar trebui s rmn inactiv, adic dac 1
k
y = i 0
k
d = ,
atunci se reduc ponderile cu o valoare proporional cu
k
X ;
(ii) dac pentru un exemplu ( ) ,
k k
d X perceptronul nu se
activeaz dei ar trebui s o fac, adic dac 0
k
y = i 1
k
d = ,
atunci se cresc ponderile cu o valoare proporional cu
k
X .
Sintetiznd cele dou reguli rezult urmtoarea expresie general
pentru corecia ponderilor:
( )
t k k k
d y = W X (2.24)
iar relaia (2.20) devine
( )
1 t t k k k
d y
+
= + W W X (2.25)
adic:
( )
, 1 , ,
1,
i t i t k k k i
w w d y x i n
+
= + = (2.26)
respectiv
( )
1, 1 1 , 1 n t t t k k k n
w T T d y x
+ + + +
= = + (2.27)
Observaii:
1. Dac
k k
d y = , adic exemplul a fost clasificat corect, atunci
conform relaiei (2.24) ponderile nu se modific.
2. n teoria dezvoltat
1
1
n
x
+
= i, n conformitate cu relaia (2.27)
pragul se modific adugnd sau scznd pe la valoarea
anterioar. n unele variante ale algoritmului corecia pragului se
face cu o cantitate proporional cu valoarea lui, n sensul stabilit
de regulile anterioare, adic:
( ) ( ) ( )
1
1
t t k k t k k t
T T d y T d y T
+
= + = + (2.28)
3. Viteza de nvare ( ) 0,1 . O valoare prea mare a lui poate
conduce la omiterea unui vector de ponderi corect, n timp ce o
valoare prea mic poate mri excesiv timpul de calcul.
4. Ciclul de operaii care vizeaz parcurgerea tuturor exemplelor n
vederea modificrii ponderilor poart numele de epoc.
5. n cazul n care mulimea de antrenare este constituit dintr-un
numr de exemple liniar separabile, algoritmul de antrenare al
perceptronului este convergent ntr-un anumit numr de epoci,
adic va identifica un vector al ponderilor care clasific corect
toate exemplele.

Algoritmul de antrenare a perceptronului
Pasul 1: Iniializeaz ponderile (
,0 i
w ) i valoarea pragului de activare
0
T la momentul 0 t = cu valori aleatoare mici, de obicei n
intervalul [-0,1; 0,1].
Pasul 2: Selecteaz valoarea vitezei de nvare ( ) 0,1
Pasul 3: Testeaz convergena.
DAC
toate exemplele au fost clasificate corect, adic
1,
k k
y d k m = = , respectiv Contor_Eroare=0
ATUNCI
Stop
ALTFEL
Seteaz Contor_Eroare=0 i trece la pasul 4
Pasul 4: Pentru fiecare exemplu 1, 2,..., k m = repet
4.1. Calculeaz ieirea real generat de perceptron
, ,
1
m
T
k t t k i t i t
i
y w x T
=
= =

W X
4.2. Compar
, k t
y cu
k
d
DAC
, k t k
y d
ATUNCI
Incrementeaz Contor_Eroare i modific ponderile,
respectiv pragul conform relaiilor:
( )
, 1 , ,
1,
i t i t k k k i
w w d y x i n
+
= + =
( ) ( ) ( )
1
1
t t k k t k k t
T T d y T d y T
+
= + = +
Pasul 5: Repet de la pasul 3

Exemplu
Se consider perceptronul cu trei intrri i setul de 5 exemple
prezentate n figura 2.6. Pentru acest perceptron se aleg aleator
valorile iniiale ale ponderilor:
1,0
0,1 w = ;
2,0
0,1 w = ;
3,0
0,1 w = , valoarea
de prag
0
0, 02 T = i valoarea vitezei de nvare 0, 5 = .

0,1

0,1

0,2

ie ire
0,2
0,4
0,3
0,5
0,1
0,4
0,3
0,5
0,1
0,3
0,4
0,5
0
0
1
1
1
x
1
x
1
w
1
w
2
w
3
x
2
x
2
x
3
x
3
T
Ie ire


Fig. 2.6. Exemplu de perceptron i mulimea de antrenare.

Pentru exemplul 1 ieirea perceptronului se determin astfel:

( ) ( )
3
,0 0
1
1
0,1 0,1 0,1 0,1 0,1 0, 2 0, 02 0, 02
0, 02 1
i i
i
net w x T
y f net f
=
= = + + =
= = =


Deoarece ieirea furnizat de perceptron
1
1 y = , este diferit de
cea dorit
1
1 d = , exemplul este clasificat greit, iar ponderile vor fi
modificate conform relaiilor:

[ ]
[ ]
[ ]
[ ]
1,1 1,0 1 1 1
2,1 2,0 1 1 2
3,1 3,0 1 1 3
1 0 1 1 0
0,1 0, 05 0, 05
0,1 0, 05 0, 05
0, 01 0, 01 0
0, 02 0, 01 0, 01
w w d y x
w w d y x
w w d y x
T T d y T
= + = =
= + = =
= + = =
= + = =

Pentru exemplul 2 ieirea perceptronului este:
( )
3
2 ,1 1
1
0, 005 1
i i
i
y f w x T f
=

= = =


Deoarece aceasta este diferit de cea dorit
2
0 d = , exemplul
este clasificat greit i, prin urmare, ponderile vor fi modificate
rezultnd:

( ) [ ]
( ) [ ]
( ) [ ]
[ ]
1,2 1,1 2 2 1
2,2 2,1 2 2 2
3,2 3,2 2 2 3
2 1 2 2 1
1 0, 05 0,1 0, 05
1 0, 05 0, 05 0
1 0 0, 05 0, 05
0, 01 0, 005 0.005
w w d y x
w w d y x
w w d y x
T T d y T
= + = =
= + = =
= + = =
= + = =

n mod similar, pentru exemplul 3 ieirea perceptronului este:
( )
3
3 ,2 2
1
0, 04 0
i i
i
y f w x T f
=

= = =


Deoarece aceasta este diferit ieirea dorit
3
1 d = , exemplul
este clasificat greit, iar ponderile vor fi modificate astfel:

( ) [ ]
( ) [ ]
( ) [ ]
[ ]
1,3 1,2 3 3 1
2,3 2,2 3 3 2
3,3 3,2 3 3 3
3 2 3 3 2
2 0, 05 0.2 0,15
2 0 0, 2 0, 2
2 0, 05 0,15 0,1
0, 005 0.0025 0, 0075
w w d y x
w w d y x
w w d y x
T T d y T
= + = + =
= + = + =
= + = + =
= + = + =

Pentru exemplul 4, ieirea perceptronului este:
( )
3
4 ,3 3
1
0,1375 1
i i
i
y f w x T f
=

= = =


Deoarece aceasta este identic cu cea dorit
4
1 d = , exemplul
este clasificat corect, iar ponderile nu se modific. Prin urmare:

[ ]
[ ]
[ ]
[ ]
1,4 1,3 4 4 1 1,3
2,4 2,3 4 4 2 2,3
3,4 3,3 4 4 3 3,3
4 3 4 4 3 3
0,15
0, 2
0,1
0, 0075
w w d y x w
w w d y x w
w w d y x w
T T d y T T
= + = =
= + = =
= + = =
= + = =

Pentru exemplul 5,ieirea perceptronului rezult:
( )
3
5 ,4 4
1
0, 2175 1
i i
i
y f w x T f
=

= = =


ntruct aceasta este identic cu cea dorit
5
1 d = , exemplul este
clasificat corect, iar ponderile nu se modific. Prin urmare:

[ ]
[ ]
[ ]
[ ]
1,5 1,4 4 4 1 1,4
2,5 2,4 4 4 2 2,4
3,5 3,4 4 4 3 3,4
5 4 4 4 4 4
0,15
0, 2
0,1
0, 0075
w w d y x w
w w d y x w
w w d y x w
T T d y T T
= + = =
= + = =
= + = =
= + = =

n acest stadiu s-a ncheiat o epoc dar, pentru c nu toate
exemplele au fost clasificate corect, se reia procesul de modificare al
ponderilor, adic se efectueaz un nou ciclu. Procesul se repet pn
cnd toate exemple sunt clasificate corect.

Limitele perceptronului

n numeroase probleme concrete de clasificare intervin clase de
obiecte care nu sunt liniar separabile. Prin urmare, utilizarea
perceptronului ca atare este sever limitat. O analiz a limitrilor
perceptronului a fost efectuat de cercettorii Minsky i Papert n
1969. Ei furnizeaz celebrul exemplu care evideniaz limitrile
perceptronului i anume problema nvrii tabelei de adevr a
funciei logice XOR (tabelul 1).
Tabelul 1. Funcia logic XOR

1 2
0 0 0
0 1 1
1 0 1
1 1 0
x x XOR

Considernd un perceptron cu dou intrri (fig. 2.7) i funcia de
activare standard

1 daca - 0
0 daca - 0
net T
y
net T

=

<

(2.28)
algoritmul de antrenare nu va putea determina valorile
1
w ,
2
w i T
astfel nct ieirea perceptronului s furnizeze valorile funciei XOR.

w
1
x
1
x
2
w
2
T
y


Fig. 2.7. Structura perceptronului cu dou intrri

ntr-adevr, reprezentnd n plan cele patru puncte
corespunztoare celor patru vectori de intrare posibili ai
perceptronului se observ c nu exist nici o dreapt avnd ecuaia:

1 1 2 2
0 w x w x T + = (2.29)
care s separe cele dou clase de obiecte (cele a cror ieire este 1,
respectiv cele care au ieirea 0).
Pentru a putea s rezolve problema, reeaua neuronal artificial
ar trebui s realizeze separarea planului n trei regiuni de decizie (fig.
2.8).
(0,0)
(0,1)
(1,1)
(1,1)
R
ieirea 1
1
R
2
ieirea 0
R
2
ieirea 0
x
1
x
2

Fig. 2.8. Separarea planului n regiuni de decizie multipl
O astfel de partiionare poate fi realizat folosind o reea cu mai
multe straturi denumit perceptronul multistrat sau multi layer
perceptron - MLP n terminologia englezeasc.

2.4. Arhitecturi ale RNA

Cele prezentate n paragraful precedent evideniaz faptul c
limitele perceptronului nu sunt datorate algoritmului de instruire, ci
structurii foarte simple a acestuia, care asigur doar mprirea
spaiului intrrilor n dou semiplane. Prin urmare, utilizarea RNA n
rezolvarea unor probleme complexe necesit creterea complexitii
topologiei a acestora.
n general RNA sunt formate din neuroni (structuri elementare
de procesare) legai prin conexiuni sinaptice (cile de transmitere a
informaiei ntre neuroni caracterizate de anumite ponderi) organizai
pe straturi succesive. Ele proiecteaz forme de intrare similare n
forme de ieire similare ceea ce le permite s fac generalizri
rezonabile i s prelucreze acceptabil forme care nu le-au mai fost
prezentate. n figura 2.9 este prezentat structura tipic a unei RNA
cu patru straturi.
Straturi ascunse
Stratul de
intrare
Intr r i
Ieiri
Stratul de
ieire
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
. .
.
.
.
.
x
1
y
1
y
k
x
i
x
n

Fig. 2.9. Arhitectura tipic a unei RNA.
Primul strat, numit stratul de intrare, este format din neuroni
liniari care nu realizeaz nici un proces de calcul. Rolul lui este acela
de a dirija componentele
1
,..., ,...,
i n
x x x ale vectorului de intrare X
ctre neuronii de calcul din primul strat.
Ultimul strat de prelucrare este stratul de ieire i poate fi
constituit din unul sau mai muli neuroni, n general liniari, care
furnizeaz rspunsul corespunztor intrrii curente X.
Topologia unei reele neuronale poate cuprinde unul sau mai
mute straturi intermediare, numite straturi ascunse sau uniti de
reprezentare intern. Acestea sunt constituite, n general, din neuroni
neliniari (neuroni sigmoidali) care realizeaz o reprezentare intern
ce poate fi considerat o memorie asociativ.
Legturile dintre straturile RNA se realizeaz prin conexiuni
sinaptice ponderate. n cazul structurii prezentat n fig. 2.9 fiecare
neuron dintr-un strat este legat cu toi neuronii din stratul urmtor i
nu exist legturi ntre straturile neconsecutive. O astfel de structur
se numete complet conectat i corespunde clasei de RNA numit
perceptron multistrat sau Multi Layer Perceptron MLP, n
terminologia englezeasc.
Structura RNA este descris complet de matricea ponderilor
conexiunilor dintre dou straturi consecutive W, ale crei elemente
, j i
w indic influena pe care ieirea neuronului i din stratul anterior o
are asupra activrii neuronului j din stratul urmtor. Ca i in cazul
perceptronului clasic, ponderile pozitive au caracter excitatoriu,
ponderile negative au caracter inhibitoriu, iar ponderile nule indic
absena conexiunii ntre cei doi neuroni. Evident, cu ct valoarea
absolut a ponderii
, j i
w este mai mare, cu att influena neuronului i
asupra neuronului j este mai pregnant.
Ansamblul ponderilor constituie memoria RNA, adic parametrii
ce caracterizeaz, ntr-o manier absolut, procesul modelat de
reeaua neuronal artificial. Antrenarea reelei necesit o strategie
de ajustare a ponderilor, respectiv un algoritm de nvare n cadrul
cruia se prezint reelei neuronale un numr de exemple formate din
perechi (intrare ieire dorit), ale cror atribute sunt cunoscute i
reprezentative pentru procesul modelat. Acestea formeaz mulimea
de antrenare.
Structura prezentat n figura 2.9, prezint urmtoarele
proprieti, specifice unei largi categorii de reele neuronale:
(i) fiecare neuron acioneaz independent de ceilali neuroni din
acelai strat; ieirea unui neuron depinde numai de semnalele ce
se aplic pe conexiunile sale sinaptice de intrare;
(ii) activarea fiecrui neuron depinde numai de informaii cu
caracter local; informaia ce este prelucrat de neuron provine
numai de pe conexiunile adiacente, nefiind necesar
cunoaterea strilor neuronilor care nu au legturi directe cu
neuronul considerat;
(iii) numrul mare de conexiuni existente asigur un grad ridicat de
rezervare i uureaz reprezentarea distribuit a informaiei.
Primele dou proprieti permit funcionarea eficient a RNA n
paralel, iar ultima proprietate le confer o sensibilitate redus fa
de posibilele perturbaii, respectiv caliti de generalizare greu de
obinut cu sistemele clasice de calcul.
Clasificarea reelelor neuronale poate fi fcut pe baza mai
multor criterii care in cont de tipul parametrilor de intrare, modul de
nvare, existena legturilor de reacie invers, numrul de straturi
etc.
Clasificarea RNA n funcie de tipul parametrilor de intrare
n funcie de tipul parametrilor de intrare reelele neuronale sunt:
reele cu intrri binare;
reele cu intrri reale; n acest caz, valorile parametrilor de
intrare trebuie mapate (scalate) n domeniul [-1, 1].
Clasificarea reelelor neuronale pe baza modului de nvare
Legea de nvare a unei RNA este o relaie care specific modul
n care se modific toate sau numai o parte din ponderile unui neuron
ca rspuns la semnalele de intrare i valorile furnizate de funcia de
transfer. Aceast relaie permite reelei s nvee, adic s se adapteze
la exemplele furnizate, organizndu-i informaia privind topologia i
ponderile care se modific n mod dinamic pe parcursul procesului
de nvare.
n funcie de modul de nvare se disting dou tipuri de reele
neuronale: reele neuronale artificiale cu nvare supervizat i
reele neuronale artificiale cu nvare nesupervizat.
n cazul instruirii supervizate reeaua primete att datele
(vectorii) de intrare dintr-un set sau mulime de instruire, ct i
datele de ieire corespunztoare (rspunsuri corecte sau rspunsuri
dorite). Dup fiecare exemplu, reeaua compar propria-i ieire cu
rspunsurile corecte, corecteaz diferenele i ncearc din nou,
procednd n mod iterativ pn cnd eroarea rspunsului de ieire
ajunge sub nivelul impus. Metoda de antrenare supervizat mai
poart denumirea de nvare neadaptiv.
n cazul instruirii nesupervizate, reeaua dispune de datele de
intrare, dar nu mai primete nici o informaie privind ieirea corect.
n schimb, dup fiecare ncercare i se acord o not (un scor de
performan) care cuantific corectitudinea rezultatului. Reeaua se
organizeaz numai n funcie de intrare, deci se autoorganizeaz,
grupnd setul de vectori de antrenare n zone (clustere) bazate pe un
concept de similitudine. Din aceast cauz, instruirea nesupervizat
mai poart denumirea de autoorganizare sau nvare adaptiv.
Se menioneaz faptul c nvarea nesupervizat este calitativ
superioar nvrii supervizate.
Pe baza celor dou criterii menionate tipul parametrilor de
intrare i modul de nvare se poate realiza clasificarea prezentat n
figura 2.10. n care se evideniaz ase dintre modelele RNA mai des
ntlnite.
Re ea
Hopfield

Re ea
Hamming

Clasificator
Carpenter-
Grossberg
Perceptron
Perceptron
multinivel
Re ele
Kohonen

nv are
supervizat

nv are
nesupervi-
zat

nv are
nesupervi-
zat

nv are
supervizat

Intr ri
binare

Intr ri
reale

Re ele neuronale artificiale



Fig. 2.10. Clasificarea RNA.
Reelele cu nvare supervizat, cum ar fi reeaua Hopfield i
perceptronii sunt utilizate mai ales ca memorii asociative sau ca
structuri de clasificare.
Reelele cu nvare nesupervizat, cum ar fi hrile cu auto-
organizare Kohonen, sunt folosite mai ales pentru formarea
configuraiilor de memorii asociative.
Aceast clasificare este departe de a indica toate modelele
neuronale existente, clasificarea fcndu-se i pe baza altor criterii.
Clasificarea RNA pe baza legturilor de reacie invers
Un al treilea criteriu de clasificare se refer la existena sau
absena legturilor de reacie invers ntre neuronii din diversele
straturi ale reelei. Astfel, se disting patru tipuri de RNA:
RNA nebuclate (reele feedforward). n asemenea reele
informaia circul ntr-un singur sens, de la intrare ctre ieire. La
un moment dat, starea unui neuron depinde numai de starea din
acelai moment a neuronilor de la care primete semnale (fig. 2.11,
a). RNA nebuclate sunt structuri statice, folosite cu precdere pentru
rezolvarea unor probleme de clasificare sau de identificare a
proceselor statice. Din aceast categorie fac parte reelele de tipul
perceptron multistrat, a crei arhitectur a fost prezentat anterior.
j
k
j
k
a.
b.

Fig. 2.11. Clasificarea reelelor neuronale pe baza
existenei/inexistenei reaciei inverse:
a RNA nebuclate (feedforward); b RNA buclate (feedback).
RNA buclate (reele feedback) sunt acele reele ale cror
grafuri de conexiuni conin cicluri; circulaia informaiei are loc de
aceast dat n ambele sensuri (intrare-ieire, respectiv ieire-intrare),
astfel nct starea neuronilor la un moment dat este determinat de
starea curent i de starea la momentul anterior (fig. 2.11, b). Prin
urmare, RNA buclate au proprietile unor sisteme dinamice; ele sunt
utilizate ca memorii asociative i pentru identificarea sau controlul
sistemelor dinamice. Un exemplu de reea buclat l constituie
reelele Hopfield.
RNA de tip mixt este o reea ce folosete att legturi
feedforward ct i legturi feedback. O reea hibrid, care folosete
att legturi feedforward ct i legturi feedback este reeaua
Hamming .
RNA de tip celular (plas) constau din neuroni artificiali
numii celule, organizai ntr-o plas bidimensional, neuroni care
comunic direct doar cu ali neuroni aflai n imediata vecintate a
lor. Neuronii neconectai se pot influena unul pe cellalt indirect din
cauza propagrii semnalelor n timpul procesului de antrenare. Un
exemplu de astfel de reea este reeaua Kohonen.
Clasificarea RNA pe baza numrului de straturi ascunse
Un alt criteriu de clasificare a RNA are n vedere numrul de
neuroni din reea. Din acest punct de vedere se disting:
RNA cu un singur strat. n acest caz stratul unic joac rol
dublu intrare-ieire. Totodat, absena altor straturi impune ca aceste
RNA s aib o topologie buclat. n aceast categorie se nscriu
reelele Hopfield, precum i variante ale acestora, care se deosebesc
n funcie de modul de conectare a neuronilor. Reele cu un singur
strat sunt folosite pentru completarea modelelor, filtrarea unor
semnale sau rezolvarea unor probleme de optimizare;
RNA cu dou straturi. n acest caz, primul strat este stratul de
intrare, iar al doilea cel de ieire, neexistnd un strat ascuns. Reelele
din aceast categorie sunt folosite cu precdere ca reele
clasificatoare. n funcie de topologia lor, se disting RNA
feedforward (fig. 2.12) i RNA hibride feedforward-feedback (fig.
2.13).
y
1
y
2
y
n
x
2
x
1
x
n

x
2
y
2
x
1 y
1
x
n
y
n
Fig. 2.12. RNA cu dou straturi de
tip feedforward.
Fig. 2.13. RNA cu dou straturi de
tip hibrid.
RNA multistrat. Reelele din aceast categorie pot avea, n
principiu, un numr nelimitat de straturi. Toate straturile, cu
excepia primului i ultimului, sunt straturi ascunse. Structura
general a unei asemenea RNA a fost prezentat n figura 2.9.
Majoritatea RNA multistrat utilizate n diverse aplicaii practice fac
parte din categoria reelelor feedforward (nebuclate), iar rspndirea
cea mai mare o are perceptronul multistrat. Principalele aplicaii ale
acestui tip de reea au n vedere probleme de clasificare precum i de
aproximare euristic a unor funcii matematice.


2.5. Perceptronul multistrat MLP

2.5.1. Consideraii generale privind antrenarea MLP

Se consider o reea neuronal artificial de tip MLP cu un
singur strat ascuns (fig. 2.14) i se fac notaiile:
i
n - numrul neuronilor de pe stratul de intrare;
j
n - numrul neuronilor de pe stratul ascuns;
k
n - numrul neuronilor de pe stratul de ieire;
W - matricea ponderilor neuronilor de pe stratul ascuns ale crei
elemente
, j i
w sunt ponderile conexiunilor sinaptice dintre
neuronul j de pe stratul ascuns i neuronul i de pe stratul de
intrare;

1
1
2
i
j
1
n
j
n
k
n
i
x
1
y
1
x
i
y
nk
x
ni
W
X
y f
k k
= V Z ( )
T
z g
j j
= W X ( )
T
V
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Stratul
de intrare
Stratul
de ieire
Stratul ascuns


Fig. 2. 14. Reea neuronal artificial cu un singur strat ascuns

V - matricea ponderilor neuronilor de pe stratul de ieire ale crei
elemente
, k j
v sunt ponderile conexiunilor sinaptice dintre
neuronul k de pe stratul de ieire i neuronul j de pe stratul
ascuns;
e
n - numrul de exemple, adic numrul de perechi
( ) ,
m m
X d care alctuiesc mulimea de antrenare;
( ) ( )
( )
m m
j j
z g net = - ieirea neuronului j de pe stratul ascuns cnd la
intrare se prezint exemplul m;
: g R R - funcia de activare a neuronilor de pe stratul ascuns;

( ) ( )
( )
m m
k k
y f net = - ieirea neuronului k de pe stratul de ieire cnd la
intrare se prezint exemplul m;
: f R R - funcia de activare a neuronilor de pe stratul de ieire;

O reea neuronal de tip MLP poate fi antrenat pentru
aproximarea unei funcii :
i k
n n
h R R sau pentru asocierea
(clasificarea) formelor de intrare.
Procesul de antrenare const n modificarea iterativ a ponderilor
i pragurilor neuronilor de pe straturile de prelucrare n scopul
minimizrii funciei de performan a reelei. Aceast funcie poate fi:
abaterea ptratic parial:
( )
( )
2
( ) ( )
1
,
k
n
m m
k k
k
E d y
=
=

W V (2.30)
abaterea ptratic medie parial:
( )
( )
2
( ) ( )
1
1
,
k
n
m m
k k
k
k
E d y
n
=
=

W V (2.31)
abaterea ptratic total:
( )
( )
2
( ) ( )
1 1
,
e k
n n
m m
k k
m k
E d y
= =
=

W V (2.32)
abaterea ptratic medie total:
( )
( )
2
( ) ( )
1 1
1
,
e k
n n
m m
k k
e k
m k
E d y
n n
= =
=

W V (2.33)
n general funcia de performan utilizat este multiplicat, din
considerente de simplificare a expresiilor de calcul, cu factorul
1
2
.
Implementarea algoritmului de antrenare se poate efectua n
dou moduri:
(i) modul incremental (incremental mode) n care coreciile
ponderilor se efectueaz dup fiecare exemplu, iar funcia de
performan este abaterea ptratic parial sau abaterea
ptratic medie parial;
(ii) modul global (batch mode) n care coreciile ponderilor se
efectueaz dup ce toate exemplele din mulimea de
antrenare au fost prezentate reelei, adic la sfritul unei
epoci, iar funcia de performan este abaterea ptratic
total sau abaterea ptratic medie total.
Teoretic, determinarea matricelor ponderilor
*
W i
*
V s-ar
putea efectua impunnd condiiile:
0 0, 1, , 1, , 1,
i j k
ji kj
E E
i i n j n k n
w v

= = = = =

(2.34)
i rezolvnd sistemele de ecuaii rezultate.
Din punct de vedere practic o astfel de abordare nu este fezabil
deoarece relaiile (2.34) sunt ndeplinite n toate punctele de extrem
ale hipersuprafeei definit de funcia de performan iar obinerea
punctului de minim global al acesteia este dificil de realizat n mod
direct. Din acest motiv, algoritmele de antrenare a RNA de tip MLP
folosesc tehnici de optimizare avnd ca obiectiv minimizarea funciei
de performan.

2.5.2. Metoda gradientului descendent

Cea mai simpl metod de determinare a unui punct de extrem
local
*
x pentru funcia ( ) y f x = const n anularea derivatei
( )
'
0
df
f x
dx
= = (2.35)
n cazul unei funcii neliniare, cu o form complex, rezolvarea
direct a ecuaiei (2.35) nu este posibil i din acest motiv se recurge
la o metod iterativ. Astfel, pentru a determina minimul se pornete
de la o aproximaie iniial
0
x i se genereaz un ir de aproximaii
succesive folosind relaia de recuren:
( )
'
1
t
t t t t
x x
df
x x x f x
dx

+
=
= = (2.36)
care definete aa numita metod a gradientului descendent (fig. 2.15).
n aceast relaie este un parametru pozitiv utilizat pentru a
amplifica sau atenua deplasarea n lungul direciei ( )
'
df
f x
dx
= . n
cazul unor valori mari ale parametrului punctul de minim poate fi
depit, iar n cazul unor valori prea mici ale acestuia apropierea de
punctul de minim cutat poate deveni prea lent.


x
x
t
x
t+1
y f x = ( )
f x
'
( )
t
- f x
'
( )
t
x
*

Fig. 2.15. Principiul metodei gradientului descendent
n cazul unei funcii de mai multe variabile cum este i funcia
de evaluare a performanei unei RNA (abaterea ptratic parial sau
total) relaia de recuren (2.36) se aduce la forma vectorial
nlocuind derivata cu gradientul.
( )
1 t t t
f
+
= X X X (2.36,a)
Rezult, astfel, urmtoarele relaii, specifice metodei
gradientului descendent, pentru determinarea ponderilor
conexiunilor sinaptice ale neuronilor de pe stratul ascuns:
( )
1 t t t
E
+
= W W W (2.37,a)
respectiv ale celor de pe stratul de ieire:
( )
1 t t t
E
+
= V V V (2.37,b)
n care este viteza de nvare.

2.5.3. Algoritmul backpropagation

2.5.3.1. Regula delta generalizat

Perceptronii multistrat cu mai multe ieiri i funcii de transfer
sigmoidale sau liniare se mai numesc i reele backpropagation.
Denumirea provine de la algoritmul de nvare utilizat de aceste
structuri i anume algoritmul backpropagation BP sau algoritmul
de propagare napoi a erorii, respectiv algoritmul retropropagrii
introdus de Rumelhart i membrii grupului Parallel Distributed
Processing PDP n 1986. El este primul algoritm propus pentru
antrenarea unei configuraii de tip MLP i a fost considerat un mare
succes care a contribuit la relansarea calculului neuronal n IA.
Algoritmul BP urmrete minimizarea funciei de performan
(eroarea ptratic parial sau total) printr-o metod de gradient. Din
acest motiv funciile de activare sau transfer ale neuronilor trebuie s
fie continue i derivabile pe tot domeniul de definiie, cerine
satisfcute de funciile sigmoidale i funcia liniar.
La fel ca i n cazul perceptronilor, generarea unei reele MLP
cuprinde dou etape:
etapa de nvare n care, pe baza mulimii de antrenare, se
sintetizeaz ponderile i valorile pragurilor de activare ale
neuronilor;
etapa de testare, n care reeaua este utilizat pentru a clasifica
mulimi de forme necunoscute, dar similare celor din mulimea de
antrenare.
n cadrul procesului de nvare ponderile se modific conform
urmtoarei reguli, numit regula delta generalizat:
pentru un exemplu ( ) , , 1,
m m e
m n = X d din mulimea de
antrenare corecia unei ponderi a unui neuron oarecare j
conectat cu neuronul i din stratul precedent este proporional
cu un termen de eroare
( ) m
j
asociat neuronului j, adic:

( ) ( ) ( ) m m m
ji j i
w y = (2.38)
n care: este rata de nvare;

( ) m
i
y - ieirea neuronului i din stratul precedent.
n cazul unei structuri cu un strat ascuns (fig. 2.14) aplicarea
regulii delta se face n funcie de poziia neuronului i este detaliat
n cele ce urmeaz pentru modul incremental (exemplu cu exemplu)
de antrenament.
2.5.3.2. Corecia ponderilor neuronilor de pe stratul de ieire
Dac neuronul se afl n stratul de ieire (fig. 2.15,a) termenul
de eroare este proporional cu diferena dintre valoarea dorit i cea
furnizat de reeaua neuronal i se calculeaz cu relaia:

( ) ( )
( ) ( ) ( ) ( ) ' m m m m
k k k k
d y f net = (2.39)
iar corecia ponderii este:

( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) ' m m m m m m m
j j kj k k k k
v z d y f net z = = (2.40)
n care:
( )
( ) ( ) m m
k k
d y este diferena dintre valoarea dorit
( ) m
k
d i
cea furnizat de reeaua neuronal
( ) m
k
y pentru exemplul
m;

( )
( ) ' m
k
f net derivata funciei de activare a neuronului k
n raport cu intrarea net a acestuia
( ) m
k
net corespunztoare
exemplului m considerat.
Pentru stabilirea relaiilor (2.39) i (2.40) se are n vedere c
funcia de performan este abaterea ptratic parial:
( )
( ) ( )
2 2
( ) ( ) ( )
1 1
1 1
,
2 2
k k
n n
m m m
k k k
k k
E e d y
= =
= =

W V (2.41)
iar, conform ecuaiilor de evoluie ale neuronului

( )
( ) ( ) ( )
1
( ) ( )
j
n
m m m
j k kj
j
m m
k k
net v z
y f net
=

(2.42)
Conform metodei gradientului descendent corecia ponderii
( ) m
kj
v este

( )
( )
m
kj
m
kj
E
v
v

(2.43)
n care:

( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
m m m
k k k
m m m m m
kj k k k kj
e y net
E E
v e y net v


=

(2.44)
innd cont de relaiile (2.41) i (2.42) rezult:

( ) ( ) ( )
( )
m m m
k k k
m
k
E
e d y
e

= =

(2.45)

( )
( )
1
m
k
m
k
e
y

(2.46)

( )
( )
( ) '
( )
m
m
k
k
m
k
y
f net
net

(2.47)

( )
( )
( )
m
m
k
j
m
kj
net
z
v

(2.48)
n final, innd cont de relaiile (2.44) (2.48), din relaia
(2.43) se obine relaia (2.40), respectiv expresia (2.39) a termenului
de eroare
( ) m
k
.
2.5.3.3. Corecia ponderilor neuronilor de pe stratul ascuns
Dac neuronul j se afl n stratul ascuns (fig. 2.15,b) fiind legat
prin conexiunile sinaptice
kj
v cu neuronii din stratul de ieire i prin
conexiunile sinaptice
ji
w cu neuronii din stratul de intrare, termenul
de eroare este proporional cu suma ponderat a termenilor de eroare
asociai neuronilor de ieire i se calculeaz cu relaia:

( )
( ) ( ) ( ) ( ) '
1
k
n
m m m m
j j kj k
k
v g net
=

=

(2.49)
iar corecia ponderii este:

( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) '
1
k
n
m m m m m m m
ji j i j i kj k
k
w x v g net x
=

= =

(2.50)
n care
( ) m
k
se determin cu relaia (2.39).
Pentru deducerea relaiilor (2.49) i (2.50) se au n vedere:
ecuaiile neuronilor de pe stratul de ieire

( ) ( ) ( )
1
( ) ( )
1,
( )
j
n
m m m
j k kj
j k
m m
k k
net v z
k n
y f net
=

(2.51)
ecuaiile neuronilor de pe stratul ascuns

( ) ( ) ( )
1
( ) ( )
1,
( )
i
n
m m m
j ji i
i j
m m
i j
net w x
j n
z g net
=

(2.52)
j
k
z
j
v
kj
y
k ; d
k
;
k
( ) m
( ) m ( ) m ( ) m

i
k
j
x
i
w
ji
v
kj
z
j
y
k ; d
k
;
j
;
k
( ) m
( ) m
( ) m ( ) m
( ) m
( ) m

a) b)
Fig. 2.15. Aplicarea regulii delta n funcie de poziia neuronului:
a) neuronul se afl pe stratul de ieire
b) neuronul se afl pe stratul ascuns

Conform metodei gradientului descendent

( )
( )
m
ji
m
ji
E
w
w

(2.53)
Avnd n vedere relaiile (2.51) i (2.52) se constat c fiecare
termen
( ) ( ) ( ) m m m
k k k
e d y = al funciei de performan (2.41) depinde
de ponderea
( ) m
ji
w a conexiunii sinaptice (j,i) prin intermediul
termenului
( ) m
k
y i prin urmare:

( ) ( )
( ) ( )
( ) ( ) ( ) ( )
1
( )
k
m m n
m m
k k
k k
m m m m
k
ji ji ji k
y y
E E
d y
w y w w
=


= =

(2.54)
Pe de alt parte:

( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
m m
m m m
j j
k k k
m m m m m
ji j j ji k
z net
y y net
w net z net w


=

(2.55)
innd cont de relaiile (2.51) i (2.52) rezult:

( )
( ) '
( )
( )
m
m
k
k
m
k
y
f net
net

(2.56)

( )
( )
( )
m
m
k
kj
m
j
net
v
z

(2.57)

( )
( )
( ) '
( )
m
j m
j
m
j
z
g net
net

(2.58)

( )
( )
( )
m
j m
i
m
ji
net
x
w

(2.59)
Prin urmare:

( )
( )
( ) ( ) ( ) ( ) ' '
( )
( )
m
m m m m
k
j i k kj
m
ji
y
f net v g net x
w

(2.60)
iar

( )
( ) ( ) ( ) ( ) ( ) ( ) ' '
( )
1
( ) ( )
k
n
m m m m m m
j i k k k kj
m
k
ji
E
d y f net v g net x
w
=


(2.61)
innd cont de relaia (2.39) i de faptul c n relaia (2.61)
suma se efectueaz dup k, rezult:

( )
( ) ( ) ( ) ( ) '
( )
1
k
n
m m m m
j i kj k
m
k
ji
E
v g net x
w
=

(2.62)
nlocuind relaia (2.62) n (2.53) rezult relaia (2.50) de corecie
a ponderilor, respectiv expresia (2.49) a termenului de eroare.
Dup cum se poate observa, erorile
( )
( ) ( ) m m
k k
d y , identificate
la ieire, sunt transmise napoi ctre intrare pentru a corecta
ponderile sinaptice dintre straturile succesive cu valori proporionale
cu aceste erori.
Regulile enunate se refer numai la ponderile neuronale fr a
se specifica nimic despre pragurile ce se pot asocia fiecrui neuron
din straturile de prelucrare. Aceast formalizare nu exclude utilizarea
pragurilor care pot fi tratate ca ponderi ale conexiunilor cu un neuron
din stratul precedent avnd ieirea 1.

2.5.3.4. Algoritmul backpropagation cu moment
Sintetiznd cele prezentate n paragrafele precedente, rezult c
algoritmul backpropagation de antrenare a reelelor MLP cuprinde
dou etape principale:
Etapa I parcurgerea direct a reelei, de la intrri spre ieiri, n care
se determin ieirile generate de reea pentru fiecare
exemplu din mulimea de antrenare;
Etapa II parcurgerea napoi a reelei, de la ieiri spre intrri, n care
ieirile calculate n prima etap se compar cu cele dorite
pentru fiecare exemplu i se determin eroarea care, printr-
un proces de propagare napoi, este utilizat la actualizarea
ponderilor.
Procesul de calcul este iterativ iar coreciile ponderilor unui
neuron j conectat cu un neuron i de pe stratul precedent la fiecare
moment t al acestui proces sunt determinate cu relaia:
( ) ( ) ( )
ji j i
w t t y t = (2.63)
n care factorul de corecie/eroare ( )
j
t se calculeaz n funcie de
stratul pe care se afl neuronul. n cazul n care ponderile se
corecteaz la sfritul unei epoci (modul batch de antrenament)
factorii de corecie sunt cei obinui prin cumularea factorilor de
eroare afereni fiecrui exemplu n parte.
Valoarea vitezei de nvare trebuie s fie, pe de o parte,
suficient de mic pentru a asigura convergena algoritmului, iar pe
de alt parte, suficient de mare pentru a obine un proces de nvare
rapid. O metod simpl i eficient pentru a mbunti viteza de
convergen a algoritmului backpropagation, fr a afecta stabilitatea
procesului de antrenare, o constituie introducerea n regula de
corectare a ponderilor a unui termen suplimentar, denumit moment,
proporional cu valoarea coreciei la pasul anterior, adic:
( ) ( ) ( ) ( ) 1
ji j i ji
w t t y t w t = + (2.63)
n aceste condiii, corecia unei ponderii la pasul curent t
c
poate
fi scris sub forma unei serii de timp
( ) ( ) ( )
0 0
( )
( )
c c
c c
t t
t t t t
ji c j i
ji
t t
E t
w t t y t
w t

= =

= =


(2.64)
Analiznd relaia (2.64) se constat c dac derivatele pariale
ale funciei de performan au acelai semn n iteraii consecutive,
atunci ( )
ji c
w t crete n amplitudine, iar ( )
ji c
w t se va modifica cu
o valoare din ce n ce mai mare. Prin urmare, introducerea
termenului moment contribuie la accelerarea procesului de nvare
n cazul n care hipersuprafaa corespunztoare funciei de
performan este monoton descresctoare.
Invers, dac derivatele pariale au semne diferite n iteraii
consecutive, atunci ( )
ji c
w t scade n amplitudine, iar ( )
ji c
w t se
va modifica cu o valoare din ce n ce mai mic.
n concluzie, introducerea termenului moment n legea de
corecie a ponderilor are un efect de stabilizare a procesului
oscilatoriu de nvare. El poate fi interpretat ca o inerie introdus n
modificare ponderilor care permite evitarea blocrii RNA n minime
locale ale hipersuprafeei funciei de performan.

2.5.4. Algoritmi rapizi pentru antrenarea RNA de tip MLP

Algoritmul backpropagation prezint o serie de dezavantaje
printre care se menioneaz convergena relativ lent i dependena
acesteia de o serie de parametrii cum ar fi viteza de nvare, tipul
funciilor de activare, valorile iniiale ale pragurilor i ponderilor etc.
Din acest motiv, n literatura de specialitate au fost dezvoltai i ali
algoritmi de antrenare a MLP care ofer o alternativ la algoritmul
BP. Acetia au o rat a convergenei spre valori optime ale
ponderilor net superioar (converg ntr-un numr redus de epoci) dar
implic o complexitate computaional mult mai mare.
Trebuie subliniat faptul c n cazul unor RNA de dimensiuni
mari convergena ntr-un numr mic de epoci nu implica un timp de
antrenare mai redus deoarece calculele aferente unei epoci pot dura
foarte mult. Prin urmare, folosirea unuia sau altuia dintre algoritmele
de antrenare este dictat de natura problemei ce urmeaz a fi
rezolvat.
n continuare sunt prezentate cteva dintre cele mai cunoscute
metode utilizate pentru antrenarea RNA de tip MLP




2.5.4.1. Metoda Newton de ordinul II

n metoda gradientului descendent, respectiv n algoritmul BP,
procesul de cutare a punctului de minim al funciei de performan
a reelei MLP const n deplasarea dup direcia antigradientului pe
o lungime proporional cu rata de nvare a crei valoare este
selectat n mod arbitrar de ctre utilizator. O convergen mai
rapid a procesului iterativ de calcul ctre punctul de minim cutat
este posibil atunci cnd se cunosc detalii suplimentare privind
funcia ( ) y f = X , detalii care s permit estimarea unei valori
optime pentru viteza de nvare .
n cazul unei funcii de o singur variabil ( ) y f x = , fiind
cunoscut o estimare oarecare
t
x a punctului de extrem cutat se
pune problema determinrii coreciei
t
x astfel nct
1 t t t
x x x x
+
= = + s constituie soluia problemei, adic :
( ) ( )
' '
0
t t
f x f x x = + = (2.63)
Dezvoltnd ( ) f x n serie Taylor n jurul punctului
t
x i
reinnd termenii pn la ordinul II rezult:
( ) ( ) ( ) ( )
' '' 2
1
( ) ( )
2
t t t t t
f x f x f x x x f x x x + + (2.64)
Aplicnd acestei expresii operatorul de derivare, condiia de
extrem devine:
( ) ( )
' "
( ) 0
t t t
df
f x f x x x
dx
= + = (2.65)
din care rezult relaia de recuren:

( )
( )
1
'
''
t
t t
t
f x
x x x
f x
+
= = (2.66)
Comparnd relaia (2.66) cu relaia (2.36) din metoda
gradientului descendent rezult c
( )
"
1
t
f x
reprezint o estimare a
vitezei de nvare n punctul
t
x .
n cazul unei funcii de mai multe variabile :
n
f R R ,
( ) y f = X relaia (2.66) capt forma vectorial:
( ) ( )
1
1 t t t t
f

+
=

X X H X X (2.67)
n care:
[ ]
1 2
, ,...,
T
n
x x x = X ;
( )
t
H X este matricea hessian, iar ( )
t
f X gradientul funciei
n punctul
t
= X X .
Adaptarea metodei Newton la antrenarea reelelor MLP conduce
la urmtoarele relaii de recuren pentru modificarea ponderilor:
( ) ( )
1
1 t t t t

+
=

W W H W E W (2.68,a)
( ) ( )
1
1 t t t t

+
=

V V H V E V (2.68,b)
Utilizarea relaiilor (2.68) n cadrul procesului de antrenare a
unei reele neuronale de tip MLP, impune vectorizarea matricelor
W i V , adic transformarea acestora n vectori de forma:

11 1 1
,..., ,..., ,...,
i j j i
T
n n n n
w w w w

=

W
respectiv

11 1 1
,..., ,..., ,...,
j k k j
T
n n n n
v v v v

=

V
Dup cum se poate observa adaptarea ponderilor se realizeaz
folosind viteze de nvare distincte pentru fiecare pondere, care, n
plus, se modific de la o iteraie la alta.
Dei metoda Newton converge ntr-un numr extrem de redus de
epoci, ea are o aplicabilitate practic restrns datorit complexitii
extrem de ridicate a calculelor ce trebuie efectuate n cadrul fiecrei
iteraii: calculul derivatelor pariale de ordinul nti i doi ale funciei
de performan precum i inversarea matricei hessian care n
numeroase cazuri nu poate fi efectuat datorit singularitii
hessianului.

2.5.4.2. Metoda Levenberg Marquardt

Metoda Levenberg Marquqrdt elimin parial dezavantajele
metodei Newton folosind urmtoarele dou aproximaii:
a) Pentru a putea utiliza relaia de recuren (2.67) i n cazul n
care matricea H este singular, aceasta este nlocuit cu
matricea simetric i nesingular
= + H H I (2.69)
n care este un scalar pozitiv.
b) Atunci cnd funcia al crei minim este cutat are forma unei
sume de ptrate aa cum este i cazul funciei de performan
a unei reele neuronale, adic
( )
2
( ) ( )
k
k
f e =

X X (2.70)
atunci matricea hessian poate fi aproximat prin

T
H J J (2.71)
iar gradientul se calculeaz cu relaia

T
f = J e (2.72)
n care
1
[ ( ),... ( ),.... ( )]
T
k n
e e e = e X X X , iar J este matricea
jacobian. Aceasta conine derivatele pariale ale funciilor
( )
k
e X , adic derivatele pariale ale erorilor nregistrate la
ieirea reelei neuronale n cadrul unei epoci.
n aceste condiii, relaia de baz (2.67) din metoda Newton
devine:

( ) ( )
( ) ( ) ( ) ( )
1
1
1
t t t t
T T
t t t t
f

= + =


= +

X X H X I X
J X J X I J X e X
(2.73)
Din relaia (2.73) rezult c dac este zero, atunci obinem
metoda Newton n care hesianul este aproximat cu relaia (2.71), iar
dac este foarte mare, atunci metoda degenereaz n metoda
gradientului descendent cu un pas foarte mic.
Pentru a utiliza metoda Levenberg Marquardt la antrenarea
reelelor neuronale de tip MPL funcia f este nlocuit cu funcia de
performan, iar vectorul X cu vectorul U format prin vectorizarea
simultan a matricelor ponderilor sinaptice W i V, adic:
11 1 1 11 1 1
,..., ,..., ,..., , ,..., ,..., ,...,
i j j i j k k j
T
n n n n n n n n
w w w w v v v v

=

U

Metoda Levenberg Marquardt este una dintre cele mai rapide
metode de antrenare a reelelor de tip MLP de dimensiuni moderate
(cteva sute de conexiuni sinaptice). Ea face parte din categoria aa
numitelor metode de tip cvasi Newton. Acestea sunt derivate din
metoda Newton i au la baz ideea aproximrii inversei matricei
hessian
1
H cu o matrice
t
M obinut la fiecare pas de calcul pe
baza derivatelor pariale de ordinul unu. Cea mai cunoscut metod
de acest tip utilizat i pentru antrenarea RNA de tip MLP este
metoda BFGS (Broyden, Fletcher, Goldfarb si Shanno)


2.5.4.3. Metoda gradientului conjugat

Conform celor precizate n cadrul paragrafului 2.5.2, metoda
gradientului descendent caut punctul de minim al unei funciei de
mai multe variabile prin deplasri succesive n direcia
antigradientului (direcia celei mai abrupte descreteri) conform
relaiei de recuren:

1 t t t +
= + X X d (2.74)
n care ( )
t t
f = d X definete direcia de deplasare la pasul curent t.
Se precizeaz faptul c, dei funcia scade cel mai rapid n lungul
antigradientului, deplasarea dup aceast direcie nu conduce neaprat
la cea mai rapid convergen. O soluie mai bun o constituie
alegerea noii direcii de cutare ca o combinaie liniar ntre direcia
antigradientului i direcia anterioar de cutare, adic:
( )
1 t t t t
f

= + d X d (2.75)
Noua direcie de cutare trebuie aleas astfel nct s nu
modifice componenta gradientului de-a lungul direciei anterioare,
adic
t
d i
1 t
d trebuie s fie conjugai.
Dup cum este cunoscut, doi vectori ,
n
R X Y care satisfac
relaia
0
T
= X Y (2.76)
se numesc canonic conjugai.
Relaia (2.76) se poate scrie i sub forma:
0
T
n
= X I Y (2.77)
n care
n
I este matricea unitate de ordinul n.
Generaliznd, dac pentru o matrice H de ordinul n, vectorii
,
n
R X Y satisfac relaia
0
T
= X H Y (2.78)
atunci acetia se numesc H conjugai.
Pentru a determina minimul funciei ( ) : ,
n
f R R y f = X
folosind metoda gradientului conjugat, se pornete din punctul iniial
0
X , se alege deplasarea n sensul antigradientului i se determin un
nou punct:

1 0 0 0
( ) f = X X X (2.79)
n continuare procesul de cutare se desfoar n n pai, dup n
direcii H conjugate conform relaiei de recuren:

1 t t t t +
= + X X d (2.80)
La fiecare pas t noua direcie de cutare se stabilete conform
relaiei (2.75) n care scalarul
t
se determin astfel nct vectorii
t
d
i
1 t
d s fie H conjugai, adic:

1
0
T
t t
= d H d (2.81)
Avnd n vedere relaia (2.75) relaia (281) devine:

( )
( )
1 1
1 1 1
0
T
t t t t
T
T
t t t t t
f
f


+ =

+ =

X d H d
X H d d H d

(2.82)
din care rezult:
( )
1
1 1 1
T
T
t t t t t
f



=


d H d X H d (2.83)
Se precizeaz faptul c n cadrul oricrui algoritm care
implementeaz metoda gradientului conjugat direcia de cutare
trebuie resetat periodic la direcia antigradientului. n mod standard
aceast resetare se efectueaz atunci cnd numrul de direcii
conjugate generate conform relaiei (2.75) devine egal cu
dimensiunea n a vectorului X. Pentru cretea eficienei algoritmilor
bazai pe metoda gradientului conjugat n literatura de specialitate
s-au propus i alte metode de selectare a momentului n care s se
fac resetarea. O astfel de metod este cea propus de Powell i
Beale n cadrul creia resetarea la direcia antigradientului se
efectueaz dac exist o foarte mic ortogonalitate ntre gradientul
curent i cel precedent. Acest fapt este testat folosind inegalitatea

( ) ( ) ( )
2
1 1
0.2
T
t t t
f f f



X X X (2.84)
Dac inegalitatea (2.84) este ndeplinit, atunci se reseteaz direcia
de cutare la direcia antigradientului.
Pentru a utiliza metoda gradientului conjugat la antrenarea
reelelor neuronale de tip MPL funcia f este nlocuit cu funcia de
performan (eroarea ptratic total sau medie), iar vectorul X cu
vectorul U format prin vectorizarea simultan a matricelor
ponderilor sinaptice W i V, adic:
11 1 1 11 1 1
,..., ,..., ,..., , ,..., ,..., ,...,
i j j i j k k j
T
n n n n n n n n
w w w w v v v v

=

U

Implementarea acestei metode implic rezolvarea urmtoarelor
dou probleme suplimentare:
selectarea vitezei de nvare
calculul factorului
t

1. Selectarea vitezei de nvare
t


n cazul algoritmului BP valoarea vitezei de nvare (mrimea
pasului deplasrii n lungul antigradientului ) se specific de ctre
utilizator fiind un parametru al algoritmului. n schimb, algoritmele
bazate pe metoda gradientului conjugat ajusteaz mrimea pasului de
deplasare la fiecare iteraie folosind o metod de cutare care are ca
obiectiv determinarea valorii
t
care minimizeaz funcia de
performan a RNA n lungul direciei curente de cutare. n
literatura de specialitate exist mai multe metode destinate acestui
scop. O astfel de metod de determinare a unei valori pentru rata de
nvare
t
const n aproximarea variaiei funciei de performan
n raport cu printr-un polinom de gradul II , adic:
( )
2
E A B C = + + (2.85)
din care, prin anularea derivatei, rezult valoarea optim

*
2
B
A
= (2.86)
n cadrul fiecrui pas de calcul, coeficienii A, B i C se
determin evalund funcia de performan n trei puncte distincte,
astfel:
pentru 0 = rezult
1 t t t
= + = U U d U , respectiv

1 1
( ) C E E = = U (2.87,a)
pentru 0.5 = rezult
2
0.5
t t
= + U U d , respectiv

2 2
1 1
( )
4 2
A B C E E + + = = U (2.87,b)
pentru 1 = rezult
3 t t
= + U U d , respectiv

3 3
( ) A B C E E + + = = U (2.87,c)
Rezolvnd sistemul de ecuaii format din relaiile (2.87,a,b,c) se
obin coeficienii A, B i C, iar din relaia (2.86) valoarea vitezei de
nvare.

2. Selectarea matricei H pentru calculul factorului
t

Matricea H din expresia (2.83) a factorului
t
ar putea fi
hessianul funciei de performan E. Totui, dup cum s-a menionat
n cadrul metodei Newton calculul matricei hessian este un proces
complex computaional. Prin urmare, pentru reducerea timpului de
calcul, n literatura de specialitate s-au dezvoltat metode care permit
calculul aproximativ al factorului
t
folosind numai valorile
gradientului fr a se calcula matricea Hessian. Dintre acestea se
menioneaz:
Metoda Fletcher Reeves n cadrul creia factorului
t
se
determin ca raportul dintre ptratul normei gradientului la pasul
curent t i ptratul normei gradientului la pasul precedent t-1, adic:


( )
( )
( ) ( )
( ) ( )
2
2
1 1 1
T
t t t
t
T
t t t
E E E
E E E



= =


U U U
U U U
(2.88)
Metoda Polak Ribiere n cadrul creia factorului
t
se
determin ca raportul dintre produsul scalar al variaiilor
componentelor gradientului la pasul precedent cu gradientul la pasul
curent t i ptratul normei gradientului la pasul precedent t-1, adic:


( ) ( )
( )
1
2
1
T
t t
t
t
E E
E

U U
U
(2.89)

2.6. Reele neuronale artificiale Kohonen

Reelele neuronale Kohonen numite hri de trsturi cu auto-
organizare, sunt inspirate din modul n care este organizat cortexul
cerebral care, dup cum este cunoscut, are rolul de a coordona
funciile organismului. El poate fi asemuit cu o pnz subire, de
ntindere relativ mare (aproximativ 0,5 m
2
), pliat astfel nct s
poat ocupa suprafaa din interiorul craniului, pe care se realizeaz o
proiecie deformat a ntregului corp uman. Pentru a asigura
coordonarea funciilor organismului n scopul asigurrii unitii
funcionale a acestuia i al adaptrii la mediu, cortexul sau scoara
cerebral posed proprieti topologice/organizatorice remarcabile.
De exemplu, zona corespunztoare minii se afl lng zona
corespunztoare braului i aa mai departe.
Pornind de la aceste observaii, Kohonen a pus bazele teoriei
hrilor de trsturi cu auto-organizare, care sunt reele neuronale
artificiale cu nvare nesupervizat i cu ieiri continue, cunoscute i
ca reele neuronale Kohonen.
Auto-organizarea se definete ca fiind capacitatea unui sistem de
a descoperi i nva structura datelor de intrare chiar i atunci cnd
nu exist informaii referitoare la aceast structur. Fr a i se
specifica rspunsul corect pentru fiecare exemplu prezentat la
intrare, reeaua neuronal artificial cu auto-organizare nva
singur. Cu alte cuvinte, ea descoper trsturi caracteristice ale
datelor de intrare pe care le organizeaz i le memoreaz ntr-o
manier specific. n acest context, setul sau mulimea de antrenare
conine numai mrimile de intrare
k
X i nu perechi de tipul
( ) ,
k k
d X adic intrare ieire dorit.
Informaiile privind trsturile specifice mulimii datelor de
antrenare sunt sintetizate n cursul procesului de nvare
nesupervizat i sunt memorate n vectorii conexiunilor sinaptice ale
cror componente nu mai reprezint ponderile ci componentele aa
numiilor vectori prototip. Fiecare neuron al reelei artificiale
corespunde unui prototip, iar ieirea definete relaia dintre intrarea
curent i aceste prototipuri memorate.
Particularitatea reelelor Kohonen este aceea c neuronii nu mai
sunt aezai pe straturi (de intrare, de ieire i ascuns), ci n nodurile
unei plase bidimensionale de dimensiune ( m k ) (fig 2.16), numit
grila suport.
n aceast structur exist conexiuni doar ntre intrarea
[ ]
1 2
, ,...,
T
n
x x x = X i fiecare neuron, prin intermediul vectorilor
1, , ,
,... ,... 1, 2,...
T
j j i j n j
w w w j m k

= =

W , iar ponderile legturilor
dintre neuroni grilei suport nu au nici o relevan. Fiecare neuron
este asociat unei clase, motiv pentru care se utilizeaz i termenul
neuron clas, i este caracterizat de:
vectorul
1, , ,
,... ,... 1, 2,...
T
j j i j n j
w w w j m k

= =

W numit
vector prototip asociat;
poziia sa pe grila suport, adic coordonatele
x
r i
y
r .
1
k
n
Intrare
x
1
x
2
x
n
m

Fig. 2. 16. Structura unei reele neuronale Kohonen.
Interaciunea dintre neuroni depinde de distana dintre acetia.
Distana dintre doi neuroni r i s poate fi definit ca fiind distana
euclidian:
( ) ( ) ( )
2
2
,
x x y y
d r s r s r s = + (2.90)
sau distana Manhattan:
( , )
x x y y
d r s r s r s = + . (2.91)
La nceputul procesului de antrenare al reelei, componentele
, i j
w ale vectorilor prototip sunt iniializate aleator urmnd a fi
adaptate ntr-o manier care s asigure faptul c neuronii apropiai
din punct de vedere topologic, s fie sensibili la intrri apropiate.
Astfel, dup iniializarea aleatoare a valorilor ponderilor
, i j
w ,
reelei i se prezint la intrare cte un exemplu , 1, 2,...,
m e
m n = X din
mulimea de antrenare care este comparat cu toi vectorii prototip
1, 2,...,
j
j m k = W n scopul determinrii neuronului ctigtor.
Acesta este neuronul al crui vector prototip este cel mai apropiat de
vectorul
m
X prezentat la intrare, adic neuronul * j care satisface
relaia:

*
min{ }, 1, 2,...,
j j
j
d d j m k = = (2.60)
n care, de exemplu

( )
2
,
1
, 1, 2...,
n
j i i j
i
d x w j m k
=
= =

. (2.61)
Dup ce a fost determinat ctigtorul competiiei, are loc
procesul de actualizare a ponderilor. n acest sens, se utilizeaz
conceptul de vecintate. Vecintatea unui neuron j, notat ( ) V j este
format din acei neuroni pentru care distana dintre ei i neuronul j nu
depete o valoare prestabilit. Vecintatea unui neuron depinde de
tipul de distan utilizat. Pentru exemplificare, n figura 2.17 sunt
prezentate vecintatea de dimensiune 2 a unui neuron n situaia
utilizrii distanei euclidiene (2.17, a), respectiv a distanei
Manhattan (2.17, b).
Actualizarea ponderilor se face utiliznd relaia:
( )( )
, *
ij ij i ij
w w j j x w + (2.62)
unde: este viteza de nvare;
( ) , * j j funcia de nvecinare definit de relaia:
( )
( ) 1, dac *
, *
0, altfel
j V j
j j

=

(2.63)
Pentru a eficientiza procesul de antrenare, valoarea vitezei de
nvare i a funciei de nvecinare sunt modificate n timp folosind n
acest sens relaiile:
( ) , 0 1 t t

= < (2.64)
i
( )
( )
( )
2
, *
, *, exp
2
dist j j
j j t
t


(2.65)
unde ( ) , 0 1 t t

= < .
Procesul de antrenare se ncheie atunci cnd ponderile ataate
tuturor neuronilor nu se mai modific semnificativ.
a.
b.

Fig. 4.17. Vecintate de dimensiune 1 n cazul utilizrii:
a distanei euclidiene; b distanei Manhattan.

Dup prezentarea unui numr suficient de vectori de intrare, neuronii
clas din reea vor evidenia grupri de puncte sub forma unor nori
sau clustere care partiioneaz spaiul de intrare. Cu alte cuvinte
reeaua ncearc s proiecteze grila suport n spaiul de intrare astfel
nct fiecare vector de antrenare s fie ct mai apropiat de un
prototip, iar grila suport s fie ct mai puin posibil deformat.