Sunteți pe pagina 1din 21

Capitolul 2

REELE NEURONALE ARTIFICIALE


2.1. Consideraii generale
Reelele Neuronale Artificiale (RNA) sunt sisteme dinamice de
prelucrare a informaiei, formate dintr-un numr mare de elemente
elementare de prelucrare, numite neuroni, puternic interconectate.
Dei preocuprile privind studiul reelelor neuronale dateaz din
anii 1940, interesul pentru acestea cunoate o adevrat explozie
ncepnd cu anii 1980.
Dintre cele mai importante caracteristici ale RNA se
menioneaz:
- Prelucrareaparalel care permite construirea unor arhitecturi
deosebit de performante capabile s ofere rspunsuri rapide n
timp real;
- nvarea din exemple a fenomenului pentru care se
antreneaz. Procesul de nvare poate fi supervizat sau
nesupervizat;
- Permitemodelarea unor procesecomplexeale cror legi de
funcionare sunt fie prea complicate, fie nu pot fi
algoritmizate. Prin urmare, procesul analizat nu trebuie
descris prin reguli clare.
- Capacitatea de a asocia datele de intrare cu setul sau
seturile de date de antrenare cu care rezoneaz cel mai
bine. Aceast caracteristic asigur un comportament bun
chiar n condiiile unor seturi de date de intrare incomplete
sau parial greite.
- Memorarea distribuit a informaiei ceea ce asigur o
funcionarea relativ corect i n situaia n care anumii
neuroni se defecteaz. Fiecare neuron particip la formarea
ieirilor pentru toate seturile de vectori de intrare (antrenare).
Deteriorarea unui anumit neuron nrutete doar ntr-o mic
msur funcionarea global, datorit aportului distribuit, dat
de toi ceilali neuroni valizi. Desigur numrul de neuroni
trebuie s fie suficient de mare. Acest mecanism al memorrii
distribuite a informaiei este cel care explic i funcionarea
corect de durat a creierului uman, n care celulele nervoase
ce mor nu afecteaz funcia de gndire n general i totodat
nu afecteaz nici noiunile memorate.
Pornind de la o mulime reprezentativ de exemple de instruire, o
RNA construiete singur algoritmul pentru rezolvarea unei
probleme. Astfel, ntr-o prim etap, numit etapa deantrenare, ea
extrage informaia prezentat n mulimea de exemple, numit
mulime de antrenare, i o memoreaz n ponderile conexiunilor
dintre neuroni. n faza de lucru reeaua va folosi informaia
achiziionat n etapa de antrenare pentru a trata situaii de aceeai
natur cu cele coninute n mulimea de antrenare.
Capacitatea RNA de a rezolva probleme practice complexe
utiliznd o mulime (uneori restrns) de exemple, confer un
potenial de aplicabilitate extrem de larg.
Spectrul aplicaiilor cuprinde:
- sisteme de recunoatere a caracterelor utilizate n trierea
corespondenei;
- sisteme de recunoatere a semnturilor folosite n sistemul
bancar;
- sistemele de recunoatere a vorbirii utilizate n traficul
aerian;
- piloi automai;
- sisteme n timp real pentru controlul unor procese
complexe.
Calculul neuronal reprezint actualmente un domeniu de
cercetare fascinant i o provocare intelectual i tehnologic major.
RNA au modificat imaginea noastr asupra proceselor de calcul i
aspectelor algoritmice ale inteligenei artificiale i au furnizat
psihologiei un model al proceselor mentale.
2.2. Analogia dintre structura sistemului nervos i reelele
neuronale artificiale
RNA preiau caracteristicile de baz ale structurii sistemului
nervos uman alctuit, n medie, din 10
10
10
11
celule nervoase (fig.
2.1), numite neuroni, strns interconectate, care sunt dispuse pe mai
multe straturi sau niveluri.
Nucleu
Dendrite
Axon
Sinapsa
Procesor
elementar i
Ponderea
conexiunii sinaptice Wij
Procesor
elementar j
(Neuron ) i (Sinapsa) (Neuron ) j
Informa ia
de intrar

e Ie ire Ie ire
(Axon)
Intrare
(Dendrita)
Fig. 2.1. Structura celulei nervoase.
Celula nervoas este constituit din:
- mai multedendriteramificateprin care recepioneaz diferite
informaii de la ali neuroni. Acestea constituie intrrile n
celula nervoas.
- corpul celulei sau nucleul care realizeaz o prelucrare a
stimulilor
1
generai de informaiile primite i elaboreaz
rspunsul;
- un axon o fibr unic care transmite rspunsul elaborat
ctre alte celule;
- sinapse ramificaii ale axonului care realizeaz legturi cu
ali neuroni (axonul unei celule umane realizeaz n medie 10
3
legturi sinaptice cu ali neuroni).
Impulsurile prezente la intrarea neuronului l pot excita cea ce
face ca acesta s genereze un impuls ce se transmite mai departe spre
neuronii cu care este conectat. Legturile dintre neuroni sunt
ponderate, iar fiecare neuron aplic o transformare asupra impulsului
de intrare nainte de a-l transmite mai departe.
2.3. Modele formale ale neuronului artificial
2.3.1. Neuronul formal
Neuronul formal are o structur asemntoare neuronului uman.
El este o unitate elementar de procesare care realizeaz o operaie
simpl pe un set de mrimi de intrare, reprezentate prin vectorul
( )
1
,... ,...
T
i n
x x x = X , pentru a produce o mrime de ieire
j
y .
Intrrile sunt alctuite din semnalele venite de la ali neuroni sau
din mediul nconjurtor i sunt reprezentate, n general, prin numere
reale. Fiecare intrare
i
x are asociat o valoare real
, j i
w , numit
pondere sinaptic, care are rolul de a pondera semnalul de intrare.
Dac
,
0
j i
w > atunci ponderea este excitatoare, iar dac
,
0
j i
w <
atunci ponderea este inhibitoare. Vectorul ponderilor
1
Stimul Cuvnt de origine latin (stimulus). Definete un factor exterior care
determin excitaia (activarea) de scurt durat a unui organ sau a unei funcii
biologice, care declaneaz un proces fiziologic. n contextul reelelor neuronale
artificiale prin stimul se va nelege informaia recepionat de ctre neuronul
artificial (unitatea de procesare) prin una din conexiunile de intrare.
( ) ,1 , ,
,... ,...
T
j j j i j n
w w w = W reprezint memoria proprie a
neuronului.
Funcia
de activare
E
y
j
x
1
x
i
x
n
x =-
n+1
1
w
1,j
w
i,j
w
n,j
w =T
n+ ,j j 1
net -T
j j
Corpul neuronul j
Fig. 2.2. Structura neuronului formal.
Corpul unui neuron oarecare j este constituit dintr-un sumator, un
prag de activare
j
T i o funcie de activare
j
f .
Starea neuronului se actualizeaz periodic dup urmtorul
mecanism:
1. se determin potenialul neuronal
j
net , denumit i starea
intern sau activarea total, ca fiind suma ponderat a intrrilor
i
x , adic
,
1
n
T
j j i i
i
net w x
=
= =

W X (2.1)
2. se compar potenialul neuronal
j
net cu pragul de activare al
neuronului
j
T , adic se calculeaz:
j j
net T (2.2)
3. asupra expresiei astfel obinut se aplic o funcie de activare
j
f
rezultnd valoarea ieirii neuronului respectiv:
( )
j j j j
y f net T = (2.3)
Dac se consider 0
j
T = , atunci ( )
j j j
y f net = .
n general, pragul de activare este nenul i poate fi ncorporat n
vectorul ponderilor considernd o intrare suplimentar
1
1
n
x
+
=
creia i se asociaz ponderea
, 1 j n j
w T
+
= .
Funciile de activare pot fi liniare sau neliniare (fig. 2.3).
a. b. c. d. e.
F( ) x F( ) x F( ) x F( ) x F( ) x
net net net net net
1
0
1
0
1
0
1
0
1 -1
-1
0,5
+
-
f x ( )
f x ( ) f x ( ) f x ( ) f x ( )
Sigmoid Identitate
( ) f x x =
Treapt
( )
1, 0
0, 0
x
f x
x
>
=

<

Ramp
( )
1
1
x
f x
e

=
+
( )
( ) tanh
kx kx
kx kx
e e
f x
e e
kx

= =
+
=
Fig. 2.3. Tipuri de funcii de transfer.
- Funcia de activare liniar este de forma
( ) f x ax b = + (2.4,a)
unde coeficientul b joac rolul pragului
j
T . Pentru 1 a = i 0 b = se
obine funcia de activare identitate (fig. 2.3, a), iar pentru 1 a = i
0 b = rezult funcia de activare identitate plus prag.
- Funcia de activare treapt (fig. 2.3, b)
( )
1 daca 0
0 daca 0
x
f x
x
>
=

<

(2.4,b)
- Funcia de activare ramp (fig. 2.3, c), constituie o combinaie
ntre funciile liniar i treapt.
( ) | |
1 daca
1 1
daca ,
2 2
0 daca 0
x
f x x x
x
>

= + e

<

(2.4,c)
n principiu, funcia ramp stabilete limitele maxim i minim
pentru ieirea neuronului, asigurnd o variaie liniar ntre acestea pe
intervalul | | , .
- Funcia de activare sigmoid corespunde unor forme netezite ale
funciei ramp. Funciile sigmoid, denumite astfel dup forma n S a
reprezentrii lor grafice, sunt funcii continue, derivabile i monotone
pe ntreg intervalul de definiie. Aceste proprieti sunt eseniale
dac se dorete aplicarea unor algoritmi de nvare performani i
eficieni. Cele mai rspndite funcii sigmoid sunt:
sigmoidul logistic (fig. 2.3, d), numit i sigmoid unipolar, care
ia valori n intervalul (0, 1);
( )
1
1
x
f x
e

=
+
(2.4,d)
sigmoidul tangent hiperbolic (fig. 2.3, e), numit i sigmoid
bipolar, care ia valori n intervalul (-1, 1).
( ) ( ) tanh
kx kx
kx kx
e e
f x kx
e e

= =
+
(2.4,e)
n concluzie, funcionarea unui neuron j, vzut ca element de
procesare n intervale discrete de timp, este descris de relaiile:
( )
,
1
n
T
j j i i j j j
i
j j j
net w x T T
y f net
=
= =
=

W X
(2.5)
unde: | |
1
,..., ,...
T
i n
x x x = X este vectorul de intrare;
j
T pragul corespunztor neuronului;
j
f funcia de activare (treapt, sigmoid etc.).
Modelul McCulloch-Pitts (MCP), reprezint primul model
formal al neuronului i a fost propus de ctre W. McCulloch i S.
Pitts n anul 1943. Att intrrile, ct i ieirea sunt de tip binar, iar
funcia de transfer este funcia treapt.
Prin urmare, funcionarea MCP este descris de relaiile:
( )
1
1, 0
0, altfel
n
i i
i
net w x T
net
y f net
=
=
>
= =

(2.6)
Obs. Fiind vorba de un singur neuron s-a renunat la indicele j
care-l desemneaz.
Acest model are meritul istoric c a pus n eviden o structur
simpl, la care relaia funcional intrare-ieire este codificat sub
forma unor valori numerice corespunznd ponderilor. La acea dat
rmnea ns deschis problema stabilirii unui algoritm de antrenare
pentru determinarea valorilor acestor ponderi.
2.3.2. Neuronul clasificator sau perceptronul
Pornind de la modelul MCP, psihologul Rosenblatt a introdus, n
anul 1958, noiunea de perceptron sau neuron clasificator.
Perceptronul este asemntor neuronului MCP (fig. 2.4) i a fost
dezvoltat din dorina de a modela funcia de percepie vizual a
retinei.
E
y
j
x
1
x
i
x
n
x =-
n+1
1
1
w
1
w
i
w
n
w =T
n+1 j
net -T
j j
Fig. 2.4. Modelul perceptronului.
Ecuaiile de funcionare ale perceptronului sunt ecuaiile (2.6) ale
modelului MCP. Deosebirea provine din faptul c de aceast dat
intrrile sunt valori reale i nu valori binare de tipul 1 sau 0, funcia
de activare fiind tot de tipul treapt.
Prin urmare evoluia perceptronului este descris de:
( )
1
1, 0
0, altfel
n
T
i i
i
net w x T
net
y f net
=
= =
>
= =

W X
(2.7)
n care:
( )
1
1 1
,... ,... , 1
T n
i n n
x x x x R
+
+
= = e X este vectorul de intrare
( )
1
1 1
,... ,... ,
T n
i n n
w w w w T R
+
+
= = e W - vectorul ponderilor
Ecuaia
0
T
net = = W X (2.8)
este ecuaia unui hiperplan care mparte spaiul vectorilor de intrare
n dou regiuni de decizie. Astfel, vectorii aflai n partea pozitiv
caracterizai de
0
T
net = > W X (2.9)
aparin clasei A, iar vectorii situai n partea negativ caracterizai de
0
T
net = < W X (2.10)
aparin clasei B.
Pentru a dezvolta modelul matematic i algoritmul de instruire
sau antrenare, se efectueaz o normalizare de semn a vectorilor de
intrare notnd:
daca
daca
A
B
e
=

e

X X
Z
X X
(2.11)
n aceste condiii, hiperplanul 0
T
net = = W Z corespunztor
ecuaiei (2.8) separ clasele A i B dac i numai dac exist
inegalitatea:
0
T
A B > e W Z Z (2.12)
Definiie: Dac pentru dou clase de obiecte reprezentate prin
vectori din spaiul
n
R exist un hiperplan de separare,
atunci cele dou clase se numesc liniar separabile.
De exemplu, pentru n=2 ecuaia
1 1 2 2
0
T
w x w x T = + = W Z
definete o dreapt n planul ( )
1 2
, x x care-l mparte n dou regiuni
de decizia A i B (fig. 2.5).
Clasa A
x
1
x
2
Clasa B
Dreapta de
decizie
Fig. 2.5. Separarea planului n zone de decizie.
Problema care se pune const n gsirea unui algoritm de
nvare care s determine vectorul ponderilor W astfel nct
frontiera s ajung s separe corect elementele. Cu alte cuvinte,
ieirea neuronului s fie y =1 sau y =0, dup cum intrarea aparine
clasei A sau clasei B.
Rspunsul la aceast problem a fost dat, ntr-o prim etap, de
ctre Rosenblatt. Algoritmul propus de acesta, cunoscut sub
denumirea de algoritmul standard de antrenare a perceptronuli,
modific valorile ponderilor ori de cte ori la intrarea reelei este
prezentat o configuraie (form sau pattern) incorect clasificat.
Procedura de instruire este o metod iterativ de nvare
supervizat care are ca obiectiv minimizarea distanelor punctelor
eronat clasificate fa de hiperplanul de separare.
Se consider c mulimea de antrenare, numit i mulimea de
exemple, este constituit din m perechi de forma :
( ) ( ) ( )
1 1
, ,..., , ,..., ,
k k m m
d d d Z Z Z
n care d
k
este rspunsul corect, adic:
1
0
k
k
k
daca A
d
daca B
e
=

e

Z
Z
Notm cu ( ) G W mulimea vectorilor (punctelor) din setul de
antrenare clasificai eronat de ctre vectorul pondere W curent, adic:
{ }
( ) / 0
T
G = < W Z W Z (2.13)
Dac ( )
k
G e Z W , atunci eroarea de clasificare
k
e este dat de
distana punctului corespunztor vectorului
k
Z , la hiperplanul de
decizie H definit de ecuaia:
0
T
= W Z (2.14)
adic
( , )
k k
e d H = Z (2.15)
Observaii:
1. Se reamintete faptul c ecuaia unui hiperplan oarecare H, care
trece prin punctul
0
Z i este perpendicular pe vectorul U este:
( )
0
0
T
= U Z Z (2.16)
2. n ipoteza c 1 = U , distana de la punctul corespunztor unui
vector oarecare
*
Z la hiperplanul H este dat de:
( )
* *
0
, ( )
T
d H Z Z = Z U (2.17)
Comparnd relaia (2.14) cu (2.16) rezult c hiperplanul de
separare H trece prin origine i este perpendicular pe vectorul
ponderilor. Prin urmare, n ipoteza c 1 = W , eroarea de clasificare,
definit de relaia (2.15), este:
( ) ( , ) 0
T T T
k k k k k
e d H = = = = Z W Z W Z W Z (2.18)
n stabilirea formei finale a relaiei (2.18) s-a inut seama de
faptul c ( )
k
G e Z W , adic 0
T
k
< W Z
n concluzie, scopul algoritmului de antrenare este de a
determina vectorul ponderilor W pentru care suma:
( )
( )
T
G
E
e
=

Z
W W Z (2.19)
este minim.
Deoarece ( )
1
1 1
,... ,... ,
T n
i n n
w w w w T R
+
+
= = e W , rezult c:
1
:
n
E R R
+

iar pentru determinarea minimului se folosete o metod de gradient.
Astfel, pornind de la o estimare iniial
0
W a vectorului ponderilor
se genereaz un ir de vectori
1 2
, ,..., ,...
t
W W W folosind relaia de
recuren:
1 t t t +
= + A W W W (2.20)
n care
t t
q A = W h (2.21)
sunt coreciile la pasul t.
n relaia (2.21), specific metodelor de gradient, q este o
valoare pozitiv, numit rata sau viteza de nvare, care reprezint
mrimea deplasrii fa de
t
W n direcia dat de
t
h . n cazul unei
probleme de minimizare, direcia de deplasare este direcia de
coborre, adic direcia contrar gradientului. Prin urmare:
( )
( )
t
t
E
E
=
c
= V =
c
W W
W
h W
W
(2.22)
Avnd n vedere c ( )
( )
T
G
E
e
=

Z
W W Z i innd cont de regula
de derivare a produsului scalar
( )
T
c
=
c
X Y Y
X
, rezult c:
( )
( )
t t
t
G
E
E c
e =
c
= V = =
c

Z W W
W
h Z
W
(2.23)
n care
{ }
/ 0
T
t t
G = < Z W Z este mulimea vectorilor/punctelor
clasificate eronat de ctre vectorul curent al ponderilor
t
W .
n concluzie, coreciile ponderilor sunt direct proporionale cu
vectorii clasificai eronat.
Pentru a simplifica algoritmul, la fiecare pas se consider toate
exemplele din mulimea de antrenare i se modific ponderile doar n
cazul exemplelor clasificate eronat conform urmtoarelor regului:
(i) dac pentru un exemplu ( ) ,
k k
d X perceptronul se activeaz
cnd ar trebui s rmn inactiv, adic dac 1
k
y = i 0
k
d = ,
atunci se reduc ponderile cu o valoare proporional cu
k
X ;
(ii) dac pentru un exemplu ( ) ,
k k
d X perceptronul nu se
activeaz dei ar trebui s o fac, adic dac 0
k
y = i 1
k
d = ,
atunci se cresc ponderile cu o valoare proporional cu
k
X .
Sintetiznd cele dou reguli rezult urmtoarea expresie general
pentru corecia ponderilor:
( )
t k k k
d y q A = W X (2.24)
iar relaia (2.20) devine
( )
1 t t k k k
d y q
+
= + W W X (2.25)
adic:
( )
, 1 , ,
1,
i t i t k k k i
w w d y x i n q
+
= + = (2.26)
respectiv
( )
1, 1 1 , 1 n t t t k k k n
w T T d y x q
+ + + +
= = + (2.27)
Observaii:
1. Dac
k k
d y = , adic exemplul a fost clasificat corect, atunci
conform relaiei (2.24) ponderile nu se modific.
2. n teoria dezvoltat
1
1
n
x
+
= i, n conformitate cu relaia (2.27)
pragul se modific adugnd sau scznd pe q la valoarea
anterioar. n unele variante ale algoritmului corecia pragului se
face cu o cantitate proporional cu valoarea lui, n sensul stabilit
de regulile anterioare, adic:
( ) ( ) ( )
1
1
t t k k t k k t
T T d y T d y T q q
+
= + = + (2.28)
3. Viteza de nvare ( ) 0,1 q e . O valoare prea mare a lui q poate
conduce la omiterea unui vector de ponderi corect, n timp ce o
valoare prea mic poate mri excesiv timpul de calcul.
4. Ciclul de operaii care vizeaz parcurgerea tuturor exemplelor n
vederea modificrii ponderilor poart numele de epoc.
5. n cazul n care mulimea de antrenare este constituit dintr-un
numr de exemple liniar separabile, algoritmul de antrenare al
perceptronului este convergent ntr-un anumit numr de epoci,
adic va identifica un vector al ponderilor care clasific corect
toate exemplele.
Algoritmul deantrenareal perceptronului
Pasul 1: Iniializeaz ponderile (
,0 i
w ) i valoarea pragului de activare
0
T la momentul 0 t = cu valori aleatoare mici, de obicei n
intervalul [-0,1; 0,1].
Pasul 2: Selecteaz valoarea vitezei de nvare ( ) 0,1 q e
Pasul 3: Testeaz convergena.
DAC
toate exemplele au fost clasificate corect, adic
1,
k k
y d k m = = , respectiv Contor_Eroare=0
ATUNCI
Stop
ALTFEL
Seteaz Contor_Eroare=0 i trece la pasul 4
Pasul 4: Pentru fiecare exemplu 1, 2,..., k m = repet
4.1. Calculeaz ieirea real generat de perceptron
, ,
1
m
T
k t t k i t i t
i
y w x T
=
= =

W X
4.2. Compar
, k t
y cu
k
d
DAC
, k t k
y d =
ATUNCI
Incrementeaz Contor_Eroare i modific ponderile,
respectiv pragul conform relaiilor:
( )
, 1 , ,
1,
i t i t k k k i
w w d y x i n q
+
= + =
( ) ( ) ( )
1
1
t t k k t k k t
T T d y T d y T q q
+
= + = +
Pasul 5: Repet de la pasul 3
Exemplu
Se consider perceptronul cu trei intrri i setul de 5 exemple
prezentate n figura 2.6. Pentru acest perceptron se aleg aleator
valorile iniiale ale ponderilor:
1,0
0,1 w = ;
2,0
0,1 w = ;
3,0
0,1 w = , valoarea
de prag
0
0, 02 T = i valoarea vitezei de nvare 0, 5 q = .
0,1 0,1 0,2
ie ire
0,2
0,4
0,3
0,5
0,1
0,4
0,3
0,5
0,1
0,3
0,4
0,5
0
0
1
1
1
x
1
x
1
w
1
w
2
w
3
x
2
x
2
x
3
x
3
T
Ie ire
Fig. 2.6. Exemplu de perceptron i mulimea de antrenare.
Pentru exemplul 1 ieirea perceptronului se determin astfel:
( ) ( )
3
,0 0
1
1
0,1 0,1 0,1 0,1 0,1 0, 2 0, 02 0, 02
0, 02 1
i i
i
net w x T
y f net f
=
= = + + =
= = =

Deoarece ieirea furnizat de perceptron


1
1 y = , este diferit de
cea dorit
1
1 d = , exemplul este clasificat greit, iar ponderile vor fi
modificate conform relaiilor:
| |
| |
| |
| |
1,1 1,0 1 1 1
2,1 2,0 1 1 2
3,1 3,0 1 1 3
1 0 1 1 0
0,1 0, 05 0, 05
0,1 0, 05 0, 05
0, 01 0, 01 0
0, 02 0, 01 0, 01
w w d y x
w w d y x
w w d y x
T T d y T
= + q = =
= + q = =
= + q = =
= + q = =
Pentru exemplul 2 ieirea perceptronului este:
( )
3
2 ,1 1
1
0, 005 1
i i
i
y f w x T f
=
| |
= = =
|
\ .

Deoarece aceasta este diferit de cea dorit


2
0 d = , exemplul
este clasificat greit i, prin urmare, ponderile vor fi modificate
rezultnd:
( ) | |
( ) | |
( ) | |
| |
1,2 1,1 2 2 1
2,2 2,1 2 2 2
3,2 3, 2 2 2 3
2 1 2 2 1
1 0, 05 0,1 0, 05
1 0, 05 0, 05 0
1 0 0, 05 0, 05
0, 01 0, 005 0.005
w w d y x
w w d y x
w w d y x
T T d y T
= + q = =
= + q = =
= + q = =
= + q = =
n mod similar, pentru exemplul 3 ieirea perceptronului este:
( )
3
3 ,2 2
1
0, 04 0
i i
i
y f w x T f
=
| |
= = =
|
\ .

Deoarece aceasta este diferit ieirea dorit


3
1 d = , exemplul
este clasificat greit, iar ponderile vor fi modificate astfel:
( ) | |
( ) | |
( ) | |
| |
1,3 1,2 3 3 1
2,3 2,2 3 3 2
3,3 3, 2 3 3 3
3 2 3 3 2
2 0, 05 0.2 0,15
2 0 0, 2 0, 2
2 0, 05 0,15 0,1
0, 005 0.0025 0, 0075
w w d y x
w w d y x
w w d y x
T T d y T
= + q = + =
= + q = + =
= + q = + =
= + q = + =
Pentru exemplul 4, ieirea perceptronului este:
( )
3
4 ,3 3
1
0,1375 1
i i
i
y f w x T f
=
| |
= = =
|
\ .

Deoarece aceasta este identic cu cea dorit


4
1 d = , exemplul
este clasificat corect, iar ponderile nu se modific. Prin urmare:
| |
| |
| |
| |
1,4 1,3 4 4 1 1,3
2,4 2,3 4 4 2 2,3
3,4 3,3 4 4 3 3,3
4 3 4 4 3 3
0,15
0, 2
0,1
0, 0075
w w d y x w
w w d y x w
w w d y x w
T T d y T T
= + q = =
= + q = =
= + q = =
= + q = =
Pentru exemplul 5,ieirea perceptronului rezult:
( )
3
5 ,4 4
1
0, 2175 1
i i
i
y f w x T f
=
| |
= = =
|
\ .

ntruct aceasta este identic cu cea dorit


5
1 d = , exemplul este
clasificat corect, iar ponderile nu se modific. Prin urmare:
| |
| |
| |
| |
1,5 1, 4 4 4 1 1, 4
2,5 2,4 4 4 2 2,4
3,5 3,4 4 4 3 3, 4
5 4 4 4 4 4
0,15
0, 2
0,1
0, 0075
w w d y x w
w w d y x w
w w d y x w
T T d y T T
= + q = =
= + q = =
= + q = =
= + q = =
n acest stadiu s-a ncheiat o epoc dar, pentru c nu toate
exemplele au fost clasificate corect, se reia procesul de modificare al
ponderilor, adic se efectueaz un nou ciclu. Procesul se repet pn
cnd toate exemple sunt clasificate corect.
Limitele perceptronului
n numeroase probleme concrete de clasificare intervin clase de
obiecte care nu sunt liniar separabile. Prin urmare, utilizarea
perceptronului ca atare este sever limitat. O analiz a limitrilor
perceptronului a fost efectuat de cercettorii Minsky i Papert n
1969. Ei furnizeaz celebrul exemplu care evideniaz limitrile
perceptronului i anume problema nvrii tabelei de adevr a
funciei logice XOR (tabelul 1).
Tabelul 1. Funcia logic XOR
1 2
0 0 0
0 1 1
1 0 1
1 1 0
x x XOR
Considernd un perceptron cu dou intrri (fig. 2.7) i funcia de
ieire standard
1 daca - 0
0 daca - 0
net T
y
net T
>
=

<

(2.28)
algoritmul de antrenare nu va putea determina valorile
1
w ,
1
w i T
astfel nct ieirea perceptronului s furnizeze valorile funciei XOR.
w
1
x
1
x
2
w
2
T
y
Fig. 2.7. Structura perceptronului cu dou intrri
ntr-adevr, reprezentnd n plan cele patru puncte
corespunztoare celor patru vectori de intrare posibili ai
perceptronului se observ c nu exist nici o dreapt avnd ecuaia:
1 1 2 2
0 w x w x T + = (2.29)
care s separe cele dou clase de obiecte (cele a cror ieire este 1,
respectiv cele care au ieirea 0).
Pentru a putea s rezolve problema, reeaua neuronal artificial
ar trebui s realizeze separarea planului n trei regiuni de decizie (fig.
2.8).
(0,0)
(0,1)
(1,1)
(1,1)
R
ieirea 1
1
R
2
ieirea 0
R
2
ieirea 0
x
1
x
2
Fig. 2.8. Separarea planului n regiuni de decizie multipl
O astfel de partiionare poate fi realizat folosind o reea cu mai
multe straturi denumit perceptronul multistrat sau multi layer
perceptron - MLP n terminologia englezeasc.
2.4. Structuri ale RNA
2.4.1. Structura general i clasificri ale RNA
Cele prezentate n paragraful precedent evideniaz faptul c
limitele perceptronului nu sunt datorate algoritmului de instruire, ci
structurii foarte simple a acestuia, care asigur doar mprirea
spaiului intrrilor n dou semiplane. Prin urmare, utilizarea RNA n
rezolvarea unor probleme complexe necesit creterea complexitii
topologiei acestora.
n general RNA sunt formate din neuroni (structuri elementare
de procesare) legai prin conexiuni sinaptice (cile de transmitere a
informaiei ntre neuroni caracterizate de anumite ponderi) organizai
pe straturi succesive. n figura 2.9 este prezentat structura tipic a
unei RNA cu patru straturi.
y
1
y
m
x
2
x
1
x
n
Intr ri
Ie iri
Stratul ascuns
Straturi ascunse
Stratul de
intrare
Stratul de
ieire
.
. . .
.
. . .
.
. . .
Fig. 2.9. Arhitectura tipic a unei RNA.
Primul strat, numit stratul de intrare, este format din neuroni
liniari care nu realizeaz nici un proces de calcul. Rolul lui este acela
de a dirija componentele
1
,..., ,...,
i n
x x x ale vectorului de intrare X
ctre neuronii de calcul din primul strat. Ultimul strat de prelucrare
este stratul de ieire i poate fi constituit din unul sau mai muli
neuroni. n general, topologia unei reele neuronale poate cuprinde
unul sau mai mute straturi intermediare, numite i straturi ascunse.
Legturile dintre straturile RNA se realizeaz prin conexiuni
sinaptice ponderate. n cazul structurii prezentat n fig. 2.9 fiecare
neuron dintr-un strat este legat cu toi neuronii din stratul urmtor i
nu exist legturi ntre straturile neconsecutive O astfel de structur
se numete complet conectat i corespunde clasei de RNA numit
MLP (Multi Layer Perceptron), adic perceptronul multistrat.
Structura RNA este descris complet de matricea ponderilor
conexiunilor dintre dou straturi consecutive | | W , ale crei elemente
ji
w indic influena pe care ieirea neuronului i din stratul inferior o
are asupra activrii neuronului j din stratul urmtor. Ca i in cazul
perceptronului clasic, ponderile pozitive au caracter excitatoriu,
ponderile negative au caracter inhibitoriu, iar ponderile nule indic
absena conexiunii ntre cei doi neuroni. Evident, cu ct valoarea
absolut a ponderii
ji
w este mai mare, cu att influena neuronului i
asupra neuronului j este mai pregnant.
Ansamblul ponderilor constituie memoria RNA, adic parametrii
ce caracterizeaz, ntr-o manier absolut, procesul modelat de
reeaua neuronal artificial. Prin urmare, antrenarea reelei necesit
o strategie de ajustare a ponderilor, respectiv un algoritm de
antrenare sau nvare n cadrul cruia se prezint reelei neuronale un
numr de exemple formate din perechi (intrare ieire dorit), ale
cror atribute sunt cunoscute i reprezentative pentru procesul
modelat. Acestea formeaz mulimea de antrenare.
Structura prezentat n figura 2.9, prezint urmtoarele
proprieti, specifice unei largi categorii de reele neuronale:
(i) fiecare neuron acioneaz independent de ceilali neuroni
din acelai strat; ieirea unui neuron depinde numai de
semnalele ce se aplic pe conexiunile sale sinaptice de
intrare;
(ii) activarea fiecrui neuron depinde numai de informaii cu
caracter local; informaia ce este prelucrat de neuron
provine numai de pe conexiunile adiacente, nefiind
necesar cunoaterea strilor neuronilor care nu au
legturi directe cu neuronul considerat;
(iii) numrul mare de conexiuni existente asigur un grad
ridicat de rezervare i uureaz reprezentarea distribuit a
informaiei.
Primele dou proprieti permit funcionarea eficient a RNA n
paralel, iar ultima proprietate le confer o sensibilitate redus fa
de posibilele perturbaii, respectiv caliti de generalizare greu de
obinut cu sistemele clasice de calcul.
Clasificarea reelelor neuronale poate fi fcut pe baza mai
multor criterii care in cont de tipul parametrilor de intrare, modul de
nvare, existena legturilor de reacie invers, numrul de straturi
etc.
Clasificarea RNA n funcie de tipul parametrilor de intrare
n funcie de tipul parametrilor de intrare reelele neuronale sunt:
- reele cu intrri binare;
- reele cu intrri reale; n acest caz, valorile parametrilor de
intrare trebuie mapate (scalate) n domeniul [-1, 1].
Clasificarea reelelor neuronale pe baza modului de nvare
Legea de nvare a unei RNA este o relaie care specific modul
n care se modific toate sau numai o parte din ponderile unui neuron
ca rspuns la semnalele de intrare i valorile furnizate de funcia de
transfer. Aceast relaie permite reelei s nvee, adic s se adapteze
la exemplele furnizate, organizndu-i informaia privind topologia i
ponderile care se modific n mod dinamic pe parcursul procesului
de nvare.
n funcie de modul de nvare se disting dou tipuri de reele
neuronale: reele neuronale artificiale cu nvare supervizat i
reeleneuronaleartificialecunvarenesupervizat.
n cazul instruirii supervizate reeaua primete att datele
(vectorii) de intrare dintr-un set sau mulime de instruire, ct i
datele de ieire corespunztoare (rspunsuri corecte sau rspunsuri
dorite). Dup fiecare exemplu, reeaua compar propria-i ieire cu
rspunsurile corecte, corecteaz diferenele i ncearc din nou,
procednd n mod iterativ pn cnd eroarea rspunsului de ieire
ajunge sub nivelul impus. Metoda de antrenare supervizat mai
poart denumirea de nvare neadaptiv.
n cazul instruirii nesupervizate, reeaua dispune de datele de
intrare, dar nu mai primete nici o informaie privind ieirea corect.
n schimb, dup fiecare ncercare i se d o not, un scor de
performan, care cuantific corectitudinea rezultatului. Reeaua se
organizeaz numai n funcie de intrare, deci se autoorganizeaz,
grupnd setul de vectori de antrenare n zone (clustere) bazate pe un
concept de similitudine. Din aceast cauz, instruirea nesupervizat
mai poart denumirea de autoorganizare sau nvare adaptiv.
Se menioneaz faptul c nvarea nesupervizat este calitativ
superioar nvrii supervizate.
Pe baza celor dou criterii menionate tipul parametrilor de
intrare i modul de nvare se poate realiza clasificarea prezentat n
figura 2.10. n care se evideniaz ase dintre modelele RNA mai des
ntlnite.
Re ea
Hopfield
Re ea
Hamming

Clasificator
Carpenter-
Grossberg
Perceptron
Perceptron
multinivel
Re ele
Kohonen

nv are
supervizat

nv are
nesupervi-
zat

nv are
nesupervi-
zat

nv are
supervizat

Intr ri
binare

Intr ri
reale

Re ele neuronale artificiale


Fig. 2.10. Clasificarea RNA.
Reelele cu nvare supervizat, cum ar fi reeaua Hopfield i
perceptronii sunt utilizate mai ales ca memorii asociative sau ca
structuri de clasificare. Reelele cu nvare nesupervizat, cum ar fi
hrile cu auto-organizare Kohonen, sunt folosite mai ales pentru
formarea configuraiilor de memorii asociative.
Aceast clasificare este departe de a indica toate modelele
neuronale existente, clasificarea fcndu-se i pe baza altor criterii.
Clasificarea RNA pe baza legturilor de reacie invers
Un al treilea criteriu de clasificare se refer la existena sau
absena legturilor de reacie invers ntre neuronii din diversele
straturi ale reelei. Astfel, se disting patru tipuri de RNA:
- RNA nebuclate (reele feedforward). n asemenea reele
informaia circul ntr-un singur sens, de la intrare ctre ieire. La
un moment dat, starea unui neuron depinde numai de starea din
acelai moment a neuronilor de la care primete semnale (fig. 2.11,
a). RNA nebuclate sunt structuri statice, folosite cu precdere pentru
rezolvarea unor probleme de clasificare sau de identificare a
proceselor statice. Din aceast categorie fac parte reelele de tipul
perceptron multistrat, a crei arhitectur a fost prezentat anterior.
j
k
j
k
a.
b.
Fig. 2.11. Clasificarea reelelor neuronale pe baza
existenei/inexistenei reaciei inverse:
a RNA nebuclate (feedforward); b RNA buclate (feedback).
- RNA buclate (reele feedback) sunt acele reele ale cror
grafuri de conexiuni conin cicluri; circulaia informaiei are loc de
aceast dat n ambele sensuri (intrare-ieire, respectiv ieire-intrare),
astfel nct starea neuronilor la un moment dat este determinat de
starea curent i de starea la momentul anterior (fig. 2.11, b). Prin
urmare, RNA buclate au proprietile unor sisteme dinamice; ele sunt
utilizate ca memorii asociative i pentru identificarea sau controlul
sistemelor dinamice. Un exemplu de reea buclat l constituie
reelele Hopfield.
- RNA de tip mixt este o reea ce folosete att legturi
feedforward ct i legturi feedback. O reea hibrid, care folosete
att legturi feedforward ct i legturi feedback este reeaua
Hamming .
- RNA de tip celular (plas) constau din neuroni artificiali
numii celule, organizai ntr-o plas bidimensional, neuroni care
comunic direct doar cu ali neuroni aflai n imediata vecintate a
lor. Neuronii neconectai se pot influena unul pe cellalt indirect din
cauza propagrii semnalelor n timpul procesului de antrenare. Un
exemplu de astfel de reea este reeaua Kohonen.
Clasificarea RNA pe baza numrului de straturi ascunse
Un alt criteriu de clasificare a RNA are n vedere numrul de
neuroni din reea. Din acest punct de vedere se disting:
- RNA cu un singur strat. n acest caz stratul unic joac rol
dublu intrare-ieire. Totodat, absena altor straturi impune ca aceste
RNA s aib o topologie buclat. n aceast categorie se nscriu
reelele Hopfield, precum i variante ale acestora, care se deosebesc
n funcie de modul de conectare a neuronilor. Reele cu un singur
strat sunt folosite pentru completarea modelelor, filtrarea unor
semnale sau rezolvarea unor probleme de optimizare;
- RNA cu dou straturi. n acest caz, primul strat este stratul de
intrare, iar al doilea cel de ieire, neexistnd un strat ascuns. Reelele
din aceast categorie sunt folosite cu precdere ca reele
clasificatoare. n funcie de topologia lor, se disting RNA
feedforward (fig. 2.12) i RNA hibride feedforward-feedback (fig.
2.13).
y
1
y
2
y
n
x
2
x
1
x
n
x
2 y
2
x
1 y
1
x
n y
n
Fig. 2.12. RNA cu dou straturi de
tip feedforward.
Fig. 2.13. RNA cu dou straturi de
tip hibrid.
- RNA multistrat. Reelele din aceast categorie pot avea, n
principiu, un numr nelimitat de straturi. Toate straturile, cu
excepia primului i ultimului, sunt straturi ascunse. Structura
general a unei asemenea RNA a fost prezentat n figura 2.9.
Majoritatea RNA multistrat utilizate n diverse aplicaii practice fac
parte din categoria reelelor feedforward (nebuclate), iar rspndirea
cea mai mare o are perceptronul multistrat. Principalele aplicaii ale
acestui tip de reea au n vedere probleme de clasificare precum i de
aproximare euristic a unor funcii matematice.
2.4.2. Perceptronul multistrat MLP
Se consider o reea neuronal artificial de tip MLP cu un
singur strat ascuns (fig. 2.14) i se fac notaiile:
i
n - numrul neuronilor de pe stratul de intrare;
j
n - numrul neuronilor de pe stratul ascuns;
k
n - numrul neuronilor de pe stratul de ieire;
| | W - matricea ponderilor neuronilor de pe stratul ascuns ale crei
elemente
ji
w sunt ponderile conexiunilor sinaptice dintre
neuronul j de pe stratul ascuns i neuronul i de pe stratul de
intrare;
| | V - matricea ponderilor neuronilor de pe stratul de ieire ale crei
elemente
kj
v sunt ponderile conexiunilor sinaptice dintre
neuronul k de pe stratul de ieire i neuronul j de pe stratul
de ascuns;
e
n - numrul de exemple, adic numrul de perechi
( ) ,
m m
d X care alctuiesc mulimea de antrenare;
( ) m
k
y - ieirea neuronului k de pe stratul de ieire cnd la intrare se
prezint exemplul m;
( ) m
j
y - ieirea neuronului j de pe stratul ascuns cnd la intrare se
prezint exemplul m;
1
1
2
i
j
1
n
j
n
k
n
i
x
1
y
1
x
i
y
nk
x
ni
W
X
Y
V
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Stratul
de intrare
Stratul
de ieire
Stratul ascuns
Fig. 2. 14. Reea neuronal artificial cu un singur strat ascuns
2.4.2.1. Regula delta generalizat
Perceptronii multistrat cu mai multe ieiri i funcii de transfer
sigmoidale se mai numesc i reele backpropagation. Denumirea
provine de la algoritmul de nvare utilizat de aceste structuri i
anume algoritmul backpropagation BP sau algoritmul de
propagare napoi a erorii, respectiv algoritmul retropropagrii
introdus de Rumelhart i membrii grupului Parallel Distributed
Processing PDP n 1986. Acest algoritm poate depi limitrile
perceptronului enumerate de Minsy i Papert n 1969 i a fost
considerat un mare succes care a contribuit la relansarea calculului
neuronal n IA.
Algoritmul BP urmrete minimizarea erorii ptratice printr-o
metod de gradient. Din acest motiv funciile de activare sau transfer
ale neuronilor trebuie s fie continue i derivabile pe tot domeniul de
definiie, cerine satisfcute de funciile sigmoidale i funcia liniar.
La fel ca i n cazul perceptronilor, generarea unei reele MLP
cuprinde dou etape:
- etapa de nvare n care, pe baza mulimii de antrenare, se
sintetizeaz ponderile i valorile pragurilor de activare ale
neuronilor;
- etapa de testare, n care reeaua este utilizat pentru a clasifica
mulimi de forme necunoscute, dar similare celor din mulimea de
antrenare.
Algoritmul backpropagation de nvare al reelelor MLP const
n urmtorii doi pai:
1) parcurgere direct a reelei, de la intrri spre ieiri, n care se
determin ieirile generate de reea pentru exemplele din
mulimea de antrenare;
2) parcurgere napoi a reelei, de la ieiri spre intrri, n care
ieirile calculate se compar cu ieirile dorite pentru fiecare
exemplu i se determin eroarea care, printr-un proces de
propagare napoi, este utilizat la actualizarea ponderilor.
Legea de antrenare sau regula de modificare a ponderilor poart
denumirea regula delta generalizat i este descris de urmtoarele
trei propoziii:
(i) Pentru fiecare exemplu ( ) , , 1,
m m e
m n = X d din mulimea de
antrenare corecia unei ponderi oarecare a unui neuron j conectat
cu neuronul i din stratul precedent este proporional cu un
termen de eroare
( ) m
j
o asociat neuronului j, adic:
( ) ( ) m m
ji j i
w y A =qo (2.30)
n care: q este rata de nvare;
( ) m
i
y - ieirea neuronului i din stratul precedent.
(ii) Dac neuronul j se afl n stratul de ieire (fig. 2.15,a) termenul
de eroare este proporional cu diferena dintre valoarea dorit i
cea furnizat de reeaua neuronal i se calculeaz cu relaia:
( ) ( )
( ) ( ) ( ) ( ) ' m m m m
j j j j
d y f net o = (2.31)
n care:
( )
( ) ( ) m m
j j
d y este diferena dintre valoarea dorit i cea
furnizat de reeaua neuronal pentru exemplul m;
( )
( ) ' m
j
f net - derivata funciei de activare a neuronului j n
raport cu intrarea net a acestuia
( ) m
j
net corespunztoare
exemplului m considerat;
(iii) Dac neuronul j se afl n stratul ascuns (fig. 2.15,b) fiind legat
prin conexiunile sinaptice
kj
v cu neuronii din stratul de ieire,
termenul de eroare este proporional cu suma ponderat a
termenilor de eroare asociai neuronilor de ieire i se calculeaz
cu relaia:
( )
( ) ( ) ( ) ' m m m
kj j j k
k
v f net
| |
= |
|
\ .

o o (2.32)
n care
( ) m
k
o se determin cu relaia precedent (2.31) aplicat
neuronilor k de pe stratul de ieire.
i
j
y
i
w
ji
y
j ; d
j
; o
j
( ) m
( ) m ( ) m ( ) m
i
k
j
y
i
w
ji
v
kj
y
j
y
k
; d
j
; d
k
; o
j
; o
k
( ) m
( ) m
( ) m
( ) m
( ) m
( ) m
( ) m
a) b)
Fig. 2.15. Aplicarea regulii delta n funcie de poziia neuronului:
a) neuronul se afl pe stratul de ieire
b) neuronul se afl pe stratul ascuns
Dup cum se poate observa, erorile
( )
( ) ( ) m m
j j
d y , identificate
la ieire, sunt transmise napoi ctre intrare pentru a corecta
ponderile sinaptice dintre straturile succesive cu valori proporionale
cu aceste erori.
Regulile enunate se refer numai la ponderile neuronale fr a
se specifica nimic despre pragurile ce se pot asocia fiecrui neuron
din straturile de prelucrare. Aceast formalizare nu exclude utilizarea
pragurilor care pot fi tratate ca ponderi ale conexiunilor cu un neuron
din stratul precedent avnd ieirea 1.
2.4.2.2. Antrenarea MLP
O reea neuronal de tip MLP poate fi antrenat pentru
aproximarea unei funcii :
i k
n n
F R R sau pentru asocierea,
respectiv clasificarea formelor de intrare.
Procesul de antrenare const n modificarea iterativ a ponderilor
i pragurilor neuronilor de pe straturile de prelucrare n scopul
minimizrii funciei de performan a reelei. Aceasta poate fi:
- Abaterea ptratic parial:
( )
( )
( ) ( ) ( )
1
,
k
n
m m m
k k
k
E d y
=
=

W V (2.33)
- Abaterea ptratic medie parial:
( )
( )
( ) ( ) ( )
1
1
,
k
n
m m m
k k
k
k
E d y
n
=
=

W V (2.34)
- Abaterea ptratic total:
( )
( )
( ) ( )
1 1
,
e k
n n
m m
k k
m k
E d y
= =
=

W V (2.35)
- Abaterea ptratic medie total:
( )
( )
( ) ( )
1 1
1
,
e k
n n
m m
k k
e k
m k
E d y
n n
= =
=

W V (2.36)
n general funcia de performan utilizat este abaterea ptratic
medie multiplicat, din considerente de simplificare a expresiilor de
calcul, cu factorul
1
2
.
Implementarea algoritmului se poate efectua n dou moduri:
(i) modul incremental (incremental mode) n care coreciile
ponderilor se efectueaz fiecare exemplu, iar funcia de
performan este abaterea ptratic medie parial;
(ii) modul global (batch mode) n care coreciile ponderilor se
efectueaz dup ce toate exemplele din mulimea de
antrenare au fost prezentate reelei, adic la sfritul unei
epoci, iar funcia de performan este abaterea ptratic
medie total.
Determinarea matricelor ponderilor
*
W i
*
V care asigur
minimul funciei de performan se efectueaz impunnd condiiile:
0; 0, 1, , 1, , 1,
i j k
ji kj
E E
i n j n k n
w v
c c
= = = = =
c c
(2.37)
Acestea conduc la un sistem de ecuaii neliniare care se rezolv
iterativ printr-o metod de gradient.
2.4.2.2.1. Metoda gradientului descendent
Cea mai simpl metod de determinare a unui punct de extrem
local
*
x pentru funcia ( ) y f x = const n anularea derivatei
( )
'
0
df
f x
dx
= = (2.37)
n cazul unei funcii neliniare, cu o form complex, rezolvarea
direct a ecuaiei (2.37) nu este posibil i din acest motiv se recurge
la o metod iterativ. Astfel, pentru a determina minimul se pornete
de la o aproximaie iniial
0
x i se genereaz un ir de aproximaii
succesive folosind relaia de recuren:
( )
'
1
t
t t t t
x x
df
x x x f x
dx
q q
+
=
= = (2.38)
care definete aa numita metod a gradientului descendent.
n aceast relaie q este un parametru pozitiv utilizat pentru a
amplifica sau atenua deplasarea n lungul direciei ( )
'
df
f x
dx
= . n
cazul unor valori mari punctul de minim poate fi depit, iar n cazul
unor valori prea mici apropierea de punctul de minim cutate poate
deveni prea lent.
n cazul algoritmului backpropagation pentru care funcia de
performan, al crei minim este cutat, depinde de mai multe
variabile (ponderile conexiunilor sinaptice
ji
w i
kj
v ) relaia de
recuren (2.38) se aduce la forma vectorial nlocuind derivata cu
gradientul. Rezult, astfel, urmtoarele relaii, specifice metodei
gradientului descendent, pentru determinarea ponderilor
conexiunilor sinaptice ale neuronilor de pe stratul ascuns:
( )
1 t t t
E q
+
= V W W W (2.39,a)
respectiv ale celor de pe stratul de ieire:
( )
1 t t t
E q
+
= V V V V (2.39,b)
n care q este viteza de nvare.
2.4.2.2.2. Metoda Newton de ordinul II
n metoda gradientului descendent procesul de cutare a
punctului de minim al funciei de performan a reelei MLP const
n deplasarea dup direcia antigradientului pe o lungime
proporional cu rata de nvare q a crei valoare este selectat n
mod arbitrar de ctre utilizator. O convergen mai rapid a
procesului iterativ de calcul ctre punctul de minim cutat este
posibil atunci cnd se cunosc detalii suplimentare privind funcia
( ) y f x = , detalii care s permit estimarea unei valori optime
pentru viteza de nvare q .
Fiind cunoscut o estimare oarecare
t
x a punctului de extrem
cutat se pune problema determinrii coreciei
t
x A astfel nct
1 t t t
x x x
+
= + A s constituie soluia problemei, adic :
( ) ( )
' '
1
0
t t t
f x f x x
+
= + A = (2.40)
n acest sens, se dezvolt n serie Taylor ( ) f x n jurul punctului
t
x i se rein termenii pn la ordinul I. Rezult:
( ) ( ) ( ) ( )
'
1 t t t t
f x f x x f x f x x
+
= + A ~ + A (2.42)
Aplicnd acestei expresii operatorul de derivare i admind c noua
aproximare
1 t t t
x x x
+
= + A este soluia cutat se obine:
( ) ( ) ( ) ( ) ( )
' " ' "
1
0
t t t t t t t
f x f x x f x f x x x
+
+ A = + = (2.43)
din care rezult relaia de recuren:
( )
( )
1
'
''
t
t t
t
f x
x x
f x
+
= (2.44)
Comparnd relaia (2.44) cu relaia (2.38) din metoda
gradientului descendent rezult c
( )
"
1
t
f x
reprezint o estimare a
vitezei de nvare n punctul
t
x .
n cazul unei funcii de mai multe variabile :
n
f R R ,
( ) y f = X relaia (2.44) capt forma vectorial:
( ) ( )
1
1 t t t t
f

+
( = V

X X H X X (2.45)
n care: | |
1 2
, ,...,
T
n
x x x = X ;
( )
t
H X este matricea hesian, iar ( )
t
f V X gradientul funciei
n punctul
t
= X X .
Adaptarea metodei Newton de ordinul II la antrenarea reelelor
MLP conduce la urmtoarele relaii de recuren pentru modificarea
ponderilor:
( ) ( )
1
1 t t t t

+
( = V

W W H W E W (2.46,a)
( ) ( )
1
1 t t t t

+
( = V

V V H V E V (2.46,b)
Utilizarea relaiilor (2.46) n cadrul procesului de antrenare a
unei reele neuronale de tip MLP, impune vectorizarea matricelor
W i V, adic transformarea acestora n vectori de forma:
11 1 1
,..., ,..., ,...,
i j j i
T
n n n n
w w w w
(
=

W
respectiv
11 1 1
,..., ,..., ,...,
j k k j
T
n n n n
v v v v
(
=

V
Dup cum se poate observa adaptarea ponderilor se realizeaz
folosind viteze de nvare distincte pentru fiecare pondere, care, n
plus, se modific de la o iteraie la alta.
2.4.2.2.3. Metoda gradientului conjugat
Metodele de gradient conjugat utilizate n problemele de
determinare a unui punct de extrem al unei funcii de mai multe
variabile :
n
f R R , pornesc de la o aproximaie iniial
0
X i
determin un ir de aproximaii succesive prin deplasarea n n pai
dup n direcii H conjugate.
Dup cum este cunoscut, doi vectori ,
n
R e X Y care satisfac
relaia
0
T
= X Y (2.47)
se numesc canonic conjugai.
Relaia (2.47) se poate scrie i sub forma:
0
T
n
= X I Y (2.48)
n care
n
I este matricea unitate de ordinul n.
Generaliznd, dac pentru o matrice oarecare H de ordinul n,
vectorii ,
n
R e X Y satisfac relaia
0
T
= X H Y (2.49)
atunci acetia se numesc H conjugai.
Pentru a determina minimul funciei ( ) : ,
n
f R R y f = X
folosind metoda gradientului conjugat, se pornete din punctul iniial
0
X i se alege deplasarea
0
AX n sensul antigradientului. Pentru
simplificarea expunerii deplasarea AX se va nota cu Y. Prin
urmare, ( )
0 0 0
f A = = V X Y X .
n continuare procesul de cutare se desfoar n n pai, dup n
direcii H conjugate,conform relaiei:
( )
1 1 t t t t
f |
+ +
= V + Y X Y (2.50)
n care:
1 t t t t t t t
q q
+
= + A = + X X X X Y este o aproximaie
intermediar, iar
t
| un scalar care se determin astfel nct vectorii
1 t +
Y i
t
Y s fie H conjugai, adic:
1
0
T
t t +
= Y H Y (2.51)
Avnd n vedere relaia (2.50) relaia (2.51) devine:
( )
( )
1
1
0
T
t t t t
T
T
t t t t t
f
f
|
|
+
+
( V + =

( V + =

X Y H Y
X H Y Y H Y
(2.52)
din care rezult:
( )
1
1
T
T
t t t t t
f |

+
(
( = V


Y H Y X H Y (2.53)
Pentru a utiliza metoda gradientului conjugat la antrenarea
reelelor neuronale de tip MPL funcia f este nlocuit cu funcia de
performan, iar vectorul X cu vectorul U format prin vectorizarea
simultan a matricelor ponderilor sinaptice W i V, adic:
11 1 1 11 1 1
,..., ,..., ,..., , ,..., ,..., ,...,
i j j i j k k j
T
n n n n n n n n
w w w w v v v v
(
=

U
Implementarea acestei metode implic rezolvarea urmtoarelor
dou probleme suplimentare:
1. Selectareavitezei denvare
t
q
O metod de determinare a unei valori pentru rata de nvare
t
q
const n aproximarea variaiei funciei de performan n raport cu
q printr-un polinom de gradul II, adic:
( )
2
E A B C q q q = + + (2.54)
din care, prin anularea derivatei, rezult valoarea optim
*
2
B
A
q = (2.55)
n cadrul fiecrui pas de calcul, coeficienii A, B i C se
determin evalund funcia de performan n trei puncte distincte,
astfel:
- pentru 0 q = rezult
1 t t t
q = + = U U Y U , respectiv
1 1
( ) C E E = = U (2.56,a)
- pentru 0.5 q = rezult
2
0.5
t t
= + U U Y , respectiv
2 2
1 1
( )
4 2
A B C E E + + = = U (2.56,b)
- pentru 1 q = rezult
3 t t
= + U U Y , respectiv
3 3
( ) A B C E E + + = = U (2.56,c)
Rezolvnd sistemul de ecuaii format din relaiile (2.56,a,b,c) se
obin coeficienii A, B i C, iar din relaia (2.55) valoarea vitezei de
nvare.
2. Selectareamatricei H pentrucalculul factorului
t
|
Matricea H din expresia (2.53) a factorului
t
| ar putea fi
Hessianul funciei de performan E. Totui, pentru reducerea
timpului de calcul se evit calculul matricei Hessian. n acest sesns,
dezvoltnd n serie Taylor gradientul ( )
1 t
E U
+
V i adoptnd o serie
de ipoteze simplificatoare se poate demonstra c:
( ) ( )
1
/
t t t t
E E q
+
( ~ V V

H Y U U (2.57)
nlocuind relaia (2.57) n (2.53) rezult:
( ) ( )
{ }
( ) ( ) ( )
1
1
1 1
T
t t t t
T
t t t
E E
f E E
|

+
+ +
(
( = V V


( ( V V V

Y U U
X U U
(2.58)
2.4.3. Reele neuronale artificiale Kohonen
Reelele neuronale Kohonen numite hri de trsturi cu auto-
organizare, sunt inspirate din modul n care este organizat cortexul
cerebral care, dup cum este cunoscut, are rolul de a coordona
funciile organismului. El poate fi asemuit cu o pnz subire, de
ntindere relativ mare (aproximativ 0,5 m
2
), pliat astfel nct s
poat ocupa suprafaa din interiorul craniului, pe care se realizeaz o
proiecie deformat a ntregului corp uman. Pentru a asigura
coordonarea funciilor organismului n scopul asigurrii unitii
funcionale a acestuia i al adaptrii la mediu, cortexul sau scoara
cerebral posed proprieti topologice/organizatorice remarcabile.
De exemplu, zona corespunztoare minii se afl lng zona
corespunztoare braului i aa mai departe.
Pornind de la aceste observaii, Kohonen a pus bazele teoriei
hrilor de trsturi cu auto-organizare, care sunt reele neuronale
artificiale cu nvare nesupervizat i cu ieiri con
tinue, cunoscute i ca reele neuronale Kohonen.
Auto-organizarea se definete ca fiind capacitatea unui sistem de
a descoperi i nva structura datelor de intrare chiar i atunci cnd
nu exist informaii referitoare la aceast structur. Fr a i se
specifica rspunsul corect pentru fiecare exemplu prezentat la
intrare, reeaua neuronal artificial cu auto-organizare nva
singur. Cu alte cuvinte, ea descoper trsturi caracteristice ale
datelor de intrare pe care le organizeaz i le memoreaz ntr-o
manier specific. n acest context, setul sau mulimea de antrenare
conine numai mrimile de intrare
k
X i nu perechi de tipul
( ) ,
k k
d X adic intrare ieire dorit.
Informaiile privind trsturile specifice mulimii datelor de
antrenare sunt sintetizate n cursul procesului de nvare
nesupervizat i sunt memorate n vectorii conexiunilor sinaptice ale
cror componente nu mai reprezint ponderile ci componentele aa
numiilor vectori prototip. Fiecare neuron al reelei artificiale
corespunde unui prototip, iar ieirea definete relaia dintre intrarea
curent i aceste prototipuri memorate.
Particularitatea reelelor Kohonen este aceea c neuronii nu mai
sunt aezai pe straturi (de intrare, de ieire i ascuns), ci n nodurile
unei plase bidimensionale de dimensiune ( m k ) (fig 2.16), numit
grila suport.
n aceast structur exist conexiuni doar ntre intrarea
| |
1 2
, ,...,
T
n
x x x = X i fiecare neuron, prin intermediul vectorilor
1, , ,
,... ,... 1, 2,...
T
j j i j n j
w w w j m k ( = =

W , iar ponderile legturilor
dintre neuroni grilei suport nu au nici o relevan. Fiecare neuron
este asociat unei clase, motiv pentru care se utilizeaz i termenul
neuron clas, i este caracterizat de:
- vectorul
1, , ,
,... ,... 1, 2,...
T
j j i j n j
w w w j m k ( = =

W numit
vector prototip asociat;
- poziia sa pe grila suport, adic coordonatele
x
r i
y
r .
1
k
n
Intrare
x
1
x
2
x
n
m
Fig. 2. 16. Structura unei reele neuronale Kohonen.
Interaciunea dintre neuroni depinde de distana dintre acetia.
Distana dintre doi neuroni r i s poate fi definit ca fiind distana
euclidian:
( ) ( ) ( )
2 2
,
x x y y
d r s r s r s = + (2.59)
sau distana Manhattan:
( , )
x x y y
d r s r s r s = + . (2.60)
La nceputul procesului de antrenare al reelei, componentele
, i j
w ale vectorilor prototip sunt iniializate aleator urmnd a fi
adaptate ntr-o manier care s asigure faptul c neuronii apropiai
din punct de vedere topologic, s fie sensibili la intrri apropiate.
Astfel, dup iniializarea aleatoare a valorilor ponderilor
, i j
w ,
reelei i se prezint la intrare cte un exemplu , 1, 2,...,
m e
m n = X din
mulimea de antrenare care este comparat cu toi vectorii prototip
1, 2,...,
j
j m k = W n scopul determinrii neuronului ctigtor.
Acesta este neuronul al crui vector prototip este cel mai apropiat de
vectorul
m
X prezentat la intrare, adic neuronul * j care satisface
relaia:
*
min{ }, 1, 2,...,
j j
j
d d j m k = = (2.60)
n care
( )
2
,
1
, 1, 2...,
n
j i i j
i
d x w j m k
=
= =

. (2.61)
Dup ce a fost determinat ctigtorul competiiei, are loc
procesul de actualizare a ponderilor. n acest sens, se utilizeaz
conceptul de vecintate. Vecintatea unui neuron j, notat ( ) V j este
format din acei neuroni pentru care distana dintre ei i neuronul j nu
depete o valoare prestabilit. Vecintatea unui neuron depinde de
tipul de distan utilizat. Pentru exemplificare, n figura 2.17 sunt
prezentate vecintatea de dimensiune 2 a unui neuron n situaia
utilizrii distanei euclidiene (2.17, a), respectiv a distanei
Manhattan (2.17, b).
Actualizarea ponderilor se face utiliznd relaia:
( )( ) , *
ij ij i ij
w w j j x w + qA (2.62)
unde: q este viteza de nvare;
( ) , * j j A funcia de nvecinare definit de relaia:
( )
( ) 1, dac *
, *
0, altfel
j V j
j j
e
A =

(2.63)
Pentru a eficientiza procesul de antrenare, valoarea vitezei de
nvare i a funciei de nvecinare sunt modificate n timp folosind n
acest sens relaiile:
( ) , 0 1 t t
o
q = < o s (2.64)
i
( )
( )
( )
2
, *
, *, exp
2
dist j j
j j t
t
| |

| A =
|
o
\ .
(2.65)
unde ( ) , 0 1 t t
|
o = < | s .
Procesul de antrenare se ncheie atunci cnd ponderile ataate
tuturor neuronilor nu se mai modific semnificativ.
a.
b.
Fig. 4.17. Vecintate de dimensiune 2 n cazul utilizrii:
a distanei euclidiene; b distanei Manhattan.
Dup prezentarea unui numr suficient de vectori de intrare, neuronii
clas din reea vor evidenia grupri de puncte sub forma unor nori
sau clustere care partiioneaz spaiul de intrare. Cu alte cuvinte
reeaua ncearc s proiecteze grila suport n spaiul de intrare astfel
nct fiecare vector de antrenare s fie ct mai apropiat de un
prototip, iar grila suport s fie ct mai puin posibil deformat.