Sunteți pe pagina 1din 20

REELE NEURONALE ARTIFICIALE

GENERALITI. NEURONUL FORMAL. PERCEPTRONUL MULTISTRAT


La originea dezvoltrii cercetrilor n domeniul reelelor neuronale artificiale (RNA) se
gsete o constatare simpl : exist sarcini crora calculatoarele numerice convenionale le pot
face fa cu dificultate, n timp ce sistemul nervos al celor mai simple organisme gsete un
rspuns fr a face eforturi evidente. Acestea sunt, de exemplu, cazurile recunoaterii formelor
sau coordonrii micrilor. Performanele remarcabile ale creierului uman au lsat s se
ntrevad unele avantaje ce s-ar putea obine folosind modele de inspiraie biologic.
Primul model al neuronului formal, acceptat n linii generale i astzi, este propus n anul
1943 de ctre W.S. McCulloch i W. Pitts. Cercetrile ntreprinse ulterior n neurobiologie i
psihologie, conduc la primul model de nvare, propus de ctre D.O. Hebb n 1949. Un
impact deosebit asupra cercetrilor ntreprinse n direcia realizrii primelor reele neuronale
artificiale, l-a reprezentat publicarea de ctre F. Rosenblatt, n anul 1958, a primelor sale lucrri
despre perceptron. Timp de un deceniu, oamenii de tiin au fost aproape unanimi n a
considera c noua paradigm poate fi aplicat cu succes pentru numeroase probleme practice, n
care sunt implicate inteligena i memoria uman.
n anul 1969, ns, M. Minsky i S. Papert demonstreaz imposibilitatea principial a
modelelor de reele neuronale artificiale propuse pn atunci de a modela probleme relativ
simple, aa cum este cazul funciei logice SAU EXCLUSIV (XOR). Aceste concluzii au condus la
o scdere dramatic a interesului pentru noi cercetri n aceast direcie.
Evenimentul care a relansat cercetrile comunitii tiinifice mondiale nspre realizarea
unor modele conexioniste performante l-a reprezentat apariia n 1986 a crii Parallel
Distributed Processing, Explorations in the Microstructure of Cognition de D. Rumelhart i J.
McClelland, care introduce noiunea de perceptron multistrat. n prezent, prin rezolvarea unor
probleme de complexitate ridicat, cum sunt cele de estimare, identificare i predicie sau
optimizare, reelele neuronale artificiale capt o pondere i un impact tot mai mari n numeroase
sectoare ale tiinei, tehnologiei sau vieii sociale.
Neuronul formal
Neuronul formal este un element de procesare a informaiei care modeleaz, de o
manier simplificat, neuronul real. Cea mai simpl versiune de neuron formal este un automat
binar cu dou stri : activ (+1) i inactiv (-1) (Fig. 1).
Starea neuronului se actualizeaz periodic dup urmtorul mecanism: se determin
potenialul neuronal vi , calculnd suma ponderat a intrrilor xj (care reprezint ieirile altor
neuroni din reea sau informaii provenind de la neuronii de intrare); acest potenial este
comparat cu un prag i , neuronul activndu-se (yi = +1) dac vi i sau devenind pasiv (yi = 1) dac vi < i. Aceast prelucrare a informaiei n interiorul neuronului corespunde unei funcii de
transfer de tip treapt (Heviside), denumit frecvent funcie de activare.

X1

X2

Neuron i
11

12

+1
X3

13

v
-1

W 1n

Fig.1 Neuronul formal

y
i

Variante mbuntite ale neuronului formal utilizate n present folosesc diverse funcii de
activare. Cele mai utilizate funcii de activare sunt:
Funcia de activare liniar, (Fig. 2a) de forma :

f ( x) = a x + b
unde coeficientul b joac rolul unui prag. Pentru a = 1 i b = 0 se obine funcia de activare
identitate, iar pentru a = 1 i b 0 funcia de activare identitate plus prag.
Funcia de activare treapt (Fig. 2b)
n acest caz, dac mrimea de intrare a neuronului, x, atinge sau depete un prag predefinit ,
funcia produce la ieirea neuronului valoarea ; n caz contrar, la ieire se obine valoarea .
Mrimile i sunt scalari pozitivi, iar funcia treapt este definit formal cu relaia:

dac x
f ( x) =
dac x
De regul, pentru constantele i se folosesc valori corespunztoare unor reprezentri binare,
de exemplu = 1 i = 0, respectiv = =1.
Funcia de activare ramp (Fig. 2c), combinaie ntre funciile liniar i treapt.
Aceast funcie de activare stabilete limite maxim i minim pentru ieirea neuronului ( ),
asigurnd totodat o variaie liniar ntre aceste limite. De regul, punctele de saturare sunt
simetrice n raport cu originea, iar expresia funciei ramp este:

dac x

f ( x) = x dac | x |
dac x

Funcii de adaptare tip sigmoid (varianta continu a funciei ramp).


Acestea sunt fucii mrginite, monotone i nedescresctoare, care asigur o variaie continu a
mrimii de ieire a neuronului, ntr-un domeniu predefinit. Cele mai rspndite funcii sigmoid
sunt:
-

sigmoidul logistic sau unipolar (Fig. 2d)

f ( x) =

1
1 + e x

sigmoidul tangent hiperbolic sau bipolar (Fig. 2e)

f ( x) =

1 e x
1 + e x

- Funcii de adaptare de tip gaussian (Fig 2f).


Aceste funcii au form radial, simetric n raport cu o valoare medie xm i sunt caracterizate de
un anumit grad de mprtiere, descries de variana :

f ( x ) = e ( x xm )

f(x)

f(x)

(a)

(b)

f(x)

f(x)
1

-
0
(c)

(d)

f(x)

f(x)

-1
(e)

0
(f)

Fig. 2 Funcii de activare utilizate de RNA

Reele neuronale artificiale


Neuronul formal calculeaz suma ponderat a intrrilor, care este trecut apoi prin
funcia de activare, cu o form n general neliniar. ndeplinirea unor funcii care s fac posibil
abordarea unor probleme complexe, de interes practic, este posibil numai dac neuronii sunt
asociai ntr-un sistem numit reea neuronal.
Reelele neuronale artificiale (RNA) sunt formate din neuroni (elementele de procesare),
legai prin conexiuni sinaptice (cile de transmitere a informaiei ntre neuroni), caracterizate de
anumite ponderi. Fig. 3 ilustreaz structura tipic a unei RNA.
RNA sunt organizate pe straturi. Reeaua din Fig. 3 conine trei straturi de neuroni, dintre
care primul este stratul de intrare, iar ultimul stratul de ieire, stratul intermediar numindu-se strat
ascuns.
Singurele straturi care realizeaz procesarea propriu-zis a informaiei sunt stratul
ascuns i cel de ieire. Neuronii din primul strat au numai rolul de a prelua mrimile de intrare n
reea; de aceea, aceti neuroni, fie nu au funcii de activare, fie folosesc funcii de activare
identitate (yi = vi). Din acelai motiv, neuronii de intrare nu sunt considerai ca formnd un strat i,
de multe ori, o reea ca cea din Fig. 3 este desemnat ca reea cu dou straturi.
Ieiri
Z1

y1

X1

Z3

Z2

y2

X2

X3

Intrri

Fig. 3 Arhitectura tipic a unei reele neuronale artificiale


Legturile dintre straturile RNA se realizeaz prin conexiuni sinaptice ponderate. Pentru
RNA din Fig. 3, fiecare neuron dintr-un strat este legat cu toi neuronii din stratul urmtor i nu
exist legturi ntre straturile neconsecutive (de exemplu, intrare-ieire). O asemenea structur
este cunoscut sub numele de RNA complet conectat. Structura RNA este descris complet de
matricea ponderilor conexiunilor dintre dou straturi consecutive [W], ale crei elemente wij
indic influena pe care ieirea neuronului j din stratul inferior o are asupra activrii neuronului i
din stratul superior. Astfel, ponderile pozitive au caracter excitatoriu, ponderile negative - caracter
inhibitoriu, iar ponderile nule indic absena conexiunii ntre cei doi neuroni. Totodat, cu ct
valoarea absolut a ponderii wij este mai mare, cu att influena excitatorie / inhibitorie a
neuronului j asupra neuronului i este mai pregnant.
RNA din Fig. 3 are anumite proprieti care se aplic unei categorii largi de reele
neuronale:

fiecare neuron acioneaz independent de ceilali neuroni din acelai strat; ieirea
unui neuron depinde numai de semnalele ce se aplic pe conexiunile sinaptice de
intrare;
activarea fiecrui neuron depinde numai de informaii cu caracter local; informaia ce
este prelucrat de neuron provine numai de pe conexiunile adiacente, nefiind
necesar cunoaterea strii altor neuroni cu care neuronul considerat nu are legturi
directe;
numrul mare de conexiuni existente asigur un grad ridicat de rezervare i uureaz
reprezentarea distribuit a informaiei.

Primele dou proprieti permit funcionarea eficient a RNA n paralel, iar ultima
proprietate le confer o sensibilitate redus fa de posibilele perturbaii i caliti de generalizare
greu de obinut cu sistemele clasice de calcul.
Aceste proprieti sugereaz urmtoarele trei cazuri importante, n care utilizarea RNA se
poate dovedi avantajoas:

situaii care impun luarea unui numr mic de decizii pe baza unei cantiti mari sau
foarte mari de informaii;
situaii care necesit realizarea automat a unor clasificri neliniare;
situaii n care se dorete obinerea n timp real a unei soluii optimale sau
suboptimale pentru o problem de optimizare combinatorie.

Exist mai multe criterii de clasificare a RNA. n continuare, vom prezenta dou dintre
aceste criterii, care au n vedere arhitectura acestora.
Un prim criteriu se refer la existena sau absena legturilor de reacie invers ntre
neuronii din diversele straturi ale reelei. Astfel, se disting dou tipuri:

RNA nebuclate (reele feedforward). n asemenea reele informaia circul ntr-un


singur sens, de la intrare ctre ieire, deci la un moment dat, starea unui neuron
depinde numai de starea de la acelai moment a neuronilor de la care primete
semnale. Prin urmare, RNA nebuclate sunt structuri statice, folosite cu precdere
pentru rezolvarea unor probleme de clasificare sau de identificare a proceselor
statice. Din aceast categorie fac parte reelele de tipul perceptronului multistrat, a
crui arhitectur a fost prezentat n Fig. 3.
RNA buclate (reele feedback) sunt acele reele ale cror grafuri de conexiuni conin
cicluri; circulaia informaiei are loc de aceast dat n ambele sensuri (intrare-ieire,
respectiv ieire-intrare), astfel nct starea neuronilor la un moment dat este
determinat de starea curent i de starea la momentul anterior. Prin urmare, RNA
buclate au proprietile unor sisteme dinamice; ele sunt utilizate ca memorii
asociative i pentru identificarea sau controlul sistemelor dinamice. Dintre reelele
buclate folosite mai des n aplicaiile practice, menionm reelele Hopfield i
Kohonen, ale cror arhitecturi sunt prezentate n Fig. 4 i Fig. 5.

O reea hibrid, care folosete att legaturi feedforward, ct i legturi feedback, este
reeaua Hamming (Fig. 6), numit i clasificator dup similaritate maxim.

Ieiri ( dup convergen )


X1

X2

Xn-

...

On-1

Xn

Neuroni
ieire
X1

Xn
X2
Xn-1
Intrri ( la momentul iniial )

Fig. 4 Reea Hopfield

Fig. 5 Reea Kohonen

Ieiri (dup convergena reelei MAXNET)


YM-

Y2

Y1

Reea MAXNET

...

Reea asociere
X1

X2

Xn-

Xn

Intrri (la momentul iniial)

Fig. 6 Reea Hamming


Cel de-al doilea criteriu de clasificare a RNA are n vedere numrul straturilor de neuroni
din reea. Din acest punct de vedere se disting:
RNA cu un singur strat. n acest caz stratul unic joac rol dublu intrare-ieire.
Totodat, absena altor straturi impune ca aceste RNA s aib o topologie buclat .
n aceast categorie se nscriu reelele Hopfield (Fig. 4), precum i variante
ale acestora, care se deosebesc n funcie de modul de conectare a neuronilor.
Reelele cu un singur strat sunt folosite pentru completarea modelelor, filtrarea unor
semnale sau rezolvarea unor probleme de optimizare.
RNA cu dou straturi. n acest caz, primul strat este stratul de intrare, iar al doilea cel
de ieire, neexistnd un strat ascuns. Reelele din aceast categorie sunt folosite cu
precdere ca reele clasificatoare. n funcie de topologia lor, se disting RNA
feedforward (Fig. 7) sau RNA hibride feedforward-feedback (Fig. 8).
RNA multistrat. Reelele din aceast categorie pot avea, n principiu, un numr
nelimitat de straturi. Toate straturile, cu excepia primului i ultimului, sunt straturi
ascunse. Structura general a unei asemenea RNA este indicat n Fig. 9.
Majoritatea RNA multistrat utilizate n diverse aplicaii practice fac parte din categoria
reelelor feedforward (nebuclate), iar rspndirea cea mai mare o are perceptronul
multistrat. Principalele aplicaii ale acestui tip de reea au n vedere clasificarea i
aproximarea funciilor.

y1

y2

. . .

x1

x2

. . .

Fig. 7 RNA cu dou straturi


de tip feedforward

yn

xn

y1

y2

. . .

yn

x1

x2

. . .

xn

Fig. 8 RNA cu dou straturi


de tip hibrid

Ieiri
...

...

...

...

...

...

...

...
Intrri

Fig. 9 Perceptronul multistrat


nvarea reelelor neuronale artificiale
Utilizarea RNA n cadrul unei anumite aplicaii necesit parcurgerea, n prealabil, a unei
etape eseniale - etapa de nvare sau antrenare. n majoritatea cazurilor, antrenarea unei RNA
const n determinarea ponderilor conexiunilor sinaptice dintre neuroni wij i a pragurilor fiecrui
neuron i , care asigur performanele optime ale reelei, n sensul n care, pentru un set de date
aplicat la intrare, reeaua ofer la ieire rspunsul cel mai apropiat de realitatea problemei
analizate.
Metodele de antrenare pot fi clasificate n dou mari categorii: antrenare supravegheat
i antrenare nesupravegheat.
Antrenarea supravegheat, numit uneori i nvare neadaptiv, prezint urmtoarele
particulariti:
informaia prelucrat are caracter global;
setul de date de nvare conine un numr finit de modele de nvare, organizate n
perechi intrare-ieire cunoscute n prealabil;
adaptarea ponderilor conexiunilor neuronilor se face calculul abaterilor ntre ieirile
reale i cele dorite, pentru fiecare model din setul de antrenare;
necesit supravegherea din exterior a procesului de adaptare a ponderilor i
pragurilor, prin calculul abaterii ntre ieirile reelei i cele dorite;
ncheierea etapei de antrenare se face la hotrrea supraveghetorului, care decide
unilateral dac, n acel moment, performanele reelei sunt sau nu satisfctoare.
n aceast categorie intr majoritatea reelelor neuronale artificiale utilizate n present, cel
mai utilizat i cunoscut tip fiind perceptronul multistrat.
Antrenarea nesupravegheat, numit i nvare adaptiv sau auto-organizare, prezint
urmtoarele particulariti:
informaia prelucrat are caracter local;
setul de date de nvare poate conine un numr nelimitat de exemplare, care se
adaug la setul iniial pe msura rafinrii performanelor reelei;
procesul de adaptare a ponderilor i pragurilor conexiunilor sinaptice i neuronilor din
reea nu necesit supravegherea din exterior, deoarece reeaua i organizeaz
singur informaia, asigurnd simultan adaptarea ponderilor conexiunilor sinaptice;
etapa de antrenare se ncheie n momentul n care se definitiveaz organizarea
datelor din setul de nvare iniial; ea poate fi reluat ns oricnd, dac apar noi
caracteristici ale datelor din acest set.
n categoria metodelor de nvare nesupravegheat intr metodele asociate reelelor de
tip Hopfield i Kohonen.

Aplicaii ale reelelor neuronale artificiale


Cteva din operaiile pe care le pot executa cu succes RNA sunt urmtoarele:
clasificarea - reelei i se furnizeaz un model de intrare , la ieire obinndu-se
clasa sau categoria crora le aparine modelul respectiv;
asocierea modelelor - reelei i se furnizeaz un model de intrare, la ieire
obinndu-se un model asociat primului pe baza unor reguli transmise reelei n etapa
de nvare;
completarea modelelor - reelei i se furnizeaz un model de intrare incomplet (din
care lipsesc o serie de informaii), la ieire obinndu-se modelul reconstituit;
filtrarea semnalelor - la intrarea reelei se aplic un semnal afectat de zgomot, iar
la ieire se obine un semnal filtrat, din care s-a eliminat total sau parial componenta
zgomot;
optimizare - reelei i se prezint un model de intrare care reprezint valorile iniiale
ale unei probleme de optimizare, la ieire obinndu-se un set de variabile, care
reprezint soluia optimal sau suboptimal a problemei;
control - modelul de intrare care se transmite reelei reprezint starea curent a unui
element de control i rspunsul care se dorete de la acesta, iar la ieire se obine
secvena de comenzi care conduce la acest rspuns.
APLICAIE
n cadrul edinei de laborator, se va utiliza aplicaia sofware care permite studiul
funcionrii neuronului elementar. Se va studia funcionarea neuronului cu o intrare (Fig.10), a
neuronului cu dou intrri (Fig. 11) i a unei reele neuronale simple de tip feedforward cu dou
straturi (fig. 12). Cu ajutorul unor cursoare, se pot alege diferite valori pentru mrimile de intrare i
pragul de activare al fiecrui neuron. Programul permite utilizarea unei funcii de activare
identitate, sigmoid logistic sau tangent hiperbolic. Rezultatele sunt prezentate sub form
numeric i grafic.
Se vor realiza combinaii mrimi de intrare praguri funcii de activare, analiznd i
comparnd rezultatele obinute.

Fig. 10 Neuronul cu o intrare

Fig. 11 Reea neuronal simpl

Fig. 12 Neuronul cu dou intrri

PERCEPTRONUL MULTISTRAT
Lucrarea publicat de M. Minsky i S. Papert n anul 1969 demonstra fr nici un dubiu c
reelele dezvoltate pe baza perceptronului lui Rosenblatt nu permit rezolvarea unor probleme
simple, , aa cum este cazul funciei logice SAU EXCLUSIV (XOR) . Peste aproape 20 de ani, sa sugerat c s-ar putea ncerca introducerea unor neuroni ascuni pentru care nu exist intrri
i ieiri cunoscute apriori fiind astfel posibil abordarea unor probleme de genul celor amintite
de Minski i Papert. Ca urmare, D. Rumelhart i J. McClelland au propus n 1986 ca, ntr-o reea
neuronal, care conine i neuroni ascuni, s se aplice aa numita nvare sau antrenare dup
principiul propagrii napoi sau retropropagrii erorii..
nvarea prin retropropagarea erorii
Algoritmul de retropropagare a erorii propus de Rumelhart i McClelland este denumit
uneori i forma generalizat a regulii . Acest algoritm, pornete de la un set de date de
antrenare format din perechi intrare ieire dorit foarte asemntor modului de definire tabelar
a funciilor n vederea aproximrii. De exemplu, pentru o funcie f, care depinde de trei variabile x,
y i z, tabelul de definiie are forma din Fig. 13. De aceast dat ns variabilele x, y i z de care
depinde funcia sunt tratate ca mrimi de intrare ale reelei neuronale (notate, n general, cu x1,
x2, , xn), n timp ce funcia nsi f reprezint ieirea reelei (notat, n general, cu d ). Ponderile
reelei neuronale de tip PMS se iniializeaz cu valori aleatorii, alese de obicei n intervalul (-1, 1).
Aplicarea algoritmului de retropropagare se face n urmtoarele ipoteze: (i) se consider
cazul unei reele de tip PMS care folosete neuroni ascuni; (ii) funciile de activare ale
neuronilor ascuni i ale celor de ieire se consider continue i derivabile; (iii) dac este
cazul, mrimile de ieire se scaleaz n intervale corespunztoare funciei de activare folosite.

Variabile
y
z

f(x,y,z)

Fig. 13 Tabelul de definiie pentru setul de


date de antrenare al perceptronului multistrat,
n cazul a trei intrri x, y i z i a unei ieiri
f(x,y,z).

Funcionarea algoritmului de retropropagare se desfoar n dou etape:


(a)

se consider un model m din setul de date de antrenare (o linie din tabelul de definiie), din
(m)
care se extrag mrimile de intrare vectorul x care se aplic pe intrarea reelei i,
folosind valorile curente ale ponderilor, se face propagarea nainte a informaiei de intrare,
(m)
calculndu-se ieirea real furnizat de reea, o .

(b)

ieirea real o se compar cu valoarea dorit d


corespunztoare setului de antrenare
i eroarea astfel calculat se propag napoi n reea de la stratul de ieire, spre stratul de
intrare pentru modificarea ponderilor.
(m)

(m)

Regula sau algoritmul de antrenare folosit stabilete tocmai metoda de ajustare a ponderilor
din reea. n cazul formei generalizate a regulii , ajustarea ponderilor se face n sensul
(m)
(m)
minimizrii abaterii ntre valorile real o i dorit d de pe ieirea reelei. Dac pai (a) i (b)
de mai sus se reiau pentru urmtorul model din setul de antrenare (m m + 1), ponderilor li se
(m + 1)
(m + 1)
i d
. Dup epuizarea tuturor modelelor
va aplica o nou corecie n raport cu ieirile o
din setul de antrenare, se spune c s-a efectuat un ciclu de antrenare. Este de ateptat ca, pe
(m)
(m)
s se micoreze,
msura considerrii de noi modele din setul de antrenare, abaterile o d
n general, pentru toate modelele. De cele mai multe ori, ns, un singur ciclu de antrenare nu
este suficient pentru aproximarea cu suficient precizie a tuturor valorilor de ieire indicate n
setul de antrenare. Ca urmare, algoritmul se reia pentru un nou ciclu i procesul continu, pn la
satisfacerea unui anumit criteriu de oprire.
Forma generalizat a regulii propus de Rumelhart este descris de urmtoarele trei
propoziii:

(1)

Pentru fiecare model de intrare ieire m din setul de antrenare, corecia unei ponderi wij
(m)
notat wij pentru conexiunea dintre neuronul j i neuronul i din stratul inferior (vezi Fig.
(m)
14.a) este proporional cu un termen de eroare j asociat neuronului j:

( m ) wij = j ( m ) oi ( m )

(1)

unde
este ieirea neuronului i din stratul inferior, pentru modelul m, iar este un factor
de proporionalitate, numit rat de nvare.
(m)
oi

(2)

Dac neuronul j se afl n stratul de ieire (vezi Fig. 14.a), termenul de eroare j se
(m)
(m)
calculeaz n funcie de abaterea ntre valoarea real oj i cea dorit dj i derivata
funciei de activare f a neuronului j n raport cu intrarea net corespunztoare modelului m,
(m)
notat netj :
(m)

) (

j ( m ) = d j ( m ) o j ( m ) f net j ( m )
(3)

(2)

Dac neuronul j se afl n stratul ascuns (Fig. 14.b), fiind legat prin conexiuni sinaptice cu
(m)
este proporional cu suma tuturor
neuronii k din stratul de ieire, termenul de eroare j
termenilor de eroare asociai neuronilor de ieire k, modificai de ponderile conexiunilor
(m)
respective wjk i cu derivata funciei de activare n raport cu intrarea net netj :

j ( m ) = k ( m ) w jk f net j ( m )
(3)

k
wjk

oj(m)

oj(m)

wij

wij

oi(m)

oi(m)

(a)

(b)

Fig. 14 Cazuri particulare de aplicare a regulii , n funcie de poziia conexiunilor sinaptice wij: (a)
neuronul j se afl n stratul de ieire sau (b) neuronul j se afl n stratul ascuns.
Propoziiile (2) i (3) arat c ponderile asociate unui anumit neuron sunt ajustate cu termeni
direct proporionali cu abaterile dintre mrimile reale i cele dorite corespunztoare neuronilor cu
care primul este legat.
Regulile prezentate pentru aplicarea algoritmului de retropropagare se refer strict la ponderi,
fr a aminti nimic de pragurile j asociate fiecrui neuron. Aceast formalizare nu exclude ns
posibilitatea folosirii pragurilor j, care pot fi modelate ca ponderi wij ale conexiunilor cu un neuron
i din stratul imediat inferior, a crui ieire are ntotdeauna valoare unitar.
Cele trei propoziii care stau la baza algoritmului de retropropagare au fost doar enunate,
fr a aduce n sprijinul lor nici un suport matematic. S-a considerat ns util descrierea
prealabil a principiilor formei generalizate a regulii , urmnd ca aparatul matematic necesar s
fie descris mai trziu. Deocamdat, ca o scurt introducere, vom meniona c, dac pentru
estimarea performanelor reelei neuronale se folosete ca metric jumtate din abaterea
ptratic total pe stratul de ieire (pentru un model m i J neuroni de ieire):

1
2

E( m ) =

(d j
J

(m)

j =1

o (j m )

algoritmul de retropropagare descris asigur minimizarea abaterii E

x1

w11

x1

v11

g y1

wI1
x2

o1

e1

d1

v12

y2

(m)

vJ1

w12

x2

(4)

wI2

o2

e2

vJ2
d2

wIJ

xI

xI

w1J

v1K
J

g
yJ

vJK

K h

oK

eK
dK

Stratul de
intrare

Stratul
ascuns

Ieiri dorite i
abateri

Stratul de
ieire

Fig. 15 Arhitectura perceptronului multistrat.

Principiul erorii ptratice minime


n cele ce urmeaz se consider o reea neuronal de tip PMS cu o arhitectur ca cea
descris n Fig. 15. Reeaua din Fig. 15 conine I neuroni de intrare, J neuroni ascuni i K
neuroni de ieire. Ponderile conexiunilor dintre straturile de intrare i cel ascuns, respectiv stratul
ascuns i cel de ieire se noteaz cu w = {wij}, respectiv v = {vjk}. Funciile de activare ale
neuronilor din stratul ascuns i cel de ieire se noteaz cu g(), respectiv h(). n general, se
recomand ca ntr-o reea de tip PMS funciile de activare ale neuronilor ascuni i celor de
ieire s fie identice. Totui, din considerente de claritate se prefer notarea distinct a celor
dou funcii de activare.
Antrenarea unei reele de tipul celei din Fig. 15 se face folosind un set de date de antrenare
(m)
(m)
(m)
(m)
(m)
(m)
ce folosete M perechi intrare-ieire dorit de forma x = {x1 , x2 ,, xI } d = {d1 ,
(m)
(m)
d2 ,, dK } , m = 1,, M.
n aceste condiii, pentru aproximarea ct mai corect a ieirilor dorite d prin ieirile reale
o , se va aplica o tehnic de ajustare a ponderilor din reea folosind ca funcie obiectiv o
estimare a erorilor de aproximare, care poate fi oricare dintre funciile abatere care urmeaz:
(m)

(m)

Abaterea ptratic total:


M

APT = ||d

(m)

(m)

|| =

m =1

(d k
M

(m)

m =1 k =1

o k( m )

(5)

unde || || reprezint norma euclidian.

Abaterea ptratic parial (asociat unui model m):


K

APP ( m ) = d k( m ) o k( m )
k =1

(6)

Abaterea ptratic medie total:

APMT =

1
M K

(m)
(m) 2
||d o || =

m =1

(d k
M

1
M K

(m)

m =1 k =1

o k( m )

(7)

Abaterea ptratic medie parial:

APMP =

1
K

(d k
K

o k( m )

(m)

k =1

(8)

Se verific imediat c ntre cele patru tipuri de abateri exist relaiile:


APMT =

APT
M K

APMP =

APP
K

(9)

De asemenea, la estimarea acestor abateri se pot folosi mrimi relative, raportate la


(m)
(m)
valoarea datorit a ieirii. Astfel, n relaiile (5)-(8), termenii (dk ok ) vor fi nlocuii cu
(m)
(m)
(m)
(dk ok ) / dk .
n cele ce urmeaz, la implementarea diferitelor algoritme de retropropagare se va folosi
abaterea ptratic total APT care va fi nmulit, din considerente de simplificare ulterioar a
expresiilor de calcul, cu factorul i care, pentru comoditate va fi notat cu E:

E=

1 M (m)
d o (m)

2 m =1

(10)

Abaterea E se consider ca o funcie de ponderile w i v, care se exprim, succesiv,


sub formele:
E(w, v) =

1 M K (m)
1 M
(m)
(m) 2
(m)
||d o || = = d k ok
2 m =1k =1
2 m =1
2

1 M K
= d k( m ) h v jk y (j m ) =
2 m=1 k =1
j =1

1 M K (m)
(m)
d h qk
2 m =1 k =1 k

J
1 M K
= d k( m ) h v jk g r j( m )
2 m =1 k =1
j =1

J

I
1 M K
= d k( m ) h v jk g wij xi( m )
2 m=1 k =1

i =1
j =1

)]

(11)

n aceste din urm relaii s-au mai folosit notaiile:


(a) intrarea net a neuronului k din stratul de ieire, pentru modelul m:

q k( m ) =

(m)
v jk y j

(12)

j =1

(b) intrarea net a neuronului j din stratul ascuns, pentru modelul m:


I

r j( m ) = wij xi( m )

(13)

i =1

unde yj este ieirea neuronului ascuns j, pentru modelul m, iar xi


neuronul de intrare i, pentru modelul m.
(m)

(m)

este intrarea reelei pe

Minimizarea funciei abatere E i determinarea punctului (w* , v*) care asigur valoarea
minim a funciei E se face folosind procedeul cunoscut al anulrii derivatelor lui E n raport cu
necunoscutele:

E
=0
wij

E
=0
v jk

(i = 1, , I ; j = 1, , J ; k = 1, , K )

(14)

Relaiile (11) i (14) indic un sistem de ecuaii neliniare , a crui rezolvare se face pe cale
iterativ, folosind o metod de tip gradient, ale crei principii de aplicare sunt prezentate n
continuare.
Metode de gradient
Cea mai simpl metod de gradient folosit n problemele de optimizare n cazul de fa
minimizarea funciei abatere E permite determinarea unui minim local x* al funciei f (x),
impunnd anularea derivatei:
f (x ) =

df
=0
dx

(15)

n cazul unei funcii f (x) neliniare, cu o form complex, rezolvarea direct a ecuaiei (15)
nu este posibil; se poate aplica ns o metod iterativ care permite determinarea unei
0
aproximaii a punctului de minim x*. Pornind de la o aproximaie iniial x i aplicnd formula de
recuren:
x t +1 = x t

df
dx

(16)
xt

se determin un ir de aproximaii succesive care n anumite condiii tinde ctre minimul local
x*. n relaia (16) reprezint un factor pozitiv folosit pentru amplificarea sau atenuarea deplasrii
n lungul direciei df / dx. n cazul unor valori prea mari ale factorului , punctul de minim poate fi
depit, n timp ce valori prea mici ale lui , pot determina o apropiere foarte lent de punctul de
minim. Relaia (16) descrie aa-numita metod a gradientului.
n cazul algoritmului de retropropagare, pentru care funcia obiectiv E depinde de mai multe
variabile (vectorii w i v), relaia de recuren (16) este adus la forma vectorial, n care derivata
df / dx este nlocuit prin gradientul E, ajungndu-se la:

w t + 1 = w t E(w t )

(17)

v t + 1 = v t E(v t )
iar factorul se numete rat de nvare.
Propagarea napoi a erorii
(m)
din
Se va prezenta n continuare deducerea expresiilor pentru termenii de eroare j
relaiile (2) i (3) indicate pentru forma generalizat a regulii . n acest scop se va folosi
arhitectura reelei neuronale de tip PMS din Fig. 5, pentru care semnificaia notaiilor folosite este:
I, J i K numrul de neuroni din straturile de intrare, ascuns i de ieire; xi (i = 1,,I) - intrrile
reelei neuronale; yj ( j = 1,, J) - ieirile produse de neuronii ascuni; ok (k = 1,,K) - ieirile
reelei neuronale; dk (k = 1,,K) - valorile dorite pentru ieirile reelei neuronale; wij (i = 1,,I; j =
1,,J) - ponderile conexiunilor dintre straturile de intrare i ascuns; vjk (j = 1,,J; k = 1,,K) ponderile conexiunilor dintre straturile ascuns i de ieire; g i h funciile de activare ale
(m)

neuronilor din straturile ascuns i de ieire. Se mai folosesc, de asemenea, notaiile: rj


(m)
intrarea net a neuronului j din stratul ascuns, pentru modelul m (vezi rel. (13)); qk intrarea
net a neuronului k din stratul de ieire, pentru modelul m (vezi rel. (12)).
Dintre funciile obiectiv menionate, pentru ajustarea ponderilor din reeaua neuronal, se
(m)
va folosi ntr-o prim etap abaterea ptratic parial APP , corespunztoare modelului m. Cu
alte cuvinte, ajustarea ponderilor se face dup prezentarea fiecrui model din setul de antrenare.
n finalul acestui paragraf, se va prezenta i modul n care are loc propagarea napoi a erorii n
cazul n care antrenarea se face pe ntregul lot, adic ajustarea ponderilor se face o singur dat,
la fiecare ciclu, dup prezentarea tuturor modelelor. n continuare, pentru simplificarea notaiilor,

se renun la indicele care precizeaz modelul m, iar abaterea se noteaz simplu cu E; astfel,
(m)
pn la precizri contrare, n cadrul acestui paragraf notaia E ine locul lui APP .
Pentru ajustarea ponderilor se va folosi metoda gradientului. Sub form matriceal,
ecuaiile de iterare ale acestei metode au forma:

t+1

= w E(w ) = w + w
t

v
= v E(v ) = v + v
Particularizarea acestor relaii pentru una din ponderi:
t+1

wijt +1 = wijt

E
wij

v tjk+1 = v tjk

E
v jk

(18)

wijt

(19)
v tjk

arat c ajustarea ponderilor din reea presupune calculul derivatelor funciei-eroare n raport cu
fiecare dintre ponderi. n continuare se va indica modul de calcul al acestor derivate pentru cazul
reelei cu un singur strat ascuns. De asemenea, se vor indica particularitile legate de folosirea
diferitelor tipuri de funcii de activare. n final se descrie o generalizare a formulelor stabilite n
(m)
cazul folosirii abaterii ptratice pariale APP pentru cazul antrenrii pe ntregul lot, cnd se
folosete ca funcie obiectiv abaterea ptratic total APT.
n toate cazurile, deducerea expresiilor derivatelor din relaia (19) se va face pe baza aa
numitei reguli a derivrii n lan. Conform acestei reguli, dac se dorete calculul derivatei y / x
i exist o dependen de forma y = f (a), unde mrimea a depinde ea nsi de variabila x (a = f
(x)), atunci se poate scrie:
y y a
=

x a x

(20)

Dac se admite c a depinde de o alt mrime b, care la rndul ei poate fi exprimat n


funcie de variabila x, relaia (20) devine:
y y a b
=

x a b x

(21)

Pe acest principiu, n msura posibilitii definirii unor relaii de interdependen


corespunztoare, expresiile de forma (20) i (21) pot fi extinse, prin derivare n lan, orict.
Reele neuronale de tip PMS cu un strat ascuns
Perceptronul multistrat cu un singur strat ascuns este probabil tipul de reea neuronal cu
propagare nainte cel mai des folosit n aplicaiile practice. Arhitectura unei asemenea reele
neuronale coincide cu cea prezentat n Fig. 15.
Intrarea net a neuronului i din reea se calculeaz cu o formul de tipul:

net i =

w ji x j

(22)

j =1

care corespunde intrrilor nete, notate rj i qk , pentru reeaua din Fig. 14. Funcia de activare
f (corespunztoare funciilor g i h pentru reeaua din Fig. 14) se aplic acestei intrri nete, pentru
a determina ieirea neuronului i:
(m)

(m)

outi = f (neti )

(23)

Respectnd aceste convenii, n continuare se vor deduce expresiile derivatelor funcieieroare n raport cu ponderile din reea:

(A)

Ponderile dintre stratul ascuns i stratul de ieire


E
E o k
E o k q k
=

=
=

v jk
o k v jk
o k q k v jk
K

J
2
d p o p h (q k )
v pk y p =
v jk p =1
p =1

= 2 (d k o k ) ( 1) h (q k ) y j = 2 (d k o k ) h (q k ) y j
=

(B)

ok

(24)

Ponderile dintre stratul de intrare i stratul ascuns


E
E y j
E y j r j
=

=
wij y j wij y j r j wij
=

E
E
I
g rj
g r j xi =
w pj x p =
yj
wij p =1
y j

K
2
(d k o k ) g r j xi =
y j k =1

( )

( )

( )

] ( )

(d k ok )2 g r j xi =

y
k =1
j
K

K
o
= 2 (d k o k ) ( 1) k
yj
k =1

g r j xi =

K
o qk
= 2 (d k o k ) k
qk y j
k =1

g r j xi =

( )

( )

J
= 2 (d k o k ) h (q k )
v pk y p g r j xi =
y j p =1

k =1
K

= 2 (d k o k ) h (q k ) v jk g r j xi
k =1

( )

( )

(25)

Expresiile astfel stabilite vor fi modificate pentru a ine seama de forma funciilor de activare
g i h. Pentru aceste funcii se vor considera dou cazuri posibile: sigmoidul unipolar i sigmoidul
bipolar. Expresiile acestor dou funcii, considernd n cazul sigmoidului unipolar i un prag b,
au formele:
1
sigmoidul unipolar: f1 (x ) =
(
1 + e x + b)

sigmoidul bipolar: f 2 (x ) =

1 + ex
1 e x

Pentru sigmoidul unipolar, expresia derivatei este:

df1
( 1) e ( x+b ) = e ( x+b ) = 1 + e ( x+b ) 1
=
2
2
dx
[1 + e( x + b )]2
1 + e ( x + b )
1 + e ( x + b )
1
1
=

= f1 (x ) [ f1 (x )]2 = f1 (x ) [1 f1 (x )]
(
x +b )
2
(
)

x
+
b
1+ e
1+ e

] [

n mod asemntor, pentru sigmoidul bipolar, se poate scrie:

df 2 ( 1) e x 1 e x e x 1 + e x
ex
=
=

2
2
dx
1 ex
1 ex

Dac n expresia lui f2(x) se adun, respectiv se scade 1 n ambii termeni, se obin relaiile:

1 + f 2 (x ) = 1 +

1 + ex
1 e x

2
1 e x

1 f 2 (x ) = 1

1 + ex

1 e x

2e x
1 e x

nmulind aceste ultime dou expresii din relaia, se obine:

[1 + f 2 (x )] [1 f 2 (x )] = 4

ex

(1 e )

(26)

x 2

astfel nct, pentru derivat df2 / dx din (.55) se obine expresia echivalent:
df 2 1
= [1 + f 2 (x )] [1 f 2 (x )]
dx
2

(27)

Relaiile (26) i (27) au fost folosite pentru rescrierea relaiilor de calcul a derivatelor
funciei-eroare n raport cu ponderile (vezi Tabelul 1).
Tabelul 1 Relaiile de calcul ale derivatelor funciei-eroare n raport cu ponderile pentru reele
de tip PMS cu un singur strat ascuns i funcii de activare de tip sigmoidal.

Sigmoid unipolar

Sigmoid bipolar

E
= 2 (d k o k ) o k (1 o k ) y j
v jk

E
= 2 (d k o k ) o k (1 o k ) v jk y j 1 y j xi
wij
k =1

E
= (d k o k ) (1 + o k ) (1 o k ) y j
v jk

)(

1 K
E

= (d k o k ) (1 + o k ) (1 o k ) v jk 1 + y j 1 y j xi
2 k =1
wij

Propagarea napoi a erorii n cazul antrenrii pe ntregul lot


m
Antrenarea dup abaterea ptratic parial pentru fiecare model m, APP , determin
adaptarea ponderilor astfel nct se asigur reducerea erorii de aproximare pentru modelul m.
Nimic nu garanteaz ns c, la prezentarea urmtorului model m + 1, adaptarea ponderilor n
sensul micorrii erorii pentru acel model, nu va produce creterea erorilor de aproximare pentru
modelul m i pentru toate celelalte modele prezentate deja reelei n cadrul ciclului curent. n
realitate, de cele mai multe ori chiar aa se ntmpl i, n consecin, de la un ciclu de antrenare
la altul, eroarea global de aproximare scade foarte lent.
Pentru eliminarea acestei deficiene se poate folosi o schem de antrenare care realizeaz
adaptarea ponderilor o singur dat n cadrul unui ciclu de antrenare. n acest caz, dup
m
prezentarea fiecrui model m, ieirile reale furnizate de reea ok , k = 1,,K sunt memorate,
urmnd ca la sfritul ciclului, dup prezentarea ultimului model, s se calculeze abaterea
ptratic total:

E = ( APT ) =

(d k
M

m =1 k =1

(m)

o k( m )

iar adaptarea ponderilor s se fac n sensul minimizrii acestei funcii-eroare global


Caseta 1 Algoritmul de retropropagare pentru reele neuronale de tip PMS
1. Definirea arhitecturii reelei PMS: numrul de neuroni de pe fiecare strat (I,
(m)
(m)
J, K) i setul de date de antrenare: {x , d } m = 1,,M. Definirea
numrului de cicluri de antrenare: Cmax.
2. Definirea parametrilor reelei: ratele de nvare pentru ponderile v i w,
notate 1, respectiv 2.
3. Iniializarea ponderilor reelei cu valori aleatorii n intervalul (-1, 1):
vjk = 2 random( ) 1;
(i = 1,,I; j = 1,, J; k = 1,,K).
wij = 2 random( ) 1
4. Ajustarea poderilor:
for c = 1 to Cmax do.
for m = 1 to M do.
// Propagare nainte n primul strat
for j = 1 to J do
yj = 0;
for i = 1 to I do yj = yj + wji xi
// Propagarea nainte n al doilea strat
for k = 1 to K do
ok = 0;
for j = 1 to J do ok = ok + vkj yj
for j = 1 to J do
// Adaptarea ponderilor pentru al doilea strat
for k = 1 to K do

v jk = v jk + 1 d k( m ) o k o k (1 o k ) y j

// Adaptarea ponderilor pentru primul strat}


for i = 1 to I do
K

[(

wij = wij + 2 d k( m ) o k o k (1 o k ) v jk o k (1 o k ) xi( m )


k =1

5. Reeaua a fost antrenat pe cele M modele, n Cmazx cicluri, iar


caracteristicile sale se gsesc n ponderile vjk i wij.

(28)

APLICAIE
n cadrul edinei de laborator se va utiliza aplicaia specializat pentru studiul reelelor
neuronale de tip perceptron multistrat (Fig. 16). Aceasta permite aproximarea uneia din funciile
logice elementare I (AND), SAU (OR), SAU exclusiv (XOR).

Fig. 16 Aplicaia pentru studiul reelelor neuronale de tip PMS


Se parcurg urmtorii pai:
1. Alegerea funciei ce se dorete a fi aproximat (I, SAU, SAU exclusiv)
2. Construirea reelei neuronale
n cadrul acestui pas, se aleg numrul de neuroni de pe stratul ascuns, implicit doi, dar
numrul acestora poate fi indicat i de ctre utilizator. Pentru iniializarea ponderilor, porgramul
dispune, pentru reeaua cu doi neuroni pe stratul ascuns, de un set de valori implicite, care
asigur o convergen rapid a procesului de calcul. Pentru reelele cu stratul ascuns definit de
utilizator, iniializarea ponderilor se face cu ajutorul unor valori aleatoare.
Adaptarea ponderilor se poate face model cu model sau n bloc, conform principiilor
prezentate n cadrul lucrrii. De asemenea, utilizarea pragurilor este opional.
3. Definirea parametrilor de calcul
n cadrul acestui pas, se indic rata de nvare utilizat pentru procesul de antrenare i
numrul de cicluri de antrenare de efectuat.

4. Antrenarea reelei neuronale i analiza rezultatelor


nainte de antrenarea reelei, este necesar iniializarea ponderilor. Apoi, prin apsarea
repetat a butonului Antrenare, se va efectua cte un set de cicluri de antrenare, pn cnd
valorile calculate de reeaua neuronal se vor apropia de valorile dorite.
Pe parcursul procesului de calcul, programul indic: numrul de cicluri de antrenare
efectuate, valoarea curent pentru ponderi i praguri (numai pentru cazul reelei cu doi neuroni
pe stratul ascuns), valoarea curent a funciei aproximate i, sub form grafic, valoarea curent
a erorii.
Pentru fiecare funcie logic modelat de program, se va efectua antrenarea reelei
neuronale pentru diferite strucuri ale stratului ascuns i parametri de calcul. Se vor compara
rezultatele obinute i se vor trage concluzii.

S-ar putea să vă placă și