Documente Academic
Documente Profesional
Documente Cultură
X1
X2
Neuron i
11
12
+1
X3
13
v
-1
W 1n
y
i
Variante mbuntite ale neuronului formal utilizate n present folosesc diverse funcii de
activare. Cele mai utilizate funcii de activare sunt:
Funcia de activare liniar, (Fig. 2a) de forma :
f ( x) = a x + b
unde coeficientul b joac rolul unui prag. Pentru a = 1 i b = 0 se obine funcia de activare
identitate, iar pentru a = 1 i b 0 funcia de activare identitate plus prag.
Funcia de activare treapt (Fig. 2b)
n acest caz, dac mrimea de intrare a neuronului, x, atinge sau depete un prag predefinit ,
funcia produce la ieirea neuronului valoarea ; n caz contrar, la ieire se obine valoarea .
Mrimile i sunt scalari pozitivi, iar funcia treapt este definit formal cu relaia:
dac x
f ( x) =
dac x
De regul, pentru constantele i se folosesc valori corespunztoare unor reprezentri binare,
de exemplu = 1 i = 0, respectiv = =1.
Funcia de activare ramp (Fig. 2c), combinaie ntre funciile liniar i treapt.
Aceast funcie de activare stabilete limite maxim i minim pentru ieirea neuronului ( ),
asigurnd totodat o variaie liniar ntre aceste limite. De regul, punctele de saturare sunt
simetrice n raport cu originea, iar expresia funciei ramp este:
dac x
f ( x) = x dac | x |
dac x
f ( x) =
1
1 + e x
f ( x) =
1 e x
1 + e x
f ( x ) = e ( x xm )
f(x)
f(x)
(a)
(b)
f(x)
f(x)
1
-
0
(c)
(d)
f(x)
f(x)
-1
(e)
0
(f)
y1
X1
Z3
Z2
y2
X2
X3
Intrri
fiecare neuron acioneaz independent de ceilali neuroni din acelai strat; ieirea
unui neuron depinde numai de semnalele ce se aplic pe conexiunile sinaptice de
intrare;
activarea fiecrui neuron depinde numai de informaii cu caracter local; informaia ce
este prelucrat de neuron provine numai de pe conexiunile adiacente, nefiind
necesar cunoaterea strii altor neuroni cu care neuronul considerat nu are legturi
directe;
numrul mare de conexiuni existente asigur un grad ridicat de rezervare i uureaz
reprezentarea distribuit a informaiei.
Primele dou proprieti permit funcionarea eficient a RNA n paralel, iar ultima
proprietate le confer o sensibilitate redus fa de posibilele perturbaii i caliti de generalizare
greu de obinut cu sistemele clasice de calcul.
Aceste proprieti sugereaz urmtoarele trei cazuri importante, n care utilizarea RNA se
poate dovedi avantajoas:
situaii care impun luarea unui numr mic de decizii pe baza unei cantiti mari sau
foarte mari de informaii;
situaii care necesit realizarea automat a unor clasificri neliniare;
situaii n care se dorete obinerea n timp real a unei soluii optimale sau
suboptimale pentru o problem de optimizare combinatorie.
Exist mai multe criterii de clasificare a RNA. n continuare, vom prezenta dou dintre
aceste criterii, care au n vedere arhitectura acestora.
Un prim criteriu se refer la existena sau absena legturilor de reacie invers ntre
neuronii din diversele straturi ale reelei. Astfel, se disting dou tipuri:
O reea hibrid, care folosete att legaturi feedforward, ct i legturi feedback, este
reeaua Hamming (Fig. 6), numit i clasificator dup similaritate maxim.
X2
Xn-
...
On-1
Xn
Neuroni
ieire
X1
Xn
X2
Xn-1
Intrri ( la momentul iniial )
Y2
Y1
Reea MAXNET
...
Reea asociere
X1
X2
Xn-
Xn
y1
y2
. . .
x1
x2
. . .
yn
xn
y1
y2
. . .
yn
x1
x2
. . .
xn
Ieiri
...
...
...
...
...
...
...
...
Intrri
PERCEPTRONUL MULTISTRAT
Lucrarea publicat de M. Minsky i S. Papert n anul 1969 demonstra fr nici un dubiu c
reelele dezvoltate pe baza perceptronului lui Rosenblatt nu permit rezolvarea unor probleme
simple, , aa cum este cazul funciei logice SAU EXCLUSIV (XOR) . Peste aproape 20 de ani, sa sugerat c s-ar putea ncerca introducerea unor neuroni ascuni pentru care nu exist intrri
i ieiri cunoscute apriori fiind astfel posibil abordarea unor probleme de genul celor amintite
de Minski i Papert. Ca urmare, D. Rumelhart i J. McClelland au propus n 1986 ca, ntr-o reea
neuronal, care conine i neuroni ascuni, s se aplice aa numita nvare sau antrenare dup
principiul propagrii napoi sau retropropagrii erorii..
nvarea prin retropropagarea erorii
Algoritmul de retropropagare a erorii propus de Rumelhart i McClelland este denumit
uneori i forma generalizat a regulii . Acest algoritm, pornete de la un set de date de
antrenare format din perechi intrare ieire dorit foarte asemntor modului de definire tabelar
a funciilor n vederea aproximrii. De exemplu, pentru o funcie f, care depinde de trei variabile x,
y i z, tabelul de definiie are forma din Fig. 13. De aceast dat ns variabilele x, y i z de care
depinde funcia sunt tratate ca mrimi de intrare ale reelei neuronale (notate, n general, cu x1,
x2, , xn), n timp ce funcia nsi f reprezint ieirea reelei (notat, n general, cu d ). Ponderile
reelei neuronale de tip PMS se iniializeaz cu valori aleatorii, alese de obicei n intervalul (-1, 1).
Aplicarea algoritmului de retropropagare se face n urmtoarele ipoteze: (i) se consider
cazul unei reele de tip PMS care folosete neuroni ascuni; (ii) funciile de activare ale
neuronilor ascuni i ale celor de ieire se consider continue i derivabile; (iii) dac este
cazul, mrimile de ieire se scaleaz n intervale corespunztoare funciei de activare folosite.
Variabile
y
z
f(x,y,z)
se consider un model m din setul de date de antrenare (o linie din tabelul de definiie), din
(m)
care se extrag mrimile de intrare vectorul x care se aplic pe intrarea reelei i,
folosind valorile curente ale ponderilor, se face propagarea nainte a informaiei de intrare,
(m)
calculndu-se ieirea real furnizat de reea, o .
(b)
(m)
Regula sau algoritmul de antrenare folosit stabilete tocmai metoda de ajustare a ponderilor
din reea. n cazul formei generalizate a regulii , ajustarea ponderilor se face n sensul
(m)
(m)
minimizrii abaterii ntre valorile real o i dorit d de pe ieirea reelei. Dac pai (a) i (b)
de mai sus se reiau pentru urmtorul model din setul de antrenare (m m + 1), ponderilor li se
(m + 1)
(m + 1)
i d
. Dup epuizarea tuturor modelelor
va aplica o nou corecie n raport cu ieirile o
din setul de antrenare, se spune c s-a efectuat un ciclu de antrenare. Este de ateptat ca, pe
(m)
(m)
s se micoreze,
msura considerrii de noi modele din setul de antrenare, abaterile o d
n general, pentru toate modelele. De cele mai multe ori, ns, un singur ciclu de antrenare nu
este suficient pentru aproximarea cu suficient precizie a tuturor valorilor de ieire indicate n
setul de antrenare. Ca urmare, algoritmul se reia pentru un nou ciclu i procesul continu, pn la
satisfacerea unui anumit criteriu de oprire.
Forma generalizat a regulii propus de Rumelhart este descris de urmtoarele trei
propoziii:
(1)
Pentru fiecare model de intrare ieire m din setul de antrenare, corecia unei ponderi wij
(m)
notat wij pentru conexiunea dintre neuronul j i neuronul i din stratul inferior (vezi Fig.
(m)
14.a) este proporional cu un termen de eroare j asociat neuronului j:
( m ) wij = j ( m ) oi ( m )
(1)
unde
este ieirea neuronului i din stratul inferior, pentru modelul m, iar este un factor
de proporionalitate, numit rat de nvare.
(m)
oi
(2)
Dac neuronul j se afl n stratul de ieire (vezi Fig. 14.a), termenul de eroare j se
(m)
(m)
calculeaz n funcie de abaterea ntre valoarea real oj i cea dorit dj i derivata
funciei de activare f a neuronului j n raport cu intrarea net corespunztoare modelului m,
(m)
notat netj :
(m)
) (
j ( m ) = d j ( m ) o j ( m ) f net j ( m )
(3)
(2)
Dac neuronul j se afl n stratul ascuns (Fig. 14.b), fiind legat prin conexiuni sinaptice cu
(m)
este proporional cu suma tuturor
neuronii k din stratul de ieire, termenul de eroare j
termenilor de eroare asociai neuronilor de ieire k, modificai de ponderile conexiunilor
(m)
respective wjk i cu derivata funciei de activare n raport cu intrarea net netj :
j ( m ) = k ( m ) w jk f net j ( m )
(3)
k
wjk
oj(m)
oj(m)
wij
wij
oi(m)
oi(m)
(a)
(b)
Fig. 14 Cazuri particulare de aplicare a regulii , n funcie de poziia conexiunilor sinaptice wij: (a)
neuronul j se afl n stratul de ieire sau (b) neuronul j se afl n stratul ascuns.
Propoziiile (2) i (3) arat c ponderile asociate unui anumit neuron sunt ajustate cu termeni
direct proporionali cu abaterile dintre mrimile reale i cele dorite corespunztoare neuronilor cu
care primul este legat.
Regulile prezentate pentru aplicarea algoritmului de retropropagare se refer strict la ponderi,
fr a aminti nimic de pragurile j asociate fiecrui neuron. Aceast formalizare nu exclude ns
posibilitatea folosirii pragurilor j, care pot fi modelate ca ponderi wij ale conexiunilor cu un neuron
i din stratul imediat inferior, a crui ieire are ntotdeauna valoare unitar.
Cele trei propoziii care stau la baza algoritmului de retropropagare au fost doar enunate,
fr a aduce n sprijinul lor nici un suport matematic. S-a considerat ns util descrierea
prealabil a principiilor formei generalizate a regulii , urmnd ca aparatul matematic necesar s
fie descris mai trziu. Deocamdat, ca o scurt introducere, vom meniona c, dac pentru
estimarea performanelor reelei neuronale se folosete ca metric jumtate din abaterea
ptratic total pe stratul de ieire (pentru un model m i J neuroni de ieire):
1
2
E( m ) =
(d j
J
(m)
j =1
o (j m )
x1
w11
x1
v11
g y1
wI1
x2
o1
e1
d1
v12
y2
(m)
vJ1
w12
x2
(4)
wI2
o2
e2
vJ2
d2
wIJ
xI
xI
w1J
v1K
J
g
yJ
vJK
K h
oK
eK
dK
Stratul de
intrare
Stratul
ascuns
Ieiri dorite i
abateri
Stratul de
ieire
(m)
APT = ||d
(m)
(m)
|| =
m =1
(d k
M
(m)
m =1 k =1
o k( m )
(5)
APP ( m ) = d k( m ) o k( m )
k =1
(6)
APMT =
1
M K
(m)
(m) 2
||d o || =
m =1
(d k
M
1
M K
(m)
m =1 k =1
o k( m )
(7)
APMP =
1
K
(d k
K
o k( m )
(m)
k =1
(8)
APT
M K
APMP =
APP
K
(9)
E=
1 M (m)
d o (m)
2 m =1
(10)
1 M K (m)
1 M
(m)
(m) 2
(m)
||d o || = = d k ok
2 m =1k =1
2 m =1
2
1 M K
= d k( m ) h v jk y (j m ) =
2 m=1 k =1
j =1
1 M K (m)
(m)
d h qk
2 m =1 k =1 k
J
1 M K
= d k( m ) h v jk g r j( m )
2 m =1 k =1
j =1
J
I
1 M K
= d k( m ) h v jk g wij xi( m )
2 m=1 k =1
i =1
j =1
)]
(11)
q k( m ) =
(m)
v jk y j
(12)
j =1
r j( m ) = wij xi( m )
(13)
i =1
(m)
Minimizarea funciei abatere E i determinarea punctului (w* , v*) care asigur valoarea
minim a funciei E se face folosind procedeul cunoscut al anulrii derivatelor lui E n raport cu
necunoscutele:
E
=0
wij
E
=0
v jk
(i = 1, , I ; j = 1, , J ; k = 1, , K )
(14)
Relaiile (11) i (14) indic un sistem de ecuaii neliniare , a crui rezolvare se face pe cale
iterativ, folosind o metod de tip gradient, ale crei principii de aplicare sunt prezentate n
continuare.
Metode de gradient
Cea mai simpl metod de gradient folosit n problemele de optimizare n cazul de fa
minimizarea funciei abatere E permite determinarea unui minim local x* al funciei f (x),
impunnd anularea derivatei:
f (x ) =
df
=0
dx
(15)
n cazul unei funcii f (x) neliniare, cu o form complex, rezolvarea direct a ecuaiei (15)
nu este posibil; se poate aplica ns o metod iterativ care permite determinarea unei
0
aproximaii a punctului de minim x*. Pornind de la o aproximaie iniial x i aplicnd formula de
recuren:
x t +1 = x t
df
dx
(16)
xt
se determin un ir de aproximaii succesive care n anumite condiii tinde ctre minimul local
x*. n relaia (16) reprezint un factor pozitiv folosit pentru amplificarea sau atenuarea deplasrii
n lungul direciei df / dx. n cazul unor valori prea mari ale factorului , punctul de minim poate fi
depit, n timp ce valori prea mici ale lui , pot determina o apropiere foarte lent de punctul de
minim. Relaia (16) descrie aa-numita metod a gradientului.
n cazul algoritmului de retropropagare, pentru care funcia obiectiv E depinde de mai multe
variabile (vectorii w i v), relaia de recuren (16) este adus la forma vectorial, n care derivata
df / dx este nlocuit prin gradientul E, ajungndu-se la:
w t + 1 = w t E(w t )
(17)
v t + 1 = v t E(v t )
iar factorul se numete rat de nvare.
Propagarea napoi a erorii
(m)
din
Se va prezenta n continuare deducerea expresiilor pentru termenii de eroare j
relaiile (2) i (3) indicate pentru forma generalizat a regulii . n acest scop se va folosi
arhitectura reelei neuronale de tip PMS din Fig. 5, pentru care semnificaia notaiilor folosite este:
I, J i K numrul de neuroni din straturile de intrare, ascuns i de ieire; xi (i = 1,,I) - intrrile
reelei neuronale; yj ( j = 1,, J) - ieirile produse de neuronii ascuni; ok (k = 1,,K) - ieirile
reelei neuronale; dk (k = 1,,K) - valorile dorite pentru ieirile reelei neuronale; wij (i = 1,,I; j =
1,,J) - ponderile conexiunilor dintre straturile de intrare i ascuns; vjk (j = 1,,J; k = 1,,K) ponderile conexiunilor dintre straturile ascuns i de ieire; g i h funciile de activare ale
(m)
se renun la indicele care precizeaz modelul m, iar abaterea se noteaz simplu cu E; astfel,
(m)
pn la precizri contrare, n cadrul acestui paragraf notaia E ine locul lui APP .
Pentru ajustarea ponderilor se va folosi metoda gradientului. Sub form matriceal,
ecuaiile de iterare ale acestei metode au forma:
t+1
= w E(w ) = w + w
t
v
= v E(v ) = v + v
Particularizarea acestor relaii pentru una din ponderi:
t+1
wijt +1 = wijt
E
wij
v tjk+1 = v tjk
E
v jk
(18)
wijt
(19)
v tjk
arat c ajustarea ponderilor din reea presupune calculul derivatelor funciei-eroare n raport cu
fiecare dintre ponderi. n continuare se va indica modul de calcul al acestor derivate pentru cazul
reelei cu un singur strat ascuns. De asemenea, se vor indica particularitile legate de folosirea
diferitelor tipuri de funcii de activare. n final se descrie o generalizare a formulelor stabilite n
(m)
cazul folosirii abaterii ptratice pariale APP pentru cazul antrenrii pe ntregul lot, cnd se
folosete ca funcie obiectiv abaterea ptratic total APT.
n toate cazurile, deducerea expresiilor derivatelor din relaia (19) se va face pe baza aa
numitei reguli a derivrii n lan. Conform acestei reguli, dac se dorete calculul derivatei y / x
i exist o dependen de forma y = f (a), unde mrimea a depinde ea nsi de variabila x (a = f
(x)), atunci se poate scrie:
y y a
=
x a x
(20)
x a b x
(21)
net i =
w ji x j
(22)
j =1
care corespunde intrrilor nete, notate rj i qk , pentru reeaua din Fig. 14. Funcia de activare
f (corespunztoare funciilor g i h pentru reeaua din Fig. 14) se aplic acestei intrri nete, pentru
a determina ieirea neuronului i:
(m)
(m)
outi = f (neti )
(23)
Respectnd aceste convenii, n continuare se vor deduce expresiile derivatelor funcieieroare n raport cu ponderile din reea:
(A)
=
=
v jk
o k v jk
o k q k v jk
K
J
2
d p o p h (q k )
v pk y p =
v jk p =1
p =1
= 2 (d k o k ) ( 1) h (q k ) y j = 2 (d k o k ) h (q k ) y j
=
(B)
ok
(24)
=
wij y j wij y j r j wij
=
E
E
I
g rj
g r j xi =
w pj x p =
yj
wij p =1
y j
K
2
(d k o k ) g r j xi =
y j k =1
( )
( )
( )
] ( )
(d k ok )2 g r j xi =
y
k =1
j
K
K
o
= 2 (d k o k ) ( 1) k
yj
k =1
g r j xi =
K
o qk
= 2 (d k o k ) k
qk y j
k =1
g r j xi =
( )
( )
J
= 2 (d k o k ) h (q k )
v pk y p g r j xi =
y j p =1
k =1
K
= 2 (d k o k ) h (q k ) v jk g r j xi
k =1
( )
( )
(25)
Expresiile astfel stabilite vor fi modificate pentru a ine seama de forma funciilor de activare
g i h. Pentru aceste funcii se vor considera dou cazuri posibile: sigmoidul unipolar i sigmoidul
bipolar. Expresiile acestor dou funcii, considernd n cazul sigmoidului unipolar i un prag b,
au formele:
1
sigmoidul unipolar: f1 (x ) =
(
1 + e x + b)
sigmoidul bipolar: f 2 (x ) =
1 + ex
1 e x
df1
( 1) e ( x+b ) = e ( x+b ) = 1 + e ( x+b ) 1
=
2
2
dx
[1 + e( x + b )]2
1 + e ( x + b )
1 + e ( x + b )
1
1
=
= f1 (x ) [ f1 (x )]2 = f1 (x ) [1 f1 (x )]
(
x +b )
2
(
)
x
+
b
1+ e
1+ e
] [
df 2 ( 1) e x 1 e x e x 1 + e x
ex
=
=
2
2
dx
1 ex
1 ex
Dac n expresia lui f2(x) se adun, respectiv se scade 1 n ambii termeni, se obin relaiile:
1 + f 2 (x ) = 1 +
1 + ex
1 e x
2
1 e x
1 f 2 (x ) = 1
1 + ex
1 e x
2e x
1 e x
[1 + f 2 (x )] [1 f 2 (x )] = 4
ex
(1 e )
(26)
x 2
astfel nct, pentru derivat df2 / dx din (.55) se obine expresia echivalent:
df 2 1
= [1 + f 2 (x )] [1 f 2 (x )]
dx
2
(27)
Relaiile (26) i (27) au fost folosite pentru rescrierea relaiilor de calcul a derivatelor
funciei-eroare n raport cu ponderile (vezi Tabelul 1).
Tabelul 1 Relaiile de calcul ale derivatelor funciei-eroare n raport cu ponderile pentru reele
de tip PMS cu un singur strat ascuns i funcii de activare de tip sigmoidal.
Sigmoid unipolar
Sigmoid bipolar
E
= 2 (d k o k ) o k (1 o k ) y j
v jk
E
= 2 (d k o k ) o k (1 o k ) v jk y j 1 y j xi
wij
k =1
E
= (d k o k ) (1 + o k ) (1 o k ) y j
v jk
)(
1 K
E
= (d k o k ) (1 + o k ) (1 o k ) v jk 1 + y j 1 y j xi
2 k =1
wij
E = ( APT ) =
(d k
M
m =1 k =1
(m)
o k( m )
v jk = v jk + 1 d k( m ) o k o k (1 o k ) y j
[(
(28)
APLICAIE
n cadrul edinei de laborator se va utiliza aplicaia specializat pentru studiul reelelor
neuronale de tip perceptron multistrat (Fig. 16). Aceasta permite aproximarea uneia din funciile
logice elementare I (AND), SAU (OR), SAU exclusiv (XOR).