Documente Academic
Documente Profesional
Documente Cultură
Curs1 RNRF Merged
Curs1 RNRF Merged
1
1/ Introducere în recunoaşterea formelor
această carte este dedicată modului în care pot fi utilizate reţelele neuronale
pentru recunoaşterea formelor.
Abordarea inginerească a rezolvării unei probleme înseamnă utilizarea
tuturor informaţiilor disponibile şi relevante legate de problema respectivă, într −
o manieră structurată, astfel încât să poată fi formulată o soluţie. Aceasta include
dezvoltarea sau modificarea modelelor care, poate, conţin informaţie structurală
şi "a priori", inclusiv date de antrenare. În consecinţă, pe tot parcusrul acestei
cărţi, studiul va fi guvernat de trei întrebări:
2
Recunoaşterea, clasificarea şi descrierea formelor
Gi M
p4
m1
clasa wi
Gj p1
p2 m2
clasa w j Gk
p3
m3
clasa wk
3
1/ Introducere în recunoaşterea formelor
Formularea abstractă din Figura 1.1 este potrivită atât pentru StatPR cât şi
pentru SyntPR. În perspectivă, Figura 1.13 prezintă modul în care formalizări
mai detaliate ale acestor abordări pot fi legate de Figura 1.1.
Un alt aspect important în reprezentarea din Figura 1.1 se referă la relaţia
M . Această transformare reflectă opţiunea noastră asupra sistemului de
măsurare. Proiectarea sistemului de măsurare este un aspect important al
proiectării sistemelor de recunoaştere a formelor, în sensul că obţinerea
ulterioară a unor "caracteristici" sau "primitive" bune necesită măsurări bune,
sau cel puţin adecvate. Este greu de crezut că măsurări eronate sau incomplete
vor facilita performanţe bune ale unui sistem de recunoaştere a formelor.
În sfârşit, să menţionăm că forme care sunt generate de aceeaşi clasă ( p4 şi
p1 , din wi , de exemplu) şi care sunt "apropiate" în spaţiul formelor, P , nu
conduc în mod necesar la măsurări ( m1 şi m3 în acest caz) care sunt de
asemenea "apropiate".
4
Recunoaşterea, clasificarea şi descrierea formelor
5
1/ Introducere în recunoaşterea formelor
Statistic
Algoritm de
clasificare Clasificare
Algoritm pentru
Senzor/ Preprocesare extragerea
şi
Traductor accentuare caracteristicilor Sintactic
/primitivelor
Măsurare, mi Algoritm de
descriere
Descriere
Date din lumea
formei observate, pi
6
Forme şi extragerea caracteristicilor. Exemple
Dar şi aceasta
ISBN 0-471-50453-7
6451-8394
9 780471 505365
6561-5921
O
O O O
C
N N C
O O
XXX000XX00X0000X0
7
1/ Introducere în recunoaşterea formelor
1. Pentru extragerea caracteristicilor poate fi necesar un efort de calcul
semnificativ.
2. Caracteristicile extrase pot conţine erori sau "zgomot".
8
Forme şi extragerea caracteristicilor. Exemple
(a)
(b)
(c)
(d)
9
1/ Introducere în recunoaşterea formelor
După cum se arată în Figura 1.5, diferite obiecte 3-D pot fi generate prin
definirea următoarelor caracteristici:
1. Un descriptor calitativ, Muchii, al secţiunii transversale. Aceasta poate
avea muchii drepte ( S ) sau curbe ( C ).
2. Gradul de simetrie a secţiunii transversale. Simetria se defineşte ca un
invariant la reflexie şi rotaţie ( Symm ), invariant numai la reflexie
( Symm ) asimetric ( Asymm ).
3. Modul în care se modifică secţiunea transversală în funcţie de deplasare.
Aria secţiunii poate fi constantă ( Const ), se poate expanda ( Exp ), se
poate contracta ( Contr ), se poate expanda şi apoi contracta
( Exp Contr ) sau se poate contracta şi apoi dilata ( Contr Exp ).
4. Gradul de curbare a axei. Axa poate fi dreaptă ( S ) sau curbă ( C ).
În Figura 1.5 sunt prezentate diferite tipuri de cilindri generalizaţi şi
caracteristicile calitative corespunzătoare.
Metoda cilindrilor generalizaţi poate fi utilizată într-o schemă ierarhică de
reprezentare a formelor în care cilindrii generalizaţi sunt primitive iar regulile de
compoziţie specifică orientările relative ale primitivelor [Sch89].
10
Forme şi extragerea caracteristicilor. Exemple
x2
600 R1
500 R2
R3
400
300 R4
R6
200
100 R5
11
1/ Introducere în recunoaşterea formelor
Figura 1.6. Vom prezenta modul de tratare a problemei şi vom menţiona
complexitatea procesului necesar pentru a realiza invarianţa RST.
Momentele sunt caracteristici extrase care derivă din măsurări primare şi
care, în spaţiul 2-D, sunt utilizate pentru a obţine invarianţi la rotaţie ( R ),
scalare ( S ) şi translaţie ( T ). Din Figura 1.6 se observă că mai multe regiuni sunt
versiuni scalate, rotite ale altor regiuni. Pentru simplitate, strategia următoare
este dezvoltată în cazul continuu. Dacă se consideră datele de intrare 2-D sub
forma f ( x, y) , atunci un set de caracteristici de tip moment [Hu61] se defineşte
prin:
m pq x y q f ( x, y)dxdy p, q 0,1,2,...
p
(1.1)
Momentele centrale, pq , se definesc prin:
pq ( x xˆ) ( y yˆ ) q f ( x, y)dxdy p, q 0,1,2,...
p
(1.2)
unde xˆ m10 / m00 şi yˆ m01 / m00 . După cum se arată în [Sch89], caracteristicile
care au la bază momentele centrale transmit informaţie descriptivă despre o
regiune. Dacă se normalizează caracteristicile pq , se obţine:
pq
pq p q 2,3,... (1.3)
00
[( p q ) / 2 ]1
Din relaţia (1.3) se poate obţine setul de şapte caractersitici invariante RST,
1 7 , prezentate în Tabelul 1.1.
1 20 02
2 (20 02 ) 2 4112
3 (30 312 ) 2 (321 03 ) 2
4 (30 12 ) 2 (21 03 ) 2
5 (30 312 )(30 12 )[(30 12 ) 2 3(21 03 ) 2 ]
(321 03 )(21 03 )[3(30 12 ) 2 (21 03 ) 2 ]
6 (20 02 )[(30 12 ) 2 (21 03 ) 2 ] 411 (30 12 )(21 03 )
7 (321 02 )(30 12 )[(30 12 ) 2 3(21 03 ) 2 ]
(30 12 )(21 03 )[3(30 12 ) 2 (21 03 ) 2 ]
12
Forme şi extragerea caracteristicilor. Exemple
Analiza
Din Tabelul 1.2 observăm următoarele:
Comparând valorile i pentru R1 şi R4 , ca şi pentru R2 şi R5 se poate
verifica faptul că i sunt invarianţi la S şi T .
Comparând valorile i pentru R2 , R5 şi R6 putem verifica faptul că i
sunt invarianţi la R şi S ;
Observând că R3 este o clasă a cărei formă nu este un invariant R , S sau
T a nici unei Ri , verificăm faptul că i pentru R3 furnizează
caractersitici numerice care permit discriminarea între clase.
Extensii ale acestei tehnici de extragere a caracteristicilor şi clasificare sunt
prezentate în [Sch89].
13
1/ Introducere în recunoaşterea formelor
distinge între imaginea unei maşini şi cea a unei bărci, observăm că
aranjamentele spaţiale ale acestor caracteristici sunt indiscutabil diferite.
Multe din metodele utilizate în StatPR, SyntPR şi NeurPR au la bază
conceptul de similaritate a formelor. De exemplu, dacă o formă x este "foarte
similară" cu alte forme depre care se cunoaşte că aparţin clasei w1 , vom avea
tendinţa să clasificăm x ca aparţinând clasei w1 . Cuantificarea similarităţii prin
dezvoltarea unor măsuri ale similarităţii este adesea un proces dificil. Sunt de
dorit măsuri ale similarităţii aplicabile în mod universal, care permit o bună
clasificare. Totuşi, rareori ne putem bizui pe ele.
De multe ori este util să se dezvolte o interpretare geometrică a
caracteristicilor, în special în cazul StatPR. Caractersisticile sunt aranjate sub
forma unui vector al caractersiticilor, d dimensional, notat x , care generează
un spaţiu al măsurărilor (spaţiul caractersiticilor) multidimensional. Dacă
fiecare caractersitică este un număr real nesupus la restricţii, spaţiul
caracteristicilor este R d . În alte cazuri, cum este cel al reţelelor neuronale
artificiale, este convenabil să restrângem spaţiul caractersiticilor la un subspaţiu
din R d . Aceasta înseamnă că dacă ieşirile neuronilor individuali şi intrările
reţelei sunt restricţionate să aparţină intervalului [0,1], pentru un vector al
caracteristicilor d dimensional, atunci vom avea un spaţiu al formelor care este
un hipercub cu volumul egal cu unitatea în R d . Adesea, clasificarea este
realizată prin partiţionarea spaţiului caracteristicilor în regiuni, câte una pentru
fiecare clasă, după cum vom arăta în continuare. În cazul vectorilor
caracteristicilor cu dimensiuni mari, se combină extragerea caracteriticilor cu
aplicarea directă a metodelor de recunoaştere a formelor. De exemplu, în
aplicaţiile de procesare a imaginilor, nu este practic să se utilizeze direct toate
intensităţile pixelilor dintr-o imagine pentru a forma vectorul caracteristicilor,
pentru că o imagine cu 512 512 pixeli va conduce la un vector al
caracteristicilor cu 262.144 1 componente!!
Vectorii caracteristicilor sunt utilizaţi în mod curent în StatPR şi NeurPR.
Ei sunt oarecum inadecvaţi sau, cel puţin, stânjenitori când este necesar să se
reprezinte relaţiile dintre componentele formelor. În Figura 1.7 se arată modul în
care procesul de extragere a caracteristicilor este o problemă comună, deşi
diferită, pentru fiecare aplicaţie de recunoaştere a formelor şi pentru fiecare tip
de abordare.
Diagramele împrăştiate sunt reprezentări grafice ale eşantioanelor
vectorilor carcteristicilor, x , în spaţiul caracteristicilor. În Figura 1.8 este
prezentat un exemplu al unei astfel de diagrame. Acolo unde se pot aplica,
aceste diagrame sunt instrumente excelente pentru vizualizare, pentru
determinarea distribuţiei vectorului caracteristicilor în spaţiul R d , cu d 3 .
Diagramele împrăştiate facilitează identificarea grupurilor de caracteristici
naturale sau evidente pentru gruparea datelor şi partiţionarea spţiului R d în
regiuni de decizie pentru clasificare.
14
Forme şi extragerea caracteristicilor. Exemple
x2
8
-4
-8
-12
-8 -6 -4 -2 0 2 4 6 x1
Definiţii
15
1/ Introducere în recunoaşterea formelor
identificarea atributelor potrivite (caracteristici), formarea unei măsuri bune a
similarităţii şi a unui proces asociat de identificare.
Preprocesarea este operaţia de filtrare sau de transformare a datelor brute
de intrare astfel încât să se permită calculul numeric, extragerea caracteristicilor
şi minimizarea zgomotului.
Zgomotul este un concept care îşi are originea în Teoria Comunicaţiilor. În
domeniul recunoaşterii formelor acest concept se generalizează, astfel încât să
reprezinte un număr de circumstanţe ne-ideale, cum sunt:
Distorsiuni sau erori în semnalul/forma de intrare (de exemplu, erori de
măsurare)
Erori în operaţia de preprocesare
Erori în extragerea caracteristicilor
Erori în datele de antrenare
g i ( x) wi x w0i ,
T
16
Forme şi extragerea caracteristicilor. Exemple
R3 R1 R2
R1
R3
R1 R2
R2 R3 R1
R2
R4
x1 g1 g 2
g1 ( x) x x 1
R1
g 2 ( x) x x 2
x2
R2
(a)
(b)
17
1/ Introducere în recunoaşterea formelor
nebunie să se încerce realizarea unui sistem de recunoaştere a formelor fără
această informaţie (Aceasta nu este întotdeauna adevărat. A se vedea, de
exemplu, învăţarea nesupervizată).
Un set de forme "tipice", unde atributele tipice ale clasei sau structura
fiecăreia sunt cunoscute, formează o bază de date numită set de antrenare şi
notată H . În sens general, setul de antrenare furnizează informaţie semnificativă
despre cum să se asocieze datele de intrare cu deciziile de ieşire (de exemplu,
clasificări sau descrieri structurale). Antrenarea este deseori asociată (sau
inexact identificată) cu învăţarea. Setul de antrenare se foloseşte pentru a
permite sistemului să "înveţe" informaţia relevantă, cum ar fi parametri statistici,
formarea de grupuri naturale, caracteristici cheie sau structura fundamentală. În
SyntPR, eşantioanele de antrenare pot fi utilizate pentru a învăţa sau a deduce
diferite gramatici.
În domenii ca intelifenţa artificială, învăţarea capătă o conotaţie mai
generală, oarecum analogă procesului de autoadaptare utilizat de oameni
[Michalski et. al. 1986] [Sch90]. Un sistem de învăţare işi poate adapta structura
internă astfel încât să se obţină un răspuns mai bun, posibil pe baza performanţei
anterioare cuantificate. O măsură a performanţei ar putea fi diferenţa dintre
valoarea dorită a ieşirii şi valoarea curentă. Acest concept generic de învăţare
este legat de tehnicile de recunoaştere bazate pe corecţia erorilor, tehnici pe care
le folosim pentru a dezvolta funcţii discriminant liniare în StatPR sau pentru a
obţine regula delta generalizată în NeurPR. Aceste două tehnici sunt tehnici
tipice care sunt incluse în metoda gradientului descrescător în care, sistemele se
modifică după fiecare experiment sau iteraţie. Aceasta poate conduce la o curbă
de învăţare tipică în experimentele biologice, în care P(n) reprezintă
probabilitatea ca subiectul (uman sau animal) să furnizeze răspunsul corect la
încercarea a n -a a experimentului de învăţare. O relaţie [Bol79] care arată
această comportare, şi care reflectă adesea rezultatele experimentale, este
(Figura 1.11):
18
Antrenarea şi învăţarea în sistemele de recunoaştere a formelor
0.9
0.8
Probabilitatea de succes
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12
Numãr de încercãri
19
Transformări liniar asociative, antrenare şi exemple
S T w RT
T
(6.46)
gradient=
0.0078
0.0047
0.0016
w=
0.3747
0.3752
0.3756
223
6/ Aplicaţii ale asociatorilor neuronali
224
Transformări liniar asociative, antrenare şi exemple
225
6/ Aplicaţii ale asociatorilor neuronali
oi
ok
netk neti
i o
W f (.)
net
net
f 1 (.)
antrenare
Mai multe din metodele anterioare s-au bazat pe produsul exterior sau pe
tehnici de corelaţie pentru determinarea ponderilor. De exemplu, rezultatele din
paragraful 6.3, unde forme speciale S au condus la un algoritm de antrenare
care avea la bază produsul exterior. În acest paragraf vom dezvolta o procedură
în care se folosesc direct valorile si şi rj pentru a forma W .
Să considerăm o pereche stimul-răspuns (s, r ) cu vectorul d 1, s ,
s s s 1. Dorim
T
normalizat la lungimea egală cu unitatea, adică
obţinerea unei matrici pondere de forma următoare:
W rs .
T
(6.47)
226
Învăţarea de tip Hebbian
s1
s
s 2 (6.48)
...
s
d
şi
r1
r
r 2 . (6.49)
...
r
c
W s r s s s r r
T T
(6.50)
W s r s s ( s s ) r
T T
(6.51)
s s s .
T 2
(6.52)
227
6/ Aplicaţii ale asociatorilor neuronali
s s 1.
T
(6.53)
n
W r (s )T .
i i
(6.54)
i 1
W R ST . (6.55)
u
Dacă se dă un stimul de intrare, notat s , răspunsul se calculează din:
n n
W s r ( s ) s [( s ) T s ] r .
u i i T u i u i
(6.56)
i 1 i 1
n n
W r ( s ) Wi
i i T
(6.57)
i 1 i 1
1 pentru i p
s, s ip (6.58)
0 in rest
228
Învăţarea de tip Hebbian
1 s1
s 1 s 2 (6.59)
1 s
3
1 r1
r 0 r2 . (6.60)
1 r
3
1 1 1
T
W [ wij ] r s 0 0 0 . (6.61)
1 1 1
Evaluarea soluţiei
wij s j ri (6.62)
229
6/ Aplicaţii ale asociatorilor neuronali
230
Transformări liniar asociative, antrenare şi exemple
H {( s , r )}, p 1,2,..., n .
p p
(6.17)
o W2 i 2 W2 W1 i . (6.18)
W s r , p 1,2,..., n
p p
(6.19)
W S R. (6.20)
S T W T RT (6.21)
S T w i r i , i 1,2,..., c .
T T
(6.22)
T
Prin w i am notat coloana i din W T , care reprezintă ponderile
T
corespunzătoare unităţii i . Similar, r i este coloana răspunsurilor dorite pentru
216
6/ Aplicaţii ale asociatorilor neuronali
( S T ) ((S T ) T S T ) 1 ( S T ) T ( SS T ) 1 S . (6.23)
W T ( SS T ) 1 SRT (6.24)
sau
RS WSS W (6.26)
sau
W RS RS T ( SS T ) 1 . (6.27)
S S 1 S T (6.28)
217
Transformări liniar asociative, antrenare şi exemple
W R ST . (6.29)
(s1 )T
2 T
W [r r ... r ] ( s ) .
1 2 n
(6.30)
...
(s n )T
(s1 )T
2 T
W [r r ... r ] ( s ) (c1 c 2 ... c n )
1 2 n
(6.31)
...
(s n )T
n
c j r sij
i
(6.32)
i 1
i
iar s ij este elementul j al vectorului linie ( s ) T . De exemplu, prima coloană,
c 1 , a matricii rezultante din ecuaţia (6.31) este:
c1 r s11 r s 21 ... r s n1 .
1 2 n
(6.33)
(s1 )T
2 T n n n
[r r ... r ] ( s ) ( r i si1 r i si2 ... r sin ) .
1 2 n i
(6.34)
... i 1 i 1 i 1
(s n )T
218
6/ Aplicaţii ale asociatorilor neuronali
4 1
s 1 r 0
1 1
(6.36)
1 0
4 0
s 1 r 1
2 2
(6.37)
0 0
2 0
s 0 r 0
3 3
(6.38)
1 1
R I 33 (6.39)
şi
4 4 2
s 1 1 0 .
3
S s
1 2
s (6.40)
1 0 1
1
2 1
2
1
W S 1 1 1 . (6.41)
2
1
2 0
2
219
Transformări liniar asociative, antrenare şi exemple
W s r , i 1,2,3 .
i i
(6.42)
4
s 1
p
(6.43)
2
răspunsul este:
2
r W s 1 .
p p
(6.44)
0
220
6/ Aplicaţii ale asociatorilor neuronali
w S r
T T
(6.45)
unde fiecare coloană a lui S corespunde unei linii din Tabelul 6.1. Formularea
MATLAB şi soluţia sunt indicate în continuare.
S=
0 0 0 0 1 1 1 1
0 0 1 1 0 0 1 1
0 1 0 1 0 1 0 1
R=
0 0 0 1 0 1 1 0
W=R*pinv(S)
W=
0.2500 0.2500 0.2500
221
Transformări liniar asociative, antrenare şi exemple
W*S
ans=
0 0.25 0.25 0.50 0.25 0.50 0.50 0.75
222
6/ Aplicaţii ale asociatorilor neuronali
223
Transformări liniar asociative, antrenare şi exemple
S T w RT
T
(6.46)
gradient=
0.0078
0.0047
0.0016
w=
0.3747
0.3752
0.3756
223
6/ Aplicaţii ale asociatorilor neuronali
224
Transformări liniar asociative, antrenare şi exemple
225
6/ Aplicaţii ale asociatorilor neuronali
oi
ok
netk neti
i o
W f (.)
net
net
f 1 (.)
antrenare
Mai multe din metodele anterioare s-au bazat pe produsul exterior sau pe
tehnici de corelaţie pentru determinarea ponderilor. De exemplu, rezultatele din
paragraful 6.3, unde forme speciale S au condus la un algoritm de antrenare
care avea la bază produsul exterior. În acest paragraf vom dezvolta o procedură
în care se folosesc direct valorile si şi rj pentru a forma W .
Să considerăm o pereche stimul-răspuns (s, r ) cu vectorul d 1, s ,
s s s 1. Dorim
T
normalizat la lungimea egală cu unitatea, adică
obţinerea unei matrici pondere de forma următoare:
W rs .
T
(6.47)
226
Învăţarea de tip Hebbian
s1
s
s 2 (6.48)
...
s
d
şi
r1
r
r 2 . (6.49)
...
r
c
W s r s s s r r
T T
(6.50)
W s r s s ( s s ) r
T T
(6.51)
s s s .
T 2
(6.52)
227
6/ Aplicaţii ale asociatorilor neuronali
s s 1.
T
(6.53)
n
W r (s )T .
i i
(6.54)
i 1
W R ST . (6.55)
u
Dacă se dă un stimul de intrare, notat s , răspunsul se calculează din:
n n
W s r ( s ) s [( s ) T s ] r .
u i i T u i u i
(6.56)
i 1 i 1
n n
W r ( s ) Wi
i i T
(6.57)
i 1 i 1
1 pentru i p
s, s ip (6.58)
0 in rest
228
Învăţarea de tip Hebbian
1 s1
s 1 s 2 (6.59)
1 s
3
1 r1
r 0 r2 . (6.60)
1 r
3
1 1 1
T
W [ wij ] r s 0 0 0 . (6.61)
1 1 1
Evaluarea soluţiei
wij s j ri (6.62)
229
6/ Aplicaţii ale asociatorilor neuronali
230
Regula delta şi regula delta generalizată
1
o j f (net j ) net
(7.35)
1 e j
f (net j ) o j (1 o j ) . (7.36)
Unităţi de ieşire
E p
(t jp o jp ) . (7.37)
o j
p
jp (t jp o jp ) f j(net jp ) (7.38)
249
7/ Reţele neuronale cu propagare directă
.
. o1
.
o2
.
ok o3
.
. .
.
.
250
Regula delta şi regula delta generalizată
..
.
om
w ji ∑ ∫
..
ok .
Ep
Pe această bază, vom reformula metoda elaborată mai sus, pentru unitatea
ascunsă u k , luând în considerare influenţa ei asupra celorlalte n unităţi de ieşire
şi vom folosi din nou regula "lanţ", după cum urmează:
E p E p net np
( np wnk ) (6.40)
okp
n net n
p
ok p
n
rezultatul din ecuaţia (7.40) încorporează ecuaţia (7.29) şi derivata ecuaţiei
(7.15). Aşadar, ecuaţiile (7.29), (7.33) şi (7.34) conduc la
E p
k p f k (net kp ) .
p
(7.41)
o k
Aceasta, combinată cu ecuaţia (7.40) conduc la formularea recursivă pentru
actualizarea ponderilor din unităţile ascunse:
kp f k (net kp ) np wnk (7.42)
n
251
7/ Reţele neuronale cu propagare directă
Corecţia ponderilor stratului ascuns din ecuaţia (7.42) ascunde mai multe
dificultăţi practice importante pentru minimizarea lui E p . De exemplu, dacă
faza de învăţare a reţelei începe cu toate ponderile egale, corecţiile ponderilor
fiecărei unităţi ascunse de la aceeaşi unitate de intrare sunt identice. Aceasta
conduce la obţinerea unei "simetrii" a ponderilor din reţea, care poate să nu
corespundă cu soluţia optimă a ponderilor. În mod tipic, ponderile reţelei sunt
iniţializate aleator pentru a evita această problemă.
M`
252
Regula delta şi regula delta generalizată
Iniţializare contor
iteraţii N 1
Iniţializare wij cu
valori aleatoare
Aplicare forma de
intrare şi calculul
răspunsului
Calcul eroare de
ieşire E
N N 1
E ET DA Stop - reţea
? antrenată
NU
DA Stop
N N max
?
NU
Calcul pentru
unităţile de ieşire
Calcul pentru
straturile ascunse
Actualizare wij
253
7/ Reţele neuronale cu propagare directă
E E p
. (7.43)
w ji p w ji
w ji p w ji . (7.44)
p
Strategii mixte
254
Regula delta şi regula delta generalizată
255
7/ Reţele neuronale cu propagare directă
T
Figura 7.12 Posibile minime ale lui
E (w) , găsite în decursul antrenării.
w2 w2( 0)
w1( 0)
w5( 0)
w4( 0)
w3( 0)
w1
Figura 7.13 Traiectorii posibile ale ponderilor pe durata antrenării.
256
Extensii ale procesului de antrenare
Eroarea
Iteraţia
w ji (n 1) jp (n 1) o~i p ( n 1) w ji ( n) . (7.45)
257
7/ Reţele neuronale cu propagare directă
p w ji (n 1) jp ( n 1) o~i p ( n 1) . (7.46)
n
p w ji ( n) n k j ( k ) o~ p (k ) . (7.48)
k 1
n 1
w ji ( n) (n) o~i p (k ) nk j ( k ) o~ p (k )
p p
j (7.49)
k 1
258
Extensii ale procesului de antrenare
259
Regula delta şi regula delta generalizată
H1 I
o i
L2
wikL1 L2 f ksig wkjL0 L1 i j . (7.4)
k 1 j 1
După ce s-a ales structura potrivită pentru o reţea, cea mai mare parte a
efortului depus pentru proiectarea unei RNA pentru o aplicaţie specifică este
direcţionată către proiectarea unei strategii de antrenare eficiente. Trebuie avute
în vedere următoarele probleme:
Antrenarea se realizează serial sau paralel (prin epoci)?
Se folosesc momente? Dacă da, care este valoarea lor?
Datele din setul de antrenare sunt ordonate secvenţial sau aleator?
Algoritmul de antrenare a fost divergent, convergent, oscilant sau s-a
blocat într-un minim local?
Determinarea şi antrenarea unor valori potrivite pentru polarizare (dacă
este cazul)
Determinarea condiţiilor iniţiale potrivite pentru ponderi, polarizări, etc.
241
7/ Reţele neuronale cu propagare directă
Setul de antrenare
Setul de antrenare pentru acest tip de reţea constă din perechi ordonate de
vectori şi se notează cu
k k
H {(i , t )} k 1,2,..., n (7.5)
p
unde, pentru a p -a pereche intrare/ieşire, iip i este a i -a valoare (notată i pi în
alte lucrări). Similar, o jp (mai este notat o pj în literatură) şi t jp (sau t pj ) sunt
p p p
elementele j din o şi respectiv t , unde o este ieşirea curentă a reţelei care
p
rezultă din aplicarea intrării i cu setul curent de ponderi w . Dacă se cunoaşte
structura reţelei, scopul este elaborarea unui algoritm de învăţare sau antrenare
p p p
care foloseşte i , o şi t pentru a ajusta ponderile reţelei.
242
Regula delta şi regula delta generalizată
unde reprezintă un factor de ajustare sau de scalare, iar eroarea celei de-a j -a
unităţi de ieşire este definită ca:
e jp t jp o jp (7.7)
1 p p 1 p 2
E p (e ) T e e . (7.9)
2 2
243
7/ Reţele neuronale cu propagare directă
Sensibilitatea erorii
E p E p o j net j
p p
(7.10)
w ji o jp net jp w ji
1 p p 2
Ep t o (7.11)
2
sau
1
Ep
2 j
(t jp o jp ) 2 . (7.12)
E Ep . (7.13)
p
p
o jp f j ( w ji , i ) (7.14)
244
Regula delta şi regula delta generalizată
În mod tipic, f j este constantă în raport cu j (cel puţin în interiorul unui strat);
adică, toate unităţile au aceeaşi funcţie de activare. Pentru unităţile WLIC,
activarea neuronului artificial pentru unitatea j se formează prin suma
ponderată a intrărilor în unitatea j :
net j w ji ii (7.15)
i
1
f (net j ) net j
. (7.17)
1 e
Să considerăm cantitatea
E p E p o j
p
, (7.18)
w ji o jp w ji
.. oj
. ∑ ∫
o~i p
w ji +
..
.
245
7/ Reţele neuronale cu propagare directă
E p
(t jp o jp ) e jp (7.19)
o j
p
folosind şi definiţia din ecuaţia (7.7). Al doilea factor din (7.18) merită o atenţie
mai mare.
Să presupunem că f ( net j ) k net j . Pentru simplitate, vom considera
k 1 . Din ecuaţiile (7.14) - (7.16), se obţine
o jp w ji iip (7.20)
i
şi
o jp
iip . (7.21)
w ji
E p
(e jp ) (iip ) (7.22)
w ji
care este forma de tip produs postulată în ecuaţia (7.6). Pentru a verifica faptul
că această strategie minimizează eroarea E , observăm că, din ecuaţia (7.13) se
obţine
E E p
. (7.23)
w ji p w ji
o jp f j ( net jp ) (7.24)
246
Regula delta şi regula delta generalizată
E p net j
p
E p
(7.25)
w ji net jp w ji
unde
net jp
o~i p . (7.28)
w ji
E p
p
j (7.29)
net jp
E p
( jp ) o~i p . (7.30)
w ji
247
7/ Reţele neuronale cu propagare directă
E p
p w ji (7.31)
w
ji
Rata de învăţare
p w ji ( jp ) o~i p . (7.32)
Aceasta este tot o regulă de corecţie de tip produs. Observăm că este nevoie
să calculăm (sau să estimăm) jp . Pentru a j -a unitate,
E p o j
p
E p
(7.33)
net jp o jp net jp
o jp
f j( net jp ) . (7.34)
net p
j
248
Regula delta şi regula delta generalizată
1
o j f (net j ) net j
(7.35)
1 e
f (net j ) o j (1 o j ) . (7.36)
249
Capitolul 7
7.1 INTRODUCERE
235
7/ Reţele neuronale cu propagare directă
Reprezentare I/O
Arhitectura reţelei
(pentru aplicaţia specifică), de exemplu:
Propagare directă
Evaluare post-antrenare
Antrenarea reţelei (cât de bun?)
Validarea reţelei
i
o
Parametrii reţelei
( wij , polarizări, etc.)
Procedura de antrenare
236
Structuri cu propagare directă
Li Lh1 Lh 2 Lh 3 Lh 4 Lh 5 Lo
i1 o1
i2 o2
i3 o3
. . . .
. . . . . . .
. . . . . . .
. . .
id od
237
7/ Reţele neuronale cu propagare directă
Rolul stratului de intrare este oarecum fictiv: unităţile din acest strat sunt
folosite numai pentru a "reţine" valorile de intrare şi pentru a distribui aceste
valori către unităţile din stratul următor. Astfel, unităţile din stratul de intrare nu
implementează o transformare sau o conversie separată a datelor de intrare iar
ponderile lor, în sens strict, nu există.
În Figura 7.3 observăm că propagarea informaţiei în reţea este restricţionată
la propagarea din strat în strat, de la intrare la ieşire. Fiecare strat, pe baza
propriilor intrări, calculează un vector de ieşire şi propagă această informaţie
către stratul care urmează.Astfel, din punct de vedere arhitectural, reţeaua cu
propagare directă permite paralelismul (procesarea paralelă) în interiorul fiecărui
strat, dar propagarea informaţiei între straturi este în mod necesar serială.
Notaţii
Există două notaţii folosite pentru a indica numărul de unităţi din stratul de
intrare, din stratul ascuns şi din cel de ieşire. De exemplu, vom adresa o reţea
generală cu trei straturi ca fiind o reţea I / H / O sau I H O , unde:
I este numărul de unităţi de intrare
H este numărul unităţilor ascunse, din singura unitate ascunsă
O este numărul unităţilor de ieşire
Nu transformă
o1
i1
o2
i2
o3
i3
o4
I H O
3 2 4
238
Structuri cu propagare directă
4 2 1
2 /1
2/3/ 2
2 / 4 / 2 /1
Figura 7.6 Exemplu de reţele cu propagare directă şi
reprezentare simplificată.
239
7/ Reţele neuronale cu propagare directă
i1 o1
i2 o2
i3 o3
i4 o4
i5 o5
i6 o6
o f compus (i ) (7.1)
sau, în general,
Lp L p 1 L
o f (f ...( f 1 (i )...)) . (7.2)
H1
( f (i )) wikL1 L2 f kL1 (i ) .
L1
oi f L2
(7.3)
k 1
240
Structuri cu propagare directă
H1 I
o i
L2
wikL1 L2 f ksig wkjL0 L1 i j . (7.4)
k 1 j 1
241
Capitolul 6
6.1 INTRODUCERE
Schimbare de notaţie
În acest capitol vom relaxa într-o oarecare măsură restricţiile impuse asupra
notaţiilor. În timp ce intrările şi ieşirile sunt notate în mod tipic prin i şi
respectiv o , vom extinde această notaţie. Intrările în reţea sunt notate printr-un
vector i (sau s , de la stimul, sau, simplu, x ) iar ieşirea corespunzătoare dorită
va fi reprezentată prin o (sau r , de la răspuns, sau, simplu y ).
207
6/ Aplicaţii ale asociatorilor neuronali
S R
Figura 6.1 Structura unui RNA
asociator de forme RNA.
S {i1 , i 2 ,..., i m } R {o1 , o2 ,.., om }
208
Influenţa psihologiei în proiectarea şi evaluarea asociatorilor de forme
Stimulul unei RNA este reprezentat de un vector x , iar răspunsul dorit este
x d . Transformarea dorită realizată de RNA este formulată sub forma [Sch97]:
f D
: x xd (6.1)
sau
x d f D (x) . (6.2)
209
6/ Aplicaţii ale asociatorilor neuronali
sau continue; altele sunt destul de abrupte. În multe cazuri calea (traseul)
gândirii conţine legături logice. Multe dintre aserţiunile lui James sugerează o
reprezentare a cunoştinţelor care este de tip conecţionist. Vom explora aici
câteva dintre cele mai importante idei ale teoriei lui James; cititorul se poate
întoarce la aceste idei atunci când vom explora structurile recurente şi pe cele
auto-organizate.
James a postulat că cele două operaţii fundamentale care implică gândirea
sunt discriminarea şi asocierea iar principiul conexiunii explică succesiunea şi
coexistenţa ideilor în imaginile mentale. De exemplu, un traseu uzual în gândire
poate fi exprimat prin
210
Influenţa psihologiei în proiectarea şi evaluarea asociatorilor de forme
Conexiuni
inter-concept
a l
b m
Figura 6.2 Legături între
c n conceptele A şi B .
d p
e q
Amintirea totală
Amintirea totală este procesul în care mintea umană este într-o "rutină
perpetuă", în care există reminiscenţe cu detalii perfecte. Toate traseele
corespunzătoare pentru un concept activ sunt excitate. Secvenţa de concepte
care este reluată mental este determinată de interconexiuni şi de rezonanţele
iniţiale. Amintirea totală nu este un model plauzibil, cu excepţia cazurilor de
"dezordine" mentală [Jam90].
Amintirea parţială
Amintirea parţială este o bază puternică pentru învăţare/uitare şi pentru
modelele de asociere din structurile RNA; aceasta conduce la implementări care
iau în considerare procese de auto-adaptare. Observaţiile efectuate asupra
acestui concept [Jam90] sugerează că reprezentările memorate sunt variabile în
timp. În timp ce o parte a unui proces (conceptul A sau B ) poate fi ştearsă,
slabă şi neclară (pierderea caracterului viu), o altă parte a aceluiaşi proces (care
posedă un puternic interes intern) rezistă acestor tendinţe, devenind relativ mai
puternică. Cu alte cuvinte, o reprezentare internă se dezvoltă (Figura 6.3) şi
anumite porţiuni devin dominante.
211
6/ Aplicaţii ale asociatorilor neuronali
A
Elemente reţinute
ale conceptului A , Submulţimea dezvoltată
după evaluare de componente ale lui A
Amintirea focalizată
Amintirea parţială conduce la amintirea focalizată sau asocierea prin
similaritate, după cum se arată în Figura 6.4. În amintirea focalizată, o entitate
(traseu nervos) invovcă un întreg alt concept; adică, nu sunt necesare toate
entităţile pentru a adresa sau invoca un concept.
212
Transformări liniar asociative, antrenare şi exemple
oi w i , i i 1,2,..., c . (6.5)
o W i . (6.6)
r W s (6.7)
i1 o1
i2 o2
... ...
id oc
Ponderi
213
6/ Aplicaţii ale asociatorilor neuronali
T
W [ wij ] [ w i ] , (6.8)
adică, liniile lui W sunt vectorii pondere pentru fiecare unitate. Această structură
este prezentată în Figura 6.6.
O formulare generală a ecuaţiei (6.7), folosind n elemente din H , conduce
la:
1 2 n 1 2 n
W [ s s ... s ] [ r r ... r ] (6.9)
sau
W S R (6.10)
i1 wi1 unitatea i
i2 wi 2 ∑ oi
...
id wid
i1 w11 ∑ o1
w21 w12
i2 w22 ∑ o2
wc 2 w2 d
id wcd ∑ oc
214
Transformări liniar asociative, antrenare şi exemple
w1T
T
w2
o wT i b (6.12)
...3
T
wc
unde
b1
b
b 2 . (6.13)
...
b
c
o W i b . (6.14)
w1T w1b
T
o w2 w2b i . (6.15)
... ... 1
wT wcb
c
215
6/ Aplicaţii ale asociatorilor neuronali
216
Separabilitatea liniară
Cu cât raportul n /(d 1) este mai apropiat de zero, cu atât mai mult se
apropie de 1 probabilitatea unei soluţii liniar separabile. Intuitiv, acest
rezultat are sens întrucât în acest caz, numărul ponderilor este mult mai
mare decât numărul formelor din H , iar numărul gradelor de libertate
este mai mare decât pe cel al restricţiilor în H .
În mod similar, cu cât n /(d 1) devine mai mare, probabilitatea unei
soluţii liniar separabile scade, pentru că se depăşeşte capacitatea de
implementare hiperplanară.
Un corolar al punctului precedent este acela că în cazurile în care H
liniar separabil nu este dat, putem creşte d (de asemenea şi vectorii de
intrare) pentru a ajunge la o soluţie liniar separabilă. Aceasta va fi
arătată în mai multe exemple din acest capitol.
T 0 pentru i i H 1
w12 i i w0 (5.74)
0 pentru i i H 2
w
w 12 (5.75)
w0
i
iˆ i i (5.76)
1
sub forma:
179
5/ Structuri elementare ale reţelelor neuronale artificiale
T 0 pentru i i H 1
iˆ i w (5.77)
0 pentru i i H 2
iˆ i w 0, i 1,2,..., n (5.78)
A w 0, (5.79)
iˆ 1T
iˆ T2
A , (5.80)
:
T
iˆ
n
ψ(H1 , H 2 ) 0 , (5.81)
w w
ψ ( H 1 , H 2 ) max ( ) | H 1 0, H 2 0,1 w 1 (5.82)
w, ,
unde 1 este vectorul coloană care are toate elementele egale cu 1. O condiţie
necesară şi suficientă pentru inseparabilitatea liniară a mulţimilor H 1 şi H 2 este
180
Separabilitatea liniară
w
wˆ 1 . (5.83)
( )
2
Exemple
0 0 0 1 0 1
(0,0) (1,0) (0,0) (1,0) (0,0) (1,0)
AND OR XOR
(1,1,1)
0
0 1
(0,0,0) (1,0,0)
181
5/ Structuri elementare ale reţelelor neuronale artificiale
Ieşirea unităţii
(d=3)
Transformare
wa1
internă la d=3
Intrări (d=2)
i1
Figura 5.20 O reţea minimală 5-1 pentru a b1
i2
testa separabilitatea liniară a operatorilor i3 o1 b2
deschidere şi închidere (se utilizează un i4 b3
element B cu structura 3x1). i5
Acest exemplu este preluat dintr-un studiu mai amplu al aplicaţiilor RNA
legate de procesarea semnalelor [HS94].
Deschiderea si Închiderea sunt operaţii întâlnite în procesarea semnalelor
şi sunt utile în special în procesarea (imaginilor) 2-D [Sch89]. Pentru a specifica
transformările Deschidere şi Închidere trebuie să se indice o mulţime de
antrenare H . Aceasta trebuie să fie completă, adică trebuie să includă 2n
eşantioane pentru o intrare n-dimensională. Dacă se utilizează un element cu
structura 3 1, configuraţia unei unităţi singulare este cea din Figura 5.20. În
acest caz n 5 conduce la o mulţime de antrenare cu 32 eşantioane.
Închiderea. Pentru o reţea dată, o se calculează ca
o (i1 i 2 i 3 ) (i 2 i3 i 4 ) (i3 i 4 i5 )
o i3 (i 2 i 4 ) (i1 i 4 ) (i 2 i5 ) . (5.84)
182
Separabilitatea liniară
183
5/ Structuri elementare ale reţelelor neuronale artificiale
wˆ 0 (5.86)
A w 0, (5.87)
iˆ 1T
ˆT
A i 2 . (5.88)
:
T
iˆ
n
iˆ 1 q1 iˆ 2 q 2 ... iˆ n q n 0 (5.89)
unde qi 0 şi cel puţin unul dintre scalarii qi este pozitiv, atunci mulţimea
vectorilor de antrenare este neliniar separabilă.
Demonstraţie. Ecuaţia (5.89) poate fi scrisă sub forma
n
q iˆ
i 1
i i 0. (5.90)
184
Separabilitatea liniară
n n n
w q i iˆ i w q i iˆ i q i w iˆ i 0
T T T
(5.92)
i 1 i 1 i 1
Exemple numerice
A =
0 0 1
0 1 1
1 0 1
1 1 1
>N=null(A');
N =
0.5000
0.5000
0.5000
0.5000
185
5/ Structuri elementare ale reţelelor neuronale artificiale
Tabelul 4.2.
Analiza liniar separabilităţii pentru o mulţime de antrenare
în cazul XOR, d 2 .
Mulţimea de antrenare Mulţimea de antrenare
initială transformată
Intrare Ieşire (o1) Intrare Ieşire (o1)
(i1 i2 ibias) (i1 i2 ibias)
0 0 -1 <0 0 0 1 ε
0 1 -1 >0 0 1 -1 ε
1 0 -1 >0 1 0 -1 ε
1 1 -1 <0 -1 -1 1 ε
Tabelul 4.3.
Analiza liniar separabilităţii pentru o mulţime de
antrenare în cazul OR, d 2 .
Mulţimea de antrenare Mulţimea de antrenare
iniţială transformată
Intrare Iesire (o1) Intrare Iesire (o1)
(i1 i2 ibias) (i1 i2 ibias)
0 0 -1 <0 0 0 1 ε
0 1 -1 >0 0 1 -1 ε
1 0 -1 >0 1 0 -1 ε
1 1 -1 >0 1 1 -1 ε
A =
0 0 1
0 1 1
1 0 1
1 1 1
> N=null(A');
186
Tehnici de obţinere directă a parametrilor unităţilor liniare
N =
0.5000
0.5000
0.5000
0.5000
b1
b
b 2 , bi 0 . (5.93)
:
b
n
A w b (5.94)
wˆ A b . (5.95)
187
5/ Structuri elementare ale reţelelor neuronale artificiale
T
iˆ i w bi 0, i 1,2,..., n . (5.96)
T
Vectorul iˆ i poate fi interpretat [Sch97] ca vectorul normal la hiperplanul
( d 1) – dimensional care partiţionează spaţiul R d 1 . O condiţie impusă unei
soluţii este aceea că vectorul soluţie, w , trebuie să se afle în jumătatea pozitivă,
T
R p , a spaţiului R d 1 , la distanţa | b | / || iˆb i || de margine. În plus, intersecţia celor
n jumătăţi ale spaţiului R d 1 definite de ecuaţia (5.96) constituie regiunea
soluţiei generale pentru w . În cazul problemelor care nu sunt liniar separabile,
această regiune nu există. În cazul contrar, pentru soluţiile liniar separabile
pentru care nu există plane unice de separare, această regiune conţine o infinitate
de puncte soluţii. În plus, prin impunerea marginilor bi 0, i 1,2,..., n , putem
determina soluţia care reprezintă regiunea maximă dacă rezolvăm
T
iˆ i w 0, i 1,2,..., n . (5.97)
( n 1) J ( w)
n
(n)
w w , (5.98)
w w w ( n )
188
Tehnici de obţinere directă a parametrilor unităţilor liniare
T
iˆ i w 0 , (5.99)
T
clasifică eronat eşantionul iˆ i . În consecinţă, o măsură a erorii, funcţia criteriu
caracteristică unui perceptron, este
(iˆ
T
J p ( w) i w) (5.100)
iˆ X ERR ( w )
unde X EER (w) este mulţimea eşantioanelor clasificate eronat prin w . Trebuie să
menţionăm că această mulţime variază de la iteraţie la iteraţie în procedura de
determinare a soluţiei. Dacă WEER (w) , atunci J p ( w) 0 şi în acest caz se
obţine minimul funcţiei eroare. Pentru că
w J p ( w) iˆ i
iˆ i X ERR ( w )
, (5.101)
w
( n 1)
w
(n)
n iˆ i
iˆ i X ERR ( w )
. (5.102)
(n ) (n )
În cazul în care X ERR ( w ) , ajustările asupra lui w încetează.
Ecuaţia (5.102) sugerează că la fiecare iteraţie întreaga mulţime de
(n )
eşantioane clasificate greşit de w poate fi utilizată pentru a forma corecţia la
următoarea iteraţie. Aceasta impune o luare în considerare a întregii mulţimi de
antrenare pentru fiecare ajustare a lui w ; metoda reprezintă antrenarea
periodică. O altă posibilitate este ajustarea lui w de îndată ce s-a produs o
singură eroare de clasificare; este antrenarea prin eşantioane şi poate fi
interpretat ca o strategie de tipul “corect de îndată ce este posibil”. Adesea este
neclar care dintre cele două metode este de preferat: antrenarea periodică sau
prin eşantioane. În cazul antrenării prin eşantioane, ecuaţia (5.102) devine
( n 1)
n iˆ i
(n)
w w (5.102)
(n )
unde x̂ i este primul eşantion clasificat greşit de w .
189
5/ Structuri elementare ale reţelelor neuronale artificiale
net i wij i j w i .
T
(5.104)
j
Vectorul w0k
.1
de intrare
w1k gk Ieşire
Figura 5.21 Structura x1k Σ
ADALINE; se utilizează Xk w2k
x2k
eroarea de tip liniar. .. εk
. Σ
Eroare
xmk wmk
dk
Wk Răspunsul
Vectorul
dorit
pondere
190
Perceptronul şi unităţi ADALINE/MADALINE
1 pentru net i 0
oi (5.105)
1 pentru net i 0
Răspunsul
dorit
x0k=+1
191
5/ Structuri elementare ale reţelelor neuronale artificiale
x0=+ 1
w1=– 1 w0=– 1,5
x1
+1 AND
Σ
w2=+1 -1
x2
x0=+ 1
w1=+ 1 w0=+ 1,5
x1
+1 OR
Σ
w2=+1 -1
x2
x0=+ 1
w1=+ 1 w0=+ 1,5
x1
w2=+ 1 +1 MAJ
x3 Σ
-1
x2
w3=+1
Algoritmi α – LMS
Semnificaţia acestui principiu este: corecţia ponderii, care ste ideală pentru
forma curentă poate fi contraproductivă, în funcţie de alte forme din setul de
antrenare care au fost utilizate anterior. Dacă se utilizează antrenarea prin
eşantioane, este posibil să se distrugă unele din rezultatele bune ale antrenărilor
precedente facând corecţii asupra eşantioanelor următoare.
192
Perceptronul şi unităţi ADALINE/MADALINE
p
Să presupunem o mulţime de antrenare de forma H {i , t p } , unde t p este
p
răspunsul dorit, sau “ţinta”, corespunzător intrării i . Vom defini eroarea liniară
la momentul k (sau la iteraţia k ) prin
T p
ek d p w k i (5.106)
T p p
e (d p w k i ) (i ) T w k . (5.107)
w k w k 1 w k (5.108)
sau
w k 1 w k w k . (5.109)
p
Pentru că i şi d p sunt fixate, obţinem
0 pentru d p w Tk i p
T p
e k 0 pentru d p w k i (5.110)
0 pentru d p w T i p
k
e k 0 daca e k 0 (5.111)
e k 0 daca e k 0 (5.112)
e k 0 daca e k 0 (5.113)
e k e k , 0 . (5.114)
193
5/ Structuri elementare ale reţelelor neuronale artificiale
p p
(i ) T i
e k p
ek (5.115)
|| i || 2
p p
(i ) T i
pentru că p
1
|| i || 2
În consecinţă, utilizând ecuaţiile (5.107), (5.114) şi (5.115), obţinem
p p
(i ) T i
e k (i ) w k
p T
p
ek . (5.116)
|| i || 2
În mod curent,
0,1 1. (5.118)
194
Perceptronul multistrat
Ieşirea
– ADALINE = +1
+ (–1,+1) (–1,+1)
x0=+1
Vectorul x12 w11
Sq. w0
de intrare Ieşire
x1 w1
X x1 binară
x1x2 w12 z y
X Σ
w2 {–1, +1}
x2 x2
–
w22 ε Signum
x22 Σ
Sq. Eroarea
+
liniară
Procesor dk {–1, +1}
polinomial Răspunsul
dorit
Figura 5.26 Utilizarea transformărilor neliniare pentru
a implementa o transformare ADALINE.
195
5/ Structuri elementare ale reţelelor neuronale artificiale
x0=+ 1
Vectorul
de intrare
X x1 +1
Σ
-1
Ieşire
x0=+ 1 y
AND
+1
Σ
x2 -1
Linii de separare
x2
(–1,+1) (+1,+1)
+
– –
x1
+ Ieşirea MADALINE
=–1
(–1,–1) (+1,–1)
Ieşirea MADALINE
= +1
196
Utilizarea funcţiilor de activare de tip sigmoid în antrenarea “gradient descent”
T
net w i (5.119)
o f (net ) . (5.120)
1 2 n
H {(i , t 1 ), (i , t 21 ), ..., (i , t n )} (5.121)
1
(e p ) 2 (t p o p ) 2 . (5.122)
2
n
E (e p ) 2 . (5.123)
p 1
d (e p ) 2 d (e p ) 2 do p dnet
. (5.124)
dwk do p dnet dwk
Prin urmare
197
5/ Structuri elementare ale reţelelor neuronale artificiale
d (e p ) 2
p
op tp (5.125)
do
do p d
p
p
f (net p ) (5.126)
dnet dnet
unde se presupune că există cantitatea din ecuaţia (5.126). Din (5.119) rezultă:
dnet p
i kp . (5.127)
dwk
d (e p ) 2 df ( net p ) p
(o p t p ) p ik (5.128)
dwk dnet
d (e p ) 2
wk (5.129)
dwk
să conducă la corecţia
p df ( net p ) p
w k
j 1
w (o t )
k
j p
ik . (5.130)
dnet p
198
Capitolul 5
5.1 INTRODUCERE
Celulele nervoase
Sistemul nervos este constituit din două tipuri de celule: neuronii – sau
celulele nervoase – şi glia (celulele gliatice). Neuronii reprezintă blocurile de
bază pentru constituirea sistemelor biologice de procesare a informaţiei. Celulele
gliatice îndeplinesc numai funcţia de sprijinire a activităţii neuronilor; în
consecinţă, ne vom concentra asupra neuronilor.
Neuronii creierului pot fi clasificaţi după funcţia pe care o îndeplinesc.
Neuronii aferenţi sau senzoriali furnizează semnale de intrare pentru sistemul
nervos; un exemplu: nervii optici. Neuronii motori procesează local informaţia
sau propagă semnale dintr-un loc în altul, şi reprezintă de departe cea mai
numeroasă clasă de celule din sistemul nervos.
Un neuron biologic întâlnit în mod curent la vertebrate este reprezentat în
Figura 5.1.
151
5/ Structuri elementare ale reţelelor neuronale artificiale
Dendrite apicale
Nucleu
Pericaryon
Fibre terminale
inhibitoare ale
axonului
Fibre terminale Dendrite bazale
excitatoare ale
axonului Axon
(segmentul iniţial)
Gâtul axonului
Nod Ranvier
Axon
Terminal
pre-sinaptic
Dendrită
152
Unităţi neuronale biologice
Această celulă are trei porţiuni majore, definite din punct de vedere
morfologic [Kan91], fiecare dintre acestea contribuind la procesarea semnalelor:
Corpul celulei sau soma, care constă din nucleul celulei şi perikaryon.
Corpul celulei are, adesea, diametrul mai mare de 50 μm.
Axonul, care este o construcţie tubulară cu diametrul între 0,2 şi 20 μm,
lungimea putând atinge 1 m. Se consideră că axonii încep cu gâtul
axonului, care generează potenţialul de activare al celulei. Axonul
reprezintă principalul mecanism de conducţie al neuronului.
Dendritele, care se ramifică precum ramurile unui copac. Cei mai mulţi
neuroni au dendrite multiple. Dendritele unui neuron se conectează cu
axonii altor neuroni prin intermediul conexiunilor sinaptice (sinapse). În
acest mod iau naştere reţelele neuronale biologice. Neuronii multipolari
(Figura 5.1) au două tipuri de dendrite: apicale şi bazale. Dendritele
bazale facilitează atât funcţia excitatoare cât şi pe cea inhibatoare în
generarea semnalului de către axon. Vom utiliza această funcţionalitate
în modelele artificiale ale celulelor, în mod special în elaborarea
modelului MP (McCulloch-Pitts).
Activitatea sinaptică
Transmisia sinaptică implică procese chimice şi electrice deosebit de
complicate. Stimulii senzoriali sau chimici iniţiează o modificare în potenţialul
sinaptic. Prin această schimbare un anumit neuron influenţează starea altora,
conectaţi direct sau indirect la cel dintâi. În soma, această activitate este
integrată şi determină potenţialul axonului. Trebuie menţionat că sunt posibile
153
5/ Structuri elementare ale reţelelor neuronale artificiale
atât influenţe excitatorii cât şi inhibitorii. Modalitatea în care soma realizează
conversia, de la potenţiale de intrare continue în semnale de ieşire 1/0, este unul
dintre cele mai importante aspecte ale comportării unei celule şi generează
diferite modele artificiale. Dacă stimulii tuturor celulelor se situează sub un
anumit prag, nu se generează nici un semnal. Dacă stimulii acumulaţi depăşesc
pragul (cu cât anume?), atunci se generează semnal de ieşire.
Potenţialul de acţiune (sau potenţialul de activare) pentru un neuron activat
este reprezentat în mod uzual de un semnal cu vârfuri mari, a căror frecvenţă
este proporţională cu potenţialul somei. Dacă potenţialul somei unui neuron
creşte peste o anumită valoare de prag, atunci neuronul începe să comute (se
aprinde). În consecinţă, un potenţial de activare poate determina schimbări în
potenţialul neuronilor ataşaţi. Frecvenţa medie a semnalului care reprezintă
potenţialul de activare se numeşte rata medie de activare (comutare) a
neuronului. Potenţialul mediu al somei, în raport cu potenţialul de bază al somei,
este cunoscut sub numele de nivelul de activare al neuronului. În Tabelul 5.1
sunt prezentaţi diferiţi parametri specifici proceselor electro-neuronale.
154
Unităţi neuronale biologice
Tabelul 5.2. Numărul aproximativ de neuroni
şi sinapse în două tipuri de sisteme nervoase
Sistem Neuroni Sinapse
Sistemul nervos uman 1012 1015
Creierul şoarecelui 1010 1013
155
5/ Structuri elementare ale reţelelor neuronale artificiale
dendrite
soma
(a) (b)
Aceste proprietăţi sunt cele presupuse şi verificate până acum. Multe alte
presupuneri legate de aceste proprietăţi nu au fost încă verificate. Nu cumva este
o provocare ?! În Figura 5.3 este prezentată organizarea sistemelor biologice
superioare [CS93].
156
Structuri neuronale artificiale
CNS 1m
Sisteme 10 cm
Neuroni 100 μm
Sinapse 1 μm
Molecule 1Å
i1 Scanarea combinaţiei
Intrări i2 de intrare Ieşire
.. . . şi formarea semnalului (scalar)
id de ieşire
157
5/ Structuri elementare ale reţelelor neuronale artificiale
O funcţie vectorială de variabilă vectorială, f (x) , este liniară în sensul
intrare/ieşire dacă:
x x 1 x 2 , f ( x ) f ( x 1 ) f ( x 2 ) (5.1)
Fiecare intrare a unui neuron artificial are asociată o pondere care indică
"puterea" conexiunii fie cu un semnal de intrare (extern), fie cu ieşirea altui
neuron. Cu toate că bibliografia existentă este oarecum inconsistentă în legătură
cu acest subiect, în această lucrare vom adopta următoarea convenţie: wij
reprezintă ponderea conexiunii către neuronul i , fie de la neuronul j , fie de la
intrarea j . În consecinţă, o valoare mare pentru wij va indica un puternic
semnal excitator transmis de unitatea (sau intrarea) j către unitatea i ; o valoare
mare negativă a ponderii este considerată o intrare puternic inhibitoare.
Unităţi singulare
Este uşor de acceptat că cea mai simplă unitate liniară este cea care are
modelul S-R de forma
w1 i1
w i
T 2 2
o(i ) net (i ) net i w i , unde w . şi i . . (5.2)
. .
w i
d d
Formulări matriciale
Modul în care se obţine semnalul de activare pentru o unitate individuală,
poate fi descris prin
d
net i wij i j , (5.3)
j 1
158
Structuri neuronale artificiale
Am indicat astfel că o intrare a unei unităţi este, de cele mai multe ori,
ieşirea altei unităţi, fie în cazul unei structuri recurente fie pentru una cu propa-
gare directă. În plus, definirea unei matrici de interconexiune W şi a vectorului
de intrare i ca în ecuaţia (5.2),
W [ wij ] , (5.4)
net W i , (5.5)
unde
p
H {(i , o p )} . (5.7)
p
Aceasta înseamnă că, atunci când unităţii i se aplică i , răspunsul dorit este
p
o . Dacă H este cunoscută (dată), atunci problema proiectării neuronului este
determinarea ponderilor w care conduc la realizarea acestei transformări.
Ecuaţiile (5.7) si (5.2) conduc la impunerea unei restricţii asupra lui w :
T p
op w i . (5.8)
p
H {(i , o p )} p 1, 2, ..., n . (5.9)
În acest caz, pot fi formate ecuaţia matricială pentru restricţiile asupra lui
w sub forma
159
5/ Structuri elementare ale reţelelor neuronale artificiale
o1 (i ) T
1
2 2 T
o (i )
. . w. (5.10)
. .
on n T
(i )
T
o(i ) w i w0 , (5.11)
T
o(i ) 0 w i w0 . (5.12)
T
w i w0 0 (5.13)
sau
w , i w0 0 . (5.14)
Este util să rescriem ecuaţia (5.14) astfel încât să apară sub forma unui
model liniar. Pentru aceasta vom utiliza reprezentarea vectorilor în coordonate
omogene [Moi99]. Dacă vom rescrie vectorii sub forma:
i1
i
2
. w
iˆ şi wˆ , (5.15)
. w0
id
1
vom obţine
wˆ iˆ 0 o(i ) .
T
(5.16)
160
Structuri neuronale artificiale
i1 w1
w Ti g(i)
i2 w2 ∑ ∑
. .
. .
. .
id wd w0
În cazul c=2 se poate
reprezenta sub forma
ω1
w i
i
i i
>
< – w0 Decizie
ω2 binară
161
5/ Structuri elementare ale reţelelor neuronale artificiale
- Multiplicativă: net ii ;
- Substarctivă;
- Polinomială;
- Relaţională, de exemplu net max{ik }, k 1,2,..., d .
Unităţi McCulloch-Pitts
Anumite unităţi întâlnite în mod curent sunt inerent neliniare (în sensul
I/O). Alte exemple faţă de cele prezentate anterior sunt dispozitivele cu prag,
funcţiile polinomiale (în general) şi funcţia sigmoid, care vor fi introduse
ulterior.
Unul dintre cele mai comune modele neliniare se datorează lui McCulloch
şi Pitts [MP43] şi a fost propus în 1943. În acest volum vom nota modelul
McCulloch-Pitts prin MP. Acest model este ilustrat in Figura 5.7 şi este descris
în Tabelul 5.4. Parametrii modelului MP sunt:
- T , valoarea de prag (pragul);
- E , suma intrărilor excitatoare activate;
- I , suma intrărilor inhibatoare activate.
Modelul MP nu are o structură explicită alcătuită din două părţi (duală)
cum este cea prezentată în Figura 5.6. Modalităţile în care se poate utiliza o
unitate MP pentru a realiza (îndeplini) funcţii logice uzuale sunt prezentate în
Figura 5.8.
Activare
Excitatoare .
.
Procesare
Intrări
.
net → 0
Inhibitoare .
(combinare) neti Transformare oi
Activarea
.
(squashing)
.
unităţii
Figura 5.6. Modelul cu două etaje pentru o unitate
care combină intrările pentru formarea ieşirilor.
Semnal
Excitatoare de ieşire
{0, 1}
.
.
.
162
Structuri neuronale artificiale
Tabelul 5.4. Caracteristicile unei unităţi MP.
E T I 0 Aprindere (Activare)(1)
E T I 0 Neactivare (0)
E T I 0 Neactivare (0)
E T I 0 Neactivare (0)
i1 AND i1 OR
f = i1 ∩ i2 f = i1 i2
2 1
i2 (toate I = 0) i2 (toate I = 0)
NOT (Utilizează
o intrare inhibitoare)
i1 not i1 Figura 5.8. Realizarea funcţiilor logice
0
simple cu ajutorul unor neuroni MP.
(pragul 0)
163
5/ Structuri elementare ale reţelelor neuronale artificiale
i1 w1
neti oi
i2 w2 ∑ oi = fi (neti, λ)
.
.
Activare
. . .
λ
. .
. .
id wd
Figura 5.9. Structura unei unităţi cu două etaje cu
formarea liniară a semnalului de activare.
Ponderi
variabile
i1 wi1
+
i2 wi2 + 1 fi {0,1}
∑
.
.
.
.
.
.
.
+ 0 T
. .
i1
1
F i1 i 2 Figura 5.11 Folosirea WLIC-T pentru
2
i2 realizarea funcţiei logice AND.
1
1
n
i wi T
i 1 i
164
Caracteristicile activare-ieşire pentru unităţile neuronale artificiale
Funcţii de activare
În unităţile cu două etaje descrise în paragrafele anterioare, transformarea
dintre semnalul de activare al unităţii la ieşire poate fi caracterizată ca o funcţie
de activare (sau “de netezire”). Deşi nu toate unităţile realizează o acţiune de
netezire, funcţiei respective i se atribuie acest nume generic. Activarea unităţii
poate “extinde” gama semnalului de iesire, deşi aceste cazuri sunt rare.
Cel mai simplu exemplu este acela al unei unităţi liniare, pentru care
165
5/ Structuri elementare ale reţelelor neuronale artificiale
funcţiilor de creştere [Bal92]. Forma funcţională particulară care este cunoscută
sub numele de funcţia de activare sigmoid este:
1
oi f (net i ) , (5.18)
1 e neti
oi câştig > 1
câştig = 1
câştig < 1
O neti
(a)
oi oi
prag inferior
Valoare de prag prag superior
(prag)
O T neti O ti tu neti
(b) (c)
oi oi
1
0
neti ti 0 tu neti
(d) (e)
166
Caracteristicile activare-ieşire pentru unităţile neuronale artificiale
0.5
oi (1 exp( net i )) 1 1 / 2
-0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
net i
e x
f ( x) . (5.19)
(1 e x ) 2
Trebuie menţionat că derivata din (5.19) este simetrică faţă de zero şi mai
ascuţită în partea mediană decât în intervalul (0, 1). O caracteristică avantajoasă
167
5/ Structuri elementare ale reţelelor neuronale artificiale
în ceea ce priveşte calculele necesare pentru funcţia de activare (5.18), utilă
pentru antrenare, este
o i
o i (1 o i ). (5.20)
net i
Vom studia în detaliu funcţia sigmoid şi vom arăta mai multe relaţii cu alte
funcţii squash. De exemplu, funcţia logistică şi funcţia tanh sunt legate prin
1 x 1
1 tanh x
. (5.21)
2 2 1 e
1
oi , (5.22)
1 e neti
unde este parametrul care reprezintă câştigul. În acest caz, cititorul poate
verifica relaţia
o i
o i (1 o i ). (5.23)
net i
1
oi , (5.24)
1 a e bneti
cu parametrii a şi b .
168
Caracteristicile activare-ieşire pentru unităţile neuronale artificiale
În continuare vom lua în considerare o funcţie sigmoid deplasată şi scalată,
de forma
2
1 f m ( net i ) (5.25)
1 e neti
1
tanh( net i ) . (5.28)
2
Astfel, am arătat originea uneia dintre cele mai utilizate funcţii squash,
tanh( βnet i ) .
do i
αo i (1 o i ) αo i αo i2 . (5.29)
dnet i
Trebuie amintit că, din punct de vedere analitic, graficul funcţiei din (5.29)
este plat ( oi / net i 0 ), pentru oi 1 sau oi 0 . Tranziţia apare pentru
oi 1 / 2 , adică acolo unde net i 0 pentru oi 1 / 2 ,
do i
α (1 / 2)(1 / 2) α/4 . (5.30)
dnet i
1 1 oi 1 oi
net i ln ln . (5.31)
oi 1 oi
169
5/ Structuri elementare ale reţelelor neuronale artificiale
neti |oi 0,37 0,532 (5.33)
şi
tr(α)~1/α (5.35)
d [o i (net i )]
s i ( net i ) (5.36)
dnet i
ds i
2. 2oi 0 (5.38)
do i
0.4
0.35
0.3
0.15
0.1
0.05
-4 -3 -2 -1 0 1 2 3 4
170
Caracteristicile activare-ieşire pentru unităţile neuronale artificiale
Similaritatea cu o altă funcţie binecunoscută, funcţia Dirac, ne conduce la
concluzia
1
oi (5.40)
1 e neti
atunci
df (net i )
f ( net i net i ) f ( net i ) net i termeni de rang superior (5.41)
dnet i
1 net i
f (net i ) f (0) oi (1 oi ) | neti 0 x (5.42)
2 4
171
5/ Structuri elementare ale reţelelor neuronale artificiale
Alte funcţii de activare
În aplicaţiile practice pot fi utilizate şi alte funcţii squash. O funcţie de
activare liniară pe porţiuni este
1 pentru net i 1
o i net i pentru | net i | 1 (5.44)
1 pentru net i 1
Această funcţie, deşi este compusă din segmente liniare, este neliniară.
O altă funcţie liniară pe porţiuni este
1 pentru net i 1
oi net i pentru 0 net i 1 (5.45)
0 pentru net i 0
net i
oi (5.46)
1 | net i |
1 e 2 x e x e x
tanh( x ) (5.47)
1 e 2 x e x e x
e neti e neti
oi tanh( net i ) net (5.49)
e i e neti
1 pentru net i 0
oi f (net i ) (5.50)
0 pentru net i 0
172
Caracteristicile activare-ieşire pentru unităţile neuronale artificiale
1 pentru net i 0
oi f (net i ) (5.51)
1 pentru net i 0
1 pentru net i 0
o i f i (net i ) sgn( net i ) 0 pentru net i 0 . (5.52)
1 pentru net i 0
Funcţia signum, aşa cum a fost definită prin ecuaţia (5.52) nu generează o
ieşire binară (cu două niveluri logice).
Ideea utilizării combinaţiilor de funcţii min şi/sau max generează alte
familii de funcţii squash, cum ar fi:
şi
( net i ) n
o i max 0, n
. (5.55)
c ( net i )
173
5/ Structuri elementare ale reţelelor neuronale artificiale
Un exemplu de funcţie de activare nesaturată este
d
oi i1i2 ...i d (5.57)
i 1
unde k este o constantă pozitivă care controlează precizia aproximării. Deşi este
dificil să se indice originile acestei aproximări, una dintre idei este “max-
entropia” introdusă de E. T. Jaynes şi utilizată pentru estimarea probabilităţilor
şi a funcţiilor asociate [Jay89]. Aceste aproximaţii sunt utilizate în problemele
propuse la sfârşitul acestui capitol pentru a implementa diferite funcţii.
174
Extensiile modelului unităţii artificiale
1
f ( net j ) net j
(5.61)
1 e
observăm că
0 f ( net j ) 1 (5.62)
net i 0 (5.63)
1
f ( 0) . (5.64)
2
Este posibil să polărizam această unitate astfel încât f (0) să aibă altă
valoare. După cum am arătam mai înainte, această polarizare poate fi de
asemenea variată, ca parte a procesului de antrenare a reţelei. Un model simplu
pentru unitatea cu polarizare se obţine prin modificarea net j astfel încât
175
5/ Structuri elementare ale reţelelor neuronale artificiale
bias i bias i
net i oi net i oi
1 1
∑ ∑
1 e (.) 1 e (.)
Intrări inhibitoare
Adesea este util să dispunem de intrări ale unei unităţi neuronale care să
inhibe activarea unităţii respective. Un exemplu al acestei utilităţi poate fi găsit
în învăţarea competitivă. Această caracteristică poate fi obţinută în mai multe
moduri. După cum se observă în Figura 5.10, valorile negative pentru wij care
sunt mari în amplitudine, datorită operaţiei de sumare (5.3), conduc la
caracteristici puternic inhibitorii. O formă mai severă de inhibare se poate obţine
dacă se utilizează un model activare – ieşire de tip neliniar (Figura 5.7).
176
Separabilitatea liniară
Definiţie. Dacă există o regiune de decizie liniară (un hiperplan de decizie)
care clasifică (împarte) în mod corect toate eşantioanele de antrenare din H
pentru o problemă de clasă c 2 , eşantioanele se zic liniar separabile
[Sch92].
T
g (i ) w i w0 0 (5.66)
0 pentru i R p
T
g (i ) w i w0 0 pentru i H ij (5.67)
0 pentru i R n
T
w (i i s ) 0 . (5.68)
T
w i b 0 (5.69)
sau
wˆ iˆ 0
T
(5.70)
ŵ
w
(5.71)
b
şi
177
5/ Structuri elementare ale reţelelor neuronale artificiale
iˆ
i
(5.72)
1
1 pentru n d 1
f ( n, d ) 2 d n 1 . (5.73)
2 i 0 i
n
pentru n d 1
1 d=∞
d = 60
d = 15
0.8 d=5
d=2
0.6
0.4
0.2
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
178
Separabilitatea liniară
5.7 Tehnici de obţinere a parametrilor unităţilor liniare
5.9 MLP
5.10 GD training
[CS93] Churchland, P. S. and Sejnowski,
The Computational Brain, MIT Press,
Cambridge, MA, 1993.
179
Capitolul 4
4.1 INTRODUCERE
Noţiunea de calcul poate lua mai multe aspecte. Din punct de vedere
istoric, calculul a fost dominat de conceptul de calcul programat, în care
algoritmii sunt proiectaţi şi apoi implementaţi folosind arhitecturile dominante
curente. Este nevoie de un punct de vedere alternativ atunci când se consideră
operaţiile de calcul din sistemele biologice. De exemplu, calculul din creierul
uman este diferit de paradigma mai sus amintită prin:
129
4/ Bazele reţelelor neuronale
130
Concepte fundamentale
Ieşiri
Intrări
Ieşiri
Intrări
(a) (b)
131
4/ Bazele reţelelor neuronale
132
Aplicaţii ale calculului neuronal
i 1T
T
i2
P iT .
...3
T
in
133
4/ Bazele reţelelor neuronale
Avantaje
Calculul se efectuează în paralel
RNA pot fi tolerante la defecte datorită paralelismului
RNA pot fi proiectate astfel încât să fie adaptive
Nu este nevoie de caracterizarea extensivă a problemei (în alt mod decât
prin setul de antrenare).
134
Ingineria calculului neuronale
Dezavantaje
Nu există reguli clare sau indicaţii de proiectare pentru o aplicaţie
arbitrară
Nu există o cale generală pentru a evalua modul intern de operare pentru
o reţea
Antrenarea poate fi dificilă sau imposibilă
Este dificil să se prevadă performanţa viitoare a reţelei (generalizare).
135
4/ Bazele reţelelor neuronale
136
Tipuri de transformări
i o
o [0, M ]
o1
i
o2 o i 1
oc oi o j 0 pentru i j
o1
i Codurile indică
o2 descrierea sau clasa
om
137
4/ Bazele reţelelor neuronale
Ajustare
ANN
138
Tipuri de transformări
Selecţia intrărilor
11
2 4 6 8
139
4/ Bazele reţelelor neuronale
Sau, după o oarecare analiză, din aceste matrici pot fi extrase caracteristici
care pot fi folosite ca intrări ale RNA. Deocamdată, nu este foarte clar care
variantă este de preferat.
Distorsiunile intrărilor
Selecţia ieşirilor
140
Tipuri de transformări
RNA RNA
H {( s i , ri )} i 1,2,..., n (4.1)
ri f D ( si ) (4.2)
Unul dintre exemplele cele mai simple este reprezentat de cazul în care si
şi ri sunt numere reale.
141
4/ Bazele reţelelor neuronale
f D
:sr (4.3)
sau
r f D (s ) (4.4)
Una dintre cele mai folosite transformări de forma (4.4) este transformarea
liniară, care poate fi realizată prin intermediul unei matrici de transformare.
Aceasta are forma:
r M s (4.5)
r f p ( s, a p ) (4.6)
r i f ( s i , a c , w) (4.7)
142
Structuri tipice
143
4/ Bazele reţelelor neuronale
w L1 w L2 w LN
Forma de Forma de ieşire
intrare x (semnal) o
L1 L2 ..... LN
x(k ) x( k 1)
LH z 1
144
Structuri tipice
Răspuns
Stratul neuronal
"Figura"
Date de imtrare
preprocesate
(caracteristici)
145
4/ Bazele reţelelor neuronale
Vedere
laterală
Elemente de
Element de procesare
procesare de
bază
146
Metode de învăţare
r a f A (s ) (4.8)
r d f D (s ) (4.9)
"deplasând" f A
mai aproape de f D
prin procesul de antrenare. Desigur, trebuie
să se dezvolte o măsură potrivită a "gradului de apropiere".
Învăţarea se poate baza pe metode deterministe, cum este cazul
algoritmului cu propagare inversă (Capitolul 7) sau al învăţării de tip Hebbian
(Capitolul 8), sau pe metode stohastice, cum este cazul algoritmilor genetici.
H {( s i , ri )} i 1,2,..., n (4.10)
147
4/ Bazele reţelelor neuronale
4.7.2 Generalizare
148
Metode de învăţare
ri
si
149
4/ Bazele reţelelor neuronale
Eroarea
(c)
(b)
(a)
(d)
Iteraţia
EXERCIŢII
4.2 Prezentaţi câte o aplicaţie concretă pentru RNA, conform clasificării din
Paragraful 4.3.
150