Documente Academic
Documente Profesional
Documente Cultură
Capitol 11 - RNA
Capitol 11 - RNA
x1
w1
g ( x) xi wi
x1 w1
i 1
w2
x3
w3
x3 w3
Functia de
activare
...
x2
x2 w2
f( )
y
b
Pragul
(threshold, bias)
xd wd
wd
xd
Activarea
g(x)
Ponderi
sinaptice
y f ( g ( x) b) f ( xi wi b)
Combinator liniar
i 1
reelelor neurale este acela c sunt suficient de puternice pentru a crea funcii
discriminant arbitrare astfel nct reeaua neuronal artificial s conduc la
o clasificare optimal.
RNA aparin clasei clasificatorilor semiparametrici. Parametrii
reelei neuronale (ponderile RNA) sunt determinate din setul de date pe baza
unui algoritm de adaptare (similar ca n cazul clasificatorilor parametrici) n
schimb reeaua neuronal nu face nici o supoziie n legtur cu distribuia
datelor cu forma funcional a funciei densitate de probabilitate. ntr-o
RNA i, n general, n cazul sistemelor adaptive cel care construiete reeaua
nu trebuie s specifice parametrii sistemului (valorile ponderilor fiecrui
neuron n parte). Valorile acestor parametri sunt extrai, n mod automat, din
datele de intrare i din rspunsul dorit, folosind ca mijloc pentru atingerea
acestui obiectiv anumii algoritmi.
Utilizarea acestor algoritmi (cunoscui sub numele de algoritmi de
antrenare sau de adaptare) pentru modificarea valorilor ponderilor n scopul
obinerii unei clasificri ct mai bune este unul din conceptele fundamentale
ale unei RNA. Performanele clasificrii sunt cuantificate folosind pentru
aceasta un criteriu de eroare.
Utilizarea extensiv a RNA n probleme de aproximare i clasificare
este motivat de abilitatea demonstrat a unei reele neuronale cu dou straturi
ascunse, antrenat cu algoritmul invers de propagare a erorii, de a aproxima
orice funcie continu, cu o eroare orict de mic [Funahashi, 1989]
conceptul de main universal de nvare neliniar. Condiia ca aceste
structuri neuronale s fie maini universale de nvare este ca pe straturile
ascunse s se regseasc un numr suficient de mare de neuroni [Hornik,
1989] astfel nct RNA s aib puterea necesar ndeplinirii acestei condiii.
Astfel, pentru orice funcie f definit pe o submulime D a lui Rn:
f : D Rn R
(11.1)
(11.2)
(11.3)
unde w0[k], w1[k], ..., wd[k] sunt ponderile sinaptice ale modelului la
momentul k, iar x1n [k], x2n [k],..., xdn [k] sunt intrrile modelului date de
vectorul de trsturi xn prezentat modelului neuronal la acelai moment k.
Comparativ cu reprezentarea grafic din Figura 11.1 se observ c
modelul neuronal Adaline este o particularizare n care funcia de activare
este egal cu unitatea iar pragul este nglobat n model prin intermediul intrrii
x0n [k].
n continuare vom discuta despre dou proceduri de determinare
(instruire, adaptare) a ponderilor modelului Adaline, descris de ecuaia (11.3).
Ambele proceduri fac parte din categoria procedurilor de instruire
supervizat. Acest tip de proceduri utilizeaz pe lng setul de date de intrare
A = {x1, x2, ..., xK} un set de exemplare ce vor caracteriza doritul reelei
neuronale, fiecare element din acest set fiind asociat cu unul din elementele
de intrare. Deci, n final vom avea un set de exemplare {xn, dn}, n = 1, 2, ... ,
K, unde xn este vectorul de intrare n model, xn = [x1n, x2n, ... , xdn]T, ce este
aplicat la un anumit moment de timp, iar dn reprezint ieirea dorit,
corespunztoare intrrii xn. Ponderile modelului se calculeaz astfel nct
pentru fiecare intrare xn, ieirea yn a modelului s fie ct mai apropiat
(conform unui criteriu de performan) de ieirea dorit dn.
n literatura de specialitate setul de exemplare {xn, dn}, cu n = 1, 2, ..., K,
este cunoscut sub numele de set de antrenare.
102
E e 2 E d y
2
1 K 2
en ; en d n yn
K n 1
(11.4)
(11.5)
n relaia (11.5) prin wT i xT s-au notat vectorii linie care sunt transpuii
vectorilor coloan w (vector ponderi sinaptice) i x (vector de intrare).
Considernd c setul de antrenare este un proces statistic staionar
(estimatorii momentelor statistice variaz lent n timp) ecuaia (11.4) se scrie
sub forma:
E e2 E d y
Ed w Ex x w 2 E{d x }w
2
(11.6)
w Ee 2 Ed 2 wT Rx w 2 P w
(11.7)
( w)
2 Rx w 2 P
w
(11.8)
2 Rx wopt 2 P 0
(11.9)
103
w E d y 2
1
K
d
K
n 1
wx n
2
1
K
d
K
m 1
2
n
2 wd n x n w 2 x n
(11.10)
wc lim
w 0
wc w wc w
2w
(11.11)
(wa)
(wa)
(wb)
(wb)
min (wopt)
w
wa
wopt w b
wk 1 wk wk
unde wk este gradientul
,
, ...
w
w
w
0
1
d
(11.12)
105
e2 d k y k 2 ;
k
n
n
y k wT k x n
n
(11.13)
(11.14)
(e2 ) 2e x n
k
k
(11.15)
106
(11.16)
(11.17)
(11.18)
107
2
3 tr Rx
(11.19)
m 1
m 1
yn am n xm n bm n m n clm n lm n d lm n lm n
l 1 m 1
l m
l 1 m 1
l m
(11.20)
j [n] sin 2 2 m j 2 j
fi fj : ij [n] sin 2 mi m j i j
fi + fj : ij [n] sin 2 mi m j i j
1
(11.22)
(11.23)
(11.24)
Acest mod de compunere a unui semnal din aceste componente spectrale este caracteristic
modalitii de generare a undelor EEG n creierul uman. Diferitele unde EEG sunt generate
n principal pe baza unor oscilaii spontane (caracterizate de frecvenele fi), de o serie de
componente de autocuplare (situate la frecvene cu valori de tipul 2fi) i, n final, de o alt
serie de componente de intercuplare (fi + fj i fi fj). Componentele de autocuplare, precum
i cele de intercuplare apar n special datorit mecanismelor neliniare de interaciune ntre
diferiii oscilatori interni din zonele corticale i cele subcorticale [Bai, 2000].
108
S se determine:
(a) Relaiile matematice de modificare a amplitudinilor fiecrei
componente spectrale utiliznd algoritmul LMS tiind c
funcia de cost a crui minim trebuie determinat este:
1 2
e n
2
(11.25)
en sn yn
(11.26)
(11.27)
e 2 n
2
a j n a j
a j n
y n
a j n a j en
a j n
(11.28)
n final se obine:
a j n 1 a j n a j en x j n
(11.29)
(11.30)
cij n 1 cij n ci j en ij n
(11.31)
d ij n 1 d ij n d i j en ij n
(11.32)
109
y f g x f wi xi b
(11.33)
i 1
De altfel, modelul ce se utilizeaz la ora actual, al neuronului McCullochPitts, prezentat n relaia (11.33) este o generalizare a modelului neuronal ce
a fost propus n anul 1943 i care lucra atunci doar cu variabile de intrare
binare (0 i 1) fiind caracterizat de ponderi i praguri fixe.
n relaia (11.33) d reprezint numrul de intrri ale neuronului
(dimensionalitatea spaiului de intrare al trsturilor), xi reprezint valorile
intrrilor elementului de procesare, wi sunt ponderile iar b este termenul bias
sau prag. n cadrul modelului neuronal McCulloch-Pitts funcia de activare
f este o funcie de tip semn (hard limited) definit prin relaia:
1 dac
f x
1 dac
x0
x0
(11.34)
g x w1 x1 w2 x2 ... wd xd b wi xi b
(11.35)
i 1
y
1
w x
dac w x
dac
j1,2
j1,2
b0
b0
(11.36)
111
w1
b
x1
w2
w2
(11.39)
m w1 / w2
(11.40)
b
w2
(11.41)
b
w12 w22
(11.42)
ax0 by0 c
a 2 b2
112
(care este chiar suprafaa de decizie) a crei ecuaie este dat de relaia
(11.38), vezi Figura 11.3.
Suprafaa de decizie g(x1, x2) = 0,
obinut la intersecia funciei discriminant g(x1, x2) -b/w2
cu planul (x1, x2), de pant = w1/w2
-3
-2
g<0
-1
00 0
-25 -1
-2
-50
-3
-75
x2
g>0
50
25
Funcia
discriminant
2
1
1
x1
2
-b/|w|
-100
x2
1
0.5
x1
0.5
0.5
-0.5
-1
(a)
(b)
x2
x2
1
-0.5
0.5
x1
0.5
-1
x1
- 0.5
-0.5
- 0.5
1
- 0.5
x1
-0.5
0.
-0.5
(c)
-1
(d)
x0
x0
(11.43)
f(x) = tanh ( x)
f x
(11.44)
1
1 exp x
(11.45)
=4
=1
= 0.25
(a)
(b)
(c)
pentru funcia tangent hiperbolic ntre [-1, 1]. Prin introducerea i folosirea
acestor neliniariti am obinut o generalizare a funciilor discriminant pentru
neuronul M-P de tipul:
y f wi xi b
(11.46)
Funcia dat de (11.46) nu mai este un hiperlan similar cu cel dat de relaia
(11.35) precum la neuronul Adaline. Avantajul fundamental al
neliniaritilor de tip sigmoidal este dat de faptul c acestea sunt derivabile.
Derivabilitatea acestor funcii constituie un avantaj mai ales n cadrul
algoritmilor de adaptare nesupervizat cnd vom folosi derivatele n vederea
gsirii minimului suprafeei de eroare.
Ex.2.
f x ci Pci
P x
(11.47)
Pentru situaia cnd avem numai dou clase numitorul relaiei (11.47) este
dat de:
P(x) = f(x | c1) P(c1) + f(x | c2) P(c2)
(11.48)
unde c1 i c2 reprezint cele dou clase. Dac funciile distribuie sunt Gaussiene de variane egale, se poate arta c:
P c1 x
unde
a ln
1
1 exp a
f x c1 P c1
f x c2 P c2
(11.49)
(11.50)
116
Exist mai multe moduri de calcul a erorii globale dar cea mai folosit
este eroarea medie ptratic (MSE Mean Square Error). Eroarea medie
ptratic este o funcie de cost dat de:
1 K 2
1 K
d n y n 2
n
2K n 1
2 K n 1
(11.51)
117
(11.52)
sign xi k wi k b 1
i
(11.53)
wk 2 xk dac d k 1 i sign xi k wi k b 1
i
(11.54)
wk 2 xk
dac d k 1 i
d n sign wi* x j n b* 0
j
(11.55)
de pai pentru a ajunge la soluia optim numai dac clasele sunt liniar
separabile.
g ( x1 , x2 ) w1 x1 w2 x2 b 0
(11.56)
119
x1
{w1, w2}
g(x1, x2)=0
(11.57)
120
a vectorilor w i g sunt
-5
perpendiculare.
Dac
{5, -10}
dreptele
suport
a
-10
vectorilor
sunt
perpendiculare rezult
Figura 11.7. Reprezentare grafic
automat i c vectorii w
a rezultatelor obinute n cadrul
i g sunt perpendiculari.
x1 0 x2 0
10 0 5 0
Dezvoltnd relaia (11.58) obinem n final:
(11.58)
x2 x1 / 2
(11.59)
x1
S2
S1
(a)
x2
S3
x1
S1
(b)
w n 2 x E1 n
(11.60)
wn 2 x E 2 n
(11.61)
123
(11.62)
y y f
x f x
(11.63)
y
y
g f g xi
wi g wi
(11.64)
1
d n yn k 2
2
(11.65)
unde:
yn k f wi k xin
i
g
n
(11.66)
wk
1 K
d n yn k 2
2 K n 1
(11.67)
gn wi k
wi k yn k gn wi k
dn yn f gn x k f gn x
n
i
(11.68)
n
i
(11.69)
(11.70)
g p 0.5 1 y 2p
f tanh
(11.71)
Ex.5
Problem: Demonstrai valabilitatea relaiilor (11.70) i (11.71).
125
Minimul care produce cea mai mic eroare este numit minimul global.
Acest fapt afecteaz performanele obinute, deoarece modalitatea de cutare
a minimului, n cadrul algoritmilor de tip gradient, este bazat numai pe o
informaia local. Dac ne bazm numai pe informaia din imediata
vecintate ne este imposibil de a deosebi un minim local de un minim global.
n acest mod putem obine performane suboptimale dac oprim procesul de
nvare n momentul atingerii unui minim local.
Existena minimelor locale, pe suprafaa de eroare, genereaz necesitatea
existenei unui numr multiplu de antrenri fiecare antrenare fiind
caracterizat de o nou generare aleatoare a vectorului de ponderi. Astfel,
sperm c ne vom poziiona pe suprafaa de eroare n diferite zone i n urma
procesului de antrenare algoritmul va determina convergena ponderilor ctre
minimul global.
126
11.4. Perceptronul
y j f g j f wij xi b j
i1
(11.72)
unde j = 1, 2, , M.
Una dintre realizrile remarcabile ale lui Rosenblatt, n domeniul reelelor
neuronale, a fost gsirea demonstraiei care ne asigur c un perceptron
127
! !
128
(11.73)
1 n
Ek d j y j k
2 j 1
ej
(11.74)
cu:
d
y j k wTj k x n wij k x nj
(11.75)
i 1
Ek
wij k
(11.76)
wij k
Ek y j k
g j wij k
y j k g j wij k
d nj y j k f g j x jp
(11.77)
j f g j x nj
Ex.9.
11.4.3. Marginea de decizie a perceptronului
min x, w b
(11.78)
xS
Hiperplan optim
Vectori suport
1
1
2
2
Vector suport
x1
Problema pe care o avem acum este aceea de a gsi acest hiperplan optim.
Dup cum se vede n Figura 11.12 trebuie s gsim acele puncte (vectori de
trsturi) care se regsesc pe frontier (numii i vectori suport), definind-o,
iar ulterior s plasm funcia discriminant la mijlocul distanei dintre ele.
Se poarte demonstra uor, din simple considerente geometrice, c
130
g x
w
(11.79)
f x sgng x
(11.80)
unde:
N
g x x , w b i x , xi b
i 0
(11.81)
i n 1 i n xi
(11.82)
bi n 1 bi n xi
(11.83)
131
P00
P01
P10
P11
x1
x2
0
0
1
1
0
1
0
1
0
1
1
0
S2
S1
P01 (y = 1)
P11 (y = 0)
P00 (y = 0)
(a)
P10 (y = 1)
x1
(b)
134
135
K d
y j f j f i wik x k bi w ji b j , cu j 1, M
i 1 k 1
(11.84)
Maparea rezultant este una foarte flexibila i este cea care confer putere
de discriminare RNA. Dificultatea generat de o astfel de mapare st n
principal n dificultatea analizei matematice a structurii neuronale. Scopul pe
care l urmrim n continuare este de a gsi tipul de funcie discriminant care
poate fi creat cu reprezentarea descris de relaia (11.84) pentru a avea astfel
o nelegere intuitiv a rolului diferiilor neuroni plasai pe diferite straturi n
cadrul RNA.
11.5.2. Suprafeele de decizie
Pentru a nelege conceptual puterea reelelor neuronale cu un singur strat
ascuns vom analiza o astfel de reea neuronal simplificat topologic. Reeaua
pe care o vom analiza are un singur strat ascuns cu dou elemente de
procesare, vezi Figura 11.17. n cadrul structurii din Figura 11.17 elementele
de procesare au funcii de activare de tip semn (hard limited). Scopul final
este acela de a gsi poteniale funcii discriminant generate de stratul ascuns
al MLP-ului.
Conceptual, MLP-ul cu un singur strat ascuns este, de fapt, o nseriere de
elemente de procesare. Vom ncerca, din aceasta perspectiv, s nelegem
faptul ca cei doi neuroni din stratul ascuns creeaz, n spaiul de intrare x1, x2,
doua funcii discriminant. Vom nota ieirea fiecrui element de procesare
neuronal poziionat pe stratul ascuns cu x3 i x4. Fiecare dintre aceste ieiri
vor fi, de exemplu, +1 deasupra suprafeei de decizie i -1 inferior acesteia.
Panta suprafeelor discriminant este dat de raportul ponderilor w1/w2 i
w3/w4.
x1
w1
w2
w3
x2
w4
x3
w5
b1
x4
w6
b3
b2
(11.85)
Ieirea y
Ieirea x4
x2
x2
x2
valoare +1
valoare +1
valoare -1
(a)
x1
valoare -1
(b)
x1
x3, x4 = +1
y=2
x3, = +1
x3, = -1
x4 = -1
x4 = +1
y=0
y=0
y = -2
x1
x3, x4 = -1
(c)
lor, sunt controlate de valorile variabilelor w1, w2, w3, w4, b1 i b2 din ecuaia
(11.85)). Trebuie observat, de asemenea, ca valoarea bias-ului b3 este
adugata la rezultatul aferent stratului ascuns. Valoarea lui va dicta daca
valoarile de vrf a lui y sunt pozitive (zonele spaiale pentru care y = 2) sau,
daca vrful i ambele platouri (y = 0, conform Figura 11.18(c)) sunt
pozitive, sau, dac toate sunt pozitive sau daca toate sunt negative. Oricum,
rolul bias-ului pentru stratul de ieire este unul substanial diferit de ceea ce
se nelege ca fiind un simplu control asupra ieirii y cum este rolul bias-ul
la nivelul stratului ascuns. n cazul stratului de ieire Bias-ul relev detalii
diferite despre compunerea funciilor, schimbnd efectiv asocierea tuturor
valorilor partiiei create de stratul ascuns. Ponderile de ieire w5 si w6 asigura
flexibilitatea (se pot da ponderi diferite ieirii fiecrui neuron din stratul
ascuns) i, mai mult, modific modul n care se mixeaz ieirile neuronilor de
pe stratul ascuns.
x2
Ieirea y
x2
Ieirea y
x2
Ieirea y
y=1
y=1
y=1
y = -1
(a)
y = -1
x1
(b)
x1
(c)
x1
Ex.12. (i XOR)
Out
(a)
x1
x2
-1
-1
1
1
-1
1
-1
1
Out
-1 11-1 -
(b)
x2
(-1,1)
(1,1)
x1
(-1,-1)
(1,-1) (c)
(11.86)
(c)
w1S 1
w
, 1 1S 1
w2 S 1
w2 S1
(11.87)
(-1,1)
(0,1)
(1,1)
0
x1
(-1,-1)
(0,-1)
(1,-1)
+
S2
S1
Figura 11.21. Spaiul trstrilor i plasarea suprafeelor de
decizie a primului strat pentru problema XOR-ului
g ( x1 , x2 ) 10 x1 10 x2 10
(11.88)
g (0,0) 10 0 10 0 10 10
(11.89)
w1S1
(-1,-1)
w2S1
x2
w1S2
(-1,1)
(1,1)
(-1,-1)
(1,-1)
(1,1)
(-1,-1)
(1,-1)
Out
w2o
(-1,1)
(1,-1)
w1o
x1
w2S2
(1,1)
1.5
Out
1
1
0.5
0
-1
-1.5
x2
-0.5
-1
-0.5
x1
0.5
-1
1
1.5 -1.5
143
Ex.16.
setul de date de test un set de date pe care reeaua neuronal nu l-a utilizat n procesul
antrenrii i pe care se testeaz performanele ei
145
(11.90)
146
Stratul de ieire combin aceste regiuni pentru a produce maparea intreieire dorit. Toat aceast prezentare relev faptul c o reea neuronal cu
dou straturi ascunse poate aproxima virtual orice mapare intrare-ieire.
(a)
(b)
Dac cumva avem informaii apriori despre distribuia datelor din spaiul
de intrare putem s alegem topologia optim a reelei chiar de la nceput. De
exemplu, dac tim c n
x2
spaiul de intrare datele sunt
repartizate
conform
5
Figura
distribuiei
din
4
11.24(a), atunci topologia
3
reelei va fi cea din aceiai
figur partea (b). Deci vom
2
avea o reea neuronal de tip
1
MLP (2-13-4-1).
-4
-3
-2
-1
0
-1
-2
-3
-4
-5
x1
Ex.19. Ex.20.
Problem:
Pentru o distribuie
a trei clase conform cu Figura
11.26 ( reprezint elementele,
vectorii de trsturi, aparinnd
primei clase, reprezint elemente
aparin celei de a doua clase, n
timp ce reprezint elementele
ultimei clase) se cere:
147
S4
Z2
S4
3
2
S1
Z1
Z3
1
-4
-3
-2
-1
x1
n1 (S1)
n2(S2)
-1
-2
S1
-3
x1
x2
n3 (S3)
-4
-5
n4 (S4)
(a)
n5
Clasa
n6 (Z1)
n7 (Z2)
Clasa
n9
n8 (Z3)
Clasa
(b)
S3
S2
5
4
Z4
Z2
-3
-2
Z5
S1
1
-4
S4
-1
Z1
Z3
x1
(b)
n1 (S1)
-1
n2 (S2)
-2
-3
-4
x1
x2
n7
Clasa
n5 (T1)
n8
Clasa
n3 (S3)
n4 (S4)
n6 (T2)
n9
Clasa
-5
(a)
Figura 11.29. (a) Poziionarea corect a suprafeelor de decizie conform cu
cerinele problemei, (b) zonele de interes definite i (c) arhitectura reelei
neuronale
149
(c)
Dei aceast reea neuronal este aparent una minimal, din punct de vedere
al implementrii ea este o reea neuronal atipic deoarece o ieire este obinut
din ultimul strat n timp ce celelalte dou ieiri sunt obinute din stratul ascuns
care astfel nu mai este ascuns fiind direct conectat cu exteriorul.
Ideea de baz a soluiei corecte este prezentat n Figura 11.29. Aceast
soluie a problemei definete dou triunghiuri (primul triunghi, T1, format din
zonele Z1, Z2 i Z5 iar cel de al doilea triunghi, T2, din zonele Z3, Z4 i Z5). Astfel
elementele sunt poziionate exclusiv n zonele Z1 i Z2 i aceast clas se obine
numai pentru acele elemente care sunt interioare triunghiului T1 i exterioare
triunghiului T2. n mod similar elementele sunt ntotdeauna interioare
triunghiului T2 i exterioare triunghiului T1. Ultima clasa dat de elementele
este interioar att lui T1 ct i lui T2.
Pentru poziionarea corect a suprafeelor de decizie S1, S2, S3 i S4 se vor
defini i determina n mod corespunztor parametrii neuronilor n1, n2, n3 i n4
asociai acestor suprafee. Spaiul intern definit de primul triunghi, T1, compus
din zonele Z1, Z2 i Z5 este delimitat automat de ieirea neuronului n5 n timp ce
zona definit de T2 este obinut la ieirea neuronului n6. Dac ambele intrri
sunt complet conectate la primul strat ascuns prin ponderile aferente ce vor fi
ulterior determinate, neuronii celui de al doilea strat ascuns (format din n5 i n6)
se conecteaz numai cu acei neuroni ce definesc acele suprafee de decizie care
sunt necesare pentru izolarea zonelor anterior menionate. Astfel neuronului n5
i sunt suficiente suprafeele S1 i S2 pentru izolarea zonelor Z1, Z2 i Z5 iar
neuronul n6 va utiliza doar suprafeele de decizie S3 i S4 pentru izolarea zonelor
Z3, Z4 i Z5. Pentru uurarea modalitii de decizie a stratului de ieire se vor
folosi neliniariti de tip semn pentru neuronii n5 i n6; definirea zonelor dorite
fcndu-se astfel prin valoarea +1 asociat cu regiunea decizional plasat n
interiorul suprafeei decizionale definit de T1 i T2. Poziionarea elementelor n
exteriorul zonelor de interes este dat de o valoare -1 ntoars de aceti doi
neuroni. Alegerea neliniaritii de tip semn este justificat de trecerea abrupt ce
se realizeaz de la o zon de decizie la alta ceea ce ne garanteaz corecta
clasificare a tuturor elementelor inclusiv a celor ce sunt foarte apropiate de
suprafaa de decizie.
Reeaua neuronal are 3 ieiri, fiecare ieire corespunde uneia din cele trei
clase. Oricare din aceste ieiri va ntoarce +1 pentru elementele asociate ei i -1
pentru restul elementelor. Deci pe stratul de ieire vor fi 3 neuroni. Stratul de
ieire este unul complet conectat la cei doi neuroni, ce definesc cele dou
triunghiuri, tocmai pentru c n procesul decizional al acestor neuroni sunt
necesare informaii legate de poziionarea elementului ce urmeaz s fie
clasificat fa de ambele zonele definite de neuronii n5 i n6. Dup cum s-a
prezentat anterior cunoaterea zonei de poziionare a elementului de clasificat
fa de o singur zon nu este ndeajuns (de exemplu elementele sunt
ntotdeauna interioare triunghiului T2 i exterioare triunghiului T1, deci avem
nevoie de informaia oferit de ambele ieiri ale neuronilor n5 i n6). Funciile de
activare a neuronilor din stratul de ieire (n7, n8 i n9) vor fi de tipul semn, n
acest mod elementele aparinnd uneia sau alteia dintre clase vor fi caracterizate
de o valoare +1 a ieirii corespondente n timp ce celelalte ieiri vor avea
valoarea -1.
Analiznd comparativ topologia reelei neuronale din Figura 11.29(c) cu
aceea a reelei neuronale artificiale din Figura 11.28(b) se observ c acestea au
150
d S 4 OA OE5 AE5
rezultnd n final
2
2
OE5 AE5
OE5 AE5
1
dS4
.
OA
5
OE52 AE52
n mod similar se calculeaz pentru S2 rezultnd aceeai valoare. Pentru
suprafeele S1 i S4 marginile de decizie se calculeaz foarte uor deoarece
acestea sunt paralele cu axele Ox1 i Ox2 i trec chiar prin mijlocul distanei dintre
vectorii suport. Rezultnd n final:
d S1 1 i d S 3 0.5 .
(e). Din punct de vedere matematic panta unei drepte de ecuaie w1 x1 + w2 x2
+ b = 0 este
w
m 1
w2
n timp ce intersecia cu axa x2 a segmentului este dat de relaia
x2
b
.
w2
f g S1 0,0 f 30 1
Valoare ntoars de acest neuron corespunznd cerinelor impuse trecem la
calcularea ponderilor pentru suprafeele de decizie rmase.
152
f g S 2 0,0 f 25 1
g S 2 ( x1 , x2 ) 10 x1 5 x2 25 ,
g S 2 ( x1 , x2 ) 10 x1 5 x2 25 , f g S 2 0,0 f 25 1 .
b
g S 3 ( x1 , x2 ) 10 x1 25 , f g S 3 0,0 f 25 1
b
g S 4 ( x1 , x2 ) 20 x1 10 x2 , f g S 4 1,0 f 20 1
Pentru cel de al doilea strat neuronal ascuns, format din neuronii n5 i n6,
modalitatea de calcul a ponderilor acestora este diferit. Aceti neuroni au un rol
de compunere a zonelor decizionale realizate de neuronii poziionai pe primul
strat ascuns. Conform raionamentului prezentat n cadrul punctului (a) al
problemei dorim ca la ieirile neuronii n5 i n6 s avem valori de +1 pentru zonele
interioare triunghiurilor T1 (Z1, Z2 i Z5) i T2 (Z3, Z4 i Z5) i -1 n exteriorul lor.
innd cont i de faptul c acest strat neuronal are funcii de activare de tipul
semn, vezi relaia (11.43), rezult c n zonele interioare celor dou triunghiuri
n urma multiplicrii ieirilor neuronilor n1, n2, n3, n4 cu ponderile sinaptice ale
neuronilor n5 i n6 i a adunrii bias-urilor proprii rezultatul trebuie s fie mai
mare sau egal cu zero iar n exteriorul acestor zone negativ.
Dac ponderile neuronului n5 sunt ambele egale cu unitatea iar bias-ul este
zero la ieirea acestuia, dar naintea funciei de activare, diferitele zone ale
spaiului de trsturi de intrare primesc valorile prezentate n Figura 11.31(a)
ncadrate ntr-un chenar. Dac aceste valori sunt trecute prin funcia neliniar se
observ c zonele ce iau valori egale cu +2 i 0 vor fi asociate aceleiai clase
caracterizat de o valoare egal cu +1 a neuronului n5. Aceast asociere este una
greit. Dac n schimb lum o valoare egal cu -1 a bias-ului neuronului n5
valorile obinute sunt cele subliniate din Figura 11.31(a). De aceast dat prin
trecerea acestor valori prin funcia neliniar se observ o partiionare corect a
spaiului de intrare.
153
-2
S3
S2
-3
S4
-1
+2
+1
0
0
-1
0
-1
+1
+1
-1
-1
+1
S1
-3
-1
+2
-2
-1
(a)
+1
+1 -1
(b)
Ieire n6
-1
+1
-1
+1
Zon asociat
exterioar
clas
clas
clas
S3
S4
Cerina final este ca valoarea ieirii s fie ntre 0 i 1 iar suma tuturor
ieirilor s fie egal cu 1 pentru orice vector de trsturi a0 de intrare astfel
ca fiecare ieire s poat fi interpretat ca o probabilitate de apartenen a
intrrii la clasa reprezentat de neuronul de ieire respectiv. Pentru a garanta
suma ieirilor 1 nu mai putem utiliza funcia logistic la ieirea fiecrui
neuron. Trebuie s utilizm un nou tip de neliniaritate (de tip softmax) a crui
funcie caracterisitic este:
yk
expnet k
expnet j
(11.91)
1
yk x, w tk 2 ptk , x dtk dx
2 k
(11.92)
156
y k x , w t k 2 y k x , w E t k x E t k x t k 2
(11.93)
E tk x tk p tk x dtk
(11.94)
unde:
(11.95)
1
yk x, w Etk x2 px dx 1 Etk2 x Etk x2 px dx
2 k
2 k
(11.96)
y k x, w* Et k x
sau alternativ:
y k x, w* t i ,k pt i ,k x
i
(11.97)
(11.98)
y k x pck x
(11.99)
158