Sunteți pe pagina 1din 60

11.

Reele Neuronale Artificiale


11.1. Introducere
Pornindu-se de la performanele i capabilitile remarcabile pe care fiina
umana le manifest n diferitele arii de activitate, n particular de la
performanele creierului uman, diferite domenii teoretice, tehnice i aplicative
au ncercat i ncearc s ating performane similare prin copierea
diferitelor sisteme i funcii ale organismului uman i nu numai.
Creierul uman este o structur paralel de procesare i stocare a
informaiei compus din aproximativ 10 miliarde de neuroni interconectai
(1010). Se estimeaz c n medie n creierul uman sunt aproximativ 60 de
trilioane de conexiuni neuronale. Un neuron are rolul fundamental de a primi,
conduce, procesa i transmite diferite semnale primite de la organele de sim,
diferii proprioceptori sau de la ali neuroni.
Fiecare neuron biologic este format din:
- corpul celular (soma);
- axon axonul transport semnalele la distan fa de corpul
celular, ctre ali neuroni sau celule int (de exemplu,
motoneuronii care transport semnalele de la mduva spinrii pn
la musculatura picioarelor au axoni cu lungimi de pn la un metru
[a]); n final axonul se ramific ntr-un numr de terminaii axonale
care se cupleaz prin intermediul sinapselor cu dendridele altor
neuroni sau direct cu corpul altor neuroni;
- arbore dendridic este structura care primete semnale de la axonii
altor neuroni (de exemplu exist neuronii care primesc informaii
de la peste 100.000 de ali neuroni [a]);
- sinapse sinapsele sunt conexiunile ce se realizeaz la nivelul
axonului unui neuron cu dendridele altui neuron.
Fa de structura fundamental de baz a unui neuron prezentat
anterior exist o serie de excepii care in de: lipsa axonului (dendridele au rol
att de receptor ct i de emitor), att axonii ct i dendridele pot forma
sinapse cu ali axoni i cu alte dendride deci nu numai sinapse de tip axondendrid etc.
Cercettorii W.S. McCulloch i W. Pitts au propus n anul 1943
primul model neuronal artificial. Ca o particularitate a acestui model el este
caracterizat de o activare de tip totul sau nimic (ieirea acestui model neuronal
are doar dou stri); acest neuron lucreaz mai de grab ca un dispozitiv binar.
n Figura 11.1 se prezint structura general a unui neuron artificial.
99

Neuronul artificial modeleaz comportamentul unui neuron real. Astfel,


conexiunile dintre neuroni, denumite ponderi sinaptice, sunt folosite n
stocarea informaiei. Dup o procesare local a semnalului de intrare funcie
de informaia stocat n ponderile sinaptice (multiplicarea acesteia cu valorile
informaionale stocate) se produce o integrare (sumare) global a rezultatelor
obinute proces similar cu cel ce are loc n corpul celular al unui neuron
biologic real. Dac rspunsul global obinut depete un anumit prag
informaia este transmis mai departe.
d

x1

w1

g ( x) xi wi

x1 w1

i 1

w2

x3

w3

x3 w3

Functia de
activare

...

x2

x2 w2

f( )

y
b
Pragul
(threshold, bias)

xd wd
wd

xd

Activarea
g(x)

Ponderi
sinaptice

y f ( g ( x) b) f ( xi wi b)
Combinator liniar

i 1

Figura 11.1. Structura fundamental a unui neuron artificial


Reelele neuronale artificiale (RNA) sunt structuri care ncearc s
copie modul de funcionare a creierului uman i sunt construite din mai multe
elemente de procesare (EP) sau neuroni artificiali grupai n straturi, fiecare
strat avnd un numr variabil de elemente.
Trsturile fundamentale ale RNA sunt urmtoarele:

sunt structuri distribuite,


sunt structuri adaptive,
sunt maini universale de nvare neliniar.

Din punct de vederea al problemelor de clasificare, o reea neural d


natere prin elementele sale de procesare la funcii discriminant.
Topologia reelei este cea care definete i determin numrul i modalitatea
de cuplare a funciilor discriminant. Suprafeele de decizie obinute prin
gruparea acestor funcii discriminant se modific o dat cu topologia reelei
i cu valorile ponderilor fiecrui neuron. Unul dintre avantajele centrale ale
100

reelelor neurale este acela c sunt suficient de puternice pentru a crea funcii
discriminant arbitrare astfel nct reeaua neuronal artificial s conduc la
o clasificare optimal.
RNA aparin clasei clasificatorilor semiparametrici. Parametrii
reelei neuronale (ponderile RNA) sunt determinate din setul de date pe baza
unui algoritm de adaptare (similar ca n cazul clasificatorilor parametrici) n
schimb reeaua neuronal nu face nici o supoziie n legtur cu distribuia
datelor cu forma funcional a funciei densitate de probabilitate. ntr-o
RNA i, n general, n cazul sistemelor adaptive cel care construiete reeaua
nu trebuie s specifice parametrii sistemului (valorile ponderilor fiecrui
neuron n parte). Valorile acestor parametri sunt extrai, n mod automat, din
datele de intrare i din rspunsul dorit, folosind ca mijloc pentru atingerea
acestui obiectiv anumii algoritmi.
Utilizarea acestor algoritmi (cunoscui sub numele de algoritmi de
antrenare sau de adaptare) pentru modificarea valorilor ponderilor n scopul
obinerii unei clasificri ct mai bune este unul din conceptele fundamentale
ale unei RNA. Performanele clasificrii sunt cuantificate folosind pentru
aceasta un criteriu de eroare.
Utilizarea extensiv a RNA n probleme de aproximare i clasificare
este motivat de abilitatea demonstrat a unei reele neuronale cu dou straturi
ascunse, antrenat cu algoritmul invers de propagare a erorii, de a aproxima
orice funcie continu, cu o eroare orict de mic [Funahashi, 1989]
conceptul de main universal de nvare neliniar. Condiia ca aceste
structuri neuronale s fie maini universale de nvare este ca pe straturile
ascunse s se regseasc un numr suficient de mare de neuroni [Hornik,
1989] astfel nct RNA s aib puterea necesar ndeplinirii acestei condiii.
Astfel, pentru orice funcie f definit pe o submulime D a lui Rn:
f : D Rn R

(11.1)

putem gsi o aproximare foarte bun F (dat de o reea neuronal artificial),


n sensul unei topologii definit pe D, cu o eroare mai mic dect un arbitrar
ales pentru care s avem:
|| f F || = sup | f (x) F (x)| <
xD

(11.2)

Elemente definitorii n realizarea unei reele neurale (a unui


clasificator semiparametric) sunt:

selecia formei funciilor discriminant,

determinarea numrului funciilor discriminant i

plasarea lor n spaiul trsturilor


101

astfel nct eroarea de clasificare s fie minim. Vom ncerca n continuare s


discutm toate aceste elemente. De asemenea, vom discuta i analiza att
capacitile de reprezentare ct i algoritmii de antrenare pentru diferite
configuraiile de reele neurale artificiale.
11.2. Modelul neuronal Adaline
n cadrul acestui subcapitol vom studia unul dintre modelele
"timpurii" ale neuron artificial modelul Adaline (ADAptive LINear
Element). Acest model este de o mare importan conceptual i practic.
Modelul Adaline este unul utilizat ntr-o gam extrem de larg de aplicaii i
a fost introdus de B. Widrow i M.E. Hoff la nceputul anilor '60. Ieirea y a
modelului este descris de relaia:
d
yk w k xin k ; x0n k 1
i
i0

(11.3)

unde w0[k], w1[k], ..., wd[k] sunt ponderile sinaptice ale modelului la
momentul k, iar x1n [k], x2n [k],..., xdn [k] sunt intrrile modelului date de
vectorul de trsturi xn prezentat modelului neuronal la acelai moment k.
Comparativ cu reprezentarea grafic din Figura 11.1 se observ c
modelul neuronal Adaline este o particularizare n care funcia de activare
este egal cu unitatea iar pragul este nglobat n model prin intermediul intrrii
x0n [k].
n continuare vom discuta despre dou proceduri de determinare
(instruire, adaptare) a ponderilor modelului Adaline, descris de ecuaia (11.3).
Ambele proceduri fac parte din categoria procedurilor de instruire
supervizat. Acest tip de proceduri utilizeaz pe lng setul de date de intrare
A = {x1, x2, ..., xK} un set de exemplare ce vor caracteriza doritul reelei
neuronale, fiecare element din acest set fiind asociat cu unul din elementele
de intrare. Deci, n final vom avea un set de exemplare {xn, dn}, n = 1, 2, ... ,
K, unde xn este vectorul de intrare n model, xn = [x1n, x2n, ... , xdn]T, ce este
aplicat la un anumit moment de timp, iar dn reprezint ieirea dorit,
corespunztoare intrrii xn. Ponderile modelului se calculeaz astfel nct
pentru fiecare intrare xn, ieirea yn a modelului s fie ct mai apropiat
(conform unui criteriu de performan) de ieirea dorit dn.
n literatura de specialitate setul de exemplare {xn, dn}, cu n = 1, 2, ..., K,
este cunoscut sub numele de set de antrenare.

102

11.2.1. Algoritmul MMSE (Minimum Mean Square Error)


n cadrul acestei metode se calculeaz un vector wopt optim de ponderi
astfel nct s fie minimizat eroarea medie ptratic E e 2 :

E e 2 E d y
2

1 K 2
en ; en d n yn
K n 1

(11.4)

n relaia (11.4) eroarea en poart numele de eroarea instantanee de


instruire.
Ieirea neuronului Adaline este dat de:
y wT x xT w

(11.5)

n relaia (11.5) prin wT i xT s-au notat vectorii linie care sunt transpuii
vectorilor coloan w (vector ponderi sinaptice) i x (vector de intrare).
Considernd c setul de antrenare este un proces statistic staionar
(estimatorii momentelor statistice variaz lent n timp) ecuaia (11.4) se scrie
sub forma:

E e2 E d y

Ed w Ex x w 2 E{d x }w
2

(11.6)

Matricea Rx E x xT este matricea de corelaie a vectorului aleator real


x de intrare. n plus, definim i vectorul P = E{d xT}. Cu aceste definiii, relaia
(11.6) devine:

w Ee 2 Ed 2 wT Rx w 2 P w

(11.7)

de unde se observ c eroarea medie ptratic este o funcie explicit


dependent de vectorul ponderilor w.
Pentru determinarea vectorului wopt, corespunztor minimului erorii
ptratice medii, se calculeaz derivatele funciei (w), i se folosete condiia
de extrem:

( w)
2 Rx w 2 P
w

(11.8)

Avnd n vedere faptul c funcia (w) este pozitiv, rezult c extremul


funciei este un minim dat de ecuaia:

2 Rx wopt 2 P 0

(11.9)

103

Din relaia (11.9) rezult c vectorul optim al ponderilor sinaptice pentru


care se obine o eroare ptratic minim este wopt = Rx-1P.
Metoda MMSE poate fi sintetizat prin urmtoarele etape:
1. avnd ntregul set de antrenare, apriori cunoscut, se calculeaz
matricea de corelaie a intrrii Rx E x xT i vectorul P = E{d
xT};
2. se calculeaz vectorul optim al ponderilor cu relaia wopt = Rx-1P.
Metoda MMSE presupune cunoaterea aprioric a ntregului set de
antrenare, fiind o metod de instruire de tip global sau bloc.
n acele situaii n care nu se dispune apriori de un set de antrenare, sau
inversarea matricii de corelaie a serului de date, Rx, este dificil, se recurge
la urmtoarea metoda de adaptare (instruire) a ponderilor ce va fi discutat n
subcapitolul urmtor.
11.2.2. Algoritmul LMS (Least Mean Square)

O alt modalitate de calcul a ponderilor, corespunztoare minimului


funciei (w), este dat de metoda de coborrea pe suprafaa funciei de eroare
n direcia pantei celei mai abrupte.
Dac am analiza problema obinerii erorii minime, dat de relaia (11.4),
pentru un caz unidimensonal considernd, n plus, i valoarea pragului egal
cu zero am obine urmtoarea relaie:

w E d y 2

1
K

d
K

n 1

wx n
2

1
K

d
K

m 1

2
n

2 wd n x n w 2 x n

(11.10)

n relaia (11.10) dac considerm drept variabil numai parametrul w iar


ceilali parametri sunt inui constani observm c obinem o ecuaie de
gradul doi n w a crui coeficient a termenului ptratic w2 va fi ntotdeauna
pozitiv. O posibil reprezentare grafic a erorii medii ptratice (a relaiei
(11.10)) este dat n Figura 11.2 (Ex.0).
Gradientul pe suprafaa de eroare ntr-un anumit punct arbitrar, de
exemplu n punctul wc, se poate determina cu relaia:

wc lim

w 0

wc w wc w
2w

(11.11)

Din relaia (11.11) se observ c gradientul este direct proporional cu


panta suprafeei de eroare i ia valori negative n stnga punctului w* ( = wopt,
104

punct de minim al suprafeei de eroare) i valori pozitive n dreapta acestui


punct.
(w)

(wa)

(wa)
(wb)

(wb)

min (wopt)

w
wa

wopt w b

Figura 11.2. Suprafaa de eroare

Dei Figura 11.2 este reprezentat n situaia unui spaiu


monodimensonal de trsturi ea poate fi generalizat pentru situaia unui
spaiu d dimensional unde vom obine o suprafa ptratic d dimensional.
Aceast figur ne ajut de asemenea n gsirea unei metode intuitive de
determinare a vectorului optim de ponderi wopt prin intermediul unei metode
iterative. Astfel, dup cum se observ n oricare punct al suprafeei, direcia
de coborre pe suprafaa de eroare este n direcia negativului gradientului
funciei, din punctul respectiv. Astfel, punctul de minim poate fi determinat
prin aplicarea iterativ a relaiei:

wk 1 wk wk
unde wk este gradientul


,
, ...

w
w
w

0
1
d

(11.12)

n w[k], iar este

o constant pozitiv denumit constant de adaptare (de nvare).


Dup cum am demonstrat anterior gradientul erorii ptratice medii se
poate calcula prin intermediul relaiei (11.8) dac se cunosc matricea de
corelaie a setului de date, Rx, i vectorul P. Dar exist situaii n care nu
dispunem apriori de un set de instruire sau estimarea matricii Rx i a vectorului
P este dificil. n aceste situaii se recurge la aproximarea gradientului
erorii medii ptratice, , cu gradientul erorii ptratice instantanee.
Algoritmii de calcul ai ponderilor rezultai n urma acestei aproximri
formeaz clasa algoritmilor de tip gradient stohastic.

105

Algoritmul de tip gradient stohastic utilizat n cadrul modelul Adaline este


denumit n literatura de specialitate algoritmul Least Mean Square sau
prescurtat LMS.
n cadrul procesului de adaptare a ponderilor ntregul set de antrenare {xn,
dn}, i = 1, 2, ... , K, va fi prezentat modelului neuronal Adaline de mai multe
ori pn cnd un anumit criteriu de performan este ndeplinit, de exemplu
eroarea medie ptratic scade sub o anumit valoare. Prezentarea ntregului
set de date modelului neuronal poart numele de epoc de antrenare.
Astfel, procesul de adaptare al ponderilor este format dintr-un anumit numr
de epoci de antrenare.
Eroarea ptratic instantanee a modelului Adaline este definit de relaia:

e2 d k y k 2 ;
k
n
n

y k wT k x n
n

(11.13)

n relaia dn este ieirea dorit corespunztoare vectorului de intrare xn, iar


yn este ieirea modelului la momentul de timp k calculat pentru vectorul de
intrare xn i vectorul de ponderi w[k], n fiind numrul curent al perechii {xn,
dn} din setul de antrenare.
Deoarece procesul de antrenare este unul iterativ, dup cum s-a
prezentat anterior, atingerea criteriului de oprire a procesului de adaptare a
structurii neuronale necesit prezentarea de mai multe ori a setului de date de
antrenare. Din aceast perspectiv, vom spune c algoritmul LMS necesit un
anumit numr de epoci de antrenare pn la atingerea criteriului de
convergent a ponderilor ctre acele valori ce determin obinerea unei erori
globale minime. O epoc de anterenare este format din toate exemplare {
xn, dn } existente n setul de antrenare. Revenind la relaia (11.13) indicele k
precizeaz momentul de timp n care se face actualiazare; presupunnd c
suntem n epoca nep (de exemplu, epoca 9) exemplarul n (de exemplu, n = 62)
i o epoc este format din 100 de exemplare de antrenare (K = 100; n = 1, 2,
..., 100), atunci:
k = (nep - 1) K + n

(11.14)

rezultnd pentru exemplul particular anterior: k = 8 100 + 62 = 862.


n aceste condiii, gradientul erorii ptratice instantanee este dat de:

(e2 ) 2e x n
k
k

(11.15)

Conform relaiilor (11.12) - (11.15) algoritmul LMS are urmtoarele


etape:

106

1. se iniializeaz vectorul w al ponderilor (n multe situaii practice


pentru iniializare se folosesc valori mici, generate aleator);
2. la iteraia k a algoritmului de adaptare:
se aplic un vector de intrare xi modelului;
se calculeaz eroarea instantanee:
ek = di yi

(11.16)

n relaia anterioar di este ieirea dorit, iar yi este


produsul dintre vectorul corespunztor doritului actual, xi,
i vectorului curent de ponderi, w[k]:
yi [k] = wT[k] xi

(11.17)

se modific vectorul ponderilor cu relaia:


wk 1 wk 2 e x i
k

(11.18)

3. se oprete procesul de adaptare a ponderilor o dat cu ndeplinirea


unui anumit criteriu global (de exemplu eroarea instantanee
coboar sub un anumit prag); n caz contrar se revine la punctul 2.
Problem 11.1: (a) Dezvoltai un program n mediul LabWindows CVI
capabil s determine un numr arbitrar de coeficieni LPC (Linear
Prediction Coefficients) prin metoda iterativ LMS. Programul va
fi capabil s determine valorile coeficienilor filtrului FIR predictiv
pentru orice serie de timp ncrcat dintr-un fiier de tipul TXT n
care setul de date este stocat sub forma unei coloane.
(b) Pentru un semnal sinusoidal i unul de tip ECG (aceste
semnale se regsesc n directorul de semnale asociat acestui
capitol) determinai valorile coeficienilor modelului prin: metoda
iterativ LMS i prin metoda de modelare autoregresiv YuleWalker. Numrul coeficienilor utilizai n aceast modelare va fi
cel optim. Acest numrul optim de coeficieni vor fi determinai
pentru fiecare serie de timp n parte prin utilizarea erorii de
aproximare a metodei Yule-Walker. Comparai valorile obinute
prin cele dou metode. Explicai diferenele obinute.
Rezolvare:
(a) Implementarea programului se gsete n directorul LMS predicie asociat acestui capitol.
(b) Acest punct al problemei este tem de cas.

107

Convergena algoritmului LMS este asigurat dac factorul respect


condiia [Gelfand, 1999]:
0

2
3 tr Rx

(11.19)

unde tr Rx este urma (suma elementelor de pe diagonala principal) a matricii


Rx de corelaie a procesului x de la intrarea neuronului artificial.
Valoarea factorului de adaptare este esenial pentru nivelul
performanelor de instruire ale neuronului Adaline. Algoritmul LMS clasic
utilizeaz un factor de adaptare constant astfel ales nct s se respecte
inegalitatea (11.19).
Dar, pentru a optimiza performanele de convergen ale neuronului
Adaline, trebuie s fie variabil. Astfel, la nceputul instruirii trebuie s fie
mare pentru a se obine o rat mare de convergen, de coborre pe
suprafaa de eroare. Dup ce procesul de convergen a intrat ntr-o faz
staionar este necesar s folosim un mic, pentru a se obine o valoare
medie mic a erorii de instruire.
Problem 11.2: Fiind dat un semnal arbitrar (s(t) discretizat s[n]), acesta se
va aproxima prin intermediul altuia caracterizat de relaia1:
k

m 1

m 1

yn am n xm n bm n m n clm n lm n d lm n lm n
l 1 m 1
l m

l 1 m 1
l m

(11.20)

Semnalul ce realiza aproximarea va fi dat de o sum de


componente spectrale caracterizate de urmtoarele componente:
fi :
x j [n ] sin 2 m j j
(11.21)
2 fi :

j [n] sin 2 2 m j 2 j

fi fj : ij [n] sin 2 mi m j i j
fi + fj : ij [n] sin 2 mi m j i j
1

(11.22)

(11.23)
(11.24)

Acest mod de compunere a unui semnal din aceste componente spectrale este caracteristic
modalitii de generare a undelor EEG n creierul uman. Diferitele unde EEG sunt generate
n principal pe baza unor oscilaii spontane (caracterizate de frecvenele fi), de o serie de
componente de autocuplare (situate la frecvene cu valori de tipul 2fi) i, n final, de o alt
serie de componente de intercuplare (fi + fj i fi fj). Componentele de autocuplare, precum
i cele de intercuplare apar n special datorit mecanismelor neliniare de interaciune ntre
diferiii oscilatori interni din zonele corticale i cele subcorticale [Bai, 2000].
108

S se determine:
(a) Relaiile matematice de modificare a amplitudinilor fiecrei
componente spectrale utiliznd algoritmul LMS tiind c
funcia de cost a crui minim trebuie determinat este:

1 2
e n
2

(11.25)

n relaia anterioar eroarea instantanee este dat de:

en sn yn

(11.26)

(b) Relaiile matematice de modificare a fazelor fiecrei


componente spectrale utiliznd algoritmul LMS, n aceleai
condiiile ca cele prezentate la punctul anterior.
Rezolvare:
(a) Relaia ce va fi utilizat n modificarea iterativ a amplitudinii
oscilaiilor spontane este similar cu (11.12) fiind dat de:
a j n 1 a j n a j J a j n

(11.27)

Derivnd funcia de cost se obine:


a j n 1

e 2 n
2

a j n a j
a j n
y n
a j n a j en
a j n

(11.28)

n final se obine:
a j n 1 a j n a j en x j n

(11.29)

n mod similar pentru amplitudinile componentelor de


autocuplare ct i pentru cele de intercupare se obine:
b j n 1 b j n b j en j n

(11.30)

cij n 1 cij n ci j en ij n

(11.31)

d ij n 1 d ij n d i j en ij n

(11.32)

109

Verificarea corectitudinii acestor relaiilor, determinate


anterior, se poate face i prin intermediul implementrii
acestora ntr-un program i a testrii funcionrii algoritmului.
Acest program se afl n directorul LMS modelare
amplitudine.
(b) Acest ultim punct al problemei este tem de cas.
Implemetarea programul ce realizeaz modelarea unui
semnal prin intermediul unor oscilaii spontane, a
componentelor intercuplate i a celor autocuplate prin
adaptarea att a informaiei de amplitudine ct i a celei de faz
se afl n directorul LMS modelare amplitudine si faza.
11.3. Modelul neuronal McCulloch-Pitts
11.3.1.

Capacitatea de discriminarea a modelului neuronal


McCulloch-Pitts

Elementul de procesare sau neuronul McCulloch-Pitts (M-P) este o


generalizare a modelului neuronal Adaline i este compus dintr-o sum de
produse dintre intrrile neuronului i ponderile sinaptice ale acestuia plus o
valoare constant, toate acestea trecute printr-o neliniaritate de tip prag.
Ecuaia de intrare-ieire al acestui neuron artificail este:

y f g x f wi xi b
(11.33)
i 1

De altfel, modelul ce se utilizeaz la ora actual, al neuronului McCullochPitts, prezentat n relaia (11.33) este o generalizare a modelului neuronal ce
a fost propus n anul 1943 i care lucra atunci doar cu variabile de intrare
binare (0 i 1) fiind caracterizat de ponderi i praguri fixe.
n relaia (11.33) d reprezint numrul de intrri ale neuronului
(dimensionalitatea spaiului de intrare al trsturilor), xi reprezint valorile
intrrilor elementului de procesare, wi sunt ponderile iar b este termenul bias
sau prag. n cadrul modelului neuronal McCulloch-Pitts funcia de activare
f este o funcie de tip semn (hard limited) definit prin relaia:
1 dac
f x
1 dac

x0
x0

(11.34)

Aceast funcie de activare neliniar poart i numele de funcie semn.


Un astfel de sistem, realizat cu ajutorul unui neuron de tipul M-P, este
capabil s separe doar dou clase. O prim clas este asociat valorii +1 a
110

ieirii sistemului i cealalt clas este asociat valorii -1.


Deci, elementul de procesare M-P este compus din:
elementul liniar adaptiv (combinatorul liniar), cunoscut sub
numele de neuronul Adaline (Adaptive Linear Element), i
o funcie neliniar.
n continuare vom studia i vom nelege capacitatea neuronului M-P de
a recunoate, de a clasifica diferiii vectori de trsturi. Din punct de vedere
al teoriei clasificatorilor relaia (11.33) este generatoarea unei singure funcii
discriminant. Aceast funcie discriminant este dat de relaia:
d

g x w1 x1 w2 x2 ... wd xd b wi xi b

(11.35)

i 1

Din punct de vedere medical, fiziologic relaia anterioar este similar i


modeleaz potenialul membranei unui neuron biologic.
n paragrafele urmtoare vom ncerca s nelegem n mod intuitiv ce
reprezint aceast funcie discriminant generat de ctre neuronul M-P.
Pentru facilitarea reprezentrii grafice i a nelegerii intuitive a capacitilor
acestui neuron vom lucra mai departe ntr-un spaiu bidimensional de intrare
sau de trsturi. n aceast situaie putem scrie ieirea elementului de
procesare astfel:
1

y
1

w x
dac w x
dac

j1,2

j1,2

b0

b0

(11.36)

Din relaia (11.36) se poate observa c valoarea ieirii neuronului este


controlat n mod direct de ctre termenul:
(11.37)
w1x1+ w2x2+b
Termenul, anterior prezentat, reprezint ecuaia unei drepte. Dar
simultan acest termen este chiar funcia discriminant, g(x1,x2), generat de
neuronul M-P. Mai mult, aceast funcie discriminat este ieirea pentru un
neuron de tipul Adaline. Prin aplicarea funciei de activare neuronului Adaline
va rezulta un sistem care mparte spaiul de intrare n dou semiplane, unul
pentru vectorii de trsturi care sunt evaluai cu o valoare pozitiv (+1) i altul
cu vectorii evaluai cu o valoare negativ (-1).
Ecuaia pentru suprafaa de decizie se obine prin egalarea cu zero a
funciei discriminant:
g ( x1 , x 2 ) w1 x1 w2 x 2 b 0
(11.38)

111

Problem 11.3: tiind modalitatea de definire a suprafeei/suprafeelor de


decizie raportate la funciile discriminant a claselor, dovedii c
relaia anterioar este corect.

Din relaia (11.38) rezultnd:


x2

w1
b
x1
w2
w2

(11.39)

Suprafaa de decizie este ecuaia unei drepte cu panta:

m w1 / w2

(11.40)

ce trece prin punctul (0, b/w2) i intersecteaz axa x2 n punctul:


x2

b
w2

(11.41)

Aceast dreapt se gsete poziionat la o distan2 fa de origine egal


cu:
d

b
w12 w22

(11.42)

Datorit formei i a semnificaiei generate de relaia (11.42) termenul b


este cunoscut n literatura de specialitate drept deplasare (bias n englez).
Dac sistemul caracterizat de ecuaia (11.33) ar fi liniar, extragerea
caracteristicii intrare-ieire (a funciei de transfer) ar fi fost foarte uor de aflat
i, n final, de vizualizat. Dar din pcate, pentru un sistem neliniar conceptul
de funcie de transfer nu se aplic. Relaia (11.36) ne poate ajuta s vizualizm
rspunsul neuronului de tipul M-P. Acest exemplu este unul foarte simplu n
care ieirea are doar dou valori {-1, 1}, dar de obicei ieirea este foarte greu
de obinut n mod analitic. Din acest motiv se prefer o determinare a
caracteristicii neuronului (a suprafeei de decizie) printr-o parcurgere
exhaustiv a ntregului spaiu de intrare. Suprafaa obinut reflectnd astfel
legtura existent ntre intrarea i ieirea sistemului neuronal implementat
n acest caz particular doar cu ajutorul unui singur neuron de tipul McCullochPitts.
n cazul concret al relaiei (11.35) funcia discriminant este un plan. Acest
plan se intersecteaz cu planul generat de trsturile x1 i x2 ntr-o dreapt

Distana dintre un punct de coordonate (x0, y0) i o dreapt de ecuaie a x + b y + c = 0


este:
d

ax0 by0 c
a 2 b2

112

(care este chiar suprafaa de decizie) a crei ecuaie este dat de relaia
(11.38), vezi Figura 11.3.
Suprafaa de decizie g(x1, x2) = 0,
obinut la intersecia funciei discriminant g(x1, x2) -b/w2
cu planul (x1, x2), de pant = w1/w2

-3

-2

g<0

-1

00 0
-25 -1
-2
-50
-3
-75

x2

g>0

50
25

Funcia
discriminant

2
1
1

x1
2

-b/|w|

-100

Figura 11.3. Prezentarea funciei discriminant pentru cazul unui


clasificator binar

Acest exemplu prezentat anterior se poate extinde i pentru spaii de


intrare multidimensionale, numai c de data aceasta suprafaa de decizie,
liniar n cazul anterior, devine un hiperplan cu o dimensiune mai mic cu o
unitate fa de dimensiunea spaiul de intrare.
Problem 11.4: Determinai ponderile, w1 i w2, precum i bias-ul, b, pentru
modelul neuronal McCulloch-Pitts astfel nct suprafaa de decizie
s fie poziionat astfel:
(a) S treac prin punctele (0.5, 0) i (0, -0.5). n plus, n planul
de intrare (x1, x2) neuronul s ntoarc o valoare egal cu +1 n
partea dreapt a suprafeei de decizie, vezi
Figura 11.4.(a).
(b) S treac prin punctele (0.5, 0) i (0, -0.5). n plus, n planul
de intrare (x1, x2) neuronul s ntoarc o valoare egal cu +1 n
partea superioar a suprafeei de decizie, vezi
Figura 11.4.(b).
(c) S treac prin punctul (0.5, 0) i s fie paralel cu axa x2.
Simultan mai exist i constrngerea ca n planul de intrare (x1,
x2) neuronul s ntoarc o valoare egal cu +1 n partea stng
113

a suprafeei de decizie i -1 n partea dreapt, vezi


Figura 11.4.(c).
(d) S treac prin punctul (0, 0.5) i s fie paralel cu axa x1. n
plus, n planul de intrare (x1, x2) neuronul s ntoarc o valoare
egal cu +1 n partea superioar a suprafeei de decizie, vezi
Figura 11.4.(d).

Pentru testarea corectitudinii valorilor calculate utilizai


implementarea din directorul Exemplul 01 asociat acestui capitol.
n cazul concret al relaiei (11.35) funcia discriminant este un
plan. Acest plan se intersecteaz cu planul generat de trsturile x1
i x2 ntr-o dreapt (care este chiar suprafaa de decizie) a crei
ecuaie este dat de relaia (11.38).
x2

x2
1
0.5
x1

0.5

0.5

-0.5

-1

(a)

(b)

x2

x2

1
-0.5

0.5
x1

0.5

-1

x1

- 0.5

-0.5

- 0.5

1
- 0.5

x1

-0.5

0.
-0.5

(c)

-1

(d)

Figura 11.4. Reprezentrile grafice ale regiunilor decizionale pentru


neuronului McCulloch-Pitts pentru diferite valori ale ponderilor sinaptice i
a biasului n conformitate cu datele problemei precedente
114

11.3.2. Tipuri de neliniariti


Pentru ecuaia (11.36) decizia aparteneei unui element la o clas sau
alta este una de tip crisp (elementul aparine sau nu clasei), deoarece funcia
semn este utilizat la ieirea neuronului.
De asemenea, alte tipuri de neliniariti pot fi utilizate la ieirea
neuronului. Dintre acestea cele mai cunoscute sunt cele ce au o form
sigmoidal3. Dintre acestea, cele mai utilizate neliniariti sigmoidale sunt
cele de tip: logistic (funcie sigmoidal unipolar) i tangent hiperbolic
(funcie sigmoidal bipolar).
1
f x
1

x0
x0

(11.43)

f(x) = tanh ( x)

f x

(11.44)

1
1 exp x

(11.45)
=4

=1
= 0.25

(a)

(b)

(c)

Figura 11.5. Tipuri de neliniariti: (a) semn, (b) tangent hiperbolic i


(c) logistic

Pentru ultimile dou neliniariti, prezentate grafic i analitic n Figura


11.5, parametrul determin panta neliniaritii i n mod uzual ia valoarea
1. Diferena major ntre ultimile dou neliniariti, prezentate n Figura
11.5(b) i Figura 11.5(c), este dat de domeniul de variaie a valorilor de
ieire. Pentru funcia logistic domeniul este cuprins ntre [0, 1] n timp ce
3

aceasta funcie este una monoton cresctoare avnd o form de tip S


115

pentru funcia tangent hiperbolic ntre [-1, 1]. Prin introducerea i folosirea
acestor neliniariti am obinut o generalizare a funciilor discriminant pentru
neuronul M-P de tipul:

y f wi xi b

(11.46)

Funcia dat de (11.46) nu mai este un hiperlan similar cu cel dat de relaia
(11.35) precum la neuronul Adaline. Avantajul fundamental al
neliniaritilor de tip sigmoidal este dat de faptul c acestea sunt derivabile.
Derivabilitatea acestor funcii constituie un avantaj mai ales n cadrul
algoritmilor de adaptare nesupervizat cnd vom folosi derivatele n vederea
gsirii minimului suprafeei de eroare.
Ex.2.

Deoarece ieirea funciei logistice variaz ntre 0 i 1 n anumite situaii


acest fapt ne permite o interpretare a ieirii neuronului drept probabilitate
posterioar pentru o distribuie Gauss-ian a claselor de intrare.
Conform regulii Bayes o probabilitate de tip posterioar poate fi scris ca:
Pci x

f x ci Pci
P x

(11.47)

Pentru situaia cnd avem numai dou clase numitorul relaiei (11.47) este
dat de:
P(x) = f(x | c1) P(c1) + f(x | c2) P(c2)
(11.48)
unde c1 i c2 reprezint cele dou clase. Dac funciile distribuie sunt Gaussiene de variane egale, se poate arta c:
P c1 x

unde
a ln

1
1 exp a

f x c1 P c1
f x c2 P c2

(11.49)

(11.50)

Se poate observa c relaia (11.49) este chiar forma neliniaritii de ieire


logistice, deci putem interpreta ieirea neuronului drept probabilitatea
posterioar a eantionului de intrare. Avnd n vedere c putem gsi o relaie
matematic liniar ntre funcia tangent hiperbolic i cea logistic putem nu
numai echivala reelele neuronale care utilizeaz una dintre aceste funcii dar
putem pstra i interpretarea de tip probabilitate a ieirii.

116

11.3.3. Algoritmul de adaptare al ponderilor

Plasare funciei discriminant generat de neuronul McCulloch-Pitts n


spaiul de intrare al trsturilor este dat de:
1. raportul ponderilor acestea controleaz panta (orientarea)
suprafeei de decizie, n timp ce
2. bias-ul controleaz cu ct se va transla aceast suprafa de
decizie fa de origine, determinnd punctul de intersecie al
acesteia cu ambele axe x2 i x1 sau numai cu una din ele.
Plasare funciei discriminant trebuie controlat astfel nct ieirea s aib
valoare 1 pentru o clas i 1 (sau 0 funcie de tipul neliniaritii de ieire)
pentru cea de a doua clas, deci poziia funciei discriminant trebuie
modificat n spaiul de intrare pn n momentul n care vom obine numrul
minim de erori.
n cazul bidimensional este foarte uor s plasm manual suprafaa de
decizie pentru a obine separarea corect a celor dou clase. Dar ntr-un spaiu
multidimensional nu mai avem posibilitatea de a vizualiza poziia claselor i
deci avem nevoie de o procedur automat pentru poziionarea suprafeei de
decizie. Pentru a ne atinge acest obiectiv trebuie s: calculm eroarea
instantanee a clasificrii (notat cu i fiind egal cu diferena ntre valoarea
dorit a ieirii, d, i ieirea real a neuronului y) i, n plus, avem nevoie de
un algoritm care s minimizeze aceast eroare.
Ex.3.

Exist mai multe moduri de calcul a erorii globale dar cea mai folosit
este eroarea medie ptratic (MSE Mean Square Error). Eroarea medie
ptratic este o funcie de cost dat de:

1 K 2
1 K
d n y n 2

n
2K n 1
2 K n 1

(11.51)

n relaia (11.51) n este un index pe ntreaga mulime a vectorilor de trsturi


avem astfel o mulime de K vectori de trsturi n cadrul setului de antrenare
al reelei.
Scopul clasificatorului este de a minimiza aceast funcie de cost prin
modificarea ponderilor reelei. Cutarea vectorului optim de ponderi pentru
a minimiza un anumit criteriu este deci n esen ideea de baz a algoritmului.
Din punct de vedere istoric, Rosenblatt a propus n anul 1958
urmtoarea procedur de minimizare a erorii de clasificare a neuronului
McCulloch-Pitts (M-P):

117

se ia un exemplar (vector de trsturi) i se calculeaz ieirea,


dac:

ieirea este corect se trece mai departe la urmtorul


exemplar,
exemplarul este incorect clasificat se modific vectorul de
ponderi i bias-ul,

se execut paii anteriori pe ntregul set de date de cte ori este


necesar pn cnd ieirea este corect pentru fiecare element al
setului de date.

Aceast procedur este algoritmul de antrenare al perceptronului M-P i


poate fi pus sub urmtoarea relaie analitic:
wk 1 wk d k yk xk

(11.52)

n relaia anterioar este pasul de adaptare, y este ieirea reelei n timp ce


d este rspunsul dorit.
Problem:
Comparai relaia (11.52) cu relaia de modificare a ponderilor
dat de algoritmul LMS, relaia (11.18). Exista vreo diferen?
Ex.4.

Din relaia (11.52) se observ c neuronul nva numai cnd ieirea


greete, deci cnd vectorul de intrare este clasificat n mod greit. Deoarece
rspunsul dorit poate fi doar -1 i +1 cantitatea cu care se modific ponderile
este egal cu:

sign xi k wi k b 1
i

(11.53)

wk 2 xk dac d k 1 i sign xi k wi k b 1
i

(11.54)

wk 2 xk

dac d k 1 i

n cazul n care eantioanele de intrare sunt liniar separabile, deci exist o


funcie discriminant liniar care va produce eroare de clasificare zero, soluia
algoritmului de adaptare este un vector de ponderi w* i un prag b* care
satisface relaia:

d n sign wi* x j n b* 0
j

(11.55)

pentru un index n ce parcurge ntregului set de date de intrare.


Soluia pentru cazul bidimensional este o dreapt caracterizat de
ecuaia xT w* = 0 (vectorul optimal w* trebuie s fie ortogonal pe fiecare vector
de date x). Algoritmului de adaptare dat de relaia (11.52) i ia un numr finii
118

de pai pentru a ajunge la soluia optim numai dac clasele sunt liniar
separabile.

Exist dou probleme majore generate de acest algoritm:

n momentul n care ultimul eantion va fi corect clasificat, funcia


discriminant nu va mai putea fi repoziionat sub nici o form.
Astfel, acest algoritm de adaptare produce diferite suprafee de
decizie la diferite iniializri i adaptri succesive ale neuronului.
Aceste suprafee de decizie furnizeaz o eroare egal cu zero n
setul de antrenare, dar eroarea obinut pe setul de test poate
s fie diferit de zero. O poziionare mai corect a suprafeei
determinant ar fi fost n zona punctelor de minim a interseciei
funciilor de densitate de probabilitate ce caracterizeaz cele dou
clase vezi clasificatorul Bayes-ian.
Algoritmul de adaptare converge numai dac clasele sunt liniar
separabile, n caz contrar suprafaa de decizie va oscila n mod
continuu. (Ex.4a.)
11.3.4. Interpretarea geometric a modelului neuronal M-P i a
algoritmului de adaptare a ponderilor

Pentru o nelegere intuitiv att a semnificaiilor diferitelor elemente ale


modelului neuronal McCulloch-Pitts, a interaciunii dintre acestea ct i a
algoritmului de adaptare a ponderilor, n cadrul acestui subcapitol se va
prezenta o interpretare geometric att a modelului neuronal McCulloch-Pitts
dar i a algoritmului de adaptare a ponderilor acestui neuron.
n continare considerm ponderile {w1, w2} drept punctul final al unui

vector w a crui capt de nceput este poziionat n origine. Observm de


asemenea c locul geometric al coordonatelor {x1, x2} care satisfac relaia
(11.38):

g ( x1 , x2 ) w1 x1 w2 x2 b 0

(11.56)

care este chiar suprafaa de decizie a neronului. Aceast suprafa de decizie


o vom reprezenta i pe ea n mod vectorial prin intermediul unui vector care
pleac din origine i sfrete ntr-un punct aparinnd acestui loc geometric.

Acest vector l notm n continuare cu g . Pentru simplitate n continuare vom


presupune c pragul b este egal cu zero i vom arta c, utiliznd aceast

interpretare geometric (caracterizat de reprezentarea vectorial w i g ),


vectorul ponderilor va fi perpendicular pe suprafaa de decizie.

119

Constrngerea anterioar, b = 0, nu influeneaz sub nici o form


generalitatea acestei interpretri grafice deoarece tim dintr-un subcapitol
anterior c prin intermediul pragului b se modific doar punctul de intersecie
a suprafeei de decizie cu axa x2 nu i panta dreptei.
n acest caz vectorial, produsul din relaia (11.56), w1 x1 + w2 x2,
poate fi interpretat ca un produs intern a doi vectori [w1, w2]T i [x1, x2]T.

Pentru a satisface g(x1, x2) = 0, vectorii w i g trebuie s fie perpendiculari


deoarece produsul lor intern este zero. n concluzie suprafaa de decizie g(x1,

x2) = 0 trebuie s fie perpendicular pe vectorul ponderilor w , vezi Figura


11.6. Cum ponderile neuronului sunt coeficienii funciei discriminant rezult
c ponderile indic direcia normal a suprafeei de separaie n spaiul de
intrare.
x2
{x1, x2}

x1
{w1, w2}

g(x1, x2)=0

Figura 11.6. Interpretarea vectorial a poziiei vectorului de ponderi

n plus, ntotdeauna vectorul w va fi situat n semiplanul n care


rspunsul neuronului M-P va fi +1. Pentru a verifica acest lucru
particularizm funcia discriminant, g(x1, x2), pentru punctul extrem al acestui
vector {w1, w2}, obinnd:
g w1 , w2 w1 w1 w2 w2 w12 w22 0

(11.57)

Relaia (11.57) demonstreaz astfel afirmaia fcut la nceputul paragrafului


anterior.
Problem:
Pentru un neuron M-P caracterizat de urmtoarele valori ale
parametrilor liberi w1 = 10, w2 = 5 i b = 0, demonstrai c n
reprezentarea vectorial a acestui neuron, vectorul ponderilor este
perpendicular pe suprafaa de decizie a neuronului.
Rezolvare:
Parametrii ce caracterizeaz suprafaa de decizie sunt
w
m 1 2 i intersecia cu axa x2 este chiar n originea
w2

120

sistemului de coordonate. Utiliznd aceste informaii trasm


aceast suprafa de decizie ca n Figura 11.7.

Pentru a reprezenta vectorii w i g trebuie s determinm


pentru fiecare vector n parte punctele extremitilor lor. Dac

pentru vectorul w rezultatele Figura 11.7 sunt directe, vezi

Figura 11.7, pentru vectorul g trebuie s determinm un punct de


apartenen a locului geometric dat de suprafaa de decizie. Orice
punct ce aparine suprafeei de decizie satisface relaia g(x1, x2) =
0. Dac, de exemplu, lum x1 = 5 rezult automat x2 = -10.

Reprezentarea grafic a vectorului g este prezentat n Figura


11.7.

Pentru a demonstra c vectorii w i g sunt perpendiculari ne


putem folosi de interpretarea produsului intern, n mod similar ca
n demonstraia fcut
Suprafaa de decizie de
anterior n cadrul acestui
ecuaie g(x1, x2) = 0 x2
subcapitol, sau putem
10
calcula pantele dreptelor
suport a celor doi vectori
{10, 5}
5
i verificm c ntre
acestea exist relaia mw
-5
10
-10
5
= -1 / mg n aceast
x1
condiie dreptele suport

a vectorilor w i g sunt
-5
perpendiculare.
Dac
{5, -10}
dreptele
suport
a
-10
vectorilor
sunt
perpendiculare rezult
Figura 11.7. Reprezentare grafic

automat i c vectorii w
a rezultatelor obinute n cadrul

i g sunt perpendiculari.

Dreapta suport a vectorului w trece prin punctele {0, 0} i {10,


5}; ecuaia acesteia este:

x1 0 x2 0

10 0 5 0
Dezvoltnd relaia (11.58) obinem n final:

(11.58)

x2 x1 / 2

(11.59)

Constatnd c panta dreptei suport a vectorului w este mw =

n timp ce panta dreptei suport a vectorului g este mg = -2, tragem


121

concluzia c cei doi vectori satisfac condiia anterioar. De aici

rezult c vectorii w i g sunt ortogonali.


n continuare vom prezenta n mod grafic modalitatea de adaptare a
ponderilor pentru modelul neuronal McCulloch-Pitts ce lucreaz cu un spaiu
bidimensional al trsturilor.
n Figura 11.8 se prezint n mod grafic modalitatea de modificare a
suprafeelor de decizie n situaia n care vectorii de trsturi E1 i E2 sunt
incorect clasificai, iar ponderile sunt modificate datorit influenei acestor
vectori de trsturi. Suprafaa iniial de decizie la momentul de timp n este
S1.
x2

x1
S2

S1

(a)
x2

S3

x1

S1

(b)

Figura 11.8. Modalitatea de infuenare a suprafeei de decizie de ctre


un elemnt clasificat greit: (a) aparinnd clasei asociat de clasificator cu
valoarea +1, respectiv, (b) aparinnd clasei asociat de clasificator cu
valoarea -1

S presupunem c vectorul de trsturi E1 este utilizat n procesul de


122

adaptare a ponderilor. Deoarece vectorul de trsturi E1 este clasificat


incorect, vezi poziia suprafeei de decizie S1 n Figura 11.8(a), i deoarece
valoarea dorit pentru acest element este +1 ponderile se vor modifica cu o
cantitate dat de relaia (11.53). Vectorial putem scrie:

w n 2 x E1 n
(11.60)

n acest mod vectorul de pondere w1 , definitoriu pentru suprafaa de

decizie S1, este modificat cu o cantitate, w , n direcia elementului E1

devenind vectorul w2 . Deoarece vectorul w2 este ntotdeauna perpendicular


pe suprafaa de decizie, poziia noii suprafee de decizie obinut n urma
procesului de nvare este cea reprezentat n Figura 11.8(a) prin dreapta S2.
Se observ c n acest caz suprafaa de decizie a fost repoziionat de influena
elementul E1 astfel nct acest element s fie corect clasificat.
Pentru situaia prezentat n Figura 11.8(b) abordarea este similar. De
aceast dat elementul E2 aparine celei de a doua clase pe care clasificatorul
trebuie n final s o asociaze cu valoarea -1 la ieirea sa. Datorit poziionrii
suprafeei de decizie S1 acest element este clasificat n mod incorect fiind
asociat cu o valoare +1 la ierea elementului neuronal de procesare
McCulloch-Pitts. n aceast situaie cantitate cu care se modific vectorul de
ponderi a neuronului este dat de relaia (11.54). Aceast relaie scris
vectorial devine:

wn 2 x E 2 n
(11.61)

Observm c vectorul w1 este mpins n sens contrar direciei vectorului

E 2 devenind w3 ( w3 w1 w ). Noua suprafa de decizie S3 chiar dac nu


reuete s clasifice n mod corect elementul E2 este mai aproape de soluia
corect dect suprafaa de decizie iniial, S1.
Observm c din punct de vedere grafic fiecare element din spaiul
trsturilor incorect clasificat va mpinge sau trage suprafaa de decizie
prin intermediul vectorului de ponderi, care este perpendicular pe acesta,
conform relaiei (11.52).
11.3.5. Algoritmul delta de antrenare

Algoritmul delta de antrenare a fost dezvoltat de McClelland i de


Rummelhart n anul 1986.

123

n cadrul algoritmul LMS aplicat neuronului de tip Adaline se adun


la vectorul de ponderi o cantitate proporional cu produsul dintre eroare i
intrarea reelei:
wk 1 wk k x n

(11.62)

Vom ncerca mai departe s refolosim ideile de baz conceptuale ale


algoritmului LMS pentru antrenarea unui sistem neliniar.
S presupunem c avem o funcie y = f(x), ideea de baz este aceea de a
calcula y/x, deci de a calcula cum se reflect o schimbare de mic
amplitudine n intrare, x, n valoarea lui y deci ct de sensibil este y la
schimbrile lui x. Acest parametru poate fi numit sensibilitatea ieirii la o
variaie a intrrii:

y y f

x f x

(11.63)

n mod similar, dac x este nlocuit cu w ne vom da seama ct de sensibil


este ieirea sistemului la o schimbare a lui w i vom modifica vectorul de
ponderi proporional cu aceast sensibilitate. Singura problem este dat de
faptul c trebuie s trecem printr-o neliniaritate dat de funcia f. Derivnd
obinem:

y
y

g f g xi
wi g wi

(11.64)

n practic avem o eroare la ieire i dorim s modificm toate ponderile


astfel nct d minimizm aceast eroare. Cel mai simplu mod de a face acest
lucru este s distribuim modificrile proporional cu sensibilitatea erorii fa
de fiecare pondere n parte. Dac vrem s minimizm eroarea trebuie s
facem schimbrile cele mai importante n ponderile care afecteaz cel mai
mult valoarea de ieire i prin aceasta eroarea.
Eroarea instantanee poate fi scris:

1
d n yn k 2
2

(11.65)

unde:

yn k f wi k xin

i


g
n

(11.66)

Eroarea medie ptratic este dat de:


124

wk

1 K
d n yn k 2

2 K n 1

(11.67)

Folosindu-ne de relaiile (11.64), (11.65) i (11.66) i innd cont c


gradientul erorii medii totale pe ntreg setul de date este aproximat prin
gradientul unei msuri instantanee a erorii avem:
k yn k

gn wi k

wi k yn k gn wi k

dn yn f gn x k f gn x
n
i

(11.68)

n
i

n cazul aplicrii gradientului descendent pe suprafaa de eroare obinem:


wi k 1 wi k k xin f g n

(11.69)

Relaia (11.69) poart numele de regula delta i este o extensie a


algoritmului LMS pentru sistemele neliniare, cu neliniariti derivabile.
Deoarece neliniaritile discutate pn acum, ntr-un subcapitol anterior, se
apropie exponenial de 1 (0) i de 1, multiplicarea prin derivat reduce
termenul care se adun la pondere prin simplul motiv c forma derivatei este
de tip Gauss-ian n jurul valorii gn.
Derivatele funciei logistice i a celei de tip tangent hiperbolic sunt:
istic g p y p 1 y p
f log

(11.70)

g p 0.5 1 y 2p
f tanh

(11.71)

Ex.5
Problem: Demonstrai valabilitatea relaiilor (11.70) i (11.71).

125

11.3.6. Implicaiile existenei neliniaritii de ieire

n principal existena unei neliniaritii la ieirea unui neuron


determin schimbarea formei suprafeei de eroare. Forma parabolic a
suprafeei de eroare existent n sistemele liniare, precum cea prezentat n
Figura 11.2, nu se mai regsete n reelele neuronale neliniare. Se poate
observa c suprafaa de eroare descrie cum costul reelei se schimb funcie
de vectorul de ponderi. (Ex.6.) .
Performanele reelei depind de topologia acesteia reflectat prin eroarea
obinut. n momentul n care un element de procesare neliniar este utilizat
pentru rezolvarea unei probleme relaia dintre suprafaa de performan i
vectorul de ponderi devine neliniar i nu mai exist nici o garanie a
existenei unui singur minim. Suprafaa de eroare poate avea astfel cteva
minime din care numai unul este minimul global, restul fiind minime locale.
(w)
minim local
minim global
w
direcii ale gradientului

Figura 11.9. Suprafaa de performan neconvex


Ex.7.

Minimul care produce cea mai mic eroare este numit minimul global.
Acest fapt afecteaz performanele obinute, deoarece modalitatea de cutare
a minimului, n cadrul algoritmilor de tip gradient, este bazat numai pe o
informaia local. Dac ne bazm numai pe informaia din imediata
vecintate ne este imposibil de a deosebi un minim local de un minim global.
n acest mod putem obine performane suboptimale dac oprim procesul de
nvare n momentul atingerii unui minim local.
Existena minimelor locale, pe suprafaa de eroare, genereaz necesitatea
existenei unui numr multiplu de antrenri fiecare antrenare fiind
caracterizat de o nou generare aleatoare a vectorului de ponderi. Astfel,
sperm c ne vom poziiona pe suprafaa de eroare n diferite zone i n urma
procesului de antrenare algoritmul va determina convergena ponderilor ctre
minimul global.
126

11.4. Perceptronul

Perceptronul lui Rosenblatt este un sistem utilizat n recunoaterea de


paternuri descoperit la nceputul anilor 1950 i utilizat n acel moment n
cadrul problemelor de recunoatere a diferitelor caractere (OCR - optical
character recognition). Perceptronul este o reea neuronal format dintr-un
singur strat de neuroni artificiali conectai complet prin intermediul
ponderilor la un intrrile sistemului, Figura 11.10.
Unul din dezavantajele modelului neuronal de tip M-P este dat de
capacitatea acestuia de a discrimina doar dou clase. Din acest motiv s-a
impus o abordare mai general a problemelor de clasificare astfel nct un
sistem s aib posibilitatea clasificrii unui numr mai mare de clase. Pentru
a atinge acest scop topologia sistemului de clasificare a fost modificat n
sensul includerii unui strat de M elemente de procesare M-P astfel nct
fiecare dintre ele s fie capabile s creeze propria funcie discriminant n
spaiul d-dimensional de intrare. Avantajul de a avea M neuroni este dat de
abilitatea de a determina fiecare neuron s rspund numai de o anumit
zon a spaiului. Fiecare neuron va decide dac vectorul de trsturi prezentat
la intrare este sau nu n clasa caracterizat de funcia discriminant pe care acel
neuron artificial o genereaz.

Figura 11.10. Topologia unei RNA de tip perceptronul cu d intrri i M


ieiri

Relaia matematic care descrie sistemul neuronal prezentat n Figura


11.10 este urmtoarea:

y j f g j f wij xi b j
i1

(11.72)

unde j = 1, 2, , M.
Una dintre realizrile remarcabile ale lui Rosenblatt, n domeniul reelelor
neuronale, a fost gsirea demonstraiei care ne asigur c un perceptron
127

antrenat cu ajutorul relaiei (11.52) poate recunoate ntr-un numr finit de


pai cele M clase, cu condiia ca acestea s fie liniar separabile.
Perceptronul are de asemenea proprietatea de a generaliza (de a
furniza rspunsul corect pentru vectori de trsturi care aparin claselor pentru
care a sistemul neuronal a fost antrenat, dar aceti vectori nu au fost utilizai
niciodat n setul de antrenare).
11.4.1. Suprafaa de decizie a perceptronului

Un perceptron cu M ieiri poate divide spaiul de intrare n M regiuni


distincte. S presupunem c regiunile i i j au o grani comun. Suprafaa de
decizie este o suprafa liniar dat de ecuaia gi(x) = gj(x), unde gi i gj sunt
funciile discriminant a claselor i i j. n total exist M(M 1)/2 astfel de
ecuaii4. Regiunile de decizie ale unui perceptron sunt ntotdeauna convexe.
n momentul n care un neuron din strat rspunde cu o valoare maxim la un
vector de trsturi de intrare nseamn c acel vector se afl n interiorul
regiunii definite de neuron.

Figura 11.11. Posibile suprafeele de decizie ale unui perceptron


Ex.8.
11.4.2. Regula delta aplicat perceptronului

Din punctul de vedere a regulii de adaptare modificrile care apar la


trecerea de la un singur neuron la o reea de tipul perceptron (o reea neuronal
artificial cu un singur strat de neuroni) nu sunt foarte mari.
Pentru antrenarea modelului neuronal se utilizeaz un set de exemplare
{xk, dk} (denumit set de antrenare), cu k = 1, 2, ... , K. Singura deosebire fa
de modelul M-P este c de aceast dat doritul este un vector M dimensional,
vezi Error! Reference source not found..
4

Combinaii de M funcii discriminant luate cte 2

! !

128

(11.73)

i n cazul regulii delta aplicat perceptronului, gradientul erorii totale (a


erorii medii ptratice), , este aproximat cu gradientul erorii ptratice
instantanee. n cazul perceptronului funcia de cost trebuie calculat dup o
sum a erorii furnizat de fiecare ieire i este dat de:

1 n

Ek d j y j k

2 j 1
ej

(11.74)

cu:
d

y j k wTj k x n wij k x nj

(11.75)

i 1

Adaptarea ponderilor se va face, similar ca la algoritmul LMS, prin


intermediul relaiei:
wij k 1 wij k

Ek
wij k

(11.76)

n continuare putem rescrie relaia (11.68) sub forma:


Ek

wij k

Ek y j k
g j wij k
y j k g j wij k

d nj y j k f g j x jp

(11.77)

j f g j x nj

Ex.9.
11.4.3. Marginea de decizie a perceptronului

Anterior, am vzut cum regula de adaptare a neuronului McCulloch-Pitts


este eficient dar nu i eficace deoarece imediat dup ce ultimul eantion a
fost clasificat corect procesul de nvare se oprete, lsnd suprafaa de
129

decizie foarte aproape de acest eantion. Desigur obinem performane


maxime n setul de antrenare dar nu i n setul de test al sistemului. Acesta
este motivul pentru care dorim s nlocuim algoritmul de adaptare al
neuronului McCulloch-Pitts astfel nct suprafaa de decizie s fie plasat n
valea dintre distribuiile celor dou clase la distane egale de cele dou
frontiere ale claselor. Pentru aceasta trebuie s introducem i s definim
conceptul de margine de decizie. S presupunem c avem un set de date de
intrare i de valori dorite ale ieirii S = {(x1, d1), (x2, d2), , (xN, dN)} cu d =
{- 1, + 1} i avem o funcie discriminant definit de (w, b). n aceste condiii
se definete marginea hiperplanului de separaie drept o cantitate
proporional cu:

min x, w b

(11.78)

xS

unde <> este produsul intern ntre x i w.


Definim hiperplanul optim drept acea suprafa de decizie care
maximizeaz marginea de decizie ntre cele dou clase, Figura 11.12. Dup
cum se vede din toate hiperplanele posibile care separ setul de date, cel
optimal este acela care trece la jumtatea distanei dintre eantioanele care
sunt cele mai apropiate de frontierele celor dou clase.
x2

Hiperplan optim
Vectori suport

1
1
2
2

Vector suport

x1

Figura 11.12. Hiperplanul de separaie i marginea acestuia

Problema pe care o avem acum este aceea de a gsi acest hiperplan optim.
Dup cum se vede n Figura 11.12 trebuie s gsim acele puncte (vectori de
trsturi) care se regsesc pe frontier (numii i vectori suport), definind-o,
iar ulterior s plasm funcia discriminant la mijlocul distanei dintre ele.
Se poarte demonstra uor, din simple considerente geometrice, c
130

distana de la un vector de trsturi x (pentru cazul bidimensional cu care


lucrm de la un punct din plan ctre o dreapt) ctre un hiperplan este dat
de:
d

g x
w

(11.79)

11.4.4. Algoritmul Adatron

n continuare se va prezenta un algoritm simplu, cunoscut sub numele de


Adatron care va gsi funcia discriminant care maximizeaz marginea de
decizie. Acest algoritm este unul secvenial, care va gsi n mod garantat
soluia optim cu o rat de convergen exponenial.
Pentru a explica acest algoritm de antrenare, trebuie s rescriem funciile
intrare-ieire ale perceptronului n termenii unei reprezentri dependente de
setul de date.

f x sgng x

(11.80)

unde:
N

g x x , w b i x , xi b
i 0

(11.81)

unde <> este produsul intern, N este numrul de eantioane. Coeficienii i


sunt un set de multiplicatori ce cuantizeaz influena fiecrui vector de
trsturi asupra ponderilor deoarece vectorul de ponderi se modific
conform relaiei (11.52) (mai exact a relaiilor (11.53) sau (11.54)) . n Figura
11.13. Perceptronul reprezentat ca o structur dependent de setul de date este prezentat
o astfel de topologie care creeaz o astfel de reprezentare dependent de setul
de date.
n aceast structur prezentat algoritmul de adaptare a perceptronului va
modifica ponderile i n locul ponderilor n situaia existenei unei erori.
Algoritmul adaptiv devine:

i n 1 i n xi

(11.82)

bi n 1 bi n xi

(11.83)

131

Figura 11.13. Perceptronul reprezentat ca o structur dependent de


setul de date

Algoritmul Adatron aplicat unui neuron de tipul M-P este capabil s


disting numai ntre dou clase. Dac problema are mai mult de dou clase
trebuie rezolvat secvenial ca o decizie de numai dou clase.

Figura 11.14. Comparaie ntre algoritmul Adatron i regula delta

Este foarte util s comparm algoritmul Adatron prezentat n acest


subcapitol cu regula delta prezentat anterior. n cazul regulii delta suprafaa
de decizie este controlat de eantioanele care produc o valoare a ieirii care
este diferit de valoarea dorit. Aceste eantioane tind s existe la frontiera
dintre cele dou clase, deci eroarea medie ptratic este influenat
132

semnificativ de acestea. Dar, deoarece J conform relaiei Error! Reference


source not found. este o funcie continu a erorii, toate eantioanele vor
contribui ntr-un mod sau altul la J. n concluzie MSE (Mean Square Error
eroarea medie ptratic) este o funcie dependent de ntreaga distribuie a
setului de date iar localizarea suprafeei de decizie va fi afectat de forma
clusterului de date i de numrul de elemente existent n acel cluster de date
(neajunsuri: apar probleme n cazul maladiilor rare).
Ex.10.

n cazul algoritmului Adatron se observ un comportament diferit. n


timpul procesului de adaptare, cea mai mare parte din coeficienii i se duc
ctre zero iar poziionarea suprafeei de decizie este determinat numai de un
numr mic de eantioane situate n imediata vecintate a frontierei dintre cel
dou clase. Aceste eantioane sunt numite vectori suport. Algoritmul de
adaptare este astfel insensibil la forma general a clusterilor i se
concentreaz numai pe o vecintate de eantioane din imediata frontier a
celor dou clase, Figura 11.14.
x2
S3

P00
P01
P10
P11

x1

x2

0
0
1
1

0
1
0
1

0
1
1
0

S2

S1

P01 (y = 1)

P11 (y = 0)

P00 (y = 0)

(a)

P10 (y = 1)

x1

(b)

Figura 11.15 (a) Tabelul de adevr a unei pori SAU-EXCLUSIV i


(b) distribuia eantioanelor n spaiul trsturilor
11.4.5. Limitrile perceptronului

La fel ca i modelul neuronal M-P, perceptronul poate rezolva numai


acele probleme care au clasele liniar separabile. Problema prototip ce
caracterizeaz clasa problemelor de clasificare neliniar separabile i care nu
poate fi rezolvat de un perceptron este dat de clasificarea setului de date
rezultat de la ieirea, y, a unei pori sau-exclusiv, vezi Figura 11.15.
133

Indiferent de poziionarea suprafeei discriminant, Figura 11.15(b), n cel


mai fericit caz va rezulta o grupare n aceeai regiune a spaiului, deci n
aceeai clas, a dou elemente aparinnd uneia dintre clase dar, din pcate,
va exista i un element aparinnd celeilalte clase. Rezult astfel obinerea a
cel puin unei erori de clasificare. n cea de a doua regiune spaial va exista
doar un singur element. Acest element este corect clasificat. Deci, pentru
aceast simpl problem vom clasifica n mod greit cel puin un element. De
exemplu, suprafaa de decizie S1 grupeaz n mod corect elementele P11 i P00
dar n aceeai regiune a spaiului se regsete i elementul P10 care este
clasificat incorect. Aceast problem este exemplul clasic n care vectorii de
trsturi nu sunt liniar separabili i deci problema nu poate fi rezolvat de
ctre o reea neuronal artificial de tip perceptron.
Ex.11.

134

11.5. Reeaua neuronal cu un singur strat ascuns


11.5.1. Introducere
Perceptronul multistrat (MLP Multi Layer Perceptron) lrgete noiunea
de percepron n ideea de a generaliza structura acestuia, a perceptronului, prin
introducerea straturilor ascunse. Aceste straturi neuronale ascunse reprezint
de fapt straturi de neuroni care nu sunt legate n mod direct ctre exteriorul
reelei neuronale artificiale (RNA). n cadrul acestui subcapitol vom analiza
reeaua neuronal cu un singur strat ascuns.
n Figura 11.16 se prezint o reea de tip MLP cu un singur strat ascuns,
cu d intrri, K elemente de procesare ascunse (PE processing elments,
neuroni) i M ieiri (totpologia aceastei reele neuronale se noteaz prescurtat
MLP (d-K-M)). n mod normal, elementele de procesare din reelele MLP au
funcii de activare neliniare derivabile, deci, obligatoriu de tip sigmoidale
pentru a asigura continuitatea funciei n orice punct al domeniului de
definiie. Utilizarea funciilor de activare continui se impune deoarece aceste
reele neuronale sunt caracterizate de algoritmi de adaptare ce impun
derivarea funciilor de activare ale elementelor ce proceseaz informaia
neuronii, poziionai pe diferitele straturi n cadrul RNA.
n continuare vom analiza puterea de procesare oferit de elementele
neuronale neliniare aparinnd stratului ascuns al RNA. Aceast analiz se va
face din punct de vedere al suprafeelor de decizie obinute, deci din punct de
vedere a puterii de discriminare a acestor RNA. n cadrul acestui subcapitol
vom aduga la percepronul din Figura 11.10 (Subcapitolul anterior 11.4) un
nou strat de elemente de procesare, vezi Figura 11.16.

Figura 11.16. Un perceptron cu un strat ascuns (d-K-M)

Reeaua neuronal artificial cu un strat ascuns construiete mapri ale


spaiului de intrare n valori de ieire care rezult dintr-o serie de compuneri
de funcii neliniare, de forma:

135

K d

y j f j f i wik x k bi w ji b j , cu j 1, M

i 1 k 1

(11.84)

Maparea rezultant este una foarte flexibila i este cea care confer putere
de discriminare RNA. Dificultatea generat de o astfel de mapare st n
principal n dificultatea analizei matematice a structurii neuronale. Scopul pe
care l urmrim n continuare este de a gsi tipul de funcie discriminant care
poate fi creat cu reprezentarea descris de relaia (11.84) pentru a avea astfel
o nelegere intuitiv a rolului diferiilor neuroni plasai pe diferite straturi n
cadrul RNA.
11.5.2. Suprafeele de decizie
Pentru a nelege conceptual puterea reelelor neuronale cu un singur strat
ascuns vom analiza o astfel de reea neuronal simplificat topologic. Reeaua
pe care o vom analiza are un singur strat ascuns cu dou elemente de
procesare, vezi Figura 11.17. n cadrul structurii din Figura 11.17 elementele
de procesare au funcii de activare de tip semn (hard limited). Scopul final
este acela de a gsi poteniale funcii discriminant generate de stratul ascuns
al MLP-ului.
Conceptual, MLP-ul cu un singur strat ascuns este, de fapt, o nseriere de
elemente de procesare. Vom ncerca, din aceasta perspectiv, s nelegem
faptul ca cei doi neuroni din stratul ascuns creeaz, n spaiul de intrare x1, x2,
doua funcii discriminant. Vom nota ieirea fiecrui element de procesare
neuronal poziionat pe stratul ascuns cu x3 i x4. Fiecare dintre aceste ieiri
vor fi, de exemplu, +1 deasupra suprafeei de decizie i -1 inferior acesteia.
Panta suprafeelor discriminant este dat de raportul ponderilor w1/w2 i
w3/w4.
x1

w1
w2
w3

x2

w4

x3

w5
b1
x4

w6
b3

b2

Figura 11.17. Reea neuronal de tip perceptron cu un singur strat


ascuns, MLP (2-2-1)

n spaiul x3, x4 ieirea ultimului neuron va genera, de asemenea, o funcie


discriminant liniara, ceea ce nseamn ca se va obine, de exemplu, un rspuns
136

+1 a ieirii deasupra unei linii drepte cu panta data de w5/w6. Adevrata


problem este generat de dorina gsirii rspunsul y n ntreg spaiul de ieire
funcie de orice valoare a variabilelor de intrare x1, x2 a trsturilor x1, x2.
Aceasta reprezint o problema care ine de compunerea funciilor,
cunoscndu-se relaia parametric (neliniara) dintre x3 i (x1, x2), i ntre x4 i
(x1, x2). Este foarte util i instructiv scrierea tuturor relaiilor intrare-ieire
sub forma de mai jos:
y = f(w5x3 + w6x4 + b3) = f (w5 f1(w1x1 + w2x2 + b1) +
+ w6 f2(w3x1 + w4x2 + b2) + b3) = f(f1 + f2 + b3)

(11.85)

Relaia (11.85) a fost scris innd cont i de presupunerea ca ponderile


stratului de ieire sunt w5 = w6 = 1, aceast particularizare a fost aleas doar
pentru simplificarea prezentrii. Fiecare expresie din interiorul parantezelor
creeaz o funcie discriminant, care conduce la o funcie cu o valoare pozitiva
pe o jumtate de plan (funcia de ieire a neuronilor cu ieirile x3 i x4 este o
funcie de tip semn). Localizarea tranziiei n spaiul de intrare este controlata
de funciile discriminant ale neuronilor din stratul ascuns, astfel ca expresia
din paranteze reprezint suma a doua funcii semn, f1 i f2, cu un termen
reprezentnd deplasarea (bias-ul) b3. n regiunea spaiului de intrare unde
ambele funcii f1 i f2 sunt pozitive, valoarea lui y va fi cea mai mare. Ieirea
y va avea o valoare intermediar n zonele din spaiu unde doar una dintre
funciile f1 sau f2 este pozitiva (dar nu amndou) i, n final, exista o arie n
spaiul de intrare unde y are valoarea minim, unde ambele funcii f1 i f2 iau
valoarea minim posibil.
Ieirea x3

Ieirea y

Ieirea x4

x2

x2

x2
valoare +1

valoare +1
valoare -1
(a)

x1

valoare -1
(b)

x1

x3, x4 = +1
y=2
x3, = +1
x3, = -1
x4 = -1
x4 = +1
y=0
y=0
y = -2
x1
x3, x4 = -1
(c)

Figura 11.18. (a) Poziionarea suprafeei de decizie i partiionarea


spaiului dat de primul neuron, (b) Poziionarea suprafeei de decizie i
partiionarea spaiului dat de cel de al doilea neuron, (c) modul de divizarea
al spaiului de intrare pentru b3 = 0, n cazul n care funcia de activare a
neuronului de ieire este funcia unitate

Formele suprafeelor de decizie finale sunt controlate de plasarea funciilor


discriminant generate de neuronii poziionai pe stratul ascuns (care, la rndul
137

lor, sunt controlate de valorile variabilelor w1, w2, w3, w4, b1 i b2 din ecuaia
(11.85)). Trebuie observat, de asemenea, ca valoarea bias-ului b3 este
adugata la rezultatul aferent stratului ascuns. Valoarea lui va dicta daca
valoarile de vrf a lui y sunt pozitive (zonele spaiale pentru care y = 2) sau,
daca vrful i ambele platouri (y = 0, conform Figura 11.18(c)) sunt
pozitive, sau, dac toate sunt pozitive sau daca toate sunt negative. Oricum,
rolul bias-ului pentru stratul de ieire este unul substanial diferit de ceea ce
se nelege ca fiind un simplu control asupra ieirii y cum este rolul bias-ul
la nivelul stratului ascuns. n cazul stratului de ieire Bias-ul relev detalii
diferite despre compunerea funciilor, schimbnd efectiv asocierea tuturor
valorilor partiiei create de stratul ascuns. Ponderile de ieire w5 si w6 asigura
flexibilitatea (se pot da ponderi diferite ieirii fiecrui neuron din stratul
ascuns) i, mai mult, modific modul n care se mixeaz ieirile neuronilor de
pe stratul ascuns.
x2

Ieirea y

x2

Ieirea y

x2

Ieirea y

y=1

y=1

y=1
y = -1
(a)

y = -1
x1

(b)

x1

(c)

x1

Figura 11.19. Obinirea diferitelor zone decizionale pentru diferite


valori ale parametrului b3 pentru exemplul prezentat n Figura 11.18 innd
cont i de funcia de activare a neuronului de ieire: (a) b3 = -1, (b) b3 = 1 i
(c) b3 = 3
Problem:
Implementai n mediul de dezvoltare neuronal
NeuroSolutions o reea neuronal artificial similar cu cea din
Figura 11.17 i determinai ponderile acesteia pentru a obine zone
decizionale similare cu cele din Figura 11.19.

Combinarea tuturor valorilor parametrilor relaiei (11.85) poate genera


suprafee de decizie complexe, genernd o mult mai mare flexibilitate a reelei
neuronale cu un singur strat ascuns comparativ cu cea a perceptronului. Este
foarte important de observat faptul c adugnd un nou strat la reeaua
neuronal de tip perceptron se modific n mod calitativ forma funciei
globale discriminant obinut. Regiunile de decizie nu mai sunt restricionate
s fie convexe, ntruct reeaua are un mecanism mult mai puternic de
compunere.
138

Ex.12. (i XOR)

n cazul RNA cu un strat ascuns se pot reine urmtoarele caracteristici


mai importante:

numrul maxim de regiuni distincte ale spaiului de intrare este


controlat de numrul de neuroni situai pe stratul ascuns (2K pentru un
K mult mai mare dect d ). O afirmaie alternativa ar fi aceea ca fiecare
neuron situat pe stratul ascuns creeaz o funcie discriminant liniara;
neuronii din stratul de ieire au capacitatea de a combina o parte din
regiunile create de elementele de procesare neuronale situate pe stratul
ascuns printr-un efect multiplicativ sau aditiv. Acest aspect creeaz
regiuni de decizie care nu mai sunt convexe;
n al treilea rnd, exist mai multe combinaii de ponderi care conduc
la obinerea aceeai divizri a spaiului de intrare.

n concluzie, clasificarea obinut folosind o reea de tipul MLP este una


realizabil prin controlul adecvat exercitat asupra poziiei funciilor
discriminant, corespunztor datelor de intrare i rspunsului dorit. Puterea
unei reele de tipul MLP-ul este dat de modul mult mai flexibil n care se pot
combina spaial suprafeele de decizie, generate de o anumit topologie a
RNA. n plus, exist i algoritmi de nvare care permit sistemului s
descopere n mod automat poziia funciilor discriminant necesare clasificrii
corecte a datelor de antrenare.
x1
x2

Out
(a)

x1

x2

-1
-1
1
1

-1
1
-1
1

Out
-1 11-1 -

(b)

x2
(-1,1)

(1,1)

x1
(-1,-1)

(1,-1) (c)

Figura 11.20. (a) Reprezentarea grafic a porii, (b) tabelul de adevr i


(c) distribuia caselor pentru o distribuie a elementelor n spaiul
trsturilor similar cu acea furnizat de o poart sau exlusiv
Problem:

Pentru o problem de clasificare caracterizat de o distribuie


139

a claselor similar cu cea a unei pori XOR (Figura 11.20),


determinai:
(a) Tipul neliniaritii ce trebuie utilizat pentru toi neuronii
reelei n vederea obinerii unei clasificri conforme cu tabelul
de adevr prezentat n Figura 11.20(b).
(b) Topologia minimal a reelei neuronale artificiale capabil s
realizeze o partiionare a spaiului de intrare astfel nct s fie
respectat tabelul de funcionare din Figura 11.20(b).
Justificai-v rspunsul!
(c) Ponderile i deplasarea (bias-ul) fiecrui neuron n parte astfel
nct s se maximizeze marginea suprafeelor de decizie.
Rezolvare:
(a) Pentru obinerea unui rspuns egal cu unitatea pentru anumite
elemente ale setului de antrenare i un rspuns egal cu -1 pentru
restul vectorilor de trsturi se va folosi o neliniariate de tip
signum asociat neuronului de ieire. Se poate folosi i o
neliniaritate de tip tangent hiperbolic dar pentru ca regiuea de
tranziie dintre valorile -1 i +1 a neliniartii s nu se fac
simit, ponderile neuronului corespondent trebuie s fie de
valori ct mai mari. Pentru a se folosi simultan i ntreaga gam
dinamic a neuronilor, forat de setul de date de intrare (care
ia numai valorile {-1, 1}) se va folosi acelai tip de liniaritate
i pentru toi neuronii din stratul ascuns a reelei. Neliniaritatea
de tip tangent hiperboloic este descris de ecuaia:
f activ ( x) tanh( x)

(11.86)

n continuare pentru toate reprezentrile grafice ce vor fi


prezentate n continuare valoarea parametrului a fost aleas
egal cu unitatea.
(b) Pentru rezolvarea acestei probleme de clasificare vom utiliza
o reea neuronal cu un singur strat ascuns. Pe primul strat
ascuns vor exista doi neuroni care vor partiiona spaul n
conformitate cu Figura 11.21.
Primii doi neuroni de pe stratul ascuns vor realiza dou
suprafee de decizii, notate cu S1 i S2 n figura de mai jos.
Stratul de ieire va avea un singur neuron care va cupla zonele
determinate de cele dou suprafee de decizii, S1 i S2, astfel
nct pentru zona haurat sistemul neuronal va ntoarce
valoarea 1, iar pentru restul spaiului de trsturi sistemul va
genera valoarea -1.
140

(c)

Pentru maximizarea marginii suprafeelor de decizie acestea


vor fi plaste n conformitate cu poziia suprafeelor prezentate
n Figura 11.21. Astfel, intersecia cu axa x2 a suprafeei S1 va
fi n punctul -1, iar a suprafeei S2 n punctul 1, iar panta
ambelor segmente va fi -1. n acest mod distanele de la vectorii
suport la suprafeele de decizie vor fi egale i de valori maxime.
n plus, vom alege pentru fiecare zon a planului divizat de
suprafeele de decizie (S1 sau S2) un anumit semn caracteristic
pe care neuronul liniar (valoarea obinut nainte trecerii
acesteia prin funcia de activare) l va asocia acestor zone.
S1: Panta acestui segment este egal cu -1, deci:
m

w1S 1
w
, 1 1S 1
w2 S 1
w2 S1

(11.87)

pentru realizarea egalitii de mai sus alegem w1S1 = - 10 (se


putea alege orice alt valoare). Imediat rezult c w2S1 = - 10.
x2
-

(-1,1)

(0,1)

(1,1)
0

x1
(-1,-1)

(0,-1)

(1,-1)

+
S2
S1
Figura 11.21. Spaiul trstrilor i plasarea suprafeelor de
decizie a primului strat pentru problema XOR-ului

n plus, deoarece s-a ales ca intersecia cu axa x2 a


segmentului S1 s fie n punctul -1, avem relaia 1 bS1 ,
w2 S1

din aceast relaie rezult c bS1 = -10.


Funcia discriminant a primului neuron este dat de relaia:

g ( x1 , x2 ) 10 x1 10 x2 10

(11.88)

Ultima etap rmas n determinarea ponderilor primului


neuron de pe stratul ascuns este de a verifica semnul asociat
zonelor obinute n urma folosirii funciei discriminant tocmai
141

determinate. Pentru acest test se alege punctul de origine a


sistemului de coordonate:

g (0,0) 10 0 10 0 10 10

(11.89)

Rezultatul obinut demonstreaz o asociere greit a


semnului pentru cele dou zone ale spaiului de intrare obinute
n urma utilizrii acestei funcii discriminant. Pentru rezolvarea
acestei probleme se schimb semnul bias-ului pstrndu-se
toate celelalte constrngeri (panta segmentului i intersecia cu
axa x2). Rezultatul final este:
w1S1 = 10, w2S1 = 10 i bS1 = 10.
S2: n vederea determinrii parametrilor pentru cel de al doilea
neuron, de pe stratul ascuns, paii care trebuie urmai sunt
similari. Astfel, n final se obin urmtoarele valori:
w1S2 = -10, w2S2 = -10 i bS2 = 10.
O:
Prin cuplarea direct a ieirilor neuronilor din stratul
ascuns (sumarea direct a ieirilor) se obine o distribuie a
valorilor de ieire funcie de o anumit zon a spaiului
conform cu cea din Figura 11.21 valorile ncercuite din cele
trei zone. Deoarece se dorete obinerea unei valori unitare n
zona haurat i -1 n restul spaiului, dup trecerea ieirii
ultimului neuron prin neliniritate, trebuie s avem valori
pozitive n zona haurat i valori negative n restul spaiului.
Dar, aceste valori ce se vor obine trebuie s fie ct mai mari
posibile pentru saturarea neliniritii de ieire i obinerea unor
valori ct mai apropiate de -1 i 1 a ieirii reelei neuronale
artificiale. Din aceste motive se aleg pentru vectorii de pondere
valorile: w1o = 10 i w2o = 10. Utiliznd aceste valori vom
obine pentru zona haurat valoarea 20 i 0 n rest. Utiliznd
un bias egal cu bo = -10 rezult c n zona haurat se va obine
o valoare egal cu +10 iar n restul spaiului de trsturi reeaua
neuronal artificial va genera o valoare egal cu -10. Prin
trecerea acestor valori prin neliniaritatea de ieire se va obine
o partajare corect a setului de date conform cerinelor impuse
n tabelul din Figura 11.20(b).
Partiionrile spaiului de trsturi obinute la ieirea reelei
neuronale i la ieirile celor 2 neuroni de pe stratul ascuns prin
utilizarea ponderilor determinate anterior sunt prezentate n
Figura 11.22 n aceste figuri prin culoarea alb se
142

simbolizeaz o valoare egal cu unu, iar prin culoarea negru o


valoare egal cu -1.
(-1,1)

w1S1

(-1,-1)

w2S1

x2

w1S2

(-1,1)

(1,1)

(-1,-1)

(1,-1)

(1,1)

(-1,-1)

(1,-1)

Out

w2o

(-1,1)
(1,-1)

w1o

x1

w2S2

(1,1)

Figura 11.22. Topologia reelei neuronale utilizat n clasificare i


suprafeele de decizie realizate

O reprezentare grafic tridimensional a suprafeei de decizie


globale a sistemului este prezentat n Figura 11.23.

1.5

Out

1
1

0.5

0
-1
-1.5

x2

-0.5
-1

-0.5

x1

0.5

-1
1

1.5 -1.5

Figura 11.23. Suprafaa de decizie a reelei neurale artificiale

143

11.5.3. Antrenarea reelelor neuronale cu un strat ascuns

Att perceptronul ct i reeaua neuronal cu un singur strat ascuns sunt


antrenate cu algoritmi de adaptare a ponderilor care necesit existena unui
dorit pe care reeaua trebuie s-l realizeze n urma procesului de adaptare.
Algoritmul de antrenare a reelelor neuronale multistrat este cunoscut sub
numele de algoritmul de retropropagare a erorii (backpropagation) sau
regula delta generalizat. Acest algoritm se bazeaz pe ideea de propagare
invers a erorii ncepnd cu stratul de ieire i continund pn la stratul de
intrare. Algoritmul are dou etape:

De propagare nante a informaiei RNA primete vectorul de intrare i


propag aceast informaie, din strat n strat, pn se obine ieirea, i;
De propagare invers a erorii funcie de doritul RNA este obinut
eroare de clasificare, care se propag invers (de la stratul de ieire ctre
cel de intrare) ajustnd la fiecare propagare ponderile reelei.

Acest algoritm va fi prezentat n ntregime n cadrul urmtorului capitol


pentru cazul unei RNA cu dou straturi ascunse. Deoarece RNA cu dou
straturi ascunse este o generalizare a RNA cu un singur strat ascuns ecuaiile
necesare n cadrul acestui subcapitol pot fi deduse din prezentarea acestora
pentru o RNA cu dou straturi ascunse.
Ex.13. Ex.14. Ex.15.
11.5.4. Efectul numrului de neuroni de pe stratul ascuns

Una din problemele centrale ce trebuie analizat n cadrul reelelor


neuronale artificiale este dat de selectarea corecta a numrului de neuroni
din stratul ascuns. Exist dou cazuri extreme:

reeaua are prea muli neuroni poziionai pe stratul ascuns,


comparativ cu gradul de complexitate al problemei pe care
aceasta ncearc s o rezolve;
reeaua are prea puine elemente de procesare (neuroni)
existente pe stratul ascuns.

nelegerea fiecrui caz n parte este important, deoarece alegerea


corect a numrului de elemente de procesare este o sarcin dificil.
Dezavantajele utilizrii unui numr superior de neuroni fa de cel
optim sunt urmtoarele:

creterea timpului de antrenare necesar fiecrei epoci n


parte;
144

neuronii redundani au un efect negativ asupra performanelor


n setul de test5 al reelei neuronale deoarece reeaua neuronal
MLP-ul poate ncepe s memoreze setul de date de antrenare.
De aici va rezulta o capacitate de generalizare redus a reelei
neuronale. n procesul de adaptare se dorete ca structura
adaptiv (MLP-ul) s descopere i s nvee mecanismul
intern ce guverneaz setului de date i nu s memoreze
corespondena dintre intrrile reelei i doritul acesteia;
crearea unor regiuni artificiale suplimentare n spaiul de
intrare care nu conin eantioane aparinnd setului de
antrenare i care nu afecteaz cu nimic performanele obinute
n acest set de date, deoarece acolo nu sunt eantioane
specifice, dar care pot afecta n mod negativ performanele
care vor fi obinute n setul de test.

Ex.16.

n cealalt situaie aflat n studiu, cnd reeaua nu are ndeajuni neuroni


pe stratul ascuns, apar probleme de o alt natur. O situaie similar a fost
observat cnd am ncercat s rezolvm problema XOR-ului cu un perceptron
(zero neuroni pe stratul ascuns). n aceast situaie, sistemul nu tie dac
problema este rezolvabil sau nu i va ncerca s fac tot posibilul pentru a
minimiza eroarea, ncercnd s clasifice cea mai mare parte din eantioane n
mod corect.
Ex.17.

n general algoritmul de nvare ncearc s gseasc mai nti o plasare


corect a suprafeelor discriminant pentru a clasifica corect cea mai mare
parte din eantioane, urmnd apoi un proces de modificare lent a funciilor
discriminant pentru minimizarea funciei de cost. Dac sistemul nu va avea
ndeajuns de multe grade de libertate eroarea se va stabiliza la o valoare mare,
deoarece sistemul nu poate s rezolve problema.
Cte o dat, sistemul neuronal artificial poate oscila. Oscilaiile pot s
apar cnd:

rata de nvare este prea mare, sau


n situaia existenei unor schimbri brute a valorilor
vectorilor pondere ntre dou soluii suboptimale.

setul de date de test un set de date pe care reeaua neuronal nu l-a utilizat n procesul
antrenrii i pe care se testeaz performanele ei
145

11.6. Reeaua neuronal cu dou straturi ascunse


11.6.1. Funciile discriminant

O reea neuronal cu dou straturi ascunse are trei nivele de compoziie:


y = f( f( f( () ) ) )

(11.90)

Din nou dorim s gsim regiunile de decizie create de aceast reea


neuronal artificial cu dou straturi ascunse. O modalitate de abordare este
s gsim suprafeele de decizie create de reele neuronal cu un singur strat
ascuns iar apoi s compunem ieirile lor. Desigur c acesta reea neuronal cu
dou straturi ascunse este mai complex dar este foarte important s
nelegem capacitile de care dispunem atunci cnd lucrm cu o astfel de
structur neuronal.
Din subcapitolul precedent tim c o reea neuronal cu un singur strat
ascuns poate s creeze regiuni locale n spaiul de intrare. Prin folosirea
unui alt strat neuronal se vor combina aceste regiuni disjuncte din spaiul
de intrare. Aceast proprietate a unei reele neuronale cu dou straturi ascunse
este un rezultat foarte important, deoarece n teoria aproximrilor de funcii
s-au demonstrat teoreme care arat c un combinator liniar de regiuni ale
spaiului de intrare poate s aproximeze n mod rezonabil (cu o anumit
eroare) orice tip de funcie. n concluzie putem afirma c o reea neuronal
cu dou straturi ascunse este de asemenea un aproximator universal, deci
poate s realizeze orice tip de mapare intrare-ieire.
Aceste teoreme sunt numai nite teoreme care demonstreaz existena
reelei cu proprietatea menionat anterior, dar din pcate nu ne prezint nici
o modalitate de alegere a numrului de neuroni sau strasuri ascunse pentru a
rezolva o anumit problem. Cu toate acestea teorema anterioar este foarte
important pentru c ne furnizeaz certitudinea c o reea neuronal de tip
MLP cu dou straturi ascunse este un aproximator universal. Deci, cu
certitudine o reea neuronal (cu unul sau cu dou straturi ascunse) ne va
rezolva problema.
n principal trebuie s asociem numrul de neuroni din primul strat ascuns
cu numrul total de funcii discriminant n spaiul de intrare. n general avem
nevoie de maximum 2d (d dimensiunea spaiului de intrare) neuroni ascuni
n primul strat i un neuron n cel de al doilea strat pentru a forma o regiune
mrginit n spaiul de intrare.
Numrul de neuroni n cel de al doilea strat ascuns determin numrul de
astfel de regiuni mrginite n spaiul de intrare care sunt necesare pentru
aproximare.

146

Stratul de ieire combin aceste regiuni pentru a produce maparea intreieire dorit. Toat aceast prezentare relev faptul c o reea neuronal cu
dou straturi ascunse poate aproxima virtual orice mapare intrare-ieire.

(a)

(b)

Figura 11.24. (a) Un posibil exemplu de mapare intrare ieire, (b)


topologia reelei pentru a obine aceast mapare, MLP (2-13-4-1)
Ex.18.

Dac cumva avem informaii apriori despre distribuia datelor din spaiul
de intrare putem s alegem topologia optim a reelei chiar de la nceput. De
exemplu, dac tim c n
x2
spaiul de intrare datele sunt
repartizate
conform
5
Figura
distribuiei
din
4
11.24(a), atunci topologia
3
reelei va fi cea din aceiai
figur partea (b). Deci vom
2
avea o reea neuronal de tip
1
MLP (2-13-4-1).
-4

-3

-2

-1

0
-1
-2
-3
-4
-5

Figura 11.26. Distribuia elementelor n


spaiul de trsturi x

x1

Ex.19. Ex.20.
Problem:
Pentru o distribuie
a trei clase conform cu Figura
11.26 ( reprezint elementele,
vectorii de trsturi, aparinnd
primei clase, reprezint elemente
aparin celei de a doua clase, n
timp ce reprezint elementele
ultimei clase) se cere:
147

(a). Precizai tipul reelei neuronale i topologia (numrul de straturi ascunse i


numrul de neuroni de pe fiecare strat) minimal pe care dumneavoastr ai
alege-o pentru realizarea unei partiionri corecte a setului de date.
Justificai-v rspunsul (de exemplu: de ce atia neuroni pe stratul i; de ce
attea ieiri are reeaua; de ce ieirea neuronului n de pe stratul m se
conecteaz numai cu primii k neuroni de pe urmtorul strat; am folosit o
neliniaritate de tipul .... pentru c ...; neuronul j corespunde suprafeei de
decizie S1; etc.). Rspundei la aceast ntrebare innd cont i de cerina de
la subpunctul (b) al acestei problemei.
(b). Desenai poziia exact a suprafeelor de decizie astfel nct acestea s
maximizeze marginea de decizie a reelei.
(c). Indicai pentru fiecare suprafa de decizie vectorii suport asociai (acele
puncte care se gsesc la frontiera setului de date i fa de care se determin
marginea de decizie).
(d). Determinai pentru fiecare suprafa de decizie marginea de decizie.
(e). Determinai ponderile i bias-ul pentru fiecare neuron n parte ce aparine
acestei reele minimale ce genereaz suprafee de decizie ce maximizeaz
marginile de decizie i care sunt capabil s clasifice n mod corect toate
elementele distribuiilor din Figura 11.26.
(f). Implementai n NeuroSolutions soluia determinat analitic n cadrul
punctului precedent i verificai corectitudinea ei.
Rezolvare:
(a) Pentru rezolvarea acestei probleme teoretic exist mai multe soluii. Una
dintre aceste soluii este prezentat n Figura 11.27.
S2
x2
S2
S3
S3
5

S4

Z2

S4

3
2

S1

Z1

Z3

1
-4

-3

-2

-1

x1

n1 (S1)

n2(S2)

-1
-2

S1

-3

x1
x2

n3 (S3)

-4
-5

Figura 11.27. Distribuia elementelor n


spaiul de trsturi x

n4 (S4)

(a)
n5

Clasa

n6 (Z1)
n7 (Z2)

Clasa
n9

n8 (Z3)

Clasa

(b)

Figura 11.28. (a) Identificarea zonele


obinute, (b) Topologia reelei neuronale
148

Prin atribuirea corespunztoare a ponderilor i a bias-ului fiecrui neuron din


primul strat ascuns al reelei neuronale (neuronii n1, n2, n3 i n4 din Figura
11.28(b)) se obine o plasare a suprafeelor de decizie conform cu Figura 11.27.
Aceste suprafee de decizie determin o partiionare a spaiului conform cu cea
din Figura 11.28(a), obinndu-se astfel o delimitare a spaiului de intrare n
diferite zone de interes.
Topologia reelei neuronale care plecnd de la aceast partiionare a spaiului
este capabil s clasifice corect ntregul set de date este prezentat n Figura
11.28(b).
n aceast reea neuronal ieirea neuronului n5 va cupla suprafeele de
decizie S1 i S2 i va clasifica toate elementele care sunt poziionate n exteriorul
triunghiului determinat de aceste dou suprafee de decizie ca aparinnd clasei
.
Neuronul n6 determin zona Z1 prin cuplarea suprafeelor de decizie S1, S2,
S3 i S4. Deci, ieirea neuronului n6 va indica toate elementele clasei care sunt
poziionate n zona Z1.
Pentru clasificarea corect a vectorilor de trsturi simbolizai n planul de
intrare prin trebuie s cuplm zonele Z2 i Z3. Zona Z2 este realizat de ctre
neuronul n7 prin cuplarea n mod corespunztor a suprafeelor S1, S2, S3 n timp
ce zona Z3 determinat de cuplarea suprafeelor de decizie S1, S2 i S4 este
reflectat la ieirea neuronului n7 printr-un nivel +1. Cuplarea Z2 i Z3 se
realizeaz prin intermediul neuronului n9 care va diferenia vectorii trsturi
simbolizai prin de restul elementelor aparinnd celorlalte clase.
x2

S3

S2

5
4

Z4

Z2

-3

-2

Z5

S1

1
-4

S4

-1

Z1

Z3

x1

(b)

n1 (S1)

-1

n2 (S2)

-2
-3
-4

x1
x2

n7

Clasa

n5 (T1)
n8

Clasa

n3 (S3)
n4 (S4)

n6 (T2)

n9
Clasa

-5

(a)
Figura 11.29. (a) Poziionarea corect a suprafeelor de decizie conform cu
cerinele problemei, (b) zonele de interes definite i (c) arhitectura reelei
neuronale
149

(c)

Dei aceast reea neuronal este aparent una minimal, din punct de vedere
al implementrii ea este o reea neuronal atipic deoarece o ieire este obinut
din ultimul strat n timp ce celelalte dou ieiri sunt obinute din stratul ascuns
care astfel nu mai este ascuns fiind direct conectat cu exteriorul.
Ideea de baz a soluiei corecte este prezentat n Figura 11.29. Aceast
soluie a problemei definete dou triunghiuri (primul triunghi, T1, format din
zonele Z1, Z2 i Z5 iar cel de al doilea triunghi, T2, din zonele Z3, Z4 i Z5). Astfel
elementele sunt poziionate exclusiv n zonele Z1 i Z2 i aceast clas se obine
numai pentru acele elemente care sunt interioare triunghiului T1 i exterioare
triunghiului T2. n mod similar elementele sunt ntotdeauna interioare
triunghiului T2 i exterioare triunghiului T1. Ultima clasa dat de elementele
este interioar att lui T1 ct i lui T2.
Pentru poziionarea corect a suprafeelor de decizie S1, S2, S3 i S4 se vor
defini i determina n mod corespunztor parametrii neuronilor n1, n2, n3 i n4
asociai acestor suprafee. Spaiul intern definit de primul triunghi, T1, compus
din zonele Z1, Z2 i Z5 este delimitat automat de ieirea neuronului n5 n timp ce
zona definit de T2 este obinut la ieirea neuronului n6. Dac ambele intrri
sunt complet conectate la primul strat ascuns prin ponderile aferente ce vor fi
ulterior determinate, neuronii celui de al doilea strat ascuns (format din n5 i n6)
se conecteaz numai cu acei neuroni ce definesc acele suprafee de decizie care
sunt necesare pentru izolarea zonelor anterior menionate. Astfel neuronului n5
i sunt suficiente suprafeele S1 i S2 pentru izolarea zonelor Z1, Z2 i Z5 iar
neuronul n6 va utiliza doar suprafeele de decizie S3 i S4 pentru izolarea zonelor
Z3, Z4 i Z5. Pentru uurarea modalitii de decizie a stratului de ieire se vor
folosi neliniariti de tip semn pentru neuronii n5 i n6; definirea zonelor dorite
fcndu-se astfel prin valoarea +1 asociat cu regiunea decizional plasat n
interiorul suprafeei decizionale definit de T1 i T2. Poziionarea elementelor n
exteriorul zonelor de interes este dat de o valoare -1 ntoars de aceti doi
neuroni. Alegerea neliniaritii de tip semn este justificat de trecerea abrupt ce
se realizeaz de la o zon de decizie la alta ceea ce ne garanteaz corecta
clasificare a tuturor elementelor inclusiv a celor ce sunt foarte apropiate de
suprafaa de decizie.
Reeaua neuronal are 3 ieiri, fiecare ieire corespunde uneia din cele trei
clase. Oricare din aceste ieiri va ntoarce +1 pentru elementele asociate ei i -1
pentru restul elementelor. Deci pe stratul de ieire vor fi 3 neuroni. Stratul de
ieire este unul complet conectat la cei doi neuroni, ce definesc cele dou
triunghiuri, tocmai pentru c n procesul decizional al acestor neuroni sunt
necesare informaii legate de poziionarea elementului ce urmeaz s fie
clasificat fa de ambele zonele definite de neuronii n5 i n6. Dup cum s-a
prezentat anterior cunoaterea zonei de poziionare a elementului de clasificat
fa de o singur zon nu este ndeajuns (de exemplu elementele sunt
ntotdeauna interioare triunghiului T2 i exterioare triunghiului T1, deci avem
nevoie de informaia oferit de ambele ieiri ale neuronilor n5 i n6). Funciile de
activare a neuronilor din stratul de ieire (n7, n8 i n9) vor fi de tipul semn, n
acest mod elementele aparinnd uneia sau alteia dintre clase vor fi caracterizate
de o valoare +1 a ieirii corespondente n timp ce celelalte ieiri vor avea
valoarea -1.
Analiznd comparativ topologia reelei neuronale din Figura 11.29(c) cu
aceea a reelei neuronale artificiale din Figura 11.28(b) se observ c acestea au
150

acelai numr de neuroni n schimb ultima topologie corespunde conceptului de


reea neuronal cu dou straturi ascunse i, n plus, aceast topologie are un
numr de ponderi (18) inferior primei topologii prezentate (ce are 22 de ponderi)
putem spune astfel c aceast topologie prezentat n Figura 11.29 este cea
cutat.
Reeaua neuronal ce satisface cerinele problemei noastre este una cu dou
straturi ascunse fiind caracterizat de urmtoarea configuraie: 2:4:2:3 (intrri :
nr. neuroni pe primul strat ascuns : nr. neuroni pe cel de al doilea strat ascuns :
numr de ieiri).
(b). Pentru maximizarea marginii de decizie suprafaa de decizie trebuie s fie
optim adic s treac prin jumtatea distanei dintre eantioanele care sunt cele
mai apropiate de frontiera dintre cele dou clase. Aceste eantioane poart
numele de vectori
x2
S2
suport. n Figura
11.29(a) suprafeele
de decizie au fost
E1
deja trasate astfel
E13
E2
nct aceast regul
s fie respectat.
E
3
E4
E14
E6 E5 A

(c). Vectorii suport


sunt acele puncte
x1
E15
E8 E7 O
care se gsesc la
E10 E9
frontiera setului de
E18 E16
date i fa de care se
E12 E11
E17
determin marginea
de decizie astfel nct
S1
E19
s se maximizeze
S4
E23E22 E21 E20
marginea de decizie.
Raportndu-ne
E24
S3
la
Figura
11.30
E
27
E
26
E25
E28
pentru urmtoarele
Figura 11.30. Spaiul trsturilor, suprafeele de
suprafee de decizie
decizie i elementele aparinnd celor 3 clase
avem
urmtorii
vectori suport:
pentru suprafaa S1 avem vectorii E11, E12 i E19 pentru clasa , E20, E21, E22, E23 i
E24 pentru clasa i E17 pentru clasa ;
pentru suprafaa S2 avem vectorii E1 i E19 pentru clasa , E14 pentru clasa i E15
pentru clasa ;
pentru suprafaa S3 avem vectorii E19 pentru clasa , E13, E14, E20, E28 pentru clasa
i E15 pentru clasa ;
pentru suprafaa S4 avem vectorii E5 i E9 pentru clasa , E13, E24 pentru clasa i
E18 pentru clasa .
(d). n cazul poziionrii corecte a suprafeelor de decizie pentru maximizarea
marginii de decizie, condiie satisfcut n cadrul punctului (b) al problemei
noastre, marginea de decizie se poate determina foarte uor pentru o anumit
151

suprafa de decizie aleas drept distana de la oricare vector suport a respectivei


suprafee de decizie ctre aceasta.
De exemplu, marginea de decizie pentru suprafaa S4 se poate calcula din
relaia (dou moduri diferite de a exprima aria triunghiului OE5A):

d S 4 OA OE5 AE5

rezultnd n final
2
2
OE5 AE5
OE5 AE5
1

dS4
.
OA
5
OE52 AE52
n mod similar se calculeaz pentru S2 rezultnd aceeai valoare. Pentru
suprafeele S1 i S4 marginile de decizie se calculeaz foarte uor deoarece
acestea sunt paralele cu axele Ox1 i Ox2 i trec chiar prin mijlocul distanei dintre
vectorii suport. Rezultnd n final:

d S1 1 i d S 3 0.5 .
(e). Din punct de vedere matematic panta unei drepte de ecuaie w1 x1 + w2 x2
+ b = 0 este
w
m 1
w2
n timp ce intersecia cu axa x2 a segmentului este dat de relaia

x2

b
.
w2

n vederea determinrii ponderilor i bias-ului suprafeelor de decizie S1, S2,


S3, S4 ne vom folosi de aceste relaii. n plus vom ine cont i de faptul c n
interiorul triunghiurilor T1 i T2 vom avea valori +1 ntoarse de neuronii n5 i n6.
Funciile de activare a tuturor neuronilor acestei reele sunt de tip semn i vor fi
notate n continuare cu f.

S1: mS1 w1S1 0 , S1 x2 S 1 3 de aici rezult: w1S1 = 0, w2S1 =


w2 S 1
w2 S1
10, bS1 = 30. Funcia discriminant a acestui neuron este dat de relaia:
g S1 ( x1 , x2 ) 10 x2 30 . Pentru a testa corectitudinea valorilor asociate
celor dou regiuni vom lua un punct din oricare din cele dou regiuni i vom
trece prin neliniaritatea neuronului valoarea obinut de ctre funcia discriminat
particularizat n punctul respectiv. Dac acest valoare nu corespunde cerinelor
impuse vom schimba semnul uneia din ponderile w1, w2. Aceast schimbare de
semn determinnd automat rezolvarea problemei noastre. n cazul nostru pentru
simplitatea abordrii alegem drept punct de test punctul (0,0). Rezultnd:

f g S1 0,0 f 30 1
Valoare ntoars de acest neuron corespunznd cerinelor impuse trecem la
calcularea ponderilor pentru suprafeele de decizie rmase.
152

S2: mS 2 w1S 2 2 , S 2 x 2 S 2 5 de aici rezult: w1S2 = 10, w2S2


w2 S 2
w2 S 2
= 5, bS2 = -25.

f g S 2 0,0 f 25 1

g S 2 ( x1 , x2 ) 10 x1 5 x2 25 ,

observm c am obinut un rezultat incorect deoarece ne-am dori ca n interiorul


zonei delimitate de T1 s avem o valoare egal cu +1. Deci, schimbm semnul
ponderii w1S2 rezultnd: w1S2 = -10, w2S2 = -5, bS1 = 25. Testm corectitudinea
noii atribuiri:

g S 2 ( x1 , x2 ) 10 x1 5 x2 25 , f g S 2 0,0 f 25 1 .
b

S3: mS 3 w1S 3 , S 3 x1 S 3 2.5 de aici rezult: w2S3 = 0, w1S3


w1S 3
w2 S 3
= -10, bS3 = 25.

g S 3 ( x1 , x2 ) 10 x1 25 , f g S 3 0,0 f 25 1
b

S4: mS 4 w1S 4 2 , S 4 x 2 S 4 0 de aici rezult: w2S4 = 20, w1S4


w1S 4
w2 S 4
= -10, bS4 = 0.

g S 4 ( x1 , x2 ) 20 x1 10 x2 , f g S 4 1,0 f 20 1
Pentru cel de al doilea strat neuronal ascuns, format din neuronii n5 i n6,
modalitatea de calcul a ponderilor acestora este diferit. Aceti neuroni au un rol
de compunere a zonelor decizionale realizate de neuronii poziionai pe primul
strat ascuns. Conform raionamentului prezentat n cadrul punctului (a) al
problemei dorim ca la ieirile neuronii n5 i n6 s avem valori de +1 pentru zonele
interioare triunghiurilor T1 (Z1, Z2 i Z5) i T2 (Z3, Z4 i Z5) i -1 n exteriorul lor.
innd cont i de faptul c acest strat neuronal are funcii de activare de tipul
semn, vezi relaia (11.43), rezult c n zonele interioare celor dou triunghiuri
n urma multiplicrii ieirilor neuronilor n1, n2, n3, n4 cu ponderile sinaptice ale
neuronilor n5 i n6 i a adunrii bias-urilor proprii rezultatul trebuie s fie mai
mare sau egal cu zero iar n exteriorul acestor zone negativ.
Dac ponderile neuronului n5 sunt ambele egale cu unitatea iar bias-ul este
zero la ieirea acestuia, dar naintea funciei de activare, diferitele zone ale
spaiului de trsturi de intrare primesc valorile prezentate n Figura 11.31(a)
ncadrate ntr-un chenar. Dac aceste valori sunt trecute prin funcia neliniar se
observ c zonele ce iau valori egale cu +2 i 0 vor fi asociate aceleiai clase
caracterizat de o valoare egal cu +1 a neuronului n5. Aceast asociere este una
greit. Dac n schimb lum o valoare egal cu -1 a bias-ului neuronului n5
valorile obinute sunt cele subliniate din Figura 11.31(a). De aceast dat prin
trecerea acestor valori prin funcia neliniar se observ o partiionare corect a
spaiului de intrare.

153

-2
S3
S2

-3

S4

-1
+2

+1

0
0

-1

0
-1

+1

+1
-1

-1

+1

S1
-3

-1

+2

-2

-1
(a)

+1

+1 -1

(b)

Figura 11.31. Valorile asociate cu diferitele zone decizionale de ctre


neuronii: (a) n5 i (b) n6
anterioare funciei de activare
n mod evident c obinerea acestui rezultat (aceast partiionare a spaiului
de intrare dat de neuronul n5) nu este unic. De exemplu, atunci cnd am
determinat ponderile pentru neuronul ce genereaz suprafaa S2 am schimbat
semnul ponderii w1S2 pentru a obine rezultatul dorit. Dar am fi putut ajunge la
un rezultat final identic cu cel prezentat mai sus dac nu am fi schimbat semnul
ponderii w1S2 n schimb ponderea w2 a neuronului n5 ar fi fost egal cu -1.
Pentru neuronul n6 analiza este similar cu cea pe care am prezentat-o la
neuronul n5. Ponderile sinaptice ale acestui neuron sunt egale cu +1 iar bias-ul
este -1, vezi partiionarea prezentat n Figura 11.31(b).
Pentru calcularea ponderilor neuronilor de pe stratul de ieire va trebui s
inem cont de rezultatele obinute la ieirile neuronilor n5 i n6 ce genereaz
diferitele zone spaiale decizionale. Aceste rezultate corelate cu dispunerea
elementelor ce aparin celor trei clase sunt prezentate n Tabelul 1.
Tabelul 1. Asocierile neuronilor n5 i n6
Ieire n5
-1
-1
+1
+1

Ieire n6
-1
+1
-1
+1

Zon asociat
exterioar
clas
clas
clas

De exemplu, pentru ca reeaua neuronal s ntoarc la ieirea neuronului n9


o valoare egal cu +1 pentru elementele clasei trebuie ca n urma gruprii
favorabile a ieirilor neuronilor n5 i n6, prin intermediul ponderilor sinaptice i
a bias-ului acestui neuron, s obinem valori mai mari sau egale cu zero n zonele
Z2 i Z1 i valori mai mici ca zero n restul zonelor. Printr-o simpl multiplicare
a ieirii neuronului n5 cu valoarea +1, prin intermediul ponderii sinaptice w1 a
neuronului n5, i prin multiplicare cu -1 a ieirii neuronului n6 vom obine o
asignare valoric a diferitelor zone spaiale la ieirea neuronului, dar anterioar
154

funciei de activare, conform cu cea


din
Figura 11.32. Rezultatele
0
prezentate n Figura 11.32 sunt
obinute pentru o valoare egal cu zero
-2
a bias-ului neuronului n9. Trecnd
0
aceste valori prin funcia neliniar de
+2
ieire observm c obinem o cuplare
0
incorect a zonelor decizionale. Toate
S1
+2
zonele decizionale ce au asociate
valori egale cu 0 i +2 vor fi asignate
0
-2
0
0
de n9 clasei printr-o valoare +1 de
ieire.
Pentru corectarea acestei
Figura 11.32. Asignarea valoric a
situaii vom utiliza o valoare egal cu diferitelor zone spaiale decizionale
1 pentru bias-ul neuronului n9. Aceast
valoare va determina o cuplare corect a zonelor decizionale. Deci rezultatele
finale pentru acest neuron sunt w1n9 = +1, w2n9 = -1 i bn9 = -1.
n mod similar, utiliznd aceeai pai, vor fi obinute i valorile ponderilor
pentru neuronii n7 i n8. Ponderile neuronului n7 sunt w1n7 = -1, w2n7 = +1 i bn7
= -1. n timp ce ponderile neuronului n8 sunt w1n7 = +1, w2n7 = +1 i bn7 = -1.
S2

S3

S4

(f). n directorul de probleme asociat acestui capitol se gsete n subdirectorul


Problem clasificare 3 clase implementarea n NeuroSolution a soluiei
acestei probleme. Poziionai instrumentul de vizualizare a suprafeelor de
decizie la ieirile diferiilor neuroni poziionai pe straturile neuronale ale reelei
i corelai zonele decizionale obinute cu ponderile neuronului respectiv.

11.6.2. MLP-ul drept clasificator universal

S ne ntoarcem pentru un moment napoi la metodele statistice de


recunoatere de paternuri i s ncercm s rspundem ntrebrii: Poate o reea
de tipul MLP s fie un clasificator optimal?
Un clasificator optimal trebuie s dein potenialul de a crea funcii
discriminant arbitrare capabile s separe setul de date n clusteri conform cu
probabilitile posterioare (probabilitatea unui eveniment dup determinarea
unor anumite cantiti) a fiecrui cluster. Deoarece noi tim c o reea de tip
MLP este un aproximator universal, bnuim c reeaua va satisface i aceast
condiie. Un clasificator optimal utiliznd teoria Bayesian trebuie s produc
la ieiri probabilitile posterioare, P(Ci | a0), a claselor Ci dat de eantionul
de intrare a0 vectrorul de trsturi.
Ar putea reeaua MLP produce ieiri care s poat fi interpretate n
acest mod? Rspunsul la aceast ntrebare este da, dac reeaua este antrenat
respectnd anumite condiii. Mai mult putem arta c MLP produce la ieiri
estimri directe ale probabilitilor posterioare. Trebuie s ne amintim c la
metodele de recunoatere de paternuri statistice aveam nevoie de regula lui
155

Bayes pentru a evalua probabilitile posterioare. Cu o reea de tipul MLP noi


obinem estimatele funciilor de densitate de probabilitate direct la ieirile
reelei dac aceasta este antrenat ntr-un mod specific i topologia reelei
neuronale este de un anumit tip.
n continuare vom presupune c:

reeaua va folosi drept funcie de cost eroarea medie ptratic,


reeaua are un numr suficient de elemente de procesare
pentru a produce o mapare corect intrare-ieire,
setul de date este suficient i acoper tot spaiul de intrare, i
algoritmul de adaptare este capabil s conduc sistemul ctre
minimul global.

Cerina final este ca valoarea ieirii s fie ntre 0 i 1 iar suma tuturor
ieirilor s fie egal cu 1 pentru orice vector de trsturi a0 de intrare astfel
ca fiecare ieire s poat fi interpretat ca o probabilitate de apartenen a
intrrii la clasa reprezentat de neuronul de ieire respectiv. Pentru a garanta
suma ieirilor 1 nu mai putem utiliza funcia logistic la ieirea fiecrui
neuron. Trebuie s utilizm un nou tip de neliniaritate (de tip softmax) a crui
funcie caracterisitic este:

yk

expnet k
expnet j

(11.91)

Funcia de activare softmax este similar cu cele de tip logistic i tangent


hiperbolic, diferena const n normalizarea ieirii la suma total a ieirilor
stratului ascuns.
Pentru situaia a dou clase i o singur ieire a reelei neliniaritatea poate
fi de tipul logistic. n aceast situaie probabilitatea primei clase este dat
direct la ieirea reelei n timp ce probabilitatea celei de a doua clase va fi 1
minus ieirea actual a reelei.
Dup cum s-a observat nu am specificat nicieri n paragraful anterior c
reeaua trebuie s fie de tipul MLP. Reeaua de tip MLP este numai un
exemplu a unei posibile implementri viabile i eficiente a unui clasificator
statistic, din simplul motiv c este un clasificator universal. Cel mai important
aspect al problemei este minimizarea erorii ptratice medii. Dac scriem
eroarea medie ptratic pentru situaia n care avem un numr mare de
eantioane de intrare n form integral:

1
yk x, w tk 2 ptk , x dtk dx

2 k

(11.92)

156

n relaia (11.92) rspunsul dorit este notat cu t, k este indicele sumei pe


ieirile reelei n timp ce suma pe setul de eantioane a fost transformat n
integral - care trebuie s fie scris ca o probabilitate reunit a rspunsului
dorit i a intrrii.
Termenul ptratic de sub integral poate fi scris ca:

y k x , w t k 2 y k x , w E t k x E t k x t k 2

(11.93)

E tk x tk p tk x dtk

(11.94)

unde:

Relaia (11.93) poate fi dezvoltat:

yk x, w tk 2 yk x, w Etk x2 2yk x, w Etk x Etk x tk


Etk x tk

(11.95)

Dac substituim relaia (11.95) n (11.92) si facem simplificrile obinem:


J

1
yk x, w Etk x2 px dx 1 Etk2 x Etk x2 px dx

2 k
2 k

(11.96)

Cum cel de al doilea terme al relaiei (11.96) este independent de reea,


deci nu i va schimba valoare n timpul procesului de adaptare, rezult c
sistemul va ncerca s minimizeze doar primul termen i minimul este obinut
atunci cnd vectorul de ponderi devine astfel nct:

y k x, w* Et k x
sau alternativ:

y k x, w* t i ,k pt i ,k x
i

(11.97)

(11.98)

Pentru o problem de clasificare n care rspunsul dorit este 1 i 0 i


presupunem c avem C clase este uor de artat c:

y k x pck x

(11.99)

Ecuaia (11.99) ne demonstreaz c ieirea unei reele MLP ne furnizeaz


probabilitatea posterioar a unei clase dat de un vector de trsturi de la
intrarea reelei. Ne putem aminti din capitolul de clasificare statistic a datelor
c probabilitatea posterioar minimizeaz eroarea de clasificare i ne
157

furnizeaz eroarea cea mai mic posibil la care ne putem atepta de la un


clasificator optimal.
Ex.21.

158

S-ar putea să vă placă și