Sunteți pe pagina 1din 24

Capitolul 2

Caracteristici fundamentale
ale reelelor neurale artificiale

2.1 Modele pentru neuronul elementar


2.2 Arhitecturi specifice
2.3 Algoritmi de nvare

22

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

Reelele neurale artificiale sunt caracterizate de 3 elemente: modelul adoptat pentru


elementul de procesare individual (neuronul), structura particular de interconexiuni
(arhitectura) i mecanismul de ajustare a legturilor dintre neuroni (algoritmul de
nvare). n cele ce urmeaz vom trece n revist pe rnd aceste elemente, prezentnd
exemple semnificative i introducnd terminologia corespunztoare.

2.1

Modele pentru neuronul elementar

n prezentarea modelelor pentru neuronul elementar vom utiliza criteriile de


clasificare folosite n mod uzual n teoria sistemelor, punct de vedere care va sugera
metodele de analiz i, n unele cazuri, de sintez ale reelelor studiate. n Fig. 2.1 se
prezint modalitatea uzual de reprezentare grafic a neuronului individual, detaliat
pentru varianta tipic a acestuia corespunztoare aa-numitului model aditiv.
A.

Dup domeniul de definiie al semnalelor prelucrate:


a) modele analogice; b) modele discrete

Una dintre observaiile fcute n primul capitol sugera ideea potrivit creia creierul
este un "calculator" analogic. Fr a avea neaprat n prim plan criteriul plauzibilitii
biologice, dezbaterea referitoare la alegerea optim ntre abordarea analogic sau
discret este un subiect de strict actualitate. Argumentul cel mai puternic n favoarea
primei alternative l constituie viteza superioar recunoscut a calculului analogic, la
care se adaug lipsa necesitii sincronizrii (obligatorie n cazul reelelor digitale cu
funcionare sincron i care este, n general, dificil de asigurat n reele de dimensiuni
mari).

Fig. 2.1 : Modalitatea de reprezentare a neuronului elementar (model aditiv)

2.1 Modele pentru neuronul elementar

23

Avantajele abordrii discrete rezid n principal n precizia calculelor, important mai


ales n cazurile n care parametrii reelei sunt supui unor restricii severe, de exemplu
referitoare la condiii de simetrie. Posibilitatea stocrii pe durate mari de timp n form
nealterat a unor valori numerice utile reprezint de asemenea un avantaj. Un aspect
fundamental legat de implementarea reelelor digitale l constituie determinarea
rezoluiei necesare (a numrului de bii pe care se reprezint valorile numerice) ntr-o
aplicaie dat.
O distincie suplimentar se poate face n raport cu gradul de cuantizare a semnalelor
prelucrate. Se folosesc att semnale necuantizate ct i semnale cuantizate, de obicei
binare1. Este important de subliniat c modelul discret nu presupune neaprat
implementare digital, ci poate fi folosit i varianta care utilizeaz mrimi discrete
necuantizate, folosind circuite cu capaciti comutate.
B.

Dup natura datelor prelucrate:


a) modele reale; b) modele complexe

n marea majoritate a cazurilor mrimile prelucrate sunt reale, dar n ultimul timp se
utilizeaz i reele care lucreaz cu variabile complexe sau, mai general,
hipercomplexe2. Aceast alegere este justificat cu precdere n aplicaii n care datele
de intrare au o natur complex intrinsec (de exemplu, semnale radar sau unele
semnale folosite n transmisiuni de date), precum i de numrul mai redus de
parametri necesari fa de varianta real. Algoritmii de nvare sunt, de regul,
extensii naturale ale variantelor formulate pentru semnale reale, ns atenie special
trebuie acordat n acest caz alegerii funciei de activare, n particular caracterului
analitic al acesteia.

Exist exemple de reele neurale care prelucreaz semnale avnd mai multe nivele
de cuantizare, care pot proveni din utilizarea unor funcii de activare multinivel [92]
sau pot avea intrinsec un asemenea caracter, ca n cazul utilizrii unor coduri
multinivel (de exemplu, ternare) n transmisiuni de date.
2

Numerele hipercomplexe generalizeaz noiunea uzual de numr complex. Un


exemplu l constituie quaternionii [71], care se pot scrie sub forma: z =
z0+z1i+z2j+z3k, unde i, j, k reprezint cei trei vectori spaiali ortogonali, iar z0-z3 sunt
parametri reali.

24

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

Fig. 2.2: Funcii de activare pentru neuronul elementar:


a) comparator bipolar; b) comparator unipolar; c) comparator bipolar cu prag;
d) liniar cu saturaie; e) sigmoidal bipolar; f) sigmoidal unipolar
C.

Dup tipul funciei de activare:


a) modele liniare; b) modele neliniare

Funcia de activare reprezint funcia de transfer intrare-ieire a neuronului elementar.


De departe, majoritatea reelelor neurale artificiale ntlnite n literatur utilizeaz
modele neliniare. Excepia notabil o constituie reeaua de tip Adaline (prescurtare de
la ADAptive LInear NEuron) i varianta sa multidimensional Madaline, propuse de
ctre profesorul american Bernard Widrow de la Universitatea Stanford [177].
Avantajul acestora l constituie gama larg de algoritmi de nvare performani
existeni, dar aria de aplicabilitate a reelelor neurale care utilizeaz modele liniare
este relativ restrns (egalizarea liniar a canalelor de transmisiuni de date,
clasificatoare liniare). n Fig. 2.2 se prezint cteva dintre funciile de activare des
utilizate. Se pot face o serie de observaii interesante:
modelul de tip comparator (Fig. 2.2 a,b) poate fi ntlnit att n reele analogice ct i
n cele discrete
modelul de tip comparator cu prag (Fig. 2.2 c) poate fi nlocuit cu un model fr
prag dac valoarea de prag se trateaz ca o intrare distinct de valoare constant
egal cu (-1) conectat printr-o legtur (pondere) care se va modifica n timp sub
aciunea algoritmului de nvare

2.1 Modele pentru neuronul elementar

25

Fig. 2.3: Funcii de activare nemonotone


o justificare teoretic interesant a performanelor superioare pe care le asigur
funciile de tip sigmoidal (Fig. 2.2 e,f) se prezint n [70].
Dei majoritatea funciilor de activare sunt monotone, exist i exemple de funcii
nemonotone care conduc la performane foarte bune (Fig. 2.3).
Observaie: Caracterul monoton (cresctor) al funciei de activare constituie o
cerin indispensabil n formularea unor teoreme de convergen pentru o
clas larg de reele neurale recurente [47], [83].
D.

Dup prezena memoriei:


a) reele cu memorie; b) reele fr memorie

Memoria poate apare ntr-o reea neural pe 2 ci: datorit modelului adoptat pentru
neuronii elementari i, respectiv, datorit modelului adoptat pentru interconexiunile
dintre acetia. Primul caz este pus n eviden prin modalitatea de descriere a
dinamicii individuale prin ecuaii difereniale, respectiv, cu diferene sau chiar prin
ecuaii mixte, de tip diferenial cu diferene. Al doilea caz este ilustrat de aa-numitele
reele (discrete) cu sinapse dinamice, la care legturile dintre neuroni nu sunt
exprimate prin simple valori scalare, ci sunt reprezentate sub forma unor funcii de
transfer caracteristice filtrelor discrete cu rspuns finit sau infinit la impuls. O situaie
intermediar o constituie folosirea filtrelor gamma [150], care "mprumut" din
avantajele ambelor tipuri. Un caz special l constituie reelele cu memorie rezistiv,
obinute prin considerarea unei funcii de activare cu histerezis [95].
Reelele fr memorie sunt reele la care propagarea semnalelor se face numai dinspre
intrare spre ieire (feedforward), iar modelele adoptate att pentru neuronii elementari
ct i pentru ponderi sunt strict algebrice. Aa cum vom vedea n capitolele urmtoare,

26

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

pentru astfel de reele exist algoritmi de antrenare foarte puternici, de exemplu cei
din categoria backpropagation (cu propagare invers a erorii). Este important s
subliniem c exist exemple de reele de tip feedforward cu reacie local, utilizate
mai ales n aplicaii de prelucrare de semnale vocale. Unii autori identific o
aa-numit memorie pe termen scurt (short-time memory), reprezentat de valorile
variabilelor de stare ale sistemului i o memorie pe termen lung (long time memory),
dat de valorile interconexiunilor.
Din punctul de vedere al implementrii, reelele recurente ridic probleme speciale
legate de necesitatea stocrii unui volum mare de informaii pe perioade nsemnate de
timp i de elaborarea unor algoritmi de nvare suficient de rapizi pentru aplicaii n
timp real.
E.

Dup dimensiunea spaiului strilor pentru neuronul individual:


a) modele de ordinul I; b) modele de ordin superior

n cazul reelelor feedforward, modelele considerate pentru neuronul elementar sunt


de obicei de ordinul I i se ncadreaz n aa-numitul tip aditiv, potrivit cruia acesta
efectueaz o prelucrare n general neliniar asupra sumei ponderate a semnalelor
aplicate la intrare (mrime care definete activarea neuronului):

y(x) = f
w
x
i
i

i= 1

(2. 1)

Au fost propuse i modele de ordin superior, capabile s confere reelelor formate din
astfel de neuroni capacitatea de a surprinde corelaii mai complexe ale datelor
prelucrate, n particular posibilitatea de a asigura invariana rspunsului reelei la
semnale de intrare obinute prin transformri elementare (translaie, rotaie) ale bazei
de date originale. Exemplele cele mai cunoscute din acest categorie sunt modelul
sigma-pi [157] i cel propus de ctre Giles i Maxwell, bazat pe relaia [66]:

y(x) = f wi x i +
i
i

wij x i x j + ...

(2. 2)

n ceea ce privete reelele neurale recurente, analogice sau discrete, acestea sunt
descrise de una din ecuaiile:

2.1 Modele pentru neuronul elementar

27

X(t) = F W ( X(t), u, X(0))

(2. 3)

X[k + 1] = F W ( X[k], u, X[0]


unde matricea de interconexiuni W este determinat de aplicaia concret, vectorul X
reunete variabilele de stare ale sistemului, u semnific semnalul de intrare, iar X(0),
X[0] desemneaz condiiile iniiale. n cele mai multe modele prezentate n literatur
neuronul individual este descris de o ecuaie diferenial sau cu diferene de ordinul I,
exemplul tipic fiind oferit de reeaua Hopfield [83]:
N

xi = - xi + wij f( x j )

(2. 4)

j=1

N
xi [n+1] = f wij x j [n]

j=1
unde N este numrul total de neuroni din sistem.
Recent au fost propuse i modele de ordin superior pentru neuronii individuali, care
utilizeaz n general oscilatoare pe post de elemente de procesare elementare. Un
exemplu n acest sens l reprezint modelul de ordinul II introdus n [75]:

=
+
f
+
y
xi
xi
wij x j K i i au i

j=1

y i = - y i + f (K i x i )

(2. 5)

unde f(x) = (2/)tan-1 (x/a), iar a, Ki sunt constante reale. Mai mult, n [2] i [5] se
introduc modele de ordinul III, care prezint particularitatea de a prezenta evoluie
haotic chiar la nivelul unui neuron individual, cu efect favorabil n unele aplicaii.
Dei sunt mai bine motivate din punct de vedere biologic, modelele de ordin superior
sunt mai dificil de analizat i sintetizat la nivel de sistem, iar n unele aplicaii
rezultatele nu sunt mult mai bune fa de varianta de ordinul I.

28

2.2

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

Arhitecturi specifice

Exist numeroase modaliti de interconectare a neuronilor elementari, care conduc la


o evoluie specific a reelei i care se utilizeaz n aplicaii dintre cele mai diverse.
Pot fi identificate 2 clase distincte de arhitecturi:
cu propagare a informaiei numai dinspre intrare spre ieire (reele de tip
feedforward). O particularitate constructiv a acestora o constituie posibilitatea de a
identifica seturi de neuroni elementari grupai n aa-numite "straturi", care ofer
similitudini de conexiune. Ca terminologie, identificm un strat de intrare, un strat de
ieire, iar toate celelalte sunt denumite straturi ascunse (hidden layers). Indexarea
straturilor nu este tratat unitar n literatur (unii autori includ n numerotare i stratul
de intrare, alii nu), ns de regul este mai indicat s numrm straturile de ponderi
(interconexiuni). O variant util n multe aplicaii const n separarea neuronilor din
straturile ascunse n module distincte i restricionarea structurii de interconexiuni.
reele recurente (cu reacie). Au fost introduse recent i arhitecturi "mixte", al cror
aspect global este feedforward, dar care prezint reacie local. Este interesant de
subliniat c semnalul de reacie poate proveni de la stratul de ieire, respectiv de la
unul sau mai multe straturi ascunse.
Modalitatea de interconectare este divers, mergnd de la interconectarea neuronilor
dintr-un strat numai spre stratul urmtor (n reelele de tip feedforward multistrat)
pn la reele complet interconectate (recurente). ntre aceste 2 extreme sunt cuprinse
o multitudine de soluii intermediare, dintre care enumerm reele feedforward
generalizate, care permit i conexiuni ntre neuroni aflai n straturi nenvecinate,
reele feedforward la care apar legturi de reacie ntre neuronii de pe acelai strat
(reele cu inhibiie lateral) i reele la care legturile de reacie sunt prezente numai
ntre neuronii elementari strict nvecinai (reele neurale celulare).
n Fig. 2.4 se indic arhitecturile cel mai des ntlnite, iar n Fig. 2.5 o serie de
exemple mai exotice.
O clas special de circuite o constituie cele local recurente, la care reacia este
prezent la nivelul modelului considerat pentru neuronii elementari, care sunt
interconectai apoi n reele feedforward obinuite. Prezentm n Fig. 2.6 schemele de
principiu ale celor mai des utilizate.
n general, neuronii elementari sunt dispui ntr-un ir unidimensional n cadrul unui
strat. Unele arhitecturi, de exemplu reelele celulare [41] i cele cu autoorganizare de
tip Kohonen [103], pot avea straturi bidimensionale.
Din considerente legate de volumul de calcul necesar, dar i ca urmare a existenei
unor rezultate teoretice riguroase, rareori se utilizeaz n practic reele neurale cu mai
mult de 3 straturi. Excepii notabile sunt reeaua de tip counterpropagation [79],
precum i unele variante de reele autoasociative [49].

29

2.2 Arhitecturi specifice

Fig. 2.4: Exemple de arhitecturi de reele neurale artificiale:

a)

b)

Fig. 2.5: a) Arhitectur de tip inel; b) reea neural celular (CNN)

30

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

O problem fundamental o constituie modalitatea de a alege arhitectura adecvat


pentru o aplicaie dat. Lipsa unor teoreme constructive care s precizeze tipul reelei
i numrul de neuroni elementari mpreun cu modalitatea de interconectare dintre
acetia n vederea rezolvrii unei anumite sarcini constituie n continuare una dintre
principalele limitri ale utilizrii reelelor neurale artificiale i totodat cmpul unor
intense cercetri. Menionm totui c exist aplicaii pentru care au fost formulate
condiii minimale referitoare la arhitectur. Mai mult, n literatur se prezint
modaliti de construcie sistematic urmnd un proces iterativ, grupate n 2 categorii:
tehnici de tip pruning, n care se pleac de la sisteme de dimensiuni suficient de
mari3 i se elimin pe rnd neuronii elementari i legturile care se dovedesc
neimportante (cele care nu se modific semnificativ n procesul de nvare). Decizia
de eliminare este de regul bazat pe un calcul de senzitivitate al funciei de eroare n
raport cu diversele ponderi ale sistemului. Un exemplu binecunoscut l reprezint
metoda Optimal Brain Damage [109].
tehnici de tip learn and grow, n care se pleac de la reele de dimensiuni reduse i se
adaug neuroni i conexiuni pn cnd performanele sistemului sunt suficient de
bune. Ca exemple putem cita algoritmul cascade-correlation [57] i metoda denumit
projection pursuit [61].

Fig. 2.6: Arhitecturi local recurente


3

n realitate, este greu de apreciat ce nseamn "suficient de mari".

2.3 Algoritmi de nvare

2.3

31

Algoritmi de nvare

Unul dintre aspectele care difereniaz reelele neurale fa de alte sisteme de


prelucrare a informaiei l constituie capacitatea acestora de a nva n urma
interaciunii cu mediul nconjurtor i, ca urmare, de a-i mbunti n timp
performanele (conform unui criteriu precizat). Dei nu exist o definiie general
acceptat a procesului de nvare, prezentm mai jos pe cea din [76]:
nvarea este un proces prin care parametrii unei reele neurale se
adapteaz n urma interaciunii continue cu mediul de lucru. Tipul
mecanismului de nvare este determinat de modalitatea concret prin care
se produce ajustarea valorilor parametrilor sistemului.

Un aspect fundamental l constituie modul de reprezentare intern a informaiilor care


s permit interpretarea, predicia i rspunsul corect la un stimul provenit din mediul
nconjurtor. O reprezentare corect i va permite sistemului, n particular reelei
neurale, s construiasc un model al procesului analizat n stare s se comporte
satisfctor n condiiile n care la intrare i se vor aplica stimuli care nu au fost utilizai
n procesul prealabil de nvare.
Informaiile utilizate n etapa de nvare (i deci de sintez a reelei) sunt de 2 tipuri:
informaii disponibile a priori referitoare la particularitile i, eventual, restriciile
crora le este supus aplicaia considerat. Astfel de considerente conduc, n general,
la sisteme specializate de dimensiuni reduse, mai uor de antrenat i mai ieftine.
informaii sub forma unor perechi intrare-ieire care surprind o relaie de tip cauzefect. Setul de date disponibil se mparte n dou pri, una fiind folosit n procesul
de modificare a ponderilor, deci de nvare propriu-zis, iar cealalt pentru a testa
performanele sistemului rezultat, oferind o imagine a aa-numitei capaciti de
generalizare a reelei.
Procesul de reprezentare intern respect cteva reguli de baz, care sunt enumerate n
continuare [8]:
Regula 1: Date de intrare similare trebuie s capete reprezentri interne asemntoare.
Exist mai multe moduri de a msura "asemnarea" dintre 2 intrri distincte. Cea mai
des folosit este cea bazat pe distana Euclidian dintre intrri (vzute ca vectori reali
multidimensionali). Uneori se utilizeaz produsul scalar sau funcia de intercorelaie
dintre cele 2 mrimi.

32

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

Regula 2: Intrri aparinnd unor categorii distincte trebuie s aib reprezentri


interne ct mai diferite.
Regula 3: n reprezentarea intern a unei caracteristici importante a datelor de intrare
trebuie s fie implicai un numr mare de neuroni elementari.
Aceast regul asigur un grad mare de ncredere n luarea unei decizii i toleran
sporit n cazul funcionrii incorecte a unora dintre neuronii implicai n reprezentare.
Regula 4: Orice informaie disponibil a priori, precum i eventuale invariane
trebuie folosite n etapa de configurare (stabilirea arhitecturii i a modului de
interconectare) a reelei.
Aceast indicaie favorizeaz funcionarea corect a reelei deoarece aceasta nu
trebuie s mai nvee particularitile specifice aplicaiei considerate. Sistemele
rezultate sunt n general specializate, avnd dimensiuni reduse, sunt mai uor de
implementat i mai ieftine. Modalitile de reprezentare a invarianelor n raport cu
diverse transformri elementare n reele neurale se prezint n [16].

2.3.1 Criterii de clasificare a algoritmilor de nvare


Exist mai multe criterii n funcie de care se pot clasifica algoritmii de nvare, dintre
care amintim:
A.

n funcie de disponibilitatea rspunsului dorit la ieirea reelei neurale:


a) nvare supravegheat; b) nvare nesupravegheat; c) nvare folosind
un critic

nvarea supravegheat (supervised learning) presupune existena n orice


moment a unei valori dorite (target) a fiecrui neuron din stratul de ieire al reelei.
Sistemului i se furnizeaz seturi de perechi intrare-ieire dorit cu ajutorul crora se
calculeaz mrimi de eroare n funcie de diferena dintre valoarea real a ieirii i cea
dorit, pe baza crora se ajusteaz valorile parametrilor reelei (interconexiuni i,
eventual, valori de prag ale funciilor de activare). Exemple tipice: a) pentru reele
feedforward: algoritmul LMS (Least Mean Square) [176], clasa de algoritmi backpropagation (cu propagare invers a erorii) [77], cuantizarea vectorial cu nvare

33

2.3 Algoritmi de nvare

(LVQ) [103]; b) pentru reele recurente: backpropagation-through-time [174], realtime recurrent learning [179].
n nvarea nesupravegheat (unsupervised learning) reeaua extrage singur
anumite caracteristici importante ale datelor de intrare formnd reprezentri interne
distincte ale acestora. Reeaua nu beneficiaz de seturi de ieiri dorite, n schimb se
utilizeaz un gen de "competiie" ntre neuronii elementari care are ca efect
modificarea conexiunilor aferente numai neuronului care "ctig" ntrecerea, restul
legturilor rmnnd neafectate. Exemple din aceast categorie sunt: a) pentru reele
feedforward: counterpropagation [79]; b) pentru reele recurente: algoritmul propus
de Kohonen pentru hrile cu autoorganizare (SOM) [103], algoritmul Hebb [78],
Teoria Rezonanei Adaptive (ART) elaborate de Grossberg [70]. n unele modele
apare un parametru denumit intuitiv "contiin" care intr n funciune atunci cnd
unul dintre neuroni ctig prea des competiia.
nvarea folosind un "critic" (reinforcement learning) este denumit uneori i cu
recompens/pedeaps (reward/punishment). n aceast situaie, reeaua nu beneficiaz
de un semnal dorit, ca n cazul nvrii supravegheate, ci de un semnal care ofer o
informaie calitativ ilustrnd ct de bine funcioneaz sistemul (informaia este
binar, de tipul rspunsul este bun/greit, ns nu se indic i ct de bun/greit).
Algoritmii aparinnd acestei categorii sunt inspirai ntr-o mai mare msur de
observaii experimentale fcute pe animale i, n esen, funcioneaz dup urmtorul
principiu [76]: dac urmarea unei anumite aciuni ntreprinse de un sistem capabil s
nvee are un efect favorabil, tendina de a produce aciunea respectiv este ncurajat,
n caz contrar este inhibat.
n general algoritmii de nvare respect urmtoarea regul [76]: vectorul
multidimensional al ponderilor (interconexiunilor) aferente unui neuron elementar Wi
se modific proporional cu produsul scalar dintre vectorul mrimilor de intrare x i un
aa-numit "vector de nvare" r, reprezentat n general de o funcie dependent de Wi,
x i, eventual, de vectorul ieirilor dorite d:

r = r ( W, x, d)

(2. 6)

Valoarea ponderilor se modific dup o relaie de forma:

W = r x

(2. 7)

unde este o constant real, de obicei subunitar, denumit constant de nvare.

34
B.

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE


n funcie de existena unui model analitic:
a) algoritmi parametrici; b) algoritmi neparametrici

Algoritmii parametrici presupun c procesul analizat poate fi modelat sub forma unei
expresii matematice avnd o form cunoscut, dependente de un numr (n general,
restrns) de parametri. Scopul urmrit n acest caz const n estimarea ct mai exact a
valorilor acestor parametri pe baza datelor intrare-ieire disponibile.
n cazul n care modelul considerat nu este adecvat, calitatea aproximrii poate fi
nesatisfctoare. n aceast situaie sunt de preferat algoritmii neparametrici, care nu
impun constrngeri de modelare. Astfel de algoritmi sunt capabili s aproximeze orice
dependen intrare-ieire, orict de complicat, n virtutea unei aa-numite capaciti
de aproximare universal pe care o posed unii dintre acetia.
C.

n funcie de tipul aplicaiei pentru care sunt utilizai:


a) regresie; b) clasificare

Categoria cea mai rspndit de aplicaii n care sunt utilizate reelele neurale este cea
de aproximare funcional, n care se modeleaz dependene dintre un set de variabile
de intrare i una sau mai multe variabile de ieire. Setul de parametri care traduc
aceast dependen este constituit din valorile interconexiunilor dintre neuroni,
denumite de regul ponderi sau sinapse. n modul cel mai general, o reea neural
poate fi privit ca un mod particular de a stabili forma acestei dependene, mpreun
cu modalitatea concret de a fixa valorile parametrilor corespunztori folosind baza de
date disponibil.
Se pot distinge 2 categorii majore de aplicaii: a) n clasificare se urmrete alocarea
datelor aplicate la intrarea reelei a uneia dintre etichetele corespunztoare unui set
discret de categorii avute la dispoziie (de exemplu, unei imagini reprezentnd un
caracter scris de mn i se asociaz una dintre cele 26 de litere ale alfabetului). Din
punct de vedere statistic, se urmrete de fapt aproximarea ct mai exact a
probabilitii de apartenen a datelor de intrare la una dintre categoriile existente;
b) n cazul n care ieirea reelei poate avea valori continue avem de-a face cu o
problem de regresie, al crei scop este aproximarea unei aa-numite funcii de
regresie (definit printr-o operaie de mediere aritmetic a unei mrimi statistice
specifice, ce va fi prezentat pe larg ntr-unul dintre paragrafele urmtoare). Regresia
liniar este binecunoscut n analiza statistic, ns exist aplicaii practice importante
(de exemplu, aplicaiile financiare) n care rezultatele obinute sunt nesatisfctoare,
fiind necesar introducerea unui model neliniar.

35

2.3 Algoritmi de nvare

n alegerea unui algoritm de nvare trebuie avute n vedere i unele considerente de


ordin practic, precum necesarul de memorie, viteza de convergen, complexitatea
calculelor, comportarea n faza de testare. n Tabelul 2.1 se prezint caracteristicile
principalilor algoritmi de nvare, care vor fi tratai pe larg n capitolele urmtoare.
Tabelul 2.1: Principalele tipuri de algoritmi de nvare

Denumire

Param. (P)/
Neparam. (N)

Clasificare (C)/
Regresie (R)

Regresie liniar
Backpropagation
Filtru Kalman
LM
K-means
Projection
pursuit
SOM
LVQ
Bayesian

P
N
P
N
N
N

R
R
R
R
C
R

N
N
N

C
C
C

Legenda:

Caracteristici
Necesar de
Vitez
memorie
Foarte sczut
Rapid
Sczut
Lent
Ridicat
Rapid
Mediu
Rapid
Mediu
Mediu
Sczut
Mediu
Sczut
Medu
Sczut

Mediu
Lent
Rapid

LM Levenberg-Marquardt; SOM Self-Organizing Map;


LVQ Learning Vector Quantization

S notm n final cele 2 puncte de vedere distincte asupra procesului de nvare care
se pot identifica analiznd arhitecturile ntlnite n literatur, care explic n acelai
timp i capacitatea de generalizare a acestora:
reelele de tip feedforward trateaz nvarea ca pe o problem de aproximare a
unei funcii de mai multe variabile (reale sau complexe) care exprim legtura
(necunoscut) dintre intrarea i ieirea sistemului pe baza unui set finit de exemple de
tip intrare-ieire dorit. O importan deosebit o are dimensiunea bazei de date
folosite n antrenare, aflat n strns dependen de numrul total de parametri ai
reelei (ponderi i, eventual, valori de prag ale funciei de activare) i care are un efect
semnificativ asupra erorii de aproximare [19]. Necesitatea de a beneficia de o baz de
date extrem de mare n cazul unor reele cu muli neuroni i/sau straturi a fost
denumit intuitiv "blestem al dimensionalitii" (curse of dimensionality). De
asemenea, este recunoscut pericolul de supraantrenare (overfitting), care const n
posibilitatea ca reeaua s memoreze nsei datele folosite n etapa de antrenare (n

36

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

general, nsoite de zgomot) i nu s construiasc un model al sistemului care le-a


generat. n privina capacitii reelelor feedforward de a aproxima funcii neliniare
oarecare au fost elaborate analize teoretice extrem de riguroase, care pun n eviden
proprietatea de aproximare universal a unor reele cu funcii de activare monotone de
tip sigmoidal [52], [85] sau nemonotone de tip gaussian [139]. Au fost studiate i
condiiile n care astfel de sisteme permit aproximarea simultan att a funciei ct i a
derivatelor acesteia [86] i au fost formulate estimri ale erorilor de aproximare.
Reelele de tip feedforward au fost utilizate cu succes n aplicaii de clasificare,
identificare de sistem, analiz a seriilor de timp.
reelele recurente codeaz informaia sub forma mulimilor limit ale unor sisteme
dinamice neliniare multidimensionale [81]. Mulimile limit (care, n mod intuitiv,
reprezint generalizarea noiunii de regim permanent din cazul sistemelor liniare)
conduc la unul dintre urmtoarele 4 tipuri de reprezentri n spaiul strilor: stri de
echilibru stabil, cicluri limit corespunztoare unor regimuri dinamice periodice,
atractori specifici unor regimuri cvasiperiodice (de exemplu, cu aspect toroidal) i
atractori stranii, care pun n eviden prezena regimului de funcionare haotic.
n cele mai multe situaii se utilizeaz sisteme a cror dinamic evolueaz spre puncte
de echilibru stabil (sistemele sunt denumite cu dinamic convergent), ale cror
poziii n spaiul strilor sunt fixate prin valorile interconexiunilor. n acest context, au
fost raportate rezultate remarcabile n rezolvarea unor probleme de optimizare, de
conversie analog-numeric i de clasificare [84]. Analiza stabilitii unor asemenea
reele se bazeaz de obicei pe metoda Liapunov [81], care prezint avantajul de a nu
necesita rezolvarea ecuaiilor care descriu sistemul.
Recent se acord un interes crescnd i reelelor cu comportare periodic, n special n
privina sincronizrii ansamblurilor de oscilatoare elementare i a stocrii informaiei
sub forma ciclurilor limit. Mai mult, studiul reelelor neurale cu comportare haotic
este de asemenea avut n vedere, n special datorit raportrii unor rezultate care
confirm existena unor astfel de regimuri n anumite zone ale creierului uman [62].

2.3.2 Funcia de cost


Un aspect fundamental legat de procesul de nvare al reelelor neurale este cel
referitor la scopul pentru care acestea sunt utilizate. Astfel, n cazul aplicaiilor de
regresie, se poate arta c inta urmrit o constituie modelarea densitii de
probabilitate a valorilor de ieire (target) condiionat de distribuia datelor de intrare.
Pe de alt parte, n cazul problemelor de clasificare se urmrete estimarea
probabilitilor ca variabilele de intrare s aparin uneia dintre categoriile disponibile.
Atingerea acestor obiective devine posibil prin optimizarea unor funcii de cost

37

2.3 Algoritmi de nvare

convenabil definite n funcie de parametrii reelei neurale, cu observaia c cele 2


tipuri de aplicaii necesit de regul folosirea unor funcii de cost specifice.
n cele ce urmeaz trecem n revist o serie de aspecte teoretice fundamentale care vor
permite nelegerea mai exact a modului de operare al reelelor neurale.
A.

Estimarea densitii de probabilitate

n Anexa A sunt prezentate o serie de definiii ale unor noiuni de baz din teoria
probabilitilor. Ne vom ocupa n cele ce urmeaz de posibilitatea de a modela o
funcie de densitate de probabilitate p(X) folosind un numr finit de exemple X[n], cu
n = 1,N. Pornind de aici, vom ilustra n paragraful urmtor posibilitatea de a estima
densiti de probabilitate condiionate, care vor justifica n final scopul n care sunt
folosite reelele neurale.
Exist 2 categorii de metode de estimare a densitilor de probabilitate, anume metode
parametrice, respectiv neparametrice. Cele dinti impun o form predefinit a funciei
de densitate, dependent de un numr de parametri specifici, ale cror valori urmeaz
s fie estimate folosind baza de date disponibil. Dezavantajul unei asemenea abordri
const n faptul c forma funcional particular impus pur i simplu se poate dovedi
inadecvat modelrii procesului fizic real care a generat datele. Metodele
neparametrice nu particularizeaz forma funciei modelate, ci realizeaz estimarea
pornind exclusiv de la datele disponibile, cu dezavantajul c numrul parametrilor
necesari crete pe msur ce baza de date se lrgete. n cele ce urmeaz ne vom referi
la o metod parametric de estimare bazat pe principiul denumit maximum likelihood
[24]. Astfel, s considerm o funcie densitate de probabilitate p(X) dependent de un
set de parametri = [1 2 M]T i un numr de N vectori {X[1], X[2], X[N]}
care vor servi la estimarea acestor parametri. Densitatea de probabilitate a
ansamblului acestor vectori (joint probability density) va fi:

L() =

(2. 8)

n =1

p ( X[n])

care reprezint o funcie ce depinde de variabilele pentru un set fixat de vectori


X[n]. Principiul denumit maximum likelihood urmrete determinarea valorilor
vectorului de parametri care asigur maximizarea funciei L() (justificarea logic
fiind legat de maximizarea probabilitii ca datele disponibile s fi fost generate de
ctre un model avnd parametrii optimi ). Pentru ca procesul de optimizare s fie
asociat cu noiunea mai familiar a unei funcii de eroare care ar trebui minimizat
se prefer nlocuirea funciei L() prin versiunea sa procesat sub forma:

38

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

J = ln( L()) =

(2. 9)

ln( p ( X[n]))

n =1

Soluia acestei probleme de optimizare va depinde de forma particular a funciei


p(X) considerate i, de regul, va necesita utilizarea unui metode numerice adecvate.
n cazul particular n care densitatea de probabilitate p(X) se presupune de form
normal (gaussian) vom avea:

p ( X) =

1
(2 ) d / 2 | |1 / 2

1
( X ) T 1 ( X )
e 2

(2. 10)

n care reprezint media aritmetic a vectorilor X (presupui de dimensiune d), iar


este matricea de covarian, de dimensiune (dxd). Se poate arta c procesul de
minimizare a funciei J conduce n aceast situaie la urmtoarele valori estimate ale
parametrilor modelului (parametrii se particularizeaz la valorile i ):

1
N

= 1

(2. 11)

X[n]

n =1
N

(X[n] )(X[n] )T

n =1

Intuitiv, rezultatele obinute se justific, innd cont c nlocuind n relaiile anterioare


operaiunea de mediere aritmetic pe un set finit de realizri individuale cu operatorul
standard E{.} (expectation) ajungem la definiiile standard ale celor dou mrimi
valabile n cazul variabilelor cu distribuie normal.
B.

Estimarea densitii de probabilitate condiionat

Reamintim c scopul principal al unei reele neurale este de a oferi un model ct mai
exact al procesului fizic responsabil de generarea perechilor de date intrare-ieire
disponibile i nu memorarea acestor valori particulare. Dac scopul este atins,
sistemul va furniza rspunsuri adecvate i pentru date de intrare noi, care nu au fost
utilizate efectiv n procesul de estimare a valorilor parametrilor specifici modelului.
Instrumentul care permite descrierea procesului prin care sunt generate perechi de

39

2.3 Algoritmi de nvare

vectori intrare-ieire dorit este densitatea de probabilitate p(X,t), care se poate


exprima n mod echivalent sub forma:

p( X, t ) = p(t | X) p ( X)

(2. 12)

unde p(t|X) desemneaz densitatea de probabilitate condiionat a ieirii n raport cu


intrarea (adic densitatea de probabilitate a variabilei t dac intrarea X are o valoare
particular dat), iar p(X) este densitatea (necondiionat) de probabilitate a intrrii.
innd cont de definiia funciei L() din paragraful anterior, se poate scrie n mod
asemntor relaia:
L=

p(X[n], t[n]) = p(t[n] | X[n]) p(X[n])


n

(2. 13)

Mai mult, trecnd la varianta prelucrat sub forma unei funcii de eroare, se poate
scrie:
J = ln( L) =

ln( p(t[n] | X[n])) ln( p(X[n]))


n

(2. 14)

Vom justifica imediat c scopul principal al unei reele neurale va fi de a estima ct


mai exact primul termen al relaiei anterioare. Deoarece cel de al doilea termen nu
depinde de parametrii reelei neurale putem renuna la acesta, funcia de eroare
cptnd forma mai simpl:
J =

ln( p(t[n] | X[n]))

(2. 15)

Alegnd diverse forme particulare ale densitii de probabilitate condiionate p(t|X) se


ajunge la definirea mai multor tipuri de funcii de eroare. Pentru simplitate, s
considerm n cele ce urmeaz c variabila aleatoare care definete semnalul dorit este
unidimensional i este obinut pe baza relaiei:

t[n] = h( X[n]) + e[n] , n = 1 N

(2. 16)

n care h(.) desemneaz o funcie determinist, iar e[n] reprezint zgomot cu


distribuie normal (gaussian) cu valoare medie nul i dispersie independent de
semnalul de intrare, de forma:

40

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

p (e ) =

(2. 17)

e2

e 2

S presupunem c avem la dispoziie o reea neural capabil s ofere o aproximaie a


funciei h(.) sub forma yW(X), n care vectorul W reunete totalitatea parametrilor
reelei. n aceste condiii relaia (2. 3) se poate rescrie sub forma:

p (t | X) =

(t y W ( X)) 2
2

(2. 18)

astfel nct funcia de eroare (2. 15) capt forma:

J =

{t[n] y W (X[n])}

2 2 n =1

N
+ N ln + ln(2 )
2

(2. 19)

Lsnd deoparte valorile constante (independente de valorile parametrilor W)


ajungem n final la expresia binecunoscutei erori ptratice:

1
J =
2

{t[n] y W (X[n]) }

(2. 20)

n =1

Observaii: a) analiza anterioar poate fi extins comod la cazul variabilelor


target multidimensionale
b) pentru precizarea complet a expresiei (2.18) este necesar i obinerea
valorii parametrului . Avnd la dispoziie valorile optime W* rezultate n
urma minimizrii funciei de eroare se poate demonstra c valoarea cutat
este:

1
2 =

{t[n] y W*

n =1

( X[n]) }2

(2. 21)

2.3 Algoritmi de nvare

41

c) nu este obligatoriu ca densitatea de probabilitate p(t|X) s aib o distribuie


normal, ns se poate arta c n cazul utilizrii funciei de eroare ptratice
valorile optime ale parametrilor reelei neurale nu vor putea face posibil
distincia ntre o distribuie normal i oricare alt tip de distribuie avnd
aceeai valoare medie i aceeai dispersie.
d) n aplicaiile practice se folosesc deseori unele variante ale erorii ptratice
(2. 20), anume:
Eroare ptratic
(MSE):

medie

Eroare ptratic medie


normalizat (NMSE):

1
J =
2N

{t[n] y W (X[n]) }

(2. 22)

n =1
N

{t[n] y W (X[n]) }2

J = n =1

(2. 23)

{t[n] t ) }2

n =1

Varianta din relaia (2. 22) prezint avantajul independenei valorii erorii de
numrul de exemplare care formeaz baza de date, iar cea din relaia (2. 3) al
unei imagini relative a valorii erorii n raport cu energia semnalului target (t
desemneaz valoarea medie a datelor target).
C.

Interpretarea ieirilor unei reele neurale

Avnd la dispoziie rezultatele foarte importante prezentate n paragrafele anterioare,


vom ilustra n finalul acestui capitol modalitatea de interpretare a rspunsurilor oferite
de ieirile unei reele neurale. Pentru simplitate, vom considera din nou cazul unei
reele cu o singur ieire. Astfel, n cazul unei baze de date de dimensiune infinit (cu
N ) expresia erorii ptratice (2. 20) devine [24]:

42

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

1
J = lim
N 2 N
=

1
2

(2. 24)

{t[n] y W (X[n]) }

n =1

{t[n] y W (X[n]) }

2 p (t , X)dtdX

Folosind relaia (2. 12) putem scrie n continuare:


J =

1
2

{t[n] y W (X[n]) }

2 p (t | X) p ( X) dtdX

(2. 25)

Introducem urmtoarele definiii ale unor medii aritmetice condiionate:


(2. 26)

t X = tp (t | X)dt
t 2 X = t 2 p (t | X)dt

n urma unui calcul simplu se ajunge la urmtoarea expresie echivalent cu relaia


(2. 25):

J =

1
2

{ t X

y W ( X ) } p ( X ) dX +
2

1
2

{ t

2 X t X 2 p ( X ) dX

(2. 27)

Se observ uor c cel de al doilea termen din relaia precedent nu depinde de


parametrii reelei neurale, astfel nct minimizarea funciei de eroare va presupune
anularea primului termen. Ajungem astfel la concluzia important c atunci cnd se
utilizeaz o funcie de eroare ptratic ieirea unei reele neurale poate fi
interpretat ca valoarea medie a informaiei target condiionat de datele de
intrare X:
(2. 28)
y W ( X) = t X
Interpretarea geometric a acestei relaii se indic n Fig. 2.7.

2.3 Algoritmi de nvare

43

Fig. 2.7: Interpretarea ieirii unei reele neurale ca probabilitate condiionat


Observaii: a) analiza anterior se poate extinde comod i la cazul variabilelor
target multidimensionale
b) concluziile fundamentale din ultimul paragraf pot fi aplicate n practic n
condiiile valabilitii unor ipoteze care merit comentate. Prima se refer
la necesitatea de a dispune de o baz de date de dimensiune foarte mare
(pentru a permite trecerea de la sume finite la integrale). A doua se refer
la capacitatea de modelare a sistemului care ofer ieirea yW(X) i care
nu este obligatoriu s fie implementat sub forma unei reele neurale! n
sensul c trebuie s avem garania c exist un set de parametri W n
stare s asigure minimizarea funciei de eroare. n sfrit, presupunnd c
un astfel de set optim de parametri exist, trebuie s avem la ndemn o
tehnic de optimizare adecvat, capabil s permit convergena ctre
acest set de parametri. Din aceast perspectiv, utilizarea unor reele
neurale n vederea estimrii densitii de probabilitate (2. 3) se justific
prin capacitatea de aproximare universal pe care unele dintre acestea o
posed.
c) ieirea yW(X) poate fi furnizat att de reele neurale statice (strict
algebrice), ct i de reele recurente. Pentru ca ieirile unei reele neurale
s poat fi interpretate ca probabiliti se folosesc de regul funcii de
activare speciale pentru neuronii plasai n stratul de ieire, pentru a
asigura ndeplinirea celor 2 condiii axiomatice referitoare la caracterul
pozitiv, repectiv la condiia ca suma acestora s fie egal cu 1 [138]. Un

44

CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE


exemplu n acest sens este oferit de funcia denumit softmax:

f ( xi ) =

e xi
N

, unde N este numrul total de ieiri ale reelei.


xj

j =1

d) o utilizare extrem de util a noiunilor prezentate n acest paragraf se


ntlnete n cazul aplicaiilor financiare de predicie, n care se prefer
obinerea nu a unei valori punctuale ci estimarea ntregii densiti de
probabilitate, cu efectul benefic al obinerii n acest mod a unei aprecieri
a gradului de ncredere n valoarea prezis [134].

S-ar putea să vă placă și