Documente Academic
Documente Profesional
Documente Cultură
Caracteristici fundamentale
ale reelelor neurale artificiale
22
2.1
Una dintre observaiile fcute n primul capitol sugera ideea potrivit creia creierul
este un "calculator" analogic. Fr a avea neaprat n prim plan criteriul plauzibilitii
biologice, dezbaterea referitoare la alegerea optim ntre abordarea analogic sau
discret este un subiect de strict actualitate. Argumentul cel mai puternic n favoarea
primei alternative l constituie viteza superioar recunoscut a calculului analogic, la
care se adaug lipsa necesitii sincronizrii (obligatorie n cazul reelelor digitale cu
funcionare sincron i care este, n general, dificil de asigurat n reele de dimensiuni
mari).
23
n marea majoritate a cazurilor mrimile prelucrate sunt reale, dar n ultimul timp se
utilizeaz i reele care lucreaz cu variabile complexe sau, mai general,
hipercomplexe2. Aceast alegere este justificat cu precdere n aplicaii n care datele
de intrare au o natur complex intrinsec (de exemplu, semnale radar sau unele
semnale folosite n transmisiuni de date), precum i de numrul mai redus de
parametri necesari fa de varianta real. Algoritmii de nvare sunt, de regul,
extensii naturale ale variantelor formulate pentru semnale reale, ns atenie special
trebuie acordat n acest caz alegerii funciei de activare, n particular caracterului
analitic al acesteia.
Exist exemple de reele neurale care prelucreaz semnale avnd mai multe nivele
de cuantizare, care pot proveni din utilizarea unor funcii de activare multinivel [92]
sau pot avea intrinsec un asemenea caracter, ca n cazul utilizrii unor coduri
multinivel (de exemplu, ternare) n transmisiuni de date.
2
24
25
Memoria poate apare ntr-o reea neural pe 2 ci: datorit modelului adoptat pentru
neuronii elementari i, respectiv, datorit modelului adoptat pentru interconexiunile
dintre acetia. Primul caz este pus n eviden prin modalitatea de descriere a
dinamicii individuale prin ecuaii difereniale, respectiv, cu diferene sau chiar prin
ecuaii mixte, de tip diferenial cu diferene. Al doilea caz este ilustrat de aa-numitele
reele (discrete) cu sinapse dinamice, la care legturile dintre neuroni nu sunt
exprimate prin simple valori scalare, ci sunt reprezentate sub forma unor funcii de
transfer caracteristice filtrelor discrete cu rspuns finit sau infinit la impuls. O situaie
intermediar o constituie folosirea filtrelor gamma [150], care "mprumut" din
avantajele ambelor tipuri. Un caz special l constituie reelele cu memorie rezistiv,
obinute prin considerarea unei funcii de activare cu histerezis [95].
Reelele fr memorie sunt reele la care propagarea semnalelor se face numai dinspre
intrare spre ieire (feedforward), iar modelele adoptate att pentru neuronii elementari
ct i pentru ponderi sunt strict algebrice. Aa cum vom vedea n capitolele urmtoare,
26
pentru astfel de reele exist algoritmi de antrenare foarte puternici, de exemplu cei
din categoria backpropagation (cu propagare invers a erorii). Este important s
subliniem c exist exemple de reele de tip feedforward cu reacie local, utilizate
mai ales n aplicaii de prelucrare de semnale vocale. Unii autori identific o
aa-numit memorie pe termen scurt (short-time memory), reprezentat de valorile
variabilelor de stare ale sistemului i o memorie pe termen lung (long time memory),
dat de valorile interconexiunilor.
Din punctul de vedere al implementrii, reelele recurente ridic probleme speciale
legate de necesitatea stocrii unui volum mare de informaii pe perioade nsemnate de
timp i de elaborarea unor algoritmi de nvare suficient de rapizi pentru aplicaii n
timp real.
E.
y(x) = f
w
x
i
i
i= 1
(2. 1)
Au fost propuse i modele de ordin superior, capabile s confere reelelor formate din
astfel de neuroni capacitatea de a surprinde corelaii mai complexe ale datelor
prelucrate, n particular posibilitatea de a asigura invariana rspunsului reelei la
semnale de intrare obinute prin transformri elementare (translaie, rotaie) ale bazei
de date originale. Exemplele cele mai cunoscute din acest categorie sunt modelul
sigma-pi [157] i cel propus de ctre Giles i Maxwell, bazat pe relaia [66]:
y(x) = f wi x i +
i
i
wij x i x j + ...
(2. 2)
n ceea ce privete reelele neurale recurente, analogice sau discrete, acestea sunt
descrise de una din ecuaiile:
27
(2. 3)
xi = - xi + wij f( x j )
(2. 4)
j=1
N
xi [n+1] = f wij x j [n]
j=1
unde N este numrul total de neuroni din sistem.
Recent au fost propuse i modele de ordin superior pentru neuronii individuali, care
utilizeaz n general oscilatoare pe post de elemente de procesare elementare. Un
exemplu n acest sens l reprezint modelul de ordinul II introdus n [75]:
=
+
f
+
y
xi
xi
wij x j K i i au i
j=1
y i = - y i + f (K i x i )
(2. 5)
unde f(x) = (2/)tan-1 (x/a), iar a, Ki sunt constante reale. Mai mult, n [2] i [5] se
introduc modele de ordinul III, care prezint particularitatea de a prezenta evoluie
haotic chiar la nivelul unui neuron individual, cu efect favorabil n unele aplicaii.
Dei sunt mai bine motivate din punct de vedere biologic, modelele de ordin superior
sunt mai dificil de analizat i sintetizat la nivel de sistem, iar n unele aplicaii
rezultatele nu sunt mult mai bune fa de varianta de ordinul I.
28
2.2
Arhitecturi specifice
29
a)
b)
30
2.3
31
Algoritmi de nvare
32
33
(LVQ) [103]; b) pentru reele recurente: backpropagation-through-time [174], realtime recurrent learning [179].
n nvarea nesupravegheat (unsupervised learning) reeaua extrage singur
anumite caracteristici importante ale datelor de intrare formnd reprezentri interne
distincte ale acestora. Reeaua nu beneficiaz de seturi de ieiri dorite, n schimb se
utilizeaz un gen de "competiie" ntre neuronii elementari care are ca efect
modificarea conexiunilor aferente numai neuronului care "ctig" ntrecerea, restul
legturilor rmnnd neafectate. Exemple din aceast categorie sunt: a) pentru reele
feedforward: counterpropagation [79]; b) pentru reele recurente: algoritmul propus
de Kohonen pentru hrile cu autoorganizare (SOM) [103], algoritmul Hebb [78],
Teoria Rezonanei Adaptive (ART) elaborate de Grossberg [70]. n unele modele
apare un parametru denumit intuitiv "contiin" care intr n funciune atunci cnd
unul dintre neuroni ctig prea des competiia.
nvarea folosind un "critic" (reinforcement learning) este denumit uneori i cu
recompens/pedeaps (reward/punishment). n aceast situaie, reeaua nu beneficiaz
de un semnal dorit, ca n cazul nvrii supravegheate, ci de un semnal care ofer o
informaie calitativ ilustrnd ct de bine funcioneaz sistemul (informaia este
binar, de tipul rspunsul este bun/greit, ns nu se indic i ct de bun/greit).
Algoritmii aparinnd acestei categorii sunt inspirai ntr-o mai mare msur de
observaii experimentale fcute pe animale i, n esen, funcioneaz dup urmtorul
principiu [76]: dac urmarea unei anumite aciuni ntreprinse de un sistem capabil s
nvee are un efect favorabil, tendina de a produce aciunea respectiv este ncurajat,
n caz contrar este inhibat.
n general algoritmii de nvare respect urmtoarea regul [76]: vectorul
multidimensional al ponderilor (interconexiunilor) aferente unui neuron elementar Wi
se modific proporional cu produsul scalar dintre vectorul mrimilor de intrare x i un
aa-numit "vector de nvare" r, reprezentat n general de o funcie dependent de Wi,
x i, eventual, de vectorul ieirilor dorite d:
r = r ( W, x, d)
(2. 6)
W = r x
(2. 7)
34
B.
Algoritmii parametrici presupun c procesul analizat poate fi modelat sub forma unei
expresii matematice avnd o form cunoscut, dependente de un numr (n general,
restrns) de parametri. Scopul urmrit n acest caz const n estimarea ct mai exact a
valorilor acestor parametri pe baza datelor intrare-ieire disponibile.
n cazul n care modelul considerat nu este adecvat, calitatea aproximrii poate fi
nesatisfctoare. n aceast situaie sunt de preferat algoritmii neparametrici, care nu
impun constrngeri de modelare. Astfel de algoritmi sunt capabili s aproximeze orice
dependen intrare-ieire, orict de complicat, n virtutea unei aa-numite capaciti
de aproximare universal pe care o posed unii dintre acetia.
C.
Categoria cea mai rspndit de aplicaii n care sunt utilizate reelele neurale este cea
de aproximare funcional, n care se modeleaz dependene dintre un set de variabile
de intrare i una sau mai multe variabile de ieire. Setul de parametri care traduc
aceast dependen este constituit din valorile interconexiunilor dintre neuroni,
denumite de regul ponderi sau sinapse. n modul cel mai general, o reea neural
poate fi privit ca un mod particular de a stabili forma acestei dependene, mpreun
cu modalitatea concret de a fixa valorile parametrilor corespunztori folosind baza de
date disponibil.
Se pot distinge 2 categorii majore de aplicaii: a) n clasificare se urmrete alocarea
datelor aplicate la intrarea reelei a uneia dintre etichetele corespunztoare unui set
discret de categorii avute la dispoziie (de exemplu, unei imagini reprezentnd un
caracter scris de mn i se asociaz una dintre cele 26 de litere ale alfabetului). Din
punct de vedere statistic, se urmrete de fapt aproximarea ct mai exact a
probabilitii de apartenen a datelor de intrare la una dintre categoriile existente;
b) n cazul n care ieirea reelei poate avea valori continue avem de-a face cu o
problem de regresie, al crei scop este aproximarea unei aa-numite funcii de
regresie (definit printr-o operaie de mediere aritmetic a unei mrimi statistice
specifice, ce va fi prezentat pe larg ntr-unul dintre paragrafele urmtoare). Regresia
liniar este binecunoscut n analiza statistic, ns exist aplicaii practice importante
(de exemplu, aplicaiile financiare) n care rezultatele obinute sunt nesatisfctoare,
fiind necesar introducerea unui model neliniar.
35
Denumire
Param. (P)/
Neparam. (N)
Clasificare (C)/
Regresie (R)
Regresie liniar
Backpropagation
Filtru Kalman
LM
K-means
Projection
pursuit
SOM
LVQ
Bayesian
P
N
P
N
N
N
R
R
R
R
C
R
N
N
N
C
C
C
Legenda:
Caracteristici
Necesar de
Vitez
memorie
Foarte sczut
Rapid
Sczut
Lent
Ridicat
Rapid
Mediu
Rapid
Mediu
Mediu
Sczut
Mediu
Sczut
Medu
Sczut
Mediu
Lent
Rapid
S notm n final cele 2 puncte de vedere distincte asupra procesului de nvare care
se pot identifica analiznd arhitecturile ntlnite n literatur, care explic n acelai
timp i capacitatea de generalizare a acestora:
reelele de tip feedforward trateaz nvarea ca pe o problem de aproximare a
unei funcii de mai multe variabile (reale sau complexe) care exprim legtura
(necunoscut) dintre intrarea i ieirea sistemului pe baza unui set finit de exemple de
tip intrare-ieire dorit. O importan deosebit o are dimensiunea bazei de date
folosite n antrenare, aflat n strns dependen de numrul total de parametri ai
reelei (ponderi i, eventual, valori de prag ale funciei de activare) i care are un efect
semnificativ asupra erorii de aproximare [19]. Necesitatea de a beneficia de o baz de
date extrem de mare n cazul unor reele cu muli neuroni i/sau straturi a fost
denumit intuitiv "blestem al dimensionalitii" (curse of dimensionality). De
asemenea, este recunoscut pericolul de supraantrenare (overfitting), care const n
posibilitatea ca reeaua s memoreze nsei datele folosite n etapa de antrenare (n
36
37
n Anexa A sunt prezentate o serie de definiii ale unor noiuni de baz din teoria
probabilitilor. Ne vom ocupa n cele ce urmeaz de posibilitatea de a modela o
funcie de densitate de probabilitate p(X) folosind un numr finit de exemple X[n], cu
n = 1,N. Pornind de aici, vom ilustra n paragraful urmtor posibilitatea de a estima
densiti de probabilitate condiionate, care vor justifica n final scopul n care sunt
folosite reelele neurale.
Exist 2 categorii de metode de estimare a densitilor de probabilitate, anume metode
parametrice, respectiv neparametrice. Cele dinti impun o form predefinit a funciei
de densitate, dependent de un numr de parametri specifici, ale cror valori urmeaz
s fie estimate folosind baza de date disponibil. Dezavantajul unei asemenea abordri
const n faptul c forma funcional particular impus pur i simplu se poate dovedi
inadecvat modelrii procesului fizic real care a generat datele. Metodele
neparametrice nu particularizeaz forma funciei modelate, ci realizeaz estimarea
pornind exclusiv de la datele disponibile, cu dezavantajul c numrul parametrilor
necesari crete pe msur ce baza de date se lrgete. n cele ce urmeaz ne vom referi
la o metod parametric de estimare bazat pe principiul denumit maximum likelihood
[24]. Astfel, s considerm o funcie densitate de probabilitate p(X) dependent de un
set de parametri = [1 2 M]T i un numr de N vectori {X[1], X[2], X[N]}
care vor servi la estimarea acestor parametri. Densitatea de probabilitate a
ansamblului acestor vectori (joint probability density) va fi:
L() =
(2. 8)
n =1
p ( X[n])
38
J = ln( L()) =
(2. 9)
ln( p ( X[n]))
n =1
p ( X) =
1
(2 ) d / 2 | |1 / 2
1
( X ) T 1 ( X )
e 2
(2. 10)
1
N
= 1
(2. 11)
X[n]
n =1
N
(X[n] )(X[n] )T
n =1
Reamintim c scopul principal al unei reele neurale este de a oferi un model ct mai
exact al procesului fizic responsabil de generarea perechilor de date intrare-ieire
disponibile i nu memorarea acestor valori particulare. Dac scopul este atins,
sistemul va furniza rspunsuri adecvate i pentru date de intrare noi, care nu au fost
utilizate efectiv n procesul de estimare a valorilor parametrilor specifici modelului.
Instrumentul care permite descrierea procesului prin care sunt generate perechi de
39
p( X, t ) = p(t | X) p ( X)
(2. 12)
(2. 13)
Mai mult, trecnd la varianta prelucrat sub forma unei funcii de eroare, se poate
scrie:
J = ln( L) =
(2. 14)
(2. 15)
(2. 16)
40
p (e ) =
(2. 17)
e2
e 2
p (t | X) =
(t y W ( X)) 2
2
(2. 18)
J =
{t[n] y W (X[n])}
2 2 n =1
N
+ N ln + ln(2 )
2
(2. 19)
1
J =
2
{t[n] y W (X[n]) }
(2. 20)
n =1
1
2 =
{t[n] y W*
n =1
( X[n]) }2
(2. 21)
41
medie
1
J =
2N
{t[n] y W (X[n]) }
(2. 22)
n =1
N
{t[n] y W (X[n]) }2
J = n =1
(2. 23)
{t[n] t ) }2
n =1
Varianta din relaia (2. 22) prezint avantajul independenei valorii erorii de
numrul de exemplare care formeaz baza de date, iar cea din relaia (2. 3) al
unei imagini relative a valorii erorii n raport cu energia semnalului target (t
desemneaz valoarea medie a datelor target).
C.
42
1
J = lim
N 2 N
=
1
2
(2. 24)
{t[n] y W (X[n]) }
n =1
{t[n] y W (X[n]) }
2 p (t , X)dtdX
1
2
{t[n] y W (X[n]) }
2 p (t | X) p ( X) dtdX
(2. 25)
t X = tp (t | X)dt
t 2 X = t 2 p (t | X)dt
J =
1
2
{ t X
y W ( X ) } p ( X ) dX +
2
1
2
{ t
2 X t X 2 p ( X ) dX
(2. 27)
43
44
f ( xi ) =
e xi
N
j =1