Sunteți pe pagina 1din 22

Capitolul 4

Bazele reelelor neuronale

4.1 INTRODUCERE
Noiunea de calcul poate lua mai multe aspecte. Din punct de vedere
istoric, calculul a fost dominat de conceptul de calcul programat, n care
algoritmii sunt proiectai i apoi implementai folosind arhitecturile dominante
curente. Este nevoie de un punct de vedere alternativ atunci cnd se consider
operaiile de calcul din sistemele biologice. De exemplu, calculul din creierul
uman este diferit de paradigma mai sus amintit prin:
calculele sunt masiv distribuite i efectuate n paralel;
nvarea nlocuiete un program apriori de dezvoltare.
mprumutnd aceste caracteristici din natur, a aprut o nou model de
calcul motivat biologic, acela al reelelor neuronale artificiale (RNA).
Tehnologia RNA are potenialul necesar pentru a deveni arhitectura de calcul
dominant iar neuronii artificiali pot deveni blocuri fundamentale de tip RISC
(Reduced Instruction Set Computer). Paragrafele care urmeaz exploreaz
ramificaiile procesului de proiectare a reelelor neuronale, inclusiv idei i
abordri noi, fundamente matematice i exemple de aplicaii.
RNA reprezint att un domeniu tiinific ct i o tehnologie: tiina este
definit prin cunotine structurate (care, n general, privesc lumea fizic) iar
tehnologia reprezint tiina aplicat. Ambele aspecte vor fi explorate n
capitolele care urmeaz, de la fundametele biologice i matematice ale RNA
pn la soluionarea problemelor pe baza RNA.
La nceputul discuiei despre RNA trebuie s fie luate n discuie trei
chestiuni:
1. Este tehnologia RNA o tehnologie ntr-adevr nou, i cum poate fi aceasta
utilizat?
2. Ce este comun cu sau derivat din alte tehnologii?
3. Ce este comun tuturor RNA pe care le vom studia?
129

4/ Bazele reelelor neuronale

n acest capitol vom discuta caracteristicile generale ale RNA, n special


cele legate de alte tehnologii. De asemenea, vom prezenta o scurt istorie a
domeniului RNA. Vor fi abordate aspectele comune majore ale calculului
neuronal, cum sunt topologia reelelor, caracteristicile unitilor de calcul,
comportarea de tip "black-box" (cutie neagr) i antrenarea reelelor pentru a
putea dispune att de o perspectiv ct i de fundamentele ce vor fi utilizate n
cpitolele care urmeaz.
Vom prezenta o definiie generic a obiectului pe care l vom studia. Pe tot
cuprinsul capitolelor urmtoare aceast definiie va fi dezvoltat i nuanat.
REEA NEURONAL ARTIFICIAL. Vom nelege prin reea
neuronal artificial o structur (reea) compus dintr-un numr de uniti
de calcul interconectate (neuroni artificiali). Fiecare unitate are o
caracteristic intrare/ieire (I/O) i implementeaz un proces local de calcul
sau o funcie. Ieirea fiecrei uniti este determinat de caracteristica
proprie de I/O, de interconexiunile ei cu alte uniti i (posibil) de intrrile
externe. n mod uzual o reea are o funcionalitate global obinut prin una
sau mai multe forme de antrenare.

Reelele neuronale artificiale nu au o structur unic; ele sunt mai degrab


o familie de reele. Funcia general sau funcionalitatea dobndit este
determinat de topologia reelei, de caracteristicile individuale ale neuronilor, de
strategia de antrenare i de datele de antrenare.
Pentru a fi util, o reea neuronal trebuie s poat fi interfaat cu lumea
exterioar. Dei nu se impune prin definiia anterioar, n mod tipic,
caracteristicile intrare/ieire ale unei unitai neuronale sunt destul de simple (i
comune tuturor unitilor care formeaz o reea) iar numrul unitilor este
destul de mare. Menionm c definiia de mai sus ne oblig s facem distincia
dintre o singur unitate i o reea. n sfrit, structurile de calcul pe care le vom
dezvolta n continuare pot fi implementate n mod artificial (non-biologic),
soluia tipic fiind dat de elementele electronice. Aadar, descriptorul
"artificial" este de multe ori presupus implicit.

4.2 CONCEPTE FUNDAMENTALE


n acest paragraf vom lua n discuie aspectele cheie ale calculului
neuronal.
A. Dup cum indic definiia din paragraful 4.1, modelul de calcul global
este reprezentat prin interconexiuni reconfigurabile de elemente simple,
sau de uniti. n Figura 4.1 sunt prezentate dou reele de dimensiuni
relativ mici; unitile de calcul sunt reprezentate prin cercuri iar
interconexiunile dintre uniti prin arce. Figura 4.1a indic o strategie de
130

Concepte fundamentale

Ieiri
Intrri
Ieiri
Intrri

(a)

(b)

Figura 4.1 Topologii de baz: (a) reea neuronal artificial nerecurent;


(b) reea recurent.

interconectare nerecurent, care nu conine ci nchise de


interconectare. Se poate remarca reprezentarea unitilor grupate n
straturi. Prin contrast, Figura 4.1b indic o strategie de interconectare
recurent, n care flexibilitatea arbitrar a interconexiunilor permite
existena traseelor nchise (feedback). n acest fel, reeaua poate fi
caracterizat printr-o dinamic temporal mai complex dect n cazul
primei strategii. De asemenea, topologia unei reele poate fi static sau
dinamic iar unele uniti din Figura 4.1 sunt interfaate direct cu lumea
exterioar, iar altele sunt uniti "ascunse" sau interne. Aceste structuri
vor fi explorate n detaliu n Capitolele 5 8.
B. Unitile individuale implementeaz o funcie local iar reeaua global,
format din uniti interconectate, are o funcionalitate corespunztoare.
Analiza acestei funcionaliti, cu excepia cazurilor n care se folosesc
exemple de antrenare i de test, este destul de dificil. Mai mult,
aplicaia determin, prin intermediul specificaiilor, funcionalitatea
cerut; este rolul proiectantului reelei neuronale artificiale s determine
parametrii reelei care satisfac aceste specificaii.
C. Modificarea conectivitii dintre elemente n funcie de datele de
antrenare reprezint cheia procesului de nvare. Cu alte cuvinte,
cunotinele sistemului, experiena sau antrenarea sunt memorate sub
forma interconexiunilor reelei.
D. Pentru a fi utile, sistemele neuronale trebuie s fie capabile s
memoreze informaia (adic, ele trebuie s fie "antrenabile"). Sistemele
neuronale sunt antrenate cu sperana c vor avea o comportare
asociativ corect atunci cnd li se prezint noi forme pentru a fi
131

4/ Bazele reelelor neuronale

recunoscute sau clasificate. Adic, obiectivul procesului de antrenare


este obinerea unei structuri interne care s permit reelei s identifice
corect sau s clasifice forme noi, similare. Vom lua n considerare att
modelul nvrii supervizate ct i pe cel al nvrii nesupervizate.
E. O reea neuronal este un sistem dinamic; starea lui (ieirile unitilor i
ponderile interconexiunilor) se modific n timp ca rspuns la intrri
externe sau n funcie de o stare iniial (instabil).
n general, fiecare publicaie referitoare la reele neuronale artificiale (carte,
articol, etc.) folosete propriile notaii. n plus, unii autori folosesc vectorii sub
forma unor coloane iar alii sub form de linii. Pentru a simplifica situaia, n
cele ce urmeaz se vor utiliza notaiile descrise n continuare, care corespund
unor concepte majore. Un vector este un caracter subliniat; se presupune c toi
vectorii sunt vectori coloan.
x : Un vector n general.
i : Un vector de semnale de intrare, fie pentru o unitate elementar de
calcul fie pentru o reea. A j -a intrare se noteaz i j . Dimensiunea implicit a lui
i este d , i = (i1 , i2 ,..., i j ,..., id )T , dei adugarea unei intrri de polarizare necesit

redefinirea lui i sau creterea dimensiunii d cu 1.


o : Un vector al semnalelor de ieire. Uneori o = i , n cazul reelelor
recurente sau stratificate. Dimensiunea implicit a lui o este c .
s

o : Un vector care indic starea memorat dorit ntr-o reea recurent.


oi : Ieirea unitii i . Adesea, oi = f (net i ) .
net i sau net i : Vectorul de activare al reelei, respectiv activarea reelei
pentru unitatea i .
w j : Ponderea corespunztoare intrrii j a unei uniti elementare.

wij : Ponderea corespunztoare intrrii j a unitii i . Sau, cnd unitile


sunt interconectate, wij reprezint ponderea interconexiunii de la unitatea j la
unitatea i . n procesul de antrenare, wij (k ) se folosete pentru a nota ponderea
la momentul sau iteraia k .
p
w sau w : Vectorul ponderilor corespunztor unitii p . De multe ori se
T

noteaz w pentru a forma activarea reelei.


W : Matricea ponderilor. Elementul wij , din linia i i coloana j , a fost
definit mai sus.
P : Matricea stimulilor (se mai poate nota S ) folosit pentru a reprezenta
vectorii de intrare ai reelei, n mod curent n H . De multe ori se scrie sub
forma:

132

Aplicaii ale calculului neuronal

i 1T
T
i2
P = i T3 .
...
T
in
R : Matricea rspuns a reelei, cu o structur similar cu P .
t : Un vector int sau vector de ieire dorit.
E : Msura erorii sau a energiei.
H : Mulimea de antrenare, etichetat sau nu. Cardinalul lui H este n ;
adic, aceast mulime conine n elemente.
FF: Reea cu propagare direct (feedforward).

Trei variabile importante

Dup cum am menionat n definiiile precedente, trei variabile sunt folosite


frecvent i consistent pe parcursul acestei lucrri: d este numrul intrrilor n
reea, c este numrul ieirilor reelei (este posibil ca d = c ) iar n este numrul
de eantioane de antrenare disponibile.

4.3 APLICAII ALE CALCULULUI NEURONAL


Emularea structurilor de calcul al sistemelor biologice poate conduce la
modele superioare de calcul pentru anumite clase de probleme. Printre acestea
sunt: clasa problemelor de etichetare, de ordonare, de cutare i alte probleme de
satisfacere a unor restricii; clasa problemelor de recunoatere a formelor/
obiectelor, mai ales pentru nelegerea vederii i a vorbirii; clasa problemelor
care trateaz date imperfecte, contradictorii, incomplete, fuzzy sau
probabilistice. Aceste probleme sunt caracterizate prin una sau mai multe din
urmtoarele: un spaiu cu dimensiune mare pentru problema de rezolvat;
complexitate; interaciuni necunoscute ntre variabilele problemei sau care nu
pot fi tratate matematic; un spaiu al soluiei care poate fi vid, poate conine o
soluie unic sau (cazul tipic) care poate conine un anumit numr de soluii
utile. Mai mult (dup cum indic lista urmtoare), se pare c reelele neuronale
artificiale ofer soluii pentru problemele care necesit intrri ce pot proveni de
la senzori de tip uman, cum sunt recunoaterea vorbirii, a vederii sau a scrisului
de mn. Menionm c ceea ce nu este simplu este obinerea soluiei unei
probleme oarecare printr-o reea neuronal.
O trecere complet n revist a tuturor aplicaiilor RNA (ncercate, reuite
i preconizate) nu este practic. Totui, o privire la publicaiile cele mai populare

133

4/ Bazele reelelor neuronale

i la lucrrile unor conferine tiinifice poate furniza exemple ilustrative.


Aplicaiile RNA includ:
Procesarea imaginilor i vederea artificial, inclusiv pre-procesarea,
segmentarea i analiza, compresia imaginilor, vederea binocular, procesarea
i nelegerea imaginilor variabile n timp, aplicaii de inspecie vizual.
Procesarea semnalelor, inclusiv analiza i morfologia semnalelor seismice.
Recunoaterea formelor, inclusiv extragerea caracteristicilor, clasificarea i
analiza semnalelor radar, recunoaterea i nelegerea vorbirii, identificarea
amprentelor, recunoaterea caracterelor (litere sau cifre), analiza i
recunoaterea scrisului de mn (notepad).
Medicin, incluznd aici analiza i nelegerea semnalelor furnizate de
electrocardiografe, diagnoza diferitelor boli i procesarea imaginilor
medicale.
Sisteme militare, cu detecia minelor submarine, clasificarea semnalelor
radar i recunoaterea tactic a unui vorbitor.
Sisteme financiare, analiza i predicia pieei de aciuni sau a celei
imobiliare, autorizarea crilor de credit i sisteme de securitate.
Planificare, control i cutare, inclusiv implementarea paralel a
problemelor de satisfacere a restriciilor, reglare automat i robotic.
Inteligena artificial, inclusiv implementarea sistemelor expert.
Factori umani (interfaare).
Sisteme de putere, inclusiv estimarea strii sistemelor, clasificarea i
detecia strilor de tranziie, detecia defectelor, probleme de securitate.
Pentru c reelele neuronale artificiale reprezint un model de calcul relativ
nou, probabil c este mai sigur s spunem c avantajele, dezavantajele,
aplicaiile i relaiile cu calculul tradiional nu sunt nelese n ntregime.
Ateptrile (am putea spune hiper- ) pentru acest domeniu sunt deosebit de mari.
n particular, reelele neuronale sunt potrivite pentru aplicaii care includ sisteme
antrenabile pentru recunoaterea i asocierea formelor. Aprecierea c reelele
neuronale artificiale pot conduce la rezolvarea tuturor problemelor de
raionament automat, sau a tuturor problemelor care conin diferite transformri,
este probabil nerealist.

Avantaje
Calculul se efectueaz n paralel
RNA pot fi tolerante la defecte datorit paralelismului
RNA pot fi proiectate astfel nct s fie adaptive
Nu este nevoie de caracterizarea extensiv a problemei (n alt mod dect
prin setul de antrenare).

134

Ingineria calculului neuronale

Dezavantaje
Nu exist reguli clare sau indicaii de proiectare pentru o aplicaie
arbitrar
Nu exist o cale general pentru a evalua modul intern de operare pentru
o reea
Antrenarea poate fi dificil sau imposibil
Este dificil s se prevad performana viitoare a reelei (generalizare).

4.4 INGINERIA CALCULULUI NEURONAL


4.4.1 ntrebri iniiale

O abordare inginereasc n rezolvarea unei probleme trebuie s implice


ncorporarea tuturor informaiilor disponibile i relevante despre acea problem,
ntr-o manier structurat, pentru a putea formula o soluie. ntrebrile principale
care apar sunt:
1. Sunt RNA potrivite din punct de vedere tehnic, sau pot fi aplicate,
pentru problema curent de rezolvat?
2. Putem dezvolta sau modifica arhitecturi utile de RNA pentru situaia
curent i, putem antrena RNA (determina parametrii si)?
3. Exist instrumente formale sau euristice care pot fi aplicate pentru a
evalua proprietile soluiei oferite de RNA? (de exemplu, care este
complexitatea de calcul a procedurii care conduce la soluia problemei?)
4.4.2 Proceduri neuro-inginereti: nlocuirea proiectrii cu antrenarea

n mod tipic, procesul de proiectare clasic inginereasc include aplicarea


sistematic a principiilor tiinifice (matematice, fizice, etc.) pentru a dezvolta
un sistem care satisface anumite specificaii. n acest sens, proiectarea poate face
apel la judecat, intuiie i, posibil, iteraie. Pe de alt parte, procesul de
antrenare include o anumit form de nvare pentru a fora comportarea
viitoare a sistemului s ndeplineasc anumite specificaii. nvarea include
corecia (ajustarea) parametrilor sistemului astfel nct rspunsul n urmtoarea
iteraie sau n urmtorul experiment s fie ct mai apropiat de cel dorit.
Neuro-ingineria nlocuiete procesul clasic de proiectare i conduce la
determinarea componentelor caracteristice RNA, inclusiv arhitectura global a
RNA, topologia acesteia, parametrii unitilor de calcul i procedura de
nvare/antrenare. Dei acest nou proces poate prea evident, este necesar o
judecat neuro-inginereasc. Existena a milioane de posibiliti n alegerea
topologiilor sau a parametrilor face nepractic "fora brut" sau cutarea
exhaustiv. n plus, dup cum am menionat nainte, trebuie vzut dac soluia
RNA este potrivit sau nu cu problema de rezolvat.
135

4/ Bazele reelelor neuronale

4.4.3 Proceduri pentru ingineria sistemelor neuronale

Pe durata procesului de proiectare a soluiilor bazate pe reele neuronale,


pot aprea multe ntrebri, cum ar fi:
Poate fi antrenat reeaua pentru a realiza operaia dorit sau, exist o
oarecare ambiguitate n problem care face soluia imposibil?
Presupunnd c problema se poate rezolva, ce structur de reea
(topologie) este mai potrivit?
Ce resurse de calcul sunt disponibile (timp, memorie, procesoare) pentru
a antrena i implementa reeaua?
Pentru aplicaiile reale, proiectarea unui sistem bazat pe reele neuronale
este un proces complex, n mod curent iterativ i interactiv. Dei este imposibil
s se prezinte o procedur algoritmic universal, paii care vor fi prezentai n
continuare reflect eforturile i preocuprile tipice n acest domeniu.
Determinarea parametrilor RNA include:
1. Strategia de interconectare/topologia reelei/structura reelei
2. Caracteristicile unitilor (pot fi diferite n interiorul unei reele i n
interiorul subdiviziunilor reelei, cum sunt straturile reelei)
3. Procedura (procedurile) de antrenare
4. Seturile de antrenare i de test
5. Reprezentrile intrare/ieire, pre- i postprocesarea
Un proces tipic de antrenare poate conine urmtoarele etape:
Pasul 1: Studiul claselor de msurri/forme care pot fi luate n considerare
pentru a dezvolta posibile caracterizri (cantitative). Aceasta include
evalurile structurilor cuantificabile, caracterizri probabilistice i
explorarea claselor posibile de msuri ale similaritii. n plus, trebuie s
fie considerate la acest punct posibile deformri ale proprietilor
invariante precum i caracterizarea surselor de zgomot.
Pasul 2: Determinarea tipurilor de msurri (intrri) sau date caracteristice
(preprocesate).
Pasul 3: Luarea n considerare a restriciilor asupra performaelor dorite ale
sistemului i a resurselor de calcul.
Pasul 4: Luarea n considerare a accesibilitii i calitii datelor de
antrenare i de test.
Pasul 5: Luarea n considerare a accesibilitii structurilor potrivite i
cunoscute de sisteme RNA.
Pasul 6: Dezvoltarea unei simulri a RNA.
Pasul 7: Antrenarea sistemului RNA.
Pasul 8: Simularea performaelor sistemului RNA folosind setul (seturile)
de date de test.
Pasul 9: Iterarea unor pai anteriori pn cnd se atinge performaa dorit.
136

Tipuri de transformri

4.5 TIPURI DE TRANSFORMRI


Termenul "transformare" are mai multe conotaii n proiectarea i analiza
sistemelor RNA. Transformarea strilor unei probleme conceptuale n starile
RNA este un exemplu. n contextul transformrii unei stri specifice a RNA, se
dorete o transformare specific intrare/ieire (I/O) sau, poate, transformarea
unei stri variabile n timp, dup cum se arat n Figura 4.2.
4.5.1 Sistemul de percepie i descrieri stimul-rspuns

Sistemul uman de percepie include procesarea informaiei memorate i a


celei care provine de la senzori, ca n cazul preprocesrii i percepiei vizuale
sau auditive. O caracterizare elementar stimul-rspuns (S-R) a unui sistem de
percepie este prezentat n Figura 4.3. n sistemele biologice (n special la
vertebrate), semnalele de intrare din lumea exterioar se obin prin intermediul
unor celule receptoare, care rspund unei varieti de stimuli, cum sunt: lumina,
cldura, substane chimice, vibraii mecanice sau deplasri. Intrarea poate fi o
form vizual, un sunet sau ali stimuli biologici. Rspunsul dorit (sau nvat)
poate lua forma unei recunoateri sau a unei reacii.
i

o
o [0, M ]

o1
o2

oc
o1
o2

=1
oi o j = 0 pentru i j
i

Codurile indic
descrierea sau clasa

om
o

o'

o este forma memorat


"aproape" de o
(Asociator neuronal)

Figura 4.2 Strategii de transformare n reelele neuronale


artificiale i reprezentri intrare/ieire .
137

4/ Bazele reelelor neuronale


Ajustare

Figura 4.3 Structura de baz a unui


sistem S-R "black box".

ANN

Un sistem de tip cutie neagr (black-box) este specificat prin intermediul


unei caracteristici S-R. n mod tipic, calculele interne nu sunt relevante, nu sunt
cunoscute sau nu pot fi cuantificate. Un punct de vedere este acela c reelele
neuronale artificiale reprezint o strategie de calcul nealgoritmic, de tip blackbox, care poate fi antrenat. Vom spera s antrenm cutia neagr neuronal
astfel nct aceasta s nvee rspunsul corect sau ieirea (adic s fac o
clasificare) pentru fiecare din eantioanele setului de antrenare. Aceast strategie
este atractiv pentru proiectantul sistemului deoarece cantitatea necesar de
cunotine apriori i nelegerea modului intern de operare a sistemului sunt
minime. Mai mult, dup antrenare, sperm ca structura intern (neuronal) din
implementarea artificial va fi capabil s se auto-organizeze pentru a permite
extrapolarea atunci cnd este pus n faa unor forme noi, similare; se va face
apel la experiena dobndit prin procesul de antrenare. Cu perspectiva blackbox, n analiza unei aplicaii, ntrebarea "Care este modelul sistemului?" poate
primi rspunsul banal "Cui i pas?"
De multe ori, structura reelelor artificiale este ierarhic. n sensul cutiei
negre aceasta nseamn c exist o "cutie de cutii" n care, cutiile interne pot
avea o structur topologic diferit. Aceast structur sugereaz de asemenea c
putem rearanja cutiile interne (i coninutul lor) i interconecta alte "macrocutii" pentru a abine noi structuri de reele.
Aspectul cheie n abordarea de tip "cutie neagr" este dezvoltarea relaiilor
ntre intrare i ieire. Zicala "Gunoi la intrare, gunoi la ieire" ("Garbage in,
garbage out" [Sch97]) se aplic i n cazul cutiilor negre. Succesul unei
asemenea abordri este puternic influenat de calitatea datelor i a algoritmului
de antrenare. n plus, existena unui set de antrenare i a unui algoritm de
antrenare nu garanteaz c o reea neuronal dat va putea fi antrenat pentru o
anume aplicaie.
4.5.2 Intrrile i ieirile reelei

Implementrile RNA variaz de la situaii n care, de exemplu, intrrile


neuronilor individuali corespund valorilor intensitilor pixelilor unei imagini, la
cazuri unde se utilizeaz grupuri de neuroni pentru a reprezenta valorile
anumitor caracteristici ale unui obiect. Acest proces important este ilustrat n
discuia care urmeaz, folosind o aplicaie simpl de recunoatere a caracterelor.
138

Tipuri de transformri

Fcnd referire la Figura 4.4, s presupunem c obiectivul este acela de a


dezvolta o structur de RNA ale crei ieiri s fie de forma celei de-a doua
structuri din Figura 4.2, adic s fie un selector 1 din 10. de exemplu, atunci
cnd se prezint reelei cifra 6, numrul 6 de la ieire, notat o6 , este 1 iar o j = 0 ,
j 6 . nainte de a selecta intrrile RNA menionm c cifrele din Figura 4.4
sunt reprezentate grafic ntr-un dreptunghi 11 8 sau, matematic, printr-o
matrice binar 11 8.
Selecia intrrilor

Selecia intrrilor este procesul de alegere a intrrilor unei RNA i, de


multe ori, presupune o judecat considerabil. Intrrile pot fi reprezentate de
semnale de tip stimuli pre-procesate, cum ar fi datele obinute prin cuantizarea i
filtrarea semnalelor vocale. n anumite cazuri, exist instrumente matematice
care ajut n procesul de selecie a intrrilor. n alte cazuri, simularea poate ajuta
n alegerea intrrilor potrivite. Restriciile impuse asupra sistemelor de msurare
pentru o aplicaie dat pot restrnge mulimea intrrilor posibile. De asemenea,
dimensiunile operaiilor efectuate nainte da obinerea semnalelor de intrare
(pre-procesare) pot influena intrrile alese.
n exemplul de recunoatere a cifrelor menionat anterior, o alegere ar fi
conversia fiecrei matrici binare 11 8 ntr-un vector coloan 88 1 i folosirea
componentelor acestuia ca intrri ale RNA.
1

11
2

Figura 4.4 Digii folosii pentru a ilustra conceptul intrare/ieire.


139

4/ Bazele reelelor neuronale

Sau, dup o oarecare analiz, din aceste matrici pot fi extrase caracteristici
care pot fi folosite ca intrri ale RNA. Deocamdat, nu este foarte clar care
variant este de preferat.
Distorsiunile intrrilor

De multe ori, se dorete ca operaia de transformare a intrrilor realizat de


o reea neuronal s conduc la ieiri care sunt invariante la (anumite) schimbri
sau deviaii ale formelor de intrare: transformrile realizate de RNA trebuie s
aib proprietatea de invarian la anumite perturbaii. Un punct de vedere
alternativ este acela c acelai rspuns este dorit pentru o clas sau o mulime de
stimuli de intrare. De exemplu, oamenii sunt capabili s recunoasc caracterele
tiprite sau scrise de mn, cu o mare varietate de dimensiuni i orientri.
Mecanismul exact pe care se bazeaz aceast abilitate este, deocamdat,
necunoscut. Facnd din nou referire la exemplul de recunoatere a digiilor,
poate fi dezirabil s se recunoasc cifrele i atunci cnd lipsesc mici poriuni din
imagini sau cnd n imagini exist o mai mare cantitate de informaie. Mai mult,
poate se dorete recunoaterea cifrelor n mod independent de poziia acestora n
interiorul dreptunghiului 11 8. Acestea sunt obiective care pot fi realizate mai
greu. Menionm de asemenea c alegerea caracteristicilor ca intrri ale RNA
faciliteaz aceste procese.

Selecia ieirilor

Selecia ieirilor se realizeaz n paralel cu procesul de selecia a intrrilor


i este aproape ntotdeauna un proces dependent de aplicaie (de problema de
rezolvat). Ca o alternativ la structura 1 din 10, presupunem c ieirea RNA este
de asemenea un vector 11 8, corespunztor unei matrici 11 8. Transformarea
dorit, realizat de RNA, trebuie s realizeze conversia digiilor afectai de
zgomot, sau distorsionai, la vesiunile "standard" sau de referin, cum sunt cele
din Figura 4.4.
Un alt exemplu legat de problema recunoaterii cifrelor poate fi utilizarea
unei RNA pentru a indica dac cifra de intrare este < 5 sau 5. Din nou,
folosind cea de-a doua structur din Figura 4.2, este posibil implementarea unui
selector 1 din 2 sau a unei RNA cu o singur ieire. O alt abordare poate fi
dezvoltarea unei RNA care transform cifrele de intrare (sau caracteristici) ntr-o
structur 1 din 10. O a doua reea poate prelua aceast ieire i poate genera
ieirea < 5 sau 5. Aceast structur este prezentat n Figura 4.5.
O problem interesant este dac aceast reea cascadat are ceva n comun
cu o reea care realizeaz direct transformarea global?
140

Tipuri de transformri

Digit - ieire
1 din 10

1 din 10 <5

RNA

RNA

Figura 4.5 Folosirea cascadei de RNA pentru clasificarea digiilor.

Alte probleme ale reprezentrii I/O

De ndat ce s-a realizat selecia intrrilor, alegerea modului de


reprezentare a acestora devine extrem de important. Intrrile pot fi continue pe
un anumit interval, pot fi discrete, codificate, etc. Destul de des, alegerea unei
anumite reprezentri a intrrilor are o influen puternic asupra performaelor
reelei proiectate.
Efectul I/O asupra transformrilor

Comportarea dorit a unei RNA este caracterizat printr-un set de perechi


S-R care formeaz specificaia unei relaii. De exemplu, comportarea reelelor
neuronale poate fi caracterizat printr-un set de n perechi ordonate

H {( si , ri )} i = 1,2,..., n

(4.1)

unde si este stimulul i iar ri este rspunsul corespunztor. si este un element


care aparine domeniului transformrii iar ri aparine co-domeniului. Domeniul
si i codomeniul ri se exprim prin reprezentri preselectate; de exemplu, si i
ri pot fi vectori d 1 i respectiv c 1 , notai s i r sau i i t . Scopul reelei,
n condiiile n care se d o topologie prespecificat i sunt cunoscute
caracteristicile unitilor de calcul, este acela de a nva relaia exprimat prin
ecuaia (4.1). Scopul poate fi reprezentat de proiectarea i verificarea unei RNA
care implementeaz transformarea funcional
ri = f D ( si )

(4.2)

Unul dintre exemplele cele mai simple este reprezentat de cazul n care si
i ri sunt numere reale.

141

4/ Bazele reelelor neuronale

4.5.3 Reprezentri vectoriale pentru caracteristicile S-R

Adesea, un stimul al unei RNA este reprezentat ca un vector x ; rspunsul


dorit este exprimat prin vectorul x d . Transformarea dorit, realizat de RNA, se
formuleaz ca:

:s r

(4.3)

r = f D (s )

(4.4)

sau

Una dintre cele mai folosite transformri de forma (4.4) este transformarea
liniar, care poate fi realizat prin intermediul unei matrici de transformare.
Aceasta are forma:
r =M s

(4.5)

unde M trebuie s aib dimensiunile potrivite pentru realizarea multiplicrii n


relaia (4.5). Formularea vectorial a ecuaiei (4.4) nu presupune apartenena
vectorilor stimul i rspuns la acelai spaiu vectorial.
4.5.4 Parametri, ponderi i restricii

S considerm cazul unei singure uniti, pentru care modificm notaia,


astfel nct s introducem i parametrii unitii, adic:
r = f p ( s, a p )

(4.6)

unde a p reprezint parametrii unitii p iar s reprezint intrarea sau stimulul


unitii p . Menionarea unei singure relaii dorite intrare/ieire de forma ( s, r )
induce o restricie evident asupra lui f p i a p . Alte restricii pot fi adugate
sub forma altor perechi ( s, r ) . Aceast problem de satisfacere a restriciilor
poate avea sau nu o soluie; de fapt, pot exista soluii multiple. S considerm
caracteristica unei reele

r i = f ( s i , a c , w)

(4.7)

unde s i i r i reprezint intrarea i ieirea reelei, a c reprezint caracteristicile


reelei iar w reprezint interconexiunile acesteia ("ponderi"). i de aceast dat,
142

Structuri tipice

specificarea comportrii dorite a reelei sub forma unor perechi ( s i , r i ) conduce


la restricii asupra valorilor f , a c i/sau w . Cazul tipic este acela n care
alegem o structur de reea cu anumite restricii asupra lui w dar cu valori
iniiale nedeterminate ale interconexiunilor (valori ale ponderilor individuale).
n plus, presupunem c au fost alese caracteristicile unitilor, f i a c . Acum,
antrenarea devine un proces de gsire a uneia sau a mai multor soluii
(aproximative sau exacte) pentru w . Acest caz este luat n considerare n detaliu
n Capitolele 6 i 8.

4.6 STRUCTURI TIPICE


Orice taxonomie pentru descrierea reelelor neuronale artificiale trebuie s
nceap cu identificarea caracteristicilor relevante. Acestea includ:
Caracteristicile unitilor de calcul
Paradigme pentru nvare/antrenare (software)
Topologia reelei
Funcia reelei
4.6.1 Funciile RNA

Comportarea dorit a unei RNA ofer o alt posibilitate pentru distingerea


reelelor. De exemplu, funcia dorit a unei RNA poate fi specificat prin
enumerarea unui set de stri stabile ale reelei, sau prin identificarea unei ieiri
dorite a reelei ca funcie de intrrile reelei i de starea curent. Exemple
"clasice" de clasificare a reelelor neuronale n funcie de scopul procesrii sunt:
1. Asociator neuronal (Pattern Associator - PA). Aceast RNA asociaz
forme, care pot fi vectori. n mod curent, este implementat cu ajutorul
reelelor cu propagare direct. Acest tip de reea este explorat n detaliu
n Capitolle 5 i 6. Vom lua n considerare mecanismul de nvare
(antrenare) i vom explora proprietile i nuanele acestui mecanism.
2. Modelul memoriilor adresabile prin coninut (Content-Addressable
Memory- CAM) sau memorii asociative (Associative Memory-AM).
Acest tip de structur, exemplificat cel mai bine prin modelul Hopfield
din Capitolul 8, are la baz implementarea funciei de asociere prin
reele neuronale.
3. Reele auto-organizate (Self-Organizing Networks). Aceste reele
exemplific implementrile neuronale ale nvrii nesupervizate, n
sensul c, n mod tipic, acestea i "auto-organizeaz" formele de intrare
n clase sau grupuri pe baza unei anumite forme de similaritate. Nu vom
lua n discuie n aceast lucrare reelele auto-organizate.
143

4/ Bazele reelelor neuronale

4.6.2 Structura unei reele neuronale artificiale

Modul n care se conecteaz unitile de calcul ale unei reele neuronale


determin structura acesteia. Am prezentat pe scurt structurile recurente i
nerecurente. Mai muli neuroni pot fi interconectai local pentru a forma
"grupuri" care sunt slab sau indirect conectate cu alte grupuri. Sau, neuronii pot
fi organizai n grupuri sau straturi care sunt conectate (direcional) cu alte
straturi. Aplicaia pentru care se va dezvolta o reea neuronal presupune
stabilirea arhitecturii reelei. Printre posibiliti, sunt incluse:
1. Proiectarea unei structuri dependent de aplicaie, care s realizeze un
calcul dorit. Un asemenea exemplu este prezentat n [CG87].
2. Selectarea unei structuri comune, pre-existente, pentru care exist
algoritmi de antrenare. Ca exemple, menionm reelele cu propagare
direct i reelele Hopfield.
3. Adaptarea unei structuri pre-existente astfel nct s fie potrivit cu a
aplicaie specific.[JS88]. Aceasta poate include folosirea semanticii sau
a altui tip de informaie pentru a da sens comportrii unitilor sau
grupurilor de uniti de calcul.
n Figura 4.6 sunt prezentate dou tipuri "generice" de RNA. Aceste
structuri sunt doar exemple, dar ele sunt printre cele crora (se pare) li se
atribuie cea mai mare atenie de ctre utilizatori.
Ponderi ajustabile; folosite pentru antrenare

w L1

w L2

w LN
Forma de ieire
(semnal) o

Forma de
intrare x

L1

Ponderi
(memorare)

x(k )

L2

w LH

LH

LN

.....

ntrzierea tuturor unitilor


(posibil asincron)

x(k + 1)
z 1

Figura 4.6 Structuri topologice generice.


144

Structuri tipice

4.6.3 Topologiile i caracterizarea reelelor

Pentru nelegerea topologiilor i a structurilor reelelor ca funcii de


interconexiunile unitilor, distingem cteva concepte:
Reele recurente
Reele nerecurente
Reele stratificate, ierarhice sau orice alt tip de reele structurate n mod
similar.
Structuri competitive.
Tipurile 1 i 2 sunt mutual exclusive; totui, tipurile 3 i 4 se pot aplica fie
structurilor recurente fie celor nerecurente. [Fie94] prezint aceste subiecte n
amnunt, inclusiv modul n care se formeaz straturile, i face distincia ntre
conexiuni simetrice i nesimetrice. n Figura 4.7 i n Figura 4.8 sunt prezentate
exemple de structuri de tipul 3 i respectiv 4.
Rspuns
Stratul neuronal
"Figura"

Stratul neuronal "Tip


muchie" i conectare

Date de imtrare
preprocesate
(caracteristici)

Figura 4.7 Structura unei reele neuronale de tip ierarhizat,


cu procesare paralel (aplicaie de vedere artificial).

145

4/ Bazele reelelor neuronale


Vedere
lateral

Element de
procesare de
baz

Elemente de
procesare

Regiune
Regiune
Regiune
inhibitoare excitatoare inhibitoare
Vedere de sus

Figura 4.8 Structura unei RNA inhibitoare (competitiv).

4.6.4 Complexitatea interconexiunilor i scala problemei

Complexitatea interconexiunilor unei reele poate fi extrem de mare.


Aceasta este critic mai ales atunci cnd se ia n considerare extinderea unei
reele pentru probleme cu dimensiuni mari. De exemplu, s considerm o reea
stratificat (cu propagare direct) capabil s transforme o imagine n n ntr-o
alt imagine n n . Stratul de intrare i cel de ieire vor conine fiecare n 2
uniti de calcul. Mai mult, dac fiecare unitate din stratul de intrare ar fi
conectat la fiecare unitate de ieire (straturi total interconectate), reeaua ar
avea (n 2 ) 2 interconexiuni. n cazul n care n este mic, numrul total de
interconexiuni poate fi nesemnificativ.; totui, scalarea problemei ridic
preocupri practice serioase. Pentru o imagine cu rezoluie medie, n = 512 ,
numrul total de interconexiuni este n 4 = 6,87 1010 !
4.6.5 Interconexiuni de reacie i stabilitatea reelei
Structura cu reacie a reelelor recurente din Figurile 4.1 i 4.6 conduce la o
dinamic temporal a reelei, adic, modificarea n timp. n multe cazuri,
sistemul care rezult, datorit naturii neliniare a caracteristicilor activare-ieire a
unitilor i strategiilor de ajustare a ponderilor, este un sistem dinamic puternic
neliniar. Aceasta d natere unor preocupri legate de stabilitatea global a
reelei, inclusiv posibilitatea apariiei oscilaiilor, instabilitate sau lipsa de
convergen ctre o stare stabil. Stabilitatea reelelor neuronale neliniare este
un subiect destul de dificil i nu va fi abordat n aceast lucrare.
146

Metode de nvare

4.7 METODE DE NVARE


nvarea are sensuri deosebit de largi [Sch90]. Dei termenii se folosesc
deseori n mod alternativ, cei mai muli cititori vor recunoate cel puin
distinciile subtile dintre conceptele de antrenare, nvare i nelegere.
Conceptul de antrenare poate fi neles ca procesul de folosire a informaiei
astfel nct s determine sau s amelioreze comportarea transformrii curente,
f A , ctre f D . n cazul aplicaiilor de asociere a formelor, H poate fi folosit
pentru a ameliora n mod iterativ f

prin compararea rspunsului curent al

sistemului neantrenat, notat r a , unde

r a = f A (s)

(4.8)

cu rspunsul dorit sau int, notat r d , unde

r d = f D (s)
"deplasnd" f

mai aproape de f

(4.9)

prin procesul de antrenare. Desigur, trebuie

s se dezvolte o msur potrivit a "gradului de apropiere".


nvarea se poate baza pe metode deterministe, cum este cazul
algoritmului cu propagare invers (Capitolul 7) sau al nvrii de tip Hebbian
(Capitolul 8), sau pe metode stohastice, cum este cazul algoritmilor genetici.

4.7.1 Seturi de antrenare i seturi de test


S presupunem c proiectantul sistemului cu RNA dispune de o anumit
cantitate de informaie apriori, cum ar fi eantioane de transformri intrare/ieire
sau doar eantioane ale intrrilor, care definesc comportarea dorit a sistemului.
n nvarea supervizat un set de transformri "tipice" I/O formeaz o baz de
date numit set de antrenare i notat H . n sens general, H furnizeaz
informaie semnificativ despre modul n care se asociaz datele de intrare cu
datele de ieire.
O mulime etichetat de antrenare H poate fi descris sub forma uneo
perechi ordonate:

H = {( si , ri )} i = 1,2,..., n

(4.10)

Ecuaia (4.10) reprezint o specificaie pentru un set de transformri de la


la R c . Menionm c (4.10) definete numai un numr limitat ( n ) din
147

4/ Bazele reelelor neuronale

numrul total (posibil infinit) al acestor transformri. de exemplu, digiii din


Figura 4.4 mpreun cu ieirea corespunztoare a RNA, dup cum s-a descris n
paragraful 4.5.2, pot constitui un set de antrenare.
La nvarea nesupervizat, elementele lui H nu sunt transformri ci, mai
degrab, intrri sau stri ale reelei, iar RNA trebuie s determine partiiile
"naturale" sau grupurile eantioanelor de date.
Un exemplu de nvare supervizat ntr-o reea cu propagare direct este
regula delta generalizat (GDR - Generalized Delta Rule). Un exemplu de
nvare supervizat pentru o structur recurent este metoda Hopfield (CAM).
nvarea nesupervizat ntr-o reea cu propagare direct (nerecurent) este
exemplificat prin reeaua Kohonen auto-organizat. Metoda ART exemplific
nvarea nesupervizat pentru o reea cu structur recurent.
Un set mutual exclusiv de transformri suplimentare de forma (4.10)
servete ca set de test. Acest set se utilizeaz, dup antrenare, pentru a testa
capacitatea de generalizare a RNA. Referindu-ne la exemplul de recunoatere a
cifrelor din paragraful 4.5.2, se poate folosi un set compus din caractere
distorsionate, afectate de zgomot i deplasate.

4.7.2 Generalizare
Orice soluie a ecuaiei (4.10), de forma x d = f ( x) , trebuie s satisfac
ecuaia n n puncte din R d . Apare o problem important referitoare la
comportarea n alte puncte dect n x i . Aceasta introduce conceptul important de
generalizare realizat de RNA (Capitolul 7). Un exemplu de generalizare a fost
amintit n paragraful 4.5.2, n discuia legat de problema de recunoatere a
cifrelor. Generalizarea dorit a fost invariana la poziie i la distorsiunile
digiilor cum este cazul datelor lips sau al datelor suplimentare.
Presupunem dat caracteristica S-R pentru o reea cu o intrare i o ieire,
sub forma unui set de patru perechi ordonate. Aceste puncte sunt reprezentate n
Figura 4.9. Att capacitatea de generalizare dorit ct i cea realizat (adic,
dup antrenare) pentru aceast transformare realizat cu RNA pot lua multe
forme. n Figura 4.9, ambele transformri funcionale reprezentate grafic
realizeaz obiectivul de transformare a setului de antrenare (aici, fr erori de
transformare). Probabil c cei mai muli cititori vor prefera generalizarea dat de
curba notat cu 1; totui, menionm c restriciile de transformare furnizate
numai de setul de antrenare sunt satisfcute de ambele soluii. Ar trebui s se
foloseasc date suplimentare (set de test) pentru a testa i ameliora aceast
transformare. Exemplul din Figura 4.9 conduce la o alt problem interesant,
care conduce ctre generalizare. S presupunem c intrrile i ieirile au fost
constrnse s fie discretizate (de exemplu, ntregi). Cum ar trebui s se integreze
aceste restricii n proiectarea RNA, inclusiv prin H , pentru a fi ndeplinite? Cu
alte cuvinte, cum vom fora generalizarea RNA s produc numere ntregi?
148

Metode de nvare

ri

si
Figura 4.9 Dilema generalizare vs. memorizare
n contextul suprapunerii curbelor.

4.7.3 Curbe de nvare


n domenii ca inteligena artificial, nvarea capt o conotaie mai
general, analog ntr-un anumit fel cu procesele de auto-adaptare realizate de
fiinele umane [MCM86], [Sch90]. Un sistem de nvare i poate adapta
structura intern astfel nct s realizeze un rspuns mai bun, poate pe baza
performanelor anterioare, cuantificate. O msur a performanei poate fi
diferena, sau eroarea, dintre ieirea dorit a sistemului i cea curent. Conceptul
generic de nvare este legat de multe tehnici de nvare folosite n RNA,
tehnici care au la baz corecia erorilor (de exemplu, GDR i variantele asociate
din Capitolul 7). n cadrul GDR, ca i n cazul mai general al tehnicilor
gradientului descresctor, sistemul se modific dup fiecare experiment sau
iteraie. Acest lucru poate conduce la o curb de nvare "tipic" n
experimentele biologice, unde P(n) reprezint probabilitatea ca subiectul
(animal sau om) s furnizeze rspunsul corect n a n -a ncercare din
experimentul de nvare. O formul tipic [Bol79] pentru a prevedea aceast
comportare, care de multe ori se potrivete cu rezultatele experimentale, este
P(n) = 1 (1 P(1))(1 ) n 1 , n 1, unde [0,1] este un parametru de
nvare. Atunci cnd asupra lui se impune o restricie, 0 < < 1 , eroarea
iniial se micoreaz n ncercri ulterioare, ca o funcie monoton
descresctoare. Din pcate, aceast performan monoton cresctoare este
adesea dificil de realizat n antrenarea practic a sistemelor cu RNA, dup cum
se arat n Figura 4.10.O alt msur a performanei este viteza de nvare;
totui, nu trebuie s facem confuzie cu viteza reelei pentru aplicaia curent. n
mod normal, nvarea se realizeaz off-line.
149

4/ Bazele reelelor neuronale

4.7.4 Msura erorii i traiectoria erorii


Msura erorii i traiectoria erorii se folosesc n general pentru a conduce i
a evalua antrenarea. Exist diverse msuri ale erorii [Sch97]. Traiectorii tipice
sunt prezentate n Figura 4.10. Menionm c Figura 4.10 reprezint un scenariu
optimist n care eroarea descrete.
Eroarea
(c)

(b)

(d)

(a)
Iteraia

Figura 4.10 Diferite traiectorii ale msurii erorii.

150

S-ar putea să vă placă și