Documente Academic
Documente Profesional
Documente Cultură
CONTROLLER-ELE FUZZY
~r to I
e..
punct de lucru fixat
~~1fo~~
e,=de/dt
(rata de modificare)
(1) "if
the error is zero and
the error_change is small_positive
then
the control_input is smalCnegative."
(2) "if
the errro! is zero and
the error_change is zero
then
the control_input is zero."
(3) "if
the error is smalCnegative and
the error_change is small_negative
then
the control_input is small_positive."
-.1-
(9
(4) "if
the error is smalCnegative and
the error_change is zero
then
the control_input is large_positive."
Aparent, penuu un control optimal ar fi nevoie de mai multe reguli, in special cele
care contin in partea de antecedent propozitii de tipul "the error is positive". Dar s-a
observat experimentat ca in cazul sistemelor cu raspuns lent, un controller care
implementeaza cele 4 reguli prezentate, este suficient.
. Caracteristic pentru aceste aplicatii este faptul ca, pentru toate regulile, vom avea
in partea de chllecedent ;;i consecinte variabile lingvistice carc au acela;;i univers cd
discursului. De fapt controlul poate fi privit ca fiind asigurat de 0 singura regula:
IF
-error(X) and change_error(Y)
THEN
controCinput(Z).
. Implementarpa Sf' face prin construirea unei tabele de decizie care rezuWi din
('_Illltiilarea CelOi 4 reguli.
Mai int§j vom defini distributiile de posibilitate pentru toti termenii lingvistici fuzzy
care pot apare. Pentru 0 astfel de aplicatie se pot folosi:
- LP = large positive
- MP = medium positive
- SP = small positive
- ZE = .zero
- SM = small negative
- MN = medium negative
- LN = large negative
LP 0 0 0 0 0 0 0 0.6 1
SP 0 0 0 0 0 0.6 1 0.6' 0
ZE 0 0 0 0.6 1 0.6 0 0 0
SN 0 0.6 1 0.6 0 0 0 0 0
LN 1 0.6 0 0 0 0 0 0 0
-2a .,
Vom interpreta cele patru reguli ca diagrame funcponale: to~i<-o\ ~\!\.r4- (I)
f'-
5mx-~)
tm
.. f 5({b( ~ ~.r-
~8
1~\
- - - - - - ..-
ge~ ;
---L-2.. :
0 2. 4--4 -2. 0 -2
~ I 2- 4 -4 0 ~ 2- 4
\ I
-1- - - - '--'-
"
i
- - --
--- --
('-:;20 i
Acestea vor pondera distributiile de posibilitate ale ie~irii in felul urmiHor:
scr
yY/ \..
~~ ~
-4- -3 -2.. -~ :
I
0 '\ 2- ~ 4
-o."r \..\JAA
.
L. wi'GC. ~
'{V
I = ~=l
n (\-numarulderegUli)
LWi
i=l
unde GCj este valoarea din universul discursului pentru care distributia de
posibilitate a termenului lingvistic fuzzy din consecinta regulii i este maxima. Dadi
sunt mai multe valori maxime se alege cea cu pozitie mediana fata de maximele
extreme, Evident di aceasta diutare a valorii centrului de greutate devine dificila
atunci cand reprezentarea distributiei de posibilitae nu este simetridL
-it -
26. REGULI DE INFERENTA FUZZY
. Datorita faptului ea regulile fuzzy pot fi euantifieate eu termeni fuzzy de tipul "a
lot of", "several", "more", etc. ele se aseamana eu propozipile limbajului natural
utilizate in "commonsense reasoning". S-a observat, cu ajutorul experimentelor
psihologice, ca una din cele mai utilizatemetode de rationament uman cOl1§tientcare
poate fi modelata in formalismullogicii clasice, este silogismul simplu.
Daca avem doua expresii logice adevarate:
a-)b §l
(a /\ b) -) C
a -) (b 1\ c)
este adevarata.
0 Exemplu.
(VX)(student(X) -) single(X»
(VX)(student(X) /\ single(X) -) maie(X»
--------------------------------------------
(VX)(student(X) -) single(X) 1\ male(X»
. Se poate observa ea silogismul este aplicabil doar in cazuri foarte rare. Exemplul
anterior demonstreaza absurditatea lucrului doar cu doi euantificatori. 0 regula fuzzy
de tipul "if-then", care are asociata 0 valoare de adevar fuzzy de tipul 1 (un numar
fuzzy), ~i care are in plus urmatoarea forma particulara:
(if X is A then X is B) is A
unde A este un numar fuzzy euprins ill [0,1] ~i X 0 variabila simbolica non-fuzzy, iar
A ~i B doi descriptori non-fuzzy sau fuzzy, 0 putem reserie sub forma:
Q (A's are B)
se poate rescrie:
5
('Ai-)
care este mult mai aproape de propozipa: "Most tall men are not very fat".
. Aplica.nd silogismul simplu asupra unor propozipi fuzzy, yom obpne (Zadeh 73):
Ql (A's are B)
Q2 «A and B)'s are C)
------------------------------
Ql 0 Q2 (A's are (B and C»
<> Exemplu.
most students are single.
a little more than half of single students are male.
------------------------------------------------------
(most 0 a little more than a half) of students are singl.e and male.
Ceea ce reprezinta un rezultat cat se poate de normal din punct de vedere al gandirii
umane.
. Silogismul clasic poate avea mai multe forme. Una dintre ele este rezultanta
tranzitivitatii implicatiei:
a--7b
b--7C
a--7C
In terminologia fuzzy acest silogism se nume~te Regula Ynlantuirii ;;i are forma:
Ql (A's are B)
Q2 (B's are C)
------------------
Ql 0 Q2 (A's are C)
<>Exemplu.
most students are undergraduate.
most undergraduates are young.
-----------------------------------------------
mosf students are young.
a--7b
a--7C
a --7 (b /\ c)
in forma fuzzy:
-G-
\."
'"
Ql (A's are B)
Q2 (A's are C)
----------------
Ql 0 Q2 (A's are (B and C)}
. Exista forme de silogisrn care nu sunt tautologii. Cu toate acestea, datorita utilizarii
euantificatorilor, rezultatele acestor silogisrne au 0 valoare parpala de adevar (relativ
la un univers al discursului rnai restrans).
Un exemplu este Silogismul coniunctiv peste antecedenti:
Ql (A's are C)
Ql (B's are C)
----------------
Ql 0 Q2 «A and B)'s are C)
S-au construit sisteme expert care utilizeaza aceste reguli de inferenta, combinate cu
aplicarea regulii "modus ponens" fuzzy prin intermediul operatorului de compozitie
intre distribupa de posibilitate a antecedentului ~i relapa fuzzy asociata regulii.
Silogisrnele fuzzy ne permit erearea in mod dinamic de noi reguli. Problema care
apare este ca pentru aceste noi reguli trebuie in mod dinamic sa stabilim matrici ale
relatiilor fuzzy asociate. Mai sirnplu este sa consideram aceste noi reguli non-fuzzy
~i sa ata~am fiedireia un factor de certitudine fuzzy derivat din cuantificatorul asociat.
. Ideea de baza a acestui tip de abordare este urrnatoarea: Dadi simbolurile care
denota concepte sunt memorate in mod asociativ, grupuri de astfel de asocieri
reprezentand piese de cunoa~tere, atunci eel mai potrivit model computational de
reprezentare este graful.
. Un graf care contine in nodurile sale concepte, iar arcele denota relatii de asociere
semantica intre concepte, se nume~te retea semantica. Aceasta definitie este foarte
generala ~i exista mai multe variante precise de implementare :?i pro cesare a lor.
. Prima idee de construire a unor astfel de retele a fost orientata pe sintaxa. Piesele
de cunoa~tere erau enuntate intr-un subset allimbajului natural (eu reguli gramaticale
fixe) :?i erau traduse in arbori sintactici (grafuri orientate aciclice - DAG). Astfel de
reprezentari erau prea sarace din punct de vedere semantic, de~i pentru limbajele de
progamare de exemplu, semantica este complet explicitata de sintaxa.
Cu toate ca pentru raponament erau improptii, DAG-urile au fost intens folosite
pentru traducerea dintr-o limb a in alta (problema pe care unii 0 considera 0 problema
-7- .
fW
de inteligenj:a artificiala).
0 Exemplu. Propozipa "Sarah fixed the ,!ftair with glue" va fi reprezentata pr.in:
-bmQ..~~
olo\L£i
ISA'o-~1 ,~ I'- ~ I
l
~ b
l~ \';.<ID.eu.A. ~ e-
\ ~~ L-
r t X
L
.
~t
~~~~
:t\~€-.-7-0
a>~ecl- '~O~"\A»vt-
--~()
._~() ~--
~ ~~~~ _\~
??
-~~-
/'
.
- s -
((()ntinuiUea capitolului 27)
. Idt'Zl de ZIlimita nUl11arul de relatii intr-o retea semantica s-a reflectat ee1l11ai bine il1
modt'lul grafurilor de dependenta conceptuala propus de Roger Schenck in 1974. De~i
l'ste eonsiderZlt ~i la ora actuala cel mai riguros Ill.odel de reprezentare a propozitiilor
!il11bZljului natural, din punct de vedere al rationalTlentului automat nu este un model
Zldt'evat, toemai datorita rigiditatii sale excesive. 0 idee valoroasa a fost adaugarea la
<1Ct'st model a unor relatii de temporalitate, care sa fixeze in reprezentare ;;i
sec\!t'ntialitZltea aqiunilor descrise in limbajul natural, idee dezvoltata de Terenziani in
c1llii 't.m
. () alternativa la structura explicita de graf (de;;i in esenta, este tot vorba de grafuri)
l'Stt' cadrul Minsky (Minsky frame 1975). In acest model, 0 piesa de eunoa~tert' t'ste
\.azuta ca 0 eoleqie de informatii stucturate tabelar, toate referindu-se la un anumi t
cZldrll din ViZl}Zl
cotidiana.. 0 parte din informatii sunt explicite, altele sunt precizate doiU
F>rinrestriqii, altele nu sunt completate. Fiecare linie dintr-un astfel de tabel se nllme~te
slot. TZlbelul are ~i el un nume ?i poate face parteJ dintr-o ierarhie de concepte.
RZltionamentul bazat pe astfel de structuri este Jfoarte simplu. Fe baza unor informatii
provenite de la utilizator (simboluri) se pot ale'ge din baza de cuno~tinte toate cadrele
care contin aeeste simboluri ~i apoi (eventual) sunt grupate intr-un graf derivat din
ierZlrhia generala. de cadre descrisa la construirea bazei de cuno?tinte. Cadrele care au
slot-uri incomplete vor fi completate punand intrebari utilizatorului. Dadi frame-urile
sunt dispuse intr-o ierarhie atunci unele slot-uri pot fi completate datorita mo~tenirii
Ul1l1ratribute specifice de la superclase. Unele atribute completate de utilizator (SiW
automat prin mo?tenire) vor duce la alegerea unor noi cadre din baza de cuno?tinte, care
\Tor fi completate la randul lor, ?a.m.d. Acest model de rationament se nlU11e~te
modelul "blackboard".
1
(;D
~
26. GRAFURILE CONCEPTUALE
Ddinitie: Un graf conceptual este un graf finit , orientat, conectat ~i bipartit. Noduril,
sllnt fie concepte, fie relatii conceptuale. Arcele nu sunt etichetate, iar nodurile care slIn
de tipul relatii conceptuale reprezinta relatii semantice intre concepte. Conceptele pc)
,1veZlMce comune doar cu relatii conceptuale, iar relatiiJe pot avea arce comune dOM Cl
c(1nCt'ptt'.
f't'ntrLl a distinge cele douZi tipuri de nodllri, vom iJustriJ conceptele prin nnduri de':-l'!1,1tc
ill f('rIH,1 de dreptllnghi, iar relatiile vor avea nodurile desenate in forma. elipsoidala
0 Exemple:
[~g\) }
\'bo~ 1
,
CT\\ \.1:>
. Nndurile concept pot contine simboluri care denota obiecte concrete sau care denota
c1bit'cte abstracte. Fiecare graf conceptual va reprezenta 0 piesa de cunoa\,tere, care initial
va fi enuntata de catre expert intr-o forma propozitionala. Traducerea din forma initiala.
in forma interna. este 0 problema separata, de tratare a limbajului natural, ~i poate fi
rezolvata pe mai multe cai.
() (1bservatie interesanta este urmatoarea: indiferent de limb a in care au fost descrise
cllno~tintele, ~i indiferent de metoda de traducere, forma finala a unui grup de
cLlno~tinte reprezentate ca ;;i grafuri conceptuale este aproximativ aceia;;i.
. Cel mai important aspect al sistemelor bazate pe grafuri conceptuale, este utilizarea
(in mod necesar) a unui sistem de mo~teniri. Fiecare concept utilizat intr-o baza de
cuno~tinte trebuie sa. fie asociat unei clase. Asocirea poate fi facuta fie printr-o relatie de
'2
tipul apartenenta la clasa, fie conceptul denota clasa respectiva. In ultim.ul caz conceptu!
Sl:' l1l11ne~tE'concept generic.
in grafurile conceptuale care compun baza de cuno~tinte, toate conceptele trebuie
t'tichetate cu identificator de tip, care indica clasa din care fac parte.
Un concept care denota un membru al clasei se nume~te individualitate.
0 Exem.plu:
~.
f't'ntru un concept generic in locul etichetei de tip, yom avea semnul *,care indica faptul
cZisimbolul din nodul respectiv denota clasa insa~i. De exemplu:
Pies.} de cunoa~tere: "The dogs scratch their ears with their paws" se reprezinta in felu!
llrma tor:
. Alta sursa de ambiguitate sunt numele proprii. De exemplu, "John" fiind un mane
raspandit , folosirea lui poate insemna 0 referire la toate persoanele cu numele John,$i
nu la. un anumit individ.
3
:!
c9 J
In Zlcest CZlZse folose$te un marker. El se noteaza cu # urmat de un numar llllic pental
fiecZlH) concept individual. Mai mult, pentru indicarea unui nume propriu se folose$te
0 relatie dedicata, iar numele proprii nu vor apartine nici unei clase, fiind considerate
simple ;;iruri de caractere.
<> Exemplu:
~ ~ ~3S'-\
~dO"'\'\. II
Astfel, daca. apar intr-un graf conceptual doua persoane cu acela~i nume, ele vor fi clar
separate. Cu ajutorul relatiei name putem evita ambiguitati care pot apare in propozitii
capcana CUlTlsunt: "Chimpanzee is the name of a species of primates", reprezentata prin:
1"\\N..c..
-\''-'\ : *
\~ C\li'CV\fo.Y\1e ~
sau cazulin care un individual are mai multe nume alternative: "Her name was McGill
and she called Herself Lil, but everyone knew her as Nancy" (The Beatles 1967)
reprezentata prin:
\a ~
~ \V\~~\\,
\ L,t \
. De~i toate modelele de reprezentare prin retele sernantice nu au un fundament
matematic bine definit, partea de ierarhie conceptuala cu mo;;teniri poate fi puternic
fonnalizata. Instrumentul matematic care ne permite acest lucru, este structura algebrica
~
dc' lclticC'.
DefinHie: 0 latice este 0 multime parpal ordonata, avand proprietatea ea once parte
finita a sa are un minorant (infimum) ~i un majorant (supremum).
Relafia de or dine se noteaza eu ::>~i are urmatoarele proprietati:
(Consideri:hnn = (L :S) 0 struetura algebriea unde L este multimea simbolurilor
I
fulosi te.)
. Supremum pentru multimea B (majorantul), notat sup B (B ~ L) este eel mal m.le
dement al marginilor superioare ale lui B, definite astfel:
x E L este 0 margine superioara a lui B dadi pentru toti b E B avem b ::>x.
Infimum de B (minorantul), notat inf B, este eel mai mare element al marginilor
inferioare a lui B, definite astfel:
x E L este 0 margine inferioara a lui B daca pentru top b E B avem x ::>b.
. Intr-o ierarhie de clase, daca t ::>s, s se nume~te supreclasa iar t subclasa. Daea s ::>t
$i s ::>u, s este 0 subclasa comuna a lui t ~i u. Daca t ::>s ~i u ::>s, s este 0 superclasa
comuna. a lui t $i u.
Este foarte util ca pentru orice colectie (multime) de concepte incluse in ierarhie sa
putem. detennina 0 superclasa comuna minimala ~i 0 subdasa comuna maximala
Ccorespondente ale majorantului ~i respectiv minorantului). Acest lucru este important
pentru ca intr-un sistem expert, intr-o astfel de structura se memoreaza ~i 0 serie de
atribute (features) asociate claselor.
Cunoa$terea minorantului ~i a majorantului asociate unei multimi de concepte ne poate
conduce la 0 distributie corecta -~i neredundanta a informatiei din ierarhie.
. Superclasa comlma minimala a unei colectii de dase este locul potrivit pentru a defini
atributelor comune ale acestor dase.
Subclasa comuna maximala a unei colectii de dase este locul unde se regase~te prin
mo~tenire, toata informatia asociata aces tor dase.
Se poate intampla ca doua clase complet diferite (de exemplu clasa "emotii" ~i clasa
;'pietre") sa nu aiba superclase sau subdase comune. Pentru d din punct de vedere
computational, reprezentarea ierarhiei se face printr-o structura de tip graf, trebuie sa
avem un minorant ~i un majorant pentru toate dasele.
Pentru aceasta se definesc:
- clasa universala, notata T (Top) care este 0 superclasa a tuturor daselor.
- clasa absurda, notata 1- (Bottom) care este 0 subdasa a tuturor daselor.
0!J
it:'rarhiei.
Pentru a asocia atributele la clase, pornim de la cea mai mare submultim.e a lor, calculam
superclasa comuna minimala unde vom plasa atributele comune ale acestor clase, ~i
generam apoi iterativ toate submulpmile de cardinalitate mai mica, repetand procedura.
In final VOIll.plasa atributele care sunt individuale fiecarei clase.
..
~
i ......... . . - - -- ..
,.
,
\hd.iv ,4U o.,\,;a..-\e. ~J.. ?-
~. l
6
Considerand gl $i g2 doua grafuri conceptuale, definim:
0 Exemple:
,
~c.\\C~~ "~~
~, ~
t'b.~
'.* X
~\.,()RS ~ br()~
"o~ :
~"'\~~s '. ~~~
( ~e.'t\
~~
7 -, ,..
(.1.~)
. Cum funqioneaza. un sistem expert bazat pe acest model? Utilizatorul formulea.za. 0
intrebare in limbajul natural (care poate fi un text format din mai multe propozitii) ~i cu
a.jutorul unui interpretor specializat ea este tradusa in forma unui graf conceptual (sau
mai multe, caz in care intre ele se executa operatia de combinare).
Dupa. aceasta se executa operarii de combinare intre grafurile de intrare ~i cele din baza
de cllno~tinte. Operatia de combinare nu este intotdeauna posibila, ~i pentru a facilita
Zlcest lucru se pot face operatii de specializare relativ la clase ~i individualitati pentru
toate conceptele din cele doua grafuri care urmeaza a fi combinate la un mOlnent dat.
Procesul este iterativ, dupa combinarea a doua grafuri se obtine un al treilea care va
deveni operandul 1 in operatia de combinare urmatoare. Operandul 2 este unnatorul
graf din baza de cuno~tinte. Daca la intrare am avut mai multe grafuri care nu au putut
fi combinate, se vor obtine mai multe "linii" de combinare, care la un moment dat pot
~j r,c;unite (atunci cand rezulatele parpale au noduri concept comune).
In fina.l se obtin unul sau mai multe grafuri (de obicei unul singur) care vor fi
specializate la maxim. Cu ajutorul unui generator de limbaj natural, acestea sunt
parcurse ~i traduse intr-un text imbunatatit cu toata informatia posibila care poate fi
extrasa din ierarhia de mo~teniri (calculandu-se subclasa comuna maximal a a grafurilor
finale). Rezultatul va fi un text care va contine implicit ~i intrebarea initiala, dar va mai
contine foarte multe informatii care au 0 legatura semantica cu intrebarea.
.reguli
Operatiile prezentate se numesc reguli de fannare cananice ~i nu pot fi considerate
de inferenta. Ele nu garanteaza matematic ca din grafuri cu valoare de adeva.r
precizata se pot deriva tot grafuri cu aceia~i valoare de adevar. Proprietatea importanta
" a.cestor operatii este ca. ele pastreaza sensul (sau nonsensul) propozitiilor initiale.
." L~xi<-,tJdoua extensii consacrate ale acestui model. .Prima este ~',ilizarca nodurilor
propozitie. Daca. 0 singura piesa de cunoa~tere este formata din mai multe propozitii
Cltunci este sa se defineasca 0 hiperrej:ea a carei noduri sa contina la randullor retele
semantice.
0 Exemplu:
l.~-1 )1 p )1
In acest caz operatiile canonice de formare trebuie modificate, astfel incat ele sa aiba
efect pe doua nivele, unul conceptual ~i unul propozitional.
8
30. MODELUL COMPUTATIONALCONEXIONIST
. Din start trebuie specificat un aspect deosebit de important: conexionismul este un domeniu
~tiinlific care este foarte apropiat de matematidi §i foarte departat de anatomie ~i neurofiziologie.
Exisra domenii ~tiin}ifice care se ocupa eu model area matematidi a creierului de la diverse
organisme vii, dar ele sunt la inceput de drum ~i nici nu au la ora actualil denumiri acceptate (un
exemplu este subdomeniul numit "brain mapping" care se ocupa cu identificarea ~i modelarea
matematica a unor funCJii de baza in organismele vii - la ora actuala se studiaza intens modul in
care funqioneaza creierul ~obolanilor ill probleme de orientare).
. Conexionismul ofera un model computational, .un alt mod de a implementa 0 c1asa anume
de algoritmi care sunt foarte dificil de realizat. Este vorba de algoritmii de clasificare. De
exemplu,pentru un copil de 5 ani este relativu~orde inva}atsa deosebeasca10 tipuri de frunze
de copaci (stejar, ar}ar,etc.), mult mai u§or dedit sa invele tabla inmullirii sau sa extraga un
radical. Pentru un sistem bazat pe modelul computa}ional Von Neumann, este foarte u~or sa
scriem algoritmi care pot efectua calcule aritmetice complicate, dar incomensurabil de greu sa
scriem algoritmi care c1asifica frunzele. Un model computational care ar putea surmonta acest
dezavantaj §i-ar putea gasi aplieatii mai ales ill domeniul vederii artificiale, neeesare pentru roboJi
~i alte dispozitiveinteligente. Exista insa §i modalitati de a folosi acest model pentru construirea
unor sisteme expert care luereaza eu euno§tinte eu un grad mare de ineertitudine.
~~
~ @f;)
b~
FunCJionareala nivel micracelular a fast deseoperita la sfiir~itulanilor '60 (premiul Nobel 1963)
dar in contextul diseu}iei despre un model matematic derivat din aceasra structura, aceasili
funqionare nu este relevanta. Mult inainte de aceasta descoperire, doi matematiceni au propus
1
/:-.7;\
un mod de funq:ionare, care s-a dovedit a fi fals, dar este considerat punctul de plecare In
cercetarea conexionista.
. McCulloch §i Pitts au afirmat in 1943 ca neuronul se comportli in urmatorul mod: Prin sinapse
eI acumuleaza sarcina e1ectrica.provenind de la axonii neuroni1or vecini, ~i in momentul In care
aceasta sarcina depa§e§te 0 anumitli valoare numitli prag (threshold) neuronul este activ (is
firing) transmilftnd prin axonul sau (vazut ca 0 ie§ire) un curent constant. Matematic, acesta
funq:ionare poate fi ilustraUi de formula urm~itoareIn care Teste valoarea de prag, U este
valoarea de ie§ire a neuronului activ, iar Xisunt intrarile (valorile primite prin sinapse):
n
U daca (I>".1) T
1:1
0 = n
(1 )
0 daca C:E x.1) <T
1=1
~i de schema funqionaUi:
\\.
C'
~~
LXL
~ \uQ=
,... ~-:
Xh.~
{\~ 1--
<-)~
pe care 0 vom numi de acum unitate de procesare ~i nu neuron.
. Daca vom considera di U=l ~i T=1..n (modelul cu valori unitare) putem construi cu ajutorul
acestor unitil}i de procesare, circuite logice de tipul AND, OR, NAND §i celule de memorie:
x,
AN1>\X)
>(\0\..-
~tcTc.\,\
~-{ T 1~ 1
---
oe~x,\
- ~c:J
X,
~
X.2 IDGlJ
:~ ~ \~~
1T
><~/
CEU)~ 'Dt M~MORiE
-2
Cei doi matematiceni au enunj:<Hposibilitatea ca creierul umanSa fie 0 imensa coleclie de astfel
de circuite logice care proceseaza informa}ia intr-un mod asemanator cu calculatoarele digitale
ale caror model era definitivat in aceia~i perioada. Aser}iunea lor s-a dovedit a fi gre~ita, dar dupa
cum a fost descoperit ulterior, neuronii funqioneaza oarecum dupa modelul activarii la atingerea
unul prag.
X4
.-
"',----- 1Ii.
~
><z
~l)
'>('t\..
.t~.r
Pentru simplitatea fonnalismului, yom nota suma ponderata ce reprezinta intrarea totala in
unitatea de procesare cu hi.
n
(3 )
hi = j=l2: Wj"Xj
0 astfel de unitate poate fi vazuta ca un procesor de informa}ie foarte primitiv. Daca legam un
c, tr
-
numar foarte mare de astfel de procesoare illtre ele, ob}inem 0 ~a numita retea neuronalu
artificiala, sau mai corect spus, 0 structura de caJcul conexionista. Modulin care facem legatura
se nume§te topologia relelei, iar aceasta va determina utilizarea ei, precum ~i modul de calcul
a ponderilor.
Calculul ponderilor poarta denumirea de invatare, metodele (in general iterative) de calcul fiind
cunoscute sub denumirea de algoritmi de Inva}are sau antrenament (learning algorithms).
. Cea mai simpla topologie 0 are structura conexionista numita perceptron. Acesta a fost
inventat de Frank Rosenblatt la InceputuI anilor '50. EI are urmatoarea structura:
1-- __n' --
D~'
Xj - ~
X~
. . «t:~~:-~
trz (~Q~\\.l-~~ :
cli ~
Xv-..
~.~
VN\ ~~
unde se poate observa di fiecare intrare Xjeste multiplicata pentru toate unitalile din re}ea, care
vor avea fiecare n intran. Putem sa ne imaginam di punctele de multiplicare sunt tot unitali de
procesare (care formeaza un prim nivel), dar care au 0 singura intrare, cu pragul negativ infiniL
eu ponderea unitara care transmit valoarea din intrare catre toate unitalile de pe al doilea nivel.
---65tfel de unitap poarta denumirea de "fan-out units".
~ Dac[i aplicam pri:icipul de Invdlare a lui Hebb, putem lucra in felul urmator: PUnti II toale
ponderile pe zero, pragurile de activare ale unitalilor de pe nivelul doi pe valoarea I, ~i construim
(pledind de la domeniul problemei pe care vrem sa 0 rezolvam) un set de tipare de invatare
binare.
. Un tipar de invalare binar este 0 pereche de vectori cu valori binare, unul de lungime n
(numarul de unita}ide pe nivelul unu) §i ceUUaltde lungime m (numarul de unita}ide pe nivelul
doi). Rosenblatt a construit un numar de 26 de tipare, corespunzatoare literelor din alfabetul
englez. 0 astfel de multime de tipare se nume§te baza de Inva}fue. Algoritmul de Inv3.}areeste
urmatorul: Prezenram la intrarea relelei vectorul unu al unui tipar, activand unit3.}ile
corespunzatoare-valorilor 1, prezentam la ie§irea relelei vectorul doi al aceluia§i tipar, activand
unitii}ile de pe nivelul doi corespunzatoare valorilor I, §i diutam perechi de unitali care sunt
V9v conectate ~i sunt active simultan, crescand ponderea conexiunii dintre ei cu 0 valoare subunitara
~ Aceasta se alege In funclie de numarul de tipare de Invalare.
Dupa ce prezent1imrelelei toate tiparele din baza de Inva}are, ponderile vor fi modificate astfel
incat prezent8.nd la intrare un vector unu dintr-un tipar, activand corespunzator unitalile de pe
primul nivel §i calculand ie§irile din unita1ilede pe nivelul 2, oblinem de obicei vectorul doi din
tiparul de Inva}are respectiv. (~~.~t;~ )
. Pentru 0 mai buna funC}ionare a acestui algoritm, s-au inventat 0 serie de imbunat3.}iri (la
sffir~itul anilor '50). Yom introduce urmatoarele notalii:
.4-
-0 este vectorul de ie§ire
- X este vectarul de intrare
- g(h) este funclia de transfer a unitli}ilorde pe strand doi (funqia treapta-formula 2)
- W este matricea ponderilor, care are m linii §i n coloane, avand pe 0 LinieponderiJe asociate
unei unitali de pe nivelul 2.
se obtine H care este vectorul fannat din intrarue unidltilor de pe stratul doi. Daca. aplidim
asupra elementelor acestui vector functia g(~), yom obtine yectorul de ie~ire~ t}f'
.
Daca avem p tipare de lnvatare Ie yom nota cu (~'\~"), p=1..p. 0 imbunatatire a algoritmului
prezentat anterior este urmatoarea:
- se aplica un vector ~ la
intrare ~i se calculaleaza O. Daca 0 ie~ire OJ coincide cu valoarea
asteptata ~i ponderile Wjj sunt lasate nemodificate. Daca ie~irea obpnuta nu coincide eu ie§irea
a~teptata, se modifica ponderile In felul unnator:
nou - v9chi A
(5 )
Wij - Wij + L1Wij
..1\
unde:
!1 W..
~J
=
{
2 "11"~'~~
0
daca
al tfel
.¥01()
~-~ ;:
( 6')
unde:
n
(7 )
0] = g(E
jzl
Wij'~~)
Daca lucram cu valori binare de tipul {-I, I} in locul yalorilor {O,I} putem Inlocui formula)7f b
cu:
(8 )
!1Wij = 11 (1-'~'0.f) '~'~j = 11 (,~-o.f) ~j
pe care 0 yom numi eroare locala, yom putea scrie regula de inviitare:
A wij -- '" .() i11.r:'-oj11
'I
(10)
Q
de gre~elile pe care Ie face releaua ~i Incearca sa Ie corecteze, decreme!1J13nd dadi este cazul, 0
parte din ponderi. Experimental s-a observat dl acest algoritm (numit §ii"delta rule" - Widrow
& Hoff, 1960) funclioneaza muIt mal bine dedit regula Hebb simpla, mai ales dadi prezentam
de mai muIte ori relelei la Inva}are, baza de Inva}afe,luand de fiecare data tiparele in aW'iordine
(de preferinla aleatoare). Etapa de calcul a modificarilor ponderilor prin tratversareaa singura data
a bazei de invalare se nume§te epocii.
Un factor de performanla relativ al oricarei structuri computaponale concxioniste este numarul
de epoci necesar pentru Invalarea tuturor tiparelor.
. De obicei, nu putem Invala toate tiparele. Este a slabiciune a modelului conexionist, dar exista
tehnici care ne pennit sa antrenam releaua astfel lnCat aceasta sa poatta identifica marea lor
majoritate (peste 98%). Sunt cazuri In care dorim ca releaua sa refaca la ie§ire vectori care nu
sunt identici cu cei din baza de Inva}are, dar sunt foarte asemanatori (un exemplu este
transmiterea incomplera a informapei). In acest caz trebuie sa ne mai definim un parametru al
performanlei la inva}are, ~i anume eraarea totala relativa la toate tiparele. Aceasta se define~te
ca:
p m
E =L L ~~ (11 )
11=1 i=l
Se poate observa ca eroarea maxima este produsul m'p dadi vectorii au valori binare din 1O,I }
~i dublul acestuia dad valorile binare sunt {-I, I}. Eroarea totala se impane la eroarea maxima
~i se obline eroarea relativa, care poate avea a interpretare procentuala. Epocile de Invalare vor
fi oprite atunci cand eroarea scade sub a anumira limira maxima admisa, sau dad devine
constanta, indiferent de numarul de epoci.
. Perceptronul a fast folosit cu succes intr-o serie de aplicapi, dar s-;a observat a anumitii
plafonare a performanlelor. Matematic acest lucru a fast demonstrat In feInl urmator: ponderile
pot fi calculate direct daca vectorii ~preprezinra 0 baza In spapul vectorial n-dimensional (de fapt
intr-un hipercub de dimensiune unitara) iar vectorii ~p0 baza In spapul vectorial m-dimensional
(§i unii §i allii sunt liniar independenp). Nu se mai pune problema valorilor binare. In acest caz
particular, prin rezolvarea unor sisteme de ecua}ii liniare se poate determina matricea ponderilor
W, iar releaua va funcpona cu eroare O. Daca vectorii ~ nu sunt liniar independenli, dar gradul
lor de acoperire este forte mic, iar vectorii ~ liniar independen}i, releaua va putea fi antrenata la
fel de bine. Cu cat gradul de aeoperire al veetorilor de intrare inv3Ja}i este mai mare cu atat mai
putin va fi posibila clasificarea lor corecra. Avantajul modelului este ca. in cazul aplicarii unei
intrilri care nu a fost lnvalata, dar seaman a cu una din baza de Inva}are, ea va fi in general
recunoscuta. Acesta este marele avantaj al perceptronului §i al derivatelor sale, robustetea la
aplicarea unei intrari perturbate.
. Pentru perceptron, aplicapa cea mal sirnpHldin punet de vedere al sistemelor expert este
estimarea Bayesiana. In fond este vorba de aceia§i problema de matematicii (se da a populalie
statistica §i pe baza ei noi trebuie sa luam 0 decizie pentru un set de evidenle date) dar rezolvata
cu un aIt instrument matematie. Se poate demonstra ca pentru perceptronul simplu, performanlele
oblinute In contrast eu inferen}a Bayesiana sunt mal slabe, deei nu ar fi avantajos sa folosim acest
model in problemele de diagnoza. Marele avantaj pe care 11ofera relelele conexioniste (§i se va
G
evidenlia 1n continuare di exista structuri §i reguli de antrenare mai bune) este factorul viteza.
Dadi pentru a generea 0 inferen.ta Bayesiana trebuie sa travers am 0 populatie statistica de mari
dimensiuni, contorizand valorile propozi}ionale, la perceptron nu trebuie dedit sa 1nmul!im 0
matrice (de dimensiune nr.linii=nr.ipoteze §i nr.coloane=nr.evidente) cu un vector de evidenJe
generat de utilizator. Timpul mare de procesare este necesar doar pentru faza de antrenare.
. Daca ~i vectorii de ie~ire pe care re}eaua trebuie sa-i Ynvete, nu reprezintli 0 baza, atunci se
poate intampla ca reteaua sa nu poara fi antrenara niciodara. Minsky & Papert au publicat in 1969
caftea "The Perceptron", in care prezentau toate aceste studii matematice, iar contra-exempluI
consacrat care a stop at pentru 0 vreme investi}iile In acest domeniu a fost problema XOR-ului,
care a eonvins pe majoritatea speciali§tilor din domeniul inteligentei artificiale ca perceptronul
nu poate fi utilizat dedit in probleme de c1asificare simple.
Problema XOR este urmatoarea:
~ AW1-rD~
(-----
A
I r A BIf\eB
I '-' :---"'''1 l!;). /~ C\)~)
00 '0 @ ,.
0 "\ 1
0
0 / C0
,JD
(O)D) / ~
( ~[)
)
tip treapta. Pentru 0 astfel de releiunitatea care este activata este unitatea cu valoarea de intrare
cea mai mare. lntotdeauna se va "aprinde" la ie§ire doar 0 singura unitate.
. Acest mod de invalafe nu are aplicatii directe ill domeniul sistemelor expert, dar exista un
exemplu care poate fi folosit pentru procesarea simbolica, §i anume releaua Kohonen (1977).
. Intr-o relea Kohonen, unitillile de ie§ire sunt marcate prin etichete, §i sunt ordonate parJial sau
spalial dupa 0 anumitil metridi stabilit! de utilizator. SpaJiul vectorilor de intrare este ]R".
Ponderile unitajilor de ie§ire sunt actualizate astfelilldit vectori care sunt puncte vecine in spaliul
n-dimensional sa dud!. la activarea unor unitilJide ie§ire "apropiate", relativ la metrica impusa
de utilizator. Evident, numarul de unit!Ji de ie§ire trebuie sa fie mai mare decat n
(dimensionalitatea spariului vectorilor de intrare). Aceast! mapare, care reprezinta 0 discretizare
a spariului vectorilor de intrare, se spune ca este topologica.
Ca aplica1ie imediat!, se poate construi 0 relea care preia 0 informa1ie dintr-un spaliu multi-
dimensional §i 0 reprezinili grafic intr-un spajiu bidimensional discret construit pe baza unei reIele
de unitali dispuse intr-o matrice. Se considera ca vectorii de intrare vin intr-o secvenla, fiecare
vector determinand ca 0 anumitil unitate de ie§ire sa fie dec1aratilca§tigatoare. Pixelul asociat
unitil1ii respective va fi aprins, iar intreaga secventa va duce la desenarea unei forme (de obicei
graficul unei funcJi.i)pe ecran.
Formula de actualizare a ponderilor este:
-rFJ:-
care se apEca pentru unitatea ca§tigatoare cu valoarea d(i,i)=l obligatorie, §i se aplica '§i pentru
toate celelalte m-l unitilli, pentru care d(i,k) va fi 0 valoare subunitara reprezenmnd distanla de
la unitatea i la unitatea k, confonn metricii stabilite de utilizz.tor. Pentru 0 singura dimensiune
a spaJ:iului reprezentat topologic de unit!Ji.1e de ie§ire se alege metrica Gaussiana:
~,g .
J'
Iteration 0 Iteration 200 Iteration 600 Iteration 1900
'8
- -- u
31. PROCESAREA SIMBOLICA SI MODELUL CONEXIONIST
. Exista mai multe posibilita}i de a realiza aceasta interfatare. Cea mai simpla este
reprezentarea locaHi. Aceasta presupune legarea unui simbol de 0 unitate. Prezenta unui
simbo!" la intrare duce la activarea' unita}ii asociate, iar activarea unei unWiti de ie~ire
inseamna apari}ia simbolului asociat. 0 astfel de reprezentare poate duce la retele cu un
numar exagerat de unitati.
Reprezentarea distribuita presupune codificarea simbolurilor sub forma unor vectori
binari sau reali, rezultand un numar mult mai- mic de uniffi}i necesare.
0 forma intermediara de reprezentare este cea semilocala care plead, de la ideea ca un
simbol este reprezentat de activarea unei submul}imi de unita}i.
. Vom nota vectorul de intrare cu x ~i il vom construi din doua componente: una care
va identifica simbolul, notata Xstcare va avea 0 reprezentare pur locala:
Xsl = [ c 0 ... 0 ]t
xs2
= [ 0 C . .. 0 ]t
xs16= .[ 0 0 . .. c ]t
small I I 1 I 1 I 0 0 001 0 0 0 0 0
is medium 000 0 0 0 I I 1 1 0 0 0 0 0 0
big 0000000000011 1 I I
2 legs I I I I I I I 000000000
4 legs 0000000 I I I I 1 I I I I
hair 0 0 0 0 0 0 0 I I I I I 1 I I I
has hooves 000 0 0 0 0 0 0 000 0 I I I
mane 000 0 000 0 0 I 001 I I 0
fealhcrs 1 I 1 I I I 1 0 0 0 0 0 0 0 0 0
(~~)
Vectorul x va fi compus din cele doua componente concatenate:
X=["s Xa r
. Valoarea c se alege in a;;a fel indit lungirnea vectorilor de intrare sa fie aproxirnativ
aceia~i, condipe fara de care invatarea nu se poate desfa;;ura corespunz2itor.
S-a observat ca dupa un numar de 2000 de epoci de invatare, pornind de la un set de
ponderi mid aleatoare, harta celor 100 de unitati de ie§ire ordonate planar va prezenta
0 sensibilitate localizata pentru cele 16 simboluri folosite. In figurile unnatoare se poate
observa cum se activeaza unitaple de ie;;ire dupa regula ca;;tig2itorului, dupa ce reteaua
a fost antrenata, daca prezentam vectori de intrare identici cu cei de invatare, sau foarte
putin diferiti de ace;;tia.
Neurons - I 2 3 4 5 6 7 8 9 10
duck duck I ho= ~ I zebra zebra I cow cow cow cow
2 goose goose goose I zebra ubra :zebra' wolf wolf I tiger tiga
3 .' tiger goose goose lluwk hawk luwk I wolf "'Olf wolf I tiger tiger
41g00se . . wolf. luwk hawk hawk I wolf "'Olf wolf I lion lion
5 . haw\:.
owl I hawk hawkI dog dog dog I lion lion
6 owl lion
7 I dove . dog
dove dove: I owl owl owl I dog dog dog dog I lion
8 dove dove:I eagle eagle cagle I dog dog dog dog cat
.~'~':--:'"'!;--"'\"~'~ ' .~:~,y, ,"",i!,'.'.
',., ;, "
9
.
.', '.I~.
e.ag-
J
.., ,.',,, . ...: ~. . '.";.I,,
. """;';'''.._~.-,
"+'fD'C,I--.-
'. ben hen I eagle cagle cagle I fox fox fox cat cat
-,.2,
32. MODELUL FIZIC
. Un mare pas inainte in domeniul conexionist a fost fkut la inceputul anilor '80, ca.nd
s-au adus 0 serie de imbunMatiri structurii ~i funcponarii sistemelor conexioniste.
Acestea au fost introduse de speciali~tii din domeniul mecanicii statistice. Pentru a
intelege mai bine noile principii este necesara 0 incursiune in domeniul fizicii
materialelor cu proprietap magnetice.
Un material magnetic este compus dintr-o rete a regulata de atomi magnetici. Fiecare
atom are asociatio rlliirime numita spin magnetic, care este un vector care indica intr-o
anurnita directie. Un caz particular este cand acest vector are daar doua direcpi permise,
caz in care spinul poate fi memorat intr-o variabila binara SjODaca alegem valorile {-I,l}
vom obpne un model fizic simplificat, numit modelul Ising.
Hi = (I: Pij'Sj)
j
+Hr;xt (1 )
. Rejeaua conexionista bazata pe aceast model este topologic diferWi de perceptron, Intr-
0 astfel de retea fiecare unitate este legata de toate celelalte unitap. Toat~ legaturile sunt
ponderate. Nu exista diferentiere mtre unitap de intrare ~i de ie~ireo Ie~irea fiecarei
Lmitap este multiplicata prin "fan-out" ca intrare dHre toate unitaple, inclusiv ea insa~i.
~
@
Ponderile se memoreaza mtr-o matrice de dirnensiune NxN (unde Neste numarul de
unitap) ~i in cazul cel mai simplu aceasta matrice este simetrica, avand pe diagonala
doar elemente cu valoarea O.
Daca aducem reteaua il1tr-o stare (de intrare) fenomenul care se va intampla este eel de
relaxare. Un astfel de sistem cauta sa ajunga intotdeauna la 0 stare de energie potenj:iala
minima. Unitaple ~i vor schimba valoarea de activare pana la un moment, in care nici
0 unitate nu l§i mai poate schimba activarea. 5tarea £inala obtinuta va H vectorul de
ie~ire din aceasta retea (numita retea Hop£ield discreta - sau retea complet recurenta).
Este foarte ~or de demonstrat di un astfel de sistem computational ajunge mtotdeauna
la 0 stare stabila (de minim energetic). Daca vom considera energia potenpala ca fiind
data de relapa:
1 N N
.H = -- L L Wij.Si-Sj
2 i=1 j=1
(5 )
~i vorn considera S'j=sgn(h'j) ca Hind starea urmiHoare a lui Sj, vom putea avea doua
situapi:
a. - S';=Sj - unitatea i nu l~i schimba activarea,
b. - S'i=-Sj- unitatea ~i schirnba activarea.
In cazul a, H'=H (energia ramane aceia~i). Pentru cazul b calcularn:
!1H = H'-H = -2
2 1j
L Wjj-S;-sj+22 Lij Wjj.S1.Sj = (6)
4.
inlocuim 5'1 cu -Sj ~i obtinem:
Semnullui h'j este ~i semnullui S'j ~i cum Sj=-S'j rezulta ca LiH este intotdeauna negativ
cand 0 unitate (sau mai multe) i~i schimba activarea. Deci, sistemul va evolua mereu
ciHre 0 stare de minim energetic (stare stabila).
. Invatarea intr-un astfel de sistem se bazeaza pe regula lui Hebb. Un tipar de invatare
va fi un vector binar cu componente {-l,l} de lungime NxN. Daca vom antrena reteaua
pentru un singur tipar de invatare ~, formula de calcul a ponderilor va fi:
1
(i=l,N; j=l,N) (8 )
Wij = N~i'~j
de unde rezulta ca matricea W a ponderilor este 0 matrice simetrica. Pentru 0 mai buna
func}ionare a sistemului se recomanda ca diagonala principala a acestei matrici
(ponderile unita}ilor catre ele insele) sa fie O.
Dupa invatare 0 astfel de retea se comportii ca 0 memorie, numita memorie asociativa.
Proprietatea matematica dobandita prin invatare este generarea unor stari de minim
energetic care corespund starii identice cu vectorul ~invatat ~i cu starea negata -~. Dadi
vom aduce reteaua intr-o stare oarecare, ea va evolua intodeauna catre una din aceste
doua stari de minim, ca in figura urmatoare:
t\
s~t~ ~
~ta:.r\
~
. ~inilr-~
Daca starea initiala este mai apropiata de starea invatata (mai exact, contine 50% din
componentele ei) atunci sistemul se va opri in aceasta stare stabila. Daca starea initiala
este intr-o propor}ie mai mare de 50% djjerita de starea invatata reteaua va evolua ditre
starea negata. Starile stabile se mai numesc ~i atractori.
1 P
Wij = -N L
11-1
~~'~j (i=l,N; j=l,N) (9 )
Aici exista doua limitari. In primul rand, reteaua va avea 0 anumita capacitate de
s-.
@
memo rare, care evident este limitata. Se poate demonstra matematic ca numarul maxim
de tipare care pot fi invaj:ate, (p) este egal cu 0.138 din n\llnarul de unitap N.
A dciua mare limitare este cauzata de aparipa starilor mixate (spurious states). Acestea
apar la invaj:area a mai mu1t de 3 tipare ~i duc la 0 forma a funcj:iei de energie ca in
Figura urma toare:
1-\
sM~
ST~\;W
.--?-
~H ~ ~ ~~ - ~~
Se poate demonstra matematic di aceste stari nedorite sunt combinatii liniare ale starilor
invatate. Aparitia aces tor stari este motivul principal pentru care retele Hopfield discrete
nu sunt utilizabile in aplicapile practice. Ele au reprezentat insa un pas inainte in
cercetarea in domeniu1 conexionist.
unde:
, II
'I I;
I
I
hi = Lj Wij'Sj : 1]
j
I
- sa fie dependenta de temperatura.
U
f:
-j :1
In mod uzual se alege ca funcpe de probabilitate, functia sigmoida:
I '
'II :
i ! ;
b
r \ :
I
1
f(x) ~ f(x) :R"'[O,l] (12)
1 +e-X
unde KB este constanta lui Boltzmann, iar Teste temperatura absoluta. Ilustrand aceasta
funqie: - - - . - - - - - - -- - - - - (1<) ~,..-- ~ - - - - - - - - -
j
~- 40,
... () 02-
-- --
2.. 1 \U ~ z '7--
se poate observa ca 0 controleaza panta funcp.ei. Pentru condipa limita T=O, functia
sigmoida se transforma in funcpa treapta.
. Avantajul acestui tip de retea este ca putem evita starile mixate obtinute prin invajarea
Hebbiana. Ideea de utilizare a W1ui sistem in regim stohastic nu este noua (anii '50), iar
clasa de algoritrni care implementeaza acest regim se nume;;te "simulated annealing
algorithms" (racire treptata). Se plead de starea inipala ;;i 0 temperatura ridicata. Se
poate demonstra matematic ca forma suprafetei de energie se schimba in funcpe de
temperatura. La 0 anumita valoare a lui ~ starile mixate nu mai apar:
H \-\
p ci\1-\<:'"
~ ~
Dad lasam sistemul sa evolueze la 0 temperatura ridicata, el va ajW1ge intr-o stare
stabila care nu este W1a din Astarileinvat~t~gi(lr este din pW1ct de vedere energetic mai
mica decat starile mixate. In acest moment putem sa scadem temperatura in mod
progresiv, pana cand sistemul va ajW1gein W1adin sHirile invatate sau negatele acestora.
. Capacitatea unui astfel de sistem (numit retea Bopfield stohastica) este identica eu cea
a retelei Hopfield discrete. Cu toate ca prin fW1cp.onarea sa, evita fixarea iremediabila
7
0{;)
intr-o stare nedorHa, astfel de retele nu au 0 pre a mare aplicabilitate din cauza
intensitapj computationale a simularii funcjionarii lor. Marele pas inainte care a fost
facut datorita lor, este folosirea functiei sigmoide.
. Cele doua re.tele Hopfield prezentate anterior au unitati care dau la ie~ire valorile +1
~i -1. Un model mai apropiat de realitatea biologica este 0 unitate care da la ie~ire 0
marime continua aflata intr-un intervallimitat (de exemplu [0,1]). Cel mai simplu este
sa folosim ca ~i funcj:ie de transfer, funqia sigmoida (sau tangenta hiperbolica).
Avem insa trei posibilWiti sa modifidim starea retelei in timp:
a. Tranzitia asincrona - alegem in mod aleator 0 unitate, ~i in functie de valoarea de
intrare hi calculam valoarea realii de ie~ire. In continuare ale gem 0 alta unitate ~i
continuam procesul, pana la atingerea unei stari stabile.
b. Tranzitia sincrona - Pe baza unei sUiri globale curente, calculam ie~irile tuturor
unitatilor, stabilind astfel intr-un pas de calcul, starea globala urmatoare a sistemului.
c. Tranzitia continua - Toate unitaple i~i schimba in mod simultan ~i continuu valorile
de ie~ire. In acest caz starea retelei depinde de timp ~i poate fi descrisa de urmatorul
sistem de ecuatii diferenpale:
unde OJ reprezinta 0 cuanta de timp mica ~i care poate fi stabilita in mod diferentiat
pentru fiecare unitate a retelei, iar Vi este ie~irea continua a unitatii i.
.. .
y~
\fz
.-
.
.
-y~
~
8 j
@
ili
)1\-'
~ . .
'
y -
,--
L --{---~
£t>
10
-- - ---~_\--
,-.
(',
-<\~
-- 1-
-.
\:n
"
;
~
,~ \'
~] < ~~ VJ
) '() f -f\\~ " <~
a~ih) 'U '
~ t ~ ~~
-~
~ -? +
5 -
~ ~ 1
\
r ~L-~~~
\'- \ / U ~'-t ~-)~)
V~0-.-1
. -- ---, , -
i -~)) ~1 ~\-YJ'-.,') a V 0
l ):t--/JVd-~ . ---v~ \
/
/ -- "
l~ ~
-
.
~
.
.
1."
[Y.
~
i J
" ~ I\
I
\
f
-=- (<::-
\;:"=
'r¥'\'
~\\
\ "(('{)
, ,. tr
Y\. ~ ( In')
1
Pentru noua topologie, pe care au denumit-o perceg,tJ;:on multisyak. sau perceptron cu strat
ascun~~,.chidden
layer) au incercat sa gaseasca un algoritm de antrnare similar cu regul.a.s:lylJ~
Acest algoritm a fost pus la punct doar in 1986.
. Pentru 0 relea ell straturi ascunse vom eonsidera urmatoarea schema de principiu:
vector vector
de de
0 1 M
. .
leSlr8
Stratul de intrare. este format din unira}icare au numai rolul de "fan-out". Restul straturilor
sunt formate din unira}icare au 0'func}iede transfer continua (sigrnoida, tangenra hiperbolica,
etc.) §i 0 valoare de prag G;.In aeest caz func}ia de transfer are forma:
1
(1)
g(hi) = 1 +e -hi
unde:
(2)
hi = It WiPj)-e I
ili
:,1
e -
Pentru simplificare vom considera di r- este tot 0 pondere, notata Wo§i care este asociata unei
intrari Xocare are Intotdeauna valoarea -1. Rezulra ca:
dl
:il
~
':1
i'
n
hi =L Wij'Xj (xo"-l) (3 )
:/=0
x = (XJ.,..., x an) (6 )
l)
care va trebui sa fie ~at mai aproape de componenta 2 a unui tipar de invaJare:
(8 )
ell = (er,..., el1Jfn) (lJ.=l,p)
Ponderea conexiunilor dintre doua straturi succesive se memoreaza intr-o matrice de forma: il
II
D '2... . .. Y'n-\Y\.
rY)Vi.. \ IIfzc \1.12.,\ z. ...
' . ..2W\-'h--
w:: h,..o. \!J: ."
. n.1 W\Yl'2.. Y\ ..\Y'\
g
...,
\ \ ..f
1\ A-
l!
c/\
£
t- \ .
4
E
. . .. . .. . . .
~ { ~
i
:3
------
-
~
.
u
-;>:
0 -> .....
, ~
t E \
~tH
~- £
.. .. . .. ~
~.~ . .. .. ..
f7- j
?
f:! ~
T
1i {i
.....
or: ~I
-<" ~
,
~
Noti'un cu r(h)=x, 0 funqie de transfer vectoriala cu g(hj)=xj (i= 1,n).
se poate ca1cula ie~irea unui strat cunoscand intrarea in stratul anterior. Plecand de la aceasta
expresie putem detrmina funqia de transfer a intregii relele:
. Invalarea unei astfel de relele consta din ca1cu1u1 matricilor mw (m=I,M). Pentru
simplificarea demonstraliei care duce 1a formulele de calcul ale ponderiJor yom considera
pentru inceput a relea~f!oarcu un singur strat ascuns.
Notam cu ~/ (k=l,l) rile, ot (i= I,m) ie§irile, h/, intrarile de pe stratul ascuns ~i V/,
ie~irile de pe stratul a s 0=1,n).
{(~", ~") /l=l,p} va fi II%Jde inva}are, iar wij vor fi ponderile dintre stratul ascuns §i stratul
de ie~ire, iar ~pond~~]jlt dintre stratul de intrare §i stratul ascuns.
Obs. Fleeare intx sellii la un anumit strat, k-intrare; j-ascuns; i-i""ire. Unitii!ile de pe
stratul ascuns §i de pe~'celde
" '".'>,,'ie§ire au 0 func}ie de transfer continua g(h).
:;' ~r"!';' ",t.
1~ "
,fi!j
)"'"",., . , " , ""
,
,
~i va produce la ie§ir
1
(15)
01 = ~~ Wij'g(L
=0 k=0
Wjk'~k)
)
(i=l,m)
Eroarea unei singure uniili}i poate fi coreet exprimat1i matematic prin eroarea p1itratic1imedie:
Ef = ; ('~ -of) 2
(i=l,m) (17)
iar Il1sumand erorile pentru toate tiparele, yom obp.ne eroarea fala de toata baza de Invalare:
p m
(19 )
E = 1.:E:E ((~-01)2
2 11-=1i=l
(23)
tJ. Wij = -11 a:E.
~J
= 11L~ «(~ -01) .gl (hl> .v}
Notam cu:
deci:
(25)
Awlj = ,,~~'vl
8t - se nume§te ~roarea asociata uoitatii i pentru tiparul 11.
T] - se nume~te rata de invatare.
p m
Avem:
rezultli:
unde 8/, este eroarea asociatli unitlitii i. Se poate observa ca formula este similara ca ~i
structura cu fonnula (25).
.Pentru generalizarea formulei de Invapu-epentru un numar mai mare de straturi ascunse yom
face unnatoarea observa}ie: fiecare unitate are asociatli 0 anumitli eroare 8. Eroarea unitat:ilor
de pe stratul de ie~ire se calculeaza cu:
1 "".,V\..
s\<-Ct~ r<\-r-I
(l~le j)
'M-t~\I'r-.
W-"L
- -
sko..U \Y\
. C\~l~ l')
--
S\<D..W- rf\.\
~tA.~
l~~~ 1)
Pentru a calcula IIIO/, este necesar ca valorile m+1Oq"
sa fie deja calculate. CalcuIam eroarea
dilta de unitatea i de pe stratul m cu formula (dedusa inductiv din (25) §i (29)):
'''In
m~~= g' (mh.f) E
qwl
m+l~~.m+1Wqi
(33)
sau spus In cuvinte, eroarea asociata unei unitlip.pentru un anumit tipar (exceptftnd unitatile
A
- ..: - - ~. r'~r~o"'''"' U'U}'V! 111111 Ie/}e/a
de la stratul urmator, inmul}ita eu valoarea derivatei func}iei de transfer, aplicara asupra
valorii de intrare in respectiva unitate, pentru tiparul respectiv.
exisili riscul sa nu oblinem rezultatul dorit, pentru ca datoriili simplificarii metodei "
'.I
I. Se propaga inainte activarile, folosind: ,j
;j'i
-In .1
I
. mv.f = g(mh.f) = L
~ j-1 mWijJ1l-1vJ
J
(i=l,mn) (37) II
, II
,~
:1
I'
entru toate straturile m=l,M , rnemorandu-se valorile V §i h.
entru viteza se paate folosi varianta vectoriala:
(40)
m-'~~ = g' (-'h!) , ~ mW'jm~~ J
(i=1, m-ln)
ntru m=M, M-l,..., 2 memorand toate valorile 8. Daca dispunem de un procesor vectorial:
7 [0 p
(41 )
m-I"QI' = [rl (m-I]JIl) ]d1agx (mWXm"Qll)
7. Dadi eroarea este mai mica dedit valoarea pe care ne-am propus-o, algoritmul se termina,
dadi nu, ne intoarcem la pasul 2.
E =- p.Mn (44 )
II14X 2
Ca ~i la regula delta simpla, pareurgerea 0 data a tuturor tiparelor se nurne~te epodi. Dupa
fieeare epoca caleulam eroarea procentuaHi: - ~
E .100 (45)
e, = ~
Se poate inllimpla ea eroarea impusa sa nu fie nieiodarn atinsa. Exisrn 0 serie de me~ode care
imbunata!ese performan!ele acestui algoritm, In sensul atingerii valorii de eroare minima
impusa sau de viLeza (p~ntru ca, la un numar mare de tipare §i unitali, algoritmul devine
foarte lent).
.... . Cea mai simpUi metoda de aecelerare a invatarii este metoda momentu1ni. Daca alegem TJ
prea mie, convergen!a ditre minimul funqiei de eroare este foarte lenta. Daca alegem rata de
inva}are prea mare exisrn riseul sa osciHimin jurul punctului de minim.
i+1
zona de minim
traJectorla de Invatare
Principiul folosit este de a asocia fiecarei ponderi wlJ0 "iner}ie" care sa "ghideze" proeesul
de Invataremereu catre zonade minim. Acest lucru se poate implementa simplu, schimband
regula de actulizare a ponderilor (42) eu formula:
~
,
(46)
fj.mWiJ = T].m~~.m-lvj+CX.(fj.mw.f;)~nteriOI
£n acest caz trebuie sa memoram valoarea de actualizare anterioara (de la tiparul anterior). !!
Efectul general al acestei Imbunatatiri este 0 "mediere" a diferenlelor dintre tipare. Traiectoria iI
parcursa pe suprafala de eroare va avea 0 forma mai putin oscilantlL II
I
i+1 i
,;
i+2
;. iI
.I
epoca i ,
;, i\
I
!:
In acest fel ne putem permite 0 valoare a ratei de J:nvalare(chiar ell un ordin de marime) dar
care evident trebuie sa ramana a valoare subunitara. Pentru valoarea exvaloarea preferati:ieste
0.9.
. Se poate illtampla ca traiectoria care trebuie parcursa pe suprafa}a de eroare sa parcurga 4- I\I
zone foarte "intinse" dar care au un grad mic de "inclina}ie"(gradient foarte mic). Dadi aceste \
)
zone au un gradient constant descresdhor, §i acest lucru se inrampHi mai ales la illceputul !~
, ,i
procesului de J:nvatare,timpul necesar pentru parcurgerea acestor zone este foarte mare. Ar Ii
fi indicat ca ill aceasra situa}ie sa avem 0 rara de invatare mai mare (chiar supraunitara). Ii
!" !
In momentul in care ajungem in zona minimului care reprezinra solu}ia cautara, zona care iI
poate fi 0 "vale" foarte "ingustil", exisra pericolul sa nu putem sa atingem minimul din acesta i
"vale" din cauza unui pas de traversare prea mare. in aceasra situa}ie ar fi necesar 0 rata de i
I
invatare mai micll.
1I
Solu}ia este sa modificam valoarea 11dupa fiecare epoc! de inva}are, folosind formula de
ajustare: I
119poc4n = 119POC4n-l+~"
(47)
:I
: iI
unde: I
j
)
+a dadf. ~E.<O J:n ul timelek epoc:j.,
~" = -b." daca~E>O J:n ultimaepocd (48)
{ 0 altfel
'n fonnula (48) a doua alternativa se alege in momentulill care am "sarit" peste "valea" unde
;e afla minimul dorit Pentru 0 mai rapida convergentil este indicat sa refacem ponderile
Lnterioareacestei epoci, pentru a rev~ni in starea de dinintea IIsariturii" §i a reduce rata de \
nvatare in acest moment Evident, aceasta presupune a memorare a ponderilor la finalul
iecarei epoci, lucru care poate fi costisitor din punctul de vedere al memoriei. (;::.,~\ i[A)
-::> . Mai existli a mullime de imbunataliri ce pot fi tacute acestui algoritm.. Cateva idei bune
sunt:
- folosirea unei rate de invaJ-are separate ~i adaptive asociata fiecarei pon'<kre llij' care sa fie
actualizata dupa doua criterii:
1. Dupa eroarea locala a unitali spre care este orientata conexiunea cu pOilderea respectiv5..
2. Dupa eroarea globala.
Criteriul 1. aplicandu-se cu predidere la inceputul invalarii, iar criteriul 2. la atingerea
vecinatalilor zonei de minim cautata. Vom avea nevoie de un numar de matrici egale ca
dimensiune cu matricile de ponderi, deci un necesar mai mare de memone.
- folosirea factorului de temperatura ~in funcj:ia de transfer pentru evitare;a zonelor de minim
local, deci aplicarea unei metode de "simulated annealing".
- pornirea din mai multe zone diferite ale suprafelei de eroare (aleg2wd aleator mai multe
configurapi ini}iale ale ponderilor) in special in cazul posibilitapi procesmi paralele. Vom
avea in acest caz mai multe traiectorii parcurse, iar unele dintre ele se VaT"bloca" in zone de
minim local. Traiectorile care sunt blocate §i se au a eroare mai mare decat traiectorii inca
"active" vor fi abandonate. Procesul se opre§te in momentulin care toate traiectorile sunt
blocate in acela§i minim (care poate sa nu fie minimul general).
. Cea mai simpla apliealie este simularea estimatorului Bayesian. Considerand problema
diagnozei medicale, sa presupunem ca avem 0 popula}ie ststistica de p caluri diagnosticate,
fiecare caz avand aeela~i numar de simptome standard n §i 0 boaEi eonfiITmata. Numarul de
boli posibile (investigate) este m.
. Putem afi$a aceste valori asociate ca procente dar s-a demonstrat ca nu exist1l0 legatura
matematica intre probabilit5.p ~i funqponarea re!elei, de~i performan!ele ambelor tipuri de
sisteme sunt eomparabile. Diferenta este data de timpul de ealcul pentru obpnerea rezultatului.
Un sistem eu inferenla Bayesiana va avea un timp mare de ca1cul, pe eand reteaua va
.' ;.':;':.:.'T'>i::::"~:' ", : ".~ ,;,). :', ;'~""\"~:-.-:-~ - .', :' ''J',',' "
cazud ca.nd construim un sistem expert baut pe rcguli, se poate sa avcm disponibHe, in afara " ",
A :- C, D.. ,
B :- D,E. f:
C :~R, S. 0 :- X, Y. D :- Y,Z. E :- S, T, U.
R :- P, Q. S :- L, X. T :- Z, 0, T\1. U :- N,O.
VO:11putea !Iansforma acc~te reg~li li1:r-oreIea cu doua str;:!uri asctlnse. cu uni;~ji c:\'aI:d
f,.J.lt:l1a .,.f tr ' t " f'~ i ";(T"-~ ,- .,..,:" -~ ',. ,;",' ..'." h f-.- ,',"I ..-' .- ;.,; ,1,.. ~~ ;7;
, .: d e tI...r.~.er e.2p 2., ~ rl !.;:;,"J- !.!i1...:J£C3.:iI..,
p,...C: J \...~.- ,'-d .~DL.~.\.<. .,t. G'~L,_.C
".; ")' " .J,:;; .~ ('Q t " j '. ..",.,' ,
~
~CUk ~ ~(9{tA1 {wJa.
b
1
~ ;~~~ CG\. ~~
~ ('~h.l ~ ~a. ,: .~~)
1\1 , ,
... -~
I
/ '"" ~ ..
'"
2
!
,z,
II IS
,,
'-" '\,
. '.,
/--.1,,:\ '--.- - -----.
n
.<
-
A
t
:z:
\. .'
Q 'b
0
\ .N 1
~j1t:~...~.~'~;it;.;;:";;:;.. ,~':;ts:~t...'~'.'~f:Jg~,~'1fr:~~~J!l;~}¥.:."
- -" -, - ,~v...,..!-'-y~",:, ..'UVCHv U1;;pI <11:;1.=V.-,J;I. roncc! lIe SC caIcuIcaza Iii'ftiriC1ie"dc"tjpurdcIcintiiurt~:,~t
~
" '.,'
i . ;ls'ociat~(nodului rC$pcctiv.Dad! apar fn bza de rcguii i~1ila.1em'ai'multc' reguJi cu aceia~i .'
!,
concluzie (cawl simbo1u]uiD) suntem obligap saconstruim noduri suplimentare, ca In figura.
Acest proces de adaugar~ a ,noi noduri se numc~fcnormalizare.
, ,
i
I
- dadi jODqiunea este "S2-U",toate panderile asociatc sunt egak eu 1.0
0 rc.,tru
Q.", - ,p,~" )'u1"
eX"II' I 1 .[",,"--';;'.":'.
"-""'--"; .¥,;
I:I.:L .."
",U.=.. r.JreITl.,;'.c,
.
i~',i ~; .il,ll::..,-
i"~i(>
..
",---
S,,::.,
l\ O)
, , 7
:"t.= { I J ( .2., 1..: ..';", ~,
.,
'~J ,i.,
":\.1
1'1, O}
, . " .. .
I IJ:1~~.~:0'..;;::
l:t; i.;'.:JiiclUZl1C'
UJ \ '1
.
1 = { r'J () J
n.".'"
,j--d
, y'" ~-,1;.."'. i,'--'-"i,,;
\0.'1 (\}""v" S"lC...~,v.
I!~ -~.:~
_01 :>-" G...,
-",i".;::
p.."IT"S.. -p c~"
('I t', ,.,"':_..~"
.;fj,_!...:.~"a
,,' I"'''-;~'''; .
\;'",,:,c\.:- lc:;'lf\.,- 1.'-
..' ",.) '''' J ,',':',
.': 0 :1. ~~...,~;"~,,,.~ "', ""~ro.":_,,, r", -~ .:,J '~'~r- \', -, ',.,.:"", :~".. ~..'" -, ...: 1"" .>
l!,!'~(.;,Ji.{; <':,::>,,'''',C:L,,~
~ ey..,; i-"v:."':YJ}-''''' y~attL f...e L.Guc, .,1'" 0,.,;""" "'.)":\.. ..t..,: lirla SdU, rn 1 I..""ll.
.' ~ 'n . '". ' . l' . ,
I
C.);lC UZll 11;:a.I~. ;):: p:'~c=. OD5~1";~ . UnCJW;12.."" (f ' 1 d ar eXl5i2 ~l PCS] t"]I;tate2. d emO:ES'c;!2::
., ..1l -"" ) C :.:l
r,.,r:" "!p
'- ,;,
"...1. .'-'. \''''-. f u.,,'ri-"
t""..,.1 dVS'V." I:. e ":',~ _.vl'm C""'
"... t I".. ';'-'n Sl',r'~ .,. \ '''''''
,,'
~'iljI',-,",[' 1 ~'> Z :l t D t~ P,.. OC ""~'>"~
~""," -'-
<;d'olidi CLlfom'~rd<~f:::::;:lg,
'.
, l-' . 00' . 'J'.': :.~" ." ,;: rj: ,:'; .'
::, 1:'<f) i',-,~~;:,:1 ;,.':;' :,; ".' - .:.': '.::s::.. : <, ':'~:':;;
~i:SL .,'::.io:-i :'C'?.:-7: '"1';:.:i -.:.k".:G.lTe) CL: CoO"', :~-;;~a:-:sf::: ::'>"~;i1Ua (";,~L::':'..i~::,':
-::,-
. .Ld d .... '-'.I.W~ J', .'~.
,,: ,~,,;':;,i ,"r-,:;,..;"..'r;,:-~
~d,,~_,-, n~i'~"
~v,,~~ ,:".":-.,, :.,-"
~_.!L ',-,' .'r' ,;"..,.~,
"'-"~'!."-""""-.- :;, l'~\':r~.
v..>U"" i.." ~,' I",':
,d, ,.
, ,- '-' ..
':'1"..t,,"
Lvl.,':., J.t) C2Je .0, 1. kg2..v.a ' UD.t:."-j-l
" ... 'j ',:., ~'" 1, ,', -.~ " ',> -' p .., .:-' ,- . ,,(,,'_1
pnn pOfLl...d eg~,v ...\.. 1.'-', y~ ;.L.2.Lv \,;.bSvf\", C{ U ,,".I\,.
; :<.: " ... ,:~...' 1", ,"'"
;"'''' t''' ;:'1 " nL' .r',;:";
\..~-': I'r~t ea
.. ". " P."'-"" ~,' "",v_~.
" I11O ",l"'~r.;n-'i'l
<.U~V..LII._- 0>v ht. .""l--n ..,,,,,,.,t;C" ' ';"\1~ .1,..
_v",t' ro e-,:,"''-' J ... I,,- I "" ,'~ ,..L.t enare , ",''''v
',r-r "":~ ;,:~ \",
..
';1'O'
.
(:)!~i1Jorta ex~ct c'a ~"i S~s~s;;1ul cor.\'entioncJ
r CU forw2Id-c;::li;:in~, - Pe"r~'G <t;)t"er.a.r~,' b~Z<l de:
;'".,:j'""", ;,,., t~ fc;-r'''f'; '''''''r ,'; .J'. ",- ~J-,:'I"," ; t> '-i,'r!" --" (.,.-,...!. :. "~T1~!':> ''',r,>
',"L.}= ' 'C'..I .~1.:1'; :. -.'".n.:.. u[;l p...le,..,f.u", t,rem.Sv_l!t..:).d,~ . ,,\.';.\..UZd :'..<1,- \..""."
-""-'~;" Z l n.~ roo';Q """"':-
:" .,'-" \" ...G .<:l. 1I~:':'..',','- r, ,,-,-
.~, ;,r 1' '0>
J_,"""" 'ru~,\. C-L,,') d
(';:_"' ';o ti-,","" l 'R~
.'\. r\ -:. , 1.'-'
~.., ,. .
.
.
11'
...,
1 '
1J[ ~"r.'>" ;r""':-"'~ .": .,! ',,'0>.",.;
£"'r"\.I'''J'''''''''~ ..,,,-,I.. u'~}-~,,-:" ':""'''''' .,.:,.. ",", .."1.',..',
1. 1 ,," ".. ,l.,
,,-.:'.".
-;"""
:""-:«ri
...ue:.,
.c',d..>
.. ~
1::
! r I
'I 1 " '"' 1 "1 1"''-:' '" ", ',,"."~' .' , ," ,""'" .., '''''',', .,. ,"
"
'''~:''''''''''''''''''':-='''"''''<''''''''''''''-~~-~~-''- - -,---1:?-