Documente Academic
Documente Profesional
Documente Cultură
ARTIFICIALĂ
Curs
Material curs
Laborator
“Proiectarea asistata de calculator in Matlab si Simulink. Conducerea
avansata a proceselor”- C. Soare, S. Iliescu, V. Tudor, I. Fagarasanu,
O. Dragomir, F. Dragomir (2006), Editura Agir
Matlab 7.0 User’s Guide”, The MathWorks, Inc., (2007)
Fuzzy Logic Toolbox User's Guide, The MathWorks, Inc., (2007)
Neural Network Toolbox User's Guide, The MathWorks, Inc., (2007)
Notare
Examen partial: 20%
Examen final: 50%
Laborator (inclusiv proiect): 30%
Inteligenta artificiala
Inteligenta artificiala- Otilia Dragomir 12
Ce este inteligenta artificiala?
Inteligenta artificiala este studiul ideilor care permit calculatoarelor sa fie inteligente.
Inteligenta artificiala este studiul procesului prin care calculatoarele pot fi instruite sa
faca lucruri care, pentru moment, sunt facute mai bine de oameni.
Inteligenta artificiala- Otilia Dragomir 13
1.2. Scurt istoric-inceputurile
Entuziasmul timpuriu
1957- General Problem Solver
1958- Lisp, Advice Taker (McCarthy)
1959- Geometry Teorem Prover
Program de dame care invata din jocuri
Program pentru analiza matematica
"Microwords"
Reprezentarea cunostintelor
Rationament de “bun simt”
Jocuri
Matematica, calcul simbolic
Demonstrarea automata a teoremelor
Achizitia cunostintelor si invatare
Perceptie: vedere artificiala, recunosterea vorbirii
Intelegerea limbajului natural
Sinteza automata a vorbirii
Expertiza: inginerie, medicina, analiza financiara, sisteme suport a decizie,
predictie, etc.
? ? ? ?
Inteligenta artificiala- Otilia Dragomir
? ??
2.1. Logica clasica vs. logica fuzzy
Exemplu
Functii de apartenenta
Functiile de aparteneta reprezinta masura in care un obiect poseda o anumita
proprietate.
A (x) apartenenta elementului x la multimea valorilor posibile A
A ( x) : X 0 1
Daca suportul este un interval (in cazul multimilor fuzzy convexe) se defineste si
notiunea de latime a multimii A:
lat A sup S A inf S A
Inaltimea lui A se defineste drept cea mai mare valoare a functiei de apartenenta
O submulţime fuzzy A a lui X este normală dacă. h(A) = l altfel A este subnormală.
h( A) sup ( A ( x))
x X
Functii de apartenenta
Caracteristicile functiilor de apartenenta
Vecinatatea, notata V, este definita in cazul unei multimi fuzzy ca o multime compacta
de elemente x pe universul X pentru care gradul de apartenenta este nenul si subunitar.
V ( A) x X / 0 A ( x) 1
Taietura de nivel α a multimii fuzzy A reprezinta multimea elementelor x din universal
de discurs X ale caror grade de apartenenta sunt cel putin egale cu valoarea ce
defineste taietura. 1
trapmf gbellmf trimf gaussmf gauss2mf smf
A x X / A ( x) .8
punctul de incrucisare
A ( x* ) B ( x* )a doua multimi fuzzy A si
B reprezinta acel punct din universal X pentru zmf psigmf dsigmf pimf sigmf
1
care
.8
.6
.4
Inteligenta artificiala- Otilia Dragomir
.2
0
2.4. Operatii cu multimi
Fie A şi B submulţimi fuzzy ale lui X. A şi B sunt egale dacă A B (x) (x), x X A B
Fie A şi B submulţimi fuzzy ale lui X. A şi B sunt incluse daca: (x) (x), x X A B
0
0 1 2 3 4 5 6 7 8 9 10
Rezultatul reuniunii
1
0.5
Inteligenta artificiala- Otilia Dragomir
0
0 1 2 3 4 5 6 7 8 9 10
2.5. Tratarea informatiei fuzzy
Fuzzyficarea este o operaţie prin care se aleg mărimile de intrare şi de ieşire după care
se definesc mulţimile fuzzy care permit descrierea acestora prin variabile lingvistice (ex.:
mare, mai mic, etc.).
scopul fuzzyficării este să permită construirea unei baze de reguli înglobând
cunoştinţele noastre referitoare atât la procesul condus cât şi la metodele de
conducere pe care vrem să le aplicăm.
datele de intrare sunt supuse unei prelucrări preliminare în scopul eficientizării
procesului
Cel mai utilizat model de inferenta Sugeno este cel de ordin zero, in care iesirea fiecarei
reguli fuzzy este o constanta
DACA x este A SI y este B ATUNCI
Inteligenta artificiala- Otilia Dragomir
z este k
Evaluare de tip Mamdami
Inferenta
Mamdami
Inferenta
Sugeno
Inferenta
Mamdami
Inferenta
Sugeno
De obicei se utilizeaza numere fuzzy triunghiulare sau trapezoidale pentru cunostintele
expert, deoarece se simplifica procesul de calcul
Se analizeaza variabilele de intrare si iesire si daca este nevoie se redefinesc domeniile
de definitie
Se analizeaza multimile fuzzy si daca este nevoie se adauga multimi suplimentare pe
universul de discurs. Multimile "mari" conduc la un comportament nuantat al sistemului
Trebuie sa existe o suprapunere suficienta in multimile vecine. Se recomanda o
suprapunere de 25%- 50% din baze (pentru numerele triunghiulare si trapezoidale)
Se analizeaza regulile existente si daca este nevoie se aduga reguli in baza de reguli
Se examineaza baza de reguli in vederea aplicarii de restrictori pentru anumite cazuri
Se pot modifica formele unor multimi. De obicei, sistemele fuzzy sunt tolerante la
aproximarile de forma.
De ce RN?
Imprecise,
false
RETELE
NEURONALE
FUZZY
Date
MODELE
MATEMATICE
Exacte
CONVENTIONALE
Imposibil de descris
Usor de descris Proces
4.1. Retele neuronale- generalitati
Arhitectura TERMENI
• specifică modul în care sunt amplasate şi • Reţeua neuronală
interconectate unităţile funcţionale intr-o RN
• arhitectura determină şi fluxul informaţional în • Arhitectura
• Funcţionarea
cadrul reţelei
• Adaptarea (învăţarea)
4.1. Retele neuronale- generalitati
Funcţionarea TERMENI
Aplicatii al RNA
Recunoasterea formelor
Vedere artificiala
Traducere automata a textelor
Controlul non distructiv
Detectie
Predictie
Estimare
Programe conversationale
Roboti
4.2. Modelarea neuronului artificial
Activarea
Functia de transfer f
calculeaza starea neuronului yj , valoare
a j i ij ei ce va fi transmisa neuronului din aval
y j f (a j ) f e i ij i
Functiile de transfer ale neuronului
θ a θ a θ a θ a
-1 -1 -1
Observatie: spre deosebire de neuronul biologic care este binar, cea mai mare parte a functilor de
transfer a neuronului artificial (mai putin neuronul Culloch-Pitts) sunt continue, oferind o
infinitate de valori posibile cuprinse in intervalele [0, +1] sau [-1, +1])
Functiile de transfer ale neuronului
Functia lui (Heaviside)
(implementare- Mc Culloch si W. Pitts) Functia gausiana
y = f (a) (implementare- RBF)
Functia sigmoida
y = f (a)
(implementare-MLP)
+1
y = f (a) +1
θ a
-1 +1 µ a
1 si a θ
f (a) a
1 si a
2
a
-1
f (a) e 2 2
1 exp(ka)
f (a)
1 exp(ka)
4.3. Retele neuronale- arhitecturi
0 1
1 1
0 RN 0
1 0
Intrare Iesire
1 1
decodare
codare 1 0
0 1
0 0
4.3. Retele neuronale- arhitecturi
Tipuri de RNA
Numarul de straturi
(layere)
Cu doua straturi:
Cu un singur strat unul de IN unul de
OUT
Existenta reactiei
Fara reactie
Cu reactie
(feedforward)
sau dinamice
sau retele statice
Memorii asociative
Retele Hopfield
BAM
(caz discretizat a
(Bidirectional
BAM)
Associative Memory)
Tipul de invatare
Supravegheata Nesupravgheata
(supervizata) ( retele Kohonen)
Modul de propagare
a
coeficientilor de
ponderare
Cu contrapropagare
Cu retropropagare
sau antrenaare
(backpropagation)
rapida)
4.3. Retele neuronale- arhitecturi vs. functionare
Structuri de interconexiune
Strat de intrare
Reteaua cu conexiuni locale
(variabile de intrare)
Stuctura multistart care isi conserva
topologia
Fiecare neuron are un numar limitat Strat ascuns
de legaturi cu neuronii de pe stratul
din aval
Strat de iesire
(variabile de iesire)
4.3. Retele neuronale- arhitecturi vs. functionare
Structuri de interconexiune
Reteaua recurenta
Conexiunile recurente propaga
informatia in amonte
Conexiunile recurente sunt cel mai
adesea locale
Reteaua completa
Structura cea mai generala
Fiecare dintre neuronii straturilor
retelei este conectat cu toti ceilalti
neuroni
4.3. Retele neuronale- arhitecturi
PROCESUL
DE INVATARE
Algoritmi de Paradigme de
invatare invatare
Vector pozitie
unitate functionala
Grila asociata
arhitecturii
Vecinatate de
Raza s(t) a unitatii p*
Antrenare- Retele de tip KOHONEN
28
4.4.2. Invatarea nesupervizata
RNA Kohonen- exemple
Modul in care reteaua Kohonen se autoorganizeaza astfel incat sa se mapeze cat mai
fidel domeniului datelor de intrare poate fi ilustrat grafic pentru datele de intrare
bidimensionale (N=2). In acest caz fiecarei unitati functionale ii corespunde un vector cu
doua ponderi. Vizualizarea consta in reprezentarea pentru fiecare unitate functionala a
punctului corespunzator vectorului cu ponderi si in unirea punctelor corespunzatoare
unitatilor vecine (in cazul unidimensional punctul asociat unitatii i se uneste cu cele
asociate unitatilor i-1 si i+1 iar in cazul bidimensional unitatea (i,j) se uneste cu unitatile (i-
1,j) , (i+1,j) , (i,j-1) , (i,j+1).
Weight Vectors Weight Vectors
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
W(i,2)
W(i,2)
0 0
-0.2 -0.2
-0.4 -0.4
-0.6 -0.6
-0.8 -0.8
-1 -0.5 0 0.5 1
-1 -0.5 0 0.5 1
W(i,1)
W(i,1)
4.4.2. Invatarea nesupervizata
RNA Kohonen- exemple
Problema comis-voiajorului (TSP-travelling 7.5
salesman problem) este o problema clasica de
optimizare care consta in gasirea traseului de cost
7
minim pe care trebuie sa-l parcurga un comis
voiajor astfel incat sa treaca o singura data prin
fiecare oras dintr-un set prestabilit. Daca se 6.5
considera ca orasele pot fi reprezentate prin puncte
in plan iar costul trecerii de la un oras o la un oras o’
este proportional cu distanta d (o,o’) dintre cele 6
doua orase problema poate fi rezolvata aproximativ
printr-o retea de tip Kohonen unudimensionala cu
5.5
unitati plasate circular (in cazul a m unitati se
considera ca unitatea 1 si unitatea m sunt vecine).
O asfel de retea este denumita si retea elastica . In 5
ideea rezolvarii este de a furniza retelei, ca date de 5.5 6 6.5 7 7.5 8
acţiunile posibile
Calculati
1 1
3
Din F sunt 3 stari urmatoare posibile: B, E si
1 1 1
F
4.4.3. Invatarea cu intarire (reinforcement)
Exemplu numeric: Algoritmul Q Learning :
Etapa 4: Deoarece starea finala este F, Etapa 5: Prin episoade succesive, creierul
dupa primul episod: agentului va converge catre:
: 500= normalizare
Programul Matlab pentru miscarea unui singur agent in N camere . Pentru a modela mediul avem
nevoie sa recompensam matricea starilor initiale R (initial este O). Pune zero, pentru orice uşa care nu
este directa la obiectiv şi pune valoarea 100 la usa care duce direct la obiectiv. Pentru starile
necunoscute, utilizeaza minus infinit (-Inf), astfel încât numărul devine negativ. Noi vrem sa
maximizam valorile lui Q (matricea starilor), numerele negative nu vor fi luate în considerare deloc.
Starile sunt numerotate de la 1 la N. Rezultatul codului este normalizarea matricei Q.
4.5. Retele neuronale- generalizarea
Baza de test
Eroarea medie
Baza de invatare
k modelului
Complexitatea
k optimal
Concluzii
AVANTAJE
Capacitatea de memorare (invatare) printr-un antrenament adecvat.
Posibilitatea de modelare a proceselor complexe, ale caror legi de functionare sunt fie
prea complicate, fie sunt echivoce, chiar necunoscute, spre a fi analizate analitic.
Capacitatea de generalizare- ofera raspunsuri corecte pentru situatii diferite fata de cele
folosite in procesul de invatare.
Capacitatea de sinteza- solutia oferita se obtine si in caz de informatii incomplete,
partiale sau usor contradictorii.
Robustete si toleranta la erori- functionarea gresita chiar oprirea unui NA nu scoate din
functiune intreg ansamblul.
Concluzii
DEZAVANTAJE
Procesul de invatare este complicat, de lunga durata si necesita mijloace de calcul
deosebit de performante.
Pentru antrenament este nevoie de un volum extrem de mare de date iar stabilirea
bazei de antrenament este o operatie dificila.
Fenomenele care se petrec in cadrul unui RNA nu au putut fi inca explicate satisfacator
din punct de vedere formal.
Concluzii
ATENTIE
La RNA nu se
programeaza o
lege ci se invata din
exemple
RNA tind sa reproduca cel mai importante caracteristici ale comportamentului neuronului
biologic:
Invatarea Generalizarea Overparametrisation
INTELIGENŢĂ
ARTIFICIALĂ
2
Curs nr. 5
Principalele tipuri de retele neuronale
3
1. Arhitectura
N Interpretarea iesirii :
X W y sgn(w x )
j 0
j j if y= -1 then X apartine clasei 1
if y=1 then X apartine clasei 2
4
5.1. Perceptronul
Antrenarea
Algoritmul de antrenare al perceptronului (Rosenblatt)
w j x j
old l
daca yl 1 si d l 1
w new old este echivalent cu
j
w x l
daca yl 1 si d l 1
j j
w new
j w j
old
(d l yl ) x lj wnew
j wold
j d x
l j
l
2 5
5.1. Perceptronul
Antrenarea
Parametrul eta (pasul de corectie sau rata de invatare) este o valoare pozitiva ce poate fi
aleasa astfel incat dupa efectuarea ajustarii corespunzatoare unui exemplu, reteaua sa
raspunda corect pt. acel exemplu
W (k 1)T X l d l 0 (W (k ) (k , l )d l X l )T X l d l 0
2 | W (k )T X l |
W (k ) X d l (k , l ) X
T l l
0 (k , l ) 2 Algoritmul Hebb de antrenare
Xl
Exemple :
1 | W (k )T X l | | W (k )T X l |
(k , l ) 2
sau (k , l ) 2
( (0,2); corectie fractionala)
l l
X X
Caracteristici perceptron
Tip Feedforward – cu propagare inainte (conectarea neuronilor de
pe straturi diferite diferite intr-un singur sens: de la intrare
către ieşire)
Layere 1 layer
Tipul valorilor Binare sau reale (continue)
de intrare
y = f (a) Functia de Functie de tip prag
activare
7
Vectors to be Classified Vectors to be Classified
0.5 0.5
P(2)
P(2)
0
Vectorii de 0 Prima clasificare
intrare initiali
-0.5
-0.5 [W, b]=initp(P, T)
plotpc(W,b)
-1
-1
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6
P(1)
P(1)
P=[-0.5 -0.5 0.3 0.0; -0.5 0.5 -0.5 1.0]; Vectors to be Classified
0.5 1
P(2)
0
10
0
Sum-Squared Error
-5
10
Antrenarea -0.5
10
-10 perceptronului -1
Vectors to be Classified
0.2 0.4 0.6
-15
10
1.5
-20
10
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1
p2=[0.3; -0.5]
Epoch b=simup(p2, W,b)
[W,b,epochs,errors]=trainp(W,b,P,T,-1) 0.5
b=
P(2)
ploterr(errors)
0
0
Clasificarea facuta cu un -0.5
perceptron cu 2 intrari -1
Vectorii de
intrare initiali Prima clasificare
1.5
1.5
1
1
0.5
0.5
P(3)
0
P(3)
0 -0.5
-0.5 -1
-1 -1.5
-1.5
1
0 1
1 0
-1 -1
0 1
0 P(2) P(1)
-1 -1
P(2) P(1)
Vectors to be Classified
P(3)
0
10
0
-0.5 1
-1
-1.5
Sum-Squared Error
-5
10
1
0 1
0
-1
10
-10
Antrenarea P(2)
-1
P(1)
10
-15
In raport cu eroarea p1=[-1; 1; -1]
1.5
1
a=simup(p1,W,b)
10
-20
0.5
a=
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
P(3)
0
Epoch
-0.5 0
Clasificarea facuta cu un -1
-1.5
perceptron cu 3 intrari 1
0 1 9
0
-1 -1
P(2) P(1)
Vectors to be Classified
3
data1
data2 Vectors to be Classified
data3 3
2
data4
data5
data6
Prima clasificare
1 2
data7
data8
P(2)
data9
0 1
data10
P(2)
-1
0
Vectorii de
-2
intrare initiali -1
3
5
Sum-Squared Network Error for 4 Epochs
10
2
p1=[0.7; 1.2]
a=simup(p1,W,b)
0
10 1
a=
1
P(2)
0 0
Antrenarea perceptronului
Sum-Squared Error
-5
10
in raport cu eroarea -1
-10 -2
10
p2=[0.1; 1.2]
-20
2
b=simup(p2, W,b)
10
0 0.5 1 1.5 2 2.5 3 3.5 4 b=
1
Epoch
1
P(2)
0
0
Clasificarea facuta cu un -1
Interpretarea rezultatului:
X Y=WX Indicele unitatii ce produce iesirea
maxima este eticheta clasei careia ii
apartine X.
M Daca vectorul Y este normalizat (toate
valorile sunt intre 0 si 1) atunci iesirile pot
N fi interpretate ca probabilitati de
apartenenta la clase
11
5.2. Perceptronul multiplu
Antrenarea
Clasificare in mai mult de doua clase liniar separabile ( M clase)
Daca clasele sunt puternic liniar separabile atunci se pot utiliza M
perceptroni simpli, cate unul pentru a determina hiperplanul care separa
fiecare clasa de toate celelalte.
Daca clasele sunt liniar separabile atunci nu se pot utiliza perceptroni
antrenati independent.
Algoritmul de antrenare
Set de antrenare: {(X1,d1), ….,(XL,dL)} unde dl apartine lui {1,…,M} si I este
indicele clasei careia ii apartine Xl
Pas 1: initializare
Se initializeaza elementele lui W (M linii si N+1 coloane) cu valori selectate
aleator [-1,1]
Se initializeaza contorul de iteratie: k=0
Pas 2: ajustare iterativa
REPEAT parcurge setul de antrenare si ajusteaza ponderile
k=k+1 12
UNTIL k=kmax SAU corect=1 (reteaua a invatat setul de antrenare)
5.2. Perceptronul multiplu
Antrenarea
Caracteristicile Multi-Layer-Perceptronului
Tip feedforward
Layere 1 layer de intrare
1 sau mai multe layere ascunse
1 layer de iesire
14
Vectors to be Classified
P=[-0.5 -0.5 0.3 -0.1 -0.8; -0.5 0.5 -0.5 1.0 0];
0.5 Vectorii de T= [1 1 0 0 0]
plotpv(P,T)
P(2)
intrare initiali
0
-0.5
-1
5
Sum-Squared Network Error for 21 Epochs
10
S1= 40
0
10
[W1, b1]=initp(P, S1)
[W2, b2]=initp(S1, T)
Antrenarea A1= simup(P,W1,b1)
Sum-Squared Error
-5
10 [W2, b2, epochs, errors]= trainp(W2, b2, A1, T, -1)
perceptronului % -1 este un parametru de antrenare, valoarea 1 este implicita
si
-10
10
In raport cu eroarea %inseamna ca perioada de update intre epoci. Daca are
valoarea -1, vectorii de in si linia de demarcare-clasificare sunt
trasate in raport cu eroarea retelei
-15
10 ploterr(errors)
trasarea curbei erorilor
-20
10
0 2 4 6 8 10 12 14 16 18 20
Epoch
Clasificarea facuta cu un
perceptron cu 2 intrari
15
5.3. Retea de tip backpropagation
2
0.5
Sum-Squared Error
0
Bias B
0.5 0
Sum Squared Error
-0.5
-1
0 4 -2
10
2 -2
-0.5 -4
0
-3 -2
-2 0 4
2
-4 Bias B -4 2 0
-2 0 -4 -4 -2 0 2 4 -3
2 4 -2 10
Weight W 4 -4 0 0.5 1 1.5 2 2.5 3
Weight W Weight W Bias B
Epoch
P=[-3 2]
P=[-3 2] T=[0.4 0.8]
T=[0.4 0.8] wv=-4:0.4:4
wv=-4:0.4:4 bv=-4:0.4:4
bv=-4:0.4:4 es=errsurf(P,T, wv, bv, 'logsig')
es=errsurf(P,T, wv, bv, 'logsig') plotes(wv, bv, es, [6 30])
plotes(wv, bv, es, [6 30])
Error Surface Error Contour
4
2
0.5
Sum Squared Error
1
0
Bias B 0
-0.5
-1
-4 -2
p=2
-2
-3
a=simuff(p, w, b, 'logsig')
0 4
2
2 0
-2 -4
Weight W 4 -4 Bias B -4 -2 0 2 4
Weight W
prag de activare
Exemple:
g1 (u ) exp( u 2 /(2 2 ))
g 2 (u ) 1 /(u 2 2 )
g 3 (u ) 1 / u 2 2
2σ u2
Obs: parametrul σ controleaza g (u ) exp
2
largimea graficului 2
σ =1.5
1
0.8
σ =1
0.8
0.4
0.4
0.2
0.2
-3 -2 -1 1 2 3
19
σ =0.5
-3 -2 -1 1 2 3
g1 (σ=1)
5.4. Retele cu functii de baza radiale (retele RBF)
Functionare
Calculul semnalului de iesire: K
yi wik g ( X C k ) wi 0 , i 1, M
k 1
K
yi wik z k wi 0 , z k g ( X C k )
k 1
20
5.4. Retele cu functii de baza radiale (retele RBF)
Functionare
Campurile receptive ale unitatilor acoperire adecvata
ascunse trebuie sa asigure o 1
subacoperire supraacoperire 21
5.4. Retele cu functii de baza radiale (retele RBF)
Functionare
σ=100
σ=0.01
supraacoperire
22
subacoperire
5.4. Retele cu functii de baza radiale (retele RBF)
Antrenare
Parametri adaptivi:
Centrii (prototipurile) corespunzatoare unitatilor ascunse
Largimile campurilor receptive (parametrii functiilor de activare cu
simetrie radiala)
Ponderile asociate conexiunilor dintre nivelul ascuns si cel de iesire
Variante de antrenare:
Antrenarea simultana a tuturor parametrilor (similara algoritmului
BackPropagation – doar regulile de ajustare ale centrilor se modifica)
Obs: aceleasi dezavantaje ale algoritmului BackPropagation
Antrenare separata a parametrilor:
centri, largimi, ponderi
23
5.4. Retele cu functii de baza radiale (retele RBF)
Antrenare
Orthogonal Least Squares:
Selectie incrementala a centrilor astfel incat eroarea sa fie minimizata cat mai mult
Noul centru este ales astfel incat sa fie ortogonal pe spatiul generat de catre centrii deja
selectati (procesul este bazat pe metoda de ortogonalizare Gram-Schmidt)
Abordarea este corelata cu regresia de tip “ridge”
Grupare (clustering):
Se urmareste identificarea a K clase in setul de date de antrenare {X1,…,XL} astfel incat
datele din fiecare clasa sa fie suficient de similare pe cand datele din clase diferite sa fie
suficient de diferite
Fiecare clasa va avea un reprezentant (ex: media datelor din clasa) care va fi considerat
centrul clasei
Algoritmii pentru determinarea reprezentantilor clasei sunt cunoscuti sub numele de
algoritmi partitionali de grupare (realizeaza o partitionare a spatiului de intrare)
Algoritm clasic: K-means
K-means:
Proces iterativ:
Se asigneaza datele la clase
folosind criteriul distantei
minime (sau a celui mai
apropiat centru)
25
5.4. Retele cu functii de baza radiale (retele RBF)
Aplicabilitate
Retelele RBF sunt aplicate pentru clase de probleme similare celor pentru
care sunt aplicate retelele feed-forward cu functii sigmoidale:
Clasificare
Predictie
Aproximare
26
5.4. Retele cu functii de baza radiale (retele RBF)
27
5.4. Retele cu functii de baza radiale (retele RBF)
28
5.4. Retele cu functii de baza radiale (retele RBF)
Tipuri de grile:
Dpdv al dimensiunii:
- Unidimensionale
- Bidimensionale
- Tridimensionale
Dpdv al structurii:
- Patratice
- Hexagonale
- Arbitrare (graf planar) 31
5.5. Retele de tip KOHONEN
Functionare
Functionare:
Pentru un vector de intrare, X, se determina unitatea functionala invingatoare
folosind criteriul distantei minime fata de vectorii cu ponderi
Rezultatul poate fi vectorul de pozitie al unitatii invingatoare sau vectorul cu
ponderi asociat acesteia
32
5.5. Retele de tip KOHONEN
Antrenare
De tip nesupervizat
Set de antrenare: {X1,…,XL}
Specific: similara cu antrenarea de tip WTA insa o data cu ajustarea ponderilor
unitatii invingatoare se ajusteaza si ponderile unitatilor vecine
Algoritm de antrenare
Ajustarea unitatilor vecine celei invingatoare asigura conservarea relatiilor de
vecinatate astfel ca date de intrare similare vor fi asociate cu unitati invecinate
Atat rata de invatare cat si dimensiunea vecinatatii descresc in timp
Maniera de descrestere a ratei de invatare este similara celei de la algoritmii de tip
WTA
Dimensiunea vecinatatii se alege initial suficient de mare pentru a “acoperi”
intregul set de unitati functionale
Algoritm de antrenare se caracterizeaza prin doua faze
Faza de ordonare: corespunde iteratiilor in care dimensiunea vecinatatii este
semnificativa si are ca efect stabilirea ponderilor unitatilor astfel incat unor date de
intrare similare sa le fie asociate unitati vecine
Faza de ajustare fina: corespunde interatiilor in care dimensiunea vecinatatii este
mica (chiar redusa la un singur element) si are ca rol ajustarea fina a ponderilor
pentru ca vectorii de ponderi sa devina prototipuri cat mai reprezentative pentru
datele de intrare 33
Obs: pentru a diferentia modul de ajustare a ponderilor unitatii invingatoare fata de cel al
ponderilor celorlalte unitati se foloseste conceptul de functie de vecinatate
5.5. Retele de tip KOHONEN
Antrenare
Vector pozitie
unitate functionala
Grila asociata
arhitecturii
Vecinatate de
Raza s(t) a unitatii p*
34
5.5. Retele de tip KOHONEN
Aplicatii
Grila 2D
Grila 1D
35
5.5. Retele de tip KOHONEN
Aplicatii
Ilustrarea maparii topologice
date de intrare bidimensionale generate uniform aleator in
interiorul unei coroane circulare
36
5.5. Retele de tip KOHONEN
Aplicatii
37
5.5. Retele de tip KOHONEN
Aplicatii
Problema comis voiajorului:
Ponderi ale
unitatilor
oras
a) Configuratia
initiala
b) Dupa 1000
iteratii
c) Dupa 2000
iteratii
38
5.5. Retele de tip KOHONEN
Aplicatii
Alte aplicatii:
Controlul robotilor autonomi: robotul este antrenat cu date
de intrare corespunzatoare regiunilor din zona de deplasare
in care nu sunt obstacole (robotul va invata “harta” zonei)
Categorizarea documentelor electronice: WebSOM
(http://websom.hut.fi/websom/)
39
5.5. Retele de tip KOHONEN
40
5.6. Retele neuronale recurente
Arhitectura
Se caracterizeaza prin prezenta conexiunilor inverse
In functie de densitatea conexiunilor inverse exista:
Retele total recurente (modelul Hopfield)
41
1. Arhitectura
2. Functionare
42
5.6.1. Retele de tip HOPFIELD
Arhitectura
Arhitectura: Notatii:
N unitati total interconectate xi(t) – potentialul (starea) neuronului i la
Functii de transfer: momentul t
Signum/Heaviside yi(t)=f(xi(t)) – semnalul de iesire produs de
Logistica/Tanh neuronul i la momentul t
Parametrii: Ii(t) – semnalul de intrare primit din partea
mediului
matricea cu ponderi a conexiunilor
wij – ponderea conexiunii dintre neuronul j si
neuronul i
43
5.6.1. Retele de tip HOPFIELD
Functionarea
44
5.6.1. Retele de tip HOPFIELD
Functionarea
Functionare in timp discret: starea retelei la momentul t+1 este descrisa in functie de starea
retelei la momentul t
Starea retelei: Y(t)
Variante:
Asincrona: un singur neuron isi poate modifica starea la un moment dat
Sincrona: toti neuronii isi schimba starea simultan
Raspunsul retelei: starea in care se stabilizeaza reteaua
45
5.6.1. Retele de tip HOPFIELD
Functionarea
Varianta asincrona:
Varianta sincrona:
N
yi* (t 1) f wi* j y j (t ) I i* (t ) N
j 1 yi (t 1) f wij y j (t ) I i (t ) , i 1, N
yi (t 1) yi (t ), i i * j 1
Obs. Cea mai convenabila varianta este cea in care reteaua tinde catre o stare 47
stationara stabila (perturbatii mici in conditiile initiale nu afecteaza semnificativ
solutia)
5.6.1. Retele de tip HOPFIELD
Proprietatea de stabilitate
Cazul continuu: Cazul discret - asincron:
Daca: Daca:
- matricea ponderilor este simetrica (wij=wji) - matricea ponderilor este
- functia de transfer este strict crescatoare simetrica (wij=wji)
(f’(u)>0) - functia de transfer este signum
sau Heaviside
- semnalul de intrare este constant (I(t)=I)
- semnalul de intrare este
Atunci toate solutiile stationare asociate retelei sunt constant (I(t)=I)
asimptotic stabile Atunci toate solutiile stationare
Pentru a studia proprietatea de (asimptotic) asociate retelei sunt asimptotic
stabilitate a solutiilor in teoria sistemelor stabile
dinamice se foloseste metoda functiei Liapunov
Functia Liapunov asociata: Functia Liapunov asociata
f ( xi )
1 N N N
1 N N
V ( x1 ,..., xN ) wij f ( xi ) f ( x j ) f ( xi ) I i f V ( y1 ,..., y N ) wij yi y j yi I i
1
( z )dz
2 i , j 1 i 1 i 1 0 2 i , j 1 i 1
48
5.6.1. Retele de tip HOPFIELD
Proprietatea de stabilitate
In cazul dinamicii sincrone rezultatul nu mai este valabil, putandu-se arata in schimb
ca solutiile periodice de perioda 2 (reteaua oscileaza intre doua stari) sunt stabile
49
5.6.1. Retele de tip HOPFIELD
Aplicabilitate- Memorii asociative
Memorie = sistem de stocare si regasire a informatiei
Memorie bazata pe adresa:
Stocare localizata: toate “elementele” (bitii) unei unitati de informatie (ex: o valoare
numerica sunt stocate in aceeasi zona de memorie identificabila prin adresa
Regasire pe baza adresei
Memorie asociativa:
Informatia este stocata distribuit (nu mai exista conceptul de adresa)
Regasirea se realizeaza pe baza continutului (se porneste de la un indiciu privind
informatia de regasit – ex: imagine partiala sau alterata de zgomot)
Proprietati:
Robustete (distrugerea unei componente nu impiedica regasirea informatiei)
Modalitati de implementare:
Hardware:
Circuite electrice
Sisteme optice
Software:
Retea de tip Hopfield 50
5.6.1. Retele de tip HOPFIELD
51
5.6.2. Retele cu ferestre temporale
Modelul asociat unei serii temporale poate fi: liniar, neliniar, determinist sau aleator
Exemplu: modelul auto-regresiv (AR(p))
Model zgomot (variabila
aleatoare din N(0,1))
52
5.5.2. Retele cu ferestre temporale
Arhitectura: Functionare:
Antrenare:
Set antrenare: {((xl,xl-1,…,xl-p+1),xl+1)}l=1..L
Algoritm de antrenare: BackPropagation
53
Dezavantaj: presupune cunoasterea lui p
5.6.3. Retele cu cu unitati contextuale- Elman
Unitati
contextuale
Obs:
unitatile contextuale contin copii ale
starilor unitatilor ascunse
Antrenare
Set antrenare: {(x(1),x(2)),(x(2),x(3)),…(x(t-1),x(t))}
Ponderi:
Ajustabile: W x, Wc si W2
Neajustabile: ponderile conexiunilor dintre nivelul ascuns si cel contextual
Algoritm antrenare: BackPropagation
54
1. Arhitectura
Arhitectura:
Toate unitatile au dublu rol: unitati de intrare si
unitati de iesire
Unitatile sunt plasate in nodurile unei grile
bidimensionale (notata cu L)
Fiecare unitate este identificata prin pozitia ei
p=(i,j) in cadrul grilei
Fiecare unitate este conectata doar cu unitatile
aflate in vecinatatea sa (vecinatatile se
definesc la fel ca un cazul retelelor Kohonen pe
baza unei distante; cel mai frecvent se
foloseste d((i,j),(k.l))=max{|i-k|,|j-l|} Unitati virtuale
Functie de activare: rampa
Notatii
1
0.5
-2 -1 1 2
-0.5
55
-1
5.6.4. Retele celulare
Functionare
Semnal produs de alte Semnal
unitati de control (sau de intrare)
56
5.6.4. Retele celulare
Aplicatii
Aplicabilitate:
Prelucrarea imaginilor alb-negru sau pe nivele de gri
Fiecare pixel este asociat cu o unitate a retelei
Nivelul de gri al unui pixel este codificat in [-1,1]
Prelucrarea imaginilor:
In functie de alegerea matricilor sablon, a semnalului de control (u), a conditiei
initiale (x(0)) si a conditiilor pe frontiera (z) se obtin diferite tipuri de prelucrari:
Binarizare (imagine pe nivele de gri -> imagine binara)
Umplerea golurilor in imagini binare
Eliminarea zgomotului (pixeli izolati) din imagini binare
Detectarea contururilor in imagini binare
Observatie: imaginile alb negru sunt codificate in {-1,1}: Alb: -1, Negru: +1 57
5.6.4. Retele celulare
Aplicatii
Exemplu 1: identificarea contururilor
z=-1, U=imaginea de prelucrat, h=0.1 0 0 0 0 1 0
A 0 3 0, B 1 2 1
0 0 0 0 1 0
I 1, X (0) U
58
http://www.isiweb.ee.ethz.ch/haenggi/CNN_web/CNNsim_adv.html
5.6.4. Retele celulare
Aplicatii
Exemplu 2: umplerea golurilor
z=-1, 0 1 0 0 0 0
A 1 1.5 1, B 0 4 0
U=imaginea de prelucrat,
h=0.1
0 1 0 0 0 0
I 0.5, xij (0) 1 (toti pixelii sunt egali cu 1)
59
5.6.4. Retele celulare
Aplicatii
60
5.6.4. Retele celulare
Aplicatii
61
INTELIGENŢĂ
ARTIFICIALĂ
TIPURI DE
INSTRUIRE
SUPERVIZATA
Boltzman
Corectia erorilor
(stochastic)
-Widrow-Hoff Propagarea
- LMS inapoi a erorii
- Regula Delta
NESUPERVIZATA
(AUTOORGANIZARE)
Hebbian Competitiv
RNA de
tip perceptron RNA cu
autoorganizare
Perceptronul Perceptronul cu
simplu mai multe straturi Algoritmi
Algoritmul hebbuan
invatare competitiva
e( n ) d ( n ) y ( n )
wk (n 1) wk (n) e(n) xk (n), k 1,2...N
Formularea algoritmului LMS s-a facut din perspectiva unei filtrari spatiale. El poate fi
utilizat in aceiasi masura in rezolvarea problemelor de filtrare temporala, considerand ca
x(n) reprezinta esantioane ale vectorului de intrare la momente de timp diferite:
x(n) [ x(n), x(n 1),..., x(n N 1)]T
Calculul gradientului: 1 1
El (W ) (d il yil ) 2 (d il wij x lj ) 2
2 i 1
2 i 1 j 0
El (W )
grad ( El (W )) ( ) i 1, M ; j 0, N
wij
El (W )
(d il yil ) x lj il x lj
Obs: wij
Daca functia de eroare are un singur minim algoritmul converge catre acesta (insa
nu este garantata convergenta in numar finit de iteratii)
Viteza de convergenta este influentata de rata de invatare (eta)
Valoarea E este o masura a acuratetii invatarii setului de antrenare
Inteligenta
Este artificiala-
unul dintre
curs 6 cei mai simpli algoritmi de invatare insa poate fi aplicat doar pentru
Otilia DRAGOMIR
retele liniare
6.2. Algoritmi de invatare al RNA de
tip perceptron cu un singur strat
Algoritmul Widrow- Hoff
Structura algoritmului:
Initializare:
wij(0):=rand(-1,1) (ponderile sunt initializate aleator in [-1,1]),
k:=0 (contor de iteratii)
Proces iterativ
REPEAT
FOR l:=1,L DO
Calculeaza yi(l) si deltai(l)=di(l)-yi(l), i=1,M
Ajusteaza ponderile: wij:=wij+eta*deltai(l)*xj(l)
Calculeaza E(W) pentru noile valori ale ponderilor
k:=k+1
UNTIL E(W)<E* OR k>kmax
1 1
Calcul gradient: El (W ) (d il yil ) 2 (d il f i ( wij x lj )) 2
2 i 1 2 i 1 j 0
El (W )
grad ( El (W )) ( ) i 1, M ; j 0, N
wij
El (W )
N
Particularitati: wij
f 'i ( wij x lj )(d il yil ) x lj il x lj
j 0
1. Functia de eroare poate avea mai multe minime; algoritmul de antrenare se poate
bloca in unul dintre acestea (aceasta inseamna ca invatarea este incompleta)
2. Pentru functiile sigmoidale derivatele pot fi calculate eficient folosind relatiile:
1
f (u ) f ' (u) f (u)(1 f (u))
1 exp( u )
Inteligenta artificiala- curs 6 Otilia DRAGOMIR
f (u ) tanh(u) f ' (u) 1 f (u ) 2
6.2. Algoritmi de invatare al RNA de
tip perceptron cu un singur strat
Deducerea regulilor de modificare a ponderilor- consideratii generale
Functie de eroare: masura a “distantei” dintre iesirea produsa de retea si iesirea dorita
Notatii: L
1 2 1 1
El (W ) d l Y l (d il yil ) 2 (d il fi ( wij x lj )) 2
2 2 i 1
2 i 1 j 0
Metoda gradientului:
Directia opusa Directia opusa
Algoritm de minimizare a lui E(W) bazat pe gradientului gradientului
metoda gradientului:
Initializare:
W(0):=valori initiale, f’(x)<0 f’(x)>0
k:=0 (contor de iteratii)
Proces iterativ
REPEAT
W(k+1)=W(k)-eta*grad(E(W(k)))
k:=k+1 xk-1 x1 x0
UNTIL e satisfacuta o conditie de oprire
singura data pe baza tuturor perechilor de tipare ek (n) d k (n) yk (n) eroarea
Antrenare:
Set de antrenare: {(x1,d1),…,(xL,dL)}
Functie de eroare: eroarea medie
patratica
Minimizare: metoda gradientului
etapa BACKWARD
epoca
modificarea ponderilor etapa BACKWARD
ENDFOR cumularea ajustarilor
Recalcularea erorii ENDFOR
UNTIL <conditie de oprire> Modificarea ponderilor
Recalcularea erorii
UNTIL <conditie de oprire>
/ * Etapa BACKWARD * /
N2
il : f 2' ( xil )( d il yil ), kl : f1' ( xkl )
i 1
wik2 il
/ * Etapa de ajustare * /
w1kj : w1kj kl x lj , wik2 : wik2 il y kl
Inteligenta artificiala- curs 6 Otilia DRAGOMIR
ENDFOR
Algoritmul BackPropagation
Detalii (varianta seriala)
/ * Calculul erorii * /
E : 0
FOR l : 1, L DO
/ * Etapa FORWARD (cu noile valori ale ponderilor) * /
N0 N1
xkl : j 0
w1kj x lj , y kl : f1 ( xkl ), xil : w
k 0
2 l
ik y k , yil : f 2 ( xil )
/ * Sumarea erorii * /
L
E : E (d
l 1
l
i yil ) 2
ENDFOR
E : E /(2 L)
p : p 1
UNTIL p p max OR E E *
Inteligenta artificiala- curs 6 Otilia DRAGOMIR
Algoritmul BackPropagation
Particularitati ale variantei “batch”
w1kj : rand ( 1,1), wik
2
: rand ( 1,1), i 1.. N 2, k 0.. N1, j 0.. N 0
p : 0
REPEAT
Δkj
1
: 0 ,Δik2 : 0
FOR l : 1, L DO
/ * Etapa FORWARD * /
N0 N1
x kl :
j 0
w1kj x lj , y kl : f1 ( xkl ), xil : wk 0
2
ik y kl , yil : f 2 ( xil )
/ * Etapa BACKWARD * /
N2
il : f 2' ( xil )( d il yil ), kl : f1' ( x kl ) w
i 1
ik i
2 l
/ * Etapa de ajustare * /
1kj : 1kj kl x lj , 2ik : 2ik il y kl
ENDFOR
w1kj : w1kj 1kj , wik
2
: wik
2
2ik
Inteligenta artificiala- curs 6 Otilia DRAGOMIR
Algoritmul BackPropagation
Variante
1. Functiei de eroare
2. Metodei de minimizare
4. Initializarii ponderilor
L
CE (W ) (d ln y
l 1
l l (1 d l ) ln(1 yl )) Obs: Valoarea minima (0) se obtine
cand dl si yl sunt suficient de
apropiate
ln yl daca d l 1
El (W )
ln(1 yl ) daca d l 0
Inteligenta artificiala- curs 6 Otilia DRAGOMIR
Variante ale BP
Variante
1. Functia de eroare: eroare bazata pe entropie:
Se schimba valorile derivatelor partiale
Semnalul de eroare corespunzator unitatii de iesire (cu functie logistica de transfer)
va fi:
d l 1 d l ' ( 2) d l (1 yl ) yl (1 d l )
l ( ) f2 (x ) yl (1 yl )
yl 1 yl yl (1 yl )
d l (1 yl ) yl (1 d l )
w( p 1) w( p ) ( J T ( w( p )) J ( w( p )) p I ) 1 J T ( w( p)) e( w( p))
J ( w) jacobianul lui e( w) matricea derivatelor lui e in raport
cu toate argumentele
Ei ( w)
J ij( w) Termen de perturbare care elimina
w j
cazurile singulare (matrice
Avantaj: neinversabila)
Nu necesita calculul hessianei
Pentru valori mari ale factorului de atenuare, ajustarea devine similara celei de la
Inteligenta artificiala- curs 6 Otilia DRAGOMIR
metoda gradientului
Variante ale BP
Variante
3. Alegerea ratei de invatare:
Constanta
Adaptiva
Metode euristice
Aplicand, la fiecare etapa de ajustare, o metoda unidimensionala de
minimizare
4. Initializarea ponderilor:
Aleator
Aplicand o metoda aleatoare de minimizare
4. Stagnare (procesul de invatare stagneaza chiar daca nu s-a ajuns intr-un minim
local)
Solutii:
- se restarteaza antrenarea de la alte valori initiale ale ponderilor
- se introduc perturbatii aleatoare (se adauga la ponderi dupa aplicarea
ajustarilor):
Solutie:
Inlocuirea metodei gradientului cu o metoda aleatoare de optimizare
Inseamna utilizarea unei perturbatii aleatoare in locul celei calculate pe baza
gradientului
Ajustarile pot conduce la cresterea valorii erorii
Pasul de ajustare
ij : valori aleatoare
IF E (W ) E (W ) THEN se accepta ajustare (W : W )
Obs:
Ajustarile sunt de regula generate in conformitate cu repartitia normala de medie 0
si dispersie adaptiva
Daca ajustarea nu conduce la o descrestere a valorii erorii atunci nu se accepta
deloc
Inteligenta sau se
artificiala- curs accepta
6 cu o probabilitate mica
Otilia DRAGOMIR
Algoritmul BackPropagation
Probleme ale algoritmului BP
Pb 3: Stagnare (procesul de invatare stagneaza chiar daca nu s-a ajuns intr-un minim
local)
Cauza:
Ajustarile sunt foarte mici intrucat se ajunge la argumente mari ale functiilor
sigmoidale si la valori foarte mici ale derivatelor;
argumentele sunt mari fie datorita faptului ca datele de intrare nu sunt normalizate
fie intrucat valorile ponderilor sunt prea mari
Solutii:
- se “penalizeaza” valorile mari ale ponderilor
- se utilizeaza doar semnele derivatelor nu si valorile lor
Solutie:
Penalizarea valorilor mari ale ponderilor: se adauga un termen de penalizare la functia
de eroare
E( r ) (W ) E (W )
i, j
wij2
Ajustarea va fi:
(ijr ) ij 2wij
Inteligenta artificiala- curs 6 Otilia DRAGOMIR
Algoritmul BackPropagation
Probleme ale algoritmului BP
Pb 3: Stagnare (procesul de invatare stagneaza chiar daca nu s-a ajuns intr-un minim
local)
Cauza:
Ajustarile sunt foarte mici intrucat se ajunge la argumente mari ale functiilor
sigmoidale ceea ce conduce la valori foarte mici ale derivatelor; argumentele sunt
mari fie datorita faptului ca datele de intrare nu sunt normalizate fie intrucat valorile
ponderilor sunt prea mari
Solutie:
Utilizarea semnului derivatei nu si a valorii (Resilient BackPropagation – RPROP)
E (W ( p 1))
ij ( p ) if 0
wij
wij ( p)
E (W ( p 1))
ij ( p) if 0
w ij
E (W ( p 1)) E (W ( p 2))
a ij ( p 1) if 0
w w
ij ( p) ij ij
E (W ( p 1)) E (W ( p 2))
b ij ( p 1) if 0
Inteligenta artificiala- curs 6
w
Otilia DRAGOMIR
ij w ij
0 b 1 a
Algoritmul BackPropagation
Probleme ale algoritmului BP
Pb 4: Supraantrenare si capacitate limitata de generalizare:
Cauze:
Arhitectura retelei (numarul de unitati ascunse)
Un numar prea mare de unitati ascunse poate provoca supraantrenare
(reteaua extrage nu doar informatiile utile din setul de antrenare ci si
zgomotul)
Dimensiunea setului de antrenare
Prea putine exemple nu permit antrenarea si asigurarea capacitatii de
generalizare
Numarul de epoci (toleranta la antrenare)
Prea multe epoci conduc la supraantrenare
Solutii:
- modificarea dinamica a arhitecturii
- criteriul de oprire se bazeaza nu pe eroarea din setul de antrenare ci pe eroarea
de pe setul de validare
Solutii:
Modificarea dinamica a arhitecturii:
Strategie incrementala:
Solutii:
Criteriu de oprire bazat pe eroarea pe setul de validare :
Strategie incrementala:
Uzual, se utilizează ca funcţii radiale, funcţii Gaussiene având deviaţia standard fixă,
dependentă de împrăştierea centrilor, de forma:
e
M
X k
G X k
2 2
, k 1, 2., N
unde M<N este numărul centrilor, iar este distanţa maximă între centrii aleşi.
Valoarea deviaţiei standard pentru funcţiile Gaussiene este dată de:
2M
Cum în acest caz, centrii au poziţii fixe, iar deviaţia standard este constantă, singurii
parametrii care trebuie determinaţi sunt ponderile conexiunilor dintre stratul ascuns şi
stratul de ieşire. O metodă imediată de determinare a matricii (vectorului) ponderilor
este metoda matricii pseudoinverse
Matricea pseudoinversă de dimensiune MxN a matricii G poate fi calculată ca G V U T
unde matricea diagonală + de dimensiune NxN, este definită de
1 1 1
Inteligenta artificiala- curs 6 diag , Otilia , 0,, 0
,DRAGOMIR
,
j
1 2
6.4. Algoritmi de invatare a retelelor cu
functii radiale
Metoda selecţiei supervizate a centrilor
În acest caz, atât centrii funcţiilor radiale utilizate ca funcţii de activare pentru neuronii din
stratul ascuns, cât şi ponderile conexiunilor dintre stratul ascuns şi stratul de ieşire sunt
adaptate de o manieră supervizată, prin minimizarea unei funcţii de eroare. Uzual, pentru
minimizarea erorii se utilizează un algoritm de descreştere pas cu pas a gradientului.
În cazul selecţiei supervizate a centrilor, problema determinării funcţiilor de activare radiale
nu este o problemă complet determinată, din mai multe motive:
• este imposibil de a şti câte exemple de antrenare trebuie prezentate reţelei, astfel
încât informaţia să fie suficientă pentru determinarea unică a funcţiilor radiale. Deci,
condiţia de unicitate nu este îndeplinită.
• semnalele de intrare, pot fi contaminate de zgomote. O valoare mare a amplitudinii
acestora, va face ca valoarea funcţiei radiale să fie aruncată în afara hipersferei , deci
condiţia de continuitate nu va fi îndeplinită.
E ( j )
wk ( j 1) wk ( j ) 1 , k 1, 2,, M
wk ( j )
E ( j )
N
2wk ( j ) em ( j )G' xm k ( j ) 1
xm k ( j)
k ( j ) Ck k
m 1
E ( j )
k ( j 1) k ( j ) 2 , k 1, 2, , M
k ( j )
Împrăştierea centrilor stratului ascuns
E ( j )
Q
N
wk ( j ) em ( j )G' xm k ( j ) ( j)
k1 ( j ) Ck mk
m 1
E ( j )
k1 ( j 1) k1 ( j ) 3
Inteligenta artificiala- curs 6 k1 ( j ) Otilia DRAGOMIR