Sunteți pe pagina 1din 15

Reele bazate pe funcii radiale

52

3. REELE BAZATE PE FUNCII RADIALE


Algoritmii de antrenare supervizat
prezentai n capitolul
precedent, sunt rezultatul unor tehnici de optimizare stohastic, bazate pe
minimizarea unei funcii obiectiv, dependent de eroare.
Exist i alte abordri ale proiectrii i instruirii reelelor neuronale.
Astfel, n locul determinrii minimului gradientului funciei de eroare,
antrenarea reelei neuronale poate fi conceput astfel nct, fiind dat
mulimea datelor de test, s se determine hipersuprafaa care realizeaz cea
mai bun interpolare a ei ntr-un spaiu multidimensional. n acest caz,
stratul neuronilor ascuni are rolul de a produce o mulime de funcii (funcii
radiale) pentru reprezentarea vectorilor de intrare.
Reelele neuronale bazate pe funcii radiale (RBF) se bucur n
ultimul timp de o atenie tot mai mare, datorit avantajelor pe care le
prezint.
3.1 Interpolare. Reele neuronale RBF
Principiul de funcionare al unei reele neuronale bazate pe funcii
radiale, se bazeaz pe teorema lui Cover asupra separabilitii abloanelor
(vectorilor). Conform acestei teoreme, o problem complex de clasificare,
poate fi mai bine rezolvat n sensul liniar separabilitii, ntr-un spaiu cu
un numr mare de dimensiuni, dect n unul cu un numr mic de
dimensiuni. Astfel, considernd N vectori (abloane) p dimensionali xX,
pentru fiecare dintre ei se definete un vector (x)=[1(x), 2(x), ..., m(x)]T,
cu m>p. Funcia care scufund vectorii de intrare p dimensionali n noul
spaiu m dimensional, se numete funcie ascuns. Problema interpolrii, n
sensul strict al su, poate fi enunat astfel:
Enunul 3.1: Fiind dat mulimea de puncte {xkRp k=1,2,...,N} i o
mulime de numere reale {d kR k=1,2,...,N}, s se determine funcia
F:RN R, care s satisfac condiia de interpolare
F ( x k ) d k , k 1, 2, , N
(3.1)

53

Reele bazate pe funcii radiale


Tehnica funciilor radiale const n alegerea funciei F de forma
N

F ( x) wk x x k
k 1

(3.2)

unde {(x-xk) k=1, 2, , N} este o mulime de N funcii arbitrare, n


general neliniare, numite funcii radiale, iar reprezint o norm, n
general fiind utilizat norma Euclidian. Vectorii cunoscui (abloanele)
xkRp, k=1,2,...,N se numesc centrii funciei radiale, iar wk sunt ponderi,
iniial necunoscute. Prin gsirea ponderilor w k, funcia F este complet
determinat
Pentru aceasta, prin nlocuirea (3.2) n (3.1), se obine
N

w
k 1

x xk

k 1, 2, , N

(3.3)

Dezvoltnd relaia (3.3), rezult urmtorul sistem de ecuaii liniare, din care
se pot determina ponderile wk:
11 12 1N w1
d1

21 22 2 N w2 d 2
(3.4)


N 1 N 2 NN w N
dN
unde
mk x m x k , m, k 1, 2, , N
(3.5)
Fie D=[d1, d2, ..., dN]T i W=[w1, w2, ..., wN]T vectorul rspunsului
dorit i respectiv vectorul pondere i fie matricea de dimensiune NxN, de
elemente mk , numit matrice de interpolare. Sistemul de ecuaii (3.4) poate
fi rescris sub form matriceal ca:
W D
(3.6)
Teorema 3.1 (Light, 1992): Dac x1, x2 ,..., xN sunt puncte distincte n Rp,
atunci matricea de interpolare , de dimensiune NxN, avnd elementele
mk = ( xm-xk ) este pozitiv definit.
n condiiile teoremei lui Light, vectorul pondere necunoscut, se
obine simplu, prin inversarea matricii de interpolare:
W 1 D
(3.7)

Reele neuronale. Modelarea i simularea sistemelor dinamice

54

Pot fi puse n eviden mai multe tipuri de funcii radiale care


satisfac teorema lui Light. Cteva exemple de astfel de funcii radiale sunt:
1. Funciile Gaussiene, de forma
r2

(r ) e

(3.8)

, pentru 0, r 0
2. Multicuadrice inverse, de forma
(r )

2 2

1
r c2
2

pentru c 0, r 0

(3.9)

3. Funcii Spline, de tipul


( r ) r 2 log(r ),

pentru r 0

3.10)

Se pune problema, ce se ntmpl dac, ntr-un perceptron sau ntrun perceptron multistrat, funciile de activare liniare sau neliniare sunt
nlocuite cu funcii radiale. Fie pentru aceasta o reea cu un singur neuron, n
care funcia de activare este o funcie radial de tip Gaussian (fig. 3.1).
x

(x)

Figura 3.1 Neuronul RBF

Fie ponderea conexiunii de intrare, iar x semnalul aplicat pe


intrarea neuronului. Ieirea neuronului va fi dat de funcia (x), exprimat
de

( x) e

( x ) 2

(3.11)

2 2

Valoarea maxim a ieirii se obine pentru x= i descrete rapid, cu ct


intrarea x se deprteaz de . Domeniul de valori ale ieirii neuronului, n
care aceasta are o valoare semnificativ pentru o plaj restrns de valori ale
intrrii, dependent de , este numit cmp receptiv al neuronului.
Dac intrarea nu este scalar, ci este vectorul X=[x1 x2 xN]T, iar
vectorul ponderilor intrrilor este =[1 2 N]T, ieirea neuronului
bazat pe funcii radiale va fi dat de

(3.12)
(X ) e
Pe baza acestui tip de neuroni, se poate construi o reea neuronal
conectat nainte, avnd n stratul ascuns neuroni bazai pe funcii radiale,
2 2

55

Reele bazate pe funcii radiale

iar n stratul de ieire neuroni liniari, sau avnd o alt funcie de activare
neliniar. O astfel de reea este prezentat n fig. 3.2, avnd un singur
neuron de ieire.
x1

w1

k w2

x2

wN
xN

y=kwk
F(y)

Figura 3.2 Reea neuronal bazat pe f. radiale

Intrrile xj, j=1, 2, , N sunt aplicate tuturor neuronilor stratului


ascuns, prin intermediul ponderilor corespunztoare j. Ieirea fiecrui
neuron al stratului ascuns va fi dat de
X

k ( X ) e 2 k X
Neuronul de ieire va avea potenialul intern dat de

v wk k X
k 1

(3.13)

(3.14)

Dac funcia lui de activare este liniar, atunci la ieirea reelei se obine
semnalul
N

F ( X ) wk k X
k 1

(3.15)

adic, ieirea reelei este dat funcia de interpolare F , descris de relaia


(3.2). Pentru ca condiia de interpolare impus s fie satisfcut de reeaua
neuronal, ponderile wk vor trebui adaptate, respectnd un algoritm de
antrenare.
3.2 Antrenarea reelelor bazate pe funcii radiale
Antrenarea reelelor bazate pe funcii radiale, n scopul obinerii
funciei de interpolare, presupune 2 etape:

Reele neuronale. Modelarea i simularea sistemelor dinamice

56

1. Stabilirea valorilor elemetelor vectorului centrilor k i a


dispersiei k pentru fiecare neuron k din stratul ascuns;
2. Determinarea ponderilor printr-o metod de antrenare, iterativ
sau neiterativ.
Pentru arhitecturi cu i neuroni de ieire, i=1, 2, , presupunnd
matricea W a ponderilor ca fiind singular, actualizarea ponderilor se poate
face iterativ, pe baza unei reguli de minimizare a erorii. Cel mai des
utilizat, este metoda de descretere pas cu pas a gradientului funciei de
eroare, care, similar perceptronului multistrat va da o regul de actualizare a
ponderilor la fiecare iteraie, de forma
E ( j )
wmk ( j 1) wk ( j )
, j 1, 2, , N
(3.16)
wmk ( j )
unde wmk reprezint ponderea conexiunii ieirii neuronului k din stratul
ascuns cu intrarea neuronului m din stratul de ieire, iar j reprezint iteraia
la care se face corecia.
Proiectarea i antrenarea reelelor bazate pe funcii radiale depinde n
mod esenial de modul de specificare al centrilor funciilor radiale. n cele
ce urmeaz, vor fi prezentate dou metode de alegere a centrilor, i anume
alegerea aleatoare a unor centri fici i respectiv, selecia supervizat a
centrilor.
3.3 Alegerea aleatoare a unor centri fici
Este cea mai simpl modalitate de alegere a centrilor, presupunnd
c funciile de activare ale neuronilor din stratul ascuns sunt funcii radiale
fixe. Uzual, se utilizeaz ca funcii radiale, funcii Gaussiene avnd
deviaia standard fix, dependent de mprtierea centrilor, de forma

X k

M
X k
2

, k 1, 2. , N

(3.17)

unde M<N este numrul centrilor, iar este distana maxim ntre centrii
alei. Motivul pentru care matricea funciilor radiale este notat cu G va fi
desluit n paragraful urmtor.
Valoarea deviaiei standard pentru funciile Gaussiene este dat de

2M

(3.18)

57

Reele bazate pe funcii radiale

Cum n acest caz, centrii au poziii fixe, iar deviaia standard este constant,
singurii parametrii care trebuie determinai sunt ponderile conexiunilor
dintre stratul ascuns i stratul de ieire. O metod imediat de determinare a
matricii (vectorului) ponderilor este metoda matricii pseudoinverse
(Broomhead i Lowe, 1988), dat de
W GD
(3.19)
unde D este vectorul rspunsului dorit, utilizat n setul de antrenare, iar G+
este pseudoinversa matricii G, definit de
1
(3.20)
G GT G GT
Matricea G este definit, dup cum s-a artat anterior ca,
G g mk
(3.21)
unde

X m k
(2.22)
g mk e
, m 1, 2, , N , k 1, 2, , M
unde Xm reprezint vectorul de intrare la iteraia j (exemplul j din setul de
antrenare).
Pentru implementarea algoritmului de calcul a matricii pseudoinverse, de o
utilitate deosebit este teorema descompunerii dup valori singulare
(Haykin 1991):
Teorema 3.2 : Dac G este o matrice de dimensiune NxM, de valori reale,
atunci exist matricile ortogonale
U u1 , u 2 , , u N
i
V v1 , v 2 , , v M
astfel nct
U T GV diag 1 , 2 , , j , j min M , N
unde

1 2

Coloanele matricii U formeaz vectorii singulari stngi, iar coloanele


matricii V vectorii singulari drepi. Valorile k, k=1,,j sunt valorile
singulare ale matricii G.
Conform teoremei 3.2, matricea pseudoinvers de dimensiune MxN
a matricii G poate fi calculat ca
G V U T
(3.23)
+
unde matricea diagonal de dimensiune NxN, este definit de

Reele neuronale. Modelarea i simularea sistemelor dinamice

diag


1
2

, ,

, 0, , 0

58

(3.24)

3.4 Selecia supervizat a centrilor


n acest caz, att centrii funciilor radiale utilizate ca funcii de
activare pentru neuronii din stratul ascuns, ct i ponderile conexiunilor
dintre stratul ascuns i stratul de ieire sunt adaptate de o manier
supervizat, prin minimizarea unei funcii de eroare. Uzual, pentru
minimizarea erorii se utilizeaz un algoritm de descretere pas cu pas a
gradientului.
Fie perechile {xkRp, k=1,2,,N;dkR, k=1,2,,N} (perechi de
antrenare n cazul reelei) i fie F(x) o funcie care satisface condiia de
interpolare (3.1).
n general, problema interpolrii este o problem incomplet
determinat. Problema ar fi complet determinat dac ar fi simultan
ndeplinite urmtoarele 3 condiii:
1. Condiia de existen: xX, exist y=F(x), yY;
2. Condiia de unicitate: x1, x2 X, F(x1)=F(x2) dac i numai dac
x1=x2;
3. Condiia de continuitate: >0, =(), astfel nct condiia
X(x1,x2) s implice Y(F(x1),F(x2)). (,) reprezint razele unor
hipersfere n spaiile X i respectiv Y, n interiorul crora se
gsesc argumentele (fig. 3.3);

x2
x1

F(x2)
F(x1)

Figura 3.3 Condiia de continuitate

Alegerea aleatoare a unor centrii fici conduce la o problem


complet determinat.

59

Reele bazate pe funcii radiale

n cazul seleciei supervizate a centrilor, problema determinrii


funciilor de activare radiale nu este o problem complet determinat, din
mai multe motive. n primul rnd, este imposibil de a ti cte exemple de
antrenare trebuie prezentate reelei, astfel nct informaia s fie suficient
pentru determinarea unic a funciilor radiale. Deci, condiia de unicitate nu
este ndeplinit. n al doilea rnd, semnalele de intrare, pot fi contaminate de
zgomote. O valoare mare a amplitudinii acestora, va face ca valoarea
funciei radiale s fie aruncat n afara hipersferei , deci condiia de
continuitate nu va fi ndeplinit.
Pentru rezolvarea problemei n acest caz, se recurge la principiul
regularizrii a lui Tikhonov. Conform acesteia, funcia F poate fi
determinat printr-un algoritm de minimizare a unei funcii de eroare E(F),
care implic doi termeni:
1. Un termen reprezentnd eroarea standard, definit de
1 N
1 N
E S ( F ) (d k y k ) 2 (d k F ( x k )) 2
(3.25)
2 k 1
2 k 1
reprezentnd diferena dintre valoarea dorit i valoarea funciei de
interpolare;
2. Un termen reprezentnd eroarea de regularizare, de forma
ER (F )

1
PF
2

(3.26)

unde P este un operator liniar pseudodiferenial, iar este o norm


definit n spaiul PF. P este un operator care ncearc s foreze satisfacerea
condiiei de continuitate, iar eroarea de regularizare este o msur a distanei
cu care F este n afara hipersferei de raz ;
Principiul regularizrii poate fi enunat astfel:
Enunul 3.2: S se determine funcia F(x) care minimizeaz funcia obiectiv
E(F), definit de
E ( F ) E S ( F ) E R ( F )

unde este parametrul regularizrii.


Haykin (1994) a demonstrat c o soluie a problemei puse de enunul
3.2 este dat de
1 N
F ( x) [d k F ( x k )]G ( x; x k )
(3.27)
k 1

Reele neuronale. Modelarea i simularea sistemelor dinamice

60

unde G(x;xk) se numete funcie Green cu centrul n x k. Uzual, G(x;xk) este


luat ca o funcie gaussian, definit de

G ( x; x k ) e

x xk

2 k2

(3.28)

Notnd
1
[ d k F ( x k )],

wk

k 1, 2 , N

(3.29)

relaia (3.27) poate fi rescris ca

F ( x) wk G ( x; x k )

(3.30)

k 1

sau, n cazul utilizrii funciilor Gauss,


N

F ( x ) wk G ( x x k )

(3.31)

k 1

Particulariznd (3.30) pentru ablonul j, se obine


N

F ( x j ) wk G ( x j ; x k )

(3.32)

k 1

Deci, innd cont c


F [ F ( x1 ), F ( x 2 ), , F ( x N )]T
D [d1 , d 2 , , d N ]

G ( x1 ; x1 )
G( x ; x )
2
1
G

G ( x N ; x1 )

G ( x1 ; x 2 )
G( x2 ; x2 )

G( x N ; x2 )

G ( x1 ; x N )
G ( x 2 ; x N )

G ( x N ; x N )

W [ w1 , w2 , , w N ]T

(3.32)
(3.34)

(3.35)

(3.36)

Pe baza acestora, se poate scrie


W

1
DF

F GW

(3.37)
(3.38)

Eliminnd F ntre relaiile (3.37) i (3.38) se obine

G I W

Deci, vectorul W va fi soluia ecuaiei

W G I

1 D

(3.39)
(3.40)

61

Reele bazate pe funcii radiale

Relaia (3.31) descrie o reea neuronal conectat nainte, cu un strat ascuns,


avnd neuroni cu funcii de activare liniare n stratul ascuns, un neuron
liniar n stratul de ieire i W vectorul ponderilor dintre stratul ascuns i
x1

w1
F(X)

w2

xk

G
wN

xp

G
Figura 3.4 Reeaua de regularizare

stratul de ieire, numit reea de regularizare (fig. 3.4), iar (3.40) valoarea
ponderilor astfel nct ieirea reelei s rezolve problema de interpolare.
n cazul seleciei supervizate a centrilor, funciile radiale pot fi
definite pe baza unei norme generalizate, care este norma ponderat.
Aceast norm este dat de relaia
2
T
x C Cx Cx x T C T Cx
(3.41)
unde C este o matrice de ponderare a normei de dimensiune pxp. Se observ
c pentru cazul particular C=I, norma devine norma Euclidian. n acest caz,
funcia Green utilizat ca funcie radial n reea devine
G

x k

Ck

x k

T C kT Ck

x k

1
x k
2

T k 1

x k

(3.42)

unde k sunt centrii funciilor radiale, iar


1 1
k C kT C k
2

(3.43)

O astfel de reea, numit reea RBF, este prezentat n fig. 3.5.


x1

xk

1
w1

w0

w2

wN

xp

Figura 3.5 Reeaua RBF

F(X)

62

Reele neuronale. Modelarea i simularea sistemelor dinamice

Pentru antrenarea reelei bazate pe funcii radiale se utilizeaz un


algoritm propus de Haykin (1994). Se definete funcia de eroare ca
1 N
E em2
(3.44)
2 m 1
unde
M

e m d m wk G
k 1

xm k

Ck

(3.45)

Algoritmul de antrenare este urmtorul (Haykin 1994):


1. Adaptarea ponderilor stratului de ieire

N
E ( j )
em ( j )G x m k ( j ) C
k
wk ( j ) m 1
E ( j )
wk ( j 1) wk ( j ) 1
, k 1, 2, , M
wk ( j )
2. Poziia centrilor funciilor radiale ale neuronilor din stratul ascuns
N
E ( j )
2 wk ( j ) em ( j )G ' x m k ( j ) C k 1 x m k ( j )
k
k ( j )
m 1
E ( j )
k ( j 1) k ( j ) 2
, k 1, 2, , M
k ( j )
3. mprtierea centrilor stratului ascuns

N
E ( j )

w
(
j
)
em ( j )G '

k
k 1 ( j )
m 1

xm k ( j )

Qmk ( j ) x m k ( j ) x m k ( j )
E ( j )
k 1 ( j 1) k 1 ( j ) 3
k 1 ( j )

Ck

mk

( j)

3.5 Problema XOR


O reea neuronal bazat pe funcii radiale rezolv relativ uor problema
XOR. Utilizarea unor funcii radiale 1, 2, de tip Gaussian de exemplu,
transform problema ne-liniar separabil din spaiul x1, x2, ntr-o problem
liniar separabil, n spaiul 1, 2.
Fie funciile radiale de forma

63

Reele bazate pe funcii radiale


2

(3.46)
k e x , m 1, 2, , 4, k 1, 2
unde xm sunt vectorii de intrare [0 0]T, [0 1]T, [1 0]T, [1 1]T, iar k sunt
centrii dai de [0 0]T, [1 1]T.
innd cont c norma utilizat este norma Euclidian, evaluarea valorii
acesteia este dat n tabelul 3.1.
m

Tabelul 3.1 Evaluarea xm-k


x
1=[0 0]T
1=[1 1]T
[0 0]T
0
2
[0 1]T
1
1
[1 0]T
1
1
[1 1]T
2
0

Astfel, valorile funciilor radiale sunt cele date n tabelul 3.2


Tabelul 3.2 Evaluarea
x
1
[0 0]T
1
[0 1]T
0.3678
[1 0]T
0.3678
[1 1]T
0.1353

1
0.1353
0.3678
0.3678
1

Se observ c, punctele de coordonate [0 1]T i


reprezentare n planul 1, 2 (fig. 3.6).
x2
(1,0)

(1,1)

2
1

[0 1]T au aceeai

Posibil linie de
separaie

0.37
0.13
(0,0)

(0,1) x1

0.13 0.37

Figura 3.6 Transformarea problemei XOR pentru reele RBF

Poziia liniei de separaie, depinde de valoarea ponderilor neuronului


liniar din stratul de ieire al unei reele ca i cea prezentat n fig. 3.7.
Valoarea semnalului la ieirea acestui neuron va fi dat de

Reele neuronale. Modelarea i simularea sistemelor dinamice


2

y ( x) wk x k
k 1

w G

x k

k 1

64

(3.47)

Cum singurul parametru care trebuie determinat este vectorul ponderilor W,


antrenarea reelei se va face prin metoda alegerii aleatoare a centrilor fici.
Evident, centrii sunt vectorii [0 0]T i [1 1]T.
+1

x1

w1

w2

x2

Figura 3.7 Rezolvarea problemei XOR

Pentru determinarea ponderilor, se utilizeaz relaia


GW D

(3.48)

unde, conform tabelului 3.2

1
0.3678
G
0.3678

0.1353

iar

D 0

W w1
Conform (3.19) i (3.20), rezult c

0.1353
0.3678
0.3678
1

w2

W G D GT G

unde
1.8292
G 0.6727
0.9202

de unde rezult

1 1

1
1
1

1.2509
1.2509

1.2509
1.2509

1.4202

1.4202

W 2.5019

2.5019

(3.49)

GT D
0.6727
1.8292
0.9202

2.8484

Soluia nu este unic.


3.6 Comparaie ntre reelele RBF i perceptronul multistrat

65

Reele bazate pe funcii radiale

ntre perceptronul multistrat i reelele bazate pe funcii radiale, exist o


serie de asemnri, dar n acelai timp i deosebiri fundamentale.
1. Asemnri
- Att perceptronul multistrat, ct i reelele RBF conin un strat de
intrare, care are doar rolul de repartiie a datelor, straturi ascunse i un
strat de ieire. Conexiunile ntre straturi n ambele cazuri sunt doar
nainte, neexistnd conexiuni de reacie;
- Amblele tipuri de reele au n majoritatea cazurilor neuroni liniari n
stratul de ieire, iar unitile de calcul, n general neliniare, se gsesc n
stratul ascuns (straturile acunse);
- Att perceptronul multistrat, ct i reelele RBF pot fi antrenate printr-un
algoritm supervizat, pentru a realiza mapri intrare-ieire ce
aproximeaz funcii mono sau multivariabile;
2. Deosebiri
- Perceptronul multistrat poate conine 2 straturi ascunse, avnd neuroni
neliniari, structural identici. Reelele RBF conin ntotdeauna un singur
ascuns cu neuroni avnd funcii de activare radiale;
- n timp ce la perceptronul multistrat ieirea neuronilor de calcul este o
funcie neliniar de suma ponderat a intrrilor lui, la reelele RBF
unitile de calcul determin distana (norma Euclidian) dintre vectorul
de intrare i centrul unitii respective. Deci, modul de funcionare al
unui neuron bazat pe funcii radiale este fundamental diferit de cel al
perceptronului;
- Perceptronul multistrat este un aproximator universal. n cazul n care el
este antrenat cu un set de date consistent, el va putea aproxima valoarea
funciei pentru orice valoare a argumentului acesteia. Reeaua bazat pe
funcii radiale este un interpolator universal. Ea realizeaz o aproximare
local a funciei respective. Valoarea ieirii aproximeaz valoarea
funciei n punctele de interpolare (centrii), dar scade exponenial o dat
cu creterea distanei fa de acetia. Modul de aproximare (alura ieirii)
este dependent de valoarea dispersiei. Cu ct valoarea este mai mic,
cu att descreterea ieirii reelei la ndeprtarea de centru este mai
rapid. O dat cu creterea valorii , aparent se tinde spre atingerea
proprietii de aproximator global, dar, reeaua devine insensibil la

Reele neuronale. Modelarea i simularea sistemelor dinamice

66

modificri n alura funciei. Ca exemplu, n fig. 3.7 sunt prezentate


modul reprezenatare a funciei F(x)=sin(x) mn primul cadran. Fig. 3.7a
prezint ieirea unui perceptron multistrat, iar fig. 3.7b, c i d ieirile
unei reele RBF, pentru =0.01, 0.08 i respectiv 0.15. Cu semnul +
sunt marcate valorile funciei utilizate pentru antrenarea reelelor.
Perceptronul multistrat conine un strat ascuns cu 3 neuroni cu funcii de
activare sigmoid i un neuron liniar n stratul de ieire. Reeaua RBF
conine 3 neuroni radiali n stratul ascuns;
Algoritmii de antrenare a reelelor RBF, datorit caracterului de
aproximator local al acestora, sunt mai rapid convergeni i mai puin

S-ar putea să vă placă și