Documente Academic
Documente Profesional
Documente Cultură
1. Arhitectura reţelei
x Rn Straturile ascunse y Rm
x
1
y
x 1
2
x
3 y
2
x
4
x y
5 3
. .
. .
.
y
x m
n
F F F F
o x y z
Stratul de Primul strat Al doilea Stratul de
intrare ascuns strat ascuns ieçire
dintre Fx şi Fy sunt toate +1 şi că pragul fiecărui neuron din Fy este (n1a), în care 0
a 1. Acum fiecare neuron din Fy are ieşirea +1 doar dacă ieşirile tuturor neuronilor
din primul strat sunt +1. Aceasta înseamnă că fiecare neuron din Fy realizează funcţia
logică ŞI. Regiunea de decizie generată de fiecare neuron din acest strat va fi intersecţia
semiplanelor formate în primul câmp. Intersecţia hiperplanelor formează regiuni de
decizie convexe ce au cel mult n1 laturi.
Un exemplu. Pentru problema XOR sunt suficienţi doi neuroni în primul strat.
Mărirea numărului de neuroni nu poate genera regiuni de decizie oricât de complexe. De
exemplu, indiferent câţi neuroni vom folosi, clase având configuraţia celor din Figura 2
nu vor putea fi separate de un perceptron cu două straturi.
Să considerăm o clasă de forme de intrare căreia îi corespunde o regiune de
decizie formată din două sub-regiuni convexe (Figura 3). Fiecare dintre sub-regiunile A şi
B poate fi realizată de câte un neuron al celui de-al doilea strat (câmpul Fy). Fie r şi s
aceşti neuroni. Pentru a combina A şi B într-o singură regiune este necesar ca ieşirile
neuronilor r şi s să devină intrările unui neuron care realizează funcţia logică SAU.
Problema considerată poate fi aşadar rezolvată într-un perceptron cu trei straturi.
sunt egale cu +1 şi că pragul lui este t 1. În acest fel dacă oricare dintre neuronii
stratului precedent (Fy) este activat, atunci ieşirea neuronului va fi +1.
fie suficient de mare pentru ca acest câmp să furnizeze trei sau mai multe laturi pentru
fiecare regiune convexă identificată de al doilea strat, Fy. Deci numărul de neuroni al
stratului Fx trebuie să fie de peste trei ori mai mare decât numărul neuronilor din Fy.
Evident, aceasta este o estimare euristică a numărului de neuroni din Fx .
Dacă numărul de neuroni dintr-un strat este mai mic decât cel necesar, atunci
reţeaua nu poate construi o reprezentare completă a distribuţiei vectorilor de intrare şi
deci nu poate învăţa întreaga informaţie conţinută în aceşti vectori.
Dacă numărul neuronilor din oricare strat este prea mare, atunci în reţea se poate
genera zgomot. Reţeaua nu va putea construi o reprezentare compactă a relaţiilor
existente între formele de intrare. Pe de altă parte, robusteţea reţelei poate fi obţinută doar
permiţând o anumită redundanţă referitoare la numărul neuronilor. În practică, cea mai
bună arhitectură a reţelei se poate determina doar prin încercări.
În cazul în care problema de instruire presupune partiţionarea spaţiului vectorilor
de intrare în m clase, perceptronul trebuie să aibă m ieşiri, fiecare ieşire corespunzând
unei clase. Presupunem că reţeaua a fost instruită. Când se prezintă reţelei un vector-
formă, această formă este asignată (asociată) clasei ce corespunde neuronului de ieşire
având cea mai mare valoare a activării.
Fie X = x1, x2, ... , xp mulţimea de instruire şi fie xr X obiectul cel mai
apropiat de x. Regula celui mai apropiat vecin constă în a aloca obiectul x clasei i dacă
xr Ai, unde se consideră că Ai este o clasă neambiguă (este descrisă printr-o mulţime
clasică).
Regula se poate formula astfel :
Dacă
d(x, xr) d(x, xj) , j = 1, 2, ... , p
şi
xr Ai ,
3. Regula k-nn
Această regulă este o extindere naturală a regulii celui mai apropiat vecin. Pentru
un obiect necunoscut x se caută cei mai apropiaţi k vectori din mulţimea de instruire X.
Dacă dintre cei k vecini cei mai mulţi aparţin clasei Ai, atunci forma necunoscută x este
alocată clasei i. Această regulă de decizie se numeşte regula k-nn ("k - nearest
neighbour"). Ea se bazează în mod esenţial pe presupunerea că fiecare clasă de instruire
conţine un număr mare de vectori presupuşi corect clasificaţi.
Regula k-nn implică o metodă de alegere a numărului k de vecini şi stabilirea unei
distanţe peste mulţimea vectorilor x. Dacă numărul claselor este c=2, atunci k se alege
impar pentru a evita ambiguităţile.
Notăm cu X = x1, x2, ... , xp mulţimea formelor de instruire. Fie Er eroarea
medie asociată unui perceptron multistrat care foloseşte orice algoritm de instruire. Fie
Dr(x) eticheta clasei asociată vectorului x după ce reţeaua a fost instruită. Notăm cu Eb
eroarea asociată regulii de decizie Bayes şi fie Db(x) clasa asociată vectorului x prin
regula Bayes.
Rezultatul lui Ruck şi al colaboratorilor săi stabileşte că există egalităţile
( i) lim E r E b ;
p
(ii) lim D r (x ) D b (x ) 0 .
p
P1. Iniţializările.
Se alege rata de instruire c 0.
P2. Se repetă paşii P3 P7 până când este îndeplinită una din condiţiile
următoare :
(I) vectorul pondere nu s-a schimbat la p paşi consecutivi. În acest caz avem
n = p.
(ii) k No.
În cazul (i) s-a obţinut un vector de separare. În cazul (ii) B este un vector
aproximativ de separare.
P3. Se pune n := 0 .
1 , dacä v kT z k 0 ,
a :
kT k
0 , dacä v z > 0 .
v k c z k , dacã a 1 ,
v k 1 :
k
v , dacã a 0 .
P5. Dacă a = 0 se pune
n := n + 1
şi
k := k + 1.
Observaţii.
(i) n reprezintă numărul de forme de instruire corect clasificate de vectorul pondere
curent vk+1.
(ii) B reprezintă cel mai bun vector pondere ce poate fi obţinut în No iteraţii ale
procesului de instruire.
BIBLIOGRAFIE
[1] Cover, T., Hart, P., Nearest Neighbor Pattern Classification, IEEE Trans. Inf. Theory, 13(1967), 21-
27.
[2] Duda, R.O., Hart, P.E., Pattern Classification and Scene Analysis, John Wiley, 1973.
[3] Dumitrescu, D., Principiile Matematice ale Teoriei Clasificării, Editura Academiei, Bucureşti, 1996.
[4] Gallant, S.I., Optimal Linear Discriminants, Proc. 8-th Int. Conf. on Pattern Recognition, Paris, 1986,
849-852.
[5] Gallant, S.I., Neural Network Learning and Expert Systems, MIT Press, Cambridge, MA, 1993.
[6] Lippman, R.P., An Introduction to Computing with Neural Nets, IEEE ASSP Magazine, 4(1987), 4-
22.
[7] Minsky, M., Papert, S., Perceptrons. An Introduction to Computational Geometry, MIT Press,
Cambridge, MA, 1969.
[8] Pao, Y.-H., Adaptive Pattern Recognition and Neural Networks, Addison-Wesley, Reading, MA,
1989.
[9] Rosenblatt, F., Principles of Neurodinamics, Spartan Book, New York, 1962.
[10] Ruck, D., Rogers, S., Kabrisky, M., Oxley, M., Sutter, B., The Multi-Layer Perceptron as an
Approximation of a Bayes Optimal Discriminant Function, IEEE Trans. Neural Networks, 1(1990),
296-298.
[11] Widrow, B., Winter, R.G., Baxter, R.A., Learning Phenomena in Layered Neural Networks, in Proc.
First Int. Conf. on Neural Networks, IEEE, 1987, vol. II, 411-429.