Sunteți pe pagina 1din 10

3.

Perceptronul
3.1 Perceptronul i procesarea paralel Unitile McCullochPitts sunt elementele constructive ale unor reele care pot calcula orice funcie logic sau care pot simula orice automat finit. O caracteristic a unor astfel de reele este c acestea trebuie complet specificate nainte de a fi utilizate i nu exist parametri care s poat fi ajustai dup ce reelele au fost proiectate, n scopul de a trata probleme diverse. nvarea i adaptarea pot fi implementate doar prin modificarea modelului de conectivitate i ale valorilor pragurilor. n continuare vor fi tratate reelele ponderate pentru flexibilitatea pe care o au relativ la ajustarea parametrilor numerici n scopul tratrii unor probleme de mai mare diversitate. 3.1.1. Perceptronul ca element cu prag ponderat Modelul introdus n 1958 de Frank Rosenblatt, aa-numitul perceptron clasic, a fost ulterior investigat de Minsky i Papert, rezultatul fiind actualul perceptron. Perceptronul clasic este o reea pentru tratarea unor probleme de recunoatere a caracterelor i este schematic ilustrat n fig. 1. O suprafa de proiecie, retina, transmite valori binare ctre un strat de elemente de calcul n aria de proiecie. Conexiunile de la retin la aceste elemente sunt deterministe i fixe, neadaptive. Conexiunile de la al doilea strat ctre unitile ce formeaz stratul numit arie de asociere i de la acest strat ctre al treilea care furnizeaz rspunsurile, sunt selectate stocastic. Sistemul trebuie antrenat pentru a recunoate anumite modele din regiunea de conexiuni care s conduc la anumite valori de ieire al unitilor de pe ultimul strat, misiunea algoritmului de nvare fiind determinarea unor ponderi adecvate ale conexiunilor. Diferena ntre o reea de uniti McCullochPitts i perceptronul clasic const n existena ponderilor.
arie de proiectie arie de asociere

retina

conexiuni locale

conexiuni aleatoare

raspunsuri

Fig. 1. Perceptronul clasic


1

n modelul MinskyPapert retina este o arie de pixeli cu valori binare pe care modelul este proiectat. Unii pixeli din retin sunt conectai la elemente logice numite predicate care calculeaz un singur bit ca rspuns la valorile pixelilor asociai, iar acest predicat poate avea o complexitate computaional destul de mare. Fiecare predicat este restricionat, de exemplu, de numrul de pixeli din retin ce pot fi examinai simultan sau de distana maxim ntre aceti pixeli. Predicatele transmit valorile binare ctre un element cu prag ponderat ca n fig. 2.

P 1 P 2 w 2 P 3 w 4

w 1 w 3

P 4

Fig. 2. Predicate i ponderi asociate unui perceptron Desigur, ar trebui date rspunsuri referitoare la modele pot fi recunoscute folosind un singur element la ieirea reelei i la limitele de lucru n paralel n situaia n care un predicat poate examina un numr limitat de pixeli din toat retina. Restriciile asupra unui predicat constau faptul c el produce doar o valoare binar i cmpul de pixeli examinai nu acoper toat retina. Dac predicatele sunt P1 ,..., Pn iar ponderile conexiunilor la elementul cu prag sunt respectiv w1 ,..., wn , atunci sistemul emite 1 doar atunci cnd simplificat a perceptronului clasic. 3.1.2. Limite computaionale ale perceptronului Pentru a explora proprietile perceptronului, vom presupune c numrul de predicate este fixat. Chiar dac acestora le este alocat o putere de calcul nelimitat, punctul critic l reprezint calculul paralel n singurul element cu prag. Astfel, fiecare procesor este obligat s coopereze prin producerea unui rezultat adecvat deciziei globale. Asupra limitelor cmpurilor receptive se pot enuna urmtoarele: - Perceptroni cu diametru limitat: cmpul receptiv al fiecrui perceptron are un diametru limitat.
2

este pragul unitii de ieire. Acest model de perceptron este o variant

i =1

wi Pi , unde

Perceptroni cu ordin limitat: numrul de puncte din fiecare cmp receptiv nu poate depi o limit dat. - Perceptroni stocastici: fiecare cmp receptiv const dintr-un numr de puncte alese aleator. Minsky i Papert au demonstrat existena unor probleme care nu pot fi rezolvate de un singur perceptron care acioneaz ca o unitate de decizie final. Conectivitatea este un exemplu de problem la care perceptronul nu poate rspunde. Propoziia 1. Un perceptron cu diametru limitat nu poate decide dac o figur geometric este conex. Demonstraie. S presupunem c exist un perceptron cu diametru limitat capabil s decid dac o figur este conex. Fie modelele A,B,C,D din fig. 3(a), n care doar B i C sunt conexe.
(a) A B C D

(b)

Fig. 3. Modele i cmpuri receptive ale predicatelor Din faptul c diametrele cmpurilor receptive sunt limitate, figurile pot fi deformate oblic pe orizontal, astfel nct nici un cmp s nu conin simultan puncte din extremitatea stng i dreapt a modelelor, ca n fig. 3(b). Aceasta duce la o mprire a predicatelor n trei grupuri. Primul grup G1 const din predicatele ale cror cmpuri receptive conin puncte din partea stng a figurii. n al doilea grup G2 de predicate, cmpul receptiv acoper latura dreapt a figurii. Predicatele rmase formeaz al treilea grup G3 . Situaia este ilustrat n figura 3(b). Toate predicatele sunt conectate la un element cu prag prin muchii ponderate. Acest element decide dac o figur este conex evalund condiia
3

G1

G3

G2

S=

Pi G1

w P + w
1 i i Pi G2

2 i

Pi +

Pi G3

w P 0.
3 i i

Dac S 0 atunci se decide c figura este conex. Dac este analizat figura A, care nu este conex, atunci ar trebui s se obin S < 0 . Prin mutarea laturii din dreapta a dreptunghiului, figura A poate fi transformat n figura B fr a afecta rezultatele predicatelor din G3 care nu sesizeaz diferena deoarece cmpurile lor receptive nu acoper marginile laterale ale figurii aa cum se poate vedea n figura 3(b). De asemenea, predicatele din G1 nu-i modific ieirile pentru c n cmpurile lor receptive nu s-a produs nici o schimbare. Predicatele din G2 modific ieirile lor cu 2 S astfel nct, dup deformarea lui A, avem S + 2S 0 pentru c acum se recunoate figura conex B. De aici obinem c 2 S S. Dac figura A este transformat n C prin deplasarea laturii din dreapta a dreptunghiului n jos, atunci predicatele din G2 i din G3 nu-i modific rspunsul, ns cele din G1 conduc la o modificare 1 S n S astfel nct S + 1 S 0 deoarece i acum trebuie recunoscut o figur conex C i deci 1 S S . Acum, dac figura A este transformat n figura D prin deplasarea ambelor laturi ale dreptunghiului, predicatele din G1 nu pot distinge acest caz fa de cazul figurii C iar cele din G2 nu fac distincia fa de figura B. Desigur, n acest caz predicatele din G3 nu-i schimb ieirile, aa c S = 2 S + 1 S 2 S i din aceasta rezult c S + S S > 0 adic sistemul rspunde ca i cum D ar fi conex, ceea ce este n contradicie cu faptul c D nu este conex. Argumentaia de mai sus este prezentat sintetic n diagrama din fig. 4. Semnificaia acestui rezultat este c proprietatea de conectivitate este una global care nu poate fi decis local.

A neconexa (S<0)

2S

B conexa (S+2S>=0)

1S

S=2S+1S

Fig. 4. Diagrama transformrilor pentru proprietatea de conectivitate. 3.2. Perceptronul i interpretarea geometric Reelele cu uniti McCullochPitts pot implementa funcii booleene arbitrare. Reelele ponderate pot asigura acelai lucru folosind un numr mic de pori cu prag. n continuare, perceptronul este considerat ca o unitate cu prag izolat care calculeaz rezultatul fr ntrzieri. Definiia 1. Un perceptron simplu este o unitate de calcul cu pragul care primete n intrri reale x1 ,..., x n de-a lungul muchiilor cu ponderile respectiv w1 ,..., wn i care emite 1 dac

C conexa S+1S>=0

D neconex S+S>=-S>0

i =1

w1 xi i 0 n caz contrar.

Intrrile perceptronului simplu pot fi furnizate de ali perceptroni sau alte elemente de calcul. Un perceptron separ spaiul intrrilor n dou subspaii. Pentru punctele dintr-un subspaiu, rezultatul emis este 0 i pentru punctele celuilalt este 1. Prin ajustarea ponderilor i a pragului se obine orice separare dorit de tipul menionat mai nainte. Adesea este preferabil s se considere perceptroni cu prag nul, acesta corespunznd cazului n care planul separator trece prin origine. Pentru a evita aceast limitare, se adaug perceptronului o nou intrare prin care se primete valoarea 1 iar muchia care conecteaz aceast intrare cu unitatea are ca pondere valoarea dorit a pragului, ca in figura 5.

...

x1 ...

w1

x1

w1 0

xn xn w 1 n Fig. 5. Tratarea pragului ca o pondere i o intrare constant


5

wn

Aceast pondere suplimentar mpreun cu intrarea constant se numete nclinaie (bias). n contextul acestei transformri, vectorul de intrare iniial ( x1 ,..., x n ) se transform n vectorul de intrare extins ( x1 ,..., x n ,1 ), iar vectorul ponderilor n vectorul extins al ponderilor ( w1 ,..., wn , wn +1 ) , cu wn+1 = . 3.2.1. Problema XOR Pentru a avea o idee asupra posibilitilor unui perceptron izolat, s considerm funcii booleene de 2 variabile. Cele 16 funcii de dou variabile sunt definite n tab. 1. Tab. 1. Funciile booleene de dou variabile x1 x2 f0 f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 f12 f13 f14 f15 0 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 1 0 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 Din interpretarea geometric anterioar, funciile booleene f calculabile de un perceptron izolat sunt acelea pentru care punctele din f 1 ({0}) sunt separate printr-o dreapt de cele din f 1 ({ }). Funciile f 6 i f 9 (respectiv, 1 funcia XOR i cea de echivalen EQU) nu pot fi calculate de un perceptron izolat aa cum este ilustrat n fig.(a)-(b). Funciile OR i AND pot fi calculate cu un perceptron izolat (fig. 6(c)-(d)).

XOR

EQU

OR

AND

0 (a)

1 (b)

0 (c)

0 (d)

Fig. 6. Atributul de neseparabilitate/separabilitate pentru spaiul intrrilor. O demonstraia a faptului c funcia de echivalen nu poate fi calculat de un singur perceptron este urmtoarea. x1 = 0 x2 = 0 w1 x1 + w2 x2 = 0 0 x1 = 1 x2 = 0 w1 x1 + w2 x2 = w1 w1 < x1 = 0 x2 = 1 w1 x1 + w2 x2 = w2 w2 < x1 = 1 x2 = 1 w1 x1 + w2 x2 = w1 + w2 w1 + w2 .
6

Conform primei condiii, este negativ. Din inegalitatea a doua i a treia rezult w1 + w2 < 2 n timp ce ultima d w1 + w2 . Contradicia obinut arat c funcia de echivalen nu este calculabil de un perceptron. 3.2.2. Separabilitate liniar Conceptul de separabilitate a fost ilustrat pentru funciile booleene de dou variabile. Definiia 2. Dou mulimi A i B R n se numesc separabile liniar dac exist ( w1 ,..., wn+1 ) R n+1 astfel nct

i =1 n

wi xi wn +i , () ( x1 ,...., x n ) A wi xi < wn +i , () ( x1 ,...., x n ) B

i =1

3.2.3. Dualitatea ntre spaiul intrrilor i al ponderilor Cnd se caut valori adecvate pentru cele n ponderi ale unui perceptron, spaiul de cutare este R n . Dac considerm un perceptron cu n intrri, atunci este necesar s determinm n + 1 parametri corespunztori celor n ponderi i nclinaiei. Aceste n + 1 valori reprezint un punct n R n +1 privit ca spaiu al ponderilor. Atunci cnd alegem un punct n spaiul ponderilor se alege de fapt o combinaie de valori ale ponderilor i o separare liniar a spaiului intrrilor. Aadar, unui punct din spaiul ponderilor R n +1 i corespunde un hiperplan n spaiul extins al intrrilor R n+1 ca n fig. 7. Dac ponderile alese sunt w1 , w2 , w3 atunci ecuaia hiperplanului este w1 x1 + w2 x 2 + w3 x3 = 0.

Invers, dac dorim ca punctul ( x1 , x 2 , x3 ) s fie plasat n subspaiul pozitiv definit de un plan, atunci trebuie s determinm ponderile w1 , w2 , w3 astfel nct w1 x1 + w2 x 2 + w3 x3 0. Aceast inegalitate induce o separare liniar a spaiului ponderilor R n+1 i punctul ( x1 , x 2 , x3 ) definete planul de secionare care are ecuaia
w1 x1 + w2 x 2 + w3 x3 = 0 ( w1 , w2 , w3 ) R 3 , pentru ( x1 , x 2 , x3 ) fixat. Aadar, un punct ( x1 , x 2 , x3 ) din spaiul extins al intrrilor conduc la un hiperplan n spaiul extins al ponderilor (v. figura 7). Deci puncte dintr-un spaiu sunt aplicate n plane din cellalt spaiu. Aceasta definete o relaie de dualitate.
7

Fig. 7. Dualitatea spaiului intrrilor i al ponderilor


3.2.4. Funcia de eroare n spaiul ponderilor Date dou mulimi ce trebuie separate de un perceptron, un algoritm de nvare trebuie s determine valori adecvate ale ponderilor i pragului. Mai precis, fie A i B dou mulimi n spaiul intrrilor R n ce trebuie separate astfel nct perceptronul calculeaz o funcie binar f w cu f w ( x) = 1, () x A f w ( x) = 0, () x B. Funcia binar f w depinde de ponderi i de prag. Funcia de eroare este numrul de clasificri false obinute prin folosirea vectorului extins de ponderi w i este definit ca: E ( w) = xA (1 f w ( x)) + xB f w ( x).

Algoritmul de nvare a perceptronului are ca scop minimizarea acestei funii, valoarea minim posibil pentru E fiind zero.
3.2.5. Curbe de decizie generale Perceptronul ia o decizie pe baza separrii liniare a spaiului intrrilor. Separri mai generale ale spaiului intrrilor permit tratarea unor probleme nerezolvabile cu un singur perceptron. n fig. 8 este ilustrat separarea neliniar a spaiului intrrilor pentru funcia XOR. Funciile folosite pentru a discrimina ntre regiuni ale spaiului intrrilor se numesc curbe de decizie. Aceste curbe pot fi date de polinoame sau curbe spline. Astfel, n recunoaterea statistic a caracterelor se presupune c modelele ce trebuie recunoscute sunt grupate n clustere n spaiul de intrare. Aceste clustere pot fi izolate ntre ele prin combinaii de curbe de decizie. Alternativ, se pot combina perceptroni pentru a izola o regiune convex a spaiului.
8

Fig.8. Curb de decizie n general, este necesar s se discrimineze ntre diverse regiuni ale spaiului. Sarcina unei RNA este s identifice aceste regiuni i apoi s le asocieze rspunsuri adecvate. Problema principal este s se tie dac parametrii corespunztori acestor regiuni de decizie pot fi determinai printr-un algoritm de nvare.
3.3. Aplicaie - detecia muchiilor n imagini Fie o imagine dat sub forma unei matrice de pixeli. Fiecrui pixel i se asociaz un numr ntreg pozitiv reprezentnd nivelul de gri (sau al unei anumite culori) corespunztor. Pentru detecia muchiilor, intensitatea fiecrui pixel este comparat cu cea a vecinilor aflat la o distan specificat i n cazul n care exist o diferen remarcabil se decide c pixelul curent aparine unei muchii. S presupunem c fiecare pixel este conectat la un perceptron care primete intrri i de la vecinii pixelului. n figura 9(a) este precizat modelul de vecintate care definete cmpul receptiv iar ponderile asociate intrrilor respective sunt date n fig. 9(b). Intrarea ce pleac din pixelul central este ponderat cu 8 iar celelalte cu 1.

whk

(i-1,j-1) (i-1,j) (i-1,j+1) (i,j-1) (i,j) (i,j+1) (i+1,j-1) (I+1,j) (i+1,j+1) (a)

0 1 2

-1 -1 -1 -1 8 -1 -1 -1 -1 (b)

Fig.9. Cmpul receptiv i ponderile detectorului de muchii Cu aceast fereastr se scaneaz toi pixelii din imagine (fig. 10) acionnd diferit pentru pixelii situai pe frontiera acesteia. Dac aij este intensitatea pixelului (i, j ) atunci pentru pixelul (i, j ) se calculeaz predicatul

a
h =0 k =0

i 1+ h , j 1+ k

whk 0.5 .
9

Dac rezultatul este 1 atunci pixelul (i, j ) aparine unei muchii.

0.5

Fig. 10. Conectare la o fereastr de pixeli Exercitiu. S se demonstreze c dac dou mulimi A i B R n sunt separabile liniar n atunci exist ( w1 ,..., wn +1 ) Q n +1 astfel nct i =1 wi xi wn +i , () ( x1 ,...., x n ) A i

i =1

wi xi < wn +i ,

()

( x1 ,...., x n ) B , unde Q este

mulimea numerelor raionale.

10