Sunteți pe pagina 1din 9

1.

Introducere n recunoaterea formelor


Recunoaterea formelor are drept obiect identificarea relaiilor de asemnare dintre reprezentrile abstracte ale unor obiecte sau fenomene. Scopul recunoaterii formelor este de a clasifica date de intrare folosind drept criterii de clasificare informaii disponibile anterior. O aplicaie standard de recunotere a formelor cuprinde o serie de etape: 1. Colectarea i codificarea datelor presupune recurgerea la o metod de achiziie i reprezentare a datelor compatibil cu cerinele calculatorului numeric. Aceasta etap este realizat de un translator care poate fi o camer video pentru o aplicaie de recunoatere a feei, un microfon n cazul recunoaterii vorbirii, sau un stylus i o tablet grafic pentru o aplicaie de recunoatere a scrisului de mn; 2. Examinarea iniial a datelor const n verificarea acestora, obinerea de informaii statistice descriptive, realizarea de grafice precum i alte operaii care se pot dovedi utile cercettorului pentru a nelege modul de organizare a datelor; 3. Pre-procesarea se refer la totalitatea operaiilor care pot fi aplicate asupra formei brute a datelor colectate n vederea pregtirii acestora pentru operaiile viitoare de nvare i clasificare. Acestea pot consta n eliminarea eventualelor zgomote ce pot aprea n cadrul procesului de achiziie, efectuarea de prelucrri n vederea reducerii dimensiunilor datelor, normalizri, transformri liniare i neliniare, etc. n aceast etap au loc extragerea i selecia caracteristicilor constnd n obinerea reprezentrii finale a datelor pentru procesul de nvare i clasificare; 4. nvarea const n construirea unui clasificator plecnd de la o mulime de exemple disponibile n urma procesului de colectare; 5. Analiza i decizia constau n atribuirea unor date necunoscute la o clas (etapa de recunoatere propriu-zis); 6. Post-procesarea presupune eventuala validare a deciziei luate avnd ca suport o anumit baz de cunotine. Modalitatea de nvare depinde de scopul cercettorului i de tipul problemei concrete, distingndu-se dou modaliti generale de nvare:

Material disponibil la adresa http://www.eed.usv.ro/~vatavu

1/9

1. nvarea supravegheat presupune folosirea unui model general de clasificator ale crui parametri sunt determinai plecnd de la un set de nvare (o mulime de exemple pentru care se cunoate clasificarea fiecruia); 2. nvarea nesupravegheat presupune realizarea unei partiionri a mulimii datelor colectate innd cont de asemnrile existente ntre acestea (drept rezultat vor fi obinute grupuri de forme asemntoare, fr a exista nici o informaie iniial privind clasele de apartenen ale acestora). Scopurile urmrite n cadrul celor dou tipuri de nvare sunt diferite. n cazul nvrii supravegheate se urmrete dezvoltarea unui sistem care va clasifica date noi pe baza experienei anterioare (reprezentate de exemplele deja clasificate puse la dispoziie de un expert uman) n timp ce n cazul nvrii nesupravegheate suntem interesai de nelegerea structurilor ce pot fi prezente ntr-o mulime de date.

2. Forme i caracteristici. Spaiul formelor


O form reprezint o entitate abstract descris printr-un numr finit de caracteristici ce se constituie n reprezentarea matematic a unui obiect sau fenomen din lumea real. Important n cadrul abordrii statistice a recunoaterii formelor o form este reprezentat sub forma unui vector n care fiecare element conine valoarea msurat sau calculat a unei caracteristici:

x x1 , x2 , x p R p

unde xi R reprezint valoarea caracteristicii i 1, p . Prin spaiul formelor se nelege populaia formelor ce urmeaz a fi analizate (o submulime F a spaiului Rp). Caracteristicile reprezint variable considerate de ctre cercettor ca fiind importante pentru problema considerat i pentru procesul de discriminare a formelor. Numrul i domeniul de valori ale caracteristicilor depind de natura problemei de clasificare, de disponibilitatea datelor, a echipamentelor, a participanilor la eventuale experimente care trebuie organizate, a msurtorilor ce pot fi efectuate precum i de experiena cercettorului. Astfel, pentru o anumit problem nu exist o modalitate unic de reprezentare a formelor ci aceasta este la latitudinea celui care efectueaz analiza i procesul de clasificare. La nivel intuitiv, o caracteristic este cu att mai bun cu ct reuete s separe forme aparinnd unor clase diferite iar n acelai timp valorile caracteristicii nu variaz mult pentru forme din aceeai clas.

Material disponibil la adresa http://www.eed.usv.ro/~vatavu

2/9

n funcie de nivelul de msurare, caracteristicile pot fi cantitative sau calitative: 1. o variabil cantitativ poate lua valori numerice dintr -un domeniu continuu sau discret (i vorbim astfel despre variabile cantitative continue sau discrete). Un exemplu de variabil continu poate fi timpul scurs ntre dou evenimente de mouse click-down i click-up pentru o aplicaie de achiziie a unui gest (timpul de execuie al gestului exprimat n milisecunde) n timp ce o variabil discret poate fi coordonata x a pixelului de start al gestului achiziionat cu mouse-ul pe un ecran cu o rezoluie de 1024x768 (coordonata x poate lua doar 1024 valori distincte sau discrete); 2. o variabil calitativ este reprezentat de categorii i n funcie de relaia care poate fi stabilit ntre aceste categorii putem vorbi de variable ordinale sau nominale. Caracteristicile ordinale iau valori dintr-o mulime pe care a fost definit o relaie de ordine (spre exemplu putem aprecia un anumit fenomen ca avnd o amploare ce poate fi ncadrat n patru categorii: mic, medie, mare, sau foarte mare; utilizatorii pot aprecia un gest ca fiind dificil, moderat sau uor de executat). Putem pune deci n relaie dou valori ale une variabile ordinale ns nu putem avea o msur a raportului dintre cele dou valori. Spre exemplu, dac gestul A este apreciat dificil, gestul B moderat iar gestul C uor de executat, atunci putem scrie c din punct de vedere al dificultii de execuie C < B < A cu semnificaia C este mai uor de executat dect B care este mai uor de executat dect A. Nu putem spune nimic ns despre ct este mai uor de executat C n raport cu B sau B n raport cu A cum am putea face pentru variabile cantitative. Pentru valorile caracteristicilor nominale nu se poate stabili nici mcar o astfel de ordine (de exemplu, culoarea unui obiect poate lua o valoare din mulimea rou, albastru, verde, galben, neexistnd nici o relaie de ordine natural ntre aceste valori). Pentru prelucrrile pe calculator, valorile caracteristicilor calitative vor fi convertite n valori cantitative prin asocierea de coduri numerice distincte fiecrei categorii. n procesul de clasificare presupunem c exist un numr de clase care vor servi pentru etichetarea formelor. Spaiul claselor (sau mulimea C a claselor) desemneaz etichetele sau categoriile ce servesc la clasificarea formelor: C = {C1, C2, Cm} unde Ci reprezint eticheta asociat clasei i. Spre exemplu, pentru o aplicaie de recunoatere a literelor mici ale alfabetului latin, mulimea C va avea 26 de clase corespunztoare celor 26 de litere. Pentru o aplicaie de recunoatere a feei, a amprentei, sau a irisului din cadrul unui sistem de securitate vom avea cte o clas n parte pentru fiecare utilizator. Pentru un sistem care clasific gesturile n funcie de dificultatea lor n uor de executat, moderat i dificil de executat mulimea C va avea 3 clase.
Material disponibil la adresa http://www.eed.usv.ro/~vatavu 3/9

Prin clasificator vom nelege o funcie definit pe spaiul formelor F ce asociaz fiecrei forme x din F un identificator aparinnd spaiului claselor C. Important Vom considera n continuare cteva exemple de aplicaii de recunoatere a formelor fiind interesai de posibilitile de alegere a caracteristicilor i de reprezentare a formelor. 1.1 Recunoaterea optic a caracterelor Prespunem c dispunem de o imagine obinut n urma unui proces de scanare a unei pagini coninnd un text tiprit. Ne propunem recunoaterea caracterelor alfabetului latin a, b, ... z. Drept urmare, mulimea claselor C va conine 26 de etichete, cte una pentru fiecare liter pe care dorim s o recunoatem: C = {a, b, z}. Presupunem c fiecare caracter a fost deja segmentat (folosind technici specifice procesrii imaginilor) i c dispunem de o mulime de obiecte binare. Imaginea corespunztoare fiecrui caracter poate fi codificat dup o structur matriceal n m*n valori reprezentnd procentul de pixeli aparinnd obiectului binar din numrul total de pixeli aflai ntr-un dreptunghi al matricii. Putem obine i o codificare simplificat dac vom filtra aceste procente, i anume vom considera o valoare de 1 dac procentul este mai mare dect 0.5 (pixelii obiectului sunt majoritari) respectiv o valoare de 0 altfel. Figura 1.1 ilustreaz un astfel de exemplu.

Figura 1.1. Obiectele binare reprezentnd caracterele din imaginea scanat pot fi codificate sub form matriceal n care valorile fiecrui element sunt date de procentul de pixeli ai obiectului prezeni n dreptunghiul imagine asociat. Filtrnd procentele obinem o reprezentare simplificat 0/1 a fiecrui obiect.
Material disponibil la adresa http://www.eed.usv.ro/~vatavu 4/9

Trebuie remarcat faptul important c nu vom avea reprezentri unice pentru fiecare liter, ci vor exista de fiecare dat variaii n reprezentarea exemplelor care aparin aceleiai clase. De exemplu, datorit scanner-ului sau modalitii de scannare anumite regiuni ale imaginii pot rezulta mai ntunecate dect altele ceea ce poate conduce la rezultate diferite ale procesului de segmentare. Dac alegem m=n=6 putem avea n urma procesului de segmentare urmtoarele reprezentri pentru primele litere ale alfabetului:
0 1 1 1 0 0 1 0 0 0 1 0 1 0 0 0 1 0 1 0 0 0 1 0 1 0 0 0 1 0 0 1 1 1 1 1 1 0 0 0 0 0 1 0 0 0 0 0 1 1 1 1 1 0 1 0 0 0 0 1 1 0 0 0 0 1 1 1 1 1 1 0 0 1 1 1 1 0 1 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 1 1 1 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 1 1 1 1 1 0 0 0 0 1 1 0 0 0 0 1 0 1 1 1 1 1

i drept urmare vom reprezenta fiecare liter din image ca o form cu 36 de caracteristici binare:
Liter a b c d Form (0,1,1,1,0,0,1,0,0,0,1,0,1,0,0,0,1,0,...,0,1,1,1,1,1) (1,0,0,0,0,0,1,0,0,0,0,0,1,1,1,1,1,0,...,1,1,1,1,1,0) (0,1,1,1,1,0,1,0,0,0,0,1,1,0,0,0,0,0,...,0,1,1,1,1,0) (0,0,0,0,0,1,0,0,0,0,0,1,0,1,1,1,1,1,...,0,1,1,1,1,1)

Caracteristicile considerate sunt discrete n numr de 36. Bineneles c aceasta nu este singura posibilitate de a reprezenta literele din imaginea noastr. Lund diverse valori pentru m i n, cele dou dimensiuni ale matricii de codificare, vom obine forme cu mai multe sau mai puine caracteristici. Aceasta se traduce de fapt n precizia cu care reprezentm o anumit liter iar valorile optime m i n din punct de vedere al performanelor aplicaiei de recunoatere sunt stabilite de regul experimental. Definirea unor alte caracteristici poate conduce la alte reprezentri. Codificarea sub form de matrice poate fi nlocuit prin msurarea unor proprieti geometrice pentru fiecare obiect cum ar fi: nlimea, limea, aria (ca numr de pixeli), perimetrul (numrul de pixeli care printre vecini cel puin un pixel aparinnd fundalului), raportul dintre nlime i lime cunoscut ca raportul de aspect al unui obiect, unghiuri definite ntre diverse puncte ale obiectului (de exemplu unghiul dintre punctl din stnga sus, centrul de greutate i punctul din dreapta jos, etc.), diverse rapoarte implicnd distane i unghiuri etc. De exemplu, alegnd drept caracteristici nlimea, limea i aria, formele din exemplul nostru pot fi:
Material disponibil la adresa http://www.eed.usv.ro/~vatavu 5/9

Liter a b c d

Form (20,21,470) (37,19,498) (18,18,320) (39,21,501)

1.2 Clasificarea imaginilor de microscopie electronic Imaginea din Figura 1.2 (stnga) provine din microscopia electronic a serului bolnavilor de hepatit B i pune n eviden 3 tipuri de particule: 1. particule sferice mici cu un diametru de 22 nm; 2. forme tubulare de grosime 22 nm i lungime 20-250 nm; 3. corpusculi Danne de form circular cu un diametru de 42 nm. Virusul hepatic B este considerat a fi reprezentat de particula viral numit corpuscul Danne. Folosind tehnici de segmentare specifice procesrii imaginilor a fost obinut imaginea din dreapta n care particulele sunt reprezentate sub form de obiecte binare.

Figura 1.2. Imagine de microscopie electronic a serului bolnavilor de hepatit B punnd n eviden trei tipuri de particule sferice i tubulare. Pentru a detecta prezena corpusculilor Danne vom reprezenta formele (particulel e) folosind dou caracteristici geometrice: aria i circularitatea. Aria unui obiect este dat de numrul de pixeli din imagine care compun obiectul binarizat. Circularitatea este definit ca raportul dintre arie i ptratul perimetrului, reprezentnd un indicator al formei obiectului:

4A P2

Circularitatea are valoarea 1 pentru un cerc i o valoare subunitar pentru orice alt figur geometric. Ea va permite discriminarea dintre cele dou forme circulare i

Material disponibil la adresa http://www.eed.usv.ro/~vatavu

6/9

formele tubulare n timp ce aria va realiza diferena dintre cele dou forme circulare (de diametre 22 i respectiv 42 nm). Calculnd valorile cele dou caracteristici pentru fiecare particul din imagine, putem reprezenta fiecare form grafic ca un punct n planul 2D avnd caracteristicile asociate celor dou axe. Trebuie remarcat faptul c vizualizarea formelor n spaiul caracteristicilor este posibil n acest caz datorit numrului mic de caracteristici (2). Reprezentri similare pot fi realizate i pentru 3 caracteristici n spaiul 3D.

Figura 1.3. Reprezentarea particulelor din Figura 1.2 drept puncte n spaiul cu dou dimensiuni: Aria x Circularitatea. Din Figura 1.3 se observ o anumit grupare a formelor reprezentnd cele trei tipuri de particule i putem distinge: Clasa 1: corpusculii circulari mici (caracterizai prin arie mic i C1); Clasa 2: corpusculii Danne (arie mare i C1); Clasa 3: corpusculii de form tubular (aria variaz datorit lungimii lor ntre 20-250 nm iar circularitatea este aproximativ 0.5). Reprezentarea formelor n spaiul caracteristicilor poate da informaii despre gruparea claselor respectiv privind identificarea formelor eronate (aprute ca erori de msurare = outliers) care trebuie eliminate din seturile de nvare. 1.3 Recunoaterea gesturilor Considerm n continuare problema recunoaterii gesturilor pentru un browser web. Rolul comenzilor gestuale este de a servi drept shortcuts pentru utilizatorii experimentai care pot realiza astfel o sarcin sau transmite o comand ntr-un timp mult mai mic dect ar face-o alegnd opiunea corespunztoare din cadrul unui meniu spre exemplu. Considerm c gesturile sunt capturate folosind mouse-ul i c avem 5 clase ce corespund la 5 operaii care pot fi efectuate n cadrul unui browser web (Figura 1.4).
Material disponibil la adresa http://www.eed.usv.ro/~vatavu 7/9

Figura 1.4. Mulimea de 5 gesturi propuse pentru urmtoarele operaii ale unui browser web: (1) deschide link n fereastr nou; (2) deschide link n tab nou; (3) nchide tab; (4) help; (5) home. O multitudine de reprezentri pot fi imaginate pentru formele gestuale incluznd msurtori geometrice (distane, unghiuri, diverse rapoarte), msurtori legate de execuie (timpul de execuie, viteza sau acceleraia) precum i traiectoria de micare eantionat ntr-un numr constant de puncte n plan. Vom considera n continuare o abordare geometric n care vom reprezenta fiecare gest folosind dou caracteristici: 1. Aspectul reprezint raportul dintre nlimea i limea fiecrui gest (nlimea este definit ca diferena dintre valorile maxim i minim pentru coordonata y, iar limea este definit similar pentru x):
Aspect Height max( y) min( y) Width max( x) min( x)

2. Un raport de distane definit n funcie de distana dintre primul i ultimul punct al gestului i lungimea gestului. Dac vom considera traiectoria gestual alctuit dintr-un numr de exact n puncte pi=(xi,yi) i prin || distana Euclidian n plan atunci raportul de distane va fi dat de:
distance_r atio p0 pn1

x0 xn1 2 y0 yn1 2

i 1

n1

pi pi1

x
i 1

n 1

xi 1 yi yi1
2

Figura 1.5 ilustreaz reprezentarea formelor n spaiul cu 2 dimensiuni aspect x distance_ratio pentru aproximativ 500 de exemple. Se poate observa o anumit delimitare a celor 5 clase precum i faptul c raportul de distane pare a oferi o mai bun discriminare dect aspectul.

Material disponibil la adresa http://www.eed.usv.ro/~vatavu

8/9

Figura 1.5. Reprezentarea n spaiul formelor aspect x distance_ratio a aproximativ 500 de exemple pentru cele 5 gesturi.

Tema de laborator Implementai clasele Pattern, SetOfPatterns i PatternsIO. Construii o aplicaie cu urmtorul meniu: SetForme ncarc... (vei afia formele ntr-un control tip DataGridView) SetForme Salveaz SetForme Vizualizeaz spaiul formelor (doar pentru cazul p=2) Despre... Ieire

Material disponibil la adresa http://www.eed.usv.ro/~vatavu

9/9

S-ar putea să vă placă și