Documente Academic
Documente Profesional
Documente Cultură
RECUNOAŞTEREA FORMELOR
172
Semnificaţia notaţiilor din Fig. 6.1 este următoarea: FI – forma
de intrare, BA – bloc de achiziţie a datelor, BR – bloc de reprezentare a
formei, BD – bloc de decizie, BAS – bloc de analiză structurală, C –
clasificare, C+D – clasificare şi descriere.
FI C
BA BR BD
(BAS) (C+D)
C i
P
i 1
173
se suprapun (ceea ce corespunde unei valori extreme a criteriului de
similitudine).
În cazul imaginilor binare, cel mai simplu criteriu de
similitudine îl constituie numărul maxim de coincidenţe între pixelii
şablonului şi pixelii porţiunii de imagine comparate cu şablonul. De
asemenea, se poate folosi un criteriu echivalent şi anume numărul
minim de nepotriviri între şablon şi fereastra comparată .
În cazul imaginilor cuantizate pe mai multe niveluri de gri, se
adoptă drept criteriu de similitudine fie distanţa minimă dintre şablon şi
fereastra de imagine, fie funcţia de intercorelaţie normalizată maximă
dintre şablon şi fereastra de imagine.
Metoda este afectată de distorsiuni, zgomot şi rotaţii de
imagine.
Considerând cazul mai multor niveluri de gri, se notează cu Gs
funcţia nivel de gri pentru şablon şi cu Gu,v funcţia nivel de gri pentru
fereastra de imagine cu originea în punctul (u, v), originea ferestrei fiind
colţul din stânga sus:
G S : M S xN S N , Gu ,v : M u xN v N
1
m S 1 n S 1 2
DS (u , v) GS (i, j ) Gu , v (i u, j v) 2
i 0 j 0
(6.1)
174
Dacă această distanţă este zero, se consideră că obiectul din
fereastra de imagine Gu,v aparţine clasei şablonului. Datorită prezenţei
zgomotului, în loc de D(u,v) = 0, se adoptă criteriul:
mS 1 nS 1
G
i 0 j 0
S (i, j ) Gu ,v (i u , j v )
R (u , v) 1 1
mS 1 nS 1 2
2 mS 1 nS 1
2
Gu ,v (i u , j v GS (i, j )
2
i 0 j 0 i 0 j 0
(6.4)
175
► la o baleiere a imaginii, se poate detecta doar prezenţa obiectului
reprezentat prin şablonul respectiv. Dacă se urmăresc detectarea mai
multor obiecte şi clasificarea lor, imaginea trebuie baleiată pe rând, cu
fiecare şablon;
► volumul de calcul la o singură baleiere este foarte mare, decizia
putându-se lua după ce s-au efectuat (n1 - ms + 1 ) x (n1 - n2 + 1 ) paşi de
calcul de tipul (6.1) sau (6.4);
► potrivirea cu modelul este dependentă de rotaţia imaginii.
Pentru reducerea timpului şi volumului de calcul, Barnea şi
Silverman [15] au propus o metodă secvenţială, prin considerarea unei
funcţii eroare, E, care se calculează pentru fiecare poziţionare (u,v) a
ferestrei comparate, prin sumarea repetată a modulelor diferenţelor
punctuale:
mS 1 nS 1
E (u , v)
i 0 j 0
GS (i, j ) Gu ,v (i u , j v)
176
Ea trebuie comparată, în spaţiul euclidian al formelor, de
dimensiune n1 x n2 , cu formele de referinţă ce reprezintă clasele C i din
mulţimea:
C ={Ci , i = 1,2,…, p}
di: X →R ,
177
numite funcţii de decizie sau funcţii discriminant, ataşate claselor. Prin
intermediul acestor funcţii, se pot stabili frontiere de decizie, care separă
clasele.
Dintre funcţiile de decizie, cele mai folosite sunt funcţiile de
decizie liniare şi funcţiile de decizie de tip distanţă.
Pe baza celor menţionate mai sus se poate considera schema
funcţională a sistemului de recunoaştere automată a formelor în
abordarea cu decizie teoretică, prezentat în Fig.6.2. Semnificaţia
notaţiilor din figură este următoarea: F – forma de măsurat (imaginea
achiziţionată), ET – blocul pentru extragerea trăsăturilor, VTM –
vectorul trăsăturilor măsurate, C – clasificatorul, D – decizia de
apartenenţă a formei măsurate la o clasă, FE – forme eşantion, ST –
blocul de selectare a trăsăturilor, I – blocul de învăţare, VTR – vectorul
trăsăturilor de referinţă.
VTM D
ET C
F
VTR
FE
ST I
unde :
178
[x ] = [x0 ,x1 ,…, x s-1]T
s 1
d i ([ x ]) w ij x j w si , i {1, 2,..., p} (6.8)
j 0
i
Forma de intrare [x] se atribuie clasei C dacă pentru orice
jє{1,2,…, p}, j ≠ i , este îndeplinită relaţia:
adică
di([x]) = max. pentru iє{1,2,…, p} (6.9)
d1([x])
GFD1
d2([x]) DEC
GFD2 BD
[x]
dp([x])
GFDp
179
funcţii de decizie liniare.
Exemplu
Fie două clase C 1 şi C 2 în planul P (corespunzător reprezentării
spaţiului trăsăturilor prin două trăsături, x0 şi x1), caracterizate prin
funcţiile de decizie:
d1 ([x]) = - x0 + x1 – 1 ,
d2 ([x]) = x0 – x1 + 1
δ: x1 – x0 – 1 = 0
x1 δ: x1-x0-1=0
C1
C2
x0
180
cu două clase.
Astfel:
► dacă d1 ([x]) > 0 şi d2 ([x]) < 0, atunci [x]є C 1;
► dacă d1 ([x]) < 0 şi d2 ([x]) > 0, atunci [x]є C 2;
► dacă d1 ([x]) = d2 ([x]) = 0, atunci apartenenţa lui [x] este
nedeterminată.
Considerând vectorul:
181
A. Clase caracterizate printr-un singur prototip
adică,
1 i T i
D 2 ([ x], [ z i ]) [ x]T [ x] 2([ z i ]T [ x] [ z ] [ z ]) (6.13)
2
182
D ([x] ,[zi]) = min. pentru iє{1,2,…, p} dacă şi numai dacă D 2 ( [x],[zi])
= min. pentru iє{1,2,…, p}.
Notând:
1
d i ([ x ]) [ z i ]T [ x] [ z i ]T [ z i ] (6.14)
2
Notând ponderile :
1 i T i
[ z i ] [ w], [ z ] [ z ] wS
2
x1
1
C
[x] C3
x0
C2
183
Pentru recunoaşterea formelor, se pot folosi şi alte tipuri de
distanţe capabile să aprecieze apropierea vectorului trăsăturilor măsurate
de vectorii trăsăturilor de referinţă. De exemplu, o distanţă mai uşor de
evaluat, este maximum modulului diferenţelor dintre componentele
celor doi vectori D* (6.16):
distanţa dintre forma măsurată [x] şi clasa Ci, atunci forma [x] se
atribuie clasei Ci dacă:
1
d i ([ x]) max[ x]T [ z ki ] [ z ki ]T [ z ki ], k 1,2,..., N i
k
2
184
Se consideră că [x]є Ci, dacă di([x]) > dj ([x]), oricare ar fi jє{1,2,
…,p}, j ≠ i.
Astfel, clasificatorul bazat pe distanţă minimă, pentru clase
caracterizate prin mai multe prototipuri, este un caz particular de
clasificator liniar pe porţiuni.
Exemplu
În Fig.6.6, este prezentat un exemplu de două clase,
caracterizate prin mai multe prototipuri, în planul trăsăturilor x0 ,x1.
Clasa C1 este reprezentată prin prototipurile [z1,1] = [-2,1]T, [z1,2] = [-
2,0]T şi clasa C2, prin [z2,1] = [2,2]T, [z2,2] = [3,2]T, [z2,3] = [3,1]T, iar [x] =
[-1,0]T. Se observă că D2(C1,[x]) = 1 şi D2(C2,[x]) = 13, deci: [x]є C1.
x1
z2,1
z2,2
C2
1,1
z
[x] z2,3
x0
z1,2
C1
Fig. 6.6. Exemplu de două clase caracterizate prin mai multe prototipuri.
185
de exemplu, [x1 ]. Se calculează distanţa D21 de la [x2 ] la [z1 ]. Dacă
această distanţă este mai mare decât un prag P, atunci se consideră un
nou centru de grupare, [z2 ] = [x2 ]. Altfel, se consideră că [x2] aparţine
grupării de centru [z1]. Să presupunem că [z2 ] = [x2 ] (D21 > P). Se
calculează distanţele D31 şi D32 de la [x3 ] la [z1 ], respectiv de la [x3 ] la
[z2 ]. Dacă D31 > P şi D32 > P, atunci se creează un nou centru de grupare
[z3 ] = [x3 ]. Altfel, se atribuie [x3 ] grupării al cărei centru este mai
aproape de [x3 ].
Similar, se calculează distanţa de la fiecare formă eşantion la
fiecare centru de grupare şi se compară cu pragul P. Dacă toate aceste
distanţe sunt mai mari decât P, atunci se creează un nou centru de
grupare; în caz contrar, această nouă formă se atribuie grupării al cărei
centru este cel mai apropiat de ea (în sensul distanţei minime).
Rezultatele procedurii depind de primul centru de grupare ales,
de pragul P şi de proprietăţile geometrice ale imaginii achiziţionate.
Această metodă se recomandă să fie folosită atunci când datele prezintă
grupări bine separate relativ la pragul P.
186
B. Algoritm bazat pe mediere
pentru iє{1,2,…,K}, i ≠ j, i ≠ l
În relaţia de mai sus, D{[x j],[z l](m)} este distanţa dintre eşantionul [x j]
şi centrul de grupare [z l](m), iar Sl (m) denumeşte gruparea al cărei
centru este [z l](m), lє{1,2,…,K}, dat.
3. Din rezultatele etapei 2 se calculează noile centre de grupare de la
pasul de iteraţie m+1, [zl](m+1), jє{1,2,…,K}, astfel încât suma
pătratelor distanţelor de la toate punctele din Sl (m) la noul centru să fie
minimă. Cu alte cuvinte, noul centru de grupare [zl](m+1) este
determinat astfel încât indicele de performanţă:
2
Jl [ x ] [ z l ](m 1)
[ x ]Sl ( m )
187
4. Dacă [zl](m+1)= [zl](m), pentru j{1,2,…,K}, algoritmul se termină.
Dacă nu, se trece la etapa 2.
Algoritmul este influenţat de numărul de centre de grupare
stabilit, de alegerea efectivă a centrelor de grupare, de ordinea în care
sunt luate eşantioanele şi de proprietăţile geometrice ale imaginii
achiziţionate. Deşi nu există o teoremă generală de convergenţă pentru
acest algoritm, se poate afirma că el dă rezultate acceptabile atunci când
trăsăturile măsurate formează grupări relativ depărtate unele faţă de
celelalte.
188
nodurilor terminale este egal cu numărul claselor de forme (putere a lui
2). Ele sunt poziţionate la baza triunghiului.
Nodurile de tranziţie sunt nodurile cu o intrare şi două ieşiri.
Ele sunt aşezate pe mai multe niveluri intermediare, între nodul rădăcină
şi nodurile terminale.
Fiecărui nod de tranziţie îi sunt ataşaţi doi subarbori, denumiţi
subarbore stâng şi subarbore drept. Un nod conţine o etichetă cu trei
câmpuri, şi anume: N – numărul de ordine, K – cheia informaţiei, T –
tipul nodului (Fig.6.8).
Pentru nodurile terminale, cheile vor avea valorile de referinţă
xj(ref), jє{1,2,…, p}, asociate claselor, iar la tipul nodului se pun clasele
C j.
a) b) c)
Fig. 6.7. Tipuri de noduri: a) nod rădăcină; b) nod terminal; c) nod de tranziţie.
189
Nodurile de pe nivelul i au numerele de ordine (de la stânga la
dreapta): 2i, 2i+1, … , 2i+1 –1 (în total 2i noduri), cheile: K(2i), K(2i+1),
…, K(2i+1 -1) şi sunt descendenţi direcţi ai nodurilor de pe nivelul i-1.
De la nodul rădăcină la un nod k există o singură cale.
Considerând p = 2q , algoritmul de construcţie a arborelui binar
de decizie, corespunzător trăsăturii alese (cu grad de discernabilitate
maxim), constă în următoarele:
a) Se ordonează şirul valorilor trăsăturii de referinţă în sens crescător:
KS KD
K
2
unde Ks este cheia nodului descendent stâng, iar Kd este cheia nodului
descendent drept.
Pentru a clasifica o formă cu ajutorul arborelui binar de decizie, se
compară trăsătura măsurată x cu cheile K(j), jє{1,2,…,}, începând cu
nodul rădăcină şi continuând cu descendenţii direcţi, în felul următor:
dacă x < K(j), se trece la nodul descendent direct stâng, iar dacă x >K(j),
se trece la nodul descendent direct drept. Datorită restricţiei (6.19)
egalităţile sunt omise. Forma este atribuită clasei nodului terminal în
care se ajunge. Avantajul acestei metode constă în rapiditate, fiind
necesare doar q comparaţii simple.
Exemplu
190
În Fig. 6.9 este prezentat un exemplu de arbore binar de decizie
pentru p = 4 clase şi x 1(ref) = 2, x 2 (ref) = 4, x 3(ref) = 6, x 4(ref) = 8. Să
se clasifice forma a cărei trăsătură măsurat este x = 4,2. Traseul urmat de
procesul de clasificare este marcat prin săgeţi îngroşate. Rezultatul este
xєC2.
1 5 0
4,2 ‹5
2 3 0 3 7 0
4,2 › 3
4 2 C1 5 4 C2 6 6 C3 7 8 C4
191
C j ↔L(Gj ), jє{1,2,…, p}
Definiţie
Formal, o gramatică este definită ca un cuadruplu:
G =(N,Σ P, S ) ,
unde:
- N este mulţimea finită a neterminalelor sau variabilelor;
- Σ este mulţimea finită a terminalelor sau constantelor;
- N
- P este mulţimea finită a regulilor de formare (de generare, de
rescriere sau de producere);
- S este simbolul de start, Sє N
Definiţie
Mulţimea N V se numeşte alfabetul gramaticii G. Se
notează cu V* închiderea lui V, adică mulţimea formată din toate
propoziţiile cu simboluri din V, iar cu V +, mulţimea V* \{λ} unde λ este
şirul nul (propoziţie fără simboluri, de lungime nulă).
În cele ce urmează, se vor utiliza următoarele notaţii:
-literele mari - variabilele;
-literele mici de la începutul alfabetului - constantele;
-literele mici de la sfârşitul alfabetului - şirurile de constante;
-literele mici greceşti - şirurile mixte de variabile şi constante.
Mulţimea P constă din regulile de generare de forma α→β,
unde αєV *N V * şi βєV, cu interpretarea că α este înlocuit cu β (α
trebuie să conţină cel puţin o variabilă).
Fie o gramatică G , şirurile ρ,δєV * şi regulile de formare din P:
α→β. Se utilizează notaţia , pentru a indica faptul că
şirul ρβδ derivă din şirul ραδ printr-o singură aplicare a regulii de
rescriere din G, α→β.
192
Simbolul reprezintă o relaţie de derivare a gramaticii G, iar
simbolul indică una sau mai multe utilizări ale relaţiei .
Exemplu
Presupunem că obiectul (forma analizată) este o cheie mecanică
(Fig. 6.10.b) şi este reprezentat prin scheletul său (Fig. 6.10.c).
Considerăm primitivele a, b, c din Fig. 6.10.a. Fie G(N,Σ,P,S) o
gramatică cu N = {A,B,S}, Σ = {a,b,c} şi regulile de formare:
1. S→ aA;
2. A→ bA;
3. A→ aB;
4. B → b,
193
unde constantele a, b, c sunt cele definite prin primitivele respective
(Fig. 6.10.a). Pentru a descrie obiectul, se aplică legea de formare 1,
apoi se aplică legea 2 de două ori, urmată de o aplicare a legii 3 şi, în
final o aplicare a legii 4:
L(G) ={ ab nc / n ≥ 1},
b b)
c a b b b c
c)
a)
Exemplu
Fie clasa triunghiurilor echilaterale având laturile de 1 cm, 2
cm sau 3 cm (Fig. 6.11.a). Dacă primitivele alese sunt cele din
Fig.6.11.b, atunci limbajul care descrie această clasă este:
L = {a n b n c n / 1≤ n ≤3}
194
Cazul 1 : L = L(Gr ), unde:
a b a b a b
c c c c c c
a b c
a) b)
Fig. 6.11. Exemplu de descriere sintactică a unui triunghi echilateral:
a) clasa de triunghiuri, b) constantele.
195
Gramaticile prezentate anterior generează propoziţii care, prin
definirea corespunzătoare a primitivelor (constantelor), reprezintă
forme. Se pot considera gramatici similare celor de şiruri care generează
direct forme. Ele sunt însă mai greu de manevrat decât gramaticile de
şiruri.
A f = ( Q, Σ ,δ , q0 ,F ) ,
196
spune că este acceptat sau recunoscut de către automatul finit dacă,
pornind din starea iniţială q0 , cu simbolul din stânga al şirului,
parcurgând pas cu pas secvenţa de simboluri w, simbolul din dreapta al
şirului conduce automatul într-o stare finală (după ce au fost parcurse
toate simbolurile din şir). Automatul se opreşte după ce a fost baleiat
întregul şir sau dacă o combinaţie stare-intrare produce δ(q,a) = Φ şi, în
acest ultim caz, automatul rejectează, de asemenea, şirul.
Exemplu
Fie automatul A f = (Q ,Σ δ,q0 ,F), unde Q = {q0, q1, q2},
Σ={a,b}, F={q0} şi regulile de tranziţie a stărilor date de: δ(q0,a)={q2},
δ(q0,b)={q1}, δ(q1,a)={q2}, δ(q1,b)={q0}, δ(q2,a)={q0}, δ(q2,b)={q1}.
Astfel, automatul A f , descris mai sus şi reprezentat graphic în Fig. 6.12
recunoaşte şirul w = abbabb, dar nu recunoaşte (rejectează) şirul v =
aabab.
b
q0 q1
b
a
a
a b
q2
197
multe stări), care să recunoască aceleaşi forme (şiruri), adică:
L(Af’)=L(Af).
Două automate finite deterministe A şi A’ se numesc
echivalente dacă L(A) = L(A’).
Se poate demonstra că, oricare ar fi automatul finit determinist
A, există un automat finit determinist, echivalent, cu un număr minim de
stări, Am, numit automat minimal şi el este unic (mai puţin o
renumerotare a stărilor).
Referitor la relaţia dintre o gramatică regulată şi un automat
finit există următoarea teoremă:
Teoremă
Există o corespondenţă biunivocă între gramaticile regulate şi
automatele finite. Cu alte cuvinte, un limbaj este recunoscut de un
automat finit dacă şi numai dacă el este generat de o gramatică regulată.
Observaţie
Dată fiind o gramatică regulată, se poate construi un automat
finit care să recunoască şirurile de constante generate cu ajutorul
regulilor din acea gramatică şi, reciproc, dat fiind un automat finit care
recunoaşte anumite şiruri de simboluri de intrare, se poate construi o
gramatică al cărei limbaj să fie constituit din şirurile respective.
Obţinerea automatului finit din gramatica regulată G(N,Σ,P,S)
este simplă. Astfel, dacă N={S,A1,A2,…,An}, atunci mulţimea Q va
conţine n+2 stări: q0 = S, q1 = A1 , q2 = A2 ,…, qn = An şi qn+1 єF, starea
finală. Mulţimea simbolurilor de intrare Σ este identică (notaţia se
păstrează) cu mulţimea constantelor din G. Relaţia δ este definită de
cele două tipuri de legi de formare din G, şi anume:
1.Dacă A i→ bA j este în P, atunci δ(qi , b) conţine starea q j .
2.Dacă A i → b este în P atunci δ(qi ,b) conţine qn+1 .
Starea iniţială q0 se identifică cu simbolul de start S, iar mulţimea F
conţine stare finală, introdusă artificial qn+1.
Pe de altă parte, dat fiind automatul finit Af =(Q,Σ,δ,q0 ,F),
obţinem gramatica regulată corespunzătoare G(N,Σ,P,S), identificând N
cu Q\F, S cu starea q0 şi considerând regulile de formare din G obţinute
astfel:
198
1. Dacă qj este în δ(qi ,b), atunci există o lege de formare A i → bA j în
P.
2. Dacă o stare din F este în δ(qi ,b), atunci există în P o lege de formare
Ai → b .
Exemplu
Automatul finit corespunzător cheii mecanice prezentate în
exemplul anterior se obţine scriind legile de formare în felul următor:
S→ aA1 , A1 → bA1, A1 → bA2 , A2 → c. Atunci, automatul finit va avea
structura A =(Q,Σ ,δ , q0, F), unde Q ={q0,q1,q2,q3}, Σ={a,b,c}, F={q3} şi
legile δ(qo,a)={q1}, δ(q1,b)={q1,q2}, δ(q2,c)={q3}. În rest, δ(q0,b)=
δ(q0,c)= δ(q1,a)= δ(q1,c)= δ(q2,a)= δ(q2,b)= Φ unde Φ indică faptul că
nu există tranziţie. Un astfel de automat (Fig. 6.13) recunoaşte şiruri de
primitive de tipul abb…bc.
a
b
q0 q1
q3 q2
c
Exemplu
Graful automatului finit asociat gramaticii regulate G , generate
pentru descrierea clasei triunghiurilor echilaterale, este descris în
199
Fig.6.14, în care s-a stabilit următoarea corespondenţă între stări şi
variabile:
-starea iniţială: q0 ↔S ;
-stările de tranziţie: q1 ↔A1 , q2 ↔B1 , q3 ↔A2 , q4 ↔B2 , q5 ↔C2,
q6 ↔A3, q7 ↔ B3 , q8 ↔ C3 , q9 ↔D3;
-starea finală: q10 .
b b b
q6 q7 q8 q9
c
a
b b
q3 q4 q5
c
a
b c
q1 q2 q10
q0
6.4. CONCLUZII
200
Metoda suprapunerii cu modelul se aplică în cazuri simple, când
imaginea are un număr mic de pixeli, deoarece, în caz contrar, volumul
de calcul devine inacceptabil.
La metodele sintactice, dificultatea constă în extragerea în timp
real a primitivelor. Ele pot fi aplicate, în special, atunci când se dispune
de scheletul imaginii. Un alt inconvenient al acestor metode este
puternica influenţă a zgomotului din imagine asupra deciziei de
clasificare. Din această cauză, trebuie luate măsuri de reducere
suplimentară a zgomotului şi de detectare şi corectare a erorii.
Metodele bazate pe funcţii de decizie de tip distanţă minimă în
spaţiul trăsăturilor oferă anumite avantaje faţă de celelalte metode, care
le face să fie mai mult utilizate în domeniul roboţilor industriali:
condensarea informaţiei, volum mai mic de calcul, extragerea relativ
uşoară a trăsăturilor invariante la rotaţie şi translaţie, sensibilitate mai
redusă la zgomot. În anumite cazuri, procesul de clasificare utilizând
aceste metode poate fi accelerat folosind arborele binar de decizie,
construit pentru o singură trăsătură. De asemenea, imaginile conţinând
texturi sau fractali se clasifică, de regulă, tot pe baza distanţei minime în
spaţiul trăsăturilor.
201