Sunteți pe pagina 1din 20

1.

Concepte fundamentale ale SRF


1.1. Ce este recunoaterea formelor?
Prin recunoaterea formelor se nelege n mod obinuit acel ansamblu de metode
i tehnici cu ajutorul cruia se poate realiza o clasificare n cadrul unei mulimi de
obiecte, procese sau fenomene. Setul de obiecte, procese sau fenomene care urmeaz a fi
clasificate pot fi obiecte (fenomene) fizice sau structuri intelectuale, prin acestea
nelegnd ansamblul concretizat de procese legate de o activitate intelectual coerent
(scris, vorbit, etc)
Scopul recunoaterii formelor const n determinarea clasei din care face parte o
colecie de observabile. Metoda este deosebit de util atunci cnd abordarile directe sunt
imposibile sau cnd inferenele teoretice lipsesc.
Stabilirea numrului de clase n care se mpart formele este o problem particular
care depinde exclusiv de aplicaiile concrete ale metodei.
1.2. Spaiul formelor
Conceptul fundamental al teoriei recunoaterii formelor este urmtorul:
Un obiect sau un fenomen variabil, X
j
, este descris (caracterizat) printr-un set de n
caracteristici x
ij
(i=1,,n). Toate aceste n caracteristici ale unui obiect formeaz o form.
Mulimea
x
={X
j
}
j=1,m
poart denumirea de spaiul formelor. Deci un obiect
(form) X poate fi reprezentat printr-un punct X(x
1
,,x
n
) n spaiul formelor.
O problem este aceea a raportului dintre numrul de forme luate n considerare,
m, i numrul de dimensiuni al spaiului formelor, n, adic raportul m/n dintre numrul
maxim de obiecte din setul respectiv, m, i numrul de caracteristici, n, aferent fiecruia
dintre obiecte. Dac numrul de forme, m, este mai mic, egal sau numai puin mai mare
dect numrul de caracteristici atunci discriminarea dintre forme i atribuirea lor la
diferitele clase posibile este un proces pur aleator.
n general, se consider c acest raport m/n, pentru orice aplicaie de
recunoaterea formelor, trebuie s ndeplineasc urmtoarele condiii:
(i)
, 3
n
m
(ii)
, 10 >
n
m
, (1.1)
unde m reprezint numrul de forme, iar n este numrul de caracteristici independente
(numr de dimensiuni).
Condiia (i) reprezint minimum necesar pentru o clasificare binar, n timp ce
condiia (ii) este de dorit n aplicaiile concrete ale tehnicilor de recunoaterea formelor.
2. Caracteristicile unui SRF
Translatorul
Selectorul de caracteristici
Clasificatorul
Un sistem de recunoatere a formelor trebuie s asigure, corect i eficient
observarea, transformarea, prelucrarea preliminar (selectarea) i clasificarea eantionului
de date.
Elementele eseniale ale unui sistem general de recunoaterea formelor sunt
urmtoarele: translatorul, selectorul de caracteristici (care realizeaz o prelucrare
preliminar) numit i preprocesor, sau extractor de caracteristici i clasificatorul (Fig. 1.4-
1). Dei aceste 3 subuniti sunt interdependente, n cele ce urmeaz le vom prezenta
separat.
INTRARE TRANSLATOR Selector de
caracteristici
Clasificator IEIRE
Fig. 1.4-1 Sistem general de recunoatere a formelor
1.2.1. Translatorul
Translatorul transform i transfer informaiile din lumea real n spaiul
formelor ntr-o form compatibil cu modul de reprezentare din calculatoarele
electronice. n consecin datele primare, rezultat al observaiei sunt transformate ntr-un
ir de mrimi scalare care formeaz vectorul de form n-dimensional. Fiecare
component x
i
a vectorului de form X reprezint o cantitate fizic msurabil; este foarte
important ca ea s surprind esena datelor primare.
Modul de implementare al translatorului depinde exclusiv de natura datelor
primare. Dac acestea sunt constituite dintr-o succesiune de valori msurate la intervale
de timp, cum sunt traseele EEG, atunci sunt necesare procedee de eantionare n timp, pe
cnd dac ele sunt funcie de frecven, cum sunt de exemplu spectrele n infrarou ale
compuilor chimici, atunci trebuie dezvoltate procedeele de eantionare a frecvenei
(respectiv numerelor de und). n cazul imaginilor sunt luate n considerare suprafeele
mai luminoase sau mai ntunecate, muchiile sau formele geometrice. Aceasta este o
problem ceva mai complicat i, de aceea , au fost propuse o serie de metode pentru
reducerea complexitii imaginilor la un ir de msurtori.
O situaie fericit, n care translatorul nu mai este necesar, apare atunci cnd
informaiile din lumea real sunt exprimate numeric (de exemplu, n cazul spectrelor de
mas).
Vectorii de form dezvoltai de translator constituie mrimile de intrare pentru
selectorul de caracteristici.
1.2.2. Selectorul de caracteristici
Scopul selectorului de caracteristici const n prelucrarea vectorilor de form n
aa fel nct procedeul de clasificare s fie optimizat.
Selectorul de caracteristici (denumit i extractor de caracteristici sau preprocesor)
accept ca mrimi de intrare vectorii de form produi de translator i opereaz asupra lor
transformndu-i pentru a elimina sau, cel puin, pentru a reduce cantitatea de informaie
irelevant sau ambigu meninnd n vectori suficient informaie pentru a putea discerne
ntre diferitele clase de forme i descoperi invarianele dintre formele aceleiai clase.
Pentru realizarea acestor deziderate au fost propuse i utilizate o mare varietate de
metode.
Una dintre cele mai simple metode pentru prelucrarea vectorilor de form const
n normarea acestora. O astfel de normare implic egalarea sumei componentelor fiecrui
vector de form (respectiv suma ptratelor componentelor lor) cu o constat arbitrar
convenabil aleas. Un alt procedeu, mult mai sofisticat, care utilizeaz matricea de
covarian duce, n final, la o ecuaie matricial din care se obin vectorii proprii i
valorile proprii ( procedeul numit analiza componentelor principale sau analiza
Karhuneu-Loeve).
Pentru prelucrarea vectorilor de form i selectarea celor mai reprezentative
caracteristici au fost utilizate i o serie de transformri mult mai complexe, cum ar fi
transformata Fourier.
Pentru identificarea caracteristicilor mai importante au fost utilizate forme model
sau prototip, s-au dezvoltat i implementat tehnici interactiv, implicnd repreyentri
grafice i rutine speciale de comparare, s-au calculat parametrii statistici, cum sunt
momentele sau histogramele direct din forme.
Aceast etap este esenial, de ea depinde succesul sau insuccesul oricrui studiu
de recunoatere a formelor.
1.2.3. Clasificatorul
Sarcina oricrui clasificator este, n general, urmtoarea: avnd dat o mulime de
vectori de form prelucrai corespunztor, numit set de formare, se pune problema
determinrii unei funcii de decizie f(X) astfel nct dac:
f(X) > 0 atunci X aparine clasei 1
f(X) >= 0 atunci X aparine clasei 2 (1.2)
Aceast etap n care este determinat funcia de decizie f(X) este cunoscut sub
numele de faz de formare (formarea), de adaptare sau uneori de nvare. Scopul urmrit
este minimalizarea probabilitii de eroare n procesul de clasificare.
Conceptul de clasificare a formelor poate fi neles ca o partiionare a spaiului
formelor,
x
={X} prin atribuirea fiecrui vector X sau punct X (x
1
, ,x
n
) la o clas de
forme corespunztoare n regiuni reciproc exclusive, fiecare regiune corespunznd unei
clase de forme particular. Din punct de vedere matematic problema clasificrii poate fi
formulat sub forma funciilor de decizie discriminate.
Fie
1
,
1
,.
p
cele p clase distincte posibile care urmeaz a fi recunoscute cu

X
=
1
U
2
U .U
p
,

1

2

p
= F
d
(1.3.)
i fie X=|x
i
|
i=1,n
vectorul de form, x
i
reprezentnd a i-a caracteristic reprezentativ.
Atunci funcia de decizie discriminant f(X)=D
j
(X) asociat clasei de forme
j
, j=1,,p,
astfel nct dac forma de intrare reprezentat prin vectorul X, respectiv punctul X, este n
clasa
i
, fapt pe care-l vom nota prin X
i
, valoarea lui D
i
(X) trebuie s fie cea mai
mare, adic pentru toi X
i
vom avea satisfcut relaia:
D
i
(X) > D
j
(X), i, j =1,,p. (1.4)
n felul acesta, n spaiul formelor
x
frontiera partiiei, denumit limita de
decizie, dintre regiunile corespunznd claselor
i
i respectiv,
j
, poate fi definit prin
urmtoarea relaie:
F
d
= D
i
(X)-D
j
(X) = 0 (1.5)
n figura 2.8. este reprezentat modelul unui clasificator care utilizeaz funciile
discriminant. Forma de intrare este analizat conform relaiei (1.4), clasificatorul
furniznd drept ieire indicele k aparine {1,2,,p} corespunztor clasei
k
din care face
parte forma respectiv X.
D
1
D
2
D
p
MAX
X
X
Fig. 1.4-2 Modelul clasificatorului ce utilizeaz funcia discriminant
Pentru determinarea funciilor discriminant neparametrice setul de formare trebuie
s fie mare i, de asemenea, reprezentativ pentru a permite estimarea acestora din
funciile de probabilitate.
3. Metode teoretice decisionale ale tehnicilor de recunoastere
Sunt cunoscute dou moduri de abordare a procesului de recunoatere a formelor.
Primul mod cunoscut sub numele de recunoatere controlat presupune existena unui
set de forme a cror apartenen la clas este cunoscut. Acest set este mprit n dou
pri: setul de formare utilizat pentru a dezvolta un clasificator (ce utilizeaz, de exemplu,
matricea distanelor dintre forme) care s recunoasc ct mai bine apartenena formelor
din set la clasele corespunztoare i setul de predicie pe care clasificatorul format este
evaluat (testat). Clasificatorul astfel dezvoltat este utilizat n continuare pentru stabilirea
apartenenei unei forme necunoscute la o clas.
Cel de-al doilea mod cunoscut sub numele de recunoatere necontrolat nu face
apel la o cunoatere prealabil a apartenenei formelor la o clas. Metoda dezvolt
algoritmi care permit n cursul execuiei acestora construirea claselor pe msur ce
formele analizate sunt luate n considerare.
Un caz particular al metodelor teoretice decizionale l constituie tehnicile de
nvare. Acestea utilizeaz un set de forme a cror apartenen la clase este cunoscut.
Setul este utilizat n mod iterativ de un algoritm care construiete coeficienii
clasificatorului, corespunztor tipului de problem (fr a utiliza matricea distanelor
dintre forme).
1.2.4. Vectori de form i spaiul formelor
Fiecare caracteristic poate fi considerat ca fiind o variabil ntr-un spaiu n-
dimensional unde fiecare caracteristic este atribuit unei dimensiuni. Fiecare form
apare ca un punct n spaiul formelor. Cnd o form este descris de mai multe
caracteristici ea poate fi privit ca un vector X, denumit vectorul de form. Acest vector
este dat de relaia:
1
1
1
1
]
1

n
x
x
x
X
..
2
1
(2.1)
unde x
i
, i= 1,, n reprezint cele n caracteristici.
Spaiul formelor notat cu
X
poate fi descris cu ajutorul relaiei
,
...
..
...
...
..
2 1
2 22 21
1 12 11
'
'
2
'
1
1
1
1
1
]
1

1
1
1
1
1
]
1


mn m m
n
n
m
X
x x x
x x x
x x x
X
X
X
(2.2)
unde X

i
desemneaz vectorul transpus a lui X, iar m numrul de forme.
4. Tehnici de deciziesi clasificare
Conceptul de clasificare al formelor poate fi neles ca o partiionare a spaiului
caracteristicilor acestuia. Clasificarea formelor, adic atribuirea fiecrui vector posibil
sau punct din spaiul caracteristicilor clasei din care face parte, poate fi interpretat ca o
partiionare a acestuia n regiuni (domenii) reciproc exclusive, fiecare domeniu
aparinnd unei clase de forme particulare. Din punct de vedere matematic acest gen de
problem de clasificare poate fi definit sub forma unei funcii discriminant. Astfel fie
1
,

2
,
m
cele m clase de forme posibile cu proprietile:

1

2

m
=
X
, (2.3)
i


m
= F.
Unde cu F s-a notat mulimea care constituie frontierele dintre clase, iar cu X s-a
notat vectorul de form. n acest caz funcia discriminant D
j
(X) asociat clasei de forme

j,
j =1,, m are proprietatea c dac forma reprezentat prin vectorul X face parte din
i
,
fapt pe care-l vom simboliza X
i
, cu i specificat, atunci valoarea lui D
i
(X) trebuie s fie
cea mai mare, adic pentru toi X
i
va fi ndeplinit condiia
D
i
(X) > D
j
(X); i,j = 1, , m, ij. (2.4)
n felul acesta limitele de partiionare ale spaiului caracteristicilor (desemnate
anterior cu F), denumite i limite de decizie, pot fi exprimate cu ajutorul relaiei
F = D
i
(X) D
j
(X) = 0; i, j=1,,m, ij (2.5)
Au fost propuse foarte multe forme pentru funcii discriminant D
i
(X), forme ce
satisfac condiia (2.4). dintre acestea vom meniona n continuare doar pe cele mai
importante.
1.2.4.1.Funcii discriminant liniare
ntr-un spaiu bidimensional aceste funcii sunt liniare i pot fi scrise sub forma:
x
1
-mx
2
-b=0,
sau
W
1
x
1
+W
2
x
2
+W
3
x
3
=0 (2.6)
unde:
m - este coeficientul unghiular,
b - termenul liber,
iar W
1
= 1, W
2
= -m i W
3
= -b.
ntr-un spaiu n- dimensional funciile sunt hiperplane de forma:
W
1
x
1
+W
2
x
2
+.+W
n
x
n
+W
n+1
= 0 (2.7)
n acest caz funcia discriminant D
i
(X) asociat clasei de forme
i
reprezint o
combinaie liniar a caracteristicilor x
i
, i =1,,m, dat n relaia:
D
i
(X)=

n
k 1
W
i,k
x
k
+ W
i,n+1
, I =1,,m (2.8)
Ecuaiile hiperplanelor date de relaia (1.8), pentru m clase de forme, pot fi scrise
matriceal astfel:
D(X)= X W
Unde:
1
1
1
]
1

+
+
m n m m
n
W
W
W
, 1 ,
1 , 1 1 , 1
W ...
W ...

i
1
1
1
1
1
1
]
1

1
2
1
n
x
x
x
X
(2.9)
n vectorul X s-a introdus suplimentar termenul 1 pentru a da posibilitatea
efecturii operaiei de nmulire.
Limita de decizie dintre regiunile
x
corespunztoare claselor
i
i
j
este de
forma:
D
i
(X) D
j
(X) =

n
k 1
W
k
x
k
+W
n+1
; k = 1...n; (2.10)
unde:
W
k
=W
i,k
W
j,k

i
W
n+1
=W
i,n+1
-W
j,n+1.
Ecuaia (2.10) reprezint ecuaia unui hiperplan din spaiul caracteristicilor
x
,
numit i plan de decizie. Pentru a ilustra modul de utilizare a funciilor discriminant
liniare prezentm un exemplu n care avem dou forme ntr-un spaiu bi-dimensional. Fie
formele X
1
i X
2
date de:
1
]
1

4
1
1
X
i
1
]
1

2
4
2
X
i funcia de decizie D(X) = 0 dat de relaia:
0 2 5 , 0 ) (
2 1
x x X D
Relaia de mai sus poate fi scris sub forma:
[ ] [ ] [ ] 0
1
2 ; 5 , 0 ; 1 ) (
2
1

1
1
1
]
1

x
x
X W X D

Dac nlocuim pe X
1
i X2 n D(X), obinem:
[ ] [ ] [ ] 3 3 2 1
1
4
1
2 ; 5 , 0 ; 1 ) (
1

1
1
1
]
1

X W X D
i respectiv
[ ] [ ] [ ] 1 2 1 4
1
2
4
2 ; 5 , 0 ; 1 ) (
2

1
1
1
]
1

X W X D
Pentru orice punct aflat deasupra lui D(X) = 0, D(X) este pozitiv i negativ pentru
punctele de sub dreapt. Astfel, pentru cazul a dou clase, polaritatea n evaluarea lui
D(X) determin la care clas aparine forma dat (Fig. 1.2-1).
1
2
3
4
1 2 3
4 5
D(X)=0
X
2
X
1
Fig. 2.2-3Funcia de decizie liniar n dou dimensiuni.
n cazul n care este necesar discriminarea pentru mai mult de dou forme sunt
necesare dou sau mai multe funcii de decizie. Pentru aceast situaie exist trei tipuri de
clasificatori.
i) Tipul 1 utilizeaz o funcie de decizie care mparte spaiul formelor n
dou clase. Prima clas notat cu
i
conine o singur form, iar cea de a
doua clas conine restul formelor. Pentru a asigura apartenena unei
forme la clasa
i
este suficient s fie ndeplinit condiia D
i
(X)>0 i
D
j
(X)<0 pentru toi i, j. Pentru n clase sunt necesare n funcii de decizie.
ii) Tipul 2 utilizeaz funcii de decizie care separ spaiul formelor n dou
regiuni. Prima regiune conine dou clase, iar cea de-a doua restul claselor.
Separarea celor dou clase
i
i
j
se face cu ajutorul unei funcii de
decizie de forma D
ij
(X) = 0. Apartenena unei forme la clasa
i
sau
j
este
asigurat dac D
ij
(X) > 0.
iii) Tipul 3 reprezint un caz special al tipului 2 de clasificare. Din analiza
figurilor 2.2-2a i 2.2-2b se observ prezena unui spaiu nedeterminat care
apare n interiorul triunghiului format din cele trei drepte corespunztoare
funciei de decizie. Punctele din interiorul acestui triunghi nu pot fi
atribuite la nici una din cele trei clase. Pentru a elimina aceast
nedeterminare, funcia de decizie de tipul 2, D
ij
(X) = 0 este nlocuit cu
D
i
(X)-D
j
(X) = 0, unde D
i
(X) i D
j
(X) sunt funcii de decizie de tipul 1.
Pentru ca o form s fie atribuit clasei
i
este necesar, n acest caz,
ndeplinirea condiiei D
i
(X)>D
j
(X) pentru toi ji (vezi fig. 2.2-2c).

2
+
-
+
-
Fi
g.
Er
ro
r!
N
o
+
-
Fi
g.
Er
ro
r!
N
o
te
xt
of
sp
ec
D
2
=0
D
1
=0
D3=0
X
2
X
1

2
D
12
=0
D
13
=0
D
23
=0
X
2
X
1

2
D
12
=0
D
13
=0
D
23
=0
X
2
a b
c
Fig. 2.2-4 Funcii de decizie multi-categorie: a-tipul 1; b-tipul 2; c-tipul 3.
Dac clasele pot fi separate utiliznd tipul 1 de clasificare, regiunile n care este
prezent clasele vor fi mai compacte, fapt care conduce la o mai bun identificare a
claselor dect n cazul utilizrii tipului 2 sau 3 de clasificare. In schimb, ns, regiunea de
nedeterminare este mare. Dac n aplicaia practic apar forme n regiunea de
nedeterminare rezultate n urma aplicrii tipului 1 de clasificare, poate fi ncercat
utilizarea tipului 2 de clasificare, n care regiunea de nedeterminare este mai mic sau a
tipului 3 (tipul 3 de clasificare are dezavantajul c timpul de calcul este mare)
5. Clasificatorul de distanta minima
O important clas de clasificatori se bazeaz pe valoarea distanelor dintre forma
de intrare i un set de vectori de referin sau puncte prototip din spaiul caracteristicilor
(prototipurile sunt forme a cror apartenen la clase este cunoscut). Dac vom
presupune c sunt cunoscui m vectori de referin, notai cu R
1
, R
2
,R
m
, cu R
j
asociat
clasei
j
, atunci clasificatorul de distan minim va atribui forma de intrare X clasei
i
dac distana dintre aceasta i vectorii de referin este minim,
adic X
i
dac d = X-R
i
= minim. (2.11)
Considerm dou grupe de puncte distincte n spaiul formelor i ne propunem s
determinm funcia de decizie care va putea separa spaiul formelor n dou regiuni care
vor corespunde celor dou clase. Iniial vom determina vectorii de referin pe care i
vom considera reprezentnd centrele celor dou grupri de puncte. Valoarea punctelor
prototip poate fi calculat cu o relaie de forma :
( )

N
i
i
X N R
1
/ 1
(2.12)
unde N reprezint numrul de forme dintr-o grupare. Distana dintre o form X i centrul
gruprii R (R este de forma R = (r
1
, r
2
,,r
m
)) este dat de relaia d = X-R. Dac
considerm c cele dou grupri se afl ntr-un spaiu bi-dimensional, atunci d va avea
urmtoarea form :
d
2
= (x
1
- r
1
)
2
+(x
2
- r
2
)
2
= x
1
2
- 2x
1
r
1
+ r
1
2
+ x
2
2
- 2x
2
r
2
+ r
2
2
.
In cazul cnd avem mai mult de dou clase, distana dintre o form X i R
i
al
gruprii i este dat de :
( )
i i i i i
R R R X X X R X d + 2
2 2
(2.13)
Deoarece X X este aceeai pentru toate clasele, el poate fi eliminat. Dac
nmulim relaia (1.13) cu 0.5, vom obine :
i i i i
R R R X X D 5 , 0 ) (
(2.14)
Deoarece d
i
2
a fost nmulit cu un numr negativ rezult c cea mai mare funcie
de decizie (max D
i
(X)) identific distana minim i deci clasa lui X.
Pentru determinarea termenilor W, din funcia de decizie
X W X D ) (
se
utilizeaz relaia (2.14) i rezult i i
R W
, pentru i = 1,.., n i i i N
R R W
+
5 , 0
1 .
Din cele spuse anterior rezult c un clasificator de distan minim este un
clasificator liniar. Performana unui astfel de clasificator depinde evident de modul cum
sunt alei vectorii de referin dar i de felul cum sunt evaluate distanele. Cele mai
frecvente distane utilizate sunt cele derivate de distana general Minkovski.
( )
k
n
i
k
i i Minkovski
r x d
/ 1
1
1
]
1

(2.15)
Astfel, pentru k = 2 se obine binecunoscuta distan Euclidian.
( )
2 / 1
1
2
1
]
1

n
i
i i Euclid
r x d (2.16)
Pentru k = 1 se obine distana Manhattan.


n
i
i i Manhat
r x d
1
tan
(2.17)
Dac toate caracteristicile x
i
i r
i
, i =1,,n sunt codificate binar (au doar valorile 0 sau 1),
atunci distana Manhattan poart numele de distana Hamming. Distana Hamming este
echivalent cu numrul de caracteristici care sunt diferite n X i R. Aplicarea lui SAU
EXCLUSIV, simbolizat aici prin XOR, permite calcului foarte rapid al distanei
Hamming conform relaiei:

n
i
i i g Ham
r x XOR d
1
min
) , (
(1.18)
6. Clasificatorul vecinului cel mai apropiat
i) Clasificatorul vecinului cel mai apropiat. Acesta dezvolt un clasificator
de distan minim n raport cu mai multe seturi de vectori de referin.
Astfel, fie R
1
, ,R
m
cele m seturi de vectori prototip asociate, respectiv,
claselor
1
,,
m
i R
j
(k)
setul de vectori de referin din setul R
j
, care
aparin clasei
j
. n acest caz distana dintre forma de intrare reprezentat
prin vectorul X i setul de vectori de referin R
j
se definete astfel:


) , min(
,..., 1
) (
) , (
m n
U k
k
j j
j
R X R X d
, j = 1,,m (2.19)
U
j
fiind numrul de vectori de referin din setul R
j
. Clasificatorul ce
utilizeaz acest tip de distan va fi de forma
{ }

m
U k
k
i i
j
X D X D
,..., 1
) (
, ) ( ) (
i =1, , m (2.20)
Aceti clasificatori sunt adesea denumii clasificatori liniari pe poriuni sau
clasificatori bazai pe cei mai apropiai U vecini.
7. Tehnici de grupare
Tehnicile de grupare const dintr-un set de algoritmi care asigur mprirea
spaiului formelor n clase, grupe de forme, fr a face apel la existena prealabil a unui
set de predicie cunoscut. Conceptul de grupare poate fi neles cel mai bine prin
prezentarea celui mai simplu algoritm de grupare (denumit algoritm de tip prag).
Algoritmul presupune existena n spaiul formelor a unui set de forme i stabilirea
iniial a unei distane minime (numit distana de prag) dintre dou forme. Dac distana
dintre dou forme este mai mic dect distana de prag, cele dou forme fac parte din
aceeai clas. Notm cu T distana prag. Iniial se stabilete aleatoriu un prim centru de
grup pe care-l notm cu Z
1
(Z
1
corespunde cu una din cele N forme). Se calculeaz
distana dintre acest centru i toate celelalte forme. Dac distanele calculate sunt mai
mici dect T, formele respective sunt atribuite clasei
1
, a crei centru este Z
1
. Prima
form situat la o distan mai mare dect T conduce la crearea unei noi grupri (clase)
i
cu centrul definit de forma respectiv. Se reia calculul distanelor pentru formele rmase,
lund n considerare noua grupare creat.
Procesul de obinere de noi grupri i de atribuire a formelor la aceste grupri
continu pn n momentul n care sunt clasificate toate formele. Algoritmul este
prezentat n figura Fig. 2.3-1.
start
Iniializeaz X (centrul
gruprii)
Calculeaz D
j
D
j
< T
Asigneaz X
j

j
Creeaz un nou
centru al gruprii
Au fost
clasificati
toi X
STOP
Citete noul Z
Fig. 2.3-5Algoritm de tip prag.
Studiind acest algoritm pot fi determinate o serie de caracteristici ale tehnicilor de
grupare.
1. Alegerea centrelor claselor (gruprilor).
Modul de alegere afecteaz viteza de clasificare ca i numrul de grupe (clase)
care rezult n urma executrii procedurii de clasificare. Din acest motiv se
recurge, de obicei, la calculul continuu a unui centru al clasei pe msur ce la
acesta se atribuie noi forme. n acest caz, centrul gruprii poate s nu corespund
cu o forma existent.
2. Alegerea criteriului de clasificare.
n cazul exemplului dat, criteriul de clasificare este o distan. Se observ c
valoarea lui T afecteaz rezoluia procesului de clasificare. Dac T este prea mare,
dou sau mai multe clase distincte pot fi grupate n una singur. n cazul n care T
este prea mic, o grupare poate fi mprit n mod artificial n cteva grupe. Pentru
determinarea valori lui T se ine cont de efectul pe care-l va avea aceast valoare
asupra numrului de grupri. n cazul general se utilizeaz criteriile de similaritate
i nesimilaritate prin care se asigur apartenena unei forme la o clas. Acestea pot
fi distane sau ali parametri.
8. Masuri de disimilaritate
1.2.5. Msuri de disimilaritate.
Fie X o mulime de obiecte de clasificat. Cea mai general msur de disimilaritate pe
care o putem defini peste X este o funcie D: X*XR care satisface axiomele:
(1) D(x,y)0 x,yX
(2) D(x,x)=0 xX
(3) D(x,y)=D(y,x) x,yX
Se admite c X este mulime de instruire (cunoatem pentru fiecare obiect din X clasa
cruia el aparine) iar D este o msur de disimilaritate adecvat. n aceste condiii este de
ateptat ca disimilaritatea dintre obiectele aceleiai clase s fie sensibil mai mic dect
disimilaritatea dintre puncte aflate n clase diferite. n cazul cnd datele sunt obiecte dintr-un
spaiu euclidian vom considera metrica spaiului ca o msur a disimilaritii.
Dac X i Y sunt puncte dintr-un spaiu euclidian d-dimensional
X = (x1, x2,...,xd),
Y =(y1, y2,...,yd),
atunci pentru orice numr real p1 se poate defini metrica:
d(X, Y)
p
d
i
p
i i
y x
1
1

,
_

(1)
De fapt (1) reprezint o familie infinit de matrici. Pentru p = 1 din (1) se obine:
d(X, Y)


d
i
i i
y x
1
(2)
numit metrica absolut sau distana City Black.
Dac p = 2 se obine distana euclidian :
d(X, Y)
( )
2
1
1
2

,
_

d
i
i i
y x
(3)
iar pentru p se obine metrica valorii maxime :
d(X, Y) i i
i
y x max
(4)
S considerm c valorile posibile ale caracteristicilor formelor de clasificat sunt n
numr finit i fie d acest numr. n acest caz ca msur de disimilaritate se pot utiliza distanele
Hamming i Lee.
Distana Hamming dintre vectorii X i Y este dat de numrul componentelor (poziiilor)
n care cei doi vectori difer. Ponderea Hamming a vectorului X, notat cu WH(X), se definete
ca fiind numrul de componente nenule ale lui X. Rezult c distana Hamming dintre X i Y este
egal cu ponderea Hamming a diferenei lor :
dH (X, Y)= WH(X, Y) (5)
Distana Lee
Fie q un numr ntreg, pozitiv, q2 i X = (x1, x2,...,xd), cu xi{0,1, . . . ,q-1}.
Ponderea Lee a vectorului X, notat cu WL(X), se definete ca fiind:
WL(X)

d
i
i
x
1

unde:

'

1
2

2
0
q x
q
dac x q
q
x dac x
x
i i
i i
i
Distana Lee a vectorilor X i Y se definete ca fiind ponderea Lee a diferenei lor:
dL (X, Y)= WL(X- Y) (6)
Pentru q = 2 i q = 3 distanele Hamming i Lee coincid. Pentru q>3 avem:
dL (X, Y) dH (X, Y), X, Y
De asemenea pentru q = 2 avem
dH (X, Y)


d
i
i i
y x
1
9. Masuri de similaritate
O alternativ la folosirea unei msuri de disimilaritate este considerarea unei msuri a gradului n
care obiectele de clasificat sunt asemntoare.
O msur (coeficient) de similaritate peste X este o funcie S:X*XR , care satisface
axiomele:
1) S(x, y)0, S(x, y)= S(y, x), x , y X
2) S(x, x)= S(y, y)> S(x, y) , x , y X
Dac X este o submulime a spaiului R
d
, atunci ca o msur a similaritii vectorilor
(formelor) x i y din X putem considera cosinusul unghiului dintre cei doi vectori. Avem deci
msura de similaritate:
S1(x,y)=
[ ] [ ]
y x
y x
y x
y x T

,
_

(1)
unde :
(x .y) - este produsul sacalar a doi vectori, pentru cazul dat avem x1y1+x2y2+...+xdyd
[x]
T
- transpusa matricii componentelor formei x
||x|| - normala lui x :
2 2
2
2
1
...
d
x x x x + + +
Aceast msur de similaritate este util atunci cnd mulimea X a datelor este format
din clusteri liniari. O distan poate induce o msur de similaritate. Dac d este o distan peste
X, atunci putem defini distana normalizat d/d
max
, unde:
) , (
max
,
max
y x d d
X y x

Msura de similaritate indus de distana d se definete prin


max
2
) , (
1 ) , (
d
y x d
y x S
1.2.6. Msuri de similaritate pentru vectori binari
Admitem c toate caracteristicile sunt binare. Fiecare obiect (form) este reprezentat
printr-un vector cu d componente care nu pot fi dect 0 sau 1. Vom pune x
i
=1 dac obiectul x
posed atributul i i x
i
=0 n caz contrar. Dac atributul i este prezent simultan la obiectele x i y,
atunci avem x
i
y
i
=1.
Msura de similaritate (1) poate fi reinterpretat pentru cazul caracteristicilor binare. n
acest scop se observ c numrul de atribute prezente simultan la x i y este
S= ] [ ] [
1
y x y x
T
d
i
i i

Rezult c
] [ ] [
2
x x x
T

d numrul de atribute pe care le posed x. Atunci


y x
este
media geometric a numrului de atribute din
x
i din
y
i deci S
) , ( y x
dat de
y x
x
y x S
T

] [
) , (
1
este o msur relativ a numrului de atribute comune. Modificnd relaia (1) se pot obine
diverse msuri de similaritate. Se pot obine astfel:
nlocuind numitorul cu numrul de atribute a unui obiect avem:
d
y x
y x S
T
] [ ] [
) , (
3
(2)
coeficientul lui Tanimoto
] [ ] [ ] [ ] [ ] [ ] [
] [ ] [
) , (
4
y x y y x x
y x
y x S
T T T
T
+

(3)
Aceast msur este mult utilizat n probleme ridicate de regsirea informaiei, biologie
etc.
Se observ c dac atributul i lipsete simultan din
x
i
y
atunci (1-xi)(1-yI)=1 i deci
T=

d
i 1
i i
) y - )(1 x - (1 (4)
este numrul atributelor ce lipsesc simultan din
x
i
y
.
Analog
u=

d
i 1
i i
) y - (1 x (5)
v=

d
i 1
i i
)y x - (1 (6)
reprezint numrul atributelor prezente n
x
dar care lipsesc din
y
i respectiv numrul
atributelor care sunt prezente n
y
dar lipsesc din
x
.
10.Functia criteriu
Fie { }
p
x x x X ,..., ,
2 1
mulimea obiectelor de clasificat. Ne propunem s gsim o
tehnic de explorare a datelor, care s ne permit s descoperim structura natural de clasificare,
sau structura de clusteri a mulimii datelor. Vom admite c structura de clasificare a mulimii X
este dat de o partiie
{ }
n
A A A P ,..., ,
2 1

a lui X .
Fiecare element i
A
a partiiei
P
va corespunde unei clase (nor, cluster) de obiecte, astfel nct
punctele unei clase s fie mai asemntoare dect punctele din clase diferite. Asemnarea
obiectelor este dat de o msura de similaritate sau de o msur de disimilaritate. Pe baza unei
astfel de msuri putem construi o funcie criteriu. Problema de clasificare se reduce astfel la
problema determinrii partiiei ce realizeaz optimul funciei criteriu (obiectiv). Pentru a construi
o funcie obiectiv al crei extrem s fie partiia cutat, avem nevoie s fixm o anumit
reprezentare a partiiei. Aceste reprezentri depind de scopul clasificrii ca i de structura datelor.
Structura se poate postula, bazndu-se pe anumite informaii apriorii, sau poate fi determinat
prin aplicarea unor metode de analiz preliminar a datelor (analiza componentelor principale,
analiza factorial etc.)
S admitem faptul c fiecare clas i
A
se poate reprezenta printr-un prototip i
L
dintr-un
spaiu de reprezentare L.
L
={
1
L ,
2
L ,
n
L }
constituie reprezentarea partiiei
P
.
Fie D o msur de disimilaritate peste X. Admitem c pornim de la D se poate construi o
disimilaritate ntre un obiect din X i un prototip. Acest lucru este ntotdeauna posibil cnd D este
o distan sau ptratul unei distane. Vom nota cu Di aceast msur de disimilaritate indus de
ctre D.
Di este aadar o funcie
Di: XR
i
Di(x, Li)
msoar gradul n care obiectul x difer de prototipul Li
Notm cu
I : P(X) qR
o funcie care masoar gradul de inadecvare al repezentrii unei clase printr-un prototip. Admitem
c msura I(Ai, Li) a inadecvrii clasei Ai prin prototipul Li este dat de
I(Ai, Li) =

i
A x
Di(x,Li) (1)
dup care vom considera c inadecvarea reprezentrii partiiei P prin L este de forma:
J(P, L) =

n
I 1
I(Ai, Li) (2)
sau innd cont de (1):
J(P, L) =


,
_

n
i A x
i i
i
L x D
1
,
(3)
unde J reprezint funia criterie.
Problema de clasificare se reduce la determinarea partiiei P i a reprezentrii L care
minimizeaz aceast funcie criteriu. Deoarece mulimea partiiilor cu n clase ale lui X este finit,
problema poate fi, teoretic, rezolvat prin considerarea tuturor partiiilor. n realitate acest lucru
nu este realizabil dect n situaii foarte particulare. ntr-adevr numrul partiiilor cu n clase ce
pot fi construite cu p obiecte este


n
k
p
p k
n
k n
n
n
k C
n
1
!
) 1 (
!
1
(4)
Acest numr este foarte mare pentru cele mai multe cazuri practice. De exemplu, pentru 5
clase i 100 obiecte avem circa
67
10 partiii distincte.
1
2
3
5
4
6
Cele mai utilizate metode pentru rezolvarea problemei de minimizare a funciei criteriu
sunt metodele iterative. Ideea de baz este de a porni de la o partiie iniial, care poate fi aleas
arbritar sau determinat printr-un alt algoritm. Obiectele de clasificat sunt transferate dintr-o clas
n alta, dac o astfel de mutare amelioreaz valoarea funciei criteriu. Procedura se oprete cnd
nici o schimbare nu mai mbuntete valoarea funciei criteriu. Procedurile iterative de acest tip
asigur atingerea unui optim local. Alegeri diferite ale partiiei iniiale vor conduce n final dup
un interval mai mare sau mai mic de timp n general la soluii identice ale problemei de
clasificare.
11.Algoritmii de clasificare iterativa (doar ca idee)
N-medii
ISODATA
1.2.7. Algoritmul n-medii
Fie X ={x
1
, x
2
, x
p
} mulimea obiectelor de clasificat. Admitem c aceste obiecte
reprezint vectori din spaiul euclidian d-dimensional. Vom considera ca msur de disimilaritate
ptratul distanei induse de norma, adic
D(x ,y)=
2
y x
(1)
Presupunem c mulimea X este alctuit din nori (clusteri) de puncte relativ compaci i
bine separai, de form aproximativ sferic. n aceste condiii un nor se poate reprezenta pritr-un
punct, care constituie prototipul clasei respective. Aadar prototipul Li al clasei Ai este un punct
din R
d
.
Disimilaritatea dintre un punct x din X i prototipul Li se poate interpreta ca fiind eroarea
comis atunci cnd punctul x se aproximeaz prin prototipul clasei Ai. Aceast disimilaritate se
poate scrie
D(x ,Li)=
2
i
L x (2)
Funcia criteriu considerat va fi:
J(P, L) =


,
_

n
i A x
i i
i
L x D
1
,
(3a)

de unde
J(P, L) =

n
i A x
i
i
L x
1
2
(3b)
Pentru a determina minimul funciei criteriu, aceasta se va exprima ntr-o form uor modificat.
Fie IAi funcia caracteristic a mulimii Ai. Folosind notaia:
Aij = IAi(x
j
) =
{
i
j
A x daca
contrar caz in
1
0
(4)
S presupunem de exemplu c avem un numr de 6 obiecte i c partiionarea acestora
iniial este 3. Atunci Aij se va putea construi astfel:
Partiia
Obiect 1 2 3
1 1 0 0
2 1 0 0
3 1 0 0
4 0 1 0
5 0 1 0
6 0 0 1
n aceste condiii funcia criteriu este:



n
i
p
j
i
j
ij
L x A L P J
1
2
1
) , ( (5)
innd cont de faptul c ntr-un spaiu euclidian produsul scalar a doi vectori este
] [ ] [ ) , ( y x y x
T

funcia criteriu apare sub forma



n
i
i
j
p
j
T
i
j
ij
L x L x A L P J
1 1
] [ ] [ ) , (
(6)
Pentru ca
L
s fie un minim pentru funcia ) , ( L P J este necesar s avem:
n i
L
L P J
i
, 1 , 0
) , (

(7)
de unde rezult c:
n i L x A
p
j
i
j
ij
, 1 , 0 ] [ 2
1

(8)
respectiv:
n i L A x A
p
j
i ij
j
p
j
ij
, 1 , 0
1 1



(9)
de unde obinem:
n i
A
x A
L
p
j
ij
p
j
j
ij
i
, 1 ,
1
1

(10)
Se observ c numitorul reprezint numrul de elemente din clasa
i
A . Notnd cu

p
j
ij i
A p
1
numrul de elemente din clasa Ai (11)
expresia prototipului Li se va mai scrie

i
A x i
i
x
p
L
1
(12)
Observm c prototipul L i este media sau centrul de greutate al clasei A i.
Reprezentarea
L i={ L 1, L 2, . . . , L n}
unde L i este dat de (10), induce o nou partiie. Aceast partiie se obine folosind regula celui
mai apropiat vecin. Un obiect (punct) x
j
este ataat clasei de centrul creia este cel mai apropiat.
Avem deci urmtoarea regul de decizie
i
j
A x
i k i n k L x L x
k
j
i
j
< ; , 1 ,
(13)
Din punctul de vedere al programrii algoritmului, este mai util regula (13) s se exprime sub
forma

ij
A
{
i k L x L x dac
contrar caz n
k
j
i
j
< , 1
0
(14)
Algoritmul n-medii const n aplicarea iterativ a formulelor (10), (14) sau (12), (13),
plecnd de la o partiie iniial a lui X. Aceast partiie iniial se poate alege arbitrar, se poate
stabili folosind anumite informaii asupra datelor sau poate constitui rezultatul aplicrii unui alt
algoritm de clasificare.
Algoritmul n-medii const n executarea urmtorilor pai:

P1. Se alege o partiie iniial p
0
={A1, A2, . . . , An} a lui X.
P2. Se calculeaz prototipurile acestei partiii cu formula :


i
A x i
p
j
ij
p
j
y
ij
i
x
p
A
x A
L
1
1
1
P3. Se calculeaz noua partiie dup regula
x A i dac
i k L x L x
k
j
i
j
< ,
P4. Da