Sunteți pe pagina 1din 35

ANALIZA IN COMPONENTE

ANALIZA IN COMPONENTE
PRINCIPALE (PCA)
PRINCIPALE (PCA)
APLICA II
APLICA II

I. PCA
Analiza n componente principale est e o tehnic prin care este explicat structura corela iilor prezente ntr-un set de
variabile, prin utilizarea unei mulimi de combinaii liniare ale variabile, S.
Fie ( )
T
n 1
X ,..., X X vector aleator n-dimensional astfel nct ( ) 0 X E i ( )
T
X , X Cov .
Definiie Vectorul
1
R
n
este prima ax principal n sensul varianei dac 1
1
i ( ) ( ) X X
T
R
T
n



var sup var
1
1
.
Valoarea X
T
1
se numete prima component principal a lui X, n sensul varianei. Pentru k numr natural, n k 2 ,

k
R
n
este cea de-a k-a ax principal n sensul varianei dac 1
k
i ( )
( )
( ) X X
T
L
T
k
k



var sup var


1
,.. .,
1 1
, n care
( )
1 k 1
,..., L

reprezint spaiul ortogonal pe spaiul linear generat de primele k-1 componente principale
1 k 1
,...,

.
Valoarea X
T
k
se numete cea de-a k-a component principal a lui X, n sensul varianei.
Definiie Pentru m numr natural, n m 1 , axele (caracteris ticile) optimale n sens ul varianei pentru reprezentarea
formei X sunt
m 1
,..., . Vectorul aleator ( )
T
m 1
Y ,..., Y Y , n care X Y
T
k k
, m k 1 , constit uie reprezentarea formei X
n termenii setului de caracteristici
m 1
,..., .
Teorema Fie ( )
T
n 1
X ,..., X X vector aleator n-dimensional astfel nct ( ) 0 X E i ( )
T
X , X Cov .
Atunci, pentru orice k, n k 1 , cea de-a k-a ax principal n sensul varianei este vectorul
propriu
k
corespunztor matricei i asociat valorii proprii
n 2 1 k
... , .


II. ALGORITMII CSPCA I CSPCA CU COMPRESIE

0
X - setul imaginilor originale perturbat aditiv cu zgomotul ( ) 0 , t
t
, proces stochastic
staionar: pentru orice t,
t
este distribuit ( )
n
I 0
2
, N , cu
2
cunoscut.
0
X este proces staionar, cu
( ) ( ) t E
0
X i ( ) ( ) ( ) ( )
T
t t Cov
0 0
, X X cunoscute.
Setul de imagini observate este X X +
0
.

0
X - imagini monocrome, prelucrate prin descompunere n blocuri 8 8 , ulterior liniarizate
n etapa de preprocesare datele sunt reduse la intervalul [ ] 1 , 0 (rezult 1 0
2
< < ) i centrate,
( ) X X X Y +
0
E i ( )
n
T
I Y Y
2
, Cov + .

2
1

A , unde este matricea ortonormal cu coloane vectorii proprii ai lui i


( )
n
,..., , diag
2 1
,
i
i

2
1+ , unde
n
,..., ,
2 1
sunt valorile proprii ale matricei . A
diagonalizeaz simultan matricele i
n
I
2
+ :
n
T
I A A , ( ) A I A +
n
T 2

( ) A X A Y A Z
T T T
+
0
.Vectorul A
T
are distribuia ( )
1 2
, N

0 , deci elementele lui A
T

sunt independente. Lui Z i este aplicat funcia de contracie ( ) ( )

,
_


i
u u u g

2
2 , 0 max sign i
rezult o aproximare a lui Z n varianta fr zgomot, Z
0
= ( ) X A
0
T
.
Este obinut o aproximare a setului de imagini iniiale
0 0

AZ X + .

Tehnica propus mai sus, CSPCA, este combinat cu o schem de compresie/decompresie, astfel
nct procesul de eliminare a zgomotului este tratat n spaiul caracteristicil or principale.
Ideea este aceea c, n principal, componenta zgomot este regsit n componentel or minoreale
semnalului.
Fie
n
,..., ,
2 1
vectorii proprii unitari ai matricei i
n
...
2 1
val orile proprii
corespunzt oare. Pentru orice n m 1 , fie ( )
m
m
,..., ,
2 1
i ( )
m m
, ..., , diag
2 1
.
Modulul de eliminare a zgomotului prezentat mai s us este implementat n spaiul m-dimensional al
caracteristicilor principale, F. Obinem urmtoarea schem de compresie/decompresie i
restaurare.
1. Compresia
( ) ( ) ( ) ( ) Y
X Y
T
m
m
T
m
m
F
2
1
2
1


2. Modulul de eli minare a zgomotului




3. Decompresia
( ) ( ) X

2
1
0

,
_

T
m
m
F
,
unde X

este imaginea restaurat, ( ) ( )


0
2
1

F
T
m
m
+

,
_

X .


F

0
F

CSPCA

Setul observat Imagi nile rezul tate



III. ALGORITMUL CSPCA ADAPTIV

N
X ,..., X , X
2 1
- set de imagini n-dimensionale, perturbate aditiv, cu zgomot ( )
n
I 0
2
, N . Matricea
de covarian de selecie este, ( )( )

N
i
T
N i N i N
N
1
1
1
X X ,

N
i
i N
N
1
1
X .

Fie
N
n
N N
...
2 1
valorile proprii i
N
n
N
,...,
1
un set de vectori proprii ortonormali ai
matricei
N
. Fie X
N+1
o imagine nou, perturbat cu acelai zgomot cu imaginile setului
N
X ,..., X , X
2 1
. Estimrile parametrilor
1 + N
i
1 + N
, corespunztori setului de imagini
1 2 1
,
+ N N
X X ,..., X , X sunt calculate prin,
1 1
1
1
1
+ +
+
+
+

N N N
N N
N
X +
+ N N N
N

1
1
( ) ( )
T
N N N N
N
X X
+
+ + 1 1
1
1



n cazul n care valorile proprii ale matricei
N
sunt mutual distincte, rezult urmtoarele
aproximri de ordinul I, n i 1

( )
N
i N
T
N
i
N
i
N
i
+
+

1


( )

+
n
i j
j
N
j
N
j
N
i
N
i N
T
j
N N
i
N
i
1
1






Algo ritmul CSPCA a daptiv
Intra re : Un set de i magini cu zgo mo t,
N
X ,..., X , X
2 1
.
Pas 1. Calculeaz
N
i
N
i N N
, ,
,
, n i 1 .
Pas 2. Preia o nou imagine perturbat, X
N+1
; a da ug X
N+1
se tul ui de imagi ni.
Pas 3. Calculez
1 , 1 + + N N
,
1 1
,
+ + N
i
N
i

Pas 4. Calculeaz varia nta restaurat a imagini i X
N+1
prin apl icarea CSPCA n va ria nta c u compresie
i n te rmenii para metrilo r
1 , 1 + + N N
,
1 1
,
+ + N
i
N
i
.
Pas 5. Dac mai sunt imag ini de restaura t, N++ i reia de la Pas 2.

Rezultate ex peri me ntale


Imag i nea nou pertur bat

Varianta restaurat pri n CSPCA adaptiv

IV. ALGORITMUL DE ELIMINARE A ZGOMOTULUI CORELAT
PRIN TEHNICI PCA
Tehnica propus pentru eliminarea zgomotului este bazat pe reprezentarea semnalului imagistic n
termenii componentelor principale i procesarea vectorului alb astfel obinut. Modelul este urmtorul.

Fie X X +
0
semnalul imagistic observat, unde
o
0
X este setul de imagini originale, distribuit cu medie
0
i matrice de covarian
0

o este componenta zgomot, repartizat normal, cu medie

i matrice de covarian



Ipotezele de lucru sunt
o semnalul iniial este necorelat cu componenta zgomot aditiv
o vectorii medie i matricele de covarian corespunztoare semnalului iniial, respectiv
zgomotului sunt date cunoscute.

Metoda propus pentru eliminarea zgomotului presupune parcurgerea a dou etape:

o aplicarea unei transformri pentru decorelarea componentei zgomot
o aplicarea unei metode de tip contracie a codului pentru eliminarea zgomotului semnalului
obinut n urma procesului de decorelare.

Rezultate experimentale

Imagini de intrare Imagini rezultate






V. CLASIFICAREA SUPERVIZAT PCA

N
X X X ,..., ,
2 1
- forme de dimensiune n, clasificate pn la momentul curent n clasele
M
C C C ,..., ,
2 1
.
Algoritmii de clasificare sunt dezvoltai n ipoteza c fiecare clas corespunde unui proces stochastic
staionar.
Pentru orice M i 1 ,
i
C este definit prin { }
i
N
i i
i
i
X X X C ,..., ,
2 1
, unde N N
M
i
i

1
. { }
i
N
i i
i
X X X ,..., ,
2 1

este o mulime de realizri ale unui proces stochastic staionar, pentru M i 1 .

i
matricea de covarian i
i

,
i
matricea de covarian de selecie, respectiv vectorul medie de
selecie ai formelor clasificate n
i
C , pentru orice M i 1 ,

i
N
k
i
k
i
i
X
N
1
1

( )( )


i
N
k
T
i
i
k i
i
k
i
i
X X
N
1

1
1

.
X
N+1
- o nou form prezentat clasificatorului. Forma X
N+1
este clasificat n clasa C
i
dac
modificrile aduse componentelor principale ale matricei de covarian de selecie
i

sunt suficient
de mici
Pentru M i 1 ,
1 ,

N i
- matricea de covarian de selecie a clasei C
i
n ipoteza n care forma X
N+1
a
fost alocat lui C
i
. Rezult,
( )( )
T
i N i N
i
i
i
i
N i
X X
N N
N

1
1

1 1 1 ,

+
+


+ + +




n
i i i
,..., ,
2 1
vect orii proprii ai matricei
i

, corespunztori val orilor proprii ordonate,


n
i
m
i
m
i i i
i i
> > >
+
. .. ...
1
2 1
, M i 1 ;

i
m
i i i
,.. ., ,
2 1
componentele principale ale formelor clasificate n C
i
, M i 1 ;

n
N i N i N i 1 ,
2
1 ,
1
1 ,
,... , ,
+ + +
vectorii proprii ai matricei
1 ,

N i
, corespunztori valorilor proprii ordonate,
n
N i
m
N i
m
N i N i N i
i i
1 ,
'
1 ,
'
1 ,
2
1 ,
1
1 ,
... ...
1
+ + + + +
> > >
+
, M i 1 ;

i
m
N i N i N i
'
1 ,
2
1 ,
1
1 ,
,..., ,
+ + +
componentele principale ale f ormelor di n setul { }
1 2 1
, ,..., ,
+ N
i
N
i i
X X X X
i
,
M i 1
A
i
=
1 ,

N i
-
i

, M i 1 .
Pentru M i 1 ,
n
N i
m
N i
m
N i N i N i
i i
1 ,
'
1 ,
'
1 ,
2
1 ,
1
1 ,
... .. .
1
+ + + + +
> > >
+
sunt ( )
k
i N i
T
k
i
k
N i

1 , 1 ,

+ +
, n k 1 .

i
j
i i i
m
N j N j N j 1 ,
2
1 ,
1
1 ,
,..., ,
+ + +
compone ntele principale, corespunztoare matricei
1 ,

N j
i
. Rezult, prin
aproximare de ordinul I,
( )

+
i
j
i
i i
i i
i i
m
l
l
j
l
j
k
j
k
j i
T
l
j
k
j
k
N j
A
1
1 ,




Criteriile posibile de selecie: X
N+1
este clasificat n clasa
i
j
C dac
1. ( ) ( )

+

l
j
l l
l
i
j
i i
i
m
k
k
N j
k
j
j
t l
m
k
k
N j
k
j
j
d
m
d
m
D
1
1 ,
1
1
1 ,
,
1
min ,
1
i < D , parametru dat

2. Selecteaz clasa cu numr maxim de valori proprii semnificative i aplic 1. doar acelor clase

3. Selecteaz clasa cu numr minim de valori proprii semnificative i aplic 1. doar ac elor clase

Studiu experimental

Au fost efectuate o serie de experimente pentru calculul erorii de clasificare n cazul n care sunt considerate 5 clase
care cuprind cte 50 de exemple, vectori aleatori de dimensiune 4, fiecare corespunznd unei distribuii normale, astfel

1
= [10 11 2 -12]
2
= [12 -5 8 13]
3
= [-10 0 9 11]
4
= [-3 14 3 -11.5]
5
= [-7 -10.5 -14 11.5]


1
1
1
1
1
]
1

1.8369 0.8010 1.5350 0.6460


0.8010 3.0600 3.1000 1.4720
1.5350 3.1000 3.7500 2.0100
0.6460 1.4720 2.0100 3.5944

2
1
1
1
1
]
1

2.3961 1.0050 0.6720 0.3745


1.0050 2.4586 0.9305 0.5230
0.6720 0.9305 1.7766 0.7755
0.3745 0.5230 0.7755 1.5566

3
1
1
1
1
]
1

2.3144 0.3250 0.4600 0.6000


0.3250 3.0725 0.0120 0.0200
0.4600 0.0120 2.5144 1.3740
0.6000 0.0200 1.3740 1.7300


4
1
1
1
1
]
1

4.1054 0.4250 0.6029 0.9805


0.4250 2.3724 0.9920 0.3814
0.6029 0.9920 2.4038 0.5825
0.9805 0.3814 0.5825 2.3618

5
1
1
1
1
]
1

2.9441 0.3454 0.0210 0.6540


0.3454 1.6301 0.0240 0.6330
0.0210 0.0240 2.4436 0.2860
0.6540 0.6330 0.2860 1.8017

Aloc X
N+1
clasei
i
j
C dac ( ) ( )

+

l
j
l l
l
l
i
j
i i
i
m
k
N
j k
N
j k
j
M j
m
k
N
j k
N
j k
j
d
m
d
m
D
1
1
, ,
1
1
1
, ,
,
1
min ,
1




n tabelul 1 sunt prezentate situaiile de clasificare corect/incorect n situaia prezentrii unei noi
forme generate aleator, pentru fiecare din distribuiile specificate mai sus. Pentru fiecare distribuie, sunt
testate cte 100 de noi forme generate aleator.

Tabelul 1. Rezultatele simulrilor efectuate
Clasa C
1
C
2
C
3
C
4
C
5

Numrul de clasificri
corecte
100 100 96 99 100
Numrul de clasificri
greite
0 0 4 - toate
clasificate n
C
2

1
clasificat
n C
1

0
Distana medie conform
criteriului de clasificare, la o
clasificare corect
0.08 0.05 0.75 0.21 0.14
Distana maxi m conform
criteriului de clasificare, la o
clasificare corect
0.41 0.19 1.85 0.55 0.53


VI. CLASIFICAREA SUPERVIZAT PCA varianta adaptiv
Decizia de alocare a unui nou exemplu unei clase este urmat de modificarea caracteristicilor clasei
(media, matricea de covarian i direciile principale), prin utilizarea aproximrii de ordinul I a
noului sistem de axe principale.
Fiecare modificare a caracteristicilor unei clase prin aproximri de ordinul I ale direciilor principale
induce o eroare de aproximare. n scopul eliminrii efectului cumulativ al erorilor datorate
aproximrilor, dup fiecare PN alocri de exemple noi, fiecare schelet este calculat utiliznd o metod
exact, M.

Algoritmul adaptiv de clasificare supervizat PCA
Date de intrare: { }
M
C C C H ,..., ,
2 1
, PN
REPEAT
i 1
Pas 1: Fie X un exemplu nou. Clasific X conform criteriului perturbaiei minime induse scheletului clasei
Pas 2: Dac M j 1 astfel nct X este alocat clasei
j
C , atunci
2.1.recalculeaz caracteristicile clasei
j
C
2.2. i++
Pas 3: Dac i<PN mergi la Pas 1
Altfel
3.1. Pentru j= M , 1 , calculeaz caracteristicile clasei
j
C prin metoda exact M.
3.2. i1 i mergi la Pas 1.
UNTIL au fost clasificate toate exemplele noi
Date de ieire: Noul sistem{ } CR C C C
M
,..., ,
2 1


Studiu comparativ

Algoritmul propus a fost aplicat pentru clasificarea unui set de date bidimensionale, provenind din 4 clase.
Fiecare clas corespunde unei funcii de densitate Gaussian.
Distana dintre dou clase este msurat prin dista na Ma halano bi s.
Estimarea di reciilor princi pale care caracterizeaz fiecare clas este realizat din datele disponibile.

Test 1. Datele de intrare sunt considerate provenind din patru clase, model ul statis tic al fiecrei clase C
i
,
4 1 i , este
i
C ~ ( )
i i
N , , unde
1
= [10 -12],
1

1
]
1

2.50 1.65
1.65 3.49

2
= [1 1],
2

1
]
1

6.8066 5.6105
5.6105 6.6841

3
= [-10 0],
3

1
]
1

2.50 1.35
1.35 1.69

4
= [-8 24],
4

1
]
1

12.2789 1.02
1.02 6.2789

Numrul exemplelor din setul ini ial clasificat este 800, cte 200 n fiecare clas. Distanele Mahalanobis
dintre clase sunt elementele matricei,

1
1
1
1
]
1

0 39.4249 54.7989 152.3496


39.4249 0 33.2818 247.6876
54.7989 33.2818 0 99.4061
152.3496 247.6876 99.4061 0
.
n acest exemplu, siste mul de clase este relativ bine separat.
n tabel ul 2 sunt preze ntate re zultatele simulrilor efectuate pentru PN variabil .
n figura 1 este prezentat setul iniial de cte 250 exemple per clas a. Clusterele rezulta te dupa
clasificarea a inc 500 de exemple noi sunt prezentate n figura 2(s unt 5 erori pentru PN=5).

Tabelul 2
Indexul exemplului din setul
de test
Clasificrile incorecte
(clasa corect clasa alocat
de algoritm)

Exemplele greit
clasificate
Primul set de test conine 20 exemple noi (PN=20)
2 32 (-7.02, 1.9)
5 42 (-10.06, 16.90)
14 32 (-7.11, 2.61)
20 42 (-6.38, 20.76)
Sunt 4 exemple clasificate greit.
Pentru fiecare clas, calculeaz caracteristicile prin metoda exact M
Al doilea set de test conine 20 exemple noi
Nu sunt clasificri eronate.
Pentru fiecare clas, calculeaz caracteristicile prin metoda exact M
Al treilea set de test conine 50 exemple noi (PN=50)
Nu sunt clasificri eronate.
Pentru fiecare clas, calculeaz caracteristicile prin metoda exact M
Al patrulea set de test conine 50 exemple noi
23 42 (-5.99, 15.88)
1 exemplu clasificat greit.
Pentru fiecare clas, calculeaz caracteristicile prin metoda exact M
Al cincilea set de test conine 50 exemple noi
Nu sunt clasificri eronate.
Pentru fiecare clas, calculeaz caracteristicile prin metoda exact M
Al aselea set de test conine 50 exemple noi
Nu sunt clasificri eronate.
Pentru fiecare clas, calculeaz caracteristicile prin metoda exact M



Figura 1 : Set ul iniial



Figura 2: Sistemul de clase rezultat

Test 2. Datele de intrare sunt considerate provenind din patru clase, model ul statis tic al fiecrei clase C
i
,
4 1 i , este
i
C ~ ( )
i i
N , , unde
1
= [10 -12],
1

1
]
1

2.50 1.65
1.65 3.49
2
= [1 10],
2

1
]
1

6.8066 5.6105
5.6105 6.6841

3
= [-10 0],
3

1
]
1

2.50 1.35
1.35 1.69
4
= [-8 4],
4

1
]
1

12.2789 1.02
1.02 6.2789


Numrul exemplelor din setul ini ial clasi ficat este 800, cte 200 n fiecare clas. Distanele Mahalanobis
dintre clase sunt elementele matricei,

1
1
1
1
]
1

0 1.3258 6.3728 64.3167


1.3258 0 14.6578 247.6876
6.3728 14.6578 0 203.7877
64.3167 247.6876 203.7877 0
.

Sistemul de clase din testul 2 sunt astfel nct, pentru oricare pereche de clase din setul C
2
,

C
3
, C
4
,
distana Mahalanobis este mic i clasa C
1
este bine separat de restul claselor. n consecin, situaiile
de clasificare eronat i ntervin n principal pentru exemplele care provin din clasele C
2
,

C
3
, C
4
.
n figura 3este prezentat setul iniial de ex e mple. Clusterele rezul tate dup clasificarea adaptic a nc
200 de noi exemple sunt prezentate n figura 4 (PN =5, sunt 25 de erori de clasificare , datorate
apropierii dintre ultimile 3 clase ).


Figura 3


Figura 4

A fost realizat un studiu privind gradul de discriminare ntre clasele C
3
i C
4
a algoritmului
propus comparativ c u performanele unei tehnici standard de analiz discriminant.
Pentru a obine concluzii de natur statistic n legtur cu gradul de apropiere ntre seturile
de forme clasificate eronat, provenind din clasele C
3
i C
4
, au fost aplicate testele
Kolmogorov-Smirnoff i MANOVA.
Testele au fost realizate pe seturi de date de intrare generate aleator cu volumului de selecie
1000.


n tabelul 3 sunt preze ntate rezultate ale simulrilor realizate pentru noi exemple care provin
di n C
3
i sunt asignate clasei C
4
. Fiecare coloan a tabelului corespunde unui set de test.
Elementele fiecrei linii sunt:
numrul de exemple clasificate incorect n cazul aplicrii metodei propuse;
numrul de exemple clasificate incorect n cazul aplicrii unei metode standard de analiz
discriminant (CDA);
numrul de exemple clasificate incorect n cazul aplicrii metodei propuse i n cazul aplicrii
CDA;
rezultatele testului Kolmogorov-Smirnoff apl icat pe ntru grupul de exe mple clasificate
incorect n raport cu clasa identificat de procedura de clasificare propus;
rezultatele testului Kolmogorov-Smirnoff apl icat pe ntru grupul de exe mple clasificate
incorect n raport cu clasa corect;
rezultatele testului MANOVA apl icat pentru grupul de exemple clasificate incorect n raport
cu clasa identificat de procedura de clasificare propus;
rezultatele testului MANOVA apl icat pentru grupul de exemple clasificate incorect n raport
cu clasa corect.


Tabelul 3
76 67 65 76 78
132 116 122 135 132
76 67 65 76 78
1,1 1,1 1,1 1,1 1,1
0,1 0,1 0,1 0,1 1,1
0
0.095
0
0.101
1
0.125
1
0.105
0
0.095
1
4.50
1
4.199
1
3.898
1
4.408
1
4.790

Din analiza tabelului 3 rezult c performanele algoritmului propus sunt superioare metodei
clasice de analiz discriminant. Rezultate similare au fost obinute pe alte date de test, care
provin din dou clase pentru care modelul statistic este repartiia Gaussian i cu distane
Mahalanobis mici (clase foarte apropiate).

n tabelele 4 i 5 sunt prezentate rezultatele obinute aplicnd aceeai analiz exemplelor
provenite din C
4
i clasificate n C
3
.


Tabelul 4 Tabelul 5
208 213 185 231 207
246 248 217 275 248
206 210 181 230 206
1,0 1,0 1,0 1,0 1,0
0,1 0,1 0,1 0,1 0,1
1
0.147
1
0.163
1
0.242
1
0.132
1
0.202
1
2.792
1
2.64
1
2.461
1
3.001
1
2.697
328 293 334 317 319
266 256 276 264 271
258 244 266 253 264
1,0 1,0 1,0 1,0 1,0
0,1 0,1 0,1 0,1 0,1
1
0.349
1
0.175
1
0.228
1
0.2932
1
0.232
1
2.616
1
2.555
1
2.624
1
2.435
1
2.577



Test 3
Testul este efectuat n situaia n care sistemul cuprinde clase bine separate (direciile principale ale
clase C
1
, respectiv C
3
sunt ortogonale cu direciile principale ale clase C
2
, respectiv C
4
). n testele
efectuate eroarile de clasificare sunt practic aproae de 0.
n figura 5 este prezentat setul iniial cu cte 150 exemple; n figura 2 este prezentat rezultatul
clasificrii a nc 500 de noi exemple, cu PN=5 (nici o eroare de clasificare)

Figura 5: Setul ini ial

Figura 6: Clusterele rezultate la sfritul procedurii de clasificare

VII. CLASIFICAREA NESUPERVIZAT PCA
Problema de recunoatere a formelor revine la discriminarea ntre M clase sau ipoteze, H.

{ }
N
X X X ,..., ,
2 1

set de exemple neetichetate, care provin din clasele sistemului H.
Scopul dezvoltarea unui algoritm pentru identificare structurii de cluster din date

Ipoteze de lucru:
1. Fiecare exemplu din este o realizare a unui vector aleator ce corespunde unei clase unice dar
necunoscute din H. H M este cunoscut.
2. Clasele sunt bine separate n spaiul de reprezentare R
n
.
3. Pentru fiecare clas
H k
, este disponibil un exemplu
k
P .

Date de intrare:
Exemplele de clasificat,
{ }
N
X X X ,..., ,
2 1

;
M, numrul de clustere;
Setul de exemple
M
P P ,...,
1
.

Parametri:
n, dimensiunea datelor de intrare;
, o valoare prag care controleaz dimensiunea fiecrui cluster; ( ) 1 , 0 ;
nr, o valoare prag care controleaz omogenitatea fiecrui cluster;
Cond, condiia de oprire, exprimat n termenii unei valori prag NoRe, pentru numrul datelor
realocate;

, parametru care controleaz numrul de elemente aberante din fiecare cluster, ce urmeaz a
fi eliminate din acel cluster,
( ) 1 , 0
.

P1. Generarea sistemului iniial de clustere , { }
0 0
2
0
1
0
,. .., , C
M
C C C ,
{ }
k k
P C
0
,
M k ,..., 1

Clusterele sunt generate n jurul formelor etichetate disponibile pe baza criteriului distanei minime ( distana euclidian ).
P2. Calculeaz si stemul scheletelor claselor ,
{ }
t
M
t t
S S ,...,
1
S
, unde
{ }
t
n k
t
k
t
k
t
k
S
, 2 , 1 ,
,..., ,
este scheletul clusterului k la
moment ul t.
{ }
i t
n k
i t
k
i t
k
i t
k
S
,
,
,
2 ,
,
1 ,
,
,..., ,
este scheletul lui
{ }
i
t
k
X C
,
N i 1
.
P3.
REPEAT
t=t+1;
1

t t
S S
;
1

t t
C C ;
{Calculeaz noul sistem
{ }
t
M
t t t
C C C ,..., ,
2 1
C
}
for
M k ,. .., 1

{calculeazcluster ul
t
k
C
}

t
k
C
;
DO P 3.1, P3.2, P3. 3, P3.4, P3.5, P3.6
Endfor
UNTIL Cond

P3.1.
for
N i , 1

for
M cl , 1
calculeaz
( )
t
cl i
S X D ,
(n termenii perturbrii aduse scheletului) ;
endfor
calculeaz
( )
t
c l i
M c l
S X D l , min arg
1

;
if k=l then
{ }
i
t
k
t
k
X C C
;
{ }
i
t
p
t
p
X C C \
, p este astfel nct
t
p i
C X

endif
endfor


P3.2.{testareaomogit ii clasei
t
k
C } calculeaz
t
k
c
centroidullui
t
k
C
;

t
k
C X
t
k
t
k
X
C
c
1
i recalculeaz
t
k
S
, scheletul lui
t
k
C
;
calculeaz

'

>

2 2
1
max
t
k
t
k
C X
t
k
t
k
c X c X C X F
i
( ) ( ) { }
t
j
t
k
t
k
S X D S X D k j C X F , , ,
2
>
;
if
nr F F >
2 1
then
t
k
C
nu este omogen else
t
k
C este omogen endif
P3.3. {extinde
t
k
C
n cazul n care este omogen }
if
t
k
C
esteomogen then
for each
t
k
C X \

for
M cl ,. .., 1
calculeaz
( )
t
cl
S X D ,
endf or
calculeaz
( )
t
cl
M cl
S X D l , min arg
1

;
if k=l then
{ }
i
t
k
t
k
X C C
,
{ }
i
t
p
t
p
X C C \
, p :
1

t
p i
C X
endif
endfor
else{
t
k
C
nu este omogen }
F elim
;
calculeaz SET1 mulimea celor mai aberante elim elementeale luiF {cu distana maxim la
t
k
S
}
for each
1 SET X

for
M cl ,..., 1
calculeaz
( )
t
c l
S X D ,
endfor
calculeaz
( )
t
cl
M cl
S X D l , min arg
1

;
if l<>kthen
{ } X C C
t
l
t
l

;
{ } X C C
t
k
t
k
\
endif
endfor
endif

P3.4. recalculeaz
t
k
S
, scheletul noii clase
t
k
C
;
P3.5. {realoc elementele din
t
k
t
k
C C \
1
}
for each
t
k
t
k
C C X \
1


for
M cl ,..., 1
calculeaz ( )
t
cl
S X D , endf or
calculeaz
( )
t
cl
M cl
S X D l , min arg
1

;

{ } X C C
t
l
t
l


endfor

P3.6.
Calculeaz noul set de schelete
t
S

{calculul clasei
t
k
C este ncheiat }



Studiu comparativ

n experimente a fost considerat M=4. Seturile analizate au fost generate aleator, pe baza a cte 4 repartiii
normale. Datele anali zate sunt omogene din punct de vedere al numrului de f orme generate din fiecare
repartiie.
Dac existo tendin de grupare a datelor, alegerea sistemului de clase la momentul iniial ofer un sistem
iniial de direcii principale apropiat de cel real. n aceast situaie, algoritmul de clasificare propus se
stabilizeaz dup un numr mic de iteraii.
Rezultatele obinute prin aplicarea algoritmului propus au fost comparate cu rezultatele algoritmului k-means.
n testele efectuate, numrul de forme clasificate eronat n cazul algoritmului propus este sensibil mai mic
dect numrul de erori rezultate la clasificarea k-means.
Se constat perf ormane semnificativ mai bune dect prin aplicarea algoritmului k-means n cazul
eanti oanelor de volume relativ mici. n plus, n cazul eantioanelor de volume mici performana k-meansn
ceea ce privete identificarea structurilor de clustere este semnificativ mai redus comparativ cu algoritmul
propus. De asemenea, testele indic faptul c algoritmul k-meanseste mult mai sensibil la dimensiunea datelor,
performana fiind degradat n cazul eantioanelor de date de dimensiune mare.
n cazul eantioanelor de volume mari, performana algoritmului propus este comparabil cu performana
algoritmului k-means.

Cazul 2 n
Pentru seturi de 600 de forme generate aleat or cu distribuie normal, cu vectori medie i matrice de
covarian miu1=[1 18];
1
]
1


69 . 1 05 . 1
05 . 1 06 1
1
.
; miu2=[4 0];
1
]
1


54 . 1 52 . 1
52 . 1 45 2
2
.
;miu3=[ -10 1];
1
]
1


97 . 0 84 . 0
84 . 0 6 1
3
.
;miu4=[11
-12];
1
]
1


89 . 1 99 . 0
99 . 0 14 1
4
.

rezultatele obinute prin aplicarea metod ei propuse versusalgoritmul k-meanssunt prezentate n tabelul 6 .

Tabelul 6
Setul
generat
Erori de clasificare ale
algoritmului propus
Erori de clasificare ale
algoritmului k-means
Iteraii ale
algoritmului
propus
Set 1 8 236 nu sunt
identificate gruprile
3
Set 2 4 6 4
Set 3 10 236 nu sunt
identificate gruprile
3
Set 4 2 4 2
Set 5 4 5 4

n figura7 este prezentat situaia corespunztoare Set 1 .


a. Sistemul corect

b. Sistemul generat iniial

c. Sistemul obinut prin aplicarea
algoritmului propus


d. Sistemul obinut prin
aplicarea k-means


Figura 7


VIII. CLASIFICAREA NESUPERVIZAT PCA N SPAIUL
REDUS
Algoritmul de clasificare nesupervizat a fost implementat i n varianta n care datele iniiale
sunt compresate n etapa de preprocesare.
Fie m, n m < < 1 , dimensiunea la care este realizat compresia. Metodologia este descris astfel .

Pas 1. Determin direciile principale ale setului datelor iniiale pe baza estimaiilor
vectorului medie, respective a matricei de covarian,
( )
( )

H h
h
N
N
h
h
( )
( )


H h
h
N
N
h
h
unde este distribuia de probabilitate pe H, cunoscut a priori.
Pas 2. Calculeaz
m
, reprezentarea m-dimensional a setului , prin proiecia componentelor
din pe subspaiul m-dimensional reprezentat de primele m direcii principale
Pas 3. Aplic schema de clasificare pe mulimea
m
.

Studiu comparativ

Algoritmul de clasificare propus a fost testat, n implementarea cu compresie, pentru situaiile
n=4,6,8,10.
Sunt prezentate n continuare cteva din rezultatele obinute pentru n=4 i m=2,3.
Studiul experimental a fost realizat comparnd rezultatele algoritmului propus cu rezultatele
clasificrii prin utilizarea metodei k-means.


TEST 1

M=4, n=4, date de volum relativ mic. Distanele Mahalanobis sunt :

,
_

0 6171 . 0 19 . 1 9733 . 0
6171 . 0 0 2827 . 0 4139 . 0
19 . 1 2827 . 0 0 4183 . 0
9733 . 0 4139 . 0 4183 . 0 0
10
3


Sunt obinute rezultate bune n aplicarea algoritmului propus pentru spaiul iniial i pentru
spaiul redus m=3. Toate testele au demonstrat rezultate superioare aplicrii algoritmului k-means.

Tabelul 7
Setul de forme
S
1
S
2
S
3
S
4
S
5

Numrul exemplelor greit
clasificate prin metoda
propus
0 0 0 0 0
Numrul exemplelor greit
clasificate prin k-means
315 0 325 318 0
Numrul de iteraii 2 2 3 2 2







a. Sistemul corect b. Clusterele rezultate prin aplicarea algoritmului k-means



c. Clusterele calculate prin metoda propus

Figura 8: Rezultatele pentru S
1


TEST 2


M=4, n=4, date de volum relativ mic. Distanele Mahalanobis sunt :

,
_

0 2311 . 1 7200 . 0 9485 . 1


2311 . 1 0 4917 . 0 7881 . 0
7200 . 0 4917 . 0 0 7052 . 0
9485 . 1 7881 . 0 7052 . 0 0
* 10
3


Clasele sunt bine separate

Sunt obinute rezultate bune n aplicarea algoritmului propus pentru spaiul iniial i pentru
spaiile reduse m=3, m=2.

Toate testele au demonstrat rezultate superioare aplicrii algoritmului k-means.

Tabelul 8
Setul de exemple S
1
S
2
S
3
S
4
S
5

Numrul exemplelor
greit clasificate prin
metoda propus
0 0 0 0 0
Numrul exemplelor
greit clasificate prin k-
means
287 237 0 0 235
Numrul de iteraii 3 2 3 2 2





a. Sistemul de clase corect b. Clusterele produse de algoritmul k-means



c. Clusterele calculate prin metoda propus

Figure 9: Rezultatele pentru setul S
1.


Concluzii

Dac exist o tendin de grupare a datelor, alegerea sistemului de clase la momentul iniial
ofer un sistem iniial de direcii principale apropiat de cel real. n aceast situaie,
algoritmul de clasificare propus se stabilizeaz dup un numr mic de iteraii.
Rezultatele obinute prin aplicarea algoritmului propus au fost comparate cu rezultatele
algoritmului k-means. n testele efectuate, numrul de forme clasificate eronat n cazul
algoritmului propus este sensibil mai mic dect numrul de erori rezultate la clasificarea k-
means.
Se constat performane semnificativ mai bune dect prin aplicarea algoritmului k-means
n cazul eantioanelor de volume relativ mici. n plus, n cazul eantioanelor de volume mici
performana k-means n ceea ce privete identificarea structurilor de clustere este
semnificativ mai redus comparativ cu algoritmul propus.
De asemenea, testele indic faptul c algoritmul k-means este mult mai sensibil la
dimensiunea datelor, performana fiind degradat n cazul eantioanelor de date de
dimensiune mare.
n cazul eantioanelor de volume mari, performana algoritmului propus este comparabil
cu performana algoritmului k-means.