Documente Academic
Documente Profesional
Documente Cultură
8.1.
30
pe D1 si D 2.
Media patratelor distantelor ntre f este deci egala cu media patratelor
distantelor ntre a i plus media patratelor distantelor ntre bi. Metoda consta
n cautarea lui A1 prin maximizarea mediei lui d2(a15aj) astfel nct A21AJ si prin
maximizarea mediei luid2(bi5Pj). Se continua n afara
planului si se gasesc A 1;A2,...,Ap perpendiculare ntre ele: Ai sunt axele
principale ale norului.
Proiectarea lui ei care are coordonatele initiale (x1,xi2,...,xip) pe axele
principale, determina obtinerea noilor coordonate initiale (c j,c2,...,cp). n acest
fel se construiesc noile caracteristici (c 1, c2, ..., cp) pe numite componentele
principale: fiecare componenta ck, care nu este alta dect lista de coordonate a
celor n indivizi pe axa A k, este o combinatie liniara a caracteristicilor initiale
ck = (uj x1 + ufx2 +... + upxp).
Coeficientii
^
1p
s 2p
s
b
. s2 0
V...............
n acelasi fel, totalitatea coeficientilor de corelatie sunt regrupati n
matricea de corelatie R, n care termenii diagonalei principale sunt 1, deoarece
r(xj,xj) = 1.
r ^
xip
(1
12
R = r21
1.
.. r2p
.. 1 0
...
...
j/
sp0
Afirmatia
1
Afirmatia
2
Afirmatia
3
Afirmatia
4
Afirmatia
5
Afirmatia
6
Afirmatia
7
Afirmatia Afirmatia
2
1
1
0.07096
Afirmatia
3
Afirmatia
7
0.86627 0.07190
0.12928 0.30360
0.10272
1
0.01893
-0.03785 0.24581
1
-0.10067
0.36866 0.02907
0.24448
0.15332
0.15721
0.10234 0.14870
0.23779
0.19459
0.14620
1
0.21041
D=
V0
... pn0
Va trebui sa fie masurata distanta dintre cei doi indivizi. n fizica, distanta
dintre doua puncte din spatiu se calculeaza simplu aplicnd teorema lui
Pitagora: patratul distantelor este egal cu suma ptratelor diferentelor
coordonatelor, daca dimensiunile sunt de aceeai natura - d 2 = (xj" - x")2 + (xjJ
-xJ2)2. n statistica, acest lucru nu este posibil
deoarece fiecare dimensiune corespunde unei anumite caracteristici care se
exprima n unitatea ei de masura. Se utilizeaza relatia:
d =aj(xj -x2) + a (xj -x2) +... + a (xp -x2) , ceea ce nseamna
2
M=D1=
~
s
0
0
V
A
0.
1
s
0.
.0
.0
. ... 2
s
p)
Afirmatia
1
Afirmatia
2
Afirmatia
3
Afirmatia
4
Afirmatia
5
Afirmatia
6
Afirmatia
7
Afirmatia
1
1.21453
Afirmatia
2
Afirmatia
3
Afirmatia
4
Afirmatia
5
-0.03698
1.11915
-0.22872
-0.06372
-0.09292
-0.31963
0.0658
1.17911
-0.02494
0.03503
-0.21534
0.14816
1.10652
-0.38045
0.06194
-0.14049
-0.13862
-0.11087
0.03737
-0.10344
-0.20424
-0.18054
-0.11872
Afirmatia Afirm.
6
7
1.20008
1.2442
-0.15548 1.14532
0
0
a 2 . .. 0
0.
.. ap p 0
< Tej,Te2 >E = e1tTtTe2 = (Te1)t(Te2). Acest lucru nseamna ca tabelul de date X
va fi nlocuit prin Y = X T t si prin utilizarea matricei unitate. Calcularea
coordonatelor indivizilor pe o noua axa Se considera sistemul de axe ordonate
care reprezinta caracteristicile initiale (x 1, x2, ..., xp). Proiectnd indivizii pe o
dreapta oarecare D, se creeaza o noua caracteristica c, ale carei valori (c t,
c2, ..., c) sunt valori algebrice ale proiectiilor punctelor et pe aceasta dreapta,
dupa cum se poate observa n figura 8.1.
Figura 8.1. Reprezentarea caracteristicilor c
= Z pilMIM =Z pietMei
i =1
este
W este mai mare de zece, deoarece pot exista si alte relaii care nu au fost
remarcate.
Caracteristicile c, combinatii ale caracteristicilor initiale, pot fi
obtinute cu ajutorul formulei c = Xu, n care u este factorul asociat lui c
Este usor sa se deduca dispersia: s^ = ctDc = utXtDXu, deci s2 = utVu.
Cautarea componentelor, axelor si factorilor principali Axa principala
Dj a fost definita prin intermediul proprietatii maximizarii mediei patratelor
distantelor ntre proiectiile punctelor norului.
0N
12 0
p0
cte doua.
Analiza componentelor principale nlocuieste cele p caracteristici
initiale cu caracteristici necorelate de varianta maxima si de importanta
descrescatoare.
Pentru a gasi n mod direct axele, factorii si componetele principale n
functie de X, este suficient sa se scrie ca Vyv = 1 v = TVTtv si partea stnga sa
fie nmultita cu T: TtTVT tv = 1Ttv sau MVu = lu . Axa a este u = Ma, iar
MVMa = 1Ma. Rezulta VMa = 1 a deoarece M este o matrice simetrica.
Axele principale sunt deci vectorii proprii ai lui VM, iar factorii
principali, cei ai lui MV. Daca componertele principale se obtin prin c=Xu,
atunci trebuie remarcat faptul ca MV = MX tDX; MXtDXu = 1 u creste
nmultind partea stnga cu X, deci c este vectorul propriu al lui XMX tD.
Suma valorilor proprii 1 1 + 12 +... + 1 este o constanta egala cu semnul
lui Vy si al lui MV, adica este inertia totala I.
1
Raportul j-- poarta denumirea de procent de inertie (sau de
se numeste procentul de
Variabila
Comunalitatea
Variable
Communality
Afirmaia
1
Afirmaia
2
Afirmaia
3
Afirmaia
4
Afirmaia
5
Afirmaia
6
Afirmaia
7
Factorul
Factor
Valori
proprii
Eigenvalue
Procentul de
dispersie explicata
de fiecare factor
Pct of Var
Procentul
cumulat
Cum Pct
1.93812
27.7
27.7
1.33780
19.1
46.8
0.98509
14.1
60.9
0.80008
11.4
72.3
0.72955
10.4
82.7
0.62031
8.9
91.6
0.58905
8.4
100
Primele trei valori proprii reprezint aproximativ 61% din inerie, motiv
pentru care ne vom rezuma la primele trei componente principale. Este greu sa
raspundem la ntrebarea de la ce procent putem neglija componentele
principale rezultate?. Depinde de numarul de caracteristici: o prima axa explica
27,7% din inertie (cu sapte caracteristici). Daca R nu contine dect termeni putin
diferiti de zero, nu trebuie sa ne asteptam sa gasim valori proprii foarte ridicate:
nu putem reduce n mod eficient numarul de caracteristici dect daca acestea
sunt puternic corelate. De fapt, numai examinarea semnificatiei componentelor
principale si experienta cercetatorului permite cunoasterea numarului de
componente care vor fi retinute.
Primii trei vectori proprii vi, v si v ai lui R sunt urmtorii:
Factor 2
-0.10435
0.64796
-0.3034
0.70001
-0.53978
-0.13172
0.12762
Factor 3
-0.55499
0.25939
0.17669
-0.06987
0.43722
-0.38646
0.48288
Comunalitatea
Variable
Communality
Afirmaia
1
Afirmaia
2
Afirmaia
3
Afirmaia
4
Afirmaia
5
Afirmaia
6
Afirmaia
7
Factorul
Factor
Valori
proprii
Eigenvalue
Procentul de
dispersie explicata
de fiecare factor
Pct of Var
Procentul
cumulat
Cum Pct
0.70474
1.93812
27.7
27.7
0.58648
1.3378
19.1
46.8
0.51444
0.98509
14.1
60.9
0.6443
0.62555
0.616
0.56949
Afirmaia
1
Afirmaia
2
Afirmaia
3
Afirmaia
4
Afirmaia
5
Afirmaia
6
Afirmaia
7
Afirmaia
1
0.70474*
Afirmai
a
0.08675
Afirmaia Afirmaia
3
4
-0.05583 -0.07655
-0.01578
0.58648*
0.02552
-0.25369
0.0793
0.00339
-0.23756
0.3221
0.04638
0.51444*
0.0019
-0.23174
-0.14642
-0.16262
0.20583
0.55729
0.01703
0.64430*
0.16155
-0.04057
-0.07968
0.04859
-0.11714
0.47755
-0.26221
0.64555*
0.00158
-0.20999
0.64459
0.02568
0.39091
0.19389
0.15563
0.61600*
0.03465
0.07008
0.38626
0.40041
0.27426
0.35618
0.17576
0.56949*
Vom gasi:
Tabelul 8.7. Componentele principale
Prima componenta principala este puternic corelata cu afirmaiile 1 si 6
Afirmatia
1
Afirmatia
2
Afirmatia
3
Afirmatia
4
Afirmatia
5
Afirmatia
6
Afirmatia
7
r(c1,xj)
r(c2,xj)
r(c3,xj)
0.83745
0.04015
0.02462
0.05842
0.76119
0.06055
0.35101
0.0382
0.62431
0.21653
0.75996
-0.14097
0.02945
-0.2122
0.76135
0.75606
0.07614
0.19639
-0.03121 0.46246
0.59552
Factor
1
Factor
2
Factor
3
Factor
1
Factor
2
Factor
3
0.6917
0.42046
0.58717
-0.14328
0.87678
-0.45906
-0.70783
0.2334
0.6667
Factor 1
Afirmatia 1
0.7013225
Afirmatia 2
0.0034129
Afirmatia 3
0.12320802
Afirmatia 4
0.04688524
Afirmatia 5
0.0008673
Afirmatia 6
0.57162672
Afirmatia 7
0.00097406
Procentul mediu
al
dispersiei
0.20689954
explicate de catre
factor
Factor 2
0.001612023
0.579410216
0.00145924
0.577539202
0.04502884
0.0057973
0.213869252
Factor 3
0.00181646
0.0036663
0.38976298
0.01987254
0.57965382
0.03856903
0.35464407
Comunalitati
0.704750983
0.586489416
0.51443024
0.644296982
0.62554996
0.61599305
0.569487382
0.203530867
0.1982836
0.608714007
(comunalitatea) este mai mare, cu att mai ampla este explicatia furnizata de
factorii luati n comun.
Interpretarea procentului mediul al dispersiei explicate de catre fiecare factor n
parte ar putea fi urmatoarea: n momentul achizitionarii unui utilaj,
20,68% din preferine sunt datorate performantelor economice ale utilajului,
20,35% sunt datorate faptului ca protejeaza mediul, iar 19,82% sunt datorate
calitatii. Acestea sunt deci principalele motive pentru care se achizitioneaza
un anumit utilaj.
Totalul coloanei comunalitati arata ct de mult din dispersia preferintelor
fata de toate afirmatiile este explicata de cei trei factori extrasi, deci 60,87%. O
problema dificila este cea a numarului de factorizari, adica de extrageri de
factori. De obicei, se procedeaza cu factorizarea n continuare pna cnd se
ajunge la factori marunti si lipsiti de semnificatie. n cazul nostru, mai exista si
alti factori care trebuie luati n considerare (100% - 60,87% = 39,13%). Acestia
ar putea fi pretul utilajului, raportul pret-calitate etc.
8.2.
Analiza canonica
Prezentarea metodei
Scopul analizei canonice l constituie studierea relaiilor liniare
existente ntre doua grupe de caracteristici cantitative observate pe acelai
eantion. ntr-o maniera foarte precisa se cauta o combinatie liniara a
caracteristicilor primei grupe si o combinatie liniara a caracteristic ilor celei dea doua grupe, care sa fie ct mai puternic corelate. Metoda va fi prezentata pe
cazul cercetarii impactului unor noi tipuri de detergenti asupra mediului.
Pentru studierea performantelor detergentilor testati, s-au luat n
considerare sase parametri care masoara caracteristicile acestora: x 1VAR22
continutul
de apa (gr)
x2
VAR23
x3
VAR24
continutul de enzime(gr)
x4
VAR25
x5
VAR26
VAR27
y VAR6
2
y
VAR7
y3
VAR8
a = (a1,a2,...,aj,...,ap)
mai
mica
sau
(VAR27).
y = yi
" xp
eR
; xJ =
xJ
V yn
0
eR
, J = 1,p
xJ
V
Epixj = J = 1,p
i=i
i=i
liniare
ale
caracteristicilor
xJ:
X=
n
x .
n
x.
V
.. x1j .
.. xJ .
j
.. x n .
.. ^1
.. xp
.. x
p
n
pi
D=
t J
x Dxk
ntre
= sjk, la fel ca si
sj2. Distanta
se
punctul
x Dy=txjDX, j = 1, p
XDXa = XDy
Daca rang(X) = p, atunci matricea tXDX este inversa, deci poate fi scris:
a = (tXD)-1 XDy
Vectorul contine p coeficienti ai combinatiei liniare y = 1x1 + 2x2 +...
+ jxj +... + pxp e W cei mai apropiati de y Din
expresia lui putem deduce y = X : y = X( tXDX)-11 XDy care face ca lui y
sa i corespunda proiectia sa ortogonala pe W. Se deduce astfel expresia lui A:
A = X(t XDX)-1 tXD .
Cautarea dreptei lui W care sa faca unghi minim
Se cunoaste ||y||2 = ||y - y||2 +||;y||2 din teorema lui Pitagora.
Minimizarea lui||y - y||2 nseamna maximizarea lui ||y|| 2 n timp ce ||y||2 ramne
constanta. y este deci vectorul lui W prin maximizarea expresiei
2
cos2(y,y)=
i=1
sunt centrate. Fiecare dintre cele (p+q) caracteristici pot fi reprezentate printr1
yk
II
!<
xj
f k0
y1
II
J
(xX
II
un vector Rn:
Xj
v
0
ykk
.0
si pe W2 pentru care
[A1A2
=11X1
lA2A1
p1
= A, 1 p
1
AT
AT 1
VX
Rezultatele si interpretarea
Datele au fost obtinute prin prelucrarea pe PC cu ajutorul software ului specializat Statistica. Caracteristicile studiate au fost urmatoarele:
STAT. Means and Standard Deviations (mediu.sta)
Tabelul 8.9. Medii si abateri
CANONICL
ANALYSIS
Right
Left
st.
dev.
mean
3.68959
VAR6
5.947368
4
VAR7
1.546053
.698521
VAR8
1.684211
.580261
VAR2 2
1.815789
.722588
VAR2 3
1.368421
.697054
VAR2 4
2.697368
.772366
VAR2 5
2.940789
.964492
VAR2 6
2.671053
.471384
VAR27
2.164474
.722799
STAT.
Correlations (mediu.sta)
CANONICL CORELATII
ANALYSIS
standard mode
VAR6
VAR6
1.00
VAR7
-.16
VAR8
.26
VAR2 2
.20
VAR2 3 -.16
VAR2 4 - .25
VAR2 5
.25
.56
VAR26
VAR27
.08
VAR7
-.16
1.00
-.01
.08
.22
-.71
.42
.35
. 04
VAR8 VAR22
.26
.20
-.01
.08
1.00
.44
.44
1.00
.58
.64
-.23
-.09
-.14
.05
.10
-.18
-.14
-.26
VAR23
VAR24
VAR25
VAR26
VAR27
- .16 -.25
.25
.56
.08
.42
.35
.04
.22 -.71
.58 -.23
-. 14
.10
-.14
.64 -.09
.05
-.18
-.26
1.00 -.01
-. 14
-.03
-.12
- .01
1.00 -.70
-.46
.21
- .14 -.70
-.52
1.00
.10
- .03 -.46
.10
1.00
.35
- .12 .21
-.52
.35
1.00
VAR6
VAR7
VAR8
VAR7
-.160938
1.000000
-.012899
VAR8
.264395
-.012899
1.000000
2
3
4
5
6
7
VAR22
1.000000
.635266
-.088684
.050763
-.179078
-.258603
VAR23
.635266
1.000000
-.012948
-.144647
-.031824
-.121067
VAR24
-.088684
-.012948
1.000000
-.699852
-.457135
.208377
VAR25
.050763
-.144647
-.699852
1.000000
.102539
-.517917
VAR26
-.179078
-.031824
-.457135
.102539
1.000000
.354215
VAR 27
-.258603
-.121067
.208377
-.517917
.354215
1.000000
Root 1
.915805
Root 2
.835965
Root 3
.268960
Variable
VAR22
VAR23
VAR24
VAR25
VAR26
VAR27
Root 1
.115160
.542473
.186503
-.412306
-.530595
-.188792
Root 2
-.362340
-.455961
.855096
-.399612
-.548021
.007393
Root 3
-.587749
-.361307
-.276257
.422182
-.162013
.161132
.138249
.255075
.130460
.126609
.213234
.035088
ROOT_2 X2
-.280904
-.851011
-.463798
ROOT_3 x3
-.367112
.533101
-.623276
ROOT_3
-.810470
.311652
-.354237
.706057
-.781493
.705584
2.5
2.0
1.5
1.0
puternic
05
"J
o!
jj 0.0
O; O
-0.5
1.0
!!o::O
Q;Q
-1.5
puternic
O
-
2.0
-2.0
-1.i
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
Right set
8.3.
0'
2.
n
p.0
0'
n
11
<N
Q
D: =
^n1
.2
n
.q 0
va fi o
, n timp ce tabelul
.0
. Aceste
liniile sau coloanele lui N: daca intereseaza liniile, atunci tabelul D 1-1N poate fi
considerat ca fiind
l_ 2,
nnn
55
n p . Analiza componentelor
.
Xi =
.p
1 2 ..
0
1f
2
0 1.
X2 =
.0
nV
1 f 1 0.
2 0 1.
nV
.q
.. 0"
.. 0
Proprietati matematice
Analiza canonica a doua tabele Xj siX2
Analiza canonica va cauta cuplurile de caracteristici canonice (X, h)
cele mai puternic corelate. Factorii canonici pot fi extrasi din relatiile: X = X 1a
si h = X 2b , n care:
1 0 0^
1 0 0
0 1 0
0 1 0
0 0 1
0 0
f a1 ^
a=
X =a
V
0
f
a N
1
a
1
a2
3
Va3
0
0
Caracteristica X este de tip numeric si are urmatoarele proprietati: nu
are dect trei valori distincte 3, a2, si a* si doi indivizi care au aceeasi
Xi =
modalitate iau pentru X aceeasi valoare numerica. Aceasta nseamna ca X
realizeaza transformarea caracteristicii calitative ntr-una numerica, efectunduse astfel o cuantificare a caracteristicii initiale calitative.
cupluri):
1pn
^7T:f=fnTaisi ai =^1?^''
i n
i' - -
2
i
. '
n n
i '
i'
-1
0 + 1 + 2 ... = D N D - 1 t N = XX^n.'
n
0
= nD-1
n
nq 0
nn
ij
nn
j
k.
0
p
.
n
Jlkbk = Viijak Daca se
t^n,
b2
j
Alb
!
Figura 8.9. Planul asociat lui X\ X2
un
alt
tip
de
reprezentare
care
modalitatea
reprezentata
prin punctul
va
(A/VU/V2 )
modalitatea
fi
iar
prin
(b1,b2).
Daca se considera profilurile liniilor ca fiind indivizii, atunci se vor
reprezenta modalitatile primei caracteristici prin coordonatele profilurilor pe
axele principale. Componentele principale se obtin multiplicnd factorii
canonici ak cu
presupune
reprezentarea
modalitatilor i
ale
primei
Coordonatele modalitatilor pe axe fiind -Jlkak si bj, inertia lka celei de-a
l axe se poate descompune n functie de modalitatile primei sau celei de-a doua
caracteristici:
bj
)2
8.4.
distanta euclidiana dk
p (x - x ) , n care pi reprezinta
i
ki
li
i =1
>
distanta rectangulara dk = ^ p |x - xu |;
l
i=1
ki
Acest lucru nseamna ca este putin probabil sa fie gasita cea mai buna
partitie posibila si este necesar sa fie alesi algoritmi care sa ofere solutii
satisfacatoare.
A. Ineria ntre clase si n interiorul claselor
Daca indivizii sunt considerati ca fiind puncte ale unui spatiu euclidian,
problema clasificarii poate fi descrisa ca o cautare a partitiei unui nor care are
n puncte cu k sub-nori Caracterizarea dispersiei unui nor de puncte prin
inertia sa se realizeaza cu ajutorul mediei patratelor abaterilor de la centrul de
greutate. Aceasta nseamna ca o clasa va fi cu att mai omogena cu ct inertia sa
va fi mai scazuta.
Se considera (Ii, I2, ..., Ik) inertiile aferente fiecarei clase, calculate n
raport cu centrele lor de greutate (g, g2, ..., g). Suma acestora poarta
denumirea de inerie ntre clase si se determina dupa relatia: IW = ^ Ii.
k
j=i
ale noilor clase, se vor regrupa indivizii n jurul lor si asa mai departe pna n
momentul n care calitatea partitiilor masurate cu ajutorul inertiei ntre clase nu
se mai poate ameliora. Deoarece este suficient ca la fiecare pas sa fie calculate
nk distante ntre indivizi si centre, nu este necesar sa se
pastreze n(n^ 1) distante diferite, ceea ce prezinta avantaje n cazul n care
n este mare.
Dezavantajul acestei metode, plecnd de la riscul de a obtine clase vide,
este dat de obtinerea unei partitii finale care depinde de partitia initiala. n plus,
partitia initiala este adesea arbitrara deoarece centrele ci sunt alese prin
extragerea celor k indivizi din cei n
C. Metoda norilor dinamici
Sub acest nume, E. Diday a dezvoltat o metoda eficienta de
partitionare, care poate fi considerata ca generalizare a metodei centrelor
mobile. Diferenta fundamentala consta n faptul ca n loc sa se defineasca o
clasa printr-un singur punct, centrul sau, se definesc prin q indivizii care
formeaza un nucleu. Daca acesta este bine ales, va fi mai reprezentativ dect
un simplu centru de greutate. Nucleele astfel formate permit interpretarea
claselor.
Plecnd de la un sistem initial de k nuclee, se obtine o partitie prin
regruparea indivizilor n jurul nucleelor. Se calculeaza noile nuclee
reprezentative ale claselor astfel formate si se va relua procedura pna n
momentul n care calitatea partitiei nu se mai poate ameliora.
Formal, trebuie sa existe trei functii:
> o functie care calculeaza distanta de la individ la nucleu;
> o functie care asociaza unei partitionarii n k clase k nuclee de q
puncte reprezentative;
> o functie care masoara calitatea unei partitii.
AgA + PBgt
se va gasi
P+P
AB
ca aceasta pierdere este egala cu:
Cum gAB = A5A
A + PB Jd2
(gA .gB )P+P
AB
Figura 8.12. Reprezentarea
centrelor de greutate
P
P
d22(gA,gB) =A--Ad2(gA,g)
+ JB
2
d ( g B , g ) , B X 2.d (g A ,g B ),
PP
(P A +
PB)2
A + PB
A + PB
d (A B)
cluster
Distantele
euclidiene
pas 1
8.246211
10.48809
12.00000
15.58488
16.17569
35.68116
VAR22
VAR5
VAR25
VAR24
VAR5
VAR5
pas 2
VAR23
VAR7
VAR26
VAR25
VAR7
VAR7
pas 3
pas 4
VAR26
VAR22 VAR23
VAR22 VAR23
pas 5
pas 6
pas 7
VAR24
VAR25
VAR26
Suma pierderilor de inertie este egala cu inertia totala a norului de puncte, care
s
este egal cu numarul de caracteristici din matricea D 1 . Din
2
VAR5
VAR7
VAR22
VAR23
VAR24
VAR25
VAR2G
10
15
20
25
30
35
40
Linkage Distance
1
3
2
7
8
4
1
5
Distanta nu este
euclidiana
deoarece
d(c,e)>d(c,d) +
d(d,e), 7>3+2.
2 1
Vor fi extrasi
urmatorii trei
arbori:
d
Figura 8.16.
7
6
5
Figura 8.17.
4 43
Reprezentare
2 41
distanta superioara
prin
4,3 3,5
Figura 8.18.
Reprezentare
prin distanta
medie
1
d medie(b,f) = 3,5
Din acest motiv este recomandabil sa fie utilizate mai multe tipuri de
clasificri pe aceleai date, pentru ca variantele sa nu fie mari.
Explicarea claselor are ca scop principal determinarea caracteristicilor
care joaca un rol important n grupare. Problema este daca clasele constituite
sunt ntr-adevar diferite unele fata de altele.
Din aceasta cauza este necesar ca clasele sa fie validate, recurgnd la unul din
urmatoarele procedee:
8.5.
i=1
n spatiul indivizilor Rp, fiecare observatie este reperata printr-un vector
(x1,x2,...,xj,...,xp). Caracteristicile fiind centrate, centrul de greutate al norului
indivizilor se confunda cu originea. Ca si n cazul analizei componentelor
principale, se determina matricea variantei totale: V=XtDX.
Se considera o noua caracteristica c = X u, a carei varianta este egala cu
Ud2 =c4Dc = utXtDXu = uVu .
Varianta acestei caracteristici poate fi descompusa n varianta ntre
clase, care provine de la dispersia centrelor de greutate a celor q clase n jurul
originii si varianta n interiorul clasei, care provine din dispersia indivizilor
unei clase n jurul centrului lor de greutate.
Fiecarei clase i este asociat centrul de greutate (g, g 2, ., gk, ., g,) si
ponderile (P1, P2, ..., Pk ..., Pq). Prin definitie, ponderea unei clase este egala cu
suma ponderilor observatiilor carora le apartin.
Fie Wk matricea covariantei celor p caracteristici calculate pentru
q
indivizii celei de-a k clase W = ^ PkWk n care W este matricea
k=1
variantei n interiorul clasei.
Fie B matricea variantei celor p caracteristici calculate pentru norul
celor q centre de greutate nsotite de ponderile corespunzatoare. B poarta
denumirea de matricea variantei ntre clase.
g2
uBU
uVU
poate fi maximizat iar cel de-al doilea minimizat. Aceste doua cantitati au valori
cuprinse ntre 0 si 1.
Factorii discriminanti u se calculeaza prin maximizarea cantitatii
(0 < 1 < 1). Prin utilizarea aceleiasi tehnici din cazul analizei
componentelor principale, se scriu urmatoarele relatii: 2 ( u tV u) B u - 2 ( u tB
Bu =
uBU ^
Vu = IVu
uVU 0
u) V u = 0
V -1Bu = 1 u
n care u este vectorul propriu al lui V -1B, iar valoarea proprie 1 trebuie sa fie
cea mai mare, deoarece ea reprezinta cantitatea ce trebuie maximizata.
utBU
uVU este maxim si asa
mai departe.
Se demonstreaza cu usurinta ca W-1B are aceiasi vectori proprii ca si
V-1B, dar pentru valorile proprii
1 -l'
-1