Documente Academic
Documente Profesional
Documente Cultură
¼
DENIS ENACHESCU
ii
Cuprins
Introducere vii
iii
iv CUPRINS
Contents 271
vi CUPRINS
Introducere
vii
viii INTRODUCERE
METODE EXPLORATORII
MULTIDIMENSIONALE
1
2 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Observaţia 1.1.1
d ultrametric¼
a implic¼
a d metric¼
a.
De…niţia 1.1.3 Un spaţiu (ultra)metric este o pereche (X; d), unde X este o
mulţime nevid¼
a şi d este o (ultra)metric¼
a pe X.
c) d (x; x) = 0; (8) x 2 X.
d’) d (x; y) = 0 ) x = y
se numeşte semimetric¼a.
Observaţia 1.1.2
Pentru oricare din spaţiile considerate mai sus d (x; y) se va numi distanţa
dintre x şi y în spaţiul (X; d).
Fie K un corp comutativ, X 6= ? înzestrat¼ a cu o operaţie intern¼
a
(adunare) şi cu operaţia de înmulţire cu scalari:
X X 3 (x; y) ! x + y 2 X;
K X 3 (a; x) ! ax 2 X
1. (x + y) + z = x + (y + z) ; (8) x; y; z 2 X;
4. x + y = y + x; (8) x; y 2 X;
5. 1x = x; (8) x 2 X;
4. hx; xi 0; (8) x 2 X;
5. hx; xi = 0 , x = 0:
Observaţia 1.1.3
Dac¼
a X este spaţiu vectorial peste R atunci X se numeşte spaţiu vectorial real.
Observaţia 1.1.4
În R se mai pot de…ni şi alte produse scalare.
Rezult¼
a c¼
a orice spaţiu euclidian poate … înzestrat cu o metric¼
a generat¼
a de
produsul scalar.
hU x; yi = hx; U yi ; x; y 2X
Observaţia 1.1.6
Un rol deosebit îl joac¼ a subspaţiile invariante de dimensiune 1. Ele se numesc
direcţii invariante (direcţii proprii).
Observaţia 1.1.7
Într-un spaţiu n-dimensional niciun operator U nu poate avea mai mult de n
vectori proprii cu valori proprii distincte.
= hU x; xi ; kxk = 1:
det (A I) x =0:
Oric¼ arei r¼
ad¼acini a acestei ecuaţii îi corespunde cel puţin un vector pro-
priu al operatorului liniar U . Cum ecuaţia are cel puţin o r¼ ad¼ acin¼
a, real¼
a sau
complex¼ a, rezult¼
a c¼
a un operator liniar are cel puţin un vector propriu.
Fie A; matricea operatorului U într-o baz¼ a e …xat¼a şi A0 ; matricea
aceluiaşi operator într-o alt¼a baz¼ a, f . Operatorul U E; 2 R va avea
în baza e matricea A I, iar în baza f , matricea A 0 I. Cum determinantul
matricei unui operator nu depinde de alegerea bazei, rezult¼ a:
det (A I) = det A0 I :
Observaţia 1.1.8
Toate conceptele spectrale (spectrul, ordinele de multiplicitate ale valorilor
proprii) sunt invariante la o transformare a bazei.
Fie A; B dou¼
a matrici asemenea. Atunci (9) C matrice, astfel încât
1
B=C AC:
Propoziţia 1.1.7
Dou¼
a matrici asemenea au aceleaşi valori proprii.
Pentru a aduce polinomul caracteristic la o form¼
a convenabil¼
a, îl scriem
explicit
A11 A12 + 0 A1n + 0
A21 + 0 A22 A2n + 0
P( )=
An1 + 0 An2 + 0 Ann
Propoziţia 1.1.8
Polinomul caracteristic P ( ) al matricei A se poate scrie
P( )=( )n + I1 ( )n 1
+ : : : + In 1( ) + In
multiplicitate al r¼
ad¼
acinii i şi ţinând cont de relaţiile între r¼
ad¼
acini şi
Q
p Pp
coe…cienţi rezult¼
a In = det (A) = ( i )mi şi I1 = tr A = mi i unde
i=1 i=1
mi > 0; i = 1; p; mj = 0 dac¼
a j > p.
A0 = B 1
AB;
Urmeaz¼
a c¼
a X
Aik Bkj = Bij j; i; j = 1; n:
k
Fixând indicele j obţinem n ecuaţii :
X
Aik Bkj = Bij j ; i = 1; n:
k
0 1
B1j
B C
Fie acum vectorul bj = @ ... A format cu elementele coloanei j a ma-
Bnj
tricei B.
Egalit¼
aţile de mai sus se pot scrie
Abj = j bj ;
Propoziţia 1.1.11
O matrice A; real¼a şi simetric¼a, poate … adus¼
a la forma diagonal¼
a prin inter-
mediul unei transform¼ ari de similaritate
A0 = B 1
AB
dac¼
a valorile proprii ale lui A sunt distincte.
Propoziţia 1.1.12
Orice matrice real¼
a şi simetric¼a poate … adus¼
a la forma diagonal¼
a prin inter-
mediul unei transform¼ ari de similaritate.
1.1.6 Forme p¼
atratice
De…niţia 1.1.16 O form¼a biliniar¼a pe un spaţiu vectorial X este o apli-
caţie F : X X ! X, liniar¼ a în ambele argumente. Dac¼ a dim X = n şi
fe1 ; e2 ; : : : ; en g este o baz¼
a în X, atunci forma biliniar¼
a F se poate scrie:
n X
X n
F (x; y) = Aij xi yj;
i=1 j=1
Se observ¼
a c¼
a relaţia de de…niţie se mai poate scrie:
F (x; y) = x0 Ay:
F (x; y) = F (y; x) ; x; y 2X
Observaţia 1.1.10
Matricea unei forme biliniare simetrice este simetric¼
a.
Propoziţia 1.1.13
Forma polar¼
a F (x; y) este unic determinat¼
a de forma ei p¼
atratic¼
a.
Într-o baz¼
a …xat¼
a, forma p¼
atratic¼
a F se scrie:
n X
X n
F (x; x) = Aij xi xj = x0 Ax:
i=1 j=1
1.1. PRELIMINARII MATEMATICE 11
x0 Ax > 0; (8) x 2 X; x 6= 0:
Observaţia 1.1.11
1. Condiţia ca A s¼ a se mai scrie x0 Ax = 0 ) x = 0.
a …e pozitiv de…nit¼
d2 (x; y) = kx yk2 = hx y; x yi
d2 (x; y) = (x y)0 A (x y) :
Propoziţia 1.1.14
Dac¼ a, atunci x0 Ax = 0 ) Ax = 0.
a A este o matrice pozitiv semide…nit¼
Propoziţia 1.1.15
Fie A pozitiv semide…nit¼ a. Matricea A este pozitiv de…nit¼
a , este nesingu-
a. În acest caz şi matricea A 1 este pozitiv de…nit¼
lar¼ a.
Propoziţia 1.1.16
Dac¼a matricea A de dimensiuni n n este simetric¼ a şi pozitiv semide…nit¼ a
0
atunci, (8) B de dimensiuni n n, matricea B AB este simetric¼ a şi pozitiv
0
semide…nit¼a. Dac¼
a rang B = m şi A este pozitiv de…nit¼a, atunci B AB este
pozitiv de…nit¼
a.
Observaţia 1.1.12
0 1B
Dac¼ a A este pozitiv de…nit¼
a şi rang B = m atunci B A este pozitiv de…nit¼
a
şi deci inversabil¼
a.
12 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Propoziţia 1.1.17
Matricea A este pozitiv de…nit¼
a , toţi minorii s¼
ai principali sunt pozitivi,
adic¼
a:
a a
a11 > 0; det 11 12 ; : : : ; det A >0:
a21 a22
A este pozitiv semide…nit¼
a , minorii principali sunt nenegativi.
Propoziţia 1.1.18
Fie A simetric¼
a. A este pozitiv semide…nit¼
a , valorile sale proprii sunt neneg-
ative.
Propoziţia 1.1.19
Fie A simetric¼
a. A este pozitiv de…nit¼
a , toate valorile sale proprii sunt
pozitive.
Propoziţia 1.1.20
a A Rn şi funcţia f : A ! R este diferenţiabil¼
Dac¼ a Fréchet în punctul x0 ,
atunci exist¼
a o unic¼
a funcţional¼
a liniar¼
a F cu proprietatea
f x0 + h f x0 F (h)
lim = 0:
khk!0 khk
cu creşterea h.
1.1. PRELIMINARII MATEMATICE 13
Propoziţia 1.1.21
Dac¼a funcţia f : Rn ! R este diferenţiabil¼a în punctul x0 , atunci f este
a parţial în raport cu toate componentele din x0 şi are loc egalitatea
derivabil¼
n
X
0 0 @f (x)
d f x (h) = rf x ; h = hi ; (8) h 2 Rn :
@xi
i=1
Observaţia 1.1.13
Dac¼ a în x0 , atunci derivata d f x0 a lui f în punctul x0
a f este diferenţiabil¼
se poate reprezenta prin gradientul lui f în x0 , adic¼ a:
0 1
@f (x0 )
B @x1 C
0 0 B . C
d f x = rf x = B .. C
@ A
@f (x0 )
@xn
Propoziţia 1.1.22
a x; y 2Rn şi M este matrice atunci:
Dac¼
@ @
a) @x (x0 y) = @x (y0 x) = y;
@
b) @y (x0 My) = M0 x;
c) @
@x (x0 Mx) = Mx + M0 x;
@
d) @x (x0 My) = My;
@
e) @x (Mx) = M;
@
f) @M (x0 My) = xy0 :
14 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Observaţia 1.1.14
@
Dac¼a M este matrice simetric¼a atunci c) devine @x (x0 Mx) = 2Mx. Dac¼
aM
@
este matrice unitate atunci @x (x0 x) = 2x.
Fie F (x; x) = x0 Ax; x 2 Rn o form¼ a p¼
atratic¼a simetric¼
a. Consider¼
am
valorile formei p¼atratice F pe sfera unitate, adic¼ a pentru acei x pentru care
kxk2 = (x; x) = 1. Ne intereseaz¼ a care dintre punctele sferei unitate sunt
@
puncte staţionare pentru F , adic¼ a veri…c¼a ecuaţia @x F (x; x) = 0. Punctele
de extrem se vor g¼ asi printre punctele staţionare. Problema determin¼ arii
punctelor staţionare este o problem¼ a de extrem condiţionat, pentru rezolvarea
areia vom folosi metoda multiplicatorilor lui Lagrange. Restricţia kxk2 = 1
c¼
se mai scrie :
g (x) = 1 x0 x =0;
deci avem problema:
F (x; x) ! min
:
g (x) = 0
Conform metodei lui Lagrange, construim funcţia L : Rn R ! R,
2Ax 2 x =0 ) Ax = x:
Rezult¼
a c¼
a:
Propoziţia 1.1.23
Vectorii sferei unitate care sunt vectorii proprii ai matricei A asociate unei
forme p¼atratice simetrice
F (x; x) = x0 Ax;
reprezint¼
a puncte staţionare ale lui F .
Valorile formei p¼
atratice în punctele staţionare sunt date de
F (x; x) = x0 Ax = x0 x = kxk2 :
Rezult¼
a c¼
a valoarea formei p¼atratice F (x; x) = x0 Ax într-un punct
staţionar x este egal¼
a cu valoarea proprie corespunz¼atoare a matricei A a
formei p¼atratice.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 15
numerice continue, sau care pot … considerate continue, iar liniile reprezint¼ a
indivizii pe care au fost m¼ asurate aceste variabile. În biometrie se procedeaz¼ a
frecvent la multiple m¼ asur¼
atori asupra unor organe sau animale, în economie
se înregistreaz¼
a diverşi indicatori privind agenţii economici.
Într-o manier¼ a general¼
a, condiţia pe care trebuie s¼
a o îndeplineasc¼
a aceste
tabele numerice pentru a face obiectul unei analize în componente principale
este urm¼ atoarea: una dintre dimensiunile tabelului (liniile în general) este
format¼a din unit¼aţi avînd caracter repetitiv, cealalt¼a dimensiune poate … mai
degrab¼a eterogen¼a. În exemplele de mai jos liniile au acest caracter repetitiv.
Acestea vor … numite indivizi sau observaţii. Coloanele vor … desemnate ca
variabile. Uneori liniile pot … considerate ca realiz¼ ari independente ale unor
vectori aleatori ale c¼ aror componente corespund la diferite variabile. Dup¼ a
provenienţa variabilelor, trei mari categorii de tabele pot face obiectul unui
demers de analiz¼ a în componente principale:
¼
MATEMATICA ¼
FIZICA ¼
ENGLEZA
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 17
A B C D
PIC1 1 3 2 1
PIC2 3 1 1 3
PIC3 2 2 3 2
X
s2 (xj ) s2j = pi (xij xj )2 ,
i
Se observ¼
a c¼
a:
Într-adev¼
ar,
0 10 10 1
x11 x21 : : : xn1 p1 0 : : : 0 1
Bx12 x22 C B C B
: : : xn2 C B 0 p2 : : : 0 C B1C
B C
X0 D1n = B . .. C B .. C B .. C =
@ .. . A @ . A @ .A
x1p x2p xnp 0 0 : : : pn 1
0 10 1
p1 x11 p2 x21 pn xn1 1
Bp1 x12 p2 x22 : : : pn xn2 C B1C
B CB C
= B . .. C B .. C =
@ .. . A @.A
p1 x1p p2 x2p pn xnp 1
X X X 0
pi xi1 pi xi2 : : : pi xip 0
= = x1 x2 : : : xp = g:
i i i
Y = (yij )j=1;p
i=1;n
unde yij = xij xj :
Lema 1.2.1
a) Y = X 1n g0 = (In 1n 10n D) X.
1 1
b) Z = YD 1 unde D 1 = diag s1 ; : : : ; sp .
s s
c) Matricea de varianţ¼
a-covarianţ¼
a asociat¼
a tabelului X este
V = X0 DX gg0 = Y0 DY:
d)
0
R = D 1 VD 1 = D 1 Y0 DYD 1 = YD 1 D YD 1 = Z0 DZ
s s s s s s
S¼
a analiz¼
am exemplul din tabelul 1.2.2.:
W = (wij )j=1;n
i=1;n
, unde wij = hei ; ej i
şi hei ; ej i = e0i Mej este produsul scalar pe spaţiul F de…nit de metrica M.
Se observ¼
a c¼
a
W = XMX0
a distanţa dintre doi indivizi, ei şi ej ; din spaţiul F este dat¼
şi c¼ a de relaţia
Metrica M = Ip d¼ a …ec¼
arei variabile aceeaşi importanţ¼
a, independent de
dispersia sa. Utilizarea ei va privilegia variabilele cu dispersie mare, pentru
care diferenţele între indivizi sunt mari, şi va neglija diferenţele între cele-
lalte variabile. În schimb metrica M = D 1 echilibreaz¼ a in‡uenţa variabilelor
s2
transformându-le în variabile cu dispersia de selecţie unu.
Observaţia 1.2.2
Dac¼
a M = diag (m1 ; : : : ; mp ) atunci
p
X
d2 (ei ; ej ) = mk (xik xjk )2
k=1
p
iar coe…cienţii mk k=1;p pot … consideraţi ca ponderi ale variabilelor xj în
distanţa dintre indivizi.
Lema 1.2.2
Matricea produsului scalar între indivizi poate … întotdeauna exprimat¼
a în
funcţie de metrica Ip .
22 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Corolarul 1.2.1
Utilizarea metricii M = D 1 pentru tabelul Y revine la folosirea metricii
s2
M = Ip pentru tabelul centrat-redus Z.
Reamintim c¼ a ipoteza fundamental¼a a unui demers ACP este aceea c¼ a în-
treaga informaţie este conţinut¼
a în distanţele dintre punctele-individ ale noru-
lui. Acest lucru justi…c¼ a”2 .
a introducerea noţiunii de “inerţie total¼
Ia = Ig + (g a)0 M (g a) = Ig + kg ak2M
Demonstraţie. Într-adev¼
ar,
n
X
Ia = pi (ei a)0 M (ei a) =
i=1
Xn
= pi [(ei g) + (g a)]0 M [(ei g) + (g a)] =
i=1
Xn n
X
= pi (ei g)0 M (ei g) + pi (ei g)0 M (g a) +
i=1 i=1
n
X n
X
+ pi (g a)0 M (ei g) + pi (g a)0 M (g a) :
i=1 i=1
2
Termenul inerţie este împrumutat din mecanic¼
a şi este sinonim, în acest context, cu
termenul statistic dispersie.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 23
Se observ¼
a c¼ a produsul (g a)0 M (g
a primul termen al sumei este chiar Ig , c¼ a)
Pn
nu depinde de i, c¼
a a produsele (ei g)0 M (g a) şi
pi = 1 şi c¼
i=1
(g a)0 M (ei g) sunt scalare. Cu aceasta egalitatea de mai sus devine
" n ! n
!#
X X
0 0 0 0
Ia = Ig + 2 pi ei Mg g Mg + g Ma pi ei Ma +
i=1 i=1
+ kg ak2M
P
n
a b0 = (Mg)0 = (b1 ; : : : ;bp ) şi reamintind c¼
Se noteaz¼ a gj = pi xij rezult¼
a
i=1
n
X X p
X p
X
0 0
pi ei Mg g Mg = pi xij bj gj b j =
i=1 i j=1 j=1
p
! p
X X X
= bj pi xij gj bj = 0:
j=1 i j=1
P
n
Analog g0 Ma pi ei 0 Ma = 0.
i=1
Corolarul 1.2.2
Pentru un nor de puncte-individ dat, g, centrul de greutate al norului, mini-
mizeaz¼
a inerţia total¼
a.
Lema 1.2.3
Inerţia total¼
a este media p¼
atratelor distanţelor dintre punctele-individ, adic¼
a:
n X
X n
2Ig = pi pj kei ej k2M :
i=1 j=1
Lema 1.2.4 P
n
1. Ig = tr (MV) = tr (VM), unde cu tr (A) = aii s-a notat urma
i=1
matricii A 2Mn;n (R) :
Analog tr (VM) = Ig :
P
n
2. Dac¼
a g = 0 atunci Ig = pi ei 0 Mei . Pe de alt¼
a parte,
i=1
n
X n
X
0 0
tr (WD) = tr XMX D = ei Mei pi = Ig = pi ei 0 Mei =
i=1 i=1
= tr DXMX0 = tr (DW) :
Observaţia 1.2.3
1. Dac¼a M = Ip inerţia este egal¼
a cu suma dispersiilor de selecţie a celor p
variabile.
2. Dac¼
a M = D 1 atunci Ig = tr D 1 V = tr D 1 VD 1 = tr (R) =
s2 s2 s s
Pp P
p
rjj = 1 = p; aşa cum rezult¼
a din Lema 1.2.4. Inerţia este, în acest
j=1 j=1
caz, egal¼
a cu num¼
arul variabilelor şi nu depinde de valorile acestora.
Demonstraţie. Într-adev¼
ar:
P
n
1. hyj ; yk iD = yj0 Dyk = pi (xij xj ) (xik xk ) = cov (xj ; xk ) :
i=1
P
n
2. kyj k2D = hyj ; yj iD = yj0 Dyj = pi (xij xj )2 =s2 (xj ).
i=1
Corolarul 1.2.3
a) Mediile de selecţie ale variabilelor fyj gpj=1 sunt nule, dispersiile de se-
lecţie sunt egale cu dispersiile de selecţie ale variabilelor fxj gpj=1 şi coe-
…cienţii de corelaţie de selecţie sunt egali cu coe…cienţii de corelaţie de
selecţie ai variabilelor fxj gpj=1 .
b) Mediile de selecţie ale variabilelor fzj gpj=1 sunt nule, dispersiile de se-
lecţie sunt unitare şi coe…cienţii de corelaţie liniar¼
a de selecţie sunt egali
cu coe…cienţii de corelaţie liniar¼ a de selecţie a variabilelor fxj gpj=1 .
Din cele de mai sus rezult¼
a:
Lema 1.2.6
2
d (zj ; zk ) = 2 (1 rjk )
Demonstraţie.
n
X
2
d (zj ; zk ) = hzj zk ; zj zk i0D = pi (zij zik )2 =
i=1
n
X n
X Xn
2 2
= pi zij + pi zik 2 pi zij zik :
i=1 i=1 i=1
n
X
pi zij zik = cor (zj ; zk ) = rjk ;
i=1
Observaţia 1.2.4
Operaţia de centrare a tabelului X are în spaţiile Rp şi Rn interpret¼
ari geo-
metrice diferite.
- matricea V = Y0 DY de varianţ¼
a-covarianţ¼
a a variabilelor centrate.
28 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Forma norului este cea care caracterizeaz¼ a natura şi intensitatea relaţiilor
între indivizi (liniile) şi între variabile (coloanele) şi relev¼a structurile de in-
formaţii conţinute în date.
De exemplu, un nor de puncte alungit uniform de-a lungul unei drepte
(…g. 1.2.5.) traduce existenţa unei relaţii liniare dominante între puncte,
în timp ce o form¼ a parabolic¼ a (…g. 1.2.6.) ilustreaz¼ a existenţa unei relaţii
neliniare iar o form¼ a sferic¼a (…g 1.2.7.) indic¼ a, mai degrab¼ a, absenţa unei
relaţii.
O modalitate simpl¼ a de a reda vizual forma unui nor este aceea de a-l
proiecta pe o dreapt¼ a, sau mai bine pe un plan, minimizând deform¼ arile pe
care aceast¼ a proiecţie le implic¼a; aceasta este esenţa analizei generale. În cele
ce urmeaz¼ a se va prezenta detaliat programul enunţat.
Matricea W = YMY0 este o matrice simetric¼ a, de dimensiune n, al c¼ arui
0
termen general wij = ei Mej este un produs scalar între indivizii i şi j. Indi-
vizii aparţin unui spaţiu vectorial euclidian (F; M) de dimensiune p, deoarece
sunt p variabile.
2
Cum OAi sunt …xe pentru i = 1; n, deoarece norul de puncte-individ este dat,
a minimiza deform¼
arile produse prin proiecţii este echivalent cu a minimiza
3
Dac¼a rg(Y) = q atunci problema aproxim¼ arii este practic rezolvat¼
a. Într-adev¼
ar, este
su…cient s¼a g¼
asim o baz¼a a subspaţiului vectorial de dimensiune q din Rp ce conţine norul
de puncte-individ şi s¼
a calcul¼am coordonatele punctelor în noua baz¼ a. Vom putea astfel
reconstitui cei np coe…cienţi ai tabelului Y pornind de la cei qp + np = (n + p)q coe…cienţi
de…niţi mai sus.
4
Dac¼a se lucreaz¼
a pe tabelul X atunci problema se formuleaz¼ a astfel: S¼
a se g¼
aseasc¼a
Pn
2
H Fq astfel încât max d (ei ; g)
(H) i=1
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 31
suma ponderat¼a a p¼
atratelor distanţelor de la punctele fA1;:::; An g la subspaţiul
Pn 2 P
n 2
H, adic¼
a a a‡a min pi Ai Pi sau, conform relaţiei (1), max pi OPi .
i=1 i=1
Fie a un vector M-normat din Rp , adic¼
a a0 Ma =1. Coordonata proiecţiei
Pi a punctului Ai pe dreapta 4a având ca suport pe a este OPi = yi0 Ma .
Coordonatele tuturor punctelor Pi pe 4a sunt YMa, de unde rezult¼ a c¼
a:
n
X 2
pi OPi = a0 MY0 DYMa = a0 MVMa = a0 MAa:
i=1
a H =4a ; atunci g¼
Aşadar, dac¼ asirea lui H s-a redus la urm¼
atoarea problem¼
a
de programare p¼atratic¼
a cu restricţii liniare:
max fa0 MAag
(a) :
a0 Ma =1
Pentru a rezolva problema de mai sus se utilizeaz¼ a metoda multiplicatorilor lui
Lagrange (vezi paragraful 1.1.7). Fie, deci, lagrangeanul L = a0 MAa (a0 Ma 1),
cu multiplicator Lagrange. Rezult¼ a
@L
= 2MAa 2 Ma deoarece MA este o matrice simetric¼
a.
@a
Dar
@L
= 0 ) MAa = Ma (2)
@a
Înmulţind la stânga relaţia (2) cu a0 şi ţinând cont c¼
a a este M-normat rezult¼
a
= a0 MAa:
a01 MAa2 0
2 a1 Ma2
0
2 a1 Ma1 = 0; sau
0
2 a1 Ma2 2 = 0) 2 = 0:
32 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
R¼
amâne, ca în cazul precedent
MAa2 = 2 Ma2
ceea ce implic¼
a faptul c¼a a2 este al doilea vector al matricii A relativ la a doua
valoare proprie 2 , dac¼ a aceasta este unic¼ a.
Demonstraţia se repet¼a analog pentru ceilalţi vectori M-normaţi, ak 2
Rp , k q; M-ortogonali cu vectorii aj g¼ asiţi înainte (pentru a0k Maj =0; j < k)
şi care maximizeaz¼a forma p¼ atratic¼ 0
a ak MAak . Se obţine MAak = k Mak şi
cum M este inversabil¼ a, Aak = ak .
Observaţia 1.2.5
1. Teorema 1.2.1 poate … demonstrat¼ a folosind formula proiectorului M-
ortogonal pe H (conform [53]) sau bazându-se pe descompunerea M = T0 T
(conform [41]).
2. Cum A este o matrice M-simetric¼ a, pozitiv de…nit¼
a, cu coe…cienţi reali,
valorile sale proprii sunt reale şi pozitive (conform [15]). Vectorii proprii
ai matricii A sunt M-ortonormaţi.
p
X
Ig = tr (A) = j
j=1
Lema 1.2.8
Factorii principali fuj gpj=1 sunt vectorii proprii ai matricii MV asociaţi valo-
rilor proprii f j gpj=1 ale matricii A = VM.
Demonstraţie. Într-adev¼
ar
Observaţia 1.2.6
Din de…niţie, cj este proiecţia M-ortogonal¼
a a indivizilor pe axa principal¼
a
aj . Într-adev¼
ar,
Lema 1.2.9
p
Componentele principale fcj gj=1 sunt vectorii proprii ai matricii WD; asociaţi
valorilor proprii f j gpj=1 ale matricii A. Componentele principale sunt D-
ortogonale, deci necorelate.
Demonstraţie.
Lema 1.2.10
a) Mediile de selecţie ale componentelor principale sunt nule (pe datele
centrate şi centrat-reduse).
Demonstraţie.
1. Într-adev¼
ar, cum cj = Yuj ; atunci
n n p p n
!
X X X X X
m (cj ) = pi cij = pi yik ukj = pi yik ukj =
i=1 i=1 k=1 k=1 i=1
Xp
= m (yk ) ukj = 0;
k=1
2.
Propoziţia 1.2.2
1. Componentele principale sunt combinaţii liniare de variabilele iniţiale,
a şi care satisfac restricţiile u0j M 1 uj = 1.
de dispersie maxim¼
p
2. În cazul unei ACP normate, componentele principale fcj gj=1 asoci-
p
ate valorilor proprii f j gj=1 ale matricii A sunt variabilele cele mai
"legate" de variabilele iniţiale, z1 ; : : : ; zp ; în sensul c¼
a suma p¼ atratelor
coe…cienţilor de corelaţie fcor (cj ; zk )gpk=1 este maxim¼ a, pentru oricare
j = 1; p.
Demonstraţie.
a) S¼
a consider¼
am o combinaţie liniar¼
a de variabilele iniţiale x1 ; : : : ; xp ; …e
P
p
aceasta c = uj xj sau vectorul c = Xu. Ne propunem s¼ a g¼ asim pe
j=1
u0 = (u1 ; : : : ; up ) astfel încât
b) S¼
a reamintim mai întâi c¼
a, în cazul unei ACP normate, X ! Z şi M =
Ip . Cu acestea:
P
p P
p
c0 DZZ0 Dc
şi cum zj z0j = ZZ0 rezult¼
a cor2 (c; zj ) = c0 Dc : Problema s-a
j=1 j=1
0 0
asi max c DZZ
redus la a g¼ c0 Dc
Dc
.
(c)
S¼
a remarc¼
am c¼a DZZ0 D şi D sunt matrici reale, simetrice şi de ordin n.
Un punct de extrem al câtului de mai sus se obţine anulând derivata sa, ceea
ce implic¼
a
(c0 Dc) (2DZZ0 Dc) (c0 DZZ0 Dc) (2Dc)
= 0:
(c0 Dc)2
1 c0 DZZ0 Dc
D DZZ0 D c = c:
c0 Dc
Prin urmare, c este vectorul propriu al matricii ZZ0 D; asociat valorii proprii
0 0
= c DZZc0 Dc
Dc
: Maximul este, deci, atins dac¼ a aceast¼a valoare proprie este
cea mai mare.
Din ipotez¼ a, c este o combinaţie liniar¼
a de variabile iniţiale, adic¼
a c = Zu.
Înlocuind în relaţia de mai sus se obţine
ZZ0 DZu = Zu
1.2.2.1 ¼
ANALIZA NORULUI DE PUNCTE-VARIABILA
S¼
a consider¼am acum spaţiul E Rn ; al variabilelor, în care tabelul Y
poate … reprezentat ca un nor de p puncte-variabil¼ a ale c¼ aror n coordonate
reprezint¼a coloanele lui Y.
Principiul metodei ACP în acest caz este identic cu cel utilizat pentru
reprezentarea norului de puncte-individ şi const¼ a în g¼asirea axelor principale
şi a subspaţiului a…n q dimensional, Eq Rn ; generat de aceste axe şi care
aproximeaz¼ a optim norul de puncte-variabil¼ a. Aceasta înseamn¼ a s¼
a …e max-
imizat¼ a media p¼ atratelor distanţelor dintre cele p proiecţii pe Eq , adic¼a de
rezolvat problema de programare p¼ atratic¼
a cu restricţii liniare
max b0 DYMY0 Db
(b) :
b0 Db =1
Lema 1.2.11
a) Factorii principali vi 2 (Rn )? ; i = 1; n sunt D 1 -ortonormaţi şi satisfac
relaţiile DYMY0 vi = i vi .
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 37
a) Într-adev¼
ar
vi0 D 1
vj = b0i DD 1
Dbj = b0i Dbj = ij şi
0 0
DYMY v = DYMY Db = Db = v:
b) Într-adev¼
ar
Propoziţia 1.2.3
(relaţia de tranziţie între spaţiul indivizilor si spaţiul variabilelor)
Toate valorile proprii nenule ale matricilor Y0 DYM şi YMY0 D sunt egale
având, eventual, acelaşi ordin de multiplicitate şi, pentru j 6= 0; sunt ade-
v¼
arate urm¼ a spaţii, F Rp şi E Rn :
atoarele relaţii de tranziţie între cele dou¼
bj = p1 YMaj = p1 Yuj = p1 cj
j j j
; j = 1; rg (Y0 Y):
aj = p1 Y0 Dbj = p1 Y0 vj = p1 dj
j j j
Demonstraţie. În Rp exist¼
a relaţia
Y0 DYMaj = j aj (1)
iar în Rn relaţia
YMY0 Dbj = j bj (2)
a5 :
multiplicitate, adic¼
j = j 6= 0, j = 1; rg (Y0 Y)
j = 0; j = rg (Y0 Y) + 1; p
j = 0, j = rg (Y0 Y) + 1; n
1 = b0 Db =k 2 a0 MY0 DYMa =k 2 a0 M ( a) = k 2 a0 Ma =k 2 ;
Observaţia 1.2.7
1. Propoziţia 1.2.3 demonstreaz¼ a c¼
a este su…cient s¼ a calcul¼
am valorile şi
vectorii proprii ai matricii cu dimensiunea cea mai mic¼ a iar apoi, prin
relaţiile de tranziţie, s¼
a obţinem elementele pincipale din cel¼ alalt spaţiu.
Cum, în general, num¼ arul de variabile este mai mic decât num¼ arul de
indivizi, adic¼ a p < n, este su…cient ca analiza în componente principale
s¼
a se efectueze pe norul de puncte-individ, elementele principale pentru
norul de puncte-variabi¼ a obţinându-se prin relaţiile de tranziţie.
reconstituire
p
X p
X p
Y= cj u0j = 0
j vj uj
j=1 j=1
1. studiul calit¼
aţii reprezent¼
arilor în planurile factoriale;
4. reprezentarea simultan¼
a a indivizilor şi variabilelor ce fac obiectul ACP.
¼
1.2.3.1 CALITATEA REPREZENTARILOR ÎN PLANURILE FAC-
TORIALE
Axele factoriale permit obţinerea celei mai bune vizualiz¼ ari aproximative,
în sensul celor mai mici p¼ atrate, ale distanţelor dintre indivizi, respectiv dintre
variabile. În acest sens, primul demers care se impune este legat de m¼ asurarea
calit¼
aţii acestei aproxim¼ari.
Se observ¼ a c¼
a, dac¼
a ultimele p q valori proprii ale matricii Y; ordonate în
prealabil descresc¼ ator, sunt considerate "neglijabile" atunci, conform descom-
Pq p
punerii în valori singulare, Y Y? = 0
j vj uj în cazul metricii euclidiene.
j=1
Aceasta înseamn¼ a c¼
a cei np coe…cienţi ai matricii Y pot … reprezentaţi doar
prin cei q(n + p) termeni ai sumei de mai sus, ceea ce reprezint¼ a, din punct
42 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
- alegerea num¼
arului de axe principale;
- g¼
asirea intervalului de încredere pentru dispersia coordonantelor punctelor-
individ pe axa principal¼ a corespunz¼
atoare.
1 P
p
bj
r
j=p r+1
X 2 = nr log !1
p
Q
p
bj
j=p r+1
a 2 cu r(r+1)
este asimptotic distribuit¼ 2 1 grade de libertate.
Legat de g¼
asirea intervalului de încredere pentru dispersia coordonatelor
punctelor-individ pe axa principal¼ a, reamintim c¼ a aceasta este egal¼
a cu val-
oarea proprie corespunz¼ atoare (conform Lemei 1.2.10). T.W.Anderson a ar¼ a-
p
tat c¼
a ,dac¼
a valorile teoretice j ale lui sunt distincte , n 1 j b j
valori proprii. Axele corespunz¼ atoare sunt atunci de…nite modulo o rotaţie,
ceea ce permite utilizatorului s¼ a evite interpretarea unei axe instabile dup¼ a
acest criteriu.
O îmbun¼ at¼
aţire a criteriului lui Kaiser este dat¼
a în 2000 de En¼
achescu şi
En¼achescu. Aceştia demonstreaz¼ a c¼
a, în cazul analizei în componente princi-
pale normate, bi este semni…cativ mai mare decât unu dac¼ a
r
bi > 1 + 2 p 1 :
n 1
Generaliz¼ ari ale rezultatelor asimptotice ale lui T.W.Anderson la cazul
ne-gaussian se pot g¼ asi, printre alţii, în [13] f¼
ar¼
a a avea, îns¼ a, o utilizare prac-
tic¼
a.
Intervalele de încredere ale lui Anderson se refer¼ a atât la valorile proprii
ale matricilor de covarianţ¼ a cât şi la valorile proprii ale matricilor de corelaţie.
Simul¼ arile întreprinse au ar¼ atat c¼ a rezultatele obţinute sunt în general „pru-
dente”: procentul de acoperire al adev¼ aratei valori proprii este cel mai adesea
superior pragului de semni…caţie anunţat ([41]). În orice caz, natura asimp-
totic¼a a rezultatelor ca şi ipoteza subiacent¼ a de normalitate, fac ca acestea s¼ a
aib¼a doar un caracter indicativ.
Concluzionând asupra calit¼ aţii reprezent¼arilor în planurile factoriale vom
spune c¼ a rata inerţiei de…neşte "puterea explicativ¼ a" a factorilor; ea reprezint¼ a
partea din dispersia total¼ a datorat¼ a celor q factori reţinuţi. Aceast¼ a apreciere
trebuie s¼ a ţin¼
a cont atât de num¼ arul de indivizi cât şi de num¼ arul de varia-
bile; o rat¼a de inerţie (relativ la o ax¼ a) de 10% poate … o valoare important¼ a
dac¼a tabelul posed¼ a 100 de variabile şi poate … o valoare neglijabil¼ a dac¼
a nu
sunt decât 10 variabile. Rata inerţiei este deci o m¼asur¼a pesimist¼a a calit¼ aţii
proiecţiei imaginii euclidiene a indivizilor. Rata inerţiei este, în plus, o m¼a-
sur¼a globl¼a a calit¼aţii reprezent¼arii în planul factorial. Ea trebuie completat¼ a
cu alte m¼ asuri, locale, ale calit¼aţii acestei reprezent¼ ari.
Printre m¼ asurile locale cele mai "populare" se num¼ ar¼a cea a cosinusului
p¼atrat al unghiului dintre planul factorial şi vectorul cu originea în proiecţia
centrului de greutate al norului şi cu vârful în punctul-individ. Fundamentarea
teoretic¼a a utiliz¼ arii acestei m¼ asuri se bazeaz¼ a pe faptul c¼ a distanţele între
puncte se deformeaz¼ a prin proiecţie cu atât mai puţin cu cât punctele sunt
mai apropiate de planul în care sunt proiectate (desigur, cazul în care punctele
se a‡a¼ pe o dreapt¼ a paralel¼a cu planul de proiecţie este neinteresant în acest
context). Valoarea acestei m¼ asuri este dat¼ a de urm¼ atoarea lem¼ a.
Lema 1.2.12
Calitatea reprezent¼
arii unui punct-individ, Ai , în planul factorial principal este
c21i + c22i
cal (i) =
Pp
c2ji
j=1
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 45
liniar¼
a cor c; xj şi se vor pune în evidenţ¼
a coe…cienţii cu valori absolute mari.
Valorile acestor coe…cienţi sunt date de urm¼ atoarea lem¼ a.
Lema 1.2.13 p
În cazul unei ACP normate cor c; zj = uj .
cov(c;zj ) cov(c;zj )
Demonstraţie. Din de…niţie, cor c; zj = s(c) s(zj ) = p (conform
Corolarului 1.2.3 şi Lemei 1.2.10). Dar cov c; zj = j = c0 Dz
j adic¼
a u0 Z0 Dz
0
este al j-lea coe…cient al vectorului (Z DZ) u. Cum, din 0
p de…niţie, Z DZ = R
şi cum Ru = u (din Lema 1.2.8) rezult¼ a cor c; zj = uj .
Corolarul 1.2.4
Cercul de corelaţie principal este, în spaţiul variabilelor, corespondentul exact
al planului factorial principal.
Demonstraţie. Într-adev¼ ar, în ACP normat¼ a coordonatele proiecţiei unui
punct-variabil¼
p a Bjpsunt (d1j ; d2j ) care, conform formulelor de tranziţie, sunt
egale cu 1 a1j ; 2 a2j . Dar în cazul unei ACP normate axele principale
coincid cu factorii principali deci,
p p p p
(d1j ; d2j ) = 1 a1j ; 2 a2j = 1 u1j ; 2 u2j =
= cor c1 ; zj ; cor c2 ; zj
teoremei lui Perron7 (vezi, de exemplu, [15]) c1 este atunci corelat¼ a pozitiv cu
toate variabilele
( şi indivizii
)n sunt ordonaţi pe prima ax¼
a principal¼
a cresc¼
ator
P p
dup¼a mediile p1 yij . Ortogonalitatea axelor face s¼
a nu existe decât
j=1
i=1
un singur factor de „talie”. A doua component¼ a principal¼
a diferenţiaz¼
a atunci
indivizii de „talie” comparabil¼a şi aceast¼
a component¼a se va numi factor de
form¼a.
Dac¼
a variabila suplimentar¼a este nominal¼ a transformarea de mai sus nu
mai poate … aplicat¼a. În aceast¼a situaţie, analiza unei variabile nominale
suplimentare nu se mai face în Rn ci în Rp . Fiecare modalitate a variabilei
nominale este reprezentat¼
a în spaţiul indivizilor prin centrul de greutate al
subnorului de puncte-individ care au ales respectiva modalitate.
direcţii pot … materializate prin vectori unitari. Aceşti vectori constituie repe-
rul originar în care a fost construit norul de indivizi şi sunt, deci, ortogonali
doi câte doi. Este, acum, evident faptul c¼ a aceast¼ a reprezentare a variabilelor
este diferit¼a de reprezentarea norului de variabile descris¼ a mai sus. Ceeace se
va numi reprezentare simultan¼a este, deci, proiectarea reperului ortonormat al
axelor de origine în planul factorial al norului de indivizi.
Se reaminteşte c¼ a, în Rn , în metrica euclidian¼ a, coordonata variabilei j
pe axa k este egal¼ a cu coe…cientul de corelaţie
p (conform formulei de tranziţie)
între variabil¼a şi factor şi este dkj = k ukj . Cei doi nori de variabile nu
coincid.
p Ei difer¼
a unul de cel¼
a lalt, pe …ecare ax¼a, prin coe…cientul de dilataţie
k.
În cazul reprezent¼ arii simultane, care este de fapt o reprezentare în Rn ,
distanţa dintre dou¼ a variabile nu se interpreteaz¼ a în termeni de corelaţie de-
oarece este vorba de extremit¼
p aţile unor vectori ortonormaţi (distanţ¼ a egal¼
a cu
2 în spaţiul complet). Interpretarea distanţei între dou¼ a variabile, în termeni
de corelaţie, nu se poate face decât în Rn (s¼ a observ¼ am, totuşi, c¼
a norul proiec-
tat al extremit¼ p
aţilor vectorilor unitari din R şi norul extremit¼ aţilor vectorilor
variabile în Rn au, în general, forme asem¼ an¼ atoare, mai ales dac¼ a vectorii pro-
prii sunt comparabili, deci dilat¼ arile sunt puţin deformante). Ţinând cont de
aceste consideraţii, este licit s¼a compar¼ am, în reprezentarea simultan¼ a, poziţia
a doi indivizi faţ¼a de ansamblul variabilelor, sau poziţia a dou¼ a variabile faţ¼ a
de ansamblul indivizilor. Astfel, direcţia unei variabile de…neşte zone pentru
indivizi: de o parte indivizii ce iau valori mari pentru aceast¼ a variabil¼ a şi în
partea opus¼ a, indivizii care iau valori mici. Ne vor interesa distanţele între
indivizi în direcţia variabilei. La intersecţia axelor se g¼ asesc valorile medii ale
tuturor variabilelor.
Recunoaştem în aceast¼
a formul¼
a complementul faţ¼
a de 1 al coe…cientului de
corelaţie Spearman.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 51
datele iniţiale sunt ele însele un clasament, caz în care acest tip de analiz¼
a
se impune;
sc¼
arile de m¼asur¼
a a variabilelor pot … atât de diferite încât operaţia
de reducere practicat¼ a de analiza în componente principale normate nu
este su…cient¼
a. În plus, operaţia de normare nu reduce, de exemplu,
nesimetria distribuţiilor.
în …ne, reprezent¼
arile obţinute sunt robuste, puţin sensibile la existenţa
valorilor aberante, ceea ce este adeseori o calitate apreciabil¼a.
Fie cea de a k-a observaţie din n observaţii ordonate cresc¼ ator şi …e F
funcţia de repartiţie normal¼
a. Se înlocuieşte observaţia de rang k prin valoarea
k
yk dat¼ a de transformarea yk = F 1 n+1 unde F 1 este inversa funcţiei de
repartiţie normal¼a.
Pentru n mare, transformarea este echivalent¼ a cu înlocuirea celei de a k
observaţii cu media celei de a k observaţii într-un eşantion ordonat de n valori
normale.
1.2.7 Exemplu
Descrierea datelor
În scopul studiului relaţiilor dintre 10 tipuri de activit¼ aţi umane şi al
clasi…c¼
arii acestora, s-au cules date privind obiceiurile zilnice a 28 de grupuri de
indivizi de ambele sexe. Valorile din tabelul A.1. (Anex¼ a) reprezint¼a num¼arul
de ore din 100 de zile alocat pentru un anume tip de activitate. Datele vor …
analizate utilizând tehnica analizei în componente principale.
Pentru acest set de date se identi…c¼ a:
variabilele active:
– WRK = carier¼
a
– TRSP = transport
– HH = activit¼
aţi casnice
– CHD = copii
– SHP = cump¼
ar¼
aturi
– CARE = îngrijire personal¼
a
– MEAL = hran¼
a
variabilele suplimentare:
– SLP = odihn¼
a
– TV = televizor
– LSR = distracţie
54 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
– GEN
prima liter¼
a a doua liter¼
a a treia liter¼
a
E=angajat M=b¼
arbat U=USA
U=neangajat W=femeie W=Vest
M=c¼as¼
atorit E=Est
S=nec¼
as¼atorit Y=Iugoslavia
Dintre elemente prezentate mai sus doar variabilele şi indivizii activi
particip¼a efectiv la determinarea axelor principale, în timp ce variabilele şi in-
divizii suplimentari intervin doar în momentul interpret¼ arii (vezi subcapitolul
1.2.3).
“Regula cotului”, ilustrat¼ a gra…c prin diagrama Screeplot (…g 1.2.10.) din
submeniul Variables, indic¼ a drept e…cient¼ a folosirea în interpretare a maxim
cinci dimensiuni (vezi subcapitolul 1.2.3), iar criteriul lui Kaiser consider¼ a su-
…ciente doar dou¼ a: în cazul ACP normate se reţin componentele principale
corespunz¼ atoare valorilor proprii superioare lui unu. Examinând tabelul valo-
rilor proprii se observ¼
a c¼a primele 2 dimensiuni ofer¼ a o calitate a reprezent¼arii
în noul spaţiu de 80.95%, valoare considerat¼ a su…cient¼a. Prin urmare, planul
de proiecţie va … planul factorial principal. Valoarea 2 se completeaz¼ a în caseta
Number of factors din fereastra de rezultate.
58 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
cosinusurile p¼
atrate, ce dau calitatea reprezent¼ arii variabilelor pe …ecare
factor (Variables, Communalities). Cu cât cosinusurile p¼ atrate sunt mai
apropiate de 1 cu atât proiecţiile punctelor sunt mai aproape de poziţiile
acestora în spaţiul iniţial, deci informaţia este mai bine conservat¼ a în
noul spaţiu.
1.2. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) 59
axe principale: (A) femeile care işi petrec majoritatea timpului în cas¼
a şi (B)
femeile care îşi petrec majoritatea timpului în exterior. Pentru o interpretare
mai detaliat¼a se opteaz¼ a pentru reprezentarea punctelor însoţite de etichete
(opţiunea Case Names din submeniul Cases).
Avem acum mai multe informaţii despre compoziţia grupurilor (A) şi (B):
conform …gurii 1.2.13. rezult¼ a c¼
a femeile care îşi petrec majoritatea timpului
în cas¼a sunt …e c¼as¼
atorite (prima liter¼
a din codi…care este M), …e neangajate
(prima liter¼a din codi…care este U), iar femeile c¼ as¼
atorite (S) sau/şi angajate
(E) îşi petrec majoritatea timpului în exterior.
Se remarc¼ a în mod deosebit patru tipologii:
şi cu
kij
fij = frecvenţele relative, cu marjele:
Xk X X
fi = fij ; f j = fij ; f = fij = 1:
j i i;j
1.3.1.1 ¼
GEOMETRIA NORILOR ŞI ELEMENTELE DE BAZA
Fie
0 1
f11 f12 : : : f1p
B .. C - matricea de dimensiune n p a frecvenţelor
F = @ ... . A
fn1 fn2 : : : fnp
relative;
Dn = diag (fi ) - matricea n n cu diagonala principal¼
a conţinând mar-
jele liniilor;
Dp = diag (f j ) - matricea p p cu diagonala principal¼
a conţânînd marjele
coloanelor.
X fij fi0 j 2
d2 i; i0 =
fi fi0
j
şi analoaga.
Aceast¼a distanţ¼a favorizeaz¼
a coloanele care au o mas¼ a f j important¼a,
adic¼a modalit¼aţile j care sunt bine reprezentate în populaţia studiat¼
a. Pentru
a remedia acest lucru cît şi din alte considerente discutate în continuare, se
pondereaz¼ a …ecare diferenţ¼ a cu inversa masei coloanei, obţinîndu-se distanţa
2
X 1 fij fi0 j 2
2 0
d i; i =
fj fi fi0
j
şi analoaga
X 1 fij fij 0 2
d2 j; j 0 = :
fi fj f j0
i
Propoziţia 1.3.1
Distanţa 2 este invariant¼
a la agregarea liniilor, respectiv a coloanelor, cu
acelaşi pro…l.
Demonstraţie.
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 65
iX
1 1 2 2
2 0 1 fij fij 0 1 fi1 j fi1 j 0
d j; j = + +
fi fj f j0 fi1 fj f j0
i=1
2 n
X 2
1 fi2 j fi2 j 0 1 fij fij 0
+ +
fi2 fj f j0 fi fj f j0
i=i2 +1
Distanţa dup¼
a agregarea liniilor cu acelaşi pro…l i1 şi i2 este
iX
1 1 2 2
1 fij fij 0 1 fi0 j fi0 j 0
d2r j; j 0 = + +
fi fj f j0 fi0 fj f j0
i=1
n
X 2
1 fij fij 0
+ :
fi fj f j0
i=i2 +1
f f
Dar fii1 j = fii2 j = rj ; (8) j = 1; p; deoarece liniile au acelaşi pro…l. Pe de
1 2
alt¼
a parte, prin agregarea liniilor i1 şi i2 rezult¼ a
Aşadar
2 2
1 fi1 j fi1 j 0 fi1 j 1 fi1 j 0 1
A (i1 ) = = fi1 =
fi1 fj f j0 fi1 fj fi1 f j0
2
rj rj 0
= fi1 = fi1 B
fj f j0
2 2
1 fi2 j fi2 j 0 fi2 j 1 fi2 j 0 1
A (i2 ) = = fi2 =
fi2 fj f j0 fi2 fj fi2 f j0
rj rj 0 2
= fi2 = fi2 B
fj f j0
) A (i1 ) + A (i2 ) = fi1 B+fi2 B= (fi1 +fi2 ) B=fi0 B:
2 2
1 fi0 j fi0 j 0 fi0 j 1 fi0 j 0 1
A (i0 ) = = fi0 =
fi0 fj f j0 fi0 fj fi0 f j0
2
rj rj 0
= fi0 = fi0 B
fj f j0
) A (i1 ) + A (i2 ) = A (i0 ) ) d2 j; j 0 = d2r j; j 0 :
Observaţia 1.3.1
a) Proprietatea demonstrat¼ a în propoziţia de mai sus se numeşte principiul
echivalenţei distribuţiilor. Distanţa euclidian¼a nu are aceast¼ a propri-
etate, spre deosebire de distanţa Hellinger.
Elemente de baz¼
a Norul de n Norul de p
puncte-linie în Rp a în Rn
puncte-coloan¼
Matricea X (tabelul) X = Dn 1 F = X = Dp 1 F0 =
n oj=1;p n oi=1;n
f f
= fiji = fijj
i=1;n j=1;p
d2 (i; i0 ) = d2 (j; j 0 ) =
P
p
1 fij fi0 j 2 P
n
1 fij fij 0 2
= fj fi fi0 = fi fj f j0
j=1 i=1
Lema 1.3.1
1. Centrul de greutate al pro…lurilor-linie este xGl = (f 1 ; : : : ; f p )0 , centrul
a este xGc = (f1 ; : : : ; fn )0 .
de greutate al pro…lurilor-coloan¼
2. Inerţia global¼
a a norului de puncte-linie, respectiv puncte-coloan¼
a m¼
a-
soar¼
a ecartul între legile empirice fij şi fi f j .
Demonstraţie.
normate, deci
1 0 0 1
f1 f1
Bf 2 C B f2 C
0 B C 0 B C
xGl = Dn 1 F Dn 1n = B . C ; xGc = Dp 1 F Dp 1p = B . C:
@ .. A @ .. A
fp fn
P P
2. Din de…niţie IGl = pi d2 (i; Gl ) respectiv IGc = pj d2 (j; Gc ), deci
i j
X XX 1 fij 2 X X (fij fi f j )2
IGl = fi d2 (i; Gl ) = fi fj =
fj fi fi f j
i i j i j
respectiv
X XX 1 fij 2 X X (fij fi f j )2
IGc = f j d2 (j; Gc ) = fj fi = :
fi fj fi f j
j j i j i
fij = fi f j :
Statistica testului
H0 : pij = pi p j (8) i; j
HA : (9) i1 astfel încât pi1 j 6= pi1 pj
P P (fij f i f j )2
este X 2 = k fi f j care, conform demonstraţiei lui K. Pearson,
i j
2 dac¼ a volumul de selecţie pe baza c¼ aruia au fost estimate fij ,
(n 1)(p 1)
adic¼
a k, tinde la 1. Aceasta este motivaţia pentru care distanţa folosit¼ a în
ACS se numeşte 2 şi m¼ asoar¼
a cât de „independente” din punct de vedere
statistic sunt liniile faţ¼
a de coloanele tabelului de contingenţ¼
a K şi reciproc.
= X0 Mu
celei mai mari valori proprii 6= 1.
Analog, în Rn
( )
P 2 3
max 2
f j d (j; 0) v0 Mv = 1
v
; 4X NXMv = v5
0
j
v0 Dn 1 v = 1 ' = XMv
şi c¼
a S xGl = xGl ; (2)
X fij fij 0
deoarece S = F0 Dn 1 FDp 1 ) sjj 0 =
fi f j 0
i
X 0 X X fij fij 0 X fij X
iar sjj 0 xjGl = f j0 = fij 0 = f j = xjGl
fi f j 0 fi 0
j0 j0 i i j
altfel spus, xGl este vector propriu M-normat al matricii S; asociat valorii
proprii 1 = 1. S¼a îl not¼
am cu u1 = xGl . Din construcţia spaţiului H
u01 Mu = 0; = 2; p
70 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
unde
u0 Mu = 1
:
Su = u
Aşadar
u = u +1 şi = +1 ; = 1; p 1
up = u1 şi p = 0 şi 1 = 1:
fij
Aşadar în Rp , analog în Rn , ACS pe tabloul centrat cu termenul general fi fj
fij
este echivalent¼
a cu ACS pe tabloul cu termenul general fi .
Observaţia 1.3.2
a) În ACS punctele sunt conţinute în hiperplanul H de dimensiune p 1
P fij
(pentru Rp ) datorit¼
a faptului c¼
a fi = 1; (8) i = 1; n.
i
P P
b) i) Cum xjGl = f j = 1 ) Gl 2 H.
j j
Presupunem c¼
ap n . Conform analizei generale:
Axele factoriale Su = u Tv = v
Lema 1.3.2
Coordonatele factoriale sunt variabile cu media empiric¼
a 0 şi dispersia em-
piric¼
a .
Demonstraţie. Datorit¼
a echivalenţei dintre ACS necentrat¼
a şi ACS centrat¼
a,
media empiric¼
a este
X X X fij 1
fi i = fi fj u j =
fi fj
i i j
X
X fij X X
= fi u j fi u j =
fi f j
i j i j
!
X X u j X
= fij u j = 0:
fj
j i j
72 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
1.3.1.4 ¼ SPAŢII
RELAŢIILE DINTRE CELE DOUA
Analiza general¼ a a ar¼atat c¼a matricile S şi T au aceleaşi valori proprii
nenule şi c¼
a între vectorii proprii normaţi u ai lui S asociaţi lui şi vectorii
proprii normaţi v ai lui T asociaţi aceleiaşi valori proprii exist¼a relaţiile:
1
v = p FDp 1 u ;
1
u = p F0 Dn 1 v :
Lema 1.3.3
Valorile proprii sunt subunitare ( 1; (8) ).
P
p
fij p P fij
Demonstraţie. Din = p1
i fi ' j ) i = fi ' j )
j=1 j=1
p
X p
X
fij p fij
min ' j i max ' j )
j fi j fi
j=1 j=1
| {z } | {z }
1 1
p
max i max ' j : (1)
i j
Analog
p
max ' j max ( i) : (2)
j i
p
Cum 0, din (1) şi (2) ) max ' j max ' j ) 1.
j j
Relaţiile quasi-baricentrice justi…c¼
a reprezentarea simultan¼
a a liniilor
şi a coloanelor.
poziţiona şi interpreta un punct dintr-un nor în raport cu punctele din cel¼
alalt
nor.
1 ! 1 ) o dihotomie a punctelor,
2 ! 1 ) 3 subnori,
1; 2; : : : ; p ! 1 ) exist¼
a o corespondenţ¼
a aproape
biunivoc¼
a între modalit¼
aţile variabilelor.
Inerţie slab¼
a
¼
1. INDEPENDENŢA ¼
2. DEPENDENŢA
IG 0 IG 0
1 2 1 2
Inerţie mare
¼
3. DEPENDENŢA ¼
4. DEPENDENŢA
IG > 0 IG > 0
1 2 1 2
Form¼
a "sferic¼
a" Form¼
a "nesferic¼
a"
S¼a consider¼
am cîteva forme clasice de nori de puncte pentru a ar¼ ata cum
poate … reorganizat tabelul de date corespunz¼ ator, pornind de la proiecţia
acestora.
În cazul norului de puncte împ¼
arţit în doi subnori, tabelul de date poate …
reorganizat prin ordonarea coordonatelor liniilor şi coloanelor pe primul factor.
Se obţine schematic …gura 1.3.7.:
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 75
P 2
Inerţia (dispersia) explicat¼
a de un factor = fi i ) Cr (i) =
i
fi 2
; (8) i = 1; n în Rp reprezint¼
i
a contribuţia elementului i la axa ( fi 2
i =
dispersia individului, =dispersia întregii axe).
f j '2 j
Analog Cr (j) = ; (8) i = 1; p în Rn .
Calitatea reprezent¼
arii unui punct i pe axa poate … evaluat¼
a de:
d2 (i; G)
cos2 (i) =
d2 (i; G)
1.3.3 Exemplu
Descrierea datelor
Un exemplu de aplicare a metodei analizei corespondenţelor simple îl
constituie identi…carea şi descrierea unor a…nit¼ aţi între diverse categorii so-
cioprofesionale şi diverse tipuri de media. Studiul a fost realizat pe 4433 de
persoane ce ilustreaz¼ a categoriile socioprofesionale menţionate mai jos şi care
78 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
– AGR=agricultori
– PTR=patroni
– CSUP=cadre superioare
– CMED=cadre medii
– FUNC=funcţionari
– MCAL=muncitori cali…caţi
– MNECAL=muncitori necali…caţi
– INACT=inactivi
a Y cu p = 6 modalit¼
tipul de media - variabila nominal¼ aţi pe care le vom
denumi "variabile":
– rad=radio
– tel=televiziune
– cot_nat=cotidian naţional
– cot_loc=cotidian local
– rev=reviste
– ghid_tv=ghid de televiziune.
Indivizii şi variabilele de mai sus reprezint¼ a elementele active, care par-
ticip¼a la determinarea axelor principale. Pentru acurateţea interpret¼ arii reprezen-
t¼
arilor obţinute, în planul factorial principal vor … proiectate ulterior şi alte
caracteristici ale populaţiei studiate (indivizi suplimentari): sexul (2 modal-
it¼
aţi), vîrsta (5 modalit¼aţi), nivelul de educaţie (4 modalit¼ aţi), conform tabelu-
lui A.3. (Anex¼ a).
Pentru tabelul elementelor active, valoarea a‡at¼ a la intersecţia liniei i cu
coloana j (kij ) reprezint¼ a num¼ arul de indivizi aparţinând categoriei sociopro-
fesionale i care au avut într-un interval de timp analizat cel puţin un contact
cu tipul de media j. O persoan¼ a aparţinând unei categorii socioprofesionale
poate intra în contact cu mai multe tipuri de media. Num¼ arul total de contacte
cu media pentru o categorie socioprofesional¼ a este dat de suma valorilor de pe
linie (ki ) : De exemplu, agricultorii au avut k1 = 96 + 118 + : : : + 17 = 354
contacte cu media; Suma valorilor de pe coloan¼ a (k j ) reprezint¼ a num¼ arul de
contacte avute cu tipul j de media al tuturor celor 8 categorii socioprofesion-
ale. De exemplu, pentru radio k 1 = 96 + 122 + : : : + 1474 = 3297 contacte:
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 79
Efectivul total (k), adic¼ a num¼ arul de contacte cu toate tipurile de media ale
tuturor categoriilor socioprofesionale este dat de suma tuturor valorilor ki
(sau a tuturor valorilor k j ) şi este 12388.
Acelaşi tip de calcule se poate face şi pentru tabelul indivizilor suplimen-
tari.
Dup¼ a ap¼ asarea butonului OK, o nou¼ a fereastr¼a (…g 1.3.14.) permite
generarea rezultatelor speci…ce analizei corespondenţelor simple. Tot aici este
prezentat un rezumat al datelor de plecare: num¼ arul de indivizi activi şi varia-
bile active, probabilitatea estimat¼ a (p) a ipotezei H0 de independenţ¼ a a liniilor
faţ¼
a de coloanele tabelului de contingenţ¼ a (vezi subcapitolul 1.3.1.2 pentru de-
a ( 2 ), num¼
talii ), inerţia global¼ arul gradelor de libertate (35 = (8 1) (6 1))
şi valorile proprii (rezultate în urma diagonaliz¼ arii matricii S a norului de
puncte linie).
80 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
- valorile singulare
- valorile proprii
Se observ¼
a c¼a primele dou¼ a valori proprii explic¼
a aproape 95% din in-
erţie, deci dou¼
a dimensiuni (planul principal) ofer¼ a un grad su…cient de pre-
cizie reprezent¼arii proiecţiilor. Aşadar se completeaz¼a în câmpul Number of
dimensions din submeniul Quick valoarea 2, apoi se revine în submeniul Ad-
vanced.
1.3. ANALIZA CORESPONDENŢELOR SIMPLE (ACS) 81
- ponderile (masele),
A doua ax¼a opune catagoriile sociale tinere, având o educaţie medie (şco-
lal¼
a profesional¼
a), care prefer¼a ghidurile TV, agricultorilor şi patronilor cu
vârste medii evident superioare şi având un nivel sc¼ azut al educaţiei, care
prefer¼
a cotidienele locale si revistele.
84 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
s - num¼
arul întreb¼
arilor puse la n indivizi;
pq - num¼
arul modalit¼
aţilor întreb¼
arii q, q = 1; s ;
R = (riq )q=1;s
i=1;n
- tabelul de date condensat, unde riq = num¼
arul modal-
it¼
aţii întreb¼arii q aleas¼
a de individul i, deci riq pq .
Exemplul 1.4.1
La întrebarea " Starea dvs. civil¼a este...", cu modalit¼
aţile
1. celibatar 4. divorţat
2. c¼as¼atorit sau tr¼aind marital 5. nu r¼aspund
3. v¼aduv
exist¼
a cinci modalit¼
aţi de r¼
aspuns ce satisfac ipoteza fundamental¼
a
P
s
În acest sens se noteaz¼
a cu p = pq num¼
arul total de modalit¼
aţi ale
q=1
celor s întreb¼
ari şi se construieşte, pornind de la R tabelul
Z = [Z1 ; Z2 ; : : : ; Zq ; : : : ; Zs ]
cu n linii şi p coloane, tabel ce descrie cele s r¼
aspunsuri ale celor n indivizi
printr-un codaj binar.
Z se obţine din R astfel:
1; dac¼
a riq 6= 0
zij;q =
0; altfel
În notaţia de mai sus Zq este un tabel n pq …ecare linie conţinînd pq 1
zerouri şi un singur unu.
Rezult¼
a
pq
X
n = z j = zq şi
j=1
Xn s
X p
n X
X
z = zi = zq = zij = ns = efectivul total.
i=1 q=1 i=1 j=1
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 87
Se noteaz¼
a cu D matricea diagonal¼
ap p de…nit¼
a de relaţiile
djj = bjj = z j
djj 0 = 0; (8) j 6= j 0 cu j; j 0 = 1; p
În consecinţ¼
a:
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 89
se aplic¼
a aceleaşi transform¼
ari tabelului de date pentru obţinerea pro…lurilor-
linie/pro…lurilor-coloan¼ a;
aceeaşi distanţ¼
a, distanţa 2.
şi este nul¼a dac¼ a modalit¼ aţile j şi j 0 sunt alese de aceiaşi indivizi. În plus,
modalit¼ aţile de efectiv sc¼
azut, adic¼ a cele alese de puţini indivizi, sunt dep¼
artate
faţ¼
a de celelalte modalit¼ aţi.
În Rp distanţa 2 între indivizi, pe un tabel disjunctiv, se scrie
p
2 0 1X n 2
d i; i = zij zi0 j
s zj
j=1
1 zij
F = Z; cu termenul general fij = ;
ns ns
1 zj
Dp = D; cu termenul general f j = ij ;
ns ns
1 ij
Dn = In ; cu termenul general fi = :
n n
Pentru a g¼
asi axele factoriale u se diagonalizeaz¼
a matricea
1
S = F0 Dn 1 FDp 1 = Z0 ZD 1
s
cu termenul general (atenţie! s neindexat semni…c¼ a, în acest subcapitol,
num¼arul de întreb¼
ari)
n
1 X
sjj =
0 zij zij 0 :
s z j0
i=1
90 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Corolarul 1.4.1
Modulo coe…cientul p1 individul i se g¼ aseşte proiectat în planul factorial
principal în centrul de greutate (punctul de coordonate media aritmetic¼ a) al
modalit¼aţilor pe care le-a ales.
Analog, coordonatele factoriale ale modalit¼
aţii j pe axa sunt date de:
n
X X
1 zij 1
' ;j =p ;i = p ;i
zj zj
i=1 i2n(j)
Observaţia 1.4.1
În formulele de mai sus, modalit¼
aţile/indivizii nu sunt ponderaţi; coordonatele
sunt simple medii aritmetice.
Norul modalit¼ aţilor din Rn poate … descompus în s submulţimi, a q-a
submulţime (subnor) corespunzând mulţimii pq a modalit¼
aţilor variabilei q.
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 91
Corolarul 1.4.2
aţilor din Rn
Centrele de greutate ale celor s submulţimi ale norului modalit¼
coincid cu centrul de greutate al norului global.
Observaţia 1.4.2
1. Dac¼a tabelul Z nu este complet disjunctiv, adic¼
a dac¼
a pentru cel puţin un
individ nicio modalitate a unei întreb¼ari nu a fost aleas¼
a, modalit¼ aţile
acelei variabile nu mai sunt centrate în centrul de greutate al norului
global.
p1 + (p2 1) + : : : (ps 1) = p s + 1:
2 = z şi
P
n
deoarece zij ij zij = z j .
i=1
Inerţia I (j) a unei modalit¼
aţi j este, prin de…niţie:
zj
I (j) = mj d2 (j; G) cu mj =
ns
rezult¼
a
1 zj
I (j) = 1 :
s n
Corolarul 1.4.3
Inerţia unei modalit¼ aţi este cu atît mai mare cu cît efectivul z j al acestei
modalit¼ aţi, adic¼
a num¼arul de indivizi care au ales-o, este mai mic.
Corolarul 1.4.4
Inerţia unei întreb¼ari este cu atât mai mare cu cât num¼ arul de modalit¼aţi
1
asociat, pq , este mai mare. Minimul s este atins de întreb¼arile cu doar dou¼a
modalit¼ aţi de r¼
aspuns. În consecinţ¼
a, dac¼
a se doreşte ca toate întreb¼
arile
s¼
a joace un rol aproximativ egal atunci se va echilibra sistemul de întreb¼ ari
(variabilele vor … “decupate ” într-un num¼ ar egal de modalit¼
aţi).
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 93
Inerţia total¼
a este
s
X p
X s
X
zj 2 p
I= I (q) = d (j; G) = 1; deoarece pq = p
ns s
q=1 j=1 q=1
Utilizarea simultan¼
a a variabilelor nominale şi continue în ACM;
Punerea în evidenţ¼
a a eventualelor leg¼
aturi neliniare între variabile con-
tinue. Asupra acestui ultim aspect vom insista puţin:
Z = [Z1 ; Z2 ; : : : ; Zq ; : : : ; Zs ] :
S¼
a presupunem c¼ a o modalitate suplimentar¼ a j a fost aleas¼
a de nj indivizi
(nj = z j ). Ne propunem s¼ a test¼am dac¼ a aceast¼ a modalitate a fost aleas¼ a
întâmpl¼ator, sau dac¼a alegerea ei are o semni…caţie.
Fie ipoteza Ho : “cei nj indivizi au fost aleşi aleator din eşantionul de n
indivizi” (alegerea este presupus¼a f¼
ar¼
a revenire).
În ipoteza Ho media coordonatelor i ale celor nj indivizi este o vari-
abil¼
a aleatoare
n
1 X
x j = i
nj
i2n(j)
2 n nj
de E x j = 0 şi DH o
x j = n 1 nj repartizat¼
a hipergeometric.
2 [ n nj 1
Rezult¼
a E[ i] = 0 şi DHo i] = n 1 nj .
q
n n
De…niţia 1.4.3 t i = nj n 1j ' ;j se numeşte valoare-test şi m¼ asoar¼
a, în
num¼ ar de ecarturi-tip, distanţa între modalitatea j, adic¼
a quasi-baricentrul
celor nj indivizi, şi originea axei factoriale .
Conform teoremei limit¼ a-central¼ a, distribuţia lui t i tinde la o N (0; 1).
Astfel, poziţia unei modalit¼
aţi este intersant¼a într-o direcţie dat¼ a, dac¼a
subnorul al c¼arui baricentru este, ocup¼ a o zon¼a apropiat¼ a de aceast¼a ax¼a şi
destul de dep¼artat¼a de centrul de greutate global în direcţia axei.
96 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
S' = ' :
1 1 1 1
D B' = ' j D B)
s s
1 1 1 1 1
) D BD B' = D B' =
s2 s
2
= ' = ' :
Rezult¼
a
2
S ' = '
Factorii celor dou¼a analize sunt deci coliniari în Rp dar valorile proprii asociate
difer¼
a; cele rezultate din analiza lui D, notate B sunt egale cu p¼ atratul celor
2
rezultate din analiza lui Z, adic¼ a B= .
Factorul ' rezultat din analiza lui Z şi reprezentînd coordonatele facto-
riale ale modalit¼aţilor, are ca norm¼
a pe , în timp ce factorul corespunzând
analizei lui B, notat 'B , are ca norm¼ a pe 2 .
Corolarul 1.4.5
Relaţia care leag¼
a cele dou¼
a sistme de coordonate factoriale este
p
'B = ' :
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 97
1.4.6 Exemplu
Descrierea datelor
p = 16 modalit¼
aţi ale variabilelor active, deci 16 coloane în tabelul Burt;
p 16
inerţia total¼
a este I = s 1= 6 1 = 1; 67 (vezi subcapitolul 1.4.2.).
În continuare se indic¼
a tipul de tabel analizat - în cazul acesta, tabel sub form¼
a
condensat¼a (Raw Data), se apas¼ a butonul Variables (Factors in Burt Table)
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 99
calitatea reprezent¼
arii în planul factorial, dat¼
a de suma cosinusurilor
p¼
atrate pentru cele dou¼a axe factoriale,
exist¼
a puncte pe gra…c care, deşi corespund unor rase diferite, se supra-
pun: BULD şi TECK, CHIH şi PEKI, DALM şi LABR. Aceasta este o
consecinţ¼
a gra…c¼
a a faptului c¼
a valorile din tabelul A.4. pentru aceste
perechi se identi…c¼
a aproape în totalitate. În general, rasele învecinate
102CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Prima ax¼
a principal¼
a opune:
A doua ax¼
a principal¼
a opune:
rasele inteligente, pentru care talia, masa şi viteza au valori medii - cainii
de vân¼ atoare (FN:2) precum Beauceron (BEAU), Ciob¼ anesc German
(CIOB), Doberman (DOBB) etc. şi
rasele mai puţin inteligente şi lente: Basset (BASS), Masti¤ (MAST).
Pentru o mai bun¼ a vizualizare, se pot elimina din …gura 1.4.9. punctele
corespunz¼
atoare variabilelor active (sau suplimentare) astfel: se selecteaz¼
a un
punct de pe gra…c, se apas¼a butonul drept al mouse-ului şi se alege opţiunea
Point Labels.
1.4. ANALIZA CORESPONDENŢELOR MULTIPLE (ACM) 103
tabelul 1.5.1. ProprietA¼ Ţ ile elementelor principale din ACP, ACS, ACM
în spaŢ iul indivizilor (Rp ) respectiv al variabilelor (Rn ) (1)
fij
Tabelul F Rp X = (xij )j=1;p
i=1;n
,Y = (yij )j=1;p
i=1;n
X = Dn 1 F = fi ; Z = (zij )j=1;p
i=1;n
tabel
i=1;n
p
n oj=1;p
kij
sau Z = (zij )j=1;p
i=1;n
( fij = k ; fi: = fij ) disjunctiv complet
j=1
P
fij
E Rn aceleaşi ca în Rp X = Dp 1 F0 = fj aceleaşi ca în Rp
j=1;p
n
n oi=1;n
(f:j = fij )
i=1
P
n
ij
Ponderi F pi > 0 cu pi = 1 fi: ; i = 1; n fi: = n ; i = 1; n
i=1
(Matricea de D = diag (pi ) ; i = 1; n Dn = diag (fi: )
P
Dn = n1 In
ponderi)
zj
E f:j ; j = 1; p f:j = ij ns ; j = 1; p
1
Dp = diag (f:j ) Dp = ns D; D = diag (z j )
104CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
1 1
Metrica F M = diag(mj ); j = 1; p , M = Dp 1 = diag fj M = Dp 1 = nsD
M = Ip sau M = D1=s2
1
E D = diag (pi ) ; i = 1; n M = Dn 1 = diag fi: M = Dn 1 = nIn
tabelul 1.5.1. ProprietA¼ Ţ ile elementelor principale din ACP, ACS, ACM
în spaŢ iul indivizilor (Rp ) respectiv al variabilelor (Rn ) (2)
¼
1.5. SINTEZA
n 2 n 2
vjk 1 fij fij 0 zij zij 0
E cos ( jk ) = sj sk = rjk ; d2 (j; j 0 ) = fi fj f j0 d2 (j; j 0 ) = n zj z j0
i=1 i=1
rjk =coef. de corelaţie
P P
1
Matricea de F A= Y0 DYM = VM S = F0 Dn 1 FDp 1 S = 1s Z0 ZD
diagonalizat
1
E B= YMY0 D = WD T = FDp 1 F0 Dn 1 T = 1s ZD Z0
Axe factoriale F a 2Rp pt. care u 2Rp pt. care u 2Rp pt. care
Aa = a Su = u Su = u
factoriale
E d = Y0 Db = Y0 v 2 Rp (d = Z0 v) ' = Dp 1 F0 Dn 1 v ' =D 1u
Relaţii de = p1 Dn 1 F' ; = s
p1 Z' ;
j j
bj = p1 YMaj = p1 cj
p
fij
tranziţie i = p1
fi ' j i = s
p1 ' j
j=1 j2p(i)
P P
aj = p1 ' = p1 Dp 1 F ; ' = p1 D 1 Z0 ;
j j
Y0 Dbj = p1 dj
n
fij 1
' j = p1
fj i ' j = zj
p i
i=1 i2n(j)
106CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
P P
Capitolul 2
METODE DE
CLASIFICARE
107
108 CAPITOLUL 2. METODE DE CLASIFICARE
Aceste tehnici prezint¼ a avantaje diferite, dar pot … utilizate şi împreun¼a.
Este, astfel, posibil¼
a o strategie de clasi…care bazat¼a pe un algoritm mixt bine
adaptat partiţion¼arii mulţimilor formate din mii de indivizi (secţiunea 2.3).
Metodele de clasi…care sau de tipologie (ştiinţa care le studiaz¼ a se nu-
meşte taxonomie) au ca scop regruparea indivizilor într-un num¼ ar restrâns de
clase omogene. Este vorba deci, spre deosebire de demersul analizei factoriale,
despre descrierea datelor procedând la o reducere a num¼ arului de indivizi (faţ¼
a
de o reducere a num¼ arului de variabile).
În cele ce urmeaz¼ a se vor avea în vedere doar metodele de clasi…care
automat¼ a. Clasele vor … obţinute pe baza algoritmilor formalizaţi şi nu prin
metode subiective sau vizuale ce fac apel la iniţiativa practicianului!
2.1 Generalit¼
aţi
În taxonomie, informaţia util¼a se prezint¼ a sub forma unui tabel n n;
conţinând distanţele sau disimilarit¼
aţile dintre cei n indivizi de clasi…cat.
Reamintim
- distanţa euclidian¼
a clasic¼
a, cu metrica M = I;
- distanţa euclidian¼
a cu metrica M = D 1 ;
s2
1
- distanţa Mahanalobis, cu metrica M = V ;
P
- distanţa L1 în care d (i; j) = xki xkj ;
k
¼ ŢI
2.1. GENERALITA 109
1
P q q
- distanţa Minkowski, Lq , în care d (i; j) = xki xkj .
k
p a
- Ochiai: ;
(a b)(a+c)
a
- Russel şi Rao: a+b+c+d ;
a+d
- Rogers şi Tanimoto: a+d+2(b+c) etc.
110 CAPITOLUL 2. METODE DE CLASIFICARE
Se demonstrez¼
a prin inducţie c¼
a:
kn
şi deci, când n ! 1, Pn;k n! .
P
n
Se noteaz¼
a cu Pn = Pn;k num¼
arul total de partiţii ale unei mulţimi
k=1
de n elemente (numerele lui Bell). Dac¼
a se convine ca P0 = 1; atunci se poate
ar¼
ata prin inducţie c¼
a
1
2 1 X kn
Pn = P0 + (n 1) P1 + Cn+1 P2 + : : : + Pn 1 şi c¼
a Pn = :
e n!
k=1
- cei n indivizi sunt puncte dintr-un spaţiu euclidian din Rp ; ceea ce per-
mite de…nirea distanţelor euclidiene dintre indivizi;
¼
2.3. METODE DE CLASIFICARE NEIERARHICA 111
Scopul …ec¼ arei clasi…c¼ ari …ind acela de a obţine clase cât mai omogene,
iar omogenitatea …ind caracterizat¼ a, din punct de vedere statistic, de dispersie,
rezult¼
a c¼
a o clas¼a va … cu atât mai omogen¼ a cu cât inerţia norului de puncte
ce o alc¼
atuieşte este mai mic¼ a.
Fie deci g1 ; g2 ; : : : ; gk centrele de greutate ale celor k clase. Atunci
cu pj ponderea individului j;
Trebuie s¼a remarc¼ am, mai întâi, c¼ a acest criteriu presupune cunoaşterea
à priori a num¼ arului de clase şi c¼
a nu este posibil¼a compararea a dou¼ a partiţii
cu num¼ ar diferit de clase, având în vedere c¼ a cea mai bun¼ a partiţie de k clase
va avea o inerţie intraclase superioar¼ a oric¼
arei partiţii de k + 1 clase, iar la
limit¼
a, cea mai bun¼ a partiţie este cea trivial¼
a, în care …ecare individ formeaz¼ a
o clas¼
a (în acest caz IW = 0; c¼ aci …ecare individ este propriul s¼ au centru de
greutate).
j = 0; contorul de num¼
arare a iteraţiilor
(j)
IW = 1; inerţia intraclase (cu un num¼
ar foarte mare, dat).
Cazul egalit¼
aţii se rezolv¼
a prin tragere la sorţi, în sensul c¼
a e este asignat
aleator acelor partiţii pentru care d e; ci1 = d e; ci2 = : : : = d e; cie .
Dac¼a card (Eci ) = 0; atunci se genereaz¼ a aleator un nou centru ci . Geo-
metric, …ecare clas¼ a este un domeniu poliedral convex determinat de
hiperplanele mediatoare pe segmentele ci cm cu m 6= i şi m = 1; k:
Pasul 4: Dac¼a j > N; unde N , dat, reprezint¼ a num¼arul total de iteraţii admis
(j+1) (j)
sau dac¼a IW IW "; unde ", dat, reprezint¼
a pragul sub care
ameliorarea inerţiei intraclase este considerat¼
a nesemni…cativ¼ a, atunci
STOP.
Altfel
ci = gi ; i = 1; k ;
j = j + 1;
salt la Pasul 2.
¼
2.3. METODE DE CLASIFICARE NEIERARHICA 113
Propoziţia 2.3.1
(j+1) (j)
Algoritmul converge într-un num¼
ar …nit de paşi, altfel spus IW IW şi
j < 1.
(2) (1)
Atunci, trebuie demonstrat c¼
a IW IW :
k
X X k X
X
(1) 2 (1) (1)
IW = P pd j; gi = pP d2 j; gi ;
i=1 j2Eci i=1 j2Eci
k
X X k X
X
(2) (2) (2)
IW = P pd2 j; gi = pP d2 j; gi ;
i=1 j2Egi i=1 j2Egi
114 CAPITOLUL 2. METODE DE CLASIFICARE
n o
(1)
deoarece gi nu sunt centrele de greutate ale lui fEgi g.
i
Rezult¼
a
k X
X
(2) (1)
IW d2 j; gi ;
i=1 j2Egi
(1) (2)
cu inegalitate strict¼
a dac¼ a gi 6= gi ; (8) i = 1; k .
P 2 (1) P 2 (1)
Dar d j; gi d j; gi prin construcţia celor dou¼
a par-
j2Egi j2Eci
tiţii, deoarece fEgi g este partiţia în care …ecare clas¼
a Egi p¼
astreaz¼
a punctele
(1) P 2 (1)
cele mai apropiate de gi , deci d j; gi este minim¼
a. Egalitatea are
j2Egi
loc doar dac¼
a fEgi g fEci g.
¼
2.3. METODE DE CLASIFICARE NEIERARHICA 115
Cu acestea
k X
X
(2) (1) (1)
IW d2 j; gi IW
i=1 j2Egi
Cum card (Eci ) = n < 1 rezult¼ a Pn;k < 1 ceea ce implic¼ a j < 1.
Experienţa arat¼ a c¼
a viteza de convergenţ¼ a este rapid¼a.
Trebuie remarcat şi faptul c¼a, la …ecare pas ne…ind necesar decât calculul
a nk distanţe, acelea dintre cei n indivizi şi cele k centre de greutate, nu este
necesar¼a menţinerea în memorie a tabelului cu cele n(n2 1) distanţe dintre
indivizi.
Inconvenienţele metodei sunt:
2.3.2 Exemplu
Descrierea datelor
Revenind la exemplul raselor de câini (subcapitolul 1.4.6) reamintim c¼ a
în urma aplic¼arii analizei corespondenţelor multiple au fost identi…cate patru
grup¼ari principale:
câinii de vân¼
atoare
câinii de paz¼
a
câinii de companie
menţiunea c¼
a, de aceast¼a dat¼a, variabila care d¼a denumirile raselor (R) nu va
mai constitui o variabil¼
a suplimentar¼ a ci o variabil¼
a de etichetare a indivizilor.
Pentru a realiza aceast¼a modi…care, în bara de meniu se apas¼ a Cases, Case
Names Manager şi, în fereastra ap¼ arut¼a, se completeaz¼ a numele variabilei de
unde se preiau numele indivizilor - R (…g. 2.3.3.).
distanţa de la …ecare membru la centrul clasei din care face parte (tabelul
2.3.2.).
Caracteristicile speci…ce …ec¼arei clase sunt date de mediile variabilelor
ce particip¼a la analiz¼
a, calculate pentru …ecare clas¼a. Aceste rezultate sunt
disponibile în format tabelar, prin ap¼ asarea butonului Descriptive statistics
for each cluster, sau în format gra…c, prin ap¼asarea butonului Graph of means
(…g 2.3.6.).
Concluzii:
clasi…carea obţinut¼
a prin metoda k-means se reg¼ aseşte aproape identic
în reprezentarea gra…c¼ a a variabilelor obţinut¼
a prin analiza corespon-
denţelor multiple.
Aceast¼
a nepotrivire se datoreaz¼
a, probabil, faptului c¼
a:
b) A \ B 2 fA; B; ?g ; (8) A; B 2 H:
Observaţia 2.4.1
1. Fiec¼
arei ierarhii îi corespunde un arbore de clasi…care.
2. Fiecare clas¼
a dintr-o ierarhie este reuniunea claselor incluse în ea.
Dac¼ a card (E) = n < 1, atunci card (H) = n deoarece, datorit¼ a condiţiei
b) din de…niţie, o partiţie cu k clase se formeaz¼a prin regruparea a dou¼ a clase
ale partiţiei cu k + 1 clase.
Cum partiţia Pn , cu n clase, este format¼ a din elementele mulţimii E şi
conţine câte un element în …ecare clas¼ a, iar partiţia P1 , cu o clas¼
a, este format¼a
din mulţimea E (ambele partiţii aparţin ierarhiei H; conform condiţiei a) din
de…niţie), H conţine practic n 2 partiţii netriviale ale lui E.
cu
i (fag) = i (fbg) = i (fcg) = i (fdg) = i (feg) = 0
i (ff g) = i (fa; bg) = 0; 5 i (fhg) = i (fc; d; eg) = 2; 5
i (fgg) = i (fc; dg) = 2 i (fjg) = i (fa; b; c; d; eg) = 4
122 CAPITOLUL 2. METODE DE CLASIFICARE
Observaţia 2.4.2
a) În exemplul de mai sus indicele indic¼ a nivelul la care dou¼a clase s-au
grupat (motivaţie pentru utilizarea denumirii de nivel de agregare). Cu
cât indicele este mai mare cu atât mulţimea este mai eterogen¼a.
b) Cunoscând arborele de clasi…care este facil s¼ a se obţin¼
a o partiţie cu un
num¼ ar mai mic sau mai mare de clase. Pentru aceasta, este su…cient s¼ a
se taie arborele la un nivel dat şi s¼
a se considere clasele date de ramurile
care cad. Astfel, dac¼a în exemplul de mai sus se taie arborele de-a lungul
liniei punctate, se obţine o partiţie în 3 clase: ffa; bg ; fc; dg ; fegg .
Propoziţia 2.4.1
Fie E o mulţime şi :E E ! R+ o disimilaritate strict¼
a pe E. Atunci
0; dac¼
a A = fig ; i 2 E
i (A) =
min (i; j) ; dac¼
a A = A1 [ A2 ; A1 \ A2 = ?; i 2 A1 ; j 2 A2
induce pe E o ierarhie indexat¼
a cu nivelul de agregare i.
Demonstraţie. Din de…niţie, i este o funcţie pozitiv¼
a şi simetric¼
a.
Trebuie demonstrate dou¼ a a…rmaţii:
a i induce pe E o ierarhie, H;
a) c¼
b) c¼
a i este indicele acelei ierarhii, adic¼
a i este o funcţie cresc¼
atoare de
partiţii din H.
a) Fie Pn partiţia format¼a din n clase a mulţimii E. Din de…niţia funcţiei
de disimilaritate, i (A) = 0; (8) A 2 Pn . Se formeaz¼ a partiţia Pn 1
agregând elementele i şi j din Pn pentru care (i; j) este minim. Cum
este o disimilaritate strict¼
a, perechea (i; j) este unic¼
a. Din construcţie,
A \ B 2 fA; B; ?g ; (8) A; B 2 H.
Se formeaz¼ a partiţia Pn 2 agregând elementele i; j din Pn 1 pentru care
(i; j) este minim şi aşa mai departe pân¼
a la obţinerea partiţiei P1 .
Se de…neşte H = fP1 ; P2 ; : : : ; Pn g. Din construcţie, H veri…c¼
a cele dou¼
a
condiţii din de…niţia ierarhiei.
b) Fie A; B 2 H cu A B. Rezult¼ a B = A [ C şi A \ C = ?. Din de…niţie
(i; j) < (i; k) ; (8) i; j 2 A; k 2 C; deoarece este strict¼ a şi dac¼
a
(9) k0 astfel încât (i; j) < (i; k0 ) atunci din agregarea lui A rezult¼a k0
aparţine lui A şi nu lui C.
Pentru un j 2 A; …xat pentru moment dar altfel oarecare, min (i; j) <
i2A
Lema 2.4.1
Pierderea de inerţie interclase este dat¼
a de formula
PA PB 2
(A; B) = d (gA ; gB ) ;
PA + PB
unde A şi B sunt dou¼ a clase cu ponderile PA ; respectiv PB şi centrele de
greutate gA ; respectiv gB .
P
k
Demonstraţie. Inerţia interclase este IB = Pj d2 (gj ; g). Suma va conţine,
j=1
deci, şi termenii PA d2 (gA ; g) + PB d2 (gB ; g).
Dup¼ a fuziunea celor dou¼ a clase, dac¼
a se noteaz¼a cu gAB centrul de greu-
tate al noii clase, atunci cei doi termeni vor …înlocuiţi de (PA + PB ) d2 (gAB ; g) :
Deci pierderea de inerţie interclase este dat¼ a de diferenţa
2 PA 2 PB 2 PA PB 2
d (g; gAB ) = d (gA ; g)+ d (gB ; g) 2 d (gA ; gB ) :
PA + PB PA + PB (PA + PB )
(2)
124 CAPITOLUL 2. METODE DE CLASIFICARE
Lema 2.4.2
Într-o ierarhie indexat¼
a, agregat¼
a pe baza unei distanţe euclidiene, suma indi-
cilor de agregare este egal¼
a cu inerţia total¼
a.
IW (Pn ) = 0 ) IB (Pn ) = I:
IB (P1 ) = 0 ) IW (P1 ) = I:
Observaţia 2.4.3
Lema 2.4.3 permite calculul disimilarit¼ aţii dintre dou¼ a clase f¼
ar¼
a a … necesar¼
a
folosirea distanţelor euclidiene între centrele de greutate al acestor clase. În
plus, nici centrele de greutate nu mai trebuie calculate.
Aşadar, odat¼ a calculate disimilarit¼ aţile dintre indivizi, se poate lucra
numai pe matrici de disimilarit¼ aţi prin aplicarea succesiv¼ a a formulei Lance-
Williams.
¼
2.4. METODE DE CLASIFICARE IERARHICA 125
iar, pe de alt¼
a parte, tot din Lema 2.4.1
PC PA 2
d (gC ; gA ) = (A; C) ;
PC + PA
PC PB 2
d (gC ; gB ) = (B; C) ;
PC + PB
PA PB 2
d (gA ; gB ) = (A; B) :
PA + PB
Rezult¼
a
1
d2 (gC ; gAB ) = [(PC + PA ) (A; C) + (PC + PB ) (B; C)
PC PAB
PC (A; B)]
deci
(PA + PC ) (A; C) + (PB + PC ) (B; C) PC (A; B)
(C; (A; B)) = :
PA + PB + PC
Pasul 3 Se calculeaz¼
a elementele matricii n 1 astfel:
- se copiaz¼
a coloanele matricii n;
126 CAPITOLUL 2. METODE DE CLASIFICARE
b se calculeaz¼
- coloana ij a dup¼
a formula generalizat¼
a a lui Lance-Williams:
Px (x; z) + Py (y; z)
d (A; B) = cu A = fx; yg ; B = fzg :
Px + Py
Observaţia 2.4.5
Ierarhiile induse de diferitele distanţe sunt în general diferite. Se recomand¼ a
aşadar, utilizarea mai multor tipuri de clasi…c¼ari. Acestea nu trebuie s¼
a difere
prea mult când se priveşte partea superioar¼ a a arborelui de clasi…care. Dac¼ a
totuşi acest lucru se întâmpl¼ a, se poate conchide c¼ a mulţimea indivizilor se
preteaz¼a prost la orice clasi…care.
Exemplu:
Fie matricea de disimilaritate dintre indivizii fa; b; c; d; eg :
a b c d e
a 0 3 7 3 4
b 0 4 4 1
c 0 2 6
1
d 0 2
e 0
Intr-adev¼
ar, aceasta este o matrice de disimilaritate deoarece (c; e) >
(c; d) + (d; e) , 6 > 2 + 21 :
S¼
a aplic¼
am algoritmul de clasi…care ierarhic¼ a ascendent¼a folosind, pe
rând, tipurile de disimilarit¼
aţi enumerate mai sus.
a b c f
a 0 3 7 3
1
1. f = fd; eg ; i (f ) = 2 b 0 4 1
c 0 2
f 0
a c g
a 0 7 3
2. g = ff; bg ; i (g) = 1
c 0 2
g 0
128 CAPITOLUL 2. METODE DE CLASIFICARE
a h
3. h = fc; gg ; i (h) = 2 a 0 3
h 0
4. i = fa; hg ; i (i) = 3 .
a b c f
a 0 3 7 4
1
1. f = fd; eg ; i (f ) = 2 b 0 4 4
c 0 6
f 0
c f g
c 0 6 7
2. g = fa; bg ; i (g) = 3
f 0 4
g 0
c h
3. h = ff; gg ; i (h) = 4 c 0 6
h 0
4. i = fh; cg ; i (i) = 7:
¼
2.5. CLASIFICARE MIXTA 129
Combinarea celor dou¼ a metode a dat naştere unui algoritm mixt (hybrid
clustering, [64]).
Algoritmul de clasi…care mixt¼ a conţine trei etape: mulţimea elementelor
de clasi…cat este partiţionat¼ a (centrii mobili) în câteva zeci, eventual sute de
partiţii omogene; se procedeaz¼ a apoi la agregarea ierarhic¼ a a acestor grupe
cu scopul ca dendrograma obţinut¼ a s¼a sugereze num¼ arul de clase …nale ce
trebuie reţinute; în …ne, se optimizeaz¼ a (folosind iar¼
aşi tehnica centrilor mobili)
partiţia obţinut¼
a prin t¼
aierea arborelui.
Etapele algoritmului sunt:
x=n
Xk X Cnxj Cnnk njx
pk (j) = Prob (N nkj ) = Prob (N = x) =
x=njk
Cnnk
134 CAPITOLUL 2. METODE DE CLASIFICARE
Cu cât aceast¼ a probabilitate este mai mic¼ a, cu atât ipoteza unei extrageri
aleatoare este mai di…cil de acceptat. Vom folosi aceast¼ a probabilitate pentru a
ordona modalit¼ aţile caracteristice clasei (cea mai caracteristic¼ a corespunzând
celei mai mici probabilit¼ aţi).
Aceast¼ a probabilitate este adesea foarte mic¼ a; este comod s¼ a i se substi-
tuie valoarea tk (N ) a variabilei Gauss-Laplace corespunzând aceleiaşi proba-
bilit¼
aţi. Ea m¼asoar¼a distanţa între proporţia în clas¼a şi proporţia general¼
a în
num¼ ar de abateri standard a legii normale. Cum
nj n nk nj nj
E (N ) = nk şi s2k (N ) = nk 1 )
n n 1 n n
N E (N )
) tk (N ) = :
sk (N )
2.5.3 Exemplu
Descrierea datelor
În cadrul subcapitolelor 1.4.6 respectiv 2.3.2, am analizat un set de date
(tabelul A.4. (Anex¼ a)) reprezentând informaţii asupra unor însuşiri …zice şi
temperamentale a 27 de rase de câini. Rezultatele obţinute relativ la clasi-
…carea acestor rase sunt uşor diferite pentru cele dou¼ a analize. Pentru a ne
decide asupra unei interpret¼ ari, vom aplica o metod¼ a de clasi…care ierarhic¼a-
Joining (Tree Clustering), al c¼arei avantaj îl reprezint¼
a capacitatea de oferi o
idee asupra num¼ arului de clase existente efectiv în cadrul populaţiei raselor de
câini. Se vor folosi pentru aceast¼ a analiz¼
a datele de intrare din tabelul A.4.,
modi…cate conform indicaţiilor din subcapitolul 2.3.2.
tipul datelor de intrare (input …le) - se alege opţiunea Raw data deoarece
tabelul A.4. nu reprezint¼ a o matrice de distanţe sau de corelaţii;
entit¼
aţile de clasi…cat (cluster ) - se alege opţiunea Cases (rows) deoarece
scopul analizei pentru acest exemplu este clasi…carea raselor de câini;
¼
2.5. CLASIFICARE MIXTA 135
tipul de distanţ¼
a (Distance measure) - se alege distanţa euclidian¼
a (Euclid-
ean distances) deoarece indivizii sunt v¼azuţi ca puncte în spaţiul euclid-
ian R6 (6 reprezint¼ a num¼arul de variabile m¼asurate pe …ecare individ)
METODE EXPLICATIVE
UZUALE
139
140 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
turilor între variabile şi pentru a trata cu prudenţ¼ a variabilele corelate, şi deci
redundante, ce risc¼ a s¼
a încarce inutil modelul.
Metodele explicative prezentate în secţiunile 3.1 3.3 acoper¼ a utiliz¼arile
cele mai curente.
Analiza discriminant¼a (secţiunile 3.1 şi 3.2) este, schematic vorbind,
analog¼ a cu regresia multipl¼ a când variabila endogen¼ a y este discret¼a. În acest
caz, variabila de explicat de…neşte clasele unei partiţii à priori a populaţiei.
Scopul analizei îl constituie studierea legaturilor între variabilele explicative
şi clasele partiţiei (secţiunea 3.1). Se de…nesc astfel funcţii discriminante care
vor permite, într-o etap¼ a decizional¼a, afectarea de noi indivizi la aceste clase
(secţiunea 3.2).
Tehnicile de segmentare prin arbore binar (secţiunea 3.3) sunt prezen-
tate în cadrul acestui capitol din diferite motive. Pe de o parte ele se aplic¼ a
la toate variabilele, oricare ar … statutul sau natura lor, pe alt¼ a parte ele inte-
greaz¼ a simultan faza explicativ¼ a şi cea decizional¼
a. Aceste tehnici constituie,
astfel, o metod¼ a de previziune foarte accesibil¼ a ale c¼
arei rezultate sunt uşor de
interpretat.
respectiv
n q
1X Xn
k k
g = (xj )j=1;p , cu xj = xij = x :
n n j
i=1 k=1
persia empiric¼
a a lui a este
2 32
n
X n
X Xp
1 1 4
D2 (a) = 2
a (i) = aj (xij xj )5
n n
i=1 i=1 j=1
p
n X
X p
X
1
= aj aj 0 (xij xj ) xij 0 xj 0 :
n
i=1 j=1 j 0 =1
dispersia empiric¼
a a variabilei a se poate scrie
p X
X p
2 j0=1;p
D (a) = aj aj 0 cov xj ; xj 0 = a0 Ta, unde T = tjj 0 j=1;p
:
j=1 j0=1
X X
xij xkj xkj0 xj 0 = xkj0 xj 0 xij xkj =
i2Ik i2Ik
0 1
X
= xkj0 xj 0 @ xij nxkj A = 0
i2Ik
144 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Notând cu
q
1 XX
djj 0 = xij xkj xij 0 xkj0
n
k=1 i2Ik
şi cu
q
X nk
ejj0 = xkj xj xkj0 xj 0
n
k=1
se poate scrie
T=D+E (1)
j 0 =1;p j 0 =1;p
unde D = djj 0 j=1;p şi E = ejj 0 j=1;p :
Astfel, dispersia unei combinaţii liniare de variabile, a, se descompune în
a0 Ta = a0 Da + a0 Ea: (2)
a0 Ta Ea = a0 Ea Ta
a0 Ea 1
Ea= Ta j T
a0 Ta
1 a0 Ea
T Ea= a =f (a) a (3)
a0 Ta
Aşadar f (a) este maxim¼
a dac¼a este egal¼
a cu , valoarea proprie maxim¼
a
1
a matricii T E iar a este vector propriu corespunz¼ator lui maxim
¼
3.1. ANALIZA DISCRIMINANTA 145
Observaţia 3.1.1
1. T 1 E este o matrice p p, în general nesimetric¼ a. Din punct de vedere al
calcului numeric, având în vedere c¼ aq p, este mai uşor a a‡a vectorii
şi valorile proprii ale unei matrici simetrice de dimensiune q q şi a g¼ asi
o exprimare a lui a în funcţie de aceste elemente.
CC0 T 1
Cw = Cw (4)
Dac¼
a w este vector propriu corespunz¼ ator lui ; al matricii C0 T 1 C
atunci el veri…c¼
a relaţia (4) şi a şi veri…c¼a relaţia (3). Cum şi C0 T 1 C 2
Mq q (R) este simetric¼ a, în practic¼ a se diagonalizeaz¼ a aceast¼
a matrice iar
apoi se a‡a¼ a = T 1 Cw.
3. max se numeşte putere discriminant¼ a şi din (1) este mai mic¼ a sau egal¼ a
cu unu. Într-adev¼ a a0 Ta = a0 Da + a0 Ea: Dar T este
ar, din (1) rezult¼
pozitiv de…nit¼a (deoarece este matrice de covarianţ¼ a)) a0 Ta > 0; (8) a,
deci în egalitatea de mai sus se poate împ¼ arţi cu scalarul a0 Ta şi se obţine
a0 Da a0 Ea
1= + 0 :
a0 Ta a Ta
obiecte noi sunt asociate uneia sau alteia dintre clasele stabilite, se numeşte
faz¼a de lucru/decizional¼a /de afectare. Uneori faza de instruire şi cea de lucru
pot s¼a coincid¼a sau s¼a se suprapun¼ a parţial. Este ceea ce se întâmpl¼ a în cazul
clasi…c¼arii nesupervizate.
S¼a consider¼am c¼ a în mulţimea obiectelor (reprezentate sub form¼ a de vec-
tori) sunt prezente q clase, notate A1 ; : : : ; Aq . Distingem urm¼ atoarele trei
cazuri de separabilitate:
Cazul 1. Fiecare clas¼ a este separat¼ a de toate celelalte printr-o singur¼a
suprafaţ¼a de decizie. Exist¼a, deci, q funcţii de decizie. Not¼am cu gi (x) : Rp !
R funcţia de decizie corespunz¼ atoare clasei Ai . Ecuaţia suprafeţei de decizie
ce separ¼a clasa de toate celelalte clase este gi (x) = 0.
Pentru …ecare clas¼ a Ai regula de afectare este
Cazul 3. Exist¼
a k funcţii de decizie. Regula de decizie se formuleaz¼
a
astfel:
x 2 Ai , gi (x) > gj (x) ; (8) j 6= i:
Regiunea de decizie R corespunz¼
atoare clasei Ai va … aşadar
Observaţia 3.1.2
Separabilitatea de tip 3 implic¼
a separabilitatea de tip 2. Într-adev¼
ar, s¼
a con-
sider¼
am
gij (x) = gi (x) gj (x)
şi s¼
a admitem separabilitatea claselor A1 ; : : : ; Aq în condiţiile cazului 3. Dac¼
a
x aparţine regiunii clasei Ai , atunci gi (x) > gj (x) ; 8j 6= i. Deci gij (x) >
0; 8j 6= i. Rezult¼
a aşadar c¼
a, dac¼
a clasele sunt separabile în condiţiile cazului
3, ele sunt separabile şi conform cazului 2. Reciproca nu este, în general,
valabil¼a.
cu
w = (w1 ; : : : ; wp )0 şi wi 2 R; i = 1; p:
Vectorul w se numeşte vector pondere sau vector parametru.
¼
3.1. ANALIZA DISCRIMINANTA 151
hu; x x0 i = u0 (x x0 ) = 0
u0 (z0 + tu x0 ) = 0
152 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
şi deci
tu0 u = u0 (x0 z0 )
de unde, ţinând cont c¼
a kuk = 1, g¼
asim
u0 (x0 z0 )
t= 2 = u0 (x0 z0 )
kuk
Punctul de intersecţie al dreptei 4 cu hiperplanul H va … aşadar
x1 = z0 + u0 (x0 z0 ) u:
Distanţa de la punctul z0 la hiperplan este, deci,
d (H; z0 ) = kx1 z0 k =
0
= u (x0 z0 ) kuk =
0
= u (x0 z0 )
Distanţa de la originea spaţiului la hiperplan se obţine considerând în
relaţia de mai sus z0 = 0 şi deci
D = d (H; 0) = u0 x0 :
gi (x) = gj (x)
deci se poate scrie
wi0 x+wi;p+1 = wj0 x+wj;p+1 sau w0 x+wp+1 = 0
unde am notat
w = wi wj
wp+1 = wi;p+1 wj;p+1:
Din relaţia de mai sus rezult¼ a c¼
a ecuaţia hiperplanului de separare în
spaţiul caracteristicilor se mai poate scrie sub forma
w0 wp+1
x+ =0
kwk kwk
¼
3.1. ANALIZA DISCRIMINANTA 153
Comparând aceast¼
a ecuaţie cu ecuaţia general¼
a
u0 x u0 x0 = 0
jwp+1 j
D = u0 x0 = :
kwk
d (H; z0 ) = u0 (x0 z0 ) =
wp+1 w0
= z0 =
kwk kwk
1
= w0 z0 + wp+1 :
kwk
d2 (x; Li ) = kx Li k2 = (x Li )0 (x Li ) =
0 0
= xx 2x Li + L0i Li
Am obţinut c¼
a gi este o funcţie a…n¼
a de decizie. Notând
1
ci = Li şi ci;p+1 = L0i Li :
2
se poate scrie gi sub forma standard
gi (x) = c0i x+ci;p+1:
Suprafaţa de decizie ce separ¼
a clasele Ai şi Aj are ecuaţia
gi (x) = gj (x) :
adic¼
a, ţinând cont de forma lui gi ; rezult¼
a
1 0
(Li Lj )0 x L Lj L0i Li = 0;
2 j
ceea ce se mai poate scrie sub forma
1
(Li Lj )0 x (Li + Lj ) = 0:
2
Notând
1
c = Li Lj şi x0 = (Li + Lj ) ;
2
ecuaţia suprafeţei de decizie devine:
c0 (x x0 ) = 0
Suprafaţa de separare este, deci, un hiperplan ce trece prin punctul x0
şi este ortogonal pe vectorul c. Cu alte cuvinte, hiperplanul de separare este
ortogonal pe dreapta ce uneşte prototipurile claselor, pe care o intersecteaz¼ a
într-un punct situat la jum¼ atatea distanţei dintre prototipuri.
Funcţia discriminant¼
a cu distanţ¼
a minim¼ a este adecvat¼a pentru cazurile
când punctele unei clase tind s¼ a se aglomereze în vecin¼ atatea unui punct pro-
totip, formând un nor (cluster ) de puncte.
3.2. METODE PROBABILISTE DE DISCRIMINARE 155
3.2.1 Preliminarii
De…niţia 3.2.1 Fie ( ; K; P ) un câmp de probabilitate şi A; B 2 K cu P (B) >
0: Probabilitatea
P (A \ B)
PB : K ! R cu PB (A) = P (AjB) =
P (B)
Lema 3.2.1
Fie ( ; K; P ) un câmp de probabilitate şi fAi gi2I un sistem complet de eveni-
mente. Are loc urm¼ atoarea egalitate (formula lui Bayes a probabilit¼ aţii
cauzelor)
cu fP (Ai )g probabilit¼
aţi à priorice şi fP (BjAi )g probabilit¼
aţi à posteriori.
Observaţia 3.2.1
f (xjA) = F 0 (xjA) aproape peste tot.
Lema 3.2.2
P (A)f (xjA)
P (AjX = x) = f (x) :
156 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Lema 3.2.3
Dac¼a h este densitatea de probabilitate a variabilei aleatoare (X; Y ), f este
densitatea de probabilitate a variabilei aleatoare X şi g este densitatea de
probabilitate a variabilei aleatoare Y , atunci
R
1. f (x) = R h (x; y) dy;
R
2. g (y) = R h (x; y) dx;
h(x;y)
3. f (xjy) = g(y) dac¼
a g (y) > 0; altfel arbitrar;
4. g (yjx) = h(x;y)
f (x) dac¼
a f (x) > 0; altfel arbitrar;
R
5. f (x) = R f (xjy) g (y) dy;
R
6. g (y) = R g (yjx) f (x) dx;
f (xjy)g(y) R f (xjy)g(y)
7. g (yjx) = f (x) = (formula lui Bayes pentru den-
R f (xjt)g(t)dt
sit¼
aţi de probabilitate):
s¼a …e minim¼a.
R
În cele de mai sus au fost notate cu P (jji; R) = Pi (x)dx; i 6= j;
Rj
aţile de eroare pentru o partiţie R dat¼
i; j = 1; K; probabilit¼ a.
q1 P1 (x) q2 P2 (x)
(2)
q1 P1 (x) + q2 P2 (x) q1 P1 (x) + q2 P2 (x)
Z Z Z
q1 P1 (x)dx+q2 P2 (x)dx = (q1 P1 (x) q2 P2 (x)) dx+ (4)
R2? R1? R2?
Z Z
+q2 P2 (x)dx+q2 P2 (x)dx
R1? R2?
R R R
Dar q2 R? P2 (x)dx+q2 R? P2 (x)dx =q2 P2 (x)dx (= q2 dac¼ a supp P2
1 2
X sau constant¼ a, în caz contrar).
Relaţia (4) va … minim¼ a dac¼a R2? va include punctele x pentru care
q1 P1 (x) q2 P2 (x) < 0 şi va exclude punctele pentru care q1 P1 (x) q2 P2 (x) > 0;
adic¼a R2? = R2 ) R1? = R1 (ca partiţii ale aceluiaşi spaţiu).
a, în plus P PP12 (x)
Dac¼ (x)
= qq21 j i = 0; i = 1; 2; atunci procedura Bayes
este unic¼
a, excepţie o mulţime de probabilitate zero.
Dac¼
a C(1j2) 6= C(2j1) 6= 1 atunci regiunile de decizie se scriu
P1 (x) C(1j2)q2
R1 : x 2X; (5)
P2 (x) C(2j1)q1
P1 (x) C(1j2)q2
R2 : x 2X; <
P2 (x) C(2j1)q1
Observaţia 3.2.2
Regiunile de decizie Bayes se înscriu în cazul 3 de separabilitate.
Dac¼a maximul din enunţul de mai sus este atins pentru k K clase,
atunci lui cB (x) i se va asigna una dintre cele k valori, selectat¼ a aleator.
Dac¼a probabilitatea ca maximul s¼ a …e atins pentru mai mult de un i,
pentru x dat, este zero, atunci plasatorul şi deci şi partiţia R sunt unice,
modulo o mulţime de m¼ asur¼a nul¼a.
Nu exist¼a nici o restricţie pentru tipul de densit¼aţi P1 ; : : : ; Pk . În parti-
cular, acestea nu trebuie s¼ a …e densit¼aţi faţ¼
a de m¼
asura Lebesque.
Dat¼a …ind importanţa conceptului, vom prezenta şi alte propriet¼ aţi ale
procedurilor de discriminare bayesian¼ a.
Fie r(i; j; R) = C(jji)P (jji; R) costul misclas¼
arii unei observaţii din pop-
ulaţia i în populaţia j prin procedura de clasare dat¼ a de partiţia R a spaţi-
ului X (numit¼ a în cele ce urmeaz¼a procedur¼a de clasare).
Dac¼
a q1 = 0 atunci
P (2j1; R? ) = 1
P1 (x)
P (2j1; R) = P ( bjx 2 1) = P (2j1; R? );
P2 (x)
q2 P1 q2
unde R? este procedura Bayes corespunzând lui q1 a R1? :
= b; …indc¼ P2 > q1
q2
şi R2? : PP21 q1 .
Cum R este admisibil¼
a
Din (1) şi din (2) ) P (1j2; R) = P (1j2; R? ); deci R este o procedur¼
a
Bayes. Din unicitatea procedurii Bayes, R este aceeaşi cu R? .
Cu acestea, rezultatul cheie al analizei discriminante clasice este:
adic¼
a X 2 i ) X N ( i ; ) cu i 2 Mp 1 (R) vectorul medie şi 2
Mp p (R) matricea de varianţ¼a-covarianţ¼
a.
Raportul densit¼
aţilor este
1 0 1 (x
P1 (x) exp 2 (x 1) 1)
= 1 0 1 (x
=
P2 (x) exp 2 (x 2) 2)
1 0 1 0 1
= exp (x 1) (x 1) (x 2) (x 2)
2
1 1 0
x0 ( 1 2) ( 1 + 2)
1
( 1 2)
2
3.2. METODE PROBABILISTE DE DISCRIMINARE 163
Observaţia 3.2.3
Primul termen al formulei de mai sus este binecunoscuta funcţie discriminant¼a
a lui Fisher.
1 1 0
R 1 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) ln c
2
1 1 0
R 2 : x0 ( 1 2) ( 1 + 2)
1
( 1 2) < ln c:
2
Dac¼
a probabilit¼
aţile à priorice q1 şi q2 sunt cunoscute, atunci c este dat
de
q2 C(1j2)
c= :
q1 C(2j1)
Observaţia 3.2.4
Cazul particular când q1 = q2 şi C(1j2) = C(2j1) implic¼
a c = 1 şi ln c = 0.
Dac¼a not¼am cu Li = 1
i prototipul populaţiei i; atunci suprafaţa
de separare a celor dou¼
a regiuni este hiperplanul
1
(L1 L2 )0 [x (L1 + L2 )] = 0
2
iar clasi…catorul obţinut este un clasi…cator cu distanţ¼a minim¼a.
Dac¼a probabilit¼aţile à priorice nu sunt cunoscute atunci C = ln c va …
ales astfel încât costurile misclas¼arii s¼
a …e egale. Mai riguros:
0 1(
unde C(ijj) sunt cele dou¼a costuri ale misclas¼arii, = ( 1 2) 1 2)
este distanţa Mahalanobis dintre cele dou¼a populaţii, iar (x) este funcţia de
Rx t2
repartiţie a variabilei aleatoare Gauss-Laplace, adic¼a (x) = 1 p12 e 2 dt.
1 0
Demonstraţie. Fie U = X0 1 ( 1 2) 2 ( 1 + 2)
1(
1 2) :
Regiunile Bayes sunt, conform Corolarului 3.2.2,
R1 : U C şi R2 : U < C;
164 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
0 1 1 0 1 1 0 1
E[U ] = 1 ( 1 2) ( 1 + 2) ( 1 2) = ( 1 2) ( 1 2)
2 2
şi dispersie
D2 [U ] = D2 [X0 1
( 1 2 )] =
0 1 2 1
= ( 1 2) D [X] ( 1 2) =
0 1 1
= ( 1 2) ( 1 2) =
0 1
= ( 1 2) ( 1 2) :
1
Notând „distanţa”dintre cele dou¼
a populaţii cu rezult¼
aU N 2 ; .
1
Dac¼a X N ( 2 ; ) ; atunci U N 2 ; .
În concluzie
1 t 1 2 1 t+ 1 2
1 2 ( 2 ) 1 2( 2 )
f1;U (t) = p e şi f2;U (t) = p e
2 2
Cu acestea, egalitatea costurilor misclasi…c¼
arii se scrie
Z c (t 1
)
2 Z 1 (t+ 12 )
2
1 2 1
C(2j1) p e 2 dt = C(1j2) p e 2 dt:
1 2 c 2
1
t
În membrul stâng al egalit¼
aţii se face transformarea z = p2 , iar în
t+ 12
membrul drept al egalit¼
aţii se face transformarea z = p
3.2. METODE PROBABILISTE DE DISCRIMINARE 165
Cu jacobianul transform¼
arii (acelaşi pentru ambele transform¼
ari) egal cu
p1 , se obţine în …nal
1
Z c
p2 Z 1
1 z2 1 z2
C(2j1) p e 2 dz = C(1j2) c+ 1
p e 2 dz:
1 2 p2 2
R1 y2
şi ţinând cont c¼
a p1 e 2 dy = 1 (x), se obţine egalitatea din enunţul
x 2
teoremei.
Observaţia 3.2.5
1. Reprezentarea gra…c¼
a a problemei este dat¼
a în …gura urm¼
atoare:
Zona haşurat¼
a este zona de misclasare.
S¼
a not¼am c¼a cele dou¼a condiţii pentru ca procedura de clasi…care s¼ a …e
minimal¼a şi complet¼a, anume P (P1 (x) = 0jx 2 2 ) = 0 şi P (P2 (x) =
0jx 2 1 ) = 0 cât şi P ( PP21 (x)
(x)
= bjx 2 1 ) = 0 şi P ( PP12 (x)
(x)
= bjx 2 2 ) = 0
sunt îndeplinite.
2. Dac¼
a C(1j2) = C(2j1) atunci egalitatea probabilit¼ aţilor de misclasare
R1 y2
implic¼ arii este p p12 e 2 dy =
a C = 0 şi deci probabilitatea misclas¼
p 2
1 2 .
D2 (x0 d)
166 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
@L 0
= 0 ) 2[( 1 2) ( 1 2 ) ]d =2 d
@d
deoarece este simetric¼a.
0
Cum ( 1 2 ) d =s este un scalar, ecuaţia de mai sus se rescrie
s 1
1 2 = d)d= ( 1 2)
s
deoarece este pozitiv de…nit¼a, deci inversabil¼
a.
s
d este proporţional cu . Pentru determinarea lui se utilizeaz¼
a -
normarea lui d, adic¼
a
s 2 s 1
d0 d =1 ) ( 1 2)
1
( 1 2) =1) = :
k 1 2k
Aşadar x0 este funcţia liniar¼ a care are cea mai mare dispersie între clase
(dispersia interclase) relativ la dispersia în clase (dispersia intraclase).
Atunci când populaţiile sunt cunoscute, criteriul folosit este optim din
punct de vedere al minimiz¼ arii erorii de clasare. Când probabilit¼aţile à priori
nu sunt cunoscute, procedura genereaz¼ a o clas¼
a de proceduri admisibile. Ce
se poate spune despre cazul estimaţiilor?
3.2. METODE PROBABILISTE DE DISCRIMINARE 167
¼ POPU-
3.2.2.3 CLASIFICAREA BAYES ÎN CAZUL A DOUA
LAŢII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
NECUNOSCUŢI
(i) (i)
Estimatori de resubstituţie (plug-in) Fie x1 ; : : : ; xni 2 N ( i; ); i =
1; 2, dou¼
a selecţii bernoulliene.
Se cunosc rezultatele urm¼ atoare:
ni
1 X (i)
xi = xj ; i = 1; 2;
ni
j=1
ni
2 X
X (i) (i) 0
[(n1 1) + (n2 1)] S = [n1 + n2 2] S = xj xi xj xi
i=1 j=1
atunci
1 (1) 0
V12 = X0 S x(1) x(2) x + x(2) S 1
x(1) + x(2) =
2
0
1 (1)
= X x + x(2) S 1
x(1) x(2) = Z12 S 1
Y12 :
2
Din construcţie
(1) (1) 1 1
Y12 N ; +
n1 n2
iar
1 (1) (2) 1 1 (1)
Z12 N ; 1+ + ; dac¼
aX N ;
2 4n1 4n2
1 (2) (1) 1 1 (2)
Z12 N ; 1+ + ; dac¼
aX N ;
2 4n1 4n2
şi
1 1
cov(Z12 ; Y12 ) = :
2n1 2n2
Dac¼
a n1 = n2 atunci cov(Z; Y) = 0. În acest caz distribuţia lui V
când X 2 1 este aceeaşi cu a lui V când X 2 2 . Atunci, dac¼ a R1 =
fx 2 XjV (x) 0g, probabilit¼
aţile de misclasare sunt egale.
168 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Asimptotic, cum
x(1) ! (1)
; x(2) ! (2)
; când n1 ; n2 ! 1 şi
S ! ; când n1 ; n2 ! 1:
rezult¼
a
1
S x(1) x(2) ! 1 (1) (2)
şi
0 0
x(1) + x(2) S 1
x(1) x(2) ! (1)
+ (2) 1 (1) (2)
1 1 (1) 0
R1 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) ln k
2
1 1 (1) 0
R2 : x0 S x(1) x(2) x + x(2) S 1
x(1) x(2) < ln k:
2
Anderson (în [2]) argumenteaz¼ a c¼a acest criteriu minimizeaz¼ a costurile
misclas¼arii dac¼
a parametrii populaţiilor sunt cunoscuţi şi continu¼
a: „it seems
intuitively reasonable that the above relations should give good results”.
Dac¼a se doreşte clasi…carea selecţiilor reunite ca un tot, atunci se uti-
lizeaz¼
a urm¼ atorii estimatori, respectiv criteriu:
n = n1 + n2 ;
n
1X
x = xj
n
j=1
cu
xj 2 1 =2 2;
Xn
(n1 + n2 + n 3) S = S+ (xj x) (xj x)0
j=1
respectiv
0
1 1
R1 : x (x1 + x2 ) S (x1 x2 ) c
2
Se poate ar¼
ata c¼
a n! 1 ) P (1j2); P (2j1) ! 0.
3.2. METODE PROBABILISTE DE DISCRIMINARE 169
Particulariz¼
ari ale Teoremei 3.2.1.
a) Cazul K = 2 (dou¼
a clase). Particularizând regiunile de decizie de mai
sus, se obţine
Când
x(1) +x(2)
p = 1 atunci V12 (x) = 0 ) x = 2 ; "suprafaţa" de decizie este un punct;
deoarece Vij (x) = Vji (x) şi V23 (x) = V13 (x) V12 (x) ; şi
R3 = fx 2 XjV32 (x) > 0; V31 (x) > 0g = fx 2 XjV13 (x) < 0; V12 (x) > V13 (x)g
Dac¼a p = 1 (o singur¼ a) şi presupunând x(1) < x(2) < x(3) ;
a caracteristic¼
atunci regiunile de decizie devin semidrepte şi segment de dreapt¼ a, adic¼
a:
x(1) + x(2)
R1 : x2R cu x < ;
2
x(1) + x(2) x(2) + x(3)
R2 : x2R cu x ;
2 2
x(2) + x(3)
R3 : x2R cu < x:
2
Când p = 2 regiunile de decizie devin semiplane (…gura 3.2.2.).
2
Xn1
b (0) = 1 4 (1) (0) (1) (0) 0
xj b1 xj b1 +
n1 + n2 + 1
j=1
3
n2
X
(0) (0) 0 (2) (0) (2) (0) 0 5
+ x b1 x b1 + xj b2 xj b2
j=1
Se noteaz¼a
n
X (1)
1
(0) (1) (0) 0 (0) (0) 0
A= xj b1 xj b1 + x b1 x b1 :
j=1
Deoarece
n1
X (1) (1) 0 (0) (0) 0
A = xj x1 xj x1 + n1 x1 b1 x1 b1
j=1
(0) (0) 0
+ x b1 x b1
n1
X (1) (1) 0 n1
= xj x1 xj x1 + (x x1 ) (x x1 )0
n1 + 1
j=1
Rezult¼
a
b (0) = 1 n1
C+ (x x1 ) (x x1 )0
n1 + n2 + 1 n1 + 1
P
2 P
ni
(1) (1) 0
cu C = xj xi xj xi .
i=1 j=1
Analog, sub HA estimatorii de verosimilitate maxim¼
a sunt:
(A)
b1 = x1 ;
(A) n2 x2 + x
b2 = ;
n2 + 1
b (A) 1 n2
= C+ (x x2 ) (x x2 )0 :
n1 + n2 + 1 n2 + 1
Raportul de verosimilitate devine, aşadar
1+ n2
n2 +1 (x x2 )0 C 1 (x x2 )
= iar
1+ n1
n1 +1 (x x1 )0 C 1 (x x1 )
R1 : x cu C (acele puncte x care maximizeaz¼
a pe ).
172 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Estimare bayesian¼ a Natura discuţiei din acest paragraf este foarte difer-
it¼
a din punct de vedere conceptual de abordarea anterioar¼ a. Anterior a fost
prezentat¼a o metodologie pornind de la un punct de vedere frecventist: s-a
presupus o selecţie aleatoare dintr-o populaţie având densitatea de probabi-
litate f (x; ) cu x 2 X şi 2 . Parametrul necunoscut este presupus
…xat. O procedur¼ a de inferenţ¼
a frecventist¼
a depinde de funcţia de verosimili-
Q
n
tate L ( ) = f (xi ; ) ; unde este necunoscut dar …x.
i=1
În demersul bayesian experimentatorul presupune/crede, înainte de a
„vedea datele”(à priori), c¼ a parametrul necunoscut este o variabil¼ a aleatoare
având o distribuţie de probabilitate proprie pe (spaţiul parametrilor), notat¼ a
h ( ) şi numit¼a distribuţia à prioric¼a (prior distribution) a lui . f (x; ) devine,
în acest context, f (xj ).
Distribuţia à prioric¼ a h ( ) re‡ect¼a adesea intuiţia subiectiv¼a a statis-
ticianului privitoare la ce valori ale lui sunt mai puţin probabile când se
consider¼ a întreg spaţiul parametrilor, .
Distribuţia à prioric¼ a este, în cazul ideal, dat¼
a/…xat¼ a înainte de începerea
experimentului (a culegerii selecţiei bernoulliene).
Paradigma bayesian¼ a implic¼a combinarea informaţiilor à priorice cu cele
date de funcţia de verosimilitate şi obţinerea a ceea ce se numeşte distribuţie
à posteriori, via teorema Bayes.
Ca fapt istoric este de reţinut opoziţia vehement¼ a a lui R.A.Fisher la tot
ce era bayesian.
Se cunosc urm¼ atoarele fapte:
- distribuţia comun¼
a a lui x şi este dat¼
a de
- distribuţia marginal¼
a a lui x este, atunci,
Z
m (x) = f (xj ) h ( ) d
f (xj ) h ( )
h ( jx) = h ( jX = x) = ; m (x) > 0; x 2 X, 2 :
m (x)
Propoziţia 3.2.3
Dac¼ a N (m; S) şi x N ( ; ) ; atunci h ( jx) este densitatea de probabi-
litate a unei N ( ; C) cu = S (S + ) 1 x + (S + ) 1 m şi
C = (S + ) 1 S.
Demonstraţie. Dup¼ a observarea lui x; densitatea condiţionat¼
a h ( jx) poate
… scris¼
a
h ( ) f (xj )
h ( jx) = R = Ch ( ) f (xj ) ;
R h ( ) f (xj ) d
cu C factor ce depinde de x dar nu şi de .
Din ipotezele propoziţiei rezult¼
a
1 1
h ( jx) = c1 exp ( m)0 S 1 ( m) exp (x )0 1
( x) =
2 2
1 0 1 1 0
= c1 exp mS m S 2 0S 1m
2 2
1 0 1
exp 2 0S 1
x + x0 1
x :
2
În …nal se obţine
1 0 1 1 0 1 1
h ( jx) = c2 exp +S 2 x+S m ; (1)
2
unde factorii care nu depind de au fost absorbiţi în c1 şi c2 .
Deoarece paranteza dreapt¼ a din exponentul egalit¼ aţii (1) este o form¼
a
p¼
atratic¼a, rezult¼
a c¼
a densitatea de probabilitate h ( jx) este o densitate a unei
variabile aleatoare normale. Pentru a determina parametrii acestei legi se scrie
h ( jx) sub forma
1 1 1
h ( jx) = c3 exp ( )0 C 1
( ) = c4 exp 0
C 1
2 C
2 2
(2)
Comparând (1) cu (2) se obţine
1 1 1 1 1 1 1 1
C = +S şi C = x+S m) =C x + CS m:
Se observ¼
a c¼
a, dac¼
aC 1 = 1 +S 1; atunci
1 1
C= ( + S) S = S (S + ) :
Într-adev¼
ar
h i 1 h i 1
1 1 1 1
C = (S + ) S =S (S + ) =
= S 1 (S + ) 1
= 1
+S 1 =C 1
h i 1 h i 1
C 1
= S (S + ) 1 = 1
S (S + ) 1 =
1 1 1 1 1
= (S + )S = +S =C :
Înlocuind (2) în expresia lui rezult¼
a formula din enunţ.
174 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Corolarul 3.2.3
Dac¼
a N ; 20 şi x N ; 2
1 atunci densitatea à posteriori a lui este
1 2 2 1
2 x 1 1 2 1 1
N ; cu = 2 + 2 2 + 2 şi = 0
2+
1
2 = 2 + 2 .
1 0 0 1 0 1 0 1
L? ( ; ) L? ( ; (T )) = [ (T ) ]2 :
r? ( ; ?
) = inf r? ( ; ) ; ?
2 B;
2B
unde B este clasa estimatorilor pentru care riscul bayesian este …nit.
Z Z
? ?
r ( ; ) = L? ( ; (t)) f (tj ) h ( ) dt d =
Z Z
= L? ( ; (t)) f ( jt) d m (t) dt:
3.2. METODE PROBABILISTE DE DISCRIMINARE 175
@ 2 ?
(t) 2 E [ jt] + =0) = E [ jT (x) = t] :
@
Corolarul 3.2.4
Fie x1 ; : : : ; xn variabile aleatoare independente şi identic repartizate N ; 21
Pn
cu necunoscut şi 1 > 0 dat. Consider¼ am statistica T = n1 xi ; care este
i=1
su…cient¼a pentru . Se presupune c¼ a distribuţia à priori a lui pe spaţiul =
2
R este N ; 0 cu şi 0 > 0 2 R daţi. Atunci distribuţia à posteriori a lui
condiţionat¼
a de observaţiile x1 ; : : : ; xn este, conform propoziţiei anterioare,
N ; 2 cu
n 20 2
1
= 2 T (x) + ;
n 20 + n 1 n 2
0 + 2
1
2 2
2 0 1
= 2 + 2:
n 0 1
Observaţia 3.2.6
S¼
a observ¼ am c¼a este o combinaţie convex¼
a între x (= T (x) ) şi ; deci se
a‡a¼ între aceste valori.
mi (x) qi
P( i jx) = ; i = 1; 2;
m1 (x) q1 + m2 (x) q2
R
unde mi (x) = i fi (xj ) hi ( ) d este densitatea de probabilitate marginal¼
a
a lui x condiţionat de faptul c¼
a provine din i .
Este evident c¼a o procedur¼a bayesian¼
a de discriminare este
P( jx)
- x2 1 dac¼
a P(
1
2 jx) = B12 (x) qq12 1;
- x2 2 în caz contrar,
m1 (x)
unde B12 (x) = m2 (x) este cunoscut ca factorul Bayes al populaţiei 1
versus 2 .
3.2. METODE PROBABILISTE DE DISCRIMINARE 177
3.2.3 Exemplu
Descrierea datelor
Acest exemplu are ca scop construirea unor funcţii liniare care s¼a discrimineze
cât mai bine între trei tipuri de irişi pornind de la m¼asur¼atorile de lungime şi
l¼
aţime ale petalelor şi sepalelor. La baza exemplului st¼ a un set de date clasic
(tabelul A.5. din Anex¼ a), introdus de Fisher în 1936, în care se identi…c¼a:
p = 4 variabile independente:
– SEPALLEN=lungimea sepalelor,
– SEPALWID=l¼
aţimea sepalelor,
– PETALLEN=lungimea petalelor,
– PETALWID=l¼
aţimea petalelor,
variabla dependent¼
a (de grupare):
a fost atins num¼ arul de paşi speci…cat în caseta Number of steps. Deoa-
rece în acest caz nu exist¼a speci…caţii à priori în acest sens, num¼
arul de
paşi este setat egal cu num¼ arul variabilelor.
Pasul 4.
La pasul patru, toate variabilele au fost introduse în model iar acesta
are o putere de discriminare semni…cativ¼ a (Wilk’s lambda= 0; 023; F = 199:1;
p < 0:0000). În tabelul obţinut prin ap¼asarea butonului Variables in the model
(tabelul 3.2.3), valorile Partial Wilk’s lambda indic¼a faptul c¼ a PETALLEN şi
PETALWID au cele mai mari valori ale puterii de discriminare, deci petalele
sunt cele care deosebesc cel mai bine cele trei tipuri de irişi.
în discriminare, cu toate c¼
a, dup¼
a cum vom vedea, ambele funcţii sunt
statistic semni…cative.
Wilk’s lambda şi Chi-square sunt statistici folosite pentru a testa sem-
ni…caţia funcţiilor de discriminare.
Valorile p indic¼
a faptul c¼
a, pentru acest exemplu, ambele funcţii sunt
semni…cative din punct de vedere statistic.
Se observ¼ a c¼
a toti irişii de tip SETOSA au fost corect clasi…caţi, fapt
la care ne aşteptam în urma observaţiilor de pân¼ a acum, şi c¼a irişii de tip
VERISCOL şi VIRGINIC au fost corect clasi…caţi în procent de 96% respec-
tiv 98%. Aceste rezultate indic¼ a o precizie foarte bun¼ a în clasi…care, dar
trebuie ţinut cont c¼
a aceasta s-a f¼ acut pe mulţimea indivizilor utilizaţi pentru
construirea modelului (mulţimea de antrenare), aşadar este foarte posibil ca
precizia s¼a scad¼
a atunci când sunt clasi…caţi indivizi noi (indivizi de test). Ma-
tricea de clasi…care pentru mulţimea de test poate … considerat¼ a un estimator
nedeplasat al erorii de misclasare.
3.3 Segmentare
Metodele de segmentare urm¼ aresc rezolvarea problemelor de discriminare
şi de regresie prin împ¼arţirea progresiv¼
a a eşantionului într-un arbore de decizie
binar¼a.
Pionieri în acest domeniu sunt consideraţi a … Sonquist şi Morgan precum
şi Morgan şi Messenger cu metoda AID (Automatic Interaction Detection).
Au urmat numeroase contribuţii iar lucr¼ arile lui Breiman cu metoda CART
(Classi…cation and Regression Tree) au îmbog¼ aţit domeniul şi au resuscitat
interesul pentru segmentare.
Propriet¼aţile metodei de segmentare pot … sintetizate astfel:
avantajele metodei:
dezavantajele metodei:
– regulile de afectare pot ap¼ area uneori ”aberante” şi prea sensibile
la perturbaţii uşoare ale datelor ;
– lipsa unei funcţii de afectare global¼
a (ce utilizeaz¼
a toate variabilele),
ce priveaz¼a utilizatorul de o reprezentare geometric¼ a.
190 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
- un sub-arbore A; obţinut din Amax prin "tunderea" uneia sau mai multor
ramuri.
d) afectarea …ec¼
arui nod terminal unei clase;
1. La început exist¼
a un singur segment conţinând toţi indivizii;
1. Se aplic¼
a iterativ pasul 2 …ec¼
arui segment descendent obţinut.
Procedeul se opreşte când toate segmentele sunt declarate terminale:
- …e c¼
a nu mai necesit¼
a vreo diviziune;
- …e pentru c¼a "talia lor" (num¼arul de indivizi afectaţi nodului) este
inferioar¼
a unui efectiv …xat (în practic¼
a acesta se alege între 1 şi 5).
2. Afectarea unui individ nou se face prin "coborârea" lui pe ramurile ar-
borelui.
- una singur¼
a, dac¼a variabila explicativ¼
a xj este binar¼
a. În aceast¼
a situaţie
segmentul ts va conţine toate observaţiile pentru care xj = 1, iar seg-
mentul td toate observaţiile pentru care xj = 2 (am presupus c¼ a valorile
luate de variabila binar¼
a sunt 1 şi 2);
- k 1, dac¼ a variabila explicativ¼
a xj are k modalit¼aţi ordonate: 1; 2; : : : ; k,
cu k > 2. Într-adev¼ ar, prima diviziune va dirija toate observaţiile pen-
tru care xj = 1 spre segmentul ts şi toate observaţiile pentru care
xj 2 f2; 3; : : : ; kg spre segmentul td . A doua diviziune va dirija toate
observaţiile pentru care xj 2 f1; 2g spre segmentul ts şi toate observaţi-
ile pentru care xj 2 f3; : : : ; kg spre segmentul td . Diviziunea k 1 va
dirija toate observaţiile pentru care xj 2 f1; 2; 3; : : : ; k 1g spre segmen-
tul ts şi toate observaţiile pentru care xj = k spre segmentul td ;
- 2k 1 1, dac¼
a variabila explicativ¼
a xj are k modalit¼
aţi neordonate.
Pentru selectarea celei mai bune diviziuni a unui nod se pot utiliza mai
multe criterii. Breiman (în [7]) recomand¼
a utilizarea criteriilor bazate pe noţi-
unea de impuritate.
3.3. SEGMENTARE 193
De…niţia 3.3.2 Impuritatea unui segment (nod) a, notat¼ a i (a), este o funcţie
nenegativ¼a de P [1ja] ; : : : ; P [kja] (unde P [rja] este probabilitatea condiţion-
at¼
a de apartenenţ¼
a la un grup Gr ; r = 1; k , a mulţimii observaţiilor din nodul
a), care veri…c¼
a urm¼atoarele condiţii:
Lema 3.3.1
Orice diviziune d a unui nod a duce la o reducere pozitiv¼
a sau nul¼
a a impu-
rit¼
aţii, adic¼
a:
i (d; a) 0;
egalitatea …ind obţinut¼
a dac¼
a şi numai dac¼
a P [rjts ] = P [rjtd ] = P [rja] ; (8)
r = 1; k:
Demonstraţie.
ps i (ts ) + pd i (td )
= ps f [P [1jts ] ; : : : ; P [kjts ]] + pd f [P [1jtd ] ; : : : ; P [kjtd ]] (1)
f [ps P [1jts ] + pd P [1jtd ] ; : : : ; ps P [kjts ] + pd P [kjtd ]]
c¼
aci i (a) este strict concav¼
a.
194 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Pe de alt¼
a parte
deci
d? = max d?j :
1 j p
Dac¼ a minimul este atins pentru cel puţin dou¼ a clase atunci nodul este
afectat arbitrar uneia dintre aceste clase.
Urm¼ atoarea proprietate este foarte util¼
a în practic¼
a:
Lema 3.3.2
Dac¼a (s=r) = 1, (8) s 6= r şi (s=s) = 0, (8) s; atunci nodul va … asignat
clasei cu cei mai mulţi reprezentanţi în ea.
3.3. SEGMENTARE 195
Demonstraţie. Într-adev¼
ar, …e s0 acea clas¼
a. Se observ¼
a c¼
a
nr
p (rja) = ;
na
adic¼
a un sistem de k 1 inegalit¼
aţi cu acelaşi membru stâng.
Reducând termenii asemenea se obţin k 1 inegalit¼ aţi de forma
nr < ns0 ; r = 1; k; r 6= s0
adic¼
a ns0 este maximal.
Costul misclas¼
arii unei observaţii aparţinând nodului a, notat c (a), este
X
c (a) = min (s=r) p (rja) :
s
r
Costul misclas¼
arii datorat¼
a nodului a, notat C (a), este
cu
- nsr num¼
arul de indivizi din clasa r clasaţi în clasa s; s 6= r.
196 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
- determin¼
a "cel mai bun" subarbore f¼ ar¼a s¼
a utilizeze teste statistice pen-
tru de…nirea unei reguli de oprire a diviziunii ;
- determin¼
a o estimaţie precis¼
a a erorii teoretice de clasare.
cu Ret = net se2t , unde ne este volumul eşantionului test, net este num¼ arul de
e
n
2
indivizi din eşantionul test aparţinând segmentului t, iar set este dispersia de
3.3. SEGMENTARE 197
card(t)
1 X e
se2t = yi yt ;
et
n
i=1
unde e
y t este media de selecţie în interiorul segmentului t.
3.3.3 Exemplu
Folosind datele din tabelul A.6, se doreşte construirea unui plasator care
s¼
a asigneze oric¼ arui punct nou considerat, din p¼ atratul iniţial, eticheta clasei
din care face parte, minimizând eroarea de misclasare. Ne a‡a¼m in faţa unei
probleme de analiz¼ a discriminant¼ a a c¼
arei rezolvare e…cient¼ a, în sensul min-
imiz¼arii erorii de misclasare, presupune folosirea arborilor de decizie binar¼ a.
Aceasta deoarece funcţiile de discriminare nu sunt liniare (sunt liniare doar pe
porţiuni) iar distribuţiile de probabilitate nu satisfac ipotezele teoremei 3.2.2.
Construcţia arborilor de decizie binar¼
a în cadrul pachetului de programe
STATISTICA presupune parcurgerea etapelor prezentate în continuare.
Pentru început se precizeaz¼ a tipul de analiz¼
a utilizat¼
a: Statistics, Multi-
variate Exploratory Techniques, Calssi…cation Trees iar în fereastra generat¼ a
(…g. 3.3.5.) se indic¼ a variabilele pentru analiz¼
a: variabila dependent¼ a - CLS
şi predictorii de tip continuu - CoordX şi CoordY.
3.3. SEGMENTARE 199
2. pentru i = 1 v
Dup¼ a cum se observ¼ a în tabelul generat ap¼ asând butonul Tree sequence
din submeniul Tree structure, din cele 6 variante de arbori rezultate în urma
"tunderii" succesive a arborelui maximal, procedeul de cross-validare îl indic¼ a
pe cel cu 7 noduri terminale ca …ind optim: cel mai mic arbore de cost cât
mai apropiat de minim .
Pentru a vizualiza acest subarore, în submeniul Tree Plot se bifeaz¼ a opţi-
unea Node plot type: Hystograms, care presupune ilustrarea histogramelor
punctelor din …ecare nod în cadrul diagramei arborelui, şi se apas¼ a butonul
Classi…cation tree plot (…g. 3.3.8.). Se observ¼ a c¼
a iniţial cele dou¼
a clase conţin
acelaşi num¼ ar de puncte, dup¼ a cum indic¼a şi histograma din nodul 1 (nodul
r¼ad¼acin¼a ), şi se alege CoordX ca variabil¼a de split. La primul pas, în funcţie
de valoarea CoordX corespunz¼ atoare, un nou punct va … asignat nodului 2
(CoordX<=0.03086) sau 3 (CoordX>0.03086). Algoritmul se repet¼ a pân¼ a
când noul punct este afectat unui nod terminal - un nod pur (care conţine
puncte aparţinând unei singure clase) sau un nod cu minim 5 puncte dintr-o
anumit¼ a clas¼ a.
3.3. SEGMENTARE 201
eticheta …ului drept şi …ului stâng, pentru …ecare nod neterminal,
num¼
arul de puncte din …ecare clas¼
a din nodul respectiv,
clasa c¼
areia ii va … asignat un punct alocat nodului respectiv,
MODELE LINIARE
205
206 CAPITOLUL 4. MODELE LINIARE
y = (y1 ; : : : ; yn )0 este
unde 0 1 vectorul observaţiilor asupra variabilei dependente,
1 x11 x1p
B1 x21 x2p C
B C
X = B. .. .. .. C este matricea observaţiilor asupra variabilelor ex-
@ .. . . . A
1 xn1 xnp
0
plicative, = 0 ; 1 ; : : : ; p este vectorul coe…cienţilor, " = ("1 ; : : : ; "n )0
este vectorul erorilor.
Pentru evaluarea coe…cienţilor necunoscuţi ai modelului, inclusiv a rezidu-
urilor "i se dispune de un sistem de n ecuaţii liniare având n+p+1 necunoscute.
Prin urmare, sistemul admite o in…nitate de soluţii. Fie b0 ; b1 : : : ; bp o soluţie
posibil¼a. Aceasta va trebui s¼ a minimizeze global mulţimea distanţelor de la
modelul liniar urmând un criteriu ce va … precizat, altfel spus:
1
Liniaritatea relaţiilor în raport cu coe…cienţii poate s¼
a apar¼
a dup¼
a o transformare pre-
a a datelor. De exemplu: y = 3 x1 1 x2 2 (1 + ") devine liniar dup¼
alabil¼ a transformarea
logaritmic¼
a log y = 1 log x1 + 2 log x2 + log 3 + log (1 + ")
4.1. MODELUL DE REGRESIE 207
ye f (x0 ; x1 ; : : : ; xp ) = b0 x0 + b1 x1 + : : : + bp xp :
yn 1= Xn p bp 1 +en 1
X0 Xb = X0 y (4.1.1)
e
e=y e = (y
Xb Xb) + Xb e =e+X b
Xb e
b
Atunci
0
e0 e
e e = e0 e + 2 b e X0 (y
b Xb) + b e
b X0 X b e
b
iar în membrul drept, conform relaţiei 4.1.1, termenul central este nul şi egal-
itatea se reduce la
0
e0 e
e e = e0 e+ X b e
b X b e :
b
mici p¼ a ye; pe
atrate se reduce la aproximarea lui y prin proiecţia sa ortogonal¼
subspaţiul VX . Înlocuind b prin valoarea dat¼
a de (4.1.2), se obţine
1
e = Xb = X X0 X
y X 0 y = PX y
unde
1
PX = X X 0 X X0 ; (4.1.3)
este operatorul proiecţiei ortogonale pe VX .
Cum rezult¼ a din …g. 4.4.1, modelul teoretic y = X + " de…neşte o
descompunere a lui y în doi termeni necunoscuţi: X în VX şi " în Rn .
Metoda celor mai mici p¼ atrate propune ca soluţie descompunerea y = Xb + e;
care minimizeaz¼ a „lungimea” lui e proiectând ortogonal y pe Xb în VX şi "
pe e în subspaţiul din Rn ;ortogonal pe VX ; notat VX? : Cei doi vectori, Xb şi
e; sunt ortogonali.
S¼
a remarc¼am c¼a variabilele …ind centrate, lungimile în Rn pot … inter-
pretate în termeni de dispersie. Teorema lui Pitagora aplicat¼ a în triunghiul
dreptunghic de catete Xb şi e şi ipotenuz¼
a y se scrie
y0 y = e0 e + b0 X0 Xb:
Împ¼
arţind cu n …ecare termen se obţine relaţia
1X 2 1X 1X 2
yi = (yi ye)2 + yei
n n n
unde
1X 2
yi reprezint¼a dispersia total¼a,
n
1X
(yi ye)2 reprezint¼ a dispersia rezidual¼a,
n
1X 2
yei reprezint¼
a dispersia explicat¼a.
n
210 CAPITOLUL 4. MODELE LINIARE
Pentru a avea o idee global¼ a asupra calit¼ aţii aproxim¼ arii se de…neşte
coe…cientul de corelaţie multipl¼a, R, ca …ind cosinusul unghiului între y şi Xb,
sau coe…cientul de corelaţie între valorile iniţiale şi cele ajustate:
P¼
atratul s¼
au poate … exprimat sub diferite forme:
P 2
2 cov 2 (y; y
e) var (e
y) ye dispersia explicit¼
a
R = = = P i2 = :
var (y) var (ey) var (y) yi dispersia total¼
a
Observaţia 4.1.1
Valoarea lui R nu poate … totuşi un criteriu absolut de apreciere a calit¼ aţii
estim¼
arii. Într-adev¼ ar, trebuie remarcat c¼a introducerea în model a unei noi
varabile explicative nu poate decât s¼ a micşoreze suma p¼
atratelor ecarturilor şi
în consecinţ¼
a s¼
a creasc¼a valoarea lui R. Ad¼ augând o dimensiune spaţiului VX
distanţa de la y la acest subspaţiu scade.
semni…caţia statistic¼
a a coe…cienţilor de regresie,
4.1. MODELUL DE REGRESIE 211
ceea ce implic¼
a noi ipoteze asupra lui y şi ".
S¼a presupunem c¼ a reizduul "i este efectul cumulat al unui mare num¼ ar
de cauze neidenti…cate şi în consecinţ¼a îl putem considera ca o peturbaţie
aleatoare. Acest punct de vedere, extins la cele n relaţii ale modelului, in-
troduce un vector aleator de reziduuri, "; şi de…neşte y = Xb + " ca vector
aleator.
Tabelul 4.4.1. rezum¼ a caracteristicile diferitelor elemente ale modelului.
Se presupune c¼
a reziduurile "i au M ("i ) = 0, au aceeaşi dispersie var ("i ) =
2 şi sunt dou¼
a câte dou¼a necorelate, var ("i ; "j ) = 0; 8i = 1; n; j = 1; n. Deci
ceea ce implic¼
a relaţiile
2
M (y) = X ; var (y) = var (") = I (4.1.4)
Demonstraţie.
var (b) = M (b ) (b )0 :
Dar
1
b = X0 X X0 y =
1
= X0 X X0 (X + ") =
1
= X0 X X0 ":
212 CAPITOLUL 4. MODELE LINIARE
Se obţine deci
1 1
M (b ) (b )0 = X0 X X0 M ""0 X X0 X =
1 1
= X0 X X0 2
IX X0 X =
2 0 1
= XX
BX = Ip+1 :
Cum CX = 0 rezult¼
a, conform lemei 4.1.2:
h i
2 1
var (By) = X0 X + CC =
2
= var (b) + CC0
e k2
ky y ky Xbk2
s2 = =
n p n p
este un estimator nedeplasat al lui 2.
4.1. MODELUL DE REGRESIE 213
(I PX )0 = I PX
şi idempotent:
I PX = (I PX )2 ;
rezult¼
a
unde ij este simbolul lui Kroneker. Dar urma unui proiector este egal¼ a cu ran-
gul s¼
au (deoarece valorile sale proprii sunt 0 sau 1) adic¼a este egal¼
a cu dimen-
siunea spaţiului de sosire care este aici VX? . Având în vedere c¼
a dim (VX ) = p
a dim VX? = n p, deci
rezult¼
M ky Xbk2 = 2
(n p) :
Dac¼a not¼
am cu V matricea de covarianţ¼
a empiric¼ a a variabilelor explica-
tive presupuse centrate V = n1 X0 X se obţine relaţia
2
1
var (b) = V
n
214 CAPITOLUL 4. MODELE LINIARE
S¼a remarc¼am dualitatea care exist¼ a între variabilele explicative şi coe-
…cienţii acestor variabile în modelul de regresie liniar¼a. Variabile explicative
necorelate (matricea V diagonal¼ a) implic¼a coe…cienţi de regresie necorelaţi.
Rezultatele precedente permit s¼ a imagin¼am diferite teste statistice în
ipoteze su…cient de generale. Într-adev¼ ar, dac¼
a speci…c¼ am legea de repartiţie
a reziduurilor, atunci putem obţine diferite teste clasice pe care le vom aminti
în cele ce urmeaz¼ a f¼
ar¼
a demonstraţie.
În continuare presupunem
: " vN 0n 1;
2
In n :
1 1
f (y; ; ) = p n exp 2
(y X )0 (y X )
2 2
Lema 4.1.4
Estimatorii de verosimilitate maxim¼
a ai lui şi 2 sunt
b = b = X0 X 1 X0 y şi
1 1
b2 = ky Xbk2 = kek2 ; care este deplasat.
n n
Cum transform¼ arile liniare ale unui vector gaussian nu schimb¼
a legea sa
de repartiţie, b este un vector normal p dimensional, de medie şi matrice de
varianţ¼
a-covarianţ¼a 2 (X0 X) 1 .
Tot din ipoteza se mai poate deduce c¼ a2
k"k2
2
v 2
(n)
kX Xbk2 ky Xbk2
2
v 2
(p) şi 2
v 2
(n p) .
Cele dou¼
a variabile sunt independente, ca forme p¼
atratice de rang p respectiv
n p (rangul proiectorilor) de n variabile normale centrat-reduse.
ky Xbk2
Pornind de la distribuţia lui 2 se pot construi intervale de în-
credere pentru .
2
Fie x1 ; x2 ; : : : ; xn variabile indepedente, distribuite dup¼
a o lege normal¼ a standard.
Atunci variabila obţinut¼ atratelor lor, 2 = x21 + x22 + : : : + x2n urmeaz¼
a prin însumarea p¼ ao
distribuţie chi-p¼atrat cu n grade de libertate notat¼ a 2 (n).
4.1. MODELUL DE REGRESIE 215
H0 : k = 0 cu alternativa HA : k 6= 0:
pk = P (jt(n p)j tk ) :
cu alternativa
Se consider¼
a statistica
e 0 k2
ky y e k2 =q
ky y
F =
e k2 = (n
ky y p)
216 CAPITOLUL 4. MODELE LINIARE
cu alternativa
HA : R2 6= 0
Se consider¼
a statistica
R2 =p
FR =
(1 R2 ) = (n p)
3
Fie variabilele aleatoare X s 2 ( 1 ) şi Y s 2 ( 2) : Atunci variabila aleatoare F s
2
( 1)
2(
2)
urmeaz¼a o repartiţie Fisher cu 1 şi 2 grade de libertate.
4.1. MODELUL DE REGRESIE 217
În ipoteza , statistica
y0 e0
y
q
1
b 1 + x00 (X0 X) x0
este repartizat¼
a t (n p) ; ceea ce permite estimarea unui interval de încredere
pentru “valoarea adev¼arat¼a” y0 cu un prag de semni…caţie dat.
Lema 4.1.5
2 1
var (e) = I X X0 X X0
y = (y Xb) + Xb = e+e
y
rezult¼
a
var (y) = var (e) + var (e
y) :
Din ipoteza rezult¼
a
2 2 1
I =var (e) + X X0 X X0
1 P
n
cu n hi 1 şi hi = p deoarece urma unui proiector este egal¼
a cu rangul
i=1
s¼
au (valorile sale proprii …ind 0 sau 1) iar o estimaţie a dispersiei reziduului
este s2 (1 hi ) :
var (bi ) depinde de inversele valorilor proprii ale lui R. Când predictorii sunt
puternic corelaţi, ultimele valori proprii sunt aproape nule, de unde rezult¼ a
instabilitatea lui bi .
Conform teoremei Gauss-Markov, metoda celor mai mici p¼ atrate furnizeaz¼a
estimatorii de dispersie minim¼ a ai lui i în clasa estimatorilor nedeplasaţi.
220 CAPITOLUL 4. MODELE LINIARE
În schimb s2 variaz¼
a monoton cu R b2 , coe…cientul de determinare ajustat. Prin
urmare, este mai interesant s¼a consider¼ am Rb2 drept criteriu de alegere (cri-
teriul coe…cientului de determinare ajustat), deoarece astfel se pot compara
formule de regresie cu num¼ar diferit de variabile şi se poate alege acea formul¼
a
care minimizeaz¼a s2 sau maximizeaz¼ aR b2 .
Implementarea unuia dintre criteriile de mai sus se poate face:
printr-o c¼
autare exhaustiv¼
a sau
prin metode de c¼
autare pas cu pas.
4.1.7 Exemplu
Descrierea datelor
În urma unor m¼ asur¼
atori ecogra…ce realizate asupra a 414 nen¼
ascuţi s-au
obţinut valorile din tabelul A.7 (Anex¼a).
Variabilele din acest tabel reprezint¼a:
predictorii
variabila dependent¼
a
– GN = greutatea la naştere.
O nou¼a fereastr¼
a permite selectarea variabilelor pe categorii: predictorii
(DBP, PC, PA) şi variabila dependent¼ a (GN). Dup¼ a o nou¼ a ap¼
asare a bu-
tonului OK fereastra ap¼ arut¼a pune la dispoziţie diverse rezultate gra…ce sau
tabelare, speci…ce analizei de regresie. Pentru a…şarea listei complete a rezul-
tatelor (…g 4.1.4.) se apas¼
a butonul More results.
Examinarea histogramei din …g. 4.1.5. con…rm¼ a îndeplinirea acestei condiţii şi
permite trecerea la un alt pas premerg¼ ator analizei de regresie. Acesta const¼ a
în veri…carea existenţei leg¼
aturilor de tip liniar între variabila dependent¼ a şi
…ecare dintre predictori, leg¼ atur¼
a f¼
ar¼
a de care acest tip de analiz¼ a nu ar …
justi…cat. În acest scop se examineaz¼ a matricea corelaţiilor sau, pentru o
reprezentare mai sugestiv¼ a, diagramele de tip Scatterplot care se obţin plecând
de la matricea corelaţiilor (Correlations în submeniul Matrix, tabelul 4.1.1.)
prin:
selectarea Graphs of Input Data, Scatterplot by, Regression, 95% conf şi
Se va repeta algoritmul şi pentru ceilalţi doi predictori şi se vor obţine
gra…ce similare celui din …g. 4.1.6., în care forma norului de puncte indic¼ a,
într-adev¼
ar, existenţa unei relaţii liniare pozitive între cele dou¼
a variabile.
4.1. MODELUL DE REGRESIE 225
erorile standard ale parametrilor estimaţi (Std. Err ) care indic¼ a disper-
sia faţ¼
a de linia de regresie a valorilor estimate şi contribuie la calculul
statisticilor t,
O comparaţie, sub form¼a de tabel sau gra…c scatterplot (…g 4.1.9.), din-
tre valorile prezise de modelul de regresie şi cele reale se obţine din subme-
niul Residuals1 (…g 4.1.8.) ap¼
asând butonul Predicted and residuals respectiv
Obs.& Pred.
Indicatorii calit¼
aţii ajust¼
arii (tabelul 4.1.3) se pot examina selectând
Summarry, Whole model R.
. b .. b .. b
b =
X 1..X 1 .X2 .X12 cu
b1
rang X b 2 = K; rang X
= J; rang X b 12 = JK;
unde X b 1 şi X
b 2 sunt matricile indicator reduse ale celor doi factori A şi B
b
iar X12 este matricea interacţiunilor corespunzând celor JK combinaţii ale
nivelelor lui A şi B: Cu acestea, modelul se scrie:
y= b1
1+X b2
+X b 12
+X +"
complet dac¼
a njk > 0 pentru toate variabilele;
cu repetiţie, dac¼
a njk > 1;
echilibrat dac¼
a njk = I;
Tabelul 4.2.1.
¼
4.2. ANALIZA DISPERSIONALA 231
B B1 ::: Bj ::: BJ
A
A1 Y111
..
.
Yi11
..
.
YI11
..
.
Ak Y1jk
..
.
Yijk
..
.
YIjk
..
.
AK Y1JK
..
.
YiJK
..
.
YIJK
mjk = + k + j + jk
HA : k =0 1 k K;
HB : j =0 1 j J;
HAB : jk =0 1 k K; 1 j J:
Se noteaz¼
a:
XXX 1 XXX
Y = Yijk şi Y = Yijk ;
IJK
i j k i j k
X 1X
Y jk = Yijk şi Y jk = Yijk ;
I
i i
XX 1 XX
Y j = Yijk şi Y j = Yijk ;
IK
i k i k
XX 1 XX
Y k = Yijk şi Y k = Yijk :
IJ
i j i j
¼
4.2. ANALIZA DISPERSIONALA 233
Se observ¼
a c¼
a:
Yijk Y = Y k Y + Y j Y +
Y jk Y k Y j Y +
Yijk Y jk
şi c¼
a termenii acestei diferenţe corespund respectiv efectelor principale, in-
teracţiunilor şi unei ‡uctuaţii aleatoare. De asemenea, se observ¼
a c¼a, pentru
modelul echilibrat, este satisf¼ acut¼a relaţia
XXX 2
S2 = Yijk Y 2
= SA 2
+ SB 2
+ SAB 2
+ SR ;
i j k
unde
X 2
2
SA = IJ Y k Y ;
k
X 2
2
SB = IK Y j Y ;
j
XX 2
2
SAB = I Y jk Y j Y k +Y ;
j k
XXX 2
2
SR = Yijk Y jk :
i j k
b jk = Y
m jk cu j = 1; J; k = 1; K;
b = Y ;
bk = Y k Y cu k = 1; K;
b = Y j Y cu j = 1; J;
j
bjk = Y jk Y j Y k +Y cu j = 1; J; k = 1; K:
( A ; R ) ; ( B ; R ) ; ( AB ; R ) unde
A = K 1;
B = J 1;
AB = (J 1) (K 1) ;
R = JK (I 1) :
B B =J 1 2 = IK
SB Y j Y M SB = B
FB = M SR
j
2 2
2 SAB M SAB
P
2 2
2 SR
PP
Reziduurile R R = JK (I 1) SR = Yijk Y jk M SR = R
i j k
2
PPP
SR 1 R AB R1
R1 = IJK J K +1
Total S S2
236 CAPITOLUL 4. MODELE LINIARE
4.2.1 Exemplu
Descrierea datelor
variabila dependent¼
a:
Se observ¼
a c¼
a experimentul are patru celule şi este echilibrat (njk = 12;
k; j = 1; 2).
Yijk = jk + "ijk ; 1 i nk ; k; j = 1; 2
1 (RT) 11 = + P1 + S 1 + FR 12 = + P2 + S 2 + FT
2 (TR) 21 = + P1 + S 1 + FT 22 = + P2 + S 2 + FR
cu
P1 + P2 = S1 + S2 = FT + FR = 0
iar
P1 (P2 ) reprezint¼
a efectul direct al administr¼
arii în perioada I (II),
S1 (S2 ) reprezint¼
a efectul adimistr¼
arii în secvenţa RT (TR),
FR (FT ) reprezint¼
a efectul direct al administr¼arii medicamentului R (T),
modelat aici ca efectul interacţiunii dintre factorii P şi S.
H0 : 1 = 2 = ::: = k;
HA : i 6= j pentru cel puţin o pereche (i; j) ; i; j = 1; k
unde k este num¼ arul subgrupurilor. Valorile statisticii asociate acestui test se
genereaz¼a ap¼
asând butonul Levene’s test şi se reg¼
asesc în tabelul 4.2.2. Pentru
toate cele trei efecte, valorile F la pragurile de semni…caţie p 0:05 indic¼a
acceptarea ipotezei nule, deci veri…carea condiţiei de homoscedasticitate.
240 CAPITOLUL 4. MODELE LINIARE
Informaţii despre mediile pe grupe pentru …ecare efect se pot obţine sub form¼
a
gra…c¼
a sau tabelar¼ a (…g 4.2.6.), bifând opţiunea Graph respectiv Spreadsheet
din caseta Display şi ap¼
asând butonul OK.
¼
4.2. ANALIZA DISPERSIONALA 241
Se observ¼ a c¼
a mediile pe grupe au valori apropiate, valorile p 0:05 din …g.
4.2.5. con…rmând acceptarea ipotezelor nule. Aşadar analiza de varianţ¼ a pe
aceste date indic¼
a absenţa efectului secvenţei, al perioadei şi al medicamentu-
lui; prin urmare, cele dou¼a medicamente sunt bioechivalente.
242 CAPITOLUL 4. MODELE LINIARE
1. Combinaţia liniar¼
a wi = b0 xi0 +b1 xi1 +: : :+bp xip a variabilelor explicative
poate … o funcţie g (numit¼a funcţie de leg¼atur¼a ) de M (yi ), adic¼
a
wi = g (M (yi ))
wi = M (yi ) :
5 y b( )
Clas¼
a de legi de probabilitate cu densitatea de forma f (x; ; ') = exp a(')
+ c (y; ')
cu şi ' parametri şi a ( ) ; b ( ) ; c ( ) funcţii.
243
244 SETURILE DE DATE FOLOSITE ÎN EXEMPLE
(Surs¼
a: Fişierul Activities.sta din colecţia de exemple a soft-ului STATISTICA)
245
(Sursa tabelelor A.2 şi A.3: Enquête Budget-temps Multimedia de 1991-1992, Centre
d’Etude des Supports de Publicité)
246 SETURILE DE DATE FOLOSITE ÎN EXEMPLE
¼ IriŞ i (1)
tabelul A.5. ANALIZA DISCRIMINANTA:
(Surs¼
a: Fişierul Irisdat.sta din colecţia de exemple a soft-ului STATISTICA)
248 SETURILE DE DATE FOLOSITE ÎN EXEMPLE
¼ IriŞ i (2)
tabelul A.5. ANALIZA DISCRIMINANTA:
249
¼ IriŞ i (3)
tabelul A.5. ANALIZA DISCRIMINANTA:
250 SETURILE DE DATE FOLOSITE ÎN EXEMPLE
¼ IriŞ i (4)
tabelul A.5. ANALIZA DISCRIMINANTA:
251
¼ IriŞ i (5)
tabelul A.5. ANALIZA DISCRIMINANTA:
252 SETURILE DE DATE FOLOSITE ÎN EXEMPLE
(Surs¼
a: A. Matos, S.Joao Hospital, Porto, Portugal)
255
[6] BESLEY, D. A., KUH E., WELSCH R. E., Regression Diagnostics: Iden-
tifying In‡uential Data and Sources of Colinearity, J. Wiley, N. Y., 1980.
[7] BREIMAN L., FRIEDMAN, J.H., OHLSEN R.A., STONE C.J., Classi-
…cation and Regression Trees, Belmont, Wadsworth, 1984.
[8] BURT C., The factorial analysis of qualitative data, British J. of Statist.
Psychol., 3, 3, p.166-185, 1950.
[9] CHOW S.C., LIU J.P., Design and Analysis of Bioavailability and Bioe-
quivalence Studies, Marcel Dekker, N.Y., 1992.
[10] COX D. R., Analyse des données binaires, Paris, Dunod, 1972.
[12] DAUDIN J.J., DUBY C., TRÉCOURT P., Stability of principal compo-
nents studied by the bootstrap method, Statistics, 19, p. 241-258, 1988.
[13] DAVIS A.W., Asymptotic theory for principal component analysis: The
non-normal case, Australian J. of Stat., 19, p. 206-212, 1977
263
264 BIBLIOGRAFIE
[14] DAZY F., LE BARZIC J.F., L’analyse des données évolutives. Méthodes
et Applications, Paris, Ed. Technip, 1996.
[17] DIDAY E., La méthode des nuées dynamiques, Revue Statist. Appl., 19,
2, p 19-34, 1971.
[18] DODGE Y. (ed.), Statsitical data Analysis Based on the L1 -Norm and
Related Methodes, North Holland, Amsterdam, 1987.
[19] DOMENGES D., VOLLE M., Analyse factorielle sphérique: une explo-
ration, Annales de l’INSEE, no 35, 1979.
[21] DUDA R.O., HART P.E., Pattern Classi…cation and Scène Analysis, J.
Wiley, N.Y., 1973
[27] FISHER R. A., The Design of Experiments (1935), 9th edition 1971
reprinted 1974, Hafner Press, N.Y.
[28] GIFI A., Non Linear Multivariate Analysis, J.Wiley, Chichester, 1990.
[48] MOSTELLER, F., TUKEY, J.W., Data Analysis and Regression, Addi-
son Wesley Reading, Mass., 1977.
[49] NISHISATO S., Analysis of Categorical Data. Dual Scaling and its Ap-
plication, Univ. of Toronto Press, 1980.
[50] RAO, C. R., Linear Statistical Inference and its Applications, J. Wiley,
N. Y., 1973.
[51] RAO C.R., The use and interpretation of principal component analysis
in applied research, Sankhya, serie A, 26, p. 329-357, 1964.
[61] VAN RIJCKEVORSEL J., The application of fuzzy coding and horseshoes
in multiple correspondances analysis, DSWO Press, Leiden, 1987.
[64] WONG M.A., A hybrid clustering method for identifying high density
clusters, J of Amer. Statist. Assoc., 77, p 841-847, 1982.
268 BIBLIOGRAFIE
Data Mining. Methods and
Applications
Introduction
We are surmounted by data - scienti…c data, medical data, demographic
data, …nancial data and marketing data. People have no time to look at
this data. Human attention has become a precious resource. So, we must
…nd ways to automatically analyze the data, to automatically classify it, to
automatically summarize it, to automatically discovers and characterize trends
in it. This "mining in data", in order to …nd out automatically knowledges and
interesting / new informations, is to day one of the most active and exciting
research areas. Researchers in areas such databases, statistics, visualization,
arti…cial intelligence are contributing to this …eld.
My purpose in writing this book has been to give a systematic introduc-
tion of major concepts and methodologies of Data Mining and to present a
uni…ed framework that makes the subject more accesible.
The core of the book is formed by the notes of the courses delivered
by the author at the University of Bucharest, Faculty of Mathematics and
Computer Science for the master students in Informatics.
The background material needed to understand these book is general
knowledge of some basic topics in probability and statistics, linear algebra
and multivariate calculus.
The book is organized in four chapters. Chapter introduce the basic
multivariate exploratory technics. The Principal Components Analysis, for
continuous variables, and the Correspondance Analysis, for discrete variables,
are presented as technics not only to simplify and visualize, but also to explore,
analize and discover, because the reality is not only complex but also hidden.
Chapter 2 covers the cluster technics; we mean the non-hierarchical and
hierarchical, automated, clustering methods.
The last two chapters concern with basic explanatory technics. Chapter 3
covers the discriminant methods and chapter 4 covers the regression methods.
269
270 DATA MINING. METHODS AND APPLICATIONS
I hope that this book will prove useful to who are interested not only
in understanding the under laying theory of data mining but also in pursuing
researching this area. A list of relevant references is included with the aim of
providing guidance and direction for the reader’s own search of the scienti…c
literature.
Contents
Introduction
1. MULTIVARIATE EXPLORATORY TECHNIQUES
1.1 Mathematical Background
1.1.1 Metric Concepts in an Euclidian Field
1.1.2 Linear Operators
1.1.3 Eigenvectors and Eigenvalues
1.1.4 The Characteristic Polynomial
1.1.5 The Eigenvectors Basis
1.1.6 Quadratic Forms
1.1.7 Derivative. The Lagrange Multipliers Method for Quadratic
Forms
1.2 Principal Components Analysis
1.2.1 The Data and its Characteristics
1.2.2 General Analysis. Singular Values Decomposition
1.2.3 The Quality of a Principal Components Analysis
1.2.4 Nonparametrical Methods
1.2.5 Related Methods
1.2.6 Other Issues
1.2.7 Example
1.3 Correspondence Analysis
1.3.1 The Method
1.3.2 Rules to Explain the Outputs
1.3.3 Example
1.4 Multiple Correpondence Analysis
1.4.1 Overview
1.4.2 The Calculus of the Inertia
1.4.3 Reviewing the Results
1.4.4 Principles of Discretisation for Continuous Variables
1.4.5 Test-values for Supplementary Modalities
1.4.6 Example
271
272 CONTENTS
1.5 Synthesis
2. CLUSTER ANALYSIS
2.1 Overview
2.2 Combinatorial Aspects of Clustering
2.3 Non-hierarchical Methods
2.3.1 K-Means Clustering
2.3.2 Example
2.4 Hierarchical Methods
2.4.1 Formal Aspects
2.4.2 Amalgamation (linkage) rules
2.5 Mixture Exploratory Methods
2.5.1 Identifying clusters by cutting of the tree diagram
2.5.2 Statistical caractherisation of the clusters
2.5.3 Example
3. BASIC EXPLORATORY TECHNIQUES
3.1 Discriminant Analysis
3.1.1 Introduction
3.1.2 Factorial Discriminant Analysis
3.1.3 Geometrical Methods
3.1.4 Discriminant Functions of Minimal Distance
3.2 Probabilistic Methods for Discrimination
3.2.1 Introduction
3.2.2 The Bayesian Formulation
3.2.3 Example
3.3 Discriminant Trees
3.3.1 Background
3.3.2 Optimal Subtrees
3.3.3 Example
4. LINEAR MODELS
4.1 The Regression Model
4.1.1 Introduction
4.1.2 Fitting Linear Regression Models
4.1.3 The Quality of Fitting
4.1.4 Residuals and Outliers
4.1.5 Robust Regression Techniques
4.1.6 Variables Subset Selection
4.1.7 Example
4.2 Variational Analysis
4.2.1 Example
273
INDEX
REFERENCES
Indice
274
INDICE 275
de contingenţ¼
a Burt, 87
de contingenţ¼
a/dependenţ¼
a/încrucişat,
62
de mãsurãtori, 16
de note, 16
de ranguri, 17, 50
disjunctiv complet, 86
"tundere", 196
variabil¼a, 17
activã, 48
dependentã/de explicat/endogenã,
205
explicativã/exogenã/predictor, 205
pasivã/suplimentarã/ilusrativã, 48