Sunteți pe pagina 1din 16

Capitolul VI

ELEMENTE DE ANALIZ
STATISTIC MULTIDIMENSIONAL

6.1. Msurarea variaiei n serii bidimensionale
(bivariate)
Sistematizarea datelor dup dou variabile (pe variante sau pe
intervale de variaie) aa cum s-a mai artat are ca rezultat obinerea unei
serii bidimensionale (bivariate). Presupunem n acest sens c valorile
variabilei X au fost sistematizate pe K variante (sau intervale) i s-au
urmrit n fiecare din cele p intervale (grupe) formate dup o alt variabil
Y.
Adoptm urmtoarele notaii:
X
ij
valoarea x
i
a variabilei observate X nregistrat n grupa j (cu i=1,k i
j =1,p );
n
ij
numrul de uniti de observare la care s-a nregistrat valoarea x
ij
;

=
p
1 j
ij i
n n - numrul de uniti la care s-a observat valoarea x
i
indiferent ce
valoare a nregistrat variabila y;

=
k
1 i
ij j
n n - numrul de uniti la care s-a observat valoarea y
i
indiferent ce
valoare a fost nregistrat pentru variabila x;

= = =

=

= = =
k
1 i
p
1 j
ij
p
1 j
j
k
1 i
i
n n n n - numrul de uniti din populaia statistic
la care s-au observat cele dou variabile.
Variabilitatea valorilor x
ij
(variaia general) este determinat de
factori eseniali (de grupare) i factori aleatori (reziduali) care acioneaz n
mod specific n interiorul fiecrei grupe. Aceasta nseamn c dup natura
factorilor de influen variaia general (VG) este format dintr-o variaie
explicat de factorul de grupare (VE) i o variaie rezidual (VR),
determinat de factori aleatori care acioneaz n mod specific n interiorul
fiecrei grupe:
( ) ( ) p , 1 j ; k , 1 i ) ( , x x x x x x j j
ij ij
= = + = (5.51)

Unde: x = media general;
x
j
= media grupei (clasei) j (j=1,p)
VR VE VG
Anexe 171
n ipoteza n care ntre factorul de grupare Y
j
(j=1,p) i factorii
aleatori (reziduali) din interiorul fiecrei grupe j=1,p nu exist dependen
statistic, lund n considerare frecvenele corespunztoare, la nivelul
ansamblului, relaia (5.51) poate fi transformat i scris sub urmtoarea
form:
j .
p
1 j
2
j ij
2
j
k
1 i
p
1 j
ij ij
2
k
1 i
p
1 j
ij
n ) x x ( n ) x x ( n ) x x (

= = = = =
+ = (5.52)
Din (5.52) se obine, deci, relaia de descompunere a dispersiei
generale, ntr-o serie bivariat, pe componente:
2
x
2
x
2
x
+ = (5.53)
unde:
.. n
n ) x x (
ij
2
k
1 i
p
1 j
ij
2
x

=

= =
- dispersia generala care sintetizeaza pe
ansamblu influena factorilor indiferent natura lor;
..
p
1 j
j .
2
j
2
x
n
n ) x x (

=

= - dispersia dintre grupe care sintetizeaza doar
influena factorului de grupare luat n considerare exprim variaia
mediilor condiionate.
.. n
n ) x x (
n
n
ij
2
j
k
1 i
p
1 j
ij
..
p
1 j
j .
2
j
2
x

=

= = =
- media dispersiilor condiionate (de
grupe) care sintetizeaza influena factorilor aleatori (reziduali) din interiorul
fiecrei grupe p , 1 j = .
2
j
= dispersia grupei j ( p , 1 j = )
Relaia (5.53) mai poate fi scrisa i sub urmtoarea form:

2 2
2
x
2
x
2
2
x
x
R K 1 1 + = =>

= (5.54)
unde: ] 1 ; 0 [ R
2
x
2
x 2

= - (ptratul mraportului de corelaie) se numete


coeficient de determinare.
172 Statistic general
] 1 ; 0 [ R 1 K
2
2
2
x
x 2
=

= - se numete coeficient de
nedeterminare
Coeficientul R
2
exprim msura n care variaia general este
explicat de factorul de grupare considerat; cu alte cuvinte, ct din variaia
variabilei observate x se datoreaz factorului de grupare (cauzal) adic
intensitatea legturii dintre X i Y. Cu ct valorile lui R
2
sunt mai apropiate
de 1 legtura este mai strns i cu ct valorile sale sunt mai apropiate de
zero legtura dintre X i Y este mai slab. Dac R
2
=0 nseamn c ntre
variaia celor dou variabile nu exist nici o legtur.
Coeficientul K
2
exprim msura n care variaia variabilei analizat
este explicat de factorii reziduali (aleatori) care acioneaz n interiorul
fiecrei grupe j=1,p. Coeficientul K
2
este complementar lui R
2
i se
interpreteaz ca atare.
Observaie: Raionamentul care a condus la obinerea relaiilor
(5.53) i (5.54) este similar atunci cnd se urmrete o variabil alternativ.
n acest caz, relaia (5.53) devine:
2
p
2
p
2
p
+ = (5.55)

6.2. Analiza variaiei n distribuii multidimensionale

6.2.1. Matrice elementare utilizate n analiza statistic
multidimensional

Totalitatea observaiilor efectuate ntr-o populaie statistic de volum
N asupra a K variabile numerice se prezint n form sistematic n
matricea observaiilor (X):
|
|
|
|
|
.
|

\
|
=
NK N N
K
K
x x x
x x x
x x x
X
...
... ... ... ...
...
...
2 1
2 22 21
1 12 11

Din matricea datelor primare, de mai sus, prin operaii de
transformare (rafinare) se obine:




Anexe 173

Matricea observaiilor centrate (X
c
)
|
|
|
|
|
.
|

\
|



= =
K NK 2 2 N 1 1 N
K K 2 2 22 1 21
K K 1 2 12 1 11
c
x x ... x x x x
... ... ... ...
x x ... x x x x
x x ... x x x x
X X X
Matricea observaiilor standardizate (Z)
|
|
|
|
|
.
|

\
|

=
|
|
|
|
|
|
|
|
|
.
|

\
|

= =

K
2
1
K
K NK
2
2 2 N
1
1 1 N
K
K K 2
2
2 22
1
1 21
K
K K 1
2
2 12
1
1 11
1
c
... 0 0
... ... ... ...
0 ... 0
0 ... 0
V unde ,
x x
...
x x x x
... ... ... ...
x x
...
x x x x
x x
...
x x x x
V X Z
Matricea produselor ncruciate se obine ca produs ntre matricea
observaiilor (X) i matricea transpus corespunztoare (X
t
).
Prin urmare, forma sa este:
|
|
|
|
|
|
|
|
.
|

\
|
= =



= = =
= = =
= = =
N
1 i
2
iK
N
1 i
2 i iK
N
1 i
1 i iK
N
1 i
iK 2 i
N
1 i
2
2 i
N
1 i
1 i 2 i
N
1 i
iK 1 i
N
1 i
2 i 1 i
N
1 i
2
1 i
t
x ... x x x x
... ... ... ...
x x ... x x x
x x ... x x x
X X C
Matricea produselor ncruciate se poate determina i pe baza
valorilor centrate sau standardizate.
Pe baza valorilor centrate se poate obine (5.58).
( ) ( )( ) ( )( )
( )( ) ( )( ) ( )
|
|
|
|
|
|
|
.
|

\
|


= =


= = =
= = =
N
1 i
2
K iK
N
1 i
2 2 i K iK
N
1 i
1 1 i K iK
N
1 i
K iK 1 1 i
N
1 i
2 2 i 1 1 i
N
1 i
2
1 1 i
c
t
c c
x x ... x x x x x x x x
... ... ... ...
... ... ... ...
x x x x ... x x x x x x
X X C
(5.58)
Dac fiecare element din C
c
se mparte la N-1 obinem o matrice
simetric numit matricea de covarian (S).
174 Statistic general
|
|
|
|
|
.
|

\
|



=
2
K 2 K 1 K
n 2
2
2 21
n 1 12
2
1
...
... ... ... ...
...
...
S
Unde:
i
2
= dispersia valorilor variabilei (vectorului) x
i
nregistrate
la unitile de observare.

ij
= covariana dintre valorile variabilei x
i
i cele ale
variabilei x
j
, ambele observate la unitile populaiei statistice analizate.
Forma matricei produselor ncruciate cu elemente standardizate este
urmtoarea:
( ) ( )( ) ( )( )
( )( ) ( )( ) ( )
|
|
|
|
|
|
|
|
|
|
.
|

\
|

= =


= = =
= = =
2
K
N
1 i
2
K iK
2 K
N
1 i
2 2 i K iK
1 K
N
1 i
1 1 i K iK
K 1
N
1 i
K iK 1 1 i
2 1
N
1 i
2 2 i 1 1 i
2
1
N
1 i
2
1 1 i
t
S
x x
...
x x x x x x x x
... ... ... ...
... ... ... ...
x x x x
...
x x x x x x
Z Z C
Raportnd fiecare element din C
S
la N-1 se obine matricea simetric
a coeficienilor de corelaie (R):
|
|
|
|
|
.
|

\
|
=
1 ... r r
... ... ... ...
r ... 1 r
r ... r 1
R
2 K 1 K
K 2 21
K 1 12

Unde: r
ij
= coeficientul de corelaie dintre elementele vectorului x
i

i cele ale vectorului x
j
.

6.2.2. Msurarea variaiei intragrupale i intergrupale

n analiza multidimensional multivariat a datelor, aa cum s-a
observat i n cazul distribuiilor bidimensionale (bivariate), deseori este
necesar s se analizeze comparativ datele provenind din populaii sau s se
analizeze variaia caracteristicilor care determin diferenierea unor grupe de
uniti dintr-o populaie statistic investigat.
n contextul variabilitii valorilor individuale nregistrate la unitile
pupolaiei pentru relevana rezultatelor analizei statistice este necesar
investigarea grupelor de uniti (obinute prin clasificare sau cunoscute
aprioric) i a interrelaiilor dintre acestea. Aceasta nseamn c, n general
Anexe 175
(ca i n cazul distribuiilor bidimensionale), analiza variaiei n distribuiile
multidimensionale are ca prim obiectiv descompunerea pe componente a
variaiei totale (n ideea relaiei 5.51), din care deriv determinarea i
analiza gradului de omogenitate din interiorul grupelor i a gradului de
eterogenitate dintre grupe. n plus, fa de aceasta, n analiza caracteristicilor
de grupare se urmrete din punct de vedere statistic modul n care
acestea explicitez variaia variabilelor urmrite (dependente) i msura n
care acestea contribuie la diferenierea grupelor de uniti (relativ omogene),
la discriminarea observaiilor sau unitilor.
n logica relaiei 5.51 analiza variaiei n masa observaiilor necesit
o analiz de tip intragrupal i una de tip intergrupal.
Analiza variaiei de tip intragrupal are drept scop principal
evidenierea omogenitii unitilor din fiecare grup, dup diferite variabile
numerice observate i determinarea unei msuri comune a similaritii
unitilor din grupele formate.
O astfel de msur (analoag
2
din cazul bidimensional) este dat
de elementele matricii comune de covarian; deoarece ele msoar
similaritatea unitilor n raport cu fiecare din variabilele care definesc
unitile analizate.
Considerm c numrul de grupe (formate prin clasificare sau
aprioric) este H, iar efectivele lor sunt n
1
, n
2
,,n
H
. Matricile produselor
ncruciate corespunztoare celor H grupe fiind C
1
, C
2
,, C
H
atunci n mod
obiectiv matricea comun a produselor ncruciate (pe total) are forma:

=
=
H
1 i
i R
C C (5.59)
Raportnd fiecare element din C
R
la numrul gradelor de libertate
NGL=n
1
+n
2
+...+n
H
H se obine matricea comun de covarian (S
R
) de
forma urmtoare:
|
|
|
|
|
|
|
|
.
|

\
|
=
NGL
C
...
NGL
C
NGL
C
... ... ... ...
NGL
C
...
NGL
C
NGL
C
NGL
C
...
NGL
C
NGL
C
S
R
KK
R
2 K
R
1 K
R
K 2
R
22
R
21
R
K 1
R
12
R
11
R
(5.60)
Unde C
ij
R
= elementul de pe linia i i coloana j a matricii
comune a produselor ncruciate ( 0 C
R
ij
).


176 Statistic general
Observaii:
- matricea S
R
(unde R se refer la reyidurile din interiorul grupelor)
exprim variaia din interiorul celor H grupe de observaii formate i
analizate;
- matricea S
R
furnizeaz informaii cu privire la omogenitatea sau
similaritatea din interiorul grupelor, adic omogenitatea intragrupal. n
cazul omogenitii perfecte sau a identitii valorilor individuale din
interiorul fiecreia din cele H grupe, toate elementele matricei S
R
sunt nule;
- toate elemenetele matricei S
R
sunt pozitive sau nule. Cu ct valorile
sunt mai mari cu att mai mare este eterogenitatea observaiilor n cadrul
grupelor.
Analiza variaiei de tip intragrupal (similar variaiei dintre grupe
din cazul distribuiei bidimensionale) se bazeaz, n esen, pe studierea
abaterilor nregistrate de mediile de grup fa de media general. Conform
relaiilor (5.51) i (5.52) elementul principal pe care se bazeaz analiza
variaiei de tip intragrupal l reprezint suma ptratelor abaterilor medii de
grup de la media general. Aceasta se determin pentru una din cele K
variabile dup relaia:
( )

=
= =
H
1 j
j
2
i ij
i
K , 1 i cu , n x x SPA (5.61)
Unde: H = numrul grupelor;
n
j
(cu j=1,H) = efectivul (frecvena) grupei j;
x
ij
= media nregistrat de variabila x
i
la nivelul grupei j (i =
1,K, j = 1,H)
x
i
. = media variabilei x
i
la nivelul observaiilor din toate cele
H grupe.
Pe baza relaiei (5.61), pentru analiza variaiei inragrupale, se
determin elementele matricei produselor ncruciate intragrupale care are
urmtoarea form (C
E
- cu E sugernd noiunea explicativ):
( ) ( )( ) ( )( )
( )( ) ( ) ( )( )
( )( ) ( )( ) ( )
|
|
|
|
|
|
|
|
.
|

\
|



=



=

=

=

=

=

=

=

=

=

H
1 j
j
2
K Kj
H
1 j
j
2 j 2 K Kj
H
1 j
j
1 j 1 K Kj
H
1 j
j
K Kj 2 j 2
H
1 j
j
2
2 j 2
H
1 j
j
1 j 1 2 j 2
H
1 j
j
K Kj 1 j 1
H
1 j
j
2 j 2 1 j 1
H
1 j
j
2
1 j 1
E
n x x ... n x x x x n x x x x
... ... ... ...
n x x x x ... n x x n x x x x
n x x x x ... n x x x x n x x
C
Observaii:
- matricea produselor ncruciate intragrupal (C
E
) este extrem de
important deoarece elementele sale furnizeaz informaii despre
diferenierea grupelor dup fiecare factor dup care acestea s-au format. Ea
Anexe 177
poate fi considerat o msur a diferenierilor care exist ntre grupele de
observaii, evideniind rolul explicativ al variabilelor care difereniaz aceste
grupe;
- elementele matricei produselor ncruciate intragrupal (C
E
) cu H-1
nu reprezint altceva dect elementele matricei de covarian intragrupal
(S
E
). Deci,
E E
C
1 H
1
S

= (5.62)
Prin urmare, variaia general (total) a variabilelor observate n
populaia statistic i sintetizat ntr-o matrice (C
T
) de forma (5.58) se
descompune aditiv n dou componente (dup relaia (5.63))
corespunztoare variaiei de tip intergrupal i de tip intragrupal:
C
T
= C
R
+ C
E
(5.64)
Observaii:
- Din punct de vedere informaional relaia (5.64) reflect faptul c
informaia despre variaia total (V
T
) a tuturor valorilor variabilelor
observate la toate unitile populaiei statistice poate fi divizat n dou
componente:
informaia cuprins n matricea C
R
care exprim similaritatea
prin omogenitatea intergrupal i care se refer la
variabilitatea existent n interiorul fiecrei grupe;
informaia referitoare la variabilitatea existent ntre grupe i
coninut n matricea produselor ncruciate intragrupale (C
E
)
care exprim diferenierea sau omogenitatea intragrupal.
- Similar cu descompunerea matricei totale a produselor ncruciate
pe cele dou componente (5.64) se poate defini relaia de descompunere a
matricei totale de covariaie:
S
T
= S
R
+ S
E
(5.65)
Dac n mod similar descompunem numrul gradelor de libertate.
Astfel:
NGL = NGL
R
+ NGL
E
(5.66)
Unde: NGL
R
= n
1
+n
2
+...+n
H
-H
NGL
E
= H-1
NGL = n
1
+n
2
++n
H
-1
Modalitatea prezentat de descompunere a variaiei totale
multidimensional n variaie intergrupal st la baza analizei dispersionale
(ANOVA), a problemelor de selectare a factorilor semnificativi de influen
n clasificare (clusterizare) i discriminare.


178 Statistic general
6.2.3. Distana n spaiul observaiilor i al variabilelor
statistice.Noiune. Msurare.

Unitile de observare din populaia investigat ntr-o analiz
statistic pot fi privite ca puncte sau ca vectori dintr-un spaiu ale crui
dimensiuni sunt date de variabilele ce definesc unitile respective. ntr-o
astfel de reprezentare, axele spaiului corespund variabilelor, iar valorile
nregistrate de fiecare din acestea la unitile populaiei sunt proiecii ale
punctelor reprezentate de observaii pe axele spaiului. Cazul particular cu
dou variabile se vizualizeaz astfel:









n spaiul variabilelor (n care sunt repreyentate observaiile realizate
asupra unitilor) o unitate de observare i este reprezentat printr-un
vector K-dimensional:
|
|
|
|
|
.
|

\
|
=
iK
2 i
1 i
i
x
...
x
x
u
ntr-un astfel de spaiu se poate reprezenta centroidul, distanele
dintre uniti (ca msuri ale variabilitii unitilor de-a lungul axelor) i
eventualele legturi (asocieri) ntre uniti.
n spaiul variabilelor, unitile analizate sunt reprezentate sub forma
unui nor de puncte. Centrul de greutate al norului de puncte este chiar
punctul care reprezint mediile variabilelor unitilor, punct numit i
centroid al unitilor de observare.
Deci, centroidul n spaiul variabilelor este punctul ale crui
coordonate sunt mediile celor K variabile, adic punctul g
u
= (g
1
u
, g
2
u
, ,
g
k
u
)R
k
.
Observaii:
- coordonatele centroidului se determin dup relaia urmtoare:
x
1
12 16
15


8

g
u
u
2
u
1
x
2
Anexe 179

=
= =
k
1 i
ij
u
j
p , 1 j , x
p
1
g (5.67)
unde: x
ij
reprezint coordonata unitii i n raport cu axa j a spaiului
observaiilor;
- centroidul reprezint o unitate ipotetic medie similar cu celelalte
uniti de observare dar la care variabilele urmrite au valori medii;
- poziia fiecrei uniti fa de centroid, n raport cu axele, spaiul,
variabilele, dar i cu alte uniti, conduce la ideea de variaie i distan.
n spaiul variabilelor noiunea de distan reflect apropierea sau
deprtarea a dou uniti de observare dup valorile variabilelor analizate. n
general, lungimea unui vector n spaiu K-dimensional este:
2
k
2
2
2
1
x ... x x x + + + = , (5.68)
iar distana euclidian dintre doi vectori din spaiul K-dimensional (R
K
) este
determinat prin:
( ) ( ) ( ) ( )
2
k k
2
2 2
2
1 1
y x ... y x y x y x y , x d + + + = = (5.69)
n aceste condiii metrica n spaiul variabilelor care definete
distana euclidian dintre unitile u
i
i u
j
este dat de relaia urmtoare (d
E

cu E de la euclidian):
( ) ( ) ( ) ( )
2
jp ip
2
2 j 2 i
2
1 j 1 i
j i
E
x x ... x x x x u , u d + + + = (5.70)
Observaii:
- n condiiile n care spaiul variabilelor este nzestrat cu metrica
euclidian atunci n cadrul su se poate defini i msura variabilitatea
unitilor de observare din cele K axe ale spaiului;
- Variabilitatea celor N uniti ale populaiei statistice investigate n
raport cu axa j a spaiului variabilelor se msoar cu ajutorul dispersiei
(calculat fa de centroid) corespunztoare:
( )

=
=
N
1 i
2
u
j ij
2
j
g x
N
1
(5.71)
- n cazul n care originea spaiului variabilelor este punctul
reprezentat de centroidul unitilor de observare, dispersia este chiar media
ptratelor lungimilor vectorilor ce reprezint unitile n raport cu noua
origine:
2
g
j 2
j
u
j
1 x
N
1
= ; (5.72)
unde: x
j
= vectorul care conine coordonatele celor N uniti n raport cu
axa j (adic vectorul observaiilor pentru varibila j);
180 Statistic general
|
|
|
|
|
.
|

\
|
=
u
j
u
j
u
j
g
g
...
g
g
1
u
j

-
2
g
j
u
j
1 x - ptratul lungimii vectorului corespunztor este suma
proieciilor celor N uniti pe axa x
j
, astfel nct dispersia de-a lungul axei x
j

este tocmai media ptratelor proieciilor celor N uniti pe axa x
j
;
- Dac notm cu Z
j
vectorul abaterilor de la medie atunci dispersia
unitilor de-a lngul axei x
j
este:
2
j 2
j
Z
N
1
= (5.73)
Unde:
j
2
msoar variabilitatea unitilor de-a lungul unei singure
direcii reprezentat de axa x
j
.
Ca i n cazul unitilor de observare, variabilele observate la
unitile populaiei pot fi reprezentate prin puncte sau prin vectori ntr-un
spaiu ale crui dimensiuni sunt reprezentate de unitile analizate. Axele
spaiului n care sunt reprezentate variabilele corespund observaiilor sau
unitilor populaiei analizate. Coordonatele variabilelor n spaiul
observaiilor sunt valorile nregistrate de variabile la nivelul fiecrei uniti,
adic proieciile punctelor reprezentate de variabile pe axele acestui spaiu.
Spaiul n care sunt reprezentate variabilele analizate se numete n analiza
multidimensional a datelor spaiul observaiilor. Prin urmare, spaiul
observaiilor este un spaiu real N-dimensional n care sunt reprezentate
variabilele supuse analizei i ale crui axe sunt date de observaiile sau
unitile analizate.
Fa de aceast definiie, n spaiul observaiilor o variabil j este
reprezentat prin vectorul N-dimensional:
|
|
|
|
|
.
|

\
|
=
Nj
j 2
j 1
j
x
...
x
x
x
Observaii:
- n spaiul observaiilor pot fi determinate i msurate legturi de tip
liniar ntre variabile; poate fi stabilit modul n care variabilele sau
caracteristicile unitilor se se asociaz, pot fi determinate distanele, etc.
Anexe 181
- Ca i n cazul reprezentrii unitilor n spaiul variabilelor,
reprezentarea acestora n spaiul unitilor este necesar n analizele de tip
dual multidimensional. Variabilele analizate reprezint n spaiul unitilor
un nor de puncte al crui centru de greutate se numete centroid al
variabilelor. Acest centroid al variabilelor este, n consecin, un punct
reprezentat de mediile variabilelor la cele N uniti observate. Deci:
( )
N V
N
V
2
V
1
V
R g ,..., g , g g = (5.74)
Unde:
N , 1 i , x
K
1
g
K
1 j
ij
V
i
= =

=
(5.75)
Reprezentarea centroidului n cazul particular de dou uniti i dou
variabile se prezint exemplificativ mai jos:










- n spaiul observaiilor putem determina i interpreta:
distana euclidian dintrevariabilele x
i
i x
j
observate n
acelai spaiu:
( ) ( ) ( ) ( )
2
Nj Ni
2
j 2 i 2
2
j 1 i 1
j i
E
x x ... x x x x x , x d + + + = (5.76)
variaia fiecrei variabile la nivelul fiecrei uniti:
( )

=
=
K
1 j
2
V
j ij
2
j
g x
K
1
(5.77)
care este dispersia fiecrei variabile fa de centroidul valorilor acestora
calculat pentru axa j.
n caz particular (5.77) devine:
2
g
j 2
j
V
j
1 x
K
1
= (5.78)
Unde: x
j
= este vectorul care conine cele K variabile n raport cu axa j;
u
2
u
1
g
V
x
2
x
1
182 Statistic general
|
|
|
|
|
.
|

\
|
=
V
j
V
j
V
j
g
g
...
g
g
1
V
j

2
g
j
V
j
1 x = suma proieciilor celor K variabile pe axa reprezentat
de unitatea u
j
astfel nct de-a lungul axei u
j
este media ptratelor
proieciilor celor K variabile pe axa u
K
. Dac vom nota cu Z
j
vectorul
abaterilor de medie
|
.
|

\
|

V
j
g
j
1 x atunci dispersia variabilelor vectorului j sau
de-a lungul axei u
j
poate fi scris sub forma urmtoare:
2
j 2
j
Z
N
1
= , (5.79)
unde
j
2
msoar variaia variabilelor de-a lungul unei singure direcii
reprezentate de axa u
j
.
n spaiul observaiilor gradul de asociere dintre valorile
vectorilor x
i
i
x
j
poate fi msurat prin coeficientul de covarian:
( )( )

=
=
N
1 i
j
ij
i
ij ij
x x x x
N
1
(5.80)
(cu x
i
i x
j
mediile variabilelor x
i
i x
j
observate)
i prin coeficientul de corelaie:
j i
ij
ij
r

= (5.81)
Din punct de vedere geometric, gradul de asociere dintre dou
variabile este mrimea cosinusului unghiului dintre cei doi vectori care
definesc abaterile fa de media varibilelor.
Deci,
j i
j i
ij
x * x
x , x
cos r

= = (5.82)
unde este unghiul dintre cei doi vectori.





Anexe 183
6.2.3.1 Determinarea principalelor tipuri de distane n analizele
statistice multidimensionale
n analiza ststistic a spaiului variabilelor de dimensiune K
suprapus peste spaiul celor N uniti de observare pentru analiza elementar
a variaiei pot fi determinate urmtoarele msuri:
distana euclidian dintre dou puncte ale spaiului K -
dimensionala se
determin prin relaia urmtoare:

=
= =
k
1 i
2
i i E
) y x ( ) y , x ( d (5.83)
n cadrul n care celor K variabile care definesc unitile populaiei
le sunt atribuite ponderile
K
f f f ,...... ,
2 1
atunci de determin distana
euclidian ponderal dup relaia:

=
=
k
1 i
i
2
i i Ef
f ) y x ( ) y , x ( d (5.84)
Deseori unitile supuse analizei sunt considerate realiti ale unei
variabile (vector) aleatoare. ntr-o asemenea situaie, distana euclidian
numai poate fi considerat o msur potrivit pentru a exprima apropierea
sau deprtarea dintre unitile respective. Apare deci necesitatea redefinirii
conceptului de distan n aa fel nct s se poat msura att apropierea
sau deprtarea unitilor ct i ansa ca acele uniti s apar (adic s se
in seama de probabilitatea de apariie a acestora). Distana astfel redefinit
de numete distan statistic.
Prin urmare, distana statistic este un numr real care msoar ct
de deprtate sunt n probabilitate dou valori ale unei variabile aleatoare. Cu
alte cuvinte, distana statistic reprezint mrimea ariei cuprinse ntre
abscis, graficul densitii frecvenelor i cele dou paralele la ordonat duse
prin cele dou puncte pentru cere se calculeaz distana. Deci, distana
statistic dintre punctele
1
x i
2
x , reprezentnd valori distincte ale aceleai
variabile aleatoare este:

= = =

2
1
x
2 1
x x x
1 2 2 1 s
dz ) z ( f dz ) z ( f dz ) z ( f ) x x ( P ) x x ( P ) x , x ( d
(5.85)
Generaliznd, distana statistic dintre dou puncte x i y
dintr-un spaiu K-dimensional este:


=
k
k
2
2
1
1
y
x
y
x
y
x
k 2 , 1 k 2 , 1 s
dz ..... dz dz ) z ,...., z z ( f ..... ) y , x ( d (5.86)
184 Statistic general
Distana standardizat este o alt msur de natur statistic a
distanei dintre uniti care, ns, ine seama de mprtierea populaiilor
statistice din care provin unitile.
Pentru dou uniti din aceeai populaie, caracterizat printr-o
abatere medie ptratic (standard) i ale cror valori ale
i
x i
j
x ale
variabilei analizate, distana standardizat este dat de urmtoarea relaie:
2
j i
std
x x
d
|
|
.
|

\
|

= (5.87)
Se poate uor observa c distana standardizat este un caz particular
al distanei euclidiene; pentru 1 = distana standardizat este echivalent
cu distana euclidian.
Pentru cazul multidimensional, cnd unitile reprezint puncte din
graficul real K-dimensional, distana standerdizat dintre unitile
i
x
4
i
j
x
se calculeaz astfel:
2
k
1 l
e
je ie
j i
std
x x
) x , x ( d

=
|
|
.
|

\
|

= (5.88)
Distana Mahalanobis. Distana standardizat, dup cum a fost
prezentat mai sus, ia n considerare numai variaiile individuale ce
caracterizeaz observaiile variabilelor; ceea ce nseamn c n determinarea
acestei distane variabilele sunt presupuse ca nefiind corelate ntre ele.
Generaliznd distana standardizat prin luarea n considerare a
variaiei individuale, dar i a interaciunii variabilelor se obine distana
Mahalanobis.
Distana Mahalanobis (
Mah
d ) n mrimea sa ine seama de variaiile
individuale ale variabilelor (prin abaterile standard), ct i de variabilitatea
interaciunii comune (prin covariantele i coeficienii de relaie respectivi).
Prin urmare, n cazul bidimensional, cnd se iau n considerare
uniti definite prin dou caracteristici
m
x i
e
x , distana Mahalanabis dintre
dou uniti
i
u i
j
u este dat de relaia:
( ) ( )( ) ( )
(
(

=
2
l
2
j
l
i
l
l m
j
l
i
l
j
m
i
n
2
n
2
j
m
i
m
2
j i
Mah
x x x x x x
r 2
x x
r 1
1
) u , u ( d (5.89)
unde: r = coeficientul de corelaie dintre cele dou variabile

l m
si = abaterile standard ale celor dou variabile
Se observ c distana euclidian i distana standardizat sunt cazuri
particulare ale distanei Mahalanabis (de exemplu dac r =0 i
l m
= ).
Anexe 185
n cazul multidimensional cu luarea n considerare a K variabile
distana Mahalanabis este mrimea:
) x x ( S ) x x ( ) u , u ( d
j i 1 t j i j i
Mah
= =

(5.90)
unde:
j i
six x sunt vectori K-dimensionali ale cror componente sunt
valorile variabilelor unitilor
j i
siu u .
S = matricea de covarian
Dac cele K variabile nu sunt corelate ntre ele atunci matricea S este
o matrice diagonal ale crei elemente sunt dispersabile variabilelor. n
cazul n care variabilele sunt standardizate si necorelate, matricea de
covarian S este egal cu matricea de unitate, ceea ce nseamn c distana
Mahalanabis se reduce la distana euclidian.

S-ar putea să vă placă și