Sunteți pe pagina 1din 16

Capitolul VI

ELEMENTE DE ANALIZĂ
STATISTICĂ MULTIDIMENSIONALĂ
6.1. Măsurarea variaţiei în serii bidimensionale
(bivariate)
Sistematizarea datelor după două variabile (pe variante sau pe
intervale de variaţie) aşa cum s-a mai arătat are ca rezultat obţinerea unei
serii bidimensionale (bivariate). Presupunem în acest sens că valorile
variabilei X au fost sistematizate pe „K” variante (sau intervale) şi s-au
urmărit în fiecare din cele „p” intervale (grupe) formate după o altă variabilă
Y.
Adoptăm următoarele notaţii:
Xij – valoarea xi a variabilei observate X înregistrată în grupa j (cu i=1,k şi
j =1,p );
nij – numărul de unităţi de observare la care s-a înregistrat valoarea xij;
p
n i• = ∑ n ij - numărul de unităţi la care s-a observat valoarea xi indiferent ce
j=1
valoare a înregistrat variabila y;
k
n • j = ∑ n ij - numărul de unităţi la care s-a observat valoarea yi indiferent ce
i =1
valoare a fost înregistrată pentru variabila x;
k p k p
n •• = ∑ n i• = ∑ n • j = ∑ ∑ n ij - numărul de unităţi din populaţia statistică
i =1 j=1 i =1 j=1
la care s-au observat cele două variabile.
Variabilitatea valorilor xij (variaţia generală) este determinată de
factori esenţiali (de grupare) şi factori aleatori (reziduali) care acţionează în
mod specific în interiorul fiecărei grupe. Aceasta înseamnă că după natura
factorilor de influenţă variaţia generală (VG) este formată dintr-o variaţie
explicată de factorul de grupare (VE) şi o variaţie reziduală (VR),
determinată de factori aleatori care acţionează în mod specific în interiorul
fiecărei grupe:
( ) ( )
x ij − x = x ij − x j + x j − x , (∀) i = 1, k; j = 1, p (5.51)

VG VR VE
Unde: x = media generală;
xj = media grupei (clasei) j (j=1,p)
Anexe 171
În ipoteza în care între factorul de grupare Yj (j=1,p) şi factorii
aleatori (reziduali) din interiorul fiecărei grupe j=1,p nu există dependenţă
statistică, luînd în considerare frecvenţele corespunzătoare, la nivelul
ansamblului, relaţia (5.51) poate fi transformată şi scrisă sub următoarea
formă:
k p 2 k p p
∑∑ ( x ij − x ) n ij = ∑∑ ( x ij − x j ) 2 n ij + ∑ ( x j − x ) 2 n . j (5.52)
i =1 j=1 i =1 j=1 j=1
Din (5.52) se obţine, deci, relaţia de descompunere a dispersiei
generale, într-o serie bivariată, pe componente:
2
σx 2 = σx + δx 2 (5.53)
k p
∑ ∑ ( x ij − x ) 2 n ij
i =1 j=1
unde: σ x 2 = - dispersia generala care sintetizeaza pe
n..
ansamblu influenţa factorilor indiferent natura lor;
p
∑ (x j − x) 2 n . j
2 j=1
δx = - dispersia dintre grupe care sintetizeaza doar
n ..
influenţa factorului de grupare luat în considerare – exprimă variaţia
mediilor condiţionate.
p k p
∑σj ∑ ∑ ( x ij − x j ) 2 n ij
2
n.j
2 j=1 i =1 j=1
σx = = - media dispersiilor condiţionate (de
n .. n..
grupe) care sintetizeaza influenţa factorilor aleatori (reziduali) din interiorul
fiecărei grupe j = 1, p .
σ j 2 = dispersia grupei j ( j = 1, p )
Relaţia (5.53) mai poate fi scrisa şi sub următoarea formă:
2 2
σx δx
1= 2
+ 2
=> 1 = K 2 + R 2 (5.54)
σx σx

2
δx 2
unde: R = ∈ [0;1] - (pătratul mraportului de corelaţie) se numeşte
σx2
coeficient de determinare.
172 Statistică generală
2
2
σx
K = 2
= 1 − R 2 ∈ [0;1] - se numeşte coeficient de
σx
nedeterminare
Coeficientul R2 exprimă măsura în care variaţia generală este
explicată de factorul de grupare considerat; cu alte cuvinte, cât din variaţia
variabilei observate x se datorează factorului de grupare (cauzal) – adică
intensitatea legăturii dintre X şi Y. Cu cât valorile lui R2 sunt mai apropiate
de 1 legătura este mai strânsă şi cu cât valorile sale sunt mai apropiate de
zero legătura dintre X şi Y este mai slabă. Dacă R2=0 înseamnă că între
variaţia celor două variabile nu există nici o legătură.
Coeficientul K2 exprimă măsura în care variaţia variabilei analizată
este explicată de factorii reziduali (aleatori) care acţionează în interiorul
fiecărei grupe j=1,p. Coeficientul K2 este complementar lui R2 şi se
interpretează ca atare.
Observaţie: Raţionamentul care a condus la obţinerea relaţiilor
(5.53) şi (5.54) este similar atunci când se urmăreşte o variabilă alternativă.
În acest caz, relaţia (5.53) devine:
2
σp2 = σp + δp2 (5.55)

6.2. Analiza variaţiei în distribuţii multidimensionale

6.2.1. Matrice elementare utilizate în analiza statistică


multidimensională

Totalitatea observaţiilor efectuate într-o populaţie statistică de volum


N asupra a “K” variabile numerice se prezintă în formă sistematică în
matricea observaţiilor (X):
 x11 x12 ... x1K 
 
 x 21 x 22 ... x 2 K 
X =
... ... ... ... 
 
x x ... x 
 N1 N2 NK 

Din matricea datelor primare, de mai sus, prin operaţii de


transformare (rafinare) se obţine:
Anexe 173

Matricea observaţiilor centrate (Xc)


 x 11 − x 1 x 12 − x 2 ... x 1K − x K 
 
 x 21 − x 1 x 22 − x 2 ... x 2 K − x K 
Xc = X − X =  
 ... ... ... ... 
 x − x x − x ... x − x 
 N1 1 N2 2 NK K
Matricea observaţiilor standardizate (Z)
 x 11 − x 1 x 12 − x 2 x 1K − x K 
 ... 
 σ1 σ2 σK   σ1 0 ... 0 
x −x x 22 − x 2 x 2K − x K   
 21 1
...  0 σ2 ... 0 
Z = X c V −1 = σ σ2 σK , unde V =  ...
1 ... ... ... 
 ... ... ... ...   
x −x  0 0 ... σ K 
x N2 − x 2 x NK − x K 
 N1 1
... 
 σ 1 σ2 σK 
Matricea produselor încrucişate – se obţine ca produs între matricea
observaţiilor (X) şi matricea transpusă corespunzătoare (Xt).
Prin urmare, forma sa este:
 N 2 N N 
 ∑ x i1 ∑ x i1 x i 2 ... ∑ x i1 x iK 
 i =1 i =1 i =1 
N N N

C = XtX =  ∑ x i 2 x i1 ∑ x i22 ... ∑ x i 2 x iK 
 i =1 i =1 i =1

N ... ... ... ... 
N N
 ∑ x iK x i1 ∑ x iK x i 2 ... ∑ iK 
x 2

 i =1 i =1 i =1 
Matricea produselor încrucişate se poate determina şi pe baza
valorilor centrate sau standardizate.
Pe baza valorilor centrate se poate obţine (5.58).

( ) ∑ (xi1 − x1 )(xi 2 − x2 ) ... ∑ (xi1 − x1 )(xiK − x K )

N 2 N N
 ∑ xi1 − x1
 i =1 i =1 i =1  (5.58)
 ... ... ... ... 
Cc = Xct Xc =  
... ... ... ...
N 
( )( ) ∑(x )( ) ∑ (xiK − x K )
N N 2
 ∑ xiK − x K xi1 − x1 iK − x K xi 2 − x 2 ... 
 i =1 i =1 i =1 
Dacă fiecare element din Cc se împarte la N-1 obţinem o matrice
simetrică numită matricea de covarianţă (S).
174 Statistică generală

 σ12 σ12 ... σ1n 


 
 σ 21 σ 22 ... σ 2 n 
S= 
 ... ... ... ... 
σ 2 
 K1 σ K 2 ... σ K 
Unde: σi2 = dispersia valorilor variabilei (vectorului) xi înregistrate
la unităţile de observare.
σij = covarianţa dintre valorile variabilei xi şi cele ale
variabilei xj, ambele observate la unităţile populaţiei statistice analizate.
Forma matricei produselor încrucişate cu elemente standardizate este
următoarea:

( ) ∑ (x i1 − x 1 )(x i 2 − x 2 ) ∑ (x i1 − x 1 )(x iK )
N 2 N N
 ∑ x i1 − x 1 − xK 
 i =1 i =1
... i =1 
 σ12 σ1 σ 2 σ1 σ K 
 
... ... ... ...
CS = Z t Z =  
 ... ... ... ... 
N
( )( ) ∑ (x iK )( ) ∑( ) 
N N 2
 ∑ x iK − x K x i1 − x 1 − x K x i2 − x 2 x iK − x K 
 i =1 i =1
... i =1 
 σ K σ1 σKσ2 σ 2K 
 
Raportând fiecare element din CS la N-1 se obţine matricea simetrică
a coeficienţilor de corelaţie (R):
 1 r12 ... r1 K 
 
r 1 ... r2 K 
R =  21
... ... ... ... 
 
r rK 2 ... 1 
 K1
Unde: rij = coeficientul de corelaţie dintre elementele vectorului xi
şi cele ale vectorului xj.

6.2.2. Măsurarea variaţiei intragrupale şi intergrupale

În analiza multidimensională multivariată a datelor, aşa cum s-a


observat şi în cazul distribuţiilor bidimensionale (bivariate), deseori este
necesar să se analizeze comparativ datele provenind din populaţii sau să se
analizeze variaţia caracteristicilor care determină diferenţierea unor grupe de
unităţi dintr-o populaţie statistică investigată.
În contextul variabilităţii valorilor individuale înregistrate la unităţile
pupolaţiei pentru relevanţa rezultatelor analizei statistice este necesară
investigarea grupelor de unităţi (obţinute prin clasificare sau cunoscute
aprioric) şi a interrelaţiilor dintre acestea. Aceasta înseamnă că, în general
Anexe 175
(ca şi în cazul distribuţiilor bidimensionale), analiza variaţiei în distribuţiile
multidimensionale are ca prim obiectiv descompunerea pe componente a
variaţiei totale (în ideea relaţiei 5.51), din care derivă determinarea şi
analiza gradului de omogenitate din interiorul grupelor şi a gradului de
eterogenitate dintre grupe. În plus, faţă de aceasta, în analiza caracteristicilor
de grupare se urmăreşte – din punct de vedere statistic – modul în care
acestea expliciteză variaţia variabilelor urmărite (dependente) şi măsura în
care acestea contribuie la diferenţierea grupelor de unităţi (relativ omogene),
la discriminarea observaţiilor sau unităţilor.
În logica relaţiei 5.51 analiza variaţiei în masa observaţiilor necesită
o analiză de tip intragrupal şi una de tip intergrupal.
Analiza variaţiei de tip intragrupal are drept scop principal
evidenţierea omogenităţii unităţilor din fiecare grupă, după diferite variabile
numerice observate şi determinarea unei măsuri comune a similarităţii
unităţilor din grupele formate.
O astfel de măsură (analoagă σ2 din cazul bidimensional) este dată
de elementele matricii comune de covarianţă; deoarece ele măsoară
similaritatea unităţilor în raport cu fiecare din variabilele care definesc
unităţile analizate.
Considerăm că numărul de grupe (formate prin clasificare sau
aprioric) este H, iar efectivele lor sunt n1, n2,…,nH. Matricile produselor
încrucişate corespunzătoare celor H grupe fiind C1, C2,…, CH atunci în mod
obiectiv matricea comună a produselor încrucişate (pe total) are forma:
H
C R = ∑ Ci (5.59)
i =1
Raportând fiecare element din CR la numărul gradelor de libertate
NGL=n1+n2+...+nH–H se obţine matricea comună de covarianţă (SR) de
forma următoare:
 C11R
C12R
C1RK 
 ... 
 NGL NGL NGL 
 C R21 C R22 C R2 K 
S R =  NGL NGL ... NGL  (5.60)
 
 ...R ...
R
... ... 
R
C
 K1 C K2 C KK 
 ... 
 NGL NGL NGL 
Unde CijR = elementul de pe linia “i” şi coloana “j” a matricii
comune a produselor încrucişate ( C ijR ≥ 0 ).
176 Statistică generală
Observaţii:
- matricea SR (unde R se referă la reyidurile din interiorul grupelor)
exprimă variaţia din interiorul celor H grupe de observaţii formate şi
analizate;
- matricea SR furnizează informaţii cu privire la omogenitatea sau
similaritatea din interiorul grupelor, adică omogenitatea intragrupală. În
cazul omogenităţii perfecte sau a identităţii valorilor individuale din
interiorul fiecăreia din cele H grupe, toate elementele matricei SR sunt nule;
- toate elemenetele matricei SR sunt pozitive sau nule. Cu cât valorile
sunt mai mari cu atât mai mare este eterogenitatea observaţiilor în cadrul
grupelor.
Analiza variaţiei de tip intragrupal (similară variaţiei dintre grupe
din cazul distribuţiei bidimensionale) se bazează, în esenţă, pe studierea
abaterilor înregistrate de mediile de grupă faţă de media generală. Conform
relaţiilor (5.51) şi (5.52) elementul principal pe care se bazează analiza
variaţiei de tip intragrupal îl reprezintă suma pătratelor abaterilor medii de
grupă de la media generală. Aceasta se determină pentru una din cele “K”
variabile după relaţia:
( )
H 2
SPA i = ∑ x ij − x i• n j , cu i = 1, K (5.61)
j=1
Unde: H = numărul grupelor;
nj (cu j=1,H) = efectivul (frecvenţa) grupei j;
xij = media înregistrată de variabila xi la nivelul grupei j (i =
1,K, j = 1,H)
xi. = media variabilei xi la nivelul observaţiilor din toate cele
H grupe.
Pe baza relaţiei (5.61), pentru analiza variaţiei inragrupale, se
determină elementele matricei produselor încrucişate intragrupale care are
următoarea formă (CE - cu E sugerând noţiunea “explicativă”):

( ) ∑ (x1j − x1• )(x 2 j − x 2• )n j ... ∑ (x1j − x1• )(x Kj − x K• )n j 

H 2 H H
 ∑ x1j − x1• n j
 j=1 j=1 j=1 
H
( )( ) ∑ (x 2 j − x 2• ) n j ∑ (x 2 j − x 2• )(x Kj − x K• )

H 2 H

CE =  ∑
x 2 j − x 2• x1j − x1• n j ... nj
 j=1 j=1 j=1 
 ... ... ... ... 
H
( )( ) ∑ (x Kj − x K• )(x 2 j − x 2• )n j ... ∑ (x Kj − x K• ) n j
H H 2 
∑ x Kj − x K• x1j − x1• n j 
 j=1 j=1 j=1 
Observaţii:
- matricea produselor încrucişate intragrupal (CE) este extrem de
importantă deoarece elementele sale furnizează informaţii despre
diferenţierea grupelor după fiecare factor după care acestea s-au format. Ea
Anexe 177
poate fi considerată o măsură a diferenţierilor care există între grupele de
observaţii, evidenţiind rolul explicativ al variabilelor care diferenţiază aceste
grupe;
- elementele matricei produselor încrucişate intragrupal (CE) cu H-1
nu reprezintă altceva decât elementele matricei de covarianţă intragrupală
(SE). Deci,
1
SE = CE (5.62)
H −1
Prin urmare, variaţia generală (totală) a variabilelor observate în
populaţia statistică şi sintetizată într-o matrice (CT) de forma (5.58) se
descompune aditiv în două componente (după relaţia (5.63))
corespunzătoare variaţiei de tip intergrupal şi de tip intragrupal:
CT = CR + CE (5.64)
Observaţii:
- Din punct de vedere informaţional relaţia (5.64) reflectă faptul că
informaţia despre variaţia totală (VT) – a tuturor valorilor variabilelor
observate la toate unităţile populaţiei statistice – poate fi divizată în două
componente:
ƒ informaţia cuprinsă în matricea CR care exprimă similaritatea
prin omogenitatea intergrupală şi care se referă la
variabilitatea existentă în interiorul fiecărei grupe;
ƒ informaţia referitoare la variabilitatea existentă între grupe şi
conţinută în matricea produselor încrucişate intragrupale (CE)
– care exprimă diferenţierea sau omogenitatea intragrupală.
- Similar cu descompunerea matricei totale a produselor încrucişate
pe cele două componente (5.64) se poate defini relaţia de descompunere a
matricei totale de covariaţie:
ST = SR + SE (5.65)
Dacă în mod similar descompunem numărul gradelor de libertate.
Astfel:
NGL = NGLR + NGLE (5.66)
Unde: NGLR = n1+n2+...+nH-H
NGLE = H-1
NGL = n1+n2+…+nH-1
Modalitatea prezentată de descompunere a variaţiei totale
multidimensională în variaţie intergrupală stă la baza analizei dispersionale
(ANOVA), a problemelor de selectare a factorilor semnificativi de influenţă
în clasificare (clusterizare) şi discriminare.
178 Statistică generală

6.2.3. Distanţa în spaţiul observaţiilor şi al variabilelor


statistice.Noţiune. Măsurare.

Unităţile de observare din populaţia investigată într-o analiză


statistică pot fi privite ca puncte sau ca vectori dintr-un spaţiu ale cărui
dimensiuni sunt date de variabilele ce definesc unităţile respective. Într-o
astfel de reprezentare, axele spaţiului corespund variabilelor, iar valorile
înregistrate de fiecare din acestea la unităţile populaţiei sunt proiecţii ale
punctelor reprezentate de observaţii pe axele spaţiului. Cazul particular cu
două variabile se vizualizează astfel:
x2

15 u1
gu

u2
8

12 16 x1

În spaţiul variabilelor (în care sunt repreyentate observaţiile realizate


asupra unităţilor) o unitate de observare “i” este reprezentată printr-un
vector K-dimensional:
 x i1 
 
i  x i2 
u =
... 
 
x 
 iK 
Într-un astfel de spaţiu se poate reprezenta centroidul, distanţele
dintre unităţi (ca măsuri ale variabilităţii unităţilor de-a lungul axelor) şi
eventualele legături (asocieri) între unităţi.
În spaţiul variabilelor, unităţile analizate sunt reprezentate sub forma
unui nor de puncte. Centrul de greutate al norului de puncte este chiar
punctul care reprezintă mediile variabilelor unităţilor, punct numit şi
centroid al unităţilor de observare.
Deci, centroidul în spaţiul variabilelor este punctul ale cărui
coordonate sunt mediile celor K variabile, adică punctul gu = (g1u, g2u, …,
gku)∈Rk.
Observaţii:
- coordonatele centroidului se determină după relaţia următoare:
Anexe 179

1 k
g uj = ∑ x ij , j = 1, p
p i=1
(5.67)

unde: xij reprezintă coordonata unităţii “i” în raport cu axa j a spaţiului


observaţiilor;
- centroidul reprezintă o unitate ipotetică medie similară cu celelalte
unităţi de observare dar la care variabilele urmărite au valori medii;
- poziţia fiecărei unităţi faţă de centroid, în raport cu axele, spaţiul,
variabilele, dar şi cu alte unităţi, conduce la ideea de variaţie şi distanţă.
În spaţiul variabilelor noţiunea de distanţă reflectă apropierea sau
depărtarea a două unităţi de observare după valorile variabilelor analizate. În
general, lungimea unui vector în spaţiu K-dimensional este:
x = x 12 + x 22 + ... + x 2k , (5.68)
iar distanţa euclidiană dintre doi vectori din spaţiul K-dimensional (RK) este
determinată prin:
d (x , y ) = x − y = (x 1 − y1 )2 + (x 2 − y 2 )2 + ... + (x k − y k )2 (5.69)
În aceste condiţii metrica în spaţiul variabilelor care defineşte
distanţa euclidiană dintre unităţile ui şi uj este dată de relaţia următoare (dE –
cu E de la euclidian):
( ) (x
dE ui , u j = i1 − x j1 )2 + (x i 2 − x j2 )2 + ... + (x ip − x jp )2 (5.70)
Observaţii:
- În condiţiile în care spaţiul variabilelor este înzestrat cu metrica
euclidiană atunci în cadrul său se poate defini şi măsura variabilitatea
unităţilor de observare din cele “K” axe ale spaţiului;
- Variabilitatea celor N unităţi ale populaţiei statistice investigate în
raport cu axa “j” a spaţiului variabilelor se măsoară cu ajutorul dispersiei
(calculată faţă de centroid) corespunzătoare:
1 N
(
σ 2j = ∑ x ij − g uj
N i=1
2
) (5.71)

- În cazul în care originea spaţiului variabilelor este punctul


reprezentat de centroidul unităţilor de observare, dispersia este chiar media
pătratelor lungimilor vectorilor ce reprezintă unităţile în raport cu noua
origine:
2
1 j
σ 2j = x − 1g u ; (5.72)
N j

unde: xj = vectorul care conţine coordonatele celor N unităţi în raport cu


axa “j” (adică vectorul observaţiilor pentru varibila “j”);
180 Statistică generală

 g uj 
 
gu 
1g u = j 
 ... 
j

 g uj 
 
2
- x j − 1g u - pătratul lungimii vectorului corespunzător – este suma
j

proiecţiilor celor N unităţi pe axa xj, astfel încât dispersia de-a lungul axei xj
este tocmai media pătratelor proiecţiilor celor N unităţi pe axa xj;
- Dacă notăm cu Zj vectorul abaterilor de la medie atunci dispersia
unităţilor de-a lngul axei xj este:
1 j 2
σ 2j = Z (5.73)
N
Unde: σj2 măsoară variabilitatea unităţilor de-a lungul unei singure
direcţii reprezentată de axa xj.
Ca şi în cazul unităţilor de observare, variabilele observate la
unităţile populaţiei pot fi reprezentate prin puncte sau prin vectori într-un
spaţiu ale cărui dimensiuni sunt reprezentate de unităţile analizate. Axele
spaţiului în care sunt reprezentate variabilele corespund observaţiilor sau
unităţilor populaţiei analizate. Coordonatele variabilelor în spaţiul
observaţiilor sunt valorile înregistrate de variabile la nivelul fiecărei unităţi,
adică proiecţiile punctelor reprezentate de variabile pe axele acestui spaţiu.
Spaţiul în care sunt reprezentate variabilele analizate se numeşte în analiza
multidimensională a datelor spaţiul observaţiilor. Prin urmare, spaţiul
observaţiilor este un spaţiu real N-dimensional în care sunt reprezentate
variabilele supuse analizei şi ale cărui axe sunt date de observaţiile sau
unităţile analizate.
Faţă de această definiţie, în spaţiul observaţiilor o variabilă “j” este
reprezentată prin vectorul N-dimensional:
 x1j 
 
j  x2j 
x =
... 
 
 x Nj 
 
Observaţii:
- În spaţiul observaţiilor pot fi determinate şi măsurate legături de tip
liniar între variabile; poate fi stabilit modul în care variabilele sau
caracteristicile unităţilor se se asociază, pot fi determinate distanţele, etc.
Anexe 181
- Ca şi în cazul reprezentării unităţilor în spaţiul variabilelor,
reprezentarea acestora în spaţiul unităţilor este necesară în analizele de tip
dual multidimensional. Variabilele analizate reprezintă în spaţiul unităţilor
un nor de puncte al cărui centru de greutate se numeşte centroid al
variabilelor. Acest centroid al variabilelor este, în consecinţă, un punct
reprezentat de mediile variabilelor la cele N unităţi observate. Deci:
( )
g V = g1V , g V2 ,..., g VN ∈ R N (5.74)
Unde:
1 K
g iV = ∑ x ij , i = 1, N (5.75)
K j=1
Reprezentarea centroidului în cazul particular de două unităţi şi două
variabile se prezintă exemplificativ mai jos:

u2

x1
gV

x2

u1
- În spaţiul observaţiilor putem determina şi interpreta:
distanţa euclidiană dintrevariabilele xi şi xj observate în
acelaşi spaţiu:
( ) (x
dE xi , x j = 1i − x1j )2 + (x 2i − x 2 j )2 + ... + (x Ni − x Nj )2 (5.76)
variaţia fiecărei variabile la nivelul fiecărei unităţi:
( )
1 K 2
σ 2j = ∑ x ij − g Vj (5.77)
K j=1
care este dispersia fiecărei variabile faţă de centroidul valorilor acestora –
calculată pentru axa “j”.
În caz particular (5.77) devine:
2
1 j
σ 2j = x − 1g V (5.78)
K j

Unde: xj = este vectorul care conţine cele K variabile în raport cu axa “j”;
182 Statistică generală

 g Vj 
 
gV 
1g V = j 
 ... 
j

 g Vj 
 
2
x j − 1g V = suma proiecţiilor celor K variabile pe axa reprezentată
j

de unitatea uj astfel încât de-a lungul axei uj este media pătratelor


proiecţiilor celor K variabile pe axa uK. Dacă vom nota cu Zj vectorul
abaterilor de medie  x j − 1g V  atunci dispersia variabilelor vectorului j sau
 j 
j
de-a lungul axei u poate fi scrisă sub forma următoare:
1 j 2
σ 2j = Z , (5.79)
N
unde σj2 – măsoară variaţia variabilelor de-a lungul unei singure direcţii
reprezentate de axa uj.
În spaţiul observaţiilor gradul de asociere dintre valorile
i
vectorilor x şi
xj poate fi măsurat prin coeficientul de covarianţă:
1 N
( )(
σ ij = ∑ x ij − x i x ij − x j
N i=1
) (5.80)

(cu xi şi xj mediile variabilelor xi şi xj observate)


şi prin coeficientul de corelaţie:
σ ij
rij = (5.81)
σi σ j
Din punct de vedere geometric, gradul de asociere dintre două
variabile este mărimea cosinusului unghiului dintre cei doi vectori care
definesc abaterile faţă de media varibilelor.
Deci,
〈x i , x j 〉
rij = cos ϕ = i (5.82)
x * xj
unde ϕ este unghiul dintre cei doi vectori.
Anexe 183
6.2.3.1 Determinarea principalelor tipuri de distanţe în analizele
statistice multidimensionale
În analiza ststistică a spaţiului variabilelor de dimensiune “K”
suprapus peste spaţiul celor N unităţi de observare pentru analiza elementară
a variaţiei pot fi determinate următoarele măsuri:
distanţa euclidiană dintre două puncte ale spaţiului K -
dimensionala se
determină prin relaţia următoare:
k
d E = ( x , y) = ∑ (x i − y i ) 2 (5.83)
i =1
În cadrul în care celor K variabile care definesc unităţile populaţiei
le sunt atribuite ponderile f1 , f 2 ,...... f K atunci de determină distanţa
euclidiană ponderală după relaţia:
k
d Ef ( x, y) = ∑ (x i − y i ) 2 f i (5.84)
i =1
Deseori unităţile supuse analizei sunt considerate realităţi ale unei
variabile (vector) aleatoare. Într-o asemenea situaţie, distanţa euclidiană
numai poate fi considerată o măsură potrivită pentru a exprima apropierea
sau depărtarea dintre unităţile respective. Apare deci necesitatea redefinirii
conceptului de distanţă în aşa fel încât să se poată măsura atât apropierea
sau depărtarea unităţilor cât şi şansa ca acele unităţi să apară (adică să se
ţină seama de probabilitatea de apariţie a acestora). Distanţa astfel redefinită
de numeşte distanţă statistică.
Prin urmare, distanţa statistică este un număr real care măsoară cât
de depărtate sunt în probabilitate două valori ale unei variabile aleatoare. Cu
alte cuvinte, distanţa statistică reprezintă mărimea ariei cuprinse între
abscisă, graficul densităţii frecvenţelor şi cele două paralele la ordonată duse
prin cele două puncte pentru cere se calculează distanţa. Deci, distanţa
statistică dintre punctele x1 şi x 2 , reprezentând valori distincte ale aceleaşi
variabile aleatoare este:
x2 x1 x2
d s ( x1 , x 2 ) = P ( x ≤ x 2 ) − P ( x ≤ x1 ) = ∫ f (z)dz − ∫ f (z)dz = ∫ f (z)dz (5.85)
−∞ −∞ x1

Generalizând, distanţa statistică dintre două puncte x şi y


dintr-un spaţiu K-dimensional este:
yk y 2 y1
d s ( x , y) = ∫ ..... ∫ ∫ f (z1, z 2 ,...., z k )dz1, dz 2 .....dz k (5.86)
xk x 2 x1
184 Statistică generală
Distanţa standardizată este o altă măsură de natură statistică a
distanţei dintre unităţi care, însă, ţine seama de împrăştierea populaţiilor
statistice din care provin unităţile.
Pentru două unităţi din aceeaşi populaţie, caracterizată printr-o
abatere medie pătratică (standard) σ şi ale căror valori ale xi şi x j ale
variabilei analizate, distanţa standardizată este dată de următoarea relaţie:
2
 xi − x j 
d std =  
 (5.87)
 σ 
Se poate uşor observa că distanţa standardizată este un caz particular
al distanţei euclidiene; pentru σ = 1 distanţa standardizată este echivalentă
cu distanţa euclidiană.
Pentru cazul multidimensional, când unităţile reprezintă puncte din
graficul real K-dimensional, distanţa standerdizată dintre unităţile x 4i şi x j
se calculează astfel:
2
k  x ie − x je 
d std ( x , x ) = ∑ 
i j
 (5.88)
l =1  σ e 
Distanţa Mahalanobis. Distanţa standardizată, după cum a fost
prezentată mai sus, ia în considerare numai variaţiile individuale ce
caracterizează observaţiile variabilelor; ceea ce înseamnă că în determinarea
acestei distanţe variabilele sunt presupuse ca nefiind corelate între ele.
Generalizând distanţa standardizată prin luarea în considerare a
variaţiei individuale, dar şi a interacţiunii variabilelor se obţine distanţa
Mahalanobis.
Distanţa Mahalanobis ( d Mah ) în mărimea sa ţine seama de variaţiile
individuale ale variabilelor (prin abaterile standard), cât şi de variabilitatea
interacţiunii comune (prin covariantele şi coeficienţii de relaţie respectivi).
Prin urmare, în cazul bidimensional, când se iau în considerare
unitîţi definite prin două caracteristici x m şi xe , distanţa Mahalanabis dintre
două unităţi u i şi u j este dată de relaţia:
i j
d Mah (u , u ) =
(
1  x im − x mj

2
)− 2r
( )( ) (
x in − x mj x il − x lj
+
)
x il − x lj 
2
 (5.89)
1− r2  σ 2n σmσl σ l2 
 
unde: r = coeficientul de corelaţie dintre cele două variabile
σ m siσ l = abaterile standard ale celor două variabile
Se observă că distanţa euclidiană şi distanţa standardizată sunt cazuri
particulare ale distanţei Mahalanabis (de exemplu dacă r =0 şi σ m = σ l ).
Anexe 185
În cazul multidimensional – cu luarea în considerare a “K” variabile
distanţa Mahalanabis este mărimea:
d Mah = (u i , u j ) = ( x i − x j ) t S −1 ( x i − x j ) (5.90)
unde: x i six j sunt vectori K-dimensionali ale căror componente sunt
valorile variabilelor unităţilor u i siu j .
S = matricea de covarianţă
Dacă cele K variabile nu sunt corelate între ele atunci matricea S este
o matrice diagonală ale cărei elemente sunt dispersabile variabilelor. În
cazul în care variabilele sunt standardizate sşi necorelate, matricea de
covarianţă S este egală cu matricea de unitate, ceea ce înseamnă că distanţa
Mahalanabis se reduce la distanţa euclidiană.

S-ar putea să vă placă și