Documente Academic
Documente Profesional
Documente Cultură
ELEMENTE DE ANALIZĂ
STATISTICĂ MULTIDIMENSIONALĂ
6.1. Măsurarea variaţiei în serii bidimensionale
(bivariate)
Sistematizarea datelor după două variabile (pe variante sau pe
intervale de variaţie) aşa cum s-a mai arătat are ca rezultat obţinerea unei
serii bidimensionale (bivariate). Presupunem în acest sens că valorile
variabilei X au fost sistematizate pe „K” variante (sau intervale) şi s-au
urmărit în fiecare din cele „p” intervale (grupe) formate după o altă variabilă
Y.
Adoptăm următoarele notaţii:
Xij – valoarea xi a variabilei observate X înregistrată în grupa j (cu i=1,k şi
j =1,p );
nij – numărul de unităţi de observare la care s-a înregistrat valoarea xij;
p
n i• = ∑ n ij - numărul de unităţi la care s-a observat valoarea xi indiferent ce
j=1
valoare a înregistrat variabila y;
k
n • j = ∑ n ij - numărul de unităţi la care s-a observat valoarea yi indiferent ce
i =1
valoare a fost înregistrată pentru variabila x;
k p k p
n •• = ∑ n i• = ∑ n • j = ∑ ∑ n ij - numărul de unităţi din populaţia statistică
i =1 j=1 i =1 j=1
la care s-au observat cele două variabile.
Variabilitatea valorilor xij (variaţia generală) este determinată de
factori esenţiali (de grupare) şi factori aleatori (reziduali) care acţionează în
mod specific în interiorul fiecărei grupe. Aceasta înseamnă că după natura
factorilor de influenţă variaţia generală (VG) este formată dintr-o variaţie
explicată de factorul de grupare (VE) şi o variaţie reziduală (VR),
determinată de factori aleatori care acţionează în mod specific în interiorul
fiecărei grupe:
( ) ( )
x ij − x = x ij − x j + x j − x , (∀) i = 1, k; j = 1, p (5.51)
VG VR VE
Unde: x = media generală;
xj = media grupei (clasei) j (j=1,p)
Anexe 171
În ipoteza în care între factorul de grupare Yj (j=1,p) şi factorii
aleatori (reziduali) din interiorul fiecărei grupe j=1,p nu există dependenţă
statistică, luînd în considerare frecvenţele corespunzătoare, la nivelul
ansamblului, relaţia (5.51) poate fi transformată şi scrisă sub următoarea
formă:
k p 2 k p p
∑∑ ( x ij − x ) n ij = ∑∑ ( x ij − x j ) 2 n ij + ∑ ( x j − x ) 2 n . j (5.52)
i =1 j=1 i =1 j=1 j=1
Din (5.52) se obţine, deci, relaţia de descompunere a dispersiei
generale, într-o serie bivariată, pe componente:
2
σx 2 = σx + δx 2 (5.53)
k p
∑ ∑ ( x ij − x ) 2 n ij
i =1 j=1
unde: σ x 2 = - dispersia generala care sintetizeaza pe
n..
ansamblu influenţa factorilor indiferent natura lor;
p
∑ (x j − x) 2 n . j
2 j=1
δx = - dispersia dintre grupe care sintetizeaza doar
n ..
influenţa factorului de grupare luat în considerare – exprimă variaţia
mediilor condiţionate.
p k p
∑σj ∑ ∑ ( x ij − x j ) 2 n ij
2
n.j
2 j=1 i =1 j=1
σx = = - media dispersiilor condiţionate (de
n .. n..
grupe) care sintetizeaza influenţa factorilor aleatori (reziduali) din interiorul
fiecărei grupe j = 1, p .
σ j 2 = dispersia grupei j ( j = 1, p )
Relaţia (5.53) mai poate fi scrisa şi sub următoarea formă:
2 2
σx δx
1= 2
+ 2
=> 1 = K 2 + R 2 (5.54)
σx σx
2
δx 2
unde: R = ∈ [0;1] - (pătratul mraportului de corelaţie) se numeşte
σx2
coeficient de determinare.
172 Statistică generală
2
2
σx
K = 2
= 1 − R 2 ∈ [0;1] - se numeşte coeficient de
σx
nedeterminare
Coeficientul R2 exprimă măsura în care variaţia generală este
explicată de factorul de grupare considerat; cu alte cuvinte, cât din variaţia
variabilei observate x se datorează factorului de grupare (cauzal) – adică
intensitatea legăturii dintre X şi Y. Cu cât valorile lui R2 sunt mai apropiate
de 1 legătura este mai strânsă şi cu cât valorile sale sunt mai apropiate de
zero legătura dintre X şi Y este mai slabă. Dacă R2=0 înseamnă că între
variaţia celor două variabile nu există nici o legătură.
Coeficientul K2 exprimă măsura în care variaţia variabilei analizată
este explicată de factorii reziduali (aleatori) care acţionează în interiorul
fiecărei grupe j=1,p. Coeficientul K2 este complementar lui R2 şi se
interpretează ca atare.
Observaţie: Raţionamentul care a condus la obţinerea relaţiilor
(5.53) şi (5.54) este similar atunci când se urmăreşte o variabilă alternativă.
În acest caz, relaţia (5.53) devine:
2
σp2 = σp + δp2 (5.55)
CE = ∑
x 2 j − x 2• x1j − x1• n j ... nj
j=1 j=1 j=1
... ... ... ...
H
( )( ) ∑ (x Kj − x K• )(x 2 j − x 2• )n j ... ∑ (x Kj − x K• ) n j
H H 2
∑ x Kj − x K• x1j − x1• n j
j=1 j=1 j=1
Observaţii:
- matricea produselor încrucişate intragrupal (CE) este extrem de
importantă deoarece elementele sale furnizează informaţii despre
diferenţierea grupelor după fiecare factor după care acestea s-au format. Ea
Anexe 177
poate fi considerată o măsură a diferenţierilor care există între grupele de
observaţii, evidenţiind rolul explicativ al variabilelor care diferenţiază aceste
grupe;
- elementele matricei produselor încrucişate intragrupal (CE) cu H-1
nu reprezintă altceva decât elementele matricei de covarianţă intragrupală
(SE). Deci,
1
SE = CE (5.62)
H −1
Prin urmare, variaţia generală (totală) a variabilelor observate în
populaţia statistică şi sintetizată într-o matrice (CT) de forma (5.58) se
descompune aditiv în două componente (după relaţia (5.63))
corespunzătoare variaţiei de tip intergrupal şi de tip intragrupal:
CT = CR + CE (5.64)
Observaţii:
- Din punct de vedere informaţional relaţia (5.64) reflectă faptul că
informaţia despre variaţia totală (VT) – a tuturor valorilor variabilelor
observate la toate unităţile populaţiei statistice – poate fi divizată în două
componente:
informaţia cuprinsă în matricea CR care exprimă similaritatea
prin omogenitatea intergrupală şi care se referă la
variabilitatea existentă în interiorul fiecărei grupe;
informaţia referitoare la variabilitatea existentă între grupe şi
conţinută în matricea produselor încrucişate intragrupale (CE)
– care exprimă diferenţierea sau omogenitatea intragrupală.
- Similar cu descompunerea matricei totale a produselor încrucişate
pe cele două componente (5.64) se poate defini relaţia de descompunere a
matricei totale de covariaţie:
ST = SR + SE (5.65)
Dacă în mod similar descompunem numărul gradelor de libertate.
Astfel:
NGL = NGLR + NGLE (5.66)
Unde: NGLR = n1+n2+...+nH-H
NGLE = H-1
NGL = n1+n2+…+nH-1
Modalitatea prezentată de descompunere a variaţiei totale
multidimensională în variaţie intergrupală stă la baza analizei dispersionale
(ANOVA), a problemelor de selectare a factorilor semnificativi de influenţă
în clasificare (clusterizare) şi discriminare.
178 Statistică generală
15 u1
gu
u2
8
12 16 x1
1 k
g uj = ∑ x ij , j = 1, p
p i=1
(5.67)
g uj
gu
1g u = j
...
j
g uj
2
- x j − 1g u - pătratul lungimii vectorului corespunzător – este suma
j
proiecţiilor celor N unităţi pe axa xj, astfel încât dispersia de-a lungul axei xj
este tocmai media pătratelor proiecţiilor celor N unităţi pe axa xj;
- Dacă notăm cu Zj vectorul abaterilor de la medie atunci dispersia
unităţilor de-a lngul axei xj este:
1 j 2
σ 2j = Z (5.73)
N
Unde: σj2 măsoară variabilitatea unităţilor de-a lungul unei singure
direcţii reprezentată de axa xj.
Ca şi în cazul unităţilor de observare, variabilele observate la
unităţile populaţiei pot fi reprezentate prin puncte sau prin vectori într-un
spaţiu ale cărui dimensiuni sunt reprezentate de unităţile analizate. Axele
spaţiului în care sunt reprezentate variabilele corespund observaţiilor sau
unităţilor populaţiei analizate. Coordonatele variabilelor în spaţiul
observaţiilor sunt valorile înregistrate de variabile la nivelul fiecărei unităţi,
adică proiecţiile punctelor reprezentate de variabile pe axele acestui spaţiu.
Spaţiul în care sunt reprezentate variabilele analizate se numeşte în analiza
multidimensională a datelor spaţiul observaţiilor. Prin urmare, spaţiul
observaţiilor este un spaţiu real N-dimensional în care sunt reprezentate
variabilele supuse analizei şi ale cărui axe sunt date de observaţiile sau
unităţile analizate.
Faţă de această definiţie, în spaţiul observaţiilor o variabilă “j” este
reprezentată prin vectorul N-dimensional:
x1j
j x2j
x =
...
x Nj
Observaţii:
- În spaţiul observaţiilor pot fi determinate şi măsurate legături de tip
liniar între variabile; poate fi stabilit modul în care variabilele sau
caracteristicile unităţilor se se asociază, pot fi determinate distanţele, etc.
Anexe 181
- Ca şi în cazul reprezentării unităţilor în spaţiul variabilelor,
reprezentarea acestora în spaţiul unităţilor este necesară în analizele de tip
dual multidimensional. Variabilele analizate reprezintă în spaţiul unităţilor
un nor de puncte al cărui centru de greutate se numeşte centroid al
variabilelor. Acest centroid al variabilelor este, în consecinţă, un punct
reprezentat de mediile variabilelor la cele N unităţi observate. Deci:
( )
g V = g1V , g V2 ,..., g VN ∈ R N (5.74)
Unde:
1 K
g iV = ∑ x ij , i = 1, N (5.75)
K j=1
Reprezentarea centroidului în cazul particular de două unităţi şi două
variabile se prezintă exemplificativ mai jos:
u2
x1
gV
x2
u1
- În spaţiul observaţiilor putem determina şi interpreta:
distanţa euclidiană dintrevariabilele xi şi xj observate în
acelaşi spaţiu:
( ) (x
dE xi , x j = 1i − x1j )2 + (x 2i − x 2 j )2 + ... + (x Ni − x Nj )2 (5.76)
variaţia fiecărei variabile la nivelul fiecărei unităţi:
( )
1 K 2
σ 2j = ∑ x ij − g Vj (5.77)
K j=1
care este dispersia fiecărei variabile faţă de centroidul valorilor acestora –
calculată pentru axa “j”.
În caz particular (5.77) devine:
2
1 j
σ 2j = x − 1g V (5.78)
K j
Unde: xj = este vectorul care conţine cele K variabile în raport cu axa “j”;
182 Statistică generală
g Vj
gV
1g V = j
...
j
g Vj
2
x j − 1g V = suma proiecţiilor celor K variabile pe axa reprezentată
j