Sunteți pe pagina 1din 8

Cursul 10 Analiza corelaiei dintre variabile

Aa cum am vzut la nceputul acestui curs de statistic i econometrie,


variabilele economice pot fi de mai multe tipuri, una dintre clasificri mprindu-le n
variabile cantitative (exprimate numeric) i variabile calitative (care surprind anumite
caracteristici ale unitilor statistice sau apartenena acestora la o anumit categorie). La
rndul lor, variabilele calitative pot fi nominale sau ordinale. Variabilele calitative
nominale surprind caracteristici care nu implic existena unei relaii de ordine ntre
valori, n timp ce variabilele calitative ordinale presupun existena unei ierarhii ntre
valorile posibile.
Dup cardinalul mulimii observaiilor, exist variabile binare (alternative), cnd
spaiul de observaii e compus din dou valori (0/1, masculin/feminin, rural/urban),
variabile cu un numr finit de valori numerice (aici se ncadreaz variabilele calitative i
cele cantitative discrete) i variabile cantitative continue, cnd mulimea specific a
valorilor individuale este un interval de numere reale.
n cele ce urmeaz vom analiza legturile care pot avea loc ntre variabilele
economice, oprindu-ne pentru nceput asupra corelaiei dintre dou astfel de variabile, pe
care le vom nota prin X i Y. O serie de date care suprinde evoluia concomitent a dou
variabile este numit serie bivariat, n cazul nostru seria bivariat fiind deci format din
variabilele X i Y.
n general, metodele de analiz a corelaiei ajut la evidenierea intensitii
legturii dintre cele dou variabile, fiind mai puin utile pentru ilustrarea cauzalitii
(pentru a arta c X determin pe Y sau invers). Cauzalitatea (direcia legturii) este
deseori sugerat de teoria economic sau de succesiunea evenimentelor. De exemplu,
volumul vnzrilor de bunuri i servicii depinde de venitul pe locuitor al populaiei,
productivitatea muncii depinde de nzestrarea tehnic, complexitatea contractelor depinde
de expunerea prilor la comportamentul oportunist etc. Testarea i msurarea legturilor
de cauzalitate se realizeaz prin analiza de regresie, unul dintre principalele instrumente
ale econometriei, dar pe care l vom prezenta ncepnd din cursul urmtor.
Ceea ce trebuie reinut acum este faptul c existena unei corelaii ntre dou
variabile aleatoare nu implic o relaie de cauzalitate ntre acestea.
ncepem prezentarea metodelor de analiz a dependenei cu testul 2, util atunci
cnd sunt analizate variabile calitative, nu neaprat ordinale, cu un numr redus de valori.
Testul 2 (hi ptrat)
Prezentarea testului 2 ncepe cu o trecere n revist a distribuiei 2, una dintre
cele mai folosite distribuii n teoria probabilitilor i statistica inferenial.
Dac X1, X2, ..., Xk sunt k variabile aleatoare distribuite N(0,1) i independente,
atunci variabila Q=X12+X22+...+Xk2 urmeaz o lege 2 cu k grade de libertate. Spre
deosebire de distribuia normal, care este caracterizat de doi parametri (media i
dispersia), distribuia hi ptrat are un singur parametru, un numr ntreg pozitiv care
specific numrul gradelor de libertate (numrul variabilelor Xi).
Densitatea de repartiie a distribuiei hi ptrat este dat de funcia f:R+[0,1],
1
unde f ( x; k ) = k / 2
x ( k / 21) e x / 2 , x > 0.
2 ( k / 2)

Simbolul reprezint funcia gama, definit astfel: ( z ) = t z 1e t dt.


0

Graficul densitii de repartiie a distribuiei 2 arat c, pentru k=1 sau 2,


densitatea de probabilitate este o funcie descresctoare. Pentru k3, graficul are forma
unui clopot mai mult sau mai puin simetric n funcie de mrimea lui k. Chiar dac nu
este reprezentat n figura de mai sus, menionm c pentru valori mari ale lui k, peste 25,
graficul densitii de repartiie se apropie de cel al distribuiei normale.
Caracteristicile legii 2: Dac Q~2k, atunci E(Q)=k i V(Q)=2k.
Pentru distribuia 2 au fost construite tabele care, n funcie de valoarea lui k i a
unei constante 2, arat probabilitatea ca variabila X, distribuit k2, s fie mai mare dect
2. Practic, alegnd valoarea 2 i cunoscnd numrul gradelor de libertate k, tabelul
distribuiei 2 indic P(X> 2).
Testul 2, dezvoltat de Karl Pearson, este folosit pentru identificarea dependenei
dintre dou variabile calitative. Pentru uurina expunerii, vom evidenia folosirea acestui
test prin intermediul unui exemplu numeric, urmat apoi de un exerciiu. Trebuie s
subliniem aici un aspect de ordin practic. Testul 2 d rezultate de ncredere dac numrul
observaiilor este relativ mare. De aceea, testul 2 nu este recomandat a se aplica n cazul
n care tabelul observat conine, n oricare dintre celulele sale, mai puin de 5 observaii.
Exemplu: ntr-o anumit regiune se afl n jur de un milion de persoane cu drept de vot.
Pentru a studia legtura dintre participarea la vot i sexul indivizilor, presupunem c am
extras un eantion aleator de 10.000 de persoane
Brbai Femei Total
cu drept de vot, pe care le-am ntrebat dac au
Au
votat
2.792 3.591 6.383
votat la ultimele alegeri. Rezultatele obinute
N-au votat 1.486 2.131 3.617
sunt prezentate n tabelul de frecvene alturat,
Total
4.278 5.722 10.000
care se mai numete i tabelul observat (O).
2

Pe baza acestui tabel se remarc faptul c 42,78% din indivizii din eantion sunt
brbai iar 57,22% sunt femei. Apoi, tabelul observat arat c 63,83% din indivizii
chestionai au votat la ultimele alegeri, n timp ce 36,17% nu au participat la vot.
Testul 2 se aplic pentru variabilele calitative nominale (care nu implic existena
unei relaii de ordine ntre diversele categorii). Ideea de baz a acestui test este aceea c,
pentru dou evenimente independente A i B, P(AB)=P(A)*P(B).
Astfel, dac sexul i prezena la vot sunt variabile independente, atunci, folosind
procentajele de mai sus, putem calcula valorile ateptate pentru fiecare din cele 4
categorii de indivizi cu drept de vot (brbai care au votat, brbai care n-au votat, femei
care au votat, femei care n-au votat). Practic, pe baza acestor procentaje putem calcula
tabelul de mai jos, care se mai numete i tabelul ateptat (E).
Au votat
N-au votat
Total

Brbai Femei Total


2.731 3.652 6.383
1.547 2.070 3.617
4.278 5.722 10.000

Tabelul ateptat conine frecvenele absolute ce s-ar obine n cazul n care sexul
indivizilor ar fi independent de participarea acestora la vot. Tabelul ateptat este ns
diferit de tabelul observat n practic. Dac cele dou tabele sunt diferite n mod
semnificativ, atunci vom spune c, n practic, sexul i prezena la urne sunt variabile
corelate, dependente. Dac ns cele dou tabele nu difer n mod semnificativ, atunci
vom spune c sexul i prezena la urne sunt variabile independente.
Diferena dintre cele dou tabele este calculat ca sum a patru componente,
fiecare dintre acestea cuantificnd diferena dintre celulele corespunztoare. cij=(OijEij)2/Eij, i=1,2, j=1,2, iar Oij reprezint valoarea observat, n timp ce Eij reprezint
valoarea ateptat. Astfel,
c11=(2.792-2.731)2/2.731=1,3625,
c12=(3.591-3.652)2/3.652=1,0189,
c21=(1.486-1.547)2/1.547=2,4053,
c22=(2.131-2.070)2/2.070=1,7976,
iar 2=c11+c12+c21+c22=6,5843.
Acest indicator (statistic) 2 este apoi comparat cu valoarea tabelat pentru
distribuia hi ptrat cu k grade de libertate, unde k=(numrul rndurilor-1)*(numrul
coloanelor-1). n cazul nostru, k=(2-1)*(2-1)=1, i folosim tabelul de la pagina 569 din
Andrei, Stancu i Pele. Pentru k=1, valoarea 5,024 corespunde unei probabiliti de 2,5%,
iar valoarea 6,635 corespunde unei probabiliti de 1%. ntruct valoarea calculat
anterior, 2=6,5843, este situat ntre aceste dou valori tabelate, spunem c
probabilitatea cu care cele dou variabile (sexul individului i prezena la urne) sunt
independente este situat ntre 1% i 2,5%. nseamn c, cu o probabilitate ridicat,
situat ntre 97,5% i 99%, putem afirma c, n regiunea studiat, prezena la urne i
sexul individului sunt corelate. Mai mult, ntruct sexul respondentului este o
caracteristic exogen, fixat pentru individ, putem intui direcia cauzalitii: prezena la

urne depinde de sexul persoanei cu drept de vot, i nu invers (datele de mai sus indic
faptul c brbaii au fost prezeni la vot ntr-o msur mai mare dect femeile).
Exerciiu: Se cunosc urmtoarele date cu privire la incidena a trei tipuri de malarie (A, B
i C) n trei regiuni tropicale (Asia, Africa, America de Sud):
Asia Africa America de Sud Total
Malaria de tip A 31
14
45
90
Malaria de tip B
2
5
53
60
Malaria de tip C 53
45
2
100
Total
86
64
100
250
Folosind testul 2, apreciai dac exist o legtur ntre tipul de malarie i zona
geografic, ignornd faptul c tabelul conine celule cu mai puin de 5 observaii.
Rezolvare: Trebuie s construim tabelul ateptat, dar pentru aceasta avem nevoie de
probabilitile asociate fiecrei categorii (tipuri de malarie i zon geografic).
Din tabelul de mai sus, observm c 34,4% (86/250*100) din cazuri au loc n
Asia, 25,6% au loc n Africa, iar 40% au loc n America de Sud. Apoi, observm c 36%
(90/250*100) dintre cazuri sunt de malarie de tipul A, 24% sunt malarie de tipul B, iar
40% sunt de tipul C.
Presupunnd c tipul de malarie este independent de zona geografic, tabelul
ateptat se determin prin nmulirea procentelor corespunztoare de mai sus i a
numrului total de cazuri observate (250). De exemplu, numrul ateptat de cazuri de
malarie de tipul A n Asia este 0,344*0,36*250=30,96. Apoi, numrul ateptat de cazuri
de malarie de tipul A n Africa este 0,256*0,36*250=23,04. Urmnd acest raionament,
tabelul ateptat este:
Asia Africa America de Sud Total
Malaria de tip A 30,96 23,04
36
90
Malaria de tip B 20,64 15,36
24
60
Malaria de tip C 34,40 25,60
40
100
Total
86
64
100
250
Se calculeaz apoi valorile cij=(Oij-Eij)2/Eij, unde Oij reprezint valoarea observat
iar Eij valoarea ateptat.
c11=(31-30,96)2/30,96=0,00005
c12=(14-23,04)2/23,04=3,546
...
c33=(2-40)2/40=36,1
Statistica 2 se calculeaz ca sum a valorilor cij i reprezint o msur a diferenei
dintre tabelul observat i cel ateptat. n cazul nostru, 2=c11+c12+...+c33=125,52.
Aceast valoare este apoi comparat cu valorile tabelate pentru distribuia 2 cu k grade
de libertate, unde k=(3-1)*(3-1)=4.

Din tabelul distribuiei 2 se observ c valoarea corespunztoare lui k=4 i unei


probabiliti de 0,1% este 18,465, valoare mult mai mic dect 125,52. De aceea, cu o
probabilitate de cel puin 99,9%, putem spune c datele indic existena unei relaii de
dependen ntre tipurile de malarie i zona geografic.

Metoda tabelului frecvenelor (a tabelului de corelaie sau de contingen)


Tabelul de contingen este un tabel cu dubl intrare, care prezint frecvenele
absolute ale unitilor statistice date fiind gruprile realizate pe baza a dou caracteristici
X i Y. Un tabel de corelaie are forma urmtoare:
Grupe
dup X
Grupe
dup Y
1
2
...
m
fx

n11
n21

n12
n22

nm1 nm2
n.1 n.2

...

... n1k
... n2k
nij
... nmk
... n.k

fy

n1.
n2.
nm.
n..

unde
-

variabila X poate lua k valori distincte (sau este grupat n k intervale) ordonate
cresctor;
- variabila Y poate lua m valori (sau este grupat n m intervale) ordonate cresctor;
- fx i fy reprezint frecvenele condiionate.
Metoda tabelului de corelaie poate fi folosit pentru dou variabile cantitative
discrete, dou variabile cantitative continue, care au fost grupate ntr-un numr relativ
redus de categorii, sau dou variabile calitative ordinale. ntruct este necesar ordonarea
valorilor variabilelor X i Y, aceast metod nu poate fi aplicat pentru variabilele
calitative ordinale.
Un tabel ca cel de mai sus poate indica sensul legturii dintre variabilele X i Y
dar, ntr-o oarecare msur, i intensitatea acesteia. Direcia corelaiei dintre cele dou
variabile este apreciat n funcie de modul de distribuire a frecvenelor nij din tabel fa
de diagonala principal, iar intensitatea legturii poate fi apreciat n funcie de valorile
acestor frecvene absolute. Astfel, repartizarea frecvenelor n apropierea diagonalei
principale indic o legtur direct ntre variabilele X i Y, o repartizare n jurul
diagonalei secundare indic o legtur invers ntre cele dou variabile, n timp ce
repartizarea relativ uniform a frecvenelor n tabel indic lipsa unei corelaii ntre
variabila X i Y.
Exemplu: Vezi punctul 1.5 din modelul de proiect din Statistic, autori E. Lilea, M.
Vtui, D. Boldeanu i Z. Goschin, carte disponibil online n biblioteca digital a ASEului, seciunea Finane.

Metoda grafic
Aceast metod se aplic pentru acelai gen de variabile ca i metoda tabelului
frecvenelor, respectiv pentru variabile calitative ordinale sau pentru variabile cantitative,
care nu trebuie ns a fi neaprat grupate.
Dat fiind c lum n considerare dou serii de date, X i Y, graficul se construiete
pornind de la valorile (xi, yi), care se reprezint n sistemul de axe rectangulare. Graficul
rezultat poart numele de corelogram sau grafic al norului de puncte. Exemplele de
grafice de mai jos sunt construite pentru valori pozitive ale lui X i Y.
n graficul (a) din dreapta punctele
sunt dispersate la ntmplare, fapt pentru
care se mai poate considera c aceste
puncte sunt mprtiate n jurul unei drepte
paralele cu axa OX. Acest grafic arat c
ntre cele dou variabile nu exist o
legtur semnificativ.
Dac ns punctele se concentreaz
n jurul unei anumite linii care nu este
paralel cu axa OX, acest fapt indic
existena unei corelaii ntre cele dou
variabile. Mai precis, concentrarea norului
de puncte n jurul unei drepte cu pant
pozitiv, aa cum este cazul graficului (b)
(a)
de mai jos, indic existena unei legturi
directe ntre variabilele X i Y, n timp ce
concentrarea n jurul unei drepte cu pant negativ, aa cum se ntampl n graficul (c),
indic existena unei legturi inverse.

(b)

(c)

Exemplu: Graficul alturat arat


legtura dintre timpul care se
scurge ntre dou erupii i durata
erupiilor gheizerului Old Faithful
(situat
n
Parcul
Naional
Yellowstone din statul Wyoming,
SUA).
Observm c norul de
puncte este plasat n jurul primei
bisectoare, ceea ce indic existena
unei legturi directe ntre cele dou
variabile (durata erupiilor i
intervalul la care acestea au loc). n
plus, gruparea punctelor n dou
noruri relativ separate sugereaz c
erupiile ar putea fi de dou feluri:
erupii frecvente i de scurt durat i erupii rare, dar de lung durat. Graficul nu poate
fi ns folosit n a indica direcia de cauzalitate a legturii, i anume dac durata unei
erupii (intensitatea sa) determin timpul pn la urmtoarea erupie (e posibil s fie aa)
sau invers, timpul scurs ntre dou erupii determin durata acesteia.

Covariana
Covariana este un indicator al dependenei liniare dintre dou variabile
cantitative, numerice. Pentru dou caracteristici X i Y, formula de calcul a covarianei,
1 n
deseori notat i prin cov(x,y), este s xy = ( xi x)( y i y ), care se mai poate scrie
n i =1
n
1
s xy = xi y i x y. n cazul n care seria de valori pentru cele dou caracteristici este
n i =1
dat sub forma unui tabel de contingen (xi, yj, nij), i,j=1, 2, ..., n, atunci relaia de calcul
1
a covarianei devine cov( x, y ) = ( xi x)( yi y )nij .
n i, j
Definirea covarianei are la baz ncadrarea celor n observaii, a celor n puncte
(xi,yj) din cadrul unei serii bidimensionale, ntr-unul din cele patru cadrane definite de
mediile celor dou variabile. Pentru
simplitatea expunerii, graficul alturat
II
I
ia n considerare dou variabile ce pot
lua doar valori pozitive.
Punctele din cadranele I i III
scot n eviden o legtur direct ntre
cele dou caracteristici, n timp ce
punctele situate n cadranele II i IV
evideniaz o dependen invers. Prin
urmare, dac majoritatea punctelor
sunt dispuse n jurul primei bisectoare
III
IV
(n cadranele I i III), atunci covariana
7

va fi un numr pozitiv, ce va indica existena unei dependene liniare directe, iar dac
punctele sunt ncadrate cu preponderen n cadranele II i IV, valoarea calculat a
covarianei va fi negativ, indicnd existena unei legturi inverse. Dac punctele sunt
distribuite neregulat n cele patru cadrane, atunci valoarea apropiat de zero a covarianei
va indica faptul c cele dou variabile sunt independente.
Proprieti ale covarianei:
Acest indicator nu poate fi utilizat direct pentru aprecierea intensitii dependenei
dintre caracteristici ntruct nu este un indicator normalizat, depinznd de unitatea
de msur a acestora.
Covariana este o msur simetric: cov(x,y)=cov(y,x).
Covariana a dou variabile independente este egal cu zero.
Covariana unei variabile numerice cu o constant este egal cu zero.
Covariana unei variabile numerice cu ea nsi este variana (dispersia) acelei
1 n
variabile: cov( x, x) = s x2 = ( xi x)( xi x) = x2 .
n i =1
Dat fiind formula de calcul a covarianei, este evident c aceasta
pentru o serie bidimensional (format din dou variabile numerice).
Pentru o serie multidimensional, care
cuprinde p>2 variabile, se poate construi matricea
s12 s12 s13
varianelor i covarianelor, notat V. Pe diagonala

s22 s23

principal, aceast matrice ptratic de mrime pXp

s32
va conine variana (dispersia) fiecrei dintre cele p
V =
variabile, n timp ce deasupra diagonalei principale

apar nscrise covarianele fiecrei perechi posibile

pentru cele p variabile. ntruct sxy=syx, valorile de

deasupra diagonalei principale apar nscrise i sub


aceast diagonal.

se calculeaz

.
.

s1 p

s2 p
s3 p

.
s p 1 p

s 2p