Sunteți pe pagina 1din 4

12 Analiz a de corelatie

Consider am o selectie bivariat a (r


1
, j
1
) , . . . , (r
n
, j
n
) pe care o privim ca un set de valori (esantion) al unei variabile
aleatoare bidimensionale (A, 1 ).
Spunem c a variabilele A si 1 sunt corelate dac a una din ele este o functie de cealalt a variabil a (spre exemplu
1 = cA +, sau A = c

1 +,

).
Figure 13:
Examinnd vizual reprezentarea grac a a punctelor (r
I
, j
I
), se pot observa diverse posibilit ati, spre exemplu:
- corela tie pozitiva ntre r si j (valorile lui j cresc atunci cnd valorile r corespunz atoare cresc)
- corela tie negativa ntre r si j (valorile lui j scad atunci cnd valorile r corespunz atoare cresc)
- inexisten ta unei corela tii (valorile r si j nu par a legate)
- existenta unei anumite corelatii ntre r si j, dar corelatia nu este linear a
Ca o m asur a a corelatiei lineare ntre valorile r
I
si j
I
introducem coecientul de corela tie (liniar a) r al selectiei
prin
r =
:
r
:
r
:

, (26)
unde
:
r
=
1
: 1
n
X
I=1
(r
I
r) (j
I
j)
este covarianta esantionului, iar
:
2
r
=
1
: 1
n
X
I=1
(r
I
r)
2
si :
2

=
1
: 1
n
X
I=1
(j
I
j)
2
sunt dispersiile de selectie corespunz atoare valorilor r, respectiv j.
Observatia 12.1 Alternativ, coecientul de corela tie se poate calcula folosind formula echivalenta
r =
:(
P
n
I=1
r
I
j
I
) (
P
n
I=1
r
I
) (
P
n
I=1
j
I
)
q
:(
P
n
I=1
r
I
)
2

P
n
I=1
r
2
I
q
:(
P
n
I=1
j
I
)
2

P
n
I=1
j
2
I
(27)
49
sau
r =
1
: 1
n
X
I=1
.
r
I
.

I
, (28)
unde
.
r
I
=
r
I
r
:
r
si .

I
=
j
I
j
:

sunt valorile standardizate (scaznd media si mpar tind la abaterea patratica medie).
Att :
r
ct si r sunt o m asur a a relatiilor existente ntre valorile r si j, dar r are avantajul c a c a nu se modic a
atunci cnd valorile sunt nmultite cu un anumit factor (spre exemplu la schimbarea unit atii de m asur a, cnd se
trece la la :: la c:).
Figure 14:
Observ am c a dac a valorile r si j sunt pozitiv corelate, atunci r va avea o valoare apropiat a de 1, dac a sunt
negativ corelate atunci r 1, iar dac a ele sunt necorelate (liniar), atunci r 0.
Are loc urm atoarea
Propozitia 12.2 Coecientul de corela tie liniara r verica
1 r 1,
si n plus r = 1 daca si numai daca punctele (r
I
, j
I
) se aa pe o dreapta.
Demonstratie. Rezult a din inegalitatea Cauchy-Buniakovski-Schwarz.
Corespunz ator coecientului de corelatie r, introducem coecientul de corelatie j a dou a variabile aleatoare A
si 1 prin
j =
o
Y
o

o
Y
, (29)
unde
o
Y
= 1[(A 1A) (1 11 )]
50
este covarianta variabilelor aleatoare A si 1 , iar
o
2

= 1
h
(A 1A)
2
i
si o
2
Y
= 1
h
(1 11 )
2
i
sunt dispersiile variabilelor aleatoare A si 1 .
Similar propozitiei anterioare se poate demonstra urm atoarea:
Propozitia 12.3 Coecientul de corela tie j a doua variabile aleatoare A si 1 verica
1 j 1,
si n plus j = 1 daca si numai daca variabilele aleatoare A si 1 sunt liniar dependente (adica 1 = cA + , sau
A = c

1 +,

).
Demonstratie. Rezult a din inegalitatea Schwartz.
Denitia 12.4 Spunem ca variabilele aleatoare A si 1 sunt necorelate daca coecientul de corela tie j = 0 este
nul.
Se poate demonstra urm atoarea.
Propozitia 12.5 a) Daca variabilele aleatoare A si 1 sunt independente, atunci ele sunt necorelate.
b) Daca variabilele aleatoare sunt necorelate, si n plus (A, 1 ) are o distribu tie normala, atunci A si 1 sunt
independente.
Observatia 12.6 Spunem ca (A, 1 ) are o distribu tie normala (bidimensionala), daca are densitatea de forma
) (r, j) =
1
2o

o
Y
p
1 j
2
c

()
2
,
unde
/(r, j) =
1
1 j
2
"

r j

2
2j

r j

j j
Y
o
Y

j j
Y
o
Y

2
#
.
Partea b) a propozitiei anterioare nu r amne adev arat a f ar a ipoteza suplimentar a c a (A, 1 ) este o variabil a
aleatoare normal a, dup a cum rezult a din urm atorul exemplu.
Exemplul 12.7 Fie A o variabila aleatoare ce ia valorile 1, 0, 1 cu probabilita ti 1,3 si e 1 = A
2
, adica
A =

1 0 1
1,3 1,3 1,3

si 1 =

0 1
1,3 2,3

.
Avem 1A = 0 si deci
o
Y
= 1[(A 1A) (1 11 )]
= 1(A1 ) 1A 11
= 1(A1 )
= 1

A A
2

= 1

A
3

= (1)
3

1
3
+ (0)
3

1
3
+ (1)
3

1
3
= 0.
Variabilele aleatoare A si 1 sunt necorelate, dar evident nu sunt independente (1 = A
2
).
51
12.1 Test asupra coecientului de corelatie
Prespunem c a (A, 1 ) este o variabil a aleatoare nromal a.
Se poate ar ata c a dac[ variabilele aleatoare A si 1 sunt necorelate (j = 0), atunci
t = r
r
: 2
1 r
2
este valoarea observat a a a unei variabile aleatoare T(Student) cu : 2 grade de libertate. Putem putem construi
un test statistic pentru j astfel.
Consider am testul
H
0
: j = 0 (nu exist a o dependent a liniar a ntre A si 1 )
H
1
: j 6= 0 (exist a o dependent a liniar a ntre A si 1 )
Pentru un nivel de semnicatie c xat (c = 5% sau c = 1% spre exemplu), calcul am valoarea t
o/2,n2
folosind
o tabel a de valori a distributiei T (Student) cu : 2 grade de libertate astfel nct aria la dreapta acestui punct
este egal a cu c,2 (adic a 1

t
1o/2,n2

= 1
o
2
).
Dac a valoarea calculat a t

t
o/2,n2
, t
o/2,n2

, atunci se accept a ipoteza nul a, iar n caz contrar aceasta


este respins a.
n mod similar, pentru a testa existenta unei dependente liniare pozitive ntre A si 1 se poate considera testul
H
0
: j = 0 (nu exist a o dependent a liniar a ntre A si 1 )
H
1
: j 0 (exist a o dependent a liniar a pozitiv a ntre A si 1 )
cu intervalul de acceptare al ipotezei nule t (, t
o,n2
).
Exemplul 12.8 Sa se testeze ipoteza j = 0 (adica independen ta variabilelor aleatoare A si 1 , conform propozi tiei
anterioare) cu alternativa j 0, folosind un e santion de volum : = 10 pentru care coecientul de corela tie r = 0.6.
Pentru un nivel de semnica tie c = 5% = 0.05, din tabela de valori a distribu tiei Student determinam t
0.05,102
=
t
0.95,8
astfel nct 1 (t
0.05
, 8) = 1 0.05 = 0.95, si ob tinem t
0.05,8
= 1.86.
Valoarea
t = r
r
: 2
1 r
2
= 0.6
r
10 2
1 0.6
2
= 2.12 1.86,
si deci respingem ipoteza nula j = 0. Aceasta arata existen ta (cu siguran ta 1 c = 95%) a unei corela tii pozitive
ntre variabilele aleatoare considerate.
Exercitii
Exercitiul 12.1 Numarul de car ti mprumutate de la o biblioteca a fost de 500 n ziua de Luni, 450 Mar ti, 480
Miercuri, 460 Joi, si 510 Vineri. Sa se testeze ipoteza ca ca numarul de car ti mprumutate de la biblioteca nu
depinde de ziua saptamnii, folosind un nivel de semnica tie c = 5%.
52