Sunteți pe pagina 1din 29

CAPITOLUL 5

CAPITOLUL 5
ANALIZA LEGTURILOR DINTRE
VARIABILELE STATISTICE
Consideraii preliminare
Prezentul capitol urmrete s prezinte metode i tehnici statistice
folosite n analiza legturilor, dependenelor care se manifest ntre cele mai
multe fenomene de mas din viaa real. Indicatorii statistici pot, astfel, s
rezume i s prezinte sintetic legturile dintre dou caracteristici statistice
(n cazul datelor bivariate) sau dintre mai multe caracteristici (n cazul
datelor multivariate). Corelaia va arta ct de puternic este legtura,
dependena dintre variabile, n timp ce regresia va ajuta n explicarea i
previzionarea unui factor pe baza valorii altuia (altora), ceea ce, evident, va
reduce incertitudinea privitoare la fenomene importante, dar aleatoare.

Termeni cheie
analiz dispresional
asociere
coeficient de contingen
coeficient de corelaie
coeficient de corelaie a rangurilor
coeficient de corelaie parial
coeficient de determinaie
coeficient de determinaie multipl
coeficient de regresie
coeficient de regresie parial
corelaie
corelaie neparametric

diagram de mprtiere
legtur statistic
plan de regresie
raport de corelaie
raport de corelaie multipl
regresie
regresie liniar simpl
regresie multipl
regresie neliniar
tabel de asociere
tabel de corelaie
test de independen

STATISTIC ECONOMIC

Noiuni teoretice
5.1. INTRODUCERE
Fenomenele i procesele social-economice nu sunt n general, fenomene
independente, ci ele se manifest ca rezultat al aciunii unor factori de influen i condiioneaz, la rndul lor, manifestarea altora. Spunem, aadar, c
ntre fenomenele de mas, colective se manifest legturi, dependene.
Legturile statistice sunt specifice fenomenelor de tip colectiv, sistemelor
deschise, complexe, caracterizate de relaii suple, neunivoce, n care cauzele
interacioneaz cu factorii aleatori. Aadar, unei valori a factorului cauzal i
corespunde o distribuie de valori ale factorului dependent, cea ce ne ndreptete s le tratm ca variabile aleatoare i s le analizm utiliznd
metode statistice. Legea statistic nu poate fi pus n eviden la nivelul fiecrui caz particular, fiecrui element n parte, ci numai la nivelul unei mase
de evenimente cu structur complet.
DEFINIIE: Legturile statistice (stohastice) sunt relaii prin care se realizeaz procesul de determinare, apariie i dezvoltare a fenomenelor de mas.
Trebuie subliniat c metodele i tehnicile statistice utilizate n studiul
legturilor dintre fenomenele de mas sunt cuprinse ntr-o categorie numit
analiza corelaiei. Trebuie s facem, ns, distincia dintre un model de
corelaie care ne arat ct de puternic sunt legate cele dou variabile, ct
de mult tind s se modifice mpreun i un model de regresie care
examineaz schimbrile unei variabile ca o funcie de schimbrile sau
nivelurile altei (altor) variabile.
Modelul de regresie permite previzionarea uneia dintre variabile pe baza
informaiilor despre alte variabile.
Totodat, analiza corelaiei (n sens larg) este specific variabilelor cantitative, numerice, msurate pe scale de intervale i de rapoarte. Printr-o
extensie a semnificaiei, putem efectua analiza bivariat i multivariat a
caracteristicilor calitative (nominale i ordinale) prin studiul asocierii (sau
contingenei) lund n considerare distribuia simultan a unitilor statistice
dup dou sau mai multe variabile calitative.

CAPITOLUL 5

5.2. CLASIFICAREA LEGTURILOR STATISTICE


1. dup tipul variabilelor luate n consideraie i scala pe care sunt
msurate datele bi(multi)variate, legturile pot fi clasificate aa cum am
vzut n paragraful precedent n asocieri i corelaii statistice.
2. dup numrul variabilelor statistice luate n consideraie, putem avea
legturi simple i legturi multiple.
3. dup sensul legturilor dintre variabile, putem avea legturi directe
i legturi inverse.
4. dup forma ecuaiei menit s descrie relaia dintre variabile (adic
modelul matematic propriu dependenei studiate) putem avea legturi liniare i legturi neliniare.
5. dup modul de manifestare n timp a legturii dintre variabile, avem
legturi sincrone i legturi asincrone.
n cele ce urmeaz, n analiza statistic a legturilor dintre variabilele
social-economice cu ajutorul metodelor regresiei i corelaiei, vom nota cu:
X variabila cauzal, numit i independent sau exogen, explicativ;
Y variabila efect, numit i dependent sau endogen, explicat, care
poate fi, aadar, cunoscut cnd se cunoate variabila explicativ (sau cnd
se cunosc variabilele explicative).
5.3. DIAGRAMA DE MPRTIERE I TABELUL BIDIMENSIONAL
a) Diagrama de mprtiere indic, n sistemul de coordonate
rectangulare, fiecare unitate statistic (fiecare caz individual) printr-un
punct. Variabila studiat drept factor cauzal, de influen (X) este
reprezentat pe axa orizontal (a absciselor). Variabila de rspuns, care
poate fi influenat (Y) definete axa vertical (a ordonatelor). Forma de
distribuire a punctelor pe grafic (adic norul de puncte) ne d informaii
privind:
1. existena legturii dintre variabile

STATISTIC ECONOMIC

2. sensul legturii dintre variabile

a)

b)

Figura nr. 5.2


a) legtur direct i b) legtur invers
3. forma legturii dintre variabile.
b) Metoda tabelului de corelaie se utilizeaz n cazul gruprii combinate dup dou variabile numerice. Frecvenele din interiorul tabelului
permit, la fel ca i n cazul diagramei de mprtiere, identificarea existenei,
sensului i chiar a formei dependenei statistice.
5.4. ELEMENTE DE ANALIZ DISPERSIONAL (ANOVA)
Pentru a nelege coninutul i modul de utilizare a analizei dispersionale
sunt necesare trei observaii preliminare:
1. Este firesc , dup aplicarea metodelor elementare prin care am
constatat logic ce se pot stabili relaii de dependen ntre variabile, s
testm ipoteza statistic privitoare la semnificaia acestei dependene;
2. pentru fiecare nivel/variant/interval de variaie al factorului cauzal, se
nregistreaz o distribuie de valori ale factorului efect, distribuie pe care o
putem caracteriza prin nivelul mediu.

CAPITOLUL 5
y
y
y1=y2=

yr
y2

=yr

y1
o

x1

x2 ...... xr x

a)

x1

x2

..... xr x

b)

Fig. 5.3 - a) medii de grup egale; b) mediile de grup inegale

Analiza dispersional va urmri, deci, s testeze semnificaia diferenei


dintre mediile de grup n populaia general (estimate prin mediile de grup
din eantion).
3. s mai notm c, n general, n analiza dispersional, nivelurile
x1, x2, ..., xr sunt niveluri ale unei variabile categoriale (numite i tratamente), dar, cum ceea ce este valabil pentru o scal inferioar (nominal)
este valabil i pentru orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza se poate extinde.

n modelul de analiz dispersional unifactorial se testeaz ipoteza


nul:
H0: y1 = y2 = ... = yr
cu ipoteza alternativ cel puin dou medii din populaie nu sunt egale:
H1 : yi yi

(i j)

Setul de date pentru analiza dispersional unifactorial const n valorile


variabilei Y pentru cele r grupe independente. Volumele grupelor pot fi
diferite n1 n2 ... nr (Tabelul 5.1):

STATISTIC ECONOMIC
Tabelul 5.1

Sistematizarea datelor pentru ANOVA


Gr. 1
y11
y12
.
.

y1n1
Media
Vol. grup

y1
n1

Grupe dup factorul cauz


Gr. 2
... .
Gr.r
y21
.....
yr1
y22
.....
yr2
.
.
y 2n 2
.....
y rn r
y2
n2

.....
.....

yr
nr

Testul statistic F pentru analiza dispersional unifactorial este raportul


indicatorilor de variabilitate pentru cele dou surse de variaie: variabilitatea
dintre grupe mprit la variabilitatea din interiorul grupelor Pentru testarea
ipotezei nule, vom estima mediile de grup i media total din colectivitatea
general pe baza datelor din eantion.
ni

y ij

j=1

yi =

i = 1, r

ni
r ni

y=

y ij

i =1 j=1

(5.1)

yi n i

i =1

n = ni

(5.2)
(5.3)

i =1

Variana dintre grupe, dat de influena factorului cauzal, numit i variana factorial este:
r

S1 = y i y n i
i =1

(5.4)

iar variana din interiorul grupelor, numit i variana rezidual, este:


r ni

S 2 = y ij y i
i =1 j=1

(5.5)

mprtierea total a valorilor individuale fa de media general y este


dat de variana total:

CAPITOLUL 5
r ni

S = y ij y
i =1 j=1

(5.6)

Pentru a face comparabile aceste msuri ale variabilitii, le vom raporta


pe fiecare la gradele de libertate, transformnd astfel suma de ptrate n media ptratele abaterilor.
Obinem astfel:
r

s12 =

S1
=
r 1

yi y n i

i =1

r 1

r ni

s 22 =

S2
=
nr

y ij y i

i =1 j=1

(5.7)

(5.8)

nr

Statistica F pentru analiza dispersional unifactorial are forma:


F=

s12
s 22

var iabilitatea dintre grupe


variabilitatea din interiorul grupelor

(5.9)

Tabelul 5.2
Calculul statisticii F pentru analiza dispersional unifactorial
Sursa
Gradele
Variana
Dispersia
Statistica F
variaiei
de
(suma
corectat (media
libertate
ptratelor)
ptratelor)
r1
S1
Factorul X
s12
s12
S2
nr
Rezidual
F=
s22
s 22
Total

r1

S = S1 + S2

s2 s12 + s22

Rezultatul este semnificativ dac:


Fcalc(r-1) > Ftab(r- 1),(n- r),
deoarece acest lucru indic diferene mai mari ntre mediile grupelor
dect cele datorate ntmplrii..
5.5. REGRESIA I CORELAIA SIMPL LINIAR

Dei diagrama de mprtiere poate fi extrem de util n determinarea


formei legturii dintre variabilele statistice, sunt disponibile i metode mai
exacte pentru a stabili modelul de legtur.

STATISTIC ECONOMIC

5.5.1. Regresia simpl liniar

Relaia dintre variabila efect (Y) i variabila cauz (X) studiat de regresia simpl liniar ntr-o populaie statistic poate fi descris prin modelul
liniar matematic general:
(5.10)
Yi = + Xi + i
Valoarea parametrului arat punctul n care linia intercepteaz (taie)
axa OY (fig. 5.4), iar i reprezint componenta rezidual (eroarea aleatoare)
pentru fiecare unitate, adic partea din valoarea variabilei Y care nu poate fi
msurat prin relaia sistematic existent cu variabila X.

y
3

0,5 {

2
1
o

4 x

Fig. 5.4 - Modelul liniar unifactorial

Dac datele disponibile provin dintr-un eantion, modelul de regresie


liniar n eantion este
(5.11)
yi = a + bxi + ei
cu componenta predictibil:
y i = a + bx i
(5.12)
ei = yi (a + bxi)
(5.13)
Un criteriu pentru determinarea valorilor a i b este metoda minimizrii
sumei ptratelor deviaiilor (abaterilor sau reziduurilor) ei. Metoda,
cunoscut ca metoda celor mai mici ptrate, nseamn minimizarea
relaiei:
n

i =1

i =1

i =1

2
2
e i2 = (y i y i ) = (y i a bx i )

(5.14)

CAPITOLUL 5

Se obine astfel:
n

i =1

i =1

na + b x i = y i

(5.15a)

i =1

i =1

i =1

a x i + b x i2 = x i y i

(5.15b)

Estimatorii a (intercepia) i b (panta) ai parametrilor i sunt dai,


atunci de:
n
n

n n
2
y i x i x i x i y i
i =1 i =1

i=1 i =1
a=
2
n
n
n x i2 x i
i =1
i =1
n
n n n
n x i y i x i y i x i y i n x y
i =1
i=1 i =1 = i =1
b=
2
n
n
n
2
x i2 n x 2

n xi xi
i
1
=
i =1
i =1

(5.16)

(5.17)

Se observ, totodat, c:
n

)(

x i x yi y

i =1

b=

xi x

i =1

)
=

s xy
s 2x

(5.18)

n
Estimatorul a (intercepia) poate lua valori negative sau pozitive, n
funcie de semnul numrtorului din relaia (5.16). Estimatorul b (panta
liniei drepte) numit i coeficient de regresie are ntotdeauna semnul indicatorului sxy, numit i covariana ntre x i y (asupra cruia vom reveni n
paragrafele urmtoare).

STATISTIC ECONOMIC

y
=a+bx
b<0

=a+bx
b>0
o

a)

b)

=a+bx
b=0
x o

c)

Fig. 5.5 - Linii de regresie cu: a) pant pozitiv b) pant negativ c) pant egal
cu zero

Vom obine astfel:


n

i =1

i =1

y i = y i

(5.19)

n condiiile respectrii ipotezelor modelului de regresie liniar.


Dac datele au fost sistematizate utiliznd metoda gruprii, iar valorile xi
i yi se ntlnesc cu frecvenele ni, atunci:
r

i =1

i =1

i =1

a n i + b x i n i = yi n i
r

i =1
r

i =1

i =1

a x i n i + b x i2 n i = x i y i n i
r

y i n i = y i n i

i =1

(5.20a)

(5.20b)
(5.21)

i =1

n cazul n care datele au fost sistematizate ntr-un tabel cu dubl intrare,


iar valorile xi i yj se ntlnesc cu frecvenele nij:
r m

i =1 j=1

i =1

j=1

a n ij + b x i n i. = y j n. j
r

r m

i =1

i =1

i =1 j=1

a x i n i. + b x i2 n i. = x i y j n ij
m

j=1

j=1

y j n. j = y j n. j

(5.22a)
(5.22b)

(5.23)

CAPITOLUL 5

EXEMPLUL 5.1. Numrul de copii nscrii i numrul de cadre didactice


din 10 uniti precolare este (Tabelul 5.3):
Nr. crt. al unitii
precolare
1
2
3
4
5
6
7
8
9
10
Total

Nr. copii nscrii


(xi) (persoane)
20
323
156
180
98
73
334
20
52
203
1459

Tabelul 5.3
Nr cadre didactice
(yi) (persoane)
2
21
18
14
11
6
21
1
2
17
113

na + b x i = y i

2
a x i + b x i = x i y i
2
y i x i x i x i y i 113 332.267 1459 24.256 2.156.667
a=
=
=
=
1.193.989
10 332.267 1459 2
n x i2 ( x i )2

= 1,80627

b=

n x i y i x i y i 10 24.256 1459 113


77693
=
= 0,06507
=
n x i2 ( x i )2
10 332.267 (1459)2 1193989

Modelul de regresie va fi:


y i = 1,80627 + 0,06507 x i
Calculele intermediare necesare sunt prezentate n tabelul 5.4 col. 3,4,5.
Nr.
crt.
0
1
2
3
4

xi

yi

x i2

y i2

xiyi

y i

(y i y i )

1
20
323
156
180

2
2
21
18
14

3
400
104.329
24.336
32.400

4
4
441
324
196

5
40
6.783
2.808
2.520

6
3
23
12
14

7
1
4
36
0

Tabelul 5.4

(y

8
86,43
94,09
44,89
7,29

STATISTIC ECONOMIC
5
6
7
8
9
10
Total

98
73
334
20
52
203
1459

11
6
21
1
2
17
113

9.604
5.329
111.556
400
2.704
41.209
332.267

121
36
441
1
4
289
1857

1.078
438
7.014
20
104
3.451
24256

8
7
24
3
5
15
113

9
1
9
4
9
4
77

0,09
28,09
94,09
106,09
86,43
32,49
579,98

Valorile ajustate ale numrului de cadre didactice n funcie de


numrul de copii nscrii sunt calculate n coloana 6 a tabelului 5.4.
5.5.2. Indicatori ai calitii ajustrii
Abaterea medie ptratic (eroarea standard) a reziduurilor este o
msur absolut a calitii ajustrii pe baza regresiei n eantion, iar
coeficientul de determinaie este un indicator relativ. Se observ
c(fig.5.6):
y i y = ( y i y i ) + ( y i y)
(5.24)

=a+bx

yii
yiy { y
{ i

Fig. 5.6 - Abaterea valorilor individuale yi de la medie


n

i =1

i =1

i =1

2
2
2
( y i y) = ( y i y i ) + ( y i y)

(5.25)

CAPITOLUL 5

Putem nota:
n

2
2
( y i y) = y = variana total, suma ptratelor abaterilor totale.

i =1
n

2
2
( y i y i ) = e = variana neexplicat, suma ptratelor erorilor.

i =1
n

2
2
( y i y) = y / x = variana explicat, suma ptratelor abaterilor dato-

i =1

rate regresiei.
2y = 2y / x + 2e

(5.26)

Tabelul ANOVA este (Tabelul 5.5)


Tabelul 5.5
Tabelul ANOVA pentru testarea calitii ajustrii
Sursa variaiei
Suma ptratelor
Grade de
Media ptratelor
libertate
(dispersia corectat)
n
Datorat
k
2
2y / x
2
2y / x = y i y
regresiei
sy/x =
i =1

Rezidual

2e = (y i y i )

nk1

i =1

Total

2y = y i y
i =1

n1

s e2 =

2e

n k 1

s2y =

2y
n 1

n tabelul ANOVA, k reprezint numrul variabilelor independente


luate n consideraie. n analiza regresiei liniare simple, k = 1.
Pentru analiza calitii ajustrii n regresia simpl liniar, abaterea
medie ptratic a erorilor n eantion este:
n

se =

2e

(y i y i )

i =1

n2
n2
Alternativ, putem calcula:
2y
2y / x 2e
= 1,00 = 2 + 2
2y
y
y

(5.27)

(5.28)

STATISTIC ECONOMIC

Coeficientul de determinaie este:

(
=
(y
n

R2 =

2y / x
2y

= 1

2e
2y

)
y)

y i y

i =1
n

i =1

(5.29)

Raportul 2y / x / 2y reprezint proporia variaiei total care este explicat


de linia de regresie. Cu ct raportul R2 are o valoare mai apropiat de 1 (sau
de 100% ntr-o exprimare procentual), cu att putem aprecia c variabila
independent X explic mai bine variaia variabilei efect Y.
=Y,
Dac = 0, nseamn c linia de regresie este orizontal, adic Y
atunci valoarea lui X nu este de nici un ajutor n previzionarea variabilei Y:
nu conteaz ct de mult se modific X, deoarece nu implic nici o
modificare n Y (n medie).
Vom testa, prin urmare dac panta () este diferit de zero. Ipoteza nul
(H0) va fi atunci aceea c panta () este egal cu zero, cu ipoteza alternativ
(H1) c panta () este diferit de zero (pozitiv sau negativ, test bilateral):
H0 : = 0 (b = = 0)
H1 : 0
Dac volumul eantionului este mare, vom utiliza testul Z:
b b b 0
Z=
=
sb
sb
unde sb reprezint abaterea medie ptratic obinut din distribuia de
eantionare a coeficientului b:

s b = s 2b
s 2b = s e2
n

(5.30)
1

(x i x )

i =1

(5.31)
2

Pentru un prag de semnificaie , vom respinge ipoteza nul (H0), cnd


Z > Z/2 sau Z < Z/2 i vom concluziona c este foarte improbabil ca
estimatorul b s provin dintr-o populaie cu = 0.
Dac volumul eantionului este mic, vom utiliza testul t:
b b b 0
t n 2 =
=
sb
sb

CAPITOLUL 5

statistic ce urmeaz o distribuie t cu (n 2) grade de libertate.


Intervalul de ncredere pentru coeficientul de regresie b este dat de:
b t(/2, n -2) sb b + t(/2, n-2) sb

(5.32)

5.5.3. Corelaia simpl liniar

. Plecnd de la reprezentarea grafic prin intermediul diagramei de


mprtiere, putem calcula un indicator care s msoare legtura dintre cele
dou variabile.
5.5.3.1. Covariana

Astfel, vom ncepe cu mprirea planului diagramei n patru cadrane, n


raport cu nivelurile medii din eantion, x i y (fig. 5.7):

cadranul I

cadranul II

y cadranul III

cadranul IV

Fig. 5.7 - Diagrama de mprtiere cu cadranele separate de medii

Pentru punctele de pe grafic, produselor lor de la medii pot fi pozitive sau


negative, astfel (Tabelul 5.6):
Tabelul 5.6
Semnele produselor devierilor (abaterilor)
Cadranul
I
II
III
IV

xi x
+

yi y
+
+

(xi x )(yi y )
+

STATISTIC ECONOMIC

Este firesc atunci s calculm media acestor produse ale abaterilor, medie
care ne va oferi un indicator absolut al legturii dintre variabile. Acest
indicator, numit covariana ntre X i Y, ne arat ct de mult se modific
mpreun cele dou variabile:
n

cov(x , y) = s xy =

(xi - x )(yi - y )

i =1

= xy x y =

i =1

i =1
2

i =1

n x i yi x i yi
n

(5.33)

Covariana are valoare pozitiv dac legtura dintre variabile este direct
i negativ, dac legtura dintre variabile este invers. Dac valoarea covarianei este egal cu zero, acest lucru implic lipsa legturii ntre variabile,
sau, cel puin, lipsa legturii liniare.
5.5.3.2. Coeficientul de corelaie liniar
Coeficientul de corelaie standardizeaz media produselor abaterilor:
semnul coeficientului indic direcia legturii, iar valoarea lui indic intensitatea legturii.
n

rxy =

( x i x )( y i y)

s xy

cov(x, y)
=
=
sxs y
sx sy

i =1

( x x ) 2 n ( y y) 2
i
i
i
i

=1
=1
sau, prin transformri elementare:
n

rxy =

i =1

i =1

n x i yi xi yi
i =1

2
n 2 n
n
ny
2

n
x
x
n
y
i i i i
i =1 i =1
i =1
i =1

(5.34)

(5.35)

r
Dac perechile de valori (xi, yi) apar cu frecvena ni; n i = n , formula

i =1
devine:

rxy =

i =1

i =1

i =1

i =1

ni x i yin i x in i yin i
2
r

2
r
r
r
r
r

2
2
n i x i n i x i n i n i yi n i yi n i
i =1 i =1
i =1
i =1

i =1 i =1

(5.36)

CAPITOLUL 5

iar dac datele au fost sistematizate ntr-un tabel cu dubl intrare, n care
r m

perechile (xi, yi) apar cu frecvenele nij n ij = n , atunci:


i =1 j=1

r m

r m

i =1 j=1

i =1 j=1

i =1

j=1

n ij x i y i n ij x i n i y j n j

rxy =

(5.37)
2
2
r m

r m
m
r

n ij x i2 n i x i n i n ij y 2j n j y j n j
i =1 j=1 i =1
j=1

i =1 j=1 j=1
Valoarea coeficientului de corelaie (rxy sau simplu, r) este situat ntre
1 i 1. O valoare 1 indic o corelaie liniar direct i perfect (funcional), iar o valoare 1 indic o corelaie liniar invers perfect. Interpretarea uzual a lui r este aceea c semnul indic direcia legturii, iar valoarea
indic intensitatea ei. O valoarea O arat (de obicei) lipsa legturii ntre
variabile.
Aadar, coeficientul de corelaie, r, este un indicator ce caracterizeaz
direcia i intensitatea legturii liniare. Se observ c:
s
(5.38)
r=b x
sy
EXEMPLUL 5.2. Considerm datele din Exemplul 5.1. Pe baza lor se
determin coeficientul corelaiei rxy, folosindu-se datele intermediare din
Tabelul 5.4.:

rxy =
=

n x i yi x i yi

n x i2

( x i )

77693
1193989 5801

][

n y i2

( y i )

77693
1193989 (18570 12769)

77693
77693
=
= 0,93
1092,698 76,1643 83224,578

Rezult deci c ntre cele dou variabile exist o legtur direct i foarte
puternic.
Semnificaia coeficientului de corelaie (r) poate fi testat utiliznd testul
t:
t n 2 =

r n2
1 r

(5.39)

STATISTIC ECONOMIC

Ipoteza nul se respinge dac valoarea calculat tn-2 este mai mare dect
valoarea tabelat t/2,n-2 pentru testul bilateral i tcalc. >t,n-2 sau tcalc. < -t,n-2
pentru testul unilateral dreapta, respectiv, stnga.
EXEMPLUL 5.3. Vom testa semnificaia coeficientului de corelaie calculat n Exemplul 5.1:
rxy
0,93
n2 =
8 = 7,158
t=
2
1 0,932
1 rxy

tcalc. = 7,158 se compar cu valoarea tabelar a lui t, din tabelul repartiiei


Student (anexa) pentru un nivel de semnificaie de 5% ( = 0,05) i n 2 = 8
grade de libertate:
t,n-2 = t0,05;8 = 2,306
Cum tcalc. > ttab rezult c coeficientul de corelaie liniar simpl determinat este semnificativ statistic (semnificativ diferit de zero).
5.5.3.3. Raportul de corelaie

Un alt indicator relativ pentru msurarea intensitii legturii dintre variabile este raportul de corelaie, rdcina ptrat a coeficientului de
determinaie (5.29), adic:

(
(y
n

R=

)
y)

y i y

i =1
n
i =1

(y i y )

= 1 i =n1
yi y
i =1

(5.40)

Raportul de corelaie ia valori cuprinse ntre 0 i 1. Cu ct valoarea


indicatorului este mai apropiat de 1, cu att legtura dintre variabile este
mai puternic. Valori apropiate de 0 ne indic legturi de intensitate slab
ntre variabile.
n analiza corelaiei simple liniare se observ c:
r2 = R2
(5.41)
i
r= R
(5.42)
EXEMPLUL 5.4. Pentru calculul raportului de corelaie vom lua n considerare datele din Exemplul 5.1:

CAPITOLUL 5

R = 1

(y i y i )

yi y

77
= 0,93
579,98
Rezult c legtura dintre cele dou variabile este foarte puternic.
R = 1

5.6. REGRESIA I CORELAIA MULTIPL LINIAR

n numeroase situaii, ns, variabila rezultativ supus studiului poate fi


afectat (determinat) de mai muli factori de influen.
5.6.1. Regresia multipl liniar
Regresia multipl liniar extinde analiza regresiei, utiliznd dou sau mai
multe variabile independente. Astfel, dac lum n consideraie o variabil
dependent (Y) i dou variabile independente (X1 i X2), modelul de
regresie multipl liniar n colectivitatea general devine:
Yi = + 1X1i + 2 X 2i + i
(5.43)
iar n eantionul cu care lucrm, linia de regresie multipl este:
yi = a + b1x1i + b2x2i + ei
(5.44)

n eantion, coeficienii b1 i b2 sunt numii coeficieni de regresie


pariali i ei ne arat doar influena parial a fiecrei variabile
independente, atunci cnd influena tuturor celorlalte variabile independente
este considerat constant.
y i = a + b1 x1i + b 2 x 2i
(5.45)
Aplicnd metoda celor mai mici ptrate, sistemul de 3 ecuaii simultane
cu 3 necunoscute, pentru determinarea estimatorilor a, b1 i b2 este:

STATISTIC ECONOMIC
n
n
n

+
+
=
na
b
x
b
x
yi

1
1i
2
2i

i =1
i =1
i =1
n
n
n
n

2
a x 1i + b1 x 1i + b 2 x 1i x 2i = x 1i y i
i =1
i =1
i =1
i =1
n
n
n
n

2
+
+
=
a
x
b
x
x
b
x
x 2i y i

2
2i
i =1 2i 1 i =1 1i 2i
i =1
i =1

(5.46)

Dac lum n considerare k variabile independente, atunci modelul poate fi


generalizat la:
Yi = + 1X1i + 2 X 2i + ... + k X ki + i
(5.47)
n acest caz apare o ipotez special, i anume aceea c o variabil
independent nu poate s fie exprimat ca o combinaie liniar perfect
a celorlalte variabile independente. Cu alte cuvinte, nu este posibil s
gsim un set de numere d0, d1, d2, ..., dk, astfel nct:
d 0 + d1X1i + d 2 X 2i + ... + d k X ki = 0 , i =1, n
(5.48)
n practic, dei situaia aceasta, numit multicoliniaritate perfect, este
rar ntlnit, sunt mai frecvente cazurile de multicoliniaritate ridicat
Ecuaia de regresie multipl n eantion este:
y i = a + b1 x 1i + b 2 x 2i + ... + b k x ki
(5.49)
5.6.2. Corelaia multipl liniar

Pentru a studia intensitatea legturii dintre o caracteristic dependent


(Y) i mai multe caracteristici independente utiliznd metoda corelaiei,
calculm raportul de corelaie multipl:
n

Ry, x 1 , x 2 , ..., x k =

(y i y )

i =1
n

2
(y i y )

i =1

(y i y i )

= 1 i =n1
2
(y i y )

(5.50)

i =1

Raportul (coeficientul) de corelaie multipl are valori cuprinse ntre 0


(dac nu exist legtur ntre variabil dependent i variabilele independente) i 1 (dac exist legtur perfect).
(5.51)
Ry, x 1 , x 2 , ..., x k > | ryx j | j = 1, k

CAPITOLUL 5

Ptratul raportului de corelaie multipl este coeficientul de determinaie multipl (R2). El arat proporia din variaia total a variabilei Y, care
este explicat de variabilele independente X1, X2, ..., Xk.
Testarea semnificaiei raportului de corelaie multipl se poate face
utiliznd statistica F:
n k 1 R 2
F=

(5.52)
k
1 R2
unde k reprezint numrul variabilelor independente. Dac:
Fcalc. > F, k, n-k-1 se accept ipoteza conform creia variabilele X1, X2, ...,
Xk au o influen semnificativ asupra variabilei rezultative, Y.
n afara coeficienilor de corelaie simpl i multipl, n analiza corelaiei
dintre variabile se mai pot calcula i coeficienii de corelaie parial, ce
caracterizeaz intensitatea legturii dintre dou variabile, n ipoteza c celelalte variabile rmn constante. De pild, n cazul a dou variabile
independente, coeficientul de corelaie parial ntre Y i X1, eliminnd
influena variabilei X2 este:
ryx1 ryx 2 rx1x 2
ryx1 x 2 =
(5.53)
2
2
1 ryx

r
x1x 2
2

)(

i coeficientul de corelaie parial ntre Y i X2, eliminnd influena


variabilei X1 este:
ryx2 ryx1 rx1x 2
ryx2 x1 =
(5.54)
2
2
1 ryx
1

r
x1x 2
1

)(

5.7. REGRESIA I CORELAIA NELINIAR

Cnd din consideraii teoretice ori din studierea diagramei de mprtiere


observm c dependena nu este de tip liniar, o funcie neliniar trebuie s
fie utilizat pentru a descrie legtura dintre caracteristici.
5.7.1. Regresia neliniar

1. Modelele polinominale reprezint o categorie des ntlnit printre


modelele neliniare ce descriu relaiile dintre caracteristicile social-economice. Modelul de regresie n eantion are forma general:

STATISTIC ECONOMIC

y i = a + b1 x i + b 2 x i2 + ... + b k x ik

(5.55)

unde k reprezint gradul funciei.


n general, regresia polinomial (5.55) poate s fie studiat ca un caz
special de regresie multipl:
y i = a + b1 x1i + b 2 x 2i + ... + b k x ki
2. Modelele ce necesit transformarea variabilelor n vederea liniarizrii sunt cele n care aplicarea regresiei presupune o schimbare de variabil, astfel nct relaia ntre transformat i cealalt variabil s fie de tip
liniar.
De pild, n cazul unui model exponenial
y i = a b xi
(5.56)
logaritmnd expresia funcional exponenial, obinem:
log y i = log a + (log b ) x i
(5.57)
O alt situaie este cea a dependenei invers proporionale:
1
y i = a + b
(5.58)
xi
1
, modelul se liniarizeaz.
cnd, utiliznd variabila transformat x ,i =
xi
5.7.2. Corelaia neliniar

Pentru analiza intensitii legturii dintre variabile cu ajutorul indicatorilor corelaiei, am artat, deja, n paragraful 5.5.3 c indicatori precum
covariana sau coeficientul de corelaie liniar nu sunt potrivii n cazul
legturii neliniare. Calculm, deci, raportul de corelaie R (5.40).
n

R=

(y i y )

i =1
n

(y i y )

i =1

(y i y i )

= 1 i =n1
2
(y i y )
i =1

indicator care ia valori ntre 0 i 1 i arat o corelaie cu att mai puternic


ntre variabile, cu ct valoarea sa este mai apropiat de 1.

CAPITOLUL 5

5.8. ANALIZA STATISTIC A LEGTURII DINTRE VARIABILELE CALITATIVE

Metodele neparametrice de analiz a corelaiei se folosesc ndeosebi


pentru studierea asocierii dintre variabilele calitative, dar, cum metodele valabile pentru o scal inferioar (nominal sau ordinal) sunt valabile i
pentru o scal superioar (numeric) vom putea folosi corelaia neparametric (sau liber de distribuie) i pentru variabilele numerice.
5.8.1. Asocierea variabilelor alternative

n cazul variabilelor alternative (dihotomice), datele se sistematizeaz ntrun tabel 2 x 2, care are forma (Tabelul 5.7):

Clasele lui x
X(x1)
nonX(x2)
Total

Tabelul 2x2
Clasele lui Y
Y(y1)
non Y(y2)
n12
n11
n22
n21
n.1
n.2

Tabelul 5.7
Total
n1.
n2.
n..

O asociere puternic nntre variabile se remarc n cazul concentrrii frecvenelor pe una dintre diagonalele tabelului.
Coeficientul de msurare a asocierii dintre variabilele alternative, sistematizate ntr-un tabel 2 x 2 este:
n n n 21 n 12
(5.59)
= 11 22
n.1 n.2 n 1 .n 2 .
Coeficientul ia valori n intervalul [-1, 1]. O valoare apropiat de 0, ne
arat o independen ntre aceste clasificri. O valoare apropiat de +1 sau
de 1, ne arat o dependen ntre variabile.
Coeficientul Q (al lui Yule) care msoar i el intensitatea asocierii
dintre variabile alternative, are formula:
n n n 21 n 12
Q = 11 22
(5.60)
n 11 n 22 + n 21 n 12
Acest indicator ia valori cuprinse ntre 1 i +1. O valoare apropiat de
+1 ne arat o asociere pozitiv; iar o valoare apropiat de 1, o asociere
negativ.

STATISTIC ECONOMIC

5.8.2. Asocierea variabilelor nominale

Aceasta este situaia n care variabilele sunt nealternative i au o structur


constituit dintr-un sistem de clase (categorii), n numr mai mare de 2. Clasele reprezint stri calitative, pe care le putem obine chiar i pentru variabilele numerice, printr-o reducie de scal. ntr-o astfel de situaie, tabelul de
contingen n care se sistematizeaz datele are r rnduri (r clase pentru
variabila X) i c coloane (c clase pentru variabila Y) (Tabelul 5.8)
Tabelul 5.8
Clase
pentru X
X1
X2
.
.
Xi
.
.
Xr
Total

Tabel de contingen
Clase pentru Y
Y1 Y2 .......... Yj .......... Yc
n11 n12 .......... n1j .......... n1c
n21 n22 .......... n2j .......... n2c
.
.
ni1 ni2 .......... nij .......... nic
.
.
nr1 nr2 .......... nrj .......... nrc
n.1 n.2 .......... n.j .......... n.c

Total
n1.
n2.
.
.
ni.
.
.
nr.
n..

Testul 2 de independen pentru tabelul r x c de contingen (asociere) se aplic sub presupunerea c fiecare observaie (unitate statistic)
este clasificat independent de orice alt observaie. Vom determina atunci
frecvenele teoretice (ateptate) n rndul i i coloana j:
n i. n . j
(5.61)
f ij =
n..
i vom calcula testul statistic:
2
2
r c n ij f ij
n c n ij
2 =
(5.62)
=
n
f ij
i =1 j=1
i =1 j=1 f ij

Ipoteza nul se respinge (i deci se accept ipoteza alternativ, aceea c


exist dependen ntre clasificarea pe linii i cea pe coloane), la un nivel de
2
2
semnificaie , dac calc
. > , (r-1)(c-1), unde (r-1)(c-1) reprezint gradele
de libertate.

CAPITOLUL 5

5.8.3. Asocierea variabilelor ordinale (corelaia rangurilor)

Variabilele social-economice msurate pe o scal ordinal presupun acordarea unor numere de ordine (ranguri) tuturor unitilor, astfel nct unitile
s poat fi ordonate n funcie de criteriile studiate. Rangurile sunt de la 1,
pn la n.
Coeficientul de corelaie a rangurilor Spearman (rs) se determin ca:
6 d i2
rs = 1
(5.63)
n n 2 1
unde di = rxi ryi reprezint diferena dintre rangurile perechi acordate
aceleiai uniti statistice.
Coeficientul de corelaie a rangurilor Spearman ia valori cuprinse n
intervalul [-1, 1]. Valori (n modul) apropiate de unitate indic o asociere
puternic ntre variabile, iar valori apropiate de zero indic o asociere slab
ntre variabile.
EXEMPLUL 5.5. Pentru 6 studeni dintr-o grup se cunosc: calificativele
pentru nivelul de pregtire al studenilor la matematic, obinute n timpul
anului i notele obinute la examenul de statistic:

Student
1
2
3
4
5
6

Calificativ la matematic
bun
slab
excepional
satisfctor
foarte slab
foarte bun

Tabelul 5.9
Not la statistic
9
3
10
6
5
8

Se acord ranguri valorilor celor dou variabile (Tabelul 5.10, col. 1, 2)

STATISTIC ECONOMIC
Tabelul 5.10
Student
0
1
2
3
4
5
6
Total

rs = 1

Rang pt. x
rxi
1
4
2
6
3
1
5

Rang pt. y
ryi
2
5
1
6
3
2
4

Diferena ntre ranguri


di = rxi - ryi
3
-1
+1
0
0
-1
+1

di2
4
1
1
0
0
1
1
4

64
= 0,89 indic o asociere puternic ntre cele 2 varia6 (36 1)

bile.
Coeficientul de corelaie a rangurilor Kendall (),necesit ordonarea
cresctor a unitilor dup rangurile acordate variabilei X i nscrierea n
paralel, a rangurilor acordate dup variabila Y. Atunci
2S
=
(5.64)
n (n 1)
unde: S = P Q, P = pi, Q = qi
pi = numrul rangurilor superioare fiecrui rang ryi, acordat dup
variabila Y, de la el n jos;
qi = numrul rangurilor inferioare fiecrui rang ryi, acordat dup
variabila Y, de la el n jos.
Acest indicator ia valori cuprinse n intervalul [-1, 1], iar interpretarea
este similar cu cea a coeficientului de corelaie a rangurilor Spearman. n
general, coeficientul rangurilor Kendall are o valoare mai mic dect coeficientul rangurilor Spearman i, pentru un numr mare de uniti statistice (n)
avem relaia
2
rs
(5.65)
3
EXEMPLUL 5.6. Folosim datele din Tabelul 5.9. Ordonm studenii (cresctor) dup rangurile acordate variabilei: Calificativul pentru pregtirea la
matematic.

CAPITOLUL 5

Student
5
2
4
1
6
3
Total

rxi
1
2
3
4
5
6

ryi
2
1
3
5
4
6

Pi
4
4
3
1
1
0
13=P

Tabelul 5.11
Qi
1
1
0
0
1
1
2=Q

S = P Q = 13 2 = 11
2S
2 11 22
rk =
=
=
= 0,73
n (n 1) 6 5 30

ntre cele dou variabile exist o asociere destul de puternic i direct.

Analiza legturii dintre variabile

Diagrama de mprtiere

Analiza dispersional

Se studiaz cauzalitatea
DA

NU

Analiza regresiei

Analiza corelaiei

Date numerice din eantioane mari


sau povenite din populaii normale

Nr. variabile independente


Mai multe
variabile

O variabil
Regresie simpl

DA

Regresie multipl

Legtur liniar

Legtur ntre dou


variabile

Legtur liniar
DA

NU

DA
Model de
regresie simpl
liniar

y i = a + bx i

Model de
regresie
simpl
neliniar

Model de
regresie multipl
liniar

Model de
regresie
multipl
neliniar

yi = a + b1x1i +

R = R2

Covariana
( x i x )( yi y)
=
n

Coeficientul de
corelaie
Calitatea ajustrii

se =

( y i y ) 2
n k 1

Raportul de
corelaie multipl

Legtur liniar

s xy

... + b k x ki

Eroarea standard a
reziduurilor

NU

NU

DA

rxy =

Raportul de
corelaie

Coeficientul de
corelaie parial

R = R2

s xy
s xs y

Raportul de corelaie

Coeficientul de
determinaie

NU

Corelaie parametric

R= R

Corelaie neparametric

R2 =

( yi y) 2

( yi y) 2

= 1

( y i yi ) 2
( yi y)

Variabile alternative
coeficientul
=

n11n 22 n 21n12
n.1 n .2 n1. n 2.

coeficientul Q
n n n 21n12
= 11 22
n11n 22 + n 21n12

Variabile nominale
testul 2
2 =

r c

(n ij fij ) 2

i =1 j=1

f ij

unde fij =

n i.n . j
n..

Variabile ordinale
Coeficientul de
corelaie a rangurilor
Spearman
rS = 1

6d i2

n ( n 2 1)

Coeficientul de
corelaie a
rangurilor Kendall
=

2S
n (n 1)

STATISTIC ECONOMIC

ntrebri recapitulative
1. Definii conceptul de legtur statistic.
2. Cum clasificai legturile statistice? Exemplificai.
3. Ce este i cum se alctuiete o diagram de mprtiere? Ce informaii ofer?
4. Analiza dispersional (ANOVA) coninut, mod de utilizare.
5. Prezentai modelul de analiz dispersional unifactorial.
6. n ce const metoda regresiei?
7. Descriei metoda regresiei simple liniare.
8. Ce reprezint coeficienii a i b ai liniei de regresie?
9. Cum se apreciaz calitatea ajustrii? Indicatori.
10. Testarea semnificaiei parametrului b al modelului de ajustare.
11. Cum se definete corelaia liniar simpl?
12. Ce reprezint covariana?
13. Coeficientul de corelaie: concept, mod de calcul, interpretare.
14. Testarea semnificaiei coeficientului de corelaie.
15. Ce reprezint raportul de corelaie? Cum se determin? Ce semnificaie prezint valoarea lui?
16. Regresia i corelaia multipl liniar.
17. n ce condiii se aplic regresia i corelaia neliniar?
18. Dai exemple de modele polinomiale utilizate n studiul legturilor
neliniare.
19. Ce este corelaia neparametric i n ce condiii se folosete?
20. Prezentai asocierea variabilelor alternative.
21. Prin ce modaliti, se studiaz asocierea variabilelor nominale?
22. Care sunt indicatorii prin care se msoar asocierea variabilelor ordinale?
23. Coeficientul lui Spearman de corelaie a rangurilor, definiie, mod de
calcul, interpretare.
24. Coeficientul de corelaie a rangurilor Kendall definiie, mod de calcul, interpretare.

S-ar putea să vă placă și