Sunteți pe pagina 1din 29

CAPITOLUL 5

CAPITOLUL 5 ANALIZA LEGTURILOR DINTRE VARIABILELE STATISTICE


Consideraii preliminare
Prezentul capitol urmrete s prezinte metode i tehnici statistice folosite n analiza legturilor, dependenelor care se manifest ntre cele mai multe fenomene de mas din viaa real. Indicatorii statistici pot, astfel, s rezume i s prezinte sintetic legturile dintre dou caracteristici statistice (n cazul datelor bivariate) sau dintre mai multe caracteristici (n cazul datelor multivariate). Corelaia va arta ct de puternic este legtura, dependena dintre variabile, n timp ce regresia va ajuta n explicarea i previzionarea unui factor pe baza valorii altuia (altora), ceea ce, evident, va reduce incertitudinea privitoare la fenomene importante, dar aleatoare.

Termeni cheie
analiz dispresional asociere coeficient de contingen coeficient de corelaie coeficient de corelaie a rangurilor coeficient de corelaie parial coeficient de determinaie coeficient de determinaie multipl coeficient de regresie coeficient de regresie parial corelaie corelaie neparametric diagram de mprtiere legtur statistic plan de regresie raport de corelaie raport de corelaie multipl regresie regresie liniar simpl regresie multipl regresie neliniar tabel de asociere tabel de corelaie test de independen

STATISTIC ECONOMIC

Noiuni teoretice
5.1. INTRODUCERE Fenomenele i procesele social-economice nu sunt n general, fenomene independente, ci ele se manifest ca rezultat al aciunii unor factori de influen i condiioneaz, la rndul lor, manifestarea altora. Spunem, aadar, c ntre fenomenele de mas, colective se manifest legturi, dependene. Legturile statistice sunt specifice fenomenelor de tip colectiv, sistemelor deschise, complexe, caracterizate de relaii suple, neunivoce, n care cauzele interacioneaz cu factorii aleatori. Aadar, unei valori a factorului cauzal i corespunde o distribuie de valori ale factorului dependent, cea ce ne ndreptete s le tratm ca variabile aleatoare i s le analizm utiliznd metode statistice. Legea statistic nu poate fi pus n eviden la nivelul fiecrui caz particular, fiecrui element n parte, ci numai la nivelul unei mase de evenimente cu structur complet. DEFINIIE: Legturile statistice (stohastice) sunt relaii prin care se realizeaz procesul de determinare, apariie i dezvoltare a fenomenelor de mas. Trebuie subliniat c metodele i tehnicile statistice utilizate n studiul legturilor dintre fenomenele de mas sunt cuprinse ntr-o categorie numit analiza corelaiei. Trebuie s facem, ns, distincia dintre un model de corelaie care ne arat ct de puternic sunt legate cele dou variabile, ct de mult tind s se modifice mpreun i un model de regresie care examineaz schimbrile unei variabile ca o funcie de schimbrile sau nivelurile altei (altor) variabile. Modelul de regresie permite previzionarea uneia dintre variabile pe baza informaiilor despre alte variabile. Totodat, analiza corelaiei (n sens larg) este specific variabilelor cantitative, numerice, msurate pe scale de intervale i de rapoarte. Printr-o extensie a semnificaiei, putem efectua analiza bivariat i multivariat a caracteristicilor calitative (nominale i ordinale) prin studiul asocierii (sau contingenei) lund n considerare distribuia simultan a unitilor statistice dup dou sau mai multe variabile calitative.

CAPITOLUL 5

5.2. CLASIFICAREA LEGTURILOR STATISTICE 1. dup tipul variabilelor luate n consideraie i scala pe care sunt msurate datele bi(multi)variate, legturile pot fi clasificate aa cum am vzut n paragraful precedent n asocieri i corelaii statistice. 2. dup numrul variabilelor statistice luate n consideraie, putem avea legturi simple i legturi multiple. 3. dup sensul legturilor dintre variabile, putem avea legturi directe i legturi inverse. 4. dup forma ecuaiei menit s descrie relaia dintre variabile (adic modelul matematic propriu dependenei studiate) putem avea legturi liniare i legturi neliniare. 5. dup modul de manifestare n timp a legturii dintre variabile, avem legturi sincrone i legturi asincrone. n cele ce urmeaz, n analiza statistic a legturilor dintre variabilele social-economice cu ajutorul metodelor regresiei i corelaiei, vom nota cu: X variabila cauzal, numit i independent sau exogen, explicativ; Y variabila efect, numit i dependent sau endogen, explicat, care poate fi, aadar, cunoscut cnd se cunoate variabila explicativ (sau cnd se cunosc variabilele explicative). 5.3. DIAGRAMA DE MPRTIERE I TABELUL BIDIMENSIONAL a) Diagrama de mprtiere indic, n sistemul de coordonate rectangulare, fiecare unitate statistic (fiecare caz individual) printr-un punct. Variabila studiat drept factor cauzal, de influen (X) este reprezentat pe axa orizontal (a absciselor). Variabila de rspuns, care poate fi influenat (Y) definete axa vertical (a ordonatelor). Forma de distribuire a punctelor pe grafic (adic norul de puncte) ne d informaii privind: 1. existena legturii dintre variabile

STATISTIC ECONOMIC

2. sensul legturii dintre variabile

a)

b)

Figura nr. 5.2 a) legtur direct i b) legtur invers 3. forma legturii dintre variabile. b) Metoda tabelului de corelaie se utilizeaz n cazul gruprii combinate dup dou variabile numerice. Frecvenele din interiorul tabelului permit, la fel ca i n cazul diagramei de mprtiere, identificarea existenei, sensului i chiar a formei dependenei statistice. 5.4. ELEMENTE DE ANALIZ DISPERSIONAL (ANOVA) Pentru a nelege coninutul i modul de utilizare a analizei dispersionale sunt necesare trei observaii preliminare: 1. Este firesc , dup aplicarea metodelor elementare prin care am constatat logic ce se pot stabili relaii de dependen ntre variabile, s testm ipoteza statistic privitoare la semnificaia acestei dependene; 2. pentru fiecare nivel/variant/interval de variaie al factorului cauzal, se nregistreaz o distribuie de valori ale factorului efect, distribuie pe care o putem caracteriza prin nivelul mediu.

CAPITOLUL 5
y y y1=y2= =yr yr y2 y1 o x1 x2 ...... xr x o x1 x2 ..... xr x

a)

b)

Fig. 5.3 - a) medii de grup egale; b) mediile de grup inegale

Analiza dispersional va urmri, deci, s testeze semnificaia diferenei dintre mediile de grup n populaia general (estimate prin mediile de grup din eantion). 3. s mai notm c, n general, n analiza dispersional, nivelurile x1, x2, ..., xr sunt niveluri ale unei variabile categoriale (numite i tratamente), dar, cum ceea ce este valabil pentru o scal inferioar (nominal) este valabil i pentru orice alt scal superioar (ordinal, de intervale, de rapoarte), analiza se poate extinde.

n modelul de analiz dispersional unifactorial se testeaz ipoteza nul: H0: y1 = y2 = ... = yr cu ipoteza alternativ cel puin dou medii din populaie nu sunt egale: H1 : yi yi (i j)

Setul de date pentru analiza dispersional unifactorial const n valorile variabilei Y pentru cele r grupe independente. Volumele grupelor pot fi diferite n1 n2 ... nr (Tabelul 5.1):

STATISTIC ECONOMIC Tabelul 5.1

Sistematizarea datelor pentru ANOVA


Gr. 1 y11 y12 . . Grupe dup factorul cauz Gr. 2 ... . Gr.r y21 ..... yr1 y22 ..... yr2 . . y 2n 2 ..... y rn r
y2 n2

y1n1
Media Vol. grup
y1 n1

..... .....

yr nr

Testul statistic F pentru analiza dispersional unifactorial este raportul indicatorilor de variabilitate pentru cele dou surse de variaie: variabilitatea dintre grupe mprit la variabilitatea din interiorul grupelor Pentru testarea ipotezei nule, vom estima mediile de grup i media total din colectivitatea general pe baza datelor din eantion. yi =
j=1

y ij ni ,
r

ni

i = 1, r yi n i n

(5.1)

y=

i =1 j=1

y ij n
r

r ni

i =1

(5.2) (5.3)

n = ni
i =1

Variana dintre grupe, dat de influena factorului cauzal, numit i variana factorial este:
S1 = y i y n i
i =1 r

(5.4)

iar variana din interiorul grupelor, numit i variana rezidual, este: S 2 = y ij y i


i =1 j=1 r ni

(5.5)

mprtierea total a valorilor individuale fa de media general y este dat de variana total:

CAPITOLUL 5

S = y ij y
i =1 j=1

r ni

(5.6)

Pentru a face comparabile aceste msuri ale variabilitii, le vom raporta pe fiecare la gradele de libertate, transformnd astfel suma de ptrate n media ptratele abaterilor. Obinem astfel:
2 s1 =

S1 = r 1

i =1

yi y n i r 1

(5.7)

s2 = 2

S2 = nr

i =1 j=1

y ij y i nr

r ni

(5.8)

Statistica F pentru analiza dispersional unifactorial are forma:


F=
2 s1

s2 2

var iabilitatea dintre grupe variabilitatea din interiorul grupelor

(5.9)

Tabelul 5.2 Calculul statisticii F pentru analiza dispersional unifactorial Sursa Gradele Variana Dispersia Statistica F variaiei de (suma corectat (media libertate ptratelor) ptratelor) 2 2 r1 S1 Factorul X s1 s1 S2 nr Rezidual F= s2 s2 2 2 Total r1 S = S1 + S2
2 s2 s1 + s2 2

Rezultatul este semnificativ dac: Fcalc(r-1) > Ftab(r- 1),(n- r), deoarece acest lucru indic diferene mai mari ntre mediile grupelor dect cele datorate ntmplrii..
5.5. REGRESIA I CORELAIA SIMPL LINIAR

Dei diagrama de mprtiere poate fi extrem de util n determinarea formei legturii dintre variabilele statistice, sunt disponibile i metode mai exacte pentru a stabili modelul de legtur.

STATISTIC ECONOMIC

5.5.1. Regresia simpl liniar

Relaia dintre variabila efect (Y) i variabila cauz (X) studiat de regresia simpl liniar ntr-o populaie statistic poate fi descris prin modelul liniar matematic general: (5.10) Yi = + Xi + i Valoarea parametrului arat punctul n care linia intercepteaz (taie) axa OY (fig. 5.4), iar i reprezint componenta rezidual (eroarea aleatoare) pentru fiecare unitate, adic partea din valoarea variabilei Y care nu poate fi msurat prin relaia sistematic existent cu variabila X.

y 3 2 1 o

0,5 {

{b

{
1 3 4 x

{
a

Fig. 5.4 - Modelul liniar unifactorial

Dac datele disponibile provin dintr-un eantion, modelul de regresie liniar n eantion este (5.11) yi = a + bxi + ei cu componenta predictibil: y i = a + bx i (5.12) ei = yi (a + bxi) (5.13) Un criteriu pentru determinarea valorilor a i b este metoda minimizrii sumei ptratelor deviaiilor (abaterilor sau reziduurilor) ei. Metoda, cunoscut ca metoda celor mai mici ptrate, nseamn minimizarea relaiei:
2 2 e i2 = (y i y i ) = (y i a bx i ) i =1 i =1 n n n

(5.14)

i =1

CAPITOLUL 5

Se obine astfel:
na + b x i = y i
i =1 i =1 n n

(5.15a)
n

a x i + b x i2 = x i y i
i =1 i =1 i =1

(5.15b)

Estimatorii a (intercepia) i b (panta) ai parametrilor i sunt dai, atunci de:


n n n n 2 y i x i x i x i y i i =1 i =1 i=1 i =1 a= 2 n n n x i2 x i i =1 i =1 n n n n n x i y i x i y i x i y i n x y i =1 i=1 i =1 = i =1 b= 2 n n 2 2 n 2 xi nx n xi xi i =1 i =1 i =1

(5.16)

(5.17)

Se observ, totodat, c:
x i x yi y xi x n Estimatorul a (intercepia) poate lua valori negative sau pozitive, n funcie de semnul numrtorului din relaia (5.16). Estimatorul b (panta liniei drepte) numit i coeficient de regresie are ntotdeauna semnul indicatorului sxy, numit i covariana ntre x i y (asupra cruia vom reveni n paragrafele urmtoare).
n n

i =1

)(

)
= s xy s2 x (5.18)

b=

i =1

STATISTIC ECONOMIC

y =a+bx b<0 x o

=a+bx b>0 o a)

=a+bx b=0 x o x

b)

c)

Fig. 5.5 - Linii de regresie cu: a) pant pozitiv b) pant negativ c) pant egal cu zero

Vom obine astfel:


i =1

yi = yi
i =1

(5.19)

n condiiile respectrii ipotezelor modelului de regresie liniar. Dac datele au fost sistematizate utiliznd metoda gruprii, iar valorile xi i yi se ntlnesc cu frecvenele ni, atunci:
a n i + b x i n i = yi n i
i =1 r i =1 i =1 r r r

(5.20a)

a x i n i + b x i2 n i = x i y i n i
i =1

yi n i = yi n i
i =1

i =1 r

i =1

i =1

(5.20b) (5.21)

n cazul n care datele au fost sistematizate ntr-un tabel cu dubl intrare, iar valorile xi i yj se ntlnesc cu frecvenele nij: a n ij + b x i n i. = y j n. j
i =1 j=1 r i =1 r j=1 r m r m

(5.22a) (5.22b)

a x i n i. + b x i2 n i. = x i y j n ij
i =1 i =1 i =1 j=1

r m

j=1

y j n. j = y j n. j
j=1

(5.23)

CAPITOLUL 5

EXEMPLUL 5.1. Numrul de copii nscrii i numrul de cadre didactice din 10 uniti precolare este (Tabelul 5.3):
Nr. crt. al unitii precolare 1 2 3 4 5 6 7 8 9 10 Total Nr. copii nscrii (xi) (persoane) 20 323 156 180 98 73 334 20 52 203 1459 Tabelul 5.3 Nr cadre didactice (yi) (persoane) 2 21 18 14 11 6 21 1 2 17 113

na + b x i = y i 2 a x i + b x i = x i y i
2 y i x i x i x i y i 113 332.267 1459 24.256 2.156.667 a= = = = 1.193.989 10 332.267 1459 2 n x i2 ( x i )2

= 1,80627

b=

n x i y i x i y i 10 24.256 1459 113 77693 = = 0,06507 = n x i2 ( x i )2 10 332.267 (1459)2 1193989

Modelul de regresie va fi: y i = 1,80627 + 0,06507 x i Calculele intermediare necesare sunt prezentate n tabelul 5.4 col. 3,4,5.
Nr. crt. 0 1 2 3 4 xi 1 20 323 156 180 yi 2 2 21 18 14

x i2
3 400 104.329 24.336 32.400

y i2
4 4 441 324 196

xiyi 5 40 6.783 2.808 2.520

yi
6 3 23 12 14

(y i y i )
7 1 4 36 0

Tabelul 5.4

(y

8 86,43 94,09 44,89 7,29

STATISTIC ECONOMIC 5 6 7 8 9 10 Total 98 73 334 20 52 203 1459 11 6 21 1 2 17 113 9.604 5.329 111.556 400 2.704 41.209 332.267 121 36 441 1 4 289 1857 1.078 438 7.014 20 104 3.451 24256 8 7 24 3 5 15 113 9 1 9 4 9 4 77 0,09 28,09 94,09 106,09 86,43 32,49 579,98

Valorile ajustate ale numrului de cadre didactice n funcie de numrul de copii nscrii sunt calculate n coloana 6 a tabelului 5.4.
5.5.2. Indicatori ai calitii ajustrii Abaterea medie ptratic (eroarea standard) a reziduurilor este o msur absolut a calitii ajustrii pe baza regresiei n eantion, iar coeficientul de determinaie este un indicator relativ. Se observ c(fig.5.6): y i y = ( y i y i ) + ( y i y) (5.24)

y y yii yiy { y { i

=a+bx

Fig. 5.6 - Abaterea valorilor individuale yi de la medie


2 2 2 ( y i y) = ( y i y i ) + ( y i y) i =1 i =1 n n n

i =1

(5.25)

CAPITOLUL 5

Putem nota:
i =1 n 2 2 ( y i y) = y = variana total, suma ptratelor abaterilor totale. 2 2 ( y i y i ) = e = variana neexplicat, suma ptratelor erorilor. 2 2 ( y i y) = y / x = variana explicat, suma ptratelor abaterilor daton

i =1 n i =1

rate regresiei. 2y = 2y / x + 2 e Tabelul ANOVA este (Tabelul 5.5)


Tabelul 5.5 Tabelul ANOVA pentru testarea calitii ajustrii Sursa variaiei Suma ptratelor Grade de Media ptratelor libertate (dispersia corectat) n Datorat k 2 2y / x 2 2y / x = y i y regresiei sy/x =
i =1

(5.26)

Rezidual Total

2 = (y i y i ) e
i =1 n

nk1 n1

2 se =

2 e

2y = y i y
i =1

n k 1
2 y n 1

s2 = y

n tabelul ANOVA, k reprezint numrul variabilelor independente luate n consideraie. n analiza regresiei liniare simple, k = 1. Pentru analiza calitii ajustrii n regresia simpl liniar, abaterea medie ptratic a erorilor n eantion este:
se = 2 e =
i =1

(y i y i )

n2 n2 Alternativ, putem calcula: 2y 2y / x 2 = 1,00 = 2 + 2e 2 y y y

(5.27)

(5.28)

STATISTIC ECONOMIC

Coeficientul de determinaie este: R2 = 2y / x 2y = 1 2 e 2 y

( = (y
n i =1 n i =1

yi y
i

) y)

(5.29)

Raportul 2y / x / 2y reprezint proporia variaiei total care este explicat de linia de regresie. Cu ct raportul R2 are o valoare mai apropiat de 1 (sau de 100% ntr-o exprimare procentual), cu att putem aprecia c variabila independent X explic mai bine variaia variabilei efect Y.
Dac = 0, nseamn c linia de regresie este orizontal, adic Y = Y , atunci valoarea lui X nu este de nici un ajutor n previzionarea variabilei Y: nu conteaz ct de mult se modific X, deoarece nu implic nici o modificare n Y (n medie). Vom testa, prin urmare dac panta () este diferit de zero. Ipoteza nul (H0) va fi atunci aceea c panta () este egal cu zero, cu ipoteza alternativ (H1) c panta () este diferit de zero (pozitiv sau negativ, test bilateral): H0 : = 0 (b = = 0) H1 : 0 Dac volumul eantionului este mare, vom utiliza testul Z: b b b 0 Z= = sb sb unde sb reprezint abaterea medie ptratic obinut din distribuia de eantionare a coeficientului b:

sb = s2 b
2 s2 = se b n

(5.30)
1
2

(5.31)

Pentru un prag de semnificaie , vom respinge ipoteza nul (H0), cnd Z > Z/2 sau Z < Z/2 i vom concluziona c este foarte improbabil ca estimatorul b s provin dintr-o populaie cu = 0. Dac volumul eantionului este mic, vom utiliza testul t: b b b 0 t n 2 = = sb sb

i =1

(x i x )

CAPITOLUL 5

statistic ce urmeaz o distribuie t cu (n 2) grade de libertate. Intervalul de ncredere pentru coeficientul de regresie b este dat de: b t(/2, n -2) sb b + t(/2, n-2) sb
5.5.3. Corelaia simpl liniar

(5.32)

. Plecnd de la reprezentarea grafic prin intermediul diagramei de mprtiere, putem calcula un indicator care s msoare legtura dintre cele dou variabile.
5.5.3.1. Covariana

Astfel, vom ncepe cu mprirea planului diagramei n patru cadrane, n raport cu nivelurile medii din eantion, x i y (fig. 5.7):

cadranul II

cadranul I

y cadranul III

cadranul IV

Fig. 5.7 - Diagrama de mprtiere cu cadranele separate de medii

Pentru punctele de pe grafic, produselor lor de la medii pot fi pozitive sau negative, astfel (Tabelul 5.6):
Tabelul 5.6 Semnele produselor devierilor (abaterilor) Cadranul I II III IV xi x + + yi y + + (xi x )(yi y ) + +

STATISTIC ECONOMIC

Este firesc atunci s calculm media acestor produse ale abaterilor, medie care ne va oferi un indicator absolut al legturii dintre variabile. Acest indicator, numit covariana ntre X i Y, ne arat ct de mult se modific mpreun cele dou variabile:
cov(x , y) = s xy =
i =1

(xi - x )(yi - y ) n

= xy x y =

n x i yi x i yi
i =1

i =1 2

i =1

(5.33)

Covariana are valoare pozitiv dac legtura dintre variabile este direct i negativ, dac legtura dintre variabile este invers. Dac valoarea covarianei este egal cu zero, acest lucru implic lipsa legturii ntre variabile, sau, cel puin, lipsa legturii liniare.
5.5.3.2. Coeficientul de corelaie liniar Coeficientul de corelaie standardizeaz media produselor abaterilor: semnul coeficientului indic direcia legturii, iar valoarea lui indic intensitatea legturii.

( x x ) 2 n ( y y) 2 i i i i =1 =1 sau, prin transformri elementare:


n

rxy =

cov(x, y) = = sxs y sx sy

s xy

i =1

( x i x )( y i y)

(5.34)

rxy =

n x i yi xi yi
i =1 i =1 i =1 2 n 2 n n n n x i x i n y i2 y i i =1 i =1 i =1 i =1 2

(5.35)

r Dac perechile de valori (xi, yi) apar cu frecvena ni; n i = n , formula i =1 devine:

rxy =

i =1

ni x i yin i x in i yin i
i =1 i =1 i =1 2 r

2 r r r r xn r yn 2 2 ni x i ni i i ni yi ni i i i =1 i =1 i =1 i =1 i =1 i =1

(5.36)

CAPITOLUL 5

iar dac datele au fost sistematizate ntr-un tabel cu dubl intrare, n care r m perechile (xi, yi) apar cu frecvenele nij n ij = n , atunci: i =1 j=1 (5.37) 2 2 r m r m m r m n ij x i2 n i x i n i n ij y 2 n j y j n j j=1 i =1 j=1 j=1 j i =1 j=1 i =1 Valoarea coeficientului de corelaie (rxy sau simplu, r) este situat ntre 1 i 1. O valoare 1 indic o corelaie liniar direct i perfect (funcional), iar o valoare 1 indic o corelaie liniar invers perfect. Interpretarea uzual a lui r este aceea c semnul indic direcia legturii, iar valoarea indic intensitatea ei. O valoarea O arat (de obicei) lipsa legturii ntre variabile. Aadar, coeficientul de corelaie, r, este un indicator ce caracterizeaz direcia i intensitatea legturii liniare. Se observ c: s (5.38) r=b x sy
EXEMPLUL 5.2. Considerm datele din Exemplul 5.1. Pe baza lor se determin coeficientul corelaiei rxy, folosindu-se datele intermediare din Tabelul 5.4.:
rxy =
i =1 j=1

n ij x i y i n ij x i n i y j n j
i =1 j=1 i =1 j=1

r m

r m

rxy = =

n x i yi x i yi ( x i ) =
2

n x i2

][

n y i2

( y i )

77693 1193989 (18570 12769)

77693 1193989 5801

77693 77693 = = 0,93 1092,698 76,1643 83224,578

Rezult deci c ntre cele dou variabile exist o legtur direct i foarte puternic. Semnificaia coeficientului de corelaie (r) poate fi testat utiliznd testul t: t n 2 = r n2 1 r
2

(5.39)

STATISTIC ECONOMIC

Ipoteza nul se respinge dac valoarea calculat tn-2 este mai mare dect valoarea tabelat t/2,n-2 pentru testul bilateral i tcalc. >t,n-2 sau tcalc. < -t,n-2 pentru testul unilateral dreapta, respectiv, stnga.
EXEMPLUL 5.3. Vom testa semnificaia coeficientului de corelaie calculat n Exemplul 5.1: rxy 0,93 n2 = 8 = 7,158 t= 2 1 0,932 1 rxy

tcalc. = 7,158 se compar cu valoarea tabelar a lui t, din tabelul repartiiei Student (anexa) pentru un nivel de semnificaie de 5% ( = 0,05) i n 2 = 8 grade de libertate: t,n-2 = t0,05;8 = 2,306 Cum tcalc. > ttab rezult c coeficientul de corelaie liniar simpl determinat este semnificativ statistic (semnificativ diferit de zero).
5.5.3.3. Raportul de corelaie

Un alt indicator relativ pentru msurarea intensitii legturii dintre variabile este raportul de corelaie, rdcina ptrat a coeficientului de determinaie (5.29), adic:
R=
i =1 n i =1

( (y
n

yi y
i

) y)

= 1 i =1 n yi y
i =1

(y i y )

(5.40)

Raportul de corelaie ia valori cuprinse ntre 0 i 1. Cu ct valoarea indicatorului este mai apropiat de 1, cu att legtura dintre variabile este mai puternic. Valori apropiate de 0 ne indic legturi de intensitate slab ntre variabile. n analiza corelaiei simple liniare se observ c: r2 = R2 (5.41) i r= R (5.42)
EXEMPLUL 5.4. Pentru calculul raportului de corelaie vom lua n considerare datele din Exemplul 5.1:

CAPITOLUL 5

R = 1
R = 1

(y i y i )
yi y

77 = 0,93 579,98 Rezult c legtura dintre cele dou variabile este foarte puternic.

5.6. REGRESIA I CORELAIA MULTIPL LINIAR

n numeroase situaii, ns, variabila rezultativ supus studiului poate fi afectat (determinat) de mai muli factori de influen.
5.6.1. Regresia multipl liniar Regresia multipl liniar extinde analiza regresiei, utiliznd dou sau mai multe variabile independente. Astfel, dac lum n consideraie o variabil dependent (Y) i dou variabile independente (X1 i X2), modelul de regresie multipl liniar n colectivitatea general devine: Yi = + 1X1i + 2 X 2i + i (5.43) iar n eantionul cu care lucrm, linia de regresie multipl este: yi = a + b1x1i + b2x2i + ei (5.44)

n eantion, coeficienii b1 i b2 sunt numii coeficieni de regresie pariali i ei ne arat doar influena parial a fiecrei variabile independente, atunci cnd influena tuturor celorlalte variabile independente este considerat constant. y i = a + b1 x1i + b 2 x 2i (5.45) Aplicnd metoda celor mai mici ptrate, sistemul de 3 ecuaii simultane cu 3 necunoscute, pentru determinarea estimatorilor a, b1 i b2 este:

STATISTIC ECONOMIC
n n n na + b1 x 1i + b 2 x 2i = y i i =1 i =1 i =1 n n n n 2 a x 1i + b1 x 1i + b 2 x 1i x 2i = x 1i y i i =1 i =1 i =1 i =1 n n n n a x 2i + b1 x 1i x 2i + b 2 x 2i = x 2i y i 2 i =1 i =1 i =1 i =1

(5.46)

Dac lum n considerare k variabile independente, atunci modelul poate fi generalizat la: Yi = + 1X1i + 2 X 2i + ... + k X ki + i (5.47) n acest caz apare o ipotez special, i anume aceea c o variabil independent nu poate s fie exprimat ca o combinaie liniar perfect a celorlalte variabile independente. Cu alte cuvinte, nu este posibil s gsim un set de numere d0, d1, d2, ..., dk, astfel nct: d 0 + d1X1i + d 2 X 2i + ... + d k X ki = 0 , i =1, n (5.48) n practic, dei situaia aceasta, numit multicoliniaritate perfect, este rar ntlnit, sunt mai frecvente cazurile de multicoliniaritate ridicat Ecuaia de regresie multipl n eantion este: y i = a + b1 x 1i + b 2 x 2i + ... + b k x ki (5.49)
5.6.2. Corelaia multipl liniar

Pentru a studia intensitatea legturii dintre o caracteristic dependent (Y) i mai multe caracteristici independente utiliznd metoda corelaiei, calculm raportul de corelaie multipl:
Ry, x 1 , x 2 , ..., x k =
i =1 n i =1

(y i y )

2 (y i y )

1 = 1 i =n 2 (y i y ) i =1

(y i y i )

(5.50)

Raportul (coeficientul) de corelaie multipl are valori cuprinse ntre 0 (dac nu exist legtur ntre variabil dependent i variabilele independente) i 1 (dac exist legtur perfect). (5.51) Ry, x 1 , x 2 , ..., x k > | ryx j | j = 1, k

CAPITOLUL 5

Ptratul raportului de corelaie multipl este coeficientul de determinaie multipl (R2). El arat proporia din variaia total a variabilei Y, care este explicat de variabilele independente X1, X2, ..., Xk. Testarea semnificaiei raportului de corelaie multipl se poate face utiliznd statistica F: n k 1 R 2 F= (5.52) k 1 R2 unde k reprezint numrul variabilelor independente. Dac: Fcalc. > F, k, n-k-1 se accept ipoteza conform creia variabilele X1, X2, ..., Xk au o influen semnificativ asupra variabilei rezultative, Y. n afara coeficienilor de corelaie simpl i multipl, n analiza corelaiei dintre variabile se mai pot calcula i coeficienii de corelaie parial, ce caracterizeaz intensitatea legturii dintre dou variabile, n ipoteza c celelalte variabile rmn constante. De pild, n cazul a dou variabile independente, coeficientul de corelaie parial ntre Y i X1, eliminnd influena variabilei X2 este: ryx1 ryx 2 rx1x 2 ryx1 x 2 = (5.53) 2 2 1 ryx 2 1 rx1x 2

)(

i coeficientul de corelaie parial ntre Y i X2, eliminnd influena variabilei X1 este: ryx2 ryx1 rx1x 2 ryx2 x1 = (5.54) 2 2 1 ryx1 1 rx1x 2

)(

5.7. REGRESIA I CORELAIA NELINIAR

Cnd din consideraii teoretice ori din studierea diagramei de mprtiere observm c dependena nu este de tip liniar, o funcie neliniar trebuie s fie utilizat pentru a descrie legtura dintre caracteristici.
5.7.1. Regresia neliniar

1. Modelele polinominale reprezint o categorie des ntlnit printre modelele neliniare ce descriu relaiile dintre caracteristicile social-economice. Modelul de regresie n eantion are forma general:

STATISTIC ECONOMIC

y i = a + b1 x i + b 2 x i2 + ... + b k x ik

(5.55)

unde k reprezint gradul funciei. n general, regresia polinomial (5.55) poate s fie studiat ca un caz special de regresie multipl: y i = a + b1 x1i + b 2 x 2i + ... + b k x ki 2. Modelele ce necesit transformarea variabilelor n vederea liniarizrii sunt cele n care aplicarea regresiei presupune o schimbare de variabil, astfel nct relaia ntre transformat i cealalt variabil s fie de tip liniar. De pild, n cazul unui model exponenial y i = a b xi (5.56) logaritmnd expresia funcional exponenial, obinem: log y i = log a + (log b ) x i (5.57) O alt situaie este cea a dependenei invers proporionale: 1 yi = a + b (5.58) xi 1 , modelul se liniarizeaz. cnd, utiliznd variabila transformat x ,i = xi
5.7.2. Corelaia neliniar

Pentru analiza intensitii legturii dintre variabile cu ajutorul indicatorilor corelaiei, am artat, deja, n paragraful 5.5.3 c indicatori precum covariana sau coeficientul de corelaie liniar nu sunt potrivii n cazul legturii neliniare. Calculm, deci, raportul de corelaie R (5.40).
R=
i =1 n

(y i y )

2 2

i =1

(y i y )

1 = 1 i =n 2 (y i y ) i =1

(y i y i )

indicator care ia valori ntre 0 i 1 i arat o corelaie cu att mai puternic ntre variabile, cu ct valoarea sa este mai apropiat de 1.

CAPITOLUL 5

5.8. ANALIZA STATISTIC A LEGTURII DINTRE VARIABILELE CALITATIVE

Metodele neparametrice de analiz a corelaiei se folosesc ndeosebi pentru studierea asocierii dintre variabilele calitative, dar, cum metodele valabile pentru o scal inferioar (nominal sau ordinal) sunt valabile i pentru o scal superioar (numeric) vom putea folosi corelaia neparametric (sau liber de distribuie) i pentru variabilele numerice.
5.8.1. Asocierea variabilelor alternative

n cazul variabilelor alternative (dihotomice), datele se sistematizeaz ntrun tabel 2 x 2, care are forma (Tabelul 5.7):
Tabelul 2x2 Clasele lui Y Y(y1) non Y(y2) n12 n11 n22 n21 n.1 n.2 Tabelul 5.7 Total n1. n2. n..

Clasele lui x X(x1) nonX(x2) Total

O asociere puternic nntre variabile se remarc n cazul concentrrii frecvenelor pe una dintre diagonalele tabelului. Coeficientul de msurare a asocierii dintre variabilele alternative, sistematizate ntr-un tabel 2 x 2 este: n n n 21 n 12 (5.59) = 11 22 n.1 n.2 n 1 .n 2 . Coeficientul ia valori n intervalul [-1, 1]. O valoare apropiat de 0, ne arat o independen ntre aceste clasificri. O valoare apropiat de +1 sau de 1, ne arat o dependen ntre variabile. Coeficientul Q (al lui Yule) care msoar i el intensitatea asocierii dintre variabile alternative, are formula: n n n 21 n 12 Q = 11 22 (5.60) n 11 n 22 + n 21 n 12 Acest indicator ia valori cuprinse ntre 1 i +1. O valoare apropiat de +1 ne arat o asociere pozitiv; iar o valoare apropiat de 1, o asociere negativ.

STATISTIC ECONOMIC

5.8.2. Asocierea variabilelor nominale

Aceasta este situaia n care variabilele sunt nealternative i au o structur constituit dintr-un sistem de clase (categorii), n numr mai mare de 2. Clasele reprezint stri calitative, pe care le putem obine chiar i pentru variabilele numerice, printr-o reducie de scal. ntr-o astfel de situaie, tabelul de contingen n care se sistematizeaz datele are r rnduri (r clase pentru variabila X) i c coloane (c clase pentru variabila Y) (Tabelul 5.8)
Tabelul 5.8 Clase pentru X X1 X2 . . Xi . . Xr Total Tabel de contingen Clase pentru Y Y1 Y2 .......... Yj .......... Yc n11 n12 .......... n1j .......... n1c n21 n22 .......... n2j .......... n2c . . ni1 ni2 .......... nij .......... nic . . nr1 nr2 .......... nrj .......... nrc n.1 n.2 .......... n.j .......... n.c Total n1. n2. . . ni. . . nr. n..

Testul 2 de independen pentru tabelul r x c de contingen (asociere) se aplic sub presupunerea c fiecare observaie (unitate statistic) este clasificat independent de orice alt observaie. Vom determina atunci frecvenele teoretice (ateptate) n rndul i i coloana j: n i. n . j (5.61) f ij = n.. i vom calcula testul statistic: 2 2 r c n ij f ij n c n ij 2 = (5.62) = n f ij i =1 j=1 i =1 j=1 f ij

Ipoteza nul se respinge (i deci se accept ipoteza alternativ, aceea c exist dependen ntre clasificarea pe linii i cea pe coloane), la un nivel de 2 semnificaie , dac calc. > 2, (r-1)(c-1), unde (r-1)(c-1) reprezint gradele de libertate.

CAPITOLUL 5

5.8.3. Asocierea variabilelor ordinale (corelaia rangurilor)

Variabilele social-economice msurate pe o scal ordinal presupun acordarea unor numere de ordine (ranguri) tuturor unitilor, astfel nct unitile s poat fi ordonate n funcie de criteriile studiate. Rangurile sunt de la 1, pn la n. Coeficientul de corelaie a rangurilor Spearman (rs) se determin ca: 6 d i2 rs = 1 (5.63) n n 2 1 unde di = rxi ryi reprezint diferena dintre rangurile perechi acordate aceleiai uniti statistice. Coeficientul de corelaie a rangurilor Spearman ia valori cuprinse n intervalul [-1, 1]. Valori (n modul) apropiate de unitate indic o asociere puternic ntre variabile, iar valori apropiate de zero indic o asociere slab ntre variabile. EXEMPLUL 5.5. Pentru 6 studeni dintr-o grup se cunosc: calificativele pentru nivelul de pregtire al studenilor la matematic, obinute n timpul anului i notele obinute la examenul de statistic:

Student 1 2 3 4 5 6

Calificativ la matematic bun slab excepional satisfctor foarte slab foarte bun

Tabelul 5.9 Not la statistic 9 3 10 6 5 8

Se acord ranguri valorilor celor dou variabile (Tabelul 5.10, col. 1, 2)

STATISTIC ECONOMIC Tabelul 5.10 Student 0 1 2 3 4 5 6 Total Rang pt. x rxi 1 4 2 6 3 1 5 Rang pt. y ryi 2 5 1 6 3 2 4 Diferena ntre ranguri di = rxi - ryi 3 -1 +1 0 0 -1 +1 di2 4 1 1 0 0 1 1 4

rs = 1

64 = 0,89 indic o asociere puternic ntre cele 2 varia6 (36 1)

bile. Coeficientul de corelaie a rangurilor Kendall (),necesit ordonarea cresctor a unitilor dup rangurile acordate variabilei X i nscrierea n paralel, a rangurilor acordate dup variabila Y. Atunci 2S = (5.64) n (n 1) unde: S = P Q, P = pi, Q = qi pi = numrul rangurilor superioare fiecrui rang ryi, acordat dup variabila Y, de la el n jos; qi = numrul rangurilor inferioare fiecrui rang ryi, acordat dup variabila Y, de la el n jos. Acest indicator ia valori cuprinse n intervalul [-1, 1], iar interpretarea este similar cu cea a coeficientului de corelaie a rangurilor Spearman. n general, coeficientul rangurilor Kendall are o valoare mai mic dect coeficientul rangurilor Spearman i, pentru un numr mare de uniti statistice (n) avem relaia 2 rs (5.65) 3
EXEMPLUL 5.6. Folosim datele din Tabelul 5.9. Ordonm studenii (cresctor) dup rangurile acordate variabilei: Calificativul pentru pregtirea la matematic.

CAPITOLUL 5 Tabelul 5.11 Qi 1 1 0 0 1 1 2=Q

Student 5 2 4 1 6 3 Total

rxi 1 2 3 4 5 6

ryi 2 1 3 5 4 6

Pi 4 4 3 1 1 0 13=P

S = P Q = 13 2 = 11 2S 2 11 22 rk = = = = 0,73 n (n 1) 6 5 30

ntre cele dou variabile exist o asociere destul de puternic i direct.

Analiza legturii dintre variabile

Diagrama de mprtiere

Analiza dispersional

Se studiaz cauzalitatea DA Analiza regresiei NU Analiza corelaiei

Nr. variabile independente O variabil Regresie simpl Mai multe variabile Regresie multipl

Date numerice din eantioane mari sau povenite din populaii normale DA Corelaie parametric Legtur ntre dou variabile DA NU Raportul de corelaie multipl
R = R2

NU

Legtur liniar DA Model de regresie simpl liniar

Legtur liniar DA Model de regresie multipl liniar

NU Model de regresie simpl neliniar

NU Model de regresie multipl neliniar Legtur liniar Covariana


s xy ( x i x )( yi y) = n

y i = a + bx i

yi = a + b1x1i +

... + b k x ki

Raportul de corelaie
R = R2

Coeficientul de corelaie parial

Coeficientul de corelaie Calitatea ajustrii


rxy = s xy s xs y

Eroarea standard a reziduurilor


se = ( y i y ) 2 n k 1

Coeficientul de determinaie
R2 = ( yi y) 2 ( y i yi ) 2 ( yi y)
2

Raportul de corelaie
R= R
=
2

Corelaie neparametric

( yi y) 2

Variabile alternative coeficientul


= n11n 22 n 21n12 n.1 n .2 n1. n 2.

Variabile nominale testul 2


2 =

= 1

coeficientul Q
n n n 21n12 = 11 22 n11n 22 + n 21n12

i =1 j=1

r c

(n ij fij ) 2 f ij

Variabile ordinale Coeficientul de corelaie a rangurilor Spearman


rS = 1 n ( n 2 1) 6d i2

unde fij =

n i.n . j n..

Coeficientul de corelaie a rangurilor Kendall


= 2S n (n 1)

STATISTIC ECONOMIC

ntrebri recapitulative
1. Definii conceptul de legtur statistic. 2. Cum clasificai legturile statistice? Exemplificai. 3. Ce este i cum se alctuiete o diagram de mprtiere? Ce informaii ofer? 4. Analiza dispersional (ANOVA) coninut, mod de utilizare. 5. Prezentai modelul de analiz dispersional unifactorial. 6. n ce const metoda regresiei? 7. Descriei metoda regresiei simple liniare. 8. Ce reprezint coeficienii a i b ai liniei de regresie? 9. Cum se apreciaz calitatea ajustrii? Indicatori. 10. Testarea semnificaiei parametrului b al modelului de ajustare. 11. Cum se definete corelaia liniar simpl? 12. Ce reprezint covariana? 13. Coeficientul de corelaie: concept, mod de calcul, interpretare. 14. Testarea semnificaiei coeficientului de corelaie. 15. Ce reprezint raportul de corelaie? Cum se determin? Ce semnificaie prezint valoarea lui? 16. Regresia i corelaia multipl liniar. 17. n ce condiii se aplic regresia i corelaia neliniar? 18. Dai exemple de modele polinomiale utilizate n studiul legturilor neliniare. 19. Ce este corelaia neparametric i n ce condiii se folosete? 20. Prezentai asocierea variabilelor alternative. 21. Prin ce modaliti, se studiaz asocierea variabilelor nominale? 22. Care sunt indicatorii prin care se msoar asocierea variabilelor ordinale? 23. Coeficientul lui Spearman de corelaie a rangurilor, definiie, mod de calcul, interpretare. 24. Coeficientul de corelaie a rangurilor Kendall definiie, mod de calcul, interpretare.