Sunteți pe pagina 1din 47

Capitolul 2.

Modele de regresie simpl


2.1 Specificarea unui model de regresie simpl 2.2. Identificarea modelului de regresie simpl 2.3. Estimarea parametrilor unui model de regresie simpl 2.3.1. Metoda celor mai mici ptrate 2.4. Verificarea unui model econometric 2.4.1. Ipoteze asupra unui model econometric 2.4.2.Verificarea ipotezelor pe care este fundamentat estimarea parametrilor unui model econometric 2.4.3. Verificarea semnificaiei estimatorilor parametrilor unui model econometric 2.4.4. Verificarea semnificaiei unui model econometric 2.5. Exemple de modele de regresie simpl n economie

Elisabeta JABA_Econometrie aplicat

1.1. Modelul de regresie liniar simpl


Demersul metodologic al unei analize de regresie simpl Sub aspect descriptiv ne intereseaz: - Analiza logic, - Aproximarea modelului legturii dintre variabile, - Evaluarea contribuiei Sub aspect inferenial ne intereseaz: - Specificarea modelului - Estimarea parametrilor modelului; - Testarea semnificaiei statistice a legturii dintre X i Y; - Analiza rezidurilor i msurarea influenei observaiilor; - Previziunea valorii variabilei Y pentru o valoare fix a variabilei X.

Modele de regresie simpl

1.1.1. Prezentarea problemei Un exemplu. Se nregistreaz un eantion de n=7 sticle, cupluri de valori (xi, yi) cu privire la efectul vrstei vinului (ani) asupra preului unei sticle de vin (Euro). Tabelul 1.1.1. Vrsta vinului (ani) i preul unei sticle de vin(Euro), nregistrate pe un eantion de 7 sticle alese aleator dintrun lot de produse destinate vnzrii Produsul Vrsta vinului (ani) Preul unei sticle de vin (Euro) (Y) (X) 1,0 A 10 2,0 12 B 3,0 15 C 4,0 18 D 5,0 20 E 6,0 23 F 7,0 25 G Sursa: Date convenionale Din teoria i practica - legtur statistic exprimat printr-un model de regresie simpl liniar. Regresia liniar simpl este un caz particular al analizei de regresie, deoarece ntr-un astfel de model variabila dependent ar fi explicat numai de o singur variabil independent. Se nelege c, n exemplul dat, preului unei sticle de vin (Euro) nu depinde numai de vrsta vinului (ani), ci i de un ansamblu de alte variabile pe care le exprimm sintetic printr-o variabil numit eroare sau reziduu.

Elisabeta JABA_Econometrie aplicat

1.1.2 Definirea modelului de regresie liniar simpl Forma modelului de regresie liniar simpl este:
Y = 0 + 1 X +

Variabilele modelului, pentru exemplul considerat, sunt: - variabila dependent (rezultativ): Y - preul unei sticle de vin (Euro); - variabila independent (factorial, predictor): X vrsta vinului (ani); - variabila eroare (reziduu):

- variabila aleatoare, variabila care nsumeaz influena


altor variabile asupra preului, dar care nu sunt specificate expres n model. Variabila exprim abaterile ntre valorile observate i valorile estimate prin model. Parametrii modelului de regresie simpl liniar, numii i coeficieni de regresie, sunt: cnd
0 - ordonata la origine X =0; - panta dreptei 1

- arat valoarea medie a variabilei Y

arat variaia medie a variabilei dependente, Y, la o variaie absolut cu o unitate a variabilei X, adic variaia variabilei Y este proporional cu variaia variabilei X:
1 =
dy dx

Proprieti ale modelului de regresie liniar:

Modele de regresie simpl

- simplitate - capacitatea de aplicare direct pentru verificarea existenei unei relaii ntre variabile - estimarea direct a parametrilor prin metoda celor mai mici ptrate.

Elisabeta JABA_Econometrie aplicat

1.1.2.2. Analiza descriptiv a variabilelor din modelul de regresie Analiza descriptiv a fiecrei variabile considerate n model se face pentru a studia caracteristicile fiecrei distribuii. Vrsta vinului (ani) Vrsta vinului (ani) N Valid 7 Missing 0 Mean 4,0000 Std. Deviation 2,16025 Skewness ,000 Std. Error of ,794 Skewness Kurtosis -1,200 Std. Error of 1,587 Kurtosis Sum 28,00 Figura 1.1.1. (a) Statistica descriptiv pentru variabila vrsta vinului

Modele de regresie simpl

Preul unei sticle de vin (Euro) Preul unei sticle de vin (Euro) N Valid 7 Missing 0 Mean 17,5714 Std. Deviation 5,56349 Skewness -,054 Std. Error of ,794 Skewness Kurtosis -1,385 Std. Error of 1,587 Kurtosis Sum 123,00
25,0 22,5 20,0 17,5 15,0 12,5 10,0

Figura 1.1.1. (b) Statistica descriptiv pentru variabila preul unei sticle de vin Se verific dac exist valori lips, valori aberante din punct de vedere statistic. Se recomanda ca astfel de valori s nu fie luate n analiz pentru c ar deforma rezultatele. Observnd rezultatele analizei descriptive a celor dou distribuii, caracteristicile i forma lor, se constat c sunt distribuii normale, simetric pentru variabila X (Vrsta vinului (ani)) i uor asimetric la stnga pentru Y (Preul unei sticle de vin (Euro)), cu un coeficient de asimetrie mai mic dect 1. Nu se nregistreaz valori aberante pentru nici una dintre variabile.

10

Elisabeta JABA_Econometrie aplicat

1.1.2.3. Aproximarea grafic a modelului legturii dintre variabile Diagrama de dispersie din Figura 1.1.2.a prezint cele n cupluri (xi, yi) sub forma unui nor de puncte n planul (x, y) i este folosit pentru aproximarea modelului de regresie (Vezi Figura 1.1.2.b).

Pretul unei sticle de vin (Euro)

22,50 20,00 17,50 15,00 12,50 10,00 A 1,00 2,00 3,00 4,00 5,00 6,00 7,00 B C E D

Pretul unei sticle de vin (Euro)

25,00

F G

25,00 22,50 20,00 17,50 15,00 12,50 10,00 A 1,00 2,00 3,00 4,00 B C E D

F G

R Sq Linear = 0,997

5,00

6,00

7,00

Vrsta vinului (ani)

Vrsta vinului (ani)

a)

b)

Figura 1.1.2. Legtura dintre vrsta vinului i preul unei sticle de vin

Forma norului de puncte din diagrama din Figura 1.1.2.b. sugereaz o legtur liniar ntre vrsta vinului i preul unei sticle de vin. Pe msur ce cresc valorile variabilei Vrsta vinului are loc o cretere medie a valorilor variabilei Preul unei sticle de vin. ntre cele dou variabile se constat, deci, o legtur direct, liniar de forma: Y = a + bX + e . Se verific, deci, ideea susinut n teoria i practica economic a existenei unei legturi ntre cele dou variabile considerate, vrsta vinului are efect asupra preului unei sticle de vin.

Modele de regresie simpl

11

1.1.3 Estimarea parametrilor modelului 1.1.3.1 Estimarea punctual a parametrilor Estimarea punctual a parametrilor modelului de regresie se bazeaz pe criteriul minimizrii sumei ptratelor abaterilor ntre valorile observate, yi , i valorile teoretice, y i , adic:

e
i =1

2 i

= ( y i y i ) 2 = min .

n cazul dreptei de regresie, y = b0 + b1 x , construit pe baza unui eantion observat, estimaiile b0 i b1 ale parametrilor 0 i 1 se pot calcula dup relaiile: Panta dreptei:
b1 =
n

( x
i =1 n

x )( y i y ) = ( xi x ) 2

cov( x, y )
2 sx

i =1

=r

sy sx

Termenul constant, ordonanta la origine,


b0 = y b1 x

b0 ,

este:

Tabelul 1.1.2. Elemente de calcul necesare pentru estimarea parametrilor ecuaiei de regresie yi xi x xi2 y i2 ( xi x ) 2 xi yi xiyi

12

Elisabeta JABA_Econometrie aplicat

1 1,00 2,00 3,00 4,00 5,00 6,00 7,00 28

2 10,00 12,00 15,00 18,00 20,00 23,00 25,00 123

3 1,00 4,00 9,00 16,00 25,00 36,00 49,00 140

4 10,00 24,00 45,00 72,00 100,00 138,00 175,00 564

5 100,00 144,00 225,00 324,00 400,00 529,00 625,00 2347

6 9,85714 12,42857 15,00000 17,57143 20,14286 22,71429 25,28571 123

7 -3,00 -2,00 -1,00 ,00 1,00 2,00 3,00 -

8 9,00 4,00 1,00 ,00 1,00 4,00 9,00 28

y = b0 + b1 x = 7,286 + 2,571 x Ecuaia estimat este: Estimaia b1 a parametrului de regresie 1 , lund valoare pozitiv, arat c legtura ntre variabilele X i Y este direct.

De asemenea, scoate n eviden relaia de proporionalitate dintre variaia celor dou variabile,
1 =
dy dx

i anume: la o cretere cu o un an a vechimei vinului, preul unei sticle de vin crete n medie cu 2,571 Euro.

Modele de regresie simpl

13

1.1.3.2. Estimarea parametrilor prin interval de ncredere Se bazeaz pe distribuiile de selecie ale estimatorilor ai parametrilor 0 i . 1 1
0

Pentru modelul liniar simplu, estimatorii parametrilor urmeaz o lege de distribuie normal i sunt nedeplasai:
2 0 ~ N ( 0 , ) ;
0

Cu

M ( 0 ) = 0

2 2 V ( ) = ; 0

X = n( X X )
2 i i i i

2 1 ~ N ( 1 , ) ;
1

cu

M ( 1 ) = 1 ; V ( 1 ) =1 ;

2 =
1

( X
i

2 i

X )2

Estimaii: 2 - pentru variana erorilor :

14

- pentru variana estimatorului :


s2

Elisabeta JABA_Econometrie aplicat

i variana estimatorului 1
2 se 1

x = n( x x )
2 i i i i

s2 2 e

2 s =
1

( x
i

x) 2

Intervalul de ncredere Intervalul de ncredere pentru coeficientul de regresie 1 este definit de relaia: 1 = b1 t / 2 s
1

i este prezentat n Figura 1.1.3.

Figura 1.1.3. Distribuia de selecie a estimatorului de ncredere

i intervalul

Modele de regresie simpl

15

Pe baza datelor din Tabelul 1.1.2, s-au calculat b1 = 2,571 i ( xi x) 2 = 28 . Valorile s 1 i s sunt calculate pe baza elementelor de calcul din Tabelul 1.1.3. Tabelul 1.1.3. Calculul reziduului ( ei
yi yi = yi yi ) ei

ei2

10,00 12,00 15,00 18,00 20,00 23,00 25,00 123

9,85714 12,42857 15,00000 17,57143 20,14286 22,71429 25,28571 123

,14286 -,42857 ,00000 ,42857 -,14286 ,28571 -,28571 0,0

,0204 ,1837 ,0000 ,1837 ,0204 ,0816 ,0816 0,5714

Estimaia varianei erorii este:


s
2

e =

2 i

n2

0,5714 = 0,114 . 72

Estimaia varianei estimatorului : 1


2 s = 2 s

( x
i= 1

x ) 2

0,1 4 1 =0,0 4 0 2 8

s = 0,064

Astfel, folosind datele din exemplul considerat anterior, pentru un risc = 0,0 , la care citim n tabelul Student un t ; n 2 = t 0.025 ; 5 = 2,571 , se 5 2 calculeaz urmtorul interval de ncredere pentru parametrul 1 :
( 2,571 2,571 0,064 ) .

Interpretare Putem spune, cu o ncredere de 95%, c valoarea adevrat a coeficientului de regresie, 1 , ar fi acoperit de intervalul [2,407; 2,736].

16

Elisabeta JABA_Econometrie aplicat

1.1.4. Coeficientul de corelaie Pearson 1.1.4.1. Coeficientul de corelaie teoretic Coeficientul de corelaie teoretic, notat cu , pentru dou variabile numerice, X i Y, la nivelul unei populaii de volum N, este definit de relaia:
cov( X , Y ) = = x y

( x
i

X )( y i Y ) N x y

, i = 1,..., N

n care: - cov( X , Y ) - covariana; - xi , y i , X , Y - valorile variabilelor corelate i nivelul mediu al acestora; - N - numrul perechilor de valori; x - , y - abaterea medie ptratic pentru X, respectiv Y.

Observare: Comparnd relaia de calcul a coeficientului de regresie, 1 , cu cea a coeficientului de corelaie, , se constat c ntre aceti indicatori exist urmtoarea legtur:
= 1 . x y

de unde rezult c semnul coeficientului de corelaie coincide cu semnul coeficientului de regresie, deoarece x i y 0 . Valoarea coeficientului de corelaie este cuprins ntre -1 i +1.

Modele de regresie simpl

17

Valorile extreme ale lui exprim o legtur liniar perfect (funcional) ntre cele dou variabile, "pozitiv", respectiv "negativ". Valoarea 0 semnific absena legturii ntre cele dou variabile. Coeficientul de corelaie este un parametru care fie se determin, atunci cnd dispunem de date pentru variabilele considerate pe ansamblul populaie; fie se estimeaz cnd dispunem numai de date la nivelul unui eantion extras din populaia studiat, valoarea coeficientului de corelaie trebuie estimat.

18

Elisabeta JABA_Econometrie aplicat


1.1.4.2. Un estimator

pentru

Un estimator pentru este , care are ca valori posibile coeficienii de corelaie empirici, determinai la nivelul eantioanelor posibil de extras printr-o metod de sondaj. La nivelul unui eantion de volum n, se determin coeficientul de corelaie empiric propus de K. Pearson:

cov( x, y ) r= = sx s y

(x
i =1

x)( y i y )

n sx s y

care reprezint o estimaie pentru parametrul . Dezvoltnd relaia de mai sus, se obine o formul de calcul simplificat al coeficientului de corelaie empiric, bazat pe elementele calculate deja pentru coeficientul de regresie, b:
r = n xi y i - xi y i [n xi2 - ( xi )2 ][n y i2 - ( y i )2 ] , i = 1,..., n

Folosind datele din Tabelul 1.1.2, intensitatea legturii dintre vrsta vinului i preul unei sticle de vin se calculeaz, pe baza relaiei de mai sus, astfel:
r = 7 . 564 - 28 .123 [ 7 .140 - ( 28 )2 ][ 7 . 2347 - ( 123 )2 ] = 0,9 9846

Valoarea obinut este foarte apropiat de +1, deci ntre cele dou variabile exist o legtur direct foarte strns.

Modele de regresie simpl

19

1.1.5.Testarea semnificaiei parametrilor modelului de regresie i a corelaiei 1.1.5.1. Testarea parametrilor unui model de regresie Testarea parametrilor unui model de regresie respect demersul clasic al testrii statistice a parametrilor cu ajutorul testului t Student. Etapele testrii Formularea ipotezelor. Testarea semnificaiei coeficientului de regresie 1 pleac de la formularea urmtoarelor ipoteze:
H 0 : 1 = 0 H 1 : 1 0

Dac respingem ipoteza H 0 , cu un prag de semnificaie ales, atunci legtura dintre cele dou variabile X i Y este semnificativ. n practica economic se consider, de regul, un = 0,05 , adic se consider un risc de 5% de a respinge pe nedrept ipoteza H 0 atunci cnd aceasta ar fi adevrat. Pentru testarea semnificaiei coeficientului de regresie 1 se folosete statistica t Student.

Statistica test t este definit de relaia:


t= 1 1
1

20

Elisabeta JABA_Econometrie aplicat

n ipoteza

H0 ,

statistica

t=

1 1
1

devine:

t=

1 0 1 =
1

La nivelul unui eantion observat, statistica t se scrie:


t= b1 1 b = 1 s s
1

Statistica t urmeaz o lege de repartiie Student de (n-2) grade de libertate. Valoarea teoretic a testului Pentru un prag de semnificaie , se citete din tabelul Student 2 o valoare teoretic a testului t 2;n . Se utilizeaz un risc /2 pentru aflarea valorii teoretice, deoarece distribuia Student este simetric, iar suprafaa de respingere () este mprit n dou pri egale (/ 2). n exemplul considerat, din tabelul Student citim, pentru / 2 = 0,025 i n-2=5, valoarea t 0, 025 ;5 = 2.571 .

Valoarea calculat a testului Se afl pe baza datelor observate la nivelul eantionului:


t calc = b1 2,571 = = 40,24 . s 0,064
1

Regula de decizie Presupune compararea valorii statisticii test calculate la nivelul eantionului observat cu valoarea teoretic corespunztoare, citit din tabelul Student.

Modele de regresie simpl

21

Pentru un risc = 0,05 , dac t calc >t 2;n 2 se respinge ipoteza H 0 , adic coeficientul de regresie este considerat semnificativ 1 H 1 : 1 0 ). Decizia se poate lua i pe baza diferit de 0 (se accept valorii Sig., astfel: Sig. > : se accept ipoteza H0, Sig. < : se respinge ipoteza H0, cu o probabilitate de 95%.

Decizia Presupune aplicarea regulii de decizie. n exemplul considerat, t calc = 40 ,24 , iar valoarea teoretic citit n tabelul Student, pentru / 2 = 0 ,025 i n-2=5, este: t 0, 025 ;5 = 2,571 . Ca urmare, t calc . > t 0 , 025 ;5 , coeficientul de regresie 1 este semnificativ diferit de 0, adic variabila X, vrsta vinului (ani), are influen semnificativ asupra variabilei Y, preul unei sticle de vin (Euro). Dac intervalul de ncredere pentru 1 ar conine valoarea 0 atunci nu s-ar putea decide cu privire la respingerea ipotezei H 0 , ceea ce nu este cazul n exemplul nostru, deci factorul X influeneaz semnificativ variabila Y.

22

Elisabeta JABA_Econometrie aplicat

1.1.5.2. Testarea modelului de regresie i a semnificaiei corelaiei Evaluarea global a modelului de regresie se realizeaz prin testarea fie a coeficientului de corelaie, fie a raportului de corelaie. Presupune testarea influenei variabilei factoriale (X) asupra variaiei variabilei rezultative (Y). Se verific dac variabila factorial (X) influeneaz semnificativ variaia variabilei rezultative (Y), adic dac este semnificativ proporia variaiei explicate pe seama variabilei factoriale. Aceast operaie se bazeaz pe ecuaia de analiz a varianei, respectiv a raportului de determinare, R2, i a raportului de nedeterminare, (1- R2). Observare: n cazul unei regresii liniare simple, ptratul coeficientului de corelaie Pearson, 2 , este egal cu ptratul raportului de corelaie Pearson, 2 . Pentru testarea coeficientului de corelaie se poate folosi statistica test t Student, iar pentru testarea raportului de corelaie statistica test F Fisher. Rezultatele sunt aceleai.

A. Demersul testrii modelului de regresie pe baza statisticii test t Student

Modele de regresie simpl

23

Demersul testrii pleac de la formularea ipotezei H0, considerndu-se c variaia variabilei X nu influeneaz variabila Y, adic: = 0 . Ipoteze Ipoteza nul H 0 : = 0 Ipoteza alternativ: H 1 : 0 Statistica test Verificarea ipotezei H 0 se face cu ajutorul testului t (Student), pentru coeficientul de corelaie simpl, i anume: Statistica test t Student:
t= n-2 = 1 - 2

t este o statistic Student cu (n-2) grade

de libertate. unde: este estimatorul lui , coeficientul de corelaie; este estimatorul abaterii medii ptratice a lui :
= 1 - 2 n-2

La nivelul unui eantion observat, se folosesc relaiile:


t= r Sr = r n-2 1 - r2

s =

1- r

n-2

unde: r , r2 i (1-r2) reprezint coeficientul de corelaie simpl, respectiv raportul de deteminare i raportul de nedeterminare, valori calculate pe baza eantionului observat; n - numrul cuplurilor de valori x i y. Regula de decizie Valoarea calculat a lui t se compar cu valoarea teoretic obinut din tabelul t, pentru n-2 grade de libertate i pentru nivelul

24

Elisabeta JABA_Econometrie aplicat

de semnificaie stabilit. Dac | t calc . | >| t tab . | , atunci se respinge H 0 i se trage concluzia c ntre variabilele cercetate exist o legtur semnificativ, deci coeficientul de corelaie este semnificativ statistic i modelul este corect specificat. Valoarea teoretic a testului Pentru exemplul dat, se citete valoarea teoretic
t
2

; n 2

din

tabela Student, pentru n - 2 = 5 grade de libertate i un nivel de semnificaie = 0,05 , pentru un test bilateral, i anume t =2,571. Valoarea calculat a testului t Considernd legtura dintre vrsta vinului i preul unei sticle de vin, prezentat prin datele din Tabelul 1.1.1, cu n=7, cupluri de valori x i y, pentru care a rezultat un coeficient de corelaie r = 0,985, se calculeaz valoarea testului t , astfel:
t = 0,99846 7 2
2

1 0,99846

= 40 ,24

t tab . se cu observ c: deci, se respinge ipoteza nul , coeficientul de corelaie este semnificativ diferit de zero. Prin urmare, modelul este corect specificat i poate fi reinut. t calc . (t calc . = 40 ,24 ) >( t tab . = 2,571 ) ,

Decizia Comparnd

Modele de regresie simpl

25

B. Demersul testrii modelului de regresie folosind statistica test F Evaluarea global a modelului de regresie pe baza raportului de corelaie presupune folosirea statisticii test F Fisher. Demersul testrii prin statistica test F este asemntor demersului testrii prin statistica test t. Statistica test F:
F=
2 S reg 2 S rez

VE n k R2 nk = = 2 VR k 1 1 R k 1

urmeaz o lege de distribuie Fisher, unde: 2 S reg reprezint estimaia varianei explicat prin model; 2 S rez reprezint estimaia varianei neexplicat, variana rezidual: R 2 este raportul de determinare, iar (1 R 2 ) reprezint raportul de nedeterminare.

Elementele de calcul i valoarea raportului F se pot obine facil cu ajutorul programelor statistice. De exemplu, n SPSS, rezultatele sunt prezentate n Tabelul ANOVA, i anume: - estimaiile celor dou componente ale variaiei, - gradele de libertate corespunztoare,

26

Elisabeta JABA_Econometrie aplicat

- estimaiile varianelor, explicat i rezidual, - valoarea calculat a raportului Fisher i - semnificaia testului, Sig. Pe baza elementelor din Tabelul ANOVA se calculeaz un indicator sintetic R 2 , raportul de determinaie, folosit pentru evaluarea modelului. Valoarea teoretic a testului F Pentru exemplul dat, se citete valoarea teoretic a lui F din tabela Fisher, i anume F =6,608, pentru v1=k - 1=1 i v2=n - k= 5 grade de libertate i un nivel de semnificaie = 0,05 . Valoarea calculat a testului F tiind c, n cazul unei regresii liniare simple, ptratul raportului de corelaie Pearson, 2 , este egal cu ptratul coeficientului de corelaie Pearson, 2 , n exemplul dat, folosind estimaia calculat pentru coeficientul de corelaie, obinem: 2 = 2 = 0,99846 2 . Valoarea calculat a lui F este:
Fcalc . = R2 n 2 0,99846 2 7 2 = = 1620 1 R 2 2 1 1 0,99846 2 1

Calculele verific relaiile dintre cele dou statistici test, statistica test t Student aplicat asupra coeficientului de corelaie i statistica test F aplicat asupra raportului de corelaie (40,242 = 1620 ). Decizia. Pentru un prag de semnificaie de 0,05 i gradele de libertate corespunztoare, se constat c valoarea calculat a testului F este mai mare dect valoarea teoretic a acestuia, Fcalc . > F, ( k 2 , n k ) . Prin urmare, se poate lua decizia de a respinge ipoteza nul, cu un risc acceptat de 5%.

Modele de regresie simpl

27

n SPSS, testul Fisher se realizeaz pe baza procedeului de descompunere a varianei variabilei dependente n cele dou componente: variaia explicat, dat de modelul de regresie, i variaia rezidual. Tabelul ANOVA, redat n Tabelul 1.1.11, prezint estimaiile celor dou componente ale variaiei, gradele de libertate corespunztoare, estimaiile varianelor explicat i rezidual, valoarea calculat a raportului Fisher i semnificaia testului.

28

Elisabeta JABA_Econometrie aplicat

1.1.6. Testarea ipotezelor clasice asupra modelului de regresie simpl Estimarea prin metoda celor mai mici ptrate a parametrilor modelului de regresie are sens numai dac sunt respectate anumite ipoteze. 1.1.6.1. Ipoteze statistice clasice asupra modelului de regresie simpl Ipotezele statistice clasice asupra modelului de regresie sunt: - Liniaritatea modelului. Relaia ntre Y i X este liniar. Aceast ipotez este necesar pentru estimarea parametrilor modelului; - Normalitatea erorilor. Variabila este distribuit normal: N (0, 2 ) ; - Homoscedasticitatea. Varianele V( ) sunt constante, oricare ar fi valorile variabilei X, adic, V ( ) = 2 ; Necorelarea erorilor. Erorile sunt necorelate ntre ele: cov( i , j ) = 0 ; - Independena erorilor de valorile variabilei X. Valorile variabilei sunt independente de valorile variabilei explicative X, adic cov( , x) = 0 .
-

nclcarea ipotezelor poate afecta calitatea estimatorilor.

Modele de regresie simpl

29

1.1.6.2. Testarea liniaritii modelului propus Liniaritatea relaiei dintre variabila dependent i variabila independent este important att pentru acurateea predictiv a modelului ct i pentru validitatea coeficienilor estimai. Verificarea liniaritii se poate efectua grafic, folosind: scatterplots; diagrama reziduurilor din regresie. Diagrama reziduurilor din regresie Diagrama reziduurilor din regresie se construiete lund pe ordonat variabila reziduu i pe abscis variabila dependent (Figura 1.1.4). Dac reziduurile apar dispersate aleator, de o parte i de alta a valorii zero (Figura 1.1.4.a), atunci relaia poate fi modelat cu ajutorul regresiei liniare. Dac reziduurile apar dispersate n blocuri deasupra sau sub valoarea zero (Figura 1.1.4.b), atunci relaia dintre variabilele considerate nu poate fi modelat cu ajutorul regresiei liniare. Reziduu Reziduu

Variabila dependent

Variabila dependent

..................(a)........................................................................(b) Figura 1.1.4:Distribuia reziduurilor n cazul relaiei de tip liniar (a) i a relaiei de tip neliniar (b)

30

Elisabeta JABA_Econometrie aplicat

n cazul unor relaii neliniare, se poate gndi la o adecvare la un model liniar, utiliznd o transformare logaritmic etc., sau pot fi tratate ca atare. n exemplul considerat, distribuia reziduurilor de regresie valideaz ipoteza modelului de regresie liniar, reziduurile plasndu-se aleator de o parte i de alta a valorii zero (vezi Figura 1.1.5).

Modele de regresie simpl

31

1.1.6.3. Testarea ipotezei de normalitate a erorilor Pentru variabila aleatoare reziduu, , dintr-un model de regresie simpl liniar verificm ipotezele de: normalitate, homoscedasticitate, necorelare i independen a erorilor. Ipoteza de normalitate a erorilor presupune c variabila urmeaz o lege normal de medie 0 i varian 2: i ~ N ( 0 , 2 ) . Efectele nclcrii acestei ipoteze Ipoteza de normalitate a erorilor este important pentru stabilirea proprietilor estimatorilor parametrilor modelului de regresie. Dac i ~ N ( 0 , 2 ) , atunci estimatorii parametrilor modelului de regresie urmeaz, de asemenea, o lege normal: 2 2 ~ N (, ), ~ N ( , ) . Dac ipoteza de normalitate este nclcat, proprietile estimatorilor construii pe baza metodei celor mai mici ptrate au doar proprieti asimptotice, adic necesit eantioane sau seturi mari de date. Verificarea acestei ipoteze implic i testarea ipotezei c, n medie, modelul este bine specificat: M () = 0 . A. Testarea ipotezei M () = 0 Testarea ipotezei M () = 0 se poate realiza cu ajutorul testului t Student, folosit pentru compararea mediei cu valoarea 0. Conform rezultatelor din SPSS, Tabelul 1.1.4: One-Sample Test, valoarea calculat a testului t este mic (egal cu 0,000), semnificaia testului (Sig t = 1) este mai mare dect = 0,05 , ca urmare, putem lua decizia de a accepta ipoteza nul, adic ipoteza c media erorilor nu difer semnificativ de valoarea zero (Test Value = 0). Tabelul 1.1.4: One-Sample Test pentru testarea ipotezei
Test Value = 0
M ( i ) = 0

32

Elisabeta JABA_Econometrie aplicat

t Unstandardized Residual . 000

Sig. (2df tailed)

Mean Difference

95% Confidence Interval of the Difference Lower Upper ,2854136

1.000

.00000000

-,2854136

B. Testarea ipotezei de normalitate a erorilor: i ~ N ( 0 , 2 ) Testarea ipotezei de normalitate a erorilor se poate realiza cu ajutorul procedeelor grafice (histograma, box-plot, P-P-plot, diagrama reziduurilor) sau a procedeelor numerice (testul Kolmogorov-Smirnov, testul Jarque - Bera ). B1. Diagrama de dispersie a reziduurilor nclcarea ipotezei de normalitate se poate detecta pe un grafic al reziduurilor (Vezi Figura 1.1.5). Diagrama de dispersie a reziduurilor se construiete considernd pe ordonat valori ale variabilei reziduale, iar pe abscis valori estimate ale variabilei dependente.

Figura 1.1.5: Distribuia reziduurilor din regresia observat n cazul relaiei dintre vrsta vinului i preul unei sticle de vin, pentru eantionul considerat

Modele de regresie simpl

33

B2. Testul Jarque-Bera Testul Jarque - Bera se calculeaz dup relaia:


JB = n 2 ( K 3) 2 S + 6 4 ~ 2 ( 2)

unde:

S=

3
3 2

reprezint asimetria (skewness). S = 0 pentru

o repartiie normal, S > 0 pentru o repartiie asimetric la dreapta, respectiv S < 0 pentru o repartiie asimetric la stnga;
K=

4 2 2

reprezint boltirea, (kurtosis). K = 3 pentru o

repartiie normal, K<3 pentru o repartiie aplatizat i K > 3 pentru o repartiie afectat de boltire. Estimatorii pentru cei doi parametri sunt:
i4 i3 2 ( ) n2 i n2 S= , respectiv K = i 2 . 2 i 2 i 3 ( ) ( ) n2 i n2 i

Tabelul 1.1.5. Estimaii ale erorilor Unstandardized Residual N Valid Missing Mean Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis

parametrilor formei distribuiei 7 0 ,0000000 ,30860670 ,095 ,000 ,794 -1,200 1,587

Valoarea calculat a testului

34

Elisabeta JABA_Econometrie aplicat

Estimaiile parametrilor formei repartiiei erorilor:


ei3 2 ( ) i n2 s= , ei2 3 ( ) i n2

ei4 k = i n 2 , unde ei = y i y i . 2 e ( i )2 i n2
JBcalc = n 2 ( k 3 )2 s + 6 4 .

Rezult valoarea calculat a testului:

Estimaiile parametrilor formei repartiiei, obinute n SPSS pentru exemplul dat, sunt prezentate n Tabelul 1.1.5. Valoarea calculat a testului Jarque-Bera:
JB calc = n 2 (k 3) 2 s + 6 4 7 1,2 2 = 0,000 2 + 6 4 = 0,42 .

Valoarea teoretic Din tabela chi-ptrat, se citete valoarea teoretic 2 0 ,05 ;2 = 5 ,99 . Deoarece valoarea calculat a testului este mai mic dect valoarea teoretic, se ia decizia de a accepta ipoteza nul (de normalitate a erorilor), cu o probabilitate de 0,95. Tabelul 1.1.6: Tipuri de asimetrie i transformri ale variabilei pentru normalizarea distribuiei Asimetrie moderat i SQRT(X) pozitiv Asimetrie substanial i LOG10(X) pozitiv ---------atunci cnd scara LOG10(X+C) include zero Asimetrie sever i pozitiv 1/X ---------atunci cnd scara include un zero Asimetrie moderat i negativ 1/(X+C) SQRT(K-X)

Modele de regresie simpl

35

Asimetrie substanial i negativ Asimetrie sever i negativ

LOG10(K-X) LOG10(K-X)

C = constant adugat astfel nct scorul cel mai mic este 1 K = constant din care este retras scorul astfel nct scorul cel mai mic este 1; n general egal cu scorul cel mai mare +1 n cazul cnd distribuia nu este normal, aceasta se poate adecva efectund transformri, n funcie de tipul abaterii. n Tabelul 1.1.6 prezentm transformrile recomandate n cazul cnd distribuia prezint diferite grade de asimetrie [9].

36

Elisabeta JABA_Econometrie aplicat

1.1.6.4. Testarea ipotezei de homoscedasticitate Ipoteza de homoscedasticitate presupune c varianele sunt constante, oricare ar fi valorile variabilei X, adic, V ( ) = 2 . Pentru testarea ipotezei se utilizeaz mai multe teste, dintre care vom prezenta: Testarea prin procedeul Glejser i testul t Student pentru coeficientul de corelaie Spearman. A. Procedeul Glejser Testarea are la baz un model de regresie ntre variabila rezidual estimat i variabila independent. Forma acestui model indic i forma heteroscedasticitii. Pentru a identifica existena heteroscedasticitii, construim un model de regresie simpl ntre variabila eroare estimat i variabila independent, de forma =+ x +u . Dac parametrul este semnificativ, atunci modelul iniial este heteroscedastic. Rezultatele testrii, obinute n SPSS, sunt prezentate n Tabelul 1.1.7. Tabelul 1.1.7: Testarea prin procedeul Glejser pentru variabila eroare i vrsta vinului
Coefficients a Unstandardized Coefficients B Std. Error ,204 ,146 ,010 ,033 Standardized Coefficients Beta ,139

Model 1

(Constant) Vrsta vinului (ani)

t 1,400 ,313

Sig. ,220 ,767

a. Variabila dependenta: erorile de regresie in valoare absoluta

Rezultatele pentru testele prezentate n tabelul de mai sus verific ipoteza nul H0: = 0. Testul t arat c modelul de regresie dintre erorile estimate, n valoarea absolut, i variabila vrsta vinului (ani) nu este semnificativ, adic nu exist o legtur ntre aceste variabile.

Modele de regresie simpl

37

Ca urmare, se accept ipoteza nul, adic ipoteza de homoscedasticitate pentru modelul considerat n exemplul dat, adic variana erorii este constant pentru orice valoare a variabilei X.

38

Elisabeta JABA_Econometrie aplicat

B. Testul t Student pentru coeficientul de corelaie neparametric Spearman Testul t Student pentru coeficientul de corelaie neparametric Spearman i se bazeaz pe calculul rangurilor valorilor absolute estimate ale erorilor, i , i ale valorilor Xi . Ipoteze statistice: H0: ipoteza de homoscedasticitate H1: ipoteza de heteroscedasticitate Test t Student:
t= n 2 1 2

unde: este estimatorul parametrului Spearman. Calculul valorii statisticii test - Se afl valorile teoretice ale ecuaiei de regresie: yi = a + bx i , pe baza coeficienilor estimai ai modelului de regresie (a=7,286, b=2,571). - Se estimeaz erorile: ei = yi yi Se calculeaz rangurile pentru erori i pentru variabila independent i, pe baza lor, diferenele: d i = Rx Re - Se calculeaz coeficientul de corelaie Spearman. O estimaie a coeficientului Spearman se calculeaz pe baza relaiei:
i i

6 =1

d
i

2 i

n( n 2 1)

Se aplic testul Student. Exemplu: Considerm datele din Tabelul 1.1.1. Elemente de calcul pentru coeficientul Spearman sunt prezentate mai jos.

Modele de regresie simpl

39

Coeficientul Spearman:
6 47 ,5 =1 = 0,15 7 ( 49 1)

40

Elisabeta JABA_Econometrie aplicat

Tabelul 1.1.8 Elemente de calcul pentru coeficientul Spearman xi yi |ei | Rxi Rei di d i2 1,00 10,00 ,14 1 2,5 -1,50 2,25 2,00 12,00 ,43 2 6,5 -4,50 20,25 3,00 15,00 ,00 3 1 2,00 4,00 4,00 18,00 ,43 4 6,5 -2,50 6,25 5,00 20,00 ,14 5 2,5 2,50 6,25 6,00 23,00 ,29 6 4,5 1,50 2,25 7,00 25,00 ,29 7 4,5 2,50 6,25 28 123 47,5 Valoarea calculat a statisticii test t Student:
t calc

n 2
1

2 =

0,15 7 2 1 0,15 2

= 0,3392

Decizie:

(t calc = 0,3392 ) < (t 0 , 025 ; 3 = 2,571 )

n condiiile unui risc asumat, se accept ipoteza H 0 , ipoteza de homoscedasticitate, adic erorile de regresie sunt constante pentru orice valoare a variabilei X.

Modele de regresie simpl

41

1.1.6.5 Testarea ipotezei de autocorelare a erorilor Ipoteza de necorelare a erorilor: cov( i , j ) = 0 presupune lipsa unei corelaii ntre termenii variabilei eroare din modelul de regresie, adic eroarea asociat unei valori a variabilei dependente nu este influenat de eroarea asociat altei valori a variabilei dependente. Pentru testarea acestei ipoteze se pot utiliza: testul Durbin Watson i Runs test. Testul Durbin Watson (DW) n cazul acestui test se formuleaz ipotezele: H0: = 0 (nu exist autocorelare a erorilor); H1: 0 (ipoteza este nclcat, exist o legtur ntre

erori).

n cazul existenei fenomenului de autocorelare a erorilor se presupune c ntre erori exist o relaie de tipul: i = i 1 + u i , cu 2 ui ~ N (0, u ) . Statistica test:

DW =

(e
i=2

i n

e i 1 ) 2
2 i

e
i =1

42

Elisabeta JABA_Econometrie aplicat

Nu se dispune de valoarea Sig, p-value, pentru acest test. Valoarea calculat a testului DW se compar numai cu dL (limita inferioar) i dU (limita superioar), citite n tabela Durbin i Watson, pentru diferite valori ale pragului de semnificaie i ale volumului eantionului. n funcie de aceste valori critice se determin urmtoarele intervale, care permit luarea deciziei de respingere sau acceptare a ipotezei nule: 0
>0

dL ?

dU

=0

4- dU ?

4- dL

<0

Decizia se ia n funcie de urmtoarele regiuni: - regiune de respingere: >0 erorile nregistreaz o autocorelare pozitiv; <0 erorile nregistreaz o autocorelare negativ; - regiune de acceptare a ipotezei nule: (du ; 4- du) erorile nu sunt autocorelate; - regiune de nedeterminare: (dL ; dU) i (4-du ; 4-dL), dac valoarea statisticii DurbinWatson cade n aceast regiune, nu se poate decide asupra existenei autocorelrii erorilor; Testul Durbin-Watson se recomand pentru eantioane de volum mare i este folosit n mod curent pentru analiza seriilor de timp. n cazul nostru, eantionul, avnd n = 7, nu recomandm acest test.

Modele de regresie simpl

43

1.1.7. Previziunea valorii variabilei Y pentru o valoare fix a variabilei X Ecuaia dreptei de regresie, estimat pe baza datelor unui eantion observat, y = a +bx , poate fi folosit pentru previziunea comportamentului unei uniti statistice care ia o anumit valoare dat, xh, pentru variabila X. Deoarece dreapta de regresie este estimat pe baza datelor observate pe un eantion, iar fiecare unitate statistic are un comportament diferit, rezultatul obinut se refer la un comportament mediu, y . Ca urmare, este necesar s se calculeze un interval de ncredere. Calculul intervalului de ncredere:
[ yh t / 2 s y ]
2 y 2

1 ( xh x ) 2 unde, s = s + n ( n 1) s 2 . X

n cazul exemplului considerat, putem afla n ce interval ar trebui s ne ateptm s se gseasc preul unei sticle de vin care ar avea, de exemplu, o vrst xh = 3,5 ani de vechime. Valoarea medie ce s-ar obine pentru xh=3,5 este:
y h = a + bx h = 7,286 + 2,571 3,5 = 16 ,2845

Variana rezidurilor:
s
2

e =

2 i

n2

0,57 = 0,114 72

Variana variabilei X: 2 ( xi x) 2 = 28 ; s X = 28 / 7 = 4 . Variana estimatorului


1 (3,5 4) 2 s 2 = 0,114 + y 7 (7 1) 4
y:

Intervalul de ncredere al valorii variabilei Y pentru o valoare fix a variabilei X, respectiv xh = 3,5, este egal cu:

= 0,017

44

Elisabeta JABA_Econometrie aplicat

IC = [16 ,2845 2,571 0,132 ] = [15,94 ; 16,62 ].

n cazul exemplului considerat, ne putem atepta, cu o ncredere de 95%, ca preul unei sticle de vin care ar avea, de exemplu, o vrst xh = 3,5 ani de vechime s se gseasc n intervalul [15,9 ; 16,6 ] Euro. 4 2 1.1.8. Rezultate n SPSS i interpretarea lor pentru regresia liniar simpl Procesul de estimare a parametrilor unui model de regresie n SPSS este cunoscut ca fitting the model. n fiierul Data Editor, n foaia Data View, SPSS completeaz coloane distincte cu valorile estimate pentru variabila dependent (PRE_1), valorile reziduale (RES_1) i limitele inferioar i superioar ale intervalului de ncredere (LMCI_1, respectiv UMCI_1). Pentru exemplul considerat, rezultatele estimrii sunt prezentate n Tabelul 1.1.9.

Tabelul 1.1.9. Valori estimate pentru preul unei sticle de vin, pe baza eantionului de 7 sticle prezentat n Tabelul 1.1.1

Modele de regresie simpl

45

Fereastra de rezultate - Output-ul, pentru analiza de regresie, conine: Model Summary, ANOVA, Coefficients, Normal P-P plot i Scatterplot. Tabelul Model Summary prezint valoarea raportului de corelaie (R), valoarea raportului de determinaie (R2), valoarea ajustat a lui R i eroarea standard a estimaiei. Pentru exemplul considerat, Model Summary este prezentat n Tabelul 1.1.10.

46

Elisabeta JABA_Econometrie aplicat

Tabelul 1.1.10. Model Summary, cazul regresiei simple


Model 1 R ,998 R Square ,997 Adjusted R Square ,996 Std. Error of the Estimate ,33806

a Predictors: (Constant), Vrsta vinului (ani) b Dependent Variable: Preul unei sticle de vin (Euro) Valoarea R arat dac exist sau nu o corelaie ntre variabila dependent (rezultativa Y) i variabila independent (factoriala X). Acest indicator ia valori ntre 0 i 1. Interpretarea modelului. n interpretarea modelului se folosete coeficientul de determinaie, R2. Raportul de determinaie, R2, arat proporia variaiei variabilei dependente explicate prin modelul de regresie i este folosit pentru a evalua calitatea ajustrii (alegerea modelului). R2 ia valori ntre 0 i 1. Dac R2 este egal cu 0 sau are o valoare foarte mic, atunci modelul de regresie ales nu explic legtura dintre variabile, relaia dintre variabila dependent i variabila independent nu coincide cu modelul ales, de exemplu, liniar. Dac R2 este egal cu 1, atunci toate observaiile cad pe linia de regresie, deci, modelul de regresie explic perfect legtura dintre variabile. Ca urmare, R2 este folosit pentru a stabili care model de regresie este cel mai bun. Aceast metod de alegere a modelului de regresie potrivit este recomandat pentru modelele care nu conin un numr mare de variabile. Pentru exemplul considerat a rezultat o valoare R=0.985, respectiv, R2= 0.970, ceea ce ne arat c ntre preul unei sticle de vin (Euro) i vrsta vinului (ani) exist o legtur liniar, direct, foarte strns. Tabelul Regression ANOVA prezint rezultatele analizei varianei variabilei dependente sub influena factorului de regresie i a factorului reziduu. Adic, prezint informaii asupra sumei

Modele de regresie simpl

47

ptratelor abaterilor variabilei dependente, datorate modelului de regresie i factorului reziduu, gradele de libertate, estimaiile varianelor datorate celor dou surse de variaie (regresie i reziduu), raportul F i Sig. (vezi Tabelul 1.1.11). Tabelul 1.1.11. ANOVA pentru regresie
Model 1 Regression Residual Total Sum of Squares 185,143 ,571 185,714 df 1 5 6 Mean Square 185,143 ,114 F 1620,000 Sig. ,000

a Predictors: (Constant), Vrsta vinului (ani) b Dependent Variable: Preul unei sticle de vin (Euro) Statistica test F se obine ca raport ntre media ptratelor abaterilor datorate regresiei i media ptratelor abaterilor datorate reziduului, calculate cu gradele de libertate corespunztoare. Aceast statistic test este folosit pentru testarea modelului de regresie. Dac testul F ia o valoare mare, iar valoarea Sig. corespunztoare statisticii F este mic (mai mic dect 0,05), atunci variabila independent explic variaia variabilei dependente i invers. n exemplul considerat, valoarea Sig. pentru F este mai mic dect 0,05, deci relaia liniar dintre cele dou variabile considerate este semnificativ (vezi Tabelul 1.1.11).

Coeficienii de regresie Tabelul Coefficients (vezi Tabelul 1.1.12) prezint coeficienii nestandardizai ai modelului de regresie estimat, erorile standard ale acestora, coeficienii de regresie standardizai cu erorile

48

Elisabeta JABA_Econometrie aplicat

standard corespunztoare, precum i valorile statisticii test t i valorile Sig. corespunztoare. Tabelul 1.1.12. Coeficienii de regresie
Unstandardized Coefficients Model 1 B (Constant) 7,286 Vrsta vinului (ani) 2,571 Std. Error ,286 ,064 Standardized Coefficients Beta ,998 t 25,500 40,249 Sig. ,000 ,000

a Dependent Variable: Pretul unei sticle de vin (Euro) Coeficienii de regresie standardizai sunt folosii atunci cnd ntr-un model intr mai multe variabile independente exprimate n uniti de msur diferite, n scopul facilitrii comparrii acestora. Testarea parametrilor modelului de regresie se face cu ajutorul testului t, pentru a afla dac acetia difer semnificativ de zero: H0 : = 0 Pentru exemplul dat, valoarea (Sig.=0.002) este mai mic dect 0.05, artnd c (panta dreptei de regresie) este semnificativ diferit de zero i corespunde unei legturi semnificative ntre cele dou variabile. Bibliografie Berdot, J.P. - Econometrie, Universitatea din Poitiers, 2001 Bourbonnais, R. Econometrie, 5-e edition, Dunod, Paris, 2003 3. Gujarati, D.N. Basic Econometrics, 3-rd Edition, McGrawHill, 1995 4. Greene, W.H. Econometric Analysis, 5-e ed.,Prentice Hall, 2005
1. 2.

Modele de regresie simpl

49

5. 6. 7. 8. 9.

Jaba, Elisabeta, Grama, Ana Analiza statistica cu SPSS sub Windows, Editura Polirom, Iai, 2004 Jaba, Elisabeta, Jemna, Dnu Econometrie, Editura Sedcom Libris, Iasi, 2006 Maddala, G.S. Econometrics, McGraw-Hill, 1987 Pecican, E.S. Econometria pentru economiti, Editura Economic,Bucureti, 2003 mgtclass.mgt.unm.edu/Jurkat/Mgt%20501/Variable %20Transformations.doc

S-ar putea să vă placă și