Sunteți pe pagina 1din 11

Modelul de regresie liniar unifactorial

Ex1. Consumul este funcie de Venitul disponibil


n scopul evalurii influenei pe care variaia Venitului Disponibil l are asupra
Cheltuielilor de Consum ale unei familii, au fost nregistrate, pentru 10 familii, valorile
urmtoarelor variabile:
Y Cheltuielile de Consum ale familiei;
X Venitul Disponibil al familiei.
Y
70 65 90 95 110 115 120 140 155 150
X
80 100 120 140 160 180 200 220 240 260
Fiecare familie a fost selectat, la ntmplare, dintr-un grup de familii cu un venit net
disponibil fixat. Valorile celor dou variabile sunt exprimate n 1000 uniti monetare
(u.m.), astfel nct prima familie ctig 80000 u.m. i consum 70000 u.m. anual.
a) S se reprezinte grafic datele de observaie i s se comenteze legtura dintre cele dou
variabile.
b) Pe baza datelor de la nivelul eantionului, s se determine ecuaia de regresie liniar
care modeleaz legtura dintre cele dou variabile. Dup estimarea parametrilor
modelului, s se interpreteze rezultatele obinute.
c) S se verifice dac modelul de regresie identificat este valid statistic (valoare
tabelar:5,32 pentru un nivel de semnificaie de 0,05).
d) S se testeze semnificaia statistic a parametrilor modelului i s se determine
intervalele de ncredere pentru parametrii modelului (valoare tabelar: 2,306 pentru un
nivel de semnificaie de 0,05).
e) S se msoare intensitatea legturii dintre cele dou variabile cu ajutorul coeficientului
de corelaie i al raportului de corelaie; s se testeze semnificaia indicatorilor utilizai.
f) n ce msur, variaia cheltuielilor de consum este influenat de venitul disponibil al
familiei, pe baza modelului de regresie determinat?
g) S se previzioneze cheltuielile medii de consum ale unei familii, n ipoteza c venitul
disponibil este 100.
h) S se previzioneze cheltuielile de consum ale unei familii, n ipoteza c venitul
disponibil este 100.

a Pentru a identifica existena unei relaii de dependen ntre variabilele analizate, ca i


forma i sensul relaiei de dependen, construim diagrama mprtierii datelor. Pentru a
crea o diagram a datelor trebuie s stabilim care variabil ar trebui s apar pe axa
orizontal. n analiza de regresie, variabila explicativ apare totdeauna pe axa orizontal
iar variabila explicat pe axa vertical.
Folosim Excel pentru a efectua calculele pentru estimarea unui model de regresie.
Valorile observate pentru variabilele Y i X sunt introduse n coloanele B i C.

Reprezentm grafic perechile de puncte observate ( xi , y i ) .


Selectm: Insert/Chart/XY(Scatter)

Se constat c ntre variabilele X i Y exist o legtur direct i liniar.

b A rezultat c putem considera c ntre cele dou variabile exist o relaie de forma:
yi = + xi + i , i = 1,2,..., n .
Pentru a determina estimatorii a i b (sau i ) ai parametrilor i , rezolvm
sistemul de ecuaii normale ale lui Gauss.
an + b xi = yi

2
a x i + b x i = xi y i

10a + 1700b = 1110

1700a + 322000b = 205500

Soluiile sistemului se pot obine folosind metoda determinanilor:

yi xi2 xi xi yi
n xi2 ( xi ) 2

a=

a
=

b=

b n xi y i x i y i
(10)(205 500) (1700)(1110)
=
b=
0,5091
2
2

(10)(322 000) (1 700) 2


n x i ( xi )

a=

(1 110)(322 000) (1700)(205 500)


(10)(322 000) (1 700) 2

24,4545

sau
b=

( xi x )( y i y )
( xi x ) 2

b=

(16800)

(33000)(8890)
a = y bx a = 111 (0,5091)(170) 24,4545

0,5091

Dreapta de regresie estimat este y i = 24,4545 + 0,5091 x i


Fiecare punct de pe dreapta de regresie este o estimaie a valorii medii a lui Y,
corespunztor valorii alese pentru X. Deci y i este o estimaie pentru E (Y | X i ) .
Interpretarea parametrilor obinui:
Valoarea b 0,5091 , care msoar panta dreptei de regresie, arat c, n cazul unor
venituri cuprinse ntre 80 mii i 260 mii u.m., atunci cnd X crete cu o unitate
(1000u.m.), cheltuielile de consum vor crete, n medie, cu 0,5091 uniti
(0,5091x1000=509,1 u.m.)
Valoarea a 24,4545 arat nivelul cheltuielilor de consum, atunci cnd venitul este 0.
Interpretm pe a 24,4545 ca fiind efectul mediu asupra lui Y, al tuturor factorilor care
nu sunt luai n considerare n modelul de regresie.

c S se verifice dac modelul de regresie identificat este valid statistic (valoare


tabelar:5,32 pentru un nivel de semnificaie de 0,05).
Pentru testarea validitii modelului se formuleaz 2 ipoteze:
H0: modelul nu este valid statistic
H1: modelul este valid statistic
Se completeaz tabelul de analiz a varianei (ANOVA)
Sursa
variaiei
Regresia
Eroarea
Total

Nr grade
libertate
(df)
1
n-2=8
n-1=9

Suma ptratelor
abaterilor
(SS)
SSR=8552,73
SSE=337,27
SST=8890,0

Media ptratelor
(MS)

Statistica
F

MSR=SSR/1=8552,73
MSE=SSE/(n-2)=42,159

F=MSR/MSE
=202,87

SST = ( y i y ) 2 = 2y =8890,0 este suma ptratelor abaterilor valorilor reale ale


variabilei y de la media lor de selecie, y . Suma SST reprezint variaia total a
valorilor variabilei y.
SSR = ( y i y ) 2 = 2y| x =8552,73 reprezint variaia explicat prin factorul de
regresie.
SSE = ( yi y i ) 2 = ei2 = 2e =337,27 reprezint variaia rezidual. Msoar
aciunea factorilor nenregistrai.

Avem SST=SSR+SSE
MSE = SSE /( n 2) = s e2 =337,27/8=42,159
Testul statistic folosit este:
F=

SSR / 1
care urmeaz o distribuie F ;1,n 2 .
SSE /( n 2)

Regula de decizie este:


Dac Fcalculat > Fcritic respingem H0 i acceptm H1 Modelul este valid statistic.
Fcalculat = 8552,73 / 42,159 = 202,87
Ftabelat = Fcritic = F ;1,n 2 = F0, 05;1,8 = 5,32
Deoarece Fcalculat > Fcritic (202,87 > 5,32) respingem H0 i acceptm H1 Modelul este
valid statistic.
Obs: n tabelul din Excel apare i o probabilitate (Significance F)

d S se testeze semnificaia statistic a parametrilor modelului i s se determine


intervalele de ncredere pentru parametrii modelului (valoare tabelar: 2,306 pentru un
nivel de semnificaie de 0,05).
Calculm erorile standard ale estimatorilor parametrilor modelului
Varianele estimatorilor b i a (sau i ) sunt date de urmtoarele relaii:
Var ( ) = Var (b) =

(x

x)2

1
2 xi2
x2

Var ( ) = Var (a ) =
=
+
n ( x x ) 2 n ( x x ) 2
i
i

2
Variana erorilor aleatoare este dar este necunoscut i trebuie estimat.
Un estimator nedeplasat pentru 2 este:
ei2 = 42,159.
2 = s e2 =
n2
s e = 42,159 = 6,493
Estimaiile erorilor standard ale estimatorilor parametrilor modelului sunt:
1
sb = se(b) = s e
=0,0357
2
( xi x )
2

s a = se(a ) = s e

x
n ( x x )
2
i

1
x2
= se
+
=6,4138
n ( xi x ) 2

Testarea semnificaiei parametrului


H 0 : = 0 , (parametrul nu este semnificativ statistic; modelul nu este valid)
H 0 : 0 , (parametrul este semnificativ statistic; modelul este valid).
Sub ipoteza nul avem statistica:

b
care urmeaz o distribuie Student cu (n-2) grade de libertate dac H0 este
se(b)
adevrat.
Dac | t calc |> t critic = t
atunci respingem H 0 la un nivel de semnificaie de % .
t=

;n 2

t calc = 0,5091 / 0,0357 = 14,2432


t critic = t tabelat = t 0,025;8 = 2,306
Deoarece 14,2432>2,306 respingem H0 i acceptm H1 parametrul este
semnificativ statistic.
(Spunem c o statistic este semnificativ dac valoarea testului statistic se gsete n
regiunea critic. n acest caz se respinge H0.)

Interval de ncredere pentru parametrul pant


Determinm un interval de ncredere care are o anumit probabilitate de a include
valoarea real dar necunoscut a lui
P (b t crt se(b) b + t crt se(b)) = 1
P (b t / 2;n 2 se(b) b + t / 2;n 2 se(b)) = 1
Un interval de ncredere 100 (1 )% pentru parametrul este:
(b t crt se(b) b + t crt se(b))
(b t / 2;n 2 se(b) b + t / 2;n 2 se(b))
(0,5091 (2,306)(0,0357) 0,5901 + 2,306(0,0357))
(0,4268 0,5914)
Interpretare: Dat fiind un coeficient de ncredere de 95%, pe termen lung, n 95 din 100
de cazuri, intervale precum intervalul (0,4268 0,5914) , vor include valoarea real
a lui .
Se poate testa dac = 0 privind la intervalul de ncredere pentru i observnd dac
acesta conine valoarea zero. Intervalul construit nu conine valoarea 0, deci suntem
ncreztori c 0 . Spunem c: x are putere explicativ semnificativ pentru y sau
este semnificativ diferit de zero sau este semnificativ statistic.
Testarea semnificaiei parametrului de interceptare
Obs: A nu se confunda parametrul de interceptare cu nivelul de semnificaie!
H 0 : = 0 , (parametrul nu este semnificativ statistic)
H 0 : 0 , (parametrul este semnificativ statistic).
Sub ipoteza nul avem statistica:
a
care urmeaz o distribuie Student cu (n-2) grade de libertate
t=
se(a )
Dac | t calc |> t critic = t
atunci respingem H 0 la un nivel de semnificaie de % .
2

;n 2

t calc = 24,4545 / 6,4138 = 3,8128


t critic = t tabelat = t 0,025;8 = 2,306

Deoarece 3,8128 >2,306 respingem H0 i acceptm H1 parametrul de interceptare este


semnificativ statistic.
Interval de ncredere pentru parametrul de interceptare
P (a t crt se(a ) a + t crt se(a )) = 0,95
Un interval de ncredere 95% pentru parametrul de interceptare este:
(a t crt se(a ); a + t crt se(a ))
(24,4545 (2,306)(6,4138);24,4545 + 2,306(6,4138))
(9,6643;39,2448)
Mrimea celor dou intervale de ncredere este proporional cu eroarea standard a
estimatorului respectiv. Cu ct eroarea standard a estimatorului este mai mare, cu att
este mai mic precizia cu care este estimat valoarea real a parametrului necunoscut.

e S se msoare intensitatea legturii dintre cele dou variabile cu ajutorul coeficientului


de corelaie i al raportului de corelaie; s se testeze semnificaia indicatorilor utilizai.
Coeficientul de corelaie de selecie este un indicator ce caracterizeaz direcia i
intensitatea legturii liniare dintre dou variabile. Semnul acestui coeficient indic
direcia legturi iar valoarea sa indic intensitatea legturii.
rxy =
rxy =

( xi x )( y i y )
[ ( xi x ) 2 ][ ( yi y ) 2 ]
n xi y i xi y i
[n xi2 ( xi )2 ] [n yi2 ( yi )2 ]

S xy
cov( x, y )
=
=
SxSy
SxSy

sau

Valoarea coeficientului de corelaie este ntre -1 i 1.


O valoare apropiat de 1 arat o legtur direct puternic
O valoare apropiat de -1 arat o legtur invers puternic.
( xi x )( y i y ) = S xy rezult r = S x .
b = =
xy
S x2
Sy
( xi x ) 2
Rezult c rxy are acelai semn cu coeficientul de regresie pant, .
Am obinut rxy = 0,980847 , ceea ce arat c exist o legtur direct i foarte puternic
ntre cele dou variabile analizate.
Testarea semnificaiei coeficientului de corelaie liniar se face utiliznd testul t.
Se testeaz urmtoarele ipoteze:
H 0 : = 0 ( coeficientul de corelaie nu este semnificativ statistic)

H 1 : 0 ( coeficientul de corelaie este semnificativ statistic).


Statistica testului urmeaz o distribuie Student cu (n-2) grade de libertate.
t=

rxy 0
se(rxy )

rxy
1 rxy2

n2.

Dac t calculat > t critic , respingem H 0 i acceptm H 1 , adic este semnificativ statistic.
t calculat =

0,980847
1 (0,980847) 2

10 2 = 14,25039

Deoarece 14,25039 > 2,306 , deci avem t calculat > t critic rezult c vom respinge H 0 i vom
accepta H 1 ; coeficientul de corelaie este semnificativ statistic.
Raportul de corelaie dintre cele dou variabile este:
SSR
=
SST

R=

( y i y ) 2
( yi y) 2

sau R = 1

SSE
= 1
SST

( y i y i ) 2
( yi y) 2

Valoarea calculat este R 0,9808


Coeficientul de determinaie arat proporia din variaia total a variabilei dependente
Y, explicat de variaia variabilei independente X, deci prin modelul de regresie estimat.
R2 =

2
SSE
SSR ( y i y )
=
=1
sau R 2 = 1
2
SST
SST ( y i y )

( y i y i ) 2
( yi y) 2

Valoarea obinut, R 2 0,9621 , arat c aproximativ 96% din variaia


cheltuielilor de consum (variabila Y) este explicat prin variaia venitului disponibil
(variabila X). Deoarece R 2 poate fi cel mult 1, valoarea obinut sugereaz c dreapta de
regresie estimat aproximeaz foarte bine datele observate.

Testarea semnificaiei Raportului de corelaie se face utiliznd statistica


F=

R2
(n 2) ~ F ;1, n 2
1 R2

Cele dou ipoteze ale testului sunt:


H 0 : R 2 = 0 care nseamn c modelul nu este corect specificat, adic variabila X nu are
efect asupra variabilei Y.
H 1 : R 2 > 0 care nseamn c modelul este corect specificat, adic variabila X are efect
asupra variabilei Y.
Se compar valoarea calculat a lui F cu valoarea critic obinut din tabelele repartiiei
F. Se aplic regula de decizie: dac Fcalc > F ;1,n 2 se respinge ipoteza nul n favoarea
ipotezei alternative.
Deoarece Fcalc 202 i F ;1,n 2 = 5,32 se respinge H0 i se accept H1, adic modelul este
corect specificat.

g S se previzioneze cheltuielile medii de consum ale unei familii, n ipoteza c venitul


disponibil este x 0 = 100 .
Trebuie s estimm valoarea medie a variabilei dependente, condiionat de valorile
variabilei independente.
Suntem n situaia de a prognoza E (Y | X = x0 ) = + x0
Putem obine estimaii punctuale sau pe intervale de ncredere
Folosim ecuaia de regresie estimat: y i = a + bx0 = 24,4545 + 0,5091 xi
O estimaie punctual a previziunii mediei este
y 0 = a + bx0 = 24,4545 + 0,5091 100 = 75,3645
y 0 este un estimator al mediei condiionate E (Y | X = x 0 ) .

Cea mai bun estimaie a valorii medii reale este estimaia punctual 75,3645.
Determinarea Intervalului de ncredere pentru media de rspuns necesit
cunoaterea distribuiei i a varianei estimatorului y 0 .
1
( x0 x ) 2
.
Avem: Var ( y 0 ) = se2 +
n (x x)2
i

1
n

Eroarea standard a estimatorului y 0 este se( y 0 ) = s e2 +

( x 0 x ) 2
.
( xi x ) 2

1 (100 170) 2
se( y 0 ) = 42,159 +
33000
10

= 10,4759 = 3,2366

Un interval de ncredere pentru valoarea real E (Y | X = x0 ) = + x0 este dat de


y 0 t
se( y 0 ) E (Y | X = x 0 ) y 0 + t
se( y 0 )
2

,n 2

,n 2

75,3645 (2,306) (3,2366) E (Y | x 0 = 100) 75,3645 + ( 2,306) (3,2366)


67,9010 E (Y | x 0 = 100) 82,8381
Astfel, dac lum x 0 = 100 n selecii repetate, 95 de intervale din 100, vor conine

valoarea real a mediei.


Dac obinem, intervale de ncredere 95% pentru fiecare X dat, vom obine ca interval de
ncredere o band de ncredere pentru funcia de regresie a populaiei.

h S se previzioneze cheltuielile de consum ale unei familii, n ipoteza c venitul


disponibil este 100.
Se dorete predicia unei valori individuale
y 0 = a + bx0 = 24,4545 + 0,5091 100 = 75,3645 va fi, de asemenea, cea mai bun estimaie a

valorii individuale y0 = + x0 + 0
Determinarea Intervalului de ncredere pentru un rspuns individual necesit
cunoaterea distribuiei i a varianei erorii de previzionare y 0 y 0 .
Pentru nivelul de semnificaie fixat, ( = 0,05 ), se poate construi un interval de ncredere
(1 )% pentru predicia individual y0 , de forma:
y 0 t
se( y0 y 0 ) y0 y 0 + t
se( y0 y 0 )
2

,n 2

,n 2

1
( x0 x ) 2
Var ( y 0 y 0 ) = s e2 1 + +
n (x x)2
i

( x0 x ) 2
1
se( y 0 y 0 ) = s e2 1 + +

n ( xi x ) 2

Dup

efectuarea

calculelor,

se( y 0 y 0 ) = 52,6349 7,255


58,6345 y 0 | x 0 = 100) 92,0945

iar eroarea standard va fi:

am

obinut

valorile

Var ( y 0 y 0 ) = 52,6349

Trebuie remarcat faptul c se obine un interval de lungime mai mare pentru y 0 dect
pentru E ( y0 ) . Banda de ncredere este mai mic atunci cnd valoarea lui x 0 se apropie
de media de selecie x .

Raportarea rezultatelor analizei de regresie


y i = 24,4545 + 0,5091 xi

se = (6,4138)
t = (3,8128)
p = (0,0051)

R 2 = 0,9621
df = 8
F = 202,8679

(0,0357)
(14,2432)
(0,0000)

Estimarea parametrilor modelului n Excel


Microsoft Excel conine un instrument pentru a efectua regresii folosind MCMMP.
Selectm: Tools/ Data Analysis i apoi Regression din lista de instrumente de analiz
afiate prin comanda Data Analysis.
Ce facem dac nu apare Data Analysis?
Cutm n Excel Options, selectm Add-Ins din menu i bifm opiunea Analysis
ToolPak.

SUMMARY OUTPUT
Regression Statistics
Multiple R
0,98084737
R Square
0,96206156
Adjusted R
Square
0,95731926
Standard Error
6,49300323
Observations
10
ANOVA
df
SS
Regression
1 8552,72727
Residual
8 337,272727
Total
9
8890

Intercept
X Variable1

Coefficients
24,45454545
0,509090909

MS
8552,727273
42,15909091

Standard
Error
6,413817299
0,035742806

F
202,8679

t Stat
3,8127911
14,243171

Significance F
5,75275E-07

P-value
0,00514
5,8E-07

Lower
95%
9,6642467
0,4266678

Upper
95%
39,244844
0,591514

Estimarea parametrilor modelului n Eviews


Clic pe Eviews4.1.exe
Ferestra Eviews iniial conine:
-opiunile meniului principal (File, Edit, Object, View,...)
-zona alb de sub MainMenu este fereastra pentru comenzi
-aria de lucruunde Eviews afieaz ferestrele obiect pe care le creaz
Pas1. Crearea unui fiier de tip Workfile
Din meniul principal selectm File/New/Workfile.
Bifm Undated ca tip de structur dac datele sunt de tip seciune.
Introducem apoi nr.de observaii (10 n ex1). Clic OK.
EV va crea un fiier fr nume i va afia o fereastr cu domeniul observaiilor i selecia
curent (putem selecta doar o parte din date). Nu avem date , dar EV va anticipa
necesitatea de a avea
Vectorul c
Seria resid
EV poate importa date dintr-o pagin Excel. Pentru aceasta selectm:
Procs/Import/Read...Excel
Va fi deschis fereastra de dialog pentru import din Excel. Introducem numrul de serii
din fiier (2) i csua de nceput a seriilor (B2 este valoarea implicit).
Fiierul trebuie s fie compatibil Excel 97-2003, s fie nchis, iar informaiile s se
gseasc pe prima pagin a fiierului.
Pas2.Verificarea datelor
Vom crea un grup care ne permite s examinm ambele variabile.
ine apsat CTRL i selecteaz ambele variabile X i Y. Plasezi cursorul n zona albastr
i dai dublu clic. EV deschide un meniu i selectezi OPEN GROUP.
Dac datele sunt corecte se poate salva fiierul (SAVE).
Bara de titlu se schimb pentru a aprea noul nume. Noul fiier poate fi deschis cu
File/Open/Workfile.
Pas3. Formularea modelului i estimarea parametrilor
Dorim o regresie a var.dependente Y n raport cu X, folosind datele din fiier.
Selectm Procs/Make equation
Apare o fereastr de dialog pentru estimare
yi c xi sau yi xi c
Method LS, OK.
n loc de Procs/Make equation putem selecta Quick/Estimate Equation...
Se obin rezultatele. Le vom compara cu cele din Excel.
Apar coeficienii de regresie estimai, erorile standard ale estimatorilor parametrilor,
statisticile t i p-value.
Apar, de asemenea, media i abaterea standard a variabilei dependente, eroarea standard a
estimaiei, coeficientul de determinare R-Squared, statistica F i p-value asociat.
Exist i alte statistici despre care vom discuta n curnd.
Vizualizarea valorilor reziduurilor din regresie
Selectm variabila resid, apoi clic pe View, Show i OK; sau dublu clic pe resid.

S-ar putea să vă placă și