Sunteți pe pagina 1din 11

Modelul de regresie liniar unifactorial

Ex1. Consumul este funcie de Venitul disponibil



n scopul evalurii influenei pe care variaia Venitului Disponibil l are asupra
Cheltuielilor de Consum ale unei familii, au fost nregistrate, pentru 10 familii, valorile
urmtoarelor variabile:
Y Cheltuielile de Consum ale familiei;
X Venitul Disponibil al familiei.

Y 70 65 90 95 110 115 120 140 155 150
X 80 100 120 140 160 180 200 220 240 260
Fiecare familie a fost selectat, la ntmplare, dintr-un grup de familii cu un venit net
disponibil fixat. Valorile celor dou variabile sunt exprimate n 1000 uniti monetare
(u.m.), astfel nct prima familie ctig 80000 u.m. i consum 70000 u.m. anual.

a) S se reprezinte grafic datele de observaie i s se comenteze legtura dintre cele dou
variabile.
b) Pe baza datelor de la nivelul eantionului, s se determine ecuaia de regresie liniar
care modeleaz legtura dintre cele dou variabile. Dup estimarea parametrilor
modelului, s se interpreteze rezultatele obinute.
c) S se verifice dac modelul de regresie identificat este valid statistic (valoare
tabelar:5,32 pentru un nivel de semnificaie de 0,05).
d) S se testeze semnificaia statistic a parametrilor modelului i s se determine
intervalele de ncredere pentru parametrii modelului (valoare tabelar: 2,306 pentru un
nivel de semnificaie de 0,05).
e) S se msoare intensitatea legturii dintre cele dou variabile cu ajutorul coeficientului
de corelaie i al raportului de corelaie; s se testeze semnificaia indicatorilor utilizai.
f) n ce msur, variaia cheltuielilor de consum este influenat de venitul disponibil al
familiei, pe baza modelului de regresie determinat?
g) S se previzioneze cheltuielile medii de consum ale unei familii, n ipoteza c venitul
disponibil este 100.
h) S se previzioneze cheltuielile de consum ale unei familii, n ipoteza c venitul
disponibil este 100.

a Pentru a identifica existena unei relaii de dependen ntre variabilele analizate, ca i
forma i sensul relaiei de dependen, construim diagrama mprtierii datelor. Pentru a
crea o diagram a datelor trebuie s stabilim care variabil ar trebui s apar pe axa
orizontal. n analiza de regresie, variabila explicativ apare totdeauna pe axa orizontal
iar variabila explicat pe axa vertical.

Folosim Excel pentru a efectua calculele pentru estimarea unui model de regresie.
Valorile observate pentru variabilele Y i X sunt introduse n coloanele B i C.



Reprezentm grafic perechile de puncte observate ) , (
i i
y x .
Selectm: Insert/Chart/XY(Scatter)



Se constat c ntre variabilele X i Y exist o legtur direct i liniar.

b A rezultat c putem considera c ntre cele dou variabile exist o relaie de forma:
n i x y
i i i
,..., 2 , 1 , = + + = .
Pentru a determina estimatorii a i b (sau i

) ai parametrilor i , rezolvm
sistemul de ecuaii normale ale lui Gauss.

= +
= +


i i i i
i i
y x x b x a
y x b an
2

= +
= +
205500 322000 1700
1110 1700 10
b a
b a

Soluiile sistemului se pot obine folosind metoda determinanilor:
2 2
2
) (

=
i i
i i i i i a
x x n
y x x x y
a 4545 , 24
) 700 1 ( ) 000 322 )( 10 (
) 500 205 )( 1700 ( ) 000 322 )( 110 1 (
2

= a
2 2
) (

=
i i
i i i i
b
x x n
y x y x n
b 5091 , 0
) 700 1 ( ) 000 322 )( 10 (
) 110 1 )( 1700 ( ) 500 205 )( 10 (
2

= b
sau


=
2
) (
) )( (
x x
y y x x
b
i
i i
5091 , 0
) 8890 )( 33000 (
) 16800 (
= b
x b y a = 4545 , 24 ) 170 )( 5091 , 0 ( 111 = a

Dreapta de regresie estimat este
i i
x y + = 5091 , 0 4545 , 24
Fiecare punct de pe dreapta de regresie este o estimaie a valorii medii a lui Y,
corespunztor valorii alese pentru X. Deci
i
y este o estimaie pentru ) | (
i
X Y E .
Interpretarea parametrilor obinui:
Valoarea 5091 , 0 b , care msoar panta dreptei de regresie, arat c, n cazul unor
venituri cuprinse ntre 80 mii i 260 mii u.m., atunci cnd X crete cu o unitate
(1000u.m.), cheltuielile de consum vor crete, n medie, cu 0,5091 uniti
(0,5091x1000=509,1 u.m.)
Valoarea 4545 , 24 a arat nivelul cheltuielilor de consum, atunci cnd venitul este 0.
Interpretm pe 4545 , 24 a ca fiind efectul mediu asupra lui Y, al tuturor factorilor care
nu sunt luai n considerare n modelul de regresie.

c S se verifice dac modelul de regresie identificat este valid statistic (valoare
tabelar:5,32 pentru un nivel de semnificaie de 0,05).
Pentru testarea validitii modelului se formuleaz 2 ipoteze:
H
0
: modelul nu este valid statistic
H
1
: modelul este valid statistic
Se completeaz tabelul de analiz a varianei (ANOVA)

Sursa
variaiei
Nr grade
libertate
(df)
Suma ptratelor
abaterilor
(SS)
Media ptratelor
(MS)
Statistica
F
Regresia
Eroarea
Total
1
n-2=8
n-1=9
SSR=8552,73
SSE=337,27
SST=8890,0
MSR=SSR/1=8552,73
MSE=SSE/(n-2)=42,159
F=MSR/MSE
=202,87

= =
2 2
) (
y i
y y SST =8890,0 este suma ptratelor abaterilor valorilor reale ale
variabilei y de la media lor de selecie, y . Suma SST reprezint variaia total a
valorilor variabilei y.
2
|
2
) (
x y i
y y SSR = =

=8552,73 reprezint variaia explicat prin factorul de


regresie.
2 2 2
) (
e i i i
e y y SSE = = =

=337,27 reprezint variaia rezidual. Msoar
aciunea factorilor nenregistrai.
Avem SST=SSR+SSE
2
) 2 /(
e
s n SSE MSE = = =337,27/8=42,159
Testul statistic folosit este:
) 2 /(
1 /

=
n SSE
SSR
F care urmeaz o distribuie
2 , 1 ; n
F

.
Regula de decizie este:
Dac
critic calculat
F F > respingem H
0
i acceptm H
1
Modelul este valid statistic.
87 , 202 159 , 42 / 73 , 8552
calculat
= = F
32 , 5
8 , 1 ; 05 , 0 2 , 1 ; critic tabelat
= = = =

F F F F
n

Deoarece
critic calculat
F F > (202,87 > 5,32) respingem H
0
i acceptm H
1
Modelul este
valid statistic.
Obs: n tabelul din Excel apare i o probabilitate (Significance F)

d S se testeze semnificaia statistic a parametrilor modelului i s se determine
intervalele de ncredere pentru parametrii modelului (valoare tabelar: 2,306 pentru un
nivel de semnificaie de 0,05).
Calculm erorile standard ale estimatorilor parametrilor modelului
Varianele estimatorilor b i a (sau

i ) sunt date de urmtoarele relaii:


= =
2
2
) (
) ( )

(
x x
b Var Var
i


=
|
|

\
|

+ = =
2
2 2
2
2
2
) ( ) (
1
) ( ) (
x x n
x
x x
x
n
a Var Var
i
i
i


Variana erorilor aleatoare este
2
dar este necunoscut i trebuie estimat.
Un estimator nedeplasat pentru
2
este:
2

2
2 2

= =

n
e
s
i
e
= 42,159.
493 , 6 159 , 42 = =
e
s
Estimaiile erorilor standard ale estimatorilor parametrilor modelului sunt:


= =
2
) (
1
) (
x x
s b se s
i
e b
=0,0357

+ =

= =
2
2
2
2
) (
1
) (
) (
x x
x
n
s
x x n
x
s a se s
i
e
i
i
e a
=6,4138

Testarea semnificaiei parametrului
0 :
0
= H , (parametrul nu este semnificativ statistic; modelul nu este valid)
0 :
0
H , (parametrul este semnificativ statistic; modelul este valid).
Sub ipoteza nul avem statistica:
) (b se
b
t = care urmeaz o distribuie Student cu (n-2) grade de libertate dac H
0
este
adevrat.
Dac
2 ;
2
critic calc
| |

= >
n
t t t

atunci respingem
0
H la un nivel de semnificaie de % .
2432 , 14 0357 , 0 / 5091 , 0
calc
= = t
306 , 2
8 ; 025 , 0 tabela critic
= = = t t t
t

Deoarece 14,2432>2,306 respingem H
0
i acceptm H
1
parametrul este
semnificativ statistic.
(Spunem c o statistic este semnificativ dac valoarea testului statistic se gsete n
regiunea critic. n acest caz se respinge H
0
.)

Interval de ncredere pentru parametrul pant
Determinm un interval de ncredere care are o anumit probabilitate de a include
valoarea real dar necunoscut a lui
= + 1 )) ( ) ( ( b se t b b se t b P
crt crt



= +

1 )) ( ) ( (
2 ; 2 / 2 ; 2 /
b se t b b se t b P
n n

Un interval de ncredere )% 1 ( 100 pentru parametrul este:
)) ( ) ( ( b se t b b se t b
crt crt
+
)) ( ) ( (
2 ; 2 / 2 ; 2 /
b se t b b se t b
n n
+


)) 0357 , 0 ( 306 , 2 5901 , 0 ) 0357 , 0 )( 306 , 2 ( 5091 , 0 ( +
) 5914 , 0 4268 , 0 (
Interpretare: Dat fiind un coeficient de ncredere de 95%, pe termen lung, n 95 din 100
de cazuri, intervale precum intervalul ) 5914 , 0 4268 , 0 ( , vor include valoarea real
a lui .
Se poate testa dac 0 = privind la intervalul de ncredere pentru i observnd dac
acesta conine valoarea zero. Intervalul construit nu conine valoarea 0, deci suntem
ncreztori c 0 . Spunem c: x are putere explicativ semnificativ pentru y sau
este semnificativ diferit de zero sau este semnificativ statistic.
Testarea semnificaiei parametrului de interceptare
Obs: A nu se confunda parametrul de interceptare cu nivelul de semnificaie!
0 :
0
= H , (parametrul nu este semnificativ statistic)
0 :
0
H , (parametrul este semnificativ statistic).
Sub ipoteza nul avem statistica:
) (a se
a
t = care urmeaz o distribuie Student cu (n-2) grade de libertate
Dac
2 ;
2
critic calc
| |

= >
n
t t t

atunci respingem
0
H la un nivel de semnificaie de % .
8128 , 3 4138 , 6 / 4545 , 24
calc
= = t
306 , 2
8 ; 025 , 0 tabela critic
= = = t t t
t

Deoarece 8128 , 3 >2,306 respingem H
0
i acceptm H
1
parametrul de interceptare este
semnificativ statistic.
Interval de ncredere pentru parametrul de interceptare
95 , 0 )) ( ) ( ( = + a se t a a se t a P
crt crt

Un interval de ncredere 95% pentru parametrul de interceptare este:
)) ( ); ( ( a se t a a se t a
crt crt
+
)) 4138 , 6 ( 306 , 2 4545 , 24 ); 4138 , 6 )( 306 , 2 ( 4545 , 24 ( +
) 2448 , 39 ; 6643 , 9 (
Mrimea celor dou intervale de ncredere este proporional cu eroarea standard a
estimatorului respectiv. Cu ct eroarea standard a estimatorului este mai mare, cu att
este mai mic precizia cu care este estimat valoarea real a parametrului necunoscut.

e S se msoare intensitatea legturii dintre cele dou variabile cu ajutorul coeficientului
de corelaie i al raportului de corelaie; s se testeze semnificaia indicatorilor utilizai.
Coeficientul de corelaie de selecie este un indicator ce caracterizeaz direcia i
intensitatea legturii liniare dintre dou variabile. Semnul acestui coeficient indic
direcia legturi iar valoarea sa indic intensitatea legturii.
| | | |



= = =
2 2
) ( ) (
) )( (
) , cov(
y y x x
y y x x
S S
S
S S
y x
r
i i
i i
y x
xy
y x
xy
sau
( ) | | ( ) | |




=
2
2
2
2
i i i i
i i i i
xy
y y n x x n
y x y x n
r
Valoarea coeficientului de corelaie este ntre -1 i 1.
O valoare apropiat de 1 arat o legtur direct puternic
O valoare apropiat de -1 arat o legtur invers puternic.
2 2
) (
) )( (

x
xy
i
i i
S
S
x x
y y x x
b =


= =

rezult
y
x
xy
S
S
r

= .
Rezult c
xy
r are acelai semn cu coeficientul de regresie pant,

.
Am obinut 980847 , 0 =
xy
r , ceea ce arat c exist o legtur direct i foarte puternic
ntre cele dou variabile analizate.
Testarea semnificaiei coeficientului de corelaie liniar se face utiliznd testul t.
Se testeaz urmtoarele ipoteze:
0 :
0
= H ( coeficientul de corelaie nu este semnificativ statistic)
0 :
1
H ( coeficientul de corelaie este semnificativ statistic).
Statistica testului urmeaz o distribuie Student cu (n-2) grade de libertate.
2
1
) (
0
2

= n
r
r
r se
r
t
xy
xy
xy
xy
.
Dac
critic calculat
t t > , respingem
0
H i acceptm
1
H , adic este semnificativ statistic.
25039 , 14 2 10
) 980847 , 0 ( 1
980847 , 0
2
calculat
=

= t
Deoarece 306 , 2 25039 , 14 > , deci avem
critic calculat
t t > rezult c vom respinge
0
H i vom
accepta
1
H ; coeficientul de corelaie este semnificativ statistic.
Raportul de corelaie dintre cele dou variabile este:

= =
2
2
) (
) (
y y
y y
SST
SSR
R
i
i
sau

= =
2
2
) (
) (
1 1
y y
y y
SST
SSE
R
i
i i

Valoarea calculat este 9808 , 0 R
Coeficientul de determinaie arat proporia din variaia total a variabilei dependente
Y, explicat de variaia variabilei independente X, deci prin modelul de regresie estimat.

= =
2
2
2
) (
) (
y y
y y
SST
SSR
R
i
i
sau

= =
2
2
2
) (
) (
1 1
y y
y y
SST
SSE
R
i
i i


f Valoarea obinut, 9621 , 0
2
R , arat c aproximativ 96% din variaia
cheltuielilor de consum (variabila Y) este explicat prin variaia venitului disponibil
(variabila X). Deoarece
2
R poate fi cel mult 1, valoarea obinut sugereaz c dreapta de
regresie estimat aproximeaz foarte bine datele observate.

Testarea semnificaiei Raportului de corelaie se face utiliznd statistica
2 , 1 ;
2
2
~ ) 2 (
1

=
n
F n
R
R
F


Cele dou ipoteze ale testului sunt:
0 :
2
0
= R H care nseamn c modelul nu este corect specificat, adic variabila X nu are
efect asupra variabilei Y.
0 :
2
1
> R H care nseamn c modelul este corect specificat, adic variabila X are efect
asupra variabilei Y.
Se compar valoarea calculat a lui F cu valoarea critic obinut din tabelele repartiiei
F. Se aplic regula de decizie: dac
2 , 1 ; calc
>
n
F F

se respinge ipoteza nul n favoarea
ipotezei alternative.
Deoarece 202
calc
F i 32 , 5
2 , 1 ;
=
n
F

se respinge H
0
i se accept H
1
, adic modelul este
corect specificat.

g S se previzioneze cheltuielile medii de consum ale unei familii, n ipoteza c venitul
disponibil este 100
0
= x .
Trebuie s estimm valoarea medie a variabilei dependente, condiionat de valorile
variabilei independente.
Suntem n situaia de a prognoza
0 0
) | ( x x X Y E + = =
Putem obine estimaii punctuale sau pe intervale de ncredere
Folosim ecuaia de regresie estimat:
i i
x bx a y + = + = 5091 , 0 4545 , 24
0

O estimaie punctual a previziunii mediei este
3645 , 75 100 5091 , 0 4545 , 24
0 0
= + = + = bx a y
0
y este un estimator al mediei condiionate ) | (
0
x X Y E = .
Cea mai bun estimaie a valorii medii reale este estimaia punctual 75,3645.
Determinarea Intervalului de ncredere pentru media de rspuns necesit
cunoaterea distribuiei i a varianei estimatorului
0
y .
Avem:
|
|

\
|

+ =

2
2
0 2
0
) (
) ( 1
) (
x x
x x
n
s y Var
i
e
.
Eroarea standard a estimatorului
0
y este
|
|

\
|

+ =

2
2
0 2
0
) (
) ( 1
) (
x x
x x
n
s y se
i
e
.
2366 , 3 4759 , 10
33000
) 170 100 (
10
1
159 , 42 ) (
2
0
= =
|
|

\
|

+ = y se
Un interval de ncredere pentru valoarea real
0 0
) | ( x x X Y E + = = este dat de
) ( ) | ( ) (
0
2 ,
2
0 0 0
2 ,
2
0
y se t y x X Y E y se t y
n n
+ =



) 2366 , 3 ( ) 306 , 2 ( 3645 , 75 ) 100 | ( ) 2366 , 3 ( ) 306 , 2 ( 3645 , 75
0
+ = x Y E
8381 , 82 ) 100 | ( 9010 , 67
0
= x Y E
Astfel, dac lum 100
0
= x n selecii repetate, 95 de intervale din 100, vor conine
valoarea real a mediei.
Dac obinem, intervale de ncredere 95% pentru fiecare X dat, vom obine ca interval de
ncredere o band de ncredere pentru funcia de regresie a populaiei.

h S se previzioneze cheltuielile de consum ale unei familii, n ipoteza c venitul
disponibil este 100.
Se dorete predicia unei valori individuale
3645 , 75 100 5091 , 0 4545 , 24
0 0
= + = + = bx a y va fi, de asemenea, cea mai bun estimaie a
valorii individuale
0 0 0
+ + = x y
Determinarea Intervalului de ncredere pentru un rspuns individual necesit
cunoaterea distribuiei i a varianei erorii de previzionare
0 0
y y .
Pentru nivelul de semnificaie fixat, ( 05 , 0 = ), se poate construi un interval de ncredere
)% 1 ( pentru predicia individual
0
y , de forma:
) ( ) (
0 0
2 ,
2
0 0 0 0
2 ,
2
0
y y se t y y y y se t y
n n
+



|
|

\
|

+ + =

2
2
0 2
0 0
) (
) ( 1
1 ) (
x x
x x
n
s y y Var
i
e
iar eroarea standard va fi:
|
|

\
|

+ + =

2
2
0 2
0 0
) (
) ( 1
1 ) (
x x
x x
n
s y y se
i
e
.
Dup efectuarea calculelor, am obinut valorile 6349 , 52 ) (
0 0
= y y Var i
255 , 7 6349 , 52 ) (
0 0
= y y se
0945 , 92 ) 100 | 6345 , 58
0 0
= x y
Trebuie remarcat faptul c se obine un interval de lungime mai mare pentru
0
y dect
pentru ) (
0
y E . Banda de ncredere este mai mic atunci cnd valoarea lui
0
x se apropie
de media de selecie x .


Raportarea rezultatelor analizei de regresie

i
y = 4545 , 24 +
i
x 5091 , 0
se = (6,4138) (0,0357) 9621 , 0
2
= R
t = (3,8128) (14,2432) 8 = df
p = (0,0051) (0,0000) 8679 , 202 = F


Estimarea parametrilor modelului n Excel

Microsoft Excel conine un instrument pentru a efectua regresii folosind MCMMP.
Selectm: Tools/ Data Analysis i apoi Regression din lista de instrumente de analiz
afiate prin comanda Data Analysis.
Ce facem dac nu apare Data Analysis?
Cutm n Excel Options, selectm Add-Ins din menu i bifm opiunea Analysis
ToolPak.


SUMMARY OUTPUT

Regression Statistics
Multiple R 0,98084737
R Square 0,96206156
Adjusted R
Square 0,95731926
Standard Error 6,49300323
Observations 10
ANOVA

df SS MS F Significance F
Regression 1 8552,72727 8552,727273 202,8679 5,75275E-07
Residual 8 337,272727 42,15909091
Total 9 8890

Coefficients
Standard
Error t Stat P-value
Lower
95%
Upper
95%
Intercept 24,45454545 6,413817299 3,8127911 0,00514 9,6642467 39,244844
X Variable1 0,509090909 0,035742806 14,243171 5,8E-07 0,4266678 0,591514




Estimarea parametrilor modelului n Eviews
Clic pe Eviews4.1.exe
Ferestra Eviews iniial conine:
-opiunile meniului principal (File, Edit, Object, View,...)
-zona alb de sub MainMenu este fereastra pentru comenzi
-aria de lucruunde Eviews afieaz ferestrele obiect pe care le creaz
Pas1. Crearea unui fiier de tip Workfile
Din meniul principal selectm File/New/Workfile.
Bifm Undated ca tip de structur dac datele sunt de tip seciune.
Introducem apoi nr.de observaii (10 n ex1). Clic OK.
EV va crea un fiier fr nume i va afia o fereastr cu domeniul observaiilor i selecia
curent (putem selecta doar o parte din date). Nu avem date , dar EV va anticipa
necesitatea de a avea
Vectorul c
Seria resid
EV poate importa date dintr-o pagin Excel. Pentru aceasta selectm:
Procs/Import/Read...Excel
Va fi deschis fereastra de dialog pentru import din Excel. Introducem numrul de serii
din fiier (2) i csua de nceput a seriilor (B2 este valoarea implicit).
Fiierul trebuie s fie compatibil Excel 97-2003, s fie nchis, iar informaiile s se
gseasc pe prima pagin a fiierului.
Pas2.Verificarea datelor
Vom crea un grup care ne permite s examinm ambele variabile.
ine apsat CTRL i selecteaz ambele variabile X i Y. Plasezi cursorul n zona albastr
i dai dublu clic. EV deschide un meniu i selectezi OPEN GROUP.
Dac datele sunt corecte se poate salva fiierul (SAVE).
Bara de titlu se schimb pentru a aprea noul nume. Noul fiier poate fi deschis cu
File/Open/Workfile.
Pas3. Formularea modelului i estimarea parametrilor
Dorim o regresie a var.dependente Y n raport cu X, folosind datele din fiier.
Selectm Procs/Make equation
Apare o fereastr de dialog pentru estimare
yi c xi sau yi xi c
Method LS, OK.
n loc de Procs/Make equation putem selecta Quick/Estimate Equation...
Se obin rezultatele. Le vom compara cu cele din Excel.
Apar coeficienii de regresie estimai, erorile standard ale estimatorilor parametrilor,
statisticile t i p-value.
Apar, de asemenea, media i abaterea standard a variabilei dependente, eroarea standard a
estimaiei, coeficientul de determinare R-Squared, statistica F i p-value asociat.
Exist i alte statistici despre care vom discuta n curnd.
Vizualizarea valorilor reziduurilor din regresie
Selectm variabila resid, apoi clic pe View, Show i OK; sau dublu clic pe resid.

S-ar putea să vă placă și