Sunteți pe pagina 1din 11

CURS ECONOMETRIE

Unitatea de nvare: 6
REGRESIA UNIFACTORIAL partea I

Cuprins:

1. Ce am nvat n Unitatea de nvare 5


2. Obiectivele Unitii de nvare 6
3. Noiuni fundamentale de algebr i terminologie
4. Estimarea parametrilor modelului de regresie
5. Test de autoevaluare rezolvat
6. Bibliografia Unitii de nvare 6
7. Lucrare de verificare

1. Ce am nvat n Unitatea de nvare 5

n unitatea de nvare anterioar s-a prezentat Analiza dispersiei (engl. Analysis of


Variance, sau pe scurt ANOVA). Pentru a aplica ANOVA avem nevoie de o variabil
cantitativ dependent i de o variabil calitativ independent sau factor. (Variabila
dependent trebuie s ndeplineasc mai multe condiii, printre care s fie normal distribuit).
n multe situaii ns, variabila independent este cantitativ. De exemplu, s considerm o
situaie n care este necesar s studiem legtura dintre timpul pn la adormire de diferite doze
de sedativ. S le considerm variabile calitative: doze mici, medii i mari. Totui, studiile
serioase presupun msurtori precise ale acestor doze, exprimate n miligrame de substan.
Cum se poate atunci descrie legtura dintre variabila dependent TIMP-ADORMIRE
de variabila independent DOZ? Transformare variabilei independente ntr-una cantitativ
va permite accesul la o tehnic cu valoare informaional nsemnat, numit regresie liniar
(engl. simple linear regression).

2. Obiectivele Unitii de nvare 6

Dup studiul acestei uniti de nvare vei avea cunotine despre:


1. cum s modelezi legtura dintre dou variabile;
2. cum s nelegi relaiile de dependen dintre variabile.

3. Noiuni fundamentale de algebr i terminologie

Matematic, o dreapt este reprezentat printr-o ecuaie de tipul:


Y = o + 1 X
unde o este ordonata la origine sau 'intercept' i 1 este panta. Ordonata la origine este
valoarea lui Y cnd X este 0. Pe un grafic, cu Y (pe axa vertical) i X (pe axa orizontal), o
este nlimea la care dreapta intersecteaz axa vertical. Panta cuantific modificarea lui Y,
dac X crete cu o unitate. De exemplu, dac X crete de la 10 la 11, Y ar trebui s creasc cu
valoarea lui 1. Dac se cunosc valorile a dou puncte de pe linie, panta se determin astfel:

1 = (Y2 - Y1) / (X2 - X1).

n ecuaia unei drepte, fiecare punct (X,Y) cade exact pe dreapt. n statistic i
econometrie, lucrurile nu stau aa de precis sau curat! ntr-adevr, poate exista o relaie de
baz ntre X (variabila independent) i Y (variabila dependent), dar alte variabile sau erorile
de msurare pot perturba aceast relaie. n statistic i econometrie, ecuaia devine:
Y = o + 1 X +
unde termenul (variabil aleatoare) reprezint reziduurile sau erorile, care mping
valorile lui Y deasupra sau sub linia dreapt dat de primii doi termeni din partea dreapt a
ecuaiei.
O ipotez de baz n analiza de regresie ar fi c reziduurile sunt normal distribuite
i au media 0 (altfel, se ajusteaz ordonata la origine).
Aceasta duce la urmtorul model statistic pentru medie (sau valoare ateptat) a lui Y
pentru o valoare dat a lui X.
E(Y|X) = (Y|X) = valoarea ateptat a lui Y pentru un X dat = o + 1 X.
Valoarea lui Y difer de valoarea ateptat cu . Funcia (Y|X) se numete funcie de
regresie. Intuitiv, aceasta reprezint legtura fundamental dintre Y i X. Pentru simplificare,
pe parcursul acestui capitol se va considera legtura ca fiind liniar. De aceea va fi denumit
regresie liniar simpl. Valorile o i 1 se numesc parametrii de regresie. Acestea sunt de
fapt adevratele valori care descriu legtura din interiorul populaiei. n realitate, o i 1 nu se
cunosc i trebuie determinate pe baza datelor de sondaj.
Reprezentarea grafic a datelor empirice
Se consider un set n observaii. Fiecare observaie este de fapt o pereche de valori: o
valoare pentru X i o valoare corespunztoare pentru Y. Reprezentarea datelor se face n
perechi:
X1 Y1
X2 Y2
..

Xn Yn

Acesta este i modul de organizare a datelor n Excel i SPSS, o coloan pentru X i o


coloan pentru Y.
O modalitate simpl de a vizualiza dac X i Y au vreo legtur, precum i natura
acestei legturi este de a reprezenta grafic punctele Yi i Xi. Acest tip de grafic se numete
diagram de tip scatter (engl. scattergram sau scatterplot), deoarece arat mprtierea
datelor de-a lungul liniei de regresie.

Exemplu: Doza de sedativ i timpul de adormire


Se consider un set de date imaginare, n care 10 subieci umani primesc o doz
de sedativ. Att timpul de adormire ct i doza n miligrame sunt nregistrate. Scopul
studiului este de a cuantifica efectele sedativului, mai precis de a cuantifica efectul
dozei de sedativ asupra timpului de adormire. Datele sunt:
Subiect Doz Timp Subiect Doz Timp
1 10 50 6 20 45
2 10 60 7 25 30
3 15 45 8 25 40
4 15 50 9 30 35
5 20 38 10 30 25

Datele sunt reprezentate mai jos sub forma unei diagrame de tip scatter. Examinnd
graficul se poate constata c timpul de adormire scade pe msura creterii dozei, legtura fiind
liniar. Folosind o rigl i fcnd cteva operaii aritmetice simple, putem determina panta
dreptei de regresie ca fiind -1.25, adic creterea dozei de sedativ cu un miligram reduce
timpul de adormire cu 1.25 minute.
Examinnd
graficul suntem
interesai de dou lucruri.
Primul: exist vreo
legtur ntre Y
(variabila dependent)
i X (variabila

independent)? Dac Y i X nu sunt corelate, nu s-ar observa nici o modificare sistematic a


lui Y pe msur ce X trece de la valori mici la valori mari, adic panta ar fi 0. Dac panta nu
este zero, atunci legtura poate fi direct sau invers. n cazul unei legturi directe, Y crete
(sau descrete) pe msur ce X crete (sau descrete). Al doilea: trebuie cuantificat natura
legturii prin estimarea pantei i a termenului liber, care descriu funcia de regresie.

Linii de
regresie cu a)
pant pozitiv
b) pant negativ
c) pant egal cu
zero

4. Estimarea parametrilor modelului de regresie

Trebuie s determinm buni estimatori ai parametrilor modelului de regresie. Pentru


aceasta se va folosi o filozofie a estimrii numit metoda celor mai mici ptrate (engl.
ordinary least squares method, OLSM), care se afl att la baza analizei de regresie ct i a
ANOVA. S presupunem c bo i b1 sunt estimaii ale adevratelor valori o i 1 . n acest caz
se obine o estimaie a dreptei de regresie: Y = bo + b1 X.
Folosind aceast expresie se obin valorile teoretice pentru fiecare Yi din setul de date:
Yi* = bo + b1 Xi
Valorile observate Yi vor diferi de valorile teoretice Y1i* din dou motive: 1) b este
diferit de i 2) nu se cunoate. Totui b o i b1 ar trebui s aib acele valori astfel nct Y i* s
fie ct mai aproape de Yi. Exist multe definiii matematice ale expresiei ct mai aproape
de. Totui, cea mai adecvat i cel mai uor de implementat este suma ptratelor erorilor,
notat internaional cu SSE (engl. sum of squared errors), care are urmtoarea expresie i
care trebuie s tind ctre minim:

Astfel, determinarea
parametrilor se realizeaz prin minimizarea funciei de dou variabile. Cu ajutorul derivatelor
se pot determina relativ uor expresiile pentru bo i b21 . Relaiile3 de calcul se regsesc mai jos,
ns trebuie menionat c att calculul bo i b1 ct i a SSE se realizeaz, de regul, cu ajutorul
computerului.

b1
Y X
i i nY X
; b0 Y b1 X
X i
2
nX 2

boi b1 sunt estimatori nedeplasai ai lui o i 1.

Exemplu: continuare
Pentru datele din exemplul de mai sus:
n = 10 X = 200 Y = 418 XY =7735 X 2= 4500 care se pot calcula ntr-un
tabel separat.
De unde,
1 rezult,
Adesea, n loccei
demai buni
* apare ^! estimatori: b1=-1.25 i bo=66.8.
2
Pentru a obine proprietile dorite ale estimatorilor modelului de regresie, se fac, de obicei, 6 ipoteze standard
pentru populaia general, dou dintre acestea fiind deja discutate la nceputul acestei uniti de nvare.
nn
n n

i 1
Yi
i 1
X i
2
X i X i Yi
i 1 i 1 Y b X
3 b
0 2 1
n
n
n X i X i
2

i 1 i 1
n
n
n n
n X i Yi X i Yi X i Yi n X Y
i 1 i 1 i 1 cov( X , Y )
b1 i 1 2 n

n s x2

n
n X i X i
2 X i
2
n X 2

i 1 i 1 i 1

s 2

( Xi X ) 2

x
n 1
O diagram de tip scatter cu linia de regresie suprapus se poate vizualiza n figura de
mai jos.

Linear Regression

60

50


40

30

Timp = 66,80 + -1,25 * Doza


R-Square = 0,80

10 15 20 25 30

Doza

Acest lucru se poate realiza n EXCEL:


n prima etap se introduc datele, pe coloan. Apoi, din meniu, se selecteaz Data
Analysis, Regression, aprnd urmtoarea fereastr de dialog:
n Input Y Range se ncarc valorile variabilei dependente, n cazul nostru timpul, iar n
Input X Range se ncarc valorile variabilei independente, n cazul nostru doza.
Se selecteaz o singur celul (! Atenie, n afara ariei ncrcate cu date) pentru Output
Range, se bifeaz Confidence Level 95% i Residuals, pentru a calcula i afia valorile
variabilei reziduale.
Output-ul generat este afiat n SUMMARY OUTPUT:

Eroarea
Coeficientul de
standard
SUMMARY OUTPUT determinaie, R2

Regression Statistics
Multiple R 0,896708
R Square 0,804086
Termenul liber i
Indic validitatea
Adjusted R Square coeficientul
0,779597 de
Standard Error 4,877884modelului
regresie
Observations 10

ANOVA
Significance
df SS MS F F
Regression 1 781,25 781,25 32,83425 0,000439
Residual 8 190,35 23,79375
Total 9 971,6

Coefficient Standard Upper Lower Upper


s Error t Stat P-value Lower 95% 95% 95,0% 95,0%
Intercept 66,8 4,627567 14,43523 5,19E-07 56,12881 77,47119 56,12881 77,47119
X Variable 1 -1,25 0,218146 -5,73012 0,000439 -1,75304 -0,74696 -1,75304 -0,74696

RESIDUAL OUTPUT

Observation Predicted Y Residuals


1 54,3 -4,3
2 54,3 5,7
3 48,05 -3,05
4 48,05 1,95
5 41,8 -3,8
6 41,8 3,2
7 35,55 -5,55
8 35,55 4,45
9 29,3 5,7
10 29,3 -4,3
S explicitm output-ul:
Coeficientul b1 ne indic modificarea lui y la modificarea cu o unitate a
lui x;
Termenul liber b0 este punctul n care dreapta de regresie intersecteaz
axa OY, adesea acesta nu are semnificaie economic;
Eroarea standard: este bine s fie ct mai apropiat de 0, dac ar fi 0, ar nsemna c
toate punctele observate se afl pe dreapta de regresie;
Coeficientul de determinaie: ne indic n ce msur modelul liniar de regresie explic
dependena dintre variabile.

Modelul se scrie:
timp=66,8-1,25* doza
avnd urmtoarea interpretare: creterea dozei de sedativ cu un miligram reduce
timpul de adormire cu 1.25 minute. Modelul este valid din punct de vedere statistic,
Significance F=0,000439 < 0,05, cu un coeficient de determinaie R 2=80,40%, ceea ce
nseamn c doza de sedativ explic ntr-o proporie de aproximativ 80% timpul de adormire,
restul fiind determinat de ali factori.

5. Test de autoevaluare rezolvat

Un agent imobiliar din S.U.A. dorete s examineze legtura dintre preul de vnzare
al caselor i suprafaa acestora exprimat n sq feet (picioare ptrate 4). Un eantion aleator de
10 proprieti a fost selectat, rezultatele fiind prezentate n urmtorul tabel:

Pretul caselor n mii Suprafata (sq feet)


dolari (X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550

4
405 2350
1 square foot )(picioare ptrate) = 0.09290304 metri ptrai
324 2450
319 1425
255 1700
Se cere s se modeleze econometric legtura dintre variabile i s se interpreteze
rezultatele obinute.
Rezolvare:
Pasul 1: Se introduc datele ntr-o foaie de calcul n Excel, ca n figura urmtoare:

Excel Output

SSR 18934.9348
Regression Statistics R2 , 0.58082
Pasul 2: Se obine urmrul output: SST 32600.5000
Multiple R 0.76211
R Square R
Adjusted 0.58082
Square 0.52842 58,082% din variaia preului caselor
Standard 41.3303
este explicat de variaia suprafeei
Error
Observation 2
exprimat n picioare sq feet
s 10
SS

ANOVA Significa
df MS
18934.9 F
11.08 nce F
Regression 1 18934.9348 348 48 0.01039
1708.19
Residual 8 13665.5652 57
Total 9 32600.5000
P-
Coeffici Standard valu Lower Upper
ents
98.2483 Error t Stat e
0.12 95% 95%
232.07
Intercept 3 58.03348 1.69296 892
0.01 -35.57720 386
0.1858
Square Feet 0.10977 0.03297 3.32938 039 0.03374 0
Model: scatter plot i dreapta de regresie

panta
= 0.10977

Intercept
=Pasul
98.248
3: Se scrie modelul econometric:

pretul casei 98.24833 0.10977 (square feet)

Pasul 4: Interpretarea rezultatelor:

Coeficientul b1 = 0.10977 arat c preul mediu al unei locuine crete n medie cu


0.10977(1000$) = 109.77$ pentru fiecare picior ptrat adiional. Interpretarea termenului liber
(intercept) nu are sens economic n acest exemplu, nicio cas neavnd suprafa 0.
Coeficientul de determinaie este de 58,082%, modelul fiind valid (F
significance=0,01039<0,05).
6. Bibliografia Unitii de nvare 6

Peter E. Kennedy - A Guide to Econometrics, 5th Edition, MIT Press 2004

I.-G. Niculescu-Aron, Miruna Mazurencu-Marinescu - Metode econometrice pentru


afaceri, Ed. ASE, 2007
V.Voineagu, E.ian, R.erban, S.Ghi, D.Todose, C.Boboc, D.Pele Teorie i
practic econometric, Ed; Meteor Press, 2007
T. Andrei, Statistic i econometrie, Ed. Economic, 2003

7. Lucrare de verificare

Schiai modele econometrice adecvate urmtoarelor spee:


1. Un distribuitor regional de materiale de construcie dorete s-i estimeze vnzrile pe
baza numrului de permise de construcie eliberate anul anterior;
2. Preedintele companiei Northern Household Goods dorete s previzioneze vnzrile
totale n noile sale magazine; din zonele vizate cu venit ridicat per gospodrie.