Documente Academic
Documente Profesional
Documente Cultură
Unitatea de nvare: 6
REGRESIA UNIFACTORIAL partea I
Cuprins:
n ecuaia unei drepte, fiecare punct (X,Y) cade exact pe dreapt. n statistic i
econometrie, lucrurile nu stau aa de precis sau curat! ntr-adevr, poate exista o relaie de
baz ntre X (variabila independent) i Y (variabila dependent), dar alte variabile sau erorile
de msurare pot perturba aceast relaie. n statistic i econometrie, ecuaia devine:
Y = o + 1 X +
unde termenul (variabil aleatoare) reprezint reziduurile sau erorile, care mping
valorile lui Y deasupra sau sub linia dreapt dat de primii doi termeni din partea dreapt a
ecuaiei.
O ipotez de baz n analiza de regresie ar fi c reziduurile sunt normal distribuite
i au media 0 (altfel, se ajusteaz ordonata la origine).
Aceasta duce la urmtorul model statistic pentru medie (sau valoare ateptat) a lui Y
pentru o valoare dat a lui X.
E(Y|X) = (Y|X) = valoarea ateptat a lui Y pentru un X dat = o + 1 X.
Valoarea lui Y difer de valoarea ateptat cu . Funcia (Y|X) se numete funcie de
regresie. Intuitiv, aceasta reprezint legtura fundamental dintre Y i X. Pentru simplificare,
pe parcursul acestui capitol se va considera legtura ca fiind liniar. De aceea va fi denumit
regresie liniar simpl. Valorile o i 1 se numesc parametrii de regresie. Acestea sunt de
fapt adevratele valori care descriu legtura din interiorul populaiei. n realitate, o i 1 nu se
cunosc i trebuie determinate pe baza datelor de sondaj.
Reprezentarea grafic a datelor empirice
Se consider un set n observaii. Fiecare observaie este de fapt o pereche de valori: o
valoare pentru X i o valoare corespunztoare pentru Y. Reprezentarea datelor se face n
perechi:
X1 Y1
X2 Y2
..
Xn Yn
Datele sunt reprezentate mai jos sub forma unei diagrame de tip scatter. Examinnd
graficul se poate constata c timpul de adormire scade pe msura creterii dozei, legtura fiind
liniar. Folosind o rigl i fcnd cteva operaii aritmetice simple, putem determina panta
dreptei de regresie ca fiind -1.25, adic creterea dozei de sedativ cu un miligram reduce
timpul de adormire cu 1.25 minute.
Examinnd
graficul suntem
interesai de dou lucruri.
Primul: exist vreo
legtur ntre Y
(variabila dependent)
i X (variabila
Linii de
regresie cu a)
pant pozitiv
b) pant negativ
c) pant egal cu
zero
Astfel, determinarea
parametrilor se realizeaz prin minimizarea funciei de dou variabile. Cu ajutorul derivatelor
se pot determina relativ uor expresiile pentru bo i b21 . Relaiile3 de calcul se regsesc mai jos,
ns trebuie menionat c att calculul bo i b1 ct i a SSE se realizeaz, de regul, cu ajutorul
computerului.
b1
Y X
i i nY X
; b0 Y b1 X
X i
2
nX 2
Exemplu: continuare
Pentru datele din exemplul de mai sus:
n = 10 X = 200 Y = 418 XY =7735 X 2= 4500 care se pot calcula ntr-un
tabel separat.
De unde,
1 rezult,
Adesea, n loccei
demai buni
* apare ^! estimatori: b1=-1.25 i bo=66.8.
2
Pentru a obine proprietile dorite ale estimatorilor modelului de regresie, se fac, de obicei, 6 ipoteze standard
pentru populaia general, dou dintre acestea fiind deja discutate la nceputul acestei uniti de nvare.
nn
n n
i 1
Yi
i 1
X i
2
X i X i Yi
i 1 i 1 Y b X
3 b
0 2 1
n
n
n X i X i
2
i 1 i 1
n
n
n n
n X i Yi X i Yi X i Yi n X Y
i 1 i 1 i 1 cov( X , Y )
b1 i 1 2 n
n s x2
n
n X i X i
2 X i
2
n X 2
i 1 i 1 i 1
s 2
( Xi X ) 2
x
n 1
O diagram de tip scatter cu linia de regresie suprapus se poate vizualiza n figura de
mai jos.
Linear Regression
60
50
40
30
10 15 20 25 30
Doza
Eroarea
Coeficientul de
standard
SUMMARY OUTPUT determinaie, R2
Regression Statistics
Multiple R 0,896708
R Square 0,804086
Termenul liber i
Indic validitatea
Adjusted R Square coeficientul
0,779597 de
Standard Error 4,877884modelului
regresie
Observations 10
ANOVA
Significance
df SS MS F F
Regression 1 781,25 781,25 32,83425 0,000439
Residual 8 190,35 23,79375
Total 9 971,6
RESIDUAL OUTPUT
Modelul se scrie:
timp=66,8-1,25* doza
avnd urmtoarea interpretare: creterea dozei de sedativ cu un miligram reduce
timpul de adormire cu 1.25 minute. Modelul este valid din punct de vedere statistic,
Significance F=0,000439 < 0,05, cu un coeficient de determinaie R 2=80,40%, ceea ce
nseamn c doza de sedativ explic ntr-o proporie de aproximativ 80% timpul de adormire,
restul fiind determinat de ali factori.
Un agent imobiliar din S.U.A. dorete s examineze legtura dintre preul de vnzare
al caselor i suprafaa acestora exprimat n sq feet (picioare ptrate 4). Un eantion aleator de
10 proprieti a fost selectat, rezultatele fiind prezentate n urmtorul tabel:
4
405 2350
1 square foot )(picioare ptrate) = 0.09290304 metri ptrai
324 2450
319 1425
255 1700
Se cere s se modeleze econometric legtura dintre variabile i s se interpreteze
rezultatele obinute.
Rezolvare:
Pasul 1: Se introduc datele ntr-o foaie de calcul n Excel, ca n figura urmtoare:
Excel Output
SSR 18934.9348
Regression Statistics R2 , 0.58082
Pasul 2: Se obine urmrul output: SST 32600.5000
Multiple R 0.76211
R Square R
Adjusted 0.58082
Square 0.52842 58,082% din variaia preului caselor
Standard 41.3303
este explicat de variaia suprafeei
Error
Observation 2
exprimat n picioare sq feet
s 10
SS
ANOVA Significa
df MS
18934.9 F
11.08 nce F
Regression 1 18934.9348 348 48 0.01039
1708.19
Residual 8 13665.5652 57
Total 9 32600.5000
P-
Coeffici Standard valu Lower Upper
ents
98.2483 Error t Stat e
0.12 95% 95%
232.07
Intercept 3 58.03348 1.69296 892
0.01 -35.57720 386
0.1858
Square Feet 0.10977 0.03297 3.32938 039 0.03374 0
Model: scatter plot i dreapta de regresie
panta
= 0.10977
Intercept
=Pasul
98.248
3: Se scrie modelul econometric:
7. Lucrare de verificare