Sunteți pe pagina 1din 12

CURS ECONOMETRIE

Unitatea de învăŃare : 8
REGRESIA UNIFACTORIALĂ - partea a III-a

Cuprins:

1. Ce am învăŃat în Unitatea de învăŃare 7


2. Obiectivele UnităŃii de învăŃare 8
3. Estimarea valorilor variabilei dependente
4. Câteva considerente asupra eventualelor încălcări şi remedii vizând ipotezele modelelor de
regresie
5.Regresia simplă neliniară
6. Test de autoevaluare
7. Bibliografia UnităŃii de învăŃare 6
8. Lucrare de verificare

1. Ce am învăŃat în Unitatea de învăŃare 7

Cum să testăm validitatea unui model econometric prin ANOVA şi metoda testării
ipotezelor statistice.

2. Obiectivele UnităŃii de învăŃare 6

După studiul acestei unităŃi de învăŃare vei avea cunostinŃe despre:


1. Cum să previzionezi o nouă valoare a variabilei efect;
2. Cum să ajustezi și să controlezi variabila efect prin intervenția asupra variabilei cauză.

3. Estimarea valorilor variabilei dependente

Una dintre utilizările importante ale analizei regresiei simple liniare este să obŃinem
previzionări sau predicŃii ale variabilei dependente, condiŃionate de valorile variabilei
independente, adică să obŃinem previzionări condiŃionate.
Dacă presupunem că variabila independentă ia valoarea specificată Xn+1 şi legătura liniară
se menŃine, atunci valoarea corespunzătoare a variabilei dependente Yn+1 este:

Yn+1,i = α + βXn+1,i + εn+1,I

cu media:

µ (Yn+1/X = Xn+1) = α + βXn+i.

ecuaŃiile de mai sus sunt utilizate pentru estimarea mediei de răspuns şi pentru estimarea unui
răspuns individual. Pentru amândouă estimaŃiile putem obŃine estimaŃii punctuale sau pe
intervale de încredere.
Pentru a obŃine estimaŃii punctuale, folosim ecuaŃia de regresie liniară în eşantion:

yi = a + bxi + ei

şi atunci, înlocuind cu valoarea dată Xn+1, obŃinem:

ŷ n +1 = a + b⋅xn+1.

Construirea intervalului de încredere pentru previzionare necesită cunoaşterea distribuŃiei,


mediei şi dispersiei pentru ŷ n +1 . Variabila ŷ n +1 urmează o distribuŃie t cu (n – 2) grade de
libertate. Dispersia asociată variabilei poate fi identificată în trei cazuri şi anume:

• determinarea intervalului de încredere pentru media de răspuns, când xn+1 = x .

Ştim că:

(
ŷn+1 = y − bx + bxn+1 = y + b xn+1 − x , )
dacă xn+1 = x , atunci ŷ n +1 = y, iar estimatorul dispersiei pentru ŷ n +1 este
s e2
s 2
( ŷ n +1 ) = s (y ) =
2
.
n

Intervalul de încredere este, în acest caz:

se
ŷ n +1 ± t α / 2 , n − 2 ;
n

• determinarea intervalului de încredere pentru media de răspuns, când xn+1 ≠ x .

În acest caz:

ŷ n +1 = y + b( x n +1 − x ) ,

iar estimatorul dispersiei pentru ŷ n +1 este:

 
 
2 1 ( x − x) 2 .
s (2yˆ n +1 ) = s [y + b ( x − x ) ] = s e
2
+ n n +1
n 
n +1

 ∑ (
xi − x
2
) 
 i =1 

Intervalul de încredere pentru media de răspuns este:

ŷ n +1 ± t α / 2 , n − 2 s e
1 (
x −x
+ n n +1
)
2

n
∑ xi − x
i =1
( ) 2 ;

• determinarea intervalului de încredere pentru un răspuns individual.


În acest caz trebuie să determinăm dispersia diferenŃei yˆ n +1 − y n +1,i , adică dispersia erorii de
previzionare. Dispersia în eşantion este:
   
 2   2 
2 1 ( x − x)  2 1 ( x − x) 
s(2yˆ ) = s(2yˆ n + 1 − y n + 1, i ) = se + n n +1 + se = se2 1 + + n n +1
n + 1, i
n   n .


∑i =1
( xi − x)2 



∑i =1
( xi − x)2 

Intervalul de încredere este:

1 ( xn +1 − x ) 2
yˆ n +1,i ± tα / 2 , n − 2 s e 1 + + n
n
∑ ( xi − x ) 2 . i =1

Exemplu
Proprietarul unui minihotel dezvoltă o analiză statistică pentru determinarea
cheltuielilor cu materialele de curăŃenie (y) în funcŃie de numărul camerelor ocupate (x). El
determină ecuaŃia de regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci
mii u.m.), pe baza datelor înregistrate pentru n=14 zile:

yi = 10,8 + 3,7 xi

∑( x − x )
2
i = 26,86 x = 2,3

∑(y i
− yˆ ) 2 = 163,39

a) Proprietarul doreşte să estimeze cheltuielile pentru o zi în care are 6 camere


ocupate;

b) Proprietarul doreşte să estimeze cheltuielile medii pentru zilele în care are 6 camere
ocupate.
Dacă numărul camerelor ocupate este xn +1 = 6 , atunci:
t0,025;12 = 2,179

yˆ n +1 = 10,8 + 3,7 ⋅ 6 = 33;


t α / 2 , n − 2 = t 0.025,12 = 2,179;
163,39
se = = 3,69.
12

a) Intervalul de încredere pentru cheltuielile unei zile în care sunt 6 camere ocupate
este:
1 (6 − 2,3) 2
33 ± 2,179 ⋅ 3,69 1 + + ,
14 26.86

adică (22,89;43,11) garantat cu o probabilitate de 95%;


b) Intervalul de încredere pentru media cheltuielilor zilnice în cazul în care au 6
camere ocupate este:
1 ( 6 − 2 ,3 ) 2
33 ± 2 ,179 ⋅ 3, 69 + ,
14 26 . 86

adică (30,19;35,82), garantat cu o probabilitate de 95%.

Interval de încredere
pentru valoarea
aşteptată a lui y, fiind
Y ∧
dat xi y


y = b0+b1xi

Intervalul de încredere pentru


predicŃia unei singure observaŃii
y, fiind dat xi
Exemplu pe baza datelor din unităŃile de învăŃare precedente:

DeterminaŃi un interval de încredere (p=95%) pentru preŃul mediu al caselor de


2000 pp:
PreŃ previzionat y^i = 317,85 mii dolari

1 (x i − x) 2
ŷ n +1 ± t n -2,α/2 s e + = 317.85 ± 37.12
n ∑ (x i − x) 2

DeterminaŃi un interval de încredere (p=95%) pentru pre ul unei case de 2000 pp:

Limitele intervalului de încredere sunt: 280,66 şi 354,90, sau de la 280660 $ la


354900 $.
PreŃ previzionat y^i = 317,85 mii dolari

1 (X i − X ) 2
ŷ n +1 ± t n -1,α/2s e 1 + + = 317.85 ± 102.28
n ∑ (X i − X ) 2

Limitele intervalului de încredere sunt: 215.50 şi 420.07 sau de la 215,500$ la


420,070$

4. Câteva considerente asupra eventualelor încălcări şi remedii vizând ipotezele


modelelor de regresie

În afara ipotezelor de selecŃie aleatoare şi a variabilelor cantitative dependente,


discutate anterior, modelul liniar de regresie are trei ipoteze adiŃionale:
1) legătura dintre Y şi X este „ cu adevărat” liniară: µ(Y|X) = β + β X;
o 1
2
2) termenii de eroare ε au toŃi aceeaşi dispersie σ , aşa că mărimea erorilor nu este influenŃată
de X.
3) termenii de eroare ε au o distribuŃie normală.
Ipotezele 2 şi 3 sunt cunoscute din ANOVA.
Un simplu grafic poate detecta de regulă eşecul primei ipoteze. Printr-o simplă
vizualizare a unei diagrame scatter a celor două variabile se poate determina forma curbilinie
a legăturii. Mai mult, reprezentarea reziduurilor pe axa OX poate detecta mai subtil forma
curbilinie a legăturii. Folosind fereastra de comandă în SPSS:

pe calea: ANALYZE / REGRESSION, aceasta va salva valorile reziduale (fie


standardizate sau nu) pentru o analiză mai atentă a comportamentului aparent a lui ε.
Diagnosticul ipotezelor 2 şi 3 foloseşte reziduurile de tip Student care sunt reziduuri
nestandardizate împărŃite la MSE.

Ipoteza 2 poate fi verificată grafic prin examinarea graficului reziduurilor pentru a


verifica dacă există o tendinŃă spre o parte (stânga sau dreapta). Un test formal, similar cu al
lui Levene, despre care am vorbit în capitolul anterior, este de a salva coloana reziduurilor, şi
apoi de a crea o nouă coloană cu valorile lor absolute. Se face o analiză de regresie a valorilor
absolute ale reziduurilor în raport cu valorile variabilei independente X. Panta liniei de
regresie nu trebuie să difere semnificativ de 0.
 

5,00000


Unstandardized Residual


2,50000


0,00000
Unstandardized Residual = 0,00 + -0,00 * Doza
R-Square = 0,00

-2,50000



 

-5,00000


10 15 20 25 30

Doza

Ipoteza 3 poate fi de asemenea verificată folosind reziduurile, prin aplicarea testului


Kolmogorov-Smirnov pentru testarea ipotezei nule a normalităŃii, ca în exemplul următor ce
analizează legătura dintre cifra de afaceri și cheltuielile de publicitate.

Cifra_afaceri = -17,04 + 4,38 * chet_pub


200,00
R-Square = 0,89

Cifra_afaceri


 
 
100,00 

 
 
 



 
 




0,00

0,00 10,00 20,00 30,00 40,00 50,00

che t_pub

Descriptive Statistics

Mean Std. Deviation N


Cifra_afaceri 72,2778 70,10792 36
chet_pub 20,3889 15,10587 36
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,944a ,891 ,888 23,48381
a. Predictors: (Constant), chet_pub

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 153278,6 1 153278,583 277,936 ,000a
Residual 18750,639 34 551,489
Total 172029,2 35
a. Predictors: (Constant), chet_pub
b. Dependent Variable: Cifra_afaceri

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -17,043 6,635 -2,569 ,015
chet_pub 4,381 ,263 ,944 16,671 ,000
a. Dependent Variable: Cifra_afaceri

Cifra de afaceri= -17,043+4,381 Cheltuieli publicitate

50,00000

Unsta ndardiz ed Residual

 
25,00000

 
 

 
 
  
0,00000  
   
  Residual =
Unstandardized 0,00 + -0,00 * chet_pub
 
R-Square = 0,00  

-25,00000



-50,00000 

0,00 10,00 20,00 30,00 40,00 50,00

che t_pub
One-Sample Kolmogorov-Smirnov Test

Standardized
Residual
N 36
Normal Parameters a,b Mean ,0000000
Std. Deviation ,98561076
Most Extreme Absolute ,156
Differences Positive ,156
Negative -,142
Kolmogorov-Smirnov Z ,937
Asymp. Sig. (2-tailed) ,344
a. Test distribution is Normal.
b. Calculated from data.

5. Regresia simplă neliniară

În cazul legăturii simple pe baza reprezentării grafice pot fi emise ipoteze privind
forma neliniară a dependenŃei rezultativei Y de factorul înregistrat X.
Testarea acestor ipoteze poate fi realizată, pe baza metodei celor mai mici pătrate.
♦ În cazul în care linia este apreciată ca o parabolă de gradul doi, vom avea:
Yx = a 0 + a1x + a 2 x 2 + ε
) ) )
∑ (y − a − a1x − a 2 x 2 ) = 0 , se va ajunge la sistemul de ecuaŃii
2
Plecând de la condiŃia 0

normale:
) ) ) )
 na 0 + a 1 ∑ x + a 2 ∑ x 2 = ∑ y
 ) ) ) )
a 0 ∑ x + a 1 ∑ x + a 2 ∑ x = ∑ x y
2 3

) ) ) 2)
a 0 ∑ x + a 1 ∑ x + a 2 ∑ x = ∑ x y
2 3 4

pe baza căruia se vor determina coeficien ii modelului de regresie.

♦ În cazul în care linia este apreciată ca o hiperbolă, vom avea:


a1
Yx = a 0 + +ε
x
Determinarea celor doi parametri impune rezolvarea sistemului de ecuaŃii normale:

 1
 na 0 + a 1 ∑ = ∑ y
 x
 1 1 1
 a 0 ∑ + a1 ∑ =∑ y
 x x2 x
♦ În cazul unei legături de tip logaritmic:
Yx = a 0 + a1 lg x,
trebuie estimaŃi cei doi parametri, prin rezolvarea sistemului de ecuaŃii normale:
na 0 + a 1 ∑ lg x = ∑ y

a 0 ∑ lg x + a 1 ∑ (lg x ) 2 = ∑ y ⋅ lg x

♦ În cazul unei legături de tip exponenŃial:


Yx = a 0a 1x ,
În practică, pentru facilitarea determinării celor doi parametri se logaritmează expresia
funcŃiei de estimaŃie, respectiv:
lg y = lg a 0 + lg a 1 ,
cu sistemul de ecuaŃii normale (din nou cu utilizarea metodei celor mai mici pătrate):
n lg a 0 + lg a 1 ∑ x = ∑ lg y

lg a 0 ∑ x + lg a 1 ∑ x 2 = ∑ x lg y

6. Test de autoevaluare

Pe baza exemplelor anterioare, construiŃi intervale de încredere pentru previzionarea valorilor


variabilei dependente, dând valori ale variabilei independente din afara setului de observaŃii
empirice date.

7. Bibliografia UnităŃii de învăŃare 8


 Peter E. Kennedy - A Guide to Econometrics, 5th Edition, MIT Press 2004

 I.-G. Niculescu-Aron, Miruna Mazurencu-Marinescu - Metode econometrice pentru


afaceri, Ed. ASE, 2007
 V.Voineagu, E.łiŃan, R.Şerban, S.GhiŃă, D.Todose, C.Boboc, D.Pele – Teorie şi
practică econometrică, Ed; Meteor Press, 2007
 T. Andrei, Statistică şi econometrie, Ed. Economică, 2003

8. Lucrare de verificare
1. În urma modelării liniare a unei legături între numărul de familii, suprafaŃa comercială a
unui magazin (exprimată în mp.) din diferite cartiere şi cifra de afaceri (în RON) s-au obŃinut
rezultatele:
Regression Statistics
Multiple R 0,93
R Square
Standard Error 278,50
Observations 13 Fcritic=4,1
Standard P- Upper
Coefficients Error value Lower 95% 95%
Intercept 375,02 176,46 0,06 -18,16 768,20
Nr. De fam 14,96 5,53 0,02 2,63
Suprafat com 42,45 10,65 0,00
RăspundeŃi la următoarele întrebări:
1) În ce proporŃie explică modelul variaŃia cifrei de afaceri?
2) Modelul este valid? (explicaŃi folosind testul F).
3) Parametrii sunt semnificativ diferiti de 0? Motivati.
4) Construiti intervalul de incredere la P=0,95 pentru coeficientul variabilei
“Suprafata com”
5) Interpretati rezultatele modelării din punct de vedere economic.
2. Un agent al unei agenŃii imobiliare dintr-un cartier ar dori să poată previziona costul de
închiriere lunar bazându-se pe mărimea apartamentului de închiriat exprimată prin suprafaŃa
în mp. Un eşantion de 7 apartamente a fost selectat şi au fost extrase următoarele date:

Apartamentul Chiria media lunară (u.m.) Mărimea apartamentului în mp


1 95 85
2 160 145
3 120 108
4 150 123
5 95 70
6 115 95
7 165 130
6) reprezentaŃi grafic datele;
7) utilizând metoda celor mai mici pătrate determinaŃii coeficienŃii modelului de
regresie;
8) previzionaŃi chiria medie lunară pentru un apartament cu o suprafaŃă de 100 mp;
9) ca şi consultant imobiliar, sunteŃi rugat să-i sfătuiŃi pe doi dintre prietenii
dumneavoastră care ar dori să inchirieze în această zonă, şi au găsit un apartament
de 100mp cu o chirie lunară de 127 şi respectiv unul 120mp cu o chirie lunară de
142 u.m ce decizie să ia.