parametri estimai, ajustai).
Estimarea parametrilor reprezint modalitatea de exprimare a relaiilor dintre variabile n cazul
modelelor econometrice.
Estimarea parametrilor se realizeaz cu ajutorul seriilor de date i al funciilor de regresie ce descriu
fenomenele economice pe care le analizm. Cea mai simpl form a funciei de regresie este cea liniar, dat
de relaia :
i i i
u x b a y + + =
unde iindexeaz observaiile. Acestea pot fi diferite uniti statistice observate n acelai moment de timp,
caz n care modelul este de tip cross section sau putem avea aceeai unitate observat la momente diferite
de timp, ceea ce ne d o serie de timp sau cronologic.
Abaterea u
i
(perturbaia sau variabila rezidual) este o variabil aleatoare care urmeaz o lege de
distribuie normal. Termenul de variabil aleatoare se refer la faptul c aceste elemente perturb relaiile
deterministe dintre variabile, transformndu-le n relaii de tip stocastic.
Abaterea u
i
sintetizeaz ansamblul informaiilor neincluse n model.
Intercept (termenul constant)
Variabila de perturbaie
(rezidual)
Variabila independent
(explicativ, factor)
Slope (panta dreptei de regresie )
Variabila dependent
(rspuns, efect)
Modelul liniar unifactorial
5
Totodat, u
i
msoar diferena dintre valorile reale (observate) ale lui y
i
i valorile estimate prin
model.
Termenul u
i
grupeaz trei tipuri de erori, Bourbonnais [1998]:
eroare de specificare, datorit faptului c am inclus n model doar o variabil explicativ, nu toi
factorii care ar putea influena variabila endogen, exist variabile independente omise din model;
De exemplu: cererea = a
+ b pre + u
- dac modelul este corect specificat, modelul ar include aceste variabile;
- unele relaii de dependen dintre variabile nu sunt cunoscute;
- unele date nu sunt disponibile;
- n evoluia variabilei dependente pot interveni evenimente ce nu au loc n mod regulat greve,
cataclisme, etc.
eroare de de observare (msurare) a variabilei dependente dac datele nu au fost exact msurate
De exemplu: cererea = a
+ b pre + u
- nivelul cererii nu poate fi msurat cu exactitate i de aceea se folosesc estimatori ai cererii - u
include diferena dintre cererea real i cea estimat
eroare de eantionare, datorat fluctuaiilor ce pot s apar de la un eantion la altul n privina
observaiilor i deci i a estimaiilor; utilizarea de eantioane diferite conduce la rezultate diferite n
ceea ce privete valoarea calculat a parametrilor.
4.2. Ipoteze fundamentale asupra modelului
nainte de a estima parametrii se emit ipoteze cu privire la variabilele din model.
x este o variabil economic, la fel ca i y. ncercm s modelm fenomenul descris de valorile
observate
i
y i condiionat de realizrile
i
x , de asemenea observate n eantion.
Pentru a putea determina parametrii, este necesar respectarea unor ipoteze de lucru, cum ar fi: forma
funciei de regresie trebuie s fie corect; valorile variabilelor x, y trebuie s fie fr erori de observare;
media variabilei aleatoare s fie nul, etc.
Ipotezele asupra modelului sunt detaliate mai jos, fr a detalia ns i procedurile care permit
testarea lor.
Ipoteza de liniaritate: modelul este liniar n x
Modelul este liniar n raport cu
i
x sau o transformare a lui
i
x (logaritm, inversiune, etc.).
Relaia dintre
i
x i
i
y este liniar, de forma
i i i
u x b a y + + =
Ipoteze asupra variabilelor X i Y:
-
i
x i
i
y reprezint valori numerice ale variabilelor x i y rezultate prin observarea statistic,
neafectate de erori sistematice;
-
i
y , variabila endogen este aleatoare, pentru c este funcie de u ; Modelul devine deci
aleator prin intermediul lui
i
u
-
i
x , variabila explicativ, este considerat ca fiind o variabil determinist n model,
nealeatoare; Termenul
i
x nu este deci aleator, ci determinist.
Ipoteze asupra erorilor
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
H
1
: ( ) 0 =
i
u M
Variabila rezidual este de medie nul, ceea ce nseamn c ansamblul factorilor lui
i
y care nu au
fost reinui n model este de speran matematic nul. Astfel scris:
i i i
x b a x y M + = ) / (
Cum
i
y i
i
x reprezint valori numerice observate fr erori, sperana condiional considerat mai
sus se reduce la:
i i
x b a y M + = ) (
H
2
: ( ) | |
2 2
= =
i i
u M u D
( ) ( ) | | | |
2 2 2
i
u i i i i
u M u M u M u D = = = ;
Presupunem c variana perturbaiilor este constant, indiferent de t, deci procesul este staionar Este
cunoscut ca ipoteza de homoscedasticitate a perturbaiilor (variabilele prezente n model sunt egal
mprtiate). Intuitiv, considerm c amploarea erorilor, deci aproximaia efectuat de model este
constant n raport cu t. n caz contrar, fenomenul se numete heteroscedasticitate.
H
3
: ( ) 0 , cov
'
=
i i
u u
Se presupune deci independena erorilor. Covariana perturbaiilor fiind nul, nseamn c dou erori
cu privire la dou observaii diferite i i i sunt independente ntre ele.
( ) 0 ,
'
=
i i
u u M deoarece ( ) ( )
' i i
u M u M =
H
4
: ( ) 0 , cov =
i i
u x
Se presupune deci c perturbaiile sunt independente n raport cu variabila explicativ.
H
5
: ( ), , 0
2
u
i
Ipoteza de normalitate a erorilor permite efectuarea unor teste asupra modelului. Se datoreaz
teoremei limit-central
1
.
Ipotezele de normalitate i homoscedasticitate asupra erorii se pot vizualiza n reprezentarea
tridimensional de mai jos, unde axa spaial este ( ) u f z = . Valorile z sunt normal distribuite n jurul
dreptei de regresie. Pentru fiecare valoare x, dispersia n jurul dreptei de regresie este constant.
Ipoteze asupra variabilei exogene x
- Presupunem c, atunci cnd T este foarte mare, primele momente empirice ale lui X sunt finite:
1
Nu este necesar s presupunem normalitatea componentelor lui
i
u , ci doar un numr mare de factori independeni i identic
distribuii ntre care exist o relaie de tip aditiv.
Modelul liniar unifactorial
7
- media empiric este finit:
=
T
t
t
T
x x
T
1
0
1
lim
- variana empiric este finit:
=
=
T
t
t
T
s x x
T
1
2 2
0 ) (
1
lim
- Presupunem c variana empiric a lui X converge spre o valoare nenul
2
x
. Ipoteza poate fi
verificat n cazul staionar, dac
i
x sunt realizri ale unor variabile aleatoare independente i identic
distribuite, de variane egale cu
2
x
i i
y y minim
- estimaiile parametrilor s fie ct mai precise (pentru un eantion n cretere, s se abat doar
ntmpltor de la valorile adevrate), adic estimatorii parametrilor s fie eficieni, consisteni,
nedeplasai;
Metoda celor mai mici ptrate - Ordinary Least Squares (OLS) ndeplinete aceste condiii.
Metoda celor mai mici ptrate (MCMMP)
Fie modelul econometric liniar unifactorial scris pentru perechile de variabile observate ale unui
eantion de volum n, (x
1
,y
1
), (x
2
, y
2
), , (x
n
, y
n
):
i i i
u bx a y + + =
Estimarea parametrilor acestui model econometric folosind MCMMP) pornete de la urmtoarea relaie:
i i
x b a y + =
care definete modelul teoretic, unde:
i
y - reprezint valorile teoretice (valori ajustate) ale variabilei endogene y obinute numai n
funcie de valorile factorului esenial (variabila exogen)
i
x i valorile estimate ale parametrilor a i b,
respectiv i a i b
.
Fie
i
u abaterile dintre valorile empirice i valorile rezultate din aplicarea modelului de regresie:
( ) ( )
i i i i
x b b a a y y u + = =
MCMMP const n a minimiza distana dintre valorile estimate i valorile teoretice:
( ) ( )
2
1
2
1
min min
=
n
i
i i
n
i
i
y y u
ceea ce revine la a minimiza funcia de dou variabile:
( ) b a F
, min = ( )
2
min
i i
y y = ( )
2
min
i i
x b a y
Condiia de minim pentru funcia de dou variabile de mai sus conduce la sistemul de ecuaii:
=
=
0
0
b
a
F
F
echivalent cu:
Modelul liniar unifactorial
9
= +
= +
i i
i
i
i i
x y x b x a
y x b a n
2
(sistemul ecuaiilor normale)
Estimaiile parametrilor sunt date de soluiile acestui sistem. Pentru determinarea estimaiei lui a se
nmulete prima ecuaie cu 1/n i se obine:
n
y
n
x
b a
i i
= +
,
adic:
x b y a =
=
2
i i
i
i i i
i
x x
x n
x y x
y n
b
relaii care reprezint estimaiile parametrilor.
Din ecuaiile normale decurg i urmtoarele proprieti:
- Media variabilei aleatoare u este zero | | 0 =
i
u M
Avem ( ) 0
=
i i
x b a y , adic 0 =
i
u rezult | | 0 =
i
u M
- Suma valorilor empirice
i
y este egal cu suma valorilor teoretice
i
y
(principiul conservrii informaiilor)
Din aceeai relaie de mai sus ( ) 0
=
i i
x b a y rezult c ( )
= 0
i i
y y , adic
egalitatea afirmat.
- Dreapta de regresie
i i
x b a y + =
.
Formule echivalente pentru calculul estimatorilor
Calculnd determinanii din expresia estimatorului lui b dat de ecuaiile normale,
se obine:
( )
2
2
=
i i
i i i i
x x n
y x x y n
b
( )( )
( )
n
x
x
n
x y
x y
i
i
i i
i i
2
2
=
( )( )
( )
2
=
x x
y y x x
i
i i
iar estimatorul lui a se obine din aceeai relaie:
x b y a =
Acestea nu sunt singurele formule de calcul a coeficienilor. Mai exist i alte formule, derivate
unele din celelalte. Spre exemplu, o formul mai simpl a lui b
x
n
x
y x
n
x y
b
i
i i
( )
2
, cov
x
s
y x
=
unde:
( )
2
2
2
2
x
i i
s
n
x x
x
n
x
=
=
este dispersia de selecie a variabilei x
iar
( )( )
( )
xy
i i i i
s x y
n
y y x x
y x
n
y x
= =
=
, cov este covariana dintre
variabilele y i x
Dac n expresia
( )
2
, cov
x
s
x y
b = se nlocuiete covariana n funcie de coeficientul de corelaie dat de
formula:
( ) ( )
( )
y x
xy
y x
s s
s
s s
x y
y x r x y r r
= = =
, cov
, ,
atunci se obine o nou expresie pentru estimatorul lui b n funcie de coeficientul de corelaie dintre x i y i
abaterile standard de selecie ale acestora:
x
y
s
s
r b =
Estimatorul coeficientului de corelaie, r
Coeficientul de corelaie r este o estimaie a coeficientului de corelaie din colectivitatea
general
2
, calculat pentru eantion. Formula de calcul pentru coeficientul de corelaie r este dat de relaia:
(
= = =
= =
=
n
i
i
n
i
i
n
i
i i
y x
xy
y x
xy
y y x x
y y x x
s s
s
s s
y x
r r
1
2
1
2
1
) ( ) (
) )( (
) , cov(
.
care poate fi adus, prin transformri elementare, la expresia de calcul:
(
(
\
|
(
(
\
|
= =
= = = =
= = =
n
i
n
i
i i
n
i
n
i
i i
n
i
n
i
n
i
i i i i
xy
y y n x x n
y x y x n
r r
1
2
1
2
1
2
1
2
1 1 1
,
2
(
= = =
= =
=
i
Y i
i
X i
i
Y i X i
y x
xy
y x
y x
y x
Y X COV
1
2
1
2
1
) ( ) (
) )( (
) , (
Se obinuiete ca pentru notaiile parametrilor i statisticilor modelului liniar corespunztor populaiei generale s se utilizeze
litere greceti: , ,
2
, n timp ce pentru cele ale modelului estimat din eantioane de volum n, se folosesc litere din alfabetul
latin: r s x , ,
2
.
Modelul liniar unifactorial
11
Coeficientul de corelaie r indic o msur simetric a intensitii relaiei dintre dou variabile, n sensul c
indiferent care variabil ar fi considerat dependent, coeficientul de corelaie are exact aceeai valoare,
care stabilete gradul de intensitate a legturii dintre variabile.
Semnificaiile valorilor coeficientului de corelaie se pot urmri pe tabelul urmtor:
Interval Tipul legturii ntre variabilele studiate
1 = r
Legtur perfect
1 95 , 0 < < r
Legtur foarte puternic
95 , 0 75 , 0 < < r
Legtur puternic
75 , 0 50 , 0 < < r
Legtur de intensitate medie
50 , 0 20 , 0 < < r
Legtur slab
20 , 0 0 < < r
Legtur foarte slab
0 = r Nu exist legtur
Semnul coeficientului de corelaie reflect direcia legturii, ca n tabelul de mai jos:
Semnul coeficientului
de corelaie
Direcia legturii
0 > r Legtur direct (creterea lui x determin o cretere a lui y)
0 < r Legtur indirect (creterea lui x determin o scdere a lui y)
Legtura ntre coeficientul de regresie exprimat prin b
se observ c coeficientul de corelaie simpl r are acelai semn cu estimatorul lui b, ceea
ce nseamn c ambii indic aceeai direcie a legturii. Interpretarea lor va fi aceeai, respectiv o pant
cresctoare sau descresctoare.
Coeficientul de regresie estimat prin b
=
n
r
s
r
,
atunci semnificaia coeficientului de corelaie r poate fi testat utiliznd testul t:
Se testeaz ipoteza nul
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
- H
0
: r = 0, cu ipoteza alternativ:
- H
1
: r 0 n cazul testului bilateral i r > 0 sau r < 0 n cazul testului unilateral dreapta, respectiv
testul unilateral stnga.
Statistica t este:
2
2
1
2
r
n r
t
n
.
Pornind de la relaia ) / (
2 2 2 2
y x
s s b r = se observ c testul t pentru testarea ipotezei nule asupra
coeficientului de corelaie H
0
: r = 0 este identic de fapt, cu testul t pentru testarea ipotezei nule H
0
: b = 0.
Ipoteza nul se respinge dac valoarea calculat
2 , 2 2 ,
>
n n calc
t t
pentru testul bilateral i
2 , 2 ,
>
n n calc
t t
sau
2 , 2 ,
<
n n calc
t t
pentru testul unilateral dreapta, respectiv, stnga.
Proprietile estimatorilor metodei celor mai mici ptrate
Considernd ipotezele asupra modelului liniar unifactorial potenial verificate, se studiaz
proprietile estimatorilor i a metodelor de estimare.
Estimaiile parametrilor rezultate pe baza ecuaiilor normale ale metodei celor mai mici ptrate
(MCMMP) sunt estimaii punctuale.
n cazul n care utilizm date obinute din diferite eantioane de volum n, putem obine valori diferite
att pentru a ct i pentru b
, b b
p
-
estimatorii sunt eficieni.
Repartiia variabilelor aleatoare numite estimatori ai parametrilor
De reinut c nu doar variabila rezidual are repartiia normal, ci i parametrii estimai urmeaz
aceeai lege de repartiie, legea normal.
Estimatori a i b
unde:
- abaterea medie ptratic a estimatorului a este:
( )
|
|
|
\
|
+ =
i
i
u a
x x
x
n
s s
2
2
2
1
- - abaterea medie ptratic a estimatorului b
este:
Modelul liniar unifactorial
13
( )
=
i
i
u
b
x x
s
s
2
2
- dispersia variabilei reziduale u este:
( )
=
i
i u
u
n
s
2 2
2
1
=
( )
2
n
y y
i
i i
Tabelarea valorilor calculate
Valorile obinute prin calcule dup formulele de mai sus, se pot sintetiza ntr-un tabel. Dispunnd de
estimaiile parametrilor se pot calcula valorile teoretice (estimate, ajustate) ale variabilei endogene,
i i
x b a y + =
i i i
y y u =
2
i
u x x
i
y y
i
(1) (2) (3) (4) (5) (6) (7) (8) (9)
1
x
1
y
2
1
x
1 1
y x
1 1
x b a y + =
1 1 1
y y u =
2
1
u
M M M M M M M
n
x
n
y
2
n
x
n n
y x
n n
x b a y + =
n n n
y y u =
2
n
u
i
x
i
y
2
i
x
i i
y x
i
y 0 =
i
u
i
u
n practic, nimeni nu mai calculeaz valorile coeficienilor a i b n acest fel. Apariia programelor
statistice cum sunt SPSS, Eview, Excel cu o putere de calcul extrem de mare i rafinat, permit obinerea
acestor cifre prin simpla selectare a unei comenzi; dei calculele se fac automat, cunoaterea formulelor de
baz este necesar pentru a nelege logica metodei i condiiile ei de aplicare.
Interpretarea economic a parametrilor estimai
Importana obinerii valorilor estimate ale parametrilor modelului
este dat de necesitatea
interpretrii ecuaiei fenomenului studiat.
Estimatorul b
indic cu cte uniti naturale (n care este exprimat y) se modific n medie variabila
efect (crete pentru b
Ne propunem stabilirea unui interval n cadrul cruia s se situeze de exemplu 95% dintre valorile lui
b
) 1 , 0 (
iar limitele intervalului rezult din egalitatea:
95 , 0
2
05 , 0
2
05 , 0
=
|
|
\
|
z
b b
z P
b
b b
z b b z b
2
05 , 0
2
05 , 0
+ < <
Dac eantionul de date este mic (n<30), se folosete variabila t (distribuia Student) n loc de
variabila normal z:
2 ;
n
b
t
b b
,
iar limitele intervalului rezult din egalitatea:
95 , 0
2 ;
2
05 , 0
2 ;
2
05 , 0
=
|
|
\
|
n
b
n
t
b b
t P
adic:
b
n
b
n
t b b t b
2 ;
2
05 , 0
2 ;
2
05 , 0
+ < <
unde limita din stnga este limita inferioar de ncredere (lower confidence limit), iar limita din dreapta
este limita superioar de ncredere (upper confidence limit). ntre cele dou limite se situeaz nivelul
parametrului b n 95% din cazuri.
b) intervalul de ncredere pentru valorile ajustate ale variabilei teoretice, estimate y .
Similar poate fi stabilit intervalul de ncredere pentru valorile ajustate y , care urmeaz tot o
repartiie normal ca i variabila rezidual u:
Modelul liniar unifactorial
15
= |
\
|
+ < <
1
2 ;
2
2 ;
2
y
n
i i y
n
i
t y y t y P
Am vzut c modelul teoretic ales s reprezinte comportamentul variabilelor n relaia de cauzalitate
efect are parametrii considerai drept necunoscute ale modelului. n cazul unor eantioane
nereprezentative, pentru a-i determina, se folosesc estimaii ale acestora, punctuale sau sub form de
intervale de ncredere. Se poate spune c estimatorii a i b
bx a y
i
e b a y f
+
=
( ) bx a x y M + = /
iar funcia de verosimilitate maxim este:
( ) ( )
=
= =
n
i
i n
b a y f b a y y y f L
1
2 2
2 1
, , / , , / , K
adic:
( ) ( )
( ) | |
2
1
2
2
2
1
2 2
2 1
2 , , / ,
+
=
= =
n
i
i
bx a y
n
n
e b a y y y f L K
i se refer la probabilitatea simultan a observaiilor privite n funcie de parametrii (independena
extragerilor implic produsul probabilitilor).
Metoda urmrete obinerea acelor valori pentru parametrii pentru care funcia de verosimilitate
rezultat din sondaje repetate atinge valoarea sa maxim.
Problema devine una de determinarea extremelor pentru o funcie de trei variabile (cei trei
parametri). Pentru determinarea parametrilor se aplic algoritmul cunoscut, funciei n reprezentarea sa
logaritmic:
( ) ( ) | |
=
+ =
n
i
i
bx a y
n
L
1
2
2
2
2
1
2 ln
2
ln
.
Ecuaiile la care se ajunge sunt identice cu cele rezultate n cazul MCMMP pentru a i b, iar pentru
estimarea lui
2
se obine:
( ) | |
= + =
2
2
2
1
u
n
x b a y
n
s
u
Metoda Bayesian de estimare este bazat pe formula lui Bayes.
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
( )
( ) ( )
( ) y P
b P b y P
I y b P
=
/
, /
0
Analiza bayesian se refer att la datele eantionului ( )
i i
x y , , ct i la informaii apriori despre
parametrii, la care se adaug i o funcie a pierderii (cost, risc), datorat abaterilor valorilor estimate de la
cele adevrate.
Metoda utilizeaz instrumentele matematice din teoria probabilitilor, operaii cu probabiliti. Dac
metoda celor mai mici ptrate presupune c parametrii
sunt necunoscui, metoda bayesian consider
cunoscut legea de distribuie ce influeneaz parametrii ce vor fi estimai.
Metoda folosete postulatele:
- parametrii necunoscui aparin unor clase de distribuie cunoscute aprioric;
- metoda bayesian de estimare definete un procedeu de selectare a celei mai bune metode
definind clase alternative de estimri i evalundu-le n termenii valorilor ateptate ale
funciilor.
Valorile obinute cu metodele bayesiene sunt mai corecte i foarte apropiate de cele reale. Esena
teoriei const n faptul c explic cum se schimb ideile existente n condiiile unor noi probe. Metoda se
aplic unor situaii concrete pentru care se prezint evenimente sub forma funciilor de tip cauz efect (cum
ar fi fumatul i efectul su negativ).
Toate metodele enunate sunt folosite pentru obinerea de valori numerice.
Rezumat
n concluzie, etapa de estimare a parametrilor unui model econometric are loc dup definirea
modelului i parcurgerea etapelor de specificare i identificare.
Estimarea punctual a parametrilor unui model liniar unifactorial cu MCMMP presupune
parcurgerea urmtorilor pai:
- se raporteaz seria statistic a datelor empirice ( ) n i y x
i i
, 1 ; , = pentru cele dou fenomene economice
y, respectiv x i se completeaz un tabel ca cel de mai jos. Tabelul poate fi util dac nu se apeleaz la
utilizarea unui instrument informatic pentru generarea valorilor numerice rezultate din aplicarea
diferitelor formule de estimare:
i
x
i
y
2
i
x
i i
y x
i i
x b a y + =
i i i
y y u =
2
i
u
1
x
1
y
2
1
x
1 1
y x
1 1
x b a y + =
1 1 1
y y u =
2
1
u
M M M M M M M
n
x
n
y
2
n
x
n n
y x
n n
x b a y + =
n n n
y y u =
2
n
u
i
x
i
y
2
i
x
i i
y x
i
y 0 =
i
u
i
u
- modelul econometric liniar identificat:
i i i
u bx a y + + = , unde a, b sunt parametrii modelului i
i
u variabila eroare (rezidual)
i i
x b a y + =
,
i
y valorile teoretice (estimate) ale variabilei efect
i i i
y y u = - estimaia erorii
i
u
- utilizarea unei metode de estimare punctual a parametrilor modelului:
Modelul liniar unifactorial
17
a , b
i
=
2
i i
i
i i i
i
x x
x n
x y x
y n
b =
2
2
x
n
x
y x
n
x y
i
i i
(obinute prin MCMMP)
- determinarea intervalelor de ncredere ale estimaiilor obinute pentru parametrii i respectiv pentru
valorile ateptate ale variabilei efect.
- Reamintim c eroarea standard (E.S.) este abaterea standard a distribuiei de eantionare a
estimatorului, care ne ofer un interval n care estimm c se afl parametrul din populaie, la un
anumit nivel de ncredere.
Spre exemplu, eroarea standard a coeficientului b
=
=
te autocorela erori , 0
te independen erori , 0
, cov
j i
j i
u u
j i
iv) Variabila aleatoare
i
u este repartizat dup legea normal, de medie zero i abatere medie
ptratic constant egal cu ct
u u
= =
2
, adic:
( )
u i
u , 0
Teoria demonstreaz c, n ipoteza iv), metoda verosimilitii maxime este echivalent cu MCMMP.
i) Pentru verificarea ipotezei c variabilele de observaie ( ) n i x y
i i
, 1 , , = sunt fr erori de msur se
folosete regula celor trei sigma:
( )
x i
x x 3
x i x
x x x 3 3 + < <
( )
y i
y y 3
y i y
y y y 3 3 + < <
unde:
( )
n
x x
i
x
=
2
,
( )
n
y y
i
y
=
2
Dac regula celor trei sigma este ndeplinit, atunci ipoteza i) poate fi acceptat.
ii) Se calculeaz coeficientul de corelaie liniar simpl:
( )
( )( ) ( )
x u
i i
x u
i i
x u
x u
s s n
x x u
s s n
x x u u
s s
x u
r
=
=
=
, cov
/
Dac acesta este nul, se accept ipoteza de homoscedasticitate, u i x fiind independente. n caz contrar,
ipoteza se respinge.
iii) Pentru a verifica dac erorile nu sunt autocorelate, adic
( ) ( ) 0 , , cov = =
k t k t
u u M u u , n k , 1 = i k t < ,
se utilizeaz testul Durbin Watson.
Valoarea empiric:
( )
=
=
=
n
i
i
n
i
i i
u
u u
d
1
2
2
2
1
se compar cu 2 valori teoretice
1
d i
2
d din tabelul distribuiei Durbin Watson n funcie de un prag de
semnificaie arbitrar ales, de numrul de variabile exogene k, i de numrul valorilor de observaie n.
Modelul liniar unifactorial
19
Regula de decizie este:
1
0 d d < <
2 1
d d d
2 2
4 d d d
1 2
4 4 d d d 4 4
1
d d
Autocorelare
pozitiv
Indecizie
Erorile sunt
independente
Indecizie
Autocorelare
negativa
iv) Dac erorile urmeaz legea normal de medie zero i abatere medie ptratic
u
s
= 1
u t
s t u P
pentru diferite valori ale pragului de semnificaie , din tabelele distribuiei normale sau ale distribuiei
Student se vor prelua valorile corespunztoare ale lui
:
Dac a i b
,
variabilele aleatoare reduse
| |
( ) a D
a M a
, respectiv
| |
( ) b D
b M b
este
( )
|
|
|
\
|
+ =
i
i
u a
x x
x
n
s s
2
2
2
1
;
( )
=
i
i
u
b
x x
s
s
2
2
, unde
( )
2
2
2
=
n
y y
s
i
i i
u
.
Atunci
o statistica test
b
s
b b
n
b
t
s
b b
o statistica test
b
s
b b
n
b
t
s
b b
Verificarea semnificaiei estimatorilor parametrilor se refer deci la testul Student, numit test t,
pentru care se urmeaz paii de mai jos:
- Se fixeaz nivelul de semnificaie, de exemplu la 5% i se determin valoarea critic
crt
t din
tabelele repartiiei
2 ;
2
n
t
;
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
- Se testeaz dac termenul liber a i respectiv coeficientul b al variabilei explicative x,
coeficieni ai populaiei din care provine eantionul nostru, sunt semnificativ diferii de zero.
Astfel, se accept sau respinge una din cele dou ipoteze:
=
=
0
0
:
0
b
a
H sau
0
0
:
1
b
a
H
Pentru aceasta, se compar valorile calculate ale estimaiilor reduse:
a
cal
s
a
t
1
0
= i
b
cal
s
b
t
2
0
=
cu valoarea teoretic notat
t sau
din
tabelul distribuiei Student (pentru n<30), n funcie de valoarea stabilit pentru pragul de semnificaie
(0,1; 0,05 sau 0,01) i numrul gradelor de libertate n - (k+1), unde:
- n este numrul de perechi observate, iar k este numrul variabilelor exogene (k+1 este numrul
parametrilor modelului econometric, inclusiv termenul liber),
- abaterea medie ptratic a estimatorului a este
( )
|
|
|
\
|
+ =
i
i
u a
x x
x
n
s s
2
2
2
1
,
- abaterea medie ptratic a estimatorului b
este
( )
=
i
i
u
b
x x
s
s
2
2
,
- dispersia variabilei reziduale u este
=
t
i u
u
n
s
2 2
2
1
( )
2
=
n
y y
i
i i
Regula de decizie a testului este:
Dac:
t
s
a
t
a
cal
> =
t
s
b
t
b
cal
> =
, dar i eroarea
standard a acestora
a
s
, respectiv
b
s
.
Eroarea Standard a acestor coeficieni este necesar n dou direcii:
1. Pentru a testa pe loc dac aceti coeficieni pot sau nu s fie considerai utili. Este vorba de un test
t prin care se testeaz dac sunt sau nu diferii de zero; n funcie de mrimea valorii p calculat, vom
respinge sau nu ipoteza de nulitate. Aceast probabilitate este bine s fie foarte mic, mult sub orice prag de
semnificaie rezonabil, cu att mai mult sub clasicul prag de 5%.
2. Pentru a face o inferen asupra parametrilor din populaie. Valorile lui a i b
sunt estimri
punctuale ale parametrilor i din colectivitatea general. Dup cum s-a vzut, exist i o estimare sub
form de interval de ncredere bazat pe calculul erorii standard, la un anumit nivel de ncredere. Spre
exemplu, eroarea standard a coeficientului b
\
|
< < 1 . .
. .
2 2
S E z b S E z b P
unde, pentru un nivel de ncredere de 95%, parametrul din populaie se afl n jurul statisticii din
eantion ntre 1,96eroarea standard, pentru scorul z al statisticii repartizate normal.
c. Verificarea similitudinii modelului econometric (testul F)
Verificarea similitudinii modelului econometric n raport cu cel real se refer la verificarea
urmtoarelor aspecte:
- dac x este principalul factor de influen a lui y
- dac legea economic urmeaz funcia aleas
- dac rezultatele pot fi considerate sistematice.
Calcularea coeficienilor a i b
k n k
F
MSE
MSR
Se obine statistica testului F, Fisher-Snedecor, care se folosete pentru verificarea existenei unei
dependene liniare ntre variabila dependent i cele k variabile independente, ntr-un model liniar k
factorial, sau altfel spus similitudinea modelului econometric.
Cum distribuia F are doar valori pozitive i nu este simetric, ipoteza nul este respins doar dac
valoarea calculat
*
calc
F depete valoarea critic
crt
F . Pentru o eroare fixat prin nivelul de semnificaie ,
regula de decizie este urmtoarea:
- dac
crt calc
F F
*
, atunci respingem ipoteza
0
H (decizia dorit pentru a menine modelul)
- dac
crt calc
F F <
*
suntem n zona de acceptare a ipotezei nule anume c modelul nu se valideaz.
Valoarea critic
crt
F se obine din tabelul distribuiei F, mai precis
( ) 1 . ; 05 , 0
=
k n k crt
F F dac nivelul de
semnificaie fixat este 5%.
Modelul liniar unifactorial
23
n concluzie, pentru verificarea prin testul F se parcurg urmtorii pai:
1. Se calculeaz:
- variaia total a variabilei y datorat tuturor factorilor de influen:
SST: ( )
2
1
2
0
=
=
n
i
i
y y V
- variaia explicat a variabilei y datorat numai factorului principal de influen x:
SSR: ( )
2
1
2
=
=
n
i
i x
y y V
- variaia neexplicat a variabilei y, rezidual, datorat factorilor nespecificai n model:
SSE: ( )
2
1
2
=
=
n
i
t i u
y y V
- dispersiile corectate:
k
SSR
MSR = sau
k
V
s
x
x y
2
2
= i
1
=
k n
SSE
MSE
1
2
2
=
k n
V
s
u
u
2. Se formuleaz ipotezele de testat:
Dac H
0
: MSR=MSE
atunci influena factorilor x nu difer de cea a factorilor
ntmpltori i se renun la modelul specificat, cutndu-se ali
factori explicativi pentru variaia variabilei y; se reia analiza
ncepnd cu specificarea, identificarea i definirea modelului.
(
2 2
u x y
s s = )
Dac H
1
: MSR MSE
atunci influena factorilor x difer semnificativ de cea a
factorilor ntmpltori, ceea ce permite s se continue discuia
similitudinii modelului teoretic n raport cu cel real.
(
2 2
u x y
s s )
3. Se calculeaz:
- coeficientul de determinaie notat mai simplu cu R
2
care este definit de relaia:
SST
SSR
R =
2
2
0
2
2
V
V
R
x
x y
=
Coeficientul de determinaie este o msur a proporiei varianei explicate prin regresori din variana
total a modelului de regresie.
Evident c 1 0
2
R . Egalitatea cu 1 are loc atunci cnd variaia explicat este egal cu variaia
total, ceea ce nseamn c modelul explic perfect, n proporie de 100%, variaia dependenei.
Spre exemplu, o valoare a lui 19 , 0
2
= R nseamn c variabila independent explic 19% din
variaia dependenei. Cu alte cuvinte, cu ct valoarea lui
2
R este mai aproape de 1, cu att modelul teoretic
va fi mai bun i cu ct este mai aproape de zero, nseamn c modelul nu reuete s surprind ceea ce se
ntmpl n realitate.
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
- raportul de corelaie care este definit de relaia:
2
R R = sau
2
0
2
2
V
V
R R
x
x y x y
= =
Raportul de corelaie are aceeai semnificaie ca i coeficientul de corelaie r, adic:
Dac:
0 =
x y
R ,
atunci x i y sunt independente;
Dac:
( ) 5 , 0 ; 0
x y
R
( ) 1 ; 5 , 0
x y
R
atunci exist o corelaie slab ntre variabile;
atunci exist o corelaie puternic;
Dac:
1 =
x y
R
atunci y e corelat strict cu x.
Raportul de corelaie are semnul coeficientului de regresie b
.
Observaie: Dei se calculeaz unul pe baza celuilalt, un coeficient de corelaie mare nu nseamn i
un coeficient de determinaie suficient de mare. Spre exemplu, atunci cnd 68 , 0 = R (o valoare destul de
mare), 46 , 0
2
= R . Se poate observa c atunci cnd dou variabile coreleaz mpreun cu o valoare de 0,68,
fiecare ar putea explica doar 46% din variaia celeilalte.
ntr-o ecuaie de regresie simpl, coeficientul se numete de determinaie simpl, iar n ecuaia de
regresie multipl el se numete coeficient de determinaie multipl.
n baza descompunerii varianei totale:
2 2 2
0 u x
V V V + = , raportul de corelaie se mai poate
scrie:
2
0
2
1
V
V
R R
u
x y
= = , de unde
2
2
0
2
1
1
u
V
V
R
=
sau
2
2
2
1
1
1
u
x
V
V
R
+ =
=
i se compar cu valorile din tabelele de distribuie ale variabilei Fisher-Snedecor.
Ipotezele de testat devin:
Dac H
0
:
1 , ,
2
2
1
1
=
k n k cal
F
k
k n
R
R
F
atunci 0 =
x y
R i se renun la modelul econometric;
Dac H
1
:
1 , ,
2
2
1
1
>
=
k n k cal
F
k
k n
R
R
F
atunci 0
x y
R i se trece mai departe la discuia ecuaiei
analizei variaiei.
Modelul liniar unifactorial
25
5. Se completeaz tabelul AOVA, care grupeaz valorile varianelor din descompunerea
2 2 2
0 u x
V V V + = , utilizate n calculul statisticii F utilizate de testul Fisher.
n tabelul ANOVA, k reprezint numrul de variabile independente luate n considerare. n analiza
regresiei liniare simple asociat modelului liniar unifactorial, k=1.
Tabelul AOVA pentru regresia multipl
SURSA DE
VARIAIE
MSURA VARIAIEI
(SUM OF SQUARES)
G
R
A
D
E
L
I
B
E
R
T
A
T
E
DISPERSII
CORECTATE
(MEA SQUARE)
*
calc
F
VARIANA
EXPLICAT DE
MODEL,
DATORAT
FACTORULUI X
(REGRESSIO)
SSR:
( )
2
1
2
=
=
n
i
i x
y y V
k
MSR:
k
SSR
k
V
s
x
x y
= =
2
2
= = =
2
2
*
u
x y
calc
s
s
MSE
MSR
F
k
k n
R
R 1
1
2
2
=
VARIANA
REZIDUAL,
DATORAT
FACTORILOR
NEESENIALI
(ERROR)
SSE:
( )
=
=
=
= =
n
i
i
n
i
i i u
u
y y V
1
2
1
2 2
n
-
(
k
+
1
)
MSE:
1 1
2
2
=
=
k n
SSE
k n
V
s
u
u
VARIANA
TOTAL
(TOTAL)
SST:
( )
2
1
2
0
=
=
n
i
i
y y V
n-1
Testul Fisher reprezentat prin calculele din tabelul ANOVA de mai sus este un test pentru cazul
regresiei multiple, de verificare a semnificaiei globale a regresiei, sau a similitudinii modelului teoretic
raportat la cel real.
n cazul regresiei simple, unde numrul de regresori (factori) este k=1, similitudinea verificat prin
testul Fisher se reduce la semnificaia influenei variabilei x asupra variaiei variabilei y. n consecin,
pentru modelul liniar unifactorial, statistica testului devine:
) 2 (
) 1 (
2
2
*
= n
R
R
F
calc
iar regula de decizie este:
dac
2 , 1 ; 05 , 0
*
>
n calc
F F , atunci se respinge ipoteza de egalitate a varianelor (H
0
ipoteza nul), variabila
x fiind semnificativ pentru variaia variabilei y.
dac
2 , 1 ; 05 , 0
*
n calc
F F , atunci se accept aceast ipotez de egalitate a varianelor i modelul se declar
nevalid.
n tabelul ANOVA obinut cu un soft, de exemplu Excel ca n aplicaiile urmtoare, exist i coloana
Significance F care d valoarea p a erorii pe care o facem prin respingerea ipotezei nule cnd ea este de fapt
adevrat. Valori mici pentru valoarea p ne conduc la concluzia c se poate respinge ipoteza nul i accepta
ca adevrat ipoteza alternativ, aceea care conduce la validarea modelului ca model de regresie adecvat
datelor de observare.
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
Rezumat
n concluzie, testul F este folosit la verificarea validitii modelului, unde k+1 este numrul de parametrii ai
modelului (numr de regresori i termen liber).
Un model este valid dac proporia varianei explicate prin model este semnificativ. Acceptarea
ipotezei nule la testarea F se traduce prin aceea c modelul testat este nevalid.
Rezumnd ntreaga etap de validare, dac se vrea a se verifica performana unui model econometric,
specificat, definit, identificat i estimat, se calculeaz:
i i
x b a y
+ = ,
2
u
s ,
a
s
,
b
s
, R, d
iar cu aceste valori obinute se pot testa:
1. independena erorilor (testul Durbin -Watson);
2. semnificaia estimatorilor (testul t);
3. similitudinea modelului (testul F).
4.5. Previziuni cu modelul regresiei simple
Estimarea valorilor variabilei dependente
Dac presupunem c variabila independent ia valoarea specificat X
n+1
i legtura liniar este
validat, atunci valoarea corespunztoare a variabilei dependente Y
n+1
este:
Y
n+1,i
= + X
n+1,i
+
n+1,i
cu media:
(Y
n+1
/X = X
n+1
) = + X
n+1
.
Ecuaiile de mai sus sunt utilizate pentru estimarea mediei de rspuns i pentru estimarea unui rspuns
individual.
Pentru ambele putem obine estimaii punctuale sau pe intervale de ncredere.
Pentru a obine estimaii punctuale, folosim ecuaia de regresie liniar n eantion:
y
i
= a + bx
i
+ u
i
i atunci, nlocuind cu valoarea dat
Xn+1
, obinem:
1 1
+ +
+ =
n n
x b a y
Construirea intervalului de ncredere pentru previzionare necesit cunoaterea distribuiei, mediei i
dispersiei pentru
1 n
y
+
. Variabila
1 n
y
+
urmeaz o distribuie t cu (n 2) grade de libertate. Dispersia asociat
variabilei poate fi identificat n trei cazuri i anume:
determinarea intervalului de ncredere pentru media de rspuns, cnd x
n+1
= x .
tim c:
( ) x x b y x b x b y y
n n n
+ = + =
+ + + 1 1 1
,
dac x
n+1
= x , atunci ,
1
y y
n
=
+
iar estimatorul dispersiei pentru
1
+ n
y este n acest caz
( )
( )
n
s
s s
u
y
y
n
2
2 2
1
= =
+
.
Modelul liniar unifactorial
27
Intervalul de ncredere este, n acest caz
n
s
t y
u
n n 2 , 2 / 1
+
;
determinarea intervalului de ncredere pentru media de rspuns, cnd x
n+1
x .
n acest caz:
) (
1 1
x x b y y
n n
+ =
+ +
,
iar estimatorul dispersiei pentru
1 n
y
+
este:
( )
| |
( )
|
|
|
|
\
|
+ = =
=
+
+
+
+ n
i
i
n
u
x x b y
y
x x
x x
n
s s s
n
n
1
2
2
1 2 2
) (
2
) ( 1
1
1
.
Intervalul de ncredere pentru media de rspuns este:
( )
( )
=
+
+
+
n
i
i
n
u n n
x x
x x
n
s t y
1
2
2
1
2 , 2 / 1
1
;
determinarea intervalului de ncredere pentru un rspuns individual.
n acest caz trebuie s determinm dispersia diferenei ,
, 1 1 i n n
y y
+ +
adic dispersia erorii de
previzionare. Dispersia n eantion este:
( ) ( )
|
|
|
|
\
|
+ + = +
|
|
|
|
\
|
+ = =
=
+
=
+
+ + + n
i
i
n
u u
n
i
i
n
u y y y
x x
x x
n
s s
x x
x x
n
s s s
i n n i n
1
2
2
1 2 2
1
2
2
1 2 2
) (
) ( 1
1
) (
) ( 1
, 1 1 , 1
.
Rezult c intervalul de ncredere al variabilei y la n+1 este:
=
+
+
+ +
n
i
i
n
u n i n
x x
x x
n
s t y
1
2
2
1
2 , 2 / , 1
) (
) ( 1
1
.
Rezumat
n concluzie, ecuaia de regresie nu poate n nici un caz s stabileasc o relaie de cauzalitate, dar
reprezint un model matematic care ne ajut s testm un model teoretic propus de analist.
n practica economic, un model econometric se utilizeaz pentru:
1. explicarea variaiei fenomenului considerat y ca efect datorat variaiei variabilei x considerate
cauz (factor);
2. estimarea valorilor probabile ale fenomenului y (simularea acestuia) n funcie de posibile valori
pe care le poate lua factorul economic x;
3. prognoza fenomenului y n funcie de valorile fenomenului x, pe un interval de prognoz.
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
Probleme Rezolvate
1. Dac admitem c numrul populaiei x determin vnzrile unui produs de uz curent y, urmrim
s verificm realismul prezumiei, dar i s determinm n ce msur modificarea numrului
populaiei cu 10.000 de locuitori produce modificri n ce privete volumul vnzrilor.
Prezentm datele din tabelul de mai jos, date care se refer la 16 localiti:
Y vnzri (mii kg.) 10 12 14 28 30 32 28 35 40 45 45 52 55 54 58 60
X populaia (zeci
de mii locuitori)
2 3 3 5 6 6 6 7 8 8 9 10 10 11 12 13
Soluie:
Reprezentnd ntr-un sistem de axe punctele de coordonate
i
x ,
i
y , ele descriu un nor de puncte a
crui form urmeaz mai curnd o dreapt dect o linie curb (parabol, hiperbol, exponenial, etc).
Urmnd modalitatea de estimare a parametrilor modelului liniar
i i
x b a y + =
, se obin:
- valorile medii x =7,43 i y =37,37;
- i estimaiile parametrilor:
( )
2
, cov
x
x y
b
=
( )( )
( )
=
2
x x
y y x x
i
i i
=4,94
61 , 0 43 , 7 94 , 4 37 , 37
= = = x b y a
Interpretarea economic a rezultatului obinut se poate formula astfel: la o cretere a numrului de
locuitori cu 1, (adic cu 10.000), vnzrile cresc (b>0) n medie, cu 4,94 mii de kg.
Intervalul de ncredere n care se situeaz parametrul b (valoarea adevrat) dac 05 , 0 = , 16-2
grade de libertate (corespunztor, 145 , 2
2 /
=
t ), 22 , 0 = , este:
22 , 0 145 , 2 9425 , 4 22 , 0 145 , 2 9425 , 4 + b .
Nivelul parametrului b se situeaz ntre 4,4706 i 5,4144, cu o probabilitate de 0,95.
2. S presupunem c o unitate de prestri servicii a msurat statistic legtura dintre numrul clienilor
servii i costul total (mii lei):
i i
x y 66 , 51 2272 + =
(costul total=costul fix+costul variabilnumr clieni servii)
Graficul "nor de puncte" (Scatter Diagram)
0
10
20
30
40
50
60
70
0 5 10 15
X populaia (zeci de mii locuitori)
Y
n
z
r
i
(
m
i
i
k
g
.
)
Modelul liniar unifactorial
29
De asemenea, ; 06 , 3951 ; 5552 , 6 ; 5 , 32 ; 18 lei mii y s x n
x
= = = = lei mii s
y
6131 , 389 =
. 58 , 198 lei mii s
e
= S se determine intervalele de ncredere pentru estimatorii parametrilor
Soluie:
14 , 7
81 , 27
58 , 198
18 5552 , 6
58 , 198
2
= =
=
b
s mii lei; 73 , 236
18 5552 , 6
5 , 32
18
1
58 , 198
2
2
=
+ =
a
s
Intervalele de ncredere pentru parametrii i vor fi, t
0,005;16
= 2,921
b b
s t b s t b +
16 ; 005 . 0 16 ; 005 . 0
14 , 7 921 , 2 66 , 51 14 , 7 921 , 2 66 , 51 +
52 , 72 80 , 30 mii lei;
a a
s t a s t a +
16 ; 005 . 0 16 ; 005 . 0
73 , 236 921 , 2 2272 73 , 236 921 , 2 2272 +
49 , 2963 51 , 1580 mii lei
3. Proprietarul unui minihotel dezvolt o analiz statistic pentru determinarea cheltuielilor cu
materialele de curenie (y) n funcie de numrul camerelor ocupate (x). El determin ecuaia de
regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci mii lei), pe baza datelor
nregistrate pentru n=14 zile:
i i
x y 7 , 3 8 , 10 + = , 86 , 26 ) (
2
=
x x
i
, 3 , 2 = x ,
= 39 , 163 ) (
2
y y
i
a) Proprietarul dorete s estimeze cheltuielile pentru o zi n care are 6 camere ocupate;
b) Proprietarul dorete s estimeze cheltuielile medii pentru zilele n care are 6 camere ocupate.
Soluie:
Dac numrul camerelor ocupate este 6
1
=
+ n
x , atunci: t
0,025;12
= 2,179
; 33 6 7 , 3 8 , 10
1
= + =
+ n
y ; 179 , 2
12 , 025 . 0 2 , 2 /
= =
t t
n
. 69 , 3
12
39 , 163
= =
e
s
a) Intervalul de ncredere pentru cheltuielile unei zile n care sunt 6 camere ocupate este:
86 . 26
) 3 , 2 6 (
14
1
1 69 , 3 179 , 2 33
2
=
r
n
r t
H
H
Pentru o probabilitate de % 95 )% 1 ( 100 = , 101 , 2
18 , 025 . 0 2 , 2 /
= =
t t
n
Putem concluziona, cum
2 , 2 /
>
n
t t
, c avem suficiente dovezi pentru a respinge ipoteza nul i a
accepta ipoteza alternativ, aceea c este semnificativ diferit de zero.
5. Un produs a fost propus spre vnzare pe 20 de piee (zone geografice) la preuri diferite, cu venituri
(medii) ale consumatorilor diferite, nregistrndu-se valori diferite ale cererii pentru fiecare pia,
conform datelor din tabel:
Nr. crt. Cerere Venit Pre Nr. crt. Cerere Venit Pre
1 11,7 777 5,4
11 11,0 814 9,0
2 9,3 802 5,9
12 7,6 801 8,4
3 13,4 635 8,0
13 12,6 768 5,6
4 16,1 952 5,9
14 16,4 965 5,7
5 14,5 998 8,8
15 9,4 990 8,9
6 11,9 988 8,7
16 17,6 806 6,2
7 9,0 586 7,1
17 12,9 820 7,5
8 16,1 658 6,4
18 5,3 553 8,5
9 11,0 520 6,5
19 14,6 684 7,4
10 15,8 960 5,0
20 14,5 756 5,6
Dac se noteaz cu
t
y = cererea (variabila endogen),
t
x
1
= venitul;
t
x
2
= preul (variabile exogene)
Se cere:
a) n ipoteza unei legturi liniare ntre cerere i venit, s se calculeze estimatorii parametrilor a i
b
.
b) Parametrii a i b sunt semnificativ diferii de 0 ?
c) S se stabileasc intervale de ncredere la un prag de 95% pentru cei doi parametri.
d) S se arate c testarea ipotezei 0 :
0
= b H este echivalent cu testarea ipotezei 0 = r , unde r
este coeficientul de corelaie liniar simpl ntre cerere i venit.
e) S se construiasc tabloul de analiz a varianei i testul Fisher adecvat.
f) S se fac o previziune a cererii pentru dou valori ale venitului de 600 i respectiv 800.
g) S se parcurg aceleai etape pentru regresia liniar simpl dintre cerere i pre.
Soluie:
a) Un grafic adecvat, de exemplu norul de puncte permite evidenierea legturii dintre cele dou variabile:
Modelul liniar unifactorial
31
0
2
4
6
8
10
12
14
16
18
20
400 500 600 700 800 900 1000 1100
venit (X1)
c
e
r
e
r
e
(
Y
)
Legtura liniar dintre cerere i venit
12,535
20
1
20
1
= =
= t
t
y y ; 791,65
20
1
20
1
= =
= t
t
x x
435358,6 ) (
20
1
2
=
= t
t
x x ; 3396,345 ) )( (
20
1
=
= t
t t
y y x x
007801 , 0
) (
) )( (
20
1
2
20
1
=
=
=
t
t
t
t t
x x
y y x x
b , 3591 , 6 65 , 791 007801 , 0 535 , 12
= = = x b y a
b) Este foarte important s testm ndeosebi nulitatea parametrului b , deoarece dac el nu este semnificativ
diferit de 0, variabila venit nu poate fi considerat explicativ pentru variabila endogen cerere. Se
formuleaz ipoteza nul, cu alternativa ei:
0 :
0 :
1
0
=
b H
b H
Dac se va respinge ipoteza
0
H la un prag de semnificaie fixat, atunci parametrul b se poate considera
semnificativ diferit de 0. Fie 05 , 0 = adic un risc de eroare de 5%.
Se cunoate c
b
s
b b
= =
= b a fost calculat la punctul precedent, iar expresiile urmtoare se pot calcula din tabelul de mai jos:
( )
=
i
i u
u
n
s
2 2
2
1
=
( )
9,9082
2 20
178,348
2
2
=
n
y y
i
i i
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
( )
22759 0000 , 0
435358,6
9082 , 9
2
2
2
= =
i
i
u
b
x x
s
s , de unde 0,0047706
=
b
s
Calculul erorilor estimate:
Nr. crt.
i
y
i i
x y + = 0078 , 0 359 , 6
i
u
2
i
u
1 11,7 12,42 -0,72 0,518
2 9,3 12,615 -3,315 10,989
3 13,4 11,312 2,088 4,36
4 16,1 13,785 2,315 5,359
5 14,5 14,143 0,357 0,127
6 11,9 14,065 -2,165 4,687
7 9,0 10,93 -1,93 3,725
8 16,1 11,491 4,609 21,243
9 11,0 10,415 0,585 0,342
10 15,8 13,847 1,953 3,814
11 11,0 12,708 -1,708 2,917
12 7,6 12,607 -5,007 25,07
13 12,6 12,349 0,251 0,063
14 16,4 13,886 2,514 6,32
15 9,4 14,081 -4,681 21,912
16 17,6 12,646 4,954 24,542
17 12,9 12,755 0,145 0,021
18 5,3 10,672 -5,372 28,858
19 14,6 11,694 2,906 8,445
20 14,5 12,256 2,244 5,036
Distribuia de eantionare sub ipoteza
0
H :
-0.05
0.45
0.95
1.45
1.95
-0.05 0.15 0.35 0.55 0.75 0.95
Regula de decizie pentru un prag 05 , 0 = devine:
dac
025 , 0
2
> =
n
b
b
t t
s
b
se respinge ipoteza
0
H , adic coeficientul b este semnificativ diferit de 0 (se
accept 0 b ); venitul este deci o variabil explicativ pentru cerere.
b
%
2
%
2
Modelul liniar unifactorial
33
dac
025 , 0
2
=
n
b
b
t t
s
b
se accept ipoteza
0
H , adic coeficientul b nu este semnificativ diferit de 0 (se
accept 0 = b ); venitul nu este deci o variabil explicativ pentru cerere.
Se calculeaz:
64 , 1
0,0047706
007801 , 0
= = =
b
b
s
b
t ; 101 , 2
025 , 0
18
= t
Se observ c
025 , 0
18
t t
b
ceea ce nseamn c din punct de vedere statistic, 0 = b .
c) Pentru construirea intervalului de ncredere pentru 0 = b , se cunoate c:
( )
= + 1
Prob
b b
s t b b s t b
Aplicnd pentru o probabilitate de 95%:
( ) % 95 00477 , 0 101 , 2 0078 , 0 00477 , 0 101 , 2 0078 , 0 Prob = + b
( ) % 95 ,01782 0 0,00222 - Prob = b
Exist deci un risc de 5% ca adevratul coeficient b s se afle n afara intervalului | | ,01782 0 ; 0,00222 - .
Valoarea 0 se afl n interval, ceea ce ne duce la aceeai concluzie ca mai nainte, respectiv 0 = b .
Acelai demers se poate urma i pentru coeficientul a .
d) Coeficientul de corelaie liniar simpl este egal cu:
= =
=
=
T
t
T
t
t t
T
t
t t
y y x x
y y x x
r
1 1
2 2
1
) ( ) (
) )( (
, de unde
= =
=
(
=
T
t
T
t
t t
T
t
t t
y y x x
y y x x
r
1 1
2 2
2
1 2
) ( ) (
) )( (
Dar:
=
=
=
T
t
t
T
t
t t
x x
y y x x
b
1
2
1
) (
) )( (
, de unde:
2
1
2
1 2
) (
) )( (
R
y y
y y x x b
r
T
t
t
T
t
t t
=
=
=
deci pentru regresia liniar simpl, coeficientul de determinaie este ptratul coeficientului de corelaie
liniar simpl.
2
2
2
2
2
*) ( ) 2 (
) 1 (
) 2 (
) 1 (
t n
r
r
n
R
R
F =
=
de unde
2
1
2
*
r
n r
t
= = 1293 , 0
2
= r 3596 , 0 = r
e) Pentru tabloul de analiz a varianei, calculm:
26,4957 ) (
20
1
2
= =
= t
i
y y SSE ; 178,349
20
1
2
= =
= t
t
u SSR ; 204,845 ) (
20
1
2
= =
= t
i
y y SST
Putem observa c se obine aceeai valoare a coeficientului de corelaie i pe baza componentelor varianei:
1293 , 0
845 , 204
4957 , 26
1
2 2
= = = = =
SST
SSR
SST
SSE
R r
Fie tabelul de analiz a varianei:
Sursa variaiei Suma ptratelor Numrul gradelor
de libertate
Variabila explicativ (X) 26,4957 = SSE 1
Variabila rezidual ( u ) 349 , 178 = SSR 20-2
Total 845 , 204 = SST 20-1
67 , 2
) 2 20 /(
1 /
* =
=
SSR
SSE
F
Din tabelele cu distribuia Fisher - Snedecor se obine: 41 , 4
05 , 0
) 18 ; 1 (
= F
05 , 0
) 18 ; 1 (
* F F < deci variabila venit nu poate fi considerat ca fiind explicativ pentru variabila
endogen, cerere.
Se poate constata deci c cele trei teste sunt echivalente:
0 :
0 :
1
0
=
b H
b H
0 :
0 :
, 1
, 0
=
y x
y x
r H
r H
0 :
0 :
1
0
=
SSE H
SSE H
Problema a fost rezolvat pn aici ntr-o manier didactic, cu calcule fcute fr a utiliza programe
informatice de specialitate.
f) Pentru observaia de rangul t+1 avem 600
1
=
+ t
x .
0396 , 11 600 007801 , 0 359 , 6
1 1 0 1
= + = + =
+ + t t
x a a y
Eroarea de estimare este:
(
(
(
(
+ +
=
(
(
(
(
+ + =
=
+
=
=
+
+ T
t
t
t
t
t
T
t
t
t
u y
x x
x x
n
u
n
x x
x x
n
s s
t
1
2
2
1
20
1
2
1
2
2
1 2
) (
) ( 1
1
2
1
) (
) ( 1
1
1
11,2396
435358,6
) 65 , 791 600 (
20
1
1 349 , 178
2 20
1
2
2
1
=
(
+ +
=
+ t
y
s ; 3,3525
1
=
+ t
y
s
Intervalul de ncredere pentru
1 + t
y se scrie:
( )
= +
+ +
+ + +
1 Prob
1 1
2 /
2 1 1
2 /
2 1
t t
u n t t u n t
s t y y s t y
Modelul liniar unifactorial
35
ceea ce pentru o probabilitate de 95% devine:
( ) % 95 3525 , 3 09 , 2 0396 , 11 3525 , 3 09 , 2 0396 , 11 Prob
1
= +
+ t
y
( ) % 95 05 , 19 03 , 4 Prob
1
=
+ t
y
Intervalul de ncredere este foarte larg, nesatisfctor, datorit varianei reziduale mari.
Pentru observaia de rangul t+2 avem 800
2
=
+ t
x .
12,5998 800 007801 , 0 359 , 6
2 1 0 2
= + = + =
+ + t t
x a a y
Eroarea de estimare este:
10,4053
435358,6
) 65 , 791 800 (
20
1
1 349 , 178
2 20
1
2
2
2
=
(
+ +
=
+ t
y
s
3,2257
2
=
+ t
y
s
( ) % 95 2257 , 3 09 , 2 12,5998 2257 , 3 09 , 2 12,5998 Prob
2
= +
+ t
y
( ) % 95 34 , 19 86 , 5 Prob
2
=
+ t
y
Intervalul de ncredere este mai ngust dect cel obinut anterior, deoarece 800
2
=
+ t
x se apropie mai mult de
65 , 791 = x , dar este tot nesatisfctor, datorit varianei reziduale mari.
4.6. Utilizarea Excel pentru calculele de regresie
Apelnd la meniul TOOLS>DATA AALYSIS >REGRESSIO din aplicaia Excel, tabela de
regresie simpl care se obine cuprinde n sumarul su (SUMMARY OUTPUT), trei pri:
A. Regression Statistics,
B. Informaii despre estimatorii coeficienilor modelului
C. Tabelul AOVA
Interpretarea economic a rezultatelor numerice tabelate
A. Regression Statistics
Aceast zon din tabelele Excel conine informaii cu caracter general despre variabilele implicate n analiza
de regresie:
coeficientul de corelaie multipl (Multiple R), care la regresia simpl este coeficientul de
corelaie liniar simpl, r:
( )
y x
s s
y x
r
, cov
= ; -1 < r < 1; unde
n
y y x x
y x
n
i
i i
=
=
1
) )( (
) , cov( ;
Mrimea numeric a covarianei nu are nici o semnificaie direct pentru persoana care analizeaz
datele. Aceasta se ntmpl pentru c cele dou variabile au, n general, uniti de msur diferite. Pentru a
elimina acest aspect neplcut, se poate calcula un alt coeficient, care utilizeaz ns valori standard ale
variabilelor (dup cum tim, standardizarea se face cu ajutorul scorurilor z, prin mprirea cu abaterea
standard). O msur care descrie variaia comun a dou variabile standardizate se numete coeficient de
corelaie simpl:
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
( )
( ) 2
) )( (
, cov
1
= =
=
n s s
y y x x
s s
y x
r
y x
n
i
i i
y x
( )
( ) 1
2
=
n
x x
s
i
x
;
( )
( ) 1
2
=
n
y y
s
i
y
- semnul lui r arat direcia relaiei dintre dou variabile, iar valoarea lui arat intensitatea asocierii
acestora;
- o valoare aproape de zero a lui r nu nseamn neaprat c ntre dou variabile nu exist nici un fel de
corelaie. Este posibil ca ntre cele dou s existe o corelaie puternic, dar ne-liniar; n acest caz,
dac ntre dou variabile nu exist nici un fel de corelaie, nu putem prezice absolut nimic despre
valoarea uneia folosind o valoare a celeilalte. Dac dimpotriv , ntre cele dou variabile exist o
corelaie, putem prezice cu o precizie mai mic sau mai mare valoarea uneia folosind-o pe cealalt.
n cazul unei corelaii aproape de maxim (+1 sau 1) atunci putem face o predicie cu un grad nalt
de precizie;
- este o msur simetric a intensitii relaiei liniare dintre dou variabile, n sensul c oricare dintre
variabile poate fi cea dependent; mrimea coeficientului de corelaie nu arat care variabil este
cauz i care este efect, n cazul n care exist o relaie de cauzalitate ntre cele dou;
- atunci cnd modelul teoretic arat care variabil este cauz i care este efect, predicia trece la un
nou nivel, de la corelaie la regresie.
coeficientul de determinaie R
2
, numit R Square arat validitatea modelului.
2
0
2
2
V
V
R
x
x y
=
=
=
=
=
=
n
i
i
n
i
i i
n
i
i
n
i
i
y y
y y
y y
y y
1
2
1
2
1
2
1
2
) (
) (
1
) (
) (
- R
2
este o msur care arat proporia din variaia variabilei dependente y care este explicat de
modelul de regresie;
- arat n ce msur modelul ales explic variaia lui y, altfel spus, este o msur a validitii
modelului;
- 0 < R
2
< 1 i cu ct este mai apropiat de 1 cu att modelul este mai bun.
Adjusted R Square care este R
2
ajustat cu un anumit numr de grade de libertate.
Standard Error sau eroarea standard a estimrii este abaterea standard a erorilor valorilor
observate ale lui y n jurul dreptei de regresie i se calculeaz ca o abatere medie ptratic a valorilor
empirice fa de cele teoretice:
( )
1
1
2
1
2
2
=
= =
= =
k n
u
k n
y y
s s
n
i
i
n
i
i i
u u
Pentru modelul unifactorial (k=1), eroarea standard devine:
( )
2
1
2
1
2
=
= =
n
u
n
y y
s
n
i
i
n
i
i i
u
Este o msur a variaiei neexplicate; cu ct aceast msur are o valoare mai mic, cu att proporia
de variaie neexplicat este mai mic i evident, proporia de variaie explicat este mai mare. Se mparte la
n-2 deoarece se pierd dou grade de libertate prin calcularea coeficienilor de regresie din valoarea estimat
a lui y:
i i
x b a y
+ = .
Modelul liniar unifactorial
37
Eroarea standard nu trebuie confundat cu abaterea standard a lui y de la valorile medii, care se
refer i ea la variaia neexplicat a lui y:
( )
1
1
2
=
=
n
y y
s
n
i
i
x y
n acest caz mprirea se face la n-1, deoarece se pierde un singur grad de libertate prin calculul
mediei.
Observations reprezint numrul n de observri ale variabilei dependente
i
y , care este egal cu
numrul de valori ale variabilei independente
i
x .
B. Informaiile despre estimatorii coeficienilor modelului
n coloana Coefficients sunt trecute valorile estimate ale coeficienilor modelului liniar, pentru i=1,k:
Intercept este estimatorul termenului liber a , care poate fi zero dac s-a optat pentru
Constant is Zero. Pentru un model unifactorial
i i
x b a y + =
.
X Variable 1, X Variable 2, ... n ordinea declarrii variabilelor explicative sunt estimatorii
coeficienilor variabilelor explicative:
n
a a a , , ,
2 1
K ;
Pentru un model unifactorial k=1, iar formula dup care se estimeaz coeficientul de regresie este:
=
2
i i
i
i i i
i
x x
x n
x y x
y n
b ,sau formulele derivate:
( )
2
2
=
i i
i i i i
x x n
y x x y n
b ;
( )
2
, cov
x
s
y x
b = ; ( )
x
y
s
s
x y r b = ,
Standard Error sunt abaterile standard ale estimatorilor; ele arat cu ct variaz n medie, n plus
sau n minus valorile estimate ale coeficienilor fa de parametrii pe care i estimeaz:
( )
|
|
|
\
|
+ =
i
i
u a
x x
x
n
s s
2
2
2
1
este abaterea medie ptratic a estimatorului a
( )
=
i
i
u
b
x x
s
s
2
2
unde: ( )
=
i
i u
u
n
s
2 2
2
1
=
( )
2
n
y y
i
i i
este dispersia de selecie a variabilei reziduale u
valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaiei acestuia fa de 0;
dac:
t
s
a
t
a
cal
> =
t
s
b
t
b
cal
> =
atunci se accept c modelul a fost corect specificat, identificat i estimat i se continu analiza
econometric; n caz contrar, estimatorii nu sunt semnificativ diferii de zero i se renun la model,
revenindu-se la prima etap cu o nou specificare.
naintea nceperii unui test statistic se pune problema alegerii unui nivel de semnificaie. Acesta
exprim riscul maximal de a grei (de regul 5%, 1% sau chiar mai mic) atunci cnd lum decizia dorit, de
respingere a ipotezei nule.
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
Softul modern ofer posibilitatea invers i anume: mai nti este evaluat riscul de a lua decizia
greit pe baza datelor de care se dispune. Acest risc evaluat pe baza datelor apare n tabele, la fiecare test de
semnificaie, i se numete valoarea p (p-value). n funcie de mrimea valorii P calculat, se va respinge sau
nu ipoteza de nulitate a parametrilor modelului.
P-value, corespunztoare pragului de semnificaie , ncepnd de la care valoarea estimatorului este
semnificativ diferit de zero. Important nu este valoarea lui t, ci probabilitatea
p asociat, care este probabilitatea de a grei respingnd ipoteza de nulitate (eroarea de genul I).
limitele intervalului de ncredere ale estimatorilor: inferioar Lower 95% i superioar Upper
95%, cu o probabilitate de 95% implicit, iar la cerere se pot solicita i alte valori ale probabilitii: 99%,
90%, etc.
C. Tabelul AOVA
Rezultatele din tabelul AOVA al ecuaiei de regresie sunt echivalente cu cele din testul t.
Valoarea lui F este raportul dintre variana explicat de modelul de regresie (Regression Mean Squares)
i variana neexplicat de model (Residual Mean Squares sau Error Mean Squares) i se calculeaz dup
formula: ) 2 (
) 1 (
2
2
*
= n
R
R
F
calc
. Dac
2 , 1 ; 05 , 0
*
>
n calc
F F atunci se respinge ipoteza de egalitate a varianelor,
variabila x fiind semnificativ pentru variaia variabilei y i modelul se declar valid.
Exemplu:
1. Se formuleaz ntrebarea dac exist o legtur ntre suprafaa unor apartamente din zona central
i preul de nchiriere a acestora?. Presupunnd c se selecteaz aleator 25 de astfel de apartamente,
valorile celor dou variabile X suprafaa (m
2
) i Y chiria lunar (RO) formeaz seria de date din
tabelul alturat.
Se dorete exprimarea printr-un model econometric, folosind datele
din tabel, legtura dintre suprafa i pre, pentru ca apoi, odat
modelul validat, s se poat folosi pentru a face predicii la nivel
macroeconomic.
Este util nti de toate reprezentarea grafic de tip XY. Rezultatul
obinut cu aplicaia Excel, din meniul insert diagram este prezentat n
figura de mai jos:
Modelul liniar unifactorial
39
Toate indiciile sunt n direcia folosirii unui model clasic de regresie (dependena pare liniar, erorile
par a avea dispersia constant, termenul liber pare a fi diferit de zero).
Accesm meniul TOOLS>DATA ANALYSIS>REGRESSION din aplicaia Excel i obinem
urmtoarele rezultate
n foaia Excel SUMMARY OUTPUT se disting trei zone:
A. Regression statistics pentru bonitatea modelului
B. ANOVA pentru descompunerea varianei totale i testul F de testarea semnificaiei modelului
C. Pentru estimaii pentru coeficieni, erorile lor standard, testul t, intervale de ncredere
Zona A ofer informaii despre:
- coeficientul de determinaie multipl
2
R (Multiple R),
- coeficientul de corelaie dintre valorile
i
y observate i valorile
i
y ajustate prin ecuaia de regresie
(R Square) i
- despre coeficientul de determinaie ajustat
2
R (Adjusted R Square).
Cu ct
2
R i
2
R au valori mai apropiate de 1 cu att regresia este mai bun. R Square este
0,709862, deci modelul explic 70.09% din variaia chiriei pentru apartamentele din zona central
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
Tot n zona A avem informaii despre eroarea standard estimat a modelului s (Standard Error) ce
estimeaz eroarea standard i numrul de observaii din eantion.
Pentru aplicaia noastr, cum toi indicatorii de bonitate enumerai sunt apropiai de 1, putem
concluziona c modelul de regresie liniar simpl este bun. Eroarea standard estimat prin eantion este
196,9 iar numrul de observaii este 24.
Zona B, se refer la descompunerea varianei totale (SST) a variabilei dependente n dou
componente: variana explicat prin regresie (SSR) i variana neexplicat (SSE). Aici identificm i
gradele de libertate asociate descompunerii, mai precis, dac avem k regresori n model i n observaii, avem
egalitatea 1 = + ( ( 1)) n k n k + .
n aceast zon exist dou celule importante la care trebuie s fim ateni, i anume: F i
Significance F. Valorile din aceste celule ne dau elemente importante ce stau la baza validrii modelului de
regresie (n totalitatea sa). Ele ne furnizeaz informaii privind valoarea calculat a statisticii test F i erorii
pe care putem s-o facem cnd respingem modelul de regresie ca fiind neadecvat.
Regula de decizie privind acceptarea modelului este: valori mari pentru statistica test F i valori mici
pentru Significance F.
Pe datele noastre, cum F = 53, 82607 este o valoare foarte mare i Significance F = 2,41E-07, deci o
valoare foarte mic, acceptm c modelul ales ajusteaz bine datele din eantion.
Zona C ne ofer informaii despre:
- valorile estimate ale coeficienilor modelului de regresie n coloana Coefficients,
- erorile standard ale coeficienilor n coloana Standard Error,
- elemente pentru aplicarea testului de semnificaie t-Student pentru fiecare coeficient (coloanele t
Stat i P-value.). Tot aici avem informaii despre intervalele de ncredere calculate pentru fiecare coeficient
din modelul de regresie. S analizm informaiile din aceast caset:
1) Pentru ca un coeficient s fie semnificativ diferit de zero, deci variabila regresor asociat lui s
influeneze variabila dependent, trebuie ca n coloana P-value s avem valori mici, de exemplu 5% sau sub
5% (evident n coloana t Stat avem atunci valori mari, n modul).
Concret, pentru termenul liber al modelului (Intercept) avem P-value = 0.2368, adic putem afirma
c dac respingem ipoteza c interceptul este egal cu zero, facem o eroare de 23%. Acceptm deci ca
adevrat ipoteza c interceptul este zero. (Analog, ajungem la concluzia c panta dreptei de regresie este
diferit statistic de zero: P-value = 2,41E-07).
2) Ultimele dou coloane ne dau informaii privind intervalele de ncredere 95% pentru fiecare
coeficient al modelului. Astfel, pentru termenul liber (teoretic) al modelului obinem intervalul (-144,44,
554,0488). Analog, pentru panta ecuaiei de regresie avem intervalul de ncredere (7,486476, 13,38681). Al
doilea interval de ncredere pentru pant nu conine pe 0, ceea ce nsemn c modelul este bun.
Panta dreptei de regresie este pozitiv i semnificativ diferit de zero, deci exist o legtur direct
ntre chirie i suprafaa apartamentelor.
n plus, dac suprafaa crete cu o unitate(1 m
2
) ,chiria va crete cu 10.436 lei.
P-value probabilitatea ipotezei ca parametrul estimat s fie egal cu zero; dac P-value este mai mic
dect pragul de semnificaie atunci respingem aceast ipotez. Avem semnificativ la pragul de 5%
( = 0,05), p < 0,05)
Modelul liniar unifactorial
41
Probleme Rezolvate
1. S se analizeze modelul sugerat de seria de date din tabelul de mai jos:
Anul Venitul net Consumul
personal
1970 751,6 672,1
1971 779,2 696,8
1972 810,3 737,4
1973 864,7 767,9
1974 857,5 762,8
1975 874,9 779,4
1976 906,8 823,1
1977 942,9 864,3
1978 988,8 903,2
1979 1.015,7 927,6
Urmnd indiciile din diagrama norului de puncte, acestea sugereaz folosirea unui model clasic de
regresie (dependena pare liniar, erorile par a avea dispersia constant, termenul liber pare a fi diferit de
zero).
Accesm meniul TOOLS>DATA ANALYSIS>REGRESSION din aplicaia Excel
Obinem urmtoarele rezultate n SUMMARY OUTPUT:
Regression statistics despre bonitatea modelului:
R Square este 0,991626, deci modelul explic 99% din variaia lui y datorat variaiei lui x.
Cum toi indicatorii de bonitate enumerai sunt apropiai de 1, putem concluziona c modelul de
regresie liniar simpl este bun.
Eroarea standard estimat prin eantion este 8,2446 iar numrul de observaii este 10.
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
AOVA despre descompunerea varianei totale i testul F de testarea semnificaiei modelului
Valorile din aceste celule ne dau elemente importante ce stau la baza validrii modelului de regresie
(n totalitatea sa).
- valoarea calculat a statisticii test F = 947,3477 este o valoare foarte mare i
- valoarea erorii pe care putem s-o facem cnd respingem modelul de regresie ca fiind neadecvat,
este Significance F = 1,34906E-09. Rezultatele din tabelul ANOVA al ecuaiei de regresie sunt
echivalente cu cele din testul t: P-value = 1,35E-09.
Regula de decizie privind acceptarea modelului este: valori mari pentru statistica test F i valori mici
pentru Significance F, deci acceptm c modelul ales ajusteaz bine datele din eantion.
Estimaii pentru coeficieni, erorile lor standard, testul t, intervale de ncredere
Pentru termenul liber al modelului (Intercept) avem P-value = 0,043483, adic putem afirma c
dac respingem ipoteza c interceptul este egal cu zero (ipoteza nul), facem o eroare de 4%, adic sub
pragul de 5% (
= 0,05), p < 0,05. P-value este mai mic dect pragul de semnificaie atunci respingem
ipoteza nul i acceptm deci ca adevrat ipoteza c interceptul este diferit de zero.
Panta dreptei de regresie este pozitiv 0,9789 i semnificativ diferit de zero
P-value = 1,35E-09, deci exist o legtur direct ntre variabile. n plus, dac x crete cu o unitate, y va
crete cu 0,9789.
Ultimele dou coloane ne dau informaii privind intervalele de ncredere 95% pentru fiecare
coeficient al modelului. Astfel, pentru termenul liber (teoretic) al modelului obinem intervalul
a n
t a
2 , 2 /
m =(-132,05; -2,51). Analog, pentru panta ecuaiei de regresie avem intervalul de ncredere
b
n
t b
2 , 2 /
=(0,905; 1,052). Nici unul din intervalele de ncredere pentru coeficieni nu conine pe 0,
ceea ce nsemn c modelul este bun.
a = -67,28; b
=0,9789;
i i
x b a y + =
devine
i i
x y + = 9789 , 0 28 , 67
=
a
=28,08; =
b
0,03;
a
calc
a
t
= = -2,395;
b
calc
b
t
= = -2,395;
2. Se reia problema 5 din unitatea de nvare U4, conform datelor din tabel:
Nr. crt. Cerere Venit Pre Nr. crt. Cerere Venit Pre
1 11,7 777 5,4
11 11,0 814 9,0
2 9,3 802 5,9
12 7,6 801 8,4
3 13,4 635 8,0
13 12,6 768 5,6
4 16,1 952 5,9
14 16,4 965 5,7
5 14,5 998 8,8
15 9,4 990 8,9
6 11,9 988 8,7
16 17,6 806 6,2
7 9,0 586 7,1
17 12,9 820 7,5
8 16,1 658 6,4
18 5,3 553 8,5
9 11,0 520 6,5
19 14,6 684 7,4
10 15,8 960 5,0
20 14,5 756 5,6
Problema a fost rezolvat ntr-o manier didactic, cu calcule fcute fr a utiliza programe
informatice de specialitate, ca SPSS, Stata, SAS, Eviews, Excel, etc.
Utiliznd de exemplu Excel, toate aceste rezultate sunt furnizate imediat.
Dac se acceseaz comanda Insert din meniul aplicaiei Excel, FUNCTION>SLOPE i respectiv
INTERCEPT se obin aceleai rezultate ca mai sus pentru parametrii estimai.
Modelul liniar unifactorial
43
Informaiile de baz pentru o regresie simpl,
fr a utiliza opiuni suplimentare, se obin
apelnd Regression din meniul Tools>Data
Analysis.
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
F(1,18) = 2,67 este identic cu cea obinut anterior.
Prob >0,1194 arat riscul cu care se poate accepta 0 SSE (respectiv n mod echivalent 0 R ).
Riscul este mai mare dect acel 5% n general acceptat, ceea ce este similar cu ce s-a concluzionat anterior.
Ultimul tabel prezint estimatorii parametrilor, abaterea medie patratic a estimatorilor parametrilor,
valoarea calculat a lui t, riscul de nulitate a parametrilor i intervalul de ncredere la 95%. Observm acelai
prag de semnificaie 0,119 ca i la testul F pentru analiza varianei.
Pentru regresia liniar simpl dintre cerere i pre, fr a detalia calculele, din rezultatele estimaiilor
obinute prin utilizarea programului Excel, se observ c, de aceast dat coeficientul corespunztor
variabilei explicative este semnificativ:
Modelul liniar unifactorial
45
Test de autoevaluare
1. Vnzrile unui mic productor de echipamente industriale, n ultimele zece perioade, au evoluat
astfel:
Perioada 1 2 3 4 5 6 7 8 9 10
Vnzri (mld. Lei) 4,0 3,5 3,8 4,2 4,6 5,2 5,0 4,8 5,3 5,6
S se previzioneze evoluia vnzrilor ntreprinderilor n urmtoarele trei perioade folosind metoda
celor mai mici ptrate pentru un model liniar.
i i
x b a y + =
Indicaie:
Se calculeaz valorile din tabelul de mai jos, valori necesare a le nlocui n relaiile care dau estimatorii
a i b
i i i
y y u =
2
i
u
1 0 0 4,0
2 1 1 3,5
3 2 4 3,8
4 3 9 4,2
5 4 16 4,6
6 5 25 5,2
7 6 36 5,0
8 7 49 4,8
9 8 64 5,3
10 9 81 5,6
45 285 46,0 224,5
i
x
2
i
x
i
y
i i
y x ...
2
i
u
2. Vnzrile unui distribuitor de articole de uz casnic, n ultimele zece perioade, au evoluat astfel:
Perioada 1 2 3 4 5 6 7 8 9 10
Vnzri (mld. Lei) 5,0 5,4 6,2 6,0 6,6 7,1 7,3 7,8 8,5 9,0
S se previzioneze evoluia vnzrilor ntreprinderilor n urmtoarele trei perioade folosind metoda
celor mai mici ptrate pentru un model ptratic.
2
i i i
x c x b a y + + =
Indicaie:
Sistemul de ecuaii normale rezultat din aplicarea MCMMP pentru estimarea parametrilor modelului,
este:
= + +
= + +
= + +
y x x c x b x a
xy x c x b x a
y x c x b n a
2 4 3 2
3 2
2
Soluiile sistemului sunt chiar parametrii estimai a , b
2
i
x
3
i
x
4
i
x
i i
y x
i i
y x
2
...
2
i
u
Modelul nu este validat, pentru aceasta fiind necesare verificri prin testele statistice adecvate.
3. Vnzrile unui productor de articole de pescuit, n ultimele zece perioade, au evoluat astfel:
Perioada 1 2 3 4 5 6 7 8 9 10
Vnzri (mld. Lei) 3,0 3,6 4,2 4,0 5,0 5,8 6,8 7,5 8,0 8,6
S se previzioneze evoluia vnzrilor ntreprinderilor n urmtoarele trei perioade folosind metoda
celor mai mici ptrate pentru un model exponenial.
i
X
i
b a Y =
Indicaie:
Dup liniarizarea modelului exponenial prin logaritmare i aplicnd MCMMP, se obin ecuaiile
normale ale cror soluii sunt estimatorii logaritmilor parametrilor cutai:
= +
= +
i i i i
i i
Y X X b X a
Y X b n a
ln ln ln
ln ln ln
2
Se calculeaz valorile din tabelul de mai jos, valori necesare a le nlocui n relaiile care dau estimatorii
lna i lnb
, se nlocuiesc
n
i
y , estimnd astfel valorile vnzrilor din modelul teoretic. Pe baza modelului teoretic se calculeaz
valorile previzionate ale vnzrilor pe urmtoarele trei perioade: i=11, 12, 13.
r
crt
i
x
2
i
x
i
y
i
y ln
i i
y x ln
i
X
i
b a Y
=
i i i
y y u =
2
i
u
1 0 0 3,0
2 1 1 3,6
3 2 4 4,2
4 3 9 4,0
5 4 16 5,0
6 5 25 5,8
7 6 36 6,8
8 7 49 7,5
9 8 64 8,0
10 9 81 8,6
45 285 56,4
i
x
2
i
x
i
y
i
y ln
i i
y x ln ...
2
i
u
Modelul nu este validat, pentru aceasta fiind necesare verificri prin testele statistice adecvate.
Modelul liniar unifactorial
47
4. S presupunem c dispunem de informaii privind numrul de familii (sute), suprafaa
comercial (zeci m
2
) i cifra de afaceri (mil. Lei) ca n tabelul urmtor:
r familii
(sute)
Suprafata
comerciala
(zeci m
2
)
Cifra de afaceri
(mil. Lei)
70 21 198
35 26 209
55 14 197
25 10 156
28 12 85
43 20 187
15 5 43
33 28 211
23 9 120
4 6 62
45 10 176
20 8 117
56 36 273
Se cer:
a) Pe baza datelor problemei, innd cont de semnificaia economic a fenomenelor observate, s se
construiasc modelele econometrice unifactoriale cu ajutorul crora poate fi studiat dependena
dintre fenomenele respective:
1. Modelul unifactorial: ( )
i i i
u x f y
1 1
+ = explic variaia cifrei de afaceri pe seama
numrului de familii;
2. Modelul unifactorial: ( )
i i i
u x f y
2 2
+ = explic variaia cifrei de afaceri pe seama
suprafeei comerciale;
b) S se estimeze parametrii modelelor construite la punctul a);
c) Din cele dou modele utilizate pentru descrierea dependenei cifrei de afaceri de cei doi factori, s
se aleag cel mai bun model;
d) S se estimeze cifra de afaceri pe care o poate obine ntreprinztorul dac va cumpra magazinul
respectiv.
5. Pentru un magazin de mobil s-au cules date privind numrul de spoturi publicitare difuzate i
numrul vizitatorilor (mii pers.) timp de 10 zile:
Ziua r. spoturi
publicitare
r. vizitatori
(mii pers.)
1 7 42
2 5 32
3 1 10
4 8 40
5 10 61
6 2 8
7 6 35
8 7 34
9 9 45
10 3 11
a) Sa se reprezinte grafic datele;
Analiza econometric a unui model liniar unifactorial _note de curs_2009_Conf. univ. dr. Din M. A.
b) Sa se determine modelul de regresie n eantion, calculnd valorile ajustate ale numrului de
vizitatori n funcie de spoturile publicitare;
c) S se verifice semnificaia modelului de regresie gsit la punctul b) folosind testul F, pentru un nivel
de semnificaie =0,05.
d) S se testeze semnificaia parametrilor modelului de regresie, pentru un nivel de semnificaie =0,1.
e) Dac modelul s-a dovedit semnificativ, s se previzioneze numrul vizitatorilor dac s-ar fi difuzat
12 spoturi publicitare.
f) S se msoare intensitatea legturii dintre variabile folosind coeficientul de corelaie, testnd
semnificaia acestuia pentru un nivel de semnificaie =0,05.
g) Ce pondere din variaia total a numrului de vizitatori este explicat de influena numrului de
spoturi publicitare?