Sunteți pe pagina 1din 7

Modelul clasic de regresie (cu folosirea testelor t i F)

1. Abordarea clasic

S presupunem c dispunem de informaii privind venitul disponibil i cererea de


consum la nivelul unei economii naionale, pe un orizont de timp de 10 ani. Datele
sunt cele din tabelul 1.
Mld. USD
Consumul
Anul Venitul net
personal
1970 751.6 672.1
1971 779.2 696.8
1972 810.3 737.4
1973 864.7 767.9
1974 857.5 762.8
1975 874.9 779.4
1976 906.8 823.1
1977 942.9 864.3
1978 988.8 903.2
1979 1015.7 927.6

Tabelul 1. Date privind venitul i consumul


Dorim s exprimm printr-un model econometric, folosind datele din tabelul
1, legtura dintre venitul disponibil i consum; apoi, odat modelul validat, s putem
s-l folosim pentru a face predicii la nivel macroeconomic.
Avem doar o singur variabil predictor. Este util s facem mai nti o
reprezentare grafic de tip XY. Rezultatul cu aplicaia Excel, este prezentat n figura 1.

Figura 1. Graficul venit disponibil vs. consum

2
Toate indiciile sunt n direcia folosirii unui model clasic de regresie
(dependena pare liniar, erorile par a avea dispersia constant, termenul liber pare a fi
diferit de zero).
Folosind un soft clasic, de exemplu modulul Regression din aplicaia Excel,
obinem urmtoarele rezultate (vezi tabelul 2).

SUMMARY OUTPUT
A. Bonitatea C. Estimaii
modelului pentru
Regression Statistics
coeficieni,
Multiple R 0.99580424
erorile lor
R Square 0.991626085
B. Descompunerea standard, testul
Adjusted R Square 0.990579346
varianei totale, t, intervale de
Standard Error 8.244609296
testul F ncredere
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 64394.61534 64394.62 947.3476758 1.34906E-09
Residual 8 543.7886595 67.97358
Total 9 64938.404

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -67.28001865 28.08642902 -2.39546 0.043483476 -132.0474401 -2.5126
X Variable 1 0.978959122 0.031806059 30.77901 1.34906E-09 0.905614 1.052304

Tabelul 2. Output de regresie liniar simpl

S analizm pe rnd rezultatele din casetele evideniate n tabelul 2.


Caseta A ofer informaii despre coeficientul de determinaie multipl R 2
(Multiple R), coeficientul de corelaie dintre valorile yi observate i valorile yi ajustate
prin ecuaia de regresie (R Square), i coeficientul de determinaie ajustat R 2 (Adjusted R
Square). Cu ct R 2 i R 2 au valori mai apropiate de 1 cu att regresia este mai bun.

Tot n caseta A avem informaii despre eroarea standard estimat a modelului s


(Standard Error) ce estimeaz eroarea standard s i numrul de observaii din eantion.
Pentru aplicaia noastr, cum toi indicatorii de bonitate enumerai sunt
apropiai de 1, putem concluziona c modelul de regresie liniar simpl este bun.
Eroarea standard estimat prin eantion este 8.24 iar numrul de observaii este 10.
Caseta B, se refer la descompunerea varianei totale (SST) a variabilei
dependente n dou componente: variana explicat prin regresie (SSR) i variana
neexplicat (SSE). Aici identificm i gradele de libertate asociate descompunerii,
mai precis, dac avem k variabile exogene n model i n observaii, avem egalitatea
n 1 ( k 1) (n k ) . n aceast caset exist dou celule importante la care trebuie
s fim ateni, i anume: F i Significance F. Valorile din aceste celule ne dau elemente
importante ce stau la baza validrii modelului de regresie (n totalitatea sa). Ele ne
furnizeaz informaii privind valoarea calculat a statisticii test F i erorii pe care
putem s-o facem cnd respingem modelului de regresie ca fiind neadecvat. Regula de
decizie privind acceptarea modelului este: valori mari pentru statistica test F i valori

3
mici pentru Significance F. Significance F reprezinta valoarea erorii pe care o facem
prin respingerea ipotezei nule cand de fapt ea este adevarata.
Pe datele noastre, cum F = 947.3476758 este o valoare foarte mare i
Significance F = 1.34906E-09, deci o valoare foarte mic, acceptm c modelul ales
ajusteaz bine datele din eantion.
Caseta C ne ofer informaii despre valorile estimate ale coeficienilor
modelului de regresie n coloana Coefficients, erorile standard ale coeficienilor n
coloana Standard Error, elemente pentru aplicarea testului de semnificaie t-Student
pentru fiecare coeficient (coloanele t Stat i P-value.).
Despre p-value
naintea nceperii unui test statistic clasic, se pune problema alegerii unui nivel
de semnificaie. Acesta exprim riscul maximal de a grei pe care suntem dispui s-l
acceptm (de regul 5%, 1% sau chiar mai mic) atunci cnd lum decizia de
respingere a ipotezei nule.
Softul modern ofer posibilitatea invers. Anume, este evaluat riscul de a
lua decizia greit, pe baza datelor de care dispunem, rmnnd la latitudinea
fiecruia dac i asum sau nu acest risc. Acest risc evaluat pe baza datelor apare n
tabele, la fiecare test de semnificaie, i se numete valoarea p (p-value).
Tot aici avem informaii despre intervalele de ncredere calculate pentru
fiecare coeficient din modelul de regresie.
Cum analizm informaiile din aceast caset?
1) Pentru ca un coeficient s fie semnificativ diferit de zero, deci variabila
regresor asociat lui s influeneze variabila dependent, trebuie ca n coloana P-value
s avem valori mici, de exemplu 5% sau sub 5% (evident n coloana t Stat avem
atunci valori mari, n modul). Concret, pentru termenul liber al modelului ( Intercept)
avem P-value = 0.043, adic putem afirma c dac respingem ipoteza c interceptul
este egal cu zero, facem o eroare doar de 4%. Respingem deci aceast afirmaie i
acceptm ca adevrat ipoteza c interceptul este diferit de zero. (Analog, ajungem la
concluzia c i panta dreptei de regresie este diferit statistic de zero).
2) Ultimele dou coloane ne dau informaii privind intervalele de ncredere
95% pentru fiecare coeficient al modelului. Astfel, pentru termenul liber (teoretic) al
modelului obinem intervalul (-132.0474401, -2.5126). Analog, pentru panta ecuaiei de
regresie avem intervalul de ncredere (0.905614, 1.052304). Este foarte important faptul c
nici unul dintre aceste intervale de ncredere nu conine pe 0, suntem ncurajai astfel
n a afirma c modelul este bun.

2. Testarea ipotezelor: cteva concepte


O ipotez statistic este o afirmaie despre un parametru care descrie o
populaie (sau despre distribuia valorilor unei variabile asociate). Adevrul acestei
afirmaii poate fi testat cu ajutorul unui eantion extras din populaie.
De regul, se emite o aa-numit ipotez nul, adic o afirmaie despre
valoarea parametrului, notat tradiional H 0 , care se refer la valoarea cea mai
nefavorabil (fa de valoarea real).
Ipotezei nule i se asociaz aa-numita ipotez alternativ, notat cu H1 prin
care se afirm faptul c parametrul ia alte valori dect cea din ipoteza nul.

4
Se urmrete respingerea ipotezei nule, pentru ca prin aceasta s se accepte
automat ipoteza alternativ (ca adevrat).
Prin testarea ipotezei (sau testul statistic) se nelege o evaluare statistic a
deciziei de respingere a ipotezei nule H 0 .
Etapele testrii unei ipoteze statistice sunt urmtoarele:
Formularea ipotezei nule i a celei alternative;
Alegerea nivelului de semnificaie al testului;
Alegerea statisticii adecvate i determinarea distribuiei valorilor ei, n
condiiile n care ipoteza nul este adevrat;
Definirea regiunii critice (de respingere) i stabilirea regulii de decizie;
Efectuarea calculelor pe baza datelor dintr-un eantion i luarea deciziei.
Pentru testarea ipotezelor statistice n cazul parametrilor modelului liniar de
regresie (simpl) exist dou abordri:
1. abordarea punctual prin testul de semnificaie;
2. abordarea prin construirea intervalelor de ncredere.

3. Testul de semnificaie
S revenim la modelul de regresie
yi a b xi ei i 1, 2,...., n

pentru care dorim s evalum statistic valoarea parametrului b .


A) Despre ipoteze
Ipoteza nul poate fi formulat astfel:
H0 : b b *

n care b * este o valoare particular pe care o poate lua parametrul modelului (de
regul valoarea cea mai nefavorabil).

Ipoteza alternativ poate s aib una dintre formele:


a) H1 : b b * (ipoteza bilateral);

b) H1 : b < b * sau H1 : b > b * (ipoteze unilaterale).

B) Despre nivelul de semnificaie


S considerm cele dou decizii posibile:
Decizia
Situaia real H 0 nu este respins H 0 este respins
(este acceptat?)
H 0 este adevrat Decizia corect Decizia incorect
(Riscul de genul I, a )
H1 este adevrat Decizia incorect Decizia corect
(Riscul de genul II)

5
Nivelul de semnificaie este riscul acceptat de genul I. Acesta este de regul
mic, de ordinul 5%, 1% sau chiar mai mic. Dac alegem nivelul de semnificaie
5% , putem afirma c ncrederea acordat rezultatului statistic obinut este de 95% .

C) Determinarea distribuiei folosite (alegerea statisticii test)

Dac testm o ipotez statistic (aplicm un test de semnificaie) asupra


parametrului b din modelul de regresie, ne bazm pe cele cinci ipoteze cerute
modelului i pe urmtorul rezultat statistic asociat estimatorului OLS b :
b b
1) variabila aleatoare are o distribuie normal standard N (0,1) ;
Var ( b )
1
2) eroarea standard a estimatorului este SE ( b ) s .
( xi x )2
Din afirmaiile 1) i 2) se obine un rezultat statistic important i anume:
b b
Statistica test pe care putem s-o folosim este . Ea are o repartiie t cu n
SE ( b )
b b
-2 grade de libertate, adic : t (n 2) (rezultat statistic important pe care nu l
SE ( b )
demonstrm!)
D) Determinarea regiunii critice
Dac nivelul de semnificaie este fixat la 5%, pe baza statisticii test folosite,
regiunile de respingere pentru cele trei situaii
a) H1 : b b *

b) H1 : b < b * ;

c) H1 : b > b *
sunt prezentate n figurile 1a-c).

6
a) b)

c)
Figura 1
Am notat cu tcrt valoarea critic a statisticii test, mai precis acea valoare
(obinut din tabele) care marcheaz regiunea de respingere. (Aceast regiune de
respingere este format din dou intervale, (, tcrt ) i (tcrt , ) , n prima situaie.)
Etapele testului de semnificaie pentru
Ipoteza nul H0 : b b *
Ipoteza alternativ H1 : b > b *
sunt prezentate n caseta urmtoare:

1. Obinem estimaii OLS pentru b i eroarea sa standard SE ( b ) ;

b b *
2. Calculm valoarea statisticii test t unde b * este valoarea
SE ( b )
parametrului din ipoteza nul;
3. Fixm nivelul de semnificaie, de exemplu la 5% i gsim din tabelele
repartiiei t (n 2) valoarea critic tcrt ;
4. Regula de decizie (testul unilateral dreapta):
dac valoarea statisticii test t > tcrt , atunci suntem n regiunea de
respingere a ipotezei nule i, prin urmare, acceptm ipoteza
alternativ;
dac valoarea statisticii test t < tcrt , atunci nu putem respinge
ipoteza nul i nu putem accepta ipoteza alternativ!

S-ar putea să vă placă și