Sunteți pe pagina 1din 35

INTRODUCERE IN ECONOMETRIE

Analiza prin regresie multiplă:


Inferență statistică

Referințe: Måns Söderbom, Universitatea Gothenburg


Damodar Gujarati, Basic Econometrics

Testarea ipotezelor asupra


parametrilor (1)
• Am văzut cum se estimează parametrii populației
– Parametrii estimați sunt incluși în tabelele de rezultate
ale oricărui software de analiză a datelor
• Ne vom concentra acum pe problema testării
ipotezelor despre acești parametri
– Spre exemplu, dorim să testăm dacă un anumit
parametru este egal cu zero (sau cu altă valoare)
– Alternativ, putem testa dacă un grup de parametri (ex.:
toți parametrii pantei) sunt egali cu zero
• Testarea ipotezelor este cunoscută ca inferență
statistică
– deoarece inferăm o concluzie despre parametrii
adevărați ai populației pe baza estimațiilor

1
Testarea ipotezelor asupra
parametrilor (2)
• În regresia liniară, procedăm la două
principale ipoteze:
– Dacă toți parametrii sunt zero (testul F);
– Dacă fiecare dintre parametri sunt zero (testul
t).
• Testul F răspunde la întrebările: am
construit un model relevant? Toate
variabilele independente au o influență
asupra variabilei independente?

Testarea ipotezelor asupra


parametrilor (3)
• Testul F răspunde la întrebările: am
construit un model relevant? Toate
variabilele independente au o influență
asupra variabilei independente?
– Dacă testul F nu este semnificativ, trebuie să
construim alt model
• Dacă testul F este semnificativ, cel puțin un
parametru este semnificativ (diferit de zero)
și putem trece la testul t pentru fiecare
parametru al modelului

2
Testarea ipotezelor asupra
parametrilor (4)
• Testul t răspunde la întrebarea: este
parametrul βj semnificativ (diferit de zero)?
• Echivalent, ne întrebăm dacă variabila Xj
are o influență asupra variabilei dependente
Y
• Dacă testul t este semnificativ, variabila Xj
are o influență asupra variabilei dependente
Y

Testarea restricțiilor multiple: Testul F


• Să presupunem că dorim să testăm mai multe
ipoteze despre parametrii modelului nostru
• Spre exemplu, să presupunem că dorim să
testam ipoteza nulă că toți coeficienții pantelor
sunt egali cu zero, într-un model de tipul:
• 𝑦 = 𝛽0 + 𝛽1 ∙ 𝑥1 + 𝛽2 ∙ 𝑥2 + ⋯ + 𝛽𝑘 ∙ 𝑥𝑘 + 𝑢
• Cum veți scrie ipoteza nulă?
• Dacă nu putem să respingem ipoteza nulă,
care este implicația pentru modelul nostru?

3
Statistica F
• unde SSRr este suma pătratelor
rezidualelor pentru modelul restricționat;
5.5
SSRur este SSR pentru modelul
nerestricționat și q este numărul restricțiilor
impuse în mișcarea de la modelul
nerestricționat către modelul restricționat.

• Alternativ, statistica F se poate scrie (v.


Interpretati!
Gujarati p. 268):

Statistica F și distribuția F
• Pentru a utiliza statistica F trebuie să
cunoaștem distribuția ei statistica sub ipoteza
nulă (asta ne permite să alegem valorile critice
și regulile de respingere) – v. Anexa A p. 893
• Sub H0, F urmează o distribuție F cu (q,n-k-1)
grade de libertate: F~Fq,n-k-1.
• Valorile critice de 25%, 10%, 5% și 1% pentru
distribuția F sunt date în tabela D3 p. 962.
• Regula de respingere: Respingem H0 în
favoarea lui H1 la (sa spunem) prag de
semnificație de 5% dacă F>c, unde c este a
95-a percentile din distribuția Fq,n-k-1 .

4
Regula de interpretare a statisticii F
• Regiunea critică: Respingem H0 dacă la
pragul de semnificație α dacă
Fcalculat>Fα,gl numarator, gl numitor
• Cum interpretam rezultatul ?
• Nu reușim să respingem H0: nu exista
probe că vreunul dintre predictori este
asociat linear cu variabila explicată
• Dacă respingem H0: cel puțin unul dintre
predictori este asociat cu variabila explicată

10

10

5
Modelul nerestrictionat:
. reg lsalary years gamesyr bavg hrunsyr rbisyr

Source SS df MS Number of obs = 353


F( 5, 347) = 117.06
Model 308.989208 5 61.7978416 Prob > F = 0.0000
Residual 183.186327 347 .527914487 R-squared = 0.6278
Adj R-squared = 0.6224
Total 492.175535 352 1.39822595 Root MSE = .72658

lsalary Coef. Std. Err. t P>|t| [95% Conf. Interval]

years .0688626 .0121145 5.68 0.000 .0450355 .0926898


gamesyr .0125521 .0026468 4.74 0.000 .0073464 .0177578
bavg .0009786 .0011035 0.89 0.376 -.0011918 .003149
hrunsyr .0144295 .016057 0.90 0.369 -.0171518 .0460107
rbisyr .0107657 .007175 1.50 0.134 -.0033462 .0248776
_cons 11.19242 .2888229 38.75 0.000 10.62435 11.76048

Model restrictionat:
. reg lsalary years gamesyr

Source SS df MS Number of obs = 353


F( 2, 350) = 259.32
Model 293.864058 2 146.932029 Prob > F = 0.0000
Residual 198.311477 350 .566604221 R-squared = 0.5971
Adj R-squared = 0.5948
Total 492.175535 352 1.39822595 Root MSE = .75273
Implicatie???
(c3,347) =2,60 pt 5%
lsalary Coef. Std. Err. t P>|t| [95% Conf. Interval]

years .071318 .012505 5.70 0.000 .0467236 .0959124


gamesyr .0201745 .0013429 15.02 0.000 .0175334 .0228156
_cons 11.2238 .108312 103.62 0.000 11.01078 11.43683

11

11

Realizarea unui test F în SAS

bavg, hrunsyr, rbisyr sunt impreuna


statistic semnificative în acest model

Din acest punct de vedere, cum


explicati că statisticile t pentru aceste
variabile sunt toate nesemnificative?

Sugestie: corr(hrunsyr, rbisyr) = 0.89.

12

12

6
Dacă eliminam rbisyr…

• Sa ne reamintim:

• Acest exemplu arată


destul de clar că
includerea de regresori
aproape multicoliniari
duce la erori standard
mari si, în consecință, la
valori t mici.

13

13

Calculul valorilor p pentru testele F


• Valoarea p este definita ca

unde F este o valoare aleatoare cu gl=(q,n-k-k) și F este


valoarea tabelata a statisticii, cu acelasi numar de gl.

Interpretarea lui p: Probabilitatea de a observa o valoare a lui


F la fel de mare dat fiind că ipoteza nulă este adevarată.

Spre exemplu, o valoare p-value = 0.016 implica o


probabilitate de numai 1.6% - atunci vom respinge ipoteza
nulă la un prag de 5% (dar nu la nivelul de 1%).
14

14

7
Statistica F pentru semnificația
generala a unei regresii
• Sa consideram următorul model și ipoteza
nulă:
• 𝑦 = 𝛽0 + 𝛽1 ∙ 𝑥1 + 𝛽2 ∙ 𝑥2 + ⋯ + 𝛽𝑘 ∙ 𝑥𝑘 + 𝑢
H0: x1, x2,…, xk nu explica y

• Modelul sub H0:

• Convingeti-va ca, în acest caz, statistica F poate fi calculata ca

15

15

• Acest tip de test determina


semnificația globala a regresiei
• Dacă nu reușim să respingem ipoteza
nulă, modelul nostru are o putere
explicativa foarte mica – nu aduce
nicio îmbunătățire semnificativa fata
de un model fără nicio variabila!
• În acest caz, ar trebui probabil să
căutam alte variabile explicative

F=

= (0.6278/5) / [(1-0.6278)/347]
= 117,06

16

16

8
Distribuții de sondaj
• În capitolele anterioare am studiat valoarea
așteptată și varianța estimatorilor CMMP
• Pentru a face inferența, trebuie să cunoaștem
întreaga distribuție de sondaj a estimatorului
𝛽෡𝑗
• Pentru a putea caracteriza distribuția de
sondaj, trebuie să presupunem că termenul de
eroare neobservat (u) are o distribuție normală
în populație
– Aceasta se mai numește supoziția de normalitate

17

17

Supoziție suplimentară: Normalitatea


• Păstrăm supozițiile MLR.1-5 din expunerea
anterioară (regresie lineară, eșantion
aleator, coliniaritate imperfectă, medie
condiționată zero, homoscedasticitate).
• Și o adăugăm pe următoarea:
– Supoziția MLR.6: Normalitate – Eroarea
populației u este independentă de variabilele
explicative x1, x2,…,Xm și este distribuită
normal cu medie zero și varianță σ2: u ~
Normal(0, σ2) – v. pag. 113

18

18

9
Recapitulare: Distribuția normală
• Distribuția normală este foarte
folosită în statistica și
econometrie, deoarece
normalitatea simplifica calculul
probabilităților
• O variabilă aleatoare normală este
o variabila aleatoare normală care
poate lua orice valoare
• Forma funcției de densitate a
probabilității (fdp) pentru distribuția
normală este arătata în figura A.4
• Formula matematica pentru fdp
este:

…unde:

19

19

• Pentru aplicațiile de regresie, supozițiile MLR.1 - MLR.6


sunt numite supozițiile modelului linear clasic (MLC).

• O implicație imediata a supozițiilor MLC este aceea că,


date fiind variabilele explicative, variabila dependentă y
are o distribuție normală cu varianță constantă (ultima
datorată homoscedasticității)

• Vezi graficul de pe cartonul următor, care arată că valorile


pe care variabila dependentă Y le poate lua pentru orice
valoare a variabilei independente X au o varianță
constantă

20

20

10
21

21

Cum justificăm ipoteza normalității?


• Teorema limită centrală (TLC): reziduala u este suma
multor factori diferiți; și prin TLC suma multor variabile
aleatoare este normal distribuită (vezi pct. 5 din Anexa A
– Gujarati, p. 890)
• Acest argument nu este lipsit de slăbiciune (nu este
valabila dacă u nu este aditiv)
• Este o chestiune empirică dacă normalitatea este
valabilă într-o aplicație anumită – care poate fi
investigata
• Puteți găsi exemple în care este evident că variabila
dependenta (condiționata de variabilele x) nu urmează
o distribuție normală? (ex.: venitul)
• Uneori utilizând o transformare – ex. logaritmând –
obținem o distribuție mai aproape de normală

22

22

11
Distribuții de sondaj ale salariilor
ca nivel și prin logaritmare
(CEO1.XLS)

.8
6.0e-04

.6
4.0e-04
Density

Density

.4
2.0e-04

.2
0

0 5000 10000 15000 5 6 7 8 9 10


1990 salary, thousands $ logsalary

23

23

De ce presupunem normalitatea?
• Răsp: Implică faptul că estimatorii CMMP 𝛽෡𝑗
urmează, la fel, o distribuție normală. Aceasta
face inferența (și viața noastră) mult mai simplă.
• Teorema : Sub supozițiile MLC (MLR.1-6),
condiționat de valorile de sondaj ale variabilelor
independente,
𝛽መ𝑗 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝛽𝑗 , 𝑣𝑎𝑟 𝛽መ𝑗
• unde (să ne reamintim) :
𝜎2
𝑉𝑎𝑟 𝛽መ𝑗 =
𝑆𝑆𝑇𝑗 1 − 𝑅𝑗2
24

24

12
𝜎2
𝑉𝑎𝑟 𝛽መ𝑗 =
𝑆𝑆𝑇𝑗 1 − 𝑅𝑗2
2
• Unde 𝑆𝑆𝑇𝑗 = σ𝑛1=1 𝑥𝑖𝑗 − 𝑥𝑗ҧ
• este varianța totală de sondaj a lui Xj, și Rj2 este
R-pătrat din regresia lui Xj pe toți ceilalți
regresori (inclusiv parametrul liber).

25

• Rezultatul
𝛽መ𝑗 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝛽𝑗 , 𝑣𝑎𝑟 𝛽መ𝑗
• implică faptul că
𝛽෡𝑗 − 𝛽𝑗
~𝑁𝑜𝑟𝑚𝑎𝑙(0,1)
𝑠𝑒 𝛽෡𝑗
• În alte cuvinte, aceasta spune că deviația dintre valoarea
estimată și valoarea adevărată a parametrului, împărțită la
abaterea standard a estimatorului este distribuită normal
cu media zero și varianța egală cu 1.
• După cum vom vedea, acest rezultat este extrem de util
atunci când vrem să testăm ipoteze.

26

26

13
Testarea ipotezelor asupra unui
singur parametru al populației: Testul
t
• Această secțiune prezintă un subiect foarte important:
testarea ipotezelor despre un singur parametru.
• Punctul de plecare este modelul populației
𝑦 = 𝛽0 + 𝛽1 ∙ 𝑥1 + 𝛽2 ∙ 𝑥2 + ⋯ + 𝛽𝑘 ∙ 𝑥𝑘 + 𝑢
– unde presupunem că supozițiile MLC sunt valide.
• Scopul nostru este să testam ipoteze despre un anumit
parametru 𝛽𝑗
• Rețineți: 𝛽𝑗 sunt parametri necunoscuți și nu-i vom
cunoaște niciodată cu siguranța. Dar putem face ipoteze
despre valoarea 𝛽𝑗 și să folosim inferența statistică să
testăm ipotezele.

27

27

Rezultatul cheie în testarea


ipotezelor:
• Teorema : Distribuția t pentru estimatorii standardizați – sub
supozițiile MLC,
𝛽෡𝑗 − 𝛽𝑗
~𝑡𝑛−𝑘−1
𝑠𝑒 𝛽෡𝑗
• unde k+1 este numărul parametrilor necunoscuți din
populație (k parametri de pantă și parametrul liber).
• În cuvinte, aceasta spune că deviația dintre valoarea
estimată și valoarea adevărată a parametrului, împărțită la
abaterea standard a estimatorului urmează o distribuție t
cu n-k-1 grade de libertate.

28

28

14
Distribuția t (Student)
• Forma este similară cu distribuția normală – dar este mai
împrăștiată și are o suprafață mai mare în cozi
• Pe măsură ce numărul de grade de libertate (gl) creste,
distribuția t se apropie de distribuția normală
• La pagina 892 din anexa A (Gujarati) găsiți detalii despre
distribuția t.

29

29

Testarea ipotezei nule 𝐻0 : 𝛽𝑗 = 0


• În cele mai multe aplicații, testarea ipotezei
𝐻0 : 𝛽𝑗 = 0
este de interes central (j corespunde oricăreia dintre cele
k variabile independente din model).
• Deoarece βj măsoară efectul parțial al variabilei Xj
asupra valorii așteptate a variabilei Y controlând
ceilalți factori
• Dacă 𝐻0 e adevărată, înseamnă că Xj nu are
niciun efect asupra valorii așteptate a lui Y.

30

30

15
Exemplu: Ecuația venitului
• Fie modelul
log 𝑠𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛽0 + 𝛽1 ∙ 𝑒𝑑𝑢𝑐 + 𝛽2 ∙ 𝑒𝑥𝑝𝑒𝑟 + 𝛽3 ∙ 𝑣𝑒𝑐ℎ𝑖𝑚𝑒 + 𝑢
• Ipoteza nulă 𝐻0 : 𝛽2 = 0 înseamnă că, odată ce educația și
vechimea în post sunt stabilite (fixate), numărul de ani de
experiența nu are niciun efect asupra venitului orar.
• Este aceasta o ipoteză interesantă din punct de vedere
economic?
• Să vedem acum cum putem realiza și interpreta un
asemenea test.

31

31

Testul t
• Testul statistic utilizat pentru a testa 𝐻0 : 𝛽𝑗 = 0 este numit
statistica t sau raportul t al lui 𝛽𝑗 și este definit ca
𝛽෡𝑗 − 𝛽 ∗
𝑡𝛽෢𝑗 =
𝑠𝑒(𝛽෡𝑗 )
• Unde 𝛽 ∗ este valoarea pe care o testăm. În acest caz,
𝛽∗ = 0
• După cum puteți vedea, statistica t este ușor de calculat:
doar împărțiți estimația coeficientului la abaterea standard
• Excel (si multe alte produse econometrice) o va face
pentru voi.

32

32

16
Testul t
• Întrucât întotdeauna 𝑠𝑒(𝛽෡𝑗 ) este pozitiv,
statistica t va avea întotdeauna același
semn cu estimația coeficientului (în
particular, în cercetarea aplicativă se
raportează valoarea absolută a statisticii t –
va fi clar de ce mai târziu)

33

33

Raționament intuitiv
෢𝑗
𝛽
• Știm că 𝑡𝛽෢𝑗 = ෢𝑗 )
𝑠𝑒(𝛽

• Scopul nostru este să testăm 𝐻0 : 𝛽𝑗 = 0


• În practică, estimația punctuală 𝛽෡𝑗 nu va fi
niciodată zero, chiar dacă 𝐻0 este sau nu
adevărată
• Întrebarea este: cât de departe este 𝛽𝑗 de zero?
• Dacă 𝛽෡𝑗 este foarte departe de zero, aceasta este
o probă împotriva ipotezei nule (nu-i așa?)

34

34

17
• Dar rețineți: există o eroare de sondaj în estimarea lui 𝛽𝑗 ,
deci mărimea lui 𝛽𝑗 trebuie ponderată cu eroarea de
sondaj
• Întrucât eroarea standard a lui 𝛽෡𝑗 este o estimație a
abaterii standard a lui 𝛽𝑗 , 𝑡𝛽෢𝑗 măsoară la câte abateri
standard se află 𝛽෡𝑗 de zero.
• Dacă 𝐻0 : 𝛽𝑗 = 0 este adevărată, este puțin probabil ca să
se afle la multe abateri standard de zero (vezi forma fdp)
• Astfel, valori ale statisticii 𝑡𝛽෢𝑗 “suficient” de departe de zero
vor duce la respingerea ipotezei nule H0.

35

35

Testarea față de alternativa


unilaterală
• Regula de respingere a 𝐻0 depinde de:
– Ipoteza alternativă (𝐻1 )
– Nivelul de semnificație ales pentru test
• Să privim mai întâi o alternativă unilaterală a formei:
𝐻1 : 𝛽𝑗 > 0
• Apoi, să decidem un nivel (prag) de semnificație
– Nivel de semnificație = probabilitatea de respingere H0 când de
fapt este adevărată (adică greșim).
– Să alegem un prag de semnificație de 5% (decizia cea mai
frecventă): atunci, alegem să respingem greșit H0 când este
adevărată în 5% din cazuri.

36

36

18
• Sub 𝐻0 (βj=0 ), statistica t are o distribuție Student
t.
• Sub 𝐻1 (βj>0), valoarea așteptată a statisticii t este
pozitivă (nu?).
• Astfel, căutam o valoare pozitivă a statisticii t
“suficient de mare” pentru a respinge H0: βj=0.
• Cu un prag de semnificație de 5%, definiția lui
“suficient de mare” este pur și simplu a 95-a
percentilă într-o distribuție t cu n-k-1 grade de
libertate.
• Notăm aceasta valoare ( ”a 95-a percentilă a…”) cu c.

37

37

Testarea ipotezei unilaterale


• Regula de respingere: 𝐻0 este respinsă în favoarea 𝐻1 la
un prag de semnificație de 5% dacă
• 𝑡𝛽෢𝑗 > 𝑐
ADICĂ: Respingem ipoteza nulă când statistica t
calculată este mai mare decât c (sau valoarea statisticii t
pentru n-k-1 grade de libertate, corespunzătoare
pragului de semnificație ales: 5%)
CONSECINȚĂ: Dacă este mai mică, NU RESPINGEM
IPOTEZA NULĂ.
• Am văzut cum se obține statistica t.
• Dar cum îl obținem pe c?
• Ca să îl obținem pe c, avem nevoie doar de pragul de
semnificație și de numărul de grade de libertate (gl). 38

38

19
Exemplu Tab. 3.2 (Gujarati): Pentru gl = 8 și prag
semnificație 5%, c=1.860
➢ Dacă statistica t este mai mică de 1.860, nu
vom respinge 𝐻0 în favoarea 𝐻𝟏
➢ Dar dacă statistica noastră t este mai mare de
1.860, vom respinge 𝐻0 în favoarea 𝐻𝟏

Regiunea e de
5%, nu 2,5%

0 0,0664

t=14,24 se afla în
aceasta regiune
critică de 5%

39

39

Concluzie
• Întrucât statistica t calculată este 14,24 și
fiind mai mare decât valoarea c=1,860
corespunzătoare pragului de 5% la 8 gl,
înseamnă că t este în zona critică, deci nu
reușim să acceptăm ipoteza nulă
• Din exemplul nostru, înseamnă că 𝛽መ2 ≠ 0
(rezultatul testului ne spune că 𝛽መ2 este
“suficient mai mare” decât 0)

40

40

20
Câteva puncte de remarcat
• Pe măsură ce pragul de semnificație scade,
valoarea critică crește. De ce?
• Dacă 𝐻0 este respinsă (să spunem) la prag
de 5%, va fi de asemenea respinsă la prag
de 10%.
• Care este valoarea critică a lui c pentru
– Prag de semnificație de 10% cu gl=21?
– Prag de semnificație de 1% cu gl=120?

41

41

Exemplu: Consumul în funcție de


venit
• Model (cf. notație Gujarati): consum = β1+β2*venit
• Pe baza rezultatelor, testam H0: β2=0 fata de H1: β2>0

consum = 1 +  2venit + u

42

42

21
Teste bilaterale
• Deși sunt de interes, testele unilaterale sunt mai
rar utilizate în econometrie
• Mult mai întâlnite sunt testele unei ipoteze nule ca
𝐻0 : 𝛽𝑗 = 0 față de o alternativa bilaterală ca
𝐻1 : 𝛽𝑗 ≠ 0
• În cuvinte, H1 este că Xj are un efect ceteris
paribus asupra lui Y, care poate fi ori pozitiv sau
negativ.
• Când alternativa este bilaterală, suntem interesați
de valoarea absolută a statisticii t.
• Regula de respingere: 𝑡𝛽෢𝑗 > 𝑐
43

43

Teste bilaterale: intervalul de


încredere
• Pentru o mai bună înțelegere, trebuie să
construim intervalul de încredere al estimației
pentru cazul în care dorim să o verificăm în
comparație cu o anumită valoare a parametrului
(0 în exemplul nostru)
• În cuvinte, verificăm dacă probabilitatea ca
estimația să ia o anumită valoare este, să
spunem, de 95% (prin diferența cu pragul de
semnificație), adică în aria de acceptare a
ipotezei

44

44

22
Intervale de încredere
• Odată ce am estimat parametrul populației β𝑗 și am obținut
eroarea standard, putem ușor să calculam un interval de
încredere (CI) pentru β𝑗 .
෢𝑗 −β𝑗
𝛽
• Sa ne reamintim că 𝑠𝑒(𝛽෢ ) are o distribuție t cu n-k-1 grade de
𝑗
libertate (gl).
• Definim un interval de încredere de 95% pentru β𝑗 ca
෢𝑗 = ±𝑐 ∙ 𝑠𝑒 β
β ෢𝑗
• unde constanta c este a 97,5-a percentila a distribuției tn-k-1 .
• Alegem a 97,5-a percentilă pentru că aria de acceptare reprezintă
probabilitatea de 95% ca limitele intervalului de încredere să aibă
anumite valori, ceea ce face ca în cele două cozi ale distribuției să
avem câte o zonă de respingere a câte 2,5% fiecare

45

45

Intervale de încredere
෢𝑗 = ±𝑐 ∙ 𝑠𝑒 β
β ෢𝑗
෢𝑗 − 𝑐 ∙ 𝑠𝑒
𝛽𝑗 = β ෢𝑗 − 𝑙𝑖𝑚. 𝑖𝑛𝑓
β
⇒ቐ
෢𝑗 − 𝑐 ∙ 𝑠𝑒
𝛽𝑗 = β ෢𝑗 − 𝑙𝑖𝑚. 𝑠𝑢𝑝
β
• Înțelesul CI: dacă eșantioanele aleatoare ar fi
selectate de multe ori (din aceeași populație),
cu 𝛽𝑗 și 𝛽𝑗 calculate de fiecare dată (definind
multe CI), valoarea din populație β𝑗 ar cădea
în interiorul CI în 95% din cazuri

46

46

23
Cum se calculează intervalele de
încredere
• Avem nevoie de trei cantități: β෢𝑗 , 𝑠𝑒 β
෢𝑗 și 𝑐
• Valoarea lui c depinde de numărul n-k-1 de
grade de libertate și de pragul de semnificație
ales (95% în acest caz)
• Pentru gl=8, un interval de încredere (CI) de
95% este dat de:
෢𝑗 − 2,306 ∙ 𝑠𝑒 β
β ෢𝑗 , β
෢𝑗 + 2,306 ∙ 𝑠𝑒 β෢𝑗
• unde c=2,306 este valoarea critică a lui t din
tabela distribuției t pentru 8 gl și prag de
semnificație de 5% (de fapt, câte 2,5% în
fiecare “coada” a distribuției)
47

47

Intervale de încredere
• Pentru un număr mare de gl (de regulă, peste 100, deci
eșantioane mari), distribuția t este destul de apropiată
de distribuția normală, astfel că utilizarea celei de a
97,5-a percentile din distribuția normală este corecta:
෢𝑗 ± 1,96 ∙ 𝑠𝑒 β
𝐶𝐼: β ෢𝑗
• De aici, o regulă generală simplă pentru un CI de 95%:
plus sau minus două erori standard
• Cum veți construi un interval de încredere pentru un alt
nivel de încredere (cum ar fi de 90%)?
• Cum este afectat intervalul de încredere de o creștere a
nivelului de încredere (ex.: de la 95% la 99%)? De ce?

48

48

24
Nu uitați supozițiile MLC!
• Estimațiile intervalului de încredere nu vor fi
fiabile dacă supozițiile MLC nu sunt valide.
– Variabilele omise pot submina estimațiile CI.
– Heteroscedasticitatea va submina estimațiile
CI.

49

49

Teste bilaterale (cont.)


• Probabilitatea este de forma
𝛽መ2 − 𝛽2∗
𝑃𝑟 −𝑡𝛼/2 ≤ ≤ 𝑡𝛼/2 = 1 − 𝛼
𝑠𝑒 𝛽መ2
• Rearanjând relația, ea devine
𝑃𝑟 𝛽2∗ − 𝑡𝛼/2 ∙ 𝑠𝑒 𝛽መ2 ≤ 𝛽መ2 ≤ 𝛽2∗ + 𝑡𝛼/2 ∙ 𝑠𝑒 𝛽መ2 =1−𝛼
• unde 𝑡𝛼/2 este pragul critic din tabela distribuției t
la pragul de semnificație 𝛼/2 (0,025), adică, în
exemplul nostru 𝑡𝛼/2 = 2,306
• Relația probabilității devine
𝑃𝑟 0,4267 ≤ 𝛽መ2 ≤ 0,5915 = 0,95

50

50

25
Teste bilaterale (cont.)
• Pentru a-l găsi pe c, specificam mai întâi pragul de
semnificație, fie 5%.
• Deoarece testul este bilateral, c este ales astfel încât aria
din fiecare coada să fie egala cu 2.5% - adică c este a
97.5-a percentilă în distribuția t (din nou, cu n-k-1 gl).
• Graficul arata că, dacă gl=8, atunci c=2,306
• Jargon econometric: Dacă 𝐻0 : 𝛽𝑗 = 0 este respinsă într-un
test bilateral, putem spune că ”Xj este statistic
semnificativa la nivelul de 5%”. Concluzionam astfel că
efectul lui Xj asupra lui Y nu este zero.
• Ca o probă în plus, observăm că valoarea 0 de test a
parametrului nu este inclusă în intervalul de încredere!!!

51

51

Exemplu:
Determinanții scorului de evaluare GPA
. regress colGPA hsGPA ACT skipped

Source SS df MS Number of obs = 141


F( 3, 137) = 13.92
Model 4.53313314 3 1.51104438 Prob > F = 0.0000
Residual 14.8729663 137 .108561798 R-squared = 0.2336
Adj R-squared = 0.2168
Total 19.4060994 140 .138614996 Root MSE = .32949

colGPA Coef. Std. Err. t P>|t| [95% Conf. Interval]

hsGPA .4118162 .0936742 4.40 0.000 .2265819 .5970505


ACT .0147202 .0105649 1.39 0.166 -.0061711 .0356115
skipped -.0831131 .0259985 -3.20 0.002 -.1345234 -.0317028
_cons 1.389554 .3315535 4.19 0.000 .7339295 2.045178

• (skipped măsoară numărul de cursuri la care s-a lipsit pe săptămână).


• Verificați dacă t sunt într-adevăr = coef./std err.
• Sunt hsGPA, ACT și skipped ”statistic semnificative”?
• Ce putem concluziona în privința adevăratelor valori ale parametrilor
pe baza acestor rezultate? 52

52

26
Testarea altor ipoteze despre 𝜷𝒋
• Chiar dacă 𝐻0 : 𝛽𝑗 = 0 este cea mai întâlnită ipoteză,
uneori dorim să testam dacă 𝛽𝑗 este egală cu o anumită
valoare constantă. Să presupunem că ipoteza nulă este:
𝐻0 : 𝛽𝑗 = 𝑎𝑗
• În acest caz, statistica t corectă este
𝛽෡𝑗 − 𝑎𝑗
𝑡𝛽෢𝑗 =
𝑠𝑒(𝛽෡𝑗 )

53

53

Testarea față de o valoare particulară


a parametrului
• Să presupunem că
dorim să testăm dacă
valoarea estimată a
parametrului β2 este 0.3
• Calculăm statistica
0,50909 − 0,3
𝑡= = 5,86
0,03574

54

54

27
Testarea față de o valoare particulară
a parametrului
• Graficul ne arată intervalul de
încredere pentru parametrul
β2=0,3, cu o probabilitate de
95%
• Întrucât estimația pe care am
obținut-o (𝛽መ2 = 0,5091) se află
în zona critică, avem suficiente
probe să concluzionăm că β2
nu poate lua valoarea 0,3, deci
respingem ipoteza nulă
H0: β2 = 0,3

55

55

Testarea față de o valoare particulară


a parametrului
• Să analizăm rezultatele din
perspectiva distribuției t, știind
0,5091−0,3
că 𝑡 = = 5,86
0,0357
• În general, o valoare t mare
este o probă împotriva ipotezei
nule
• Valoarea statisticii calculate
t=5,86 este mai mare decât
valoarea statisticii t pentru 8
grade de libertate la un prag
de 2,5%, corespunzător unui
test bilateral (este în zona
critică de respingere)
• Ca urmare respingem H0: β2 =
0,3
56

56

28
Testarea față de o valoare particulară
a parametrului
• Întrucât valoarea 0,3 este în afara
intervalului de încredere (cu probabilitate de
95%), decidem că putem respinge ipoteza
nulă (greșim doar cu o probabilitate de 5%
să spunem că 𝛽2 ≠ 0,3, când ea ar putea
avea aceasta valoare cu adevărat)
• Mai avem însă o statistica utilă: p-value

57

57

Calculul valorilor p pentru testul t


• Am văzut cum analistul alege pragul de semnificație.
Există o componentă de arbitrar și nu există niciun prag
de semnificație ”corect”.
• În practica, pragul de 5% este cel mai uzitat, dar și cel de
10% este utilizat frecvent (in special pentru seturi mici de
date) așa cum 1% este mai folosit pentru seturi mari de
date.
• Dată fiind valoarea statisticii t, care este cel mai mic nivel
de semnificație la care ipoteza nulă ar fi respinsă?
• Acest nivel este cunoscut ca p-value (valoarea pragului de
probabilitate).

58

58

29
• Exemple: Să presupunem că t = 1.85 și gl=40.
• Aceasta rezultă într-o valoare p = 0.0718.

59

59

Valorile p în Excel
• Interpretarea corectă: Valoarea p (p-value) este
probabilitatea de a observa o valoare la fel de extremă ca
aceea pe care am observa-o dacă ipoteza nulă este
adevărată. ☺
• Interpretarea greșită (nu rareori): ”Valoarea p este
probabilitatea ca ipoteza nulă să fie adevărată….”. 
• Astfel, valori p mici sunt o probă împotriva ipotezei nule.
Dacă valoarea p este, să spunem, 0.04, am putea spune
că există o semnificație la nivelul de 5% (de fapt la nivelul
de 4%) dar nu la nivelul de 1% (sau nivelul 3% ori 2%).

60

60

30
Semnificația economică vs. cea
statistică
• Așa cum am văzut, semnificația statistică a unei
variabile Xj este determinată în întregime de
valoarea statisticii t
• Semnificația economică a unei variabile este legată
de mărimea (și semnul) coeficientului estimat.
• O concentrare prea mare pe semnificația statistică
poate duce la concluzia falsă că o variabila este
“importantă” pentru explicarea lui Y, chiar dacă
efectul estimat este mic.
• Așadar: este întotdeauna important să interpretam
magnitudinea coeficientului estimat (în plus față de
atenția acordată semnificației statistice).

61

61

Instrucțiuni pentru interpretarea


semnificației economice și statistice
• În practică:
• Verificați semnificația statistică. Dacă este
semnificativă, discutați mărimea coeficientului
• Dacă nu este semnificativ la (cel puțin) 10%,
verificați semnul coeficientului în concordanta
cu așteptările voastre (atenție: nu este deloc
“greșit” să obțineți coeficienți nesemnificativi...)
• Dacă semnul este opus așteptărilor și efectul
este semnificativ statistic, asta arata că ceva
nu este în regulă: poate specificația modelului
(variabile omise) sau teoria de la care ați
plecat

62

62

31
Testarea restricțiilor de excludere
• Scop: testarea dacă un grup de variabile nu
au niciun efect asupra variabilei
dependente.
• Sa considerăm următorul model al salariilor
jucătorilor de baseball

(salary = salariul total din 1993; years = ani în liga; gamesyr = numarul mediu de jocuri în liga; bavg = media
loviturilor în cariera; hrunsyr = circuite complete (home runs) pe an; rbisyr = circuite batute pe an)

”Restrictii de excludere”

H1: H0 nu este adevarata Formulati și explicati


ipoteza nulă în cuvinte 63

63

Rezultate (MLB1.xls)
• Adică fiecare dintre coeficienți este statistic
. reg lsalary years gamesyr bavg hrunsyr rbisyr

Source SS df MS Number of obs = 353


nesemnificativ.
Model 308.989208 5 61.7978416
F( 5,
Prob > F
347) =
=
117.06
0.0000
Residual 183.186327 347 .527914487 R-squared = 0.6278

• Implica asta că nu ar trebui să respingem


Total 492.175535 352 1.39822595
Adj R-squared
Root MSE
=
=
0.6224
.72658

H0? lsalary Coef. Std. Err. t P>|t| [95% Conf. Interval]

• Răspuns: Nu – deoarece ipoteza nulă se


years .0688626 .0121145 5.68 0.000 .0450355 .0926898
gamesyr .0125521 .0026468 4.74 0.000 .0073464 .0177578
bavg .0009786 .0011035 0.89 0.376 -.0011918 .003149
Testele se refera la
refera la mai multe restricții.
acesti coeficienti
hrunsyr
rbisyr
_cons
.0144295
.0107657
11.19242
.016057
.007175
.2888229
0.90
1.50
38.75
0.369
0.134
0.000
-.0171518
-.0033462
10.62435
.0460107
.0248776
11.76048

64

64

32
• Problema principală: cât de mult crește SSR
când impunem restricții?
• Jargon econometric: ”impunerea de restricții” =
alte valori (in cazul nostru zerouri) sunt
presupuse decât cele care sunt obținute când
modelul este estimat fără restricții.
• Distingem:
– Modelul fără restricții: Nicio restricție impusa
– Modelul restricționat: Sunt impuse anumite restricții
• În cazul nostru, modelul restricționat poate fi
scris: +u

În comparatie cu modelul nerestrictionat de dinainte, stim că


SSR trebuie să fie mai mare pentru acest model restrictionat
(deoarece acum factorii omisi merg acum în reziduala u). 65

65

+u

• Întrebare-cheie: Creste SSR îndeajuns ca


să fim siguri că putem respinge ipoteza
nulă?
– Dacă SSR creste mult când excludem ultimele
trei variabile explicative => acele variabile au
putere explicativa semnificativa (si nu trebuie
omise).
– Dacă SSR creste puțin când excludem ultimele
trei variabile explicative => acele variabile au
putere explicativa nesemnificativa (si pot fi
omise).

66

66

33
Raportarea rezultatelor regresiei
• Până acum am investigat instrumentele de
bază ale analizei prin regresie. Ne vom
ocupa acum de chestiunile practice de
raportare a rezultatelor acestei analize.
• Aceasta ajută la citirea articolelor publicate
în economie și vă pregătește să scrieți
propriile rapoarte empirice sau articole
• Exercițiile (pe calculator) sunt o ocazie de a
practica abilitățile de prezentare

67

67

• Estimațiile CMMP trebuie să fie


comunicate și interpretate
• Erorile standard trebuie să fie întotdeauna
incluse alături de coeficienții estimați, de
regulă, în paranteze. Unii autori prefera, în
loc, indicarea statisticilor t
• R2 și numărul de observații trebuie, de
asemenea, să fie prezentat

68

68

34
Rezultatele regresiei sunt de
obicei prezentate într-un astfel de
tabel:

69

69

35

S-ar putea să vă placă și