Documente Academic
Documente Profesional
Documente Cultură
1
Testarea ipotezelor asupra
parametrilor (2)
• În regresia liniară, procedăm la două
principale ipoteze:
– Dacă toți parametrii sunt zero (testul F);
– Dacă fiecare dintre parametri sunt zero (testul
t).
• Testul F răspunde la întrebările: am
construit un model relevant? Toate
variabilele independente au o influență
asupra variabilei independente?
2
Testarea ipotezelor asupra
parametrilor (4)
• Testul t răspunde la întrebarea: este
parametrul βj semnificativ (diferit de zero)?
• Echivalent, ne întrebăm dacă variabila Xj
are o influență asupra variabilei dependente
Y
• Dacă testul t este semnificativ, variabila Xj
are o influență asupra variabilei dependente
Y
3
Statistica F
• unde SSRr este suma pătratelor
rezidualelor pentru modelul restricționat;
5.5
SSRur este SSR pentru modelul
nerestricționat și q este numărul restricțiilor
impuse în mișcarea de la modelul
nerestricționat către modelul restricționat.
Statistica F și distribuția F
• Pentru a utiliza statistica F trebuie să
cunoaștem distribuția ei statistica sub ipoteza
nulă (asta ne permite să alegem valorile critice
și regulile de respingere) – v. Anexa A p. 893
• Sub H0, F urmează o distribuție F cu (q,n-k-1)
grade de libertate: F~Fq,n-k-1.
• Valorile critice de 25%, 10%, 5% și 1% pentru
distribuția F sunt date în tabela D3 p. 962.
• Regula de respingere: Respingem H0 în
favoarea lui H1 la (sa spunem) prag de
semnificație de 5% dacă F>c, unde c este a
95-a percentile din distribuția Fq,n-k-1 .
4
Regula de interpretare a statisticii F
• Regiunea critică: Respingem H0 dacă la
pragul de semnificație α dacă
Fcalculat>Fα,gl numarator, gl numitor
• Cum interpretam rezultatul ?
• Nu reușim să respingem H0: nu exista
probe că vreunul dintre predictori este
asociat linear cu variabila explicată
• Dacă respingem H0: cel puțin unul dintre
predictori este asociat cu variabila explicată
10
10
5
Modelul nerestrictionat:
. reg lsalary years gamesyr bavg hrunsyr rbisyr
Model restrictionat:
. reg lsalary years gamesyr
11
11
12
12
6
Dacă eliminam rbisyr…
• Sa ne reamintim:
13
13
14
7
Statistica F pentru semnificația
generala a unei regresii
• Sa consideram următorul model și ipoteza
nulă:
• 𝑦 = 𝛽0 + 𝛽1 ∙ 𝑥1 + 𝛽2 ∙ 𝑥2 + ⋯ + 𝛽𝑘 ∙ 𝑥𝑘 + 𝑢
H0: x1, x2,…, xk nu explica y
15
15
F=
= (0.6278/5) / [(1-0.6278)/347]
= 117,06
16
16
8
Distribuții de sondaj
• În capitolele anterioare am studiat valoarea
așteptată și varianța estimatorilor CMMP
• Pentru a face inferența, trebuie să cunoaștem
întreaga distribuție de sondaj a estimatorului
𝛽𝑗
• Pentru a putea caracteriza distribuția de
sondaj, trebuie să presupunem că termenul de
eroare neobservat (u) are o distribuție normală
în populație
– Aceasta se mai numește supoziția de normalitate
17
17
18
18
9
Recapitulare: Distribuția normală
• Distribuția normală este foarte
folosită în statistica și
econometrie, deoarece
normalitatea simplifica calculul
probabilităților
• O variabilă aleatoare normală este
o variabila aleatoare normală care
poate lua orice valoare
• Forma funcției de densitate a
probabilității (fdp) pentru distribuția
normală este arătata în figura A.4
• Formula matematica pentru fdp
este:
…unde:
19
19
20
20
10
21
21
22
22
11
Distribuții de sondaj ale salariilor
ca nivel și prin logaritmare
(CEO1.XLS)
.8
6.0e-04
.6
4.0e-04
Density
Density
.4
2.0e-04
.2
0
23
23
De ce presupunem normalitatea?
• Răsp: Implică faptul că estimatorii CMMP 𝛽𝑗
urmează, la fel, o distribuție normală. Aceasta
face inferența (și viața noastră) mult mai simplă.
• Teorema : Sub supozițiile MLC (MLR.1-6),
condiționat de valorile de sondaj ale variabilelor
independente,
𝛽መ𝑗 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝛽𝑗 , 𝑣𝑎𝑟 𝛽መ𝑗
• unde (să ne reamintim) :
𝜎2
𝑉𝑎𝑟 𝛽መ𝑗 =
𝑆𝑆𝑇𝑗 1 − 𝑅𝑗2
24
24
12
𝜎2
𝑉𝑎𝑟 𝛽መ𝑗 =
𝑆𝑆𝑇𝑗 1 − 𝑅𝑗2
2
• Unde 𝑆𝑆𝑇𝑗 = σ𝑛1=1 𝑥𝑖𝑗 − 𝑥𝑗ҧ
• este varianța totală de sondaj a lui Xj, și Rj2 este
R-pătrat din regresia lui Xj pe toți ceilalți
regresori (inclusiv parametrul liber).
25
• Rezultatul
𝛽መ𝑗 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝛽𝑗 , 𝑣𝑎𝑟 𝛽መ𝑗
• implică faptul că
𝛽𝑗 − 𝛽𝑗
~𝑁𝑜𝑟𝑚𝑎𝑙(0,1)
𝑠𝑒 𝛽𝑗
• În alte cuvinte, aceasta spune că deviația dintre valoarea
estimată și valoarea adevărată a parametrului, împărțită la
abaterea standard a estimatorului este distribuită normal
cu media zero și varianța egală cu 1.
• După cum vom vedea, acest rezultat este extrem de util
atunci când vrem să testăm ipoteze.
26
26
13
Testarea ipotezelor asupra unui
singur parametru al populației: Testul
t
• Această secțiune prezintă un subiect foarte important:
testarea ipotezelor despre un singur parametru.
• Punctul de plecare este modelul populației
𝑦 = 𝛽0 + 𝛽1 ∙ 𝑥1 + 𝛽2 ∙ 𝑥2 + ⋯ + 𝛽𝑘 ∙ 𝑥𝑘 + 𝑢
– unde presupunem că supozițiile MLC sunt valide.
• Scopul nostru este să testam ipoteze despre un anumit
parametru 𝛽𝑗
• Rețineți: 𝛽𝑗 sunt parametri necunoscuți și nu-i vom
cunoaște niciodată cu siguranța. Dar putem face ipoteze
despre valoarea 𝛽𝑗 și să folosim inferența statistică să
testăm ipotezele.
27
27
28
28
14
Distribuția t (Student)
• Forma este similară cu distribuția normală – dar este mai
împrăștiată și are o suprafață mai mare în cozi
• Pe măsură ce numărul de grade de libertate (gl) creste,
distribuția t se apropie de distribuția normală
• La pagina 892 din anexa A (Gujarati) găsiți detalii despre
distribuția t.
29
29
30
30
15
Exemplu: Ecuația venitului
• Fie modelul
log 𝑠𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛽0 + 𝛽1 ∙ 𝑒𝑑𝑢𝑐 + 𝛽2 ∙ 𝑒𝑥𝑝𝑒𝑟 + 𝛽3 ∙ 𝑣𝑒𝑐ℎ𝑖𝑚𝑒 + 𝑢
• Ipoteza nulă 𝐻0 : 𝛽2 = 0 înseamnă că, odată ce educația și
vechimea în post sunt stabilite (fixate), numărul de ani de
experiența nu are niciun efect asupra venitului orar.
• Este aceasta o ipoteză interesantă din punct de vedere
economic?
• Să vedem acum cum putem realiza și interpreta un
asemenea test.
31
31
Testul t
• Testul statistic utilizat pentru a testa 𝐻0 : 𝛽𝑗 = 0 este numit
statistica t sau raportul t al lui 𝛽𝑗 și este definit ca
𝛽𝑗 − 𝛽 ∗
𝑡𝛽𝑗 =
𝑠𝑒(𝛽𝑗 )
• Unde 𝛽 ∗ este valoarea pe care o testăm. În acest caz,
𝛽∗ = 0
• După cum puteți vedea, statistica t este ușor de calculat:
doar împărțiți estimația coeficientului la abaterea standard
• Excel (si multe alte produse econometrice) o va face
pentru voi.
32
32
16
Testul t
• Întrucât întotdeauna 𝑠𝑒(𝛽𝑗 ) este pozitiv,
statistica t va avea întotdeauna același
semn cu estimația coeficientului (în
particular, în cercetarea aplicativă se
raportează valoarea absolută a statisticii t –
va fi clar de ce mai târziu)
33
33
Raționament intuitiv
𝑗
𝛽
• Știm că 𝑡𝛽𝑗 = 𝑗 )
𝑠𝑒(𝛽
34
34
17
• Dar rețineți: există o eroare de sondaj în estimarea lui 𝛽𝑗 ,
deci mărimea lui 𝛽𝑗 trebuie ponderată cu eroarea de
sondaj
• Întrucât eroarea standard a lui 𝛽𝑗 este o estimație a
abaterii standard a lui 𝛽𝑗 , 𝑡𝛽𝑗 măsoară la câte abateri
standard se află 𝛽𝑗 de zero.
• Dacă 𝐻0 : 𝛽𝑗 = 0 este adevărată, este puțin probabil ca să
se afle la multe abateri standard de zero (vezi forma fdp)
• Astfel, valori ale statisticii 𝑡𝛽𝑗 “suficient” de departe de zero
vor duce la respingerea ipotezei nule H0.
35
35
36
36
18
• Sub 𝐻0 (βj=0 ), statistica t are o distribuție Student
t.
• Sub 𝐻1 (βj>0), valoarea așteptată a statisticii t este
pozitivă (nu?).
• Astfel, căutam o valoare pozitivă a statisticii t
“suficient de mare” pentru a respinge H0: βj=0.
• Cu un prag de semnificație de 5%, definiția lui
“suficient de mare” este pur și simplu a 95-a
percentilă într-o distribuție t cu n-k-1 grade de
libertate.
• Notăm aceasta valoare ( ”a 95-a percentilă a…”) cu c.
37
37
38
19
Exemplu Tab. 3.2 (Gujarati): Pentru gl = 8 și prag
semnificație 5%, c=1.860
➢ Dacă statistica t este mai mică de 1.860, nu
vom respinge 𝐻0 în favoarea 𝐻𝟏
➢ Dar dacă statistica noastră t este mai mare de
1.860, vom respinge 𝐻0 în favoarea 𝐻𝟏
Regiunea e de
5%, nu 2,5%
0 0,0664
t=14,24 se afla în
aceasta regiune
critică de 5%
39
39
Concluzie
• Întrucât statistica t calculată este 14,24 și
fiind mai mare decât valoarea c=1,860
corespunzătoare pragului de 5% la 8 gl,
înseamnă că t este în zona critică, deci nu
reușim să acceptăm ipoteza nulă
• Din exemplul nostru, înseamnă că 𝛽መ2 ≠ 0
(rezultatul testului ne spune că 𝛽መ2 este
“suficient mai mare” decât 0)
40
40
20
Câteva puncte de remarcat
• Pe măsură ce pragul de semnificație scade,
valoarea critică crește. De ce?
• Dacă 𝐻0 este respinsă (să spunem) la prag
de 5%, va fi de asemenea respinsă la prag
de 10%.
• Care este valoarea critică a lui c pentru
– Prag de semnificație de 10% cu gl=21?
– Prag de semnificație de 1% cu gl=120?
41
41
consum = 1 + 2venit + u
42
42
21
Teste bilaterale
• Deși sunt de interes, testele unilaterale sunt mai
rar utilizate în econometrie
• Mult mai întâlnite sunt testele unei ipoteze nule ca
𝐻0 : 𝛽𝑗 = 0 față de o alternativa bilaterală ca
𝐻1 : 𝛽𝑗 ≠ 0
• În cuvinte, H1 este că Xj are un efect ceteris
paribus asupra lui Y, care poate fi ori pozitiv sau
negativ.
• Când alternativa este bilaterală, suntem interesați
de valoarea absolută a statisticii t.
• Regula de respingere: 𝑡𝛽𝑗 > 𝑐
43
43
44
44
22
Intervale de încredere
• Odată ce am estimat parametrul populației β𝑗 și am obținut
eroarea standard, putem ușor să calculam un interval de
încredere (CI) pentru β𝑗 .
𝑗 −β𝑗
𝛽
• Sa ne reamintim că 𝑠𝑒(𝛽 ) are o distribuție t cu n-k-1 grade de
𝑗
libertate (gl).
• Definim un interval de încredere de 95% pentru β𝑗 ca
𝑗 = ±𝑐 ∙ 𝑠𝑒 β
β 𝑗
• unde constanta c este a 97,5-a percentila a distribuției tn-k-1 .
• Alegem a 97,5-a percentilă pentru că aria de acceptare reprezintă
probabilitatea de 95% ca limitele intervalului de încredere să aibă
anumite valori, ceea ce face ca în cele două cozi ale distribuției să
avem câte o zonă de respingere a câte 2,5% fiecare
45
45
Intervale de încredere
𝑗 = ±𝑐 ∙ 𝑠𝑒 β
β 𝑗
𝑗 − 𝑐 ∙ 𝑠𝑒
𝛽𝑗 = β 𝑗 − 𝑙𝑖𝑚. 𝑖𝑛𝑓
β
⇒ቐ
𝑗 − 𝑐 ∙ 𝑠𝑒
𝛽𝑗 = β 𝑗 − 𝑙𝑖𝑚. 𝑠𝑢𝑝
β
• Înțelesul CI: dacă eșantioanele aleatoare ar fi
selectate de multe ori (din aceeași populație),
cu 𝛽𝑗 și 𝛽𝑗 calculate de fiecare dată (definind
multe CI), valoarea din populație β𝑗 ar cădea
în interiorul CI în 95% din cazuri
46
46
23
Cum se calculează intervalele de
încredere
• Avem nevoie de trei cantități: β𝑗 , 𝑠𝑒 β
𝑗 și 𝑐
• Valoarea lui c depinde de numărul n-k-1 de
grade de libertate și de pragul de semnificație
ales (95% în acest caz)
• Pentru gl=8, un interval de încredere (CI) de
95% este dat de:
𝑗 − 2,306 ∙ 𝑠𝑒 β
β 𝑗 , β
𝑗 + 2,306 ∙ 𝑠𝑒 β𝑗
• unde c=2,306 este valoarea critică a lui t din
tabela distribuției t pentru 8 gl și prag de
semnificație de 5% (de fapt, câte 2,5% în
fiecare “coada” a distribuției)
47
47
Intervale de încredere
• Pentru un număr mare de gl (de regulă, peste 100, deci
eșantioane mari), distribuția t este destul de apropiată
de distribuția normală, astfel că utilizarea celei de a
97,5-a percentile din distribuția normală este corecta:
𝑗 ± 1,96 ∙ 𝑠𝑒 β
𝐶𝐼: β 𝑗
• De aici, o regulă generală simplă pentru un CI de 95%:
plus sau minus două erori standard
• Cum veți construi un interval de încredere pentru un alt
nivel de încredere (cum ar fi de 90%)?
• Cum este afectat intervalul de încredere de o creștere a
nivelului de încredere (ex.: de la 95% la 99%)? De ce?
48
48
24
Nu uitați supozițiile MLC!
• Estimațiile intervalului de încredere nu vor fi
fiabile dacă supozițiile MLC nu sunt valide.
– Variabilele omise pot submina estimațiile CI.
– Heteroscedasticitatea va submina estimațiile
CI.
49
49
50
50
25
Teste bilaterale (cont.)
• Pentru a-l găsi pe c, specificam mai întâi pragul de
semnificație, fie 5%.
• Deoarece testul este bilateral, c este ales astfel încât aria
din fiecare coada să fie egala cu 2.5% - adică c este a
97.5-a percentilă în distribuția t (din nou, cu n-k-1 gl).
• Graficul arata că, dacă gl=8, atunci c=2,306
• Jargon econometric: Dacă 𝐻0 : 𝛽𝑗 = 0 este respinsă într-un
test bilateral, putem spune că ”Xj este statistic
semnificativa la nivelul de 5%”. Concluzionam astfel că
efectul lui Xj asupra lui Y nu este zero.
• Ca o probă în plus, observăm că valoarea 0 de test a
parametrului nu este inclusă în intervalul de încredere!!!
51
51
Exemplu:
Determinanții scorului de evaluare GPA
. regress colGPA hsGPA ACT skipped
52
26
Testarea altor ipoteze despre 𝜷𝒋
• Chiar dacă 𝐻0 : 𝛽𝑗 = 0 este cea mai întâlnită ipoteză,
uneori dorim să testam dacă 𝛽𝑗 este egală cu o anumită
valoare constantă. Să presupunem că ipoteza nulă este:
𝐻0 : 𝛽𝑗 = 𝑎𝑗
• În acest caz, statistica t corectă este
𝛽𝑗 − 𝑎𝑗
𝑡𝛽𝑗 =
𝑠𝑒(𝛽𝑗 )
53
53
54
54
27
Testarea față de o valoare particulară
a parametrului
• Graficul ne arată intervalul de
încredere pentru parametrul
β2=0,3, cu o probabilitate de
95%
• Întrucât estimația pe care am
obținut-o (𝛽መ2 = 0,5091) se află
în zona critică, avem suficiente
probe să concluzionăm că β2
nu poate lua valoarea 0,3, deci
respingem ipoteza nulă
H0: β2 = 0,3
55
55
56
28
Testarea față de o valoare particulară
a parametrului
• Întrucât valoarea 0,3 este în afara
intervalului de încredere (cu probabilitate de
95%), decidem că putem respinge ipoteza
nulă (greșim doar cu o probabilitate de 5%
să spunem că 𝛽2 ≠ 0,3, când ea ar putea
avea aceasta valoare cu adevărat)
• Mai avem însă o statistica utilă: p-value
57
57
58
58
29
• Exemple: Să presupunem că t = 1.85 și gl=40.
• Aceasta rezultă într-o valoare p = 0.0718.
59
59
Valorile p în Excel
• Interpretarea corectă: Valoarea p (p-value) este
probabilitatea de a observa o valoare la fel de extremă ca
aceea pe care am observa-o dacă ipoteza nulă este
adevărată. ☺
• Interpretarea greșită (nu rareori): ”Valoarea p este
probabilitatea ca ipoteza nulă să fie adevărată….”.
• Astfel, valori p mici sunt o probă împotriva ipotezei nule.
Dacă valoarea p este, să spunem, 0.04, am putea spune
că există o semnificație la nivelul de 5% (de fapt la nivelul
de 4%) dar nu la nivelul de 1% (sau nivelul 3% ori 2%).
60
60
30
Semnificația economică vs. cea
statistică
• Așa cum am văzut, semnificația statistică a unei
variabile Xj este determinată în întregime de
valoarea statisticii t
• Semnificația economică a unei variabile este legată
de mărimea (și semnul) coeficientului estimat.
• O concentrare prea mare pe semnificația statistică
poate duce la concluzia falsă că o variabila este
“importantă” pentru explicarea lui Y, chiar dacă
efectul estimat este mic.
• Așadar: este întotdeauna important să interpretam
magnitudinea coeficientului estimat (în plus față de
atenția acordată semnificației statistice).
61
61
62
62
31
Testarea restricțiilor de excludere
• Scop: testarea dacă un grup de variabile nu
au niciun efect asupra variabilei
dependente.
• Sa considerăm următorul model al salariilor
jucătorilor de baseball
(salary = salariul total din 1993; years = ani în liga; gamesyr = numarul mediu de jocuri în liga; bavg = media
loviturilor în cariera; hrunsyr = circuite complete (home runs) pe an; rbisyr = circuite batute pe an)
”Restrictii de excludere”
63
Rezultate (MLB1.xls)
• Adică fiecare dintre coeficienți este statistic
. reg lsalary years gamesyr bavg hrunsyr rbisyr
64
64
32
• Problema principală: cât de mult crește SSR
când impunem restricții?
• Jargon econometric: ”impunerea de restricții” =
alte valori (in cazul nostru zerouri) sunt
presupuse decât cele care sunt obținute când
modelul este estimat fără restricții.
• Distingem:
– Modelul fără restricții: Nicio restricție impusa
– Modelul restricționat: Sunt impuse anumite restricții
• În cazul nostru, modelul restricționat poate fi
scris: +u
65
+u
66
66
33
Raportarea rezultatelor regresiei
• Până acum am investigat instrumentele de
bază ale analizei prin regresie. Ne vom
ocupa acum de chestiunile practice de
raportare a rezultatelor acestei analize.
• Aceasta ajută la citirea articolelor publicate
în economie și vă pregătește să scrieți
propriile rapoarte empirice sau articole
• Exercițiile (pe calculator) sunt o ocazie de a
practica abilitățile de prezentare
67
67
68
68
34
Rezultatele regresiei sunt de
obicei prezentate într-un astfel de
tabel:
69
69
35