Sunteți pe pagina 1din 26

INTRODUCERE IN ECONOMETRIE

Analiza prin regresia multiplă

Ref: Måns Söderbom, Universitatea Gothenburg


Damodar Gujarati, Basic Econometrics

Argumente pentru regresia multiplă


• Am învățat să utilizăm regresia simplă pentru a
explica o variabilă dependentă y ca o funcție de o
singură variabilă explicativă x.
• Supoziția principală a cauzalității:
• RLS.4: Eroarea u are o valoare așteptată zero condiționată de x:
E(u|x)=0
• Principalul neajuns al acestei teorii: Toți ceilalți
factori care afectează y trebuie să fie necorelați cu x.

1
• Regresia multiplă este mult mai potrivită
pentru analiza cauzală (ceteris paribus)
• Motivul: Putem explicita controlul pentru
ceilalți factori care afectează variabila
dependentă y.
• Exemplul 1: Ecuația venitului

• Dacă estimăm parametrii acestui model utilizand CMMP, ce


interpretare putem să dăm lui β1?
• De ce oferă această abordare o estimare mai bună a
efectului cauzal al educatiei decat daca am fi utilizat o
regresie simplă cu educ ca singura variabilă explicativă?

• Exemplu: Performanța studenților:

unde avgscore este un scor de test la nivel de liceu,


expend este cheltuiala studentului (o masura a
cheltuielilor scolii) și avginc este venitul mediu al familiei.

• Să presupunem că suntem în primul rând interesați în


estimarea lui β1. De ce este important să controlăm venitul
mediu al familiei?

2
Modelul general cu doua variabile explicative:

unde
•β0 este parametrul liber
•β1 măsoară modificarea lui y în funcție de x1, menținând ceilalți
factori ficși
•β2 măsoară modificarea în y în funcție de x2, menținând ceilalți
factori ficși
Acest cadru poate fi la fel utilizat pentru a generaliza forma
funcțională – Exemplu: modelarea consumului familial (cons) ca o
funcție de venit (inc):

unde inc2 este introdus ca o variabila separata. Care este efectul


venitului asupra consumului în acest model?
5

Supoziția principala pentru modelul cu


doua variabile independente:

• Observați similitudinea cu supoziția RLS.4 prezentata


ultima data
• Interpretare: pentru orice valori ale lui x1 și x2 din
populație, valoarea medie a neobservabilelor (u) este
egala cu zero.
• Discutați aceasta supoziție în contextul modelului
venitului prezentat mai sus (impactul asupra
venitului produs de educ și exper)
6

3
Modelul cu m variabile independente
Modelul regresiei multiple:

y =  0 + 1  x1 +  2  x2 + .... + +  m  xm + u 3.6

unde
β0 este parametrul liber
β1 este parametrul asociat cu x1 (masoara modificarea lui y în
functie de x1, mentinand ceilalti factori ficsi)
β2 este parametrul asociat cu x1 (masoara modificarea lui y în
functie de x2, mentinand ceilalti factori ficsi)
și asa mai departe…
7

Modelul cu m variabile independente


y =  0 + 1  x1 +  2  x2 + .... +  m  xm + u

• β1, β2,…,βm sunt referiți ca parametri de panta


• u este termenul rezidual (termenut de eroare. Contine alti
factori decat x1,x2,…,xm care influenteaza y.
Terminologia regresiei simple
y x1,x2,…,xm

Variabilă dependentă Variabile independente

Variabilă explicată Variabile explicative

Variabilă de răspuns Variabile de control

Variabilă predicţionată Variabile predictoare

Regresand Regresori

4
Interpretarea parametrilor modelului
regresiei multiple
• Abilitatea de a interpreta parametrii
modelului regresiei multiple este unul din
principalele scopuri ale acestui curs – și vom
încerca să practicăm aceste interpretări
• Verificare: Asigurați-va ca sunteți capabili să
interpretați parametrii următorului model:

unde ceoten = mandatul CEO.


9

Supoziții esențiale pentru modelul cu m


variabile independente:
E (u x1 , x2 ,...., xm ) = 0

• Astfel, se presupune că toți factorii din


termenul de eroare neobservabil u sunt
necorelați cu variabilele explicative.

10

10

5
3.2 Mecanica și interpretarea CMMP
• Ne concentram mai întâi pe modelul cu doua variabile
independente.
• Scriem regresia estimata CMMP într-o forma similara cu
regresia simplă:

unde ”palaria” de pe parametri indica faptul ca acestia


sunt estimatii ale parametrilor (necunoscuti) ai populatiei:

ˆ0 = estimatia lui 0


ˆ1 = estimatia lui1
ˆ2 = estimatia lui 2
si ”palaria” de pe y inseamna predictia lui y (in loc de
valoarea propriu-zisa ). 11

11

• Cum obținem estimația CMMP?


• Așa cum am arătat în capitolul 2, metoda CMMP
alege estimațiile care minimizează suma pătratelor
rezidualelor.
• Adică, date fiind n observații ale lui y and x1,…,xm
variabile, estimațiile CMMP minimizează:

unde i se refera la numarul observatiei și al doilea


indice arata diferitele variabile.
12

12

6
Modelul cu m variabile independente

yˆ = ˆ0 + ˆ1  x1 + ˆ2  x2 + .... + + ˆm  xm

• Estimațiile CMMP ˆ1 , ˆ2 ,..., ˆm minimizează:

 (y )
n
− ˆo − ˆ1  xi1 − ... − ˆm  xim
2
i
i =1

• Provocare: Cunoașteți din cursurile de matematică


modul de rezolvare a problemei de minimizare:
• Scrieți derivatele de prim ordin pentru fiecare
parametru
• Rezolvați ecuațiile pentru fiecare parametru
13

13

෡𝟏
Exemplu: Condiția de prim-ordin pentru 𝜷

෡ 𝟏 astfel încât să
• Problema de minimizare: Alegeți 𝜷
minimizeze:

 (y )
n
− ˆo − ˆ1  xi1 − ... − ˆm  xim
2
i
i =1

Conditia de prim-ordin este:

( ) =0
n

 xi1 yi − ˆo − ˆ1  xi1 − ... − ˆm  xim


2
:
i =1

Nota (regula inlanturii) 14

14

7
Generalizare: k+1 parametri necunoscuți și
k+1 ecuații
 (y )
n

i − ˆo − ˆ1  xi1 − ... − ˆm  xim = 0


i =1

(y − ˆ )
n

x
i =1
i1 i o − ˆ1  xi1 − ... − ˆm  xim = 0

(...)

(y − ˆ )
n

x
i =1
im i o − ˆ1  xi1 − ... − ˆm  xim = 0

• Acestea sunt condițiile de prim-ordin CMMP.


• Sa observam ca acestea pot fi de asemenea interpretate ca
momentele populației E(xju)=0 (omițând împărțirea la n). Comparați
aceasta abordare cu ceea ce am văzut în capitolul 2.
• Acest ultim punct arata importanta supoziției covarianței zero
dintre reziduala și variabilele independente: estimatorul CMMP
15
poate fi derivat din aceasta supoziție.
15

• Este mai plictisitor dar simplu în principiu să rezolvăm


estimațiile parametrilor. Fiecare estimație a parametrilor este
exprimată ca o funcție liniară a variabilelor x și y.
• Din fericire, computerul lucrează pentru noi. Nu este nevoie
să găsiți voi soluția
• Notă: Trebuie să presupunem ca ecuațiile de mai sus au o
soluție unică pentru parametri. Sa presupunem asta și să
mergem mai departe.

16

16

8
Interpretarea funcției de regresie CMMP
• Mai importantă decât detaliile de calcul al
estimațiilor CMMP este interpretarea
ecuațiilor estimate
• Sa analizam modelul cu doi regresori:

Estimatiile , au interpretari de efecte partiale, sau ceteris paribus.

Explicati ce inseamna aceasta afirmatie.

Explicati cum se interpreteaza termenul liber


17

17

Exemplul 3.1: Determinanții notelor de


evaluare la universitate
• Date: GPA1.XLS. Colectate de un student de la
Michigan State University
• Variabile: scorul mediu (GPA-grade Point
average) la universitate (colGPA), liceu (hsGPA)
și scorul testului de cunoștințe (ACT -
achievement test score)
• Statistici pentru aceste variabile:
. summarize colGPA hsGPA ACT

Variable Obs Mean Std. Dev. Min Max

colGPA 141 3.056738 .3723103 2.2 4


hsGPA 141 3.402128 .3199259 2.4 4
ACT 141 24.15603 2.844252 16 33 18

18

9
Rezultatele regresiei

. regress colGPA hsGPA ACT

Source SS df MS Number of obs = 141


F( 2, 138) = 14.78
Model 3.42365506 2 1.71182753 Prob > F = 0.0000
Residual 15.9824444 138 .115814814 R-squared = 0.1764
Adj R-squared = 0.1645
Total 19.4060994 140 .138614996 Root MSE = .34032

colGPA Coef. Std. Err. t P>|t| [95% Conf. Interval]

hsGPA .4534559 .0958129 4.73 0.000 .2640047 .6429071


ACT .009426 .0107772 0.87 0.383 -.0118838 .0307358
_cons 1.286328 .3408221 3.77 0.000 .612419 1.960237

• Interpretați coeficienții. Formulați cu atenție ce


anume este ținut constant când evaluați
rezultatele. Sunt mici sau mari efectele estimate?
19

19

Analizați rezultatele următoarei regresii


. reg colGPA ACT

Source SS df MS Number of obs = 141


F( 1, 139) = 6.21
Model .829558811 1 .829558811 Prob > F = 0.0139
Residual 18.5765406 139 .133644177 R-squared = 0.0427
Adj R-squared = 0.0359
Total 19.4060994 140 .138614996 Root MSE = .36557

colGPA Coef. Std. Err. t P>|t| [95% Conf. Interval]

ACT .027064 .0108628 2.49 0.014 .0055862 .0485417


_cons 2.402979 .2642027 9.10 0.000 1.880604 2.925355

• Comparați coeficientul estimat al lui ACT din acest


model cu cel din cartonul anterior: cum diferă – și de
ce?
• Legătura: Cum diferă interpretarea parametrilor
estimați intre cele doua regresii?
20

20

10
Interpretarea ecuațiilor cu m variabile
independente
• Cazul cu mai mult de două variabile
independente este similar.
• Spre exemplu, coeficientul lui x1 măsoară
modificarea lui cauzata de o creștere cu o
unitate a lui x1, ținând fixe celelalte variabile
independente:

tinand x2, x3,…,xk constante.


Jargon econometric: Am controlat variabilele x2, x3,…,xk cand am estimat efectul
lui x1 asupra lui y. 21

21

Exemplul 3.2: Ecuația venitului, cu și fără


control pe vechime și experiența
a) Regresie simplă a) Regresie multiplă
. ge logwage=ln(wage) . reg logwage educ exper tenure

. reg logwage educ Source SS df MS Number of obs = 526


F( 3, 522) = 80.39
Source SS df MS Number of obs = 526
Model 46.8741776 3 15.6247259 Prob > F = 0.0000
F( 1, 524) = 119.58
Residual 101.455574 522 .194359337 R-squared = 0.3160
Model 27.5606288 1 27.5606288 Prob > F = 0.0000
Residual 120.769123 524 .230475425 R-squared = 0.1858 Adj R-squared = 0.3121
Adj R-squared = 0.1843 Total 148.329751 525 .28253286 Root MSE = .44086
Total 148.329751 525 .28253286 Root MSE = .48008

logwage Coef. Std. Err. t P>|t| [95% Conf. Interval]


logwage Coef. Std. Err. t P>|t| [95% Conf. Interval]
educ .092029 .0073299 12.56 0.000 .0776292 .1064288
educ .0827444 .0075667 10.94 0.000 .0678796 .0976091
exper .0041211 .0017233 2.39 0.017 .0007357 .0075065
_cons .5837727 .0973358 6.00 0.000 .3925563 .7749891
tenure .0220672 .0030936 7.13 0.000 .0159897 .0281448
_cons .2843595 .1041904 2.73 0.007 .0796756 .4890435

Date: WAGE1.XLS. 22

22

11
• Interpretarea acestor rezultate
– Are sens să presupunem covarianța zero dintre reziduala și regresori?

– Care este efectul cauzal al educației?

– Este mai mult sau mai puțin importanta experiența generala decât
experiența specifica (specifica firmei)?

– Care este efectul vechimii în firma de un an în plus asupra venitului


(sfat: se schimbă mai mult de o variabilă explicativă)

– Câți ani de vechime corespunde unui an de educație în termeni de


venit?

– De ce este efectul estimat al educației mai mare în regresia multiplă


(tabelul din dreapta de pe cartonul anterior)?

23

23

Matricea de corelație
. corr educ exper tenure
(obs=526)

educ exper tenure

educ 1.0000
exper -0.2995 1.0000
tenure -0.0562 0.4993 1.0000

• Educatia este în mod evident corelata negativ cu experienta și


cu vechimea în acest set de date.
• Astfel, aceia cu un nivel de educatie mai inalt vor avea, în
medie, o experienta mai redusa (pentru simplul motiv ca intra
pe piata muncii mai tarziu)
• Putem presupune ca educatia și experienta contribuie la
venituri mai mari
• Dar, fara să controlam experienta, putem să subestimăm
efectul educatiei asupra veniturilor 24

24

12
Valorile ajustate și rezidualele CMMP
• Pentru observația i valoarea ajustata este, simplu

yˆ i = ˆo + ˆ1  xi1 + ... + ˆm  xim

• Reziduala pentru observatia i este definita exact ca în


cazul regresiei simple:

25

25

Proprietăți:
1. Media de sondaj a rezidualelor este zero, deci
y = yˆde sondaj dintre fiecare variabila
2. Covarianța
independenta și rezidualele CMMP este zero.
Atunci, covarianța de sondaj dintre valorile
ajustate CMMP și rezidualele CMMP este zero
(de ce?)
3. Punctul ( x1 , x2 ,..., xm , y ) este întotdeauna pe
dreapta de regresie
y = ˆo + ˆ1  x1 + ... + ˆm  xm

26

26

13
Comparație intre estimațiile regresiei
simple și multiple
• Regresia simplă :
• Regresia multiplă:

Stim ca regresia simplă a coeficientului lui x1 este în


general diferita de regresia multiplă a coeficientului
lui x1. Iata cum sunt legati cei doi parametri:

unde este coeficientul de panta al regresiei simple


a lui x2 pe x1. Cum se poate intelege asta? 27

27

• Adică, sunt aceiași daca al doilea termen din


dreapta este zero, adică daca:
1. Efectul parțial al lui x2 asupra ŷ este zero în
eșantion ˆ2 = 0

si/sau

2.x2 și x2 sunt necorelate în eșantion (~1 = 0)

28

28

14
Calitatea ajustării:
La fel ca în regresia simplă
• SST = Total Sum of Squares
• SSE = Explained Sum of Squares
• SSR = Residual Sum of Squares

29

29

Câteva precizări despre R2


• R2 este egal cu valoarea la pătrat a corelației dintre valorile observate
și ajustate ale lui y.
• R2 niciodată nu scade si, de obicei, creste când se adaugă o noua
variabila în modelul de regresie
– Asta din cauza faptului ca SSR niciodată nu creste când se adaugă mai mulți
regresori în model (de ce?)

• De ce este R2 un instrument nefiabil când se decide daca o anumita


variabila ar trebui adăugată la model?

30

30

15
Comparați și interpretați R2…

a) Regresie simplă a) Regresie multiplă


. ge logwage=ln(wage) . reg logwage educ exper tenure

. reg logwage educ Source SS df MS Number of obs = 526


F( 3, 522) = 80.39
Source SS df MS Number of obs = 526
Model 46.8741776 3 15.6247259 Prob > F = 0.0000
F( 1, 524) = 119.58
Residual 101.455574 522 .194359337 R-squared = 0.3160
Model 27.5606288 1 27.5606288 Prob > F = 0.0000
Residual 120.769123 524 .230475425 R-squared = 0.1858 Adj R-squared = 0.3121
Adj R-squared = 0.1843 Total 148.329751 525 .28253286 Root MSE = .44086
Total 148.329751 525 .28253286 Root MSE = .48008

logwage Coef. Std. Err. t P>|t| [95% Conf. Interval]


logwage Coef. Std. Err. t P>|t| [95% Conf. Interval]
educ .092029 .0073299 12.56 0.000 .0776292 .1064288
educ .0827444 .0075667 10.94 0.000 .0678796 .0976091
exper .0041211 .0017233 2.39 0.017 .0007357 .0075065
_cons .5837727 .0973358 6.00 0.000 .3925563 .7749891
tenure .0220672 .0030936 7.13 0.000 .0159897 .0281448
_cons .2843595 .1041904 2.73 0.007 .0796756 .4890435

Date: WAGE1.XLS. 31

31

3.3 Valorile așteptate ale estimațiilor


CMMP
• Sa discutam despre proprietățile statistice ale CMMP.
• Sa începem prin studierea supozițiilor care stau la baza estimatorului
• Acestea sunt în general extensii ale celor pe care le-am văzut la
modelul regresiei simple (RLS.1-4).
• Poate rezulta o deplasare prin metoda CMMP când o variabila
importanta a fost omisa din regresie
• Rețineți: ”Proprietățile statistice” nu au nimic de-a face cu un eșantion
în particular – se refera la metoda CMMP aplicata în contextul
sondajului aleator.

32

32

16
Supoziții
Supoziția RLM.1: Lineara în parametrii:
y = β0 + β1x1 + β2x2 +…+ u.

Supoziția RLM.2: Eșantion aleator:


{xi1, xi2,…,xim,y): i=1,2,…,n}
urmând modelul populației din supoziția RLM.1

Supoziția RLM.3: Nu exista coliniaritate perfecta: In eșantion,


niciuna din variabilele independente nu este constanta și nu
exista o relație liniară exacta intre variabilele independente.

Supoziția RLM.4: Medie condiționată zero - eroarea u are o


valoare așteptată zero date fiind oricare valori ale variabilelor
independente:
E(u|x1, x2,…,xm)=0
33

33

• Supozițiile RLM.1-2 are sunt evidente.

• Supoziția RLM.3 este noua: Fără coliniaritate


perfecta. Punct cheie în practica: Nu exista
dependenta liniară intre variabilele
independente.
– Daca exista dependenta liniară intre variabile, atunci
spunem ca exista o coliniaritate perfecta. In acest caz
nu putem estima parametrii utilizând CMMP.
– Exemple:
• x2 = a*x1
• x3 = a1*x1 + a2*x2

Aveti o explicatie intuitiva de ce coliniaritatea perfecta face ca CMMP să


nu functioneze?
34

34

17
Precizare: Dependenta neliniară este în
regula!
• Acest tip de model poate fi estimat prin
CMMP:

• Dar acest tip de model nu poate fi estimat prin


CMMP:

Deoarece income_thousandsdollars = 1,000*income_dollars, adica este vorba de


o dependenta liniară.

35

35

Media condiționată zero

RLM.4 E(u|x1, x2,…,xk)=0 este o generalizare directa din


SLR.4.
Este cea mai importanta dintre supozițiile RLM.1-4, și
cere ca reziduala să fie necorelata cu toate variabilele
explicative în modelul populației.
Daca RLM.4 este valabila, spunem ca variabilele
explicative sunt exogene.

36

36

18
Media condiționată zero
• RLM.4 poate să eșueze din mai multe motive:
• Omiterea unei variabile explicative importante (numita și
subspecificarea modelului) care este corelata cu oricare dintre x1,
x2,…,xm
– Omiterea unei variabile importante, ceea ce se poate întâmpla frecvent, dar
pe care am dori să o controlam în raport cu celelalte variabile incluse, duce la
violarea supoziției RLM.4
• Specificare greșită a relației dintre variabila dependenta și
variabilele independente (omiterea unui termen la pătrat, utilizarea
nivelului în loc de ln, sau a logaritmului în locul nivelului...)
• Prima dintre acestea – variabilele omise – este de departe cea mai
mare grija pentru în cercetarea aplicativa

37

37

Teorema 3.1:
Sub RLM.1-4, estimatorii CMMP sunt
nedeplasați
E ( ˆ j ) =  j , j = 0,1,..., m

• Adică valoarea așteptată a estimatorilor este


egala cu parametrul populației
• Nu trebuie obligatoriu să probați ca estimatorii
CMMP nu sunt deplasați în modelul regresiei
multiple, dar trebuie să știți:
– Definiția de mai sus și ceea ce înseamnă
– Supozițiile necesare pentru nedeplasare (RLM.1-4)

38

38

19
Deplasarea cauzata de omiterea unei
variabile: cazul simplu
• Sa presupunem ca omitem o variabila care aparține
modelului adevărat (al populației)
• Motivul poate fi lipsa datelor (ex. Abilitatea în
regresia venitului)
• Aceasta în general cauzează ca estimatorii CMMP să
fie deplasați
• Sa studiem deplasarea mai în detaliu

39

39

• Modelul adevărat (al populației):


(3.40)

Pentru care presupunem ca supozitiile RLM.1-4 sunt


valabile.
•Sa consideram ca y este ln(venit), x1 este educatia și x2
este o abilitate naturala.
•Sa consideram ca suntem mai intai interesati de β1.
•In modelul adevarat, ar trebui să rulam o regresie
pentru ln(venit) în functie de educatie și abilitate.
•Dar din cauza lipsei de date (sa spunem) estimam
modelul venitului excluzand abilitatea – de unde
ecuatia devine:
40

40

20
Exemplu:
• Modelul adevărat venit =  0 + 1  educ +  2  abil + u
• Modelul estimat venit =  0 + 1  educ + v
– unde v =  2  abil + u
• Estimatorul 1 din aceasta regresie simplă este ceea ce
~
numim 1
• Reprezentam relația dintre educ și abil printr-o regresie liniară
simplă
abil =  0 + 1  educ + 
• unde ε este necorelata cu educ (atenție: nu trebuie să dați
acestei ecuații o relație cauzala intre abil și educ. Ea reflecta
asociația dintre ele, adică δ1>0 daca abil și educ sunt corelate
pozitiv.

41

41

~ ~
• Știm ca: 1 = ˆ1 + ˆ2  1

• Atunci

3.45
• Deplasarea (Bias)

➢ Deoarece deplasarea în acest caz provine din omiterea unei


variabile explicative, acesta este numit deplasarea variabilei
omise
➢ Sunt doua cazuri în care nu exista deplasare – care sunt?
➢ Discuție: a) semnul deplasării; b) mărimea deplasării.

42

42

21
Semnul deplasării
~
• Semnul deplasării lui 1 când x2 este omis în
estimarea ecuației (3.40)
Corr(x1,x2)>0 Corr(x1,x2)<0

β2>0 Depl.pozitiva Depl.negativa

β2<0 Depl.negativa Depl.pozitiva

• Observați ca aceste rezultate urmează direct din ecuația


(3.45) de pe cartonul anterior.

43

43

Deplasarea variabilei omise:


Cazul general
• Determinarea semnului deplasării variabilei
omise atunci când sunt mai mulți regresori în
modelul estimat este mai dificila
• In general, corelația dintre o singura variabila
explicativă și rezultatele de eroare în toate
estimațiile este deplasata

44

44

22
3.4 Varianta estimatorilor CMMP

Vom obține acum varianța estimatorilor


CMMP, astfel încât să dispunem de o
împrăștiere în distribuțiile lor de sondaj.
• Supoziția RLM.5: Homoscedasticitate. Eroarea u are
aceeași varianță oricare ar fi variabilele explicative:

Asta înseamnă ca varianța termenului de eroare u,


condiționată de variabilele explicative, este aceeași pentru
toate valorile variabilelor explicative.
Daca nu se întâmplă asta, avem heteroscedasticitate și
45
formula varianței trebuie ajustată.
45

Teorema 3.2: Varianta de sondaj a


estimatorilor pantei CMMP
Sub supozițiile RLM.1-5 (cunoscută ca supoziția Gauss-
Markov), condiționat de valorile de sondaj ale
regresorilor,

pentru j=1,2,…,k, unde

este varianța totală de sondaj a lui xj, și Rj2 este R-


pătrat din regresia lui xj pe toți ceilalți regresori
(inclusiv parametrul liber).
46

46

23
Interpretarea formulei varianței

• Varianța estimatorului este mare (ceea ce de


obicei nu este de dorit), dacă:
– Varianța rezidualei este mare
– Varianța de sondaj a lui xj este mică (din cauza
varianței mici sau a unui eșantion mic)
– Rj2 este mare. Observați ca daca Rj2 se apropie de 1 –
din cauza dependenței aproape liniare dintre regresori
(multicoliniaritate), varianța devine foarte mare.

47

47

Estimarea erorilor standard ale estimațiilor


CMMP
• Principala utilitate practică a formulei varianței este
calculul erorii standard a estimațiilor CMMP (și
utilizam std error să testăm diverse ipoteze asupra
parametrilor populației)
• O chestiune tehnică este aceea ca parametrul
adevărat σ2 nu este observat. Dar poate fi estimat
după cum urmează:

unde
48

48

24
Erori standard (cont)

Grade de libertate - Degrees of freedom (df):


df = n – (k + 1)
df = (număr de observații) – (număr de
parametri estimați)
Erorile standard:

Vom utiliza erorile standard pentru testarea ipotezelor –


le vom trece în revista în capitolul următor 49

49

Erorile standard în rapoarte de ieșire

. regress colGPA hsGPA ACT

Source SS df MS Number of obs = 141


F( 2, 138) = 14.78
Model 3.42365506 2 1.71182753 Prob > F = 0.0000
Residual 15.9824444 138 .115814814 R-squared = 0.1764
Adj R-squared = 0.1645
Total 19.4060994 140 .138614996 Root MSE = .34032

colGPA Coef. Std. Err. t P>|t| [95% Conf. Interval]

hsGPA .4534559 .0958129 4.73 0.000 .2640047 .6429071


ACT .009426 .0107772 0.87 0.383 -.0118838 .0307358
_cons 1.286328 .3408221 3.77 0.000 .612419 1.960237

50

50

25
3.5 Eficienta CMMP: Teorema Gauss-
Markov
• Teorema 3.4: Sub supozițiile RLM.1-5, CMMP
este cel mai bun estimator liniar nedeplasat -
Best Linear Unbiased Estimator (BLUE) al
parametrilor populației.
• Cel mai bun = cea mai mica varianță
• Este liniștitor să știm că, sub RLM.1-5, nu
putem găsi un estimator mai bun decât
CMMP.
• Dacă una din supoziții nu mai e validă, BLUE
nu mai este valabilă. 51

51

Câteva probleme
• Vom lucra la seminar pe cel puțin două
probleme (pentru început)

52

52

26

S-ar putea să vă placă și