Documente Academic
Documente Profesional
Documente Cultură
1
• Regresia multiplă este mult mai potrivită
pentru analiza cauzală (ceteris paribus)
• Motivul: Putem explicita controlul pentru
ceilalți factori care afectează variabila
dependentă y.
• Exemplul 1: Ecuația venitului
2
Modelul general cu doua variabile explicative:
unde
•β0 este parametrul liber
•β1 măsoară modificarea lui y în funcție de x1, menținând ceilalți
factori ficși
•β2 măsoară modificarea în y în funcție de x2, menținând ceilalți
factori ficși
Acest cadru poate fi la fel utilizat pentru a generaliza forma
funcțională – Exemplu: modelarea consumului familial (cons) ca o
funcție de venit (inc):
3
Modelul cu m variabile independente
Modelul regresiei multiple:
y = 0 + 1 x1 + 2 x2 + .... + + m xm + u 3.6
unde
β0 este parametrul liber
β1 este parametrul asociat cu x1 (masoara modificarea lui y în
functie de x1, mentinand ceilalti factori ficsi)
β2 este parametrul asociat cu x1 (masoara modificarea lui y în
functie de x2, mentinand ceilalti factori ficsi)
și asa mai departe…
7
Regresand Regresori
4
Interpretarea parametrilor modelului
regresiei multiple
• Abilitatea de a interpreta parametrii
modelului regresiei multiple este unul din
principalele scopuri ale acestui curs – și vom
încerca să practicăm aceste interpretări
• Verificare: Asigurați-va ca sunteți capabili să
interpretați parametrii următorului model:
10
10
5
3.2 Mecanica și interpretarea CMMP
• Ne concentram mai întâi pe modelul cu doua variabile
independente.
• Scriem regresia estimata CMMP într-o forma similara cu
regresia simplă:
11
12
6
Modelul cu m variabile independente
(y )
n
− ˆo − ˆ1 xi1 − ... − ˆm xim
2
i
i =1
13
𝟏
Exemplu: Condiția de prim-ordin pentru 𝜷
𝟏 astfel încât să
• Problema de minimizare: Alegeți 𝜷
minimizeze:
(y )
n
− ˆo − ˆ1 xi1 − ... − ˆm xim
2
i
i =1
( ) =0
n
14
7
Generalizare: k+1 parametri necunoscuți și
k+1 ecuații
(y )
n
(y − ˆ )
n
x
i =1
i1 i o − ˆ1 xi1 − ... − ˆm xim = 0
(...)
(y − ˆ )
n
x
i =1
im i o − ˆ1 xi1 − ... − ˆm xim = 0
16
16
8
Interpretarea funcției de regresie CMMP
• Mai importantă decât detaliile de calcul al
estimațiilor CMMP este interpretarea
ecuațiilor estimate
• Sa analizam modelul cu doi regresori:
17
18
9
Rezultatele regresiei
19
20
10
Interpretarea ecuațiilor cu m variabile
independente
• Cazul cu mai mult de două variabile
independente este similar.
• Spre exemplu, coeficientul lui x1 măsoară
modificarea lui cauzata de o creștere cu o
unitate a lui x1, ținând fixe celelalte variabile
independente:
21
Date: WAGE1.XLS. 22
22
11
• Interpretarea acestor rezultate
– Are sens să presupunem covarianța zero dintre reziduala și regresori?
– Este mai mult sau mai puțin importanta experiența generala decât
experiența specifica (specifica firmei)?
23
23
Matricea de corelație
. corr educ exper tenure
(obs=526)
educ 1.0000
exper -0.2995 1.0000
tenure -0.0562 0.4993 1.0000
24
12
Valorile ajustate și rezidualele CMMP
• Pentru observația i valoarea ajustata este, simplu
25
25
Proprietăți:
1. Media de sondaj a rezidualelor este zero, deci
y = yˆde sondaj dintre fiecare variabila
2. Covarianța
independenta și rezidualele CMMP este zero.
Atunci, covarianța de sondaj dintre valorile
ajustate CMMP și rezidualele CMMP este zero
(de ce?)
3. Punctul ( x1 , x2 ,..., xm , y ) este întotdeauna pe
dreapta de regresie
y = ˆo + ˆ1 x1 + ... + ˆm xm
26
26
13
Comparație intre estimațiile regresiei
simple și multiple
• Regresia simplă :
• Regresia multiplă:
27
si/sau
28
28
14
Calitatea ajustării:
La fel ca în regresia simplă
• SST = Total Sum of Squares
• SSE = Explained Sum of Squares
• SSR = Residual Sum of Squares
29
29
30
30
15
Comparați și interpretați R2…
Date: WAGE1.XLS. 31
31
32
32
16
Supoziții
Supoziția RLM.1: Lineara în parametrii:
y = β0 + β1x1 + β2x2 +…+ u.
33
34
17
Precizare: Dependenta neliniară este în
regula!
• Acest tip de model poate fi estimat prin
CMMP:
35
35
36
36
18
Media condiționată zero
• RLM.4 poate să eșueze din mai multe motive:
• Omiterea unei variabile explicative importante (numita și
subspecificarea modelului) care este corelata cu oricare dintre x1,
x2,…,xm
– Omiterea unei variabile importante, ceea ce se poate întâmpla frecvent, dar
pe care am dori să o controlam în raport cu celelalte variabile incluse, duce la
violarea supoziției RLM.4
• Specificare greșită a relației dintre variabila dependenta și
variabilele independente (omiterea unui termen la pătrat, utilizarea
nivelului în loc de ln, sau a logaritmului în locul nivelului...)
• Prima dintre acestea – variabilele omise – este de departe cea mai
mare grija pentru în cercetarea aplicativa
37
37
Teorema 3.1:
Sub RLM.1-4, estimatorii CMMP sunt
nedeplasați
E ( ˆ j ) = j , j = 0,1,..., m
38
38
19
Deplasarea cauzata de omiterea unei
variabile: cazul simplu
• Sa presupunem ca omitem o variabila care aparține
modelului adevărat (al populației)
• Motivul poate fi lipsa datelor (ex. Abilitatea în
regresia venitului)
• Aceasta în general cauzează ca estimatorii CMMP să
fie deplasați
• Sa studiem deplasarea mai în detaliu
39
39
40
20
Exemplu:
• Modelul adevărat venit = 0 + 1 educ + 2 abil + u
• Modelul estimat venit = 0 + 1 educ + v
– unde v = 2 abil + u
• Estimatorul 1 din aceasta regresie simplă este ceea ce
~
numim 1
• Reprezentam relația dintre educ și abil printr-o regresie liniară
simplă
abil = 0 + 1 educ +
• unde ε este necorelata cu educ (atenție: nu trebuie să dați
acestei ecuații o relație cauzala intre abil și educ. Ea reflecta
asociația dintre ele, adică δ1>0 daca abil și educ sunt corelate
pozitiv.
41
41
~ ~
• Știm ca: 1 = ˆ1 + ˆ2 1
• Atunci
3.45
• Deplasarea (Bias)
42
42
21
Semnul deplasării
~
• Semnul deplasării lui 1 când x2 este omis în
estimarea ecuației (3.40)
Corr(x1,x2)>0 Corr(x1,x2)<0
43
43
44
44
22
3.4 Varianta estimatorilor CMMP
46
23
Interpretarea formulei varianței
47
47
unde
48
48
24
Erori standard (cont)
49
50
50
25
3.5 Eficienta CMMP: Teorema Gauss-
Markov
• Teorema 3.4: Sub supozițiile RLM.1-5, CMMP
este cel mai bun estimator liniar nedeplasat -
Best Linear Unbiased Estimator (BLUE) al
parametrilor populației.
• Cel mai bun = cea mai mica varianță
• Este liniștitor să știm că, sub RLM.1-5, nu
putem găsi un estimator mai bun decât
CMMP.
• Dacă una din supoziții nu mai e validă, BLUE
nu mai este valabilă. 51
51
Câteva probleme
• Vom lucra la seminar pe cel puțin două
probleme (pentru început)
52
52
26