Sunteți pe pagina 1din 18

Regresie liniara (2)

Joi, 7 Martie 2019

1
Media şi dispersia variabilei dependente

Dacă presupunem că media şi dispersia lui  sînt 0 şi 2,


atunci media lui Y pentru o valoare particulară a lui X
este dată de relaţia:

Dispersia lui Y pentru o valoare particulară a lui X


este dată de relaţia:

2
•La nivelul populaţiei regresia se reduce la exprimarea
mediei condiţionate a lui Y:

unde 1 are semnificaţia unui coeficient de


elasticitate: arată modificarea lui Y la o modificare cu
o unitate a lui x.
• De asemenea, variabilitatea lui Y pentru o valoare
particulară x este determinată de dispersia variabilei
reziduale, 2.
• Există o distribuţie a valorilor lui Y pentru fiecare x
şi dispersia acestei distribuţii este constantă pentru
3
orice x.
Distribuţia condiţionată a lui Y

Dreapta de regresie
Y

X
4
Modelul de regresie liniară la
nivelul populaţiei
Y Yi   0  1X i   i Valoarea
observată

i = Eroarea

   0  1X i
YX
(E(Y))
X
Valoarea 5
observată
Modelul de regresie liniară la
nivelul eşantionului
Yˆi  ˆ0  ˆ1 X i

Yi = Valoarea estimată a lui Y pentru observaţia i

Xi = Valoarea lui X pentru observaţia i

̂ 0 = Estimatorul termenului liber 0

̂1 = Estimatorul pantei 1


6
Estimarea parametrilor modelului de regresie
 Metoda celor mai mici pătrate(M.C.M.M.P.) –
Ordinary Least Squares(OLS sau LS)
 Presupunem că avem n perechi de observaţii (x1,
y1), (x2, y2), …, (xn, yn).
 Ideea este să minimizăm distanţa dintre valorile
estimate şi valorilenn reale 22
 
nn
L   Yii  Yˆii   ˆ i2i2  m in
ii11 ii11
 Ne reamintim că deci

Yˆi  ˆ0  ˆ1 xi

7
Ilustrare grafică
n
LS m inim izează  ˆ
i 1
i
2
 ˆ  ˆ  ˆ  ˆ
1
2 2
2
2
3
2
4

Y Y 2   0   1 X 2   2
^44
^22
^11 ^33
  
Yi   0   1X i
X 8
 Condiţiile de minim:

 Simplificînd, obţinem sistemul de ecuaţii


normale

9
Estimatorii modelului de regresie

cov(XX,,YY))
cov(
bb11  22
ssxx
bb00  yy bb11xx

10
Notaţii

 Valoarea estimată:
 Valoarea reziduală(reziduul):

11
Estimatorul dispersiei modelului

 Dacă notăm suma pătratelor erorilor de


regresie

atunci un estimator al varianţei variabilei


reziduale este

12
Proprietăţile estimatorilor modelului de regresie
 ˆ0 şi ˆ1 sînt estimatori nedeplasaţi ai parametrilor  0 şi 1
E ( ˆ )   şi E ( ˆ )  
0 0 1 1

-Dispersiile celor doi estimatori sînt date de relaţiile

ˆ  1 x 2

V( 0 )    
2

 n S xx 
2
V(ˆ1 ) 
S xx
n
unde S xx   ( xi  x ) 2 şi  2 este dispersia variabilei reziduale
i 1

-Estimatorii ˆ0 şi ˆ1 urmează o distribuţie normală


13
Distribuţia estimatorului pantei de regresie

Y Sample 1 Line
All Possible
Sample Slopes
Sample 2 Line  Sample 1: 2.5
Population Line
 Sample 2: 1.6
X  Sample 3: 1.8
 Sample 4: 2.1
Sampling Distribution
: :
S^ 1
Very large number of
sample slopes

^
1 1
14
Eroarea standard a estimatorilor
n

i
e 2

Întrucît varianţa reziduală  2 se estimează prin ˆ 2  i 1


putem avea o estimare
n2
a erorii standard a celor doi estimatori:
2
V ( ˆ)
 S ˆ 2
-SE ( ˆ1 )  1
 xx

df n2 S xx
 1 x2 
   
2

V ( ˆ)
  n S   1 x 2

ˆ
-SE (  0 )  0
 xx
 ˆ   
2

df n2  n S xx 

Erorile standard vor fi folosite la testarea semnificaţiei parametrilor modelului


de regresie 15
Intervale de încredere pentru parametrii
modelului
 Pentru termenul
ˆ0  t / 2,n 2 SEliber(intercept)
( ˆ0 )   0  ˆ0  t / 2, n 2 SE ( ˆ0 )
 1 x2   1 x 2

ˆ0  t / 2,n 2 ˆ     0  ˆ0  t / 2, n 2 ˆ   
2 2

 n S xx   n S xx 
 Pentru panta dreptei de regresie(slope)
ˆ1  t / 2,n 2 SE ( ˆ1 )  1  ˆ1  t / 2,n 2 SE ( ˆ1 )
 x 2
  x 2

ˆ1  t / 2,n 2 ˆ
ˆ    1  1  t / 2,n 2 ˆ  
2 2

 S xx   S xx 
unde n este estimatorul dispersiei modelului.
e 2
i
ˆ 2  i 1

n2
16
Teorema Gauss-Markov
 Estimatorii obţinuţi prin metoda celor mai mici
pătrate sînt B.L.U.E. i.e. orice alt estimator liniar are
o dispersie mai mare decît cei obţinuţi prin MCMMP.

Conform OLS, estimatorul pantei este o combinaţie liniară de valorile variabilei dependente:
n n n n

 ( y  y)( x  x)  y ( x  x)  y  ( x  x)  y ( x  x)
i i i i i i i n
ˆ1  i 1
n
 i 1
n
i 1
 i 1
n
   i yi
 ( x  x)
i 1
i
2
 ( x  x)
i 1
i
2
 ( x  x)
i 1
i
2 i 1

n n n n
Fie    qi yi   0  qi  1  qi xi   qi i un alt estimator liniar.
'

i 1 i 1 i 1 i 1
n n
Pentru ca E( )  1 , e necesar ca  qi  0 şi  qi xi  1.
'

i 1 i 1
n n
Rezultă    qi i  1 , deci varianţa sa este V( )  
' ' 2
q . 2
i
i 1 i 1
n
Fie vi  q i  i , atunci qi   i  vi şi avem V( )   ' 2
 (
i 1
i  vi ) 2 
n n n
 2
 (
i 1
i
2
 2 i vi  v )  
2
i
2
 (
i 1
i
2
v )  2
i
2

i 1
i
2
 V ( ˆ1 ).*** QED 17
Exemplu-chiria ca funcţie de suprafaţă

 Panta dreptei de regresie este pozitivă, deci există o


legătură directă între chirie şi suprafaţa apartamentelor.
 În plus, dacă chiria creşte cu o unitate(1 m2) ,chiria va
creşte cu 10.640 lei.
 Doar panta dreptei de regresie este semnifcativ diferită
de zero.
 P-value – probabilitatea ipotezei ca parametrul estimat
să fie egal cu zero; dacă P-value este mai mic decît
pragul de semnificaţie atunci respingem această ipoteză.

18

S-ar putea să vă placă și