Sunteți pe pagina 1din 29

Regresie liniara (2)

Luni, 6 Martie 2023

1
Media şi dispersia variabilei dependente

Dacă presupunem că media şi dispersia lui  sînt 0 şi 2,


atunci media lui Y pentru o valoare particulară a lui X
este dată de relaţia:

Dispersia lui Y pentru o valoare particulară a lui X


este dată de relaţia:

2
•La nivelul populaţiei regresia se reduce la exprimarea
mediei condiţionate a lui Y:

unde 1 are semnificaţia unui coeficient de


elasticitate: arată modificarea lui Y la o modificare cu
o unitate a lui x.
• De asemenea, variabilitatea lui Y pentru o valoare
particulară x este determinată de dispersia variabilei
reziduale, 2.
• Există o distribuţie a valorilor lui Y pentru fiecare x
şi dispersia acestei distribuţii este constantă pentru
3
orice x.
Distribuţia condiţionată a lui Y

Dreapta de regresie
Y

X
4
Modelul de regresie liniară la
nivelul populaţiei
Y Yi   0  1X i   i Valoarea
observată

i = Eroarea

   0  1X i
YX
(E(Y))
X
Valoarea 5
observată
Modelul de regresie liniară la
nivelul eşantionului
Yˆi  ˆ0  ˆ1 X i

Yi = Valoarea estimată a lui Y pentru observaţia i

Xi = Valoarea lui X pentru observaţia i

̂ 0 = Estimatorul termenului liber 0

= Estimatorul pantei 1
̂1 6
Estimarea parametrilor modelului de regresie
 Metoda celor mai mici pătrate(M.C.M.M.P.) –
Ordinary Least Squares(OLS sau LS)
 Presupunem că avem n perechi de observaţii (x1,
y1), (x2, y2), …, (xn, yn).
 Ideea este să minimizăm distanţa dintre valorile
estimate şi valorilen reale 2 n

i 1

L   Yi  Yˆi    ˆ i2  m in
i 1
 Ne reamintim că deci

Yˆi  ˆ0  ˆ1 xi

7
Ilustrare grafică
n
LS m inim izează  ˆ
i 1
i
2
 ˆ  ˆ  ˆ  ˆ
1
2 2
2
2
3
2
4

Y Y 2   0   1 X 2   2
^4
^2
^1 ^3
  
Yi   0   1X i
X 8
 Condiţiile de minim:

 Simplificînd, obţinem sistemul de ecuaţii


normale

9
Estimatorii modelului de regresie

cov( X , Y )
b1  2
sx
b 0  y  b1 x

10
Notaţii

 Valoarea estimată:
 Valoarea reziduală(reziduul):

11
Estimatorul dispersiei modelului

 Dacă notăm suma pătratelor erorilor de


regresie

atunci un estimator al varianţei variabilei


reziduale este

12
Proprietăţile estimatorilor modelului de regresie
 ˆ0 şi ˆ1 sînt estimatori nedeplasaţi ai parametrilor  0 şi 1
E ( ˆ )   şi E ( ˆ )  
0 0 1 1

-Dispersiile celor doi estimatori sînt date de relaţiile

ˆ 2  1 x 2

V( 0 )     
 n S xx 
2

V(ˆ1 ) 
S xx
n
unde S xx   ( xi  x ) 2 şi  2 este dispersia variabilei reziduale
i 1

-Estimatorii ˆ0 şi ˆ1 urmează o distribuţie normală


13
Distribuţia estimatorului pantei de regresie

Y Sample 1 Line
All Possible
Sample Slopes
Sample 2 Line  Sample 1: 2.5
Population Line
 Sample 2: 1.6
X  Sample 3: 1.8
 Sample 4: 2.1
Sampling Distribution
: :
S^ 1
Very large number of
sample slopes

^
1 1
14
Eroarea standard a estimatorilor
n

i
e 2

Întrucît varianţa reziduală  2 se estimează prin ˆ 2  i 1


putem avea o estimare
n2
a erorii standard a celor doi estimatori:
2
V ( ˆ)
 S ˆ 2
-SE ( ˆ1 )  1
 xx

df n2 S xx

2  1 x2 
   
V ( ˆ
 )  n S   1 x 2

ˆ
-SE (  0 )  0
 xx 2
 ˆ   
df n2  n S xx 

Erorile standard vor fi folosite la testarea semnificaţiei parametrilor modelului


de regresie 15
Intervale de încredere pentru parametrii
modelului
 Pentru termenul
ˆ0  t / 2,n 2 SEliber(intercept)
( ˆ0 )   0  ˆ0  t / 2,n  2 SE ( ˆ0 )
 1 x2   1 x 2

ˆ0  t / 2,n 2 2
ˆ      0  ˆ
0  t / 2, n  2 ˆ 2
  
 n S xx   n S xx 

 Pentru panta dreptei de regresie(slope)


ˆ1  t / 2,n  2 SE ( ˆ1 )  1  ˆ1  t / 2, n 2 SE ( ˆ1 )
 x 2
  x 2

ˆ1  t / 2,n  2 2 ˆ 2
ˆ    1  1  t / 2,n 2 ˆ  
 S xx   S xx 
unde n este estimatorul dispersiei modelului.
e 2
i
ˆ 2  i 1

n2
16
Teorema Gauss-Markov
 Estimatorii obţinuţi prin metoda celor mai mici pătrate
sînt B.L.U.E. i.e. orice alt estimator liniar are o
dispersie mai mare decît cei obţinuţi prin MCMMP.

Conform OLS, estimatorul pantei este o combinaţie liniară de valorile variabilei dependente:
n n n n

 ( y  y)( x  x)  y ( x  x)  y  ( x  x)  y ( x  x)
i i i i i i i n
ˆ1  i 1
n
 i 1
n
i 1
 i 1
n
   i yi
 ( x  x)
i 1
i
2
 ( x  x)
i 1
i
2
 ( x  x)
i 1
i
2 i 1

n n n n
Fie    qi yi   0  qi  1  qi xi   qi i un alt estimator liniar.
'

i 1 i 1 i 1 i 1
n n
Pentru ca E( )  1 , e necesar ca  qi  0 şi  qi xi  1.
'

i 1 i 1
n n
Rezultă    qi i  1 , deci varianţa sa este V( )  
' ' 2
q . 2
i
i 1 i 1
n
Fie vi  q i  i , atunci qi   i  vi şi avem V( )   ' 2
 (
i 1
i  vi ) 2 
n n n
 2
 ( i
2 2
 2 i vi  v )  
i
2
 ( i
2
v ) 2
i
2
 i
2
 V ( ˆ1 ).*** QED 17
i 1 i 1 i 1
Exemplu-chiria ca funcţie de suprafaţă

 Panta dreptei de regresie este pozitivă, deci există o


legătură directă între chirie şi suprafaţa apartamentelor.
 În plus, dacă chiria creşte cu o unitate(1 m2) ,chiria va
creşte cu 10.640 lei.
 Doar panta dreptei de regresie este semnifcativ diferită
de zero.
 P-value – probabilitatea ipotezei ca parametrul estimat
să fie egal cu zero; dacă P-value este mai mic decît
pragul de semnificaţie atunci respingem această ipoteză.

18
Analiza varianţei pentru modelul de regresie

 Dacă între X şi Y nu există nici o legătură,


atunci putem face predicţii privind valoarea
medie a lui Y pentru orice valoare a lui X
 Dacă există o legătură între X şi Y, în ce măsură
cunoaşterea valorilor lui X poate explica
abaterea variabilei dependente de la media sa?
 Abaterea totala = abaterea explicata +
Abaterea reziduala

ˆ ˆ
(Y i - Y )  (Y i - Y )  (Y i - Y i)
19
Descompunerea variaţiei

Y 
SSE =(Yi - Yi )2 ^ Xi
_  β^ 0
β
+ 1
SST = (Yi - Y) Yi =
2

 _
SSR = (Yi - Y)2
_
Y

X
X Xi
20
ANOVA pentru regresie
ˆ ˆ
 2
(Y i  Y )   2
(Yi  Y )   (Y i  Y i) 2

SST = SSR + SSE


SST = Total Sum of Squares
_
Măsoară variaţia valorilor observate Yi în jurul mediei Y

SSR = Regression Sum of Squares


Măsoară variaţia explicată de modelul de regresie

SSE = Error Sum of Squares


Măsoară variaţia ce poate fi atribuită altor factori, diferiţi
21
de variabila explicativă X
Excel Output (selecţie)

22
Coeficientul de determinaţie R2
 Este o măsură a proporţiei varianţei explicate de
model n n

SSR  i
( ˆ
y  y ) 2
i
e 2

2
R   i 1
 1 i 1
 0,1
SST  ( y  y)
i
i
2
 ( y  y)
i
i
2

 R2 este afectat de creşterea numărului de


parametri; de aceea pentru modele cu multi
parametri se calculează R2 ajustat, care are
aceeaşi interpretare.
2 n 1 
2 n 1 
R  1  (1  R )
adj  1  ,1
n  k 1  n  k 1 
23
Exemplu-chiria ca funcţie de suprafaţă

•Modelul explică 72.23% din variaţia chiriei pentru apartamentele din zona
centrală

Standard Error : n

i
e 2

ˆ  i 1
24
n2
Observaţii

 R2 este adesea folosit pentru a alege cel


mai bun model din punctul de vedere al
varianţei explicate.

 Comparaţiile de acest fel trebuie făcute


între modele de aceeaşi natură.

25
Foarte important!!
 Pentru modele de regresie fără termen liber, de tipul

y  x  R2 nu mai are semnificaţia de proporţie a


varianţei explicate.
 Exemplu: considerăm două astfel de modele

 y1  1 x1  1
 , unde y2i  y1i   şi x2i  x1i  
 y2   2 x2   2

 Deşi ar părea că modelul al doilea este mai performant, nu sînt


argumente pentru a susţine această ipoteză
26
Coeficientul de determinaţie şi coeficientul
de corelaţie liniară

Y R2 = 1, r = +1 Y R2 = 1, r = -1
^=b +b X
Y i 0 1 i
^=b +b X
Yi 0 1 i
X X

Y = .8, r = +0.9
R2
Y R2 = 0, r = 0

^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i

X X27
Tabelul ANOVA
Source of Sum of Squares df Mean F
Variation Square
n
SSR MSR
Regression SSR   ( yˆi  y ) 2
k-1 MSR=
i 1 k 1 MSE
n n
SSE
Error SSE   ( yi  yˆi )   ei 2
2
n-k MSE=
i 1 i 1 nk
SST   ( yi  y ) 2 SST
Total n-1
i n 1

SSR
Testul k-numărul de parametri ai
F  k  1 ~ Fk 1, n  k modelului
SSE
nk
este folosit la verificarea validităţii modelului. Un model este valid dacă proporţia varianţei
explicate prin model este semnificativă. Ipoteza nulă pentru testul F in cazul acesta este cea
de model nevalid. 28
Excel Output

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.85
R Square 0.72
Adjusted R Square 0.71
Standard Error 194.70
Observations 25

ANOVA
df SS MS F Significance F
Regression 1 2267827.07 2267827.07 59.82347359 0.00
Residual 23 871898.93 37908.64913
Total 24 3139726
29

S-ar putea să vă placă și