Regresie Liniara (2) : Luni, 6 Martie 2023

Regresie liniara (2)
Luni, 6 Martie 2023
1
Media şi dispersia variabilei dependente
Dacă presupunem că media şi dispersia lui  sînt 0 şi 2,

atunci media lui Y pentru o valoare particulară a lui X
este dată de relaţia:
Dispersia lui Y pentru o valoare particulară a lui X

este dată de relaţia:
2
•La nivelul populaţiei regresia se reduce la exprimarea
mediei condiţionate a lui Y:
unde 1 are semnificaţia unui coeficient de

elasticitate: arată modificarea lui Y la o modificare cu
o unitate a lui x.
• De asemenea, variabilitatea lui Y pentru o valoare
particulară x este determinată de dispersia variabilei
reziduale, 2.
• Există o distribuţie a valorilor lui Y pentru fiecare x
şi dispersia acestei distribuţii este constantă pentru
3
orice x.
Distribuţia condiţionată a lui Y
Dreapta de regresie
Y
X
4
Modelul de regresie liniară la
nivelul populaţiei
Y Yi   0  1X i   i Valoarea
observată
i = Eroarea
   0  1X i
YX
(E(Y))
X
Valoarea 5
observată
Modelul de regresie liniară la
nivelul eşantionului
Yî  ˆ0  ˆ1 X i

Yi = Valoarea estimată a lui Y pentru observaţia i
Xi = Valoarea lui X pentru observaţia i
̂ 0 = Estimatorul termenului liber 0
= Estimatorul pantei 1
̂1 6
Estimarea parametrilor modelului de regresie
 Metoda celor mai mici pătrate(M.C.M.M.P.) –
Ordinary Least Squares(OLS sau LS)
 Presupunem că avem n perechi de observaţii (x1,
y1), (x2, y2), …, (xn, yn).
 Ideea este să minimizăm distanţa dintre valorile
estimate şi valorilen reale 2 n
i 1

L   Yi  Yî    ˆ i2  m in
i 1
 Ne reamintim că deci
Yî  ˆ0  ˆ1 xi
7
Ilustrare grafică
n
LS m inim izează  ˆ
i 1
i
2
 ˆ  ˆ  ˆ  ˆ
1
2 2
2
2
3
2
4
Y Y 2   0   1 X 2   2
^4
^2
^1 ^3
  
Yi   0   1X i
X 8
 Condiţiile de minim:
 Simplificînd, obţinem sistemul de ecuaţii

normale
9
Estimatorii modelului de regresie
cov( X , Y )
b1  2
sx
b 0  y  b1 x
10
Notaţii
 Valoarea estimată:
 Valoarea reziduală(reziduul):
11
Estimatorul dispersiei modelului
 Dacă notăm suma pătratelor erorilor de

regresie
atunci un estimator al varianţei variabilei

reziduale este
12
Proprietăţile estimatorilor modelului de regresie
 ˆ0 şi ˆ1 sînt estimatori nedeplasaţi ai parametrilor  0 şi 1
E ( ˆ )   şi E ( ˆ )  
0 0 1 1
-Dispersiile celor doi estimatori sînt date de relaţiile
ˆ 2  1 x 2

V( 0 )     
 n S xx 
2

V(ˆ1 ) 
S xx
n
unde S xx   ( xi  x ) 2 şi  2 este dispersia variabilei reziduale
i 1
-Estimatorii ˆ0 şi ˆ1 urmează o distribuţie normală

13
Distribuţia estimatorului pantei de regresie
Y Sample 1 Line
All Possible
Sample Slopes
Sample 2 Line  Sample 1: 2.5
Population Line
 Sample 2: 1.6
X  Sample 3: 1.8
 Sample 4: 2.1
Sampling Distribution
: :
S^ 1
Very large number of
sample slopes
^
1 1
14
Eroarea standard a estimatorilor
n
i
e 2
Întrucît varianţa reziduală  2 se estimează prin ˆ 2  i 1

putem avea o estimare
n2
a erorii standard a celor doi estimatori:
2
V ( ˆ)
 S ˆ 2
-SE ( ˆ1 )  1
 xx

df n2 S xx
2  1 x2 
   
V ( ˆ
 )  n S   1 x 2

ˆ
-SE (  0 )  0
 xx 2
 ˆ   
df n2  n S xx 
Erorile standard vor fi folosite la testarea semnificaţiei parametrilor modelului

de regresie 15
Intervale de încredere pentru parametrii
modelului
 Pentru termenul
ˆ0  t / 2,n 2 SEliber(intercept)
( ˆ0 )   0  ˆ0  t / 2,n  2 SE ( ˆ0 )
 1 x2   1 x 2

ˆ0  t / 2,n 2 2
ˆ      0  ˆ
0  t / 2, n  2 ˆ 2
  
 n S xx   n S xx 
 Pentru panta dreptei de regresie(slope)

ˆ1  t / 2,n  2 SE ( ˆ1 )  1  ˆ1  t / 2, n 2 SE ( ˆ1 )
 x 2
  x 2

ˆ1  t / 2,n  2 2 ˆ 2
ˆ    1  1  t / 2,n 2 ˆ  
 S xx   S xx 
unde n este estimatorul dispersiei modelului.
e 2
i
ˆ 2  i 1
n2
16
Teorema Gauss-Markov
 Estimatorii obţinuţi prin metoda celor mai mici pătrate
sînt B.L.U.E. i.e. orice alt estimator liniar are o
dispersie mai mare decît cei obţinuţi prin MCMMP.
Conform OLS, estimatorul pantei este o combinaţie liniară de valorile variabilei dependente:
n n n n
 ( y  y)( x  x)  y ( x  x)  y  ( x  x)  y ( x  x)
i i i i i i i n
ˆ1  i 1
n
 i 1
n
i 1
 i 1
n
   i yi
 ( x  x)
i 1
i
2
 ( x  x)
i 1
i
2
 ( x  x)
i 1
i
2 i 1
n n n n
Fie    qi yi   0  qi  1  qi xi   qi i un alt estimator liniar.
'
i 1 i 1 i 1 i 1
n n
Pentru ca E( )  1 , e necesar ca  qi  0 şi  qi xi  1.
'
i 1 i 1
n n
Rezultă    qi i  1 , deci varianţa sa este V( )  
' ' 2
q . 2
i
i 1 i 1
n
Fie vi  q i  i , atunci qi   i  vi şi avem V( )   ' 2
 (
i 1
i  vi ) 2 
n n n
 2
 ( i
2 2
 2 i vi  v )  
i
2
 ( i
2
v ) 2
i
2
 i
2
 V ( ˆ1 ).*** QED 17
i 1 i 1 i 1
Exemplu-chiria ca funcţie de suprafaţă
 Panta dreptei de regresie este pozitivă, deci există o

legătură directă între chirie şi suprafaţa apartamentelor.
 În plus, dacă chiria creşte cu o unitate(1 m2) ,chiria va
creşte cu 10.640 lei.
 Doar panta dreptei de regresie este semnifcativ diferită
de zero.
 P-value – probabilitatea ipotezei ca parametrul estimat
să fie egal cu zero; dacă P-value este mai mic decît
pragul de semnificaţie atunci respingem această ipoteză.
18
Analiza varianţei pentru modelul de regresie
 Dacă între X şi Y nu există nici o legătură,

atunci putem face predicţii privind valoarea
medie a lui Y pentru orice valoare a lui X
 Dacă există o legătură între X şi Y, în ce măsură
cunoaşterea valorilor lui X poate explica
abaterea variabilei dependente de la media sa?
 Abaterea totala = abaterea explicata +
Abaterea reziduala
ˆ ˆ
(Y i - Y )  (Y i - Y )  (Y i - Y i)
19
Descompunerea variaţiei
Y 
SSE =(Yi - Yi )2 ^ Xi
_  β^ 0
β
+ 1
SST = (Yi - Y) Yi =
2
 _
SSR = (Yi - Y)2
_
Y
X
X Xi
20
ANOVA pentru regresie
ˆ ˆ
 2
(Y i  Y )   2
(Yi  Y )   (Y i  Y i) 2
SST = SSR + SSE

SST = Total Sum of Squares
_
Măsoară variaţia valorilor observate Yi în jurul mediei Y
SSR = Regression Sum of Squares

Măsoară variaţia explicată de modelul de regresie
SSE = Error Sum of Squares

Măsoară variaţia ce poate fi atribuită altor factori, diferiţi
21
de variabila explicativă X
Excel Output (selecţie)
22
Coeficientul de determinaţie R2
 Este o măsură a proporţiei varianţei explicate de
model n n
SSR  i
( ˆ
y  y ) 2
i
e 2
2
R   i 1
 1 i 1
 0,1
SST  ( y  y)
i
i
2
 ( y  y)
i
i
2
 R2 este afectat de creşterea numărului de

parametri; de aceea pentru modele cu multi
parametri se calculează R2 ajustat, care are
aceeaşi interpretare.
2 n 1 
2 n 1 
R  1  (1  R )
adj  1  ,1
n  k 1  n  k 1 
23
Exemplu-chiria ca funcţie de suprafaţă
•Modelul explică 72.23% din variaţia chiriei pentru apartamentele din zona
centrală
Standard Error : n
i
e 2
ˆ  i 1
24
n2
Observaţii
 R2 este adesea folosit pentru a alege cel

mai bun model din punctul de vedere al
varianţei explicate.
 Comparaţiile de acest fel trebuie făcute

între modele de aceeaşi natură.
25
Foarte important!!
 Pentru modele de regresie fără termen liber, de tipul
y  x  R2 nu mai are semnificaţia de proporţie a

varianţei explicate.
 Exemplu: considerăm două astfel de modele
 y1  1 x1  1
 , unde y2i  y1i   şi x2i  x1i  
 y2   2 x2   2
 Deşi ar părea că modelul al doilea este mai performant, nu sînt

argumente pentru a susţine această ipoteză
26
Coeficientul de determinaţie şi coeficientul
de corelaţie liniară
Y R2 = 1, r = +1 Y R2 = 1, r = -1
^=b +b X
Y i 0 1 i
^=b +b X
Yi 0 1 i
X X
Y = .8, r = +0.9
R2
Y R2 = 0, r = 0
^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i
X X27
Tabelul ANOVA
Source of Sum of Squares df Mean F
Variation Square
n
SSR MSR
Regression SSR   ( yî  y ) 2
k-1 MSR=
i 1 k 1 MSE
n n
SSE
Error SSE   ( yi  yî )   ei 2
2
n-k MSE=
i 1 i 1 nk
SST   ( yi  y ) 2 SST
Total n-1
i n 1
SSR
Testul k-numărul de parametri ai
F  k  1 ~ Fk 1, n  k modelului
SSE
nk
este folosit la verificarea validităţii modelului. Un model este valid dacă proporţia varianţei
explicate prin model este semnificativă. Ipoteza nulă pentru testul F in cazul acesta este cea
de model nevalid. 28
Excel Output
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.85
R Square 0.72
Adjusted R Square 0.71
Standard Error 194.70
Observations 25
ANOVA
df SS MS F Significance F
Regression 1 2267827.07 2267827.07 59.82347359 0.00
Residual 23 871898.93 37908.64913
Total 24 3139726
29

Regresie Liniara (2) : Luni, 6 Martie 2023

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresie Liniara (2) : Luni, 6 Martie 2023

Încărcat de

Drepturi de autor:

Formate disponibile

Regresie liniara (2)

Luni, 6 Martie 2023

Dacă presupunem că media şi dispersia lui  sînt 0 şi 2,

Dispersia lui Y pentru o valoare particulară a lui X

unde 1 are semnificaţia unui coeficient de

Xi = Valoarea lui X pentru observaţia i

̂ 0 = Estimatorul termenului liber 0

Yˆi  ˆ0  ˆ1 xi

 Simplificînd, obţinem sistemul de ecuaţii

 Dacă notăm suma pătratelor erorilor de

atunci un estimator al varianţei variabilei

-Dispersiile celor doi estimatori sînt date de relaţiile

-Estimatorii ˆ0 şi ˆ1 urmează o distribuţie normală

Întrucît varianţa reziduală  2 se estimează prin ˆ 2  i 1

Erorile standard vor fi folosite la testarea semnificaţiei parametrilor modelului

 Pentru panta dreptei de regresie(slope)

 Panta dreptei de regresie este pozitivă, deci există o

 Dacă între X şi Y nu există nici o legătură,

SST = SSR + SSE

SSR = Regression Sum of Squares

SSE = Error Sum of Squares

 R2 este afectat de creşterea numărului de

 R2 este adesea folosit pentru a alege cel

 Comparaţiile de acest fel trebuie făcute

y  x  R2 nu mai are semnificaţia de proporţie a

 Deşi ar părea că modelul al doilea este mai performant, nu sînt

S-ar putea să vă placă și