Sunteți pe pagina 1din 19

Prelegeri 3-4-5 Modelul de regresie.

Conţinut
Proprietățiile estimatorilor MCMMPO
Inferența statistică 1. Introducere
în modelul clasic de regresie liniară simplă 2. Scurt istoric al metodei, tipologie
3. Ipotezele modelului de regresie simpla
liniara
Bourbonnais (2018): Capitolul 2
4. Estimarea parametrilor modelului liniar
Gujarati(2003): Capitolul 3 de regresie
5. Proprietăţile estimatorilor

17.09.2023 prof.univ.dr. Ion Pârțachi 1 17.09.2023 prof.univ.dr. Ion Pârțachi 2

1 2

• Există două mari motive pentru care se efectuează


• O mare parte a analizelor statistice uzuale se ocupă cu un asemenea studiu:
analiza relaţiei între două variabile statistice (atribute) • Descrierea relaţiei care ar putea exista între cele
ce corespund aceluiaşi grup de obiecte/instanţe. două variabile, analizând legătura între cele două
• Pentru a o identifica, se studiază relaţia dintre cele două serii de observaţii. Concret, se analizează dacă
caracteristici/atribute măsurate pe obiectele dintr-un tendinţa ascendentă a uneia implică o tendinţă
anumit set. ascendentă, descendentă sau nici o tendinţă a
• Cu alte cuvinte, este vorba de două serii statistice în celeilalte;
care cuplurile de valori (xi, yi), corespunzând cuplului • În ipoteza existenţei unei legături reale între ele,
de variabile statistice (X, Y) sunt măsurate pe acelaşi identificată în prima instanţă, să se poată
obiect. prognostica valorile uneia în raport cu valorile
celeilalte pe baza ecuaţiei de regresie.

17.09.2023 prof.univ.dr. Ion Pârțachi 3 17.09.2023 prof.univ.dr. Ion Pârțachi 4

3 4

1
•Scopul final este prognoza, în condiţia că este •Coeficientul de corelaţie poate fi calculat
posibilă, cele două variabile fiind într-adevăr pentru orice set de date, dar, pentru ca el
corelate. să aibă relevanţă statistică, trebuie îndeplinite
•Metoda prin care analizăm posibilele asociaţii două condiţii majore:
între valorile a două variabile statistice, •(a) cele două variabile să fie definite de
prelevate de la acelaşi grup de obiecte, este acelaşi lot de obiecte, cuplurile de date
cunoscută ca metoda corelaţiei şi are ca indice corespunzând aceluiaşi obiect;
coeficientul de corelaţie (Pearson’s r). •(b) cel puţin una din variabile să aibă o
repartiţie aproximativ normală, ideal fiind ca
ambele să fie normal repartizate.

17.09.2023 prof.univ.dr. Ion Pârțachi 5 17.09.2023 prof.univ.dr. Ion Pârțachi 6

5 6

Regresia liniara • Modul de prezentare a legăturii liniare dintre două


variabile, atunci când aceasta există, se numeşte
metoda regresiei liniare (linear regression).
•Pasul următor în analiza legăturii dintre • Pentru aceasta se consideră una dintre variabile ca
două variabile statistice, atunci când acestea variabilă independentă sau variabilă predictor, iar
sunt corelate, este să se stabilească concret cealaltă variabilă ca variabilă dependentă sau
natura legăturii liniare dintre ele, descriind-o variabilă răspuns (outcome).
printr-o ecuaţie matematică. • Legătura liniară dintre cele două variabile este
•Scopul final al acestei abordări este descrisă de o ecuaţie liniară, ecuaţia de regresie
prognoza valorilor uneia dintre variabile pe (regression equation) căreia îi corespunde geometric
baza valorilor celeilalte, prognoză efectuată dreapta de regresie (regression line).
pe baza ecuaţiei ce descrie legătura dintre
cele două seturi de date.
17.09.2023 prof.univ.dr. Ion Pârțachi 7 17.09.2023 prof.univ.dr. Ion Pârțachi 8

7 8

2
• Ca metodologie, variabila dependentă se distribuie •Presupunând că legătura dintre cele două
pe axa ordonatelor, în timp ce variabila variabile X şi Y, reliefată de coeficientul de
independentă se distribuie pe axa absciselor. Ecuaţia corelaţie r, nu este întâmplătoare, există trei
dreptei de regresie se stabileşte pe baza metodei posibile explicaţii:
“celor mai mici pătrate” (least squares method) care,
intuitiv, minimizează distanţa între punctele
•Variabila X influenţează (cauzează) variabila
reprezentate de perechile de date/observed values şi Y;
punctele corespunzătoare de pe dreaptă/fitted values •Variabila Y influenţează variabila X;
(obţinute pe verticalele corespunzătoare). Aceasta
•Ambele variabile X şi Y sunt influenţate de
distanţă se numeşte reziduu (residual).
acelaşi fenomen din fundal.

17.09.2023 prof.univ.dr. Ion Pârțachi 9 17.09.2023 prof.univ.dr. Ion Pârțachi 10

9 10

În medie ne-am aştepta ca la un nivel mai ridicat de


educaţie, nivelul venitului să crească:
venit =  1 +  2educaţie + 

Dar în acest caz nu se tine seama de faptul că venitul


depinde şi de experiență:
venit =  1 +  2educaţie + 3experiență+ 
care este un model liniar multifactorial.

Forma generală a modelului liniar de regresie


multifactorial:
yi =  1xi1+2xi2+...+kxip+ i, i=1,...,n

17.09.2023 prof.univ.dr. Ion Pârțachi 11

11 12

3
Regresia – metodă de modelare a legăturilor dintre
variabile Exemplu: Legea lui Keynes privind legătura
• În general, orice fenomen este rezultatul acţiunii unuia sau mai multor dintre venit şi consum
factori
• Exprimarea matematică:
Legea psihologică fundamentală sau propensiunea spre consum a lui

Y  f ( X 1 , ..., X n )  
Keynes: “psihologia colectivităţii este de aşa natură, încât atunci când se
măreşte venitul real global, consumul global creşte, dar nu cu aceeaşi
mărime ca venitul”
dC
 propensiunea marginală spre consum 0  1
Variabila dV
dependentă
Variabile Variabila • „O persoană este dispusă de regulă şi în medie să îşi crească
(variabila independente reziduală consumul pe măsura creşterii venitului dar nu în aceeaşi măsură”
endogenă)
(variabile • Modelul de regresie: C=+ V+ , unde 0<<1 .
exogene/explicative
)

17.09.2023 prof.univ.dr. Ion Pârțachi 13 17.09.2023 prof.univ.dr. Ion Pârțachi 14

13 14

Regresia – scurt istoric


• Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei Clasificarea modelelor de regresie
victoriene, fiind cel care a introdus termenii de regresie şi
corelaţie statistică
• Originea regresiei ca metodă statistică se află în studiile sale de 1 Variabilă Modele 2+ Variabile
genetică aplicată în studiul plantelor- 1877 explicativă de regresie explicative
• Plantând boabe dintr-un anumit soi de mazăre dulce a observat
că există o legătură liniară între diametrele acestor boabe şi
diametrele boabelor recoltate de la noile plante. El a numit iniţial
Simple Multiple
panta acestei drepte “coefficient of reversion”, schimbându-i
apoi numele în “coefficient of regression”.
• Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi Non- Non-
care îi aşază mai degrabă la nivelul mediei; de asemenea, Liniar Liniar
Liniar Liniar
înălțimea copiilor proveniţi din taţi foarte înalţi se apropie mai
mult de înălţimea medie decât înălţimea taţilor.
17.09.2023 prof.univ.dr. Ion Pârțachi 15 17.09.2023 prof.univ.dr. Ion Pârțachi 16

15 16

4
3. Ipotezele modelului de regresie liniară
Tipuri de modele de regresie • 1. Normalitatea
• Valorile Y sunt normal distribuite pentru orice X
• Erorile sunt normal distribuite cu medie zero E(εi)=0 i
Legătură liniară directă Legătură neliniară • 2. Homoscedasticitatea (dispersie constantă)
• 3. Necorelarea erorilor E(εi εk)=0 (i<>k)
• 4. Liniaritatea Y    X i i

• 5. Variabilele sunt măsurate fără eroare


• (caracter nestochastic)

Legătură liniară inversă Absenţa vreunei legături

17.09.2023 prof.univ.dr. Ion Pârțachi 17 17.09.2023 prof.univ.dr. Ion Pârțachi 18

17 18

- H1 : Modelul este liniar în Xi (nu au importanță ce


Ipotezele modelului de regresie liniară
transformări ale lui Xi),
• Pentru obţinerea unor estimatori de calitate ai parametrilor de - H2 : valorile Xi sunt observate fără erori (xi nealeatoare) ;
regresie se fac presupuneri (ipoteze) standard:
- H3 : E(i ) = 0, speranța matematică a erorii este nulă: în
• Forma funcţională liniară: Yi = + xi + i, i=1,n medie modelul este bine specificat și a cărui eroare este
nulă; Ipoteza: media erorilor este zero: E(i)=0 i, este
• Normalitatea erorilor: i N(0,  )2 naturală atâta timp cât  este văzută ca suma efectelor
individuale, cu semne diferite. Dacă media erorilor este
• Media zero a erorilor: μ(i)=0 i
diferită de zero, ea poate fi considerată ca o parte
• Homoscedasticitatea: constantă sistematică a regresiei.
 2 i=σ2(i)=

• Non autocorelarea erorilor: Cov(i,j)=0 ij

• Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j

17.09.2023 prof.univ.dr.Ion Partachi 19 9/17/2023 Prof.univ.,dr. Ion Partachi

19 20

5
- H4 : E(i ) = ² , varianța erorii este constantă: riscul
amplitutdinii erorii este același indiferent de perioadă; Se
Proprietățile modelului liniar
consideră un model care descrie consumul unor gospodării clasic de regresie
în funcţie de venitul acestora. În acest caz, consumul
gospodăriilor mari pot varia mult mai mult faţă de consumul
1. Yi =  1 +  2Xi + ui
gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată. 2. E(u ^ ) = 0 <==> ^E(Y^) = ^ +  X
i i 1 2 i
H5 :Necorelarea erorilor: E(ij)=0 ij
3. var(u ^ ) = 2 = var(Y ^ )
Această ipoteză nu implică faptul că yi şi yj sunt i i
4. cov(u ^ ^,u ) = cov(Y^^
necorelate, ci faptul că deviaţiile observaţiilor de la i j i,Yj) = 0
valorile lor aşteptate sunt necorelate. 5. ^xi nu este constant
- E(i , j ) = 0 si i  j, erorile sunt necorelate (sau de ^ ^ pentru
^ ^ ^
orice
asemenea independente) : o eroare în momentul t nu are
observație
influență asupra următoarelor erori ; 6. ui~N(0,2) <==> Yi~N( 1+2xi,2)
- H6 : Cov(xi , j ) = 0, eroarea variabilei explicative este
independentă.
17.09.2023 prof.univ.dr.Ion Partachi 21 9/17/2023 Prof.univ.,dr. Ion Partachi

21 22

Forma funcţională • Ipoteza: media erorilor este zero: E(i)=0 i, este naturală
atâta timp
• Ipoteza de linearitate nu este atât de restrictivă pe cât pare. cât  este văzută ca suma efectelor individuale, cu semne
Aceasta se referă la felul în care parametrii intră în ecuaţie, diferite. Dacă media erorilor este diferită de zero, ea poate fi
nu neapărat la relaţia între variabilele x şi y. considerată ca o parte sistematică a regresiei.
• În general modele pot fi linearizate. Ipoteza de homoscedasticitate: Var(i)=2 constantă i
y=a+bx

• y=a+bz, z=ex
model 
• Se consideră un E()= care descrie
+ x +  =consumul
(+) + xunor
+ (-)
gospodării
• y=a+br, r=1/x în funcţie de venitul acestora. În acest caz, consumul
• y=a+bq, q=ln(x) gospodăriilor mari pot varia mult mai mult faţă de consumul
y=  xβ  ln(y)=+ln(x) gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată.
• Forma generală: f(yi)= +g(xi)+i
1
y  
x
• Contra exemplu: nu poate fi transformat în
model liniar.
17.09.2023 prof.univ.dr. Ion Pârțachi 23 17.09.2023 prof.univ.dr. Ion Pârțachi 24

23 24

6
• Necorelarea erorilor: E(ij)=0 ij
Exemplu de încălcare a ipotezei de Această ipoteză nu implică faptul că yi şi yj sunt
homoscedasticitate necorelate, ci faptul că deviaţiile observaţiilor de la
valorile lor aşteptate sunt necorelate.
Functia de consum
1200
• Ipoteza de normalitate a erorilor i N(0,2)

1000
Este o ipoteză de lucru, tehnică, ce permite obţinerea
unor estimatori “buni”.
800
• Dacă ipotezele precedente sînt respectate, vom obţine estimatori
consum

600 B.L.U.E. (Best Linear Unbiased Estimators)


400

200

0
200 300 400 500 600 700 800 900 1000
ve nit

17.09.2023 prof.univ.dr. Ion Pârțachi 25 17.09.2023 prof.univ.dr. Ion Pârțachi 26

25 26

Variaţia erorilor în jurul dreptei de


Ipotezele de normalitate şi homoscedasticitate
regresie
Valorile y sunt normal distribuite
în jurul dreptei de regresie.
f(e) f(e)
Pentru fiecare valoare x, dispersia
în jurul dreptei de regresie este
constantă.

Y
X1 Y
X2 X2
X X1
X Dreapta de regresie
17.09.2023 prof.univ.dr. Ion Pârțachi 27 17.09.2023 prof.univ.dr. Ion Pârțachi 28

27 28

7
Modelul de regresie liniară simplă  Etapa 1: Identificarea şi specificarea modelului
 Modelul de regresie liniară simplă la nivelul populaţiei este dat de
 Legea psihologică fundamentală sau propensiunea spre
relaţia următoare: consum a lui Keynes: “psihologia colectivităţii este de aşa
natură, încât atunci când se măreşte venitul real global,
consumul global creşte, dar nu cu aceeaşi mărime ca venitul”
 propensiunea marginală spre consum
este inclusă în intervalul (0,1): C
 0 1
V

Y intercept (termenul constant)


Variabila Specificarea
de modelului
Yi     X i  i perturbaţie matematic:

Specificarea
Variabila
Variabila modelului
independentă econometric:
dependentă Panta dreptei de
(răspuns) (explicativă)
17.09.2023
regresie
prof.univ.dr. Ion Pârțachi 29 17.09.2023 prof.univ.dr.Ion Partachi 30

29 30

• Etapa 2: Obţinerea Etapa 3: Interpretări şi previziune


datelor şi estimarea • Dacă se aşteaptă ca PIB pe locuitor în anul 2017 să fie
modelului
de 400000 mil lei preţuri curente consumul
500000

• Obţinerea datelor
previzionat al populaţiei va fi de:
(milioane lei preţuri curente)

400000

y = 0,8222x - 6915,7
Consum populaţie

• Simple 300000
(1990-2006)

• Agregate
200000
• y=-6915,7+0,8222*400000=321964,3
• Estimarea
parametrilor
100000

modelului 0
0 100000 200000 300000 400000 500000 600000 • Presupunem că guvernul susţine că un nivel al
econometric -100000
PIB (milioane lei preţuri curente)
consumului populaţiei de 330000 mil lei preţuri
curente va menţine şomajul la un nivel de aproximativ
(1990-2006)
• Analiza de regresie
• Testarea ipotezelor 6%. Care este nivelul venitului care garantează nivelul
ţintă al consumului populaţiei?
• y=330000  x=409773

17.09.2023 prof.univ.dr.Ion Partachi 31 17.09.2023 prof.univ.dr. Ion Pârțachi 32

31 32

8
Modelul liniar de regresie unifactorială Modelul de regresie liniară

Variabila/eroarea

Yi = Consumurile familiale săptămânale


Componenta predictibilă aleatoare

• Parametrul  arată modificarea proporţională a variabilei efect (Y)


la modificarea cu o unitate a variabilei cauză (X), are semnificaţie
de coeficient de elasticitate. X i = Veniturile familiale săptămânale
• Parametrul  arată punctul în care linia interceptează (taie) axa OY

• i reprezintă componenta reziduală (eroarea aleatoare) pentru


fiecare unitate, adică partea din valoarea variabilei Y care nu poate
fi măsurată prin relaţia sistematică existentă cu variabila X.
17.09.2023 prof.univ.dr.Ion Partachi 33 9/17/2023 Prof.univ.,dr. Ion Partachi

33 34

Modelul liniar de regresie unifactorială


Media şi dispersia variabilei dependente
• Se efectuează o selecţie de volum n : (xi,yi)i=1...n
• Pe baza acestei selecţii se estimează parametrii ecuaţiei de regresie • Dacă presupunem că media şi dispersia lui  sînt 0 şi 2, atunci media lui Y
liniară simplă,  şi . pentru o valoare particulară a lui X este dată de relaţia
• Modelul de regresie liniară la nivelul eşantionului
E (Y / x)  E (    x   )      x
Yi  ˆ  ˆ  X i  ˆi  Yˆi  ˆi • Dispersia lui Y pentru o valoare particulară a lui X este dată de relaţia

• cu componenta predictibilă: Yˆi  ˆ  ˆ  X i Var (Y / x)  Var (    x)  Var ( )  0   2   2


̂ • este estimatorul punctului de intercepţie () obţinut pe baza
datelor din eşantion
ˆ • este estimatorul pantei liniei drepte () obţinut pe baza datelor
din eşantion
ˆ • este valoarea reziduală (pentru unitatea i) în eşantion:
17.09.2023
ˆi  Yi  ˆ  ˆ  X i
prof.univ.dr.Ion Partachi 35

35 36

9
Criterii folosite pentru estimare
Modelul liniar de regresie unifactorială

 Modelul de regresie liniară la nivelul populaţiei

Y min ei
Valoarea
Yi     X i   i observată

e i : min im
i = Eroarea i

 (e 2
i ) min
E(Y/Xi)     X i i

Valoarea observată Xi
X
prof.univ.dr.Ion Partachi
17.09.2023 37 17.09.2023 prof.univ.dr. Ion Pârțachi 38

37 38

Metoda celor mai mici pătrate(M.C.M.M.P.) – Ordinary Least Estimarea parametrilor modelului de regresie
Squares(O.L.S.) clasic
• Presupunem că avem n perechi de observaţii (x1, y1), (x2, Pentru estimarea parametrilor a şi b pe baza datelor
y2), …, (xn, yn). observate, un criteriu natural este cel de maximizare a
potrivirii modelului cu datele observate, deci de
• Ideea este să minimizăm distanţa dintre valorile minimizare a erorilor observate:
estimate şi valorile reale
min ˆ
i
2
i  min (Y ˆ  ˆX )
i
i i
2

 
n 2 n

• Ne reamintim că L   Yi  Yˆdeci
i   ˆ i2  min • Condiţiile de ordin 1: determinarea soluţiei
i 1 i 1
• Condiţia de ordin 2: soluţia găsită este un punct de
minim. Matricea derivatelor parţiale de ordin doi
Yˆi  ˆ0  ˆ1 xi trebuie să fie pozitiv definită.

39 17.09.2023 prof.univ.dr. Ion Pârțachi 40

39 40

10
Estimarea parametrilor modelului de regresie clasic
Estimarea parametrilor modelului • Condiţiile de ordin 1: determinarea soluţiei  ˆ   (Y  ˆ  ˆX )
i
i
2

i
i i
2

 ˆi
S   ei2  min   2(  y  nˆ  ( x )ˆ )  
i i


i
( ˆi2)
i i
 
ˆi
S
 i   2(
  xi y i  (  xi )ˆ  (  xi2 ) ˆ ) 

 0
 2   ( yi  a  b  xi )  (1)  0
 i i i
 ˆ
a  

 2
( ˆi )  y i  nˆ  (  x )ˆ i
S  i i i
 2   ( yi  a  b  xi )  (  xi )  0 0 
b
 ˆ
 

 x y  ( x )ˆ  ( x )ˆ
i
i i
i
i
i
2
i

17.09.2023 prof.univ.dr. Ion Pârțachi 41 17.09.2023 prof.univ.dr.Ion Partachi 42

41 42

Estimarea parametrilor modelului de regresie clasic Estimarea parametrilor modelului de regresie clasic
Condiţiile de ordin 1: Condiţiile de ordin 1:


 y x
i
i
i
i
ˆ  y  bx
 x y x  y x  x x y 2 2 
y
i i i
 i i i i i
 n
ˆ  
i i i i i i
i
 n x  
2

n x    x  i
i 2


  x y  x y  nx y
i i i

 x x i
  2
i
i i
 xi i i i i
 i i ˆ i i
 
  i
y

n
x  nx
 2 2
 i
i
 n x i i
 x i x y i i n xi yi   xi  yi  i i
 x
ˆ  i i
 i i i
 2
xi
 x
2
n i
 i  
n xi2    xi  

i  i i

17.09.2023
 x i
i x i
i
2 i  i 
prof.univ.dr.Ion Partachi 43 17.09.2023 prof.univ.dr.Ion Partachi 44

43 44

11
Estimarea parametrilor modelului de regresie clasic
Condiţiile de ordinul 2
 ˆi
  2(

 y  nˆ  ( x )ˆ )  
i
i
i
i

• Condiţia de ordin 2 
Derivatele parţiale de ordinul doi: ˆi
  2(
  x y  ( x )ˆ  ( x
i i i
2 ˆ
i ) ) 


 e
i i i
  2 ( ˆi2 ) 2 ( 2 
i )
2S
2
 2 n;
2S
ab
 2  xi ;
 2S
b 2
 2 xi2 .


  ˆ
i
2 2
i
ˆˆ 


 2n

2 x  i
a  i
   
 2 x 
i i
  2 ( ˆi2 )  2 ( ˆi2 )  2
Matricea derivatelor parţiale de ordinul doi: 
 i i


2 xi i
ˆ
  ˆ  2 ˆ 2   i i 

n
 x i



2 n  0
i 
  2 xi  0
2

  xi i xi 
2 Deci matricea este pozitiv definită
 i
 i 
4 n xi  4( xi )  4n  ( xi  x)  0
2 2 2

17.09.2023 prof.univ.dr. Ion Pârțachi 45


 i 17.09.2023 i i prof.univ.dr.Ion Partachi 46

45 46

Proprietatile estimatorilor modelului


de regresie
Derivatele parţiale de ordinul doi – pozitiv definite: • Estimatorul coeficientului pantei dreptei de
regresie estimat prin MCMMP este nedeplasat si
de dispersie minima.
2
  • Estimatorul obtinut in urma aplicării MCMMP
n xi2    xi   n   2  0 este de dispersie minimă printre estimatorii
i  i  nedeplasaţi, exprimaţi ca o funcţie liniară a seriei
de valori y1,...,yn.
• Estimatorii a si b converg în probabiltate către
parametrul  şi respectiv ß

17.09.2023 prof.univ.dr. Ion Pârțachi 47 17.09.2023 prof.univ.dr. Ion Pârțachi 48

47 48

12
Parametrii populației,  și 
sunt constante necunoscute ale populației Estimatorii sunt variabile
aleatoare
Formulele care determină estimatorii eșantionului a
^ numiți estimatorii
(unde  ) și b (unde  ) sunt
• Dacă estimatorii lui MCMMP a și b
sunt variabile aleatoare, atunci care este media, varianța,
lui  și  . covarianța și distribuția probabilităților lor?

• Când b1 et b2 sunt utilizați pentru reprezentarea peste tot a


• Comparați estimatorii alternativi cu proprietățile MCMMP .
formulelor care au valorile specificate, ei sunt numiți estimatorii lui 
și 
care sunt variabile aleatoare deoarece
ele diferă de la un eșantion la altul

9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

49 50

Efectuând substituția Yi = +  xi + ui
Valorile așteptate ale lui a și b În formula pentru b2 vom obține:
nxi ui - xi ui
Formulele MCMMP pentru estimatori în modelul regresiei b=  +
liniare sunt:
nxi 2-(xi) 2
nXiYi - XiYi xiyi Media lui b este: =0
b= = nxiE(ui)- xi E(ui)
nXi2-(Xi) 2
xi2 E(b ) =  +
nxi 2-(xi) 2
a = Y - bX
unde Y = Yi / n și X = Xi / n Deoarece E(ui) = 0, atunci E(b ) =  .
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

51 52

13
Specificarea greșită a modelului
Estimatorii nedeplasați
Un rezultat care arată absența nedeplasării din slide-
Rezultatul E(b ) =  semnifică faptul că distribuția lui b ul precedent presupune că a fost găsit modelul
este concentrată în jurul lui  . corect.

Dacă modelul este într-o formă greșită


Deoarece distribuția lui b este concentrată în jurul lui
sau nu conține variabile importante
 , se poate afirma că b este un estimator nedeplasat atunci E(ui)= 0, apoi E(b ) = 
a lui .
De exemplu: u = cX3 +v
Y =  +  X2 + (c X3 +v)
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi
E(ui)  0

53 54

Estimatorul fără tendință a termenului


Formulele echivalente pentru b2:
liber

Într-un mod similar, estimatorul a a (xi  x )yi  y ) xiyi


termenului liber unde termenul constant b= =
xi  x ) 2 xi2
poate fi considerat ca un estimator
nedeplasat a lui  când modelul a fost Se amplifică numărătorul și numitorul
specificat corect. cu n:
E(a ) =  nxiyi  xi yi
b=
nxi 2(xi) 2
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

55 56

14
Variația lui b
Dacă se cunoaște că atât Yi cât și ui au aceeași
Var(b ) varianță  2, atunci varianța estimatorului b2 :

^2
 ^2

var(b ) = 
= 

xi  x 2
x 2

xi
)= (8.50)
Se(b2)= (8.50)22/92.55
/92.55 == 0.7809
0.7809 == 0.8836
0.8836
^
b este o funcție a valorilor Yi însă var(b ) nu implică (nu-l
^2 conține) pe Yi direct.
Prof.univ.,dr. Ion Partachi
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023

57 58

Variația lui a Covarianța lui a și b


Dacă se știe că: a = y  b x
atunci varianța estimatorului lui b este:
x x
cov( ,b ) = 2 = 2
x i 2 x i2 x t  x
2
 xi
2
var(a ) = 2 2  2
nx i  x nxi
2

Dacă x = 0, atunci panta se poate modifica fără a


Se(b1)= (8.50)2(2235/20(92.55)) = 87.238 = 9.34 afecta varianța.

9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

59 60

15
Care sunt factorii care determină varianța și
Estimarea varianței variabilei
covarianța ?
reziduale , 2
1. 2: Nu se spune nimic despre valorile Yt
deasemenea de a, b și relația dintre ele.
^u = y    b x 2. Cu cât sunt mai dispersate valorile lui Xt cu atât mai multă
i i i încredere vom avea în  , b, etc.

u^
T 3. Cu cât este mai mare dimensiunea eșantionului, N,

2
i cu atât mai mici vor fi varianțele și covarianțele.
^
 =
i =1

n2
4. Varianța lui  este mare când pătratele lui Xt sunt mai depărtate de
zero (în orice direcție).
5. Modificarea pantei, b , va fi fără efecte asupra termenului liber,  ,
când media eșantionului este zero. Dacă media eșantionului este
^  este un estimator fără tendință a lui  2
  pozitivă, atunci covarianța între  et b2 va fi negativă și vice-versa.
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

61 62

Proprietățile variabilei reziduale Descompunerea sumelor pătratelor

^ ^
1. u^ i = 0 sau => ei = 0 (Yi - Y) = (Yi - Yi) + (Yi - Y)
u^
Pentru a măsura varianța:
2. u^iXi = 0 sau => eiXi = 0
(Yi - Y)2 = [(Yi - Y^i) + (Y^i - Y)]2
^ ^
3. (Yi-Yi)(Yi-Y)=0 sau=>  ei y^i =0 (Yi - Y)2 = (Yi - Y^i)2 + (Y^i - Y)2
4. Dreapta de regresie trebuie să treacă
prin media eșantionului lui X și Y. TSS RSS (u^2) ESS
Suma pătratelor totale Suma pătratelor reziduale Suma pătratelor explicate
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

63 64

16
Expresiile alternative pentru R2
R2 – Măsurarea nivelului de “corelare”
^
(Y i - Y)
2
y^ i2
ESS RSS R2 = SCE = =
Se definește R2 = =1-
TSS
SCT (Yi - Y)2 yi2
TSS
^ ^ 
 u^ i2 xi )2  xi2 ^ xi
2
=1- = y 2 = y 2 = 
(Yi - Y)2 i i yi2
^
(Y i - Y)
2
R2 = ^ Sx2 xiyi 2 xi2 xiyi)2
(Yi - Y)2 1  R2  0 = = =
xi2yi2
Sy2 xi2 yi2
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

65 66

Y Când R2 = 0
Teorema Gauss-Markov
Dreapta de regresie
În cazul ipotezelor modelului liniar clasic de regresie,
estimatorii (MCMMP) a și b
Care dreaptă?
sunt cei mai buni estimatori liniari și fără tendințele lui   și
 . Aceasta semnifică faptul că b1 și b2 au cea mai mică
X variație a tuturor estimatorilor lineari fără tendința lui 1 și
2.
Y
Când R2 = 1
Remarcă: Teorema Gauss-Markov nu se aplică pentru
estimatorii neliniari

Dreapta de regresie trece prin


toate punctele
9/17/2023 Prof.univ.,dr. Ion Partachi
X 9/17/2023 Prof.univ.,dr. Ion Partachi

67 68

17
Probabilitatea de distribuție a
Nedeplasată Valoarea estimată pentru estimatorul
b este egală cu valoarea adevărată a lui 
estimatorilor în MCMMP
Prob.
(b2) E(b)< E(b)= E(b)>
 2 x i
2
Deplasată Nedeplasată Deplasată 

la stânga la dreapta a~N  nx i2


2
b ~ N 

E(b) , x i2
2
E(b) E(b)
Valoarea adevărată a lui 
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

69 70

Teorema Limită Centrală Eficacitatea:

b este un estimator eficient și fără tendință


Dacă ipotezele Gauss-Markov sunt Dacă pentru o dimensiune dată a eșantionului,
valabile și mărimea eșantionului, N, este N, varianța lui b este mai mică.
suficient de mare, atunci estimatorii Consistența:
MCMMPO, a și b , au o distribuție care b este un estimator consistent a lui  dacă
abordează distribuția normală cu o probabilitatea lui b este 1. Aceasta
semnifică faptul că în cazul când
precizie pe atât de mare, pe cât de mare
dimensiunea eșantionului se extinde,
este dimensiunea eșantionului, N. atunci b va avea o valoare mai exactă.
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

71 72

18
Yˆi
Rezumatul proprietăților estimatorilor BLUE
Variabila estimată prin MCMMPO
Media

E( )= a și E( )=b


Având valorile variabilei independente, Xi,
Varianța
vom dori să specificăm valorile variabilelor
dependente Yi, prin metoda pătratelor
Var(a )=2
x i2 și 2
Var(b )=

ordinare.
nxi
2
xi 2
Valoarea estimată prin MCMMP va fi:
Eroarea standard sau devierea standard
^
Yi = a + b x i
Se(bk) = var(bk)
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

73 74

Variația reziduală estimată

u^i
T
2
^ ^ 2) = 2
E(
 =
i =1

n2

Eroarea Standard Estimată a regresiei, ESE

u^i
T
2
^ =
 ^ =
 
i =1
K
n2 Numărul
9/17/2023 Prof.univ.,dr. Ion Partachi
de parametri
în model

75

19

S-ar putea să vă placă și