3.modelul Regresie Simpla

Prelegeri 3-4-5 Modelul de regresie.
Conţinut
Proprietățiile estimatorilor MCMMPO
Inferența statistică 1. Introducere
în modelul clasic de regresie liniară simplă 2. Scurt istoric al metodei, tipologie
3. Ipotezele modelului de regresie simpla
liniara
Bourbonnais (2018): Capitolul 2
4. Estimarea parametrilor modelului liniar
Gujarati(2003): Capitolul 3 de regresie
5. Proprietăţile estimatorilor
17.09.2023 prof.univ.dr. Ion Pârțachi 1 17.09.2023 prof.univ.dr. Ion Pârțachi 2
1 2
• Există două mari motive pentru care se efectuează

• O mare parte a analizelor statistice uzuale se ocupă cu un asemenea studiu:
analiza relaţiei între două variabile statistice (atribute) • Descrierea relaţiei care ar putea exista între cele
ce corespund aceluiaşi grup de obiecte/instanţe. două variabile, analizând legătura între cele două
• Pentru a o identifica, se studiază relaţia dintre cele două serii de observaţii. Concret, se analizează dacă
caracteristici/atribute măsurate pe obiectele dintr-un tendinţa ascendentă a uneia implică o tendinţă
anumit set. ascendentă, descendentă sau nici o tendinţă a
• Cu alte cuvinte, este vorba de două serii statistice în celeilalte;
care cuplurile de valori (xi, yi), corespunzând cuplului • În ipoteza existenţei unei legături reale între ele,
de variabile statistice (X, Y) sunt măsurate pe acelaşi identificată în prima instanţă, să se poată
obiect. prognostica valorile uneia în raport cu valorile
celeilalte pe baza ecuaţiei de regresie.
3 4
1
•Scopul final este prognoza, în condiţia că este •Coeficientul de corelaţie poate fi calculat
posibilă, cele două variabile fiind într-adevăr pentru orice set de date, dar, pentru ca el
corelate. să aibă relevanţă statistică, trebuie îndeplinite
•Metoda prin care analizăm posibilele asociaţii două condiţii majore:
între valorile a două variabile statistice, •(a) cele două variabile să fie definite de
prelevate de la acelaşi grup de obiecte, este acelaşi lot de obiecte, cuplurile de date
cunoscută ca metoda corelaţiei şi are ca indice corespunzând aceluiaşi obiect;
coeficientul de corelaţie (Pearson’s r). •(b) cel puţin una din variabile să aibă o
repartiţie aproximativ normală, ideal fiind ca
ambele să fie normal repartizate.
5 6
Regresia liniara • Modul de prezentare a legăturii liniare dintre două

variabile, atunci când aceasta există, se numeşte
metoda regresiei liniare (linear regression).
•Pasul următor în analiza legăturii dintre • Pentru aceasta se consideră una dintre variabile ca
două variabile statistice, atunci când acestea variabilă independentă sau variabilă predictor, iar
sunt corelate, este să se stabilească concret cealaltă variabilă ca variabilă dependentă sau
natura legăturii liniare dintre ele, descriind-o variabilă răspuns (outcome).
printr-o ecuaţie matematică. • Legătura liniară dintre cele două variabile este
•Scopul final al acestei abordări este descrisă de o ecuaţie liniară, ecuaţia de regresie
prognoza valorilor uneia dintre variabile pe (regression equation) căreia îi corespunde geometric
baza valorilor celeilalte, prognoză efectuată dreapta de regresie (regression line).
pe baza ecuaţiei ce descrie legătura dintre
cele două seturi de date.
7 8
2
• Ca metodologie, variabila dependentă se distribuie •Presupunând că legătura dintre cele două
pe axa ordonatelor, în timp ce variabila variabile X şi Y, reliefată de coeficientul de
independentă se distribuie pe axa absciselor. Ecuaţia corelaţie r, nu este întâmplătoare, există trei
dreptei de regresie se stabileşte pe baza metodei posibile explicaţii:
“celor mai mici pătrate” (least squares method) care,
intuitiv, minimizează distanţa între punctele
•Variabila X influenţează (cauzează) variabila
reprezentate de perechile de date/observed values şi Y;
punctele corespunzătoare de pe dreaptă/fitted values •Variabila Y influenţează variabila X;
(obţinute pe verticalele corespunzătoare). Aceasta
•Ambele variabile X şi Y sunt influenţate de
distanţă se numeşte reziduu (residual).
acelaşi fenomen din fundal.
9 10
În medie ne-am aştepta ca la un nivel mai ridicat de

educaţie, nivelul venitului să crească:
venit =  1 +  2educaţie + 
Dar în acest caz nu se tine seama de faptul că venitul

depinde şi de experiență:
venit =  1 +  2educaţie + 3experiență+ 
care este un model liniar multifactorial.
Forma generală a modelului liniar de regresie

multifactorial:
yi =  1xi1+2xi2+...+kxip+ i, i=1,...,n
17.09.2023 prof.univ.dr. Ion Pârțachi 11
11 12
3
Regresia – metodă de modelare a legăturilor dintre
variabile Exemplu: Legea lui Keynes privind legătura
• În general, orice fenomen este rezultatul acţiunii unuia sau mai multor dintre venit şi consum
factori
• Exprimarea matematică:
Legea psihologică fundamentală sau propensiunea spre consum a lui
Y  f ( X 1 , ..., X n )  
Keynes: “psihologia colectivităţii este de aşa natură, încât atunci când se
măreşte venitul real global, consumul global creşte, dar nu cu aceeaşi
mărime ca venitul”
dC
 propensiunea marginală spre consum 0  1
Variabila dV
dependentă
Variabile Variabila • „O persoană este dispusă de regulă şi în medie să îşi crească
(variabila independente reziduală consumul pe măsura creşterii venitului dar nu în aceeaşi măsură”
endogenă)
(variabile • Modelul de regresie: C=+ V+ , unde 0<<1 .
exogene/explicative
)
13 14
Regresia – scurt istoric

• Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei Clasificarea modelelor de regresie
victoriene, fiind cel care a introdus termenii de regresie şi
corelaţie statistică
• Originea regresiei ca metodă statistică se află în studiile sale de 1 Variabilă Modele 2+ Variabile
genetică aplicată în studiul plantelor- 1877 explicativă de regresie explicative
• Plantând boabe dintr-un anumit soi de mazăre dulce a observat
că există o legătură liniară între diametrele acestor boabe şi
diametrele boabelor recoltate de la noile plante. El a numit iniţial
Simple Multiple
panta acestei drepte “coefficient of reversion”, schimbându-i
apoi numele în “coefficient of regression”.
• Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi Non- Non-
care îi aşază mai degrabă la nivelul mediei; de asemenea, Liniar Liniar
Liniar Liniar
înălțimea copiilor proveniţi din taţi foarte înalţi se apropie mai
mult de înălţimea medie decât înălţimea taţilor.
15 16
4
3. Ipotezele modelului de regresie liniară
Tipuri de modele de regresie • 1. Normalitatea
• Valorile Y sunt normal distribuite pentru orice X
• Erorile sunt normal distribuite cu medie zero E(εi)=0 i
Legătură liniară directă Legătură neliniară • 2. Homoscedasticitatea (dispersie constantă)
• 3. Necorelarea erorilor E(εi εk)=0 (i<>k)
• 4. Liniaritatea Y    X i i
• 5. Variabilele sunt măsurate fără eroare

• (caracter nestochastic)
Legătură liniară inversă Absenţa vreunei legături
17 18
- H1 : Modelul este liniar în Xi (nu au importanță ce

Ipotezele modelului de regresie liniară
transformări ale lui Xi),
• Pentru obţinerea unor estimatori de calitate ai parametrilor de - H2 : valorile Xi sunt observate fără erori (xi nealeatoare) ;
regresie se fac presupuneri (ipoteze) standard:
- H3 : E(i ) = 0, speranța matematică a erorii este nulă: în
• Forma funcţională liniară: Yi = + xi + i, i=1,n medie modelul este bine specificat și a cărui eroare este
nulă; Ipoteza: media erorilor este zero: E(i)=0 i, este
• Normalitatea erorilor: i N(0,  )2 naturală atâta timp cât  este văzută ca suma efectelor
individuale, cu semne diferite. Dacă media erorilor este
• Media zero a erorilor: μ(i)=0 i
diferită de zero, ea poate fi considerată ca o parte
• Homoscedasticitatea: constantă sistematică a regresiei.
 2 i=σ2(i)=
• Non autocorelarea erorilor: Cov(i,j)=0 ij
• Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j
17.09.2023 prof.univ.dr.Ion Partachi 19 9/17/2023 Prof.univ.,dr. Ion Partachi
19 20
5
- H4 : E(i ) = ² , varianța erorii este constantă: riscul
amplitutdinii erorii este același indiferent de perioadă; Se
Proprietățile modelului liniar
consideră un model care descrie consumul unor gospodării clasic de regresie
în funcţie de venitul acestora. În acest caz, consumul
gospodăriilor mari pot varia mult mai mult faţă de consumul
1. Yi =  1 +  2Xi + ui
gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată. 2. E(u ^ ) = 0 <==> Ê(Y^) = ^ +  X
i i 1 2 i
H5 :Necorelarea erorilor: E(ij)=0 ij
3. var(u ^ ) = 2 = var(Y ^ )
Această ipoteză nu implică faptul că yi şi yj sunt i i
4. cov(u ^ ^,u ) = cov(Y^^
necorelate, ci faptul că deviaţiile observaţiilor de la i j i,Yj) = 0
valorile lor aşteptate sunt necorelate. 5. ^xi nu este constant
- E(i , j ) = 0 si i  j, erorile sunt necorelate (sau de ^ ^ pentru
^ ^ ^
orice
asemenea independente) : o eroare în momentul t nu are
observație
influență asupra următoarelor erori ; 6. ui~N(0,2) <==> Yi~N( 1+2xi,2)
- H6 : Cov(xi , j ) = 0, eroarea variabilei explicative este
independentă.
21 22
Forma funcţională • Ipoteza: media erorilor este zero: E(i)=0 i, este naturală
atâta timp
• Ipoteza de linearitate nu este atât de restrictivă pe cât pare. cât  este văzută ca suma efectelor individuale, cu semne
Aceasta se referă la felul în care parametrii intră în ecuaţie, diferite. Dacă media erorilor este diferită de zero, ea poate fi
nu neapărat la relaţia între variabilele x şi y. considerată ca o parte sistematică a regresiei.
• În general modele pot fi linearizate. Ipoteza de homoscedasticitate: Var(i)=2 constantă i
y=a+bx
•
• y=a+bz, z=ex
model 
• Se consideră un E()= care descrie
+ x +  =consumul
(+) + xunor
+ (-)
gospodării
• y=a+br, r=1/x în funcţie de venitul acestora. În acest caz, consumul
• y=a+bq, q=ln(x) gospodăriilor mari pot varia mult mai mult faţă de consumul
y=  xβ  ln(y)=+ln(x) gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată.
• Forma generală: f(yi)= +g(xi)+i
1
y  
x
• Contra exemplu: nu poate fi transformat în
model liniar.
23 24
6
• Necorelarea erorilor: E(ij)=0 ij
Exemplu de încălcare a ipotezei de Această ipoteză nu implică faptul că yi şi yj sunt
homoscedasticitate necorelate, ci faptul că deviaţiile observaţiilor de la
valorile lor aşteptate sunt necorelate.
Functia de consum
1200
• Ipoteza de normalitate a erorilor i N(0,2)
1000
Este o ipoteză de lucru, tehnică, ce permite obţinerea
unor estimatori “buni”.
800
• Dacă ipotezele precedente sînt respectate, vom obţine estimatori
consum
600 B.L.U.E. (Best Linear Unbiased Estimators)

400
200
0
200 300 400 500 600 700 800 900 1000
ve nit
25 26
Variaţia erorilor în jurul dreptei de

Ipotezele de normalitate şi homoscedasticitate
regresie
Valorile y sunt normal distribuite
în jurul dreptei de regresie.
f(e) f(e)
Pentru fiecare valoare x, dispersia
în jurul dreptei de regresie este
constantă.
Y
X1 Y
X2 X2
X X1
X Dreapta de regresie
27 28
7
Modelul de regresie liniară simplă  Etapa 1: Identificarea şi specificarea modelului
 Modelul de regresie liniară simplă la nivelul populaţiei este dat de
 Legea psihologică fundamentală sau propensiunea spre
relaţia următoare: consum a lui Keynes: “psihologia colectivităţii este de aşa
natură, încât atunci când se măreşte venitul real global,
consumul global creşte, dar nu cu aceeaşi mărime ca venitul”
 propensiunea marginală spre consum
este inclusă în intervalul (0,1): C
 0 1
V
Y intercept (termenul constant)

Variabila Specificarea
de modelului
Yi     X i  i perturbaţie matematic:
Specificarea
Variabila
Variabila modelului
independentă econometric:
dependentă Panta dreptei de
(răspuns) (explicativă)
17.09.2023
regresie
prof.univ.dr. Ion Pârțachi 29 17.09.2023 prof.univ.dr.Ion Partachi 30
29 30
• Etapa 2: Obţinerea Etapa 3: Interpretări şi previziune

datelor şi estimarea • Dacă se aşteaptă ca PIB pe locuitor în anul 2017 să fie
modelului
de 400000 mil lei preţuri curente consumul
500000
• Obţinerea datelor
previzionat al populaţiei va fi de:
(milioane lei preţuri curente)
400000
y = 0,8222x - 6915,7
Consum populaţie
• Simple 300000
(1990-2006)
• Agregate
200000
• y=-6915,7+0,8222*400000=321964,3
• Estimarea
parametrilor
100000
modelului 0
0 100000 200000 300000 400000 500000 600000 • Presupunem că guvernul susţine că un nivel al
econometric -100000
PIB (milioane lei preţuri curente)
consumului populaţiei de 330000 mil lei preţuri
curente va menţine şomajul la un nivel de aproximativ
(1990-2006)
• Analiza de regresie
• Testarea ipotezelor 6%. Care este nivelul venitului care garantează nivelul
ţintă al consumului populaţiei?
• y=330000  x=409773
17.09.2023 prof.univ.dr.Ion Partachi 31 17.09.2023 prof.univ.dr. Ion Pârțachi 32
31 32
8
Modelul liniar de regresie unifactorială Modelul de regresie liniară
Variabila/eroarea
Yi = Consumurile familiale săptămânale

Componenta predictibilă aleatoare
• Parametrul  arată modificarea proporţională a variabilei efect (Y)

la modificarea cu o unitate a variabilei cauză (X), are semnificaţie
de coeficient de elasticitate. X i = Veniturile familiale săptămânale
• Parametrul  arată punctul în care linia interceptează (taie) axa OY
• i reprezintă componenta reziduală (eroarea aleatoare) pentru

fiecare unitate, adică partea din valoarea variabilei Y care nu poate
fi măsurată prin relaţia sistematică existentă cu variabila X.
33 34
Modelul liniar de regresie unifactorială

Media şi dispersia variabilei dependente
• Se efectuează o selecţie de volum n : (xi,yi)i=1...n
• Pe baza acestei selecţii se estimează parametrii ecuaţiei de regresie • Dacă presupunem că media şi dispersia lui  sînt 0 şi 2, atunci media lui Y
liniară simplă,  şi . pentru o valoare particulară a lui X este dată de relaţia
• Modelul de regresie liniară la nivelul eşantionului
E (Y / x)  E (    x   )      x
Yi  ˆ  ˆ  X i  î  Yî  î • Dispersia lui Y pentru o valoare particulară a lui X este dată de relaţia
• cu componenta predictibilă: Yî  ˆ  ˆ  X i Var (Y / x)  Var (    x)  Var ( )  0   2   2

̂ • este estimatorul punctului de intercepţie () obţinut pe baza
datelor din eşantion
ˆ • este estimatorul pantei liniei drepte () obţinut pe baza datelor
din eşantion
ˆ • este valoarea reziduală (pentru unitatea i) în eşantion:
17.09.2023
î  Yi  ˆ  ˆ  X i
prof.univ.dr.Ion Partachi 35
35 36
9
Criterii folosite pentru estimare
Modelul liniar de regresie unifactorială
 Modelul de regresie liniară la nivelul populaţiei
Y min ei
Valoarea
Yi     X i   i observată
e i : min im
i = Eroarea i
 (e 2
i ) min
E(Y/Xi)     X i i
Valoarea observată Xi
X
prof.univ.dr.Ion Partachi
17.09.2023 37 17.09.2023 prof.univ.dr. Ion Pârțachi 38
37 38
Metoda celor mai mici pătrate(M.C.M.M.P.) – Ordinary Least Estimarea parametrilor modelului de regresie
Squares(O.L.S.) clasic
• Presupunem că avem n perechi de observaţii (x1, y1), (x2, Pentru estimarea parametrilor a şi b pe baza datelor
y2), …, (xn, yn). observate, un criteriu natural este cel de maximizare a
potrivirii modelului cu datele observate, deci de
• Ideea este să minimizăm distanţa dintre valorile minimizare a erorilor observate:
estimate şi valorile reale
min ˆ
i
2
i  min (Y ˆ  ˆX )
i
i i
2
 
n 2 n
• Ne reamintim că L   Yi  Yˆdeci
i   ˆ i2  min • Condiţiile de ordin 1: determinarea soluţiei
i 1 i 1
• Condiţia de ordin 2: soluţia găsită este un punct de
minim. Matricea derivatelor parţiale de ordin doi
Yî  ˆ0  ˆ1 xi trebuie să fie pozitiv definită.
39 17.09.2023 prof.univ.dr. Ion Pârțachi 40
39 40
10
Estimarea parametrilor modelului de regresie clasic
Estimarea parametrilor modelului • Condiţiile de ordin 1: determinarea soluţiei  ˆ   (Y  ˆ  ˆX )
i
i
2
i
i i
2
 î
S   ei2  min   2(  y  nˆ  ( x )ˆ )  
i i


i
( î2)
i i
 
î
S
 i   2(
  xi y i  (  xi )ˆ  (  xi2 ) ˆ ) 

 0
 2   ( yi  a  b  xi )  (1)  0
 i i i
 ˆ
a  

 2
( î )  y i  nˆ  (  x )ˆ i
S  i i i
 2   ( yi  a  b  xi )  (  xi )  0 0 
b
 ˆ
 

 x y  ( x )ˆ  ( x )ˆ
i
i i
i
i
i
2
i
17.09.2023 prof.univ.dr. Ion Pârțachi 41 17.09.2023 prof.univ.dr.Ion Partachi 42
41 42
Estimarea parametrilor modelului de regresie clasic Estimarea parametrilor modelului de regresie clasic
Condiţiile de ordin 1: Condiţiile de ordin 1:


 y x
i
i
i
i
ˆ  y  bx
 x y x  y x  x x y 2 2 
y
i i i
 i i i i i
 n
ˆ  
i i i i i i
i
 n x  
2

n x    x  i
i 2


  x y  x y  nx y
i i i
 x x i
  2
i
i i
 xi i i i i
 i i ˆ i i
 
  i
y

n
x  nx
 2 2
 i
i
 n x i i
 x i x y i i n xi yi   xi  yi  i i
 x
ˆ  i i
 i i i
 2
xi
 x
2
n i
 i  
n xi2    xi  

i  i i
17.09.2023
 x i
i x i
i
2 i  i 
prof.univ.dr.Ion Partachi 43 17.09.2023 prof.univ.dr.Ion Partachi 44
43 44
11
Estimarea parametrilor modelului de regresie clasic
Condiţiile de ordinul 2
 î
  2(

 y  nˆ  ( x )ˆ )  
i
i
i
i
• Condiţia de ordin 2 
Derivatele parţiale de ordinul doi: î
  2(
  x y  ( x )ˆ  ( x
i i i
2 ˆ
i ) ) 


 e
i i i
  2 ( î2 ) 2 ( 2 
i )
2S
2
 2 n;
2S
ab
 2  xi ;
 2S
b 2
 2 xi2 .


  ˆ
i
2 2
i
ˆˆ 


 2n

2 x  i
a  i
   
 2 x 
i i
  2 ( î2 )  2 ( î2 )  2
Matricea derivatelor parţiale de ordinul doi: 
 i i


2 xi i
ˆ
  ˆ  2 ˆ 2   i i 

n
 x i



2 n  0
i 
  2 xi  0
2

  xi i xi 
2 Deci matricea este pozitiv definită
 i
 i 
4 n xi  4( xi )  4n  ( xi  x)  0
2 2 2
17.09.2023 prof.univ.dr. Ion Pârțachi 45

 i 17.09.2023 i i prof.univ.dr.Ion Partachi 46
45 46
Proprietatile estimatorilor modelului

de regresie
Derivatele parţiale de ordinul doi – pozitiv definite: • Estimatorul coeficientului pantei dreptei de
regresie estimat prin MCMMP este nedeplasat si
de dispersie minima.
2
  • Estimatorul obtinut in urma aplicării MCMMP
n xi2    xi   n   2  0 este de dispersie minimă printre estimatorii
i  i  nedeplasaţi, exprimaţi ca o funcţie liniară a seriei
de valori y1,...,yn.
• Estimatorii a si b converg în probabiltate către
parametrul  şi respectiv ß
47 48
12
Parametrii populației,  și 
sunt constante necunoscute ale populației Estimatorii sunt variabile
aleatoare
Formulele care determină estimatorii eșantionului a
^ numiți estimatorii
(unde  ) și b (unde  ) sunt
• Dacă estimatorii lui MCMMP a și b
sunt variabile aleatoare, atunci care este media, varianța,
lui  și  . covarianța și distribuția probabilităților lor?
• Când b1 et b2 sunt utilizați pentru reprezentarea peste tot a

• Comparați estimatorii alternativi cu proprietățile MCMMP .
formulelor care au valorile specificate, ei sunt numiți estimatorii lui 
și 
care sunt variabile aleatoare deoarece
ele diferă de la un eșantion la altul
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi
49 50
Efectuând substituția Yi = +  xi + ui
Valorile așteptate ale lui a și b În formula pentru b2 vom obține:
nxi ui - xi ui
Formulele MCMMP pentru estimatori în modelul regresiei b=  +
liniare sunt:
nxi 2-(xi) 2
nXiYi - XiYi xiyi Media lui b este: =0
b= = nxiE(ui)- xi E(ui)
nXi2-(Xi) 2
xi2 E(b ) =  +
nxi 2-(xi) 2
a = Y - bX
unde Y = Yi / n și X = Xi / n Deoarece E(ui) = 0, atunci E(b ) =  .
51 52
13
Specificarea greșită a modelului
Estimatorii nedeplasați
Un rezultat care arată absența nedeplasării din slide-
Rezultatul E(b ) =  semnifică faptul că distribuția lui b ul precedent presupune că a fost găsit modelul
este concentrată în jurul lui  . corect.
Dacă modelul este într-o formă greșită

Deoarece distribuția lui b este concentrată în jurul lui
sau nu conține variabile importante
 , se poate afirma că b este un estimator nedeplasat atunci E(ui)= 0, apoi E(b ) = 
a lui .
De exemplu: u = cX3 +v
Y =  +  X2 + (c X3 +v)
E(ui)  0
53 54
Estimatorul fără tendință a termenului

Formulele echivalente pentru b2:
liber
Într-un mod similar, estimatorul a a (xi  x )yi  y ) xiyi

termenului liber unde termenul constant b= =
xi  x ) 2 xi2
poate fi considerat ca un estimator
nedeplasat a lui  când modelul a fost Se amplifică numărătorul și numitorul
specificat corect. cu n:
E(a ) =  nxiyi  xi yi
b=
nxi 2(xi) 2
55 56
14
Variația lui b
Dacă se cunoaște că atât Yi cât și ui au aceeași
Var(b ) varianță  2, atunci varianța estimatorului b2 :

^2
 ^2

var(b ) = 
= 
xi  x 2
x 2
xi
)= (8.50)
Se(b2)= (8.50)22/92.55
/92.55 == 0.7809
0.7809 == 0.8836
0.8836
^
b este o funcție a valorilor Yi însă var(b ) nu implică (nu-l
^2 conține) pe Yi direct.
Prof.univ.,dr. Ion Partachi
9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023
57 58
Variația lui a Covarianța lui a și b

Dacă se știe că: a = y  b x
atunci varianța estimatorului lui b este:
x x
cov( ,b ) = 2 = 2
x i 2 x i2 x t  x
2
 xi
2
var(a ) = 2 2  2
nx i  x nxi
2
Dacă x = 0, atunci panta se poate modifica fără a

Se(b1)= (8.50)2(2235/20(92.55)) = 87.238 = 9.34 afecta varianța.
59 60
15
Care sunt factorii care determină varianța și
Estimarea varianței variabilei
covarianța ?
reziduale , 2
1. 2: Nu se spune nimic despre valorile Yt
deasemenea de a, b și relația dintre ele.
û = y    b x 2. Cu cât sunt mai dispersate valorile lui Xt cu atât mai multă
i i i încredere vom avea în  , b, etc.
u^
T 3. Cu cât este mai mare dimensiunea eșantionului, N,

2
i cu atât mai mici vor fi varianțele și covarianțele.
^
 =
i =1
n2
4. Varianța lui  este mare când pătratele lui Xt sunt mai depărtate de
zero (în orice direcție).
5. Modificarea pantei, b , va fi fără efecte asupra termenului liber,  ,
când media eșantionului este zero. Dacă media eșantionului este
^  este un estimator fără tendință a lui  2
  pozitivă, atunci covarianța între  et b2 va fi negativă și vice-versa.
61 62
Proprietățile variabilei reziduale Descompunerea sumelor pătratelor
^ ^
1. u^ i = 0 sau => ei = 0 (Yi - Y) = (Yi - Yi) + (Yi - Y)
u^
Pentru a măsura varianța:
2. uîXi = 0 sau => eiXi = 0
(Yi - Y)2 = [(Yi - Yî) + (Yî - Y)]2
^ ^
3. (Yi-Yi)(Yi-Y)=0 sau=>  ei yî =0 (Yi - Y)2 = (Yi - Yî)2 + (Yî - Y)2
4. Dreapta de regresie trebuie să treacă
prin media eșantionului lui X și Y. TSS RSS (u^2) ESS
Suma pătratelor totale Suma pătratelor reziduale Suma pătratelor explicate
63 64
16
Expresiile alternative pentru R2
R2 – Măsurarea nivelului de “corelare”
^
(Y i - Y)
2
y^ i2
ESS RSS R2 = SCE = =
Se definește R2 = =1-
TSS
SCT (Yi - Y)2 yi2
TSS
^ ^ 
 u^ i2 xi )2  xi2 ^ xi
2
=1- = y 2 = y 2 = 
(Yi - Y)2 i i yi2
^
(Y i - Y)
2
R2 = ^ Sx2 xiyi 2 xi2 xiyi)2
(Yi - Y)2 1  R2  0 = = =
xi2yi2
Sy2 xi2 yi2
65 66
Y Când R2 = 0
Teorema Gauss-Markov
Dreapta de regresie
În cazul ipotezelor modelului liniar clasic de regresie,
estimatorii (MCMMP) a și b
Care dreaptă?
sunt cei mai buni estimatori liniari și fără tendințele lui   și
 . Aceasta semnifică faptul că b1 și b2 au cea mai mică
X variație a tuturor estimatorilor lineari fără tendința lui 1 și
2.
Y
Când R2 = 1
Remarcă: Teorema Gauss-Markov nu se aplică pentru
estimatorii neliniari
Dreapta de regresie trece prin

toate punctele
9/17/2023 Prof.univ.,dr. Ion Partachi
X 9/17/2023 Prof.univ.,dr. Ion Partachi
67 68
17
Probabilitatea de distribuție a
Nedeplasată Valoarea estimată pentru estimatorul
b este egală cu valoarea adevărată a lui 
estimatorilor în MCMMP
Prob.
(b2) E(b)< E(b)= E(b)>
 2 x i
2
Deplasată Nedeplasată Deplasată 
la stânga la dreapta a~N  nx i2

2
b ~ N 

E(b) , x i2
2
E(b) E(b)
Valoarea adevărată a lui 
69 70
Teorema Limită Centrală Eficacitatea:
b este un estimator eficient și fără tendință

Dacă ipotezele Gauss-Markov sunt Dacă pentru o dimensiune dată a eșantionului,
valabile și mărimea eșantionului, N, este N, varianța lui b este mai mică.
suficient de mare, atunci estimatorii Consistența:
MCMMPO, a și b , au o distribuție care b este un estimator consistent a lui  dacă
abordează distribuția normală cu o probabilitatea lui b este 1. Aceasta
semnifică faptul că în cazul când
precizie pe atât de mare, pe cât de mare
dimensiunea eșantionului se extinde,
este dimensiunea eșantionului, N. atunci b va avea o valoare mai exactă.
71 72
18
Yî
Rezumatul proprietăților estimatorilor BLUE
Variabila estimată prin MCMMPO
Media
E( )= a și E( )=b

Având valorile variabilei independente, Xi,
Varianța
vom dori să specificăm valorile variabilelor
dependente Yi, prin metoda pătratelor
Var(a )=2
x i2 și 2
Var(b )=

ordinare.
nxi
2
xi 2
Valoarea estimată prin MCMMP va fi:
Eroarea standard sau devierea standard
^
Yi = a + b x i
Se(bk) = var(bk)
73 74
Variația reziduală estimată
uî
T
2
^ ^ 2) = 2
E(
 =
i =1
n2
Eroarea Standard Estimată a regresiei, ESE
uî
T
2
^ =
 ^ =
 
i =1
K
n2 Numărul
9/17/2023 Prof.univ.,dr. Ion Partachi
de parametri
în model
75
19

3.modelul Regresie Simpla

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

3.modelul Regresie Simpla

Încărcat de

Drepturi de autor:

Formate disponibile

Prelegeri 3-4-5 Modelul de regresie.

17.09.2023 prof.univ.dr. Ion Pârțachi 1 17.09.2023 prof.univ.dr. Ion Pârțachi 2

• Există două mari motive pentru care se efectuează

17.09.2023 prof.univ.dr. Ion Pârțachi 3 17.09.2023 prof.univ.dr. Ion Pârțachi 4

17.09.2023 prof.univ.dr. Ion Pârțachi 5 17.09.2023 prof.univ.dr. Ion Pârțachi 6

Regresia liniara • Modul de prezentare a legăturii liniare dintre două

17.09.2023 prof.univ.dr. Ion Pârțachi 9 17.09.2023 prof.univ.dr. Ion Pârțachi 10

În medie ne-am aştepta ca la un nivel mai ridicat de

Dar în acest caz nu se tine seama de faptul că venitul

Forma generală a modelului liniar de regresie

17.09.2023 prof.univ.dr. Ion Pârțachi 11

17.09.2023 prof.univ.dr. Ion Pârțachi 13 17.09.2023 prof.univ.dr. Ion Pârțachi 14

Regresia – scurt istoric

• 5. Variabilele sunt măsurate fără eroare

Legătură liniară inversă Absenţa vreunei legături

17.09.2023 prof.univ.dr. Ion Pârțachi 17 17.09.2023 prof.univ.dr. Ion Pârțachi 18

- H1 : Modelul este liniar în Xi (nu au importanță ce

• Non autocorelarea erorilor: Cov(i,j)=0 ij

• Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j

17.09.2023 prof.univ.dr.Ion Partachi 19 9/17/2023 Prof.univ.,dr. Ion Partachi

600 B.L.U.E. (Best Linear Unbiased Estimators)

17.09.2023 prof.univ.dr. Ion Pârțachi 25 17.09.2023 prof.univ.dr. Ion Pârțachi 26

Variaţia erorilor în jurul dreptei de

Y intercept (termenul constant)

• Etapa 2: Obţinerea Etapa 3: Interpretări şi previziune

17.09.2023 prof.univ.dr.Ion Partachi 31 17.09.2023 prof.univ.dr. Ion Pârțachi 32

Yi = Consumurile familiale săptămânale

• Parametrul  arată modificarea proporţională a variabilei efect (Y)

• i reprezintă componenta reziduală (eroarea aleatoare) pentru

Modelul liniar de regresie unifactorială

• cu componenta predictibilă: Yˆi  ˆ  ˆ  X i Var (Y / x)  Var (    x)  Var ( )  0   2   2

 Modelul de regresie liniară la nivelul populaţiei

39 17.09.2023 prof.univ.dr. Ion Pârțachi 40

17.09.2023 prof.univ.dr. Ion Pârțachi 41 17.09.2023 prof.univ.dr.Ion Partachi 42

17.09.2023 prof.univ.dr. Ion Pârțachi 45

Proprietatile estimatorilor modelului

17.09.2023 prof.univ.dr. Ion Pârțachi 47 17.09.2023 prof.univ.dr. Ion Pârțachi 48

• Când b1 et b2 sunt utilizați pentru reprezentarea peste tot a

9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

Dacă modelul este într-o formă greșită

Estimatorul fără tendință a termenului

Într-un mod similar, estimatorul a a (xi  x )yi  y ) xiyi

Variația lui a Covarianța lui a și b

Dacă x = 0, atunci panta se poate modifica fără a

9/17/2023 Prof.univ.,dr. Ion Partachi 9/17/2023 Prof.univ.,dr. Ion Partachi

Proprietățile variabilei reziduale Descompunerea sumelor pătratelor

Dreapta de regresie trece prin

la stânga la dreapta a~N  nx i2

Teorema Limită Centrală Eficacitatea:

b este un estimator eficient și fără tendință

E( )= a și E( )=b

Variația reziduală estimată

Eroarea Standard Estimată a regresiei, ESE

S-ar putea să vă placă și