Cursuri Regresie Unifactoriala

Modelul simplu de regresie
1. Definirea modelului de regresie;
2. Ipoteze clasice asupra modelului de regresie;
2. Estimarea punctuală a parametrilor modelului;
3. Testarea semnificației corelației şi a parametrilor modelului de

regresie;
4. Estimarea parametrilor prin interval de încredere;
5. Previziunea valorii variabilei Y in ipoteza modificarii variabilei

factoriale.
1. Definirea modelului de regresie
 Analiza de regresie este utilizată pentru a estima valorile unei
variabile (numită variabilă dependentă, endogenă, efect sau explicată)
pe baza valorilor uneia sau mai multor alte variabile (numite variabile
independente, exogene, cauzale sau explicative) pornind de la forma
legăturii dintre acestea exprimată ca un model matematic.
 Atunci când în analiză intervine o singură variabilă independentă iar

forma legăturii (a norului de puncte care reprezintă valorile celor două
variabile) este o dreaptă vorbim despre regresie lineară simplă. În
cazul includerii în analiză a mai multor variabile independente suntem
în situaţia unui model de regresie multifactorial.
Forma, variabilele şi parametrii modelului
de regresie linear unifactorial
Modelul linear unifactorial se prezintă astfel:
Yi    X i   i , i = 1...n, unde:
 Y reprezintă variabila dependentă, endogenă, efect sau explicată;
 X este variabila independentă, exogenă, cauzală sau explicativă;
 parametrul  se numeşte termen liber (intercept) pentru colectivitatea
generală;
 parametrul  reprezintă panta dreptei de regresie (slope) pentru
colectivitatea generală;
 i se numeşte variabilă reziduală (residual) sau eroare;
 n reprezintă numărul de observaţii.
Specificarea unui model de
regresie
 Dacă datele disponibile provin dintr-un eşantion avem la
dispoziţie n perechi de observaţii (x1, y1), (x2,y2), ... (xn, yn),
pe care le vom folosi pentru estimarea parametrilor ecuaţiei
de regresie liniară simplă,  şi .
 Modelul de regresie liniară în eşantion este:
yi = a + bxi + ei
 cu componenta predictibilă:
yî  aˆ  bˆxi
 âşi b̂ sunt estimatorii punctului de intercepţie () şi pantei liniei
drepte (), obţinuţi pe eşantion
 ê
i este valoarea reziduală (pentru unitatea i) în eşantion:
ê i  y i – (â  b̂x i )
yî  aˆ  bˆxi
În ecuaţia de ajustare
 ŷ i valoarea estimată a lui Y pentru observaţia i;
 x i este valoarea lui X pentru observaţia i;
 estimatorul â se numeşte termen liber (intercept) pentru eşantionul extras

din colectivitatea generală şi, din punct de vedere matematic, reprezintă
punctul în care dreapta de regresie intersectează axa OY. Nu are semnificaţie
economică;
 estimatorul b̂ se numeşte coeficient de regresie şi, din punct de vedere

matematic, reprezintă panta dreptei de regresie (slope) arătând cu câte unităţi
se modifică variabila Y, la o modificare cu o unitate a variabilei X;
Semnul coeficientului de regresie arată direcţia legăturii dintre cele
două variabile cercetate:
 dacă bˆ  0 legătura între variabile este directă;
 dacă bˆ  0 legătura între variabile este inversă (negativă);
 dacă bˆ  0 nu există legătură între variabile.
Ipotezele modelului de regresie
liniară
 Pentru a obţine proprietăţile dorite ale estimatorilor regresiei, se
fac, de obicei, cinci presupuneri (ipoteze) standard pentru modelul
din populaţia generală:
 Ipotezele ce trebuie verificate:
 Forma funcţională: Yi = + Xi + i, i=1,n

Normalitatea erorilor: i N(0,   )
2

 Media zero a erorilor: μ(i)=0 i

Homoscedasticitatea: σ2(i)=   constantă i
2

 Non autocorelarea erorilor: Cov(i,j)=0 ij

 Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j
Aproximarea grafică a modelului legăturii
dintre variabile
A) Legătură lineară directă B) Legătură lineară inversă
y y
x x
C) Legătură nelineară D) Legătură nelineară
directă indirectă
y y
x
x
E) Nicio legătură F) Nicio legătură
y y
x x
Estimarea parametrilor
modelului de regresie clasic
 Parametrii necunoscuţi sunt cei ce trebuie estimaţi:
Yi = + Xi + i, i=1,n
 Modelul estimat va fi scris:
yî  aˆ  bˆxi , i  1, n
 Eroarea asociată unui punct i este:
i = yi -  - xi
 Pentru orice valori estimate a şi b, erorile estimate vor fi:
ê i  y i – (â  b̂x i )
 Pentru estimarea parametrilor  şi  pe baza datelor observate, un
criteriu natural este cel de maximizare a potrivirii modelului cu datele
observate, deci de minimizare a erorilor observate:
min  eî2  min  ( yi  aˆ  bˆxi ) 2
i i
modelului de regresie clasic n
S   ( y i  aˆ  bˆxi ) 2  min
n
S   ( y i  yˆ i )  min
2
i 1
i 1
 Condiţiile de ordin 1 de minimizare a funcţiei sunt:

 S  n
 2   ( y i  aˆ  bˆxi )(1)  0  n n
naˆ  b  xi   y i
 aˆ 0  ˆ
 i 1 
   n i 1 i 1
  n
S
  0 2  ( y  aˆ  bˆx )( x )  0 
 
n n
aˆ x  bˆ x 2 
 bˆ    
i i i
i i xi y i
i 1 i 1 i 1 i 1
aˆ  y  bˆ x



n y i
 ˆ  xi x yi i n   xi y i   xi   y i
b  
 n x i
n   x i2  ( xi ) 2

  xi x 2
i
 Formule simplu de aplicat pentru coeficientul de regresie (b):
aˆ  y  b x



n y i
  ˆ  xi x y
i i n   xi y i   xi   y i  x y  nx y
b   
i i
 n x i
n   x i2  ( xi ) 2  x  nx
2 2
i

  xi x 2
i
 Formule simplu de aplicat pentru coeficientul de regresie (b):

bˆ   i i
 x y  nx y

sau
 i
2
x 2
 n x


 ˆ  ( xi  x )  ( y i  y ) cov xy
b  
  i ( x  x ) 2
s 2
x

 ˆ cov xy cov xy s y sy
b  s 2  s  s  s  r  s
 x x y x x
 Rămâne de verificat dacă este verificată condiţia de ordin 2, adică soluţia găsită
este un punct de minim. Matricea derivatelor parţiale de ordin doi trebuie să fie
pozitiv definită:
  2 ( ei2 )  2 ( ei2 ) 
 
 2 2
i i
  2n 2 xi 
  a ab   i 

2   2 x
  2 ( ei2 ) 2
 ( ei ) 2 xi2 
 
  i
i
i 
i i
 ba 
  2b 2 


2 n  0
 2
2 xi  0
 i
 2 2 2
 4 n  x i  4(  xi )  4 n  ( xi  x ) 0
 i i i
 Deci matricea este pozitiv definită.
Calităţile estimatorului (MCMMP)
 Estimaţia b̂ este nedeplasată: M (bˆ)  b
 Estimaţia b̂ este consistentă: bˆ  b
 Estimaţia este eficientă: acel estimator care este

nedeplasat şi de dispersie minimă (nedistorsionat şi de
precizie maximă)
3. Verificarea semnificaţiei rezultatelor
estimării. Testul F. Testul t
Analiza dispersională ANOVA
 Aplicarea MCMMP pentru determinarea ecuaţiei de
ajustare se bazează pe calcularea a trei tipuri de dispersii:
1. Variaţia totală calculată ca suma pătratelor diferenţelor

dintre fiecare valoare a variabilei Y şi media variabilei Y
(SST)
SST   Yi  Y 
n
2
i 1
Analiza dispersională ANOVA
2. Variaţia datorată regresiei (explicată de model)

calculată ca suma pătratelor abaterilor dintre fiecare valoare
a lui Y estimat pe baza modelului şi media variabilei Y (SSR).
 
n
SSR   Yî  Y
2
i 1
3. Dispersia reziduală (neexplicată de model) calculată ca

suma pătratelor diferenţelor între fiecare valoare a lui Y şi lui
Y estimat pe baza modelului (suma pătratelor erorilor) (SSE).
n n
SSE   (Yi  Yî )   ei2
2
i 1 i 1
 Analiza dispersională ANOVA
 Variaţia totală se obţine adunând la variaţia determinată

de modelul de regresie, variaţia neexplicată de model:
 SST=SSR+SSE
 Coeficientul de determinare = ponderea varianţei
explicate în varianţa totală indică în ce măsură variaţia
variabilei dependente Y este determinată de variaţia
variabilei independente X.
ˆ
SSR (Yi  Y ) 2
R 
2

SST (Yi  Y ) 2
Testarea semnificaţiei coeficientului
de determinare utilizând statistica F
Validarea globală a modelului liniar de regresie se realizează pe baza testului
Fisher-Snedecor (testul F).
Ipoteze statistice:
H0: 1  0 , variabila independentă nu are o influenţă semnificativă asupra
variabilei dependente. R2 nu este semnificativ din punct de vedere statistic.
H1: 1  0 , variabila independentă are o influenţă semnificativă asupra variabilei

dependente. R2 este semnificativ din punct de vedere statistic.
de determinare utilizând statistica F
(Yî  Y ) 2
(Yî  Y ) 2  (Yi  Yî ) (Yî  Y ) 2 n  k (Yi  Y ) 2 n  k
2
Fcalculat  :    
k 1 nk  (Yi  Yi ) k  1  (Yi  Yi ) k  1
ˆ 2 ˆ 2
(Yi  Y ) 2
R2 n  k
Fcalculat  
1 R k 1
2
unde k reprezintă numărul de parametrii ai modelului (2 în cazul regresiei liniare simple), iar n
numărul de observaţii.
Dacă Fcalculat  F ,k 1,n  k se respinge ipoteza nulă şi se acceptă ipoteza alternativă

potrivit căreia R2 este semnificativ din punct de vedere statistic.
de corelaţie liniară utilizând testul t
r
cov(x, y )

 ( xi  x )( yi  y ) 
n xi y i   xi  y i
Sx  Sy [ ( xi  x ) 2 ][  ( y i  y ) ] [n xi2  ( xi ) 2 ][ n y i2  ( y i ) 2 ]
2
Pentru a testa dacă între variabilele X şi Y există o legătură statistică

semnificativă se foloseşte testul t.
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere stat
de corelaţie liniară utilizând testul t
r 0 r n2
tcalc  
1 r 2 1 r 2
n2
Decizia:
Dacă tcalc  t ,n  2 se respinge ipoteza nulă, se acceptă ipoteza alternativă

potrivit căreia r este semnificativ din punct de vedere statistic.
Testarea parametrilor unui model de
regresie folosind testul t
Testarea parametrului  :
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere statistic)
a -0 â - 0
t calcultat  
a s aˆ
1 X2  seˆ 
 (Y i  Yî ) 2

s â  s  
2 
eˆ  n ( X  X )2 
 i 
nk
Decizia:
Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă

ipoteza alternativă potrivit căreia parametrul alfa este semnificativ
din punct de vedere statistic.
Testarea parametrilor unui model de
regresie folosind testul t
Testarea parametrului  :
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere statistic)
b-0 b̂ - 0
t calcultat  
b sbˆ
s b̂ 
s 2
eˆ seˆ 
 (Y i  Yî ) 2
 i
( X  X ) 2
nk
Decizia:
Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă

ipoteza alternativă potrivit căreia parametrul alfa este semnificativ
din punct de vedere statistic.
4. Estimarea parametrilor prin
interval de încredere
Intervalul de încredere pentru parametrul  :
aˆ  t / 2,n  k  saˆ    aˆ  t / 2,n  k  saˆ
Intervalul de încredere pentru parametrul  `:
bˆ  t / 2,nk  sbˆ    bˆ  t / 2,nk  sbˆ

5. Previziunea valorii variabilei Y in ipoteza
modificarii variabilei factoriale
Intervalul de predicţie
Yî  t / 2,nk  seˆ  hi sau
Yî  t / 2,nk  seˆ  hi  Y / X  X i  Yî  t / 2,nk  seˆ  hi ,
unde:
1 ( X i  X )2
hi  1   n
 ( X i  X )2
n
i 1
Bibliografie
V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose,

C.Boboc, D.Pele – Teorie şi practică econometrică, Ed.
Meteor Press, 2007

Cursuri Regresie Unifactoriala

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cursuri Regresie Unifactoriala

Încărcat de

Drepturi de autor:

Formate disponibile

Modelul simplu de regresie

1. Definirea modelului de regresie;

2. Ipoteze clasice asupra modelului de regresie;

2. Estimarea punctuală a parametrilor modelului;

3. Testarea semnificației corelației şi a parametrilor modelului de

4. Estimarea parametrilor prin interval de încredere;

5. Previziunea valorii variabilei Y in ipoteza modificarii variabilei

 Atunci când în analiză intervine o singură variabilă independentă iar

 ŷ i valoarea estimată a lui Y pentru observaţia i;

 x i este valoarea lui X pentru observaţia i;

 estimatorul â se numeşte termen liber (intercept) pentru eşantionul extras

 estimatorul b̂ se numeşte coeficient de regresie şi, din punct de vedere

 Ipotezele ce trebuie verificate:

 Forma funcţională: Yi = + Xi + i, i=1,n

 Media zero a erorilor: μ(i)=0 i

 Non autocorelarea erorilor: Cov(i,j)=0 ij

 Condiţiile de ordin 1 de minimizare a funcţiei sunt:

 Estimaţia b̂ este consistentă: bˆ  b

 Estimaţia este eficientă: acel estimator care este

1. Variaţia totală calculată ca suma pătratelor diferenţelor

2. Variaţia datorată regresiei (explicată de model)

3. Dispersia reziduală (neexplicată de model) calculată ca

 Variaţia totală se obţine adunând la variaţia determinată

H1: 1  0 , variabila independentă are o influenţă semnificativă asupra variabilei

Dacă Fcalculat  F ,k 1,n  k se respinge ipoteza nulă şi se acceptă ipoteza alternativă

Pentru a testa dacă între variabilele X şi Y există o legătură statistică

Dacă tcalc  t ,n  2 se respinge ipoteza nulă, se acceptă ipoteza alternativă

Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă

Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă

aˆ  t / 2,n  k  saˆ    aˆ  t / 2,n  k  saˆ

Intervalul de încredere pentru parametrul  `:

bˆ  t / 2,nk  sbˆ    bˆ  t / 2,nk  sbˆ

Yˆi  t / 2,nk  seˆ  hi sau

Yˆi  t / 2,nk  seˆ  hi  Y / X  X i  Yˆi  t / 2,nk  seˆ  hi ,

V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose,

S-ar putea să vă placă și