Sunteți pe pagina 1din 35

Curs 9

MODELUL DE REGRESIE LINIARĂ UNIFACTORIALĂ (III)

1
4. Evaluarea validităţii modelului
a) Testarea validităţii modelului de regresie folosind metoda ANOVA
b) Determinarea şi testarea semnificaţiei raportului de corelaţie

c) Inferenţa statistică pentru parametrii modelului de regresie


d) Verificarea ipotezelor modelului de regresie

2
c)Inferenţa statistică pentru parametrii modelului de regresie

Inferenţa statistică privind parametrii modelului se poate realiza prin:

 Testarea ipotezei statistice referitoare la semnificaţia


parametrilor;

 Estimarea pe interval de încredere a parametrilor


modelului.
În cazul regresiei liniare coeficienţii ecuaţiei de regresie în eşantion, bo şi
b1, sunt estimaţii ale coeficienţilor ecuaţiei de regresie în populaţia
statistica 0 şi 1.

1 n 2
S 
2
e 
n  2 i 1
ei

3
c)Inferenţa statistică pentru parametrii modelului de regresie

1. Testarea parametrului 1

Coeficientul 1 măsoară schimbarea variabilei rezultative


determinată de modificarea cu o unitate a variabilei cauzale.

Dacă 1 = 0, înseamnă că linia de regresie este orizontală,


adică Ŷ  Y

4
Testarea parametrilor modelului de regresie

 Testul bilateral:
H0: β1 = 0 (β1 nu difera semnificativ de zero)
H1: β1 ≠ 0 (β1 difera semnificativ de zero)

 Test unilateral dreapta/stânga:


H0: β1 = 0
H1: β1 > 0 sau (H1: β1 < 0)

5
Testarea parametrilor modelului de regresie

 Exemple de acceptare a ipotezei H0:1=0

6
Testarea parametrilor modelului de regresie

 Exemple de respingere a ipotezei H0:1=0

7
Testarea parametrilor modelului de regresie

TESTUL T (aferent distributiei Student)


b1   b1 b1  0 b1
tcalc   
sb1 sb1 sb1

Regiunea critică:
 Pentru testul bilateral:
dacă t calc  t / 2,n  2 sau t calc  t / 2,n2 se respinge H0.
 Pentru testul unilateral dreapta: t calc  t ,n 2
 Pentru testul unilateral stânga: t calc  t ,n2
Intervalul de încredere pentru “β1”:
b1  t / 2,n 2  sb1   1  b1  t / 2,n 2  sb1

8
Testarea parametrilor modelului de regresie

2. Testarea parametrului “β0 ”

 Testul bilateral:
H0: β0 = 0
H1: β0 ≠ 0

 Test unilateral dreapta/stânga:


H0: β0 = 0
H1: β0 > 0 (H1: β0 < 0)

9
Testarea parametrilor modelului de regresie

TESTUL T (aferent distributiei Student)


b0   b0  b0  0 b0
tcalc   
sb 0 sb 0 sb 0
Regiunea critică:

 Pentru testul bilateral:


dacă t calc  t / 2,n2 sau t calc  t / 2,n2 se respinge H0.
Pentru testul unilateral dreapta:

t calc  t ,n 2

 Pentru testul unilateral stânga: t calc  t ,n2


Intervalul de încredere pentru “β0”:

b0  t / 2,n 2  sb0   0  b0  t / 2,n 2  sb0

10
Testarea parametrilor modelului de regresie

unde:
sb1= deviaţia standard a estimatorului b1

1 se
sb1  s 2
e n

(x  x)
n

 i
2
i ( x  x ) 2

i 1 i 1

sb0= deviaţia standard a estimatorului b0


n

1 x 2 x 2
i
sb 0  se  n
 se n
i 1

(x  x) n  ( xi  x )2
n 2
i
i 1 i 1

11
Exemplu
O unitate de prestări servicii a măsurat, pe baza unui model liniar de
regresie, dependenta dintre dintre costul total -Y (mii lei) si numărul
clienţilor serviţi -X:
yˆ i  2272  51,66 xi
(costul total=costul fix+costul variabil)

Se cunosc:
n  18; x  32,5; s x  6,5552; y  3951,06mii lei;
s y  389,6131 mii lei; se  198,58mii lei.

Se determină:
198,58 198,58 1 32,52
sb1    7,14 sb 0  198,58   236,73
6,5552  18
2 27,81 18 6,5552  18
2

12
Exemplu
Testăm ipotezele
a) H0: β1 = 0 b1   b1 b1  0 b1 51,66
tcalc      7,235
H1: β1 ≠ 0 sb1 sb1 sb1 7,14

b) H0: β0 = 0 b0   b0  b0  0 b0 2272


tcalc      9,597
H1: β0 ≠ 0 sb 0 sb 0 sb 0 236,73

t critic  t 0,025 ;16  2,12

Se observă că pentru ambii coeficienţi valoarea testului cade


în regiunea critică;
Concluzionăm că atât β0 cât şi β1 sunt semnificativi statistic.

13
Exemplu

Intervalele de încredere:
b1  t0.025 ;16  sb1   1  b1  t0.025;16  sb1
51,66  2,12  7,14   1  51,66  2,12  7,14

36,52   1  66,8 mii lei;

b0  t0.025 ;16  sb 0   0  b0  t0.025 ;16  sb 0


2272  2,12  236,73   0  2272  2,12  236,73
1170,13   0  2773,87mii lei

14
MODELUL DE REGRESIE LINIAR
MULTIFACTORIAL

15
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

 În multe situaţii, variabila rezultativă supusă studiului este determinată


de mai mulţi factori de influenţă

Exemple:
1. În medie ne-am aştepta ca la un nivel mai ridicat de educaţie, nivelul
venitului să crească:

venit = 0 + 1educaţie + 

Însă venitul depinde şi de vârstă:


venit = 0 + 1educaţie +2vârstă + 

2. (funcţia Cobb Douglas): Producţia = f(capital, forţă de muncă) + 

16
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

3. În analiza raportului dintre cererea şi oferta unui produs vom putea studia
cantitatea cerută pentru un anumit produs numai în funcţie de preţ,
stabilind astfel un model simplu de regresie:

qi = 0 + 1 pi + i

unde qi reprezintă cantitatea cerută, pi este preţul unitar, iar i este o


variabilă reziduală ce cuantifică influenţa altor variabile asupra cererii.

 Cererea dintr-un anumit produs este influenţată într-o mare măsură şi de


alţi factori, precum calitatea produselor, veniturile disponibile etc.

qi = 0 + 1 pi +2vi + i

unde i cuantificã venitul disponibil al populatiei.

17
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

Modelul regresiei multiple se prezintă sub forma ecuaţiei:

y = β0+1x1 + 2x2 + … + kxk + .

 În cazul acestei ecuaţii de regresie se identifică urmãtoarele


variabilele:

 grupul de variabile exogene sau independente, ce se reprezintă


sub forma variabilei vectoriale X = (X1, X2, …, Xk ).

 o variabilă endogenă, notată prin Y.

18
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

Variaţia explicată
Variaţia explicată de X2
de X1 şi X2

X2
X1

Variaţia explicată Y Variaţia neexplicată


de X1
de X1 sau X2 19
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

X1 X2

20
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

 Se realizează o selecţie de volum n

 Pentru fiecare unitate i vom avea seria de valori xi1, xi2, …, xik

 Pentru fiecare variabilă ansamblul datelor observate pentru cele n


unităti vor fi reprezentate prin vectorul coloană xi cu i=1,…k

 Ansamblul datelor pentru variabilele exogene vor fi prezentate sub


forma matricei:
 x11 x21 ... xk 1 
x x22 ... xk 2 
X   x1 , x2 ,..., xk    12  M ( n ,k ) .
 .... .... .... .... 
 
 x1n x2 n ... xkn 

 În cazul modelului liniar de regresie cu termen liber prima coloană a


matricei de mai sus este in fapt egală cu un vector cu n elemente
21
egale cu 1
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
 Pentru cele n unităti sunt înregistrate valorile y1, y2, …, yn,
ce reprezintă elementele vectorului coloană y, deci valorile
variabilei endogene vor fi reprezentate prin:

 y1 
y 
y   2
 
 
 n
y
 Modelul de regresie este:
y = β0+ 1x1 + 2x2 + … + kxk + 

22
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

La nivelul eşantionului, modelul de regresie liniară multifactorială se scrie:

yi  b0  b1 xi1  b2 xi 2  ...  bk xik  ei i  1, n


cu componenta predictibilă:

yˆ i  b0  b1 xi1  b2 xi 2  ...  bk xik i  1, n


unde bj, (j=0,1,…,k) reprezintă estimatorul parametrului j

Modelul se poate scrie în formă matriceală astfel:

 y1   1 x11 x12 ...x1k   b0   e1 


       
 2 1
y x 21 x 22 ...x 2 k   b1   e 2 
 ...    ... ... ...
 
...   ...   ... 
       
y  1 ...x nk  b  e 
 n  x n1 xn 2   k  n
n∙ 1 n ∙ (k+1) (k+1)∙1 n∙1

sau Y  X BE
23
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

B este vectorul coloană al estimatorilor bj, j=0,1,…,k de dimensiune (k+1,1).


E este vectorul coloană al variabilei aleatoare, de dimensiune (N,1)

Componenta predictibilă a modelului este: Yˆ  X  B

Reziduurile sunt definite ca: E  Y  Yˆ  Y  X  B

Estimarea parametrilor modelului se face cu MCMMP,adica se minimizeaza suma pătratelor abaterilor dintre

valorile reale, empirice (yi) şi valorile teoretice, ajustate, rezultate pe baza modelului ( ŷ i ), adică:
n
  yi ˆ i 2  minim sau
 y
i 1

n n n
S    yi  yˆi    e   yi  b0  b1xi1  b2 xi 2  ...  bk xik   minim
2 2 2
i
i 1 i 1 i 1

24
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

S
În urma derivării şi anulării derivatelor parţiale în raport cu “bj” (  0 , j  1, k ) se obţine un
bi
sistem de (k+1) ecuaţii normale cu (k+1) necunoscute, de forma:

nb0  b1  xi1  b2  xi 2  ...  bk  xik   yi


 i i i i
b x  b x 2  b x  x  ...  b x  x  x  y
 0 i1 1  i1 2  i1 i2 k  i1 ik  i1 i

 i i i i i

b0  xi 2  b1  xi1  xi 2  b2  xi 2  ...  bk  xi 2  xik   xi 2  yi


2

 i i i i i
................................................................................................

b0  xik  b1  xi1  xik  b2  xi 2  xik  ...  bk  xik   xik  yi
2

 i i i i i
25
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

Pentru fiecare din cele “n” unităţi de observare din eşantion, au loc egalităţile:
i=1 y1  b0  b1 x11  b2 x12  ...  bk x1k  e1

i=2 y 2  b0  b1 x 21  b2 x 22  ...  bk x 2 k  e2
..........................................................................................
i=n y n  b0  b1 x n1  b2 x n 2  ...  bk x nk  en

26
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

Parametrii bj, j  1, k se numesc coeficienţi de regresie şi indică cu câte unităţi de măsură se

modifică variabila rezultativă Y, dacă variabila factorială Xj, j  1, k se modifică cu o


unitate, în condiţiile în care toţi ceilalţi factori rămân neschimbaţi (nivelurile lor sunt fixe,
constante).

Dacă un coeficient de regresie bj este pozitiv, atunci înseamnă că variabila exogenă Xj


influenţează în mod direct variabila endogenă Y, iar dacă semnul coeficientului de regresie bj
este negativ, între variabila factorială Xj şi cea rezultativă Y există o legătură inversă.

27
3. Estimarea parametrilor modelului liniar
multifactorial

 Modelul de regresie în eşantion în formă matricială este:

Y = XB + E
 Estimatorii parametrilor se determină după relatia:
B  ( X ' X ) 1 X ' Y

 Valorile previzionate: Yˆ  XB

 Erorile: E  Y  Yˆ

28
4. Validitatea modelului
 ANOVA
Sursa variaţiei Varianţa Gradele de Dispersia corectată Statistica F
(suma pătratelor) libertate (media pătratelor)

Datorată
regresiei k
(explicată de n
model) SSR   ( yˆ i  y ) 2 MSR 
SSR
i 1 k MSR
Reziduală
n-k-1
Fcalc 
(neexplicată de n MSE
model)
SSE   ( yi  yˆ i ) 2
SSE
i 1 MSE ( S e2 ) 
n  k 1
Totală –
n n-1
SST   ( yi  y ) 2
SST
s y2 
i 1
n 1
29
4. Validitatea modelului

 Testarea parametrilor modelului de regresie

 Ipotezele: H 0 : i  0
 sb21 
 
H1 : i  0  sb2 
sB2   2   se2  diag ( X ' X ) 1
 ... 
bi   i bi  
unde  sb2 
 Testul statistic: t    k
sbi sbi

 Regula de decizie:
tcalc  t / 2,n k 1  se respinge H0, deci
tcalc  t / 2,nk 1 parametrul i este
seminificativ 30
Observaţii
 Coeficienţii de corelaţie parţială - caracterizează intensitatea
legăturii dintre două variabile, în ipoteza că celelalte variabile
rămân constante.
 coeficientul de corelaţie parţială între Y şi X1, eliminând influenţa
variabilei X2 este:
ryx1  ryx2  rx1x2
ryx1 / x2 
1  r  1  r 
2
yx2
2
x1 x2

 coeficientul de corelaţie parţială între Y şi X2, eliminând influenţa


variabilei X1 este:
ryx2  ryx1  rx1 x2
ryx2 / x1 
1  r 1  r 
2
yx1
2
x1 x2
31
Exemplu:
Nr.
familii Supr.comerciala Cifra de
(X1) (X2) afaceri (Y)
70 21 198
35 26 209
55 14 197
25 10 156
28 12 85
43 20 187
15 5 43
33 28 211
23 9 120
4 6 62
45 10 176 32
Exemplu – rezultate Excel:
Regression Statistics
Multiple R (R) 0,9251
R Square (R2) 0,8558
Adjusted R Square 0,8270
Standard Error (se) 27,8500
Observations (n) 13

Interpretări:
R : legătura dintre Xi şi Y este puternică.
R2 : 85,6% din variaţia lui Y este determinată de
influenţa lui X1,X2 (este explicată de model)
33
Exemplu – rezultate Excel:
ANOVA
df SS MS F Significance F
Regression k=2 46033,02 23016,51 Fcalc = 29,67 0,00006234
Residual n-k-1 = 10 7756,21 775,62
Total n-1 = 12 53789,23

Interpretări:
Modelul de regresie este semnificativ statistic (valid) (adică se acceptă
H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%

34
Exemplu – rezultate Excel:

Standard Lower Upper


Coefficients Error t Stat P-value 95% 95%
Intercept 37,5023 17,6461 2,1252 0,059496 -1,82 76,82

Nr. familii 1,4963 0,5534 2,7039 0,022165 0,26 2,73

Supr.com 4,2446 1,0650 3,9856 0,002578 1,87 6,62

Interpretări:
 Parametrul  0 nu este semnificativ, deoarece probabilitatea cu care se poate
accepta H1 (care susţine că este semnificativ) este de cel mult 100-
5,95=94,05%<95%.

 Parametrul β1 este semnificativ, deoarece probabilitatea cu care se poate accepta


H1 (care susţine că este semnificativ) este de cel mult 100-2,2=97,8%>95%

 Parametrul β2 este semnificativ, deoarece probabilitatea cu care se poate accepta


H1 (care susţine că este semnificativ) este de cel mult 100-0,26=99,74%>95%
35

S-ar putea să vă placă și