Sunteți pe pagina 1din 12

Curs 3: Regresia liniară multiplă

3.1. Introducere
Până acum am studiat un model regresional în care erau implicate două variabile şi
anume o variabilă dependentă şi una independentă.
Un model regresional în care sunt implicate cel puțin două variabile independente
se numeşte model regresional multiplu.

Exemplu
Legătura dintre falimentul unei bănci, rata economiilor populaţiei şi rata
împrumuturilor populaţiei.

Pot fi date nenumărate exemple de modele regresionale multiple, iar acest lucru este
posibil deoarece puţine fenomene economice pot fi explicate cu ajutorul unei singure
variabile explicative (independente).

În această parte a cursului vom încerca să răspundem la următoarele întrebări:

1. Cum estimăm modelul regresional multiplu? Diferă procedura de cea întâlnită


la modelul regresional simplu?
2. Diferă procedura testării ipotezelor de cazul simplu?
3. Există caracteristici proprii acestui model, caracteristici neîntâlnite în cazul
modelului regresional simplu?
4. Din moment ce un model regresional multiplu poate conţine oricâte variabile
independente, care va fi procedura prin care vom decide care dintre acestea
rămân sau nu în modelul determinat?

3.2. Modelul regresional multiplu în trei variabile


Generalizând modelul regresional simplu pentru funcţia de regresie a populaţiei
(PRF), în cazul modelului în trei variabile vom putea scrie

E(Yi)= B0 + B1X1i+B2X2i

în formă deterministă, respectiv

Yi= B0 + B1X1i+B2X2i+ui
în cazul stohastic.

1
În cele două relaţii avem următoarele:
 Y – variabila dependentă;
 X1, X2 – variabilele independente;
 E(Yi) – valoarea medie a variabilei dependente, corespunzătoare
unor valori date sau fixate ale variabilelor independente;
 B0, B1, B2 – parametrii modelului regresional;
 u – eroare aleatoare;
 i – valoarea observată i.

Observaţii
1. B0 reprezintă valoarea medie a variabilei dependente atunci când variabilele
independente sunt egale cu zero;
2. Parametrii (coeficienţii) B1 şi B2 se numesc parametrii de regresie parţială.
Această denumire se datorează semnificaţiei celor doi parametrii. Astfel B1 ne
arată cu cât se modifică valoarea medie a lui Y la modificări cu o unitate a
variabilei X1, atunci când variabila X2 este fixată. În mod similar B2 ne arată cu cât
se modifică valoarea medie a lui Y la modificări cu o unitate a variabilei X2,
atunci când variabila X1 este fixată.
În concluzie, coeficientul de regresie parţială reflectă efectul pe care o variabilă
explicativă îl are asupra mediei variabilei explicate atunci când celelalte
variabile explicative sunt fixate.

La nivel de eşantion vom avea


yi= b0 + b1x1i + b2x2i +i
relaţie ce reprezintă funcţia de regresie la nivel de eşantion (SRF) corespunzătoare
funcţiei de regresie la nivel de populaţie, respectiv
ŷ i  b0  b1 x1 i  b2 x 2 i ,
ceea ce reprezintă estimarea modelului regresional la nivel de populaţie.

Observaţie
În relaţiile de mai sus bi reprezintă estimatorii parametrilor modelului regresional.

Observaţie
În cazul general vom avea:

 populaţie
E(Yi)= B0 + B1X1i+B2X2i+...+ BkXki
Yi= B0 + B1X1i+B2X2i +...+ BkXki +ui
 eşantion
ŷi  b0  b1 x1 i  b2 x2 i  ...  bk xk i
yi= b0 + b1x1i + b2x2i+...+ bkxki +i

2
3.3. Estimarea parametrilor

Şi în acest caz estimarea parametrilor modelului regresional se va face cu ajutorul


metodei celor mai mici pătrate.

Astfel b0, b1, b2 se vor determina ca soluţii ale sistemului:


 nb0  b1  x 1 i  b2  x 2 i   yi

 b0  x 1 i  b1  x 1  b2  x 1 i x 2 i  
2
i yi x1 i
b
 0  x 2 i  b1  x 1 i x 2 i  b2  x2 2
i   yi x 2 i

Observaţie
În cazul general vom avea:
 bo
n  b1  x1  b2  x 2


 bo  x1  b1  2
x1  b2 

 bo  x 2
 b1  x1 x 2
 b  2
 .. .... ..... ..... ......... .......... ...


 bo  x k
 b1  x1 x k
 b2 

Exemplu
Legătura dintre datoria ipotecară (y mld. USD), venitul (x1 mld. USD) şi costul ipotecii
(x2 %) în Statele Unite în perioada 1980 – 1995.

y x1 x2 yx1 yx2 x1x2 x12 x22 y2


1365.50 2285.70 12.66 3121123.35 17287.23 28936.96 5224424.49 160.28 1864590.25
1465.50 2560.40 14.70 3752266.20 21542.85 37637.88 6555648.16 216.09 2147690.25
1539.30 2718.70 15.14 4184894.91 23305.00 41161.12 7391329.69 229.22 2369444.49
1728.20 2891.70 12.57 4997435.94 21723.47 36348.67 8361928.89 158.00 2986675.24
1958.70 3205.50 12.38 6278612.85 24248.71 39684.09 10275230.25 153.26 3836505.69
2228.30 3439.60 11.55 7664460.68 25736.87 39727.38 11830848.16 133.40 4965320.89
2539.90 3647.50 10.17 9264285.25 25830.78 37095.08 13304256.25 103.43 6451092.01
2897.60 3877.30 9.31 11234864.48 26976.66 36097.66 15033455.29 86.68 8396085.76
3197.30 4172.80 9.19 13341693.44 29383.19 38348.03 17412259.84 84.46 10222727.29
3501.70 4489.30 10.13 15720181.81 35472.22 45476.61 20153814.49 102.62 12261902.89
3723.40 4791.60 10.05 17841043.44 37420.17 48155.58 22959430.56 101.00 13863707.56
3880.90 4968.50 9.32 19282251.65 36169.99 46306.42 24685992.25 86.86 15061384.81
4011.10 5264.20 8.24 21115232.62 33051.46 43377.01 27711801.64 67.90 16088923.21
4185.70 5480.10 7.20 22938054.57 30137.04 39456.72 30031496.01 51.84 17520084.49
4389.70 5753.10 7.49 25254383.07 32878.85 43090.72 33098159.61 56.10 19269466.09
4622.00 6115.10 7.87 28263992.20 36375.14 48125.84 37394448.01 61.94 21362884.00
47234.8 65661.1 167.9 214254776.4 457539.6 649025.7 291424523.5 1853.0 158668484.9
0 0 7 6 3 6 9 7 2

Sistemul devine:
 16 b0  65661.1b1  167.97 b2  47234.6

 65661 .1b0  291424523 .59 b1  649025.76 b2  214254776 .4
 167.97 b  649025.76 b1  1853 .07 b2  457539.63
 0

Rezolvând acest sistem obţinem:


b0=155.6812
b1=0.8258
b2= - 56.4393

3
Aşadar
ŷ i  155.6812  0.8258 x1 i  56.4393 x 2 i

Interpretări
 b0 – dacă venitul şi costul ipotecii sunt zero atunci datoria ipotecară medie va fi
155.7 mld. USD;
 b1 – dacă costul ipotecii este fixat atunci la modificări cu o unitate a venitului (1 $) îi
corespunde o modificare a datoriei medii de 0.8258 (adică aprox 83 de cenţi);
 b2 – dacă venitul este fixat atunci la modificări cu o unitate a costului (un procent) îi
corespunde o modificare a datoriei medii de 56.5 unităţi (mld. USD).

3.4. Testarea semnificaţiei modelului regresional


Am văzut în cazul regresiei liniare simple că valorile determinate cu ajutorul
metodei celor mai mici pătrate reprezintă doar estimări ale parametrilor modelului
regresional. Ca urmare trebuia să testăm anumite ipoteze asupra acestora.
Şi în cazul regresiei multiple vom proceda la fel cu deosebirea că în acest caz vom
testa ipoteze atât asupra fiecărui parametru în parte precum şi asupra ansamblului
parametrilor.

3.4.1. Testarea ipotezelor formulate asupra fiecărui parametru

Vom verifica următoarele ipoteze:


Ho: B1=0; H1: B1≠0
Ho: B2=0; H1: B2≠0

Intervale de încredere

Intervalele de încredere pentru parametrii B1 şi B2 au următoarea formă:



B1  b1  t / 2 ; n  3  sb1 , b1  t / 2 ; n  3  sb1 ; 
B  b  t
2 2 s , b2  t / 2 ; n  3  sb2
 / 2 ; n  3  b2 .
unde:
ESE
sb = 2 ; i= 1 ,16 , k=1,2
k
x 2
ki  n xk 1  rx2 x1 2

 y  ŷi  2 ;
ESE=  i =  i
2
n3 n3

n x 1 x 2   x 1  x 2
rx x  .
n x 12    x 1  n x 22    x 2 
1 2 2 2

4
y x1 x2 ŷ i  155.6812  0.8258 x1 i  56.4393 x 2 i y i  ŷ i 
2

1365.50 2285.70 12.66 1328.6907 1354.92


1465.50 2560.40 14.70 1440.4018 629.92
1539.30 2718.70 15.14 1546.2927 48.90
1728.20 2891.70 12.57 1834.2051 11237.07
1958.70 3205.50 12.38 2104.0646 21130.86
2228.30 3439.60 11.55 2344.2290 13439.52
2539.90 3647.50 10.17 2593.7990 2905.10
2897.60 3877.30 9.31 2832.1057 4289.51
3197.30 4172.80 9.19 3082.9023 13086.84
3501.70 4489.30 10.13 3291.2150 44303.92
3723.40 4791.60 10.05 3545.3695 31694.85
3880.90 4968.50 9.32 3732.6542 21976.81
4011.10 5264.20 8.24 4037.7977 712.77
4185.70 5480.10 7.20 4274.7848 7936.11
4389.70 5753.10 7.49 4483.8608 8866.26
4622.00 6115.10 7.87 4761.3535 19419.39
47234.8 65661.1 167.9
0 0 7 214254776.46 203032.76

Obţinem astfel:
 t0,025;13=2,160;
203032.76
 ESE= =124.97;
13
 x1 =4103.82;
 x2 =10.50;
 x =4686.50;
2
2
1i  n x1

  x  n x =9.47;
2 2
2i 2

 rx2 x =0.82403;
1 2

 s b =0,0635;
1

 sb =31.4543;
2

 B1   0.6885 ;0.9631 ;
 B2    11 .5021;124.3807  .

Interpretări
1. Deoarece intervalul ce îl conţine pe B1 nu îl conţine pe zero, respingem ipoteza nulă.
Aşadar cu o probabilitate de 95% putem afirma că parametrul B1 este diferit de zero.
2. În cazul lui B2 intervalul conţine şi valoarea zero ceea ce înseamnă că nu putem
respinge ipoteza nulă la un nivel de semnificaţie de 5%. Se poate însă verifica faptul
că ipoteza nulă este respinsă cu un nivel de încredere de 90%.

5
Teste de semnificaţie

Test bilateral – B1
1. Formularea ipotezelor
Ho: B1=0;H1: B1≠0.
2. Stabilirea nivelului de semnificaţie =0,05;
3. Calcularea statisticii test
b1 0.8258
t= s =  12.9910 ;
b 0.06351

4. Determinarea valorilor critice  t  (test bilateral)


2 ;( n  3 ) gl

±t/2;(n-3)= ± t0,025;13=±2.160
5. Luarea deciziei
Deoarece valoarea calculată nu se află între valorile critice, ipoteza nulă se
respinge.

Test unilateral – B1
1. Formularea ipotezelor
Ho: B1=0;H1: B1>0.
2. Stabilirea nivelului de semnificaţie =0,05;
3. Calcularea statisticii test
b1 0.8258
t= s =  12.9910 ;
b1 0.0635
4. Determinarea valorilor critice t  ;( n  3 ) gl (test unilateral)
t;(n-3)= t0,05;13=1.771

5. Luarea deciziei
Deoarece valoarea calculată este mai mare decât valoarea critică ipoteza nulă se
respinge.

Test bilateral – B2
1. Formularea ipotezelor
Ho: B2=0; H1: B2≠0.
2. Stabilirea nivelului de semnificaţie =0,10;
3. Calcularea statisticii test
b2  56.4393
t= s =  1.7943 ;
b 31.4543
2

4. Determinarea valorilor critice  t  (test bilateral)


2 ;( n  3 ) gl

±t/2;(n-3)= ± t0,005;13=±1.771
5. Luarea deciziei
Deoarece valoarea calculată nu se află între valorile critice, ipoteza nulă se
respinge.

6
Test unilateral – B2
1. Formularea ipotezelor
Ho: B2=0;H1: B2<0.
2. Stabilirea nivelului de semnificaţie =0,05;
3. Calcularea statisticii test
b2  56.4393
t= s =  1.7943 ;
b 2
31.4543
4. Determinarea valorilor critice - t  ;( n  3 ) gl (test unilateral)
- t;(n-3)= - t0,05;13= - 1.771
5. Luarea deciziei
Deoarece valoarea calculată este mai mică decât valoarea critică ipoteza nulă se
respinge.

Observaţie
După cum s-a observat în cazul intervalelor de încredere şi a testelor bilaterale am lucrat
cu două nivele de semnificaţie şi anume 5% pentru B1, respectiv 10% pentru B2. Este
evident că dacă B1 este semnificativ la un nivel de 5%, atunci el este semnificativ şi la un
nivel de 10%, cazul invers nefiind în general adevărat.

În cazul testelor unilaterale am văzut însă, că modelul este semnificativ la un nivel de


semnificaţie de 5%. De aici rezultă importanţa formulării ipotezelor mai concret
importanţa tipului de test ales (bilateral sau unilateral).

7
3.4.2. Testarea ipotezelor formulate asupra ansamblului parametrilor

Am văzut în paragraful anterior cum verificăm dacă fiecare dintre parametrii modelului
regresional este semnificativ diferit, mai mare sau mai mic decât zero.

În cazul regresiei multiple, pentru a testa semnificaţia modelului regresional, trebuie să


verificăm următoarele ipoteze:

Ho: B1= B2=0;


H1: cel puţin un parametru este diferit de zero.

Etape
1. Formularea ipotezelor:
Ho: B1= B2=0;
H1:B1≠0 sau/şi B2≠0;
2. =0,05;
R2
2
3. Calcularea valorii statisticii test F=
1  R2
n 3
ryx2  ryx2  2 ryx ryx rx x
 R= =0.9947;
1 2 1 2 1 2

1 r 2
x1 x2

 R2=0.9894;
n x 1 y   x 1  y
 ryx  =0.9933;
n x 12    x 1  n y 2    y 
1 2 2

n x 2 y   x 2  y
 ryx  = - 0.9232;
n x 22    x 2  n y 2    y 
2 2 2

n x 1 x 2   x 1  x 2
 rx x  = - 0.9077;
n x 12    x 1  n x 22    x 2 
1 2 2 2

0.9894
 F= 1  02.9894 =608.92;
13

4. Determinarea valorilor critice: F 2 ;n 3  gl  F 2 ; 13  gl =3.80;

8
5. Luarea deciziei:
Deoarece valoarea calculată 608.92 depăşeşte valoarea critică 3,81, ipoteza nulă se
respinge. Aşadar putem afirma, cu o probabilitate de 95%, că modelul regresional
determinat este semnificativ în raport cu ansamblul variabilelor independente implicate.

Observaţie
În cazul general vom avea:
 În raport cu fiecare variabilă:
 Formularea ipotezelor: Ho: Bi=0; H1: Bi≠0, Bi0, Bi 0;
 Stabilirea nivelului de semnificaţie ;
bi
 Calcularea valorii statisticii test: t= unde
s bi
ESE
s bi =
 x 2
i  nx
2
 1  r 2
x1 ... xk ;
  i2 =   y i  ŷ i  .
2

ESE=
nk 1 nk 1
 Determinarea valorilor critice:
 t  2 ;( n  k  1 ) gl , t  ;( n  k  1 ) gl ,  t  ;( n  k  1 ) gl ;
 Luarea deciziei.

 În raport cu ansamblul variabilelor:


 Formularea ipotezelor:
Ho: B1= B2=...= Bk=0;
H1: unul sau mai mulţi coeficienţi sunt diferiţi de zero;
 Stabilirea nivelului de semnificaţie ;
R2
k
 Calcularea valorii statisticii test: F= ;
1  R2
nk 1
F
 Determinarea valorilor critice:  k ;n k  1  gl ;
 Luarea deciziei: dacă valoarea calculată depăşeşte valoarea
critică atunci ipoteza nulă se respinge. În caz contrar aceasta se
acceptă.

9
3.5. Coeficient de corelaţie multiplă. Coeficient de determinaţie

Coeficientul de corelaţie multiplă R se va calcula în funcţie de valorile coeficienţilor de


corelaţie dintre variabila dependentă şi fiecare variabilă independentă, precum şi de
coeficienţii de corelaţie dintre variabilele independente.

În cazul modelului cu trei variabile vom avea:


ryx2  ryx2  2 ryx ryx rx x
R= 1 2 1 2 1 2
.
1 r 2
x1 x2

În cazul exemplului nostru vom avea:

ryx2  ryx2  2 ryx ryx rx x


R= 1 2 1 2 1 2
=0.9947.
1 r 2
x1 x2

Observaţie
Coeficientul de corelaţie multiplă ia valori cuprinse între 0 şi 1. În practică acest
coeficient nu este foarte important.

De o importanţă mult mai mare este coeficientul de determinaţie care, ca şi în cazul


regresiei simple, se calculează ca pătrat al coeficientului de corelaţie.

În cazul exemplului nostru R2=0,98948 ceea ce ne arată că cele două variabile


independente (venitul şi costul ipotecii) influenţează variabila dependentă (datoria
ipotecară) în proporţie de 98,94%.

Observaţie
Este interesant de observat că venitul influenţa datoria ipotecară în proporţie de 98.68%.
Prin adăugarea în model a costului ipotecii această influenţă celor două variabile a
crescut la 98.94%. La fel costul ipotecii influenţează datoria ipotecară în proporţie de
85.23%.

Observaţie
Este demonstrat faptul că adăugarea de noi variabile unui model regresional multiplu
conduce la creşterea sau în cel mai rău caz la menţinerea constantă a valorii coeficientului
de determinaţie. Acest lucru conduce, pe măsura introducerii de noi variabile
independente, la interpretări eronate ale valorii coeficientului de determinaţie. Tocmai
pentru a evita această problemă se calculează un alt coeficient de determinaţie numit
coeficient de determinaţie ajustat care ia în calcul numărul variabilelor independente din
model şi a cărui expresie este:
n1
R  1   1  R2 
2
,
nk 1
unde n este volumul eşantionului asupra căruia se efectuează studiul, iar k este numărul
de variabile independente considerate în model.

10
În cazul exemplului nostru n=16, k=2, astfel că vom avea:

n1 16  1
R  1   1  R2  = 1   1  0.9848 
2
=0.9878.
nk 1 16  2  1

Observaţie
Se observă ca valoarea coeficientul de determinaţie ajustat este mai mică decât cea a
coeficientului de determinaţie. Pe de altă parte dacă n este mare iar k mic atunci cei doi
coeficienţi au aproximativ aceeaşi valoare. De aici reiese importanţa folosirii
coeficientului de determinaţie ajustat în special în cazul în care volumul eşantionului
studiat este mic.

Observaţie
A testa semnificaţia coeficientului de determinaţie se reduce la testarea semnificaţiei
modelului regresional în raport cu ansamblul variabilelor.

3.6. Adăugarea de noi variabile în model


Adesea, în practică, când se încearcă explicarea unui anumit fenomen, cercetătorii
se confruntă cu problema alegerii variabilelor ce vor intra în model. Întrebarea care se
pune este până când se pot introduce aceste variabile?
Întrebarea este cât se poate de naturală deoarece două sunt problemele mari care
pot să apară în cazul regresiei multiple şi anume:
 Introducerea de variabile în exces – problemă a cărei rezolvare o vom prezenta în
acest paragraf;
 Omiterea unor variabile importante - problemă ce este destul de dificil de
rezolvat.

Putem introduce variabile în model atâta timp cât valoarea coeficientului de


determinaţie ajustat creşte. Întrebarea care se pune este în ce condiţii coeficientul de
determinaţie ajustat creşte. Se poate demonstra că valoarea acestuia creşte atâta timp
bi
cât statistica test t= calculată în valoare absolută pentru fiecare coeficient
s bi
corespunzător unei noi variabile introduse în model, este mai mare decât 1.

Se punea problema dacă x2 trebuie introdus în model (B2 nu era semnificativ la 5%).
Cum valoarea absolută a lui t corespunzătoare lui B 2 era 1,7943 > 1, aceasta poate fi
introdusă în model.

11
3.7. Estimări

Vom încerca, exact ca şi în cazul regresiei liniare simple, să folosim modelul pentru
determinarea unui interval de încredere pentru media variabilei explicate corespunzătoare
unor valori fixate ale variabilelor explicative.
Vom determina un interval de încredere pentru datoria ipotecară medie corespunzătoare
unui venit de 6100 USD şi unui cost al ipotecii de 7,5%.

E(YXo)  ŷ o  t  2 ;( n  3 ) gl s  ;

s2 
ESE 2
n
    
 x 10  x 1 sb2  2 x10  x1 x 20  x 2 cov  b1 , b2   x 20  x 2 sb2
2

1
2
  2

ESE 2 rx2 x
cov  b1 , b2   
 x  
1 2

1i x 2 i  n x 1 x 2 1  rx2 x 1 2

 ŷo =4784,7;
 t0,025;13=2,160;
203032.76
 ESE= =124.97;
13
 x1 =4103.82;
 x2 =10.50;
  x1 i x 2 i =649025,76;
 rx2 x =0.82403;
1 2

 cov(b1,b2)=1,81;
 s b =0,0635;
1

 sb =31.4543;
2

 s=143;
 E(YX1=6100, X2=7,5)(4629.1;4910.6).
Aşadar datoria ipotecară medie corespunzătoare unui venit de 6100 USD şi unui cost al
ipotecii de 7,5%, va fi cuprinsă, cu o probabilitate de 95%, între 4629.1 şi 4910.6 USD.

Intervalul de predicţie va avea forma yi  ŷ o  t  2 ;( n  3 ) gl s  , unde de această dată vom


avea:
 1
     
s 2  ESE 2  1    x 10  x 1 sb2  2 x 10  x 1 x 20  x 2 cov b1 , b2   x 20  x 2 sb2
n
2 2


1 2

12

S-ar putea să vă placă și