Sunteți pe pagina 1din 41

UNITATEA DE ÎNVĂȚARE 2

Tema MODELUL REGRESIEI MULTIPLE


Obiectivele 1. Modelul liniar general
2. Estimarea coeficienţilor de regresie
3. Ipotezele şi proprietăţile estimatorilor
4. Analiza varianţei şi calitatea ajustării
5. Exerciţiu – Modelul regresiei liniare multiple
5.1. Analiza grafică a evoluţiei în timp a variabilelor considerate
5.2. Analiza grafică a influenţei variabilelor explicative asupra variabilei
dependente y
5.3. Construirea modelului econometric
6. Teste statistice şi analiza varianţei
6.1. Construirea testelor statistice
6.1.1. Compararea unui parametru ai cu o valoare fixată a
6.2. Execiţiu – Teste asupra coeficienţilor
6.3. Analiza varianţei – testul Fisher de semnificaţie globală a regresiei
6.4. Teste pornind de la analiza varianţei modelului liniar
6.4.1. Introducerea uneia sau mai multor variabile explicative în model
6.4.2. Verificarea stabilităţii în timp a modelului – testul CHOW
6.5. Exerciţiu – Teste pornind de la analiza varianţei
7. Previziuni folosind modelul regresiei multiple
7.1. Exerciţiu – Previziuni folosind modelul regresiei multiple
Finalitatea - 1. Estimarea coeficienţilor modelului de regresie multiplă
Competenţe 2. Obţinerea automată a tabelei de regresie multiplă; conţinutul tabelei
dobândite de regresie multiplă
3. Analiza grafică a corelaţiilor între variabile
4. Realizarea de previziuni cu modelul regresiei multiple
Mijloace
- citire/învăţare

- întrebări, probleme ce apar, explicaţii

- definiţii, explicaţii ce trebuie reţinute

- situaţii economice concrete, supuse analizei, exemple (sub lupă)

- teme de casă, aplicaţii practice pentru studenţi


Evaluarea - parcurgerea aplicaţiilor propuse
Timp de lucru 1. Pentru cunoaşterea problemei: 6 ore
necesar 2. Pentru rezolvarea temelor: 12 ore + timpul de documentare

50
MODELUL REGRESIEI MULTIPLE

În realitate sunt rare fenomenele, care depind de o singură variabilă


explicativă. Regresia multiplă analizează legătura dintre o variabilă explicată y şi mai
multe variabile explicative x1, x2, ..., xk, unde k > 2.

1. Modelul liniar general

Modelul liniar general este o generalizare a regresiei simple, în care apar


mai multe variabile explicative. Pentru serii temporale, t = 1,2, ...n, modelul este:
yt  a0  a1 x1t  a2 x2t  ...  ak xkt   t , unde:
yt = variabila de explicat la timpul t;
x1t = variabila explicativă 1 la timpul t;
x2t = variabila explicativă 2 la timpul t;
...
xkt = variabila explicativă k la timpul t;
a0 , a1 ,..., ak = parametri modelului;

 t = eroarea de specificare, necunoscută (diferenţa dintre modelul adevărat şi


cel specificat);
n = numărul de observări.
Modelul prezentat se poate scrie sub forma unui sistem cu n ecuaţii:
y1  a0  a1 x11  a2 x21  ...  ak xk1   1
y 2  a0  a1 x12  a2 x22  ...  ak xk 2   2
...
yt  a0  a1 x1t  a2 x2t  ...  ak xkt   t
...
y n  a0  a1 x1n  a2 x2n  ...  ak xkn   n
sau sub formă matriceală:
Y  X  a   , de dimensiunile
(n,1)=(n,k+1)(k+1,1)+(n,1)
Prima coloană a matricii X, compusă numai din valorile 1, corespunde
parametrului a 0 , termenul constant al cărui coeficient este 1. Dimensiunea matricii X
este de n linii şi k+1 coloane.

51
 y1  1 x11 x 21 ... x k1   a0   1 
       
 y2  1 x12 x 22 ... x k 2   a1   2 
 ...   ... ... ... ... ...  a   ... 
Y  ; X  ; a   2 ;   .
 yt  1 x1t x 2t ... x kt   ...  t 
 ...   ... ... ... ... ...   ...   ... 
      
y  1 ... x kn  a   
 n  x1n x2n  k  n

2. Estimarea coeficienţilor de regresie

Modelului scris sub formă matriceală Y  X  a   cu n observări şi k


variabile explicative, se aplică metoda celor mai mici pătrate, care costă în
minimizarea sumei S:
n
min   t2  min    min( Y  Xa )( Y  Xa ) 
i 1

 min( Y Y  Y Xa  a X Y  a X Xa )  min( Y Y  2a X Y  a X Xa )  min( S )


Pentru minimizarea sumei S se derivează în raport cu vectorul a şi derivata
S
parţială se egalează cu 0:  2 X Y  2 X Xaˆ  0 ; X Xaˆ  X Y ;
a
aˆ  ( X X ) 1 X Y . (1)
Ecuaţiile X Xaˆ  X Y se numesc ecuaţii normale. Sistemul de ecuaţii
normale scris matriceal este de forma:

 n
 x 1t x 2t ... x   aˆ 0  
     y t 
kt

  x1t x x x x x 1t kt   1    x1t y t 

2
1t 1t 2t ...
 x  aˆ  

  2t x x x x x 
2 t kt  .  2  =  x 2 t y t
2
...
2 t 1t 2t
 
 ... ... ... ... ...   ...   ... 
   ...   
  x kt x x  xkt   aˆ    xkt yt 
2
kt x1t kt x 2t ...
 k 
sau altfel:
naˆ 0  aˆ1  x1t  aˆ 2  x2t  ...  aˆ k  xkt   yt
aˆ 0  x1t  aˆ1  x 2
1t  aˆ 2  x1t x2t  ...  aˆ k  x1t xkt   x1t yt
aˆ 0  x2t  aˆ1  x2t x1t  aˆ 2  x22t  ...  aˆ k  x2t xkt   x2t yt
........................................................................................................................................................
aˆ 0  xkt  aˆ1  xkt x1t  aˆ 2  xkt x2t  ...  aˆ k  xkt2   xkt yt

Modelul estimat poate fi scris astfel: yˆ t  aˆ 0  aˆ1 x1t  aˆ 2 x2t  ...  aˆ k xkt ,

52
iar variabila observată, în funcţie de model: yt  aˆ 0  aˆ1 x1t  aˆ 2 x2t  ...  aˆ k xkt  et .

Estimatorii parametrilor a0 , a1 ,..., ak , modelului populaţiei generale, se obţin


pe baza datelor unui eşantion. Valorile et sunt reziduurile, abateri între valorile
observate ale variabilei de explicat şi valorile sale teoretice, estimate, ajustate. Se
face distinţie între eroarea de specificare  t şi reziduurile et.
Dacă se consideră valorile centrate (faţă de media lor), vectorul a al estimatorilor se
poate scrie:
 aˆ1 
   var( x1 ) cov( x1 , x 2 ) cov( x1 , x3 ) ... cov( x1 , x k )  cov( x1 , y ) 
 aˆ 2    
 aˆ   cov( x 2 , x1 ) var( x 2 ) cov( x 2 , x3 ) ... cov( x 2 , x k )  cov( x 2 , y ) 

   cov( x3 , x1 ) cov( x3 , x 2 )
3
var( x3 ) ... cov( x3 , x k )  cov( x3 , y ) 
 ...    
 ...   ... ... ... ... ...  ... 
   var( x k )  cov( x k , y ) 

 aˆ   cov( x k , x1 ) cov( x k , x 2 ) cov( x k , x3 ) ...
 k

Estimatorul â 0 se obţine prin relaţia: aˆ 0  y  aˆ1 x1  aˆ 2 x2  ...  aˆ k xk


Efectul variaţiei unei singure variabile explicative asupra variaţiei variabilei
explicate y, cunoscând modelul yˆ t  aˆ 0  aˆ1 x1t  aˆ 2 x2t  ...  aˆ k xkt şi noua stare a

variabilei explicative, x2, de exemplu, modificată în ( x2t  x2t ), iar toate celelalte k-

1 variabile rămânând neschimbate, se măsoară prin aˆ 2 x2t , care reprezintă


modificarea în medie a variabilei explicate y.

3. Ipotezele şi proprietăţile estimatorilor

Se formulează următoarele ipoteze de natură stochastică şi structurală, în


legătură cu modelul liniar în variabilele explicative, x1 , x2 ,...., xk :

a) ipoteze stochastice

1. valorile xit, i=1,k sunt observate fără erori,


2. E ( t )  0 , speranţa matematică a erorilor este nulă,

3. E ( t2 )   2 ,varianţa erorilor este constantă pentru orice t=1,n – numită şi


ipoteza de homoscedascticitate,
4. E ( t  t )  0 , dacă t  t  , erorile sunt necorelate (independenţa erorilor),

53
5. cov( xit ,  t )  0 , erorile sunt independente de variabilele explicative, pentru orice
i=1,k;

b) ipoteze structurale

1. absenţa multicoliniarităţii între variabilele explicative, aceasta implică faptul că


matricea ( X X ) este regulată şi există inversa ( X X ) 1 ,
2. ( X X ) / n tinde către o matrice finită nesingulară,
3. n > k+1, numărul de observări trebuie să fie mai mare decât numărul variabilelor
explicative (când n=k+1, atunci sistemul este cu n ecuaţii şi n necunoscute, perfect
determinat).
Estimatorii aˆ 0 , aˆ1 ,..., aˆ k au proprietăţile ca şi estimatorii regresiei simple:
liniari, nedeplasaţi şi eficienţi.
Modelul regresiei multiple se poate scrie în următoarele moduri:
Y  Xa  
Y  Xaˆ  e de unde reziduurile sunt: e  Y  Xaˆ  Y  Yˆ (2)

Yˆ  Xaˆ
Pentru a arăta că estimatorii sunt nedeplasaţi este suficient să se demonstreze
că E (aˆ )  a .
Folosind formula de calcul a estimatorilor (1) şi ecuaţiile unui model liniar
multiplu prezentate se obţine:
â  ( X X ) 1 X Y  ( X X ) 1 X ( Xa   )  ( X X ) 1 X ( Xa )  ( X X ) 1 X 
(3)
 a  ( X X ) 1 X 

atunci: E (aˆ )  a  ( X X ) 1 X E ( )  a ,
pentru că prin ipoteză E ( t )  0 . Estimatorii metodei celor mai mici pătrate sunt

nedeplasaţi pentru că E (aˆ )  a .


Matricea de varianţă-covarianţă a estimatorilor, notată cu  â este utilă
pentru că va conţine varianţele, pe baza cărora se calculează abaterile lor standard,
respectiv covarianţele coeficienţilor de regresie:  aˆ  E[(aˆ  a)(aˆ  a)]

Din ecuaţia (3): aˆ  a  ( X X ) 1 X  şi (aˆ  a)   X ( X X ) 1 , (4)



 
pentru că ( X X ) 1 este simetrică şi ( X X ) 1  ( X X ) 1 .

Din relaţiile (4) rezultă: (aˆ  a)(aˆ  a)  ( X X ) 1 X  X ( X X ) 1 , iar matricea
de varianţă-covarianţă a estimatorilor, devine:

54
 aˆ  E[(aˆ  a)(aˆ  a)]  ( X X ) 1 X E ( ) X ( X X ) 1 .

Matricea E ( ) este matricea de varianţă-covarianţă a erorilor  :

 E ( 1 1 ) E ( 1 2 ) ... E ( 1 n )    2 0 ... 0 
   
 E ( 2 1 ) E ( 2  2 ) ... E ( 2 n )   0  2 ... 0 
   E ( )      2 I .
... ... ... ...   ... ... ... ...  
  
 E (  ) E (  ) ... E ( n  n )   0 ...  2 
 n 1 n 2 0
Atunci matricea de varianţă-covarianţă a estimatorilor, este:
 aˆ   2 ( X X ) 1 X X ( X X ) 1   2 ( X X ) 1 .
Dispersia erorilor se poate estima nedeplasat prin dispersia reziduurilor:
ee
ˆ e2  .
n  k 1
Se înlocuieşte varianţa erorilor prin estimatorul său şi se obţine o estimaţie a
ˆ ˆ  ˆ 2 ( X X ) 1 .
matricii de varianţă-covarianţă a estimatorilor:  a 

Când numărul observărilor tinde spre +, varianţa reziduurilor tinde spre 0,
se spune că estimatorul â este convergent, de varianţă minimă.

4. Analiza varianţei şi calitatea ajustării

Ecuaţia fundamentală a analizei varianţei este cea a descompunerii varianţei


totale (SST) în suma varianţei explicate de modelul de regresie (SSE) şi varianţa
reziduală (SSR), neexplicată, datorată factorilor întâmplători, neînregistraţi.
n n n

 ( yt  y ) 2   ( yˆ t  y ) 2   ( yt  yˆ t ) 2
t 1 t 1 t 1

SST = SSE + SSR


Calitatea ajustării se apreciază cu indicatorul coeficientul de determinaţie, R2,
care se calculează ca raport între varianţa explicată de model şi varianţa totală a
variabilei dependente y, arătând ponderea varianţei explicate.
Ponderea varianţei neexplicate se măsoară cu indicatorul coeficientul de
nedeterminaţie N2, fiind raportul varianţei reziduale în totalul varianţei variabilei
n n n

 ( yˆ t  y ) 2  ( yt  yˆ t ) 2 e 2
t
dependente y. R 2  t 1
n
 1 N 2  1 t 1
n
 1 n
t 1
.
(y
t 1
t  y) 2
(y
t 1
t  y) 2
(y t 1
t  y) 2

55
5. Exerciţiu – Modelul regresiei liniare multiple

Despre o filială a firmei Coca-Cola, din România, se cunosc date


referitoare la:
- marfa livrată lunar, măsurată în unităţi fizice exprimate în număr de pet-uri de 2l
(în cazul livrării în alt ambalaj, se transformă în echivalent-pet de 2l);
- consumul mediu lunar de combustibil, exprimat în €, necesar livrării produselor;
- valoarea daune/pierderi materiale lunare, măsurată în €;
- pondere mărfii returnate, măsurat ca procent din total marfă livrată lunar (maxim
2%);
- capacitatea de încărcare auto, se referă la capacitatea de utilizare eficientă a
parcului auto, se măsoară în număr de unităţi fizice (pet-uri 2l) încărcate într-un
camion.
- fondul mediu net de salarii, al personalului din departamentul „Distribuţie”
măsurat în €. Variaţia salariilor este mai mare în perioadele în care consumul este
mare, şi necesitatea unei distribuţii mai rapide a produselor, conduce la apelarea la
colaboratori externi. În perioadele de consum redus şi mediu, indicatorul reprezintă
retribuţiile personalului de bază.
- Indicele Preţurilor de Consum (IPC), faţă de aceeaşi lună din anului anterior, în %.
Datele colectate sunt prezentate în Tabelul 2.1.
Se cere să se construiască un model econometric pentru analiza şi previziunea
distribuţiei lunare de băuturi răcoritoare. Variabilele semnificative explică evoluţia şi
variaţia mărfii livrate.
Analiza influenţei factorilor începe prin analiza grafică a evoluţiei
variabilelor şi a corelaţiilor dintre fiecare variabilă factorială şi variabila explicată, y,
marfa livrată lunar.
Consumul mediu lunar de combustibil - x1, valoarea daunelor lunare - x2,
pondere marfa returnată - x3, capacitatea de încărcare auto - x4, salariile nete medii
ale personalului - x5, şi Indicele Preţurilor de Consum (IPC) – x6, reprezintă
variabilele explicative.

56
Luna total consum pierderi retur capacit. fond IPC
distrib. comb. materiale mf. încarc. salarii (%)
(nr. pet) (€) (€) (%) (nr. pet) (€)
yt x1 x2 x3 x4 x5 x6
Nov-99 131.750 1.523 124 1,510 530 1.887 153.7
Dec-99 225.245 2.525 236 1,532 550 1.965 154.8
Ian-00 76.316 1.114 124 1,480 400 1.942 156.8
Feb-00 104.875 1.369 147 1,500 400 1.958 155.7
Mar-00 159.366 1.945 165 1,580 420 1.913 149
Apr-00 160.124 1.865 167 1,600 430 1.877 148.9
Mai-00 168.745 1.647 172 1,630 480 1.876 144
Iun-00 240.814 2.444 258 1,650 500 1.925 140.9
Iul-00 213.702 2.268 240 1,640 490 1.899 144.5
Aug-00 207.965 2.097 225 1,635 470 1.881 145.4
Sep-00 181.546 1.952 182 1,580 450 1.905 144.9
Oct-00 117.786 1.464 123 1,490 430 1.911 142.9
Nov-01 133.079 1.884 178 1,510 560 2.021 141.3
Dec-01 226.416 2.927 245 1,536 580 2.120 140.7
Ian-01 78.116 1.580 110 1,485 450 1.932 139.9
Feb-01 106.994 1.884 117 1,487 450 2.025 140
Mar-01 161.203 2.355 185 1,530 470 2.030 140.3
Apr-01 164.045 2.208 206 1,550 480 2.050 137.5
Mai-01 170.614 1.999 217 1,620 520 2.057 137.4
Iun-01 243.398 2.630 260 1,640 550 2.070 135.7
Iul-01 214.011 2.325 233 1,638 550 2.012 131.8
Aug-01 208.844 2.545 206 1,636 510 2.043 132.4
Sep-01 183.939 2.355 183 1,580 490 2.050 131.2
Oct-01 118.968 1.884 165 1,550 480 2.069 130.8
Tabelul 2.1. Indicatorii observaţi în perioada nov.99-dec.01, la firma Coca Cola

5.1. Analiza grafică a evoluţiei în timp a variabilelor considerate

În graficul din Figura 2.1 se prezintă evoluţia în timp a livrărilor


lunare de marfă, exprimată în unităţi fizice. Se observă o sezonalitate lunară, deşi
datele sunt complete numai pe doi ani. Pe grafic se identifică anul de afaceri al firmei
Coca Cola care începe din noiembrie şi se termină în octombrie, fiind doi ani
compleţi şi două luni din anul următor. Consumul de Coca-Cola pe parcusul unui an,
are două valori maxime in lunile decembrie şi iunie, fapt explicat prin începutul
sărbătorilor de iarnă şi începutul sezonului cald. Valori mai scăzute sunt în linile
ianuarie şi octombrie. Din ianuarie începe un trend crescător până în iunie, apoi
descresător în iulie, august, septembrie şi octombrie. Cei doi ani au evoluţii
asemănătoare, conducând la concluzia existenţei unei sezonalităţi lunare.

57
Evoluţia livrărilor de marfă în perioada
noiembrie 1999-decembrie 2001
300000

250000

numar pet 2l
200000

150000

100000

50000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
luni

Figura 2.1. Evoluţia băuturilor răcoritoate livrate

Evoluţia cheltuielilor cu combustibilul


3500

3000

2500
euro €

2000

1500

1000
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01

luna

Figura 2.2. Evoluţia cheltuielilor lunare cu combustibilul

În Figura 2.2 se poate vedea evoluţia consumul mediu lunar de combustibil,


variabila x1. Valoarea consumului de combustibil utilizat pentru distribuţia
produselor are o evoluţie asemănătoare cu cantitatea mărfurilor livrate: în lunile
ianuarie se înregistrează valorile cele mai mici, urmată de luna octombrie, iar valorile
cele mai mari, în lunile decembrie, urmate apoi de lunile iunie, pe un trend anual
uşor ascendent.

58
În Figura 2.3 se prezintă evoluţia cronologică a a valorii daunelor lunare –
variabila x2.

Evoluţia valorii pierderilor lunare


280

260

240

220

200
euro

180

160

140

120

100
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna

Figura 2.3. Evoluţia lunară a pierderilor şi daunelor

Evoluţia lunară a pierderilor este foarte asemănătoare cu evoluţia cantităţii de


marfă vândută lunar, înregistrându-se valori mai mari în lunile în care volumul
desfacerilor este mai mare (decembrie şi iunie) şi valori mai mici în lunile în care se
distribuie mai puţină marfă, (ianuarie şi octombrie). Valoarea daunelor şi pierderilor
este proporţională cu volumul mărfii.

Evoluţia lunară a ponderii mărfii returnate


1.70

1.65

1.60
%

1.55

1.50

1.45
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01

luna

Figura 2.4. Ponderea mărfii returnate lunar, în totalul livrărilor

59
În Figura 2.4, graficul evoluţiei ponderilor lunare a mărfii returnate în total
livrări lunare -variabila x3, arată o evoluţie asemănătoare cu cea a livrărilor fizice de
marfă, dar se observă o pondere mai mare a returnărilor în lunile de vară, pentru că în
sezonul cald produsele se deteriorează mai rapid decât în cel rece.
Graficul din Figura 2.5 arată evoluţia capacităţii lunare de încărcare auto -
variabila x4.

Evoluţia capacităţii lunare de transport


600

550
număr peturi 2l

500

450

400

350
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna

Figura 2.5. Evoluţia lunară a capacităţii de transport

Evoluţia cheltuielilor lunare cu salariile


2150

2100

2050
euro

2000

1950

1900

1850
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01

luna

Figura 2.6. Evoluţia salariilor medii lunare ale personalului angajat şi colaboratori

60
Ca şi celelalte variabile şi capacitatea lunară de transport are o evoluţie
asemănătoare cu cea a volumului mărfii livrate, fiind mai mare în lunile decembrie şi
iunie. Se observă valori mai mari în lunile noiembrie decât în iunie, vârful din
sezonul cald.

Evoluţia indicilor preţurilor de consum


160

155
% faţă de aceeaşi luna

150

145

140

135

130

125
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna

Figura 2.7. Evoluţia IPC faţă de aceeaşi lună a anului anterior

În Figura 2.6 se prezintă evoluţia cheltuielilor cu salariile medii lunare ale


personalului angajat şi colaboratori externi. Variaţiile mai mari în al doilea an de
afaceri, în lunile noiembrie şi decembrie, situate pe un trend crescător al salariilor, se
explică prin apelarea la serviciile unor colaboratori externi.
Evoluţia IPC prezentată în Figura 2.7 este descrescătoare şi considerarea
acestei variabile se explică prin faptul că rata inflaţiei poate influenţa
comportamentul de cumpărare al consumatorilor de băuturi răcoritoare.

5.2. Analiza grafică a influenţei variabilelor explicative asupra


variabilei dependente y

Analizând graficul din Figura 2.8 se poate vedea corelaţia directă,


pozitivă, şi de formă liniară, dintre variabila dependentă şi cheltuielile cu
combustibilil, x1.
Graficul din Figura 2.9 arată ca există legătură între variabila dependentă şi
valoarea daunelor şi pierderilor, x2 şi anume o corelaţie directă şi de formă liniară,
evidentă

61
Volumul mărfii livrate şi che ltuie lile cu combustibilul
300000

250000

marfa livrată (nr. pet.) 200000

150000

100000

50000
1000 1500 2000 2500 3000 3500
x1, valoare combustibil (euro)

Figura 2.8. Corelaţia dintre volumul mărfii livrate şi cheltuielile cu combustibilul

Corelaţia dintre marfa livrată şi valoarea pierderilor şi daunelor


300000

250000
marfa livrată (nr. pet.)

200000

150000

100000

50000
100 120 140 160 180 200 220 240 260 280

x2, pierderi şi daune (euro)

Figura 2.9. Corelaţia dintre marfa livrată şi valoarea daunelor şi pierderilor

În Figura 2.10, corelaţia dintre volumul produselor livrate şi ponderea


returului în totalul lunar al livrărilor, x2, indică o legătură de tip liniar şi directă.
Norul de puncte mai dispersat din Figura 2.10 indică o corelaţie mai slabă decât în
cazul variabilelor x1 şi x2.

62
Corelaţie ditre marfa livrată şi ponderea mărfii returnate
300000

250000

marfa livrată (nr. pet.)


200000

150000

100000

50000
1.45 1.50 1.55 1.60 1.65 1.70

x3, retur marfă (pondere %)

Figura 2.10. Corelaţia dintre volumul mărfii livrate şi ponderea livrărilor returnate
lunar
Graficul din Figure 2.11. indică o legătură de aceeaşi natură directă, ca şi în
cazul variabilelor x1, x2 şi x3, adică pe măsură ce creşte volumul vânzărilor, creşte şi
capacitatea lunară, dar nu pe măsura necesităţilor, astfel încât norul de puncte
dispersat va indica o legătură de intensitate mai slabă. Forma legăturii poate fi
considerată liniară.

Corelaţie ditre marfa livrată şi capacitatea de transport


300000

250000
marfa livrată (nr. pet.)

200000

150000

100000

50000
350 400 450 500 550 600
x4, capacitate de transport (nr. pet)

Figura 2.11. Corelaţia dintre marfa vândută şi capacitatea lunară


de încărcare auto

63
Corelaţie ditre marfa livrată şi fondul lunar de salarii
300000

250000

marfa livrată (nr. pet.) 200000

150000

100000

50000
1850 1900 1950 2000 2050 2100 2150
x5, fondul de salarii (euro)

Figura 2.12. Corelaţia dintre volumul lunar al mărfii livrate şi


fondul lunar de salarii

În Figura 2.12, corelaţia dintre marfa lunar livrată şi fondul lunar de salarii
pentru personalul propriu şi colaboratori, este de slabă intensitate. Norul de puncte
este aproape paralel cu axa Ox, conducând fie la concluzia lipsei legăturii dintre
fondul de salarii şi volumul mărfii livrate, fie la existenţa unei legături de intensitate
slabă, mai degrabă de sens invers.

Corelaţia dintre marfa livrată şi indicii preţurilor de consum


300000

250000
marfa livrată (nr. pet.)

200000

150000

100000

50000
130 135 140 145 150 155 160
x6, IPC lunar (%)

Figura 2.13. Corelaţia dintre marfa livrată şi indicii preţurilor de consum

64
Graficul din Figura 2.13 este singurul care indică o legătură inversă între
marfa vândută şi indicii preţurilor de consum, însemnând că livrările de băuturi
răcoritoare scad atunci când cresc indicii preţurilor de consum. Totuşi intensitatea
legăturii va fi slabă pentru că norul de puncte este destul de dispersat. Forma legăturii
poate fi considerată ca fiind liniară.

5.3. Construirea modelului econometric

Pentru exemplificarea construirii modelului econometric sub formă


matriceală se începe cu modelul de regresie a variabilei y şi toate variabilele xi,
i=1,6. Modelul: yˆ t  aˆ 0  aˆ1 x1t  aˆ 2 x2t  aˆ 3 x3t  aˆ 4 x4t  aˆ 5 x5t  aˆ 6 x6t se scrie

matriceal: Y  X  aˆ  e , cu vectorii Y , e şi matricea X, în continuare:


1 1523 124 1.510 530 1887 153.7  e1 
131.750    
  1 2525 236 1.532 550 1965 154.8  e2 
 225.245 1 1114 124 1.480 400 1942 156.8 e 
 76.316     3
  1 1369 147 1.500 400 1958 155.7  . 
104.875 1   . 
159.366 1945 165 1.580 420 1913 149
   
  1 1865 167 1.600 430 1877 148.9  . 
160.124    
  1 1647 172 1.630 480 1876 144   . 
168.745 1 2444 258 1.650 500 1925 140.9  . 
 240.814    
  1 2268 240 1.640 490 1899 144.5  . 
 213.702 1 2097 225 1.635 470 1881 145.4  . 
 207.965    
  1 1952 182 1.580 450 1905 144.9  . 
 181.546 1 1464 123 1.490 430 1911 142.9  . 
117.786    
y   1 1884 178 1.510 560 2021 141.3  . 
133.079 X  1  e 
   2927 245 1.536 580 2120 140.7  . 
 226.416 1 1580 110 1.485 450 1932 139.9  . 
 78.116     
  1 1884 117 1.487 450 2025 140   . 
106.994 1 2355 185 1.530 470 2030 140.3  . 
161.203    
  1 2208 206 1.550 480 2050 137.5  . 
164.045 1 1999 217 1.620 520 2057 137.4  . 
170.614    
  1 2630 260 1.640 550 2070 135.7  . 
 243.398    
  1 2325 233 1.638 550 2012 131.8  . 
 214.011 1 2545 206 1.636 510 2043 132.4  e 22 
 208.844    
  1 2355 183 1.580 490 2050 131.2  e 23 
183.939 1 1884 165 1.550 480 2069 130.8  e 24 
118.968    
  1 1884 178 1.510 560 2021 130.7  e 25 
1  e 
 2927 245 1.536 580 2120 130.3  26 

65
Vectorul â al estimatorilor parametrilor are dimensiunile: 7 linii şi o coloană (7, 1):
 aˆ 0 
 
 aˆ1 
 aˆ 
 2
aˆ   aˆ 3 
 aˆ 
 4
 aˆ 5 
 
 aˆ 6 
Dimensiunile masivelor sunt: Y  X  â  e
(26, 1) = (26, 7) x (7, 1) + (26, 1)
Se formează masivele astfel prezentate şi se parcurg pe rând următorii paşi:
1. matricea transpusă X  ,
2. matricea produs X X ,
3. inversa matricii produs  X X  ,
1

4. matricea produs dintre  X X  şi X 


1

5. vectorul produs al estimatorilor â , între  X X  X  şi vectorul Y.


1

Descrierea operaţiunilor la fiecare pas este prezentată în continuare:


1. Transpusa matricii X, se obţine prin comanda Copy a blocului de celule ce
formează matricea X, şi într-o celulă liberă, se alege comanda Paste Special din
meniul Edit cu opţiunea Transpose. Matricea X  va fi de dimensiunile (7 linii,
26 coloane).
2. Pentru a obţine produsul matricilor X X , se ştie că X  are dimensiunea (7,26),
iar X, (26,7), iar matricea produs va fi de dimensiunea (7,7). Se selectează un
bloc de celule libere format din 7 linii şi 7 coloane, apoi cu blocul, unde se va
depune rezultatul, astfel selectat, se apelează funcţia MMULT(array_1, array_2)
pentru înmulţirea a două matrici sau vectori şi se declară pe rând: la array_1,
matricea X  , iar la array_2, matricea X. Ordinea declarării masivelor este foarte
importantă pentru înmulţirea lor. Pentru a obţine rezultatul – matricea produs - se
apasă simultan pe trei taste <Ctrl/ Shift/ Enter>, eliberându-se întâi tasta Enter şi
apoi celelalte două.
3. Inversa matricii produs se obţine selectând întâi un bloc de celule libere de 7 linii
şi 7 coloane, unde se va primi rezultatul operaţiei, apoi se apelează funcţia
MINVERSE(array) şi se declară la array, blocul matricii X X de inversat. Se

66
apasă simultan pe cele trei taste <Ctrl/ Shift/ Enter> şi se obţine instantaneu
matricea inversă.
4. Pentru a realiza matricea produs  X X  X  trebuie să se cunoască dimensiunea
1

sa, pentru a putea selecta înainte de apelul funcţiei MMULT, blocul de celule
libere, care va primi rezultatul. Se ştie că matricea  X X 
1
este de dimensiune
(7,7), iar matricea X  de (7,26), iar matricea produs va fi de dimensiunea (7,26).
Se selectează un bloc de 7 linii şi 26 de coloane, se apelează funcţia de înmulţire
şi se declară la array_1, matricea  X X 1 , iar la array_2, matricea X  . La
apăsarea tastelor <Ctrl/ Shift/ Enter> se obţine rezultatul dorit.
5. Pentru a obţine vectorul estimatorilor se înmulţesc matricile  X X 1 X  de
dimensiune (7,26) cu vectorul Y de dimensiune (26,1) şi se obţine â de
dimensiunea (7,1). Se selectează 7 celule libere pe o coloană şi 7 linii, se
apelează funcţia MMULT şi se declară în ordine matricele de înmulţit, se apasă
<Ctrl/ Shift/ Enter> şi se obţine vectorul estimatorilor:
 - 278825.8 
 
 65.7 
 305.9 
 
â   217262.8 
 103.2 

 - 123.4 
 
 760.8 

Pentru a determina intervalele de încredere ale estimatorilor şi pentru a putea


aprecia calitatea lor şi apoi a ajustării, este necesar să se calculeze dispersia
ee
reziduurilor ˆ e2  şi matricea de varianţă-covarianţă a estimatorilor:
n  k 1
ˆ ˆ  ˆ 2 ( X X ) 1 .
 a 

Se determină reziduurile ca diferenţă între valorile observate şi valorile


teoretice obţinute cu modelul
yˆ t  278825.8  65.7 x1t  305.9 x2t  217262.8x3t  103.2 x4t  123.4 x5t  760.8x6t .

Deoarece modelul este estimat pentru prima dată este de aşteptat să nu fie
corespunzător, chiar de la început. Dispersia reziduurilor este prea mare 93960182.
Înmulţirea unei constante, dispersia reziduurilor, cu matricea ( X X ) 1 se realizează
înmulţind constanta cu toate celulele matricii. Se scrie formula pentru elementul

67
matricii de pe poziţia (1,1) şi se blochează cu simbolul $, coloana şi linia adesei unde
se află ˆ e2 , apoi se copiază formula pentru toate celulele matricii rezultate. Pe
diagonala principală se află varianţele estimatorilor, iar abaterile acestora se obţin
extrăgând radicalul de ordinul 2. Se obţin urmăroarele abateri ale estimatorilor:
aˆ i
Pentru fiecare estimator se calculează raţia Student t aˆi  , care se
ˆ aˆi

compară cu o valoare critică a testului Student pentru un prag de semnificaţie =5%


 / 20.025
şi 26-6-1=19 grade de libertate, care este t19 grd.lib. = ± 2.093. Astfel se verifică dacă

estimatorii sunt semnificativ diferiţi de 0, ipoteza alternativă H1. În caz contrar,


ipoteza nulă, H0, variabilele semnificative corespunzătoare nu influenţează
semnificativ variabila dependentă y, pentru că estimatorii respectivi pot lua şi
valoarea 0.
 227794.3   - 1.224 
   
 9.8   6.674 
 124.5   2.457 
   
ˆ â   69723.8  t    3.116 
 57.4   1.796 
  
 49   - 2.515 
   
 425.1  1.789 
Se observă pe Figura 2.14, cum se interpretează raţiile Student calculate faţă
de valorile teoretice ale testului bilateral.

H0
H1 1- H1
 
2 2

- t1-/2 0 + t1-/2
-2.093 +2.093
Figura 2.14. Testarea raţiilor Student ale estimatorilor

Se ajunge la concluzia că estimatorii aˆ 0 , aˆ 4 şi aˆ 6 , nu sunt semnificativ diferiţi

de 0 pentru că t aˆ4  2.093 şi se va renunţa la variabilele x4 şi x6 . Toţi ceilalţi

68
estimatori sunt semnificativi diferiţi de 0, ipoteza alternativă, H1, pentru că
t aˆ4  2.093 .

Pentru a verifica aceste calcule se poate utiliza tabela de regresie furnizată de


Excel. Declararea variabilelor independente necesită existenţa unui bloc care să
cuprindă toate cele şase variabile explicative dispuse pe verticală în coloane
adiacente.
Tabela de regresie este prezentată în Tabelul 2.2.
Informaţia Standard Error din prima parte a tabelei de regresie este abaterea
reziduurilor ˆ e , care ridicată la puterea a 2-a rezultă, dispersia erorilor ˆ e2 , fiind o
n

e 2
t
verificare a valorii obţinute prin formula ˆ e2  t 1
.
n  k 1
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9855
R Square 0.9712
Adj. R Sq. 0.9622
Std Error 9693.3
Observations 26
ANOVA df SS MS F Signific.F
Regression 6 6.028E+10 1.005E+10 106.931 1.31E-13
Residual 19 1.785E+10 93960182
Total 25 6.207E+11
Coeff. Std. Error t Stat P-value Low95% Upp95%
Intercept -278826 227794.29 -1.2240 0.2359 -755605 197953
X Variable 1 65.7 9.849 6.6741 0.0000 45.12 86.35
X Variable 2 305.9 124.501 2.4568 0.0238 45.29 566.46
X Variable 3 217262.8 69723.82 3.1160 0.0057 71329 363196
X Variable 4 103.2 57.436 1.7964 0.0884 -17.04 223.39
X Variable 5 -123.4 49.043 -2.5154 0.0210 -226.01 -20.71
X Variable 6 760.8 425.110 1.7896 0.0895 -129.01 1650.52
Tabelul 2.2. Tabela de regresie a modelului econometric iniţial cu şase variabile
factoriale
Se observă că valoarea coeficientului de determinaţie 0.9712 este apropiată
de 1, arătând că modelul liniar este valid explicând într-o proporţie de 97.12%
variaţia variabilei dependente y de variabilele explicative. Coeficientul de corelaţie
multiplă 0.9855 arată o corelaţie puternică între variabilele explicative şi cea
explicată. Valoarea testului Fisher indică o regresie global semnificativă,
Significance F, fiind foarte mică.

69
În partea a treia a tabelei de regresie, se regăsesc estimatorii obţinuţi prin
calcul matriceal, abaterile lor şi raţiile Student identice cu valorile calculate mai sus.
Valorile P-value, indică pragul de semnificaţie , de la care începând estimatorii se
pot considera semnificativ diferiţi de 0. Probabilitatea ca estimatorii să fie
semnificativi este de 1-. Se poate vedea că pentru â 0 ,  este de 23.6%, pentru â1 ,

 este 0%, pentru â 2 - este 2.38%, pentru â 3 - este de 0.057%, pentru â 4 - de

8.84%, pentru â 5 - de 2.1% şi pentru â 6 - de 8.95%. Deoarece pragul  este de

obicei de 5%, se va renunţa la variabilele x4 şi x6 , ale căror estimatori depăşesc

această valoare a pragului de semnificaţie. Intervalele de încredere pentru =5%, ale


acestor estimatori schimbă semnul de la „-” al limitei inferioare Lower 95% la „+” la
limita superioară Upper 95%, fiind cea mai evidentă dovadă a faptului că respectivii
estimatori pot lua şi valoarea 0.
Cu toate că informaţiile despre calitatea ajustării, arată un model foarte bun,
totuşi trebuie să se ţină seama de semnificaţia estimatorilor. O altă variantă de model
va fi cea prin care se elimină variabilele x4 şi x6 , care reprezentau capacitatea de
încărcare auto pentru transportul produselor şi indicii preţurilor de consum, calculaţi
faţă de aceeaşi lună a anului anterior.
Noul model va fi: yˆ t  aˆ 0  aˆ1 x1t  aˆ 2 x2t  aˆ 3 x3t  aˆ 5 x5t . După obţinerea
tabelei de regresie, Tabelul 2.3, se obţine modelul:
yˆ t  93975.35  63.79 x1t  464.42 x2t  122802.3x3t  170.03x5t .
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9818
R Square 0.9639
Adj. R Sq 0.9570
Std. Error 10334
Observations 26
ANOVA df SS MS F Signif. F
Regression 4 5.98E+10 1.5E+10 140.05 8.0E-15
Residual 21 2.24E+09 1.07E+08
Total 25 6.21E+10
Coeff. Std Error t Stat P-value Low 95% Up95%
Intercept 93975.3 126814 0.741 0.4668 -169749 357699
X Variable 1 63.79 10.232 6.234 0.000 42.509 85.065
X Variable 2 464.42 108.204 4.292 0.000 239.402 689.446
X Variable 3 122802 56579.3 2.170 0.042 5139 240465
X Var. 4 (x5) -170.03 38.296 -4.440 0.000 -249.671 -90.388
Tabelul 2.3. Tabela de regresie pentru modelul cu patru variabile explicative

70
Deşi indicatorii calităţii ajustării au valori puţin mai mici decât în modelul
anterior, totuşi nu s-a pierdut mult din calitatea ajustării: coeficientul de corelaţie
multiplă este 0.9818 indică o corelaţie puternică între variabilele explicative şi y,
coeficientul de determinaţie de 0.9639 arată validitatea modelului liniar, iar regresia
este global semnificativă, după testul Fisher din tabelul ANOVA. S-au câştigat, în
schimb, valori semnificative pentru toţi ceilalţi estimatori, care sunt semnificativ
diferiţi de 0, după cum indică raţiile Student, în comparaţie cu valoarea critică
 / 20.025
t 21grd.lib.  2.080 . Gradele de libertate sunt n-k-1, adică 26-4-1=21, unde k=4.

Termenului constant, â 0 , care arată nivelul mediu al variabilei dependente


dacă toţi factorii, înafara celor înregistraţi, ar avea o acţiune constantă, nu este totuşi
semnificativ diferit de 0, după cum indică valoarea prea mică a raţiei Student, P-
value prea mare, de 46.68% şi intervalul de încredere care conţine valoarea 0.
O analiză mai amănunţită a sezonalităţii, a corelaţiilor dintre variabilele
explicative, a autocorelaţiei erorilor, va îndrepta acest neajuns. Se poate totuşi în
această fază, să se renunţe la termenul liber, iar modelul
obţinut: yˆ t  62.14 x1t  434.89 x2t  159285.3x3t  146.89 x5t , va avea toţi estimatorii
parametrilor variabilelor explicative semnificativi, cu o probabilitate de aproape
100%, deşi se micşoreză încă puţin indicatorii calităţii ajustării: R=0.9812,
R 2  0.9629 . Valorile teoretice corespunzătoare valorilor observate sunt
reprezentate în Figura 2.15.

Evoluţia livrărilor de marfă şi ajustarea lor


300000

250000

200000
nr. peturi

150000

100000

50000
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01

y yt luni

Figura 2.15. Ajustarea folosind modelul liniar fără constantă

71
Regresia este global semnificativă, dar până nu se parcurg şi etapele unei
analize mai amănunţite, nu se poate stabili care este cel mai bun model. Modelul
final, trebuie să respecte ipotezele modelului general de regresie liniară: lipsa
autocorelaţiei erorilor, variabilele explicative, cât mai puţin autocorelate între ele.

6. Teste statistice şi analiza varianţei

Testarea semnificaţiei individuale a coeficienţilor parţiali de regresie,


aˆ 0 , aˆ1 ,..., aˆ k folosind testul t Student diferă de testarea semnificaţiei globale a
regresiei multiple, prin care se acceptă sau se infirmă ipoteza nulă H0: R2=0, pe baza
testului Fisher, F. Dacă folosind testul t se găseşte unul sau mai mulţi coeficienţi
parţiali de regresie, ca fiind în mod individual nesemnificativi, nu înseamnă că se
poate accepta ipoteza că toţi coeficienţii sunt de asemenea nesemnificativi (Tabelul
2.2. şi Tabelul 2.3).

6.1. Construirea testelor statistice

Testele statistice se referă la contribuţia uneia sau mai multor variabile


explicative la regresia multiplă, testarea egalităţii statistice a unui ansamblu de
coeficienţi cu un ansamblu de valori fixate, restricţiile asupra estimatorilor
coeficienţilor şi testarea validităţii lor, folosirea testului F pe baza analizei varianţei
pentru analiza unor ipoteze asupra regresiei multiple.

6.1.1. Compararea unui parametru ai cu o valoare fixată a

Contribuţia marginală a fiecărei variabile explicative la formarea


variabilei y este valoarea coeficientului fiecăreia dintre ele. De exemplu, în modelul
liniar cu patru variabile explicative, din exemplul anterior:
yˆ t  62.14 x1t  434.89 x2t  159285.3x3t  146.89 x5t , se poate spune că lunar
creşterea cu 1 euro a consumului mediu de combustibil conduce la creşterea livrărilor
lunare, în medie, cu aproximativ 62 de peturi, creşterea cu 1 euro a valorii daunelor
şi pierderilor lunare determină o creştere a livrărilor, în medie, de 435 de peturi,
creşterea cu un procent a mărfii returnate, poate influenţa creşterea livrărilor, în

72
medie, cu 159285 de peturi, iar creşterea cu 1 euro a fondului mediu net de salarii ale
personalului distribuitor generează o scădere a livrărilor lunare, în medie, cu 147 de
peturi. Se observă legătura inversă între livrările fizice şi fondul de salarii, care pe
graficul din Figura 2.12, nu se putea sesiza.

Pentru a compara un parametru cu o valoare fixată a, testul de ipoteze este:


H0: ai = a
H1: ai ≠ a .
Pe baza datelor din eşantionul extras se calculează raportul critic, care
aˆ i  a
urmează o lege Student, şi este de forma: t ai  . Se compară această raţie
ˆ aˆi

Student calculată, cu o valoare teoretică numită critică, pentru un prag de


semnificaţie =5% şi n-k-1 grade de libertate. Pentru că testul este bilateral se alege
valoarea teoretică Student pentru un prag de semnificaţie /2.

Dacă t ai  t n/k21 , se respinge ipoteza nulă H0; se acceptă ipoteza alternativă

H1, ai este semnificativ diferit de valoarea a, la un prag de semnificaţie , adică o


probabilitate de 1-.

Dacă t ai  t n/k21 , se acceptă ipoteza nulă H0; ai nu este semnificativ diferit de

valoarea a, la un prag de semnificaţie .


Un caz particular este când valoarea a=0 şi atunci raportul critic devine raţia
aˆ i
Student calculată a estimatorului respectiv, t ai  .
ˆ aˆi

Se verifică semnificaţia faţă de zero a coeficientului, care înseamnă


verificarea semnificaţiei variabilei explicative, care apare în model, pentru a şti dacă
aceasta contribuie în mod real la explicarea variabilei endogene y.

6.2. Execiţiu – Teste asupra coeficienţilor

Despre o firmă, se cunosc datele referitoare la vânzările de marfă, y,


exprimate în mii euro, pe o perioadă de 14 luni, numărul de angajaţi (persoane), x1,
cheltuielile de întreţinere a utilajelor, exprimate în euro, x2, şi cheltuielile de
publicitate pentru promovarea produselor, exprimate în euro, x3. Datele sunt
prezentate în Tabelul 2.4:

73
t y x1 x2 x3 yt1 yt2
1 17 3 42 115 18 18
2 19 2 40 126 17 17
3 15 4 40 148 18 19
4 21 7 44 139 19 20
5 19 8 39 123 23 22
6 24 9 38 150 23 23
7 26 9 29 126 27 26
8 24 6 30 141 24 24
9 26 6 38 122 22 21
10 21 9 35 157 24 24
11 24 5 29 155 23 23
12 26 10 28 166 27 27
13 30 13 32 168 28 28
14 26 8 26 174 26 26
Tabelul 2.4. Datele referitoare la un agent economic

Sunt semnificative variabilele exogene în explicarea variaţiei variabilei


endogene? Să se argumenteze şi prin calculul intervalelor de încredere ale
estimatorilor coeficienţilor.

Soluţie:

În Figurile 2.16, 2.17, şi 2.18 sunt prezentate corelaţiile dintre variabila


dependentă, stabilită ca fiind vânzările de marfă, influenţată de celelalte variabile,
considerate factori.

Corelaţia dintre valoarea vânzărilor şi numărul de


angajaţi
35

30

25
mil. euro

20

15

10
0 2 4 6 8 10 12 14
x1 (nr. persoane)

Figura 2.16. Legătura directă dintre valoarea vânzărilor şi numărul de angajaţi

74
Corelaţia dintre valoarea vânzărilor şi cheltuielile de
întreţinere a utilajelor
35

30

mil. euro 25

20

15

10
25 30 35 40 45
x2 (euro)

Figura 2.17. Legătura inversă: valoarea vânzărilor şi cheltuielile cu utilajele

Corelaţia dintre valoarea vânzărilor şi cheltuielile de


publicitate
35

30

25
mil. euro

20

15

10
100 110 120 130 140 150 160 170 180
x3 (euro)

Figura 2.18. Legătura directă dintre valoarea vânzărilor şi cheltuielile de publicitate

Se observă în cele trei grafice, legăturile de natură directă, ale valorii


vânzărilor cu numărul de angajaţi şi cheltuielile de publicitate şi de sens invers cu
cheltuielile de întreţinere a utilajelor. Cu cât sunt mai mari aceste cheltuieli de
întreţinere, cu atât se reduc vânzările din cauza stagnărilor în producţie pentru
repararea utilajelor, creşterii costurilor de fabricaţie şi implicit a preţurilor de vânzare
a produselor, reducerii altor cheltuieli, cum ar fi cele de aprovizionare cu materii
prime şi materiale, salariile personalului angajat, etc.

75
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.8383
R Square 0.7027
Adj. R Square 0.6135
Std. Error 2.5971
Observations 14
ANOVA df SS MS F Signif. F
Regression 3 159.4095 53.136 7.87 0.005
Residual 10 67.4477 6.745
Total 13 226.857
Coeff. Std Err t Stat P-value Lower 95% Upper 95%
Intercept 35.722 10.994 3.249 0.0087 11.226 60.219
X Variable 1 0.802 0.298 2.687 0.0228 0.137 1.467
X Variable 2 -0.3814 0.156 -2.435 0.0351 -0.730 -0.032
X Variable 3 -0.037 0.052 -0.714 0.492 -0.153 0.078
Tabelul 2.5. Tabela de regresie a modelului cu trei variabile explicative

Tabela de regresie este prezentată în Tabelul 2.5. În urma analizei de regresie,


se aşteaptă un coeficient negativ pentru variabila explicativă a cheltuielilor de
întreţinere a utilajelor, x2 şi coeficienţi pozitivi pentru celelalte două variabile
independente x1 şi x3. Modelul este:
yˆ t  35.72  0.802 x1  0.381x2  0.037 x3 ,
iar valorile teoretice, yt1, se află în Tabelul 2.4 şi pe acelaşi grafic care arată evoluţia
în timp a valorilor observate, în Figura 2.19.

Evoluţia vânzărilor
35

30

25
mil. euro

20

15

10
1 2 3 4 5 6 7 8 9 10 11 12 13 14
y yt1 yt2 luni

Figura 2.19. Evoluţia vânzărilor şi ajustarea lor

76
aˆ i
Raţia Student pentru fiecare coeficient de regresie, calculată după formula t ai  ,
ˆ aˆi

se compară cu valoarea teoretică Student pentru =5% şi 10 grade de libertate,


 / 20.025
t10 grd.lib.  2.228 .

• t aˆ1  2.687  2.228 , rezultă că aˆ1  0 , variabila x1 contribuie la explicarea

variaţiei variabilei y;
• t aˆ2  2.435  2.228 , rezultă că aˆ 2  0 , variabila x2 contribuie la explicarea

variaţiei variabilei y;
• t aˆ3  0.714  2.228 , rezultă că aˆ 3  0 , variabila x3 nu contribuie la

explicarea variaţiei variabilei y, şi poate fi retrasă din model.


Se poate vedea în tabela de regresie din Tabelul 2.5 că P-value pentru
estimatorul â 3 , indică un prag de semnificaţie de 49%, care este mult prea mare.
Intervalul de încredere al coeficientului ai se stabileşte în funcţie de valoarea
estimatorului, estimaţia abaterii sale şi valoarea teoretică Student pentru un prag de
semnificaţie ales, de obicei =5%:
ICai  [aˆ i  ˆ aˆi t grd/ 2.lib. ; aˆ i  ˆ aˆi t grd/ 2.lib. .

Intervalele de încredere pentru cei trei estimatori ai coeficienţilor variabilelor


explicative sunt:
• ICa1 : 0.137 ; 1.467 , semnul „+” indică legătura directă dintre y şi x1;
• ICa2 :  0.730 ;  0.032 , semnul „-” indică legătura inversă dintre y şi x2 (Figura
2.17);
• ICa3 :  0.153 ; 0.079, se schimbă semnul de la „-” la „+”, â 3 poate lua valoarea
0, nu este semnificativ diferit de 0. Numai variabilele x1 şi x2 sunt variabile
exogene semnificative.
Pentru noul model cu două variabile explicative, se obţine tabela de regresie
prezentată în Tabelul 2.6. Valorile teoretice calculate cu acest model:
yˆ t  29.143  0.715x  0.328x2
se afă în Tabelul 2.4 şi în Figura 2.19.

77
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.8292
R Square 0.6875
Adj. R Sq. 0.6307
Std Error 2.538
Observations 14
ANOVA df SS MS F Signif. F
Regression 2 155.97 77.99 12.10 0.0016
Residual 11 70.88 6.44
Total 13 226.86
Coeff. Std. Error t Stat P-value Low 95% Upp 95%
Intercept 29.143 5.85 4.976 0.0004 16.25 42.03
X Variable 1 0.715 0.26 2.685 0.0212 0.13 1.30
X Variable 2 -0.32811 0.134561 -2.4384 0.03292 -0.6243 -0.0319
Tabelul 2.6. Tabela de regresie a modelului cu două variabile explicative

Se poate observa că acest model are coeficienţii semnificativ diferiţi de 0,


după cum indică raţiile Student calculate, care sunt mai mari decât valoarea teoretică
din tabela Student, valorile P-value, care sunt mai mici decât 5%, precum şi
intervalele de încredere ale coeficienţilor, care nu schimbă semnul de la limita
inferioară la cea superioară, deci nu conţin valoarea 0.
Intervalele de încredere sunt:
ICa0 : 16.25 ; 42.03 , ICa1 : 0.129 ; 1.301 , ICa2 :  0.624 ;  0.032 .
Coeficientul de determinaţie de 68.7% indică validitatea modelului liniar, iar
coeficientul de corelaţie multiplă de 0.83 indică o corelaţie puternică între cele trei
variabile y, x1 şi x2.
6.3. Analiza varianţei – testul Fisher

Tabelul de analiză a varianţei, ANOVA este de forma celui din Tabelul 2.7:

Natura variaţiei, Sumă de Grd.lib (Modified Testul Fisher F


datorată: pătrate (Sum df Sums) MS
Squares) SS
Regresiei (variabilelor n k SSE/k SSE / k
explicative) SSE=  ( yˆt  y )2
t 1
F
SSR /( n  k  1)
Reziduurilor (varianţa n n-k-1 SSR/(n-k-1)
neexplicată) SSR= (y
t 1
t  yˆ t ) 2

Totală (toţi factorii) n n-1 -


SST= (y
t 1
t  y)2

Tabelul 2.7. Tabelul ANOVA la regresia multiplă

78
Testul de semnificaţie globală a regresiei se formulează astfel: există cel puţin
o variabilă explicativă semnificativă?
Ipotezele sunt:
H0: a1 = a2 = ... = ak = 0 (toţi coeficienţii sunt nuli, nici o variabilă
explicativă nu îşi aduce contribuţia la explicarea variabilei y; termenul constant a0 nu
prezintă interes, deoarece un model în care numai termenul constant este
semnificativ, nu are sens economic.)
H1: exista cel puţin un coeficient nenul.
În cazul în care se acceptă H0 înseamnă că nu există nici o relaţie liniară
semnificativă între variabila y şi variabilele xi cu i=1,2, ..., k. Testarea H0 este
echivalentă cu a testa dacă varianţa SSE este semnificativ diferită de 0.
În cazul exerciţiului prezentat, tabelul de analiza varianţei pentru modelul cu
două variabile explicative, după eliminarea variabilei nesemnificative x3, este extras
din Tabelul 2.6, în Tabelul 2.8:
Natura df SS MS F Significance F
variaţiei
Regression 2 155.9733 77.98663 12.10223 0.001665
Residual 11 70.88389 6.44399
Total 13 226.8571
Tabelul 2.8. Tabelul ANOVA pentru modelul cu două variabile explicative

Ipoteza de normalitate a erorilor implică, sub ipoteza H0, că statistica F*


SSE / k
urmează o lege Fisher cu k şi n-k-1 grade de libertate. F *   12.10
SSR /( n  k  1)
se compară cu o valoare teoretică Fisher cu 2 şi 11 grade de libertate, care pentru un
prag de semnificaţie =5% este Fk,n5k%1  3.98. Cum F*  Fteoretic  se acceptă

ipoteza alternativă, H1, deci regresia este global semnificativă, modelul este bine
construit. Valoarea calculată F* corespunde unui prag de semnificaţie de 0.16%,
mult mai mic decât 5%.
Şi regresia prezentată în Tabelul 2.5, cu trei variabile explicative, este global
semnificativă pentru că F3,105%  3.71 , iar valoarea calculată F*=7.87>3.71, pentru

un prag de semnificaţie de 0.54%.


Numai când modelul are termen constant, F* se poate scrie în funcţie de
SSE
coeficientul de determinaţie R2. Din relaţia: R 2  , se poate exprima:
SST

79
SSE  SST  R 2 , iar SSR se poate exprima în funcţie de coeficientul de
SSR
nedeterminaţie: N 2  1  R 2  , SSR  SST  (1  R 2 ) .
SST
Înlocuind în formula statisticii F*, valorile astfel exprimate SSE şi SSR, se
R2 / k
simplifică cu SST şi rămâne astfel: F *  .
(1  R 2 ) /( n  k  1)
Pe lângă testul global de semnificaţie, se efectuează testele de semnificaţie
individuală a coeficienţilor pentru fiecare variabilă explicativă din model.
Calitatea ajustării se determină în funcţie de coeficientul de determinaţie:
SSE
R2  . Dacă R 2  1 înseamnă că varianţa totală SST, este aproape în întregime
SST
explicată de SSE, şi modelul este bine ales. Coeficientul de determinaţie multiplă:

R  R 2 , arată intensitatea corelaţiei simultane a variabilelor explicative asupra


variabilei dependente y.

6.4. Teste pornind de la analiza varianţei modelului liniar

Pe baza analizei varianţei se disting patru teste des utilizate: verificarea


semnificaţiei introducerii uneia sau mai multor variabile explicative în model,
verificarea stabilităţii în timp a modelului, folosind testul Chow, testarea restricţiilor
asupra coeficienţilor, semnificaţia creşterii volumului eşantionului pentru estimarea
modelului.
6.4.1. Introducerea uneia sau mai multor variabile explicative în
model

Adăugarea unor variabile explicative în model îmbunătăţeşte semnificativ


calitatea ajustării? Există oare o diferenţă semnificativă între varianţa explicată, SSE,
de modelul complet şi cea explicată, SSE1, de modelul cu mai puţine variabile
independente? Testul de ipoteze este:

 H 0 : SSE  SSE  0
1

 .

 H 1 : SSE  SSE  0
1

80
( SSE  SSE 1) /( k  k 1 )
Se calculează: F *  şi se compară cu Fkk1 ,nk 1 , unde k este
SSR /( n  k  1)
numărul de variabile explicative, inclusiv cele adăugate din modelul cel mai
cuprinzător, iar k’ este numărul iniţial de variabile explicative, k’<k.
Regula de decizie este:
- F *  Fkk ,nk 1 se acceptă H0, nu este nici o diferenţă între cele două modele şi

introducerea variabilelor suplimentare nu îmbunătăţeşte calitatea ajustării;


- F *  Fkk ,nk 1 se acceptă H1, introducerea variabilei sau variabilelor suplimentare

a contribuit la o mai bună explicare a varianţei variabilei endogene.

6.4.2. Verificarea stabilităţii în timp a modelului – testul CHOW

Problema este dacă modelul se poate considera ca fiind stabil pe întreaga


perioadă sau este mai bine să se considere două subperioade distincte de estimare?
Specificarea modelului este aceeaşi, dar valorile coeficienţilor pot fi diferite.
Verificarea stabilităţii coeficienţilor constă în a testa dacă există o diferenţă
semnificativă între varianţa neexplicată SSR pe ansamblul perioadei şi suma
varianţelor neexplicate pe cele două subperioade SSR1 + SSR2? Dacă răspunsul este
negativ, înseamnă că divizarea pe subperioade nu îmbunătăţeşte calitatea modelului,
modelul iniţial este stabil pe întreaga perioadă. În caz contrar se declară modelul ca
fiind instabil şi este mai bine să se estimeze pe subperioade.
Testul de ipoteze este:

H 0 : SSR  ( SSR  SSR )  0
1 2



H 1 : SSR  ( SSR  SSR )  0
1 2

Se calculează valoarea Fisher, considerând n1, numărul de observări în prima


subperioadă şi n2, numărul de observări în a doua subperioadă, iar suma lor
n1  n2  n , este numărul total de observări din modelul iniţial:

[ SSR  ( SSR1  SSR 2 )] /[( n  k  1)  (n1  k  1)  (n2  k  1)]


F*  
( SSR1  SSR 2 ) /[( n1  k  1)  (n2  k  1)]
[ SSR  ( SSR1  SSR 2 )] /( k  1)

( SSR1  SSR 2 ) /[ n  2(k  1)]
Regula de decizie:

81
- F *  Fk1,n2( k 1) se acceptă H0, nu este nici o diferenţă între varianţa reziduurilor

calculată pe întreaga perioadă şi suma varianţelor reziduurilor calculate pe


subperioade; coeficienţii sunt stabili pe întreaga perioadă;
- F *  Fk1,n2( k 1) se acceptă H1, există diferenţe semnificative între varianţa

reziduurilor pe întreaga perioadă şi suma varianţelor reziduurilor pe subperioade;


coeficienţii nu sunt constanţi; modelul este instabil.

6.5. Exerciţiu – Teste pornind de la analiza varianţei

Reluînd datele din aplicaţia anterioară, referitoare la modelul cu trei


variabile explicative: yˆ t  35.72  0.802 x1  0.381x2  0.037 x3
(10.99) (0.298) (0.156) (0.052)
( ·) abaterea standard a coeficienţilor, n=14, R2=0.7027.
Să se testeze următoarele ipoteze:
a) Adăugarea variabilelor explicative x2 şi x3 ameliorează semnificativ calitatea
ajustării faţă de estimarea numai în raport de variabila x1? Dar adăugarea numai a
variabilei x2?
b) Se poate considera modelul cu trei variabile, ca fiind stabil pe ansamblul
perioadei sau trebuie să se procedeze la estimarea pe subperioade: de la perioada
1 la 7 şi de la 7 la 14?

Soluţie:

a) Introducerea a două variabile explicative suplimentare


Se execută următoarele operaţiuni:
1. Calculul varianţei totale, a celei explicate şi a celei reziduale pentru modelul
complet cu trei variabile explicative. Aceste valori se găsesc în tabela de regresie
din Tabelul 2.5: SSE=159.409
SSR= 67.448
SST=226.857
2. Calculul varianţei totale, a celei explicate şi a celei reziduale pentru modelul cu o
singură variabilă explicativă, x1. Aceste valori se găsesc în tabela de regresie din
Tabelul 2.9: SSE=117.659
SSR=109.198
SST=226.857

82
SST este evident aceeaşi, indiferent de numărul variabilelor explicative, pentru că
măsoară variaţia datorată tuturor factorilor (înregistraţi şi reziduali).
Se observă că R2=0.5186 este mai mic decât în cazul modelului iniţial, cu trei
variabile explicative.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.7202
R Square 0.5186
Adjusted R 0.4785
Square
Standard 3.0166
Error
Observations 14
ANOVA df SS MS F Signifi. F
Regression 1117.6589 117.6589 12.92975 0.0036
Residual 12109.1983 9.099855
Total 13226.8571
Coeff. Standard t Stat P-value Lower Upper
Error 95% 95%
Intercept 15.559 2.147 7.247 1.02E-05 10.882 20.237
X Variable 1 1.0118 0.281 3.596 0.003674 0.399 1.625
Tabelul 2.9. Tabele de regresie a modelului cu o singură variabilă explicativă

3. Testul statistic asupra ipotezelor: H0: SSE-SSE1=0


H1: SSE-SSE1≠ 0
Valoarea calculată Fisher este:
( SSE  SSE 1) /( k  k 1 ) (159.409  117.659) /(3  1)
F*    3.09
SSR /( n  k  1) 67.448 /(14  3  1)

Fkk1 ,nk 1  F31,514%31  F2,105%  4.10

Cum 3.09 < 4.10, rezultă că se acceptă ipoteza nulă H0, adăugarea
variabilelor x2 şi x3 nu este importantă. Introducerea acestor variabile nu contribuie
semnificativ la îmbunătăţirea calităţii ajustării. S-a discutat deja mai sus, şi se poate
vedea în tabela de regresie din Tabelul 2.5, că variabila x3, nu este semnificativă,
deoarece raţia sa Student este mai mică decât valoarea teoretică, fapt care a condus
apoi la excluderea sa din model.
Este interesant să se analizeze, dacă introducerea unei singure variabile
suplimentare, şi anume x2, îmbunătăţeşte calitatea ajustării.
Se vor parcurge aceeaşi paşi, ca cei prezentaţi mai sus:
- calculul varianţei totale, a celei explicate şi a celei reziduale pentru modelul cu
două variabile explicative, x1 şi x2:

83
SSE=155.973
SSR= 70.884
SST=226.857
- calculul varianţei totale, a celei explicate şi a celei reziduale pentru modelul cu o
singură variabilă explicativă, x1. Tabela de regresie este în Tabelul 2.9.
SSE=117.659
SSR=109.198
SST=226.857
Valoarea calculată Fisher este:
( SSE  SSE 1) /( k  k 1 ) (155.973  117.659) /( 2  1)
F*    5.946
SSR /( n  k  1) 70.884 /(14  2  1)

Fkk1 ,nk 1  F21,514%21  F1,115%  4.84

Cum 5.946 > 4.84, rezultă că se respinge ipoteza nulă H0, şi se acceptă
ipoteza alternativă, H1, conform căreia adăugarea variabilei x2 aduce o modificare
semnificativă a varianţei explicate. Introducerea variabilei x2 contribuie semnificativ
la îmbunătăţirea calităţii ajustării. Acest fapt este dovedit şi de valoarea
coeficientului de determinaţie, care în cazul modelului cu două variabile explicative
este R2=0.6875 mai mare decât în modelul cu o singură variabilă explicativă, x1,
R2=0.5186.
b) Testul Chow pentru verificarea stabilităţii în timp a modelului
Se va testa stabilitatea modelului cu trei variabile explicative.
Pasul 1: se estimează coeficienţii modelului pentru prima subperioadă, de la 1 la 7.
Tabela de regresie obţinută este prezentată în Tabelul 2.10.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.8322 subperioada 1
R Square 0.6926
Adj. R Sq. 0.3851
Std. Error 3.0176
Observations 7
ANOVA df SS MS F Significance F
Regression 3 61.5396 20.5132 2.2527 0.2610
Residual 3 27.3176 9.1059
Total 6 88.8571
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 28.5471 15.8986 1.7956 0.1704 -22.0494 79.1436
X Variable 1 0.7739 0.5290 1.4629 0.2397 -0.9097 2.4575
X Variable 2 -0.2932 0.3137 -0.9346 0.4189 -1.2914 0.7051
X Variable 3 -0.0125 0.1008 -0.1240 0.9091 -0.3333 0.3083
Tabelul 2.10. Tabela de regresie pentru prima subperioadă de la 1 la 7

84
Se observă în Tabelul 2.10, că nici unul din coeficienţii de regresie nu este
semnificativ diferit de 0, valorile P-value sunt mai mari decât pragul acceptat de
0.05, toate intervalele de încredere ale estimatorilor coeficienţilor schimbă semnul de
la – la +, deci conţin valoarea 0.
Nici testul Fisher nu indică o regresie global semnificativă, Significance F
având o valoare mult prea mare, 26.1% faţă de 5%, cât se acceptă în mod obişnuit.
Varianţele din tabelul ANOVA sunt:
SSE1=61.54
SSR1=27.32
SST2=88.86
Pasul 2: se estimează coeficienţii modelului pentru a doua subperioadă, de la 8 la 14;
tabela de regresie se află în Tabelul 2.11.

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.7375 subperioada 2
R Square 0.5439
Adjusted R Square 0.0877
Standard Error 2.6282
Observations 7
ANOVA df SS MS F Significance F
Regression 3 24.7067 8.2356 1.1923 0.44423
Residual 3 20.7219 6.9073
Total 6 45.4286
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 63.1390 34.3309 1.8391 0.1632 -46.1175 172.3955
X Variable 1 1.2282 0.6852 1.7924 0.1710 -0.9525 3.4089
X Variable 2 -0.6208 0.5224 -1.188 0.3201 -2.2832 1.0416
X Variable 3 -0.1843 0.1528 -1.206 0.3142 -0.6707 0.3020
Tabelul 2.11. Tabela de regresie pentru a doua subperioadă de la 8 la 14

Concluzia este asemănătoare cu cea de la prima subperioadă: că nici unul din


coeficienţii de regresie nu este semnificativ, intervalele de încredere ale estimatorilor
coeficienţilor conţin valoarea 0, testul Fisher nu indică o regresie global
semnificativă. Varianţele din tabelul ANOVA, corespunzător celei de a 2-a
subperioade, sunt:
SSE2=24.71
SSR2=20.72
SST2=45.43
Pasul 3: se calculează valoarea Fisher:

85
[ SSR  ( SSR1  SSR 2 )] /( k  1)
F*  .
( SSR1  SSR 2 ) /[ n  2(k  1)]

[67.448  (27.32  20.72)] /(3  1) (67.448  48.04) / 4


F*    0.606
(27.32  20.72) /[14  2(3  1)] 48.04 / 6
Valoarea teoretică Fisher cu care se compară este:
Fk1,n2( k 1)  F31,514%2(31)  F4,65%  4.53 .

Cum 0.606 < 4.53, rezultă că se acceptă ipoteza nulă, H0, adică nu există
diferenţe semnificative între varianţa reziduurilor pe întreaga perioadă şi suma
varianţelor reziduale pe cele două subperioade.
Se poate accepta stabilitatea coeficienţilor pe întreaga perioadă.

7. Previziuni folosind modelul regresiei multiple

Procedura de estimare a valorilor viitoare ale variabilei dependente, y, este


similară cu cea utilizată la regresia simplă. Se cunosc valorile viitoare ale variabilelor
explicative şi în funcţie de acestea se stabilesc previziunile punctuale, după care, cu o
anumită probabilitate se estimează intervalele de încredere ale acestor valori viitoare.
Pentru perioada de la 1 la n, cu t=1,n, modelul este:
yˆ t  aˆ 0  aˆ1 x1,t  aˆ 2 x2,t  ...  aˆ k xk ,t .

Previziunea pentru unitatea de timp t+h, unde h este orizontul de previziune,


sau i+h, dacă datele sunt observate în mod instantaneu este:
yˆ t h  aˆ 0  aˆ1 x1,t h  aˆ 2 x2,t h  ...  aˆ k xk ,t  h .

Eroarea de previziune este: et h  yt  h  yˆ t h .

Conform ipotezelor modelului liniar general, previziunea yˆ t  h este


nedeplasată şi se obţine prin aplicarea directă a modelului de regresie estimat. Se
calculează varianţa erorii de previziune, care permite determinarea unui interval de
încredere pentru previziune. Această varianţă se calculează astfel:
 e2   2 [ X th ( X X ) 1 X t h  1]
t h

Cunoscând vectorul X t  h , care conţine valorile viitoare ale variabilelor

explicative, se doreşte obţinerea vectorului valorilor previzionate Yˆt  h .

86
 1 
 
 x1,t  h 
X t h   x 2 ,t  h 
 
 ... 
x 
 k ,t  h 
Eroarea de previziune et  h urmează o lege normală de medie 0 şi varianţă

 e2 , N(0,  e2 ). Înlocuind varianţa erorilor  2 cu varianţa estimată, cea a


t h t h

yt  h  yˆ t  h
reziduurilor ˆ 2 , se deduce că raportul:
ˆ  [ X t h ( X X ) 1 X t  h  1]
2

urmează o lege Student cu n-k-1 grade de libertate, unde k este numărul variabilelor
explicative din model. Intervalul de încredere pentru un prag de semnificaţie de ,

este: ICyt  h  yˆ t  h  t n/k21  2 [ X t h ( X X ) 1 X t  h  1] .

7.1. Exerciţiu – Previziuni folosind modelul regresiei multiple

Pentru exerciţiul anterior, prezentat în paragraful 2.6.2. se alege


modelul cu două variabile explicative, după ce s-a eliminat variabila x3, care a fost
identificată ca fiind nesemnificativă. Tabela de regresie a acestui model
yˆ t  29.143  0.715x1,t  0.328x2,t se găseşte în Tabelul 2.6.

Ştiind că valorile variabilelor x1 şi x2 pentru următoarele două luni, 15 şi 16


sunt: x1,15=3 şi x1,16=6, respectiv x2,15=24 şi x2,16=38, să se calculeze previziunea şi
intervalul său de încredere de 95%, pentru lunile 15 şi 16.

Soluţie:

Pentru o probabilitate de 95%, valoarea teoretică Student este:


t n/k21  t14 21  t10
0.025 0.025
 2.201 .
Tabela de regresie din Tabelul 2.6 arată că estimatorii coeficienţilor sunt toţi
semnificativi diferiţi de 0. Previziunile pentru lunile 15 şi 16 se obţin direct prin
înlocuirea în model a valorilor variabilelor explicative.
Varianţele reziduurilor sunt:
ˆ e2  ˆ 2 [ X 15
15
 ( X X ) 1 X 15  1] şi ˆ e2  ˆ 2 [ X 16
16
 ( X X ) 1 X 16  1] .

Cei doi vectori ai variabilelor explicative sunt:

87
1 1
   
X 15  3 , X 16   6 .
 24   38 
   
Se calculează ( X X ) 1 , fără a se considera şi valorile viitoare pentru lunile 15 şi 16,
ci numai numărul de observări ale celor două variabile explicative care intră în
estimarea modelului:
 14 99 490 
 
X X   99 815 3361  ;
 490 3361 17600 
 

 5.3223 - 0.1668 - 0.1163 


 
( X X ) 1
  - 0.1668 0.0110 0.0025  .
 - 0.1163 0.0025 0.0028 
 

  5.3223 - 0.1668 - 0.1163  1  


    
ˆ e2 15
 2.5385 2 1 3 24 - 0.1668 0.0110 0.0025  3   1  11.738 ;
  - 0.1163 0.0025 0.0028  24  
   
ˆ e  3.426 .
15

  5.3223 - 0.1668 - 0.1163  1  


    
ˆ 2
e16  2.5385 1 6 38 - 0.1668 0.0110 0.0025  6   1  7.043 ;
2

  - 0.1163 0.0025 0.0028  38  


   
ˆ e  2.654 .
16

Valorile punctuale ale variabilei dependente sunt:


yˆ15  29.143  0.715  3  0.328  24  23.41

yˆ16  29.143  0.715  6  0.328  38  20.96 .


Intervalele de încredere ale previziunilor sunt:
ICy15 : yˆ15  t11
0.025
ˆ e15  23.41  2.201  3.426 , ICy15  [15.87 ; 30.95] ;

ICy16 : yˆ16  t11


0.025
ˆ e16  20.96  2.201  2.654 , ICy16  [15.12 ; 26.80] .

88
Evoluţia vânzărilor, ajustarea si previziunea lor
35

30

mil. euro
25

20

15

10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
y yt lim.inf. lim.sup. luni

Figura 2.20. Evoluţia valorii vânzărilor, ajustarea şi previziunea lor

În Figura 2.20 sunt prezentate valorile teoretice care ajustează seria iniţială şi
previziunile pentru urmăroarele două perioade, precum şi intervalul de încredere care
la cuprinde.
Pentru a putea reprezenta limitele inferioară şi superioară se crează două serii
de date identice cu cea ajustată şi se completează cu limitele inferioare, respectiv
superioare, ale celor două intervale de încredere.
Se are în vedere reprezentarea cu acelaşi tip de marcator ale celor trei serii:
ajustată, a limitelor inferioare şi a limitelor superioare ale intervalelor de încredere,
acestea două din urmă suprapunându-se peste valorile ajustate, până în luna a 14-a.

89
Rezumat
Aceast capitol prezintă modelul regresiei multiple, ipotezele de lucru,
estimarea coeficienţilor modelului, intervalele lor de încredere, testarea semnificaţiei
estimatorilor modelului, testarea semnificaţiei globale a regresiei, construirea de teste
pentru verificarea validităţii modelului şi a stabilităţii sale, previziunea cu modelul
regresiei multiple.
Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului.

Termeni importanţi
Model de regresie multiplă, estimatorii modelului de regresie multiplă,
ipotezele modelului de regresie multiplă, testul F de verificare a semnificaţiei globale
a regresiei, ANOVA, testul Chow

Întrebări recapitulative
1. Enumeraţi ipotezele modelului de regresie multiplă
2. Scrieţi modelul de regresie pe baza unei tabelei de regresie multiplă.
3. În ce constă testul Chow?
4. Cum stabiliţi daca estimatorii modelului sunt semnificativ diferiţi de zero?
5. Reprezentaţi tabelul de analiză a varianţei ANOVA si testul F pentru regresia
multiplă.
6. Cum se construiesc intervalele de încredere ale estimatorilor? Dar ale
valorilor previzionate?
7. Cum apreciaţi validitatea unui model de regresie multiplă?

Teme de casă
Parcurgeţi exemplele din curs utilizând calculatorul; realizaţi graficele şi tabela
de regresie.
Sa se stabilească matriceal estimatorii modelului de regresie multiplă.

90

S-ar putea să vă placă și