Sunteți pe pagina 1din 16

REGRESIA MULTIPLĂ

 Luni, 13 martie 2023

1
Regresie multipla
Coeficienti de
regresie
Variabila eroare

y = 0 + 1x1+ 2x2 + …+ kxk + 

Variabila
Variabile Independente
Dependenta

2
Forma generală a modelului

Modelul regresiei multiple se prezintă sub forma


ecuaţiei:
yi =  1x1i +  2 x2i + … + kxki + i.

În cazul acestei ecuaţii de regresie se identifică urmãtoarele


variabilele:
– grupul de variabile exogene sau independente, ce se
reprezintă sub forma variabilei vectoriale X = (X1, X2, …, Xk ).

Pentru fiecare moment/ caz, ce va fi simbolizat prin


indicele t, vom avea seria de valori x1t, x2t, …, xkt; pentru fiecare
variabilă ansamblul datele înregistrate pentru n momente vor fi
reprezentate prin vectorul coloană xi cu i=1,…k.
3
Forma generală matriceală a modelului

 x11  x1k   
 y1   k 
 1   
  1
x2  x2    1 
Y   , X  ,   ,   
    
y   
 n  
k   n   
 k 
1
 xn  xn 

Y = X + 

4
Estimarea parametrilor prin MCMMP
Minimizăm suma pătratelor erorilor de ajustare:
S ( ˆ )   ei2   ( yi  ˆ1 x1i  ˆ2 x2 i  ...  ˆk xki ) 2 
i i
( y
i
i
ˆ ' x )2 .
 i

Vom folosi scrierea matriceală:


 e1 
 
n e
S ( ˆ )  e 2
 (e1 e2 ... en )   2   e 'e
.
i 1
i
 
 
 en 

Minimizarea S se realizează în raport cu parametrii modelului de regresie ̂ . Astfel,


vom avea:
[min] S ( ˆ )  e ' e  (Y  X ˆ ) '(Y  X ˆ )  Y ' Y  2ˆ ' X ' Y  ˆ ' X ' X ˆ .
ˆ

În dezvoltarea ultimei expresii s-a luat în considerare faptul că ˆ ' X ' Y este un scalar
real.

5
Estimarea parametrilor prin MCMMP
Derivînd în raport cu ̂ avem:
S (ˆ ) [Y 'Y  2ˆ ' X 'Y  ˆ ' X ' X ˆ ] [ˆ ' X ' X ˆ ]
  2 X 'Y   2 X 'Y  2 X ' X ˆ  0 .
ˆ ˆ ˆ
Din ipoteza V matricea X’X este nesingulară, deci estimatorul vectorului parametrilor
modelului de regresie multiplă este:

ˆ  ( X ' X )1 X 'Y .


Cum
S ( ˆ )  2 ˆ
S()
 2 X ' Y  2 X ' X ˆ atunci ˆ ˆ  2X' X .
ˆ  '

Ultima expresie este pozitiv definită, deci soluţia ̂ este optimă.

*Pentru mai multe detalii vezi Green, Econometric Analysis, Cap.2 şi 6.


6
Interpretarea parametrilor
Pentru a interpreta semnificaţia parametrilor modelului de regresie considerăm
modelul:
yi  ˆ1x1i  ˆ2 x2i  ...  ˆk xki .
Atunci, dacă x2, … xk sunt constante se obţine următoarea egalitate:
y i  ˆ1 x1i ,
Rezolvând ecuaţia de mai sus se obţine că estimatorul parametrului 1 este rata
marginală de substituţie a variabilei endogene în raport cu variabila exogenă X 1:
ˆ y i
1  .
x1i
Coeficientul ̂ 1 arată cu câte unităţi creşte sau se micşorează
caracteristica Y, dacă caracteristica X1 se modifică cu x1i unităţi,
în condiţiile în care celelalte caracteristici
X2, …, Xp rămân constante.

În cazul în care variabilele endogene sunt necorelate, atunci


semnul coeficientului fiecărei variabile din modelul multiplu de
regresie coincide cu semnul coeficientului din modelul simplu de
regresie de analiză al variabilei endogene funcţie de fiecare
variabilă exogenă în parte. 7
Exemplu: Stabilirea locatiei unui hotel (1)

 O companie hotelieră doreşte construirea


unui nou hotel.
 Managementul doreşte să stabilească locaţia
probabil cea mai profitabilă.
 Profitabilitatea unei locatii depinde de factori
cum sunt:
 Competiţia
 Cunoaşterea pieţei

 Generatori de cerere

 Elemente de demografie

 Calitatea elementelor fizice din zonă 8


Exemplu (2)
Marja
Profitabilitatea

Cunoaşterea
Competiţia Clienţii Comunitatea Elemente fizice
pieţei

Camere Apropiere Spaţii Gară, Venitul Dist. Oraş


de birouri aeroport etc.
Numarul de Venitul
Distanta pana Distanţa până în centru
hoteluri/ moteluri/ median al
la cel mai apropiat gospodariilor
pensiuni/ camere
hotel
pe o rază de 5 km

9
Exemplu (3)
 Se folosesc date pentru un esantion de
100 hoteluri care apartin aceluiaşi lanţ, si
se foloseste urmatorul model :
Marja =Camere
ApropiereBirouriG/Aerop. + 5Venit 
+ 6Dist_oraş+
Hotel
Hotel Marja
Marja Camere Apropiere
Camere Apropiere Birouri
Birouri G/Aerop.
G/Aerop. Venit
Venit Dist_oras
Dist_oras
11 55,5
55,5 3203
3203 0,1
0,1 549
549 88 37
37 12,1
12,1
22 33,8
33,8 2810
2810 1,5
1,5 496
496 17,5
17,5 39
39 0,4
0,4
33 49
49 2890
2890 1,9
1,9 254
254 20
20 39
39 12,2
12,2
44 31,9
31,9 3422
3422 11 434
434 15,5
15,5 36
36 2,7
2,7
55 57,4
57,4 2687
2687 3,4
3,4 678
678 15,5
15,5 32
32 7,9
7,9
66 49
49 3759
3759 1,4
1,4 635
635 19
19 41
41 44

10
Exemplu (4)

Regression Statistics
Multiple R 0,724611
R Square 0,525062
Adjusted R Square
0,49442 Marja = 72.455 - 0.008*Camere -1.646*Apropiere
Standard Error
5,512084 + 0.02*Birouri +0.212*G/Aerop
Observations 100
- 0.413*Venit + 0.225*Dist_oraş
ANOVA
df SS MS F Significance F
Regression 6 3123,832 520,6387 17,13581 3,03E-13
Residual 93 2825,626 30,38307
Total 99 5949,458

Coefficients
Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 72,45461 7,893104 9,179483 1,11E-14 56,78049 88,12874
Camere -0,00762 0,001255 -6,06871 2,77E-08 -0,01011 -0,00513
Apropiere -1,64624 0,632837 -2,60136 0,010803 -2,90292 -0,38955
Birouri 0,019766 0,00341 5,795594 9,24E-08 0,012993 0,026538
G/Aerop. 0,211783 0,133428 1,587246 0,115851 -0,05318 0,476744
Venit -0,41312 0,139552 -2,96034 0,003899 -0,69025 -0,136
Dist_oras 0,225258 0,178709 1,260475 0,210651 -0,12962 0,580138 11
Exemplu (5)
• Utilizarea modelului
 Predictie pentru un hotel cu
urmatoarele caracteristici:
 3815 camere în raza de 5 km,
 Cel mai apropiat competitor la 3.4 km,

 476 sute de metri patrati de birouri,

 24,500 flux gara/ aeroport,

 $39,000 venitul median al gospodăriilor,

 3.6 km distanţă de centrul oraşului.

Marja = 72.455 - 0.008(3815) -1.646(3.4) + 0.02(476)


+0.212(24.5) - 0.413(39) + 0.225(3.6) = 37.1%
12
Variabile calitative
 În multe situaţii din viaţa reală, una sau mai
multe variabile independente sunt calitative.
 O variantă de includere a variabilelor
calitative în modelele de regresie este prin
utilizarea variabilelor indicator (“dummy”).
 O variabilă indicator (I) poat sa ia una dintre
cele două valori (binare), “zero” sau “unu”.

11 dacă1 prima
dacă dacă
dateletemperatura
1 dacăcondiţie
sunt
e licenţiat
culese aînfost
e satisfăcutăsubde10
înainte
Finanţe 2000
o
I=
00 dacă
0dacă atemperatura
dacă
dacă doua
edatele
licenţiat a fost
condiţie
sunt
în de 10
altceva
eculese
satisfăcută
după sau2000
decât
o
mai mult
Finanţe

13
Exemplu (1)

 Consideram ca pretul este


determinat si de culoarea masinii.
 Consideram trei culori :
 Alb
 Argintiu I1 = 1 daca culoarea este alba
0 pentru alta culoare
 Alte culori
I2 = 1 daca culoarea este argintie
0 pentru alta culoare

14
Exemplu (2)

 Folosim modelul
y = 0 + 1(Kilometraj) + 2I1 + 3I2 + 

Pret Kilometraj I-1 I-2


5318 37388 1 0 Alba
5061 44758 1 0
5008 45833 0 0 Alta culoare
5795 30862 0 0
5784 31705 0 1
5359 34010 0 1 Argintie
. . . .
. . . .
15
Exemplu (3)
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.835482
R Square 0.69803
Adjusted R Square
0.688594
Standard Error
142.271
Observations 100

ANOVA
df SS MS F Significance F
Regression 3 4491749 1497250 73.97095 7.22E-25
Residual 96 1943141 20241.05
Total 99 6434890

Coefficients
Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 6350.323 92.16653 68.90053 1.5E-83 6167.374 6533.272
Odometer -0.02777 0.002369 -11.7242 3.14E-20 -0.03247 -0.02307
I-1 45.24098 34.08443 1.327321 0.187551 -22.4161 112.8981
I-2 147.738 38.18499 3.869007 0.000199 71.94135 223.5347 16

S-ar putea să vă placă și