Sunteți pe pagina 1din 20

REGRESIA LINIARĂ MULTIPLĂ

C4.
1. Regresia prin origine
2. Prezentarea modelului liniar multiplu
3. Estimarea parametrilor modelului liniar multiplu
4. Testarea parametrilor modelului liniar multiplu

1
Regresia prin origine (I)
 Situaţii în care am putea construi un
model de regresie prin origine:
 În urma testării parametrilor modelului,
parametrul β0 are o valoare nesemnificativă
statistic, iar parametrul β1 este semnificativ
statistic;
 Există suport teoretic care să impună
estimarea unui model care trece prin origine –
lipsa influenţei variabilei independente conduce
la o medie zero pentru variabila dependentă
(analiza de cost, legătura dintre lungimea şi
greutatea frunzelor unui copac).

2
Regresia prin origine (II)

Pentru un eşantion de 100 de sturioni, se studiază legătura


dintre numărul de ouă depuse şi lungimea peştelui.

3
Regresia prin origine (III)
 În cazul modelului de regresie Y  1 X  
aplicarea metodei celor mai mici pătrate
se simplifică.
 Problema de minim care trebuie rezolvată
este de forma:

4
Regresia prin origine (IV)
 Estimatorul ̂1 este nedeplasat
 Avem n-1 grade de libertate
 Probleme ale utilizării în practică:
 Suma erorilor nu mai este zero;
 R2 poate avea o valoare foarte mare, prin urmare
interpretarea acestuia nu mai are sens. Se utilizează o
variantă a lui R2, şi anume:

 Aceste probleme dispar dacă modelul de regresie


liniară are variabilele standardizate. În acest caz,
panta dreptei de regresie are aceeaşi valoare cu
coeficientul de corelaţie Pearson.

5
Modelul liniar multiplu (I)
Forma generală a modelului liniar multiplu este dată
prin relaţia:
Y  M  Y / X      0   1 X 1   2 X 2  ...   p X p  
unde:
Y - variabila dependentă;
X1, X2,…,Xi,…,Xp - variabile independente (predictori);
ε - variabilă reziduu de modelare (variabila aleatoare);
βi - parametrii modelului de regresie
k - numărul de parametri din model, k=p+1.

Exemplu: Pentru un eşantion de 50 de mărci de cereale, se


poate studia legătura dintre ratingul acordat de consumatori unei
mărci de cereale şi factorii de influenţă (nr. de calorii, de grame de
grăsimi, de zahăr, de fibre, etc.)
6
Modelul liniar multiplu (II)

Cei k parametri ai modelului liniar multiplu au următoarea


semnificaţie:
 β0 – valoarea medie a variabilei dependente Y, în condiţiile
în care influenţa variabilelor independente ar fi nulă;

Y
 i  , i  1, p - variaţia absolută a variabilei
X i

dependente la o variaţie absolută cu o unitate a variabilei


independente Xi, în condiţiile în care influenţa celorlalte
variabile independente este menţinută constantă. Arată
influenţa parţială a fiecărei variabile independente asupra
variabilei dependente.

7
Modelul liniar multiplu (3)

Ipotezele modelului clasic de regresie:

-variabilele independente sunt nestochastice

-normalitatea erorilor :
 i ~ N (0,  2 )

-homoscedasticitate: V (  i )  M (  i2 )   2

-necorelarea erorilor: cov(  i , j )  0

-lipsa corelaţiei dintre variabilele independente şi variabila


eroare
- lipsa coliniarităţii sau a unei legături liniare între variabilele
independente
8
Estimarea parametrilor modelului multiplu liniar

Se consideră modelul de regresie liniară multiplă cu două variabile


independente:
y i   0   1 x1i   2 x 2 i   i
La nivelul unui eşantion, modelul devine:
y i  ˆ 0  ˆ 1 x1i  ˆ 2 x 2 i  ˆ i sau y i  yˆ i  ˆi

Rezultă
ˆ i  y i  ŷ i  y i  ˆ 0  ˆ 1 x1i   2 x 2 i

Estimarea parametrilor modelului prin metoda celor mai mici


pătrate presupune respectarea condiţiei:
n
 ̂ i  min im, adică  ( y i  ˆ 0  ˆ 1 x1i   2 x 2 i )  min im
2 2

i 1 i

9
Estimarea parametrilor modelului multiplu liniar
(II)

Pentru satisfacerea condiţiei MCMMP trebuie ca


derivatele parţiale de ordin I în raport cu coeficienţii
modelului să se anuleze. Astfel se va obţine un sistem de
2+1=3 ecuaţii cu 3 necunoscute.

n n n
nβ̂0  β̂1  x1i  β̂2  x2i   yi
i 1 i 1 i 1
n n n n
β̂0  x1i  β̂1  x  β̂2  x1i x2i   yi x1i
2
1i
i 1 i 1 i 1 i 1
n n n n
β̂0  x2i  β̂1  x1i x2i  β̂2  x   yi x2i 2
2i
i 1 i 1 i 1 i 1

10
Estimarea parametrilor modelului multiplu
liniar (III)

Estimarea punctuală a parametrilor modelului


La nivelul unui eşantion de date, sistemul de ecuaţii devine:
n n n
nb0  b1  x1i  b2  x2i   yi
i 1 i 1 i 1
n n n n
b0  x1i  b1  x  b2  x1i x2i   yi x1i
2
1i
i 1 i 1 i 1 i 1
n n n n
b0  x2i  b1  x1i x2i b2  x   yi x2i 2
2i
i 1 i 1 i 1 i 1

Prin rezolvarea sistemului, se obţin relaţiile pentru estimaţiile


parametrilor modelului de regresie.

Exemplu: Rating = 61.1 - 3.07 Grăsimi - 2.21 Zahăr

11
Estimarea parametrilor modelului multiplu
liniar (IV)

Estimarea parametrilor prin interval


de încredere

Intervalele de încredere sunt de


forma:
 i  [ ˆ i  t / 2 ,n  k ˆ ˆ i ]

La nivelul unui eşantion de date se


obţine un interval de forma:

 i  bi  t / 2,n  k sˆ , bi  t / 2,n  k sˆ
i i

12
Testarea parametrilor modelului liniar
multiplu (I)

Testarea parametrilor modelului multiplu liniar se face


la fel ca în cazul modelului simplu liniar:
1. Formularea ipotezelor:
H0: i  0
H 1:  i  0

2. Alegerea pragului de semnificaţie α


De regulă, se asumă un risc α = 0,05.

3. Alegerea statisticii test


ˆ i
t
ˆ ˆ i
13
Testarea parametrilor modelului
liniar multiplu (II)
4. Valoarea teoretică a statisticii test
Pentru pragul de semnificaţie ales şi v=n-k grade de libertate, se
citeşte valoarea teoretică din tabela Student: tα/2;n-k

5. Valoarea calculată a statisticii test


La nivelul eşantionului se determină valoarea calculată a
testului:
bi
t calc 
s ˆ
i

6. Regula de decizie
Dacă t  t se respinge H0
calc /2

Dacă t calc  t / 2 se acceptă H0, pentru risc asumat de 5%.

14
Testarea parametrilor modelului
liniar multiplu (III)
În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):
- dacă Sig t   , se respinge H0

-dacă Sig t   , se acceptă H0, pentru un nivel de


încredere de 95%.

7. Compararea celor două valori ale statisticii test şi


luarea deciziei

8. Interpretarea rezultatului testării

15
Testarea modelului de regresie (I)

Testarea modelului de regresie se realizează cu ajutorul testului F,


după următorul demers:

1. Formularea ipotezelor
H0: β0=β1=…=βp=0 (modelul nu este semnificativ)
H1: nu toţi coeficienţii sunt simultan zero

2. Alegerea pragului de semnificaţie α

3. Alegerea statisticii test


VˆE n  k ˆ 2 n  k
F    ~F(k-1, n-k)
ˆ
VR k  1 1   k  1
ˆ 2

4. Valoarea teoretică a statisticii test: F α, k-1, n-k

ESS n  k R2 n  k
5. Valoarea calculată a testului: F   
RSS k  1 1  R k  1
2

16
Testarea modelului de regresie (II)
6. Regula de decizie
Dacă Fcalc  Fk 1,n  k se respinge H0

Dacă Fcalc  Fk 1,n  k se acceptă H0, pentru risc asumat de 5%.

În SPSS, decizia se ia pe baza semnificaţiei testului (Sig.):


- dacă Sig F   , se respinge H0

-dacă Sig F   , se acceptă H0, pentru un nivel de încredere de


95%.

7. Compararea celor două valori ale statisticii test şi luarea deciziei

8. Interpretarea rezultatului testării

17
EXEMPLU
 Pentru un eşantion de mărci de
cereale, se studiază legătura
dintre ratingul acordat de
consumatori unei mărci de
cereale şi nr. de grame de
grăsimi, de zahăr şi de fibre.

18
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,789a ,622 ,612 8,75456
a. Predictors: (Constant), sugars, fat

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 9325,268 2 4662,634 60,836 ,000a
Residual 5671,533 74 76,642
Total 14996,800 76
a. Predictors: (Constant), sugars, fat
b. Dependent Variable: rating

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 61,089 1,953 31,284 ,000
fat -3,066 1,036 -,220 -2,958 ,004
sugars -2,213 ,235 -,700 -9,428 ,000
a. Dependent Variable: rating

19
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,930a ,865 ,859 5,35086
a. Predictors: (Constant), fat, fiber, sugars

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 12503,728 3 4167,909 145,570 ,000a
Residual 1946,958 68 28,632
Total 14450,686 71
a. Predictors: (Constant), fat, fiber, sugars
b. Dependent Variable: rating

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 53,673 1,389 38,637 ,000
fiber 2,938 ,261 ,507 11,265 ,000
sugars -1,992 ,150 -,622 -13,238 ,000
fat -3,347 ,656 -,238 -5,103 ,000
a. Dependent Variable: rating

20

S-ar putea să vă placă și