Sunteți pe pagina 1din 8

CAPITOLUL 2

Modelul de regresie liniară simplă

2.1. Prezentarea modelului


- ecuaţia generală a modelului scrisă pentru variabile:
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
- 𝑌 este variabila dependentă
- 𝑋 este variabila independentă
- 𝜀 este variabila reziduală (eroarea) care însumează influența factorilor neobservabili/
neincluși în model
- parametrii modelului (𝛽0 și 𝛽1) sunt valori fixe, dar necunoscute de la nivelul populației
- parametrul 𝛽0 este constanta (termenul liber) al modelului de regresie sau ordonata la origine
- parametrul 𝛽1 este panta dreptei de regresie

𝑌 = 𝑌𝑋 + 𝜀 = 𝑀(𝑌|𝑋) + 𝜀
- 𝑌𝑋 = 𝑀(𝑌|𝑋) reprezintă componenta deterministă și indică media variabilei dependente
condiționată de variabila independentă
- 𝜀 = 𝑌 − 𝑌𝑋 = 𝑌 − 𝑀(𝑌|𝑋) reprezintă componenta aleatoare și indică distanța dintre
valoarea observată (reală) a variabilei dependente (𝑦𝑖 ) și valoarea așteptată a variabilei
dependente (𝑦𝑥𝑖 )

- ecuaţia generală a modelului scrisă pentru valori ale variabilelor:


𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 = 𝑦𝑥𝑖 + 𝜀𝑖 = 𝑀(𝑌|𝑋 = 𝑥𝑖 ) + 𝜀𝑖
- 𝑦𝑖 este valoarea observată (reală) a variabilei dependente (𝑌) pentru observația "𝑖"
- 𝑥𝑖 este valoarea variabilei independente (𝑋) pentru observația "𝑖"
- 𝜀𝑖 este valoarea variabilei reziduale (𝜀) pentru observația "𝑖"
- 𝑦𝑥𝑖 valoarea așteptată a variabilei dependente (𝑌) pentru observația "𝑖"

- reprezentarea grafică a legăturii dintre cele două variabile și a mediei condiționate:

0 X

Figura 1. Linia de regresie sau media condiţionată

1
- interpretarea parametrilor modelului de regresie (coeficienţilor de regresie):
𝛽0 : 𝑀(𝑌|𝑋 = 0)
- constanta modelului sau ordonata la origine indică media variabilei dependente (𝑌) atunci
când variabila independentă (𝑋) ia valoarea zero
Δ(𝑌)
𝛽1 : 𝑑(𝑌)|(𝑑(𝑋) = 1) = Δ(𝑋)
- panta dreptei de regresie indică variația medie absolută a variabilei dependente (𝑌) la o
variație absolută a variabilei independente (𝑋) cu o unitate (sau la o creștere a variabilei
independente cu 1 unitatea, variabila dependentă variază, în medie, cu 𝛽1)
- semnul lui 𝛽1 indică sensul legăturii dintre cele două variabile:
- semnul negativ indică o legătură liniară inversă între 𝑌 și 𝑋 și arată că la o creștere a lui
𝑋 cu 1 unitatea, 𝑌 scade, în medie, cu 𝛽1
- semnul pozitiv indică o legătură liniară directă între 𝑌 și 𝑋 și arată că la o creștere a lui
𝑋 cu 1 unitate, 𝑌 crește, în medie, cu 𝛽1

2.2. Estimarea şi testarea parametrilor modelului de regresie

Observație: Pentru această etapă, ne folosim de rezultatele din tabelul Coefficients

2.2.1. Estimarea parametrilor (coeficienților de regresie) modelului de regresie

a. Estimarea punctuală

- estimarea punctuală a parametrilor modelului se realizează prin metoda celor mai mici pătrate
(MCMMP), ce presupune minimizarea sumei erorilor ridicate la pătrat:
S   ˆi2   ( yi  ˆ0  ˆ1 xi ) 2  min
i i

y x x x y i
2
i i i i
b0  i i i i
sau b0  y  b1 x ,
n  x  ( x ) 2
i i
2

i i

n x y x y i i i i
b1  i i i
şi
n x  ( x ) 2
i i
2

i i

x i y i
x i
, y i
,
n n
care reprezintă mediile variabilelor X, Y calculate la nivelul eşantionului.

- ecuaţia estimată a modelului scrisă pentru variabile:


𝑌 = 𝑏0 + 𝑏1 𝑋 + 𝑒

- ecuaţia estimată a modelului scrisă pentru valori ale variabilelor


2
𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 + 𝑒𝑖 = 𝑦𝑥𝑖 + 𝑒𝑖

- interpretarea estimaţiilor punctuale ale parametrilor modelului de regresie:


- 𝑏0 (estimaţia punctuală a parametrului 𝛽0): nivelul mediu estimat al variabilei dependente (𝑌)
atunci când variabila independentă (𝑋) ia valoarea zero
- 𝑏1 (estimaţia punctuală a parametrului 𝛽1): la o creștere a variabilei independente cu (𝑋) 1
unitate, variabila dependentă (𝑌) variază, în medie, cu 𝑏1

b. Estimarea prin interval de încredere


- intervalul de încredere pentru 𝛽0:
𝐼𝐶(𝛽0 ): [𝑏0 ± 𝑡𝛼⁄2;𝑛−2 ∙ 𝑠𝛽̂0 ] (1 − 𝛼)
- 𝑏0 este estimaţia punctuală a parametrului 𝛽0
- 𝑡𝛼⁄2;𝑛−2 este valoarea teoretică a statisticii test Student
- 𝑠𝛽̂0 este estimaţia abaterii standard a estimatorului parametrului 𝛽0
- interpretarea: Cu o probabilitate de (1 − 𝛼), se poate garanta că parametrul 𝛽0 (sau ordonata la
origine) este acoperit(ă) de intervalul rezultat în urma calculelor.

- intervalul de încredere pentru 𝛽1:


𝐼𝐶(𝛽1 ): [𝑏1 ± 𝑡𝛼⁄2;𝑛−2 ∙ 𝑠𝛽̂1 ] (1 − 𝛼)
- 𝑏1 este estimaţia punctuală a parametrului 𝛽1
- 𝑡𝛼⁄2;𝑛−2 este valoarea teoretică a statisticii test Student
- 𝑠𝛽̂1 este estimaţia abaterii standard a estimatorului parametrului 𝛽1
- interpretarea: Cu o probabilitate de (1 − 𝛼), se poate garanta că parametrul 𝛽1 (sau panta dreptei
de regresie) este acoperit(ă) de intervalul rezultat în urma calculelor.

3
2.2.2. Testarea parametrilor modelului de regresie

Etapele testării Testarea parametrului 𝜷𝟎 Testarea parametrului 𝜷𝟏


1. Formularea 𝐻0 : 𝛽0 = 0 (parametrul 𝛽0 nu 𝐻0 : 𝛽1 = 0 (parametrul 𝛽1 nu diferă
ipotezelor diferă semnificativ de 0 SAU semnificativ de 0 SAU între cele două
constanta modelului nu este variabile nu există o legătură liniară
semnificativă statistic) semnificativă SAU variabila independentă 𝑋
𝐻1 : 𝛽0 ≠ 0 (parametrul 𝛽0 diferă nu are o influență semnificativă asupra
semnificativ de 0 SAU constanta variabilei dependente 𝑌)
modelului este semnificativă 𝐻1 : 𝛽1 ≠ 0 (parametrul 𝛽1 diferă
statistic) semnificativ de 0 SAU între cele două
variabile există o legătură liniară
semnificativă SAU variabila independentă 𝑋
are o influență semnificativă asupra
variabilei dependente 𝑌)
2. Alegerea 𝛼 = 0,05 𝛼 = 0,05
pragului de
semnificație
3. Alegerea 𝛽̂0 − 𝛽0 𝛽̂1 − 𝛽1
statisticii test 𝑡= ~𝑡(𝑛 − 2) 𝑡= ~𝑡(𝑛 − 2)
𝜎̂𝛽̂0 𝜎̂𝛽̂1
4. Determinarea 𝑡𝑡𝑒𝑜𝑟𝑒𝑡𝑖𝑐 = 𝑡𝛼⁄2; 𝑛−2 𝑡𝑡𝑒𝑜𝑟𝑒𝑡𝑖𝑐 = 𝑡𝛼⁄2; 𝑛−2
valorii teoretice
a statisticii test
5. Determinarea 𝑏0 𝑏1
valorii calculate 𝑡𝑐𝑎𝑙𝑐 = 𝑡𝑐𝑎𝑙𝑐 =
𝑠𝛽̂0 𝑠𝛽̂1
a statisticii test
(în condițiile
acceptării
ipotezei nule)
6. Regula de Dacă se ţine cont de valoarea calculată a testului, regula de decizie este următoarea:
decizie - dacă |𝑡𝑐𝑎𝑙𝑐 | ≤ 𝑡𝛼⁄2; 𝑛−2, nu se respinge ipoteza nulă (𝐻0 );
- dacă |𝑡𝑐𝑎𝑙𝑐 | > 𝑡𝛼⁄2; 𝑛−2 , se respinge ipoteza nulă (𝐻0 ), cu probabilitatea
(1 − 𝛼).

Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:


- dacă 𝑆𝑖𝑔𝑡 ≥ 𝛼, nu se respinge ipoteza nulă (𝐻0 );
- dacă 𝑆𝑖𝑔𝑡 < 𝛼, se respinge 𝐻0 , cu probabilitatea (1 − 𝛼).
7. Luarea Compararea pasului 5 cu pasul 4 și luare unei decizii în funcție de pasul 6.
deciziei
8. Interpretarea Interpretarea rezultatului obținut.
deciziei luate

4
2.3. Estimarea şi testarea indicatorilor de corelaţie

Observaţie: Pentru această etapă, ne folosim fie de rezultatele:


- din tabelul Coefficients (coloana Standardized Coefficients) pentru a estima coeficientul de corelaţie,
fie de rezultatele din tabelul Correlations pentru a estima şi testa coeficientul de corelaţie
- din tabelul Model Summary sau tabelul Anova pentru a estima și testa raportul de determinație și
raportul de corelație

2.3.1. Estimarea indicatorilor de corelație

Indicatori Coeficientul de Raportul (coeficientul) de Raportul de corelaţie


de corelaţie corelaţie determinaţie
Definiţie măsoară intensitatea şi măsoară cât din variaţia totală a măsoară intensitatea
indică sensul legăturii variabilei dependente este legăturii dintre două
dintre două variabile. explicat de modelul de regresie. variabile.
Parametru V (X ) VE V   2
  1 2   1 R
V (Y ) VT VT
𝑉𝑇 = 𝑉𝐸 + 𝑉𝑅
Condiţie 1    1 0  2 1 0  1
Estimator VˆE VˆR VˆT ~  (n  1),
2
V (X ) 𝑉̂ 𝑉̂
ˆ  ˆ1  
ˆ 2
ˆ
1
ˆ 𝜂̂ = √ 𝐸 = √1 − 𝑅
Vˆ (Y ) ˆ
VT VE ~  (k  1),
2
VT 𝑉̂𝑇 𝑉̂𝑇
VˆR ~  2 (n  k ),
Estimaţie 𝐸𝑆𝑆 𝑅𝑆𝑆
s x2 𝑅2 = =1− R  R2
r  b1 𝑇𝑆𝑆 𝑇𝑆𝑆
s 2y 𝑇𝑆𝑆 = 𝐸𝑆𝑆 + 𝑅𝑆𝑆
Condiţie 1  r  1 0  R2  1 0  R 1
Observaţii ~
r  b1 r 2  R2 r R

Figura 2. Componentele variaţiei

5
2.3.2. Testarea indicatorilor de corelaţie

Observație: În această etapă, se va discuta pe larg doar testarea coeficientului de corelație, deoarece
testarea raportului de determinație sau a raportului de corelație se identifică cu testarea modelului de
regresie, de la punctul 2.4.

Etapele testării Testarea coeficientului de corelației 𝝆


1. Formularea 𝐻0 : 𝜌 = 0 (coeficientul de corelație 𝜌 nu diferă semnificativ de 0, ceea ce
ipotezelor înseamnă între cele două variabile nu există o legătură liniară
semnificativă SAU cele două variabile nu sunt corelate semnificativ)
𝐻1 : 𝜌 ≠ 0 (coeficientul de corelație 𝜌 diferă semnificativ de 0, ceea ce
înseamnă între cele două variabile există o legătură liniară semnificativă
SAU cele două variabile sunt corelate semnificativ)
2. Alegerea pragului 𝛼 = 0,05
de semnificație
3. Alegerea statisticii 𝜌̂
test 𝑡= ~𝑡(𝑛 − 2)
2
√1 − 𝜌̂
𝑛−2
4. Determinarea 𝑡𝑡𝑒𝑜𝑟𝑒𝑡𝑖𝑐 = 𝑡𝛼⁄2; 𝑛−2
valorii teoretice a
statisticii test
5. Determinarea 𝑟
𝑡𝑐𝑎𝑙𝑐 =
valorii calculate a 2
statisticii test √1 − 𝑟
𝑛−2
6. Regula de decizie Dacă se ţine cont de valoarea calculată a testului, regula de decizie este
următoarea:
- dacă |𝑡𝑐𝑎𝑙𝑐 | ≤ 𝑡𝛼⁄2; 𝑛−2 , nu se respinge ipoteza nulă (𝐻0 );
- dacă |𝑡𝑐𝑎𝑙𝑐 | > 𝑡𝛼⁄2; 𝑛−2 , se respinge ipoteza nulă (𝐻0 ), cu
probabilitatea (1 − 𝛼).

Dacă se ţine cont de semnificaţia testului, regula de decizie este


următoarea:
- dacă 𝑆𝑖𝑔𝑡 ≥ 𝛼, nu se respinge ipoteza nulă (𝐻0 );
- dacă 𝑆𝑖𝑔𝑡 < 𝛼, se respinge 𝐻0 , cu probabilitatea (1 − 𝛼).
7. Luarea deciziei Compararea pasului 5 cu pasul 4 și luare unei decizii în funcție de pasul 6.
8. Interpretarea Interpretarea rezultatului obținut.
deciziei luate

6
2.4. Testarea modelului de regresie

Observaţie (1): Pentru această etapă, ne folosim de rezultatele din tabelul Anova sau de datele din tabelul
Model Summary.

Etapele testării Testarea modelului de regresiei Testarea raportului de determinație


𝜼𝟐
1. Formularea 𝐻0 : 𝛽0 = 0, 𝛽1 = 0 (modelul de 𝐻0 : 𝜂 = 0 (raportul de determinație 𝜂2
ipotezelor regresie nu explică semnificativ sau raportul de corelația 𝜂 nu diferă
dependența dintre cele două variabile semnificativ de 0, ceea ce înseamnă că
SAU între cele două variabile nu între cele două variabile nu există o
există o legătură liniară semnificativă) legătură liniară semnificativă)
𝐻1 : 𝛽1 ≠ 0 (modelul de regresie 𝐻1 : 𝜂 > 0 (raportul de determinație 𝜂2
explică semnificativ dependența dintre sau raportul de corelația 𝜂 nu diferă
cele două variabile SAU între cele semnificativ de 0, ceea ce înseamnă că
două variabile există o legătură liniară între cele două variabile există o
semnificativă) legătură liniară semnificativă)
2. Alegerea 𝛼 = 0,05 𝛼 = 0,05
pragului de
semnificaţie
3. Alegerea 𝑉̂𝐸 𝜂̂ 2 𝑛−𝑘
𝐹= ⋅ ~𝐹(𝑘 − 1; 𝑛 − 𝑘)
statisticii test 𝐹 = 𝑘 − 1 ~𝐹(𝑘 − 1; 𝑛 − 𝑘) 2
(1 − 𝜂̂ ) 𝑘 − 1
𝑉̂𝑅
𝑛−𝑘
4. Determinarea 𝐹𝑡𝑒𝑜𝑟𝑒𝑡𝑖𝑐 = 𝐹𝛼; 𝑘−1; 𝑛−𝑘 𝐹𝑡𝑒𝑜𝑟𝑒𝑡𝑖𝑐 = 𝐹𝛼; 𝑘−1; 𝑛−𝑘
valorii teoretice
a statisticii test
5. Determinarea 𝐸𝑆𝑆 𝑅2 𝑛−𝑘
𝐸𝑆𝑆 𝑛 − 𝑘 𝐹𝑐𝑎𝑙𝑐 = ⋅
valorii calculate 𝐹𝑐𝑎𝑙𝑐 = − 1 =
𝑘 ⋅ 1 − 𝑅2 𝑘 − 1
a statisticii test 𝑅𝑆𝑆 𝑅𝑆𝑆 𝑘 − 1
𝑛−𝑘 𝐸𝑆𝑆 𝑅𝑆𝑆
𝑇𝑆𝑆 = 𝐸𝑆𝑆 + 𝑅𝑆𝑆 𝑅2 = = 1−
𝑇𝑆𝑆 𝑇𝑆𝑆
6. Regula de Dacă se ţine cont de valoarea calculată a testului, regula de decizie este următoarea:
decizie - dacă 𝐹𝑐𝑎𝑙𝑐 ≤ 𝐹𝛼; 𝑘−1; 𝑛−𝑘 , nu se respinge ipoteza nulă (𝐻0 );
- dacă 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼; 𝑘−1; 𝑛−𝑘 , se respinge ipoteza nulă (𝐻0 ), cu probabilitatea
(1 − 𝛼).
Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:
- dacă 𝑆𝑖𝑔𝐹 ≥ 𝛼, nu se respinge ipoteza nulă (𝐻0 );
- dacă 𝑆𝑖𝑔𝐹 < 𝛼, se respinge 𝐻0 , cu probabilitatea (1 − 𝛼).
7. Luarea Compararea pasului 5 cu pasul 4 și luare unei decizii în funcție de pasul 6.
deciziei
8. Interpretarea Interpretarea rezultatului obținut.
deciziei luate

7
FORMULE

Estimarea Testarea
punctuală a parametrilor 𝒃𝟎 valoarea teoretică a statisticii 𝒕𝒕𝒆𝒐𝒓𝒆𝒕𝒊𝒄 = 𝒕𝜶⁄𝟐;𝒏−𝟐
𝜷𝟎 şi 𝜷𝟏 𝒃𝟏 test Student:
prin interval de încredere IC(𝛽0 ): [𝒃𝟎 ± 𝒕𝜶⁄𝟐;𝒏−𝟐 𝒔𝜷̂ ] valoarea calculată a statisticii 𝒃𝟎 𝒃𝟏
𝟎 (𝛽0 ): 𝒕𝒄𝒂𝒍𝒄 = (𝛽1): 𝒕𝒄𝒂𝒍𝒄 =
a parametrilor 𝜷𝟎 şi 𝜷𝟏 IC(𝛽 ): [𝒃 ± 𝒕 𝒔̂ ] test Student: 𝒔𝜷̂𝟎 𝒔𝜷̂𝟏
1 𝟏 𝜶⁄𝟐;𝒏−𝟐 𝜷𝟏

coeficientului de 𝒓=𝒃 ̃𝟏 valoarea teoretică şi calculată 𝒕𝒕𝒆𝒐𝒓𝒆𝒕𝒊𝒄 = 𝒕𝜶⁄𝟐;𝒏−𝟐 𝒓


(𝜌): 𝒕𝒄𝒂𝒍𝒄 =
corelaţie 𝝆 |𝒓| = 𝑹 sau 𝒓𝟐 = 𝑹𝟐 ale statisticii test Student: √(𝟏 − 𝒓 )
𝟐
𝒏−𝟐
raportului de 𝑬𝑺𝑺 𝑹𝑺𝑺 valoarea teoretică şi valoarea 𝑭𝒕𝒆𝒐𝒓𝒆𝒕𝒊𝒄 = 𝑭𝜶;𝒌−𝟏;𝒏−𝒌 (𝜂2 ) şi (𝜂):
𝑹𝟐 = =𝟏−
determinaţie 𝜼𝟐 𝑻𝑺𝑺 𝑻𝑺𝑺 calculată ale statisticii test adică: 𝑹𝟐 𝒏 − 𝒌
𝑭𝒄𝒂𝒍𝒄 =
raportului de corelaţie 𝜼 𝟐
Fisher: 𝑭𝒕𝒆𝒐𝒓𝒆𝒕𝒊𝒄 = 𝑭𝜶;𝟐;𝒏−𝟐 𝟏 − 𝑹𝟐 𝒌 − 𝟏
𝑹 = √𝑹
valoarea teoretică şi valoarea adică: (modelul de regresie):
calculată ale statisticii test 𝑭𝒕𝒆𝒐𝒓𝒆𝒕𝒊𝒄 = 𝑭𝜶;𝟐;𝒏−𝟐 𝑬𝑺𝑺 𝒏 − 𝒌
𝑭𝒄𝒂𝒍𝒄 =
Fisher: 𝑹𝑺𝑺 𝒌 − 𝟏

Observaţie:
În cazul modelului de regresie liniară simplă, testarea semnificației legăturii dintre cele două variabile se poate realiza prin:
- testarea modelului de regresie
- testarea raportului de determinație (sau a raportului de corelație)
- testarea coeficientului de corelație
- testarea coeficientului de regresie 𝛽1