Curs 5

Cursul 5.
Modelul de regresie liniară
1) Analiza varianţei pentru modelul de regresie simplă (descompunerea

varianţei totale a variabilei dependente y)
În modelul liniar de regresie (simplă) dorim să exprimăm liniar o variabilă dependentă

y printr-o variabilă independentă (de influenţă) x. Mai precis, dorim să evaluăm în ce
măsură variaţiile variabilei x influenţează variaţia valorilor lui y.
Fie, prin urmare, perechile de valori ( yi , xi ), i = 1,2,..., n obţinute dintr-un eşantion de
volum n.
Pentru valorile observate yi putem calcula media lor (aritmetică) y =

∑ yi şi ceea ce
n
în statistica matematică este cunoscut sub numele de variaţia totală a valorilor yi de
la media lor. Aceasta se exprimă prin suma pătratelor deviaţiilor şi este notată cu
SST
SST = ∑ ( yi − y ) 2 (1)
Trecând la modelul de regresie liniară simplă, ştim că acesta este descris de setul de
relaţii
yi = α + β xi + ei i = 1, 2,...., n
în care α , β sunt parametrii modelului ce trebuie estimaţi. Am folosit tehnica OLS
pentru obţinerea estimatorilor BLUE; fie αˆ , βˆ estimaţiile OLS obţinute.
Folosind aceste estimaţii, obţinem aşa-numitele valori ajustate pentru variabila
dependentă y şi anume, yî = αˆ + βˆ xi pentru i = 1, 2,...., n (vezi figura 1).
Ne interesează deviaţiile acestora de la valorile observate yi , i = 1, 2,..., n , adică

diferenţele yi − yˆ i . Am dori ca, în ansamblu, acestea să fie „cât mai mici”.
Mai precis, ne interesează să evaluăm, luând în considerare toate cele n puncte,
expresia
SSE = ∑ ( yi − yî ) 2 (2)
numită suma pătratelor abaterilor (sau erorilor, vezi şi criteriul ales pentru
optimizare!)
Pentru a evalua (2) ne folosim de următoarea relaţie evidentă
yi − y = ( yî − y ) + ( yi − yî ) (3)
Se demonstrează că egalitatea se păstrează (atunci când folosim estimaţii OLS) şi
pentru suma pătratelor deviaţiilor SST, adică
1
∑ ( y − y ) = ∑ ( yˆ − y ) + ∑ ( y − yˆ )
2 2 2
i i i i (4)
sau, cu notaţiile anterioare

SST = ∑ ( yî − y ) + SSE
2
(5)
Dacă ne punem problema comparării sumelor SST şi SSE, vom constata că diferenţa
dintre ele este tocmai suma ∑ ( yî − y ) . Aceasta este notată SSR = ∑ ( yî − y ) şi
2 2
reprezintă suma pătratelor deviaţiilor valorilor ajustate de la media y .

Putem să scriem astfel:
SST = SSR + SSE (6)
P1. Se observă că SSE
∑ ( yˆ − y ) = ∑ (αˆ + βˆ x − y ) = ∑ ( y −βˆ x + βˆ x − y ) = ... = βˆ 2 ∑ ( xi −x ) 2

2 2 2
i i i
Despre (6) putem afirma că exprimă următoarea descompunere:
Varianţa totală = Varianţa explicată prin valorile x + Varianţa neexplicată
Corespunzător descompunerii lui SST avem şi o partiţionare a gradelor de libertate.

Astfel, SST are n –1 grade de libertate (deoarece din cele n puncte am estimat media
y pierzând un grad de libertate iar ∑ ( yi − y ) = 0 ). SSE are asociate n –2 grade de
libertate (din cele n s-au pierdut 2 prin estimarea celor doi parametrii α , β ).
Prim urmare, având următoarea partiţionare:
SST = SSR + SSE
(n − 1) 1 (n − 2)
pentru SSR va rămâne un grad de libertate
Sumelor SSR, SSE le vom asocia mediile în raport cu gradele de libertate, adică
SSR SSE
MSR = şi MSE = .
1 n−2
Putem să ataşăm acum modelului de regresie liniară simplă următorul tabel, numit al
analizei varianţei variabilei dependente y.
Sursa Grade de libertate Suma Media sumei Valoarea
variaţiei pătratelor pătratelor statisticii F
(SS) (MS)
Regresie 1 SSR MSR MSR
MSE
Eroare n –2 SSE MSE
Totală n –1 SST
MSR
Pentru a face inferenţe statistice bazate pe raportul , observăm că acesta are
MSE
expresia
2
MSR βˆ ∑ ( xi − x )
2 2
=
MSE s2
1
unde s 2 =
n−2
∑ ( yi − yî ) 2 este varianţa estimată a modelului. Această expresie este
pozitivă şi depinde în mod esenţial de βˆ şi de s 2 .

MSR
În caz că βˆ şi s 2 sunt trataţi ca estimatori, iar β = 0 , raportul are o distribuţie
MSE
F (Fisher-Snedecor) cu 1 şi (n-2) grade de libertate.
Se pot stabili următoarele rezultate (nedemonstrate aici):
E ( MSE ) = σ 2
E ( MSR ) = σ 2 + β 2 ∑ ( xi − x ) 2 (7)
Din relaţiile (7) rezultă următoarele:

1) media lui MSE este σ 2 şi nu depinde de valorile ( yi , xi ) ;
2) media lui MSR este σ 2 doar dacă parametrul β este 0. Altfel, dacă β ≠ 0 ,
E ( MSR) este mai mare ca σ 2 .
Aceste observaţii stau la baza verificării ipotezelor
H0 : β = 0
H1 : β ≠ 0
MSR
cu statistica test F = .
MSE
Valori „mari” ale lui F susţin ca adevărată ipoteza H1 : β ≠ 0 , în timp ce valori
apropiate de 1 susţin adevărul ipotezei H 0 : β = 0 .
Dacă ipoteza H 0 : β = 0 este adevărată, atunci variabila x nu influenţează variabila y.
Exemplu de tabel ANOVA pentru regresie, obţinut cu Excel:
ANOVA
df SS MS F Significance F
Regression 1 972.3214 972.3214 27.36181 0.003379347
Residual 5 177.6786 35.53571
Total 6 1150
Componentele sunt uşor identificabile. Valoarea statisticii F pare suficient de mare

(peste 27,36) pentru a ne determina să acceptăm ipoteza că β ≠ 0 . Totuşi, o asemenea
decizie nu trebuie luată fără evaluarea riscului. Acesta este indicat în ultima coloană a
tabelului.
Înaintea începerii unui test statistic clasic, se pune problema alegerii unui nivel de
semnificaţie. Acesta exprimă riscul maximal de a greşi pe care suntem dispuşi să-l
acceptăm (de regulă 5%, 1% sau chiar mai mic) atunci când luăm decizia de
respingere a ipotezei nule.
3
Softul modern oferă posibilitatea „inversă”. Anume, este evaluat riscul de a lua
decizia greşită, pe baza datelor de care dispunem, rămânând la latitudinea fiecăruia
dacă îşi asumă sau nu acest risc.
Acceptarea ipotezei β ≠ 0 înseamnă de fapt respingerea ipotezei H 0 : β = 0 . Riscul
luării acestei decizii, în mod eronat, pe baza datelor de care dispunem, este numit
valoare p (p-value sau significance). Este de dorit ca acest număr să fie „mic” (sub
0.1).
Valori p peste 0.9 indică riscuri „enorme” asociate deciziei de respingere, ceea ce
conduce logic la ideea acceptării ipotezei H 0 : β = 0 .
Obţinerea unei valori p intermediare (între 0.1 şi 0.9) ne situează într-o zonă „incertă”.
Informaţia de care dispunem nu pare a fi suficientă!
Un exemplu de rezultat oferit de Excel, pentru coeficienţii unui model de regresie
simplă, este următorul:
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 36.428571 5.038119993 7.230588 0.000789 23.47767169 49.37947
X Variable 1 0.0589286 0.011265579 5.230852 0.003379 0.029969479 0.087888
Valorile p „foarte mici” ne fac foarte încrezători în acceptarea atât a faptului că

„interceptul” este nenul, cât şi a faptului că „panta” este nenulă.
2) Modelul de regresie liniară multiplă
Fie Y variabila dependentă şi X1, X 2 ,..., X k k variabile independente. Dacă

dispunem de un eşantion de n observaţii asupra acestor variabile de forma:
( yi , xi ,1 , xi ,2 ,..., xi ,k ), i = 1, 2,..., n , atunci modelul liniar de regresie multiplă se poate
scrie :
yi = β 0 + β1 xi ,1 + ...β k xi ,k + ei i = 1, 2,...., n (2)
unde ( β 0 , β1 ,..., β k )T este vectorul parametrilor modelului.

În formă matriceală, relaţiile (2) se scriu:
y = Xβ +e (3)
⎛ 1 x11 ... x1k ⎞ ⎛ β0 ⎞ ⎛ e1 ⎞

⎛ y1 ⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
1 x21 β
unde y = ⎜⎜ ... ⎟⎟ ,
... x2k ⎟ e
X =⎜ , β = ⎜ 1 ⎟, e=⎜ 2⎟
⎜y ⎟ ⎜ ... ... ... ... ⎟ ⎜ ... ⎟ ⎜ ... ⎟
⎝ n⎠ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ 1 xn1 ... xnk ⎠ ⎝ βk ⎠ ⎝ en ⎠
Ipotezele asociate modelului sunt:
Ipoteza 1. E (e ) = 0 (vectorul eroare are media 0);
Ipoteza 2. Var (e ) = E (ee T ) = σ 2 I (matricea de varianţă-covariantă a erorilor);

Ipoteza 3. X este o matrice ne-aleatoare
4
Ipoteza 4. rang ( X ) = k + 1 < n
Ipoteza 5. e ∼ N (0, σ 2 I )
Estimatorii OLS
Fie ( βˆ0 , βˆ1 ,..., βˆk )T cei k + 1 estimatori obţinuţi prin metoda celor mai mici pătrate. Ei
se obţin, la fel ca şi în cazul modelului de regresie liniară simplă prin minimizarea
funcţiei L în raport cu cele k + 1 variabile ale sale ( β 0 , β1 ,..., β k )T . Mai precis avem
forma pătratică în variabilele β 0 , β1 ,..., β k :
L( β ) = ( y − X β )T ( y − X β ) (1)
ce trebuie minimizată.
Din condiţiile necesare de optim rezultă soluţia optimă:
βˆ = ( X T X )−1 X T y (2)
Proprietăţile estimatorilor OLS

1) Nedeplasarea
E ( βˆ ) = β (3)
(media estimatorilor este chiar valoarea parametrilor).
2) Matricea de varianţă-covarianţă a vectorului estimatorilor este
Var ( βˆ ) = σ 2 ( X T X )−1 (4)
Pe diagonala principală a matricei (4) se află varianţele celor k + 1 estimatori iar pe
extradiagonală se află covarianţele estimatorilor (matricea este sometrică).
Formula (2) este expresia estimatorilor BLUE (cu varianţa cea mai mică în clasa
estimatorilor liniari conform Teoremei Gauss-Markov)
Putem scrie şi în acest caz vectorul valorilor ajustate ŷ = X βˆ şi vectorul reziduurilor

r = y − yˆ = y − X βˆ . Pentru estimarea varianţei σ 2 modelului se foloseşte expresia
rT r
s =
2
(5)
n − (k + 1)
În concluzie, putem să scriem expresia matricei de varianţă-covarianţă:
Var ( βˆ ) = s 2 ( X T X ) −1 (6)
Exemplu: Fie modelul de regresie cu doi predictori

yi = β 0 + β1 xi ,1 + β 2 xi ,2 + ei i = 1, 2,...., n
şi următoarele date calculate din informaţiile din eşantion (de volum 15):
5
⎛ 2 3.5 −1 ⎞ ⎛ −3 ⎞
⎜ −1 ⎟ ⎜ ⎟
( X X ) = ⎜ 3.5 1 6.5 ⎟ şi X y = ⎜ 2.2 ⎟ .
T T
⎜ −1 6.5 4.3 ⎟ ⎜ 0.6 ⎟

⎝ ⎠ ⎝ ⎠
⎛ 1.1 ⎞
Obţinem estimaţiile OLS (cu formula dată) βˆ = ⎜⎜ −4.4 ⎟⎟ şi apoi r T r = 10.96 .
⎜19.88 ⎟
⎝ ⎠
10.96
Eroarea standard calculată va fi (vezi (5)) s 2 = = 0.91 .
15 − 3
Matricea de varianţă-covarianţă a vectorului estimatorilor calculată cu (6) va fi:
⎛ 1.82 3.19 −0.91⎞
−1 ⎜ −1 ⎟
s ( X X ) = 0.91( X X ) = ⎜ 3.19 0.91 5.92 ⎟ .
2 T T
⎜ −0.91 5.92 3.91 ⎟

⎝ ⎠
Din matricea de mai sus rezultă varianţele şi respectiv erorilor standard ale
coeficienţilor:
Var ( βˆ0 ) = 1.82 SE (βˆ0 ) = 1.35
Var ( βˆ ) = 0.91
1 SE (βˆ ) = 0.95
1
Var ( βˆ2 ) = 3.91 SE (βˆ2 ) = 1.98

În concluzie, putem să scriem că valorile ajustate se obţin cu formula:
yˆ = 1.10 − 4.4 x1 + 19.88 x2
(1.35) (0.95) (1.98)

Curs 5

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 5

Încărcat de

Drepturi de autor:

Formate disponibile

Cursul 5.

Modelul de regresie liniară

1) Analiza varianţei pentru modelul de regresie simplă (descompunerea

În modelul liniar de regresie (simplă) dorim să exprimăm liniar o variabilă dependentă

Pentru valorile observate yi putem calcula media lor (aritmetică) y =

Ne interesează deviaţiile acestora de la valorile observate yi , i = 1, 2,..., n , adică

sau, cu notaţiile anterioare

reprezintă suma pătratelor deviaţiilor valorilor ajustate de la media y .

P1. Se observă că SSE

∑ ( yˆ − y ) = ∑ (αˆ + βˆ x − y ) = ∑ ( y −βˆ x + βˆ x − y ) = ... = βˆ 2 ∑ ( xi −x ) 2

Despre (6) putem afirma că exprimă următoarea descompunere:

Varianţa totală = Varianţa explicată prin valorile x + Varianţa neexplicată

Corespunzător descompunerii lui SST avem şi o partiţionare a gradelor de libertate.

pozitivă şi depinde în mod esenţial de βˆ şi de s 2 .

Din relaţiile (7) rezultă următoarele:

Componentele sunt uşor identificabile. Valoarea statisticii F pare suficient de mare

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Valorile p „foarte mici” ne fac foarte încrezători în acceptarea atât a faptului că

2) Modelul de regresie liniară multiplă

Fie Y variabila dependentă şi X1, X 2 ,..., X k k variabile independente. Dacă

unde ( β 0 , β1 ,..., β k )T este vectorul parametrilor modelului.

⎛ 1 x11 ... x1k ⎞ ⎛ β0 ⎞ ⎛ e1 ⎞

Ipoteza 1. E (e ) = 0 (vectorul eroare are media 0);

Ipoteza 2. Var (e ) = E (ee T ) = σ 2 I (matricea de varianţă-covariantă a erorilor);

Din condiţiile necesare de optim rezultă soluţia optimă:

Proprietăţile estimatorilor OLS

Putem scrie şi în acest caz vectorul valorilor ajustate ŷ = X βˆ şi vectorul reziduurilor

Exemplu: Fie modelul de regresie cu doi predictori

⎜ −1 6.5 4.3 ⎟ ⎜ 0.6 ⎟

⎜ −0.91 5.92 3.91 ⎟

Var ( βˆ2 ) = 3.91 SE (βˆ2 ) = 1.98

S-ar putea să vă placă și