Sunteți pe pagina 1din 6

Cursul 5.

Modelul de regresie liniară

1) Analiza varianţei pentru modelul de regresie simplă (descompunerea


varianţei totale a variabilei dependente y)

În modelul liniar de regresie (simplă) dorim să exprimăm liniar o variabilă dependentă


y printr-o variabilă independentă (de influenţă) x. Mai precis, dorim să evaluăm în ce
măsură variaţiile variabilei x influenţează variaţia valorilor lui y.
Fie, prin urmare, perechile de valori ( yi , xi ), i = 1,2,..., n obţinute dintr-un eşantion de
volum n.

Pentru valorile observate yi putem calcula media lor (aritmetică) y =


∑ yi şi ceea ce
n
în statistica matematică este cunoscut sub numele de variaţia totală a valorilor yi de
la media lor. Aceasta se exprimă prin suma pătratelor deviaţiilor şi este notată cu
SST
SST = ∑ ( yi − y ) 2 (1)

Trecând la modelul de regresie liniară simplă, ştim că acesta este descris de setul de
relaţii
yi = α + β xi + ei i = 1, 2,...., n
în care α , β sunt parametrii modelului ce trebuie estimaţi. Am folosit tehnica OLS
pentru obţinerea estimatorilor BLUE; fie αˆ , βˆ estimaţiile OLS obţinute.
Folosind aceste estimaţii, obţinem aşa-numitele valori ajustate pentru variabila
dependentă y şi anume, yˆi = αˆ + βˆ xi pentru i = 1, 2,...., n (vezi figura 1).

Ne interesează deviaţiile acestora de la valorile observate yi , i = 1, 2,..., n , adică


diferenţele yi − yˆ i . Am dori ca, în ansamblu, acestea să fie „cât mai mici”.
Mai precis, ne interesează să evaluăm, luând în considerare toate cele n puncte,
expresia
SSE = ∑ ( yi − yˆi ) 2 (2)

numită suma pătratelor abaterilor (sau erorilor, vezi şi criteriul ales pentru
optimizare!)
Pentru a evalua (2) ne folosim de următoarea relaţie evidentă
yi − y = ( yˆi − y ) + ( yi − yˆi ) (3)
Se demonstrează că egalitatea se păstrează (atunci când folosim estimaţii OLS) şi
pentru suma pătratelor deviaţiilor SST, adică

1
∑ ( y − y ) = ∑ ( yˆ − y ) + ∑ ( y − yˆ )
2 2 2
i i i i (4)

sau, cu notaţiile anterioare


SST = ∑ ( yˆi − y ) + SSE
2
(5)
Dacă ne punem problema comparării sumelor SST şi SSE, vom constata că diferenţa
dintre ele este tocmai suma ∑ ( yˆi − y ) . Aceasta este notată SSR = ∑ ( yˆi − y ) şi
2 2

reprezintă suma pătratelor deviaţiilor valorilor ajustate de la media y .


Putem să scriem astfel:
SST = SSR + SSE (6)

P1. Se observă că SSE

∑ ( yˆ − y ) = ∑ (αˆ + βˆ x − y ) = ∑ ( y −βˆ x + βˆ x − y ) = ... = βˆ 2 ∑ ( xi −x ) 2


2 2 2
i i i

Despre (6) putem afirma că exprimă următoarea descompunere:

Varianţa totală = Varianţa explicată prin valorile x + Varianţa neexplicată

Corespunzător descompunerii lui SST avem şi o partiţionare a gradelor de libertate.


Astfel, SST are n –1 grade de libertate (deoarece din cele n puncte am estimat media
y pierzând un grad de libertate iar ∑ ( yi − y ) = 0 ). SSE are asociate n –2 grade de
libertate (din cele n s-au pierdut 2 prin estimarea celor doi parametrii α , β ).
Prim urmare, având următoarea partiţionare:
SST = SSR + SSE
(n − 1) 1 (n − 2)
pentru SSR va rămâne un grad de libertate
Sumelor SSR, SSE le vom asocia mediile în raport cu gradele de libertate, adică
SSR SSE
MSR = şi MSE = .
1 n−2
Putem să ataşăm acum modelului de regresie liniară simplă următorul tabel, numit al
analizei varianţei variabilei dependente y.
Sursa Grade de libertate Suma Media sumei Valoarea
variaţiei pătratelor pătratelor statisticii F
(SS) (MS)
Regresie 1 SSR MSR MSR
MSE
Eroare n –2 SSE MSE
Totală n –1 SST
MSR
Pentru a face inferenţe statistice bazate pe raportul , observăm că acesta are
MSE
expresia

2
MSR βˆ ∑ ( xi − x )
2 2

=
MSE s2
1
unde s 2 =
n−2
∑ ( yi − yˆi ) 2 este varianţa estimată a modelului. Această expresie este

pozitivă şi depinde în mod esenţial de βˆ şi de s 2 .


MSR
În caz că βˆ şi s 2 sunt trataţi ca estimatori, iar β = 0 , raportul are o distribuţie
MSE
F (Fisher-Snedecor) cu 1 şi (n-2) grade de libertate.
Se pot stabili următoarele rezultate (nedemonstrate aici):
E ( MSE ) = σ 2
E ( MSR ) = σ 2 + β 2 ∑ ( xi − x ) 2 (7)

Din relaţiile (7) rezultă următoarele:


1) media lui MSE este σ 2 şi nu depinde de valorile ( yi , xi ) ;

2) media lui MSR este σ 2 doar dacă parametrul β este 0. Altfel, dacă β ≠ 0 ,
E ( MSR) este mai mare ca σ 2 .
Aceste observaţii stau la baza verificării ipotezelor
H0 : β = 0
H1 : β ≠ 0
MSR
cu statistica test F = .
MSE
Valori „mari” ale lui F susţin ca adevărată ipoteza H1 : β ≠ 0 , în timp ce valori
apropiate de 1 susţin adevărul ipotezei H 0 : β = 0 .
Dacă ipoteza H 0 : β = 0 este adevărată, atunci variabila x nu influenţează variabila y.
Exemplu de tabel ANOVA pentru regresie, obţinut cu Excel:

ANOVA
df SS MS F Significance F
Regression 1 972.3214 972.3214 27.36181 0.003379347
Residual 5 177.6786 35.53571
Total 6 1150

Componentele sunt uşor identificabile. Valoarea statisticii F pare suficient de mare


(peste 27,36) pentru a ne determina să acceptăm ipoteza că β ≠ 0 . Totuşi, o asemenea
decizie nu trebuie luată fără evaluarea riscului. Acesta este indicat în ultima coloană a
tabelului.
Înaintea începerii unui test statistic clasic, se pune problema alegerii unui nivel de
semnificaţie. Acesta exprimă riscul maximal de a greşi pe care suntem dispuşi să-l
acceptăm (de regulă 5%, 1% sau chiar mai mic) atunci când luăm decizia de
respingere a ipotezei nule.

3
Softul modern oferă posibilitatea „inversă”. Anume, este evaluat riscul de a lua
decizia greşită, pe baza datelor de care dispunem, rămânând la latitudinea fiecăruia
dacă îşi asumă sau nu acest risc.
Acceptarea ipotezei β ≠ 0 înseamnă de fapt respingerea ipotezei H 0 : β = 0 . Riscul
luării acestei decizii, în mod eronat, pe baza datelor de care dispunem, este numit
valoare p (p-value sau significance). Este de dorit ca acest număr să fie „mic” (sub
0.1).
Valori p peste 0.9 indică riscuri „enorme” asociate deciziei de respingere, ceea ce
conduce logic la ideea acceptării ipotezei H 0 : β = 0 .
Obţinerea unei valori p intermediare (între 0.1 şi 0.9) ne situează într-o zonă „incertă”.
Informaţia de care dispunem nu pare a fi suficientă!
Un exemplu de rezultat oferit de Excel, pentru coeficienţii unui model de regresie
simplă, este următorul:

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 36.428571 5.038119993 7.230588 0.000789 23.47767169 49.37947
X Variable 1 0.0589286 0.011265579 5.230852 0.003379 0.029969479 0.087888

Valorile p „foarte mici” ne fac foarte încrezători în acceptarea atât a faptului că


„interceptul” este nenul, cât şi a faptului că „panta” este nenulă.

2) Modelul de regresie liniară multiplă

Fie Y variabila dependentă şi X1, X 2 ,..., X k k variabile independente. Dacă


dispunem de un eşantion de n observaţii asupra acestor variabile de forma:
( yi , xi ,1 , xi ,2 ,..., xi ,k ), i = 1, 2,..., n , atunci modelul liniar de regresie multiplă se poate
scrie :
yi = β 0 + β1 xi ,1 + ...β k xi ,k + ei i = 1, 2,...., n (2)

unde ( β 0 , β1 ,..., β k )T este vectorul parametrilor modelului.


În formă matriceală, relaţiile (2) se scriu:

y = Xβ +e (3)

⎛ 1 x11 ... x1k ⎞ ⎛ β0 ⎞ ⎛ e1 ⎞


⎛ y1 ⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
1 x21 β
unde y = ⎜⎜ ... ⎟⎟ ,
... x2k ⎟ e
X =⎜ , β = ⎜ 1 ⎟, e=⎜ 2⎟
⎜y ⎟ ⎜ ... ... ... ... ⎟ ⎜ ... ⎟ ⎜ ... ⎟
⎝ n⎠ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ 1 xn1 ... xnk ⎠ ⎝ βk ⎠ ⎝ en ⎠
Ipotezele asociate modelului sunt:

Ipoteza 1. E (e ) = 0 (vectorul eroare are media 0);

Ipoteza 2. Var (e ) = E (ee T ) = σ 2 I (matricea de varianţă-covariantă a erorilor);


Ipoteza 3. X este o matrice ne-aleatoare

4
Ipoteza 4. rang ( X ) = k + 1 < n

Ipoteza 5. e ∼ N (0, σ 2 I )

Estimatorii OLS
Fie ( βˆ0 , βˆ1 ,..., βˆk )T cei k + 1 estimatori obţinuţi prin metoda celor mai mici pătrate. Ei
se obţin, la fel ca şi în cazul modelului de regresie liniară simplă prin minimizarea
funcţiei L în raport cu cele k + 1 variabile ale sale ( β 0 , β1 ,..., β k )T . Mai precis avem
forma pătratică în variabilele β 0 , β1 ,..., β k :

L( β ) = ( y − X β )T ( y − X β ) (1)
ce trebuie minimizată.

Din condiţiile necesare de optim rezultă soluţia optimă:

βˆ = ( X T X )−1 X T y (2)

Proprietăţile estimatorilor OLS


1) Nedeplasarea
E ( βˆ ) = β (3)
(media estimatorilor este chiar valoarea parametrilor).
2) Matricea de varianţă-covarianţă a vectorului estimatorilor este
Var ( βˆ ) = σ 2 ( X T X )−1 (4)
Pe diagonala principală a matricei (4) se află varianţele celor k + 1 estimatori iar pe
extradiagonală se află covarianţele estimatorilor (matricea este sometrică).
Formula (2) este expresia estimatorilor BLUE (cu varianţa cea mai mică în clasa
estimatorilor liniari conform Teoremei Gauss-Markov)

Putem scrie şi în acest caz vectorul valorilor ajustate ŷ = X βˆ şi vectorul reziduurilor


r = y − yˆ = y − X βˆ . Pentru estimarea varianţei σ 2 modelului se foloseşte expresia

rT r
s =
2
(5)
n − (k + 1)
În concluzie, putem să scriem expresia matricei de varianţă-covarianţă:
Var ( βˆ ) = s 2 ( X T X ) −1 (6)

Exemplu: Fie modelul de regresie cu doi predictori


yi = β 0 + β1 xi ,1 + β 2 xi ,2 + ei i = 1, 2,...., n
şi următoarele date calculate din informaţiile din eşantion (de volum 15):

5
⎛ 2 3.5 −1 ⎞ ⎛ −3 ⎞
⎜ −1 ⎟ ⎜ ⎟
( X X ) = ⎜ 3.5 1 6.5 ⎟ şi X y = ⎜ 2.2 ⎟ .
T T

⎜ −1 6.5 4.3 ⎟ ⎜ 0.6 ⎟


⎝ ⎠ ⎝ ⎠
⎛ 1.1 ⎞
Obţinem estimaţiile OLS (cu formula dată) βˆ = ⎜⎜ −4.4 ⎟⎟ şi apoi r T r = 10.96 .
⎜19.88 ⎟
⎝ ⎠
10.96
Eroarea standard calculată va fi (vezi (5)) s 2 = = 0.91 .
15 − 3
Matricea de varianţă-covarianţă a vectorului estimatorilor calculată cu (6) va fi:
⎛ 1.82 3.19 −0.91⎞
−1 ⎜ −1 ⎟
s ( X X ) = 0.91( X X ) = ⎜ 3.19 0.91 5.92 ⎟ .
2 T T

⎜ −0.91 5.92 3.91 ⎟


⎝ ⎠
Din matricea de mai sus rezultă varianţele şi respectiv erorilor standard ale
coeficienţilor:
Var ( βˆ0 ) = 1.82 SE (βˆ0 ) = 1.35
Var ( βˆ ) = 0.91
1 SE (βˆ ) = 0.95
1

Var ( βˆ2 ) = 3.91 SE (βˆ2 ) = 1.98


În concluzie, putem să scriem că valorile ajustate se obţin cu formula:
yˆ = 1.10 − 4.4 x1 + 19.88 x2
(1.35) (0.95) (1.98)

S-ar putea să vă placă și

  • SEM 2 Nou
    SEM 2 Nou
    Document8 pagini
    SEM 2 Nou
    Argint Ana-Delia
    Încă nu există evaluări
  • Curs 2
    Curs 2
    Document6 pagini
    Curs 2
    Argint Ana-Delia
    Încă nu există evaluări
  • Sem 1
    Sem 1
    Document8 pagini
    Sem 1
    Argint Ana-Delia
    Încă nu există evaluări
  • Sem 5
    Sem 5
    Document9 pagini
    Sem 5
    Argint Ana-Delia
    Încă nu există evaluări
  • Ind Apl 1
    Ind Apl 1
    Document2 pagini
    Ind Apl 1
    Argint Ana-Delia
    Încă nu există evaluări
  • Curs 4
    Curs 4
    Document6 pagini
    Curs 4
    Argint Ana-Delia
    Încă nu există evaluări
  • Curs 3
    Curs 3
    Document6 pagini
    Curs 3
    Argint Ana-Delia
    Încă nu există evaluări
  • AMilitaru Recenzie
    AMilitaru Recenzie
    Document2 pagini
    AMilitaru Recenzie
    Argint Ana-Delia
    Încă nu există evaluări
  • Curs 2
    Curs 2
    Document6 pagini
    Curs 2
    Argint Ana-Delia
    Încă nu există evaluări
  • 2015 Audit Bancar BANCAS Suport de Curs
    2015 Audit Bancar BANCAS Suport de Curs
    Document256 pagini
    2015 Audit Bancar BANCAS Suport de Curs
    Argint Ana-Delia
    100% (1)