Documente Academic
Documente Profesional
Documente Cultură
Trecând la modelul de regresie liniară simplă, ştim că acesta este descris de setul de
relaţii
yi = α + β xi + ei i = 1, 2,...., n
în care α , β sunt parametrii modelului ce trebuie estimaţi. Am folosit tehnica OLS
pentru obţinerea estimatorilor BLUE; fie αˆ , βˆ estimaţiile OLS obţinute.
Folosind aceste estimaţii, obţinem aşa-numitele valori ajustate pentru variabila
dependentă y şi anume, yˆi = αˆ + βˆ xi pentru i = 1, 2,...., n (vezi figura 1).
numită suma pătratelor abaterilor (sau erorilor, vezi şi criteriul ales pentru
optimizare!)
Pentru a evalua (2) ne folosim de următoarea relaţie evidentă
yi − y = ( yˆi − y ) + ( yi − yˆi ) (3)
Se demonstrează că egalitatea se păstrează (atunci când folosim estimaţii OLS) şi
pentru suma pătratelor deviaţiilor SST, adică
1
∑ ( y − y ) = ∑ ( yˆ − y ) + ∑ ( y − yˆ )
2 2 2
i i i i (4)
2
MSR βˆ ∑ ( xi − x )
2 2
=
MSE s2
1
unde s 2 =
n−2
∑ ( yi − yˆi ) 2 este varianţa estimată a modelului. Această expresie este
2) media lui MSR este σ 2 doar dacă parametrul β este 0. Altfel, dacă β ≠ 0 ,
E ( MSR) este mai mare ca σ 2 .
Aceste observaţii stau la baza verificării ipotezelor
H0 : β = 0
H1 : β ≠ 0
MSR
cu statistica test F = .
MSE
Valori „mari” ale lui F susţin ca adevărată ipoteza H1 : β ≠ 0 , în timp ce valori
apropiate de 1 susţin adevărul ipotezei H 0 : β = 0 .
Dacă ipoteza H 0 : β = 0 este adevărată, atunci variabila x nu influenţează variabila y.
Exemplu de tabel ANOVA pentru regresie, obţinut cu Excel:
ANOVA
df SS MS F Significance F
Regression 1 972.3214 972.3214 27.36181 0.003379347
Residual 5 177.6786 35.53571
Total 6 1150
3
Softul modern oferă posibilitatea „inversă”. Anume, este evaluat riscul de a lua
decizia greşită, pe baza datelor de care dispunem, rămânând la latitudinea fiecăruia
dacă îşi asumă sau nu acest risc.
Acceptarea ipotezei β ≠ 0 înseamnă de fapt respingerea ipotezei H 0 : β = 0 . Riscul
luării acestei decizii, în mod eronat, pe baza datelor de care dispunem, este numit
valoare p (p-value sau significance). Este de dorit ca acest număr să fie „mic” (sub
0.1).
Valori p peste 0.9 indică riscuri „enorme” asociate deciziei de respingere, ceea ce
conduce logic la ideea acceptării ipotezei H 0 : β = 0 .
Obţinerea unei valori p intermediare (între 0.1 şi 0.9) ne situează într-o zonă „incertă”.
Informaţia de care dispunem nu pare a fi suficientă!
Un exemplu de rezultat oferit de Excel, pentru coeficienţii unui model de regresie
simplă, este următorul:
y = Xβ +e (3)
4
Ipoteza 4. rang ( X ) = k + 1 < n
Ipoteza 5. e ∼ N (0, σ 2 I )
Estimatorii OLS
Fie ( βˆ0 , βˆ1 ,..., βˆk )T cei k + 1 estimatori obţinuţi prin metoda celor mai mici pătrate. Ei
se obţin, la fel ca şi în cazul modelului de regresie liniară simplă prin minimizarea
funcţiei L în raport cu cele k + 1 variabile ale sale ( β 0 , β1 ,..., β k )T . Mai precis avem
forma pătratică în variabilele β 0 , β1 ,..., β k :
L( β ) = ( y − X β )T ( y − X β ) (1)
ce trebuie minimizată.
βˆ = ( X T X )−1 X T y (2)
rT r
s =
2
(5)
n − (k + 1)
În concluzie, putem să scriem expresia matricei de varianţă-covarianţă:
Var ( βˆ ) = s 2 ( X T X ) −1 (6)
5
⎛ 2 3.5 −1 ⎞ ⎛ −3 ⎞
⎜ −1 ⎟ ⎜ ⎟
( X X ) = ⎜ 3.5 1 6.5 ⎟ şi X y = ⎜ 2.2 ⎟ .
T T