Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
TESTUL F_t
Braşov,
2010
2
1. Abordarea clasică – nu avem probleme speciale în date
Functia de consum
y = 0.979x - 67.28
950
2
R = 0.9916
900
850
Consumul
800
750
700
650
750 800 850 900 950 1000 1050
Venitul disponibil
3
Toate indiciile sunt în direcţia folosirii unui model clasic de regresie
(dependenţa pare liniară, erorile par a avea dispersia constantă, termenul liber pare a fi
diferit de zero).
Folosind un soft clasic, de exemplu modulul Regression din aplicaţia Excel,
obţinem următoarele rezultate (vezi tabelul 2).
SUMMARY OUTPUT
A. Bonitatea C. Estimaţii
modelului pentru
Regression Statistics
coeficienţi,
Multiple R 0.99580424
erorile lor
R Square 0.991626085
B. Descompunerea standard, testul
Adjusted R Square 0.990579346
varianţei totale, t, intervale de
Standard Error 8.244609296
testul F încredere
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 64394.61534 64394.62 947.3476758 1.34906E-09
Residual 8 543.7886595 67.97358
Total 9 64938.404
4
Regula de decizie privind acceptarea modelului este: valori mari pentru statistica test
F şi valori mici pentru Significance F.
Pe datele noastre, cum F = 947.3476758 este o valoare foarte mare şi
Significance F = 1.34906E-09, deci o valoare foarte mică, acceptăm că modelul ales
ajustează bine datele din eşantion.
Caseta C ne oferă informaţii despre valorile estimate ale coeficienţilor
modelului de regresie în coloana Coefficients, erorile standard ale coeficienţilor în
coloana Standard Error, elemente pentru aplicarea testului de semnificaţie t-Student
pentru fiecare coeficient (coloanele t Stat şi P-value.). Tot aici avem informaţii despre
intervalele de încredere calculate pentru fiecare coeficient din modelul de regresie.
Cum analizăm informaţiile din această casetă?
1) Pentru ca un coeficient să fie semnificativ diferit de zero, deci variabila
regresor asociată lui să influenţeze variabila dependentă, trebuie ca în coloana P-value
să avem valori mici, de exemplu 5% sau sub 5% (evident în coloana t Stat avem
atunci valori mari, în modul). Concret, pentru termenul liber al modelului ( Intercept)
avem P-value = 0.043, adică putem afirma că dacă respingem ipoteza că interceptul
este egal cu zero, facem o eroare doar de 4%. Respingem deci această afirmaţie şi
acceptăm ca adevărată ipoteza că interceptul este diferit de zero. (Analog, ajungem la
concluzia că şi panta dreptei de regresie este diferită statistic de zero).
2) Ultimele două coloane ne dau informaţii privind intervalele de încredere
95% pentru fiecare coeficient al modelului. Astfel, pentru termenul liber (teoretic) al
modelului obţinem intervalul (-132.0474401, -2.5126). Analog, pentru panta ecuaţiei de
regresie avem intervalul de încredere (0.905614, 1.052304). Este foarte important faptul că
nici unul dintre aceste intervale de încredere nu conţine pe 0, suntem încurajaţi astfel
în a afirma că modelul este bun.
5
Efectuarea calculelor pe baza datelor dintr-un eşantion şi luarea deciziei.
Pentru testarea ipotezelor statistice în cazul parametrilor modelului liniar de
regresie (simplă) există două abordări:
1. abordarea „punctuală” prin testul de semnificaţie;
2. abordarea prin construirea intervalelor de încredere.
3. Testul de semnificaţie
Să revenim la modelul de regresie
yi xi ei i 1, 2,...., n
în care * este o valoare particulară pe care o poate lua parametrul modelului (de
regulă valoarea cea mai nefavorabilă).
6
1
2) eroarea standard a estimatorului este SE ( ˆ ) s .
( xi x )2
Din afirmaţiile 1) şi 2) se obţine un rezultat statistic important şi anume:
ˆ
Statistica test pe care putem s-o folosim este . Ea are o repartiţie t cu n
SE ( ˆ )
ˆ
-2 grade de libertate, adică t (n 2) (rezultat statistic important pe care nu îl
SE ( ˆ )
demonstrăm!)
D) Determinarea regiunii critice
Dacă nivelul de semnificaţie este fixat la 5%, pe baza statisticii test folosite,
regiunile de respingere pentru cele trei situaţii
a) H1 : *
b) H1 : * ;
c) H1 : *
sunt prezentate în figurile 1a-c).
a) b)
c)
Figura 1
Am notat cu tcrt valoarea critică a statisticii test, mai precis acea valoare
(obţinută din tabele) care marchează regiunea de respingere. (Această regiune de
respingere este formată din două intervale, ( , tcrt ) şi (tcrt , ) , în prima situaţie.)
Etapele testului de semnificaţie pentru
Ipoteza nulă H0 : *
7
Ipoteza alternativă H1 : *
sunt prezentate în caseta următoare:
ˆ *
2. Calculăm valoarea statisticii test tˆ unde * este valoarea
SE ( ˆ )
parametrului din ipoteza nulă;
3. Fixăm nivelul de semnificaţie, de exemplu la 5% şi găsim din tabelele
repartiţiei t (n 2) valoarea critică tcrt ;
4. Regula de decizie (testul unilateral dreapta):
dacă valoarea statisticii test tˆ tcrt , atunci suntem în regiunea de
respingere a ipotezei nule şi, prin urmare, acceptăm ipoteza
alternativă;
dacă valoarea statisticii test tˆ tcrt , atunci nu putem respinge
ipoteza nulă şi nu putem accepta ipoteza alternativă!
Despre p-value
Înaintea începerii unui test statistic clasic, se pune problema alegerii unui nivel
de semnificaţie. Acesta exprimă riscul maximal de a greşi pe care suntem dispuşi să-l
acceptăm (de regulă 5%, 1% sau chiar mai mic) atunci când luăm decizia de
respingere a ipotezei nule.
Softul modern oferă posibilitatea „inversă”. Anume, este evaluat riscul de a
lua decizia greşită, pe baza datelor de care dispunem, rămânând la latitudinea
fiecăruia dacă îşi asumă sau nu acest risc. Acest risc evaluat pe baza datelor apare în
tabele, la fiecare test de semnificaţie, şi se numeşte valoarea p (p-value).
8
4. Analiza varianţei pentru modelul de regresie liniară cu k regresori (testul
F al lui Fisher-Snedecor)
numită suma pătratelor abaterilor (sau erorilor, vezi şi criteriul ales pentru
optimizare!)
Pentru a evalua expresia, ne folosim de următoarea relaţie evidentă
yi y ( yˆi y ) ( yi yˆi )
Se demonstrează că egalitatea se păstrează (atunci când folosim estimaţii
OLS) şi pentru suma pătratelor deviaţiilor SST, adică
( y y ) ( yˆ y ) ( y yˆ )
2 2 2
i i i i
media y .
Putem să scriem astfel:
SST SSR SSE
despre care putem afirma că exprimă următoarea descompunere:
9
Se obişnuieşte a se folosi următorul tabel numit al Analizei varianţei
(ANOVA) pentru modelul de regresie:
MSR
Din acest tabel ne interesează în mod special raportul care (ca
MSE
estimator) urmează o distribuţie F cu k şi respectiv n – (k+1) grade de libertate.
Obţinem, aşa-numitul test F (Snedecor-Fisher), ce se foloseşte pentru verificarea
existenţei unei dependenţe liniare între variabila dependentă şi cele k variabile
independente. Ipoteza nulă (ce am vrea s-o respingem), se referă la toţi parametrii
modelului, mai puţin termenul liber şi are forma:
H 0 : 1 2 ... k 0
şi alternativa
H1 : nu toţi parametrii sunt zero.
Testul foloseşte aşa cum am afirmat, distribuţia F cu (k, n – (k+1)) grade de
libertate. Cum F are doar valori pozitive, şi nu este simetrică, ipoteza nulă este
respinsă doar dacă valoarea calculată F* depăşeşte valoarea critică Fcrt . Adică, pentru
o eroare fixată , regula de decizie este următoarea:
dacă F * Fcrt atunci respingem ipoteza H 0 ;
dacă F * Fcrt suntem în zona de acceptare a ipotezei nule.
10
11
12
13