Documente Academic
Documente Profesional
Documente Cultură
1. Abordarea clasic
2
Toate indiciile sunt n direcia folosirii unui model clasic de regresie
(dependena pare liniar, erorile par a avea dispersia constant, termenul liber pare a fi
diferit de zero).
Folosind un soft clasic, de exemplu modulul Regression din aplicaia Excel,
obinem urmtoarele rezultate (vezi tabelul 2).
SUMMARY OUTPUT
A. Bonitatea C. Estimaii
modelului pentru
Regression Statistics
coeficieni,
Multiple R 0.99580424
erorile lor
R Square 0.991626085
B. Descompunerea standard, testul
Adjusted R Square 0.990579346
varianei totale, t, intervale de
Standard Error 8.244609296
testul F ncredere
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 64394.61534 64394.62 947.3476758 1.34906E-09
Residual 8 543.7886595 67.97358
Total 9 64938.404
3
mici pentru Significance F. Significance F reprezinta valoarea erorii pe care o facem
prin respingerea ipotezei nule cand de fapt ea este adevarata.
Pe datele noastre, cum F = 947.3476758 este o valoare foarte mare i
Significance F = 1.34906E-09, deci o valoare foarte mic, acceptm c modelul ales
ajusteaz bine datele din eantion.
Caseta C ne ofer informaii despre valorile estimate ale coeficienilor
modelului de regresie n coloana Coefficients, erorile standard ale coeficienilor n
coloana Standard Error, elemente pentru aplicarea testului de semnificaie t-Student
pentru fiecare coeficient (coloanele t Stat i P-value.).
Despre p-value
naintea nceperii unui test statistic clasic, se pune problema alegerii unui nivel
de semnificaie. Acesta exprim riscul maximal de a grei pe care suntem dispui s-l
acceptm (de regul 5%, 1% sau chiar mai mic) atunci cnd lum decizia de
respingere a ipotezei nule.
Softul modern ofer posibilitatea invers. Anume, este evaluat riscul de a
lua decizia greit, pe baza datelor de care dispunem, rmnnd la latitudinea
fiecruia dac i asum sau nu acest risc. Acest risc evaluat pe baza datelor apare n
tabele, la fiecare test de semnificaie, i se numete valoarea p (p-value).
Tot aici avem informaii despre intervalele de ncredere calculate pentru
fiecare coeficient din modelul de regresie.
Cum analizm informaiile din aceast caset?
1) Pentru ca un coeficient s fie semnificativ diferit de zero, deci variabila
regresor asociat lui s influeneze variabila dependent, trebuie ca n coloana P-value
s avem valori mici, de exemplu 5% sau sub 5% (evident n coloana t Stat avem
atunci valori mari, n modul). Concret, pentru termenul liber al modelului ( Intercept)
avem P-value = 0.043, adic putem afirma c dac respingem ipoteza c interceptul
este egal cu zero, facem o eroare doar de 4%. Respingem deci aceast afirmaie i
acceptm ca adevrat ipoteza c interceptul este diferit de zero. (Analog, ajungem la
concluzia c i panta dreptei de regresie este diferit statistic de zero).
2) Ultimele dou coloane ne dau informaii privind intervalele de ncredere
95% pentru fiecare coeficient al modelului. Astfel, pentru termenul liber (teoretic) al
modelului obinem intervalul (-132.0474401, -2.5126). Analog, pentru panta ecuaiei de
regresie avem intervalul de ncredere (0.905614, 1.052304). Este foarte important faptul c
nici unul dintre aceste intervale de ncredere nu conine pe 0, suntem ncurajai astfel
n a afirma c modelul este bun.
4
Se urmrete respingerea ipotezei nule, pentru ca prin aceasta s se accepte
automat ipoteza alternativ (ca adevrat).
Prin testarea ipotezei (sau testul statistic) se nelege o evaluare statistic a
deciziei de respingere a ipotezei nule H 0 .
Etapele testrii unei ipoteze statistice sunt urmtoarele:
Formularea ipotezei nule i a celei alternative;
Alegerea nivelului de semnificaie al testului;
Alegerea statisticii adecvate i determinarea distribuiei valorilor ei, n
condiiile n care ipoteza nul este adevrat;
Definirea regiunii critice (de respingere) i stabilirea regulii de decizie;
Efectuarea calculelor pe baza datelor dintr-un eantion i luarea deciziei.
Pentru testarea ipotezelor statistice n cazul parametrilor modelului liniar de
regresie (simpl) exist dou abordri:
1. abordarea punctual prin testul de semnificaie;
2. abordarea prin construirea intervalelor de ncredere.
3. Testul de semnificaie
S revenim la modelul de regresie
yi a b xi ei i 1, 2,...., n
n care b * este o valoare particular pe care o poate lua parametrul modelului (de
regul valoarea cea mai nefavorabil).
5
Nivelul de semnificaie este riscul acceptat de genul I. Acesta este de regul
mic, de ordinul 5%, 1% sau chiar mai mic. Dac alegem nivelul de semnificaie
5% , putem afirma c ncrederea acordat rezultatului statistic obinut este de 95% .
b) H1 : b < b * ;
c) H1 : b > b *
sunt prezentate n figurile 1a-c).
6
a) b)
c)
Figura 1
Am notat cu tcrt valoarea critic a statisticii test, mai precis acea valoare
(obinut din tabele) care marcheaz regiunea de respingere. (Aceast regiune de
respingere este format din dou intervale, (, tcrt ) i (tcrt , ) , n prima situaie.)
Etapele testului de semnificaie pentru
Ipoteza nul H0 : b b *
Ipoteza alternativ H1 : b > b *
sunt prezentate n caseta urmtoare:
b b *
2. Calculm valoarea statisticii test t unde b * este valoarea
SE ( b )
parametrului din ipoteza nul;
3. Fixm nivelul de semnificaie, de exemplu la 5% i gsim din tabelele
repartiiei t (n 2) valoarea critic tcrt ;
4. Regula de decizie (testul unilateral dreapta):
dac valoarea statisticii test t > tcrt , atunci suntem n regiunea de
respingere a ipotezei nule i, prin urmare, acceptm ipoteza
alternativ;
dac valoarea statisticii test t < tcrt , atunci nu putem respinge
ipoteza nul i nu putem accepta ipoteza alternativ!