Sunteți pe pagina 1din 9

INFERENTE STATISTICE

Modelul clasic de regresie (cu folosirea testelor t si F)

1. Abordarea clasica nu avem probleme speciale n date Sa presupunem ca dispunem de informatii privind venitul disponibil si cererea de consum la nivelul unei economii nationale, pe un orizont de timp de 10 ani. Datele sunt cele din tabelul 1. Mld. USD
Anul 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 Venitul net 751.6 779.2 810.3 864.7 857.5 874.9 906.8 942.9 988.8 1015.7 Consumul personal 672.1 696.8 737.4 767.9 762.8 779.4 823.1 864.3 903.2 927.6

Tabelul 1. Date privind venitul si consumul Dorim sa exprimam printr-un model econometric, folosind datele din tabelul 1, legatura dintre venitul disponibil si consum; apoi, odata modelul validat, sa putem sa-l folosim pentru a face predictii la nivel macroeconomic. Avem doar o singura variabila predictor. Este util sa facem mai nti o reprezentare grafica de tip XY. Rezultatul cu aplicatia Excel, este prezentat n figura 1.
Functia de consum
y = 0.979x - 67.28 R 2 = 0.9916

950

900

850

800

750

700

650 750 800 850 900 Venitul disponibil 950 1000 1050

Figura 1. Graficul venit disponibil vs. consum 2

Toate indiciile sunt n directia folosirii unui model clasic de regresie (dependenta pare liniara, erorile par a avea dispersia constanta, termenul liber pare a fi diferit de zero). Folosind un soft clasic, de exemplu modulul Regression din aplicatia Excel, obtinem urmatoarele rezultate (vezi tabelul 2).
SUMMARY OUTPUT

Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations ANOVA df Regression Residual Total 1 8 9 0.99580424 0.991626085 0.990579346 8.244609296 10

A. Bonitatea modelului

B. Descompunerea variantei totale, testul F

C. Estimatii pentru coeficienti, erorile lor standard, testul t, intervale de ncredere

SS

MS

Significance F 1.34906E-09

64394.61534 64394.62 947.3476758 543.7886595 67.97358 64938.404

Coefficients Standard Error Intercept X Variable 1 -67.28001865 0.978959122

t Stat

P-value

Lower 95% -132.0474401 0.905614

Upper 95% -2.5126 1.052304

28.08642902 -2.39546 0.043483476 0.031806059 30.77901 1.34906E-09

Tabelul 2. Output de regresie liniara simpla Sa analizam pe rnd rezultatele din casetele evidentiate n tabelul 2. Caseta A ofera informatii despre coeficientul de determinatie multipla R 2 (Multiple R), coeficientul de corelatie dintre valorile yi observate si valorile yi ajustate prin ecuatia de regresie (R Square), si coeficientul de determinatie ajustat R 2 (Adjusted R 2 2 Square). Cu ct R si R au valori mai apropiate de 1 cu att regresia este mai buna. Tot n caseta A avem informatii despre eroarea standard estimata a modelului s (Standard Error) ce estimeaza eroarea standard si numarul de observatii din esantion. Pentru aplicatia noastra, cum toti indicatorii de bonitate enumerati sunt apropiati de 1, putem concluziona ca modelul de regresie liniara simpla este bun. Eroarea standard estimata prin esantion este 8.24 iar numarul de observatii este 10. Caseta B, se refera la descompunerea variantei totale (SST) a variabilei dependente n doua componente: varianta explicata prin regresie (SSR) si varianta neexplicata (SSE). Aici identificam si gradele de libertate asociate descompunerii, mai precis, daca avem k regresori n model si n observatii, avem egalitatea n 1 = k + (n ( k + 1)) . n aceasta caseta exista doua celule importante la care trebuie sa fim atenti, si anume: F si Significance F. Valorile din aceste celule ne dau elemente importante ce stau la baza validarii modelului de regresie (n totalitatea sa). Ele ne furnizeaza informatii privind valoarea calculata a statisticii test F si erorii pe care putem s-o facem cnd respingem modelului de regresie ca fiind neadecvat.

Regula de decizie privind acceptarea modelului este: valori mari pentru statistica test F si valori mici pentru Significance F. Pe datele noastre, cum F = 947.3476758 este o valoare foarte mare si Significance F = 1.34906E-09, deci o valoare foarte mica, acceptam ca modelul ales ajusteaza bine datele din esantion. Caseta C ne ofera informatii despre valorile estimate ale coeficientilor modelului de regresie n coloana Coefficients, erorile standard ale coeficientilor n coloana Standard Error, elemente pentru aplicarea testului de semnificatie t-Student pentru fiecare coeficient (coloanele t Stat si P-value.). Tot aici avem informatii despre intervalele de ncredere calculate pentru fiecare coeficient din modelul de regresie. Cum analizam informatiile din aceasta caseta? 1) Pentru ca un coeficient sa fie semnificativ diferit de zero, deci variabila regresor asociata lui sa influenteze variabila dependenta, trebuie ca n coloana P-value sa avem valori mici, de exemplu 5% sau sub 5% (evident n coloana t Stat avem atunci valori mari, n modul). Concret, pentru termenul liber al modelului (Intercept) avem P-value = 0.043, adica putem afirma ca daca respingem ipoteza ca interceptul este egal cu zero, facem o eroare doar de 4%. Respingem deci aceasta afirmatie si acceptam ca adevarata ipoteza ca interceptul este diferit de zero. (Analog, ajungem la concluzia ca si panta dreptei de regresie este diferita statistic de zero). 2) Ultimele doua coloane ne dau informatii privind intervalele de ncredere 95% pentru fiecare coeficient al modelului. Astfel, pentru termenul liber (teoretic) al modelului obtinem intervalul (-132.0474401, -2.5126). Analog, pentru panta ecuatiei de regresie avem intervalul de ncredere (0.905614, 1.052304). Este foarte important faptul ca nici unul dintre aceste intervale de ncredere nu contine pe 0, suntem ncurajati astfel n a afirma ca modelul este bun. 2. Testarea ipotezelor: cteva concepte O ipoteza statistica este o afirmatie despre un parametru care descrie o populatie (sau despre distributia valorilor unei variabile asociate). Adevarul acestei afirmatii poate fi testat cu ajutorul unui esantion extras din populatie. De regula, se emite o asa-numita ipoteza nula, adica o afirmatie despre valoarea parametrului, notata traditional H 0 , care se refera la valoarea cea mai nefavorabila (fata de valoarea reala). Ipotezei nule i se asociaza asa-numita ipoteza alternativa, notata cu H1 prin care se afirma faptul ca parametrul ia alte valori dect cea din ipoteza nula. Se urmareste respingerea ipotezei nule, pentru ca prin aceasta sa se accepte automat ipoteza alternativa (ca adevarata). Prin testarea ipotezei (sau testul statistic) se ntelege o evaluare statistica a deciziei de respingere a ipotezei nule H 0 . Etapele testarii unei ipoteze statistice sunt urmatoarele: Formularea ipotezei nule si a celei alternative; Alegerea nivelului de semnificatie al testului; Alegerea statisticii adecvate si determinarea distributiei valorilor ei, n conditiile n care ipoteza nula este adevarata; Definirea regiunii critice (de respingere) si stabilirea regulii de decizie; 4

Efectuarea calculelor pe baza datelor dintr-un esantion si luarea deciziei.

Pentru testarea ipotezelor statistice n cazul parametrilor modelului liniar de regresie (simpla) exista doua abordari: 1. abordarea punctuala prin testul de semnificatie; 2. abordarea prin construirea intervalelor de ncredere. 3. Testul de semnificatie Sa revenim la modelul de regresie yi = + xi + ei i = 1, 2,...., n pentru care dorim sa evaluam statistic valoarea parametrului . A) Despre ipoteze Ipoteza nula poate fi formulata astfel: H0 : = * n care * este o valoare particulara pe care o poate lua parametrul modelului (de regula valoarea cea mai nefavorabila). Ipoteza alternativa poate sa aiba una dintre formele: a) H1 : * (ipoteza bilaterala); b) H1 : < * sau H1 : > * (ipoteze unilaterale). B) Despre nivelul de semnificatie Sa consideram cele doua decizii posibile: Decizia Situatia reala H 0 este adevarata H1 este adevarata H 0 nu este respinsa (este acceptata?) Decizia corecta Decizia incorecta (Riscul de genul II) H 0 este respinsa Decizia incorecta (Riscul de genul I, ) Decizia corecta

Nivelul de semnificatie este riscul acceptat de genul I. Acesta este de regula mic, de ordinul 5%, 1% sau chiar mai mic. Daca alegem nivelul de semnificatie 5% , putem afirma ca ncrederea acordata rezultatului statistic obtinut este de 95% . C) Determinarea distributiei folosite (alegerea statisticii test) Daca testam o ipoteza statistica (aplicam un test de semnificatie) asupra parametrului din modelul de regresie, ne bazam pe cele cinci ipoteze cerute modelului si pe urmatorul rezultat statistic asociat estimatorului OLS : 1) variabila aleatoare

are o distributie normala standard N (0,1) ; ) Var (

2) eroarea standard a estimatorului este SE ( ) = s

1 . ( xi x ) 2

Din afirmatiile 1) si 2) se obtine un rezultat statistic important si anume: . Ea are o repartitie t cu Statistica test pe care putem s-o folosim este SE ( ) n -2 grade de libertate, adica : t (n 2) (rezultat statistic important pe care nu SE ( ) l demonstram!) D) Determinarea regiunii critice Daca nivelul de semnificatie este fixat la 5%, pe baza statisticii test folosite, regiunile de respingere pentru cele trei situatii a) H1 : * b) H1 : < * ; c) H1 : > * sunt prezentate n figurile 1a-c).

a)

b)

c) Figura 1 Am notat cu tcrt valoarea critica a statisticii test, mai precis acea valoare (obtinuta din tabele) care marcheaza regiunea de respingere. (Aceasta regiune de respingere este formata din doua intervale, (, tcrt ) si (tcrt , +) , n prima situatie.) Etapele testului de semnificatie pentru Ipoteza nula H0 : = *

Ipoteza alternativa H1 : > * sunt prezentate n caseta urmatoare:


1. Obtinem estimatii OLS pentru si eroarea sa standard SE ( ) ;

* 2. Calculam valoarea statisticii test t = unde * este valoarea SE ( ) parametrului din ipoteza nula;

3. Fixam nivelul de semnificatie, de exemplu la 5% si gasim din tabelele repartitiei t (n 2) valoarea critica tcrt ; 4. Regula de decizie (testul unilateral dreapta): daca valoarea statisticii test t > tcrt , atunci suntem n regiunea de respingere a ipotezei nule si, prin urmare, acceptam ipoteza alternativa; daca valoarea statisticii test t < tcrt , atunci nu putem respinge ipoteza nula si nu putem accepta ipoteza alternativa!

Despre p-value naintea nceperii unui test statistic clasic, se pune problema alegerii unui nivel de semnificatie. Acesta exprima riscul maximal de a gresi pe care suntem dispusi sa-l acceptam (de regula 5%, 1% sau chiar mai mic) atunci cnd luam decizia de respingere a ipotezei nule. Softul modern ofera posibilitatea inversa. Anume, este evaluat riscul de a lua decizia gresita, pe baza datelor de care dispunem, ramnnd la latitudinea fiecaruia daca si asuma sau nu acest risc. Acest risc evaluat pe baza datelor apare n tabele, la fiecare test de semnificatie, si se numeste valoarea p (p-value).

4. Analiza variantei pentru modelul de regresie liniara cu k regresori (testul F al lui Fisher-Snedecor) Ne intereseaza sa evaluam, lund n considerare toate cele n puncte, expresia
SSE = ( yi yi )2

numita suma patratelor abaterilor (sau erorilor, vezi si criteriul ales pentru optimizare!) Pentru a evalua expresia, ne folosim de urmatoarea relatie evidenta yi y = ( yi y ) + ( yi yi ) Se demonstreaza ca egalitatea se pastreaza (atunci cnd folosim estimatii OLS) si pentru suma patratelor deviatiilor SST, adica

( y y) = ( y y) + (y y )
2 2 i i i i

sau, cu notatiile anterioare

SST = ( yi y ) + SSE
2

Daca ne punem problema compararii sumelor SST si SSE, vom constata ca 2 diferenta dintre ele este tocmai suma ( yi y ) . Aceasta este notata

SSR = ( yi y ) si reprezinta suma patratelor deviatiilor valorilor ajustate de la media y . Putem sa scriem astfel:
2

SST = SSR + SSE

despre care putem afirma ca exprima urmatoarea descompunere: Varianta totala = Varianta explicata prin valorile x + Varianta neexplicata Corespunzator descompunerii lui SST avem si o partitionare a gradelor de libertate. Astfel, SST are n 1 grade de libertate (deoarece din cele n puncte am estimat media y pierznd un grad de libertate) iar SSE are asociate n (k+1) grade de libertate (din cele n s-au pierdut k+1 prin estimarea celor k parametrii coeficienti ai variabilelor regresori plus termenul liber). Prim urmare, avnd urmatoarea partitionare:

SST = SSR + SSE , (n 1) k (n ( k + 1))


pentru SSR vor ramne k grad de libertate. Sumelor SSR, SSE le vom asocia mediile n raport cu gradele de libertate, SSE SSR adica MSR = si MSE = . k n (k + 1)

Se obisnuieste a se folosi urmatorul tabel numit al Analizei variantei (ANOVA) pentru modelul de regresie: Sursa variatiei Regresie Eroare Totala Grade de libertate
(k regresori)

k n (k+1) n 1

Suma patratelor (SS) SSR SSE SST

Media sumei Valoarea statisticii F* patratelor (MS) MSR MSR MSE MSE

MSR care (ca estimator) MSE urmeaza o distributie F cu k si respectiv n (k+1) grade de libertate. Obtinem, asanumitul test F (Snedecor-Fisher), ce se foloseste pentru verificarea existentei unei dependente liniare ntre variabila dependenta si cele k variabile independente.

Din acest tabel ne intereseaza n mod special raportul

Ipoteza nula (ce am vrea s-o respingem), se refera la toti parametrii modelului, mai putin termenul liber si are forma: H 0 : 1 = 2 = ... = k = 0 si alternativa H1 : nu toti parametrii sunt zero. Testul foloseste asa cum am afirmat, distributia F cu (k, n (k+1)) grade de libertate. Cum F are doar valori pozitive, si nu este simetrica, ipoteza nula este respinsa doar daca valoarea calculata F* depaseste valoarea critica Fcrt . Adica, pentru o eroare fixata , regula de decizie este urmatoarea: daca F * Fcrt atunci respingem ipoteza H 0 ; daca F * < Fcrt suntem n zona de acceptare a ipotezei nule. Valoarea critica Fcrt se obtine din tabelul distributiei F, mai precis Fcrt = F0.05;( n , n k 1) pentru nivelul de semnificatie fixat 5%. Evident, n tabelul ANOVA avem si coloana Significance F care da valoarea p al erorii pe care o facem prin respingerea ipotezei nule cnd ea este de fapt adevarata. Valori mici pentru valoarea p ne conduc la concluzia ca putem respinge ipoteza nula si deci acceptam ca adevarata ipoteza alternativa adica modelul de regresie este adecvat datelor.

S-ar putea să vă placă și