Sunteți pe pagina 1din 13

UNIVERSITATEA TRANSILVANIA

FACULTATEA AUDIT INTERN BRAŞOV

MASTERAT AUDIT INTERN

TESTUL F_t

Student : FLORICEL DANIELA

Braşov,
2010

2
1. Abordarea clasică – nu avem probleme speciale în date

Să presupunem că dispunem de informaţii privind venitul disponibil şi cererea


de consum la nivelul unei economii naţionale, pe un orizont de timp de 10 ani. Datele
sunt cele din tabelul 1.
Mld. USD
Consumul
Anul Venitul net
personal
2000 751.6 672.1
2001 779.2 696.8
2002 810.3 737.4
2003 864.7 767.9
2004 857.5 762.8
2005 874.9 779.4
2006 906.8 823.1
2007 942.9 864.3
2008 988.8 903.2
2009 1015.7 927.6

Tabelul 1. Date privind venitul şi consumul


Dorim să exprimăm printr-un model econometric, folosind datele din tabelul
1, legătura dintre venitul disponibil şi consum; apoi, odată modelul validat, să putem
să-l folosim pentru a face predicţii la nivel macroeconomic.
Avem doar o singură variabilă predictor. Este util să facem mai întâi o
reprezentare grafică de tip XY. Rezultatul cu aplicaţia Excel, este prezentat în figura 1.

Functia de consum

y = 0.979x - 67.28
950
2
R = 0.9916

900

850
Consumul

800

750

700

650
750 800 850 900 950 1000 1050

Venitul disponibil

Figura 1. Graficul venit disponibil vs. consum

3
Toate indiciile sunt în direcţia folosirii unui model clasic de regresie
(dependenţa pare liniară, erorile par a avea dispersia constantă, termenul liber pare a fi
diferit de zero).
Folosind un soft clasic, de exemplu modulul Regression din aplicaţia Excel,
obţinem următoarele rezultate (vezi tabelul 2).

SUMMARY OUTPUT
A. Bonitatea C. Estimaţii
modelului pentru
Regression Statistics
coeficienţi,
Multiple R 0.99580424
erorile lor
R Square 0.991626085
B. Descompunerea standard, testul
Adjusted R Square 0.990579346
varianţei totale, t, intervale de
Standard Error 8.244609296
testul F încredere
Observations 10

ANOVA
  df SS MS F Significance F
Regression 1 64394.61534 64394.62 947.3476758 1.34906E-09
Residual 8 543.7886595 67.97358
Total 9 64938.404      

  Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -67.28001865 28.08642902 -2.39546 0.043483476 -132.0474401 -2.5126
X Variable 1 0.978959122 0.031806059 30.77901 1.34906E-09 0.905614 1.052304

Tabelul 2. Output de regresie liniară simplă

Să analizăm pe rând rezultatele din casetele evidenţiate în tabelul 2.


Caseta A oferă informaţii despre coeficientul de determinaţie multiplă R 2
(Multiple R), coeficientul de corelaţie dintre valorile yi observate şi valorile yˆi ajustate
prin ecuaţia de regresie (R Square), şi coeficientul de determinaţie ajustat R 2 (Adjusted R
Square). Cu cât R 2 şi R 2 au valori mai apropiate de 1 cu atât regresia este mai bună.

Tot în caseta A avem informaţii despre eroarea standard estimată a modelului


s (Standard Error) ce estimează eroarea standard  şi numărul de observaţii din
eşantion.
Pentru aplicaţia noastră, cum toţi indicatorii de bonitate enumeraţi sunt
apropiaţi de 1, putem concluziona că modelul de regresie liniară simplă este bun.
Eroarea standard estimată prin eşantion este 8.24 iar numărul de observaţii este 10.
Caseta B, se referă la descompunerea varianţei totale (SST) a variabilei
dependente în două componente: varianţa explicată prin regresie (SSR) şi varianţa
neexplicată (SSE). Aici identificăm şi gradele de libertate asociate descompunerii,
mai precis, dacă avem k regresori în model şi n observaţii, avem egalitatea
n  1 = k + (n  ( k  1)) . În această casetă există două celule importante la care
trebuie să fim atenţi, şi anume: F şi Significance F. Valorile din aceste celule ne dau
elemente importante ce stau la baza validării modelului de regresie (în totalitatea sa).
Ele ne furnizează informaţii privind valoarea calculată a statisticii test F şi erorii pe
care putem s-o facem când respingem modelului de regresie ca fiind neadecvat.

4
Regula de decizie privind acceptarea modelului este: valori mari pentru statistica test
F şi valori mici pentru Significance F.
Pe datele noastre, cum F = 947.3476758 este o valoare foarte mare şi
Significance F = 1.34906E-09, deci o valoare foarte mică, acceptăm că modelul ales
ajustează bine datele din eşantion.
Caseta C ne oferă informaţii despre valorile estimate ale coeficienţilor
modelului de regresie în coloana Coefficients, erorile standard ale coeficienţilor în
coloana Standard Error, elemente pentru aplicarea testului de semnificaţie t-Student
pentru fiecare coeficient (coloanele t Stat şi P-value.). Tot aici avem informaţii despre
intervalele de încredere calculate pentru fiecare coeficient din modelul de regresie.
Cum analizăm informaţiile din această casetă?
1) Pentru ca un coeficient să fie semnificativ diferit de zero, deci variabila
regresor asociată lui să influenţeze variabila dependentă, trebuie ca în coloana P-value
să avem valori mici, de exemplu 5% sau sub 5% (evident în coloana t Stat avem
atunci valori mari, în modul). Concret, pentru termenul liber al modelului ( Intercept)
avem P-value = 0.043, adică putem afirma că dacă respingem ipoteza că interceptul
este egal cu zero, facem o eroare doar de 4%. Respingem deci această afirmaţie şi
acceptăm ca adevărată ipoteza că interceptul este diferit de zero. (Analog, ajungem la
concluzia că şi panta dreptei de regresie este diferită statistic de zero).
2) Ultimele două coloane ne dau informaţii privind intervalele de încredere
95% pentru fiecare coeficient al modelului. Astfel, pentru termenul liber (teoretic) al
modelului obţinem intervalul (-132.0474401, -2.5126). Analog, pentru panta ecuaţiei de
regresie avem intervalul de încredere (0.905614, 1.052304). Este foarte important faptul că
nici unul dintre aceste intervale de încredere nu conţine pe 0, suntem încurajaţi astfel
în a afirma că modelul este bun.

2. Testarea ipotezelor: câteva concepte


O ipoteză statistică este o afirmaţie despre un parametru care descrie o
populaţie (sau despre distribuţia valorilor unei variabile asociate). Adevărul acestei
afirmaţii poate fi testat cu ajutorul unui eşantion extras din populaţie.
De regulă, se emite o aşa-numită ipoteză nulă, adică o afirmaţie despre
valoarea parametrului, notată tradiţional H 0 , care se referă la valoarea cea mai
nefavorabilă (faţă de valoarea reală).
Ipotezei nule i se asociază aşa-numita ipoteză alternativă, notată cu H1 prin
care se afirmă faptul că parametrul ia alte valori decât cea din ipoteza nulă.
Se urmăreşte respingerea ipotezei nule, pentru ca prin aceasta să se accepte
automat ipoteza alternativă (ca adevărată).
Prin testarea ipotezei (sau testul statistic) se înţelege o evaluare statistică a
deciziei de respingere a ipotezei nule H 0 .
Etapele testării unei ipoteze statistice sunt următoarele:
 Formularea ipotezei nule şi a celei alternative;
 Alegerea nivelului de semnificaţie al testului;
 Alegerea statisticii adecvate şi determinarea distribuţiei valorilor ei, în
condiţiile în care ipoteza nulă este adevărată;
 Definirea regiunii critice (de respingere) şi stabilirea regulii de decizie;

5
 Efectuarea calculelor pe baza datelor dintr-un eşantion şi luarea deciziei.
Pentru testarea ipotezelor statistice în cazul parametrilor modelului liniar de
regresie (simplă) există două abordări:
1. abordarea „punctuală” prin testul de semnificaţie;
2. abordarea prin construirea intervalelor de încredere.

3. Testul de semnificaţie
Să revenim la modelul de regresie
yi     xi  ei i  1, 2,...., n

pentru care dorim să evaluăm statistic valoarea parametrului  .


A) Despre ipoteze
Ipoteza nulă poate fi formulată astfel:
H0 :    *

în care  * este o valoare particulară pe care o poate lua parametrul modelului (de
regulă valoarea cea mai nefavorabilă).

Ipoteza alternativă poate să aibă una dintre formele:


a) H1 :    * (ipoteza bilaterală);

b) H1 :    * sau H1 :    * (ipoteze unilaterale).

B) Despre nivelul de semnificaţie


Să considerăm cele două decizii posibile:
Decizia
Situaţia reală H 0 nu este respinsă H 0 este respinsă
(este acceptată?)
H 0 este adevărată Decizia corectă Decizia incorectă
(Riscul de genul I,  )
H1 este adevărată Decizia incorectă Decizia corectă
(Riscul de genul II)
Nivelul de semnificaţie este riscul acceptat de genul I. Acesta este de regulă
mic, de ordinul 5%, 1% sau chiar mai mic. Dacă alegem nivelul de semnificaţie
5% , putem afirma că încrederea acordată rezultatului statistic obţinut este de 95% .

C) Determinarea distribuţiei folosite (alegerea statisticii test)

Dacă testăm o ipoteză statistică (aplicăm un test de semnificaţie) asupra


parametrului  din modelul de regresie, ne bazăm pe cele cinci ipoteze cerute
modelului şi pe următorul rezultat statistic asociat estimatorului OLS ̂ :
ˆ  
1) variabila aleatoare are o distribuţie normală standard N (0,1) ;
Var ( ˆ )

6
1
2) eroarea standard a estimatorului este SE ( ˆ )  s .
 ( xi  x )2
Din afirmaţiile 1) şi 2) se obţine un rezultat statistic important şi anume:
ˆ  
Statistica test pe care putem s-o folosim este . Ea are o repartiţie t cu n
SE ( ˆ )
ˆ  
-2 grade de libertate, adică t (n  2) (rezultat statistic important pe care nu îl
SE ( ˆ )
demonstrăm!)
D) Determinarea regiunii critice
Dacă nivelul de semnificaţie este fixat la 5%, pe baza statisticii test folosite,
regiunile de respingere pentru cele trei situaţii
a) H1 :    *

b) H1 :    * ;

c) H1 :    *
sunt prezentate în figurile 1a-c).

a) b)

c)
Figura 1
Am notat cu tcrt valoarea critică a statisticii test, mai precis acea valoare
(obţinută din tabele) care marchează regiunea de respingere. (Această regiune de
respingere este formată din două intervale, ( , tcrt ) şi (tcrt , ) , în prima situaţie.)
Etapele testului de semnificaţie pentru
Ipoteza nulă H0 :    *

7
Ipoteza alternativă H1 :    *
sunt prezentate în caseta următoare:

1. Obţinem estimaţii OLS pentru ̂ şi eroarea sa standard SE ( ˆ ) ;

ˆ   *
2. Calculăm valoarea statisticii test tˆ  unde  * este valoarea
SE ( ˆ )
parametrului din ipoteza nulă;
3. Fixăm nivelul de semnificaţie, de exemplu la 5% şi găsim din tabelele
repartiţiei t (n  2) valoarea critică tcrt ;
4. Regula de decizie (testul unilateral dreapta):
 dacă valoarea statisticii test tˆ  tcrt , atunci suntem în regiunea de
respingere a ipotezei nule şi, prin urmare, acceptăm ipoteza
alternativă;
 dacă valoarea statisticii test tˆ  tcrt , atunci nu putem respinge
ipoteza nulă şi nu putem accepta ipoteza alternativă!

Despre p-value

Înaintea începerii unui test statistic clasic, se pune problema alegerii unui nivel
de semnificaţie. Acesta exprimă riscul maximal de a greşi pe care suntem dispuşi să-l
acceptăm (de regulă 5%, 1% sau chiar mai mic) atunci când luăm decizia de
respingere a ipotezei nule.
Softul modern oferă posibilitatea „inversă”. Anume, este evaluat riscul de a
lua decizia greşită, pe baza datelor de care dispunem, rămânând la latitudinea
fiecăruia dacă îşi asumă sau nu acest risc. Acest risc evaluat pe baza datelor apare în
tabele, la fiecare test de semnificaţie, şi se numeşte valoarea p (p-value).

8
4. Analiza varianţei pentru modelul de regresie liniară cu k regresori (testul
F al lui Fisher-Snedecor)

Ne interesează să evaluăm, luând în considerare toate cele n puncte, expresia


SSE   ( yi  yˆi ) 2

numită suma pătratelor abaterilor (sau erorilor, vezi şi criteriul ales pentru
optimizare!)
Pentru a evalua expresia, ne folosim de următoarea relaţie evidentă
yi  y  ( yˆi  y )  ( yi  yˆi )
Se demonstrează că egalitatea se păstrează (atunci când folosim estimaţii
OLS) şi pentru suma pătratelor deviaţiilor SST, adică

 ( y  y )   ( yˆ  y )   ( y  yˆ )
2 2 2
i i i i

sau, cu notaţiile anterioare


SST   ( yˆi  y )  SSE
2

Dacă ne punem problema comparării sumelor SST şi SSE, vom constata că


diferenţa dintre ele este tocmai suma  ( yˆi  y ) . Aceasta este notată
2

SSR   ( yˆi  y ) şi reprezintă suma pătratelor deviaţiilor valorilor ajustate de la


2

media y .
Putem să scriem astfel:
SST  SSR  SSE
despre care putem afirma că exprimă următoarea descompunere:

Varianţa totală = Varianţa explicată prin valorile x + Varianţa neexplicată

Corespunzător descompunerii lui SST avem şi o partiţionare a gradelor de


libertate. Astfel, SST are n –1 grade de libertate (deoarece din cele n puncte am
estimat media y pierzând un grad de libertate) iar SSE are asociate n – (k+1) grade de
libertate (din cele n s-au pierdut k+1 prin estimarea celor k parametrii coeficienţi ai
variabilelor regresori plus termenul liber). Prim urmare, având următoarea
partiţionare:
SST  SSR  SSE
,
( n  1) k (n  (k  1))
pentru SSR vor rămâne k grad de libertate.
Sumelor SSR, SSE le vom asocia mediile în raport cu gradele de libertate,
SSR SSE
adică MSR  şi MSE  .
k n  (k  1)

9
Se obişnuieşte a se folosi următorul tabel numit al Analizei varianţei
(ANOVA) pentru modelul de regresie:

Sursa Grade de libertate Suma Media sumei Valoarea


variaţiei (k regresori) pătratelor pătratelor statisticii F*
(SS) (MS)
Regresie k SSR MSR MSR
MSE
Eroare n – (k+1) SSE MSE
Totală n –1 SST

MSR
Din acest tabel ne interesează în mod special raportul care (ca
MSE
estimator) urmează o distribuţie F cu k şi respectiv n – (k+1) grade de libertate.
Obţinem, aşa-numitul test F (Snedecor-Fisher), ce se foloseşte pentru verificarea
existenţei unei dependenţe liniare între variabila dependentă şi cele k variabile
independente. Ipoteza nulă (ce am vrea s-o respingem), se referă la toţi parametrii
modelului, mai puţin termenul liber şi are forma:
H 0 : 1   2  ...   k  0
şi alternativa
H1 : nu toţi parametrii sunt zero.
Testul foloseşte aşa cum am afirmat, distribuţia F cu (k, n – (k+1)) grade de
libertate. Cum F are doar valori pozitive, şi nu este simetrică, ipoteza nulă este
respinsă doar dacă valoarea calculată F* depăşeşte valoarea critică Fcrt . Adică, pentru
o eroare fixată  , regula de decizie este următoarea:
dacă F *  Fcrt atunci respingem ipoteza H 0 ;
dacă F *  Fcrt suntem în zona de acceptare a ipotezei nule.

Valoarea critică Fcrt se obţine din tabelul distribuţiei F, mai precis


Fcrt  F0.05;( n, n k 1) pentru nivelul de semnificaţie fixat 5%.

Evident, în tabelul ANOVA avem şi coloana Significance F care dă valoarea


p al erorii pe care o facem prin respingerea ipotezei nule când ea este de fapt
adevărată. Valori mici pentru valoarea p ne conduc la concluzia că putem respinge
ipoteza nulă şi deci acceptăm ca adevărată ipoteza alternativă adică modelul de
regresie este adecvat datelor.

10
11
12
13

S-ar putea să vă placă și