Sunteți pe pagina 1din 20

CURS ECONOMETRIE

Unitatea de nvare 2:
FUNDAMENTAREA DECIZIILOR FOLOSIND TESTAREA IPOTEZELOR
STATISTICE

Cuprins:

1. Ce am nvat n Unitatea de nvare 1


2. Obiectivele Unitii de nvare 2
3. Concepte generale n testarea ipotezelor statistice
4. Repartiii teoretice remarcabile
5. Testarea ipotezei cu privire la legea de repartiie a unei variabile aleatoare
6. Rspunsuri i comentarii la testele de autoevaluare
7. Bibliografia Unitii de nvare 2
8. Lucrare de verificare 2

1. Ce am nvat n Unitatea de nvare 1


Econometria poate fi definit ca analiza cantitativ a fenomenelor economice actuale
bazat pe dezvoltarea n paralel a teoriilor i observaiilor relativ la metodele de inferen
potrivite (P.A. Samuelson, T.C. Koopmans, J.R.N. Stone Econometrica 1954)
Modelul econometric: Descrie, cu ajutorul unui set de simboluri, relaiile de dependen
dintre fenomenele economice, pe baza unei ecuaii sau a unui sistem de ecuaii, permind
nelegerea, explicarea sau obinerea de informaii noi privind comportamentul fenomenelor
cercetate.
Variabilele economice determin structura modelului econometric: variabile exogene sau
variabile endogene
Variabila aleatoare (): sintetizeaz totalitatea variabilelor (n afara celor factoriale) care
influeneaz variabila endogen, dar nu sunt specificate n cadrul modelului (factori aleatori)
Variabila timp (t) se introduce n anumite modele econometrice ca variabil fictiv.

ntr-un model econometric, un fenomen oarecare X=(x1, x2, ...,xn) poate fi introdus cu
urmtoarele valori:

Valori reale (xi), sunt mrimi concrete, pozitive, exprimate n uniti de msur
specifice naturii fenomenului cu media x i dispersia x2

Valori centrate : xi* = xi x cu media 0 i dispersia x2

Valori centrate i normate: xi** =

xi x

cu media 0 i dispersia 1

Tipuri de date:

date de tip profil : "tieturi informaionale" efectuate ntr-o populaie la un moment dat

date de tip serii de timp: "seciuni informaionale" de-a lungul axei timpului

date de tip panel: "tieturi informaionale mixte" transversale i longitudinale, n

raport cu axa timpului.


Relaiile statistice pe care se formuleaz modelul econometric pot fi:

relaii de identitate: sunt formulri logice cu privire la procesul economic descris

relaii de comportament: ecuaii stochastice care modeleaz rspunsul variabilei

endogene Y la un set de valori ale variabilei exogene X;

relaii tehnologice: restriciile impuse output-urilor n raport cu input-urile

relaii instituionale: reflect unele reglementri impuse de lege

Tipologia modelelor econometrice


1. dup numrul factorilor luai n considerare

modele unifactoriale: Y = f(X)+

modele multifactoriale: Y = f(X1,X2,...,Xp)+

2. dup forma legturii dintre variabila rezultativ i variabilele cauz

modele liniare

modele neliniare

3. dup sfera de cuprindere a modelului

modele globale (agregate)

modele pariale

4. dup includerea factorului timp n model

modele statice: Yt = f(X1t,...,Xjt,...,Xkt) + t

modele dinamice: Yt = f(Xt,t) + t ; Yt = f(Xt,Yt-k) + t ;Yt = f(Xt,Xt-1,... Xt-k) + t

5. Dup numrul de ecuaii din model

modele cu o singur ecuaie: toate modelele prezentate anterior

modele cu ecuaii multiple: sunt formate dintr-un sistem de ecuaii

2. Obiectivele Unitii de nvare 2


Dup studiul acestei uniti de nvare vei avea cunotine despre:
1. Noiunile generale privind testarea ipotezelor statistice
2. Repartiiile Normal, Student, 2 , Fisher
3. Testarea legii de repartiie a unei variabile aleatoare

3. Concepte generale n testarea ipotezelor statistice

Procesul de luare a deciziilor presupune analiza, judecarea i interpretarea evidenelor


oferite de datele pe care le avem la dispoziie. Managerii trebuie s fie pregtii s ia decizii
privind aciunile viitoare pe baza informaiilor disponibile. Astfel ei emit ipoteze pe care le
pot testa tiinific utiliznd metodele i tehnicile statistice.

Testarea ipotezelor statistice reprezint o alt modalitate, alturi de estimaia pe interval


de ncredere, de a realiza inferena statistic. Scopul acestui tip de inferene statistice este s
determinm dac exist suficiente dovezi statistice care s ne permit s concluzionm c o
afirmaie (sau o ipotez) despre un parametru este adevrat.

Exemplu
Sute de produse noi sunt lansate n fiecare an. Dintr-o varietate de motive, multe dintre
acestea nu reuesc s cucereasc piaa. De aceea, produsele care ajung n stagiul final de
lansare pe pia sunt evaluate de specialitii n marketing, care doresc s fac predicii asupra
succesului produselor (cu alte cuvinte, ct de bine se vor vinde). Evident, informaii complete
i sigure nu se pot obine i atunci specialitii vor dori s trag concluzii valide, pe baza
datelor disponibile din cercetri pariale. S presupunem c un lan de magazine dorete s
vnd un nou produs lansat pe pia i sper s aib succes. Dup o analiz financiar,
specialitii determin c, dac mai mult de 10% dintre potenialii cumprtori vor cumpra
produsul, lanul de magazine va obine profit. Un eantion aleator de clieni poteniali este
selectat i persoanele sunt ntrebate dac ar cumpra produsul. Procedeul de eantionare i de
culegere a datelor este cunoscut, din capitolele precedente, iar parametrul reprezint proporia
clienilor care ar cumpra produsul. Testarea ipotezei statistice se refer, atunci, la a
determina dac proporia cumprtorilor este mai mare de 10%.
3

n urma prelevrii unui eantion dintr-o populaie statistic, prin prelucrarea datelor
provenite din sondaj se obine un estimator al parametrului urmrit n populaia de origine. Se
pune atunci problema n ce msur parametrul estimat pe baza rezultatelor sondajului asigur
credibilitatea aprecierilor fcute asupra ntregii colectiviti. Estimatorul este, aadar, o
presupunere asupra parametrului, deci o ipotez statistic. Nu este nevoie s testm ipoteze
statistice atunci cnd tim totul despre un fenomen, ci doar cnd exist incertitudine.

Ipoteza statistic este ipoteza care se face cu privire la parametrul unei repartiii sau la
legea de repartiie pe care o urmeaz anumite variabile aleatoare. O ipotez statistic nu este
neaprat adevrat. Ea poate fi corect sau greit.

n statistic, ipotezele apar ntotdeauna n perechi: ipoteza nul i ipoteza alternativ.


Ipoteza statistic ce urmeaz a fi testat se numete ipotez nul i este notat, uzual, H0. Ea
const ntotdeauna n admiterea caracterului ntmpltor al deosebirilor, adic n presupunerea
c nu exist deosebiri eseniale. Respingerea ipotezei nule care este testat implic acceptarea
unei alte ipoteze. Aceast alt ipotez este numit ipotez alternativ, notat H1. Cele dou
ipoteze reprezint teorii, mutual exclusive i exhaustive, asupra valorii parametrului
populaiei sau legii de repartiie. Spunem c ele sunt mutual exclusive deoarece este
imposibil ca ambele ipoteze s fie adevrate. Spunem c ele sunt exhaustive deoarece
acoper toate posibilitile, adic ori ipoteza nul, ori ipoteza alternativ trebuie s fie
adevrat.

Procedeul de verificare a unei ipoteze statistice se numete test sau criteriu de


semnificaie. O secven general de pai se aplic la toate situaiile de testare a ipotezelor
statistice. Exist patru componente principale ale unui test privind o ipotez:
ipoteza nul;
ipoteza alternativ;
testul statistic;
regiunea critic (de respingere).

Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul rmne
acelai, parcurgndu-se urmtorii pai:

1) Se identific ipoteza statistic special despre parametrul populaiei sau legea de


repartiie (H0). Ipoteza statistic numit i ipotez nul specific ntotdeauna o singur
valoare a parametrului populaiei i reprezint status- quo-ul, ceea ce este acceptat pn se
dovedete a fi fals.

2) ntotdeauna ipoteza nul este nsoit de ipoteza alternativ (de cercetat), H1, ce
reprezint o teorie care contrazice ipoteza nul. Ea va fi acceptat doar cnd exist
suficiente dovezi, evidene, pentru a se stabili c este adevrat.
Ipoteza alternativ este cea mai important, deoarece este ipoteza care ne rspunde la
ntrebare. Ipoteza alternativ poate cpta trei forme, care rspund la trei tipuri de ntrebri
referitoare la parametrul studiat:
- dac parametrul este diferit (mai mare sau mai mic) dect valoarea specificat n ipoteza
nul;
- dac parametrul este mai mare dect valoarea specificat n ipoteza nul;
- dac parametrul este mai mic dect valoarea specificat n ipoteza nul;

3) Se calculeaz indicatorii statistici n eantion, utilizai pentru a accepta sau a respinge


ipoteza nul i se determin testul statistic ce va fi utilizat drept criteriu de acceptare sau de
respingere a ipotezei nule.
Pentru cele mai multe testri statistice ale ipotezelor, testul statistic este derivat din
estimatorul punctual al parametrului ce va fi testat. Spre exemplu, deoarece media
eantionului este un estimator punctual al mediei din colectivitatea general, ea va fi utilizat
n testarea ipotezelor privind parametrul media colectivitii generale.

4) Se stabilete regiunea critic, Rc. Regiunea critic reprezint valorile numerice ale
testului statistic pentru care ipoteza nul va fi respins. Regiunea critic este astfel aleas nct
probabilitatea ca ea s conin testul statistic, cnd ipoteza nul este adevrat, s fie , cu
mic (=0.01 etc). Verificarea ipotezei nule se face pe baza unui eantion de volum n, extras
din populaia X, care este o variabil aleatoare. Dac punctul definit de vectorul de sondaj
x1,x2,,xn cade n regiunea critic Rc, ipoteza H0 se respinge, iar dac punctul cade n afara
regiunii critice Rc, ipoteza H0 se accept. Regiunea critic este delimitat de valoarea critic,
C punctul de tietur n stabilirea acesteia.

n baza legii numerelor mari, numai ntr-un numr foarte mic de cazuri punctul rezultat
din sondaj va cdea n Rc, majoritatea vor cdea n afara regiunii critice. Nu este ns exclus
ca punctul din sondaj s cad n regiunea critic, cu toate c ipoteza nul despre parametrul
populaiei este adevrat. Cu alte cuvinte, atunci cnd respingem ipoteza nul, trebuie s ne
gndim de dou ori, deoarece exist dou posibiliti: ea este fals ntr-adevr i ea este totui
adevrat, dei pe baza datelor din sondaj o respingem.
La fel i pentru situaia n care acceptm ipoteza nul H0. Cnd ipoteza nul nu poate fi
respins (nu exist suficiente dovezi pentru a fi respins), sunt dou posibiliti: ipoteza nul
este adevrat i ipoteza nul este totui fals, greit, dei nu am respins-o. De aceea, este
mai corect s spunem c pe baza datelor din eantionul studiat, nu putem respinge ipoteza
nul, dect s spunem c ipoteza nul este adevrat.

Eroarea pe care o facem eliminnd o ipotez nul, dei este adevrat, se numete eroare
de genul nti. Probabilitatea comiterii unei astfel de erori reprezint riscul de genul nti
() i se numete nivel sau prag de semnificaie.

Nivelul de ncredere al unui test statistic este (1-), iar n expresie procentual, (1-)100
reprezint probabilitatea de garantare a rezultatelor.

Eroarea pe cere o facem acceptnd o ipotez nul, dei este fals, se numete eroare de
genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se noteaz cu .
Puterea testului statistic este (1-).

Tabelul 1 ilustreaz legtura dintre decizia pe care o lum referitor la ipoteza nul i
adevrul sau falsitatea acestei ipoteze.

Decizia de acceptare
H0
H1

Tabelul 1 Erorile n testarea ipotezelor statistice


Ipoteza adevrat
H0
H1
Decizie corect
Eroare de gen II
(probabilitate 1-)
(risc )
Decizie corect
Eroare de gen I
)
(risc
(probabilitate 1-)

Cu ct probabilitile comiterii erorilor de genul nti i de genul al doilea sunt mai mici,
cu att testul este mai bun. Acest lucru se poate realiza prin mrirea volumului eantionului, n.
Nivelurile riscurilor se stabilesc n funcie de considerente economice i de natura testului.
Am vzut c:
= P(respingere H0 | H0 este corect) = P(eroare de gen I)
= P(acceptare H0 | H0 este fals) = P(eroare de gen II)
Alegerea nivelului (pragului) de semnificaie depinde i de costurile asociate cu
producerea unei erori de genul I.

Exemplu
Pragul de semnificaie ales de o firm ce fabric ngheat, interesat n greutatea medie a
cutiilor de ngheat va putea fi diferit de pragul de semnificaie ales de o companie
farmaceutic, interesat de cantitatea medie a unui ingredient activ dintr-un tip de
medicament. Evident, costul n prima situaie prezentat este mult mai mic, comparativ cu
costul asociat n cazul producerii unei erori de genul I pentru compania farmaceutic: o cantitate prea mic de ingredient activ poate face medicamentul ineficient; o cantitate prea mare
de ingredient activ poate cauza efecte secundare, duntoare sau poate avea, chiar, efecte
letale.

Similar, exist costuri asociate cu producerea unei erori de genul al II-lea. ntre eroarea de
genul I i eroarea de genul al II-lea exist o legtur, o condiionare. O modalitate de a
vizualiza aceast legtur este s presupunem c exist doar dou distribuii care ne
intereseaz. O distribuie corespunde ipotezei nule H0, iar cealalt corespunde ipotezei
alternativei H1. n acest caz, presupunem c i ipoteza nul i cea alternativ sunt ipoteze
simple. ntr-o manier uor de neles, s considerm c ipoteza nul este de forma H0: =0,
iar ipoteza alternativ este de forma H1:=1 (figura 1):

f(x)
H0

H1

0 C

Figura 1 - Legtura dintre probabilitile i

Pe grafic se observ c cele dou distribuii se suprapun i, din procesul de testare a


ipotezei nule, pot rezulta dou tipuri de erori.

Eroarea de genul I apare atunci cnd respingem ipoteza nul H0, n situaia n care, de fapt,
aceasta este adevrat. Adic, dei distribuia lui x este cea corespunztoare ipotezei H0,
respingem H0, deoarece media de sondaj este mai mare dect valoarea critic, C, i se situeaz n
regiunea critic. Probabilitatea comiterii unei astfel de erori ( ) este aria de sub curba de distribuie H0, care se situeaz la dreapta valorii critice C. Deseori, cnd lucrm cu soft-ware
specializat, ntlnim valoarea-p (p-value). Aceasta reprezint nivelul observat de
semnificaie, adic cel mai mic nivel la care H0 poate fi respins pentru un set de valori date.

Eroarea de genul al doilea apare atunci cnd nu respingem (adic acceptm) H0, dei H1
n loc de H0 este corect. n acest caz, dei distribuia lui x este cea corespunztoare ipotezei
H1, acceptm H0 deoarece media de sondaj este mai mic dect valoarea critic, C (nu se afl n
regiunea critic). Probabilitatea comiterii unei astfel de erori () este aria de sub curba de
distribuie H1, care se situeaz la stnga valorii critice, C.
Dac alegem un prag de semnificaie, , mai mic (adic reducem riscul comiterii unei
erori de genul nti), va crete (riscul comiterii unei erori de genul al doilea). Cu toate
acestea, prin creterea volumului n al eantionului, este posibil s reducem riscul , fr a
crete riscul .

Cum s x = s x

, o dat cu creterea volumului n al eantionului, abaterile medii ptratice

ale distribuiilor pentru H0 i H1 devin mai mici i, evident, att , ct i descresc (figura 2).

f(x)
H0

H1

0 C

Figura 2 - i cnd volumul eantionului n' > n


5) Dup ce am stabilit pragul de semnificaie i regiunea critic, trecem la pasul urmtor,
n care vom face principalele presupuneri despre populaia sau populaiile ce sunt
eantionate (normalitate etc.).
6) Se calculeaz apoi testul statistic i se determin valoarea sa numeric, pe baza
datelor din eantion.
7) La ultimul pas, se desprind concluziile: ipoteza nul este fie acceptat, fie respins,
astfel:

dac valoarea numeric a testului statistic cade n regiunea critic (Rc),


respingem ipoteza nul i concluzionm c ipoteza alternativ este adevrat.
Vom ti c aceast decizie este incorect doar n 100 % din cazuri;

dac valoarea numeric a testului nu cade n regiunea critic (Rc), se accept


ipoteza nul H0.

Ipoteza alternativ poate avea, aa cum am artat, una din trei forme (pe care le vom
exemplifica pentru testarea egalitii parametrului media colectivitii generale, cu
valoarea 0):
i) s testm dac parametrul din colectivitatea general (media ) este egal cu o anumit
valoare (inclusiv zero, 0), cu alternativa media diferit de valoarea 0. Atunci:
H0: = 0,
H1: 0 ( < 0 sau > 0)
i acest test este un test bilateral;

ii) s testm ipoteza nul = 0, cu alternativa media este mai mare dect 0.
H0: = 0,
H1: > 0,
9

care este un test unilateral dreapta;

iii) s testm ipoteza nul = 0, cu alternativa media este mai mic dect 0.
H0: = 0,
H1: < 0,
care este un test unilateral stnga.

Regiunea critic pentru testul bilateral difer de cea pentru testul unilateral. Cnd
ncercm s detectm o diferen fa de ipoteza nul, n ambele direcii, trebuie s stabilim o
regiune critic Rc n ambele cozi ale distribuiei de eantionare pentru testul statistic. Cnd
efectum un test unilateral, vom stabili o regiune critic ntr-o singur parte a distribuiei de
eantionare, astfel (figura 3):

/2

/2

a)

b)

c)

Figura 3 Regiunea critic pentru:


a) test bilateral; b) test unilateral dreapta; c) test unilateral stnga

Test de autoevaluare 1
1. ntr-un proces de verificare a ipotezelor statistice nivelul de ncredere reprezint
probabilitatea:
a)
b) 1-
c)
d) 1-
e) +

2. ntr-un proces de testare a ipotezelor statistice, eroarea de genul al doilea este:


f) eroarea pe care o facem acceptnd ipoteza nul cnd ea este adevrat;

10

g) eroarea pe care o facem acceptnd ipoteza alternativ cnd ea este fals;


h) eroarea pe care o facem acceptnd ipoteza nul cnd ea este fals;
i) eroarea pe care o facem eliminnd ipoteza nul cnd ea este adevrat;
j) eroarea pe care o facem eliminnd ipoteza alternativ atunci cnd ea este fals.

3. ntr-un proces de testare a ipotezelor statistice, eroarea de genul nti este:


a) eroarea pe care o facem acceptnd ipoteza nul cnd ea este adevrat;
b) eroarea pe care o facem acceptnd ipoteza nul atunci cnd ea este fals;
c) eroarea pe care o faccem acceptnd ipoteza alternativ cnd ea este adevrat;
d) eroarea pe care o facem eliminnd ipoteza nul atunci cnd ea este adevrat;
e) eroarea pe care o facem eliminnd ipoteza alternativ atunci cnd ea este adevrat.

4. Repartiii teoretice remarcabile

1. Curba normal reprezint grafic densitatea de probabilitate a repartiiei normale.


Pentru repartiia normal standard se obine imaginea urmtoare, mai cunoscut sub
denumirea de clopotul lui Gauss.

Figura 4 - Curba lui Gauss

Utilitatea acestei repartiii se datoreaz mai multor cauze, printre care:

11

Multe fenomene aleatoare din natur se supun exact sau aproximativ acestei legi.
Astfel, deviaiile stnga-dreapta de la medie ale erorilor de msurare urmeaz aceast
lege simetric i cu proprietatea c, erori din ce n ce mai mari sunt din ce n ce mai
rare.
O teorem foarte important, teorema limit central, asigur acestei repartiii un rol
privilegiat prin faptul c suma unui numr mare de variabile aleatoare
independente una de alta, dar identic repartizate, este repartizat Gauss sau
aproximativ Gauss. Aceast teorem ne asigur de exemplu, de faptul c, media
calculat pe un lot are o repartiie Gauss sau apropiat.
S-a demonstrat c multe repartiii empirice ntlnite n practic pot fi aduse la o
repartiie Gauss prin transformri simple i n felul acesta devin mai uor de studiat.
2. Densitatea Student este o repartiie care intervine mult n aplicaiile referitoare la
testele statistice. Are o form simetric i seamn ca aspect cu distribuia Gauss standard.
Este n realitate o familie infinit de repartiii, pentru fiecare n, numr de grade de
libertate (df), avnd o form diferit.

Figura 5 - Curbe de repartiie Student corespunztor la 3, 6 i n>120 grade de


libertate.
Aceast densitate are proprietatea c are un maxim n 0 i este simetric stnga-dreapta
lui 0, ca form. Are un aspect cu att mai aplatizat cu ct numrul de grade de libertate este
mai mic. Dei pare s se asemene cu curba lui Gauss, a densitii normale, n realitate, ntre
ele este o diferen.

12

Cnd numrul de grade de libertate tinde la infinit, aspectul ei se apropie tot mai mult de
forma repartiiei Gauss.
3. Repartiia chi ptrat este o repartiie care intervine mult n calculul i testele statistice
referitoare la disperiile i deviaiile standard ale variabilelor aleatoare. Se tie c pentru
calculul dispersiilor trebuie sumate ptratele celor n diferene dintre valorile dintr-o serie de
date i media lor. Cum toate aceste diferene pot fi de multe ori asimilate unor variabile
aleatoare distribuite Gauss cu media 0 i abaterea standard s, a populaiei din care provine
eantionul, suma ptratelor este o variabil aleatoare repartizat chi ptrat. Se spune c avem
o repartie chi ptrat cu dispersia s2 i cu n grade de libertate.
Graficul repartiiei chi ptrat este asimetric, cu att mai asimetric cu ct n este mai mic. n
figura 6, sunt desenate graficele a patru repartiii chi ptrat, corespunztor la un numr de
grade de libertate n=2, n=5, n=15 i n=25. Se observ c odat cu creterea lui n, graficul
devine din ce n ce mai simetric.

Figura 6 - Curbe de repartiie 2

4. Repartiia Fisher este introdus ca o repartiie util n testarea ipotezelor statistice


privind compararea a dou dispersii. Repartiia F depinde de doi parametri, 1 i 2, ambii
avnd semnificaia unor grade de libertate. Notaia uzual este F(1, 2) sau F1; 2.

13

Figura 6 - Curbe de repartiie F

5. Testarea ipotezei cu privire la legea de repartiie a unei variabile aleatoare

Pn acum am presupus c repartiia teoretic a variabilei aleatoare X este specificat, iar


n cele mai multe cazuri este repartiia normal.
De foarte multe ori chiar specificarea repartiiei reprezint o ipotez care trebuie
verificat. De aceea, practica statistic pune problema realizrii unei legturi ntre variabila
empiric (de selecie) X * i variabila teoretic X .
Fie variabilele:

x
X * : 1
n1

x 2 K xi K x k
;
n2 K ni K nk

n
i =1

x
.
= 1 , i X :
f ( x)

Se va cerceta dac irul numeric al frecvenelor absolute empirice ni reflect legea


ipotetic a variabilei teoretice X , concretizat n funcia f ( x; a1 ,..., a k ) .

Rezolvarea acestei probleme presupune parcurgerea urmtoarelor etape:


1. Estimarea parametrilor, fcut innd seama de eventualele semnificaii pe care le pot
avea n legtur cu caracteristicile distribuiei teoretice i de calitile estimaiei respective.

2. Se construiete, dup estimarea parametrilor, variabila pseudo-teoretic:

x 2 K xi K x k
x
;
X ' : 1
n'1 n' 2 K n'i K n' k

n'
i =1

empiric X * i variabila teoretic X .


14

= 1 , fcndu-se legtura ntre variabila

Determinarea frecvenelor absolute calculate ni este realizat prin intermediul funciei de


probabilitate, folosind relaia:
ni*
= f ( x; a1 ,..., a k ) , de unde ni* = ni f ( x; a1 ,..., a k ) , i = 1,..., n .
ni
Datorit unor proprieti ale au funciilor de probabilitate f (x ) pentru determinarea
frecvenelor calculate n' i , de cele mai multe ori se folosesc formulele de recuren, porninduse de la valoarea dominant (cu maximum de probabilitate a realizrii argumentului).

3. Verificarea ipotezei H 0 de concordan ntre repartiia empiric i repartiia teoretic,


ipotez ce se verific folosind aa-numitele teste de concordan .
Testul de concordan 2 :

a)

( ni n ' i ) 2
Studiind funcia =
, K.Pearson a artat c, n cazul unui sondaj cu
n' i
i =1
k

revenire n populaia studiat, cnd probabilitile pi nu sunt apropiate de 0 sau 1, iar


produsele n ' i = ni pi , unde pi = f ( xi ) , dup estimarea parametrilor, nu sunt prea mici
(practic nu sunt mai mici dect 5), funcia considerat are repartiia 2 cu ( s 1) k grade
de libertate, s fiind numrul de valori observate, iar k numrul parametrilor estimai.

Observaii:
Dac legea presupus este legea Poisson, ea are un singur parametru, deci k = 1 , iar
numrul gradelor de libertate va fi ( s 1) 1 = s 2 ; dac legea presupus este legea
normal, atunci k = 2 i avem ( s 1) 2 = s 3 grade de libertate.
Dup cum am precizat mai sus, legea 2 condiia ca n ' i = ni pi s nu fie numere mai
mici dect 5. n cazul n care exist astfel de numere, se vor cumula la prima frecven ni mai
mare ca 5. Aceasta face ca numrul s s fie modificat corespunztor noii situaii, devenind ~
s,
iar numrul gradelor de libertate devenind ( ~
s 1) k . Dac ntre repartiia de selecie i
repartiia
k

2 =
i =1

teoretic

exist

concordan,

atunci

statistica

definit

( ni n ' i ) 2
trebuie s fie mai mic i nu va depi o valoare determinat
n' i

relaia

(2s 1) k ;

corespunztoare numrului gradelor de libertate ( s 1) k i pragului de semnificaie dat.

15

Regiunea critic a testului va fi dat de inegalitatea

2 (2s 1) k ;
b)

2 > (2s 1) k ;

i deci, dac

acceptm ipoteza H 0 , n caz contrar o respingem.

Testul de concordan al lui Kolmogorov:

Din studierea convergenei funciei empirice de repartiie F (x ) ctre funcia teoretic de


repartiie F (x ) , Kolmogorov a demonstrat urmtoarea teorem:

k 2k 2 2
lim P d n <
= K ( ) = ( 1) e ,
n
n

k =

unde > 0 i d n = max Fn ( x ) F ( x ) .

Funcia K ( ) este calculat n tabele pentru diverse valori ale lui (tabelul distribuiei
Kolmogorov) .
Cu ajutorul acestei teoreme se poate da un criteriu de verificare a ipotezei H 0 c
repartiia empiric urmeaz o anumit lege de repartiie.
Dac ipoteza H 0 este adevrat, atunci diferenele Fn ( x ) F ( x ) nu vor depi o
anumit valoare d ;n pe care o fixm astfel nct: P ( d n > d ;n / H 0 ) = , unde este riscul
de gradul nti. Dar P ( d n > d ;n ) = 1 P ( d n d ;n ) .
Lund d ;n =

, nseamn c atunci cnd H 0 este adevrat i n suficient de mare

avem: P d n > = 1 P d n = 1 K ( ) = .
n
n

Unui prag de semnificaie dat i corespunde prin relaia K ( ) = 1 o valoare


astfel nct, pentru un volum n dat al seleciei gsim valoarea d ;n =
Regiunea critic pentru ipoteza H 0 este dat de relaia d n >
 dac dn <
 dac d n

. Deci:

, exist concordan ntre Fn (x ) i F(x) i se accept ipoteza H 0


, nu exist concordan i respingem ipoteza H 0 .

16

Exemplu
Distribuia unui lot de noi automobile, dup consumul de carburant la 100 km parcuri, se prezint astfel:
Intervale de variaie a consumului (l)
6,2 6,6,
6,6 7,0
7,0 7,4
7,4 7,8
7,8 8,2
8,2 8,6
8,6 9,0
9,0 9,4
9,4 9,8
Total

Nr. automobile
4
12
44
90
107
86
36
15
6
400

S se verifice normalitatea distribuiei utiliznd testul 2.

Rezolvare:
Pentru verificarea normalitii repartiiei empirice se parcurg urmtoarele etape:
a) Se calculeaz x i sx pentru distribuia prezentat n tabel.
x=

s x2

x i ni

ni

3198,8
= 7,997 8 litri
400

)2

xi x ni
ni

143,84
= 0,3596
400

sx = 0,5997 litri
b) Se calculeaz valorile variabilei normale normate pentru limitele superioare ale intervalelor:

zi =

xi sup x

Limita superioar a ultimei grupe se consider +, iar limita inferioar a primului interval se
consider -, innd cont de faptul c distribuia normal tinde ctre 0, asimptotic.
c) Se calculeaz probabilitile (zi), ce reprezint probabilitile ca o valoare z s fie cuprins ntre 0

i zi, innd cont c ( z i ) = ( z i )


d) Probabilitile teoretice ca o valoare s se situeze n intervalul i sunt:

pi = F ( zi sup ) F ( zi1 sup ) sau pi = ( zi sup ) ( zi 1sup ) .


Excepie face primul interval, pentru care: p1 = ( z1 sup ) ( 0 ,5 ) = 0 ,5 + ( z1 sup )

i ultimul interval, pentru care: pr = 0 ,5 ( z r 1 sup ) .


Suma probabilitilor de apariie a evenimentelor este 1.
e) Frecvenele teoretice se determin, pe baza probabilitilor teoretice, astfel:

niteor = n pi
17

f) Se calculeaz statistica =
2

(ni npi )2 .
npi

i =1

2
= 3,44 .
g) Din tabel rezult: calculat

2
Din tabelele anexe se citete valoarea lui tab
, =0,05,l =6 = 12,5916 , unde l = numrul gradelor de

libertate, l = r k 1 = 9 - 2 - 1 = 6.
2
2
Cum calculat
< tab
, se accept ipoteza c ntre distribuia empiric i cea teoretic exist

concordan.

Limitele
intervalelor
6,2-6,6
6,6-7,0
7,0-7,4
7,4-7,8
7,8-8,2
8,2-8,6
8,6-9,0
9,0-9,4
9,4-9,8
Total

Limitele
intervalelor
6,2-6,6
6,6-7,0
7,0-7,4
7,4-7,8
7,8-8,2
8,2-8,6
8,6-9,0
9,0-9,4
9,4-9,8
Total

zi =

ni

xi

xini

( x i x ) 2 ni

4
12
44
90
107
86
36
15
6
400

6,4
6,8
7,2
7,6
8,0
8,4
8,8
9,2
9,6
-

25,6
81,6
316,8
684,0
856,0
722,4
316,8
138,0
57,6
3198,8

10,24
17,28
28,16
14,40
0
13,76
23,04
21,60
15,36
143,84

xi sup x

sx
-2,3340
-1,6675
-1,0005
-0,3335
0,3335
1,0005
1,6675
2,3340

(z)

pi

npi

(ni npi )2
npi

-0,4901
-0,4525
-0,3413
-0,1293
0,1293
0,3413
0,4525
0,4901
0,5000
-

0,0099
0,0376
0,1112
0,2120
0,2586
0,2120
0,1112
0,0376
0,0099
1,00

4
15
44
85
104
85
44
15
4
400

0
0,6
0
0,29
0,09
0,01
1,45
0
1
3,44

Test de autoevaluare 2
1. Un analist economic studiaz distribuia firmelor dup procentul din venituri cheltuit pentru
cercetare-dezvoltare. Pentru a verifica ipoteza normalitii empirice obinute, el utilizeaz

18

2
testul 2 i obine, pentru un numr de grade de libertate, l=10, valoarea calc
= 18,30 .

Probabilitatea maxim cu care se garanteaz rezultatul este:


a) 75%;
b) 90%;
c) 95%;
d) 99%;
e) 97,5%.

6. Rspunsuri i comentarii la testele de autoevaluare


Test de autoevaluare 1
1. b) 1-
2. c) eroarea pe care o facem acceptnd ipoteza nul cnd ea este fals;
3. d) eroarea pe care o facem eliminnd ipoteza nul atunci cnd ea este adevrat;
Test de autoevaluare 2
1. b)

7. Bibliografia Unitii de nvare 2

 V.Voineagu, E.ian, R.erban, S.Ghi, D.Todose, C.Boboc, D.Pele Teorie i


practic econometricm Ed; Meteor Press, 2007
 T. Andrei, Statistic i econometrie, Ed. Economic, 2003

8. Lucrare de verificare 2

1. Ce reprezint regiunea critic?


2. Cnd comitem o eroare de genul nti?
3. Ce reprezint ipoteza nul ntr-un proces de testare de ipoteze statistice?
4. Pentru fiecare dintre urmtoarele regiuni critice, schiai distribuia lui z i indicai locul
regiunii critice (Rc):

19

a) z > 1,96;
b) z > 1,645
c) z > 2,575
d) z < -1,29
e) z < -1,645 sau z > 1,645
f) z < -2,575 sau z > 2,575.
5. Care este diferena dintre H0 i H1?

20