Documente Academic
Documente Profesional
Documente Cultură
Unitatea de nvare 2:
FUNDAMENTAREA DECIZIILOR FOLOSIND TESTAREA IPOTEZELOR
STATISTICE
Cuprins:
ntr-un model econometric, un fenomen oarecare X=(x1, x2, ...,xn) poate fi introdus cu
urmtoarele valori:
Valori reale (xi), sunt mrimi concrete, pozitive, exprimate n uniti de msur
specifice naturii fenomenului cu media x i dispersia x2
xi x
cu media 0 i dispersia 1
Tipuri de date:
date de tip profil : "tieturi informaionale" efectuate ntr-o populaie la un moment dat
date de tip serii de timp: "seciuni informaionale" de-a lungul axei timpului
modele liniare
modele neliniare
modele pariale
Exemplu
Sute de produse noi sunt lansate n fiecare an. Dintr-o varietate de motive, multe dintre
acestea nu reuesc s cucereasc piaa. De aceea, produsele care ajung n stagiul final de
lansare pe pia sunt evaluate de specialitii n marketing, care doresc s fac predicii asupra
succesului produselor (cu alte cuvinte, ct de bine se vor vinde). Evident, informaii complete
i sigure nu se pot obine i atunci specialitii vor dori s trag concluzii valide, pe baza
datelor disponibile din cercetri pariale. S presupunem c un lan de magazine dorete s
vnd un nou produs lansat pe pia i sper s aib succes. Dup o analiz financiar,
specialitii determin c, dac mai mult de 10% dintre potenialii cumprtori vor cumpra
produsul, lanul de magazine va obine profit. Un eantion aleator de clieni poteniali este
selectat i persoanele sunt ntrebate dac ar cumpra produsul. Procedeul de eantionare i de
culegere a datelor este cunoscut, din capitolele precedente, iar parametrul reprezint proporia
clienilor care ar cumpra produsul. Testarea ipotezei statistice se refer, atunci, la a
determina dac proporia cumprtorilor este mai mare de 10%.
3
n urma prelevrii unui eantion dintr-o populaie statistic, prin prelucrarea datelor
provenite din sondaj se obine un estimator al parametrului urmrit n populaia de origine. Se
pune atunci problema n ce msur parametrul estimat pe baza rezultatelor sondajului asigur
credibilitatea aprecierilor fcute asupra ntregii colectiviti. Estimatorul este, aadar, o
presupunere asupra parametrului, deci o ipotez statistic. Nu este nevoie s testm ipoteze
statistice atunci cnd tim totul despre un fenomen, ci doar cnd exist incertitudine.
Ipoteza statistic este ipoteza care se face cu privire la parametrul unei repartiii sau la
legea de repartiie pe care o urmeaz anumite variabile aleatoare. O ipotez statistic nu este
neaprat adevrat. Ea poate fi corect sau greit.
Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul rmne
acelai, parcurgndu-se urmtorii pai:
2) ntotdeauna ipoteza nul este nsoit de ipoteza alternativ (de cercetat), H1, ce
reprezint o teorie care contrazice ipoteza nul. Ea va fi acceptat doar cnd exist
suficiente dovezi, evidene, pentru a se stabili c este adevrat.
Ipoteza alternativ este cea mai important, deoarece este ipoteza care ne rspunde la
ntrebare. Ipoteza alternativ poate cpta trei forme, care rspund la trei tipuri de ntrebri
referitoare la parametrul studiat:
- dac parametrul este diferit (mai mare sau mai mic) dect valoarea specificat n ipoteza
nul;
- dac parametrul este mai mare dect valoarea specificat n ipoteza nul;
- dac parametrul este mai mic dect valoarea specificat n ipoteza nul;
4) Se stabilete regiunea critic, Rc. Regiunea critic reprezint valorile numerice ale
testului statistic pentru care ipoteza nul va fi respins. Regiunea critic este astfel aleas nct
probabilitatea ca ea s conin testul statistic, cnd ipoteza nul este adevrat, s fie , cu
mic (=0.01 etc). Verificarea ipotezei nule se face pe baza unui eantion de volum n, extras
din populaia X, care este o variabil aleatoare. Dac punctul definit de vectorul de sondaj
x1,x2,,xn cade n regiunea critic Rc, ipoteza H0 se respinge, iar dac punctul cade n afara
regiunii critice Rc, ipoteza H0 se accept. Regiunea critic este delimitat de valoarea critic,
C punctul de tietur n stabilirea acesteia.
n baza legii numerelor mari, numai ntr-un numr foarte mic de cazuri punctul rezultat
din sondaj va cdea n Rc, majoritatea vor cdea n afara regiunii critice. Nu este ns exclus
ca punctul din sondaj s cad n regiunea critic, cu toate c ipoteza nul despre parametrul
populaiei este adevrat. Cu alte cuvinte, atunci cnd respingem ipoteza nul, trebuie s ne
gndim de dou ori, deoarece exist dou posibiliti: ea este fals ntr-adevr i ea este totui
adevrat, dei pe baza datelor din sondaj o respingem.
La fel i pentru situaia n care acceptm ipoteza nul H0. Cnd ipoteza nul nu poate fi
respins (nu exist suficiente dovezi pentru a fi respins), sunt dou posibiliti: ipoteza nul
este adevrat i ipoteza nul este totui fals, greit, dei nu am respins-o. De aceea, este
mai corect s spunem c pe baza datelor din eantionul studiat, nu putem respinge ipoteza
nul, dect s spunem c ipoteza nul este adevrat.
Eroarea pe care o facem eliminnd o ipotez nul, dei este adevrat, se numete eroare
de genul nti. Probabilitatea comiterii unei astfel de erori reprezint riscul de genul nti
() i se numete nivel sau prag de semnificaie.
Nivelul de ncredere al unui test statistic este (1-), iar n expresie procentual, (1-)100
reprezint probabilitatea de garantare a rezultatelor.
Eroarea pe cere o facem acceptnd o ipotez nul, dei este fals, se numete eroare de
genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se noteaz cu .
Puterea testului statistic este (1-).
Tabelul 1 ilustreaz legtura dintre decizia pe care o lum referitor la ipoteza nul i
adevrul sau falsitatea acestei ipoteze.
Decizia de acceptare
H0
H1
Cu ct probabilitile comiterii erorilor de genul nti i de genul al doilea sunt mai mici,
cu att testul este mai bun. Acest lucru se poate realiza prin mrirea volumului eantionului, n.
Nivelurile riscurilor se stabilesc n funcie de considerente economice i de natura testului.
Am vzut c:
= P(respingere H0 | H0 este corect) = P(eroare de gen I)
= P(acceptare H0 | H0 este fals) = P(eroare de gen II)
Alegerea nivelului (pragului) de semnificaie depinde i de costurile asociate cu
producerea unei erori de genul I.
Exemplu
Pragul de semnificaie ales de o firm ce fabric ngheat, interesat n greutatea medie a
cutiilor de ngheat va putea fi diferit de pragul de semnificaie ales de o companie
farmaceutic, interesat de cantitatea medie a unui ingredient activ dintr-un tip de
medicament. Evident, costul n prima situaie prezentat este mult mai mic, comparativ cu
costul asociat n cazul producerii unei erori de genul I pentru compania farmaceutic: o cantitate prea mic de ingredient activ poate face medicamentul ineficient; o cantitate prea mare
de ingredient activ poate cauza efecte secundare, duntoare sau poate avea, chiar, efecte
letale.
Similar, exist costuri asociate cu producerea unei erori de genul al II-lea. ntre eroarea de
genul I i eroarea de genul al II-lea exist o legtur, o condiionare. O modalitate de a
vizualiza aceast legtur este s presupunem c exist doar dou distribuii care ne
intereseaz. O distribuie corespunde ipotezei nule H0, iar cealalt corespunde ipotezei
alternativei H1. n acest caz, presupunem c i ipoteza nul i cea alternativ sunt ipoteze
simple. ntr-o manier uor de neles, s considerm c ipoteza nul este de forma H0: =0,
iar ipoteza alternativ este de forma H1:=1 (figura 1):
f(x)
H0
H1
0 C
Eroarea de genul I apare atunci cnd respingem ipoteza nul H0, n situaia n care, de fapt,
aceasta este adevrat. Adic, dei distribuia lui x este cea corespunztoare ipotezei H0,
respingem H0, deoarece media de sondaj este mai mare dect valoarea critic, C, i se situeaz n
regiunea critic. Probabilitatea comiterii unei astfel de erori ( ) este aria de sub curba de distribuie H0, care se situeaz la dreapta valorii critice C. Deseori, cnd lucrm cu soft-ware
specializat, ntlnim valoarea-p (p-value). Aceasta reprezint nivelul observat de
semnificaie, adic cel mai mic nivel la care H0 poate fi respins pentru un set de valori date.
Eroarea de genul al doilea apare atunci cnd nu respingem (adic acceptm) H0, dei H1
n loc de H0 este corect. n acest caz, dei distribuia lui x este cea corespunztoare ipotezei
H1, acceptm H0 deoarece media de sondaj este mai mic dect valoarea critic, C (nu se afl n
regiunea critic). Probabilitatea comiterii unei astfel de erori () este aria de sub curba de
distribuie H1, care se situeaz la stnga valorii critice, C.
Dac alegem un prag de semnificaie, , mai mic (adic reducem riscul comiterii unei
erori de genul nti), va crete (riscul comiterii unei erori de genul al doilea). Cu toate
acestea, prin creterea volumului n al eantionului, este posibil s reducem riscul , fr a
crete riscul .
Cum s x = s x
ale distribuiilor pentru H0 i H1 devin mai mici i, evident, att , ct i descresc (figura 2).
f(x)
H0
H1
0 C
Ipoteza alternativ poate avea, aa cum am artat, una din trei forme (pe care le vom
exemplifica pentru testarea egalitii parametrului media colectivitii generale, cu
valoarea 0):
i) s testm dac parametrul din colectivitatea general (media ) este egal cu o anumit
valoare (inclusiv zero, 0), cu alternativa media diferit de valoarea 0. Atunci:
H0: = 0,
H1: 0 ( < 0 sau > 0)
i acest test este un test bilateral;
ii) s testm ipoteza nul = 0, cu alternativa media este mai mare dect 0.
H0: = 0,
H1: > 0,
9
iii) s testm ipoteza nul = 0, cu alternativa media este mai mic dect 0.
H0: = 0,
H1: < 0,
care este un test unilateral stnga.
Regiunea critic pentru testul bilateral difer de cea pentru testul unilateral. Cnd
ncercm s detectm o diferen fa de ipoteza nul, n ambele direcii, trebuie s stabilim o
regiune critic Rc n ambele cozi ale distribuiei de eantionare pentru testul statistic. Cnd
efectum un test unilateral, vom stabili o regiune critic ntr-o singur parte a distribuiei de
eantionare, astfel (figura 3):
/2
/2
a)
b)
c)
Test de autoevaluare 1
1. ntr-un proces de verificare a ipotezelor statistice nivelul de ncredere reprezint
probabilitatea:
a)
b) 1-
c)
d) 1-
e) +
10
11
Multe fenomene aleatoare din natur se supun exact sau aproximativ acestei legi.
Astfel, deviaiile stnga-dreapta de la medie ale erorilor de msurare urmeaz aceast
lege simetric i cu proprietatea c, erori din ce n ce mai mari sunt din ce n ce mai
rare.
O teorem foarte important, teorema limit central, asigur acestei repartiii un rol
privilegiat prin faptul c suma unui numr mare de variabile aleatoare
independente una de alta, dar identic repartizate, este repartizat Gauss sau
aproximativ Gauss. Aceast teorem ne asigur de exemplu, de faptul c, media
calculat pe un lot are o repartiie Gauss sau apropiat.
S-a demonstrat c multe repartiii empirice ntlnite n practic pot fi aduse la o
repartiie Gauss prin transformri simple i n felul acesta devin mai uor de studiat.
2. Densitatea Student este o repartiie care intervine mult n aplicaiile referitoare la
testele statistice. Are o form simetric i seamn ca aspect cu distribuia Gauss standard.
Este n realitate o familie infinit de repartiii, pentru fiecare n, numr de grade de
libertate (df), avnd o form diferit.
12
Cnd numrul de grade de libertate tinde la infinit, aspectul ei se apropie tot mai mult de
forma repartiiei Gauss.
3. Repartiia chi ptrat este o repartiie care intervine mult n calculul i testele statistice
referitoare la disperiile i deviaiile standard ale variabilelor aleatoare. Se tie c pentru
calculul dispersiilor trebuie sumate ptratele celor n diferene dintre valorile dintr-o serie de
date i media lor. Cum toate aceste diferene pot fi de multe ori asimilate unor variabile
aleatoare distribuite Gauss cu media 0 i abaterea standard s, a populaiei din care provine
eantionul, suma ptratelor este o variabil aleatoare repartizat chi ptrat. Se spune c avem
o repartie chi ptrat cu dispersia s2 i cu n grade de libertate.
Graficul repartiiei chi ptrat este asimetric, cu att mai asimetric cu ct n este mai mic. n
figura 6, sunt desenate graficele a patru repartiii chi ptrat, corespunztor la un numr de
grade de libertate n=2, n=5, n=15 i n=25. Se observ c odat cu creterea lui n, graficul
devine din ce n ce mai simetric.
13
x
X * : 1
n1
x 2 K xi K x k
;
n2 K ni K nk
n
i =1
x
.
= 1 , i X :
f ( x)
x 2 K xi K x k
x
;
X ' : 1
n'1 n' 2 K n'i K n' k
n'
i =1
a)
( ni n ' i ) 2
Studiind funcia =
, K.Pearson a artat c, n cazul unui sondaj cu
n' i
i =1
k
Observaii:
Dac legea presupus este legea Poisson, ea are un singur parametru, deci k = 1 , iar
numrul gradelor de libertate va fi ( s 1) 1 = s 2 ; dac legea presupus este legea
normal, atunci k = 2 i avem ( s 1) 2 = s 3 grade de libertate.
Dup cum am precizat mai sus, legea 2 condiia ca n ' i = ni pi s nu fie numere mai
mici dect 5. n cazul n care exist astfel de numere, se vor cumula la prima frecven ni mai
mare ca 5. Aceasta face ca numrul s s fie modificat corespunztor noii situaii, devenind ~
s,
iar numrul gradelor de libertate devenind ( ~
s 1) k . Dac ntre repartiia de selecie i
repartiia
k
2 =
i =1
teoretic
exist
concordan,
atunci
statistica
definit
( ni n ' i ) 2
trebuie s fie mai mic i nu va depi o valoare determinat
n' i
relaia
(2s 1) k ;
15
2 (2s 1) k ;
b)
2 > (2s 1) k ;
i deci, dac
k 2k 2 2
lim P d n <
= K ( ) = ( 1) e ,
n
n
k =
Funcia K ( ) este calculat n tabele pentru diverse valori ale lui (tabelul distribuiei
Kolmogorov) .
Cu ajutorul acestei teoreme se poate da un criteriu de verificare a ipotezei H 0 c
repartiia empiric urmeaz o anumit lege de repartiie.
Dac ipoteza H 0 este adevrat, atunci diferenele Fn ( x ) F ( x ) nu vor depi o
anumit valoare d ;n pe care o fixm astfel nct: P ( d n > d ;n / H 0 ) = , unde este riscul
de gradul nti. Dar P ( d n > d ;n ) = 1 P ( d n d ;n ) .
Lund d ;n =
avem: P d n > = 1 P d n = 1 K ( ) = .
n
n
. Deci:
16
Exemplu
Distribuia unui lot de noi automobile, dup consumul de carburant la 100 km parcuri, se prezint astfel:
Intervale de variaie a consumului (l)
6,2 6,6,
6,6 7,0
7,0 7,4
7,4 7,8
7,8 8,2
8,2 8,6
8,6 9,0
9,0 9,4
9,4 9,8
Total
Nr. automobile
4
12
44
90
107
86
36
15
6
400
Rezolvare:
Pentru verificarea normalitii repartiiei empirice se parcurg urmtoarele etape:
a) Se calculeaz x i sx pentru distribuia prezentat n tabel.
x=
s x2
x i ni
ni
3198,8
= 7,997 8 litri
400
)2
xi x ni
ni
143,84
= 0,3596
400
sx = 0,5997 litri
b) Se calculeaz valorile variabilei normale normate pentru limitele superioare ale intervalelor:
zi =
xi sup x
Limita superioar a ultimei grupe se consider +, iar limita inferioar a primului interval se
consider -, innd cont de faptul c distribuia normal tinde ctre 0, asimptotic.
c) Se calculeaz probabilitile (zi), ce reprezint probabilitile ca o valoare z s fie cuprins ntre 0
niteor = n pi
17
f) Se calculeaz statistica =
2
(ni npi )2 .
npi
i =1
2
= 3,44 .
g) Din tabel rezult: calculat
2
Din tabelele anexe se citete valoarea lui tab
, =0,05,l =6 = 12,5916 , unde l = numrul gradelor de
libertate, l = r k 1 = 9 - 2 - 1 = 6.
2
2
Cum calculat
< tab
, se accept ipoteza c ntre distribuia empiric i cea teoretic exist
concordan.
Limitele
intervalelor
6,2-6,6
6,6-7,0
7,0-7,4
7,4-7,8
7,8-8,2
8,2-8,6
8,6-9,0
9,0-9,4
9,4-9,8
Total
Limitele
intervalelor
6,2-6,6
6,6-7,0
7,0-7,4
7,4-7,8
7,8-8,2
8,2-8,6
8,6-9,0
9,0-9,4
9,4-9,8
Total
zi =
ni
xi
xini
( x i x ) 2 ni
4
12
44
90
107
86
36
15
6
400
6,4
6,8
7,2
7,6
8,0
8,4
8,8
9,2
9,6
-
25,6
81,6
316,8
684,0
856,0
722,4
316,8
138,0
57,6
3198,8
10,24
17,28
28,16
14,40
0
13,76
23,04
21,60
15,36
143,84
xi sup x
sx
-2,3340
-1,6675
-1,0005
-0,3335
0,3335
1,0005
1,6675
2,3340
(z)
pi
npi
(ni npi )2
npi
-0,4901
-0,4525
-0,3413
-0,1293
0,1293
0,3413
0,4525
0,4901
0,5000
-
0,0099
0,0376
0,1112
0,2120
0,2586
0,2120
0,1112
0,0376
0,0099
1,00
4
15
44
85
104
85
44
15
4
400
0
0,6
0
0,29
0,09
0,01
1,45
0
1
3,44
Test de autoevaluare 2
1. Un analist economic studiaz distribuia firmelor dup procentul din venituri cheltuit pentru
cercetare-dezvoltare. Pentru a verifica ipoteza normalitii empirice obinute, el utilizeaz
18
2
testul 2 i obine, pentru un numr de grade de libertate, l=10, valoarea calc
= 18,30 .
8. Lucrare de verificare 2
19
a) z > 1,96;
b) z > 1,645
c) z > 2,575
d) z < -1,29
e) z < -1,645 sau z > 1,645
f) z < -2,575 sau z > 2,575.
5. Care este diferena dintre H0 i H1?
20