Sunteți pe pagina 1din 35

CAPITOLUL 4

CAPITOLUL 4 CERCETAREA STATISTIC PRIN SONDAJ


Consideraii preliminare
n capitolele precedente am discutat despre posibilitile de culegere a datelor pe baza metodelor de observare total sau parial, ca i despre modalitile de descriere a datelor prin indicatori statistici, uzual obinui pe baza colectivitilor pariale. Am vzut, de asemenea, c inferena statistic reprezint procesul prin care obinem informaii i tragem concluzii referitoare la colectiviti generale, pe baza eantioanelor. Exist dou tehnici generale pentru realizarea inferenei statistice: procesul de estimare i cel de testare a ipotezelor statistice. n capitolul acesta vom urmri s cunoatem fundamentele procesului de estimaie i ale celui de testare a ipotezelor statistice, vitale pentru desfurarea unor cercetri statistice.

Termeni cheie
criteriu de semnificaie. distribuie de eantionare eroare de estimaie eroare de genul I eroare de genul II eroare limit admisibil eroare medie de reprezentativitate eantion estimaie estimator interval de ncredere ipotez statistic parametru probabilitatea unei erori de genul I probabilitatea unei erori de genul II selecie static sondaj aleator simplu sondaj aleator tipic sondaj cu revenire sondaj fr revenire sondaj n cuiburi test statistic volum al eantionului

STATISTIC ECONOMIC

Noiuni teoretice
4.1. INTRODUCERE Cercetarea statistic urmrete obinerea informaiilor ce permit caracterizarea, din punct de vedere cantitativ, a fenomenelor de mas. Exist dou modaliti de obinere a acestor informaii i anume: se pot culege date despre toate unitile ce alctuiesc colectivitatea cercetat sau se poate selecta o subcolectivitate pe care s o analizm i pe baza informaiilor obinute s tragem concluzii, s generalizm rezultatele pentru colectivitatea de ansamblu. Prima cale prezentat este cea a unei cercetri statistice totale, iar cea de-a doua a cercetrii statistice prin sondaj. n condiiile economico-sociale de astzi, cnd este nevoie de informaii rapide, multiple i complexe, metoda principal de obinere a informaiilor statistice tinde s devin, practic, aceea a sondajului statistic, prin care se obin date empirice i, printr-o interpretare probabilistic, se estimeaz indicatori pentru populaia total. Metoda sondajului poate aadar s salveze timp i bani oferind informaii despre seturi largi de date fr ca s fie necesar observarea i cercetarea tuturor elementelor ce alctuiesc colectivitatea. Procesul va cuprinde atunci dou etape: etapa descriptiv, n care se culeg date i se calculeaz indicatorii ce caracterizeaz subcolectivitatea analizat etapa inferenial, n care rezultatele obinute pentru aceast subcolectivitate se extind, n termeni probabilistici, la colectivitatea general. Este de menionat faptul c, dac metodele statistice descriptive pot fi aplicate att unei colectiviti totale ct i uneia pariale, n schimb etapa de inferen statistic este specific cercetrii prin sondaj. 4.2. NOIUNI SPECIFICE DEFINIIE: Selecia statistic reprezint operaia de extragere a unei pri dintr-o colectivitate statistic, a unei subcolectiviti numit i eantion, mostr, colectivitate parial sau colectivitate de selecie.

CAPITOLUL 4

Vom nota volumul colectivitii generale cu N i volumul colectivitii de selecie cu n, 1 n N-1. n cazul n care datele au fost sistematizate n r grupe dup variaia unei caracteristici de grupare, vom avea:
N = Ni
i =1 r r

(4.1) (4.2)

n = ni
i =1

Media aritmetic, principalul indicator al tendinei centrale, va fi notat cu n cazul n care este parametrul colectivitii totale i cu x n cazul n care este un indicator obinut printr-o cercetare statistic prin sondaj. Parametrul colectivitii generale se calculeaz: xi N
N

i =1

(4.3)

sau dac datele au fost sistematizate n r grupe obinndu-se o serie de distribuie de frecvene: xi Ni
i =1 r

i 1 r

i = 1, r

(4.4)

Ni

Indicatorul statistic obinut pentru eantion media estimatorul parametrului, este: xi n


n

x=

i =1

(4.5)

sau n cazul unei serii de distribuii de frecvene:

STATISTIC ECONOMIC

x=

i =1 r

xini
i =1

(4.6)

ni

Un alt indicator important, dispersia, se va nota cu 2 dac este parametru obinut n colectivitatea general i cu s2 dac este estimatorul parametrului, obinut pe un eantion. Astfel, parametrul colectivitii generale este:

2 = i =1 x

( x i ) 2
N (4.7)

respectiv n cazul datelor grupate:

= i =1

( x i ) N i
i =1

Ni

(4.8)

iar estimatorul dispersiei din colectivitatea general, anume dispersia eantionului: n xi n 2 i =1 xi n n i =1 (x i x) 2 s 2 = i =1 = x n 1 n 1 sau n cazul distribuiei de frecvene:
2

(4.9)

CAPITOLUL 4

r xini r x 2 n i i =1 r r i =1 i ni (x i x) 2 n i i =1 s 2 = i =1 = x r r ni 1 ni 1
i =1 i =1

(4.10)

Atunci cnd eantioanele sunt de volum mare (n>30), se poate renuna la scderea lui 1 din numitorul dispersiei. n cazul caracteristicilor binare (de tip alternativ), simbolurile perechi utilizate pentru parametrii din populaia general i pentru estimatorii obinui n eantion vor fi: pentru media aritmetic: parametrul colectivitii generale:
p= M N

(4.11)

estimatorul obinut n eantion:


f= m n

(4.12)

Dispersia caracteristicii alternative se va nota n populaia general cu:

2 = p(1 p)

(4.13)

iar n eantion (estimatorul dispersiei din colectivitatea general): s 2 = f (1 f ) (4.14)

STATISTIC ECONOMIC

m Populaie (colectivitate general)

eantion

Fig. 4.1 - Procesul inferenei statistice

4.3. TIPURI DE SONDAJ n selecia aleatoare se disting urmtoarele tipuri de sondaj: sondajul simplu aleator; sondajul tipic (stratificat); sondajul de serii (cuiburi); sondajul n mai multe trepte; sondaj secvenial. 4.4. DISTRIBUII DE EANTIONARE. PROPRIETI ALE
DISTRIBUIILOR DE EANTIONARE

Deoarece datele din eantioane sunt valori observate ale variabilelor aleatoare, indicatorii statistici calculai pentru un eantion vor varia ntr-un mod aleator de la eantion la eantion. Populaia statistic (colectivitatea)

Eantion

Eantion

Eantion

Indicator

Indicator

Indicator

Fig 4.2. Obtinerea unei distributii de esantionare

CAPITOLUL 4

n privina mediei de selecie, indicator statistic obinut pe eantion, trebuie artat c, indiferent de forma distribuiei de frecvene din colectivitatea general, media distribuiei de eantionare a mediei de selecie ( x ) este egal cu , media colectivitii generale (pentru eantioane mari).

(x) =
Un alt parametru al distribuiei de eantionare, dispersia medie de sondaj se calculeaz ca:
2 x =

2 n

(4.15)

Eroarea standard a mediei de sondaj este x , adic abaterea medie ptratic a mediei de selecie x de la parametrul : 2 x n x n

x =

(4.16)

Evident, cum x2 (dispersia colectivitii generale) i (abaterea medie ptratic din colectivitatea general) sunt necunoscute, ele se estimeaz prin s2 (dispersia de sondaj) i s (abaterea mediei ptratice de sondaj). Se obine, astfel, estimatorul dispersiei mediei de sondaj ( s 2 ): x

s2 x 2 s = x n

(4.17)

i estimatorul erorii medii a mediei de sondaj (adic eroarea medie de reprezentativitate):

STATISTIC ECONOMIC

s (4.18) sx = x n n privina distribuiei de eantionare a mediei de selecie, s mai notm c n cazul populaiilor normal distribuite (cu distribuii de probabilitate normal), distribuia de eantionare a mediei de selecie este normal, indiferent de numrul elementelor din eantion (de volumul eantionului).

4.5. SONDAJUL ALEATOR SIMPLU REPETAT 4.5.1. Determinarea erorii medii de reprezentativitate

n cazul unei variabile cantitative, de tip nealternativ, pentru estimarea parametrului media colectivitii generale () este necesar s calculm media de sondaj ( x ) (formulele 4.5 sau 4.6). Dispersia mediilor de selecie este: s2 =
x

s2 x n

(4.19)

Eroarea medie de reprezentativitate (abaterea medie ptratic a mediei de sondaj) se determnin pe baza datelor din eantion ca:

sx =

s2 x

s = x n n

(4.20)

4.5.2. Determinarea erorii limit

Pentru a construi acest interval de ncredere vom determina, nti, eroarea limit maxim admisibil. Cum media de sondaj ( x ) este variabil aleatoare normal distribuit, de medie i abaterea medie ptratic x =x / n , nseamn c variabila normal normat (redus) corespunztoare este:

CAPITOLUL 4

z=

x x x sx

(4.21)

z=

(4.22)

Pentru probabilitatea cu care garantm rezultatele 100(1-)%, eroarea limit (maxim) admisibil este:
s x = z / 2s x = z / 2 x n

(4.23)

4.5.3. Determinarea intervalului de ncredere pentru media Intervalul de ncredere calculat pe baza erorii limit maxim admisibil este: s x z / 2 n

Pentru un eantion de volum normal sau mare, mrimea relativ a intervalului de ncredere poate s fie prezentat schematic astfel (Fig. 4.3)

Interval de ncredere pentru 1-=0.999 Interval de ncredere pentru 1-=0.99 Interval de ncredere pentru 1-=0.95 Interval de ncredere pentru 1-=0.90

sx

sx

Media eantionului

Fig. 4.3 - Mrimea relativ a intervalului de ncredere pentru un eantion de volum mare

STATISTIC ECONOMIC

x x < < x + x

(4.24)

Intervalul de ncredere ( x x ) este garantat cu nivelul de ncredere ales, ceea ce face ca aceast estimare s fie preferabil estimrii punctuale. Intervalul de ncredere pentru nivelul total al caracteristicii este:
N ( x x ) < x i < N( x + x )
i =1 N

(4.25)

EXEMPLUL 4.1: S se determine intervalul de ncredere, garantat cu o probabilitate de 99%, pentru media i nivelul total al unei caracteristici numerice X, dac eantionul selectat aleator repetat de 36 de uniti, adic 5% din colectivitatea general este de medie 800 i abatere medie ptratic 60. Rezolvare: Eroarea medie de reprezentativitate va fi:
s2 s 60 sx = x = x = = 10 n 6 n

Eroarea limit maxim admisibil:


x = z / 2 s x = 2.58 10 = 25.8

Intervalul de ncredere pentru parametrul colectivitii generale este dat de: x x < < x + x 800-25.8 < m < 800+25.8 774.2 < m < 825.8 iar pentru nivelul total al caracteristicii studiate: N( x x ) < x i < N( x + x ) 557424 < x i < 594576 Acest intervale de ncredere sunt garantate cu o probabilitate de 99%.

CAPITOLUL 4

4.5.4. Determinarea volumului eantionului


s z / 2 x = x n

(4.26)

sau
s L z / 2 x = n 2

(4.27)

Soluia poate fi scris ca:


n= (z / 2 ) 2 s 2 x 2
x

(4.28)

sau
n= 4( z / 2 ) 2 s 2 x L2 (4.29)

Desigur, i aici sx2 se folosete ca o estimaie a lui 2 , n general necux noscut. Valoarea aproximativ a lui sx2 poate fi cunoscut dintr-o cercetare prin sondaj anterioar. Ca o alternativ, putem aproxima amplitudinea mprtierii Ax a observaiilor i apoi, sub presupunerea tendinei de normalitate a distribuiei, putem calcula: sx Ax / 6 (4.30)

EXEMPLUL 4.2: S se determine volumul eantionului necesar pentru a estima media unei colectiviti () cu o eroare limit de 0.2 i o probabilitate de garantare a rezultatelor de 95%, tiind dintr-o cercetare anterioar c dispersia sx2 este aproximativ egal cu 6.1. Aceai cerin pentru lungimea intervalului de ncredere de 0.2. Rezolvare: Pentru: x = 0 .2

100(1-)% = 95% => z/2 = z0.025 = 1.96

STATISTIC ECONOMIC

sx2 = 6.1 rezult:


n=
2 z / 2 s2 x

(1.96) 2 6.1 (0.2) 2

= 585.84 586 uniti statistice

n cazul n care ntreaga lungime a intervalului de ncredere este de 0.2 (evident o precizie crescut), vom avea:
n=
2 4 z / 2 s2 x

L2

4 (1.96) 2 6.1 (0.2) 2

= 2343.36 2344 uniti statistice

4.5.5. Determinarea probabilitii de garantare a rezultatelor 100(1-)%

Coeficientul de ncredere este 1-, pentru care P(-z/2 < Z < z/2)=1-. Atunci, din formula erorii limit (maxim) admisibil rezult: z / 2 = x n sx (4.31)

Din tabelele privind distribuia normal normat se poate determina apoi probabilitatea 100(1-)% de garantare a rezultatelor.
EXEMPLUL 4.3: S se determine nivelul de ncredere pentru estimaia privind media colectivitii generale (), dac volumul eantionului este n=100 uniti statistice, media eantionului x =258600, abaterea medie ptratic s=8000, iar intervalul de ncredere dorit este de 4000. Rezolvare: n 2000 100 z / 2 = x = = 2.5 s 8000 i 1-=P(-2.5<z<2.5)=2(0.4938)=0.9876

Probabilitatea cu care garantm rezultatele este de 98.76%.

CAPITOLUL 4

4.5.6. Particulariti ale sondajului de volum redus

Dac eantionul este de volum redus (n<30), iar abaterea medie ptratic din colectivitatea general () este necunoscut i nlocuit cu ( x ) cea din eantion (sx), statistica este o statistic t cu (n-1) grade sx / n este o sx / n distribuie de probabilitate t cu condiia ca populaia general s fie normal distribuit. Intervalul de ncredere pentru media m din colectivitatea general este, n acest caz: s s (4.32) x t / 2, n 1 x < < x + t / 2, n 1 x n n
EXEMPLUL 4.4: Presupunem c un numr de n=15 imprimante sunt selectate pentru a se calcula media numrului de caractere imprimate pn la terminarea cartuului de imprimare. Pentru eantionul selectat se obin: x = 1.23 milioane caractere; sx = 0.27 milioane caractere. S se formeze un interval de ncredere, garantat cu o probabilitate de 99%, pentru media numrului de caractere imprimate (m), n colectivitatea general. Rezolvare: Dac presupunem c numrul de caractere imprimate este normal distribuit, atunci, pentru n=15: t/2,n-1=t0.005;14=2.977 de libertate. Distribuia de eantionare a statisticii
( x )

Intervalul de ncredere este: s s x t / 2, n 1 x < < x + t / 2, n 1 x n n 0.27 0.27 < < 1.23 + 2.977 1.23 2.977 15 15 1.02 < < 1.44

STATISTIC ECONOMIC

4.6. SONDAJUL ALEATOR SIMPLU NEREPETAT 4.6.1. Determinarea erorii medii de reprezentativitate

Dispersia mediei de selecie este dat de relaia: 2 x 2 x n Nn N 1

(4.33)

i estimat (n cazul 2 necunoscut) prin: s2 x s2 x n Nn N 1

(4.34)

Abaterea medie ptratic a mediei de selecie (msurtor al erorii medii de reprezentativitate) este:

x =
estimat prin:

x n

Nn N 1

(4.35)

s n N n sx 1 sx = x N N 1 n n Termenul

(4.36)

n Nn se numete coeficient de corecie n populaie 1 N N 1 finit sau factor de exhaustivitate, iar raportul n/N reprezint fracia de sondaj.

4.6.2. Determinarea erorii limit

Determinarea erorii limit maxim admisibil se face, n cazul sondajului fr revenire, innd seama de eroarea medie de reprezentativitate:

CAPITOLUL 4

s n x = z / 2 (s x ) = z / 2 x 1 n N

(4.37)

4.6.3. Determinarea intervalului de ncredere pentru media Intervalul de ncredere pentru media din colectivitatea general, corespunztor probabilitii 100(1-)% de garantare a rezultatelor este:

x x < < x + x x z / 2 s n s n 1 < < x + z / 2 1 N N n n

(4.38) (4.39)

s n N s n N x z / 2 1 < x i < N x + z / 2 1 i=1 N N n n

(4.40)

EXEMPLUL 4.5: Un eantion aleator de 80 de observaii a fost selectat nerepetat dintr-o populaie normal distribuit de volum N=800 de uniti. n urma calculelor a rezultat valoarea medie a caracteristicii n eantion x =14.1 i abaterea medie ptratic sx=2.6. S se determine intervalul de ncredere, garantat cu o probabilitate de 95%, pentru media colectivitii N generale () i pentru valoarea agregat a caracteristicii x i . i =1 Rezolvare: s n 2.6 0.9 = 0.276 sx = x 1 = N n 80
x = z / 2 s x = z 0.025 s x = 1.96 0.276 = 0.54

14.1-0.54< <14.1+0.54 13.56< <14.64

STATISTIC ECONOMIC

10848 < x i <11712


i =1

4.6.4. Determinarea volumului eantionului

n=

z2 z2
/2

/2

s2 N x
x

s 2 + 2 N x

=
x

z2 2 +

/2

s2 s2

z2

(4.41)

/2

4.7. ESTIMAREA PROPORIEI N CAZUL SONDAJULUI


ALEATOR SIMPLU

Utilizarea lui f pentru a estima populaia p este similar cu utilizarea lui x pentru estimarea parametrului .
4.7.1. Determinarea erorii medii de reprezentativitate Dispersia mediilor de selecie (adic dispersia proporiilor eantioanelor) va fi atunci: p(1 p) f2 = (4.42) n estimat (pentru c, de obicei, proporia p din colectivitatea general este necunoscut), prin: f (1 f ) 2 (4.43) sf = n Atunci, abaterea medie ptratic a proporiilor din eantioane, ce reprezint eroarea medie de reprezentativitate este calculat, pe baza datelor din eantion: f (1 f ) sf = pentru selecie repetat (4.44) n i

CAPITOLUL 4

sf =

f (1 f ) n 1 pentru selecie nerepetat n N

(4.45)

4.7.2. Determinarea erorii limit

nlocuind eroarea medie de reprezentativitate calculat anterior obinem eroarea limit (maxim admisibil): f (1 f ) pentru selecie repetat (4.46) f = z / 2 s f = z / 2 n i f = z / 2s f = z / 2 f (1 f ) n 1 pentru selecie nerepetat n N (4.47)

4.7.3. Determinarea intervalului de ncredere pentru proporia p Intervalul de ncredere pentru proporia p din colectivitatea general este dat de:

adic: f z / 2 i

f-f < p < f+f

(4.48)

f (1 f ) f (1 f ) pentru selecie repetat (4.49) < p < f + z / 2 n n

f (1 f ) n f (1 f ) n 1 < p < f + z / 2 1 n N n N pentru selecie nerepetat, garantat cu o probabilitate 100(1-)%. f z / 2

(4.50)

Pentru estimarea numrului de rspunsuri afirmative, intervalul de ncredere este dat de: N (f f ) < M < N (f + f ) (4.51)

STATISTIC ECONOMIC

EXEMPLUL 4.6: Presupunem c din 100 de persoane selectate aleator i anchetate, 30 au o opinie favorabil despre un produs nou. S se estimeze cu o probabilitate de 90%, intervalul de ncredere pentru proporia opiniilor favorabile din colectivitatea general (locuitorii unui ora). Rezolvare: f (1 f ) 0.21 sf = = = 0.046 n 100

f = z / 2 s f = z 0.05 s f = 1.64 0.046 = 0.075 (7.5%) 0.3-0.075 < p < 0.3+0.075 0.225 < p < 0.375
4.7.4. Determinarea volumului eantionului

Pentru selecia aleatoare repetat volumul eantionului este dat de relaia: n= z 2 f (1 f ) 2 f (4.52)

iar pentru selecia fr revenire este dat de relaia:


z 2 f (1 f ) N n= 2 = f N + z 2 f (1 f ) z 2 f (1 f ) z 2 f (1 f ) 2 + f N

(4.53)

4.7.5. Determinarea probabilitii de garantare a rezultatelor 100(1-)%

Pentru a obine nivelul de ncredere sau probabilitatea de garantare a rezultatelor, atunci cnd folosim proporia f din eantion pentru a estima proporia p din colectivitatea general, vom rezolva ecuaia: z / 2 = f n f (1 f ) (4.54)

CAPITOLUL 4

i apoi vom determina: P(-z/2 < Z < z/2) = 1-


4.8. SONDAJUL ALEATOR TIPIC (STRATIFICAT)

Variaia ntre straturi nu influeneaz, n cazul seleciei stratificate, eroarea medie de reprezentativitate, deoarece aeast variaie este precis reflectat n eantion. Cu alte cuvinte, vom fi siguri c cel puin din punctul de vedere al factorului de stratificare populaia este corect reprezentat n eantion i criteriul ales nu mai constituie surs pentru eroarea medie de reprezentativitate. Considernd distribuia unei colectiviti dup variabila X, putem reprezenta grafic eficacitatea unei stratificri n cadrul sondajului ca n Fig. 4.4.
x

a)

b)

Fig. 4.4 - Sondaj stratificat: a. sondaj ineficient; b. sondaj eficient

4.8.1. Calcului indicatorilor pentru o variabil cantitativ

Pentru a calcula un estimator nedeplasat al mediei colectivitii generale, vom determina media aritmetic ponderat a mediilor straturilor. Astfel, n colectivitatea general, vom introduce notaiile:

STATISTIC ECONOMIC

i =

x ij
j=1

Ni

Ni

media stratului i

(4.55)

= i=1

i Ni
i =1

Ni

media general

(4.56)

Pentru eantion vom nota:


x ij
ni

xi =

j =1

ni

media stratului i

(4.57)

x = i =1

xini
i =1

ni

media eantionului

(4.58)

Putem scrie eroarea medie de reprezentativitate: x =


st

x n
2

(4.59)

sau, pe baza datelor din eantion (pentru c , n general, este necunoscut): s x st sx = n


2

(4.60)

Atunci, eroarea limit (maxim admisibil) este:

x st = z / 2 s x st pentru probabilitatea 100(1-)% de garantare a rezultatelor.

(4.61)

CAPITOLUL 4

Intervalul de ncredere pentru media colectivitii generale este dat de:


x st xst < < x st + xst

(4.62)

Determinarea volumului eantionului se va efectua i aici pornind de la formula erorii limit:

x st

sx = z / 2 sx = z / 2 st n

care prin prelucrare conduce la:


n= z / 2 sx 2
x st 2

(4.63)

n cazul seleciei aleatoare stratificate fr revenire, se va ine seama de coeficientul coreciei finite n populaie i vom avea: eroarea medie de reprezentativitate: sx n
2

s x st =

n 1 = N

2 1 n i s xi n n

n 1 N

(4.64)

eroarea limit admisibil la un coeficient de ncredere (1-):


sx n x = z / 2 1 st n N
2

(4.65)

volumul eantionului:

STATISTIC ECONOMIC
2 z / 2 s x 2

n= 2

x st

2 z / 2 sx

(4.66)

EXEMPLUL 4.7: Un cercettor este interesat n determinarea salarului mediu pentru angajaii unei firme. n firm lucreaz 850 de persoane, din care 500 angajai permanent i 350 colaboratori. Se selecteaz aleator stratificat proporional 10% din efectiv: 50 de angajai permanent i 35 colaboratori i se dorete garantarea estimaiei cu o probabilitate de 95%. n urma prelucrrii datelor, se obin urmtoarele rezultate:

Angajai permanent x1 = 1620 mii lei sx1= 235 mii lei n1= 50
Rezolvare:
x st =

Colaboratori x 2 = 2100 mii lei sx2= 410 mii lei n2= 35

x i Ni x i n i = = 1817.65 mii lei Ni ni

2 sx

s2 ni xi = = 101702.94 ni

Eroarea medie de reprezentativitate (se presupune selecie nerepetat) este:


sx n 101702.94 = 0.9 = 32.82 mii lei 1 = n N 85
2

sx

st

Eroarea limit pentru =0.05 este: xst = z / 2s xst = z 0.025s xst = 1.96 32.82 = 64.33 mii lei

CAPITOLUL 4

Intervalul de ncredere pentru salariul mediu din colectivitatea general: 1817.65 64.33 < < 1817.65 + 64.33 mii lei 1753.32 < < 1881.99 mii lei garantat cu o probabilitate de 95%.
4.8.2. Alegerea numrului de straturi i repartizarea volumului eantionului pe straturi

Alegerea numrului de straturi impune dou remarci. Prima este de ordin teoretic: ideal este stratificarea la maximum, adic alegerea unui numr ct mai mare de grupe. Cea de-a doua este de ordin practic: rareori se pot depi 10 straturi i, de obicei, limitele straturilor sunt impuse de informaiile disponibile din baza de sondaj. Determinarea volumului eantionului n cazul seleciei aleatoare stratificate impune i alocarea acestuia pe straturi. Exist dou posibiliti de repartizare a volumului eantionului (n) pe straturi: o repartiie proporional i o repartiie optim. Dac dispersiile din interiorul straturilor sunt egale, pentru un numr dat de uniti statistice eantionate (n), dispersia pe ansamblu este minim cnd fraciile de sondaj sunt identice (selecie tipic proporional). Proporiile sunt determinate de ponderile straturilor, adic:
ni = Ni n N

(4.67)

Cea de-a doua posibilitate de repartizare (selecie tipic optim) presupune o fracie de sondaj variabil de la un strat la altul. Pentru o selecie tipic optim, fraciile de sondaj vor fi proporionale cu abaterile medii ptratice.Atunci, pentru stratul i volumul subeantionului este dat de:
ni =
h

N i s xi
i =1

N i s xi

(4.68)

i evident n i = n .
i =1

STATISTIC ECONOMIC

4.8.3. Estimarea proporiei pentru o variabil alternativ

Eroarea medie de reprezentativitate, calculat pe baza datelor din eantion este dat de: pentru selecie stratificat repetat:
s fst = f (1 f ) n

(4.69)

pentru selecie stratificat nerepetat:

s fst =

f (1 f ) n 1 n N

(4.70)

Eroarea limit (maxim admisibil), la un prag de semnificaie , se calculeaz ca: fst = z / 2 s fst (4.71)

iar intervalul de ncredere pentru proporia p din colectivitatea general: f fst p < f + fst (4.72)

De asemenea, se adapteaz corespunztor formulele pentru determinarea volumului eantionului i repartizarea acestuia pe straturi.
4.9. SONDAJUL DE SERII (CUIBURI) n sondajul n cuiburi, populaia, mai mult sau mai puin mprtiat, este subdivizat n cuiburi. Pentru fiecare astfel de cuib se poate calcula o madie x i . n fiecare din cuiburile extrase toi indivizii sunt observai i atunci media xi , este cunoscut fr eroare (de sondaj, neeliminndu-se posibilitatea erorilor de observaie).

CAPITOLUL 4

Hazardul poate alege un cuib asemntor cu altul, deci n care cele dou medii de cuib s fie egale. De aceea fluctuaia de eantionaj depinde de inegalitatea mediilor de grup. Dispersia total 2 este egal cu suma disx
2 persiilor ntre cuiburi (grupuri) c i intracuiburi. Cum 2 este fix, prex 2 cizia unui sondaj n cuiburi este cu att mai bun cu ct c este mai mic i cu cat variana n interiorul cuiburilor este mai mare. (Fig. 4.5).

0
a. b.

Fig. 4.5 - Eficacitatea unui sondaj n cuiburi: a. cuiburi eficiente: mediile de grup marcate prin puncte sunt puin dispersate; b. cuiburi ineficiente: mediile cuiburilor sunt la fel de dispersate ca i valorile individuale

Dispersia (variana) total este alctuit din doi termeni: dispersia intercuiburi i dispersia intracuiburi:

Ni Ni Ni 2 2 = (Xi X) + i2 =2 + i2 , c N N N

(4.73)

Dispersia intergrupuri exprim inegalitatea diverselor medii de grup ntre ele.


4.10. TESTAREA IPOTEZELOR STATISTICE N FUNDAMENTAREA
DECIZIILOR

STATISTIC ECONOMIC

Deseori, managerii trebuie s fie pregtii s ia decizii privind aciunile viitoare pe baza informaiilor disponibile. n procesul de luare a deciziilor, ei emit ipoteze pe care le pot testa tiinific utiliznd metodele i tehnicile statistice.
DEFINIIE: Ipoteza statistic este ipoteza care se face cu privire la parametrul unei repartiii sau la legea de repartiie pe care o urmeaz anumite variabile aleatoare. 4.10.1. Concepte i erori n testarea ipotezelor statistice

n statistic, ipotezele apar ntotdeauna n perechi: ipoteza nul i ipoteza alternativ. Ipoteza statistic ce urmeaz a fi testat se numete ipotez nul i este notat, uzual, H0. Ea const ntotdeauna n admiterea caracterului ntmpltor al deosebirilor, adic n presupunerea c nu exist deosebiri eseniale. Respingerea ipotezei nule care este testat implic acceptarea unei alte ipoteze. Aceast alt ipotez este numit ipotez alternativ, notat H1. Procedeul de verificare a unei ipoteze statistice se numete test sau criteriu de semnificaie. O secven general de pai se aplic la toate situaiile de testare a ipotezelor statistice.
1) Se identific ipoteza statistic special despre parametrul populaiei sau legea de repartiie (H0).

2) ntotdeauna ipoteza nul este nsoit de ipoteza alternativ (de cercetat), H1, ce reprezint o teorie care contrazice ipoteza nul. Ea va fi acceptat doar cnd exist suficiente dovezi, evidene, pentru a se stabili c este adevrat. 3) Se calculeaz indicatorii statistici n eantion, utilizai pentru a accepta sau a respinge ipoteza nul i se stabilete testul statistic ce va fi utilizat drept criteriu de acceptare sau de respingere a ipotezei nule. 4) Se stabilete regiunea critic, Rc Regiunea critic este delimitat de valoarea critic, C punctul de tietur n stabilirea acesteia.

CAPITOLUL 4

n baza legii numerelor mari, numai ntr-un numr foarte mic de cazuri punctul rezultat din sondaj va cdea n Rc, majoritatea vor cdea n afara regiunii critice. Nu este ns exclus ca punctul din sondaj s cad n regiunea critic, cu toate c ipoteza nul despre parametrul populaiei este adevrat. Eroarea pe care o facem eliminnd o ipotez nul, dei este adevrat, se numete eroare de genul nti. Probabilitatea comiterii unei astfel de erori reprezint riscul de genul nti () i se numete nivel sau prag de semnificaie. Nivelul de ncredere al unui test statistic este (1-) iar n expresie procentual, (1-)100 reprezint probabilitatea de garantare a rezultatelor. Eroarea pe cere o facem acceptnd o ipotez nul, dei este fals, se numete eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se noteaz cu . Puterea testului statistic este (1-).
f(x) H0 0 C 1 x H1

Fig. 4.6 - Legtura dintre probabilitile i

s Cum s x = x

, o dat cu creterea volumului n al eantionului, aba-

terile medii ptratice ale distribuiilor pentru H0 i H1 devin mai mici i, evident, att , ct i descresc (Fig. 4.7).

STATISTIC ECONOMIC

f(x) H0 0 C 1 x H1

Fig. 4.7 - i cnd volumul eantionului n' > n

5) Dup ce am stabilit pragul de semnificaie i regiunea critic, trecem la pasul urmtor, n care vom face principalele presupuneri despre populaia sau populaiile ce sunt eantionate (normalitate etc.). 6) Se calculeaz apoi testul statistic i se determin valoarea sa numeric, pe baza datelor din eantion. 7) La ultimul pas, se desprind concluziile: ipoteza nul este fie acceptat, fie respins, astfel: a) dac valoarea numeric a testului statistic cade n regiunea critic (Rc), respingem ipoteza nul i concluzionm c ipoteza alternativ este adevrat. Vom ti c aceast decizie este incorect doar n 100 % din cazuri; b) dac valoarea numeric a testului nu cade n regiunea critic (Rc), se accept ipoteza nul H0. Ipoteza alternativ poate avea una din trei forme (pe care le vom exemplifica pentru testarea egalitii parametrului media colectivitii generale, cu valoarea 0):

i) H0: = 0 H1: 0 ( < 0 sau > 0); i acest test este un test bilateral; ii) H0: = 0

CAPITOLUL 4

H1: > 0 care este un test unilateral dreapta; iii) H0: = 0 H1: < 0 care este un test unilateral stnga.
/2

/2

a)

b)

c)

Fig. 4.8 - Regiunea critic pentru: a) test bilateral; b) test unilateral stnga; c) test unilateral dreapta

4.10.2. Testarea ipotezei privind media populaiei generale () pentru eantioane de volum mare i) n cazul testului bilateral, ipotezele sunt:

H0: = 0 ( - 0=0) H1: 0 ( - 00) (adic < 0 sau > 0); x 0 x 0 x 0 = x x n sx n

z=

(4.74)

Regiunea critic Rc este dat de: Rc: z< - z /2 sau z> z /2 Respingem H0 dac sau

x 0

< z / 2

x 0

> z / 2

STATISTIC ECONOMIC

ii) pentru testul unilateral dreapta, ipotezele sunt:

H0: = 0 ( - 0=0) H1: > 0 ( - 0>0); Respingem ipoteza H0 dac x 0 > z

iii) Pentru testul unilateral stnga, ipotezele sunt:

H0: = 0 ( - 0=0) H1: < 0 ( - 0<0); Respingem ipoteza H0 dac x 0 < z

4.10.3. Testarea ipotezei privind diferena dintre dou medii pentru eantioane de volum mare

Un estimator al diferenei (1- 2) este diferena dintre mediile eantioanelor ( x 1 x 2 ).

(x x ) = 1 2

21 x n1

22 x n2

(4.75)

unde 21 i 2 2 sunt dispersiile celor dou populaii eantionate, iar n1 x x i n2 sunt volumele eantioanelor respective. n cazul n care dispersiile celor dou populaii eantionate sunt egale, 21 = 2 2 = 2 : x x 1 1 (x x ) = x + 1 2 n1 n 2 (4.76)

n aceste condiii, ipotezele statistice ce urmeaz a fi testate vor fi:


i) test bilateral

CAPITOLUL 4

H0: (1- 2) = D H1: (1- 2) D

[(1- 2)>D sau (1- 2)<D]

ii) test unilateral dreapta

H0: (1- 2) = D H1: (1- 2) > D


iii) test unilateral stnga

H0: (1- 2) = D H1: (1- 2) < D Testul statistic utilizat are forma: z=

(x

x2 D (x x 2 )
1

Regiunea critic este dat de: i) z< - z /2 sau z> z /2 ii) z> z iii) z< - z
4.10.4. Testarea ipotezei privind media populaiei generale () pentru eantioane de volum redus

n locul statisticii z care necesit cunoaterea (sau o bun aproximare) a lui x , vom folosi statistica: t= x 0 x 0 = sx sx n (4.77)

unde: s 2 = x

(x i x )
n 1

i) test bilateral

STATISTIC ECONOMIC

H0: = 0 H1: 0 ( < 0 sau > 0);


ii) test unilateral dreapta

H0: = 0 H1: > 0


iii) test unilateral stnga

H0: = 0 H1: < 0 Testul statistic utilizat: x 0 x 0 = t= sx sx n


Presupunerea special ce trebuie fcut este aceea c populaia general este normal sau aproximativ normal distribuit.

Regiunea critic este dat de: i) t > t /2,n-1 sau t < - t /2,n-1 ii) t > t ,n-1 iii) t < - t ,n-1
4.10.5. Testarea ipotezei privind diferena dintre dou medii pentru eantioane de volum redus

n condiiile n care presupunem c cele dou colectiviti generale au dispersii egale ( 21 = 2 2 = 2 ), un estimator al dispersiei (variabilitii) x x x totale din cele dou populaii combinate este:
2 2 2 (xi x1 ) + (xi x 2 )

n1

2 sc =

i =1

n1 + n 2 2

i =1

(4.78)

CAPITOLUL 4

sau
2 sc =

(n1 1)s 21 + (n 2 1)s 2 2 x x (n1 1) + (n 2 1)

(n1 1)s 21 + (n 2 1)s 2 2 x x


n1 + n 2 2

(4.79)

Ipotezele statistice vor fi, n aceste condiii:


i) test bilateral

H0: 1 = 2 (1- 2 = D) H1: 1 2 (1- 2 D)


ii) test unilateral dreapta

H0: 1 = 2 (1- 2 = D) H1: 1 > 2 (1- 2 > D)


iii) test unilateral stnga

H0: 1 = 2 (1- 2 = D) H1: 1 < 2 (1- 2 < D) Testul statistic t va avea forma:
t=

(x

x2 D

1 2 1 sc + n 1 n2

(x

x2 D

s 21 (n1 1) + s 2 2 (n 2 1) x x

n1n 2 (n 1 + n 2 2 ) n1 + n 2

Regiunea critic este dat de: i) t< - t / 2, n + n


1

2 2

sau t> t / 2, n

1 +n 2 2

ii) t> t , n

1 + n 2 2 1 + n 2 2

iii)t< t , n

STATISTIC ECONOMIC

ntrebri recapitulative
1. Definii conceptul de selecie statistic. 2. Artai avantajele utilizrii seleciei statistice. 3. Ce este eantionul? 4. Ce reprezint noiunea de eroare de estimaie? 5. Artai principalele noiuni perechi specifice seleciei statistice. 6. Care sunt principalele etape ale realizrii unui sondaj statistic? 7. Prin ce se caracterizeaz o distribuie de eantionare? 8. Sondajul aleator simplu repetat: caracteristici, eroare de reprezentativitate, eroare limit admisibil, interval de ncredere. 9. Cum se determin volumul eantionului n cazul sondajului aleator simplu repetat i nerepetat. De ce factori depinde? 10. Determinarea erorii de reprezentativitate, a erorii maxim admisibile i a intervalului de ncredere n cazul utilizrii sondajului simplu aleator nerepetat. 11. Cum se determin probabilitatea de garantare a rezultatelor n cazul sondajului aleator simplu repetat i nerepetat? 12. Determinarea intervalului de ncredere n cazul sondajului aleator simplu de volum redus. 13. Determinai indicatorii de sondaj, erorile i intervalul de ncredere pentru caracteristica alternativ n cazul sondajului simplu aleator. 14. Volumul eantionului i probabilitatea de garantare a rezultatelor pentru caracteristica alternativ sondaj simplu aleator. 15. Ce particulariti prezint sondajul stratificat? 16. n ce condiii se folosete i care sunt avantajele utilizrii sondajului tipic n cercetarea statistic? 17. Calculul indicatorilor de sondaj pentru o caracteristic cantitativ, n cazul sondajului tipic. 18. Cum se alege numrul de straturi i cum se repartizeaz volumul eantionului pe straturi? 19. Calculul indicatorilor de sondaj pentru o caracteristic alternativ n cazul sondajului stratificat. 20. Sondajul de serii concept, utilizare, particulariti, avantaje. 21. Ce reprezint ipoteza nul ntr-un proces de testare de ipoteze statistice? 22. Ce reprezint ipoteza alternativ ntr-un proces de testare de ipoteze statistice?

CAPITOLUL 4

23. Ce reprezint testul sau criteriul de semnificaie? 24. Ce reprezint regiunea critic? 25. Cnd comitem o eroare de genul nti? 26. Cnd comitem o eroare de genul al doilea? 27. Ce reprezint i ? 28. Care sunt paii n construirea unui test statistic? 29. Cum se testeaz ipoteza privind media unei colectiviti generale n cazul eantioanelor mari? 30. Cum se testeaz ipoteza privind media unei colectiviti generale n cazul eantioanelor de volum redus? 31. Cum se testeaz ipoteza privind diferena dintre mediile a dou colectiviti generale, n cazul eantioanelor mari? 32. Cum se testeaz ipoteza privind diferena dintre mediile a dou colectiviti generale, n cazul eantioanelor de volum redus?

S-ar putea să vă placă și