Sunteți pe pagina 1din 23

STATISTIC

Prof.univ.dr. EMILIA IAN

CURS
EXTINDEREA REZULTATELOR IN CERCETAREA STATISTICA PRIN SONDAJ

Inferenta statistica

Cercetarea statistic urmrete obinerea informaiilor ce permit caracterizarea, din punct de vedere cantitativ, a fenomenelor de mas. Exist dou modaliti de obinere a acestor informaii i anume: se pot culege date despre toate unitile ce alctuiesc colectivitatea cercetat (cercetare statistica totala) sau se poate selecta o subcolectivitate pe care s o analizm i pe baza informaiilor obinute s tragem concluzii, s generalizm rezultatele pentru colectivitatea de ansamblu (cercetare statistica partiala sau prin sondaj). n condiiile economico-sociale de astzi, cnd este nevoie de informaii rapide, multiple i complexe, metoda principal de obinere a informaiilor statistice tinde s devin, practic, aceea a sondajului statistic, prin care se obin date empirice i, printr-o interpretare probabilistic, se estimeaz indicatori pentru populaia total.

Inferenta statistica

Metoda sondajului va cuprinde atunci dou etape:


etapa descriptiv, n care se culeg date i se calculeaz indicatorii ce caracterizeaz subcolectivitatea analizat; etapa inferenial, n care rezultatele obinute pentru aceast subcolectivitate se extind, n termeni probabilistici, la colectivitatea general.

Selecia statistic reprezint operaia de extragere a unei pri dintr-o colectivitate statistic, a unei subcolectiviti numit eantion, colectivitate parial sau colectivitate de selecie.
O prim distincie trebuie fcut ntre colectivitatea total i cea de selecie. Evident, volumul eantionului este ntotdeauna mai mic dect cel al colectivitii generale (totale). Vom nota, atunci, volumul colectivitii generale cu N i volumul colectivitii de selecie cu n, 1 n N-1

Inferenta statistica

Inferenta statistica

Inferena statistic este procesul prin care cptm informaii i tragem concluzii despre populaia general, pe baza eantionul. Exist dou modaliti principale pentru a face aceast inferen: estimaia i testarea de ipoteze statistice. Estimaia nseamn determinarea valorii aproximative a parametrului din colectivitatea general, folosind eantionul statistic. Spre exemplu, media de sondaj este folosit pentru a estima media din populaia general (este, deci, un estimator). Putem utiliza datele din eantion pentru a estima parametrul, n dou moduri:

estimaie punctual (calculam valoarea estimatorului i considerm aceast valoare drept o valoare a parametrului (pe msur ce cretem dimensiunea eantionului, rezultatele vor fi mai exacte, deoarece se bazeaz pe mai multe informaii). estimaiei pe interval de ncredere

Inferenta statistica

Pentru a efectua o estimaie asupra mediei, pe interval de ncredere, este necesar parcurgerea urmtoarelor etape: 1. calculul indicatorilor de sondaj 2. extinderea rezultatelor sondajului asupra colectivitii generale. Calculul indicatorilor de sondaj presupune determinarea: - mediei de sondaj, - dispersiei mediei de sondaj, - erorii medii de reprezentativitate - erorii limit maxim admisibil. Extinderea rezultatelor seleciei asupra colectivitii generale presupune determinarea unui interval de ncredere pe baza estimatorului punctual pentru media colectivitii generale.

Inferenta statistica- selectia simpla repetata


C a lcu lu l er o rilo r p en tru se le c ia a le a to a re sim p l r ep eta t 1 . Ero ar ea st a n d a rd a m ed ie i ( ero a r ea m ed ie d e re p re z e n t a t iv it a te )
n cazul unei variabile cantitative, de tip nealternativ, pentru estimarea parametrului x media colectivitii generale ) este necesar s calculm media de sondaj () . ( Dispersia mediilor de selecie este de n ori mai mic dect dispersia colectivitii generale i, n cele mai multe cazuri, cum dispersia din colectivitatea generala este necunoscut, se estimeaz pe baza dispersiei eantionului: s2 x 2 sx = n .

Asadar, dispersia mediilor de selecie este invers proporional cu volumul eantionul (n).

Inferenta statistica- selectia simpla repetata

E ro a re a m e d ie d e re p re ze n ta(a bitate re a m e d ie p tra tic a m e d tiv a te so n d a j) se d e te rm in p e b a z a d a te lo r d in e a n tio n c a :


sx = s2
x

sx

n .

D e o a re ce a m e x tra s u n e a n tio n d e v o-o m o n c tivtr te g e n e ra l d lu c le d in ita u n it i, n u p u te m u ris 1 0 0 % n p riv in a v a lo rii ate ea m e d ie i c o le c tiv it fi ig ra d v g e n e ra le . C u to a te a ce ste a , d a c e a n tio n u l e s temda l v o u m anre r ( e sa lu m o > 3 0 u n it i s ta tistice ), p e b a za te o re m e i lim it ce n tra l , p u te in te rv a l d e n c re d e re , c u o p ro b a b ilita te ) d e 1s0 0 (1 d e ragnata re a - la u t re zu lta te lo r, p e n tru p a ra m e tru l m e d ia co le cra le . ii g e n e tiv it
8

Inferenta statistica- selectia simpla repetata


2. Eroarea lim it
Pentru probabilitatea cu care garantm rezultatele 100(1 -)%, eroarea lim it (m axim ) adm isibil este:

x = z / 2 s x = z / 2

sx n
, unde

z / 2 este

argumentul functiei Gauss-Laplace

si depinde de probabilitatea de garantare a rezultatelor (valorile lui z sunt tabelate pentru diverse niveluri de semnificatie) Aceasta nseamn c n 100(1-)% din cazuri, media de sondaj ( x ) se abate de la media colectivitii generale ( ) cu mai puin sau cel mult z/2 ori eroarea medie de reprezentativitate s x .

Inferenta statistica- selectia simpla repetata


Intervalul de ncredere pentru media

bil este,

Intervalul de ncredere calculat pe baza erorii limit maxim admisi n cazul sondajului aleator simplu repetat:

x z / 2

s n

care va conine adevrata valoare a mediei din colectivitatea general ( ), n 100(1 -)% din cazuri. Cea mai folosit probabilitate de garantare a rezul tatelor este de 95% (z 0,025 =1.96), adic: Prin cipiul de baz folosit este gsirea unui echilibru ntre mrimea intervalului de ncredere (un interval mai mic nseamn o precizie crescut) i probabi litatea de cuprindere a parametrului din colectivitatea general (o probabili tate crescut de garantare a rezultatelor poate fi preferat).

10

Inferenta statistica- selectia simpla repetata


Pentru un eantion de volum normal sau mare, mrimea relativ a intervalului de ncredere poate s fie prezentat schematic astfel
Interval de ncredere pentru 1-=0,999 Interval de ncredere pentru 1-=0,99 Interval de ncredere pentru 1-=0,95 Interval de ncredere pentru 1-=0,90

M rim ea relativ a intervalului de ncredere p entru un eantion de volum m are

Se observ c, pe msur ce nivelul de ncredere (probabilitatea cu care garantm rezultatele crete), intervalul de ncredere devine mai mare pentru a acoperi aceast cerin, iar exactitatea estimaiei scade.

11

Inferenta statistica- selectia simpla repetata


Extinderea rezultatelor sondajului la ntreaga colectivitate statistic se va face p e n t r u m e d ia ca ra ct e r is t ic ii n u m e ric e a n a liz a t pe baza erorii limit admisibil i a intervalului de ncredere:

x x < < x+ x .
Deseori suntem interesai s esti mm pe baza sondajului nu doar nivelul mediu al caracteristicii, ci i iv e lu l t o t a l a l ca r a ct e r is t ic ii n c o le ct iv it a te a n g e n e ra l (exemplu: estimarea pe interval de ncredere a fondului de salari zare, a produciei totale obinute etc.). Intervalul de nredere pentru nivelul total al caracteristicii este: c
N ( x x ) < xi < N ( x + x ) .
i =1 N

12

Inferenta statistica- selectia simpla repetata


Exemplu Directorul unui hotel dorete s estimeze durata medie a sejurului turitilor cazai n hotel. n acest scop el selecteaz aleator repetat datele din registrul hotelului, pentru un numr de 80 de turiti, pentru care calculeaz durata medie a sejurului x = 4,8 zile, cu o abatere medie ptratic s x = 2,7 zile i dorete s estimeze pe interval de ncredere, pentru o probabilitate de garantare a rezultatelor de 95%, durata medie a sejurului pentru turitii cazai n hotel.
x = 4,8 zile , s x = 2,7 zile , n = 80 , z / 2 = z 0.025 = 1,96

sx =

sx n

2,7 = 0,30 zile (eroarea standard a mediei) 8,94

x = z / 2 s x = 1,96 0,30 = 0,59 zile


x x x + x 4,8 0,59 4,8 + 0,59 4,21 5,39 zile (pentru o probabilitate de garantare a rezultatelor de 95%).
13

ALEGEREA VOLUMULUI EANTIONULUI - selectia

simpla repetata

Volumul eantionului pentru sondaj aleator simplu repetat Precizia estimaiei i probabilitatea cu care se garanteaz re zultatele unei estimaii pe interval de ncredere sunt mrimi invers propor ionale , astfel nct aceste deziderate trebuie puse ntr -o relaie de echilibru n funcie de scopul cercetrii statistice. Deseori, problema se privete dintr -un unghi diferit, astfel nct trebuie s determinm volumul eantionului nece sar pentru precizia i probabilitatea cerut de cercetare . Pentru determin area volumu lui eantionului, ne concentrm atenia asupra a trei factori: nivelul de ncredere dorit; eroarea limit permis; omogenitatea datelor, msurat prin abaterea medie ptratic.

14

ALEGEREA VOLUMULUI EANTIONULUI - selectia

simpla repetata

n general, putem exprima precizia cerut, asociat cu mrimealului de interva ncredere pentru media populaiei () n unul din dou moduri echi valente: x putem specifica eroarea lim it maxim admisibil ),( n intervaul l creia dorim s estimm media cu un nivel de ncredere Aceast -). (1 eroare limit maxim admisibil este egal cu jumtate din lungime intervalului de ncredere (L). L=2 putem preciza lungimea total a intervalului de ncredere, . n scopul de a estima parametrul colectivitii generale, cu o eroare li mit maxim admisibil x sau echivalent, pe un interval de ncredere de lun total L, cu un gime nivel de ncredere -), adic o probabilitatde ga (1 e rantare a rezultatelor 100(1 , -)% volumul necesar al eantionului se deter rezolvnd una din urmtoarele ecuaii n min n: s s z / 2 x = x sau z / 2 x = L . n n 2
x

15

ALEGEREA VOLUMULUI EANTIONULUI - selectia

simpla repetata

Soluia poate fi scris ca:


(z / 2 ) 2 s 2 x n= 2 x

sa u

4(z / 2 ) 2 s 2 x n= . 2 L

2 x , n general necu noscut. Desigur, i aici s x2 se folosete ca o estimaie a lui Valoarea aproximativ a lui s x2 poate fi cunoscut dintr -o ce rce ta re prin sondaj anterioar . Ca o alternativ, putem aproxima amplitudinea m prtierii A x a observaiilor i apoi, sub presupunerea tendinei de norma litate a distribuiei, putem calcula:

s x Ax / 4

innd cont de faptul c, pentru o astfel de distribuie cu tendin de norma litate, aproximativ 95% din observaii, adic marea lor majoritate, se nca dreaz ntr -un interval de 4 ori abaterea medie ptratic. Pentru o distribuie normal sau aproximativ normal, aproxima tiv 99,73% din observaii sunt cuprinse ntr -un interval de 6 ori abaterea medie ptratic. Valoarea lui n astfel determinat va trebui, n orice caz, rotunjit la un numr ntreg superior (fiind vorba de uniti statistice), pentru a fi siguri c mrimea eantionului este suficient n scopul obinerii preciziei dorite.

16

ALEGEREA VOLUMULUI EANTIONULUI - selectia

simpla repetata

Exemplu

Vacana de iarn este perioada cea mai important pentru activitatea de schi, deoarece muli copii, studeni i aduli sunt dispui s-i petreac un timp considerabil la munte, practicnd acest sport. Pentru a-i dimensiona activitatea, managerul unei staii de telecabine dorete s estimeze timpul mediu de ateptare la staie pentru clieni, de la sosire pn la servire. Dintr-o cercetare anterioar, el tie c timpul de ateptare are o distribuie aproximativ normal, cu o abatere medie ptratic s x =18 min. Ci clieni trebuie s selecteze pentru a estima timpul mediu de ateptare, cu o probabilitate de 95%, pe un interval de ncredere cu o lungime de 10 minute ( 5 minute)?

s x = 1 8 m i n, z / 2 = z 0.0 2 5 = 1,9 6 x = L / 2 = 1 0/ 2 = 5 m i n . , .

z 2 s 2 1,962 324 n= 2 = = 49,78 50 turiti. x 25


17

Sondajul aleator simplu nerepetat

Eroarea medie de reprezentativitate este:

N n sx n sx = 1 N n N 1 n sx

Termenul

N n n 1 se numete coeficient de corecie n populaie N1 N

finit sau factor de exhaustivitate, iar raportul n/N reprezint fracia de sondaj

Eroarea limit maxim admisibil este:

sx n x = z / 2 (s x ) = z / 2 1 n N
18

Sondajul aleator simplu nerepetat

Intervalul de ncredere pentru media din colectivitatea general, corespunztor probabilitii 100(1-)% de garantare a rezultatelor este
x x < < x + x
x z / 2 s n s n 1 < < x + z / 2 1 N N n n

Determinarea volumului eantionului


n= z2 z2
/ 2 / 2

s2 N x
x

2 s 2 + N x

=
x

z2

/ 2

s2 s2
19

2 +

z2

/ 2

Estimarea proporiei n cazul n cazul sondajului aleator simplu


Utilizarea lui f pentru a estima populaia p este similar cu utilizarea lui x pentru estimarea parametrului . Determinarea erorii medii de reprezentativitate
sf = f (1 f ) n

pentru selecie repetat

f (1 f ) n sf = 1 n N

pentru selecie nerepetat

20

Estimarea proporiei n cazul n cazul sondajului aleator simplu

eroarea limit(maxim admisibil):


=z / 2 s f =z / 2 f f (1 f ) n

pentru selecie repetat i


f = z / 2 s f = z / 2 f (1 f ) n 1 n N

pentru selecie nerepetat


21

Estimarea proporiei n cazul n cazul sondajului aleator simplu

Intervalul de ncredere pentru proporia p din colectivitatea general este dat de: f-f < p < f+f Pentru estimarea numrului de rspunsuri afirmative, intervalul de ncredere este dat de:

N (f f ) < M < N ( f + f )

22

Estimarea proporiei n cazul n cazul sondajului aleator simplu


Determinarea volumului eantionului Pentru selecia aleatoare repetat

z 2 f (1 f ) n= 2 f

pentru selecia fr revenire


z 2 f (1 f ) N n= 2 = 2 f N + z f (1 f ) z 2 f (1 f ) z 2 f (1 f ) 2 f + N
23

S-ar putea să vă placă și