Documente Academic
Documente Profesional
Documente Cultură
CURS
EXTINDEREA REZULTATELOR IN CERCETAREA STATISTICA PRIN SONDAJ
Inferenta statistica
Cercetarea statistic urmrete obinerea informaiilor ce permit caracterizarea, din punct de vedere cantitativ, a fenomenelor de mas. Exist dou modaliti de obinere a acestor informaii i anume: se pot culege date despre toate unitile ce alctuiesc colectivitatea cercetat (cercetare statistica totala) sau se poate selecta o subcolectivitate pe care s o analizm i pe baza informaiilor obinute s tragem concluzii, s generalizm rezultatele pentru colectivitatea de ansamblu (cercetare statistica partiala sau prin sondaj). n condiiile economico-sociale de astzi, cnd este nevoie de informaii rapide, multiple i complexe, metoda principal de obinere a informaiilor statistice tinde s devin, practic, aceea a sondajului statistic, prin care se obin date empirice i, printr-o interpretare probabilistic, se estimeaz indicatori pentru populaia total.
Inferenta statistica
etapa descriptiv, n care se culeg date i se calculeaz indicatorii ce caracterizeaz subcolectivitatea analizat; etapa inferenial, n care rezultatele obinute pentru aceast subcolectivitate se extind, n termeni probabilistici, la colectivitatea general.
Selecia statistic reprezint operaia de extragere a unei pri dintr-o colectivitate statistic, a unei subcolectiviti numit eantion, colectivitate parial sau colectivitate de selecie.
O prim distincie trebuie fcut ntre colectivitatea total i cea de selecie. Evident, volumul eantionului este ntotdeauna mai mic dect cel al colectivitii generale (totale). Vom nota, atunci, volumul colectivitii generale cu N i volumul colectivitii de selecie cu n, 1 n N-1
Inferenta statistica
Inferenta statistica
Inferena statistic este procesul prin care cptm informaii i tragem concluzii despre populaia general, pe baza eantionul. Exist dou modaliti principale pentru a face aceast inferen: estimaia i testarea de ipoteze statistice. Estimaia nseamn determinarea valorii aproximative a parametrului din colectivitatea general, folosind eantionul statistic. Spre exemplu, media de sondaj este folosit pentru a estima media din populaia general (este, deci, un estimator). Putem utiliza datele din eantion pentru a estima parametrul, n dou moduri:
estimaie punctual (calculam valoarea estimatorului i considerm aceast valoare drept o valoare a parametrului (pe msur ce cretem dimensiunea eantionului, rezultatele vor fi mai exacte, deoarece se bazeaz pe mai multe informaii). estimaiei pe interval de ncredere
Inferenta statistica
Pentru a efectua o estimaie asupra mediei, pe interval de ncredere, este necesar parcurgerea urmtoarelor etape: 1. calculul indicatorilor de sondaj 2. extinderea rezultatelor sondajului asupra colectivitii generale. Calculul indicatorilor de sondaj presupune determinarea: - mediei de sondaj, - dispersiei mediei de sondaj, - erorii medii de reprezentativitate - erorii limit maxim admisibil. Extinderea rezultatelor seleciei asupra colectivitii generale presupune determinarea unui interval de ncredere pe baza estimatorului punctual pentru media colectivitii generale.
Asadar, dispersia mediilor de selecie este invers proporional cu volumul eantionul (n).
sx
n .
D e o a re ce a m e x tra s u n e a n tio n d e v o-o m o n c tivtr te g e n e ra l d lu c le d in ita u n it i, n u p u te m u ris 1 0 0 % n p riv in a v a lo rii ate ea m e d ie i c o le c tiv it fi ig ra d v g e n e ra le . C u to a te a ce ste a , d a c e a n tio n u l e s temda l v o u m anre r ( e sa lu m o > 3 0 u n it i s ta tistice ), p e b a za te o re m e i lim it ce n tra l , p u te in te rv a l d e n c re d e re , c u o p ro b a b ilita te ) d e 1s0 0 (1 d e ragnata re a - la u t re zu lta te lo r, p e n tru p a ra m e tru l m e d ia co le cra le . ii g e n e tiv it
8
x = z / 2 s x = z / 2
sx n
, unde
z / 2 este
si depinde de probabilitatea de garantare a rezultatelor (valorile lui z sunt tabelate pentru diverse niveluri de semnificatie) Aceasta nseamn c n 100(1-)% din cazuri, media de sondaj ( x ) se abate de la media colectivitii generale ( ) cu mai puin sau cel mult z/2 ori eroarea medie de reprezentativitate s x .
bil este,
Intervalul de ncredere calculat pe baza erorii limit maxim admisi n cazul sondajului aleator simplu repetat:
x z / 2
s n
care va conine adevrata valoare a mediei din colectivitatea general ( ), n 100(1 -)% din cazuri. Cea mai folosit probabilitate de garantare a rezul tatelor este de 95% (z 0,025 =1.96), adic: Prin cipiul de baz folosit este gsirea unui echilibru ntre mrimea intervalului de ncredere (un interval mai mic nseamn o precizie crescut) i probabi litatea de cuprindere a parametrului din colectivitatea general (o probabili tate crescut de garantare a rezultatelor poate fi preferat).
10
Se observ c, pe msur ce nivelul de ncredere (probabilitatea cu care garantm rezultatele crete), intervalul de ncredere devine mai mare pentru a acoperi aceast cerin, iar exactitatea estimaiei scade.
11
x x < < x+ x .
Deseori suntem interesai s esti mm pe baza sondajului nu doar nivelul mediu al caracteristicii, ci i iv e lu l t o t a l a l ca r a ct e r is t ic ii n c o le ct iv it a te a n g e n e ra l (exemplu: estimarea pe interval de ncredere a fondului de salari zare, a produciei totale obinute etc.). Intervalul de nredere pentru nivelul total al caracteristicii este: c
N ( x x ) < xi < N ( x + x ) .
i =1 N
12
sx =
sx n
simpla repetata
Volumul eantionului pentru sondaj aleator simplu repetat Precizia estimaiei i probabilitatea cu care se garanteaz re zultatele unei estimaii pe interval de ncredere sunt mrimi invers propor ionale , astfel nct aceste deziderate trebuie puse ntr -o relaie de echilibru n funcie de scopul cercetrii statistice. Deseori, problema se privete dintr -un unghi diferit, astfel nct trebuie s determinm volumul eantionului nece sar pentru precizia i probabilitatea cerut de cercetare . Pentru determin area volumu lui eantionului, ne concentrm atenia asupra a trei factori: nivelul de ncredere dorit; eroarea limit permis; omogenitatea datelor, msurat prin abaterea medie ptratic.
14
simpla repetata
n general, putem exprima precizia cerut, asociat cu mrimealului de interva ncredere pentru media populaiei () n unul din dou moduri echi valente: x putem specifica eroarea lim it maxim admisibil ),( n intervaul l creia dorim s estimm media cu un nivel de ncredere Aceast -). (1 eroare limit maxim admisibil este egal cu jumtate din lungime intervalului de ncredere (L). L=2 putem preciza lungimea total a intervalului de ncredere, . n scopul de a estima parametrul colectivitii generale, cu o eroare li mit maxim admisibil x sau echivalent, pe un interval de ncredere de lun total L, cu un gime nivel de ncredere -), adic o probabilitatde ga (1 e rantare a rezultatelor 100(1 , -)% volumul necesar al eantionului se deter rezolvnd una din urmtoarele ecuaii n min n: s s z / 2 x = x sau z / 2 x = L . n n 2
x
15
simpla repetata
sa u
4(z / 2 ) 2 s 2 x n= . 2 L
2 x , n general necu noscut. Desigur, i aici s x2 se folosete ca o estimaie a lui Valoarea aproximativ a lui s x2 poate fi cunoscut dintr -o ce rce ta re prin sondaj anterioar . Ca o alternativ, putem aproxima amplitudinea m prtierii A x a observaiilor i apoi, sub presupunerea tendinei de norma litate a distribuiei, putem calcula:
s x Ax / 4
innd cont de faptul c, pentru o astfel de distribuie cu tendin de norma litate, aproximativ 95% din observaii, adic marea lor majoritate, se nca dreaz ntr -un interval de 4 ori abaterea medie ptratic. Pentru o distribuie normal sau aproximativ normal, aproxima tiv 99,73% din observaii sunt cuprinse ntr -un interval de 6 ori abaterea medie ptratic. Valoarea lui n astfel determinat va trebui, n orice caz, rotunjit la un numr ntreg superior (fiind vorba de uniti statistice), pentru a fi siguri c mrimea eantionului este suficient n scopul obinerii preciziei dorite.
16
simpla repetata
Exemplu
Vacana de iarn este perioada cea mai important pentru activitatea de schi, deoarece muli copii, studeni i aduli sunt dispui s-i petreac un timp considerabil la munte, practicnd acest sport. Pentru a-i dimensiona activitatea, managerul unei staii de telecabine dorete s estimeze timpul mediu de ateptare la staie pentru clieni, de la sosire pn la servire. Dintr-o cercetare anterioar, el tie c timpul de ateptare are o distribuie aproximativ normal, cu o abatere medie ptratic s x =18 min. Ci clieni trebuie s selecteze pentru a estima timpul mediu de ateptare, cu o probabilitate de 95%, pe un interval de ncredere cu o lungime de 10 minute ( 5 minute)?
s x = 1 8 m i n, z / 2 = z 0.0 2 5 = 1,9 6 x = L / 2 = 1 0/ 2 = 5 m i n . , .
N n sx n sx = 1 N n N 1 n sx
Termenul
finit sau factor de exhaustivitate, iar raportul n/N reprezint fracia de sondaj
sx n x = z / 2 (s x ) = z / 2 1 n N
18
Intervalul de ncredere pentru media din colectivitatea general, corespunztor probabilitii 100(1-)% de garantare a rezultatelor este
x x < < x + x
x z / 2 s n s n 1 < < x + z / 2 1 N N n n
s2 N x
x
2 s 2 + N x
=
x
z2
/ 2
s2 s2
19
2 +
z2
/ 2
f (1 f ) n sf = 1 n N
20
Intervalul de ncredere pentru proporia p din colectivitatea general este dat de: f-f < p < f+f Pentru estimarea numrului de rspunsuri afirmative, intervalul de ncredere este dat de:
N (f f ) < M < N ( f + f )
22
z 2 f (1 f ) n= 2 f