Sunteți pe pagina 1din 8

Note de curs

CERCETAREA PRIN SONDAJ


Planul leciei 1. Definire, avantaje, noiuni utilizate 2. Procedee de selecie folosite pentru constituirea eantionului 3. Erorile cercetrii prin sondaj 4. Tipurile de sondaj cele mai utilizate n practic 1. Definire, avantaje, noiuni utilizate Cercetarea parial al crei scop este ca, pe baza rezultatelor prelucrrii datelor obinute, s se estimeze, folosind principiile teoriei probabilitilor, parametrii corespunztori ai colectivitii totale, poart denumirea de sondaj statistic. Cercetarea prin sondaj se desfoar n dou etape: prima etap, n care se culeg i se prelucreaz date statistice de la unitile colectivitii generale care au fost incluse n eantion din care rezult indicatori derivai care descriu statistic eantionul folosit; a doua etap, n care indicatorii obinui prin prelucrarea datelor din eantion se extind, cu o anumit probabilitate, asupra ntregii colectiviti n scopul caracterizrii acesteia din punct de vedere statistic. Dintre avantajele pe care le prezint cercetarea prin sondaj, enunm pe cele mai semnificative: este mai operativ i mai ieftin dect o observare total; partea supus nregistrrii fiind cu mult mai mic dect cea total, iar personalul care face nregistrarea unitilor fiind de specialitate, de regul, erorile de nregistrare sunt n acest caz mai puin numeroase i mai uor de nlturat n faza de verificare a datelor; programul observrilor prin sondaj cuprinde, de regul, un numr mai mare de caracteristici dect programul observrii totale, ceea ce permite caracterizarea mai aprofundat a fenomenelor studiate prin metode statistice; cercetarea prin sondaj este singura posibil atunci cnd prin cercetarea exhaustiv a unitilor s-ar ajunge la distrugerea produsului respectiv (de pild, controlul distructiv al calitii unui produs); evaluarea rezervelor subterane de crbune, petrol, gaze naturale etc. nu este posibil dect pe baza unui sondaj statistic; sondajul statistic poate fi folosit la verificarea datelor culese printr-o observare total de mare amploare n care s-au folosit i nespecialiti precum i la prelucrarea selectiv a unor date; sondajul poate fi utilizat cu bune rezultate n verificarea programului unei observri totale ct i la verificarea unor ipoteze statistice. Cercetarea prin sondaj implic folosirea unor noiuni pereche ca de pild: colectivitate general - colectivitate de selecie; media colectivitii generale - media colectivitii de selecie; dispersia colectivitii generale - dispersia colectivitii de selecie; valoarea statistic calculat valoarea estimat .a. Colectivitatea general denumit i populaie, este alctuit din totalitatea unitilor simple sau complexe care formeaz fenomenul supus cercetrii. Volumul colectivitii generale, din care urmeaz s se extrag unitile n scopul formrii eantionului se noteaz de obicei cu N n cazul unitilor simple i cu R n cazul celor complexe. Dac s-au nregistrat i variabile alternative, atunci unitile care posed caracteristica se noteaz cu M. Colectivitatea de selecie (eantion, prob, mostr) reprezint acea parte a colectivitii generale de la care urmeaz s se culeag datele n scopul extinderii rezultatelor obinute din prelucrarea acestora asupra ntregului ansamblu.

Volumul colectivitii de selecie se noteaz cu n cnd este format din uniti simple i cu r cnd se refer la uniti complexe. Pentru variabile alternative numrul unitilor care posed caracteristica se noteaz cu m. Dintr-o anumit populaie (colectivitate general) pot fi extrase mai multe eantioane de volum n. Din aceast cauz indicatorii statistici cu care caracterizm colectivitatea de sondaj pot fi considerai de forma unor variabile aleatoare pentru care se pot stabili distribuii de frecvene corespunztoare, spre deosebire de media i dispersia din colectivitatea general studiat, care nu pot lua dect cte o singur valoare pentru condiii date de timp i spaiu. Formulele de calcul ale mediei i dispersiei sunt trecute n tabelul 1.
Tabelul 1
Denumirea indicatorului
A

Caracteristica nealternativ Colectivitatea Colectivitate general de selecie


1 2

Caracteristica alternativ Colectivitatea Colectivitate general de selecie


3 4

Media

x0 =
Dispersia
N

x
i =1

N
i

x=
n

x
i =1

P=

n
i

M N

w=

m n

02 =

(x
i =1

x0 ) 2

2 =

(x
i =1

2 x) 2 2 ) w = w(1 w) p = p (1 p

Un eantion este considerat reprezentativ atunci cnd reproduce n structura sa aceeai structur pe care o prezint i colectivitatea general. Teoria i practica statistic demonstreaz c asigurarea reprezentativitii eantionului presupune respectarea cu strictee a urmtoarelor condiii: includerea n eantion a unitilor n mod obiectiv fr a acorda preferin uneia dintre ele, fiecare unitate fiind extras din baza de sondaj dup principiul hazardului cu o probabilitate calculabil i diferit de zero; eantionul stabilit s fie suficient de mare ca s permit redarea trsturilor eseniale ale populaiei totale, ceea ce va permite obinerea, pe baza datelor de sondaj, a unor indicatori cu un grad mare de stabilitate; includerea fiecrei uniti n eantion trebuie s se fac independent de alte uniti. Practica sondajului demonstreaz c reprezentativitatea unui eantion depinde n primul rnd, de alegerea corect a procedeelor i tipurilor de selecie. 2. Procedee de selecie folosite pentru constituirea eantionului n teoria i practica statistic, la formarea eantionului se folosesc mai multe procedee cunoscute sub denumirea de selecii aleatoare, selecii subiectiv organizate sau selecii dirijate i selecii mixte. Folosirea seleciei aleatoare exclude orice intervenie subiectiv n alegerea eantionului. Acest obiectiv se poate realiza numai dac selectarea unui element dintr-o populaie este aleatoare (ntmpltoare), dac toate elementele populaiei au aceeai ans de a fi alese. Spre deosebire de seleciile aleatoare, n seleciile dirijate alegerea unitilor se face de ctre persoanele care culeg datele. Selecia mixt combin principiile sondajului aleator cu ale celui dirijat. n acest caz este necesar ca mai nti s se mpart colectivitatea n grupe tipice dup o anumit caracteristic (de exemplu, personalul dup categoria de ncadrare sau dup calificare etc.) i apoi s se extrag aleator cte un eantion din fiecare grup. n practic, seleciile aleatoare (probabilistice) se realizeaz prin mai multe procedee, care deriv dintr-o schem probabilistic corespunztoare rezultatelor obinute prin tragere la sori a unitilor pentru a forma eantionul. Procedeul tragerii la sori Acest procedeu const n extragerea dintr-o urn a unor bile sau alte obiecte identice reprezentnd fiecare o unitate a colectivitii. Extragerea bilelor din urn se face n dou variante: 2

procedeul seleciei repetate (al bilei revenite); procedeul seleciei nerepetate (al bilei nerevenite). n cazul folosirii procedeului bilei revenite, probabilitatea de includere n eantion a fiecrei uniti este constant (p=1/N) tot timpul ct dureaz operaia de construire a eantionului, iar la sfrit n urn rmn (N-1) uniti. n cel de-al doilea caz, procedeul bilei nerevenite, bila odat extras nu se mai introduce n urn, mrind astfel ansa fiecrei uniti rmas de a intra n eantion (p1=1/N ; p2=1/(N-1);... pn= 1/(N-(n-1))). Rezult n acest caz c n urn rmn la sfrit N-n uniti. Datorit faptului c n cazul seleciei nerepetate este exclus posibilitatea extragerii de mai multe ori a aceleiai uniti, erorile sunt mai mici, deci rezultatele obinute au un grad de precizie mai ridicat. Procedeul tragerii la sori se folosete n cazurile n care colectivitatea general cuprinde un numr mai mic de uniti pentru care se pot asigura bile sau alte obiecte identice care s poat fi incluse ntr-o urn.

Procedeul tabelului cu numere aleatoare Pentru folosirea tabelului cu numere aleatoare este necesar numerotarea unitilor colectivitii generale de la 1 la N i apoi extragerea celor n uniti care formeaz eantionul. De exemplu, considernd c n colectivitatea general sunt 900 uniti i se intenioneaz constituirea unui eantion format din 10% (n=90) se va proceda n felul urmtor: se va alege la ntmplare coloana i rndul din coloana respectiv cu care se va ncepe selecia. Numrul respectiv i numerele aleatoare formate din trei cifre care se vor citi pe coloana respectiv vor fi notate dac sunt cuprinse ntre 1 i 900 i difer de cele reinute anterior i se va renuna la ele dac sunt peste 900. Se continu n felul acesta pn la formarea complet a eantionului (90 uniti). Selecia mecanic Procedeul seleciei mecanice presupune ordonarea unitilor colectivitii generale dup o caracteristic oarecare (ordine alfabetic, numrul de la locuin etc.) prin care s se asigure includerea pe ct posibil intmpltoare a unitilor n baza de sondaj. Operaia de alctuire a eantionului n acest caz este precedat de stabilirea pasului de numrare - care trebuie s fie un numr ntreg - calculat ca raport ntre volumul colectivitii generale i volumul colectivitii de selecie (N/n). Prin calculul pasului de numrare se obine mprirea colectivitii generale n grupe de volum egal. Pentru constituirea eantionului se procedeaz n felul urmtor: se selecteaz la ntmplare (prin tragere la sori) o unitate din prima grup la care se adaug succesiv pasul de numrare pn la obinerea celor n uniti ale eantionului. Seleciile dirijate i cele mixte se folosesc n special n sondajele de opinie, n cercetrile sociologice i uneori n studiul cererii de consum a populaiei. Baza de sondaj pentru o colectivitate general din care va lua natere eantionul, va trebui, din punct de vedere al organizrii, s aib unitile sale simple sau complexe nscrise ntr-o ordine aleatoare dup un anumit criteriu - alfabetic, teritorial, de timp, etc. - care nu are nici o legtur cu rangul de mrime al valorilor variabilelor luate n studiu. O baz de sondaj trebuie s ndeplineasc o serie de condiii, i anume: s fie adecvat scopului urmrit (s cuprind ntreaga populaie); s fie ferit de orice repetiie (fiecare unitate s fie cuprins n baza de sondaj o singur dat); s fie exact; s fie ct mai actual posibil; este convenabil s fie disponibil ntr-un singur centru. 3. Erorile cercetrii prin sondaj n accepiunea cea mai larg, se consider eroare de selecie abaterea care exist ntre valoarea unui parametru (de exemplu, media) calculat prin prelucrarea datelor din eantion i valoarea aceluiai parametru care s-ar fi obinut dac s-ar fi organizat o observare total i ar fi fost prelucrate datele de la toate unitile colectivitii. 3

Erorile ntlnite n cadrul sondajului sunt de dou feluri: erori comune tuturor tipurilor de observri - erori de nregistrare; erori specifice cercetrii prin sondaj - erori de reprezentativitate. Erorile de reprezentativitate specifice sondajului pot fi de dou feluri: erori sistematice i erori ntmpltoare. Erorile de reprezentativitate sistematice pot fi evitate dac se respect ntocmai principiile teoriei seleciei, prin nlturarea cauzelor ce duc la producerea lor. Principalele cauze care pot duce la apariia erorilor sistematice sunt: alegerea deliberat a aa-ziselor uniti "reprezentative"; alegerea la "nimereal" (nu la ntmplare) a unitilor de eantion; selectarea preferenial a acelor uniti care s duc la rezultatul dorit de cercettor; substituirea din comoditate a unei uniti de cercetare prin alta asemntoare; cuprinderea incomplet n sondaj a unitilor, din motive de comoditate. Erorile ntmpltoare de reprezentativitate pot aparea chiar dac se respect cu strictee aceste reguli. Ele deriv din nsi esena metodei de cercetare prin sondaj. Prin numrul mic de uniti care alctuiesc eantionul nu se poate reproduce dect ntmpltor identic seria de distribuie a variabilei din colectivitatea general sau parametrii acesteia. Dei nu pot fi evitate, erorile de reprezentativitate, pot fi calculate cu anticipaie dac selecia este probabilistic. Estimarea parametrilor din colectivitatea general se va putea face deci pe baza indicatorilor obinui din prelucrarea datelor de sondaj cu o eroare ntmpltoare de reprezentativitate care se gsete ntr-un anumit interval probabilistic. n practica sondajului erorile de reprezentativitate se pot calcula ca erori efective i ca erori probabile. Erorile efective de reprezentativitate se pot calcula numai pentru caracteristicile la care s-au obinut date i dintr-o observare total. Considernd c i n acest caz media este indicatorul sintetic cel mai reprezentativ, eroarea efectiv de sondaj se calculeaz ca diferen ntre media eantionului i media colectivitii totale. Eroarea medie de reprezentativitate i eroarea limit n practic, pentru acelai volum de selecie se pot obine mai multe eantioane extrase succesiv din aceai colectivitate total, obinnd astfel valori diferite ale mediei de selecie. n cazul seleciei repetate se poate efectua un numr de eantioane egal cu Nn. n cazul seleciei nerepetate (procedeul bilei nerevenite) combinaiile sunt mai puine datorit faptului c aceeai unitate nu poate participa dect ntr-un singur eantion:
n CN =

N! n! ( N n )!

Fiecare eantion va fi definit de o medie i o dispersie calculabil pentru fiecare caracteristic nregistrat, care vor prezenta abateri fa de media i dispersia colectivitii totale. Erorile de selecie obinute ca diferene ntre media de selecie i media general iau valori diferite de la un eantion la altul, ceea ce face necesar calcularea unui indicator sintetic numit eroarea medie de reprezentativitate. n teoria seleciei se demonstreaz c dac volumul eantionului este suficient de mare (pentru fenomenele monotipice peste 40 de uniti), mediile de selecie se distribuie potrivit funciei Gauss - Laplace cunoscut n statistic sub denumirea de distribuie normal. Dac mediile de selecie se distribuie dup legea normal nseamn c i erorile ntmpltoare de reprezentativitate urmeaz aceeai form de repartiie i interpretarea lor se face pe baza proprietilor distribuiei normale, potrivit creia trebuie stabilit intervalul de ncredere, nivelul de siguran i pragul de semnificaie. Produsul z x este cunoscut sub denumirea de eroare limit ( x ) .
x = z x

Coeficientul z reprezint argumentul funciei Gauss-Laplace i se gsete tabelat. Formulele de calcul ale erorii medii de reprezentativitate difer n funcie de tipul de sondaj folosit. 4

4. Tipurile de sondaj cele mai utilizate n practic Tipul de sondaj folosit n studiul fenomenelor social-economice este n funcie de gradul de omogenitate al colectivitatii studiate selectiv precum i de forma de organizare a colectivitii ce formeaz obiectul cercetrii. Frecvent n practica statistic se folosesc urmtoarele tipuri de selecii: selecia aleatoare simpl; selecia tipic; selecia de serii etc. n fiecare dintre seleciile prezentate se calculeaz trei indicatori de baz i anume: eroarea medie de reprezentativitate, eroarea limit i volumul eantionului. Prezentm n continuare modul de calcul al indicatorilor de selecie pentru principalele tipuri de sondaj ntlnite n statistica social-economic. Selecia aleatoare simpl Practica sondajului demonstreaz c selecia aleatoare simpl poate fi folosit cu succes numai n studierea unor colectiviti monotipice care prezint un grad ridicat de omogenitate. n acest caz, eantionul se formeaz din uniti simple care se extrag din colectivitatea general prin procedeul repetat sau nerepetat pe baza unei scheme probabiliste. Acest tip de selecie dispune de cele mai simple formule de calcul a indicatorilor de selecie care cu unele modificri se folosesc ca baz de calcul i n celelalte tipuri de selecie. Se poate spune pe drept cuvnt c dei acest tip de selecie nu d rezultate bune n cazul colectivitilor neomogene, prezint avantajul c multe din principiile fundamentale ale seleciei pot fi explicate pe baza seleciei aleatoare simple. n aceast situaie sondajul simplu apare ca o variant a procedeului bilei revenite sau nerevenite. Intervalul de ncredere al mediei colectivitii generale este determinat de mrimea medie a eantionului i de eroarea limit respectiv, astfel: pentru caracteristica nealternativ:
x s x < x0 < x s + x

w w < p < w + w

pentru caracteristica alternativ:

n mod asemntor se poate calcula intervalul de ncredere al oricrui alt parametru. Determinarea intervalului de variaie al mediei estimate pe baza datelor de selecie permite i stabilirea intervalului de variaie al nivelului totalizat al caracteristicii care se poate determina dup relaia: pentru caracteristica nealternativ: N ( x s x ) < xi < N ( x s + x )
i =1 N

pentru caracteristica alternativ:

N (w w ) < M < N (w + w )

Dup cum s-a artat precizia rezultatelor seleciei, posibilitatea extinderii lor asupra ntregii colectiviti depinde i de numrul de uniti la care se face culegerea datelor. Pentru determinarea limitei minime a volumului eantionului se ine seama de procedeul de selecie aplicat. Pentru sondajul simplu repetat va fi: 2 2 z 0 02 n = de unde: . x = z 2x n Aceast mrime este minim pentru asigurarea gradului de reprezentativitate dorit. Pentru sondajul simplu nerepetat: 5

2 2 z 0 n= n de unde: x = z (1 ) z 2 2 2x + 0 n N N Comparnd cele dou relaii rezult c pentru acelai grad de reprezentativitate volumul eantionului este cel mai mic dac se folosete procedeul bilei nerevenite.
2 0

Selecie tipic (stratificat) Selecia tipic constituie tipul de selecie care se aplic cel mai frecvent n cercetarea fenomenelor social-economice de mas. Selecia tipic se aplic n cazul colectivitilor neomogene formate din uniti simple i presupune structurarea colectivitii generale pe straturi (grupe) mai omogene i extragerea din fiecare strat a unui subeantion folosind un procedeu de selecie aleatoare. Pentru delimitarea straturilor se folosesc fie variabile calitative (judee, medii de provenien etc.), fie variabile cantitative (cifra de afaceri, numrul de angajai, vrsta etc.). Numrul de straturi se stabilete astfel nct : fiecare subeantion s conin un numr suficient de mare de uniti; sporul de precizie adus de stratificare s nu fie anihilat de creterea costurilor i complicarea calculelor. Erorile de reprezentativitate la selecia tipic sunt mai mici dect la selecia simpl. Cu ct grupele n care a fost mprit colectivitatea sunt mai omogene, cu att mediile de grup au valori mai apropiate de valorile individuale din care s-au calculat i, deci, abaterile ntr-un sens sau altul sunt mai puin importante. n acest caz, variaia mediilor de selecie posibile va depinde de gradul de variaie a fiecrei 2 grupe, sintetizat n mrimea mediei dispersiilor pariale ( ). Deoarece 2 < 2 , vor rezulta erori mai mici prin aplicarea seleciei tipice, i n acest caz, dac nu dispunem de date dintr-o cercetare total anterioar, vom folosi pentru calculul indicatorilor 2 ). de selecie media dispersiilor pariale din colectivitatea de selecie ( n vederea repartizrii eantionului pe subeantioane corespunztor tipurilor calitative, se pot aplica trei modaliti. 1. Repartizarea n mod egal a eantionului pe subeantioane indiferent de numrul unitilor ce compun straturile populaiei totale:
ni = n k

unde: ni dimensiunea fiecrui subeantion k numrul de straturi n populaia total Acest tip de selecie mai poart denumirea de selecie tipic (stratificat) neproporional. De reinut c la determinarea erorii medii de reprezentativitate se ine cont de ponderea straturilor n colectivitatea general. 2. Eantionul se separ pe subeantione n funcie de ponderea fiecrui strat n colectivitatea general: n n1 n ni = n = 2 = ... = i = ... = N1 N 2 Ni Ni Ni de unde: Ni ni = n Ni Acest tip de selecie se mai numete selecia tipic (stratificat) proporional i se folosete frecvent n practic, deoarece datorit modului de formare a eantionului, structura colectivitii de selecie (a eantionului) este identic cu aceea a colectivitii generale, asigurnduse n felul acesta erori mai mici. 6

3. La formarea subeantioanelor se ia n consideraie att ponderea fiecrui strat n colectivitatea general ct i gradul de omogenitate al straturilor, reprezentat de abaterea medie ptratic: N ni = n k i i N i i
i =1

Acest tip de selecie se mai numete selecia tipic (stratificat) optim. deoarece d cele mai mici erori n practic, dar este greu de aplicat. Deoarece eantinul se formeaz prin extragerea aleatoare de subeantione din straturile existente n colecivitatea general, la determinarea erorii medii de reprezentativitate se vor folosi dispersiile de grup sintetizate prin intermediul mediei dispersiilor de grup. Media dispersiilor de grup fiind ntotdeauna mai mic dect dispersia total, nseamn c erorile de reprezentativitate generate de selecia tipic sunt ntotdeauna mai mici dect cele ale seleciei aleatoare simple. Relaiile de calcul n cazul sondajului tipic proporional se particulariaz pornind de la cele ale sondajului aleator simplu, nlocuind dispersia colectivitii generale sau dispersia eantionului (cnd nu se cunoate dispersia colectivitii generale) cu media dispersiilor de grup. Ca urmare: eroarea medie de reprezentativitate:
x = 2
n

pentru selecia repetat pentru selecia nerepetat

x =

n 1 n N

eroarea limit maxim admis


x = z 2
n

pentru selecia repetat pentru selecia nerepetat

x = z

n 1 n N

estimarea mediei la nivelul colectivitii generale


y y < y0 < y + y

unde y=

estimarea nivelului totalizat al caracteristicii


N(y y ) < y j < N(y + y )
j =1 N

y n n
i i

dimensionarea eantionului
n= z 2 2 2y

pentru selecie repetat


z 2 2 pentru selecie nerepetat N

n=

z 2 2 2y +

De reinut: Pentru a obine acelai grad de precizie a rezultatelor, eantionul constituit prin stratificare este mai mic dect cel pentru sondajul aleator simplu; Pentru acelai volum al eantionului, precizia este mai mare n cazul sondajului stratificat dect n cazul sondajului aleator simplu; 7

Eantionul trebuie dimensionat astfel nct fiecare subeantion s conin un numr suficient de uniti pentru a permite calcularea dispersiilor la nivelul subeantioanelor (ni>35); Selecia de serii Se folosete n cazul n care colectivitatea general este format din uniti complexe (echipe, brigzi, ferme, etc.) Seriile sunt uniti complexe care sunt formate la rndul lor din uniti simple. Unitile complexe, fiind alctuite din uniti simple ce posed caracteristici proprii ce le deosebesc una de alta, nu se aseamn cu grupele tipice alctuite din uniti omogene. Pentru ca eantionul format n acest caz s fie reprezentativ pentru ntreaga colectivitate se va extrage printr-unul din procedeele de selecie artate mai nainte uniti complexe. Cu ct mediile din serii sunt mai apropiate ntre ele, vor estima mai corect valoarea medie a ntregii colectiviti, relizndu-se condiia de reprezentativitate a eantionului. Eantionarea fcndu-se pe baz de serii, eantionul este format dintr-un numr de serii notat cu r, iar n colectivitatea general numrul seriilor se va nota cu R. Analog cu selecia tipic se vor elabora i formulele pentru selecia de serii, cu deosebirea c n locul mediei dispersiilor de grup se va folosi dispersia dintre grupe (serii), iar n locul volumului eantionului ( n) se va folosi numrul de serii din eantioane (r) care este mult mai mic dect volumul eantionului adic:

xrep =
xnerep =
wrep
w

x2 ;. r
x2 Rr ; r R 1

2 p = ; r

nerep

2 p

R r . R 1