Sunteți pe pagina 1din 9

1

SONDAJUL STATISTIC
SONDAJUL STATISTIC
Sondajul sau selectia statistica este o metoda partiala de observare statistica, din
ce în ce mai larg utilizata în cercetarile statistice moderne. Sondajul se foloseste
pentru a înlocui o observare totala, de mare amploare, mai dificil de realizat,
care presupune angajarea unor cheltuieli ridicate de resurse materiale, financiare
si umane.
Avantajele cercetarii statistice prin sondaj, opusa unei cer-cetari statistice
totale, sunt incontestabile.
Principalul avantaj al metodei sondajului statistic consta în faptul ca aceasta
metoda este aplicabila în toate cazurile în care se urmareste realizarea unei
economii de resurse banesti, de munca si de timp (care, în ultima instanta,
înseamna tot economie de bani) pentru obtinerea unui volum de informatii
necesar si suficient, cu un grad de exactitate acceptabil. Este evident mai ieftin
sa fie cercetate 50 de unitati statistice în loc de 500 sau de 5000, chiar daca, pe
o unitate statistica cercetata, costul poate sa fie mai ridicat datorita cheltuielilor
suplimentare determinate, de pilda, de selectarea esantionului.
Un alt avantaj al utilizarii sondajului statistic este faptul ca programul cercetarii
poate sa fie mai amplu, iar informatiile detaliate pot fi culese doar de la unitatile
statistice selectate în esantion. Acest lucru permite o caracterizare mai profunda
a fenomenelor studiate prin metode statistice. De asemenea, în etapa de
culegere a datelor se poate folosi un personal de calificare superioara, ceea ce
poate determina reducerea erorilor de observare. Nu în ultimul rând, trebuie
subliniat faptul ca sondajul statistic devine absolut necesar si imperativ atunci
când prin cercetarea statistica se distrug unitatile statistice supuse analizei, ca de
pilda în controlul statistic al calitatii productiei, la verificarea calitatilor
organoleptice ale produselor. Totodata, sondajul statistic poate fi utilizat pentru
verificarea programului unei observari totale si pentru verificarea si testarea unei
ipoteze statistice.
Desi avantajele esantionarii sunt evidente, în contrapartida exista întotdeauna o
incertitudine referitoare la posibilitatea extrapolarii corecte a indicatorilor la
întreaga populatie. Parasind terenul certitudinii si intrând în cel al
probabilitatilor nu vom fi niciodata 100% siguri ca esantionul selectat oglindeste
perfect situatia din colectivitatea generala. Daca se respecta, însa, anumite reguli
în privinta procedeului de selectie aleatoare si în privinta marimii esantionului,
se poate garanta, cu un anumit nivel prestabilit de confidenta, reprezentativitatea
esantionului. Folosirea selectiei aleatoare (esantionarea probabilista), în care
fiecare unitate statistica din colectivitatea generala are sansa calculabila si
diferita de zero sa fie selectionata în esantion, permite calcularea marimii erorii
si stabilirea prealabila a acestei marimi.
Datorita tuturor acestor avantaje, cercetarea statistica prin sondaj este utilizata în
domenii diverse: analiza macroeconomica, demografie, agricultura, comert,
anchete sociale etc.
Asa cum am aratat, exista doua categorii esentiale de sondaj: sondaj aleator
(probabilist) si sondaj nealeator. Pentru multe studii este posibila doar realizarea
2

unei esantionari nealeatoare (cum ar fi ancheta statistica care ofera informatii


orientative, esantionarea pe cote, observarea partii principale etc.). Însa, în
analiza statistica, singura cale pentru a putea folosi corect inferenta statistica, de
la esantion la colectivitatea generala, este sa utilizam un sondaj probabilist.
Sondajul aleator simplu
Un esantion probabilist este acela în care unitatile din esantion au fost alese pe
baza unor probabilitati cunoscute. Tipurile de esantionari probabiliste cel mai
des utilizate sunt: esantionarea aleatoare simpla, esantionarea stratificata si
esantio-narea în cuiburi (cluster).
În sondajul aleator simplu sansa de selectie în esantion a fiecarei unitati
statistice din colectivitatea generala trebuie sa fie egala. Acesta este un sondaj
cu un singur grad, în care unitatile sunt extrase din întreaga populatie, care
constituie baza de sondaj. Pentru efectuarea unei selectii simple aleatoare
corecte, este esential sa eliminam elementele preferentiale ale alegerii umane
care ar putea duce la formarea arbitrara a esantionului.
Un esantion simplu aleator este asadar selectat astfel încât:
fiecare unitate statistica are o probabilitate egala de a fi aleasa în esantion si
unitatile sunt alese independent, fara legatura una cu cealalta.
Alcatuirea bazei de sondaj implica sistematizarea unitatilor statistice din
colectivitatea generala în liste, harti etc, astfel încât sa permita alegerea
întâmplatoare a unitatilor ce vor fi selectate în esantion. Baza de sondaj trebuie
sa fie completa, exacta, fara duble înregistrari si fara omisiuni, astfel încât
fiecare unitate sa aiba sansa calculabila, diferita de zero, de a fi cuprinsa în esan-
tion. Unitatile de esantionare pot fi simple sau complexe: orase, gospodarii,
persoane, firme, piese pentru controlul calitatii etc.
Independenta selectiei unitatilor, una fata de cealalta, este asigurata prin
amestecarea si ordonarea unitatilor în baza de sondaj dupa un criteriu ce nu are
legatura cu cercetarea statistica efectuata.
Sondajele pot fi repetate sau nerepetate, dupa cum exista posibilitatea revenirii
unei aceleasi unitati în cadrul aceluiasi esantion.
În prima situatie, a sondajului repetat (cu revenire), fiecare unitate statistica
extrasa din colectivitatea generala este reintrodusa în baza de sondaj, dupa ce a
fost citita si caracteristicile au fost înregistrate.

1. Necesitatea folosirii sondajului statistic în studiul fenomenelor social-


economice

Avantaje:
1. Când colectivitatea totală este foarte mare, cercetarea ei exhaustivă necesită
un volum mare de cheltuieli materiale şi umane, deci este avantajos să se
recurgă la sondaj, care este mai operativ şi mai ieftin;
2. Partea supusă înregistrării fiind mult mai mică decât cea totală, erorile de
înregistrare sunt mai puţin numeroase şi mai uşor de înlăturat în faza de
verificare a datelor;
3

3. Cercetarea prin sondaj este singura posibilă atunci când prin cercetarea
exhaustivă s-ar ajunge la distrugerea produselor (de exemplu, controlul
calităţii unui produs);
4. Sondajul permite verificarea programului unei observări totale şi a ipotezelor
statistice.

2. Noţiuni specifice sondajului statistic

a. Sondajul statistic desemnează o cercetare parţială al cărei scop este ca


pe baza rezultatelor obţinute la un eşantion riguros prelevat să se estimeze
parametrii populaţiei totale, pe baza principiilor teoriei probabilităţilor, statisticii
matematice şi a legii numerelor mari.
Etape ale cercetării prin sondaj:
• Culegerea şi prelucrarea datelor statistice de la unităţile colectivităţii generale
care au fost incluse în eşantion şi din care rezultă indicatorii derivaţi, cum
sunt mărimile relative, medii şi indicii = etapa descriptivă.
• Indicatorii obţinuţi din prelucrarea datelor din eşantion se extind cu o
anumită probabilitate asupra întregii colectivităţi, în scopul caracterizării
acesteia din punct de vedere statistic = etapa inferenţială.
b. Colectivitatea de selecţie (de sondaj, probă, mostră, eşantion)
reprezintă acea parte a colectivităţii generale notată cu N de la care urmează să
se culeagă datele în scopul generalizării rezultatelor obţinute din prelucrarea
acestora asupra întregului ansamblu. Dacă colectivitatea generală este împărţită
r
în r grupe, atunci N = ∑ N i . Volumul colectivităţii de selecţie se notează cu n,
i =1
r
iar dacă avem mai multe eşantioane, n = ∑ n i .
i =1

c. Planul cercetării prin sondaj trebuie să cuprindă:


• Delimitarea în timp, spaţiu şi organizatoric a colectivităţii generale;
• Verificarea gradului de omogenitate a colectivităţii generale;
• Alegerea sau stabilirea bazei de sondaj. Baza de sondaj reprezintă
sistematizarea unităţilor statistice astfel încât să permită alegerea
întâmplătoare a unităţilor statistice ce vor intra în eşantion. Ea nu trebuie să
conţină înregistrări duble şi trebuie să fie completă pentru ca fiecare unitate
statistică să aibe o şansă de a fi cuprinsă în eşantion;
• Alegerea şi definirea unităţii statistice folosite la eşantionare: unităţile de
eşantionare pot fi simple (indivizi, piese) sau complexe (gospodării, oraşe,
loturi de piese);
• Alegerea tipului şi procedeului de selecţie;
• Stabilirea periodicităţii efectuării sondajului;
• Stabilirea planului observării;
• Stabilirea planului de prelucrare a datelor de selecţie din punct de vedere
metodologic şi organizatoric;
4

• Alegerea procedeelor de verificare a semnificaţiei indicatorilor de selecţie şi


de extindere a rezultatelor selecţiei asupra întregului ansamblu.
d. Reprezentativitatea eşantionului este îndeplinită în cazul în care
reproduce în structura sa aceeaşi structură pe care o prezintă colectivitatea
generală. Condiţii:
• Fiecare unitate din colectivitatea generală trebuie să aibe aceeaşi şansă de a
pătrunde în eşantion;
• Eşantionul stabilit trebuie să fie suficient de mare ca să permită redarea
trăsăturilor esenţiale şi să poată surprinde întreaga variaţie a caracteristicilor
înregistrate în eşantion, fapt care va permite obţinerea unor indicatori cu un
grad mare de veridicitate;
• Includerea fiecărei unităţi în eşantion trebuie să se facă independent de alte
unităţi.
Eroarea de estimaţie (estimatorul eşantionului) reprezintă valoarea
parametrului din colectivitatea generală; în general, este necunoscută.
Un estimator este nedeplasat dacă nu este în mod sistematic diferit decât
parametrul corespunzător din populaţia generală.
Notaţii:

 µ p e n tcr ou l e c tai tveigat e n e r a l a


• Media aritmetică: 
 x p e n ter su a n t i o n
∑ x i sau µ=
∑ xi Ni
µ=
N ∑ Ni
∑ x i sau x=
∑ xini
x=
n ∑ni
 σ 2 p e n tcr ou l e c at itvegiate n e r a l a
• Dispersia: 2
 s p e n ter sua n t i o n
∑ ( x i − µ) 2 sau σ 2
=
∑ ( x i − µ) 2 N i
σ 2
=
N ∑ Ni
2
 ∑ xi 
2
 ∑ xini 
∑ x − 2
 ∑ x n 2
−  

i
i
∑ (x i − x) 2

i
n  sau 2 ∑ ( x i − x ) 2 n i  n i 
s =
2
= s = =
n −1 n −1 ∑ ni − 1 ∑ ni − 1
Utilizând divizorul (n-1) se obţine un estimator nedeplasat al dispersiei
generale σ2 . În cazul în care eşantioanele sunt de volum mare, n>30, se poate
renunţa la scăderea lui 1 din numitorul dispersiei.

3. Procedee de selecţie pentru constituirea eşantionului


5

În teoria şi practica statistică, la formarea eşantionului se folosesc mai


multe procedee:
1. Sondaje aleatoare (întâmplătoare), care exclud orice intervenţie subiectivă
în alegerea eşantionului: sondajul simplu, sondajul tipic (stratificat), sondajul
de serii, sondajul secvenţial şi sondajul în trepte.
2. Sondaje dirijate (sau subiectiv organizate), pentru care alegerea unităţilor
se face de către persoanele care culeg datele, ceea ce implică producerea unor
distorsiuni. În practică se foloseşte rar.
3. Sondaje mixte, le îmbină pe precedentele. În acest caz, este necesar ca mai
întâi să se împartă colectivitatea în grupe tipice după o anumită caracteristică
şi apoi să se extragă întâmplător câte un eşantion din fiecare grupă. Operaţia
de extragere a eşantionului are în vedere mărimea acestuia, procedeul de
extragere şi estimarea de calcul.
Fiecare din acestea se poate efectua în două variante:
- repetat - când o unitate prelevată este restituită populaţiei de origine şi
deci are şanse să mai reintre în eşantion;
- nerepetat - când unităţile nu sunt sau nu pot fi restituite în populaţia
generală.
Modelul teoretic al acestor două variante de prelucrare se află în “urna lui
Bernoulli” cu bilă revenită şi nerevenită. Prelevarea unităţilor se efectuează după
diverse metode dintre care amintim:
1. Procedeul “LOTERIE”, este un procedeu aleator în care unităţile,
perfect identificabile (“seria” imprimată pe produse sau componente, “numărul
de marcă” al salariaţilor, “numărul casei” sau al apartamentului etc.) sunt
prelevate după corespondentul înregistrat pe bileţele amestecate şi extrase
aleator dintr-o “urnă”.
2. Procedeul “tabelelor cu numere aleatoare”. Unităţile vor fi prelevate
din populaţia N şi se va alcătui eşantionul n, în ordinea aleatoare în care sunt
înregistrate numerele într-un tabel de acest tip, special alcătuit. Aceste tabele
oferă serii de numere aleatoare rezultate în urmă aplicării unui procedeu de tip
loterie şi consemnarea rezultatelor, fie se obţin prin utilizarea calculatorului
electronic, folosind programele specifice pentru “generarea numerelor
aleatoare”.
3. Procedeul mecanic constă în prelevarea unităţilor la intervale de timp
sau numerice bine precizate, deci la un anumit “pas de numărare” aplicat bazei
de sondaj. De exemplu, dacă eşantionul n reprezintă 10% din volumul populaţiei
N, atunci se va preleva fiecare a 10-a unitate a populaţiei. Deci “pasul de
N
numărare” este egal cu k= . Pentru a îmbunătăţi caracterul aleator al
n
procesului de prelevare nu se va porni extracţia cu unitatea numărului 001, ci cu
o unitate oarecare extrasă aleator, de exemplu din primele 20. Să presupunem 7
şi vom avea 7; 7+10=17; 17+10=27 ş.a.m.d.

4. Erorile cercetării prin sondaj


6

1. Erori de înregistrare, care sunt comune tuturor tipurilor de observări şi pot


fi înlăturate în urma unui control atent.
2. Erori de reprezentativitate, care apar ca diferenţă sau abatere între
indicatorii derivaţi ce caracterizează colectivitatea de selecţie şi cei
corespunzători calculaţi pentru întreaga colectivitate. Ei pot avea la bază
încălcarea principiilor alcătuirii corecte a eşantioanelor - erorile sistematice)
sau alţi factori aleatori - erori întâmplătoare.
Măsurarea erorii de reprezentativitate se poate efectua:
- absolut, ca dimensiune a deplasării indicatorului (parametrului) de
sondaj ( x ) , de la mărimea “adevărată” a parametrului în populaţia generală ( µ
), respectiv x −µ;
- relativ, caz în care indicatorul “eroare de eşantionare” se poate exprima
cu relaţia:
x −µ
×100 ≤ 5%
µ
O eroare relativă situată sub 5% permite a se aprecia că sondajul este
reprezentativ şi oferă deci o imagine aproximativ "fidelă" a realităţii.
3. Eroarea medie de reprezentativitate (abaterea medie pătratică a mediei
de sondaj).
4. Eroarea limită maximă admisibilă ∆x .
Estimaţiile obţinute pe baza datelor de sondaj constitue evaluări
aproximative ale adevăratelor valori ale parametrilor necunoscuţi din populaţia
generală, deci rezultatele obţinute printr-un sondaj sunt afectate de erori. Ce se
poate obţine prin sondaj este nu valoarea “adevărată” a parametrului căutat ci un
“interval de încredere”, care, cu o probabilitate fixată de către cercetător,
acoperă valoarea adevărată dar necunoscută a parametrului din populaţia
generală. Acest interval poartă numele de interval de estimaţie sau interval de
încredere.
Cele două limite ale intervalului de încredere θinf şi θsup , se calculează
pe baza datelor sondajului x1, x2, ...., xi, ...., xn, astfel încât cu o probabilitate P =
1 - α să se îndeplinească relaţia P(θinf < θ < θsup ) = 1 − α . Intervalul (θinf ; θsup )
reprezintă intervalul de încredere şi defineşte precizia estimaţiei. Probabilitatea
P = 1 - α caracterizează siguranţa afirmaţiilor şi se numeşte nivel de încredere.
α este valoarea complementară a nivelului de încredere, se numeşte nivel
sau prag de semnificaţie şi se fixează prin programul de cercetare. Cele mai
utilizate valori ale probabilităţii de încredere sunt 90%, 95%, 99%, 99,9%,
cărora le corespund niveluri de semnificaţie de 10%, 5%, 1%, 0,1%. Jumătatea
intervalului de încredere se numeşte eroare limită admisă şi se notează
(θinf ; θsup )
∆= .
2

5. Sondajul aleator simplu

Este varianta aleatoare elementară de sondaj, celelalte tipuri putând fi


înţelese ca soluţii obţinute prin particularizarea unor elemente ale acestui tip de
7

sondaj. El se poate realiza, din punct de vedere al prelevării unităţilor, în una din
cele două variante - repetat şi nerepetat.

Indicatorii sondajului simplu repetat şi nerepetat

Repetat Nerepetat
a) Eroarea medie de sondaj
• Abaterea medie pătratică a mediei de •Abaterea medie pătratică a medie de
σ s sondaj, ca măsurător al erorii medii de
sondaj σx este egală cu σ x = n ≈ n
reprezentativitate este:
, adică dispersia de sondaj într-o σ N−n s N −n s n
eşantionare de volum n este de n σ x = n N − 1 ≈ n N − 1 ≈ n 1 − N
ori mai mică decât dispersia σ2 a n
• În practică, pentru < 0,2 , factorul
colectivităţii generale. N
N −n n
sau 1− nu se mai ia în
N −1 N
consideraţie.
Observaţii:
1. După cum s-a observat, când abaterea medie pătratică prin populaţia generală
este necunoscută, ea a fost înlocuită cu s – estimatorul ei stabilit pe baza unui
sondaj;
2. Dacă eşantionul în vederea estimării abaterii mediei pătratice se efectuează
2

pe baza unui număr redus de unităţi în probă, atunci σ = ∑ j


(x − x)
;
n −1
3. Un estimator al dispersiei este şi valoarea maximă a indicatorului
( x − x ) 2 + ( x max − x ) 2
σ 2max = min .
2

b) Eroarea limită (eroarea maximă admisă sau probabilă)


8

Repetat Nerepetat
Eroarea limită maximă admisă defineşte siguranţa (sau probabilitatea de
încredere) estimării mediei m prin variabila de sondaj x şi se măsoară
probabilist, astfel:
x −m <∆x

Mărimea ∆x caracterizează precizia estimaţiei. Aprecierea satisfacerii


inegalităţii nu se poate face decât ca o probabilitate de realizare:
( )
P x −m < ∆x =1 −α

Probabilitatea 1 − α se alege de către cercetător în funcţie de “nivelul de


siguranţă” urmărit în estimare, cele mai uzuale valori fiind 0,95; 0,99; 0,999.
Pentru valoarea uzuală α= 0,05 ;0,01 ;0,001 Valorile variabilei Z sunt
Z0,05=1,96; Z0,01=2,33 respectiv Z0,001=3,09. Din tabelele Laplace se pot obţine
mărimile Z şi pentru alte praguri de semnificaţie.
σ σ n
∆x = Zα ∆x = Z α 1−
n n N
c) Determinarea volumului eşantionului
La organizarea unei cercetări prin sondaj una din problemele de rezolvat
este dimensionarea lui raţională. Este adevărat că mărimea volumului n al
sondajului - în virtutea legii numerelor mari - sporeşte precizia rezultatelor,
reduce eroarea medie probabilă. Ţinând seama de criterii de economicitate este
necesar ca acest volum să fie cât mai mic. Luând în considerare ambele aspecte,
se determină numărul minim de unităţi de observat care să satisfacă exigenţele
de precizie şi siguranţă formulate în raport cu cercetarea respectivă.
În teoria şi practica sondajului se operează cu eşantioane “mari” şi
eşantioane “de volum redus”, în funcţie de gradul de omogenitate al
colectivităţii generale. Interpretarea erorii de reprezentativitate se face în mod
diferit: pentru eşantioanele de volum mare se foloseşte distribuţia normală
Laplace, iar pentru cele de volum redus distribuţia Student.
Calculul volumului eşantionului se realizează pornind de la eroarea limită
maximă admisă.
σ σ n
∆x = Zα ∆x = Z α 1−
n n N
σ 2
σ  2
n Z2 σ 2 N−n
∆2x = Z α2 ⇒ n∆2x = Z α2 σ 2 ⇒ ∆2x = Z α2 1 −  ⇒ ∆ x = α
2
 
n n  N n  N 
σ2
n = Z α2 2 Z 2 σ 2 N − Z α2 σ 2 n
∆x ⇒ ∆2x = α ⇒
nN
nN ∆2x = Z α2 σ2 N − Z α2 σ2 n ⇒
Z α2 σ 2 N Z α2 σ 2
⇒n= ⇒n=
N∆ 2x + Z α2 σ 2 Z2 σ 2
∆ 2x + α
N
d) Calculul intervalului de încredere
“Intervalul de încredere” desemnează zona probabilă în interiorul căreia
se va plasa media populaţiei generale.
Se pleacă de la x −m <∆ , ceea ce este echivalent cu x − ∆ < m < x + ∆ .
x x x
9

Repetat Nerepetat
 σ   σ   σ n   σ n 
N x − Z α  ≤ N × m ≤ N x + Z α  N x − Z α 1−  ≤ N × m ≤ N x + Z α 1− 
 n  n n N  n N 
  

S-ar putea să vă placă și