Documente Academic
Documente Profesional
Documente Cultură
În viaţa de zi cu zi, dar mai ales în cercetarea ştiinţifică, facem deseori afirmaţii cu privire
la toate obiectele dintr-o categorie pe baza cunoaşterii doar a unora dintre ele. Înainte de
a-şi culege toamna viţa de vie, ţăranul gustă câteva boabe de struguri pentru a vedea dacă
recolta este suficient de coaptă pentru a fi culeasă. Iar după ce mustul a fiert şi s-a
transformat în vin, cumpărătorul degustă această licoare dintr-un pahar transparent, cu
picior, care să permită o bună examinare vizuală, olfactivă şi gustativă. Nu este necesar
să bea întreg butoiul, şi nici măcar întreaga sticlă cu vin, pentru a se decide dacă vinul
merită sau nu să fie cumpărat. Imposibilitatea testării întregului conţinut rezultă din
limitele fizice (nu poţi bea întreg butoiul cu vin) şi din eficienţa practică scăzută datorată
atât costurilor ridicate pentru vânzător (dacă toţi ar degusta în acest mod, el ar da
faliment), cât şi pentru client (aşa cum ni se repetă pe canalele TV după calupurile
publicitare, consumul excesiv de alcool dăunează grav sănătăţii).
O asemenea abordare este prezentă şi în rândul fizicienilor, chimiştilor sau al
cercetătorilor din domeniul ştiinţelor socio-umane. Pentru cunoaşterea opiniilor,
atitudinilor şi a comportamentelor umane este nevoie, în cele mai multe situaţii, de o
selecţie a persoanelor care participă la cercetare, plecând de la premisa că anumite
caracteristici ale acestor persoane (caracteristici alese în funcţie de obiectivele cercetării)
sunt, la modul ideal, identice cu cele ale populaţiei.
Sigur, dacă populaţia studiată numără câteva zeci sau chiar sute de persoane, le
putem include pe toate în cercetare fără să mai facem o selecţie. Când avem de a face cu
populaţii de dimensiuni mici (de exemplu 50 de persoane) este indicat să investigăm
întreaga populaţie, acest lucru oferind încredere în datele obţinute. Gary T. Henry (1990,
14-15) insistă asupra faptului că, dincolo de corectitudinea ştiinţifică a eşantionării,
clienţii pot avea rezerve cu privire la rezultatele cercetării, dacă în eşantion nu sunt
cuprinse persoanele care fac parte din instituţia sau localitatea unde beneficiarii îşi
desfăşoară activitatea. Cercetătorul american dă exemplul unei studiu care are ca obiectiv
1
testarea relaţiei dintre caracteristicile locale ale unui oraş sau judeţ şi nevoia de fonduri
guvernamentale. Folosirea eşantionului presupune logic eliminarea din cercetare a unor
unităţi administrative a căror lideri îşi pot manifesta neîncrederea sau critica referitoare la
rezultatele cercetării. Iar cercetătorul nu poate afirma cu certitudine (cu maximă
probabilitate) că absenţa din eşantion a acelui oraş sau judeţ nu afectează rezultatele
cercetării.
Dacă însă mărimea populaţiei este de câteva mii sau chiar de sute de milioane de
persoane, aşa cum este cazul unor ţări, cea mai bună soluţie este de a selecta o parte din
populaţie pe baza căreia să tragem concluzii cu privire la întreg. Această submulţime din
populaţie se numeşte eşantion, iar procesul de selecţie a persoanelor care fac parte din
eşantion se numeşte eşantionare. Statistic, prin populaţie înţelegem „orice colecţie bine
definită de obiecte de studiu” (Johnson, 1995/2007, 257), aceasta putând cuprinde toate
persoanele dintr-o localitate (teritoriu), clienţii unei bănci, posesorii unui anumit tip de
automobil, dar şi companiile care au dat faliment, ţările francofone sau frigiderele
produse de o fabrică într-o perioadă de timp. În studiul pieţei, prin populaţie înţelegem
ansamblul persoanelor cu anumite caracteristici socio-demografice, ale căror opinii,
atitudini sau comportamente dorim să le cunoaştem prin folosirea metodelor şi tehnicilor
de cercetare.
Traian Rotariu şi Petru Iluţ (1997/2006, 161) afirmă că cercetările pe eşantion,
comparativ cu cele pe întreg universul de indivizi al populaţiei prezintă trei mari avantaje.
Primul şi cel mai evident este cel economic, costul unei anchete sociologie bazată pe
chestionar fiind determinat, printre altele, de numărul de subiecţi care fac parte din
cercetare. Cu cât numărul persoanelor care răspund la întrebările din chestionar este mai
mare, cu atât sunt mai mari cheltuielile pentru multiplicarea instrumentului de cercetare,
transportul, plata şi verificarea operatorilor, respectiv postcodificarea şi introducerea
datelor în calculator. În al doilea rând, investigarea populaţiei unei ţări, aşa cum este
cazul recensămintelor, durează foarte mult, iar rezultatele finale ale cercetării sunt
publicate după 2-3 ani. În cele mai multe dintre situaţii, pentru adoptarea unei decizii de
către o companie sau de către actorii politici este nevoie de informaţii de ultimă oră, deci
obţinute printr-o modalitate rapidă de cercetare, aşa cum sunt cele realizate pe baza unui
eşantion. În ultimul rând, în ciuda aparenţelor, putem vorbi şi de un avantaj de
cunoaştere. Cu cât numărul de subiecţi este mai mare, cu atât este mai mare riscul erorilor
2
produse de operatorii de teren. În general, firmele de cercetare a pieţei colaborează cu
operatori care sunt bine selectaţi şi supuşi instructajului. Selecţia operatorilor de anchetă
se realizează plecând de la premisa că indicată pentru această activitate este „o persoană
inteligentă, sănătoasă, extrovertită şi fără prejudecăţi” (Blankenship apud Chelcea, 2004,
247). Pentru diminuarea erorilor datorate operatorilor, se realizează, dincolo de selecţia
atentă a acestora – plecând de la criteriile enumerate mai sus –, un control permanent al
muncii lor. În prealabil, se derulează instructajul operatorilor cu privire la obiectivele
cercetării, chestionarul pe care trebuie să îl aplice şi, nu în ultimul rând, modalităţile de
comunicare cu subiecţii chestionaţi: de la persuadarea în vederea acceptării să răspundă la
întrebările din chestionar, la exprimarea finală a mulţumirii pentru faptul că au luat parte
la cercetare. De asemenea, trebuie menţionată libertatea pe care eşantionul o oferă în
construirea chestionarului. Dacă numărul persoanelor investigate este mare, atunci nu
este indicată folosirea întrebărilor deschise, deoarece postcodificarea răspunsurilor şi
analiza lor necesită resurse umane, financiare şi de timp ridicate.
Aproape toate cercetările de piaţă folosesc eşantionarea pentru avantajele pe care
acesta le prezintă în ceea ce priveşte timpul, costul şi plusul de cunoaştere. Aceste criterii,
sunt importante nu doar în a decide dacă cercetarea trebuie să se realizeze pe întreaga
populaţie sau la nivelul unui eşantion, ci şi în alegerea tipului de eşantion. Timpul, costul,
plusul de cunoaştere, la care adăugăm obiectivele cercetării, prezenţa informaţiilor şi
accesul la populaţia pe care vrem să o investigăm sunt factori pe care cercetătorul îi i-au
în considerare atunci când decide asupra eşantionului pe care se va realiza investigaţia. În
primul rând, cercetătorul trebuie să decidă dacă eşantionul trebuie să fie neprobabilist
(nealeator) sau probabilist (aleator). Traian Rotariu şi Petru Iluţ (1997/2006, 167) afirmă
că „o procedură de eşantionare este aleatorie atunci când fiecare individ din populaţie are
o şansă calculabilă şi nenulă de a fi ales în eşantion”. În cazul eşantionării neprobabiliste,
există persoane din populaţia pe care vrem să o cunoaştem care nu au nicio şansă de a
face parte din eşantion. Eşantionarea probabilistă poate fi simplă aleatoare, prin
stratificare, cluster sau multistadială, iar cele mai folosite metode de eşantionare
neprobabilistă sunt cele de convenienţă, pe cote sau prin metoda „bulgărelui de zăpadă”.
3
Eşantionarea probabilistă
Specific acestui tip de eşantionare este faptul că toţi membrii populaţiei studiate au şanse
egale de a face parte din eşantion. Modalitatea clasică de selecţie a persoanelor care fac
parte dintr-un asemenea eşantion este cea a extragerii aleatoare a bilelor dintr-o urnă.
Dacă fiecărei persoane din populaţie îi corespunde o bilă, extragerea unei bile (care
trebuie să aibă aceleaşi caracteristici fizice – formă, densitate, masă etc.) se face cu
probabilitatea n/N, unde n reprezintă mărimea eşantionului, iar N mărimea populaţiei.
Pentru ca toţi subiecţii să-şi păstreze şanse egale de a face parte din eşantion, bila extrasă
se reintroduce în urnă. Evident, neintroducerea bilelor în urnă nu mai reprezintă o
problemă când populaţia studiată este numeroasă. De exemplu, dacă vrem să extragem 10
bile (n=10) dintr-o urnă cu 50 de bile (N=50), fără reintroducerea bilelor extrase, atunci
probabilitatea de extragere a primei bile este p1=n/N=0,2, iar probabilitatea de extragere a
ultimei bile este p10=n/N-9=0,24. Dacă în urnă vor fi 500 de bile, p1-p10=0,00036 (evident
mult mai puţin decât 0,04), prin urmare neintroducerea bilei în urnă, în cazul
eşantioanelor din populaţii mari, duce la o schimbare practic nesemnificativă a şanselor
subiecţilor de a face parte din eşantion.
Extragerea dintr-o urnă a unui eşantion simplu aleator este mai degrabă o
procedură teoretică, pentru că greu ne putem imagina o urnă care să cuprindă peste 20 de
milioane de bile corespunzătoare populaţiei României. De aceea, sunt folosite celelalte
4
metode de eşantionare probabiliste, care păstrează elemente ale eşantionării simple
aleatoare, dar care au caracteristici specifice.
Înainte de a trece la prezentarea celorlalte metode de eşantionare, fără a intra în
detalii statistice, este necesară o scurtă prezentare a problemei reprezentativităţii
eşantioanelor simple aleatoare. Prin reprezentativitatea unui eşantion înţelegem
capacitatea acestuia de a reproduce caracteristicile populaţiei din care este extras.
În anul 2000, Gallup a realizat un Barometru de Gen pe un eşantion reprezentativ
la nivelul populaţiei adulte a României (n=1839), cu o marjă de eroare de +/- 2,3%, la un
nivel de încredere de 95%. Faptul că în eşantion, 63,8% au fost de acord cu afirmaţia că
„este mai mult de datoria femeilor decât a bărbaţilor să se ocupe de casă” înseamnă că
există probabilitatea de 0,95 ca un procent din populaţie cuprins între un minim de 61,5%
(63,8%-2,3%) şi un maxim de 66,1% (63,8%+2,3%) să fie de acord cu această afirmaţie.
Această propoziţie poate fi scrisă şi sub forma:
Pr (61,5% < V < 66,1%) = 0,95
Reprezentativitatea unui eşantion simplu aleator este calculată după formula:
σ = ¥( X
i 1
i X )2
n – mărimea eşantionului
t – este un scor standard, fără unitate de măsură, care reprezintă distanţa în abateri
standard faţă de medie
5
Plecând de la aceste formule de calcul a reprezentativităţii eşantioanelor, trebuie să
subliniem două aspecte:
1) Întrucât nivelul de încredere este direct proporţional cu scorul t, eşantionarea
presupune un compromis între exactitatea şi siguranţa estimării. Dacă vrem să crească
probabilitatea ca estimarea noastră să fie corectă (N.I. creşte), atunci creşte şi scorul t,
deci şi eroarea de eşantionare. Prin urmare nu este suficient ca într-un raport de cercetare
să se menţioneze doar eroarea de eşantionare, ci şi nivelul de încredere. În general,
nivelului de încredere ales de cercetător este de 0,95, căruia îi corespunde o valoare a lui t
egală cu 1,96.
În Fig. 1 sunt prezentate trei curbe de distribuţie de eşantionare în funcţie de mărimea
eşantionului. Curba distribuţiei de eşantionare reprezintă o curbă a probabilităţilor pe care
le poate avea valoarea unei variabile din eşantion 1. Pe orizontală sunt valorile pe care le
poate lua variabila, iar pe verticală probabilităţile ca variabila să aibă acele valori. Cu cât
eşantionul este mai mare, cu atât curba este mai înaltă. De exemplu, dacă vrem să aflăm
care este înălţimea medie a populaţiei şi extragem aleator două eşantioane, unul format
din 5 persoane şi altul format din 500 de persoane, probabilitatea ca înălţimea medie din
eşantion să se apropie de înălţimea medie din populaţie este mai mare în cazul
eşantionului mai mare. Dacă extragem aleator doar 5 persoane, comparativ cu 500, este
mult mai probabil să extragem doar copii, deci persoane cu înălţime mică.
1
Curba distribuţiei de eşantionare este una normală, simetrică, în care media, modul şi mediana au aceeaşi
valoare şi le corespunde probabilitatea cea mai mare (punctul maxim de înălţime a curbei). Teoretic este
demonstrat faptul că dacă extragem un număr foarte mare de eşantioane (care tinde spre infinit), media
valorilor din aceste eşantioane este egală cu media din populaţie. De aceea, atunci când extragem un
eşantion, ne dorim ca valoarea din eşantion să fie cât mai aporoape de valoarea din mijloc a curbei
distribuţiei de eşantionare. Nu putem şti exact care este această distanţă, pentru că, logic, ar însemna să ştim
şi valoarea din populaţie, dar putem şti care este probabilitatea ca valoarea noastră să se afle la o distanţă
maximă de valoarea din populaţie. Această probabilitate se numeşte nivel de încredere, iar distanţa maximă
delimitează marja de eroare. Trebuie menţionat faptul că suprafaţa care se află sub linia curbă între valorile
-1,96 şi + 1,96 este de 95%.
6
Fig. 1. Curba distribuţiei de eşantionare în funcţie de mărimea eşantionului
2) Dacă t este prestabilit, plecând de la formula de mai sus a erorii de eşantionare, rezultă
că singura şansă de a micşora marja de eroare este de a scădea eroarea standard (ES).
Acest lucru se poate realiza fie prin scăderea abaterii standard ( σ ), fie prin creşterea
volumului eşantionului (n). Dar abaterea standard a valorii pe care vrem să o măsurăm nu
poate fi scăzută şi, mai mult, nu o cunoaştem, pentru că altfel nu am mai măsura-o. De
aceea, atunci când se calculează eroarea de eşantionare se porneşte de la premisa teoretică
a unei abateri standard maxime. Să presupunem că facem o cercetare în care, printre
altele, vrem să cunoaştem dacă populaţia a auzit de produsul X. Această variabilă are
nivelul de eterogenitate maxim când jumătate din populaţie a auzit de acel produs, iar
cealaltă jumătate nu a auzit. Omogenitatea maximă ar fi fost când toţi au auzit sau toţi nu
au auzit de produsul X. Prin urmare şi abaterea standard este prestabilită. Singura soluţie
rămasă pentru reducerea marjei de eroare este de a creşte volumul eşantionului. Având
date abaterea standard, valoarea lui t şi nivelul de încredere, putem calcula eroarea de
eşantionare în funcţie de mărimea eşantionului (n) (Tabel 2).
7
Până la o anumită valoare, în jur de 1 000 de subiecţi, creşterea mărimii eşantionului duce
la scăderea masivă a erorii de eşantionare. Însă după această valoare, creşterea numărului
de subiecţi investigaţi nu mai aduce un plus semnificativ de cunoaştere. De exemplu,
creşterea numărului de subiecţi de la 600 la 1067 duce la o scădere a erorii de eşantionare
cu 1%, iar dacă adăugăm 400 de subiecţi la un eşantion de 2 000 de subiecţi scăderea
erorii de eşantionare va fi de doar 0,19%. Deci eşantionarea ajunge relativ rapid la un
nivel de reprezentativitate suficient de ridicat, după care creşterea volumului eşantionului
nu duce la un câştig semnificativ în această privinţă (Fig. 2).
16.00
14.00
12.00
10.00
8.00
6.00
4.00
2.00
0.00
0
0
10
50
90
30
70
10
50
90
30
70
10
50
90
30
70
10
50
50
29
53
77
12
14
17
19
26
29
31
34
41
43
46
48
10
22
24
36
38
Totuşi un eşantion mare, aşa cum este cel pe care Gallup a realizat Barometrul de Gen în
anul 2000 (n=1839), are avantajul că permite realizarea de inferenţe cu o marjă de eroare
acceptabilă chiar şi la nivelul subeşantioanelor pe care le putem extrage din el. Putem
afirma că 63,8% din populaţie, cu o marjă de eroare de +/-2,3% sunt de acord cu
afirmaţia că „este mai mult de datoria femeilor decât a bărbaţilor să se ocupe de casă”,
dar marja de eroare creşte la +/- 3,42 dacă vrem să inferăm opinia bărbaţilor din eşantion
(n=823) cu privire la această afirmaţie.
De asemenea, un eşantion mare este necesar şi în cazul în care doar un procent din
populaţie consumă un anumit produs, iar pentru a avea un subeşantion, care îndeplineşte
această caracteristică, cu o marjă de eroare acceptabilă, trebuie să construim un eşantion
suficient de mare. De exemplu, dacă din cercetările anterioare, cunoaştem că în jur de
8
40% din populaţie consumă un produs X, atunci pentru a avea un subeşantion care
îndeplineşte această caracteristică şi care are o marjă de eroare de +/-3% (n=1067),
trebuie să avem un eşantion din 2667 subiecţi.
40% ......................... 1067
100% ....................... n
n = 100 x1067/40 = 2667
Putem conchide că nu este suficient să spunem că un eşantion este reprezentativ,
ci trebuie menţionat volumul său, marja de eroare şi nivelul de încredere. Mai mult,
deoarece reprezentativitatea depinde de omogenitatea variabilei măsurate (pe care am
luat-o ca dată în calculul marjei de eroare), atunci putem vorbi de câte un nivel de
reprezentativitate al eşantionului pentru fiecare caracteristică măsurată a populaţiei.
De asemenea, trebuie subliniat faptul că gradul de reprezentativitate al
eşantionului nu depinde de proporţia dintre mărimea populaţiei şi mărimea eşantionului.
Altfel spus, un eşantion format din 1067 de subiecţi are aceeaşi marjă de eroare, +/-3%,
dacă este extras din populaţia oraşului Odobeşti sau din populaţia României sau a Chinei.
Diferenţa de reprezentativitate ar putea veni din faptul că populaţia Chinei este mai
eterogenă decât populaţia oraşului Odobeşti.
Eşantionarea stratificată
9
(comune, oraşe cu populaţia de până la 100 000 de locuitori şi oraşe cu peste 100 000 de
locuitori), atunci vom avea şase straturi. Să presupunem că într-un judeţ, distribuţia în
termeni relativi a populaţiei pe cele şase straturi este:
Bărbaţi Femei
Mediul rural 19% 21%
Oraşe cu populaţia sub 100 000 de locuitori 8% 9%
Oraşe cu populaţia de 100 000 de locuitori şi peste 21% 22%
Dacă mărimea eşantionului pe care dorim să-l construim este de 2000 de subiecţi, atunci
structura eşantionului va fi următoarea:
2
Frecvenţa absolută reprezintă numărul de unităţi din populaţie care îndeplinesc o anumită caracteristică.
Frecvenţa relativă reprezintă raportul dintre frecvenţa absolută şi numărul tuturor unităţilor din populaţie.
De exemplu, eşantionul imaginat conţine, în frecvenţe absolute, 960 de bărbaţi şi 1040 de femei, iar în
frecvenţe relative, 48% bărbaţi şi 52% femei.
10
bărbaţi din mediul rural 14%
bărbaţi din oraşe cu populaţia sub 100 000 de locuitori 34%
bărbaţi din oraşe cu populaţia de 100 000 de locuitori şi peste 100 000 70%
femei din mediul rural 12%
femei din oraşe cu populaţia sub 100 000 de locuitori 37%
femei din oraşe cu populaţia de 100 000 de locuitori şi peste 100 000 74%
Din exemplul dat, putem spune, cu o marjă de eroare de +/-4%, pentru un eşantion
reprezentativ la nivelul femeilor din oraşele mari ale judeţului X, că 74% dintre
persoanele de gen feminin au făcut cumpărături cel puţin o dată în supermarketul
considerat.
La nivelul eşantionului (n=3600), proporţia celor care au afirmat că au făcut
cumpărături în supermarketul X este:
Această cifră nu reprezintă procentul de persoane din populaţie care au făcut cumpărături
la supermarketul ipotetic. Toate subeşantioanele sunt egale (n=600), deci fiecare
reprezintă 16,66% din populaţie. Prin urmare, subeşantioanele din mediul rural sau din
oraşele mari sunt subreprezentate, iar cele din micile oraşe suprareprezentate. Pentru a
obţine date corecte despre populaţie, trebuie să ponderăm rezultatele obţinute din
eşantionul construit cu ajutorul procentelor referitoare la structura populaţiei:
În final, putem conchide faptul că un eşantion stratificat este superior din punct de vedere
al reprezentativităţii unui eşantion simplu aleator, deoarece straturile din care extragem
subeşantioanele sunt mai omogene în interior decât întreaga populaţie. De asemenea,
acest tip de eşantionare permite compararea caracteristicilor subpopulaţiilor care
formează straturile, inclusiv prin supradimensionarea subeşantioanelor care iniţial aveau
un nivel de reprezentativitate nesatisfăcător.
Eşantionarea multistadială
11
multe localităţi, dispersate în întreaga ţară, iar pentru fiecare dintre subiecţi, operatorii de
teren să investească un efort semnificativ, cu riscul negăsirii lor acasă. Costurile
financiare mari, nevoia de resurse umane numeroase şi timpul îndelungat de realizare a
unor cercetări pe asemenea eşantioane sunt dezavantaje care contrabalansează atuul
reprezentativităţii ridicate. Pentru a creşte eficacitatea unei cercetări, se poate recurge la
eşantionarea multistadială, care pleacă de la ideea că populaţia poate fi împărţită în
subgrupuri, fiecare subgrup poate fi împărţit la rândul lui în alte subgrupuri ş.a.m.d., iar
din ultimul subgrup se pot extrage aleator subiecţii investigaţi. Prin urmare, eşantionarea
este una grupală, deoarece persoanele care fac parte din eşantion nu sunt dispersate pe
întreg teritoriul, ci sunt grupate în anumite zone geografice şi administrative.
Premisa de la care se pleacă în acest tip de eşantionare este aceea că grupurile
sunt similare, iar selecţia aleatoare pe fiecare stadiu a unora dintre ele nu duce la
diminuarea reprezentativităţii eşantionului. Însă, dacă vrem să realizăm o cercetare la
nivel naţional, iar primul stadiu în eşantionare constă în selecţia aleatoare a cinci din
judeţele ţării, există riscul ca aceste prime grupuri alese să facă parte dintr-o singură
regiune istorică, fapt ce ar avea consecinţe negative asupra inferenţelor rezultatelor
obţinute. De asemenea, trebuie luat în calcul faptul că pentru un anumit nivel, grupurile
pot fi diferite ca mărime. Cum fiecare grup, indiferent de mărime, are şanse egale de a fi
ales, înseamnă că persoanele care fac parte din grupurile mai mici au şanse mai mari de a
face parte din eşantion decât persoanele care fac parte din grupurile mai mari. O soluţie
pentru a egala probabilitatea selecţiei subiecţilor din eşantion, aşa cum afirmă Gary T.
Henry (1990, 31-31), este ca fiecare grup să fie selectat cu o probabilitate
corespunzătoare mărimii sale.
Să presupunem că trebuie să realizăm o eşantionare bistadială (pe două stadii)
dintr-o populaţie formată din 600 000 de persoane, care poate fi împărţită în 10 000 de
grupuri, numite „unităţi primare de eşantionare” (primary sampling units), unde 5 000
sunt formate din 40 de persoane, iar celelalte 5 000 sunt formate din 80 de persoane.
Dacă mărimea eşantionului este de 1 000 de persoane şi extragem câte 10 persoane din
fiecare unitate primară de eşantionare rezultă că trebuie selectate 100 de unităţi din cele
10 000 existente. În acest context, putem avea două situaţii.
1) Selectarea eşantionului cu probabilitate neegală:
12
- în cazul unităţilor cu 40 de persoane, probabilitatea de eşantionare a unei
persoane este de 0,0025 (100/10 000 x 10/40)
- în cazul unităţilor cu 80 de persoane, probabilitatea de eşantionare a unei
persoane este de 0,00125 (100/10 000 x 10/80)
2) Selectarea eşantionului cu probabilitate egală.
Pentru ca toate persoanele să aibă şanse egale de a face parte din eşantion, selectarea
fiecărei unităţi de eşantionare se va face în funcţie de mărimea sa.
p = c x Nc/N
unde
p – probabilitatea unei unităţi de eşantionare primare de a fi selectată
c – numărul de unităţi selectate (100)
Nc – numărul de subiecţi dintr-o unitate (40 sau 80)
N – numărul total de subiecţi (600 000)
În exemplul nostru, probabilitatea unui grup format din 40 de persoane de a fi
selectat este 0,0066 (100 x 40/600 000), iar a unui grup format din 80 de persoane
este de 0,0133 (100 x 80/600 000), adică dublă. Crescând probabilitatea de selecţie a
grupurilor mai mari, atunci se egalizează probabilitatea de selecţie a subiecţilor.
- în cazul unităţilor cu 40 de persoane, probabilitatea de eşantionare a unei
persoane este de 0,00167 (100 x 40/600 000 x 10/40)
- în cazul unităţilor cu 80 de persoane, probabilitatea de eşantionare a unei
persoane este de 0,00167 (100 x 80/600 000 x 10/80)
Putem observa că în cazul selectării eşantionului cu probabilitate neegală,
grupurile formate din 40 de subiecţi sunt suprareprezentate (0,0025>0,00167), iar
grupurile formate din 80 de subiecţi sunt subreprezentate (0,00125<0,00167). În
concluzie, în eşantionarea multistadială trebuie să fim foarte atenţi la mărimea grupurilor
selectate, altfel riscăm diminuarea gradului de reprezentativitate a eşantionului. Şi
aceasta, în condiţiile în care, la un volum egal, un eşantion multistadial este mai puţin
reprezentativ decât unul aleatoriu.
13
Eşantionare stratificata multistadială cu selecţie sistematică în ultimul stadiu
14
selectată se va afla la un pas de eşantionare distanţă de prima persoană ş.a.m.d. De
exemplu, dacă pe o listă electorală sunt 1350 de pe persoane, iar noi trebuie să selectăm
prin această procedură 15 persoane, pasul de eşantionare va fi 90 (1350/15). Să
presupunem că alegem aleator (între 1 şi 90) numărul 37, care va corespunde primei
persoane selectată în eşantion aflată în listă la poziţia 37. Vom selecta în continuare
persoanele de la poziţiile 127, 217, 297 etc., până vom avea cele 15 persoane
corespunzătoare punctului de eşantionare, la care mai adăugăm o listă de rezervă formată
din aproximativ cinci persoane pentru situaţia în care subiecţii nu sunt găsiţi acasă sau nu
vor să răspundă la întrebările din chestionar.
O eşantionare similară cu cea sistematică este cea prin metoda itinerariilor.
Extragerea celor n subiecţi dintr-o localitate se poate realiza, de asemenea, cu ajutorul
unui pas de eşantionare, dar nu având la bază cadrul de eşantionare (lista electorală), ci
direct pe străzile localităţii. Mai întâi se alege aleator o stradă, apoi de pe acea stradă o
locuinţă. Următoarea locuinţă va fi aleasă în funcţie de un pas de eşantionare şi de o serie
de reguli prestabilite, pentru a se evita subiectivitatea operatorului de teren. De exemplu,
dacă pasul de eşantionare este 7, după ce a fost selectată aleator prima casă, trebuie
selectată a şaptea casă pe aceeaşi parte a străzii ş.a.m.d. În continuare, cercetătorul trebuie
să stabilească reguli pentru orice situaţie posibilă: dacă urmează un bloc vor fi selectate
locuinţele în aceeaşi ordine ca şi casele (pot fi selectate toate locuinţele corespunzătoare
pasului de eşantionare sau doar un număr prestabilit). Dacă strada se încheie, se poate
trece pe partea cealaltă a străzii, iar dacă şi aceasta se încheie, se poate continua
eşantionarea pe prima stradă la dreapta. În cazul în care o persoană nu este găsită acasă,
se trece la locuinţa următoare păstrând regula pasului de eşantionare.
Atât eşantionarea sistematică, cât şi cea prin metoda itinerarelor prezintă
dezavantajul că odată ales primul punct de sondaj (chiar dacă acesta se face aleator),
următoarele puncte de sondaj care corespund pasului de eşantionare au probabilitatea 1
de a face parte din eşantion, iar celelalte (din interiorul pasului) au probabilitatea 0.
Eşantionarea cluster
Eşantionarea sistematică din ultimul stadiu poate fi înlocuită cu eşantionarea cluster, prin
investigarea tuturor subiecţilor din ultimul grup selectat, care este numit „cluster”. În
15
general, se foloseşte eşantionarea cluster atunci când există o grupare naturală a
subiecţilor: săli de clasă, gospodării, blocuri, străzi etc. Dacă în eşantionarea stratificată,
populaţia este împărţită în grupuri (straturi) omogene în interior, din care sunt selectate
aleator un număr de persoane, clusterele sunt omogene între ele şi eterogene în interior.
Observăm că eşantionarea cluster este mai degrabă similară eşantionării multistadiale,
diferenţa constând în faptul că, în ultimul stadiu de eşantionare, sunt investigate toate
persoanele din cluster.
Voi prezenta în continuare un exemplu de eşantionare stratificată multistadială cu
selecţia finală de tip cluster. În anul 2007, am realizat o cercetare pe elevii claselor a XII
din Bucureşti, care a avut ca scop cunoaşterea modalităţilor de informare şi a
mecanismelor de decizie cu privire la alegerea facultăţii. Eşantionarea (n=1428) a fost
probabilistă stratificată bistadială, prin împărţirea într-o primă etapă a populaţiei cercetate
în opt straturi folosind ca şi criterii de stratificare performanţele liceenilor la olimpiadele
naţionale (licee cu olimpici şi licee fără olimpici) şi profilul claselor (real, uman, tehnic,
artistic/sportiv). După ce am împărţit populaţia în cele opt straturi, am extras aleator un
număr de 60 de clase proporţional cu mărimea straturilor, plecând de la premisa că
mărimea medie a unei clase este de 25 de elevi. Administrarea chestionarelor asupra
tuturor elevilor din clasele selectate a fost realizată în luna mai a anului 2007, de către 60
de studenţi ai Facultăţii de Comunicare şi Relaţii Publice din cadrul SNSPA.
Înainte de a realiza eşantionarea propriu-zisă, am strâns informaţii cu privire la
profilul şi numărul de clase de a XII-a din liceele bucureştene. În urma împărţirii pe
straturi, a rezultat că în Bucureşti la acea dată erau 15 licee cu olimpici (având elevi care
au obţinut premii la olimpiadele naţionale) şi 88 de licee fără olimpici (Tabelul 3).
16
Tabelul 4. Distribuţia claselor de a XII-a pe straturi, în Bucureşti, în anul şcolar 2006-
2007 (în frecvenţe relative)
distribuţia claselor pe profiluri (%)
artistic/ total clase (%)
real uman tehnic
sportiv
licee fără olimpici 28.52 21.64 27.35 4.03 81.54
licee cu olimpici 12.08 6.38 0 0 18.46
Deoarece ne-am propus ca eşantionul să fie de 1500 de persoane, având ca premisă faptul
că mărimea medie a unei clase este de 25 de elevi, am selectat 60 de clase (clustere)
proporţional cu mărimea fiecărui strat (Tabelul 5).
Selecţia claselor din fiecare strat a fost realizată prin metoda pasului de eşantionare, luând
în considerare numărul de clase de a XII-a din fiecare liceu. Fără luarea în calcul a
acestui aspect, exista riscul (prezentat în subcapitolul referitor la eşantionarea
multistadială) subreprezentării liceelor mai mari şi suprareprezentării liceelor mai mici.
De exemplu, pentru selectarea celor 17 clase din cele 170 de clase cu profil real din
cadrul liceelor fără olimpici, pasul de eşantionare a fost 10. Folosirea pasului de
eşantionare pentru selectarea subeşantionului de pe o listă a tuturor claselor din strat a
făcut ca liceele mai mari să aibă şanse mai mari de a avea în eşantion una, doua sau chiar
trei clase.
Eşantionare neprobabilistă
Pe baza unor interviuri realizate pe câteva persoane prin care se doreşte să se afle „vocea
străzii”, unii jurnalişti trag concluzii cu privire la valorile şi atitudinile românilor în
ansamblu. În această generalizare, nu se ţine cont de faptul că doar unele persoane au
avut şansa de a trece pe strada în care reporterul TV realiza interviurile, iar dintre acestea
şi-au exprimat opinia prezentată în emisiune doar persoanele care au dorit să răspundă la
17
întrebări şi care au fost selectate subiectiv de reporter şi de persoana care face montajul
emisiunii. O generalizare eronată se poate face şi pe baza răspunsurilor la întrebările de
pe site-ul unor ziare sau instituţii, deoarece persoanele care nu folosesc internetul sau care
nu intră pe acel site nu au şansa de a răspunde la întrebări.
În ciuda limitelor eşantionării neprobabiliste, lipsa banilor, a informaţiilor despre
publicul pe care dorim să-l investigăm şi chiar a timpului ne obligă să realizăm cercetarea
pe un asemenea eşantion. Voi prezenta cele mai folosite metode de eşantionare
neprobabilistă, subliniind punctele tari şi punctele slabe ale fiecăreia dintre ele.
18
culturii creative4. Limitele bugetare ale proiectului de cercetare ne-au determinat să
apelăm la un eşantion de convenienţă alcătuit din studenţii ai Facultăţii de Comunicare şi
Relaţii Publice (SNSPA). Eşantionul (N=744) nu este reprezentativ la nivelul populaţiei
României şi nici la nivelul studenţilor din România. Aşa cum reiese din Tabelul 1, există
diferenţe semnificative între răspunsurile studenţilor din eşantionul nostru şi răspunsurile
obţinute în urma realizării Barometrului de Gen de către Gallup în anul 2000, pe un
eşantion reprezentativ la nivelul populaţiei adulte a României (n=1839), cu o marjă de
eroare de +/- 2,3%, la un nivel de încredere de 95%.
Dincolo de distanţa în timp între cele două cercetări, diferenţele între răspunsuri se
datorează structurii diferite ale celor două eşantioane. În eşantionul pe care a fost realizat
Barometrul de Gen, 55,2% dintre subiecţi erau femei, 55,9% aveau cel puţin liceul
absolvit, iar vârsta lor medie era de 47,99 ani. În eşantionul de studenţi, 71,5% erau de
gen feminin, toţi aveau liceul absolvit, iar vârsta medie era de 26,52 de ani. Diferenţele
mari între caracteristicile socio-demografice ale celor două eşantioane se reflectă în
răspunsurile subiecţilor cu privire la împărţirea rolurilor în familie.
Putem conchide că eşantionul de convenienţă prezintă avantajul accesului uşor şi
cu costuri reduse la subiecţii pe care se realizează investigaţia, dar concluziile analizei
rezultatelor cercetării nu pot fi generalizate la nivelul populaţiei.
4
Pentru a vedea rezultatele acestei cercetări vezi Paul Dobrescu et al. (2008). Cultural creatives. Cercetări
privind evoluţia valorilor în societatea românească. Bucureşti: Editura comunicare.ro.
19
şi calculează procentul fiecăruia raportat la întreg. Apoi, după ce stabileşte mărimea
eşantionului, calculează numărul persoanelor din subgrupurile din eşantion în
conformitate cu structura populaţiei pe cote. De exemplu, dacă vrem să facem o
eşantionare pe cote la nivelul populaţiei României, putem, în funcţie de obiectivele
cercetării, să împărţim populaţia în cote în funcţie de mediul de rezidenţă (rural, urban),
sex (femei, bărbaţi), regiuni istorice (Moldova, Transilvania, Banat, Muntenia, Oltenia şi
Dobrogea) şi etnie (români, maghiari, rromi). Cunoscând structura populaţiei cu privire la
aceste caracteristici în urma recensământului din anul 2002, la care s-au adăugat ajustări
aduse de Institutul Naţional de Statistică, putem şti, de exemplu, care este procentul de
persoane de sex feminin, din mediul rural, de etnie română, din totalul populaţiei din
Oltenia. Să presupunem că acest procent este de 21%, iar raportul dintre populaţia
Olteniei şi populaţia României este de 16%, înseamnă că procentul de femei care
îndeplinesc aceste criterii raportat la populaţia întregii ţări este de 3,36% (21% x 16%).
Dacă mărimea eşantionului pe care dorim să-l construim este de 1 000 de persoane,
atunci cota din eşantion de persoane de sex feminin, din mediul rural, de etnie română,
din totalul populaţiei din Oltenia este, prin rotunjire, de 34 de persoane (1000 x 3,36%).
În cadrul exemplului dat, ţinând cont de criteriile de împărţire a populaţiei, vom avea 72
de cote5, iar pentru fiecare cotă trebuie să calculăm un procent care se va regăsi în
structura eşantionului.
Eşantionarea pe cote este similară eşantionării (probabiliste) stratificate, prin
împărţirea populaţiei în subgrupuri după anumite caracteristici, dar selecţia persoanelor
din interiorului grupului nu se face aleator, ca în cazul eşantionării stratificate, ci prin
selecţia subiectivă a operatorului de teren. Deşi eşantionul pe cote reproduce socio-
demografic structura populaţiei, implicarea subiectivităţii în alegerea respondenţilor face
ca acest tip de eşantion să nu reproducă şi caracteristicile populaţiei la nivelul opiniilor,
atitudinilor sau comportamentelor. Avantajul economic este contrabalansat de minusurile
în planul cunoaşterii. Un exemplu clasic care arată slăbiciunile eşantionării pe cote este
cel al sondajelor premergătoare alegerilor prezidenţiale din SUA din 1948. Trei firme de
sondare a opiniei publice au prezis victoria lui Thaomas Dewey împotriva lui Harry
Truman (Henry, 1990, 25). Însă, la alegeri, Truman a obţinut 50%, iar Dewey 45%,
eroarea (bias) datorându-se selectării subiective de către operatorii de interviu (persoane
5
Luând în calcul valorile pe care le pot lua variabilele: mediu de rezidenţă (2), sex (2), regiune istorică (6)
şi etnie (3), vom avea 72 de cote (2 x 2 x 6 x 3).
20
albe, care depăşesc un anumit nivel de educaţie şi de venit) mai mult a simpatizanţilor
Partidului Republican.
21
Consideraţii finale
Termeni cheie
eşantion eşantionare de convenienţă
populaţie eşantionare pe cote
eşantionare eşantionare tip „bulgăre de zăpadă”
cadru de eşantionare eşantionare simplă aleatoare
punct de eşantionare eşantionare multistadială
reprezentativitate eşantionare sistematică
eşantionare probabilistă eşantionare prin metoda itinerarelor
eşantionare neprobabilistă eşantionare pe cote
Bibliografie
Chelcea, Septimiu. (2004). Metodologia cercetării sociologice. Metode cantitative şi
calitative. Bucureşti: Editura Economică.
Chelcea, Septimiu. (2006). Influenţa socială: normalizare, conformare, obedienţă şi
manipulare. În S. Chelcea (coord.). Psihosociologie. Teorie şi aplicaţii (133-146).
Bucureşti: Editura Economică.
Henry T. Gary. (1990). Practical Sampling. Londra: Sage Publications Lmt.
Johnson, Allan G. [1995](2007). Dicţionarul Blackwell de sociologie. Bucurşti: Editura
Humanitas.
Rotariu Traian, Iluţ Petru. [1997](2006). Ancheta sociologică şi sondajul de opinie.
Teorie şi practică. Iaşi: Editura Polirom.
22