Sunteți pe pagina 1din 107

ACADEMIA DE STUDII ECONOMICE DIN BUCUREŞTI

FACULTATEA DE CIBERNETICĂ, STATISTICĂ ŞI INFORMATICĂ


ECONOMICĂ

ILEANA GABRIELA NICULESCU-ARON

SONDAJE ŞI ANCHETE
Suport de curs pentru învăţământul la distanţă

BUCUREŞTI
2011

1
Copyright © 2011, Ileana Gabriela Niculescu-Aron
Toate drepturile asupra acestei ediţii sunt rezervate autorului

Editura ASE
Piaţa Romană nr. 6, sector 1, Bucureşti, România
cod 010374
www.ase.ro
www.editura.ase.ro
editura@ase.ro

Referenţi:

Prof. univ. dr. Constantin MITRUŢ


Prof. univ. dr. Emilia ŢIŢAN

ISBN 978-606-505-457-8

2
CUPRINSUL CURSULUI

INTRODUCERE 5
Unitatea de învăţare 1.
NOŢIUNI DE BAZĂ ÎN TEORIA SONDAJELOR 6
1.1 Obiectivele unităţii de învăţare 6
1.2 Metode de observare utilizate în domeniul economico-social 6
1.3 Rolul Sondajului statistic în sistemul informaţional statistic 7
1.4 Definirea conceptelor de bază utilizate în sondajele statistice. 8
1.5 Procedee de eşantionare utilizate 9

Unitatea de învăţare 2.
ORGANIZAREA SONDAJELOR STATISTICE 14
2.1 Obiectivele unităţii de învăţare 14
2.2 Etape preliminare în organizarea unui sondaj 14
2.3 Elaborarea chestionarului 18
2.4 Ancheta pilot 26
2.5 Extragerea eşantionului 26
2.6 Culegerea şi verificarea datelor 28

Unitatea de învăţare 3.
ASPECTE PRACTICE ÎN REALIZAREA UNUI SONDAJ STATISTIC 29
3.1. Obiectivele unităţii de învăţare 29
3.2. Problematica non-răspunsurilor 29
3.3. Tipuri de erori întâlnite în cercetarea selectivă 34
3.4. Verificarea reprezentativităţii eşationului 38
3.5. Aplicaţii 39

Unitatea de învăţare 4
PLANURI DE SONDAJ SIMPLE 47
4.1. Obiectivele unităţii de învăţare 47
4.2. Sondajul simplu aleator 47
4.2.1. Sondajul simplu aleator cu probabilităţi egale 48
4.2.2. Sondajul de volum redus 54
4.3. Sondajul stratificat 55
4.4. Sondajul de serii 61
4.5. Aplicaţii 69

3
Unitatea de învăţare 5
PLANURI DE SONDAJ COMPLEXE 87
5.1. Obiectivele unităţii 87
5.2. Sondajul multistadial 87
5.3. Sondajul multifazic 90
5.4. Sondajul pe bază de eşantioane fixe 91
5.5. Aplicaţii 95

Unitatea de învăţare 6
SONDAJE NEPROBABILISTICE 101
6.1. Obiectivele unităţii de învăţare 101
6.2. Tipuri de sondaje neprobabilistice 101
6.3. Sondajul pe cote 102

BIBLIOGRAFIE 107

4
INTRODUCERE

Cursul de SONDAJE ŞI ANCHETE se adresează studenţilor înscrişi la programul de studiu


ID, organizat de facultatea Cibernetică, Statistică şi Informatică Economică şi face parte din
planul de învăţământ aferent anului III, semestrul 1.

Obiectivele principale ale acestui curs, concretizate în competenţele dobândite după


parcurgerea şi asimilarea lui:
 Însuşirea tehnicilor de proiectare a anchetelor şi sondajelor statistice;
 Codificarea, culegerea şi verificarea completitudinii datelor;
 Însuşirea tehnicilor de proiectare a sondajelor complexe;
 Prelucrarea şi analiza datelor obţinute cu ajutorul metodelor statistice superioare.

Cursul SONDAJE SI ANCHETE este structurat pe şase unităţi de învăţare (capitole).


Pentru ca procesul de instruire să se desfăşoare într-un mod riguros, dar şi atractiv, se vor
putea utiliza un set de resurse suplimentare indicate pe parcursul cursului.

Evaluarea cunoştinţelor se va realiza sub două forme:


• evaluare continuă, pe baza a două proiecte realizate în conformitate cu modelele prezentate
în resursele de pe platformă;
• evaluare finală, realizată prin examenul susţinut în perioada de sesiune.

Criteriile de evaluare constau în:


1. Punctajul obţinut la cele două proiecte menţionate;
2. Gradul de implicare în discuţiile tematice organizate prin opţiunea “Forum” a platformei
electronice;
3. Punctajul obţinut la examenul susţinut in sesiune.

Ponderile asociate fiecărui criteriu precizat sunt următoarele:


 criteriul 1 (C1) Proiect 1: 1 punct
Proiect 2: 2 puncte.
 criteriul 2 (C2) 1 punct pentru grad de implicare de 100%;
 criteriul 3 (C3) 6 puncte pentru examenul susţinut în sesiune.

5
Unitatea de învăţare 1
NOŢIUNI DE BAZĂ ÎN TEORIA
SONDAJELOR

Ce cuprinde această unitate de învăţare?

1.1 Obiectivele unităţii de învăţare


1.2 Metode de observare utilizate în domeniul economico-social
1.3 Avantajele cercetării selective
1.4 Definirea conceptelor de bază utilizate în sondajele statistice
1.5 Procedee de eşantionare utilizate

1.1. Obiectivele unităţii de învăţare

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:


 Importanta sondajului statistic in obținerea informaţiilor în timp real
 Conceptele de bază utilizate în cercetarea selectivă
 Procedeele ce stau la baza formarii eşantioanelor

1.2. Metode de observare utilizate în domeniul economico-social

Pentru satisfacerea nevoii de informaţii în vederea analizării fenomenelor şi proceselor


din sfera socială este necesar să se organizeze cercetări statistice. Cercetarea statistică se
realizează prin prelucrarea datelor preluate din alte forme de evidenţiere a fenomenelor
sociale sau prin prelucrarea datelor obţinute prin observări statistice special organizate.
Observarea statistică se ocupă de înregistrarea datelor individuale de masă, ceea ce
presupune soluţionarea unor probleme metodologice şi organizatorice complexe.

6
Principalele metode de culegere a datelor

• Recensământul
• cea mai veche forma de observare statistică
• se culeg datele de la toate unităţile colectivităţii
• cheltuieli mari  caracter periodic
• rezolvarea unor probleme delicate prin complexitatea lor:
• scopul observării
• scopul culegerii datelor
• timpul la care se referă datele
• sfera de cuprindere
• elaborarea de definiţii, clasificări şi nomenclatoare etc.
• Rapoarte statistice
• observări totale, permanente
• datele statistice referitoare la diferitele fenomene şi procese sociale se culeg pe
cale administrativă
• Sondaje statistice
• observări parţiale
• Ancheta statistică
• nu presupune reprezentativitatea eşantionului
• se realizează pe baza chestionarului completat direct sau prin poştă
• Observarea părţii principale (masivul principal sau panelul)
• culegere a datelor numai de la cele mai semnificative (masivul principal)
unităţi ale colectivităţii
• Panelul  eşantion cu caracter stabil
• cercetarea se face longitudinal
• Monografia
• metodă de observare aprofundată a fenomenelor şi proceselor sociale

1.3 Avantajele cercetării selective

„Cele mai evidente avantaje ale cercetării prin sondaj faţă de observarea tuturor
elementelor populaţiei apar în două cazuri: când observarea implică distrugerea elementelor
observate (de exemplu controlul calităţii produselor) şi când cercetarea totală implică cheltuieli
foarte mari.”1
Alte avantaje:

• operativitate, economii de resurse (financiare şi umane), calitate superioarş a rezultatelor


pentru populaţii totale foarte mari
• erori de înregistrare mai mici şi mai uşor de înlăturat pentru o populaţie cercetată mai
mică decât cea totală şi folosind personal specializat  calitate şi fiabilitate a rezultatelor
net superioară celor obţinute printr-o cercetare exhaustivă
• caracterizarea mai aprofundată a fenomenelor studiate datorită posibilităţii de a include
un număr mai mare de caracteristici decât în programul observării totale

1
Porojan D., 1993, Statistica şi Teoria Sondajului, Ed. Şansa SRL Bucureşti p. 184.

7
Sondajul statistic poate fi folosit şi la verificarea datelor culese printr-o observare totală
de mare amploare precum şi la prelucrarea datelor dintr-o cercetare exhaustivă într-o primă fază
selectiv şi mai târziu total.
Sfera de cuprindere a informaţiilor statistice este foarte largă incluzând toate fenomenele
cu caracter de masă. Totodată, informaţia statistică este utilizată de către organele de conducere
la nivel micro şi macroeconomic în exercitarea funcţiilor de previzionare, execuţie şi control.

1.4. Definirea conceptelor de bază utilizate in sondajele statistice.

Realizarea unui sondaj statistic presupune parcurgea a două faze.

8
*
M(X) se mai notează şi cu
**
m(x) se mai notează şi cu

9
1.5. Procedee de eşantionare utilizate

Pentru a se asigura reprezentativitatea eşantionului este necesar să se respecte


următoarele principii:

În teoria şi practica sondajului pentru formarea eşantionului se folosesc mai multe


procedee şi anume: eşantionare aleatoare, eşantionare dirijată şi eşantionare mixtă.

10
11
Toate aceste procedee de eşantioane se pot aplica direct populaţiei totale sau pe grupe
ceea ce înseamnă că se pot obţine sondaje simple sau stratificate. La aplicarea procedeului de
selecţie se pot folosi unităţi simple numerotate de la 1 la N sau unităţi complexe, denumite
serii numerotate de la 1 la R. În cel de-al doilea caz vom avea un sondaj de serii.

12
13
14
Unitatea de învăţare 2
ORGANIZAREA SONDAJELOR
STATISTICE

Ce cuprinde această unitate de învăţare?

2.1 Obiectivele unităţii de învăţare


2.2 Etape preliminare în organizarea unui sondaj
2.3 Elaborarea chestionarului
2.4 Ancheta pilot
2.5 Extragerea eşantionului
2.6 Culegerea şi verificarea datelor

2.1. Obiective

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:


 Stabilirea obiectivelor unui sondaj pornind de la scopul urmarit de
beneficiar
 Alegerea variabilelor auxiliare necesare in stabilirea planului de sondaj
 Formularea intrebarilor pornind de la obiectivele propuse

2.2 Etape preliminare în organizarea unui sondaj

Sondajele statistice se bazează pe concepte, metode şi procedee clar definite şi se


aplică unei fracţiuni mai mari sau mai mici din populaţie. Calitatea rezultatelor depinde de
formularea corectă a problemei, de selectarea unităţilor din eşantion, de precizia estimării
parametrilor de interes. Efectuarea unui sondaj presupune un lanţ de lucrări complexe.

15
Prima sarcină este formularea obiectivelor sondajului. În general cei care comandă
sondajul vin doar cu o formulare vagă a problemelor care îi interesează şi cu o imagine
neclară asupra modului cum vor utiliza rezultatele obţinute. În dialogul beneficiar-statistician,
sociologului îi revine rolul de a îi ajuta pe aceştia să stabilească obiectivele. Aceste probleme
vor fi apoi analizate pentru a structura forma de prezentare a rezultatelor şi pentru a evalua
resursele financiare şi umane necesare.
Când vorbim despre populaţie avem în vedere înţelesul statistic al noţiunii care denotă
mulţimea unităţilor simple sau complexe pe care le are în vedere cercetarea efectuată.
Fiecare sondaj are problemele sale proprii legate de delimitarea populaţiei în timp şi în spaţiu.

Este foarte important să stabilim dacă populaţia cercetată este sau nu omogenă şi care
este structura acesteia în vederea realizării unei eventuale stratificări. Tot aici este important
să delimităm unităţile din care este constituită populaţia. Facem distincţie între:

• Unitate de observare  unitatea despre care se culege informaţia


• Unitatea de eşantionare  unitatea de la care se culege informaţia

Baza de sondaj – orice sistematizare a unităţilor astfel încât să permită selectarea lor
întâmplătoare în vederea formării eşantionului. Bazele de sondaj pot fi elaborate de către cel
care organizează selecţia sau pot fi preluate din listele electorale, lista abonaţilor posturilor
telefonice, lista adreselor poştale, registre ale populaţiei, registrul statistic al agenţilor
economici, fişierul bilanţurilor contabile, baze de date, hărţi, etc.

16
Condiţiile pe care trebuie să le îndeplinească o bază de sondaj sunt:

• să fie adecvată scopului urmărit şi să cuprindă întreaga populaţie care va fi supusă


sondajului;
• să nu conţină înregistrări repetate;
• să fie exactă, evitându-se includerea unor unităţi care n-ar trebui să figureze din
diferite motive;
• să fie cât mai actuală posibil. Chiar dacă în momentul întocmirii ei a fost completă şi
exactă timpul a erodat-o.

În funcţie de resursele financiare şi umane disponibile, dar şi în funcţie de acurateţea


dorită a rezultatelor, se trece la stabilirea metodei de colectare a informaţiei, care se poate
realiza sub următoarele forme:

Variante utilizate în practică:

1. la domiciliul său, persoana intervievată completează chestionarul pe loc sau operatorul


poate veni după un timp pentru a recupera chestionarul completat;
2. chestionarele se aplică simultan unui număr mai mare de indivizi cuprinşi într-o sală;

17
3. chestionarele sunt trimise prin poştă, fax;
4. chestionarul este publicat în ziare sau reviste
5. chestionarele sunt completate prin intermediul internetului (interviul online).
• inovaţie bine-venită în lumea sondajelor
• număr mare de respondenţi posibili şi arie largă de acoperire într-un timp
foarte scurt
• chestionarele online pot fi dinamice şi contingente, cu salturi şi ramificaţii în
funcţie de răspunsurile primite
• pot oferi respondenţilor materiale vizuale
• nu este încă foarte clar dacă în cazul sondajelor online calitatea informaţiilor
este mai bună sau nu decât în alte cazuri
• se aseamănă cu sondajele administrate neasistat prin faptul că ne putem aştepta
la niveluri crescute de non-răspunsuri – nu este prezent nici un intervievator
care să îi îndemne pe respondenţi să răspundă. Dar există de asemenea dovezi
cum că respondenţii iau chestionarul mai în serios şi consumă mai multă
energie cognitivă pentru sondajele online decât pentru cele prin telefon.
• Problema principală: cum să reuşeşti să ai un sondaj la care a răspuns
eşantionul dorit;

Sumarul considerentelor mai importante în alegerea metodei de culegere a datelor este


prezentat în Tabelul urmator. Costul este aproape întotdeauna o problemă critică şi poate cântări
mai mult decât alte considerente, dar nici celelelte criterii prezentate nu trebuie neglijate.
Metoda de culegere
Criterii Interviu Interviu prin Interviu prin Interviu
direct poştă telefon online
Scăzut
Foarte Scăzut până Moderat până la
Cost până la
mare la moderat ridicat
moderat
Moderat (există
Foarte
Accesul la populaţia ţintă Mare gospodării fară Moderat
mare
telefon)
Durata colectării datelor Moderată Mare Rapid Moderată
Infrastructura şi personalul Foarte Scăzut până
Moderat Scăzut
necesar pentru administrare mare la moderat
Nivelul de complexitate al
Ridicat Moderat Scăzut Moderat
chestionarului
Lungimea maximă a
Lung Moderat Moderat Moderat
chestionarului
Foarte
Rata de răspuns Moderată Scăzută Scăzută
scăzută
Capacitatea cognitivă necesară
Scăzută Ridicată Moderată Ridicată
a respondentului
Parţial
Folosirea funcţiilor multimedia Nu (grafice Nu Da
statice)
Numărul de non-răspunsuri Moderat -
Scăzut Moderat Scăzut
păarţiale ridicat
Ridicat
Control asupra ordinii prin
Ridicat Scăzut Ridicat
întrebărilor la care se răspunde utilizarea
funcţiilor
Abilitatea de a controla cine
Ridicată Scăzută Ridicată Scăzută
răspunde

18
2.3. Elaborarea chestionarului

După stabilirea caracteristicilor cantitative şi calitative în concordanţă cu obiectivele


sondajului se întocmeşte chestionarul. Acesta este o etapă crucială în realizarea sondajului.
Un chestionar prost conceput este cauza eşecului întregului studiu.
„Chestionarul este un fel de plasă ce colectează informaţiile căutate şi permite ca
informaţiile fără valoare să fie filtrate”.2

„Elaborarea chestionarului necesită cunoştinţe multidisciplinare, în sensul că necesită


îmbinarea de informaţii din mai multe discipline ştiinţifice (economie, statistică, matematică,
sociologie, psihologie, informatică).”3

Construirea unui chestionar este privită în mod corect ca o artă imperfectă. Nu există
proceduri prestabilite care vor duce neapărat la un chestionar „bun”. Una dintre consecinţe
este că ar putea apărea erori cauzate de ambiguitatea întrebărilor de 20 sau chiar 30 de puncte
procentuale. Din fericire, astfel de erori extreme pot fi reduse considerabil prin bunul simţ şi
experienţele altor cercetători.

2.3.1. Principii în elaborarea chestionarului

Un chestionar bun este acela care îndeplineşte obiectivele cercetării (în figura 2.3.1 este
prezentată schema elaborării unui astfel de instrument). Sondajele trebuie construite după
specificul scopurilor cercetării şi reprezintă mult mai mult decât o colecţie de întrebări
neambigue. Există foarte multe constrângeri asupra numărului, ordinii şi formei întrebărilor în
funcţie de metoda de culegere a informaţiilor. Dorinţa şi abilitatea respondenţilor de a răspunde,
cât şi formularea şi ordinea întrebărilor, influenţează formatul final al chestionarului.

2
Isaic Maniu Al., 2001, Tecnica sondajelor şi anchetelor, Ed. Independenţa Economică Piteşti, p. 193.
3
Isaic Maniu Al., op.cit. pg. 194

19
Figura 2.3.1. Schema elaborării unui chestionar

Paşi logici de urmat pentru a realiza un chestionar bun

• Planificarea a ceea ce se doreşte a fi măsurat


• Formularea întrebărilor astfel încât să faciliteze obţinerea informaţiilor
• Hotărârea asupra ordinii şi formulării întrebărilor şi a aranjării în pagină a
chestionarului
• Testarea chestionarului, utilizând un eşantion de volum mic, pentru a evita omisiunile
şi ambiguitatea
• Corectarea problemelor (şi o nouă pretestare, dacă este necesară)

Principii generale pentru întocmirea chestionarului

• Lungimea chestionarului - trebuie evitată tendinţa măririi numărului de întrebări.


Dacă chestionarul este prea lung constituie o sursă de oboseală si plictiseală atât pentru
operator cât şi pentru respondent. Acest lucru va determina creşterea proporţiei non-
răspunsurilor ce vor afecta reprezentativitatea eşantionului. Pe de altă parte, un
chestionar prea scurt va lăsa unele aspecte nelămurite în legătură cu obiectivele
propuse.
• Evitarea acelor întrebări la care respondenţii să nu fie în măsură să dea
răspunsuri utilizabile  orice chestionar presupune existenţa unui dialog. Se impune
deci redactarea întrebărilor intr-un limbaj adecvat populaţiei căreia ne adresăm.
• Succesiunea întrebărilor  ordinea întrebărilor în chestionar poate influenţa
răspunsurile celor chestionaţi. În stabilirea ordinii întrebărilor trebuie respectate
următoarele reguli (vezi figura 2.3.2):

• succesiunea logică a întrebărilor ce decurge din problematica abordată (organizarea


chestionarelor pe module) astfel încât să se poată răspunde cu uşurinţă;

• răspunsurile la o întrebare să nu fie influenţate de desfăşurarea anterioară a interviului.

• Întrebările de început trebuie să crească interesul respondentului de a participa la


procesul intervievării stârnind curiozitatea astfel încât să justifice timpul şi efortul
necesar participării la interviu.

• Natura exactă a întrebărilor de început depinde de metoda de intervievare

• Interviul faţă în faţă sau prin telefon - scop: realizarea legăturii operator respondent.
Tonul trebuie să fie prietenos şi să prezinte interes şi curiozitate din partea operatorului
(similar conversaţiei dintre două persoane care abia sau cunoscut).

20
• Cererea de informaţii demografice şi economice la începutul unui chestionar poate
sugera imaginea unui document oficial iar respondentul să nu fie motivat în a începe să
îl completeze.

• Restul chestionarului se orientează spre sarcinile corespunzătoare studiului.


Întrebările de la mijloc sunt concentrate pe informaţiile necesare în conformitate cu
obiectivele fixate. Aici se pot plasa şi întrebările de atitudine, preferinţe şi opinii.

• Întrebările delicate ar trebui plasate la mijlocul sau la sfârşitul chestionarului, după ce


s-a stabilit relaţia şi interesul. Nivelul de sociabilitate poate minimiza jena şi rezistenţa
la răspuns

Figura 2.3.2. Succesiunea întrebărilor într-un chestionar

Un chestionar bine întocmit reprezintă cheia succesului unui sondaj. Dacă chestionarul
prezintă deficienţe, informaţiile obţinute pot fi incomplete, făcând imposibilă o analiză
complexă. Nicio corectare posterioară nu poate remedia o astfel de situaţie.

21
2.3.2. Tipuri de întrebări utilizate

La aceste întrebări respondentul este rugat să aleagă o variantă sau mai multe dintr-o
listă, să realizeze o ierarhie sau să dea o valoare în catul variabilelor numerice

Avantaje
• gama variată de răspunsuri ce poate fi obţinută
• lipsa influenţei asupra întrebărilor din cadrul categoriilor prespecificate
• respondenţii consideră asta adesea drept libertate, după cum se poate vedea din frecvenţa
surprinzătoare cu care oamenii notează comentarii pe marginea sondajelor prin poştă
atunci când consideră că sentimentele lor nu sunt descrise corect de categoriile de răspuns.

Dezavantaje
• variabilitatea în ceea ce priveşte claritatea şi profunzimea răspunsurilor depinde într-o
mare măsură de:
• fluenţa respondentului într-o anumită situaţie a interviului
• dorinţa de a compune un răspuns scris într-un sondaj prin poştă
• abilitatea personală sau telefonică a intervievatorului de a înregistra verbatime repede –
sau de a sumariza rapid

22
Tipul
Avantaje Dezavantaje
întrebării
- uşurinţa completării chestionarului - pierderea spontaneităţii răspunsurilor
- precizarea conţinutului întrebării - limitează câmpul opţiunilor celor
- necesită timp scurt pentru răspuns intervievaţi
- uniformitatea înţelegerii întrebărilor - induce o ordine de preferinţă prin
şi a înregistrării răspunsurilor ordinea înscrierii variantelor în
- uşurinţa codificării şi evitarea erorilor chestionar
Închise
în realizarea acesteia - sporeşte artificial frecvenţa
- uşurează munca operatorilor răspunsurilor nu ştiu/nu răspund
- rapiditatea şi uşurinţa prelucrării
- permite compararea grupurilor
- facilitează efectuarea testelor de
semnificaţie
- spontaneitatea răspunsurilor - lungeşte timpul de completare a
- indică fidel nivelul cunoştinţelor chestionarului
- subiectului asupra problemei - cer un efort suplimentar
investigate respondentului
- indică elementele cărora subiectul le - rata de non-răspuns este mai mare
Deschise
acordă cea mai mare importanţă decât la întrebările închise
- evită consecinţele efectelor de format - sunt foarte dificil de codificat şi
specifice întrebărilor închise (prin analizat;nu oferă nici o informaţie
limitarea şi ordonarea răspunsurilor) respondenţilor despre tipul de
răspuns aşteptat de la ei

23
Întrebări factologice  vizează situaţii ce caracterizează subiecţii
• furnizează informaţii ce ar putea fi obţinute şi prin metoda observaţiei dacă aceasta n-
ar presupune eforturi prea mari
• în cazul întrebărilor factologice de clasificare sau identificare, informaţiile permit
identificarea caracteristicilor diferitelor grupuri de respondenti.
• lăsate de obicei la sfârşitul chestionarului
• excepţie: sondajul pe cote (întrebările factologice ce formează criteriile de cotă
vor fi puse la începutul chestionarului pentru a vedea dacă persoana
corespunde sau nu criteriilor de formare a eşantionului)
• întrebări de opinie sau atitudine  vizează aspecte ce ţin de universul interior al
individului (părerile, aşteptările, evaluările, ataşamentul faţă de valori, explicaţiile
fenomenelor din jur, comportament etc.)
• întrebările de cunoştinţe  au un specific foarte clar şi au ca scop caracterizarea
nivelului de cunoştinţe al subiectului
• pot fi utilizate şi ca întrebări de control, validând sinceritatea si capabilitatea
subiectului
• întrebări filtru  permit bifurcarea succesiunii întrebărilor în chestionar printr-un salt
către o altă zonă de continuitate în interviu.

2.3.3. Tipuri de scale utilizate si caracteristicile acestora


Scala Variabila Proprietăţi Operaţii permise
nominală calitativă Echivalenţa între Frecvenţe absolute şi relative, modul,
treptele scalei coeficient de asociere, testul 2
ordinală calitativă Ierarhizare între În plus: cuartile, coeficienţii de corelaţie
treptele scalei a rangurilor
cardinală calitativă Măsoară diferenţele În plus: medii de calcul, dispersii,
dintre treptele scalei corelaţia parametrică, regresia, testele
parametrice
proporţională cantitativă Punctul zero natural Toate operaţiile

24
• Scala binară  cea mai simplă modalitate
Respondentul este solicitat să aleagă între două poziţii diametral opuse: da sau nu; acord
sau dezacord; adevărat sau fals.

• Diferenţiala semantică  scală cu alegere multiplă cu 5 sau 7 trepte


Respondentul trebuie să plaseze răspunsul într-una din boxele dintre două atribute bipolare
extreme.

• Scala lui Likert  tot o scala cu alegere multiplă cu 5 trepte


Respondentul este rugat sa-si plaseze atitudinea faţă de un subiect între acord total, acord,
indiferent, dezacord şi dezacord total.
O problemă controversată cu privire la diferenţiala semantică şi scala lui Likert este
dacă să includem sau nu alternativele de mijloc în chestionare. Experienţa a dovedit că
există o tendinţă de cumulare a răspunsurilor către centrul scalei (de exemplu nici
acord nici dezacord) ceea ce din punct de din punct de vedere analizei reprezintă lipsă
de informaţie.

• Scala tip rating


Respondentul trebuie să răspundă la o întrebare dând note de la 0 la 10 (sau 100) .

25
2.4. Ancheta pilot

În comparaţie cu multe alte tipuri de cercetare, cercetarea prin sondaj beneficiază de


testarea în lumea reală a chestionarelor şi a tehnicilor de administrare a sondajului.
Ancheta pilot este o repetiţie generală a sondajului propriu-zis absolut necesară în
special în anchetele mari. „Volumul şi schema anchetei pilot reprezintă o problemă
dependentă de timp, mijloace financiare şi mai ales de aspectele ce se cer rezolvate.” 4

Informaţii ce pot fi furnizate de ancheta pilot:

• Cheltuielile şi durata probabilă a anchetei.


• Proporţia anticipată de non-răspunsuri
• Numărul posibil de refuzuri sau de necontactări poate fi estimat şi se poate compara
eficacitatea diferitelor căi de reducere a acestora  se poate opta pentru o anumită
metodă de culegere a datelor, se pot exclude unele întrebări sau se poate modifica
ordinea lor.
• Gradul de variabilitate al populaţiei şi structura acesteia În cazul în care nu se cunosc
suficiente informaţii necesare caracterizării populaţiei analizate în vederea stabilirii
planului de sondaj ce se poate aplica şi calculării volumului eşantionului.
• Pretestarea chestionarului  cel mai important rol al anchetei pilot. După ce a fost
elaborat, chestionarul trebuie aplicat unui eşantion de volum redus selectat aleator, de
persoane din populaţia supusă cercetării. Astfel se pot detecta deficienţe ale
chestionarului ce nu au fost observate, pot fi identificate probleme în zona
introductivă, în alegerea tipurilor de întrebări, în formularea şi succesiunea
întrebărilor. Se au în vedere următoarele probleme:
• simplitatea mânuirii chestionarului pe teren
• eficacitatea punerii în pagină
• claritatea întrebărilor (un număr prea mare de răspunsuri nu ştiu impune
reformularea întrebării respective)
• accesibilitatea limbajului şi claritatea exprimării

4
Isaic Maniu Al.,2001, Tehnica sondajelor şi anchetelor, Ed. Independenţa Economică Piteşti, p. 181.

26
• sensibilitatea chestionarului, mai ales la întrebările ce testează atitudini. Este
posibil ca după analiza răspunsurilor la întrebările deschise să se recurgă la
închiderea acestora.
• analiza chestionarelor completate de probă poate arăta dacă operatorii au
înţeles corect instrucţiunile verificând eficacitatea lor lor şi a îndrumării
operatorilor.
• pretestarea este un pas important în procesul de design al chestionarului. Ea nu
trebuie ignorată.

2.5. Extragerea eşantionului

În această etapă se stabileşte planul de sondaj, procedeul de extracţie, mărimea


eşantionului, estimatorii şi precizia lor teoretică.
La organizarea unei cercetări prin sondaj una din problemele principale de rezolvat
este dimensionarea raţională a eşantionului. Pentru a stabili această mărime este necesar un
studiu amănunţit al populaţiei supuse cercetării. „Nu trebuie însă exagerată însemnătatea
stabilirii unei anumite mărimi a eşantionului şi nici nu trebuie să se creadă că dacă o stabilim
cu precizia necesară, reuşita sondajului este asigurată.5”
Pentru a putea calcula volumul eşantionului trebuie să cunoaştem, chiar cu o
aproximaţie, dispersia populaţiei sau o estimaţie a acesteia. În practică întâlnim următoarele
situaţii:
• Se preiau informaţii despre gradul de variaţie din cercetări anterioare (considerând că
variabilitatea caracteristicii nu s-a modificat semnificativ);
• Se organizează o cercetare prealabilă pentru estimarea dispersiei, a legii de repartiţie;
• se introduce în relaţia de calcul valoarea maxim posibilă a dispersiei. Determinarea ei
se face în două situaţii:

2 (xmin  x )2  (xmax  x )2
o cazul caracteristicilor cantitative: σ max 
2
2
o cazul caracteristicilor calitative (se consideră p=0,5): σ max =p(1-p)=0,25

În cazul în care avem mai multe variabile auxiliare, o vom alege pe aceea al cărei coeficient
de variaţie este maxim. Astfel vom avea estimaţii cu precizie şi siguranţă în limita admisă
pentru toate celelalte caracteristici.
Mărimea eşantionului este determinată de:
• Modul în care urmează să fie analizate rezultatele. Dacă se are în vedere analiza pe
subgrupe se va calcula volumul eşantionului astfel încât să se obţină precizia dorită pe
fiecare subgrupă.
• Restricţii de ordin financiar pornind de la costurile admisibile. Resursele financiare
sunt totdeauna limitate şi de multe ori mărimea necesară a eşantioanelor nu poate fi
realizată. Recurgem la ingeniozitatea şi discernământul în alegerea acelor subiectecare
pot fi abordate cu resursele disponibile.

5
Porojan D., 1993, Statistica şi Teoria Sondajului, Ed. Şansa SRL Bucureşti, p. 235.

27
Ca urmare a problemelor ce apar pe teren, în încercarea diminuării efectelor acestora,
după calcularea volumului eşantionului teoretic, trebuie să determinăm care este volumul
eşantionului de pornire astfel încât în final să ajungem la numărul teoretic de unităţi selectate.
Situaţii posibile:
• Imperfecţiunea listei utilizate ca bază de sondaj determină existenţa unor unităţi
non-valide (unităţi care n-ar trebui să figureze pe listă dacă aceasta ar corespunde
perfect populaţiei studiate). Trebuie estimată această proporţie astfel încât să putem
determina cât mai precis volumul de pornire al eşantionului.
• Existenţa unităţilor non-eligibile (de exemplu dacă populaţia de interes este formată
din populaţia în vârstă de muncă iar unitatea de selecţie este gospodăria, persoanele ce
nu îndeplinesc condiţia de vârstă sunt considerate non-eligibile).
• Existenţa non-răspunsurilor este o problemă întâlnită în orice sondaj. Anticipând rata
non-răspunsurilor încă din faza de proiectare a sondajului putem redimensionarea
eşantionului.

Eşantionul de pornire se calculează pe baza relaţiei: n p  n th  1  1  1


Pr Pe Pv

np= volumul eşantionului de pornire


nth= volumul eşantionului teoretic
Pr=proporţia de răspuns
Pe=proporţia de eligibilitate
Pv=proporţia de validitate
1 1 1
n p  nth   
Pr Pe Pv

2.6. Culegerea şi verificarea datelor

Odată cu recuperarea chestionarelor se trece la pregătirea acestora în vederea


prelucrării statistice a datelor.
Verificarea chestionarelor este o operaţie obligatorie deoarece, oricât de buni ar fi
operatorii, greşelile sunt inerente muncii omeneşti. Această verificare constă în urmărirea în
principal a trei aspecte: completitudinea, exactitatea şi uniformitatea.

Exactitatea şi uniformitatea datelor

Principala modalitate de verificare a exactităţii: parcurgerea chestionarului în


ansamblul său încercând să se vadă dacă răspunsurile sunt coerente sau se contrazic.
Este foarte important de ştiut dacă operatorii sau subiecţii au înţeles în acelaşi sens întrebările
din chestionar. Dacă după parcurgerea unui număr de chestionare observăm astfel de deosebiri
de interpretare, rezultate obţinute sunt inconsistente.
Aceste probleme pot fi evitate printr-o atentă întocmire a chestionarului, validarea
acestuia printr-o anchetă pilot şi o instruire riguroasă a operatorilor.

2. Completitudinea datelor

Prin centralizărea datelor din chestionarele completate obţinem o bază de date.


Golurile din această bază de date reprezintă nonrăspunsuri parţiale. Dacă lipsesc valorile unui
individ pentru toate întrebările din chestionar suntem în situaţia unui nonrăspuns total.

28
Unitatea de învăţare 3
ASPECTE PRACTICE ÎN REALIZAREA
UNUI SONDAJ STATISTIC

Ce cuprinde această unitate de învăţare?

3.1. Obiectivele unităţii de învăţare 3


3.2. Problematica non-răspunsurilor
3.3. Tipuri de erori întâlnite în cercetarea selectivă
3.4.Verificarea reprezentativităţii eşantionului
3.5. Aplicaţii

3.1. Obiectivele unităţii de învăţare

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:


 Importanta sondajului statistic în obținerea informațiilor în timp real
 Conceptele de bază utilizate în cercetarea selectivă
 Procedeele ce stau la baza formării eșantioanelor

3.2. Problematica non-răspunsurilor


În urma centralizării datelor pentru chestionarele completate se va obţine baza de date
sub forma tabelului indivizi variabile reprezentat în figura 3.2.1. Informaţiile lipsă reprezintă
non-răspunsurile parţiale respectiv non-răspunsurile totale.
Nonrăspunsurile reprezintă o problemă de care nici un investigator al colectivităţilor
umane nu poate scăpa. Dacă numărul de non-răspunsuri este mare rezultatele sondajului vor fi
afectate de această situaţie.

29
Nr. Întrebarea
Chest. 1 2 … j … p
1 Non-răspuns
2 parțial

i
… Non-răspuns
npornire total

Figura 3.2.1. Tabloul indivizi-variabile

30
A.2.1. Imputaţia deductivă se referă la acele situaţii (rare în practică) în care se poate
stabili valoarea corectă printr-o deducţie logică. Este vorba de o modalitate deterministă de a
corecta datele incorecte sau nevalidate. În acest caz y’ij = yij.

A.2.2. Imputaţia predictivă prin mediere globală se realizează înlocuind non-răspunsul


de pe poziţia (i,j) cu media răspunsurilor care au fost obţinute la întrebarea j. În acest caz
avem:
r
y'ij  y r, j   yij r
i 1
unde r este numărul răspunsurilor valide la întrebarea j.
Avantajul acestei metode este că înlocuirea valorii lipsă se face cu o valoare probabilă
ceea ce îi dă un oarecare grad de stabilitate. Dacă există mulţi respondenţi care nu au răspuns
la întrebarea j vom folosi pentru toţi aceeaşi imputaţie. Dezavantaj: se produce o subevaluare
severă a dispersiei estimatorului pentru media sau totalul caracteristicii yj.
În cazul în care caracteristica este reprezentată pe o scală de intervale sau proporţională
calcularea mediei aritmetice se va înlocui cu o medie de poziţie (mediana în cazul unei
variabile ordinale sau modulul pentru variabilele nominale).

31
A.2.3. Imputaţia predictivă prin mediere pe clase este similară imputaţiei predictive
prin mediere globală, cu deosebirea că nu se utilizează o singură imputaţie, ci mai multe,
corespunzătoare unor clase în care a fost împărţită mulţimea respondenţilor. Astfel,
partiţionăm mulţimea respondenţilor r la întrebarea j în q clase disjuncte. Identificăm clasa
căruia îi aparţine individul şi construim imputaţia:
k
y' ij  y rjt   y ij k
i 1
unde t ia valorile 1,..,q iar k este numărul de respondenţi din clasa respectivă.
Utilizarea acestui tip de imputaţie reduce gradul de subestimare a dispersiei
estimatorului.
O variantă a acestei metode este imputaţia calculată ca medie a valorilor vecinilor
valorii lipsă. Această metodă poate fi implementată automat şi sub softwareurile statistice
specializate, având posibilitatea selectării tipului de medie pe baza căreia se va calcula
imputaţia şi a numărului de vecini ce vor forma baza de calcul.

A.2.4. Imputaţia „hot-deck”. „Este utilizată la scară largă deoarece, spre deosebire de
imputaţia prin mediere globală sau pe clase, evită subestimarea dispersiei estimatorului”6.
Pentru aplicarea acestei metode se parcurg următoarele etape:
Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile
demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura
eşantionului.
Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în
prima înregistrare a unei caracteristici după care s-a realizat sortarea.
Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este identificat şi
verificat să nu conţină valori lipsă.
Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu
valoarea corespunzătoare din registru.

A.2.5. Imputaţia “cold-deck”. Este o variaţie a metodei hot-deck şi constă în înlocuirea


valorilor lipsă cu date provenite din alte surse decât sondajul curent cum ar fi sondaje
anterioare sau recensăminte. Este necesar ca populaţia sondajului din care se preiau valorile să
fie foarte asemănătoare cu cea asupra căruia se realizează sondajul în prezent iar modul de
definire şi de codificare a variabilelor supuse procesului de imputare să fie identic. Imputaţia
cu care se va înlocui valoarea lipsă este selectată aleator din baza de date aferentă sondajului
anterior.
Această metodă prezintă dezavantajul că imputaţia utilizată nu provine din sondajul
curent motiv pentru care este mult mai rar utilizată.

A.2.6. Imputaţia aleatoare. Constă în alegerea aleatoare din mulţimea respondenţilor


sau dintr-o clasă, a unui ’’donator’’ h din mulţimea de r respondenţi la întrebarea j. În acest
caz avem: y'ij  y hj
Este o variantă a imputaţiei hot-deck iar principalul avantaj faţă de aceasta este că prin
selecţia aleatoare a imputaţiei nu mai este necesară sortarea fişierului după diferite
caracteristici.

6
Levy P.S., şi Lemeshow S., ‚2000, Sampling of Populations, Third Edition Ed. John Wiley&Sons New York p.
411.

32
A.2.7. Imputaţia obiectivă. La baza acestei metode stă generarea unei ecuaţii de regresie
pe baza setului de date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse
procesului de imputare. Ecuaţia poate avea următoarea formă:
y  b0  b1 x1  b2 x 2  ......  bk x k
unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor xi, i=1,…,k
corelate cu variabila y.
„Imputaţiile obţinute în această manieră sunt superioare celor provenite în urma aplicării
metodelor prezentate anterior, deoarece ea se armonizează cu restul înregistrărilor individului
respectiv. Aplicarea acestei metode permite obţinerea unui estimator nedeplasat al mediei şi
nu subevaluează dispersia acestuia”7.

B.1. Reselecţia pentru non-respondenţi


 metodă utilizată pentru tratarea non-răspunsurilor totale
 în funcţie de restricţiile de timp şi de buget, se poate face o reselecţie pentru
non-respondenţi
 Împărţim în mod formal populaţia de volum N în două straturi: cel al respondenţilor,
de volum N1, şi cel al non-respondenţilor, de volum N2. Privim situaţia ca a unui
sondaj organizat în două faze. (figura 3.2.2.).

Respondenți Respondenți Faza 1 Faza 2


N1 n1

Non-respondenți m
n2
Non-respondenți
N2

Figura 3.2.2. Organizarea reselecţiei pentru non-respondenţi

 În prima fază se construieşte eşantionul E de volum n. Eşantionul va conţine n1


respondenţi ai subeşantionului E1 şi n2 non-respondenţi ai subeşantionului E2.
Variabila aleatoare w1=n1/n este un estimator nedeplasat al lui p1=N1/N (ponderea
respondenţilor). Presupunem că parametrul de interes este media Y . Pe baza
subeşantionului E1 putem calcula un estimator asociat primei faze ca in figura 3.2.2.

7
Levy P.S., şi Lemeshow S., 2000 , Sampling of Populations, Third Edition Ed. John Wiley&Sons New York p.
412.

33
 În a doua fază a sondajului formăm un eşantion E’2 de volum m prin selecţie
aleatoare fără revenire din E2. Prin eforturile făcute de operatorul de sondaj şi prin
eventuale recompensări eşantionul va conţine doar respondenţi. Putem acum calcula
un estimator asociat celei de a doua faze (figura 3.2.2.)
 Estimatorul parametrului Y construit pe baza celor două faze are forma:
n n
y  1 y1  2 y 2
n n
 Metoda reselecţiei pentru non-respondenţi are avantajul că generează un estimator
nedeplasat al parametrului de interes
 Dezavantaj – determină o creştere substanţială a costului sondajului deoarece cerinţa
ca în a doua fază să se obţină răspunsuri complete impune eforturi organizatorice şi
financiare deosebite.

B.2. Metoda post-stratificării şi a calibrării generalizate

 Utilizarea acestor metode necesită utilizarea unor informaţii deteliate privind


repartiţiile încrucisate după mai multe variabile auxiliare, o dotare tehnică superioară
şi un soft specializat şi sunt utilizate pentru tratarea non-răspunsurilor totale.

3.3. Tipuri de erori întâlnite în cercetarea selectivă

34
35
36
BAZA DE SONDAJ
POPULAȚIA ȚINTĂ
Arie acoperită de
baza de sondaj, dar
care nu face parte din
populaţia ţintă

Arie neacoperită

Figura 3.2.3 Formarea erorilor de acoperire

B.2.1. Erorile efective se pot calcula pentru caracteristicile la care s-au obţinut date şi dintr-o
observare totală
 Considerând că media este indicatorul sintetic cel mai reprezentativ, eroarea efectivă de
sondaj se calculează ca diferenţă între media eşantionului şi media colectivităţii totale
 La verificarea reprezentativităţii eşantionului se porneşte de la compararea structurii pe
grupe a colectivităţii de selecţie cu cea a colectivităţii generale, denumită şi structură
programată. În cazul în care aceste structuri nu diferă cu mai mult de ± 5% se acceptă
eşantionul ca fiind reprezentativ.
 De cele mai multe ori în cercetarea concretă nu se dispune de date cu privire la întreaga
colectivitate pentru a putea verifica în ce măsură media este sau nu reprezentativă. În
acest caz se pot efectua selecţii succesive pentru a verifica gradul de stabilitate al mediei
şi dispersiei, eroarea efectivă de reprezentativitate calculându-se astfel:
xx
dx  x  x şi respectiv d x %   100
x
unde x este media mediilor selecţiilor.
Verificarea reprezentativităţii eşantionului se poate realiza comparând distribuţia
populaţiei cu cea a eşantionului cu ajutorul testelor statistice sau Kolmogorov-Smirnov.
B.2.2. Deşi erorile de reprezentativitate întâmplătoare nu pot fi evitate, ele pot fi
calculate cu anticipaţie dacă sondajul este probabilistic, obţinându-se erorile probabile.
Estimaţia parametrilor din populaţia generală se va putea face pe baza indicatorilor obţinuţi
din prelucrarea datelor de sondaj cu o eroare medie de reprezentativitate care se găseşte
într-un interval probabilistic. Fiecărui indicator derivat sau sintetic trebuie să i se ataşeze şi

37
eroarea sa de reprezentativitate pentru a putea fi generalizat la întreaga populaţie. Modul de
calcul al acestor erori depinde de tipul de sondaj utilizat.
Tocmai posibilitatea unor astfel de calcule şi a analizelor respective face din metoda
sondajului un instrument viabil de cercetare.

3.4. Verificarea reprezentativitatii esantionului

Înainte de a trece la analiza statistică şi la interpretarea rezultatelor este important să


stabilim dacă eşantioanele sunt sau nu reprezentative pentru populaţiile din care au fost
selectate. Dacă diferenţele dintre parametri cunoscuţi din populaţie faţă de valorile
estimatorilor obţinuţi pe baza datelor din sondaj sunt semnificative atunci eşantionul nu este
reprezentativ.

Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a
ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum
normal) pentru compararea proporţiei din eşantion cu cea din populaţie.
Ipotezele testului bilateral sunt: H0 : x = X 0 şi H1: x  X 0 .iar valoarea calculată a testului
x  X0
este: zc 
2
n
Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1,96
corespunzătoare nivelului de semnificaţie ales (=0,05) şi, deoarece este mai mică decât
aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ.
wp
H0 : w= p şi H1: w  p .iar valoarea calculată a testului este: z c 
p  1  p 
n
Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de
semnificaţie =0,05 în cazul efectuării unui test bilateral valoarea teoretică este z  =1,96.
1
2
2
Ipotezele testului  sunt:
H0 : ft= fe şi H1: ftfe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele empirice.
Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj iar cele
teoretice se calculează după relaţia: fti  Fti  N n ( Fti fiind frecvenţa corespunzătoare a grupei
i din populaţie).
k
2 f ei  f ti 2
Valoarea calculată a testului este:  c  
i 1
f ti
= Valoarea teoretică pentru un nivel de

semnificaţie =0,05 şi numărul de grade de libertate df=k-1=5-1=4 este de 9,49. Deoarece


 c 2    0,05;df  4 2 se respinge ipoteza nulă putând spune că cele două distribuţii nu concordă
şi, deci eşantionul nu este reprezentativ.

1. Testul Kolmogorov este unul dintre cele mai răspândite teste de concordanţă a
repartiţiilor empirice şi teoretice pentru variabile aleatoare continue.
Pentru efectuarea testului este necesară alcătuirea claselor şi stabilirea frecvenţelor absolute
empirice şi teoretice (în funcţie de repartiţia testată). Ulterior se cumulează aceste frecvenţe
crescător şi prin raportarea lor la total se obţin funcţiile de repartiţie empirice (Fn(x)) şi
teoretice (F(z)).

38
Se calculează pe clase diferenţa lor şi se ia diferenţa maximă în valoare absolută. Pe baza ei se
obţine statistica  a testului Kolmogorov astfel:  c  n  max Fn( x)  F(z) , unde n este
volumul eşantionului.
Valoarea calculată  c se compară cu valoarea teoretică tabelată în funcţie de nivelul de
semnificaţie. Unui α=0,05 îi corespunde  α=1,36. Dacă  <  α repartiţia empirică este în
concordanţă cu cea teoretică.
Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru cazul verificării
concordanţei a două repartiţii empirice. Notând cele două variabile aleatoare cu x şi y se
n 1 n 2
calculează o valoare c după relaţia următoare:  c  max F( x )  F( y) .;
n1  n 2
unde F(x) şi F(y) reprezintă funcţiile repartiţiilor empirice ale celor două variabile.
Se compară apoi valoarea calculată cu cea teoretică. Dacă  c <  α repartiţiile sunt în
concordanţă.

3.5. Aplicaţii

Aplicaţie 1

În urma centralizării răspunsurilor obţinute dintr-un sondaj în rândul studenţilor unei


universităţi au rezultat datele prezentate în tabelul 3.5.1
Definirea variabilelor:
 STRAT. Sondajul s-a realizat după un plan stratificatastfel: 1 anul I, 2 anul II, 3 anul
III şi 4 anulIV.
 SEX. 1 feminin, 2 masculin.
 MEDIE. Este variabilă numerică şi reprezintă media obţinută în sesiunea din iarnă.
 NRORE. Este variabilă numerică şi reprezintă numărul de ore de studiu pe săptămână
în afara sesiunii.
 ACORD. Este variabila obţinută în urma centralizării răspunsurilor la întrebarea: “În
ce măsură sunteţi de acord cu modificările survenite în învăţământul superior?”.
Codurile reprezintă: 1 dezacord total, 2 dezacord, 3 indiferent, 4 acord şi 5 acord total.

Se cere:
1. Să se înlocuiască valorile lipsă ale variabilei NRORE folosind imputaţia predictivă prin
mediere globală, imputaţia predictivă prin mediere pe clase şi imputaşia obiectivă.
2. Să se înlocuiască valorile lipsă ale variabilei ACORD folosind imputaţia ”hot-deck”.

Rezolvare

1. Notăm cu yij răspunsul pe care îl dă individului i din eşantionul E la întrebarea j (i=1,..,n,


j=1,... ,p). Concentrându-ne asupra individul i din eşantion constatăm că vectorului (yi1,
...., yip), format din răspunsurile la întrebările din chestionar, îi lipsesc unele componente
(non-răspunsurile). Fiecare poziţie de coordonate (i,j) trebuie tratată separat, prin crearea
unei valori y’ij numită ’’valoare atribuită’’ sau ’’imputaţie’’.

39
Imputaţia predictivă prin mediere globală

Calculăm media răspunsurilor obţinute la întrebarea j:


r
119
y'ij  y r, j   yij r   5.17
i 1 23
unde r este numărul răspunsurilor valide la întrebarea j.
Toate cele 7 valori lipsă se vor înlocui cu 5.17 (vezi tabelul 3.5.2 variabila NROREIG).
Avantajul acestei metode este că înlocuirea valorii lipsă se face cu o valoare probabilă ceea ce
îi dă un oarecare grad de stabilitate. Dacă există mulţi respondenţi care nu au răspuns la
întrebarea j vom folosi pentru toţi aceeaşi ’’imputaţie’’. Este clar că se produce o subevaluare
severă a dispersiei estimatorului pentru media sau totalul caracteristicii yj.

Tabel 3.5.1
Nr. STRAT SEX MEDIE NRORE ACORD
1 1 1 7 3 2
2 1 1 8.33 4 2
3 1 1 6.67 3 3
4 1 1 9.67 10 4
5 1 2 6.33 2
6 1 2 7.8 4 1
7 2 1 9.67 11 2
8 2 1 8 2
9 2 1 7.2 3
10 2 1 8.8 6 4
11 2 1 6.33 4 5
12 2 2 7 4 1
13 2 2 8.8 6
14 2 2 8.2 5 1
15 3 1 7.9 5 3
16 3 1 8.8 4
17 3 1 6.67
18 3 1 9.33 9 4
19 3 1 8.33 6 2
20 3 1 7.7 5
21 3 2 8.2 5 2
22 3 2 5.67
23 3 2 9.2 9 2
24 4 1 9.33 2
25 4 1 8.9 7 3
26 4 1 7.8 6
27 4 1 8.2 7 2
28 4 2 8.9
29 4 2 7.9 5 1
30 4 2 7.5 4 2

40
Imputaţia predictivă prin mediere clase

Partiţionăm mulţimea respondenţilor r la întrebarea j în 4 clase disjuncte, cate una pentru


fiecare strat. Identificăm clasa căruia îi aparţine individul şi construim
k
imputaţia: y'ij  y rjt   y ij k
i 1
unde t ia valorile 1,..,4 iar k este numărul de respondenţi din clasa respectivă,
Deoarece există patru straturi se vor calcula 4 imputaţii.
k k
23 32
y'1ij  y rj1   yij k   4.6 y' 2ij  y rj2   y ij k   4.57
i 1 5 i 1 7
k k
37 27
y' 3ij  y rj3   yij k   6.17 y' 42ij  y rj4   yij k   5.4
i 1 6 i 1 5
În tabelul 3.5.2 variabila NROREIC este obţinută în urma aplicării acestei metode. Utilizarea
acestui tip de imputaţie reduce gradul de subestimare a dispersiei estimatorului.

Tabel 3.5.2
Nr. STRAT SEX MEDIE NRORE NROREIG NROREIC NROREIO
1 1 1 6 2 2 2 2
2 1 1 8.33 4 4 4 4
3 1 1 5.67 3 3 3 3
4 1 1 9.67 10 10 10 10
5 1 2 5.33 5.17 4.6 0.49
6 1 2 7.8 4 4 4 4
7 2 1 9.67 9 9 9 9
8 2 1 8 5.17 4.57 5.19
9 2 1 7.2 3 3 3 3
10 2 1 8.8 5 5 5 5
11 2 1 6.33 2 2 2 2
12 2 2 6.33 3 3 3 3
13 2 2 8.8 5 5 5 5
14 2 2 8.2 5 5 5 5
15 3 1 7.9 5 5 5 5
16 3 1 8.8 5.17 6.17 6.60
17 3 1 5.67 5.17 6.17 1.09
18 3 1 9.33 8 8 8 8
19 3 1 8.33 6 6 6 6
20 3 1 7.7 4 4 4 4
21 3 2 8.2 5 5 5 5
22 3 2 5.67 5.17 6.17 1.09
23 3 2 9.2 9 9 9 9
24 4 1 9.33 5.17 5.4 7.53
25 4 1 8.9 7 7 7 7
26 4 1 7.8 6 6 6 6
27 4 1 8.2 7 7 7 7
28 4 2 8.9 5.17 5.4 6.78
29 4 2 7.9 4 4 4 4
30 4 2 7.5 3 3 3 3

41
Imputaţia obiectivă

Pentru setul de date ce nu conţine valori lipsă pentru variabila NRORE se stabileşte forma
ecuaţiei de regresie ce are ca variabilă independentă MEDIA. În figura 3.5.1 este reprezentată
grafic legătura dintre MEDIE şi NRORE.

Fig. 3.5.1 Nr. ore studiu în funcţie de media obţinută în sesiunea din iarnă

Pe baza ecuaţiei de regresie y = 1.761x - 8.8953 se determină imputaţiile cu care se vor


înlocui non-răspunsurile variabilei NRORE (vezi tabelul 3.5.2 variabila NROREIO).
De exemplu pentru prima valoare lipsa a Variabilei NRORE, MEDIA este 5.33. Introducem
aceasta valuare in ecuaţia de regresie şi obţinemvaloarea imputaţiei obiective 0.49.

2. Imputaţia „hot-deck”.

Pentru aplicarea acestei metode se parcurg următoarele etape:


Etapa1. Fişierul ce conţine baza de date este în prealabil sortat după caracteristicile
demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura
eşantionului. Deoarece în tabelul 3.1 datele sunt deja sortate după STRAT şi SEX se poate
trece la etapa următoare.
Etapa 2. Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în prima
înregistrare a unei caracteristici după care s-a realizat sortarea. În tabelul 3.5.3 este prezentat
registrul de lucru constituit.
Tabel 3.5.3
STRAT SEX ACORD
1 1 2
1 2 2
2 1 2
2 2 1
3 1 3
3 2 2
4 1 2
4 2 1

42
Etapa 3. Fişierul (tabelul 3.5.1) se parcurge înregistrare cu înregistrare şi fiecare câmp este
identificat şi verificat să nu conţină valori lipsă.
Etapa 4 . În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu
valoarea corespunzătoare din registru.
Rezultatul implementării acestei metode este prezentat în tabelul 3.5.4.
De exemplu înregistrarea cu numarul 9 conţine valoare lipsă pentru variabila ACORD.
Înregistrarea face parte din STRAT 2 iar variabila SEX este 1-masculin. Valoarea
corespunzătoare din registru este 2. Înlocuim cu această valoare nonrăspunsul parţial.

Tabelul 3.5.4
Nr. STRAT SEX ACORD ACORDM
1 1 1 2 2
2 1 1 2 2
3 1 1 3 3
4 1 1 4 4
5 1 2 2 2
6 1 2 1 1
7 2 1 2 2
8 2 1 2 2
9 2 1 2
10 2 1 4 4
11 2 1 5 5
12 2 2 1 1
13 2 2 1
14 2 2 1 1
15 3 1 3 3
16 3 1 4 4
17 3 1 3
18 3 1 4 4
19 3 1 2 2
20 3 1
21 3 2 2 2
22 3 2 2
23 3 2 2 2
24 4 1 2 2
25 4 1 3 3
26 4 1 2
27 4 1 2 2
28 4 2 1
29 4 2 1 1
30 4 2 2 2

Aplicaţie 2

S-a realizat un sondaj în rândul studenţilor unei universităţi partiulare pe un eşantion de 90


persoane. În urma centralizării datelor pentru variabilele auxiliare SEX şi MEDIE (media
ultimei sesiuni) au rezultat următoarele informaţii: ponderea fetelor în eşantion este de 67%
iar nota medie 7.2 cu o dispersie de 1.42.

43
Se cere să se verifice reprezentativitatea eşantionului stiind că ponderea fetelor în populaţie
este 65% iar nota medie a studenţilor este de 6.98 iar probabilitatea de garantare a rezultatelor
este de 95%.

Rezolvare

Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a
ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum
normal) pentru compararea proporţiei din eşantion cu cea din populaţie.
Ipotezele testului bilateral sunt: H0 : w= p şi H1: w  p .
wp
Regiunea critică în cazul testului bilateral este dată de relaţia: W: z  iar
p  1 p n 1
2

wp
valoarea calculată a testului este: z c  =0.398
p  1  p 
n
Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de
semnificaţie =0.05 în cazul efectuării unui test bilateral valoarea teoretică este z  =1,96.
1
2
Deoarece valoarea calculată a testului luată în modul este mai mică decât valoarea teoretică se
acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ.
Pornind de la variabila auxiliară MEDIA, pentru verificarea reprezentativităţii se utilizează
testul z pentru compararea mediei unui eşantion cu cea a populaţiei.
Ipotezele testului bilateral sunt: H0: x = X 0 şi H1: x  X 0 .

Regiunea critică în cazul testului bilateral este dată de relaţia: W: x  X0 iar valoarea
 z 
2 1
 2
n
x  X0
calculată a testului este: zc  =1.75
2
n
Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1.96
corespunzătoare nivelului de semnificaţie ales (=0.05) şi, deoarece este mai mică decât
aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ.

Problema 2

În rândul populaţiei de 160000 persoane (cu vârsta peste 15 ani) dintr-o localitate s-a realizat
un sondaj pe un eşantion de 800 persoane privind atitudinea faţă de. În tabelul 3.5.5 este
prezentată structura eşantionului şi structura populaţiei pe grupe de vârstă.

Tabel 3.5.5
Grupe de vârstă Structura populaţiei (%) Structura eşantionului (%)
15-24 16 19
25-34 20 23
35-44 24 20
45-54 21 17
peste 55 19 21
Total 100 100

44
Se cere:
1. Să se verifice reprezentativitatea eşantionului utilizând testul 2 pentru un nivel de
semnificaţie =0.05.
2. Să se verifice reprezentativitatea eşantionului utilizând testul Kolmogorov-Smirnov pentru
un nivel de semnificaţie =0.05.

Rezolvare

1. Atunci când se cunoaşte forma distribuţia variabilei în populaţie pentru verificarea


reprezentativităţii eşantionului se poate utiliza unul din testele de concordanţă.

Tabelul 3.5.6
Structura Număr Număr
Grupe de
Structura
eşantionul salariaţi salariaţi fei  fti 2
populaţiei fti fti
vârstă ui în populaţie în eşantion
(%) ( Fti )
(%) (fei)
15-24 16 19 25600 152 128 4.50
25-34 20 23 32000 184 160 3.60
35-44 24 20 38400 160 192 5.33
45-54 21 17 33600 136 168 6.10
peste 55 19 21 30400 168 152 1.68
Total 100 100 160000 800 800 21.21

Ipotezele testului 2 sunt:


H0 : ft= fe şi H1: ftfe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele empirice.
Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj iar cele
teoretice se calculează după relaţia: fti  Fti  N n ( Fti fiind frecvenţa corespunzătoare a grupei
i din populaţie). Calculele necesare sunt sistematizate în tabelul 3.5.6.
k
2 f ei  f ti 2
Valoarea calculată a testului este:  c  
i 1
f ti
=21.21

Valoarea teoretică pentru un nivel de semnificaţie =0,05 şi numărul de grade de libertate


df=k-1=5-1=4 este de 9.49. Deoarece  c 2   2 0,05;df 4 se respinge ipoteza nulă putând
spune că cele două distribuţii nu concordă şi, deci eşantionul nu este reprezentativ.

2. Calculele necesare pentru efectuarea testului Kolmogorov sunt sistematizate în tabelul


3.5.7. Considerăm variabilele x şi y vârsta în totalul populaţiei şi respectiv în eşantion.

Tabel 3.5.7
Grupe de f* ei cumulat f* ti cumulat
fei fti fei cumulat fti cumulat di
vârstă F(x) F(y)
15-24 152 128 152 128 0.19 0.16 0.03
25-34 184 160 336 288 0.42 0.36 0.06
35-44 160 192 496 480 0.62 0.6 0.02
45-54 136 168 632 648 0.79 0.81 0.02
peste 55 168 152 800 800 1 1 0
Total 800 800

45
În relaţia de calcul a valorii teoretice  c considerăm n1 volumul populaţiei N iar n2 volumul
Nn
eşantionului n. Relaţia devine:  c  max F( x )  F( y) .
Nn
În cazul în care volumul populaţiei este mare în raport cu eşantionul (n<0.05N)  c se poate
calcula după relaţia:  c  max F( x)  F( y) n . =1.69.
 α=1,36. Deoarece  c >  αrepartiţia empirică nu este în concordanţă cu cea teoretică iar
eşantionul nu este reprezentativ ceea ce va duce la obţinerea unor estimatori deplasaţi.

46
Unitatea de învăţare 4
PLANURI DE SONDAJ SIMPLE

Ce cuprinde această unitate de învățare?

4.1. Obiectivele unităţii de învăţare 4


4.2. Sondajul simplu aleator
4.2.1. Sondajul simplu aleator cu probabilităţi egale
4.2.2. Sondajul de volum redus
4.3. Sondajul stratificat
4.4. Sondajul de serii
4.5. Aplicații

4.1. Obiective

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:


 Alegerea unui plan de sondaj simplu în funcție de caracteristicile populației
 Estimarea parametrilor de interes pe baza valorilor de sondaj în funcție de
planul de sondaj simplu utilizat

4.2. Sondajul simplu aleator

Sondajul simplu aleator este considerat o metodă de bază în teoria sondajului. El se


poate realiza într-o populaţie foarte omogenă (coeficient de variaţie sub 17%), unităţile
cuprinse în eşantion fiind selectate prin procedee aleatoare cu probabilităţi nenule cunoscute.
Cu toate că este rareori folosit în practică el este foarte important pentru înţelegerea

47
noţiunilor fundamentale şi însuşirea tehnicii sondajelor. Totodată sondajul simplu aleator
stă la baza sondajelor complexe utilizate în practică.
Sondajul simplu aleator se poate efectua în două variante: sondajul simplu aleator cu
probabilităţi egale şi sondaj simplu aleator cu probabilităţi inegale.
Sondajul simplu aleator cu probabilităţi egale este acel sondaj în care fiecare unitate
are aceeaşi probabilitate de a face parte din eşantion iar probabilităţile sunt independente.
Acest plan de sondaj este metoda de bază a sondajelor aleatoare din care decurg conceptele
fundamentale şi formulele de calcul al erorilor specifice sondajului. Tehnica sondajului
simplu aleator este vizualizată în figura următoare:

Populaţie
Eşantion

Figura 4.2.1 Schema de realizare a sondajului simplu aleator

Există două tipuri de sondaj cu probabilităţi egale: sondajul simplu aleator cu


probabilităţi egale cu revenire cunoscut în literatura de specialitate ca „plan de eşantionare cu
probabilităţi egale repetat (cu revenire) – SAR” şi sondajul simplu aleator cu probabilităţi
egale fără revenire cunoscut sub numele: plan de eşantionare cu probabilităţi egale nerepetat
(fără revenire)–SAFR”.

4.2.1. Sondajul simplu aleator cu probabilităţi egale

Sondajul simplu aleator cu probabilităţi egale cu revenire


Fie U populaţia supusă sondajului: U = { Ui | i= 1,…,N }
În cazul acestui tip de sondaj numărul tuturor eşantioanelor posibile este egal cu Nn,
iar probabilitatea fiecărei unităţi din populaţie de a intra în eşantion la fiecare extragere este:
pik=1/N unde i= 1,…,N iar k= 1,…,n.
Probabilitatea ca o unitate Ui  U să figureze în eşantion o notăm cu πi unde:
n
n
πi  p
k 1
ik 
N

48
Calculul erorilor de sondaj în vederea estimării parametrilor populaţiei se bazează pe
principiile teoriei probabilităţilor şi ale statisticii matematice.
Pentru un volum de eşantion n se pot obţine Nn eşantioane extrase succesiv din aceeaşi
populaţie fiecare având o medie de sondaj. În acest proces de formare a mediilor de sondaj
fiecare medie poate să aibă diferite frecvenţe de apariţie. Se confirmă astfel că media de
sondaj x i este o variabilă aleatoare căreia i se poate stabili legea de distribuţie. Respectând
cerinţele legii numerelor mari în teoria sondajului se demonstrează că dacă volumul
eşantionului este suficient de mare media de sondaj urmează o distribuţie normală a cărei
medie este chiar media populaţiei totale:
n
M( x i )  X iar  x i  X   0
i1
Dispersia mediilor de sondaj în jurul mediei din populaţia totală este egală cu raportul
dintre dispersia din populaţia totală şi volumul eşantioanelor de aceeaşi mărime n:
σ2
σ 2x i 
n
Mărimea abaterii medii pătratice a mediilor de sondaj de la media populaţiei reprezintă
eroarea medie de reprezentativitate şi se calculează după relaţia:
σ
σx 
i
n
Dacă nu se cunoaşte valoarea dispersiei populaţiei totale ea este estimată cu ajutorul
dispersiei de sondaj S2. În acest caz eroarea medie de reprezentativitate se calculează după
relaţia:
S
σx 
i
n
În practică însă nu procedăm la extragerea tuturor eşantioanelor posibile şi ne
mulţumim cu un singur eşantion construit cu respectarea cât mai riguroasă a unor anumite
condiţii. În acest caz, media eşantionului se poate abate mai mult sau mai puţin de la media
populaţiei, fapt ce determină necesitatea indicării unui interval de încredere despre care se
poate afirma cu o probabilitate sau siguranţă cunoscută că acoperă valoarea mediei din
colectivitatea totală. Limitele intervalului de încredere, cea minimă θiinf şi cea maximă θ sup se
calculează în funcţie de datele de sondaj x1, x2, …, xn astfel încât, cu un grad mare de
siguranţă, garantat de probabilitatea 1-α pentru parametrul populaţiei, se îndeplineşte relaţia:
 
P inf  X sup  1   z
Intervalul  inf , sup  reprezintă intervalul de încredere şi defineşte precizia estimaţiei.
Probabilitatea (1-α ) caracterizează siguranţa cu care se afirmă că intervalul de încredere
cuprinde valoarea parametrului populaţiei. Cu cât intervalul  inf , sup  este mai mic şi
probabilitatea (1-α ) mai mare cu atât avem o estimaţie mai precisă cu privire la
valoarea parametrului. Intervalul  inf , sup  este o mărime aleatoare, limitele sale fiind

49
dependente de datele fiecărei selecţii, motiv pentru care, pentru o aceeaşi populaţie, valorile
limitelor variază de la o selecţie la alta atât ca mărime cât şi ca poziţie.
La construirea estimaţiilor, un rol important, pe lângă nivelul de siguranţă, îl joacă
mărimea intervalului de încredere. Cele două mărimi se află într-o relaţie de corespondenţă
bine determinată. Dacă eroarea de sondaj se distribuie după legea normală atunci erorile egale
în valoare absolută cu probabilităţile de apariţie şi pentru acelaşi volum al eşantionului
probabilistic ce alcătuiesc intervale  inf , sup  se pot separa în două părţi egale iar jumătatea
intervalului este eroarea limită admisă.
Precizia estimaţiei, probabilitatea de încredere şi intervalul de încredere se discută pe
baza inegalităţii lui Cebîrşev, prin care se demonstrează că media de sondaj x pentru un
volum mare al eşantionului converge în probabilitate către X0 media populaţiei, ceea ce
semnifică faptul că x este un estimator corect al mediei populaţiei (nedeplasat, consistent şi
eficient). Siguranţa estimării este dată de probabilitatea cu care este îndeplinită inegalitatea:
x  X     z  unde   0, suficient de mic .
Această probabilitate este dată dinainte şi este foarte apropiată de unitate.

P x  X     z sau P x    X  x      z  ¤ (4. 1.1.)

Intervalul x   , x    care acoperă parametrul X cu o probabilitate  z  se


numeşte interval de încredere . În vederea stabilirii expresiei intervalului de încredere pentru
xX
media X trebuie definită variabila de sondaj z  (  x este eroarea medie de
x
reprezentativitate). Din relaţia 4.1.1 avem:

P xX    P   x  X  
  xX 
P   
   2   

 x x x  
   x 

unde  z    z   x   x reprezintă eroarea limită maximă admisă.
x
Rezultă că eroarea limită maximă admisă este o mărime variabilă ce depinde de
argumentul funcţiei de probabilitate (z) şi de eroarea medie de reprezentativitate. Ea poate fi
redusă fie prin mărirea volumului eşantionului (valoare ce intră în calculul erorii medii de
reprezentativitate) fie prin modificarea probabilităţii de garantare a rezultatelor.
În orice plan de cercetare prin sondaj, pentru a răspunde obiectivelor propuse sunt
necesare atât caracteristici cantitative cât şi calitative. În acest caz ne interesează dacă o
unitate a eşantionului posedă sau nu o caracteristică. În această situaţie calculul erorii medii de
reprezentativitate se realizează după relaţia:
p (1  p ) w(1  w)
w  
n n
(unde p este media caracteristicii binare în populaţie iar w reprezintă estimaţia acesteia din
eşantion).

50
În mod corespunzător, eroarea limită maximă admisă se calculează astfel:
w  z   w
Deşi determinarea volumului de eşantion în realitate precede calculul erorilor necesare
estimaţiilor nu putem aborda această temă fără cunoaşterea acestor noţiuni.
După studiul amănunţit al populaţiei supuse cercetării se va alege cu multă grijă
caracteristica în raport cu care se calculează volumul eşantionului.
Pornind de la formula erorii limită maximă admisă, pentru un eşantion de volum mare
avem:
 z 2  2 z2  S 2
x  z  n 
n 2x 2x
Dacă abaterea medie pătratică a caracteristicii Xi în populaţia generală presupusă
normal distribuită nu este cunoscută, atunci se extrage în prealabil un eşantion de volum redus
pe baza căruia se estimează cu ajutorul dispersiei de sondaj S2 dispersia necunoscută.
În cazul în care volumul eşantionului se calculează pornind de la o caracteristică
alternativă relaţia de calcul a volumului eşantionului este:
z 2  p(1 p)2 z 2  w (1  w )2
n 
2w 2w
unde p este proporţia celor care posedă caracteristica în populaţia totală. În cazul în
care nu se cunoaşte această valoare şi nu se poate calcula variaţia caracteristicii în populaţia
totală aceasta se estimează cu dispersia din eşantion calculată cu ajutorul proporţiei celor care
posedă caracteristica în eşantion (w).

Sondajul simplu aleator cu probabilităţi egale fără revenire

Sondajul simplu aleator cu probabilităţi egale fără revenire este acel sondaj în care o
unitate odată selecţionată nu mai participă la o nouă extragere.
Numărul tuturor eşantioanelor posibile în acest caz este egal cu C Nn . Probabilitatea
fiecărei unităţi de a intra în eşantion creşte de la o extragere la alta astfel:
1 1 1
p i1  ; pi 2  ;..... p in  unde i  1, N
N N 1 N  ( n  1)
Probabilitatea ca o unitate Ui  U să figureze în eşantion o notăm cu πi şi este dată de
relaţia:
n n
1 1 1 n k 1 n
πi  p
k 1
ik  
N N 1
 ....    
N  (n  1) N k 1 N ( N  ( k  1)) N
n
tinde la limita spre .
N
Pentru a aproxima dispersia mediilor de sondaj necesară calculării erorii medii de
N n
reprezentativitate se aplică un coeficient de corecţie . Deoarece, de cele mai multe ori,
N 1

51
volumul populaţiilor studiate este mare, nu sesizăm diferenţe între a împărţi la N-1 sau la N.
 n
În acest context, pentru simplificarea calculului considerăm coeficientul de corecţie 1   .
 N
σ2  n σ2  n S2  n
σ 2x   1   iar σ x   1     1  
n  N n  N n  N

σ2  n S2  n
Eroarea limită maximă admisa este:  x  z   x  z   1    z   1  
n  N n  N

În cazul în care nu se cunoaşte dispersia populaţiei totale o vom estima cu ajutorul


dispersiei de sondaj S2.
Dacă variabila pe care dorim să o analizam este calitativă, eroarea medie de
reprezentativitate şi eroarea limită se vor calcula după relaţiile:
p(1  p)  n w(1  w)  n
w   1     1  
n  N n  N
p(1 - p)  n w(1- w)  n
w  z  w  z   1    z   1  
n  N n  N

Pentru determinarea volumului eşantionului se porneşte tot de la relaţia de calcul a erorii


limită:
σ 20  n z 2 2
x  z  x  z   1   
n  N z 2 2
2x 
N
În cazul în care variabila este calitativă vom avea :
z 2 p(1  p) z 2 w (1  w )
n 
z 2 p(1  p) z 2 w (1  w )
2w  2w 
N N
În situaţia in care populaţia totală poate fi considerată infinită coeficientul de corecţie a
sondajului fără revenire nu îşi mai găseşte utilitatea. În cazul în care n<0,05N putem considera
 n
populaţia infinită, valoare 1    1 şi practic diferenţele intre aplicarea celor două
 N
formule de calcul a erorii de reprezentativitate fiind nesemnificative.

Estimarea parametrilor populaţiei totale pe baza valorilor de sondaj

Operaţia de extindere a rezultatelor obţinute din sondaj (în condiţii specificate de


incertitudine exprimate în termeni probabilistici) asupra întregii populaţii prin procedeul
numit inferenţă statistică se numeşte estimaţie.

52
Sumarul relaţiilor necesare determinării intervalului de încredere în cazul utilizării
unui sondaj simplu aleator cu probabilităţi egale:

Condiţiile de
Sondaj cu revenire Sondaj fără revenire
desfăşurare
 2 cunoscută  2 necunoscută  2 cunoscută  2 necunoscută
Populaţie 2 S2 2 S2
infinită şi xz xz xz xz
n n n n
eşantion de
volum normal
(n<0,05N), n>30
w (1  w ) w (1  w )
wz wz
n n
Populaţie finită 2 S2 2 N  n S2 N  n
xz xz xz  xz 
şi eşantion de n n n N 1 n N 1
volum normal
(n>0,05N), n>30
w (1  w ) w (1  w ) N  n
wz wz 
n n N 1

53
4.2.2. Sondajul de volum redus

Sondajele realizate pe baza eşantioanelor de volum redus îşi găsesc frecvent


aplicabilitatea în domeniul cercetărilor economico-sociale. Adeseori, în activitatea desfăşurată
managerii sunt nevoiţi să ia decizii pe baza unor date sumare oferite de eşantioane mici.

Dacă volumul eşantionului este mai mic de 30 de unităţi, se consideră de volum redus,
iar premizele de mai sus nu mai sunt valabile fiind necesară o tehnică nouă de abordare a
problemei.
În acest caz, distribuţia mediilor eşantioanelor posibile depinde de forma de distribuţie
a populaţiei. Cum de cele mai multe ori forma de distribuţie a populaţiei nu este cunoscută,
nici legea de distribuţie a mediilor eşantioanelor nu poate fi determinată. Teoria sondajului
demonstrează că în cazul selecţiei de volum mic probabilitatea de apariţie a mediilor de
diferite mărimi se distribuie mai uniform. Cu alte cuvinte probabilităţile de apariţie a
mediilor nu descresc în aceeaşi măsură ca în cazul eşantioanelor de volum normal în
momentul în care acestea se apropie de valorile extreme, mediile eşantioanelor posibile
distribuindu-se după curba lui Student şi nu după curba normală.
Tabelul distribuţiei Student prezintă coeficientul funcţiei de probabilitate al apariţiei
mediilor eşantioanelor posibile, reprezentat de coeficientul funcţiei (t).
Prin urmare, pentru estimarea mediei metodologia este asemănătoare pentru
eşantioanele de volum normal şi cele de volum redus, singura diferenţă fiind utilizarea
valorilor repartiţiei Student în funcţie de numărul gradelor de libertate şi probabilitatea de
garantare a rezultatelor. Relaţiile sunt sistematizat astfel:

Condiţiile de Sondaj cu revenire Sondaj fără revenire


desfăşurare
 2 cunoscută  2 necunoscută  2 cunoscută  2 necunoscută
Eşantion de 2 S2 2 N  n S2 N  n
x t xt xt  xt 
volum redus n n 1 n N 1 n 1 N 1
n<30 w (1  w ) w (1  w ) N  n
wt wt 
n 1 n 1 N 1

54
4.3. Sondajul stratificat

Deoarece în practică de cele mai multe ori populaţiile supuse cercetării sunt
neomogene utilizarea unui sondaj simplu aleator este dificilă şi costisitoare. Pentru
diminuarea acestor neajunsuri şi creşterea preciziei estimaţiilor se aplică metoda eşantionării
stratificate.
Această metodă presupune împărţirea populaţiei în subpopulaţii cât mai omogene
numite straturi. Straturile se delimitează fie artificial de către cei care organizează sondajul pe
baza unor criterii bine determinate, fie ele sunt deja constituite în populaţie (an de studiu,
judeţ, sector, filială etc.). Pentru formarea eşantionului se va realiza câte o selecţie pentru
fiecare strat formându-se câte un subeşantion. Acestea vor fi obţinute utilizându-se unul din
procedeele de selecţie învăţate (cu probabilităţi egale sau inegale, repetate sau nerepetate).
Metoda selecţiei stratificate este reprezentată în figura următoare:

Populaţie
S
T
N
R N1
A
T
Eşantion
1 n

S
T
R N2
n1
A
T

2 ........................................ n2
............................
..................
S
T
R Nk nk
A
T

Figura 4.3.1 Scheme de realizare a sondajului stratificat

Acest tip de sondaj este frecvent utilizat deoarece combină simplitatea conceptuală a
sondajului simplu aleator cu siguranţa asigurării ponderii necesare reprezentativităţii
subgrupurilor. Totodată este o tehnică foarte convenabilă atunci când dorim să obţinem
estimaţii separate pentru parametrii populaţiei pe fiecare strat şi ulterior pentru întreaga
populaţie sau să ne asigurăm că eşantionul respectă structura populaţiei după criteriul de
stratificare.

55
1. Stratificarea asigură un grad mai mare de reprezentativitate şi de precizie a
rezultatelor. „Straturile constituite după o caracteristică oarecare vor prezenta un mai mare
grad de omogenitate decât cel al populaţiei fiind caracterizate prin indicatori ai variaţiei cu
valori mai mici şi deci erori de reprezentativitate mai reduse”8
Pentru a înţelege avantajul sondajului stratificat trebuie pornit de la variaţia totală a
populaţiei după o anumită caracteristică (măsurată de dispersia  2 ) compusă din variaţia din
interiorul straturilor (măsurată de dispersia  2 ) şi variaţia dintre straturi (măsurată de
dispersia  2 ):  2   2   2 unde fiecare tip de variaţie se calculează conform relaţiilor:
N
 2   ( X j  X )2 N ;
j 1
k k
 2    i2 N i  Ni ;
i 1 i 1
k k
 2   ( X j  X ) 2 Ni  Ni
i 1 i 1

În cazul în care s-ar organiza un sondaj simplu aleator, dispersia care determină
mărimea erorii de reprezentativitate este dispersia totală. Cum în general populaţiile nu sunt
omogene aceasta va fi foarte mare determinând o eroare medie de reprezentativitate mare.
Dacă se organizează un sondaj stratificat numai dispersia din interiorul straturilor va
influenţa eroarea de reprezentativitate. Aceasta este sintetizată prin media dispersiilor parţiale
şi este măsura influenţei factorilor întâmplători asupra variaţiei caracteristicii. Mărimea
dispersiei dintre straturi, măsură a factorului care constituie criteriul de stratificare asupra
variaţiei variabilei nu influenţează eroarea de reprezentativitate.
Deoarece întotdeauna  2   2 estimaţiile obţinute pe baza sondajului stratificat sunt
afectate de erori mai mici decât cele obţinute pe baza unui sondaj simplu aleator.

2. Dacă stratificarea se realizează pe criterii geografice culegerea datelor se poate face cu


specialişti locali, reducând astfel costul. Mai mult, se pot analiza şi interpreta datele iniţial pe
fiecare strat şi ulterior pe întreaga populaţie.

Problemele organizatorice care se pun în momentul organizării unui sondaj stratificat


sunt:
A alegerea criteriului pe baza căruia se va face stratificarea;
B numărul de straturi ce se vor constitui;
C repartizarea eşantionului pe subeşantioane.

8
Porojan D., 1993, Statistica şi teoria sondajului, Ed. Şansa SRL, Bucureşti, p. 253.

56
Sondaj stratificat simplu (neproporţional)

Acest sondaj este caracterizat prin aceea că din fiecare grupă se extrage un număr
de unităţi pentru a forma eşantionul fără a ţine cont de greutatea specifică a fiecărei
grupe în totalul populaţiei. Determinarea valorilor de sondaj în vederea estimării
parametrilor din populaţia de sondaj se realizează pentru toate caracteristicile cantitative şi
calitative cuprinse în planul sondajului.

57
Caracteristicile cantitative
Considerăm o populaţie „C” de volum N împărţită în „k” straturi. Din fiecare strat se
selectează un eşantion după unul din procedeele cunoscute astfel:

C1 (X11, X21,….., XN11) C1 (x11, x21,….., xn11)


C2 (X12, X22,….., XN22) C1 (x12, x22,….., xn22)
…………………………………………………………………………
Ck (X1k, X2k,….., XNkk) C1 (x1k, x2k,….., xnkk)

unde k este numărul de straturi


k
N1, N2,….. Nk, reprezintă volumul straturilor în populaţia totală şi N i1
j N

k
n1, n2,….. nk, reprezintă volumul straturilor în eşantion şi n
i 1
j n

Xij nivelurile caracteristicii cantitative.


Valoarea medie a caracteristicii în populaţia totală este X şi se calculează însumând
nivelurile caracteristicii conforma relaţiei 4.3.1 sau ca medie a mediilor de strat (relaţia 4.3.2).
k Nj k
 xij  X i  Ni
i 1 j 1 i 1
X  (4.3.1) X  k
(4.3.2)
N
 Ni
i 1
Valoarea medie a caracteristicii calculată pe baza datelor din eşantion se calculează
similar după una din relaţiile 4.3.3 sau 4.3.4:
k nj k ni
  xij  xi  ni  x ji i
i 1 j 1 i 1 j 1
x  (4.3.3) x  (4.3.4) unde x i  (4.3.5)
n k
ni
 ni
i 1
Deoarece media populaţiei totale nu se cunoaşte aceasta poate fi estimată cu următorul
estimator calculat pe baza mediilor straturilor şi a ponderilor din populaţia totală:
k
 xi  N i
~
x  i 1 (4.3.6)
k
 Ni
i 1
În cazul sondajului simplu stratificat obţinut prin aplicare procedeului de sondaj
aleator cu revenire, respectiv fără revenire, relaţiile de calcul ale erorii de reprezentativitate
sunt:
2 2
k
N i2  i k
N i2 S i
 ~x  
i 1 N
2
ni
 
i 1 N
2
ni  1
(4.3.7)

58
k
N i2  i 2  n  k
N i2 S i 2  n 
 ~x    1  i    1  i  (4.3.8)
2 n 1
i 1 N 2 ni  Ni  i 1 N i  Ni 

Pentru simplificarea relaţiilor de calcul în cazul în care subeşantioanele sunt de volum


normal nu se justifică împărţirea la ni-1 faţă de cea la ni. Totodată, dacă volumul fiecărui strat
Ni este suficient de mare numitorul coeficientului de corecţie poate rămâne Ni în loc de Ni-1.
Dacă prezintă interes şi analiza pe fiecare strat în parte, se va calcula într-o primă etapă
eroarea medie de reprezentativitate pe fiecare strat ţinându-se cont de procedeul de selecţie
utilizat în interiorul stratului astfel:
2 2
i Si
 xi   (selecţia din interiorul stratului este cu revenire);
ni ni  1

i2  n  Si 2  n 
 xi    1  i     1  i  (pentru selecţia fără revenire).
ni  Ni  ni  1  Ni 

Eroarea medie de reprezentativitate a mediei eşantionului se va calcula pe baza erorilor


de reprezentativitate ale straturilor conform relaţiei:
k
N i2 2
 ~x   2  xi (4.3.9)
i 1 N

După cum se poate observa eroarea medie de reprezentativitate nu mai depinde de


dispersia totală ci de media dispersiilor straturilor. Eroarea limită maximă admisă va fi:
 x~  z   ~x

Sondaj stratificat proporţional

Specificul acestui sondaj este că structura populaţiei pe straturi în populaţia totală


se respectă şi regăseşte şi în structura eşantionului. El îşi găseşte utilitatea în cazul în care
există diferenţe mari între volumele subpopulaţiilor straturilor.
Prin definiţie se numeşte un sondaj stratificat proporţional cel pentru care este
îndeplinită condiţia:
k

n1 n n n
 ni n
i 1
 2  .... i ....  k  k
 (4.3.10)
N1 N 2 Ni Nk N
 Ni
i 1
n
Din aceasta deducem relaţia de calcul pentru eşantionul fiecărui strat: ni   Ni
N

59
Mărimile medii calculate pe baza datelor de sondaj utilizate pentru a estima mediile
din populaţia totală se vor calcula în funcţie de tipul variabilei după una din relaţiile:
k k
 xi  ni  ni wi
~
x  i 1 ~
(4.3.11) w i 1 (4.3.12)
k k
 ni  ni
i 1 i 1
Eroarea medie de reprezentativitate în cazul sondajului proporţional se calculează
asemănător sondajului stratificat simplu doar că de data aceasta putem utiliza drept ponderi
volumele eşantioanelor astfel:
Selecţie repetată:
k
n2 i2 k
N 2 Si 2
 ~x   ni2   N i2 n (4.3.13)
i 1 ni i 1 i 1

k
ni2  i 2  n  k
ni2 S i 2  n 
 ~x   n2 n 1  i    n 2 n  1 1  Ni  (4.3.14)
i 1 i  Ni  i 1 i  i 

Sau pe baza erorilor de reprezentativitate ale straturilor conform relaţiei:


k
ni2
 ~x   n 2  x2 i
(4.3.15)
i 1

Avantajele sondajului stratificat proporţional faţă de cel neproporţional sunt:


1. se evită riscul de a subevalua în eşantion straturile mai mari;
2. se măreşte gradul de precizie al estimaţiei faţă de stratificarea neproporţională.

Sondajul stratificat optim

În cazul în care există diferenţe mari în ceea ce priveşte gradul de variaţie al


straturilor se recomandă utilizarea sondajului stratificat optim.
În acest caz stabilirea subeşantioanelor se face ţinând cont atât de proporţia pe care o
ocupă stratul în populaţia totală cât şi de abaterea medie pătratică, indicator ce exprimă
variaţia caracteristicii în interiorul stratului.
Pentru determinarea numărului de unităţi ce se vor extrage din fiecare strat se
utilizează relaţia:
k

n1 n2 nk
 ni N i i
i 1 (4.3.16) sau ni  n. (4.3.17)
 ....   k k
N1   1 N 2   2 Nk  k
 Ni  i  N i i
i 1
i 1
Relaţiile de calcul ale erorilor de reprezentativitate sunt aceleaşi ca şi în cazul
sondajului neproporţional.

60
Selecţia din interiorul straturilor s-a realizat cu revenire
Sondaj stratificat k
N i2  i
2 k
N i2 Si
2 k
N i2 2
simplu  x~  
i 1 N
2
ni
 
i 1 N
2
ni  1
 x~  
i 1 N
2
 xi
(neproporţional)
k
N i2 pi (1  pi ) k
N i2 w i (1  w i ) k
Ni2 2
w  
i 1 N
2
ni
 
i 1 N
2
ni  1
w  
i 1 N
2
  wi

Sondaj stratificat k
n2  2
2 k
ni2 Si
2
ni2 2 k

proporţional şi  x~   i2 i    2
 x~   2  xi
i 1 n ni n i 1 n ni i 1 n
Sondaj stratificat
optim k
ni2 w i (1  w i )  w2 k
ni2
w   2
 w  n 2
  w2 i
i 1 n ni  1 n i 1

Selecţia din interiorul straturilor s-a realizat fără revenire


Sondaj stratificat k
N i2  i
2
 N i  ni  k 2
N i2 S i  N i  ni 
simplu  x~   2
ni
    2
 
i 1 N  Ni  1  i 1 N n i  1  N i  1 
(neproporţional)
k
N i2 2
 ~x   2  xi
i 1 N

k k
N i2 p i (1  p i ) N i  n i N i2 w i (1  w i ) N i  n i
w  i 1 N2 ni

Ni  1
  i 1 N2 ni 1

Ni  1
k
Ni2 2
w  
i 1 N
2
  wi

Sondaj stratificat k
n i2  i
2
 Ni  ni  2  N  ni  k 2
n i2 S i  Ni  ni 
proporţional şi  ~x  
i 1 n2 ni

 Ni 1
 
 n
  i
 Ni 1
 


i 1 n 2 ni

 Ni 1


Sondaj stratificat
2
optim k
n i2  i  N i  ni 
n 2
ni
 
i 1  Ni  1 

4.4. Sondajul de serii

Sondajul de serii se poate considera cel mai utilizat sondaj probabilistic. El este
preferat sondajului simplu aleator chiar dacă acesta este mai facil şi mai cunoscut.
Sondajului de serii este foarte important deoarece stă, alături de sondajul stratificat, la
baza sondajelor complexe asupra forţei de muncă, reprezentative la nivel naţional.
Eşantionarea simplă aleatoare presupune existenţa unei baze complete de sondaj din
care urmează să se extragă individual fiecare unitate ce va forma eşantionul. Acest lucru este
rareori disponibil şi ar costa prea mult realizarea unor astfel de baze. În schimb, se pot
construi baze de sondaj compuse din grupuri de elemente numite serii. Aceste serii constituie
unităţi complexe (întreprinderi, secţii de votare, blocuri de locuinţe, grupe de studenţi,
gospodăria) care de cele mai multe ori reprezintă forme de organizare a populaţiei.

61
Pentru a asigura reprezentativitatea eşantionului este necesar ca acesta să reprezinte o
structură asemănătoare cu cea a populaţiei fiind constituit tot din unităţi complexe. Odată
selectată o serie, unităţile simple ce o compun vor fi cercetate în totalitate.

POPULAŢIE R SERII

EŞANTION r SERII

Figura nr. 4.4.1. Schema de realizare a sondajului de serii

Fiecare serie este constituită din unităţi simple ce pot fi definite prin caracteristici
proprii ce prezintă interes pentru ancheta realizată. Ea trebuie definită fără ambiguitate, fiind
utilizată ca unitate de eşantionare. Mărimea seriilor poate fi cunoscută sau necunoscută iar
seriile pot fi de mărimi egale sau inegale.

Majoritatea populaţiilor supuse cercetării nu sunt omogene, variaţia totală a populaţiei


fiind formată din variaţia din interiorul seriilor pe de o parte şi de variaţia dintre seriile ce o
compun pe de altă parte.

62
În cazul sondajului de serii eroarea medie de reprezentativitate depinde de
variaţia dintre seriile ce formează populaţia. Într-o astfel de populaţie compusă din unităţi
complexe caracterul omogen sau neomogen al acesteia se transmite şi seriilor din care este
formată.
Eroarea medie de sondaj depinde doar de variaţia dintre seriile populaţiei
deoarece, cealaltă componentă a variaţiei totale (media dispersiilor din interiorul seriilor), se
consideră a fi reflectată în eşantion.

63
Exemplu: selecţie de serii sistematică cu probabilităţi egale
Nr. serie Selecţie
001
002 X
003 r = 40
004 R = 170
005 K = 170/40=4,25
006 X D =2
007
Seriile selecţionate:
008
002
009
2+4,25=6,25 → 006
010
6,25+4,25=10,5 → 011
011 X
………………………..

170

64
Exemplu:
Mărime
Nr. Valoare Nr. de
(nr. de Selecţie
serie cumulată eşantionare
gospodării)
001 120 120 73 X r = 40
002 105 225 R = 170
003 132 357 K = 17219/40=430,475
004 96 453 D =73
005 110 563 503 X Nr. de eşantionare:
006 102 665
007 165 830 73
008 98 928
009 115 1043 934 X 73+430,475=503,475 →
010 60 1103 503
011 104 1207
503,475+430,475=933,96
012 168 1375 1364 X
→ 934

933,96+430,475=1364,425
170 196 17219
1364
…………………………
Total 17219 -

De câte ori este posibil, în cazul în care diferenţa de talie justifică acest lucru, este
recomandat ca selecţia seriilor să se realizeze prin procedeul aleator PPM. Avantajul acestui
procedeu este creşterea reprezentativităţii eşantionului şi în consecinţă a preciziei estimaţiilor.
Notăm cu:
R = numărul de unităţi complexe (serii) din populaţie;
r = numărul de unităţi complexe (serii) din eşantion;
N = numărul de unităţi simple (indivizi) din populaţie;
n = numărul de unităţi simple (indivizi) din eşantion;
N
1 N
T  Yi este totalul din populaţie; T  Yi este totalul mediu pe serie;
i 1 R i 1
R N
1 N j
Y 
N i 1
Yi  
j 1 N
Y j este nivelul mediu pe fiecare unitate simplă (individ)

unde Yj este nivelul mediu pe fiecare serie.

4.4.1. Estimatori şi erori în cazul sondajului de serii de talie egală selectate după
procedeul aleator cu probabilităţi egale fără revenire
Avem N1= N2=….. NR= N0. Putem calcula volumul de unităţi simple al populaţiei şi al
eşantionului astfel: N=R N0 iar n= r N0. Avem următoarele relaţii de calcul:

65
 Parametrul de interes, nivelul mediu pe fiecare unitate simplă
N R
1 Nj 1 R
Y
N
 Yi   N
Yj  Y j
R j 1
(4.4.1)
i 1 j 1

 Estimatorul parametrului de interes, media eşantionului:


ˆ 1 r
Y  Y j (4.4.2)
r j 1
ˆ
 Dispersia estimatorului Y :
R
 Y j 
2
Y
 ˆ  Rr j 1 (4.4.3)
V Y  
  Rr R

 Estimaţia dispersiei estimatorului:


r 2
ˆ
  Y j  Y 
 ˆ  Rr j 1 (4.4.4)
V̂  Y  
  Rr r 1

Eroarea de reprezentativitate se va calcula pornind de la variaţia estimatorului, pe baza


relaţiei:
R
 Y j 
2
Y
Rr j 1 Rr 2 R  r ˆ 2 (4.4.5)
 ˆ   
Y Rr R R r R r

Unde  2 reprezintă variaţia dintre serii în populaţie iar ˆ 2 estimatorul acesteia


calculate conform relaţiilor:
R r
 Y   Y j  Y 
2 2
j Y
j 1 j 1
2  (4.3.6) şi ˆ 2  (4.4.6)
R r 1

Pornind de la regula de adunare a dispersiilor:  2   2   2 , se calculează


coeficientul de determinaţie (numit şi raportul de corelaţie inter-serii) notat cu  2 .
variatia dintre grupe  2
2   2   2   2 2 (4.4.7)
variatia totală 
Înlocuind  2 din releţia 4.3.8 în releţia 4.3.5 obţinem:
Rr2 2
 ˆ   (4.4.8)
Y R r

66
Dacă s-ar fi organizat un sondaj simplu aleator fără revenire eroarea medie de
reprezentativitate s-ar fi calculat după relaţia:
N n2 RN 0  rN 0  2 1 Rr 2
 SAFR    (4.4.9)
N n RN 0 rN 0 N0 R r
Comparând relaţiile 4.3.9 cu 4.3.10 observăm că eroarea de reprezentativitate rezultată
în urma unei sondaj de serii va fi mai mică decât cea obţinută în urma unui sondaj simplu
aleator fără revenire doar în situaţia în care se respectă relaţia:
1
2  . (4.4.10)
N0
În consecinţă putem spune că dacă dorim ca eficienţa sondajului de serii să fie cât mai
mare este necesar să împărţim populaţia în serii de dimensiuni mici iar coeficientul de
determinaţie să fie cât mai mic posibil.
Extinderea rezultatelor se face pe baza intervalului de încredere luând în considerare
probabilitatea cu care vrem să garantăm rezultatele.
ˆ ˆ
Y  ˆ Y Y  ˆ (4.4.11)
Y Y

4.4.2. Estimatori şi erori în cazul sondajului de serii de talie diferită selectate după
procedeul aleator cu probabilităţi egale fără revenire
În cazul în care seriile sunt de dimensiuni diferite, se recomandă utilizarea unui
procedeu de selecţie cu probabilităţi inegale. Aplicarea acestuia necesită însă informaţii
suplimentare în baza de sondaj. Dacă nu dispunem de astfel de informaţii vom aplica un
procedeu de selecţie nerepetat (ca şi în cazul planului de sondaj prezentat în subcapitolul
anterior).Cu toate acestea, deoarece seriile au dimensiuni diferite, relaţiile de calcul ale
estimatorilor şi erorilor de reprezentativitate

Notăm cu:
Nj= numărul de unităţi simple din seria j;
Tj= totalul variabilei de interes pentru toate unităţile seriei j;
N = mărimea medie a unei serii în populaţie;
n = mărimea medie a unei serii în eşantion.

Avem următoarele relaţii de calcul:


Parametrul de interes, nivelul mediu pe fiecare unitate simplă, calculat doar ca
medie aritmetică ponderată:
1 N R N
j
Y   Yi   Yj (4.4.12)
N i 1 j 1 N

67

Estimatorul parametrului de interes, media eşantionului:
r N
ˆ j
Y Yj (4.4.13)
j 1 N
ˆ
 Dispersia estimatorului Y :
2
 ˆ  R r 1 
V Y    2
 T (4.4.14)
  R N r

 Estimaţia dispersiei estimatorului:


 ˆ  R r 1 ˆT 2
V̂  Y     (4.4.15)
  R N 2 r

2
Unde T reprezintă dispersia totalurilor seriilor faţă de totalul înregistrat pentru
2
nivelul mediu iar ˆT este estimatorul acesteia calculate pe baza datelor din eşantion. Acestea
sunt calculate conform relaţiilor:
R r 2
 T 2  T  Yˆ N 
j Y N j   j j

2 j 1 j 1
T  (4.4.16) şi ˆT 2  (4.4.17)
R r 1

Eroarea de reprezentativitate se va calcula pornind de la variaţia estimatorului, pe baza


relaţiei:
2
R  r 1 ˆT
ˆ   2 (4.4.18)
Y R N r

Deoarece numărul mediu de unităţi simple ce formează o serie N este de cele mai
multe ori necunoscut, vom utiliza estimatorul n . Pentru unităţile ce au intrat în eşantion.
Acest lucru va determina o subestimare a variaţiei estimatorului. Se consideră că, în acest caz
ˆ ˆ
Vˆ (Y ) este un bun estimator al V (Y ) dacă numărul de serii ce formează eşantionul este
suficient de mare (r≥20).

4.3.3. Estimatori şi erori în cazul sondajului de serii de talie diferită selectate după
procedeul aleator (cu revenire) cu probabilităţi proporţionale cu talia
De câte ori dispunem de informaţii auxiliare privind mărimea unităţilor complexe se
recomandă să le utilizăm pentru a calcula probabilităţile de incluziune în eşantion, aplicând un
procedeu de selecţie cu probabilităţi inegale.
Nj
Probabilitatea ca o serie să intre în eşantion la o extragere este: A j  . Cu cât o
N
unitate complexă (serie) va avea o dimensiune mai mare, probabilitatea de a intra în eşantion
va creşte.

68
Deoarece, pentru formarea eşantionului sunt necesare r extrageri, probabilitatea totală
Nj
unei serii de a intra în eşantion va fi: ATj  r .
N
Avem următoarele relaţii de calcul:
 Parametrul de interes, nivelul mediu pe fiecare unitate simplă se calculează după
aceeaşi relaţie ca si în cazul sondajului precedent:
1 N R N
j
Y   Yi   Yj (4.4.19)
N i 1 j 1 N


Estimatorul parametrului de interes, media eşantionului:
r N
ˆ j
Y Yj (4.4.20)
j 1 N

 Estimaţia dispersiei estimatorului:


ˆ 1 r Nj  ˆ 2
V̂ Y    (1  r N )   Y j  Y  (4.4.21)
  r (r  1) i 1

Eroarea de reprezentativitate se va calcula pornind de la variaţia estimatorului, pe baza


relaţiei:
1 r Nj  ˆ 2
 ˆ
Y
 
r ( r  1) i 1
(1  r )  Y j  Y 
N  
(4.4.22)

4.5. Aplicaţii

Aplicaţie 1

În rândul celor 4000 de studenţi ai unei facultăţi s-a realizat un sondaj simplu aleator pe un
eşantion de 175 persoane.
La întrebarea ”Câte ore studiaţi în medie pe săptămână (exceptând sesiunea)?” răspunsurile
centralizate se găsesc în tabelul 4.5.1.

Tabel 4.5.1
Intervale de
0-2 2-6 6-12 12 h şi peste Total
variaţie (ore)*
Nr. studenţi 50 55 40 30 175

* limita inferioară este inclusă în interval

69
Se cere:
1. Să se estimeze pentru o probabilitate de 0.95 numărul mediu de ore studiate de un student
din facultate.
2. Să se estimeze cu aceeaşi probabilitate ponderea studenţilor care studiază mai puţin de 6
ore pe săptămână.

Rezolvare:

1. Calculăm cât reprezintă 5% din volumul populaţiei.


0.05*N=0.05*4000=200
Deoarece n (175) <200 considerăm că sondajul aleator a fost realizat într-o populaţie infinită.
Dispersia variabilei „numărul de ore studiate” nu este cunoscută şi va fi înlocuită cu dispersia
caracteristicii în eşantion.

Tabel 4.5.2
Intervale de variaţie (ore)* ni xi xini (x i  x ) 2 n i

0-2 50 1 50 1337.18
2-6 55 4 220 259.33
6-12 40 9 360 320.03
12 şi peste 30 15 450 2338.31
Total 175 1080 4254.86
*limita inferioară inclusă în interval

Calculăm estimatorul numărului mediu de ore studiate pe săptămână. Calculele necesare sunt
sistematizate în tabelul 4.5.2.

x
x n i i

1080
=6.17 ore
n i
175

Calculăm dispersia estimatorului.

S 2

 (x  x)
i
2
ni

4254.86
=24.31
n i
175

Calculul erorii de reprezentativitate (eroare standard).


S2 24.31
σ     0.37 ore
x n 175
Calculul erorii limită
 x  z   x =1.96*0.37 =0.73 ore
Intervalul de încredere:
x  Δ x  X  x  Δ x 6 .17  0.73  X  6.17  0.73 5.44  X  6.9 ore

70
Numărul mediu de ore studiate de un student într-o săptămână este de cel puţin 5.44 şi cel
mult 6.9. Garantăm acest rezultat cu o probabilitate de 0.95.

2. Estimatorul ponderii studenţilor care studiază mai puţin de 6 ore pe săptămână se


calculează pe baza relaţiei:
m 50  55
w   0.6
n 175
Calculul erorii de reprezentativitate (eroare standard).
w (1  w ) 0.6(1  0.6)
w    0.037
n 175
Calculul erorii limită
 w  z   w =1.96*0.037=0.072
Intervalul de încredere:
w  Δ w  p  w  Δ w 0 .6  0.072  p  00 .6  0.072 0 .528  p  0.672
Garantăm cu 95% că cel puţin 52.8% şi cel mult 67.2% din studenţi studiază mai puţin de 6
ore pe săptămână.

Aplicatie 2

În rândul celor 110 studenţi ce locuiesc într-un cămin s-a realizat un studiu privind nivelul de
mulţumire faţă de condiţiile existente, prelevându-se un eşantion de 25 persoane. Răspunsurile
la întrebarea „În ce măsură sunteţi mulţumiţi de următoarele condiţii din căminul în care
locuiţi?” sunt centralizate în tabelul 4.5.3.

Tabel 4.5.3
Condiţiile privind Foarte mulţumit mulţumit aşa şi aşa nemulţumit Total
Curăţenia 8 10 5 2 25
Căldura 6 7 2 10 25
apa caldă 10 9 4 2 25
apa rece 11 10 3 1 25

Se cere:
1. Să se stimeze pentru o probabilitate de 95% ponderea studenţilor care se consideră
mulţumiţi şi foarte mulţumiţi de condiţiile din cămin.

Rezolvare

Eşantionul prelevat este de volum redus. În acest caz distribuţia mediilor eşantioanelor posibile
depinde de forma de distribuţie a populaţiei. Cum de cele mai multe ori forma de distribuţie a
populaţiei nu este cunoscută, nici legea de distribuţie a mediilor eşantioanelor nu poate fi
determinată. Teoria sondajului demonstrează că în cazul selecţiei de volum mic probabilitatea

71
de apariţie a mediilor de diferite mărimi se distribuie mai uniform. Cu alte cuvinte
probabilităţile de apariţie a mediilor nu descresc în aceeaşi măsură ca în cazul eşantioanelor de
volum normal în momentul în care acestea se apropie de valorile extreme, mediile eşantioanelor
posibile distribuindu-se după curba lui Student şi nu după curba normală.
Calculele necesare estimării procentelor celor ce se consideră în general mulţumiţi de
condiţiile existente sunt sistematizate în tabelul 4.5.4.
Tabel 4.5.4

Condiţiile privind Foarte mulţumit şi mulţumit Wi i i i i

curăţenia 18 0.72 0.0809 0.1670 0.5530 0.8870


căldura 13 0.52 0.0901 0.1859 0.3341 0.7059
apa caldă 19 0.76 0.0770 0.1589 0.6011 0.9189
apa rece 21 0.84 0.0661 0.1364 0.7036 0.9764

Estimatorul ponderii studenţilor mulţumiţi şi foarte mulţumiţi de condiţia i se calculează pe


baza relaţiei:
m
w i  i unde mi reprezintă numărul celor mulţumiţi şi foarte mulţumiţi de condiţia i.
n
Calculul erorii de reprezentativitate (eroare standard).
În cazul în care nu se cunoaşte dispersia caracteristicii în populaţie aceasta este înlocuită în
relaţia de calcul a erorii standard cu dispersia caracteristicii în eşantion care se va împărţi la
numărul de grade de libertate n-1.
w i (1  w i ) N  n
 wi  
n 1 N 1
Calculul erorii limită în cazul sondajului de volum redu.
 w i  t   wi unde t este valoarea corespunzătoare nivelului de siguranţă ales şi numărului de
grade de libertate df=n-1.
În cazul nostru df=25-1=24. Primul pas în determinarea valorii lui t este identificarea este
identificarea coloanei din tabela distribuţiei Student. Deoarece probabilitatea de garantare a
rezultatelor este de 0.95 aria de interes este (1-0.95)/2=0,025. Pentru a construi intervalul de
încredere căutăm în tabelul repartiţiei Student valoarea corespunzătoare pentru df=24 şi
nivelul de semnificaţie  =0,025 şi obţinem valoarea t=2,064.
Intervalul de încredere pentru estimarea procentelor celor ce se consideră în general mulţumiţi
pentru fiecare condiţie se determină calculând limita inferioară a intervalului 1i şi limita
superioară i după relaţiile: 1i  w i  Δ w i şi  2 i  w i  Δ wi
În ceea ce priveşte curăţenia 72% din cei intervievaţi se consideră în general mulţumiţi.
Garantăm cu o probabilitate de 95% că 72% ±16.7% din studenţii ce locuiesc în cămin se
consideră mulţumiţi de curăţenie.
52% ± 18.59% din totalul studenţilor sunt mulţumiţi de căldură, 76% ± 15.89% sunt
mulţumiţi de apa caldă şi 84% ± 13.64% de apa rece.

72
Aplicaţie 3

În rândul celor 4000 de studenţi ai unei facultăţi urmează să se realizeze un sondaj cu privire
la modul de petrecere a timpului liber, utilizîndu-se un procedeu de selecţie simplu aleator
fără revenire. Din surse administrative se cunosc informaţiile din tabelul 4.5.5. Din cercetări
anterioare pe teme similare efectuate în mediul studenţesc s-a constata că variabilele din
tabelul 1.10 sunt puternic corelate cu variabilele de interes ale studiului.

Tabel 4.5.5
ponderea locuiesc în cămin au un loc de muncă sunt bursieri
studenţilor care
(%): 35 20 25

Se cere:
1. Alegeţi variabila pe baza căreia se va calcula volumul eşantionului.
2. Ştiind că unităţile ce vor forma eşantionul se vor selecta după procedeul simplu aleator fără
revenire din lista studenţilor furnizată de către secretariatul facultăţii, să se calculeze
volumul eşantionului pentru o probabilitate de 95% şi o eroare limită de 3%.
3. Tot din cercetări anterioare se cunoaşte că proporţia de nonrăspunsuri în acest tip de
populaţii este de 5%. Pe de altă parte se apreciază că 2% din studenţii ce figurează în baza
de date urmează să fie exmatriculaţi. Aceştia se consideră unităţi non-eligibile. Să se
calculeze în aceste condiţii eşantionul de pornire.

Rezolvare:

1. Pentru a asigura reprezentativitatea eşantionului pentru toate variabilele de interes, volumul


eşantionului se va calcula pornind de la acea variabilă auxiliară pentru care coeficientul de
variaţie are valoarea maximă. Calculele necesare sunt sistematizate în tabelul 4.5.6.

Tabel 4.5.6
ponderea studenţilor care: % Media dispersia coeficient de variaţie (%)

locuiesc în cămin 35 0.35 0.2275 73.38

au un loc de muncă 20 0.2 0.16 50


sunt bursieri 25 0.25 0.1875 57.73

Media unei caracteristici calitative de tip alternativ se calculează după relaţia:


M
p unde M reprezintă numărul celor care îndeplinesc condiţia în populaţie iar N este
N
volumul populaţiei.

73
Dispersia caracteristicii alternative se calculează astfel:
 2 p  p  (1  p)
Valoarea coeficientului de variaţie este dată de relaţia:
p
V 100
max( p, (1 - p))
Din datele din tabelul 4.5.6 se observă că după variabila „locuiesc în cămin” populaţia
studenţilor este cel mai puţin omogenă. Se recomandă calcularea volumului eşantionului
pornind de la această variabilă.
2. Deoarece procedeul de selecţie utilizat este simplu aleator fără revenire la calculul
volumului eşantionului se foloseşte relaţia:
z 2 p(1  p ) 1.96 2  0.35  (1  0.35)
n   781 persoane
z 2 p(1  p ) 1.96 2  0.35  (1  0.35)
2w  0.032 
N 4000

3. După determinarea volumului eşantionului teoretic necesar trebuie să determinăm care este
volumul eşantionului de pornire astfel încât în final să ajungem la numărul teoretic de
unităţi selectate.
Se pune problema să ţinem cont de imperfecţiunea listei utilizate ca bază de sondaj.
Considerăm unităţi non-valide acele unităţi care n-ar trebui să figureze pe listă dacă aceasta ar
corespunde perfect populaţiei studiate. În practică, în ciuda eforturilor actualizării bazelor de
date utilizate ca baze de sondaj, există în mod curent un număr de unităţi non-valide. Trebuie
estimată această proporţie astfel încât să putem determina cât mai precis volumul de pornire al
eşantionului.
În funcţie de modul de definire a populaţiei supuse studiului este posibil ca unele unităţi să fie
considerate non-eligibile. De exemplu dacă populaţia de interes este formată din totalitatea
persoanelor cu vârsta cuprinsă între 15 şi 64 ani (populaţia în vârstă de muncă) iar unitatea de
selecţie este gospodăria, persoanele ce nu îndeplinesc condiţia de vârstă sunt considerate non-
eligibile.
Existenţa non-răspunsurilor este o problemă întâlnită în orice sondaj. Din această cauză se
recomandă anticiparea ratei non-răspunsurilor încă din faza de proiectare a sondajului pentru a
redimensiona eşantionul.
Relaţia de calcul a volumului eşantionului de pornire este:
1 1 1
n p  n th    unde:
Pr Pe Pv
np= volumul eşantionului de pornire; nth= volumul eşantionului teoretic; Pr=proporţia de
răspuns; Pe=proporţia de eligibilitate; Pv=proporţia de validitate
1 1 1
n p  781     839 persoane.
0.95 1 0.98

74
Aplicaţia 4

În rândul salariaţilor unei întreprinderi se va realiza un sondaj stratificat . Organizatorii


sondajului propun criteriul de stratificare sexul, selecţia unităţilor din fiecare strat urmând să
se realizeze după procedeul simplu aleator fără revenire. Pe baza datelor din evidenţa
personalului s-a calculat, pornind de la variabila „vârsta în ani împliniţi” media şi dispersia pe
fiecare strat. Rezultatele se găsesc în tabelul 4.5.7:

Tabel 4.5.7
sex număr salariaţi (pers.) vârsta medie (ani) Dispersia
masculin 535 48 36,4
feminin 365 39 45,8

Se cere:
1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită
maximă admisă de ±3% din valoarea vârstei medii a tuturor angajaţilor.
2. Să se calculeze volumul eşantioanelor pe fiecare strat.
3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi
necesar în aceleaşi condiţii de eroare şi probabilitate.

Rezolvare

Calculele necesare sunt sistematizate în tabelul 4.5.8.


1. Vârsta medie a celor 900 de salariaţi se calculează ca medie aritmetică ponderata a vârstei
medii a salariaţilor din cele două straturi după relaţia:
k k
39915
X  
i 1
Xi  N i N
i 1
i 
900
 44.35 ani

Eroarea limită propusă este:


Δ x  0.03 X  0.02 42  1.33 ani
Tabel 4.5.8

Ni Xi ni
sex
(pers.) (ani)
i2 Ni Xi N i  2i Ni  i X  X N
i
2
i

M 535 48 36.4 25680 19474 3227.784 45 33813.34


F 365 39 45.8 14235 16717 2470.163 35 767.4125
Total 39915 36191 5697.947 34580.75

75
Volumul eşationului în cazul sondajului stratificat se calculează după relaţia:
z2σ 2 1.96 2  40.21
n str    79.6  80 pers.
z2σ 2 21.96 2  40.21
Δ 2x  1.33 
N 900
2. Repartizarea eşantionului pe straturi se poate realiza în trei moduri şi anume:
o neproporţional obţinându-se un sondaj stratificat neproporţional sau simplu;
o proporţional respectându-se ponderea fiecărui strat în total populaţie obţinându-se
un sondaj stratificat proporţional;
o ţinând cont atât de proporţia fiecărui strat în total cât si de gradul de variaţie al
fiecărui strat obţinându-se un sondaj stratificat optim.
Deoarece, atât volumul cât şi dispersiile straturilor diferă considerabil vom alege stratificarea
optimă.

Pentru determinarea numărului de unităţi ce se vor extrage din fiecare strat se utilizează
relaţia:
k

n1 n2 ni nk
ni 1
i
  ...   ....   k
N 1  1 N 2   2 Ni  i Nk  k
N
i 1
i  i

Pe baza acesteia deducem relaţia de calcul pentru subeşantionul ce urmează a fi extras din
N
fiecare strat n i  k i i  n .
N 
i 1
i i

3227,784
n1   80  45 persoane
5697.947
2470,163
n2   80  35 persoane
5697.947

3. Dacă sondajul organizat s-ar desfăşura după un plan simplu aleator nerepetat , variaţia de
care trebuie ţinut cont în momentul calculării volumului eşantionului este variaţia totală a
caracteristicii. Deoarece nu se cunosc valorile individuale ale variabilei „vârsta” pentru
toate cele N unităţi din populaţie nu putem calcula variaţia totală după relaţia:
N
σ2   (X
j1
j  X) 2 N

ştim că  2   2   2
Vom calcula variaţia totală ca sumă variaţiilor inter şi intra straturi.

76
k
 (X i  X ) 2 N i 34580 .75
δ2  i 1
k
  38.42
900
 Ni
i 1
2
  40.21  38.42  78.63
z 2σ 2 1.96 2  78.63
n SAFR    144 persoane
2 z2σ2 2 1.96 2  78.63
Δx  1.33 
N 900

Prin aplicarea unui plan de sondaj stratificat s-a redus volumul eşantionului fată de un sondaj
simplu aleator fără revenire de la 144 persoane la 80 persoane.

Aplicaţia 5

În rîndul studenţilor facultăţii REI urmează să se realizeze un sondaj având drept obiectiv
principal analiza calităţii procesului de învăţământ. Deoarece se urmăreşte evidenbţierea
caracteristicilor fiecărui an de studi se e va utiliza un plan de sondaj stratificat. Informaţiile
necesare aplicării planului de sondaj au fost preluate de la secretariatul facultăţii şi sunt
prezentate în tabelul 4.5.9.

Tabel 4.5.9
Anul de studii Număr studenţi (pers) Ponderea studenţilor fără restanţe (%)
An I 600 20
An II 575 63
An III 500 45
An IV 450 86
Total 2125

Se cere:
1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită de
±3%.
2. Să se calculeze volumul eşantioanelor pe fiecare strat pornind de la volumul eşantionului
calculat la punctul 2.
3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi
necesar în aceleaşi condiţii de eroare şi probabilitate cu cele de la punctul 2.

77
Rezolvare

Tabel 4.5.10
Anul
Ni pi  2pi N i  2pi N i  pi ni p i Ni
de studii
An I 600 0.2 0.16 96 240 137 120
An II 575 0.63 0.2331 134.0325 277.6125 159 362.25
An III 500 0.45 0.2475 123.75 248.7469 142 225
An IV 450 0.86 0.1204 54.18 156.1442 90 387
Total 2125 407.9625 922.5035 1094.25

Calculele necesare sunt prezentate în tabelul 4.5.10


1. Relaţia de calcul a volumului eşantionului în cazul aplicării unei plan de sondaj stratificat
z 2 p2
şi utilizând o variabilă calitativă este: n str  .
z 2 p2
2w 
N
k

σ 2
p i Ni
407.9625
σ 2p  i 1
k
  0.19 unde dispersiile straturilor sunt σ 2p i  p i  (1  p i )
2125
N i 1
i

1.96 2  0.19
n  587 persoane
1.96 2  0.19
2
0.03 
2125

2. Calculul volummului eşantionului pe fiecare strat se va realiză pentru un sondaj optim


deoarece există diferenţe considerabile între straturi în ceea ce priveste volumul şi
variaţiile.

n1 n2 ni nk n
Pornim de la relaţia:   ...   ....   k
N 1   p1 N 2   p 2 N i   pi N k   pk
N
i 1
i   pi

N i  pi
 ni  k
n.
N 
i 1
i pi

240 277.6
n1   528  137 persoane n2   528  159 persoane
922.5 922.5
248.7 156
n3   528  159 persoane n4   528  159 persoane
922.5 922.5

78
3. Variaţia totală a caracteristicii calitative este dată de relaţia:  2p  p  (1  p) unde p
reprezintă media caracteristicii calitative ce se calculează astfel:
k

p
 i 1
pi Ni

1094 .25
=0.5149   2p  0.5149  (1  0.5149)  0.2498
k
2125
 i 1
Ni

z 2σ 2 1.96 2  0.2498
n SAFR  2
  639 persoane
z2σp 2 1.962  0.2498
Δ 2w  0.0324 
N 2125
Dacă s-ar utiliza un plan de sondaj simplu aleator fără revenire , pentru a garanta rezultatele
cu aceeaşi probabilitate de 95% cu o eriare limită de ±3.24% ar fi necesară o creştere a
volumului eşantionului cu 111 persoane.

Aplicaţia 6

În urma unui sondaj stratificat proporţional după mediul de rezidenţă realizat în judeţul
Bacău de către o societate ce produce băuturi răcoritoare, s-au obţinut datele centralizate în
tabelul 4.5.11.

Tabel 4.5.11
Informaţii obţinute din eşantion
Efectivul Ponderea celor
Eşantion Venitul Dispersia
Mediul populaţiei care consumă
(pers.) totalmediu/gosp venitului total
(mii pers.) săptămânal băuturi
(mii lei) mediu/gosp.
răcoritoare (%)
Urban 340 511 3.8 4.5 72
Rural 325 489 2.1 1.9 18
Total 665 1000

Se cere:
1. Să se estimeze cu o probabilitate de 0.9545 venitul total mediu/gosp atât pe fiecare strat cât
şi la nivelul întregului judeţ.
2. Să se estimeze cu o probabilitate de 0.9545 ponderea celor care consumă săptămânal
băuturi răcoritoate şi numărul lor, pe fiecare strat şi pe total judeţ.

Rezolvare

1. Calculele necesare rezolvării acestei cerinţe sunt prezentate în tabelul 4.5.12.

79
Tabel 4.5.12
Ni ni
Mediul x i mii lei Si2 . x i ni  xi  xi Linf Lsup
(mii pers.) (pers.)
Urban 340 511 3.8 4.5 1941.8 0.094 0.188 3.612 3.988
Rural 325 489 2.1 1.9 1026.9 0.062 0.125 1.975 2.225
Total 665 1000 2968.7

Estimarea venitului mediu/persoană în mediul urban

Calculăm cât reprezintă 5% din volumul populaţiei stratului 1.


0,05*N1=0,05*340000=17000
Deoarece n1<0,05*N1 considerăm populaţia infinită iar relaţiile de calcul folosite pentru
calculul erorii de reprezentativitate vor fi cele aferente sondajului simplu aleator cu revenire.
S12 4,5
 x1    0.094 mii. Lei
n1 511

S12
 x1  z   2  0.094  0.188 mii Lei
n1
Intervalul de încredere:
x1  Δ x1  X1  x 1  Δ x1 3.8  0.188  X1  3.8  0.188 3.612  X1  3.988
Garantăm cu o probabilitate de 95.45% că venitul total mediu/gosp în mediul urban este de cel
puţin 3.612 mii lei şi cel mult 3.988 mii lei.

Estimarea venitului total mediu/gosp în mediul rural

Calculăm cât reprezintă 5% din volumul populaţiei stratului 2.


0.05*N2=0.05*325000=16250
Deoarece n2<0.05*N2 considerăm populaţia infinită iar relaţiile de calcul folosite pentru
calculul erorii de reprezentativitate vor fi cele aferente sondajului simplu aleator cu revenire.
S 22 1 .9
 x2    0.062 mii lei
n2 489

S22
x2  z   2  0.062  0.125 mii lei
n2
Intervalul de încredere:
x 2  Δ x2  X 2  x 2  Δ x2 2.1  0.125  X 2  2.1  0.125 1.975  X 2  2.225
Garantăm cu o probabilitate 0.9545 că venitul mediu/persoană în mediul rural este de cel puţin
1.975mii lei şi cel mult 2.225 mii lei.

80
Estimarea venitului mediu/persoană pe total judeţ

Deoarece sondajul realizat este stratificat proporţional estimatorul venitului mediu/peroană la


nivelul judeţului se calculează astfel:
k k
~ 2968,7
x  
i 1
xi  ni n
i 1
i 
1000
 2.9687 mii lei

Calcului erorii de reprezentativitate:


k
n i2
 ~x  n i 1
2
 2x i  0.056821 mii lei

 ~x  z   ~x  2  0.056821 0.113642 mii lei


Intervalul de încredere:
~
x  Δ ~x  X  ~
x  Δ ~x 2.9687  0.1136  X  2.9687  0 .1136 2.8551  X  3 .0823
Garantăm cu o probabilitate de 95.45% că venitul mediu/persoană în judeţul Bacău este de cel
puţin 2.8551 mii lei şi cel mult 3.0823mii lei.

2. Calculele necesare rezolvării acestei cerinţe sunt prezentate în tabelul 4.5.13

Tabelul 4.5.13
Ni ni
Mediul wi Si2 . wini  wi  wi Linf Lsup
(mii pers.) (pers.)
Urban 340 511 0.72 0.2016 367.92 0.020 0.040 0.680 0.760
Rural 325 489 0.18 0.1476 88.02 0.017 0.035 0.145 0.215
Total 665 1000 455.94

Estimarea procentului celor care consumă săptămânal băuturi răcoritoare în mediul urban

Estimatorul procentului celor care . consumă săptămânal băuturi răcoritoare în mediul urban
calculat pe baza datelor din eşantion este de 72%. Pentru a estima procentul acestora în
mediul urban este necesar să calculăm eroarea reprezentativitate şi eroarea limită.
Deoarece populaţia este considerată infinită utilizăm relaţiile de calcul aferente calculul
sondajului simplu aleator cu revenire.
S12 0.2016
 w1    0.020
n1 511

S12
 w1  z   2  0.020  0.040
n1
Intervalul de încredere:
w 1  Δ w1  p1  w 1  Δ w1 0.72  0.040  p1  0.72  0.040 0.680  p1  0.76

81
Garantăm cu o probabilitate de 95.45% că în mediul urban cel puţin 68% şi cel mult 76%
consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare:
N1 w 1  Δ w1   N1  p1  N1 w 1  Δ w1  N1 0.72  0.040   M 1  N 1 0.72  0.040 
231293  M 1  258307
Garantăm cu o probabilitate de 95.45% că în mediul urban cel puţin 231293 persoane şi cel
mult 258307 persoane consumă săptămânal băuturi răcoritoare.

Estimarea procentului celor care consumă săptămânal băuturi răcoritoare în mediul rural

În urma prelucrării datelor din eşantionul prelevat din mediul rural s-a obţinul un procent de
18% al celor care consumă săptămânal băuturi răcoritoare.
Calculăm eroarea de reprezentativitate
S 22 0.1476
 w2    0.017
n2 489

S22
w2  z   2  0.017  0.035
n2
Intervalul de încredere:
w 2  Δ w2  p 2  w 2  Δ w2 0.18  0.035  p 2  0.18  0.035 0.145  p 2  0.215
Garantăm cu o probabilitate de 95.45% că în mediul rural cel puţin 14.5% şi cel mult 21.5%
consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare:
N 2 w 2  Δ w2   N 2  p 2  N 2 w 2  Δ w2  47207  M 2   69793
Garantăm cu o probabilitate de 95.45% că în mediul rural cel puţin 47207 persoane şi cel
mult 69793 persoane consumă săptămânal băuturi răcoritoare.

Estimarea procentului celor care consumă săptămânal băuturi răcoritoare pe total judeţ

Deoarece sondajul realizat este stratificat proporţional estimatorul unwi variabile calitative la
nivelul judeţului se calculează astfel:
k k
~ n w 455.94
w i i  ni  1000
 0.45594
i 1 i 1
Calcului erorii de reprezentativitate:
k
n2
 w~   ni2  w2i  0.013236
i 1

 w~  z   w~  2  0,012236  0,026472 Intervalul de încredere:


~ Δ~  p  w
w ~ Δ~ 0 .45594  0.026472  p  0 .45594  0.026472
w w

0 .429468  p  0.482412

82
Garantăm cu o probabilitate de 95.45% că cel puţin 42.9468% şi cel mult 48.2412% din
judeţul Bacău consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare:
Nw~  Δ ~   Np  N w
~  Δ~ 
w w

285596  M  320804
Garantăm cu o probabilitate de 95.45% că în judeţul Bacău cel puţin 285596 persoane şi cel
mult 320804 persoane consumă săptămânal băuturi răcoritoare.

Aplicaţia 7
Studenţii unei facultăţi sunt împărţiţi în 100 de grupe. Fiecare grupă este formată dintr-un număr
egal de studenţi (16). S-a realizat un sondaj de serii, procedeul de selecţie a grupelor fiind
simplu aleator fără revenire, cu probabilităţi egale. Rezultatele sunt prezentate în tabelul 4.5.14

4.5.14
Ponderea studenţilor care doresc să Ponderea studenţilor care doresc să
seria seria
participe la cursul facultativ (%) participe la cursul facultativ (%)
1 60 9 55
2 54 10 58
3 56 11 59
4 62 12 63
5 63 13 62
6 50 14 64
7 49 15 62
8 58 16 61

Se cere:
1. Să se estimeze ponderea studenţilor care doresc să participe la cursul facultativ cu o
probabilitate de 95%.
2. Ştiind că raportul de corelaţie inter-serii este de 12% ce volum de eşantion ar fi fost necesar
dacă s-ar fi realizat un sondaj simplu aleator fără revenire?
Rezolvare
Tabelul 4.5.15

seria wj w j  ŵ 
2
seria wj w j  ŵ 
2

1 0.6000 0.0002 9 0.5500 0.0012


2 0.5400 0.0020 10 0.5800 0.0000
3 0.5600 0.0006 11 0.5900 0.0000
4 0.6200 0.0012 12 0.6300 0.0020
5 0.6300 0.0020 13 0.6200 0.0012
6 0.5000 0.0072 14 0.6400 0.0030
7 0.4900 0.0090 15 0.6200 0.0012
8 0.5800 0.0000 16 0.6100 0.0006
Total 9.3600 0.0318

83
1. Calculele necesare sunt sistematizate în tabelul 4.5.15
Estimatorul în cazul unei variabile cantitative se calculează astfel:
r
1 9.36
ŵ 
r w
j1
j 
16
 0.585

Eroroarea de reprezenzentativitate este:


R  r ˆ p
2 2
R  r p 100  16 0.0021
 ŵ      0.01055 unde
R r R r 100 16
r

 w 
2
j  ŵ
2 0.0318
ˆ p  i 1

 0.0021
r 1 16  1
Eroarea limită corespunzătoare probabilităţii de 0,95 este:
 ŵ  z   ŵ  1,96  0,01055 =0,0207
Intervalul de încredere:
ŵ   ŵ  P  ŵ   ŵ  0,585  0,0207  P  0,585  0,0207 0,5643  P  0,6057
Garantăm cu o probabilitate de 95% că cel puţin 56,43% şi cel mult 60,57% din studenţi
doresc să participe la cursul facultativ.
2. În cazul sondajului de serii numărul de elemente simple ce au format eşantionul a fost de
256. Relaţia de calcul pentru sondajul simplu aleator fără revenire este:
z 2 S2 1,96 2  0,585  (1  0,585)
n  2   922 studenţi
 w  z  S 2 N 0,0207 2  1,96 2  0,585  (1  0,585) 1600
Deoarece variaţia dintre serii este foarte mică (raportul de corelaţie inter-serii fiind doar 0,87)
sondajul de serii se dovedeşte foarte eficient.
Aplicaţia 8
O localitate este formată din 415 gospodării(serii). Numărul de elemente dintr-o serie
(membrii) este diferit şi nu se cunoaşte nivelul mediu al acestuia pentru toate cele 415
gospodării. Pentru a estima venitul mediu pe persoană se extrage în mod aleator un eşantion
format din 25 de serii. Datele centralizate sunt prezentate în tabelul 4.5.16
Tabel 4.5.16
Numărul.de venit total pe serie Numărul de venit total pe serie
seria seria
rezidenţi (mil. lei) rezidenţi (mil. lei)
1 8 32 14 10 30
2 12 42 15 9 32
3 4 19 16 3 12
4 5 22 17 6 25
5 6 27 18 5 18
6 6 26 19 5 21
7 7 27 20 4 17
8 5 21 21 6 22
9 8 30 22 8 30
10 3 15 23 7 25
11 2 10 24 3 14
12 6 26 25 8 29
13 5 20 Total 151 592

84
Se cere să se estimeze venitul mediu pe gospodărie şi venitul mediu pe persoană cu o
probabilitate de 95%.

Rezolvare

Este vorba de un sondaj de serii de dimensiune diferită selectate după un procedeu de selecţie
cu probabilităţi egale. Calculele sunt sistematizate în tabelul 4.5.17

Tabel 4.5.17
2 2
 ˆ   ˆ 
seria Nj Tj  T j  Yj N j  seria Nj Tj  T j  Yj N j 
   
1 8 32 0.40419 14 10 30 84.7375
2 12 42 25.4657 15 9 32 10.7897
3 4 19 11.0083 16 3 12 0.05684
4 5 22 5.74729 17 6 25 2.181
5 6 27 12.0883 18 5 18 2.56848
6 6 26 6.13464 19 5 21 1.95259
7 7 27 0.19688 20 4 17 1.73681
8 5 21 1.95259 21 6 22 2.32007
9 8 30 1.86115 22 8 30 1.86115
10 3 15 10.4873 23 7 25 5.97171
11 2 10 4.66102 24 3 14 5.01048
12 6 26 6.13464 25 8 29 5.58962
13 5 20 0.15789
Total 151 592 211.07

Estimatorul mediei populaţiei este:


r

r r
T j
ˆ j 1 595
Y N Y N j j j = r

151
 3.94 mil. lei
j1 j1
Nj
j 1

Deoarece nu se poate calcula mărimea medie seriilor din populaţie N se va estima cu ajutorul
mărimii medii a seriilor din eşantion n .
r
151
n  Nj r   6.04
j 1 25
Estimarea dispersia totalurilor seriilor faţă de totalul mediu este:
r 2
 ˆ 
 j j j 
 T  Y N 
j 1 196 .143
ˆT 2    7.05
r 1 24

85
Eroarea medie de reprezentativitate este:
2
R  r 1 ˆT 415  25 1 7.05
ˆ   2   2
  0.085
Y R n r 415 6.04 25

Eroarea limită maximă admisă este:


 ˆ  z   ˆ  1.96  0.085  0.1666 mil.lei
Y Y

Intervalul de încredere pentru venitul mediu pe o persoană este:


ˆ ˆ
Y   ˆ  Y  Y   ˆ  3,94 - 0.1666  Y  3.94  0.1666
Y Y

3.774  Y  4.107
garantăm cu o probabilitate de 95% că venitul mediu pe o persoană în această localitate este
de cel puţin 3.774 mil. Lei şi cel mult 4.107 mil lei.

Intervalul de încredere pentru estimarea venitului mediu pe o gospodărie:


ˆ  ˆ 
n  Y   ˆ   n  Y  n   Y   ˆ  6.04  3.774  T  6.04  4.107 22.793  T  24.107
 Y   Y 

Venitul mediu al unei gospodării se încadrează în intervalul :(22.793; 24.107) mil lei.

86
Unitatea de învăţare 5
PLANURI DE SONDAJ COMPLEXE

Ce cuprinde această unitate de învăţare?

5.1. Obiectivele unităţii 5


5.2. Sondajul multistadial
5.3. Sondajul multifazic
5.4. Sondajul pe bază de eşantioane fixe
5.5. Aplicaţii

5.1. Obiective

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:


 Cum se organizează un sondaj complex în funcţie de caracteristicile
populaţiei şi de informaţiile auxiliare disponibile
 Estimarea parametrilor în cazul sondajelor complexe

5.2. Sondajul multistadial

Planurile de sondaj prezentate până acum sunt desfăşurate într-un singur stadiu în care
unităţile simple sau complexe au fost selectate şi au format eşantionul. În cazul utilizării unui
plan de sondaj multistadial eşantionarea se realizează în mai multe etape numite stadii.

Principalul dezavantaj al sondajului multistadial este acelaşi ca şi în cazul sondajului


de serii, aşa numitul „efect de serii”. Indivizii aflaţi în vecinătate tind să se asemene, având

87
multe trăsături comune ce îi diferenţiază de alte grupuri. Acest lucru determină o variaţie mică
în interiorul unităţilor primare şi o variaţie mare între acestea, deci o eroare de
reprezentativitate mare.
Un astfel de sondaj presupune extragerea în primul stadiu a unui număr de unităţi
primare care nu vor fi cercetate în totalitate ci vor constitui o bază de sondaj pentru al doilea
stadiu când se vor selecta unităţile secundare ce vor constitui bază de sondaj pentru următorul
stadiu. Fiecare stadiu îşi va aduce contribuţia la calculul erorii de reprezentativitate, cea mai
mare contribuţie având-o eroarea din primul stadiu. Din acest motiv se recomandă ca
numărul de stadii să nu fie foarte mare.
Realizarea unui sondaj în mai multe stadii presupune existenţa unei grupări a
populaţiei. Această grupare, de cele mai multe ori, nu trebuie realizată în mod special
deoarece unităţile populaţiilor sunt deja grupate după criterii administrative, geografice,
sociale etc. De exemplu într-un sondaj realizat cu privire la starea de sănătate a populaţiei
eşantionul din primul stadiu este format din zone teritoriale. În al doilea stadiu din zonele
teritoriale selectate se vor extrage localităţile, iar în al treilea stadiu indivizii ce vor forma
eşantionul şi vor completa chestionarele. În această situaţie nu este necesară o bază completă
de sondaj decât pentru localităţile ce au fost selectate în al doilea stadiu.

Pentru exemplificare se va prezenta în continuare sondajul desfăşurat în două stadii


(bistadial). Schema de realizare a acestuia este prezentată în figura 5.2.1.

Figura nr. 5.2.1 Schema de realizare a sondajului bistadial

UP
1 2 …. R

US STADIUL I

1 2 r

STADIUL II

88
Notăm cu:
R = numărul de unităţi primare din populaţie;
r = numărul de unităţi primare selectate în primul stadiu;
Nj = numărul total de unităţi simple (indivizi) din UPj;
nj = numărul de unităţi simple (indivizi) extrase din UPj .

 Numărul total de unităţi simple:


R
N  N j (5.2.1)
j 1
 Totalul variabilei de interes pentru unitatea primară UPj;
Nj
T j   y ij (5.2.2)
i 1
 Totalul variabilei de interes pentru toate unităţile primare:
R Nj
T   yij (5.2.3)
j 1 i 1
 Estimatorul totalului variabilei studiate:
n
R r  N j j 
ˆ
T   ij 
y
r j 1  n j i 1 
(5.2.4)

 Estimatorul totalului mediu variabilei studiate pe o unitate primară:


n
ˆ 1 r  N j j 
T    yij  (5.2.5)
r j 1  n j i 1 

În cazul în care unităţile primare şi secundare se selectează după procedeul aleator fără
revenire cu probabilităţi egale, variaţia estimatorului totalului variabilei studiate este dată de
relaţia:

 r σ 2
R r 2  n j  σ 22,j (5.2.6)
V(Tˆ)  R 2 1   1   j  N  n
N 1 
 R r r j 1  j  j
variaţia dintre UP variaţia din interiorul UP

În această relaţie avem:


1. 12 , ̂ 1 variaţia totalurilor unităţilor primare faţă de totalul mediu şi estimatorul acesteia
2

calculate conform relaţiilor:


1 R 1 r
 12   (T j  T ) 2
R j 1
(5.2.7) şi ˆ12   (T j  Tˆ ) 2 (5.2.8)
r  1 j 1

2.  22,i variaţia din interiorul unităţii primare UPj cu j  1, R şi estimatorul acesteia ˆ 22,i
calculate conform relaţiilor:
Nj n
1 1 j

 22,i   ( yij  y j ) 2 (5.2.9) şi ˆ 22,i   ( y ij  yˆ j ) 2 (5.2.10)


Nj i 1 n j  1 i 1

89
Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei
estimatorului valorii totale după relaţia:

2r  σˆ12 R r 2  n j  σˆ 22,j


 Tˆ  Vˆ(Tˆ)  R 1     N j 1  (5.2.11)
 R  r r  N 
j  nj
j 1 
Pornind de la estimatorul totalului variabilei putem estima totalul mediu pe o unitate
primară şi nivelul mediu al variabilei astfel:
Tˆ Tˆ
Tˆ  şi yˆ 
R N
Primul termen al variaţiei estimatorului are o contribuţie substanţială în determinarea
mărimii erorii de reprezentativitate. Acesta este motivul pentru care planul de sondaj trebuie
să se organizeze astfel încât să se reducă eroarea din primul stadiu. Se recomandă
stratificarea unităţilor primare.

5.3. Sondajul în mai multe faze

Acest tip de sondaj nu trebuie confundat cu sondajul multistadial când, în fiecare


treaptă se selectează unităţile ce constituie baza de eşantionare pentru următorul stadiu
urmând să se culeagă informaţii de la unităţile selectate în ultimul stadiu. Planul de sondaj
multifazic presupune selectarea unui eşantion foarte mare în prima fază şi culegerea
unor date privitoare la un număr redus de caracteristici. Eşantionul din prima fază
serveşte ca bază de eşantionare pentru următoarea fază. Programul de observare din a doua
fază va fi mai cuprinzător. În faza următoare se continuă reducerea eşantionului şi lărgirea
programului de observare. Dintre autorii care au dezvoltat în studiile lor acest tip de
eşantionare amintesc: Cochran (1977) şi Scherrer (1983).

Figura 5.3.1. Schema de realizare a unui sondaj în două faze

Populaţie de volum N

Selecţia din
Eşantion de volum n1 faza 1

CHESTIONAR
Plan de observare
redus FAZA 1
Selecţia din
Eşantion de volum n2 faza 2
CHESTIONAR
Plan de observare
extins FAZA 2

Acest plan de eşantionare regrupează diferite planuri de eşantionare pentru care


obţinerea de date se realizează într-un număr fixat de etape (egal cu numărul de planuri de
sondaj aplicate) eşalonate în timp. Ca efect, obţinerea de informaţii pe etape nu înseamnă

90
neapărat că acestea au rolul de a informa în scopul derulării procesului de derulare a planului
de sondaj. Ele pot fi utilizate doar pentru analiza finală.
Să luăm ca exemplu un sondaj privitor la cheltuielile familiilor realizat în două faze.
Schema acestuia este prezentată în figura nr. 5.3.1. În prima fază pe un eşantion mare se vor
culege date privitoare la cheltuielile efectuate pe principalele grupe de cheltuieli. Informaţiile
obţinute vor permite cunoaşterea gradului de variabilitate al caracteristicilor şi vor facilita
realizarea unui eşantion reprezentativ în a doua fază. De data aceasta numărul caracteristicilor
cercetate va fi mult mai mare.

5.4. Sondajul pe bază de eşantioane fixe

Esenţa acestei metode constă în a obţine informaţii repetate de la acelaşi eşantion


numit panel. Primul panel detaliat a fost realizat în Statele Unite de către Arthur Charles
Nielsen în anul 1929. La o diferenţă de 30 ani a fost creat primul panel din Franţa tot de către
Nielsen.
În literatura de specialitate se consideră că există două tipuri de sondaje pe bază de
eşantioane fixe:
 eşantionul este permanent şi subiectul cercetării este identic sau foarte asemănător
(audienţa emisiunilor TV);
 eşantionul este permanent şi poate fi utilizat pentru cercetări cu subiecte diferite.

Cercetarea poate avea loc periodic sau se poate face la intervale neregulate de timp.

91
„Sondajele repetate, asupra aceleiaşi probleme, la intervale regulate de timp, urmărind
să identifice unele tendinţe, periodicităţi, sau alte elemente dinamice pentru parametrul de
interes se mai numesc şi sondaje longitudinale.” 9

Sondajele pe baza unui panel presupun iniţial realizarea unui eşantion reprezentativ
pentru populaţia studiată. Acest eşantion este de cele mai multe ori realizat după un plan
multistadial cu stratificarea unităţilor primare. Unităţile care formează aceste eşantioane
pot fi diverse: întreprinderi, magazine, gospodării, persoane. Eşantionul astfel constituit
permite strângerea de informaţii cu o anumită regularitate sau la intervale neprecizate de timp.
Pentru culegerea datelor se poate utiliza oricare din metodele cunoscute.

9
Dumitrescu M., 2000, Sondaje statistice şi aplicaţii, Ed. Tehnică, Bucureşti, p. 110.

92
O soluţie pentru înlăturarea acestor dezavantaje o constituie reînnoirea panelurilor
prin limitarea la un număr stabilit de participări la sondajele realizate după care vor fi
înlocuiţi. Înnoirea eşantionului poate fi parţială sau totală.
„Ca o conduită generală, condiţiile impuse de celelalte planuri de sondaj cu selecţie
probabilistică sunt necesare şi pentru construirea unui panel. De exemplu: definirea cu
exactitate a populaţiei de referinţă, construirea unei baze de sondaj adecvate, stabilirea unui
plan de sondaj eficient, alegerea metodei de culegere a datelor, alegerea unor metode
pertinente de redresare a eşantionului”10.

Odată decise planul de eşantionare şi metoda de culegere a datelor se trece la selecţia


eşantionului. Se va contacta fiecare individ din cei ce au fost selecţionaţi pentru a li se explica
ce presupune şi ce importanţă are participarea la o astfel de cercetare. Ulterior este necesară
obţinerea asigurării unei colaborări de lungă durată. Acest acord depinde de complexitatea
sarcinilor şi de timpul cerut de rămânere în eşantion.
În general rata de recrutare în panel este inferioară ratei de răspuns pentru o anchetă
ad-hoc similară. „Recrutarea unui panel este o chestiune foarte costisitoare. Asigurarea unui
nivel de colaborare cât mai ridicat posibil din partea „paneliştilor” constituie miza majoră a
gestiunii unui panel. Continuitatea şi coerenţa culegerii datelor depinde de relaţia de
colaborare care se creează cu membrii panelului ”11 Această relaţie este fondată pe un contract
ce trebuie respectat. Pentru aceasta trebuie respectat termenul convenit şi nu trebuie să se
solicite membrilor panelului sarcini care nu au fost stabilite în momentul recrutării.

Eficienţa unui panel trebuie verificată pe toată durata de viaţă a acestuia. În principiu,
ideea de bază constă în a aprecia dacă s-au produs modificări semnificative în structura
eşantionului sau dacă modificările survenite asupra caracteristicilor demo-economice
sunt semnificative. Pentru a verifica acest lucru se utilizează următoarele metode:

a) Metoda coeficientului de corelaţie. Considerăm cazul a două sondaje succesive


asupra unui panel de dimensiune mare. Numărul de unităţi cercetate rămâne neschimbat. Fie
variabilele numerice de sondaj yi1şi yi2 (ce provin din cele două sondaje succesive) de medii y1
în primul sondaj şi y2 în al doilea. Dispersia populaţiei este cunoscută şi nemodificată între cele
două momente de timp. Varianţa diferenţei dintre cele două medii este dată de relaţia:
2 2  2 2 2
V ( y 2  y1 )  V ( y 2 )  V ( y1 )  2 cov( y 2  y1 ) 
n

n
 2  ry y
1 2
n

n
1  2  ry y 
1 2

10
Niculescu-Aron I. G., 2004, O privite generală privind utilizarea panelurilor în studiul comportamentului
consumatorului, Revista de informatică socială nr. 2/2004, www.ris.uvt.ro
11
Saporta G., 2003-2004, Enquetes et Sondages, http:// cedric.cnam.fr/~saporta

93
Dacă panelul nu mai este eficient se poate considera că cele două medii provin din
eşantioane independente. În acest caz între yi1 şi yi2 nu există nici o legătură, coeficientul de
corelaţie fiind nul iar varianţa diferenţei dintre medii este:V ( y 2  y 1 )  2 2 n
În funcţie de valoarea coeficientului de corelaţie pot exista următoarele situaţii:
o ry1 y 2  0  legătură inversă între valorile variabilei yi la cele două momente de timp.
Uzura panelului este foarte mare şi necesită reînnoire totală.
o ry1 y 2  0,9  legătură foarte puternică între valorile variabilei yi la cele două momente de
timp.  Panel eficient. Nu este necesară reînnoirea acestuia;
o 0,2  ry1 y2  0,9  Există o legătură între valorile variabilei yi la cele două momente de
timp dar nu foarte puternică  reînnoirea parţială a panelului. În funcţie de valoarea
coeficientului de corelaţie se decide care este proporţia de reînnoire (k). Unii autori
consideră că valoarea optimă este de 50%.
o 0  ry1 y2  0,2  Nu există legătură între valorile variabilei yi la cele două momente de
timp. Se poate spune că datele provin din eşantioane independente  reînnoirea totală a
panelului.

b) Utilizarea testului Student pentru observaţii perechi. Variabilele cuprinse în


planul de sondaj pot fi variabile de interes definite în concordanţă cu obiectivele studiului şi
variabile auxiliare sau de identificare utilizate în stabilirea planului de sondaj .
În cazul în care variabila pentru care s-a efectuat testul este o variabilă auxiliară care s-
a utilizat în momentul proiectării eşantionului această diferenţă denotă o deteriorare a
panelului şi necesitatea reînnoirii acestuia.
Dacă însă variabila pentru care s-a efectuat testul este una din variabilele de interes
conform obiectivelor anchetei această diferenţă semnificativă va fi interpretată în contextul
analizei efectuate.

În anchetele periodice ce se realizează asupra forţei de muncă în România conform


metodologiei EUROSTAT se utilizează un panel ce este reînnoit permanent după o schemă
rotaţională de forma 2-2-2. Aceasta are ca principiu de bază următoarea tehnică: o locuinţă
este cercetată două trimestre consecutive, este scoasă temporar din cercetare următoarele două
trimestre, este reintrodusă în cercetare următoarele două trimestre apoi este scoasă definitiv.
Conform schemei aplicate în fiecare trimestru se păstrează în eşantion 50% din locuinţele
trimestrului anterior. 25% din locuinţele cercetate cu două trimestre în urmă iar restul de 25%
sunt locuinţe absolut noi. Astfel se păstrează şi o acoperire de 50% a eşantioanelor de la un
trimestru al unui an la acelaşi trimestru al anului precedent.

94
5.5. Aplicaţii

Aplicaţia 1

Se realizează un sondaj după un plan bistadial într-o localitate care are populaţia de 18 ani
peste de 48000. Unităţile primare sunt reprezentate de secţiile de votare (27) şi au fost
selectate după un procedeu aleator cu probabilităţi egale fără revenire. În tabelul 5.5.1. sunt
prezentate rezultatele obţinute în urma prelucrării datelor eşantioanelor din fiecare unitate
primară ce a fost selectată în eşantion.

Tabelul 5.5.1
nr. pers. nr. pers. care
nr. pers. venitul mediu dispersia după
secţia selectate din petrec la televizor
din secţia i (mil lei) variabila venit
secţia i mai mult de 3 h/zi
1 2116 43 2.8 0.04 20
2 2430 43 2.5 0.0576 25
3 2268 43 2.6 0.16 24
4 2346 52 3.8 0.09 28
5 1750 42 4.2 0.25 31
6 2386 52 4.1 0.16 36
7 2180 46 3.7 0.1089 28
8 1534 45 3.5 0.01 29
9 1598 42 3.4 0.09 33
10 2391 52 2.7 0.04 36
11 1295 52 2.9 0.0484 30

Se cere:
1. Să se estimeze venitul mediu din localitate pentru o probabilitate de 95%.
2. Să se estimeze procentul celor care petrec la televizor mai mult de 3 h/zi pentru aceeaşi
probabilitate.

Rezolvare

1. Calculăm estimatorul totalului variabilei studiate (venitul total) pe baza calculelor


sistematizate în tabelul 5.5.2.
R
r  N ni  R r r
 i y ij   ˆ R 27
T̂   
r i1  n i j1  r i1
Ni Yi 
r i1 
T̂i =  73023.4 =179239.25 mil lei
11
 
Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei estimatorului
valorii totale după relaţia:
r 2
 r  σ̂ 2 R  n  σ̂ 2,i
 T̂  R 2 1   1 
 R r r  i 1
N i2 1  i
 Ni

 ni
r
1 30397397
unde ˆ 12 
r 1  (T̂  Tˆ)
i 1
i
2
=
10
 3039739.7

r
1 73023,4
Tˆ   T̂ = i  6638.5 mil. lei
r i 1
11

95
Tabel 5.5.2
2
ˆ  ni   ni  σ̂ 2,i
secţia Ni ni Y i
σ̂ 22,i T̂i (T̂i  Tˆ ) 2 1   N i2 1  
 N i   Ni  ni
1 2116 43 2.8 0.04 5924.8 509354.714 0.98 4080.44
2 2430 43 2.5 0.0576 6075 317522.005 0.98 7769.85
3 2268 43 2.6 0.16 5896.8 550105.405 0.98 18776.93
4 2346 52 3.8 0.09 8914.8 5181583.08 0.98 9314.52
5 1750 42 4.2 0.25 7350 506245.186 0.98 17791.67
6 2386 52 4.1 0.16 9782.6 9885421.98 0.98 17135.15
7 2180 46 3.7 0.1089 8066 2037782.2 0.98 11013.39
8 1534 45 3.5 0.01 5369 1611607.17 0.97 507.58
9 1598 42 3.4 0.09 5433.2 1452726.18 0.97 5328.19
10 2391 52 2.7 0.04 6455.7 33412.5164 0.98 4301.96
11 1295 52 2.9 0.0484 3755.5 8311636.58 0.96 1498.25
Total 22294 512 73023.4 30397397 97517.92

Calculăm primul termen al erorii de reprezentativitate indus de selecţia din primul stadiu al
planului de sondaj.
 11  3039739.7
Termen1=272  1    =119378868.2
 27  11
Al doilea termen al erorii de reprezentativitate este determinat de selecţia ce a avut loc în al
doilea stadiu, în interiorul unităţilor primare ce au format eşantionul.
27
Termen2=  97517.92 =239362.8
11
Observăm că primul termen al variaţiei estimatorului are o contribuţie substanţială în
determinarea mărimii erorii de reprezentativitate. Acesta este motivul pentru care planul de
sondaj trebuie să se organizeze astfel încât să se reducă eroarea din primul stadiu. Se
recomandă stratificarea unităţilor primare.

 Tˆ  119378868  239362.8  10937.012


Intervalul de încredere al totalului este:
Tˆ  1.96   Tˆ  T  Tˆ  1.96   Tˆ
157802.7  T  200675.8 mil. Lei
Venitul mediu estimat este:
ˆ Tˆ
Y   3.734 mil. lei
N
Intervalul de încredere al venitului mediu este :
1 ˆ T 1
(T  1.96 *  Tˆ )   (Tˆ  1.96 *  Tˆ )
N N N
3.287  Y  4.18

Garantăm cu o probabilitate de 95% că venitul mediu pe o persoană este de cel puţin


3.287 mil. lei şi cel mult 4.18 mil. lei.

96
2. Se pune problema estimării unei variabile calitative. Calculele sunt prezentate în tabelul
5.5.3.

Tabelul 5.5.3

2
 ni   n  σ̂ 2,i
secţia Ni ni mi ŵi σ̂ 22,i T̂i (T̂i  Tˆ) 2 1   N i2 1  i 
 Ni   Ni  ni

1 2116 43 20 0.4651 0.2488 984.2 75228.67524 0.98 25378.59


2 2430 43 25 0.5814 0.2434 1412.8 23816.57237 0.98 32829.62
3 2268 43 24 0.5581 0.2466 1265.9 54.70016007 0.98 28942.27
4 2346 52 28 0.5385 0.2485 1263.2 22.7172322 0.98 25720.57
5 1750 42 31 0.7381 0.1933 1291.7 1102.383243 0.98 13757.28
6 2386 52 36 0.6923 0.2130 1651.8 154749.1181 0.98 22813.07
7 2180 46 28 0.6087 0.2382 1327.0 4691.155746 0.98 24088.40
8 1534 45 29 0.6444 0.2291 988.6 72838.84794 0.97 11630.56
9 1598 42 33 0.7857 0.1684 1255.6 8.369917026 0.97 9967.70
10 2391 52 36 0.6923 0.2130 1655.3 157484.5118 0.98 22909.85
11 1295 52 30 0.5769 0.2441 747.1 261477.9275 0.96 7555.70
Total 22294 512 13843.11 751474.9792 225593.60

Calculăm estimatorul totalului variabilei studiate (numărul persoanelor care petrec la


televizor mai mult de 3 h/zi
r r
R R 27
T̂ 
r i 1
N i ŵ i 
r  T̂
i 1
i =
11
 13843.11 = 33978.54 pers.

Eroarea medie de reprezentativitate se va calcula pe baza relaţiei:


r 2
2r  σ̂ 2 R  ni  σ̂ 2,i
 T̂  R 1   1 
 R r r  i 1
N i2 1 
 Ni

 ni
r
1 751474.9792
unde ˆ 12 
r 1  (T̂  Tˆ)
i 1
i
2
=
10
 75147.49792

r
1 13843,11
Tˆ   T̂ = i  1258.465 pers.
r i 1
11
 11  75147.49792
Termen1=272  1    =2951247.191
 27  11
27
Termen2=  225593.60 =553729.7456
11
Observăm că şi în acest caz primul termen al variaţiei estimatorului are o contribuţie
substanţială în determinarea mărimii erorii de reprezentativitate. stadiu.
 Tˆ  2951247.191  553729.7456  1872.158363
Intervalul de încredere al totalului este:
Tˆ  1.96   Tˆ  T  Tˆ  1.96   Tˆ
30309  T  37648 persoane
Cel puţin 30309 persoane şi cel mult 37648 persoane petrec cel puţin 3 ore pe zi la televizor.

97
Procentul mediu estimat este:

ŵ   0.70789
N
Intervalul de încredere al procentului mediu este :
1 ˆ T 1
(T  1.96 *  Tˆ )   (Tˆ  1.96 *  Tˆ )
N N N
0 .6315  p  0.7843
Se garantează cu o probabilitate de 95% că cel puţin 63.15% şi cel mult 78.43% din populaţia
ce vârsta de 18 ani şi peste se uită cel puţin 3 ore pe zi la televizor.

Aplicaţia 2

În rândul societăţilor comerciale din domeniul de activitate „Hoteluri şi restaurante” se


realizează o anchetă periodică ce are la bază un eşantion de tip panel. Pornind de la variabila
auxiliară număr salariaţi prezentată în tabelul 5.5.4 (pentru exemplificare s-au luat doar
primele 20 de societăţi comerciale din eşantion) se va verifica eficienţa panelului.

Se cere:

1. Să se stabilească gradul de uzură al panelului cu ajutorul metodei coeficientului de


corelaţie.
2. Să se verifice eficienţa panelului cu ajutorul testului Student (α=0.05) pentru date înrudite
(eşantioane dependente).

Tabel 5.5.4
Număr salariaţi (pers.) Număr salariaţi (pers.)
la momentul la momentul
societate la momentul societate la momentul
verificării verificării
comercială realizării comercială realizării
eficienţei eficienţei
panelului panelului
panelului panelului
Yi1 Yi2
1 13 14 11 18 22
2 15 14 12 17 22
3 37 35 13 22 20
4 44 40 14 25 25
5 34 30 15 28 27
6 23 21 16 29 28
7 21 30 17 33 31
8 14 17 18 43 41
9 15 20 19 25 28
10 16 20 20 28 30

1. Calculăm valoarea coeficientului de corelaţie după relaţia:


n n n
ni 1 yi1 yi 2  i 1 yi1 i 1 yi 2
ry1 y2 



i1    i 1
 

 n n y 2 i1  n y i1 2    n n y 2 i 2  n y i 2 2 
 i 1 i 1 

98
Calculele necesare aflării coeficientului de corelaţie sunt prezentate în tabelul 5.5.5

Tabelul 5.5.5
societate
yi1 yi2 yi1 yi2 y2 i1 y2 i2
comercială
1 13 14 182 169 196
2 15 14 210 225 196
3 37 35 1295 1369 1225
4 44 40 1760 1936 1600
5 34 30 1020 1156 900
6 23 21 483 529 441
7 21 30 630 441 900
8 14 17 238 196 289
9 15 20 300 225 400
10 16 20 320 256 400
11 18 22 396 324 484
12 17 22 374 289 484
13 22 20 440 484 400
14 25 25 625 625 625
15 28 27 756 784 729
16 29 28 812 841 784
17 33 31 1023 1089 961
18 43 41 1763 1849 1681
19 25 28 700 625 784
20 28 30 840 784 900
total 500 515 14167 14196 14379

20  14167  500  515


ry1y2   0.9384  0.9
20 14196  500  20 14379  515 
2 2

În aceste condiţii se consideră panelul eficient şi nu este necesară înnoirea acestuia.

2. Utilizarea testului Student pentru date înrudite pornind de la o variabilă auxiliară


presupune:
H0 : y1  y 2 ; H1 : y1  y 2
Considerăm variabila d i  yi1  y i 2 ce măsoară diferenţele individuale, pentru care calculăm
media şi abaterea medie pătratică (vezi tabelul 5.5.6).

d  y1  y 2  25  25.75  0.75
n

 d d
2
Sd  i n  1  229.75 / 19  3.47737
i 1

d y1  y 2
Statistica testului este: t c  n n  0.96455
Sd Sd
Valoarea calculată a testului se compară cu cea teoretică corespunzătoare nivelului de
semnificaţie ales şi n-1=19 grade de libertate. Valoarea teoretică ce corespunde nivelului de
semnificaţie α=0.05 şi numărului de grade de libertate 19 este t=2.093 Deoarece valoarea

99
calculată este mai mică decât cea teoretică se acceptă ipoteza diferenţei nule ceea ce
înseamnă că nu există diferenţe semnificative între cele două medii, panelul fiind eficient

Tabelul 5.5.6
societate
comercială
yi1 yi2 di d  d 
i
2

1 13 14 -1 0.0625
2 15 14 1 3.0625
3 37 35 2 7.5625
4 44 40 4 22.5625
5 34 30 4 22.5625
6 23 21 2 7.5625
7 21 30 -9 68.0625
8 14 17 -3 5.0625
9 15 20 -5 18.0625
10 16 20 -4 10.5625
11 18 22 -4 10.5625
12 17 22 -5 18.0625
13 22 20 2 7.5625
14 25 25 0 0.5625
15 28 27 1 3.0625
16 29 28 1 3.0625
17 33 31 2 7.5625
18 43 41 2 7.5625
19 25 28 -3 5.0625
20 28 30 -2 1.5625
Total 25 25.75 -0.75 229.75

100
Unitatea de învăţare 6
SONDAJE NEPROBABILISTICE

Ce cuprinde această unitate de învăţare?

6.1. Obiectivele unităţii de învăţare 6


6.2. Tipuri de sondaje neprobabilistice
6.3. Sondajul pe cote
6.4. Aplicaţii

6.1. Obiective

După studiul acestei unităţi de învăţare veţi avea cunoştinţe despre:


 Modul de construire a esantioanelor nealeatoare
 Cum se realizeaza un sondaj pe cote

6.2. Tipuri de sondaje neprobabilistice

Toate tipurile de sondaj prezentate până în acest punct sunt probabilistice. Acestea
presupun existenţa unei baze de sondaj din care, cu probabilităţi cunoscute, se extrage fiecare
unitate a eşantionului a cărui mărime a fost determinată în funcţie de precizia estimaţiei dorite
şi de probabilitatea cu care dorim să garantăm rezultatele.
Există situaţii, în special în sondajele de opinie sau în studii de piaţă, când se utilizează
metode neprobabilistice de eşantionare.
Sondajele neprobabilistice sunt cele în care elementele ce formează eşantionul au fost
alese în mod arbitrar, iar probabilităţile fiecărei unităţi de a intra în eşantion sunt necunoscute.
Putem spune că aceste metode sunt neştiinţifice. Dintre acestea cele mai cunoscute sunt
sondajele efectuate pe baza următoarelor procedee de eşantionare: eşantionarea la întâmplare
(oarbă), eşantionarea pe baza metodei voluntariatului, eşantionarea raţională şi eşantionarea
pe cote.

101
6.3. Sondajul pe cote

Sondajul pe cote este cel mai utilizat sondaj neprobabilistic. În cazul acestui sondaj
deplasările anchetatorilor vor fi limitate, spre locuri alese la întâmplare dar bine determinate.
Această metodă conduce la economii de căutare şi deplasare, adesea foarte importante. Scopul
pe care şi-l propune metoda este ca eşantionul construit să se apropie cât mai mult posibil de
un eşantion obţinut pe baza unei selecţii aleatoare riguroase.

Principiul care stă la baza metodei porneşte de la ideea că un eşantion reprezentativ


redă structura populaţiei studiate. Astfel, dacă reproducem fidel anumite caracteristici ale
populaţiei, eşantionul, prin extindere va fi reprezentativ şi pentru celelalte caracteristici
controlabile sau necontrolabile ce constituie obiectul anchetei. Criteriile pe baza cărora se
formează eşantionul se numesc criterii de cotă.

102
În acest tip de sondaj fiecărui operator îi este repartizat un număr de chestionare
stabilindu-se câte trebuie realizate pe fiecare categorie. Obligaţia operatorului este de a
respecta aceste criterii rămânând la latitudinea lui ce persoane să selecteze. Acesta este
motivul pentru care este necesar ca operatorii de interviu să fie foarte bine pregătiţi şi să aibă
experienţă în domeniu.

În esenţă, ceea ce i se cere unui operator este să se transforme într-un instrument de


selecţie cvasialeatoare care, pe parcursurile pe care le urmează în zona care i-a fost
repartizată, să selecteze indivizii similar unei selecţii care le acordă probabilităţi egale. În
cazul în care criteriile de cotă impuse operatorului reflectă corect structura zonei cercetate, un
bun anchetator realizează rapid seria de interviuri repartizate.
În funcţie de modul în care sunt stabilite criteriile de cotă avem cote marginale
(simple) sau cote încrucişate.
Să presupunem că într-un oraş se realizează o anchetă utilizându-se drept criterii de
cotă vârsta şi categoria socială. Unui operator îi sunt repartizate 40 de chestionare.
Pentru a stabili cotele maginale este necesar sa avem informaţii legate de structura
populaţiei de forma celor prezentate în tabelul 6.3.1. Pe baza acestora se va construi foaia de
cote prezentată în tabelul 6.3.3.

Tabel 4.3.1. Structura populaţiei necesară pentru cote marginale


Sex % Categorie socială %
masculin 47,50% salariat Cat.1. 45,00%
feminin 52,50% patron Cat.2. 7,50%
şomer Cat.3. 10,00%
elev-student Cat.4. 10,00%
liber profesionist Cat.5. 5,00%
pensionar Cat.6. 22,50%
Total 100,00% Total 100,00%

Criteriile de cote marginale sunt comode pentru operatori şi puţin costisitoare. Ele pot
fi stabilite cu exactitate, dar şansa de a obţine un eşantion reprezentativ este mai mică decât în
cazul cotelor încrucişate. După cum se observă în acest caz nu există nici o corelaţie între

103
criteriile de cotă. Operatorul de sondaj nu ştie câte femei trebuie să ia din fiecare categorie
socială sau câţi bărbaţi.
Pentru a realiza un plan de sondaj care să utilizeze cote încrucişate este necesară
cunoaşterea structurii populaţiei după cele două variabile. În cazul studiului nostru această
structură este prezentată în tabelul nr. 6.3.2. Foaia de cote după care trebuie să se ghideze
operatorul în această situaţie este prezentată în tabelul nr. 6.3.4. Prin această metodă sunt puse
în evidenţă neconcordanţele care există în ceea ce priveşte distribuţia pe categorii sociale
pentru cele două sexe.

Tabel 6.3.2. Structura populaţiei necesară pentru cote încrucişate


categorie socială
Sex salariat patron şomer elev- liber pensionar Total
student profesionist
masculin 24000 4500 4200 4900 2000 7900 47500
% 50,53 9,47 8,84 10,32 4,21 16,63 100
feminin 21000 3000 5800 5100 3000 14600 52500
% 40,00 5,71 11,05 9,71 5,71 27,81 100
Total 45000 7500 10000 10000 5000 22500 100000
% 45 7,5 10 10 5 22,5 100

Tabel 6.3.4. FOAIA DE COTE


40 de interviuri
nr.
Criterii de cotă Categoria socială Interviuri
interviuri
salariat 10 1 2 3 4 5 6 7 8 9 10
patron 2 1 2
şomer 2 1 2
masculin
elev-student 2 1 2
liber profesionist 1 1
pensionar 3 1 2 3
salariat 8 1 2 3 4 5 6 7 8
patron 1 1
şomer 2 1 2
feminin
elev-student 2 1 2
liber profesionist 1 1
pensionar 6 1 2 3 4 5 6

104
Tabel 6.3.3. FOAIA DE COTE

40 de interviuri
Criterii de cotă nr. interviuri/ Interviuri
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
M 19
sex

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
F 21
Cat1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
18
Cat2 1 2 3
3
Categoria socială

Cat3 1 2 3 4
4
Cat4 1 2 3 4
4
Cat5 1 2
2
Cat6 1 2 3 4 5 6 7 8 9
9

105
Cu toate acestea unii autori consideră că în cazul sondajului pe cote se poate adopta
ipoteza unei selecţii simple aleatoare cu probabilităţi egale. Această ipoteză însă nu poate fi
demonstrată. Utilizarea relaţiilor de calcul a sondajului aleator cu probabilităţi egale pentru
volumul eşantionului şi a erorilor de reprezentativitate nu pot duce decât la aproximări mai
mult sau mai puţin grosolane.

În general acest tip de sondaj este utilizat în cercetări sociologice sau în studii de piaţă
în diferite localităţi fără a avea pretenţia reprezentativităţii la nivel naţional.
Uneori, datorită rapidităţii şi costului redus cu care se realizează, această eşantionare
poate fi combinată cu alte procedee de eşantionare în cadrul sondajelor complexe. De
exemplu, pentru realizarea unui studiu cu privire la atitudinea faţă de muncă a populaţiei în
vârstă de muncă din Bucureşti se proiectează un sondaj bistadial. Se împarte suprafaţa
Bucureştiului în 100 de zone de aproximativ aceeaşi arie care vor constitui unităţile primare
ce vor fi selectate în primul stadiu după un procedeu simplu aleator fără revenire. Pentru a
evita „efectul de serie” unităţile primare se stratifică după tipul zonei rezidenţiale. În stadiul al
doilea, pentru selectarea unităţilor secundare se poate utiliza eşantionarea pe cote.

106
BIBLIOGRAFIE

1 Andrei, T. Statistică Teorie şi aplicaţii, Ediţia a doua, Bucureşti, Editura


Stancu, S,. Economică , 2002
Pele, D.T.
2 Isaic-Maniu Statistica pentru managementul afacerilor, Editura Economică 1999
Al.,
Mitruţ C.,
Voineagu V.

3 Isaic-Maniu Tehnica sondajelor şi anchetelor, Editura Independenţa economică


Al. 2001

4 Levy P.S., Sampling of Populations, Third Edition, John Wiley&Sons New York,
Lemeshow S. 2000
5 Jaba Elisabeta, Analiza Statistică cu SPSS sub Windows, Editura Polirom Iaşi 2004
Grama Ana 1
6 Dumitrescu, Sondaje statistice şi aplicaţii, Bucureşti, Editura Tehnică, 2000
M
7 Mihoc Gh., Tratat de statistică matematică volumul Verificarea ipotezelor
Craiu V. statistice, Ed. Academiei R.S.R, Bucureşti 1977

8 Niculescu- Sondajul statistic în cercetarea forţei de muncă, Editura ASE, Bucureşti


Aron I. G., 2005

9 Porojan D. Statistica si teoria sondajului, Bucureşti, Casa de Editură Şansa 1993


10 Rotariu T.I. Ancheta sociologică şi sondajul de opinie, Editura Polirom 1999
11 Rotariu T. Metode statistice aplicate în ştiinţele sociale, Bucureşti, Editura
(coordonator) Polirom, 1999
12 Sandu Gh., Modele experimentale în zootehnie, Editura Coral Sanivet 1993

13 Saporta G., Enquetes et Sondages 2003-2004, http:// cedric.cnam.fr/~saporta

14 Sincich T., Business statistics by example, Prentice Hall, New Jersez 1996

15 Wilson M., Statistical Methods Research I Course Notes,


Littell R. http://www.stat.ufl.edu/STA6166/Fall06/Course%20Notes.html

16 *** http://biol10.biol.umontreal.ca/BIO2042

17 *** http://www3.imperial.ac.uk/portal/pls/portallive/docs/1/7292119.PDF

107

S-ar putea să vă placă și