Documente Academic
Documente Profesional
Documente Cultură
SONDAJE ŞI ANCHETE
Suport de curs pentru învăţământul la distanţă
BUCUREŞTI
2011
1
Copyright © 2011, Ileana Gabriela Niculescu-Aron
Toate drepturile asupra acestei ediţii sunt rezervate autorului
Editura ASE
Piaţa Romană nr. 6, sector 1, Bucureşti, România
cod 010374
www.ase.ro
www.editura.ase.ro
editura@ase.ro
Referenţi:
ISBN 978-606-505-457-8
2
CUPRINSUL CURSULUI
INTRODUCERE 5
Unitatea de învăţare 1.
NOŢIUNI DE BAZĂ ÎN TEORIA SONDAJELOR 6
1.1 Obiectivele unităţii de învăţare 6
1.2 Metode de observare utilizate în domeniul economico-social 6
1.3 Rolul Sondajului statistic în sistemul informaţional statistic 7
1.4 Definirea conceptelor de bază utilizate în sondajele statistice. 8
1.5 Procedee de eşantionare utilizate 9
Unitatea de învăţare 2.
ORGANIZAREA SONDAJELOR STATISTICE 14
2.1 Obiectivele unităţii de învăţare 14
2.2 Etape preliminare în organizarea unui sondaj 14
2.3 Elaborarea chestionarului 18
2.4 Ancheta pilot 26
2.5 Extragerea eşantionului 26
2.6 Culegerea şi verificarea datelor 28
Unitatea de învăţare 3.
ASPECTE PRACTICE ÎN REALIZAREA UNUI SONDAJ STATISTIC 29
3.1. Obiectivele unităţii de învăţare 29
3.2. Problematica non-răspunsurilor 29
3.3. Tipuri de erori întâlnite în cercetarea selectivă 34
3.4. Verificarea reprezentativităţii eşationului 38
3.5. Aplicaţii 39
Unitatea de învăţare 4
PLANURI DE SONDAJ SIMPLE 47
4.1. Obiectivele unităţii de învăţare 47
4.2. Sondajul simplu aleator 47
4.2.1. Sondajul simplu aleator cu probabilităţi egale 48
4.2.2. Sondajul de volum redus 54
4.3. Sondajul stratificat 55
4.4. Sondajul de serii 61
4.5. Aplicaţii 69
3
Unitatea de învăţare 5
PLANURI DE SONDAJ COMPLEXE 87
5.1. Obiectivele unităţii 87
5.2. Sondajul multistadial 87
5.3. Sondajul multifazic 90
5.4. Sondajul pe bază de eşantioane fixe 91
5.5. Aplicaţii 95
Unitatea de învăţare 6
SONDAJE NEPROBABILISTICE 101
6.1. Obiectivele unităţii de învăţare 101
6.2. Tipuri de sondaje neprobabilistice 101
6.3. Sondajul pe cote 102
BIBLIOGRAFIE 107
4
INTRODUCERE
5
Unitatea de învăţare 1
NOŢIUNI DE BAZĂ ÎN TEORIA
SONDAJELOR
6
Principalele metode de culegere a datelor
• Recensământul
• cea mai veche forma de observare statistică
• se culeg datele de la toate unităţile colectivităţii
• cheltuieli mari caracter periodic
• rezolvarea unor probleme delicate prin complexitatea lor:
• scopul observării
• scopul culegerii datelor
• timpul la care se referă datele
• sfera de cuprindere
• elaborarea de definiţii, clasificări şi nomenclatoare etc.
• Rapoarte statistice
• observări totale, permanente
• datele statistice referitoare la diferitele fenomene şi procese sociale se culeg pe
cale administrativă
• Sondaje statistice
• observări parţiale
• Ancheta statistică
• nu presupune reprezentativitatea eşantionului
• se realizează pe baza chestionarului completat direct sau prin poştă
• Observarea părţii principale (masivul principal sau panelul)
• culegere a datelor numai de la cele mai semnificative (masivul principal)
unităţi ale colectivităţii
• Panelul eşantion cu caracter stabil
• cercetarea se face longitudinal
• Monografia
• metodă de observare aprofundată a fenomenelor şi proceselor sociale
„Cele mai evidente avantaje ale cercetării prin sondaj faţă de observarea tuturor
elementelor populaţiei apar în două cazuri: când observarea implică distrugerea elementelor
observate (de exemplu controlul calităţii produselor) şi când cercetarea totală implică cheltuieli
foarte mari.”1
Alte avantaje:
1
Porojan D., 1993, Statistica şi Teoria Sondajului, Ed. Şansa SRL Bucureşti p. 184.
7
Sondajul statistic poate fi folosit şi la verificarea datelor culese printr-o observare totală
de mare amploare precum şi la prelucrarea datelor dintr-o cercetare exhaustivă într-o primă fază
selectiv şi mai târziu total.
Sfera de cuprindere a informaţiilor statistice este foarte largă incluzând toate fenomenele
cu caracter de masă. Totodată, informaţia statistică este utilizată de către organele de conducere
la nivel micro şi macroeconomic în exercitarea funcţiilor de previzionare, execuţie şi control.
8
*
M(X) se mai notează şi cu
**
m(x) se mai notează şi cu
9
1.5. Procedee de eşantionare utilizate
10
11
Toate aceste procedee de eşantioane se pot aplica direct populaţiei totale sau pe grupe
ceea ce înseamnă că se pot obţine sondaje simple sau stratificate. La aplicarea procedeului de
selecţie se pot folosi unităţi simple numerotate de la 1 la N sau unităţi complexe, denumite
serii numerotate de la 1 la R. În cel de-al doilea caz vom avea un sondaj de serii.
12
13
14
Unitatea de învăţare 2
ORGANIZAREA SONDAJELOR
STATISTICE
2.1. Obiective
15
Prima sarcină este formularea obiectivelor sondajului. În general cei care comandă
sondajul vin doar cu o formulare vagă a problemelor care îi interesează şi cu o imagine
neclară asupra modului cum vor utiliza rezultatele obţinute. În dialogul beneficiar-statistician,
sociologului îi revine rolul de a îi ajuta pe aceştia să stabilească obiectivele. Aceste probleme
vor fi apoi analizate pentru a structura forma de prezentare a rezultatelor şi pentru a evalua
resursele financiare şi umane necesare.
Când vorbim despre populaţie avem în vedere înţelesul statistic al noţiunii care denotă
mulţimea unităţilor simple sau complexe pe care le are în vedere cercetarea efectuată.
Fiecare sondaj are problemele sale proprii legate de delimitarea populaţiei în timp şi în spaţiu.
Este foarte important să stabilim dacă populaţia cercetată este sau nu omogenă şi care
este structura acesteia în vederea realizării unei eventuale stratificări. Tot aici este important
să delimităm unităţile din care este constituită populaţia. Facem distincţie între:
Baza de sondaj – orice sistematizare a unităţilor astfel încât să permită selectarea lor
întâmplătoare în vederea formării eşantionului. Bazele de sondaj pot fi elaborate de către cel
care organizează selecţia sau pot fi preluate din listele electorale, lista abonaţilor posturilor
telefonice, lista adreselor poştale, registre ale populaţiei, registrul statistic al agenţilor
economici, fişierul bilanţurilor contabile, baze de date, hărţi, etc.
16
Condiţiile pe care trebuie să le îndeplinească o bază de sondaj sunt:
17
3. chestionarele sunt trimise prin poştă, fax;
4. chestionarul este publicat în ziare sau reviste
5. chestionarele sunt completate prin intermediul internetului (interviul online).
• inovaţie bine-venită în lumea sondajelor
• număr mare de respondenţi posibili şi arie largă de acoperire într-un timp
foarte scurt
• chestionarele online pot fi dinamice şi contingente, cu salturi şi ramificaţii în
funcţie de răspunsurile primite
• pot oferi respondenţilor materiale vizuale
• nu este încă foarte clar dacă în cazul sondajelor online calitatea informaţiilor
este mai bună sau nu decât în alte cazuri
• se aseamănă cu sondajele administrate neasistat prin faptul că ne putem aştepta
la niveluri crescute de non-răspunsuri – nu este prezent nici un intervievator
care să îi îndemne pe respondenţi să răspundă. Dar există de asemenea dovezi
cum că respondenţii iau chestionarul mai în serios şi consumă mai multă
energie cognitivă pentru sondajele online decât pentru cele prin telefon.
• Problema principală: cum să reuşeşti să ai un sondaj la care a răspuns
eşantionul dorit;
18
2.3. Elaborarea chestionarului
Construirea unui chestionar este privită în mod corect ca o artă imperfectă. Nu există
proceduri prestabilite care vor duce neapărat la un chestionar „bun”. Una dintre consecinţe
este că ar putea apărea erori cauzate de ambiguitatea întrebărilor de 20 sau chiar 30 de puncte
procentuale. Din fericire, astfel de erori extreme pot fi reduse considerabil prin bunul simţ şi
experienţele altor cercetători.
Un chestionar bun este acela care îndeplineşte obiectivele cercetării (în figura 2.3.1 este
prezentată schema elaborării unui astfel de instrument). Sondajele trebuie construite după
specificul scopurilor cercetării şi reprezintă mult mai mult decât o colecţie de întrebări
neambigue. Există foarte multe constrângeri asupra numărului, ordinii şi formei întrebărilor în
funcţie de metoda de culegere a informaţiilor. Dorinţa şi abilitatea respondenţilor de a răspunde,
cât şi formularea şi ordinea întrebărilor, influenţează formatul final al chestionarului.
2
Isaic Maniu Al., 2001, Tecnica sondajelor şi anchetelor, Ed. Independenţa Economică Piteşti, p. 193.
3
Isaic Maniu Al., op.cit. pg. 194
19
Figura 2.3.1. Schema elaborării unui chestionar
• Interviul faţă în faţă sau prin telefon - scop: realizarea legăturii operator respondent.
Tonul trebuie să fie prietenos şi să prezinte interes şi curiozitate din partea operatorului
(similar conversaţiei dintre două persoane care abia sau cunoscut).
20
• Cererea de informaţii demografice şi economice la începutul unui chestionar poate
sugera imaginea unui document oficial iar respondentul să nu fie motivat în a începe să
îl completeze.
Un chestionar bine întocmit reprezintă cheia succesului unui sondaj. Dacă chestionarul
prezintă deficienţe, informaţiile obţinute pot fi incomplete, făcând imposibilă o analiză
complexă. Nicio corectare posterioară nu poate remedia o astfel de situaţie.
21
2.3.2. Tipuri de întrebări utilizate
La aceste întrebări respondentul este rugat să aleagă o variantă sau mai multe dintr-o
listă, să realizeze o ierarhie sau să dea o valoare în catul variabilelor numerice
Avantaje
• gama variată de răspunsuri ce poate fi obţinută
• lipsa influenţei asupra întrebărilor din cadrul categoriilor prespecificate
• respondenţii consideră asta adesea drept libertate, după cum se poate vedea din frecvenţa
surprinzătoare cu care oamenii notează comentarii pe marginea sondajelor prin poştă
atunci când consideră că sentimentele lor nu sunt descrise corect de categoriile de răspuns.
Dezavantaje
• variabilitatea în ceea ce priveşte claritatea şi profunzimea răspunsurilor depinde într-o
mare măsură de:
• fluenţa respondentului într-o anumită situaţie a interviului
• dorinţa de a compune un răspuns scris într-un sondaj prin poştă
• abilitatea personală sau telefonică a intervievatorului de a înregistra verbatime repede –
sau de a sumariza rapid
22
Tipul
Avantaje Dezavantaje
întrebării
- uşurinţa completării chestionarului - pierderea spontaneităţii răspunsurilor
- precizarea conţinutului întrebării - limitează câmpul opţiunilor celor
- necesită timp scurt pentru răspuns intervievaţi
- uniformitatea înţelegerii întrebărilor - induce o ordine de preferinţă prin
şi a înregistrării răspunsurilor ordinea înscrierii variantelor în
- uşurinţa codificării şi evitarea erorilor chestionar
Închise
în realizarea acesteia - sporeşte artificial frecvenţa
- uşurează munca operatorilor răspunsurilor nu ştiu/nu răspund
- rapiditatea şi uşurinţa prelucrării
- permite compararea grupurilor
- facilitează efectuarea testelor de
semnificaţie
- spontaneitatea răspunsurilor - lungeşte timpul de completare a
- indică fidel nivelul cunoştinţelor chestionarului
- subiectului asupra problemei - cer un efort suplimentar
investigate respondentului
- indică elementele cărora subiectul le - rata de non-răspuns este mai mare
Deschise
acordă cea mai mare importanţă decât la întrebările închise
- evită consecinţele efectelor de format - sunt foarte dificil de codificat şi
specifice întrebărilor închise (prin analizat;nu oferă nici o informaţie
limitarea şi ordonarea răspunsurilor) respondenţilor despre tipul de
răspuns aşteptat de la ei
23
Întrebări factologice vizează situaţii ce caracterizează subiecţii
• furnizează informaţii ce ar putea fi obţinute şi prin metoda observaţiei dacă aceasta n-
ar presupune eforturi prea mari
• în cazul întrebărilor factologice de clasificare sau identificare, informaţiile permit
identificarea caracteristicilor diferitelor grupuri de respondenti.
• lăsate de obicei la sfârşitul chestionarului
• excepţie: sondajul pe cote (întrebările factologice ce formează criteriile de cotă
vor fi puse la începutul chestionarului pentru a vedea dacă persoana
corespunde sau nu criteriilor de formare a eşantionului)
• întrebări de opinie sau atitudine vizează aspecte ce ţin de universul interior al
individului (părerile, aşteptările, evaluările, ataşamentul faţă de valori, explicaţiile
fenomenelor din jur, comportament etc.)
• întrebările de cunoştinţe au un specific foarte clar şi au ca scop caracterizarea
nivelului de cunoştinţe al subiectului
• pot fi utilizate şi ca întrebări de control, validând sinceritatea si capabilitatea
subiectului
• întrebări filtru permit bifurcarea succesiunii întrebărilor în chestionar printr-un salt
către o altă zonă de continuitate în interviu.
24
• Scala binară cea mai simplă modalitate
Respondentul este solicitat să aleagă între două poziţii diametral opuse: da sau nu; acord
sau dezacord; adevărat sau fals.
25
2.4. Ancheta pilot
4
Isaic Maniu Al.,2001, Tehnica sondajelor şi anchetelor, Ed. Independenţa Economică Piteşti, p. 181.
26
• sensibilitatea chestionarului, mai ales la întrebările ce testează atitudini. Este
posibil ca după analiza răspunsurilor la întrebările deschise să se recurgă la
închiderea acestora.
• analiza chestionarelor completate de probă poate arăta dacă operatorii au
înţeles corect instrucţiunile verificând eficacitatea lor lor şi a îndrumării
operatorilor.
• pretestarea este un pas important în procesul de design al chestionarului. Ea nu
trebuie ignorată.
2 (xmin x )2 (xmax x )2
o cazul caracteristicilor cantitative: σ max
2
2
o cazul caracteristicilor calitative (se consideră p=0,5): σ max =p(1-p)=0,25
În cazul în care avem mai multe variabile auxiliare, o vom alege pe aceea al cărei coeficient
de variaţie este maxim. Astfel vom avea estimaţii cu precizie şi siguranţă în limita admisă
pentru toate celelalte caracteristici.
Mărimea eşantionului este determinată de:
• Modul în care urmează să fie analizate rezultatele. Dacă se are în vedere analiza pe
subgrupe se va calcula volumul eşantionului astfel încât să se obţină precizia dorită pe
fiecare subgrupă.
• Restricţii de ordin financiar pornind de la costurile admisibile. Resursele financiare
sunt totdeauna limitate şi de multe ori mărimea necesară a eşantioanelor nu poate fi
realizată. Recurgem la ingeniozitatea şi discernământul în alegerea acelor subiectecare
pot fi abordate cu resursele disponibile.
5
Porojan D., 1993, Statistica şi Teoria Sondajului, Ed. Şansa SRL Bucureşti, p. 235.
27
Ca urmare a problemelor ce apar pe teren, în încercarea diminuării efectelor acestora,
după calcularea volumului eşantionului teoretic, trebuie să determinăm care este volumul
eşantionului de pornire astfel încât în final să ajungem la numărul teoretic de unităţi selectate.
Situaţii posibile:
• Imperfecţiunea listei utilizate ca bază de sondaj determină existenţa unor unităţi
non-valide (unităţi care n-ar trebui să figureze pe listă dacă aceasta ar corespunde
perfect populaţiei studiate). Trebuie estimată această proporţie astfel încât să putem
determina cât mai precis volumul de pornire al eşantionului.
• Existenţa unităţilor non-eligibile (de exemplu dacă populaţia de interes este formată
din populaţia în vârstă de muncă iar unitatea de selecţie este gospodăria, persoanele ce
nu îndeplinesc condiţia de vârstă sunt considerate non-eligibile).
• Existenţa non-răspunsurilor este o problemă întâlnită în orice sondaj. Anticipând rata
non-răspunsurilor încă din faza de proiectare a sondajului putem redimensionarea
eşantionului.
2. Completitudinea datelor
28
Unitatea de învăţare 3
ASPECTE PRACTICE ÎN REALIZAREA
UNUI SONDAJ STATISTIC
29
Nr. Întrebarea
Chest. 1 2 … j … p
1 Non-răspuns
2 parțial
…
i
… Non-răspuns
npornire total
30
A.2.1. Imputaţia deductivă se referă la acele situaţii (rare în practică) în care se poate
stabili valoarea corectă printr-o deducţie logică. Este vorba de o modalitate deterministă de a
corecta datele incorecte sau nevalidate. În acest caz y’ij = yij.
31
A.2.3. Imputaţia predictivă prin mediere pe clase este similară imputaţiei predictive
prin mediere globală, cu deosebirea că nu se utilizează o singură imputaţie, ci mai multe,
corespunzătoare unor clase în care a fost împărţită mulţimea respondenţilor. Astfel,
partiţionăm mulţimea respondenţilor r la întrebarea j în q clase disjuncte. Identificăm clasa
căruia îi aparţine individul şi construim imputaţia:
k
y' ij y rjt y ij k
i 1
unde t ia valorile 1,..,q iar k este numărul de respondenţi din clasa respectivă.
Utilizarea acestui tip de imputaţie reduce gradul de subestimare a dispersiei
estimatorului.
O variantă a acestei metode este imputaţia calculată ca medie a valorilor vecinilor
valorii lipsă. Această metodă poate fi implementată automat şi sub softwareurile statistice
specializate, având posibilitatea selectării tipului de medie pe baza căreia se va calcula
imputaţia şi a numărului de vecini ce vor forma baza de calcul.
A.2.4. Imputaţia „hot-deck”. „Este utilizată la scară largă deoarece, spre deosebire de
imputaţia prin mediere globală sau pe clase, evită subestimarea dispersiei estimatorului”6.
Pentru aplicarea acestei metode se parcurg următoarele etape:
Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile
demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura
eşantionului.
Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în
prima înregistrare a unei caracteristici după care s-a realizat sortarea.
Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este identificat şi
verificat să nu conţină valori lipsă.
Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu
valoarea corespunzătoare din registru.
6
Levy P.S., şi Lemeshow S., ‚2000, Sampling of Populations, Third Edition Ed. John Wiley&Sons New York p.
411.
32
A.2.7. Imputaţia obiectivă. La baza acestei metode stă generarea unei ecuaţii de regresie
pe baza setului de date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse
procesului de imputare. Ecuaţia poate avea următoarea formă:
y b0 b1 x1 b2 x 2 ...... bk x k
unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor xi, i=1,…,k
corelate cu variabila y.
„Imputaţiile obţinute în această manieră sunt superioare celor provenite în urma aplicării
metodelor prezentate anterior, deoarece ea se armonizează cu restul înregistrărilor individului
respectiv. Aplicarea acestei metode permite obţinerea unui estimator nedeplasat al mediei şi
nu subevaluează dispersia acestuia”7.
Non-respondenți m
n2
Non-respondenți
N2
7
Levy P.S., şi Lemeshow S., 2000 , Sampling of Populations, Third Edition Ed. John Wiley&Sons New York p.
412.
33
În a doua fază a sondajului formăm un eşantion E’2 de volum m prin selecţie
aleatoare fără revenire din E2. Prin eforturile făcute de operatorul de sondaj şi prin
eventuale recompensări eşantionul va conţine doar respondenţi. Putem acum calcula
un estimator asociat celei de a doua faze (figura 3.2.2.)
Estimatorul parametrului Y construit pe baza celor două faze are forma:
n n
y 1 y1 2 y 2
n n
Metoda reselecţiei pentru non-respondenţi are avantajul că generează un estimator
nedeplasat al parametrului de interes
Dezavantaj – determină o creştere substanţială a costului sondajului deoarece cerinţa
ca în a doua fază să se obţină răspunsuri complete impune eforturi organizatorice şi
financiare deosebite.
34
35
36
BAZA DE SONDAJ
POPULAȚIA ȚINTĂ
Arie acoperită de
baza de sondaj, dar
care nu face parte din
populaţia ţintă
Arie neacoperită
B.2.1. Erorile efective se pot calcula pentru caracteristicile la care s-au obţinut date şi dintr-o
observare totală
Considerând că media este indicatorul sintetic cel mai reprezentativ, eroarea efectivă de
sondaj se calculează ca diferenţă între media eşantionului şi media colectivităţii totale
La verificarea reprezentativităţii eşantionului se porneşte de la compararea structurii pe
grupe a colectivităţii de selecţie cu cea a colectivităţii generale, denumită şi structură
programată. În cazul în care aceste structuri nu diferă cu mai mult de ± 5% se acceptă
eşantionul ca fiind reprezentativ.
De cele mai multe ori în cercetarea concretă nu se dispune de date cu privire la întreaga
colectivitate pentru a putea verifica în ce măsură media este sau nu reprezentativă. În
acest caz se pot efectua selecţii succesive pentru a verifica gradul de stabilitate al mediei
şi dispersiei, eroarea efectivă de reprezentativitate calculându-se astfel:
xx
dx x x şi respectiv d x % 100
x
unde x este media mediilor selecţiilor.
Verificarea reprezentativităţii eşantionului se poate realiza comparând distribuţia
populaţiei cu cea a eşantionului cu ajutorul testelor statistice sau Kolmogorov-Smirnov.
B.2.2. Deşi erorile de reprezentativitate întâmplătoare nu pot fi evitate, ele pot fi
calculate cu anticipaţie dacă sondajul este probabilistic, obţinându-se erorile probabile.
Estimaţia parametrilor din populaţia generală se va putea face pe baza indicatorilor obţinuţi
din prelucrarea datelor de sondaj cu o eroare medie de reprezentativitate care se găseşte
într-un interval probabilistic. Fiecărui indicator derivat sau sintetic trebuie să i se ataşeze şi
37
eroarea sa de reprezentativitate pentru a putea fi generalizat la întreaga populaţie. Modul de
calcul al acestor erori depinde de tipul de sondaj utilizat.
Tocmai posibilitatea unor astfel de calcule şi a analizelor respective face din metoda
sondajului un instrument viabil de cercetare.
Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a
ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum
normal) pentru compararea proporţiei din eşantion cu cea din populaţie.
Ipotezele testului bilateral sunt: H0 : x = X 0 şi H1: x X 0 .iar valoarea calculată a testului
x X0
este: zc
2
n
Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1,96
corespunzătoare nivelului de semnificaţie ales (=0,05) şi, deoarece este mai mică decât
aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ.
wp
H0 : w= p şi H1: w p .iar valoarea calculată a testului este: z c
p 1 p
n
Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de
semnificaţie =0,05 în cazul efectuării unui test bilateral valoarea teoretică este z =1,96.
1
2
2
Ipotezele testului sunt:
H0 : ft= fe şi H1: ftfe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele empirice.
Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj iar cele
teoretice se calculează după relaţia: fti Fti N n ( Fti fiind frecvenţa corespunzătoare a grupei
i din populaţie).
k
2 f ei f ti 2
Valoarea calculată a testului este: c
i 1
f ti
= Valoarea teoretică pentru un nivel de
1. Testul Kolmogorov este unul dintre cele mai răspândite teste de concordanţă a
repartiţiilor empirice şi teoretice pentru variabile aleatoare continue.
Pentru efectuarea testului este necesară alcătuirea claselor şi stabilirea frecvenţelor absolute
empirice şi teoretice (în funcţie de repartiţia testată). Ulterior se cumulează aceste frecvenţe
crescător şi prin raportarea lor la total se obţin funcţiile de repartiţie empirice (Fn(x)) şi
teoretice (F(z)).
38
Se calculează pe clase diferenţa lor şi se ia diferenţa maximă în valoare absolută. Pe baza ei se
obţine statistica a testului Kolmogorov astfel: c n max Fn( x) F(z) , unde n este
volumul eşantionului.
Valoarea calculată c se compară cu valoarea teoretică tabelată în funcţie de nivelul de
semnificaţie. Unui α=0,05 îi corespunde α=1,36. Dacă < α repartiţia empirică este în
concordanţă cu cea teoretică.
Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru cazul verificării
concordanţei a două repartiţii empirice. Notând cele două variabile aleatoare cu x şi y se
n 1 n 2
calculează o valoare c după relaţia următoare: c max F( x ) F( y) .;
n1 n 2
unde F(x) şi F(y) reprezintă funcţiile repartiţiilor empirice ale celor două variabile.
Se compară apoi valoarea calculată cu cea teoretică. Dacă c < α repartiţiile sunt în
concordanţă.
3.5. Aplicaţii
Aplicaţie 1
Se cere:
1. Să se înlocuiască valorile lipsă ale variabilei NRORE folosind imputaţia predictivă prin
mediere globală, imputaţia predictivă prin mediere pe clase şi imputaşia obiectivă.
2. Să se înlocuiască valorile lipsă ale variabilei ACORD folosind imputaţia ”hot-deck”.
Rezolvare
39
Imputaţia predictivă prin mediere globală
Tabel 3.5.1
Nr. STRAT SEX MEDIE NRORE ACORD
1 1 1 7 3 2
2 1 1 8.33 4 2
3 1 1 6.67 3 3
4 1 1 9.67 10 4
5 1 2 6.33 2
6 1 2 7.8 4 1
7 2 1 9.67 11 2
8 2 1 8 2
9 2 1 7.2 3
10 2 1 8.8 6 4
11 2 1 6.33 4 5
12 2 2 7 4 1
13 2 2 8.8 6
14 2 2 8.2 5 1
15 3 1 7.9 5 3
16 3 1 8.8 4
17 3 1 6.67
18 3 1 9.33 9 4
19 3 1 8.33 6 2
20 3 1 7.7 5
21 3 2 8.2 5 2
22 3 2 5.67
23 3 2 9.2 9 2
24 4 1 9.33 2
25 4 1 8.9 7 3
26 4 1 7.8 6
27 4 1 8.2 7 2
28 4 2 8.9
29 4 2 7.9 5 1
30 4 2 7.5 4 2
40
Imputaţia predictivă prin mediere clase
Tabel 3.5.2
Nr. STRAT SEX MEDIE NRORE NROREIG NROREIC NROREIO
1 1 1 6 2 2 2 2
2 1 1 8.33 4 4 4 4
3 1 1 5.67 3 3 3 3
4 1 1 9.67 10 10 10 10
5 1 2 5.33 5.17 4.6 0.49
6 1 2 7.8 4 4 4 4
7 2 1 9.67 9 9 9 9
8 2 1 8 5.17 4.57 5.19
9 2 1 7.2 3 3 3 3
10 2 1 8.8 5 5 5 5
11 2 1 6.33 2 2 2 2
12 2 2 6.33 3 3 3 3
13 2 2 8.8 5 5 5 5
14 2 2 8.2 5 5 5 5
15 3 1 7.9 5 5 5 5
16 3 1 8.8 5.17 6.17 6.60
17 3 1 5.67 5.17 6.17 1.09
18 3 1 9.33 8 8 8 8
19 3 1 8.33 6 6 6 6
20 3 1 7.7 4 4 4 4
21 3 2 8.2 5 5 5 5
22 3 2 5.67 5.17 6.17 1.09
23 3 2 9.2 9 9 9 9
24 4 1 9.33 5.17 5.4 7.53
25 4 1 8.9 7 7 7 7
26 4 1 7.8 6 6 6 6
27 4 1 8.2 7 7 7 7
28 4 2 8.9 5.17 5.4 6.78
29 4 2 7.9 4 4 4 4
30 4 2 7.5 3 3 3 3
41
Imputaţia obiectivă
Pentru setul de date ce nu conţine valori lipsă pentru variabila NRORE se stabileşte forma
ecuaţiei de regresie ce are ca variabilă independentă MEDIA. În figura 3.5.1 este reprezentată
grafic legătura dintre MEDIE şi NRORE.
Fig. 3.5.1 Nr. ore studiu în funcţie de media obţinută în sesiunea din iarnă
2. Imputaţia „hot-deck”.
42
Etapa 3. Fişierul (tabelul 3.5.1) se parcurge înregistrare cu înregistrare şi fiecare câmp este
identificat şi verificat să nu conţină valori lipsă.
Etapa 4 . În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu
valoarea corespunzătoare din registru.
Rezultatul implementării acestei metode este prezentat în tabelul 3.5.4.
De exemplu înregistrarea cu numarul 9 conţine valoare lipsă pentru variabila ACORD.
Înregistrarea face parte din STRAT 2 iar variabila SEX este 1-masculin. Valoarea
corespunzătoare din registru este 2. Înlocuim cu această valoare nonrăspunsul parţial.
Tabelul 3.5.4
Nr. STRAT SEX ACORD ACORDM
1 1 1 2 2
2 1 1 2 2
3 1 1 3 3
4 1 1 4 4
5 1 2 2 2
6 1 2 1 1
7 2 1 2 2
8 2 1 2 2
9 2 1 2
10 2 1 4 4
11 2 1 5 5
12 2 2 1 1
13 2 2 1
14 2 2 1 1
15 3 1 3 3
16 3 1 4 4
17 3 1 3
18 3 1 4 4
19 3 1 2 2
20 3 1
21 3 2 2 2
22 3 2 2
23 3 2 2 2
24 4 1 2 2
25 4 1 3 3
26 4 1 2
27 4 1 2 2
28 4 2 1
29 4 2 1 1
30 4 2 2 2
Aplicaţie 2
43
Se cere să se verifice reprezentativitatea eşantionului stiind că ponderea fetelor în populaţie
este 65% iar nota medie a studenţilor este de 6.98 iar probabilitatea de garantare a rezultatelor
este de 95%.
Rezolvare
Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din populaţie a
ponderii fetelor faţă de cea din în eşantion se utilizează testul z (eşantionul este de volum
normal) pentru compararea proporţiei din eşantion cu cea din populaţie.
Ipotezele testului bilateral sunt: H0 : w= p şi H1: w p .
wp
Regiunea critică în cazul testului bilateral este dată de relaţia: W: z iar
p 1 p n 1
2
wp
valoarea calculată a testului este: z c =0.398
p 1 p
n
Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un nivel de
semnificaţie =0.05 în cazul efectuării unui test bilateral valoarea teoretică este z =1,96.
1
2
Deoarece valoarea calculată a testului luată în modul este mai mică decât valoarea teoretică se
acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ.
Pornind de la variabila auxiliară MEDIA, pentru verificarea reprezentativităţii se utilizează
testul z pentru compararea mediei unui eşantion cu cea a populaţiei.
Ipotezele testului bilateral sunt: H0: x = X 0 şi H1: x X 0 .
Regiunea critică în cazul testului bilateral este dată de relaţia: W: x X0 iar valoarea
z
2 1
2
n
x X0
calculată a testului este: zc =1.75
2
n
Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1.96
corespunzătoare nivelului de semnificaţie ales (=0.05) şi, deoarece este mai mică decât
aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ.
Problema 2
În rândul populaţiei de 160000 persoane (cu vârsta peste 15 ani) dintr-o localitate s-a realizat
un sondaj pe un eşantion de 800 persoane privind atitudinea faţă de. În tabelul 3.5.5 este
prezentată structura eşantionului şi structura populaţiei pe grupe de vârstă.
Tabel 3.5.5
Grupe de vârstă Structura populaţiei (%) Structura eşantionului (%)
15-24 16 19
25-34 20 23
35-44 24 20
45-54 21 17
peste 55 19 21
Total 100 100
44
Se cere:
1. Să se verifice reprezentativitatea eşantionului utilizând testul 2 pentru un nivel de
semnificaţie =0.05.
2. Să se verifice reprezentativitatea eşantionului utilizând testul Kolmogorov-Smirnov pentru
un nivel de semnificaţie =0.05.
Rezolvare
Tabelul 3.5.6
Structura Număr Număr
Grupe de
Structura
eşantionul salariaţi salariaţi fei fti 2
populaţiei fti fti
vârstă ui în populaţie în eşantion
(%) ( Fti )
(%) (fei)
15-24 16 19 25600 152 128 4.50
25-34 20 23 32000 184 160 3.60
35-44 24 20 38400 160 192 5.33
45-54 21 17 33600 136 168 6.10
peste 55 19 21 30400 168 152 1.68
Total 100 100 160000 800 800 21.21
Tabel 3.5.7
Grupe de f* ei cumulat f* ti cumulat
fei fti fei cumulat fti cumulat di
vârstă F(x) F(y)
15-24 152 128 152 128 0.19 0.16 0.03
25-34 184 160 336 288 0.42 0.36 0.06
35-44 160 192 496 480 0.62 0.6 0.02
45-54 136 168 632 648 0.79 0.81 0.02
peste 55 168 152 800 800 1 1 0
Total 800 800
45
În relaţia de calcul a valorii teoretice c considerăm n1 volumul populaţiei N iar n2 volumul
Nn
eşantionului n. Relaţia devine: c max F( x ) F( y) .
Nn
În cazul în care volumul populaţiei este mare în raport cu eşantionul (n<0.05N) c se poate
calcula după relaţia: c max F( x) F( y) n . =1.69.
α=1,36. Deoarece c > αrepartiţia empirică nu este în concordanţă cu cea teoretică iar
eşantionul nu este reprezentativ ceea ce va duce la obţinerea unor estimatori deplasaţi.
46
Unitatea de învăţare 4
PLANURI DE SONDAJ SIMPLE
4.1. Obiective
47
noţiunilor fundamentale şi însuşirea tehnicii sondajelor. Totodată sondajul simplu aleator
stă la baza sondajelor complexe utilizate în practică.
Sondajul simplu aleator se poate efectua în două variante: sondajul simplu aleator cu
probabilităţi egale şi sondaj simplu aleator cu probabilităţi inegale.
Sondajul simplu aleator cu probabilităţi egale este acel sondaj în care fiecare unitate
are aceeaşi probabilitate de a face parte din eşantion iar probabilităţile sunt independente.
Acest plan de sondaj este metoda de bază a sondajelor aleatoare din care decurg conceptele
fundamentale şi formulele de calcul al erorilor specifice sondajului. Tehnica sondajului
simplu aleator este vizualizată în figura următoare:
Populaţie
Eşantion
48
Calculul erorilor de sondaj în vederea estimării parametrilor populaţiei se bazează pe
principiile teoriei probabilităţilor şi ale statisticii matematice.
Pentru un volum de eşantion n se pot obţine Nn eşantioane extrase succesiv din aceeaşi
populaţie fiecare având o medie de sondaj. În acest proces de formare a mediilor de sondaj
fiecare medie poate să aibă diferite frecvenţe de apariţie. Se confirmă astfel că media de
sondaj x i este o variabilă aleatoare căreia i se poate stabili legea de distribuţie. Respectând
cerinţele legii numerelor mari în teoria sondajului se demonstrează că dacă volumul
eşantionului este suficient de mare media de sondaj urmează o distribuţie normală a cărei
medie este chiar media populaţiei totale:
n
M( x i ) X iar x i X 0
i1
Dispersia mediilor de sondaj în jurul mediei din populaţia totală este egală cu raportul
dintre dispersia din populaţia totală şi volumul eşantioanelor de aceeaşi mărime n:
σ2
σ 2x i
n
Mărimea abaterii medii pătratice a mediilor de sondaj de la media populaţiei reprezintă
eroarea medie de reprezentativitate şi se calculează după relaţia:
σ
σx
i
n
Dacă nu se cunoaşte valoarea dispersiei populaţiei totale ea este estimată cu ajutorul
dispersiei de sondaj S2. În acest caz eroarea medie de reprezentativitate se calculează după
relaţia:
S
σx
i
n
În practică însă nu procedăm la extragerea tuturor eşantioanelor posibile şi ne
mulţumim cu un singur eşantion construit cu respectarea cât mai riguroasă a unor anumite
condiţii. În acest caz, media eşantionului se poate abate mai mult sau mai puţin de la media
populaţiei, fapt ce determină necesitatea indicării unui interval de încredere despre care se
poate afirma cu o probabilitate sau siguranţă cunoscută că acoperă valoarea mediei din
colectivitatea totală. Limitele intervalului de încredere, cea minimă θiinf şi cea maximă θ sup se
calculează în funcţie de datele de sondaj x1, x2, …, xn astfel încât, cu un grad mare de
siguranţă, garantat de probabilitatea 1-α pentru parametrul populaţiei, se îndeplineşte relaţia:
P inf X sup 1 z
Intervalul inf , sup reprezintă intervalul de încredere şi defineşte precizia estimaţiei.
Probabilitatea (1-α ) caracterizează siguranţa cu care se afirmă că intervalul de încredere
cuprinde valoarea parametrului populaţiei. Cu cât intervalul inf , sup este mai mic şi
probabilitatea (1-α ) mai mare cu atât avem o estimaţie mai precisă cu privire la
valoarea parametrului. Intervalul inf , sup este o mărime aleatoare, limitele sale fiind
49
dependente de datele fiecărei selecţii, motiv pentru care, pentru o aceeaşi populaţie, valorile
limitelor variază de la o selecţie la alta atât ca mărime cât şi ca poziţie.
La construirea estimaţiilor, un rol important, pe lângă nivelul de siguranţă, îl joacă
mărimea intervalului de încredere. Cele două mărimi se află într-o relaţie de corespondenţă
bine determinată. Dacă eroarea de sondaj se distribuie după legea normală atunci erorile egale
în valoare absolută cu probabilităţile de apariţie şi pentru acelaşi volum al eşantionului
probabilistic ce alcătuiesc intervale inf , sup se pot separa în două părţi egale iar jumătatea
intervalului este eroarea limită admisă.
Precizia estimaţiei, probabilitatea de încredere şi intervalul de încredere se discută pe
baza inegalităţii lui Cebîrşev, prin care se demonstrează că media de sondaj x pentru un
volum mare al eşantionului converge în probabilitate către X0 media populaţiei, ceea ce
semnifică faptul că x este un estimator corect al mediei populaţiei (nedeplasat, consistent şi
eficient). Siguranţa estimării este dată de probabilitatea cu care este îndeplinită inegalitatea:
x X z unde 0, suficient de mic .
Această probabilitate este dată dinainte şi este foarte apropiată de unitate.
P x X z sau P x X x z ¤ (4. 1.1.)
50
În mod corespunzător, eroarea limită maximă admisă se calculează astfel:
w z w
Deşi determinarea volumului de eşantion în realitate precede calculul erorilor necesare
estimaţiilor nu putem aborda această temă fără cunoaşterea acestor noţiuni.
După studiul amănunţit al populaţiei supuse cercetării se va alege cu multă grijă
caracteristica în raport cu care se calculează volumul eşantionului.
Pornind de la formula erorii limită maximă admisă, pentru un eşantion de volum mare
avem:
z 2 2 z2 S 2
x z n
n 2x 2x
Dacă abaterea medie pătratică a caracteristicii Xi în populaţia generală presupusă
normal distribuită nu este cunoscută, atunci se extrage în prealabil un eşantion de volum redus
pe baza căruia se estimează cu ajutorul dispersiei de sondaj S2 dispersia necunoscută.
În cazul în care volumul eşantionului se calculează pornind de la o caracteristică
alternativă relaţia de calcul a volumului eşantionului este:
z 2 p(1 p)2 z 2 w (1 w )2
n
2w 2w
unde p este proporţia celor care posedă caracteristica în populaţia totală. În cazul în
care nu se cunoaşte această valoare şi nu se poate calcula variaţia caracteristicii în populaţia
totală aceasta se estimează cu dispersia din eşantion calculată cu ajutorul proporţiei celor care
posedă caracteristica în eşantion (w).
Sondajul simplu aleator cu probabilităţi egale fără revenire este acel sondaj în care o
unitate odată selecţionată nu mai participă la o nouă extragere.
Numărul tuturor eşantioanelor posibile în acest caz este egal cu C Nn . Probabilitatea
fiecărei unităţi de a intra în eşantion creşte de la o extragere la alta astfel:
1 1 1
p i1 ; pi 2 ;..... p in unde i 1, N
N N 1 N ( n 1)
Probabilitatea ca o unitate Ui U să figureze în eşantion o notăm cu πi şi este dată de
relaţia:
n n
1 1 1 n k 1 n
πi p
k 1
ik
N N 1
....
N (n 1) N k 1 N ( N ( k 1)) N
n
tinde la limita spre .
N
Pentru a aproxima dispersia mediilor de sondaj necesară calculării erorii medii de
N n
reprezentativitate se aplică un coeficient de corecţie . Deoarece, de cele mai multe ori,
N 1
51
volumul populaţiilor studiate este mare, nu sesizăm diferenţe între a împărţi la N-1 sau la N.
n
În acest context, pentru simplificarea calculului considerăm coeficientul de corecţie 1 .
N
σ2 n σ2 n S2 n
σ 2x 1 iar σ x 1 1
n N n N n N
σ2 n S2 n
Eroarea limită maximă admisa este: x z x z 1 z 1
n N n N
52
Sumarul relaţiilor necesare determinării intervalului de încredere în cazul utilizării
unui sondaj simplu aleator cu probabilităţi egale:
Condiţiile de
Sondaj cu revenire Sondaj fără revenire
desfăşurare
2 cunoscută 2 necunoscută 2 cunoscută 2 necunoscută
Populaţie 2 S2 2 S2
infinită şi xz xz xz xz
n n n n
eşantion de
volum normal
(n<0,05N), n>30
w (1 w ) w (1 w )
wz wz
n n
Populaţie finită 2 S2 2 N n S2 N n
xz xz xz xz
şi eşantion de n n n N 1 n N 1
volum normal
(n>0,05N), n>30
w (1 w ) w (1 w ) N n
wz wz
n n N 1
53
4.2.2. Sondajul de volum redus
Dacă volumul eşantionului este mai mic de 30 de unităţi, se consideră de volum redus,
iar premizele de mai sus nu mai sunt valabile fiind necesară o tehnică nouă de abordare a
problemei.
În acest caz, distribuţia mediilor eşantioanelor posibile depinde de forma de distribuţie
a populaţiei. Cum de cele mai multe ori forma de distribuţie a populaţiei nu este cunoscută,
nici legea de distribuţie a mediilor eşantioanelor nu poate fi determinată. Teoria sondajului
demonstrează că în cazul selecţiei de volum mic probabilitatea de apariţie a mediilor de
diferite mărimi se distribuie mai uniform. Cu alte cuvinte probabilităţile de apariţie a
mediilor nu descresc în aceeaşi măsură ca în cazul eşantioanelor de volum normal în
momentul în care acestea se apropie de valorile extreme, mediile eşantioanelor posibile
distribuindu-se după curba lui Student şi nu după curba normală.
Tabelul distribuţiei Student prezintă coeficientul funcţiei de probabilitate al apariţiei
mediilor eşantioanelor posibile, reprezentat de coeficientul funcţiei (t).
Prin urmare, pentru estimarea mediei metodologia este asemănătoare pentru
eşantioanele de volum normal şi cele de volum redus, singura diferenţă fiind utilizarea
valorilor repartiţiei Student în funcţie de numărul gradelor de libertate şi probabilitatea de
garantare a rezultatelor. Relaţiile sunt sistematizat astfel:
54
4.3. Sondajul stratificat
Deoarece în practică de cele mai multe ori populaţiile supuse cercetării sunt
neomogene utilizarea unui sondaj simplu aleator este dificilă şi costisitoare. Pentru
diminuarea acestor neajunsuri şi creşterea preciziei estimaţiilor se aplică metoda eşantionării
stratificate.
Această metodă presupune împărţirea populaţiei în subpopulaţii cât mai omogene
numite straturi. Straturile se delimitează fie artificial de către cei care organizează sondajul pe
baza unor criterii bine determinate, fie ele sunt deja constituite în populaţie (an de studiu,
judeţ, sector, filială etc.). Pentru formarea eşantionului se va realiza câte o selecţie pentru
fiecare strat formându-se câte un subeşantion. Acestea vor fi obţinute utilizându-se unul din
procedeele de selecţie învăţate (cu probabilităţi egale sau inegale, repetate sau nerepetate).
Metoda selecţiei stratificate este reprezentată în figura următoare:
Populaţie
S
T
N
R N1
A
T
Eşantion
1 n
S
T
R N2
n1
A
T
2 ........................................ n2
............................
..................
S
T
R Nk nk
A
T
Acest tip de sondaj este frecvent utilizat deoarece combină simplitatea conceptuală a
sondajului simplu aleator cu siguranţa asigurării ponderii necesare reprezentativităţii
subgrupurilor. Totodată este o tehnică foarte convenabilă atunci când dorim să obţinem
estimaţii separate pentru parametrii populaţiei pe fiecare strat şi ulterior pentru întreaga
populaţie sau să ne asigurăm că eşantionul respectă structura populaţiei după criteriul de
stratificare.
55
1. Stratificarea asigură un grad mai mare de reprezentativitate şi de precizie a
rezultatelor. „Straturile constituite după o caracteristică oarecare vor prezenta un mai mare
grad de omogenitate decât cel al populaţiei fiind caracterizate prin indicatori ai variaţiei cu
valori mai mici şi deci erori de reprezentativitate mai reduse”8
Pentru a înţelege avantajul sondajului stratificat trebuie pornit de la variaţia totală a
populaţiei după o anumită caracteristică (măsurată de dispersia 2 ) compusă din variaţia din
interiorul straturilor (măsurată de dispersia 2 ) şi variaţia dintre straturi (măsurată de
dispersia 2 ): 2 2 2 unde fiecare tip de variaţie se calculează conform relaţiilor:
N
2 ( X j X )2 N ;
j 1
k k
2 i2 N i Ni ;
i 1 i 1
k k
2 ( X j X ) 2 Ni Ni
i 1 i 1
În cazul în care s-ar organiza un sondaj simplu aleator, dispersia care determină
mărimea erorii de reprezentativitate este dispersia totală. Cum în general populaţiile nu sunt
omogene aceasta va fi foarte mare determinând o eroare medie de reprezentativitate mare.
Dacă se organizează un sondaj stratificat numai dispersia din interiorul straturilor va
influenţa eroarea de reprezentativitate. Aceasta este sintetizată prin media dispersiilor parţiale
şi este măsura influenţei factorilor întâmplători asupra variaţiei caracteristicii. Mărimea
dispersiei dintre straturi, măsură a factorului care constituie criteriul de stratificare asupra
variaţiei variabilei nu influenţează eroarea de reprezentativitate.
Deoarece întotdeauna 2 2 estimaţiile obţinute pe baza sondajului stratificat sunt
afectate de erori mai mici decât cele obţinute pe baza unui sondaj simplu aleator.
8
Porojan D., 1993, Statistica şi teoria sondajului, Ed. Şansa SRL, Bucureşti, p. 253.
56
Sondaj stratificat simplu (neproporţional)
Acest sondaj este caracterizat prin aceea că din fiecare grupă se extrage un număr
de unităţi pentru a forma eşantionul fără a ţine cont de greutatea specifică a fiecărei
grupe în totalul populaţiei. Determinarea valorilor de sondaj în vederea estimării
parametrilor din populaţia de sondaj se realizează pentru toate caracteristicile cantitative şi
calitative cuprinse în planul sondajului.
57
Caracteristicile cantitative
Considerăm o populaţie „C” de volum N împărţită în „k” straturi. Din fiecare strat se
selectează un eşantion după unul din procedeele cunoscute astfel:
k
n1, n2,….. nk, reprezintă volumul straturilor în eşantion şi n
i 1
j n
58
k
N i2 i 2 n k
N i2 S i 2 n
~x 1 i 1 i (4.3.8)
2 n 1
i 1 N 2 ni Ni i 1 N i Ni
i2 n Si 2 n
xi 1 i 1 i (pentru selecţia fără revenire).
ni Ni ni 1 Ni
n1 n n n
ni n
i 1
2 .... i .... k k
(4.3.10)
N1 N 2 Ni Nk N
Ni
i 1
n
Din aceasta deducem relaţia de calcul pentru eşantionul fiecărui strat: ni Ni
N
59
Mărimile medii calculate pe baza datelor de sondaj utilizate pentru a estima mediile
din populaţia totală se vor calcula în funcţie de tipul variabilei după una din relaţiile:
k k
xi ni ni wi
~
x i 1 ~
(4.3.11) w i 1 (4.3.12)
k k
ni ni
i 1 i 1
Eroarea medie de reprezentativitate în cazul sondajului proporţional se calculează
asemănător sondajului stratificat simplu doar că de data aceasta putem utiliza drept ponderi
volumele eşantioanelor astfel:
Selecţie repetată:
k
n2 i2 k
N 2 Si 2
~x ni2 N i2 n (4.3.13)
i 1 ni i 1 i 1
k
ni2 i 2 n k
ni2 S i 2 n
~x n2 n 1 i n 2 n 1 1 Ni (4.3.14)
i 1 i Ni i 1 i i
n1 n2 nk
ni N i i
i 1 (4.3.16) sau ni n. (4.3.17)
.... k k
N1 1 N 2 2 Nk k
Ni i N i i
i 1
i 1
Relaţiile de calcul ale erorilor de reprezentativitate sunt aceleaşi ca şi în cazul
sondajului neproporţional.
60
Selecţia din interiorul straturilor s-a realizat cu revenire
Sondaj stratificat k
N i2 i
2 k
N i2 Si
2 k
N i2 2
simplu x~
i 1 N
2
ni
i 1 N
2
ni 1
x~
i 1 N
2
xi
(neproporţional)
k
N i2 pi (1 pi ) k
N i2 w i (1 w i ) k
Ni2 2
w
i 1 N
2
ni
i 1 N
2
ni 1
w
i 1 N
2
wi
Sondaj stratificat k
n2 2
2 k
ni2 Si
2
ni2 2 k
proporţional şi x~ i2 i 2
x~ 2 xi
i 1 n ni n i 1 n ni i 1 n
Sondaj stratificat
optim k
ni2 w i (1 w i ) w2 k
ni2
w 2
w n 2
w2 i
i 1 n ni 1 n i 1
k k
N i2 p i (1 p i ) N i n i N i2 w i (1 w i ) N i n i
w i 1 N2 ni
Ni 1
i 1 N2 ni 1
Ni 1
k
Ni2 2
w
i 1 N
2
wi
Sondaj stratificat k
n i2 i
2
Ni ni 2 N ni k 2
n i2 S i Ni ni
proporţional şi ~x
i 1 n2 ni
Ni 1
n
i
Ni 1
i 1 n 2 ni
Ni 1
Sondaj stratificat
2
optim k
n i2 i N i ni
n 2
ni
i 1 Ni 1
Sondajul de serii se poate considera cel mai utilizat sondaj probabilistic. El este
preferat sondajului simplu aleator chiar dacă acesta este mai facil şi mai cunoscut.
Sondajului de serii este foarte important deoarece stă, alături de sondajul stratificat, la
baza sondajelor complexe asupra forţei de muncă, reprezentative la nivel naţional.
Eşantionarea simplă aleatoare presupune existenţa unei baze complete de sondaj din
care urmează să se extragă individual fiecare unitate ce va forma eşantionul. Acest lucru este
rareori disponibil şi ar costa prea mult realizarea unor astfel de baze. În schimb, se pot
construi baze de sondaj compuse din grupuri de elemente numite serii. Aceste serii constituie
unităţi complexe (întreprinderi, secţii de votare, blocuri de locuinţe, grupe de studenţi,
gospodăria) care de cele mai multe ori reprezintă forme de organizare a populaţiei.
61
Pentru a asigura reprezentativitatea eşantionului este necesar ca acesta să reprezinte o
structură asemănătoare cu cea a populaţiei fiind constituit tot din unităţi complexe. Odată
selectată o serie, unităţile simple ce o compun vor fi cercetate în totalitate.
POPULAŢIE R SERII
EŞANTION r SERII
Fiecare serie este constituită din unităţi simple ce pot fi definite prin caracteristici
proprii ce prezintă interes pentru ancheta realizată. Ea trebuie definită fără ambiguitate, fiind
utilizată ca unitate de eşantionare. Mărimea seriilor poate fi cunoscută sau necunoscută iar
seriile pot fi de mărimi egale sau inegale.
62
În cazul sondajului de serii eroarea medie de reprezentativitate depinde de
variaţia dintre seriile ce formează populaţia. Într-o astfel de populaţie compusă din unităţi
complexe caracterul omogen sau neomogen al acesteia se transmite şi seriilor din care este
formată.
Eroarea medie de sondaj depinde doar de variaţia dintre seriile populaţiei
deoarece, cealaltă componentă a variaţiei totale (media dispersiilor din interiorul seriilor), se
consideră a fi reflectată în eşantion.
63
Exemplu: selecţie de serii sistematică cu probabilităţi egale
Nr. serie Selecţie
001
002 X
003 r = 40
004 R = 170
005 K = 170/40=4,25
006 X D =2
007
Seriile selecţionate:
008
002
009
2+4,25=6,25 → 006
010
6,25+4,25=10,5 → 011
011 X
………………………..
170
64
Exemplu:
Mărime
Nr. Valoare Nr. de
(nr. de Selecţie
serie cumulată eşantionare
gospodării)
001 120 120 73 X r = 40
002 105 225 R = 170
003 132 357 K = 17219/40=430,475
004 96 453 D =73
005 110 563 503 X Nr. de eşantionare:
006 102 665
007 165 830 73
008 98 928
009 115 1043 934 X 73+430,475=503,475 →
010 60 1103 503
011 104 1207
503,475+430,475=933,96
012 168 1375 1364 X
→ 934
933,96+430,475=1364,425
170 196 17219
1364
…………………………
Total 17219 -
De câte ori este posibil, în cazul în care diferenţa de talie justifică acest lucru, este
recomandat ca selecţia seriilor să se realizeze prin procedeul aleator PPM. Avantajul acestui
procedeu este creşterea reprezentativităţii eşantionului şi în consecinţă a preciziei estimaţiilor.
Notăm cu:
R = numărul de unităţi complexe (serii) din populaţie;
r = numărul de unităţi complexe (serii) din eşantion;
N = numărul de unităţi simple (indivizi) din populaţie;
n = numărul de unităţi simple (indivizi) din eşantion;
N
1 N
T Yi este totalul din populaţie; T Yi este totalul mediu pe serie;
i 1 R i 1
R N
1 N j
Y
N i 1
Yi
j 1 N
Y j este nivelul mediu pe fiecare unitate simplă (individ)
4.4.1. Estimatori şi erori în cazul sondajului de serii de talie egală selectate după
procedeul aleator cu probabilităţi egale fără revenire
Avem N1= N2=….. NR= N0. Putem calcula volumul de unităţi simple al populaţiei şi al
eşantionului astfel: N=R N0 iar n= r N0. Avem următoarele relaţii de calcul:
65
Parametrul de interes, nivelul mediu pe fiecare unitate simplă
N R
1 Nj 1 R
Y
N
Yi N
Yj Y j
R j 1
(4.4.1)
i 1 j 1
66
Dacă s-ar fi organizat un sondaj simplu aleator fără revenire eroarea medie de
reprezentativitate s-ar fi calculat după relaţia:
N n2 RN 0 rN 0 2 1 Rr 2
SAFR (4.4.9)
N n RN 0 rN 0 N0 R r
Comparând relaţiile 4.3.9 cu 4.3.10 observăm că eroarea de reprezentativitate rezultată
în urma unei sondaj de serii va fi mai mică decât cea obţinută în urma unui sondaj simplu
aleator fără revenire doar în situaţia în care se respectă relaţia:
1
2 . (4.4.10)
N0
În consecinţă putem spune că dacă dorim ca eficienţa sondajului de serii să fie cât mai
mare este necesar să împărţim populaţia în serii de dimensiuni mici iar coeficientul de
determinaţie să fie cât mai mic posibil.
Extinderea rezultatelor se face pe baza intervalului de încredere luând în considerare
probabilitatea cu care vrem să garantăm rezultatele.
ˆ ˆ
Y ˆ Y Y ˆ (4.4.11)
Y Y
4.4.2. Estimatori şi erori în cazul sondajului de serii de talie diferită selectate după
procedeul aleator cu probabilităţi egale fără revenire
În cazul în care seriile sunt de dimensiuni diferite, se recomandă utilizarea unui
procedeu de selecţie cu probabilităţi inegale. Aplicarea acestuia necesită însă informaţii
suplimentare în baza de sondaj. Dacă nu dispunem de astfel de informaţii vom aplica un
procedeu de selecţie nerepetat (ca şi în cazul planului de sondaj prezentat în subcapitolul
anterior).Cu toate acestea, deoarece seriile au dimensiuni diferite, relaţiile de calcul ale
estimatorilor şi erorilor de reprezentativitate
Notăm cu:
Nj= numărul de unităţi simple din seria j;
Tj= totalul variabilei de interes pentru toate unităţile seriei j;
N = mărimea medie a unei serii în populaţie;
n = mărimea medie a unei serii în eşantion.
Parametrul de interes, nivelul mediu pe fiecare unitate simplă, calculat doar ca
medie aritmetică ponderată:
1 N R N
j
Y Yi Yj (4.4.12)
N i 1 j 1 N
67
Estimatorul parametrului de interes, media eşantionului:
r N
ˆ j
Y Yj (4.4.13)
j 1 N
ˆ
Dispersia estimatorului Y :
2
ˆ R r 1
V Y 2
T (4.4.14)
R N r
2
Unde T reprezintă dispersia totalurilor seriilor faţă de totalul înregistrat pentru
2
nivelul mediu iar ˆT este estimatorul acesteia calculate pe baza datelor din eşantion. Acestea
sunt calculate conform relaţiilor:
R r 2
T 2 T Yˆ N
j Y N j j j
2 j 1 j 1
T (4.4.16) şi ˆT 2 (4.4.17)
R r 1
Deoarece numărul mediu de unităţi simple ce formează o serie N este de cele mai
multe ori necunoscut, vom utiliza estimatorul n . Pentru unităţile ce au intrat în eşantion.
Acest lucru va determina o subestimare a variaţiei estimatorului. Se consideră că, în acest caz
ˆ ˆ
Vˆ (Y ) este un bun estimator al V (Y ) dacă numărul de serii ce formează eşantionul este
suficient de mare (r≥20).
4.3.3. Estimatori şi erori în cazul sondajului de serii de talie diferită selectate după
procedeul aleator (cu revenire) cu probabilităţi proporţionale cu talia
De câte ori dispunem de informaţii auxiliare privind mărimea unităţilor complexe se
recomandă să le utilizăm pentru a calcula probabilităţile de incluziune în eşantion, aplicând un
procedeu de selecţie cu probabilităţi inegale.
Nj
Probabilitatea ca o serie să intre în eşantion la o extragere este: A j . Cu cât o
N
unitate complexă (serie) va avea o dimensiune mai mare, probabilitatea de a intra în eşantion
va creşte.
68
Deoarece, pentru formarea eşantionului sunt necesare r extrageri, probabilitatea totală
Nj
unei serii de a intra în eşantion va fi: ATj r .
N
Avem următoarele relaţii de calcul:
Parametrul de interes, nivelul mediu pe fiecare unitate simplă se calculează după
aceeaşi relaţie ca si în cazul sondajului precedent:
1 N R N
j
Y Yi Yj (4.4.19)
N i 1 j 1 N
Estimatorul parametrului de interes, media eşantionului:
r N
ˆ j
Y Yj (4.4.20)
j 1 N
4.5. Aplicaţii
Aplicaţie 1
În rândul celor 4000 de studenţi ai unei facultăţi s-a realizat un sondaj simplu aleator pe un
eşantion de 175 persoane.
La întrebarea ”Câte ore studiaţi în medie pe săptămână (exceptând sesiunea)?” răspunsurile
centralizate se găsesc în tabelul 4.5.1.
Tabel 4.5.1
Intervale de
0-2 2-6 6-12 12 h şi peste Total
variaţie (ore)*
Nr. studenţi 50 55 40 30 175
69
Se cere:
1. Să se estimeze pentru o probabilitate de 0.95 numărul mediu de ore studiate de un student
din facultate.
2. Să se estimeze cu aceeaşi probabilitate ponderea studenţilor care studiază mai puţin de 6
ore pe săptămână.
Rezolvare:
Tabel 4.5.2
Intervale de variaţie (ore)* ni xi xini (x i x ) 2 n i
0-2 50 1 50 1337.18
2-6 55 4 220 259.33
6-12 40 9 360 320.03
12 şi peste 30 15 450 2338.31
Total 175 1080 4254.86
*limita inferioară inclusă în interval
Calculăm estimatorul numărului mediu de ore studiate pe săptămână. Calculele necesare sunt
sistematizate în tabelul 4.5.2.
x
x n i i
1080
=6.17 ore
n i
175
S 2
(x x)
i
2
ni
4254.86
=24.31
n i
175
70
Numărul mediu de ore studiate de un student într-o săptămână este de cel puţin 5.44 şi cel
mult 6.9. Garantăm acest rezultat cu o probabilitate de 0.95.
Aplicatie 2
În rândul celor 110 studenţi ce locuiesc într-un cămin s-a realizat un studiu privind nivelul de
mulţumire faţă de condiţiile existente, prelevându-se un eşantion de 25 persoane. Răspunsurile
la întrebarea „În ce măsură sunteţi mulţumiţi de următoarele condiţii din căminul în care
locuiţi?” sunt centralizate în tabelul 4.5.3.
Tabel 4.5.3
Condiţiile privind Foarte mulţumit mulţumit aşa şi aşa nemulţumit Total
Curăţenia 8 10 5 2 25
Căldura 6 7 2 10 25
apa caldă 10 9 4 2 25
apa rece 11 10 3 1 25
Se cere:
1. Să se stimeze pentru o probabilitate de 95% ponderea studenţilor care se consideră
mulţumiţi şi foarte mulţumiţi de condiţiile din cămin.
Rezolvare
Eşantionul prelevat este de volum redus. În acest caz distribuţia mediilor eşantioanelor posibile
depinde de forma de distribuţie a populaţiei. Cum de cele mai multe ori forma de distribuţie a
populaţiei nu este cunoscută, nici legea de distribuţie a mediilor eşantioanelor nu poate fi
determinată. Teoria sondajului demonstrează că în cazul selecţiei de volum mic probabilitatea
71
de apariţie a mediilor de diferite mărimi se distribuie mai uniform. Cu alte cuvinte
probabilităţile de apariţie a mediilor nu descresc în aceeaşi măsură ca în cazul eşantioanelor de
volum normal în momentul în care acestea se apropie de valorile extreme, mediile eşantioanelor
posibile distribuindu-se după curba lui Student şi nu după curba normală.
Calculele necesare estimării procentelor celor ce se consideră în general mulţumiţi de
condiţiile existente sunt sistematizate în tabelul 4.5.4.
Tabel 4.5.4
72
Aplicaţie 3
În rândul celor 4000 de studenţi ai unei facultăţi urmează să se realizeze un sondaj cu privire
la modul de petrecere a timpului liber, utilizîndu-se un procedeu de selecţie simplu aleator
fără revenire. Din surse administrative se cunosc informaţiile din tabelul 4.5.5. Din cercetări
anterioare pe teme similare efectuate în mediul studenţesc s-a constata că variabilele din
tabelul 1.10 sunt puternic corelate cu variabilele de interes ale studiului.
Tabel 4.5.5
ponderea locuiesc în cămin au un loc de muncă sunt bursieri
studenţilor care
(%): 35 20 25
Se cere:
1. Alegeţi variabila pe baza căreia se va calcula volumul eşantionului.
2. Ştiind că unităţile ce vor forma eşantionul se vor selecta după procedeul simplu aleator fără
revenire din lista studenţilor furnizată de către secretariatul facultăţii, să se calculeze
volumul eşantionului pentru o probabilitate de 95% şi o eroare limită de 3%.
3. Tot din cercetări anterioare se cunoaşte că proporţia de nonrăspunsuri în acest tip de
populaţii este de 5%. Pe de altă parte se apreciază că 2% din studenţii ce figurează în baza
de date urmează să fie exmatriculaţi. Aceştia se consideră unităţi non-eligibile. Să se
calculeze în aceste condiţii eşantionul de pornire.
Rezolvare:
Tabel 4.5.6
ponderea studenţilor care: % Media dispersia coeficient de variaţie (%)
73
Dispersia caracteristicii alternative se calculează astfel:
2 p p (1 p)
Valoarea coeficientului de variaţie este dată de relaţia:
p
V 100
max( p, (1 - p))
Din datele din tabelul 4.5.6 se observă că după variabila „locuiesc în cămin” populaţia
studenţilor este cel mai puţin omogenă. Se recomandă calcularea volumului eşantionului
pornind de la această variabilă.
2. Deoarece procedeul de selecţie utilizat este simplu aleator fără revenire la calculul
volumului eşantionului se foloseşte relaţia:
z 2 p(1 p ) 1.96 2 0.35 (1 0.35)
n 781 persoane
z 2 p(1 p ) 1.96 2 0.35 (1 0.35)
2w 0.032
N 4000
3. După determinarea volumului eşantionului teoretic necesar trebuie să determinăm care este
volumul eşantionului de pornire astfel încât în final să ajungem la numărul teoretic de
unităţi selectate.
Se pune problema să ţinem cont de imperfecţiunea listei utilizate ca bază de sondaj.
Considerăm unităţi non-valide acele unităţi care n-ar trebui să figureze pe listă dacă aceasta ar
corespunde perfect populaţiei studiate. În practică, în ciuda eforturilor actualizării bazelor de
date utilizate ca baze de sondaj, există în mod curent un număr de unităţi non-valide. Trebuie
estimată această proporţie astfel încât să putem determina cât mai precis volumul de pornire al
eşantionului.
În funcţie de modul de definire a populaţiei supuse studiului este posibil ca unele unităţi să fie
considerate non-eligibile. De exemplu dacă populaţia de interes este formată din totalitatea
persoanelor cu vârsta cuprinsă între 15 şi 64 ani (populaţia în vârstă de muncă) iar unitatea de
selecţie este gospodăria, persoanele ce nu îndeplinesc condiţia de vârstă sunt considerate non-
eligibile.
Existenţa non-răspunsurilor este o problemă întâlnită în orice sondaj. Din această cauză se
recomandă anticiparea ratei non-răspunsurilor încă din faza de proiectare a sondajului pentru a
redimensiona eşantionul.
Relaţia de calcul a volumului eşantionului de pornire este:
1 1 1
n p n th unde:
Pr Pe Pv
np= volumul eşantionului de pornire; nth= volumul eşantionului teoretic; Pr=proporţia de
răspuns; Pe=proporţia de eligibilitate; Pv=proporţia de validitate
1 1 1
n p 781 839 persoane.
0.95 1 0.98
74
Aplicaţia 4
Tabel 4.5.7
sex număr salariaţi (pers.) vârsta medie (ani) Dispersia
masculin 535 48 36,4
feminin 365 39 45,8
Se cere:
1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită
maximă admisă de ±3% din valoarea vârstei medii a tuturor angajaţilor.
2. Să se calculeze volumul eşantioanelor pe fiecare strat.
3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi
necesar în aceleaşi condiţii de eroare şi probabilitate.
Rezolvare
Ni Xi ni
sex
(pers.) (ani)
i2 Ni Xi N i 2i Ni i X X N
i
2
i
75
Volumul eşationului în cazul sondajului stratificat se calculează după relaţia:
z2σ 2 1.96 2 40.21
n str 79.6 80 pers.
z2σ 2 21.96 2 40.21
Δ 2x 1.33
N 900
2. Repartizarea eşantionului pe straturi se poate realiza în trei moduri şi anume:
o neproporţional obţinându-se un sondaj stratificat neproporţional sau simplu;
o proporţional respectându-se ponderea fiecărui strat în total populaţie obţinându-se
un sondaj stratificat proporţional;
o ţinând cont atât de proporţia fiecărui strat în total cât si de gradul de variaţie al
fiecărui strat obţinându-se un sondaj stratificat optim.
Deoarece, atât volumul cât şi dispersiile straturilor diferă considerabil vom alege stratificarea
optimă.
Pentru determinarea numărului de unităţi ce se vor extrage din fiecare strat se utilizează
relaţia:
k
n1 n2 ni nk
ni 1
i
... .... k
N 1 1 N 2 2 Ni i Nk k
N
i 1
i i
Pe baza acesteia deducem relaţia de calcul pentru subeşantionul ce urmează a fi extras din
N
fiecare strat n i k i i n .
N
i 1
i i
3227,784
n1 80 45 persoane
5697.947
2470,163
n2 80 35 persoane
5697.947
3. Dacă sondajul organizat s-ar desfăşura după un plan simplu aleator nerepetat , variaţia de
care trebuie ţinut cont în momentul calculării volumului eşantionului este variaţia totală a
caracteristicii. Deoarece nu se cunosc valorile individuale ale variabilei „vârsta” pentru
toate cele N unităţi din populaţie nu putem calcula variaţia totală după relaţia:
N
σ2 (X
j1
j X) 2 N
ştim că 2 2 2
Vom calcula variaţia totală ca sumă variaţiilor inter şi intra straturi.
76
k
(X i X ) 2 N i 34580 .75
δ2 i 1
k
38.42
900
Ni
i 1
2
40.21 38.42 78.63
z 2σ 2 1.96 2 78.63
n SAFR 144 persoane
2 z2σ2 2 1.96 2 78.63
Δx 1.33
N 900
Prin aplicarea unui plan de sondaj stratificat s-a redus volumul eşantionului fată de un sondaj
simplu aleator fără revenire de la 144 persoane la 80 persoane.
Aplicaţia 5
În rîndul studenţilor facultăţii REI urmează să se realizeze un sondaj având drept obiectiv
principal analiza calităţii procesului de învăţământ. Deoarece se urmăreşte evidenbţierea
caracteristicilor fiecărui an de studi se e va utiliza un plan de sondaj stratificat. Informaţiile
necesare aplicării planului de sondaj au fost preluate de la secretariatul facultăţii şi sunt
prezentate în tabelul 4.5.9.
Tabel 4.5.9
Anul de studii Număr studenţi (pers) Ponderea studenţilor fără restanţe (%)
An I 600 20
An II 575 63
An III 500 45
An IV 450 86
Total 2125
Se cere:
1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare limită de
±3%.
2. Să se calculeze volumul eşantioanelor pe fiecare strat pornind de la volumul eşantionului
calculat la punctul 2.
3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar fi
necesar în aceleaşi condiţii de eroare şi probabilitate cu cele de la punctul 2.
77
Rezolvare
Tabel 4.5.10
Anul
Ni pi 2pi N i 2pi N i pi ni p i Ni
de studii
An I 600 0.2 0.16 96 240 137 120
An II 575 0.63 0.2331 134.0325 277.6125 159 362.25
An III 500 0.45 0.2475 123.75 248.7469 142 225
An IV 450 0.86 0.1204 54.18 156.1442 90 387
Total 2125 407.9625 922.5035 1094.25
σ 2
p i Ni
407.9625
σ 2p i 1
k
0.19 unde dispersiile straturilor sunt σ 2p i p i (1 p i )
2125
N i 1
i
1.96 2 0.19
n 587 persoane
1.96 2 0.19
2
0.03
2125
n1 n2 ni nk n
Pornim de la relaţia: ... .... k
N 1 p1 N 2 p 2 N i pi N k pk
N
i 1
i pi
N i pi
ni k
n.
N
i 1
i pi
240 277.6
n1 528 137 persoane n2 528 159 persoane
922.5 922.5
248.7 156
n3 528 159 persoane n4 528 159 persoane
922.5 922.5
78
3. Variaţia totală a caracteristicii calitative este dată de relaţia: 2p p (1 p) unde p
reprezintă media caracteristicii calitative ce se calculează astfel:
k
p
i 1
pi Ni
1094 .25
=0.5149 2p 0.5149 (1 0.5149) 0.2498
k
2125
i 1
Ni
z 2σ 2 1.96 2 0.2498
n SAFR 2
639 persoane
z2σp 2 1.962 0.2498
Δ 2w 0.0324
N 2125
Dacă s-ar utiliza un plan de sondaj simplu aleator fără revenire , pentru a garanta rezultatele
cu aceeaşi probabilitate de 95% cu o eriare limită de ±3.24% ar fi necesară o creştere a
volumului eşantionului cu 111 persoane.
Aplicaţia 6
În urma unui sondaj stratificat proporţional după mediul de rezidenţă realizat în judeţul
Bacău de către o societate ce produce băuturi răcoritoare, s-au obţinut datele centralizate în
tabelul 4.5.11.
Tabel 4.5.11
Informaţii obţinute din eşantion
Efectivul Ponderea celor
Eşantion Venitul Dispersia
Mediul populaţiei care consumă
(pers.) totalmediu/gosp venitului total
(mii pers.) săptămânal băuturi
(mii lei) mediu/gosp.
răcoritoare (%)
Urban 340 511 3.8 4.5 72
Rural 325 489 2.1 1.9 18
Total 665 1000
Se cere:
1. Să se estimeze cu o probabilitate de 0.9545 venitul total mediu/gosp atât pe fiecare strat cât
şi la nivelul întregului judeţ.
2. Să se estimeze cu o probabilitate de 0.9545 ponderea celor care consumă săptămânal
băuturi răcoritoate şi numărul lor, pe fiecare strat şi pe total judeţ.
Rezolvare
79
Tabel 4.5.12
Ni ni
Mediul x i mii lei Si2 . x i ni xi xi Linf Lsup
(mii pers.) (pers.)
Urban 340 511 3.8 4.5 1941.8 0.094 0.188 3.612 3.988
Rural 325 489 2.1 1.9 1026.9 0.062 0.125 1.975 2.225
Total 665 1000 2968.7
S12
x1 z 2 0.094 0.188 mii Lei
n1
Intervalul de încredere:
x1 Δ x1 X1 x 1 Δ x1 3.8 0.188 X1 3.8 0.188 3.612 X1 3.988
Garantăm cu o probabilitate de 95.45% că venitul total mediu/gosp în mediul urban este de cel
puţin 3.612 mii lei şi cel mult 3.988 mii lei.
S22
x2 z 2 0.062 0.125 mii lei
n2
Intervalul de încredere:
x 2 Δ x2 X 2 x 2 Δ x2 2.1 0.125 X 2 2.1 0.125 1.975 X 2 2.225
Garantăm cu o probabilitate 0.9545 că venitul mediu/persoană în mediul rural este de cel puţin
1.975mii lei şi cel mult 2.225 mii lei.
80
Estimarea venitului mediu/persoană pe total judeţ
Tabelul 4.5.13
Ni ni
Mediul wi Si2 . wini wi wi Linf Lsup
(mii pers.) (pers.)
Urban 340 511 0.72 0.2016 367.92 0.020 0.040 0.680 0.760
Rural 325 489 0.18 0.1476 88.02 0.017 0.035 0.145 0.215
Total 665 1000 455.94
Estimarea procentului celor care consumă săptămânal băuturi răcoritoare în mediul urban
Estimatorul procentului celor care . consumă săptămânal băuturi răcoritoare în mediul urban
calculat pe baza datelor din eşantion este de 72%. Pentru a estima procentul acestora în
mediul urban este necesar să calculăm eroarea reprezentativitate şi eroarea limită.
Deoarece populaţia este considerată infinită utilizăm relaţiile de calcul aferente calculul
sondajului simplu aleator cu revenire.
S12 0.2016
w1 0.020
n1 511
S12
w1 z 2 0.020 0.040
n1
Intervalul de încredere:
w 1 Δ w1 p1 w 1 Δ w1 0.72 0.040 p1 0.72 0.040 0.680 p1 0.76
81
Garantăm cu o probabilitate de 95.45% că în mediul urban cel puţin 68% şi cel mult 76%
consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare:
N1 w 1 Δ w1 N1 p1 N1 w 1 Δ w1 N1 0.72 0.040 M 1 N 1 0.72 0.040
231293 M 1 258307
Garantăm cu o probabilitate de 95.45% că în mediul urban cel puţin 231293 persoane şi cel
mult 258307 persoane consumă săptămânal băuturi răcoritoare.
Estimarea procentului celor care consumă săptămânal băuturi răcoritoare în mediul rural
În urma prelucrării datelor din eşantionul prelevat din mediul rural s-a obţinul un procent de
18% al celor care consumă săptămânal băuturi răcoritoare.
Calculăm eroarea de reprezentativitate
S 22 0.1476
w2 0.017
n2 489
S22
w2 z 2 0.017 0.035
n2
Intervalul de încredere:
w 2 Δ w2 p 2 w 2 Δ w2 0.18 0.035 p 2 0.18 0.035 0.145 p 2 0.215
Garantăm cu o probabilitate de 95.45% că în mediul rural cel puţin 14.5% şi cel mult 21.5%
consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare:
N 2 w 2 Δ w2 N 2 p 2 N 2 w 2 Δ w2 47207 M 2 69793
Garantăm cu o probabilitate de 95.45% că în mediul rural cel puţin 47207 persoane şi cel
mult 69793 persoane consumă săptămânal băuturi răcoritoare.
Estimarea procentului celor care consumă săptămânal băuturi răcoritoare pe total judeţ
Deoarece sondajul realizat este stratificat proporţional estimatorul unwi variabile calitative la
nivelul judeţului se calculează astfel:
k k
~ n w 455.94
w i i ni 1000
0.45594
i 1 i 1
Calcului erorii de reprezentativitate:
k
n2
w~ ni2 w2i 0.013236
i 1
0 .429468 p 0.482412
82
Garantăm cu o probabilitate de 95.45% că cel puţin 42.9468% şi cel mult 48.2412% din
judeţul Bacău consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi răcoritoare:
Nw~ Δ ~ Np N w
~ Δ~
w w
285596 M 320804
Garantăm cu o probabilitate de 95.45% că în judeţul Bacău cel puţin 285596 persoane şi cel
mult 320804 persoane consumă săptămânal băuturi răcoritoare.
Aplicaţia 7
Studenţii unei facultăţi sunt împărţiţi în 100 de grupe. Fiecare grupă este formată dintr-un număr
egal de studenţi (16). S-a realizat un sondaj de serii, procedeul de selecţie a grupelor fiind
simplu aleator fără revenire, cu probabilităţi egale. Rezultatele sunt prezentate în tabelul 4.5.14
4.5.14
Ponderea studenţilor care doresc să Ponderea studenţilor care doresc să
seria seria
participe la cursul facultativ (%) participe la cursul facultativ (%)
1 60 9 55
2 54 10 58
3 56 11 59
4 62 12 63
5 63 13 62
6 50 14 64
7 49 15 62
8 58 16 61
Se cere:
1. Să se estimeze ponderea studenţilor care doresc să participe la cursul facultativ cu o
probabilitate de 95%.
2. Ştiind că raportul de corelaţie inter-serii este de 12% ce volum de eşantion ar fi fost necesar
dacă s-ar fi realizat un sondaj simplu aleator fără revenire?
Rezolvare
Tabelul 4.5.15
seria wj w j ŵ
2
seria wj w j ŵ
2
83
1. Calculele necesare sunt sistematizate în tabelul 4.5.15
Estimatorul în cazul unei variabile cantitative se calculează astfel:
r
1 9.36
ŵ
r w
j1
j
16
0.585
w
2
j ŵ
2 0.0318
ˆ p i 1
0.0021
r 1 16 1
Eroarea limită corespunzătoare probabilităţii de 0,95 este:
ŵ z ŵ 1,96 0,01055 =0,0207
Intervalul de încredere:
ŵ ŵ P ŵ ŵ 0,585 0,0207 P 0,585 0,0207 0,5643 P 0,6057
Garantăm cu o probabilitate de 95% că cel puţin 56,43% şi cel mult 60,57% din studenţi
doresc să participe la cursul facultativ.
2. În cazul sondajului de serii numărul de elemente simple ce au format eşantionul a fost de
256. Relaţia de calcul pentru sondajul simplu aleator fără revenire este:
z 2 S2 1,96 2 0,585 (1 0,585)
n 2 922 studenţi
w z S 2 N 0,0207 2 1,96 2 0,585 (1 0,585) 1600
Deoarece variaţia dintre serii este foarte mică (raportul de corelaţie inter-serii fiind doar 0,87)
sondajul de serii se dovedeşte foarte eficient.
Aplicaţia 8
O localitate este formată din 415 gospodării(serii). Numărul de elemente dintr-o serie
(membrii) este diferit şi nu se cunoaşte nivelul mediu al acestuia pentru toate cele 415
gospodării. Pentru a estima venitul mediu pe persoană se extrage în mod aleator un eşantion
format din 25 de serii. Datele centralizate sunt prezentate în tabelul 4.5.16
Tabel 4.5.16
Numărul.de venit total pe serie Numărul de venit total pe serie
seria seria
rezidenţi (mil. lei) rezidenţi (mil. lei)
1 8 32 14 10 30
2 12 42 15 9 32
3 4 19 16 3 12
4 5 22 17 6 25
5 6 27 18 5 18
6 6 26 19 5 21
7 7 27 20 4 17
8 5 21 21 6 22
9 8 30 22 8 30
10 3 15 23 7 25
11 2 10 24 3 14
12 6 26 25 8 29
13 5 20 Total 151 592
84
Se cere să se estimeze venitul mediu pe gospodărie şi venitul mediu pe persoană cu o
probabilitate de 95%.
Rezolvare
Este vorba de un sondaj de serii de dimensiune diferită selectate după un procedeu de selecţie
cu probabilităţi egale. Calculele sunt sistematizate în tabelul 4.5.17
Tabel 4.5.17
2 2
ˆ ˆ
seria Nj Tj T j Yj N j seria Nj Tj T j Yj N j
1 8 32 0.40419 14 10 30 84.7375
2 12 42 25.4657 15 9 32 10.7897
3 4 19 11.0083 16 3 12 0.05684
4 5 22 5.74729 17 6 25 2.181
5 6 27 12.0883 18 5 18 2.56848
6 6 26 6.13464 19 5 21 1.95259
7 7 27 0.19688 20 4 17 1.73681
8 5 21 1.95259 21 6 22 2.32007
9 8 30 1.86115 22 8 30 1.86115
10 3 15 10.4873 23 7 25 5.97171
11 2 10 4.66102 24 3 14 5.01048
12 6 26 6.13464 25 8 29 5.58962
13 5 20 0.15789
Total 151 592 211.07
r r
T j
ˆ j 1 595
Y N Y N j j j = r
151
3.94 mil. lei
j1 j1
Nj
j 1
Deoarece nu se poate calcula mărimea medie seriilor din populaţie N se va estima cu ajutorul
mărimii medii a seriilor din eşantion n .
r
151
n Nj r 6.04
j 1 25
Estimarea dispersia totalurilor seriilor faţă de totalul mediu este:
r 2
ˆ
j j j
T Y N
j 1 196 .143
ˆT 2 7.05
r 1 24
85
Eroarea medie de reprezentativitate este:
2
R r 1 ˆT 415 25 1 7.05
ˆ 2 2
0.085
Y R n r 415 6.04 25
3.774 Y 4.107
garantăm cu o probabilitate de 95% că venitul mediu pe o persoană în această localitate este
de cel puţin 3.774 mil. Lei şi cel mult 4.107 mil lei.
Venitul mediu al unei gospodării se încadrează în intervalul :(22.793; 24.107) mil lei.
86
Unitatea de învăţare 5
PLANURI DE SONDAJ COMPLEXE
5.1. Obiective
Planurile de sondaj prezentate până acum sunt desfăşurate într-un singur stadiu în care
unităţile simple sau complexe au fost selectate şi au format eşantionul. În cazul utilizării unui
plan de sondaj multistadial eşantionarea se realizează în mai multe etape numite stadii.
87
multe trăsături comune ce îi diferenţiază de alte grupuri. Acest lucru determină o variaţie mică
în interiorul unităţilor primare şi o variaţie mare între acestea, deci o eroare de
reprezentativitate mare.
Un astfel de sondaj presupune extragerea în primul stadiu a unui număr de unităţi
primare care nu vor fi cercetate în totalitate ci vor constitui o bază de sondaj pentru al doilea
stadiu când se vor selecta unităţile secundare ce vor constitui bază de sondaj pentru următorul
stadiu. Fiecare stadiu îşi va aduce contribuţia la calculul erorii de reprezentativitate, cea mai
mare contribuţie având-o eroarea din primul stadiu. Din acest motiv se recomandă ca
numărul de stadii să nu fie foarte mare.
Realizarea unui sondaj în mai multe stadii presupune existenţa unei grupări a
populaţiei. Această grupare, de cele mai multe ori, nu trebuie realizată în mod special
deoarece unităţile populaţiilor sunt deja grupate după criterii administrative, geografice,
sociale etc. De exemplu într-un sondaj realizat cu privire la starea de sănătate a populaţiei
eşantionul din primul stadiu este format din zone teritoriale. În al doilea stadiu din zonele
teritoriale selectate se vor extrage localităţile, iar în al treilea stadiu indivizii ce vor forma
eşantionul şi vor completa chestionarele. În această situaţie nu este necesară o bază completă
de sondaj decât pentru localităţile ce au fost selectate în al doilea stadiu.
UP
1 2 …. R
US STADIUL I
1 2 r
STADIUL II
88
Notăm cu:
R = numărul de unităţi primare din populaţie;
r = numărul de unităţi primare selectate în primul stadiu;
Nj = numărul total de unităţi simple (indivizi) din UPj;
nj = numărul de unităţi simple (indivizi) extrase din UPj .
În cazul în care unităţile primare şi secundare se selectează după procedeul aleator fără
revenire cu probabilităţi egale, variaţia estimatorului totalului variabilei studiate este dată de
relaţia:
r σ 2
R r 2 n j σ 22,j (5.2.6)
V(Tˆ) R 2 1 1 j N n
N 1
R r r j 1 j j
variaţia dintre UP variaţia din interiorul UP
2. 22,i variaţia din interiorul unităţii primare UPj cu j 1, R şi estimatorul acesteia ˆ 22,i
calculate conform relaţiilor:
Nj n
1 1 j
89
Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei
estimatorului valorii totale după relaţia:
Populaţie de volum N
Selecţia din
Eşantion de volum n1 faza 1
CHESTIONAR
Plan de observare
redus FAZA 1
Selecţia din
Eşantion de volum n2 faza 2
CHESTIONAR
Plan de observare
extins FAZA 2
90
neapărat că acestea au rolul de a informa în scopul derulării procesului de derulare a planului
de sondaj. Ele pot fi utilizate doar pentru analiza finală.
Să luăm ca exemplu un sondaj privitor la cheltuielile familiilor realizat în două faze.
Schema acestuia este prezentată în figura nr. 5.3.1. În prima fază pe un eşantion mare se vor
culege date privitoare la cheltuielile efectuate pe principalele grupe de cheltuieli. Informaţiile
obţinute vor permite cunoaşterea gradului de variabilitate al caracteristicilor şi vor facilita
realizarea unui eşantion reprezentativ în a doua fază. De data aceasta numărul caracteristicilor
cercetate va fi mult mai mare.
Cercetarea poate avea loc periodic sau se poate face la intervale neregulate de timp.
91
„Sondajele repetate, asupra aceleiaşi probleme, la intervale regulate de timp, urmărind
să identifice unele tendinţe, periodicităţi, sau alte elemente dinamice pentru parametrul de
interes se mai numesc şi sondaje longitudinale.” 9
Sondajele pe baza unui panel presupun iniţial realizarea unui eşantion reprezentativ
pentru populaţia studiată. Acest eşantion este de cele mai multe ori realizat după un plan
multistadial cu stratificarea unităţilor primare. Unităţile care formează aceste eşantioane
pot fi diverse: întreprinderi, magazine, gospodării, persoane. Eşantionul astfel constituit
permite strângerea de informaţii cu o anumită regularitate sau la intervale neprecizate de timp.
Pentru culegerea datelor se poate utiliza oricare din metodele cunoscute.
9
Dumitrescu M., 2000, Sondaje statistice şi aplicaţii, Ed. Tehnică, Bucureşti, p. 110.
92
O soluţie pentru înlăturarea acestor dezavantaje o constituie reînnoirea panelurilor
prin limitarea la un număr stabilit de participări la sondajele realizate după care vor fi
înlocuiţi. Înnoirea eşantionului poate fi parţială sau totală.
„Ca o conduită generală, condiţiile impuse de celelalte planuri de sondaj cu selecţie
probabilistică sunt necesare şi pentru construirea unui panel. De exemplu: definirea cu
exactitate a populaţiei de referinţă, construirea unei baze de sondaj adecvate, stabilirea unui
plan de sondaj eficient, alegerea metodei de culegere a datelor, alegerea unor metode
pertinente de redresare a eşantionului”10.
Eficienţa unui panel trebuie verificată pe toată durata de viaţă a acestuia. În principiu,
ideea de bază constă în a aprecia dacă s-au produs modificări semnificative în structura
eşantionului sau dacă modificările survenite asupra caracteristicilor demo-economice
sunt semnificative. Pentru a verifica acest lucru se utilizează următoarele metode:
10
Niculescu-Aron I. G., 2004, O privite generală privind utilizarea panelurilor în studiul comportamentului
consumatorului, Revista de informatică socială nr. 2/2004, www.ris.uvt.ro
11
Saporta G., 2003-2004, Enquetes et Sondages, http:// cedric.cnam.fr/~saporta
93
Dacă panelul nu mai este eficient se poate considera că cele două medii provin din
eşantioane independente. În acest caz între yi1 şi yi2 nu există nici o legătură, coeficientul de
corelaţie fiind nul iar varianţa diferenţei dintre medii este:V ( y 2 y 1 ) 2 2 n
În funcţie de valoarea coeficientului de corelaţie pot exista următoarele situaţii:
o ry1 y 2 0 legătură inversă între valorile variabilei yi la cele două momente de timp.
Uzura panelului este foarte mare şi necesită reînnoire totală.
o ry1 y 2 0,9 legătură foarte puternică între valorile variabilei yi la cele două momente de
timp. Panel eficient. Nu este necesară reînnoirea acestuia;
o 0,2 ry1 y2 0,9 Există o legătură între valorile variabilei yi la cele două momente de
timp dar nu foarte puternică reînnoirea parţială a panelului. În funcţie de valoarea
coeficientului de corelaţie se decide care este proporţia de reînnoire (k). Unii autori
consideră că valoarea optimă este de 50%.
o 0 ry1 y2 0,2 Nu există legătură între valorile variabilei yi la cele două momente de
timp. Se poate spune că datele provin din eşantioane independente reînnoirea totală a
panelului.
94
5.5. Aplicaţii
Aplicaţia 1
Se realizează un sondaj după un plan bistadial într-o localitate care are populaţia de 18 ani
peste de 48000. Unităţile primare sunt reprezentate de secţiile de votare (27) şi au fost
selectate după un procedeu aleator cu probabilităţi egale fără revenire. În tabelul 5.5.1. sunt
prezentate rezultatele obţinute în urma prelucrării datelor eşantioanelor din fiecare unitate
primară ce a fost selectată în eşantion.
Tabelul 5.5.1
nr. pers. nr. pers. care
nr. pers. venitul mediu dispersia după
secţia selectate din petrec la televizor
din secţia i (mil lei) variabila venit
secţia i mai mult de 3 h/zi
1 2116 43 2.8 0.04 20
2 2430 43 2.5 0.0576 25
3 2268 43 2.6 0.16 24
4 2346 52 3.8 0.09 28
5 1750 42 4.2 0.25 31
6 2386 52 4.1 0.16 36
7 2180 46 3.7 0.1089 28
8 1534 45 3.5 0.01 29
9 1598 42 3.4 0.09 33
10 2391 52 2.7 0.04 36
11 1295 52 2.9 0.0484 30
Se cere:
1. Să se estimeze venitul mediu din localitate pentru o probabilitate de 95%.
2. Să se estimeze procentul celor care petrec la televizor mai mult de 3 h/zi pentru aceeaşi
probabilitate.
Rezolvare
r
1 73023,4
Tˆ T̂ = i 6638.5 mil. lei
r i 1
11
95
Tabel 5.5.2
2
ˆ ni ni σ̂ 2,i
secţia Ni ni Y i
σ̂ 22,i T̂i (T̂i Tˆ ) 2 1 N i2 1
N i Ni ni
1 2116 43 2.8 0.04 5924.8 509354.714 0.98 4080.44
2 2430 43 2.5 0.0576 6075 317522.005 0.98 7769.85
3 2268 43 2.6 0.16 5896.8 550105.405 0.98 18776.93
4 2346 52 3.8 0.09 8914.8 5181583.08 0.98 9314.52
5 1750 42 4.2 0.25 7350 506245.186 0.98 17791.67
6 2386 52 4.1 0.16 9782.6 9885421.98 0.98 17135.15
7 2180 46 3.7 0.1089 8066 2037782.2 0.98 11013.39
8 1534 45 3.5 0.01 5369 1611607.17 0.97 507.58
9 1598 42 3.4 0.09 5433.2 1452726.18 0.97 5328.19
10 2391 52 2.7 0.04 6455.7 33412.5164 0.98 4301.96
11 1295 52 2.9 0.0484 3755.5 8311636.58 0.96 1498.25
Total 22294 512 73023.4 30397397 97517.92
Calculăm primul termen al erorii de reprezentativitate indus de selecţia din primul stadiu al
planului de sondaj.
11 3039739.7
Termen1=272 1 =119378868.2
27 11
Al doilea termen al erorii de reprezentativitate este determinat de selecţia ce a avut loc în al
doilea stadiu, în interiorul unităţilor primare ce au format eşantionul.
27
Termen2= 97517.92 =239362.8
11
Observăm că primul termen al variaţiei estimatorului are o contribuţie substanţială în
determinarea mărimii erorii de reprezentativitate. Acesta este motivul pentru care planul de
sondaj trebuie să se organizeze astfel încât să se reducă eroarea din primul stadiu. Se
recomandă stratificarea unităţilor primare.
96
2. Se pune problema estimării unei variabile calitative. Calculele sunt prezentate în tabelul
5.5.3.
Tabelul 5.5.3
2
ni n σ̂ 2,i
secţia Ni ni mi ŵi σ̂ 22,i T̂i (T̂i Tˆ) 2 1 N i2 1 i
Ni Ni ni
r
1 13843,11
Tˆ T̂ = i 1258.465 pers.
r i 1
11
11 75147.49792
Termen1=272 1 =2951247.191
27 11
27
Termen2= 225593.60 =553729.7456
11
Observăm că şi în acest caz primul termen al variaţiei estimatorului are o contribuţie
substanţială în determinarea mărimii erorii de reprezentativitate. stadiu.
Tˆ 2951247.191 553729.7456 1872.158363
Intervalul de încredere al totalului este:
Tˆ 1.96 Tˆ T Tˆ 1.96 Tˆ
30309 T 37648 persoane
Cel puţin 30309 persoane şi cel mult 37648 persoane petrec cel puţin 3 ore pe zi la televizor.
97
Procentul mediu estimat este:
Tˆ
ŵ 0.70789
N
Intervalul de încredere al procentului mediu este :
1 ˆ T 1
(T 1.96 * Tˆ ) (Tˆ 1.96 * Tˆ )
N N N
0 .6315 p 0.7843
Se garantează cu o probabilitate de 95% că cel puţin 63.15% şi cel mult 78.43% din populaţia
ce vârsta de 18 ani şi peste se uită cel puţin 3 ore pe zi la televizor.
Aplicaţia 2
Se cere:
Tabel 5.5.4
Număr salariaţi (pers.) Număr salariaţi (pers.)
la momentul la momentul
societate la momentul societate la momentul
verificării verificării
comercială realizării comercială realizării
eficienţei eficienţei
panelului panelului
panelului panelului
Yi1 Yi2
1 13 14 11 18 22
2 15 14 12 17 22
3 37 35 13 22 20
4 44 40 14 25 25
5 34 30 15 28 27
6 23 21 16 29 28
7 21 30 17 33 31
8 14 17 18 43 41
9 15 20 19 25 28
10 16 20 20 28 30
i1 i 1
n n y 2 i1 n y i1 2 n n y 2 i 2 n y i 2 2
i 1 i 1
98
Calculele necesare aflării coeficientului de corelaţie sunt prezentate în tabelul 5.5.5
Tabelul 5.5.5
societate
yi1 yi2 yi1 yi2 y2 i1 y2 i2
comercială
1 13 14 182 169 196
2 15 14 210 225 196
3 37 35 1295 1369 1225
4 44 40 1760 1936 1600
5 34 30 1020 1156 900
6 23 21 483 529 441
7 21 30 630 441 900
8 14 17 238 196 289
9 15 20 300 225 400
10 16 20 320 256 400
11 18 22 396 324 484
12 17 22 374 289 484
13 22 20 440 484 400
14 25 25 625 625 625
15 28 27 756 784 729
16 29 28 812 841 784
17 33 31 1023 1089 961
18 43 41 1763 1849 1681
19 25 28 700 625 784
20 28 30 840 784 900
total 500 515 14167 14196 14379
d y1 y 2 25 25.75 0.75
n
d d
2
Sd i n 1 229.75 / 19 3.47737
i 1
d y1 y 2
Statistica testului este: t c n n 0.96455
Sd Sd
Valoarea calculată a testului se compară cu cea teoretică corespunzătoare nivelului de
semnificaţie ales şi n-1=19 grade de libertate. Valoarea teoretică ce corespunde nivelului de
semnificaţie α=0.05 şi numărului de grade de libertate 19 este t=2.093 Deoarece valoarea
99
calculată este mai mică decât cea teoretică se acceptă ipoteza diferenţei nule ceea ce
înseamnă că nu există diferenţe semnificative între cele două medii, panelul fiind eficient
Tabelul 5.5.6
societate
comercială
yi1 yi2 di d d
i
2
1 13 14 -1 0.0625
2 15 14 1 3.0625
3 37 35 2 7.5625
4 44 40 4 22.5625
5 34 30 4 22.5625
6 23 21 2 7.5625
7 21 30 -9 68.0625
8 14 17 -3 5.0625
9 15 20 -5 18.0625
10 16 20 -4 10.5625
11 18 22 -4 10.5625
12 17 22 -5 18.0625
13 22 20 2 7.5625
14 25 25 0 0.5625
15 28 27 1 3.0625
16 29 28 1 3.0625
17 33 31 2 7.5625
18 43 41 2 7.5625
19 25 28 -3 5.0625
20 28 30 -2 1.5625
Total 25 25.75 -0.75 229.75
100
Unitatea de învăţare 6
SONDAJE NEPROBABILISTICE
6.1. Obiective
Toate tipurile de sondaj prezentate până în acest punct sunt probabilistice. Acestea
presupun existenţa unei baze de sondaj din care, cu probabilităţi cunoscute, se extrage fiecare
unitate a eşantionului a cărui mărime a fost determinată în funcţie de precizia estimaţiei dorite
şi de probabilitatea cu care dorim să garantăm rezultatele.
Există situaţii, în special în sondajele de opinie sau în studii de piaţă, când se utilizează
metode neprobabilistice de eşantionare.
Sondajele neprobabilistice sunt cele în care elementele ce formează eşantionul au fost
alese în mod arbitrar, iar probabilităţile fiecărei unităţi de a intra în eşantion sunt necunoscute.
Putem spune că aceste metode sunt neştiinţifice. Dintre acestea cele mai cunoscute sunt
sondajele efectuate pe baza următoarelor procedee de eşantionare: eşantionarea la întâmplare
(oarbă), eşantionarea pe baza metodei voluntariatului, eşantionarea raţională şi eşantionarea
pe cote.
101
6.3. Sondajul pe cote
Sondajul pe cote este cel mai utilizat sondaj neprobabilistic. În cazul acestui sondaj
deplasările anchetatorilor vor fi limitate, spre locuri alese la întâmplare dar bine determinate.
Această metodă conduce la economii de căutare şi deplasare, adesea foarte importante. Scopul
pe care şi-l propune metoda este ca eşantionul construit să se apropie cât mai mult posibil de
un eşantion obţinut pe baza unei selecţii aleatoare riguroase.
102
În acest tip de sondaj fiecărui operator îi este repartizat un număr de chestionare
stabilindu-se câte trebuie realizate pe fiecare categorie. Obligaţia operatorului este de a
respecta aceste criterii rămânând la latitudinea lui ce persoane să selecteze. Acesta este
motivul pentru care este necesar ca operatorii de interviu să fie foarte bine pregătiţi şi să aibă
experienţă în domeniu.
Criteriile de cote marginale sunt comode pentru operatori şi puţin costisitoare. Ele pot
fi stabilite cu exactitate, dar şansa de a obţine un eşantion reprezentativ este mai mică decât în
cazul cotelor încrucişate. După cum se observă în acest caz nu există nici o corelaţie între
103
criteriile de cotă. Operatorul de sondaj nu ştie câte femei trebuie să ia din fiecare categorie
socială sau câţi bărbaţi.
Pentru a realiza un plan de sondaj care să utilizeze cote încrucişate este necesară
cunoaşterea structurii populaţiei după cele două variabile. În cazul studiului nostru această
structură este prezentată în tabelul nr. 6.3.2. Foaia de cote după care trebuie să se ghideze
operatorul în această situaţie este prezentată în tabelul nr. 6.3.4. Prin această metodă sunt puse
în evidenţă neconcordanţele care există în ceea ce priveşte distribuţia pe categorii sociale
pentru cele două sexe.
104
Tabel 6.3.3. FOAIA DE COTE
40 de interviuri
Criterii de cotă nr. interviuri/ Interviuri
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
M 19
sex
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
F 21
Cat1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
18
Cat2 1 2 3
3
Categoria socială
Cat3 1 2 3 4
4
Cat4 1 2 3 4
4
Cat5 1 2
2
Cat6 1 2 3 4 5 6 7 8 9
9
105
Cu toate acestea unii autori consideră că în cazul sondajului pe cote se poate adopta
ipoteza unei selecţii simple aleatoare cu probabilităţi egale. Această ipoteză însă nu poate fi
demonstrată. Utilizarea relaţiilor de calcul a sondajului aleator cu probabilităţi egale pentru
volumul eşantionului şi a erorilor de reprezentativitate nu pot duce decât la aproximări mai
mult sau mai puţin grosolane.
În general acest tip de sondaj este utilizat în cercetări sociologice sau în studii de piaţă
în diferite localităţi fără a avea pretenţia reprezentativităţii la nivel naţional.
Uneori, datorită rapidităţii şi costului redus cu care se realizează, această eşantionare
poate fi combinată cu alte procedee de eşantionare în cadrul sondajelor complexe. De
exemplu, pentru realizarea unui studiu cu privire la atitudinea faţă de muncă a populaţiei în
vârstă de muncă din Bucureşti se proiectează un sondaj bistadial. Se împarte suprafaţa
Bucureştiului în 100 de zone de aproximativ aceeaşi arie care vor constitui unităţile primare
ce vor fi selectate în primul stadiu după un procedeu simplu aleator fără revenire. Pentru a
evita „efectul de serie” unităţile primare se stratifică după tipul zonei rezidenţiale. În stadiul al
doilea, pentru selectarea unităţilor secundare se poate utiliza eşantionarea pe cote.
106
BIBLIOGRAFIE
4 Levy P.S., Sampling of Populations, Third Edition, John Wiley&Sons New York,
Lemeshow S. 2000
5 Jaba Elisabeta, Analiza Statistică cu SPSS sub Windows, Editura Polirom Iaşi 2004
Grama Ana 1
6 Dumitrescu, Sondaje statistice şi aplicaţii, Bucureşti, Editura Tehnică, 2000
M
7 Mihoc Gh., Tratat de statistică matematică volumul Verificarea ipotezelor
Craiu V. statistice, Ed. Academiei R.S.R, Bucureşti 1977
14 Sincich T., Business statistics by example, Prentice Hall, New Jersez 1996
16 *** http://biol10.biol.umontreal.ca/BIO2042
17 *** http://www3.imperial.ac.uk/portal/pls/portallive/docs/1/7292119.PDF
107