Sunteți pe pagina 1din 9

Revista Informatica Economica, nr.

1 (17)/2001 101
Probleme ale tehnicilor de sondaje de tip cluster

Prof.dr. Vergil VOINEAGU, prep. Dan PELE, Mircea-Alexandru VOINEAGU
Catedra de Statistica si Previziune Economica, A.S.E. Bucuresti


Cercetarea printr-un sondaj statistic a caracteristicilor unei popu-latii simple poate fi
dificila, din cteva motive naturale: inexistenta unei baze de sondaj formata din date corecte,
actualizate si imposibilitatea construirii unei asemenea baze de sondaj; costurile prea mari
pentru intervievarea unor esantioane relativ mari, cu o larga raspndire geografica. De
foarte multe ori, este mai avantajos sa consideram populatia tinta ca fiind formata din
grupuri (clusters), fiecare grup continnd la rndul sau un numar de unitati de observatie. n
general, populatia este organizata n mod natural n astfel de grupuri , cum ar fi familiile,
scolile, etc.
Cuvinte cheie: sondaj, cluster, esantion, estimator, populatie.

a presupunem, de exemplu, ca vrem sa
estimam numarul total de biciclete de-
tinute de membrii unei comunitati de 1000
de familii. Putem alege un esantion simplu
aleator de 400 de familii sau putem mparti
comunitatea n grupe de cte 20 de familii
si sa esantionam fiecare familie (sau sa
subesantionam cteva dintre familii) apar-
tinnd fiecaruia din cele 20 de grupuri
alese aleator dntre cele 500 care formeaza
comunitatea.
n general, sondajul de tip cluster va con-
feri mai putina precizie dect un sondaj
simplu aleator efectuat pe acelasi esantion.
Sondajul grupat pare destul de asemanator
cu cel stratificat; un cluster, ca si un strat,
este format printr-o grupare a membrilor
populatiei. Procesul de selectie a unitatilor
din esantion este nsa esentialmente diferit
n cele doua cazuri (anexa 1).
Daca n comparatie cu sondajul aleator
simplu, sondajul stratificat creste precizia
estimatiei, sondajul grupat realizeaza n
general contrariul.
Membrii aceluiasi grup au n general ca-
racteristici apropiate n comparatie cu uni-
tatile selectate aleator din populatia tota-la.
Esantionnd fiecare unitate din grup, se
repeta partial aceeasi informatie, n loc sa
se obtina noi date si informatii, ceea ce
duce la scaderea preciziei estimatorilor.
Cu toate acestea, sondajul de tip cluster
este destul de des utilizat n practica pentru
ca de obicei este mai ieftin si mult mai
convenabil de esantionat n grupuri dect
n populatia totala. n esenta, exista doua
tipuri de sondaj grupat:
- ntr-o etapa, cnd fiecare element din
grupul esantionat este luat n considerare;
- n doua etape, cnd se realizeaza o
subselectie n cadrul grupelor (reco-
mandata cnd volumul grupelor este mare).
De obicei, grupele au volume inegale, dar
exista cazuri cnd se lucreaza cu grupe de
volume egale (de exemplu n cazul blo-
curilor cu acelasi numar de apartamente).
n cele ce urmeaza vom lucra sub urma-
toarele ipoteze: volumul total al populatiei
este cunoscut si grupurile si unitatile din
grupa sunt selectate cu aceeasi probabi-
litate.

Notatii:
Fie { }
n
u u U K ,
1
populatie de n grupuri; S
desemneaza esantionul de grupuri extras
din U iar S
i
este esantionul de unitati
asociat grupului i, N i , 1 .
Notam y
ij
- variabila de interes pentru
unitatea j din grupul i.
Notatii pentru grupuri
N numarul de grupuri n populatie;
M
i
volumul grupului i;

N
i
i
M K
1
- numarul total de unitati n
populatie;
S
Revista Informatica Economica, nr. 1 (17)/2001 102

i
M
i
ij i
y t
1
- totalul n grupul i;



N
i
M
i
ij
N
i
i
i
y t t
1 1 1
- totalul populatiei;

,
_

N
i
i
t
N
N
t
t
s
1
2
2
1
- varianta inter- grupe.

Notatii pentru unitati

N
i
M
j
ij
u
i
K
y
Y
1 1
- media populatiei
i
i
M
j i
ij
iu
M
t
M
y
y
i


1
- media pe grupul i;
( )

N
i
M
j
u ij
i
K
y y
S
1 1
2
2
1
- varianta globala;
( )

i
M
j i
iu ij
i
M
y y
S
1
2
2
1
- varianta grupei i;

N
i
i ra
S
N
S
1
2 2
int
1
- varianta intra- grupe.

Notatii pentru esantion
n - numarul de grupuri din esantion;
m
i
- numarul de unitati din grupul i n
esantion;

i
S j i
ij
i
m
y
y - media (estimata) pentru
grupul i;
ij
S j i
i
i
y
m
M
t
i

- totalul estimat pentru grupul


i;
i
S i
unb
t
n
N
t

- estimator nedepla-
sat pentru totalul populatiei;

,
_

S i
unb
i t
N
t
t
n
s
2
2

1
1
- varianta estimata
inter- grupe;
( )

i
S j i
i ij
i
m
y y
s
1
2
2
- varianta estimata n
grupul i;

S i
i ra
s
n
s
2 2
int
1
- varianta estimata intra-
grupe.

Sondaj de tip cluster ntr-o etapa
Pentru acest tip de sondaj, dintr-un grup
care compune populatia, fie toate elemen-
tele sunt cuprinse n esantion, fie nici-
unul.Sondajul grupat ntr-o etapa este uti-
lizat n cercetarile n care costul esan-
tionarii unitatilor este neglijabil n compa-
ratie cu cel al esantionarii grupelor.
Din populatia de N grupuri, cel de-al i-
lea contine M
i
unitati. Extragem un
esantion simplu aleator de n grupuri si
masuram valoarea caracteristicii de interes
pentru fiecare unitate din cele n grupuri.
Deci n acest caz M
i
=m
i
.
Grupe de volume egale
Sa presupunem ca M
i
=m
i
=M. Sondajele
care privesc populatia nu intra de obicei n
acest model, dar sondajele din industrie
sau agricultura l pot utiliza cu succes.
Astfel, luam un esantion simplu aleator de
n observatii { } S i t
u
/ ;t
i
totalul n grupul
i. ntr-o cercetare de householding pentru a
estima venitul pentru o familie de doua
persoane, y
ij
sunt veniturile individuale, t
i

venitul mediu n familia i,
u
t - venitul
mediu pe familie,
u
y - venitul mediu pe o
persoana. Pentru a estima venitul total t,
folosim estimatorul:

S i
i
t
n
N
t

.
Din rezultatele pentru sondajul aleator
simplu avem:
- media: ( ) t t t E

este un estimator
nedeplasat pentru t;
- varianta: ( )
n
S
N
n
N t V
t
2
2
1


,
_

;
- eroarea
standard: ( )
n
s
N
n
N t SE
t
2
1


,
_

.
Pentru a estima media
u
y , folosim es-
timatorul:
Revista Informatica Economica, nr. 1 (17)/2001 103

NM
t
y

, obtinnd:
- media: ( ) y y y E
u

este un estimator
nedeplasat pentru
u
y ;
- varianta: ( )
2
2
1

nM
S
N
n
y V
t

,
_

;
- eroarea
standard: ( )
n
s
N
n
M
y SE
t
2
1
1


,
_

.
Proprietate:
Fie o populatie formata din NM unitati si
fie variabilele de selectie y
ij
,
M j N i , 1 , , 1 .Fie

n
i
m
j
ij
y
nM
NM t
1 1
*
1

estimatorul totalului
ntr-o selectie aleatoare fara revenire si t


estimatorul totalului pentru selectia grupata
ntr-o etapa.
Atunci ( ) ( )
2
int
2 *

ra
S S t V t V < < .
Demonstratie:
Din proprietatile sondajului simplu aleator
avem: ( ) ( )
2 *
1

S n N
n
NM t V .

Din calculul direct ( ) ( )
2
int
2
1 1
ra
S M N S NM +
2
1
t
S
M
N
.
Atunci avem: ( ) ( ) .

2
int
2 2 2 *
ra t
S S MS S t V t V < < <

Deci, pentru ca selectia dintr-o populatie
grupata sa fie preferabila selectiei dintr-o
populatie simpla trebuie ca grupele sa fie
mai eterogene dect populatia n ansamblu,
ceea ce e greu de ntlnit n practica . De
aceea se considera ca n general, prin
gruparea populatiei se pierde ceva din
precizia estimatorului.
Definim
( )
( )
*

t V
t V
deff - efect al modului de
proiectare(design effect).
Rezulta ca daca 1 < deff , atunci este
preferabil sondajul grupat.
Sa consideram doua populatii artificiale,
fiecare avnd trei straturi cu cte trei
elemente pe fiecare strat.


Cluster Populatia A Populatia B

1 10 20 30 9 10 11
2 11 20 32 17 20 20
3 9 17 31 31 32 30

Cele doua populatii au aceleasi elemente,
deci avem 20
u
y si s
2
=84,5, comune
pentru populatiile A si B. n populatia A,
cea mai mare variabilitate o gasim n
interiorul grupelor, n vreme ce pentru
populatia B faptul e valabil ntre grupe.

Cluster Populatia A Populatia B

1 20 100 10 1
2 21 111 S
2
intra
=111,6 19 3 S
2
intra
=1,6
3 19 114 31 1



Revista Informatica Economica, nr. 1 (17)/2001 104
Observam urmatoarele:
- populatia A:
< < < 6 . 111 5 , 84 1
2
int
2
ra
S S deff
este recomandabil sondajul grupat;
- populatia B:
> > > 6 , 1 5 , 84 1
2
int
2
ra
S S deff
este recomandabil sondajul simplu.

Grupe de volume inegale
n cercetarile sociale grupele sunt rareori
de volume egale. Spre exemplu, ntr-unul
din cele mai timpurii sondaje, n SUA n
1937, Enumerative Chek Census a ales un
esantion de 2% dintre drumurile postale si
chestionarele au fost distribuite tuturor
familiilor pe fiecare ruta postala aleasa.
Cum rutele postale au un numar diferit de
familii, marimea grupelor poate varia foar-
te mult.
Sondajul ntr-o etapa cu grupe de volume
inegale este o generalizare a celui cu grupe
de volume egale; n acest caz avem doua
moduri de estimare a totalului si mediei
populatiei: folosind estimatori nedeplasati
sau estimatori de tip raport.

Estimatie nedeplasata
Un estimator nedeplasat pentru totalul t
este:

S i
i unb
t
n
N
t

cu eroarea standandard
( )
n
s
N
n
N t SE
t
unb
2
1


,
_

.
Diferenta ntre cele doua tipuri de sondaj
grupat ntr-o etapa este ca variatia
totalurilor t
i
ale grupurilor individuale e de
asteptat sa fie mai mare atunci cnd
grupele au marimi diferite.De regula ne
asteptam ca totalurile t
i
si volumele M
i
sa
fie corelate: t
i
sa fie mai mare cnd M
i
este
mare si t
i
sa fie mai mic daca volumul M
i

este mic.Deci s
2
t
este mai mare atunci cnd
grupele au volume diferite fata de cazul
cnd au volume egale.Din aceasta cauza
variatia poate fi mai mare si prin urmare
putem obtine o precizie mai mica.
Putem defini un estimator nedeplasat
pentru
u
y si variatia sa.
Fie

N
i
i
M K
1
numarul total al unitatilor
populatiei. Atunci avem
K
t
y
unb
unb

cu
eroarea standard ( )
( )
K
t SE
y SE
unb
unb

.

Estimatorul de tip raport
Vom lua n considerare cazul cnd ne
asteptam ca totalurile t
i
sa fie corelate cu
M
i
si folosind estimatia de tip raport,
cantitatile M
i
apar ca variabile auxiliare.
Definim estimatorii de tip raport pentru
medie si total astfel:

S i
i
S i
i
r
M
t
y

,
r r
y K t

, unde

N
i
i
M K
1
.
Eroarea medie patratica a estimatorului de
tip raport pentru total este:

( ) ( )
2
1
2
2
1
1
1
1

,
_


N
i
i u i r
M y t
N N
n
n
N t t E .

Proprietate Eroarea medie patratica a esti-
matorului
r
t

este mai mica dect dispersia


estimatorului nedeplasat


S i S j
ij
i
y
n
N
t

atunci cnd variabilitatea


dintre mediile grupelor este mai mica dect
cea dintre totalurile grupelor.

Demonstratie Avem:
( ) ( )
2
1
2 2 2
1
1
1
1

,
_

,
_


N
i
i i t
y t
N
n
n
N S
N
n
n
N t V

Pe de alta parte:
Revista Informatica Economica, nr. 1 (17)/2001 105
( ) ( )
2
1
2 2
2
1
1
1
1

,
_


N
i
u iu i r
y y M
N N
n
n
N t t E
Inegalitatea ( ) ( ) t V t t E
r

2
< este echivalenta cu:
( ) ( )


<
N
i
u i
N
i
u iu i
y t y y M
1
2
1
2 2
.

Aceasta conditie este frecvent intlnita n
practica, pentru grupe care variaza mult ca
dimensiune.
Observatie Pentru a putea lucra cu esti-
matorul de tip raport pentru totalul
r
t

, este
nevoie cunoasterea numarului total K de
unitati de populatie.

Sondajul de tip cluster n doua etape
n cazul sondajului grupat ntr-o etapa,
examinam toate elementele din interiorul
unui grup din esantion. nsa n multe si-
tuatii elementele unui grup pot fi att de
asemanatoare nct cercetnd toate uni-
tatile unui grup se pierd resurse: financiare,
de timp, etc. n aceste situatii, este mai
mult mai ieftin sa elaboram un subesantion
n interiorul fiecarui grup esantionat:
- selectam un esantion simplu aleator de
volum n din populatia de N grupuri;
- selectam un esantion simplu aleator de
volum m
i
din fiecare grup i ales n prima
etapa (ANEXA2).
Estimatorii pentru t si
u
y sunt analogi
celor din sondajul ntr-o singura etapa, dar
formula variantei este mult mai compli-
cata.
Vom estima totalul pe grupuri prin:
i i ij
S j i
i
i
y M y
m
M
t
i


iar un estimator nedeplasat pentru totalul
populatiei va fi:



S i
i i
S i
i unb
y M
n
N
t
n
N
t

.
Dispersia lui t

are doua componente:


- variabilitatea ntre grupe;
- variabilitatea unitatilor n interiorul
grupelor.
Proprietate Pentru sondajul grupat n doua
etape avem:

( )
i
i
i
N
i i
i t
unb
m
S
M
M
m
n
N
n
S
N
n
N t V
2
2
1
2
2
1 1

,
_

+
,
_

.
Demonstratie: n [1] (demonstatia se
bazeaza pe folosirea notiunii de medie
conditionata).
Pentru a estima dispersia ( )
unb
t V

, fie
1

2
2

,
_

n
N
t
t
s
S i
unb
i
t

si
( )
1
2
2

i
S j
i ij
i
m
y y
s
i
.
Atunci un estimator nedeplasat pentru
( )
unb
t V

va fi:
( )
i
i
S i
i
i
i t
unb
m
s
M
M
m
n
N
n
s
N
n
N t V
2
2
2
2
1 1

,
_

+
,
_

.
Evident, eroarea standard a lui
unb
t

va fi:
( ) ( )
unb unb
t V y SE


.
Daca este cunoscut numarul total al ele-
mentelor populatiei K, putem estima media
populatiei prin:

K
t
y
unb
unb


cu eroarea standard a lui
unb
t

va fi:
( )
( )
K
t SE
y SE
unb
unb

.
Revista Informatica Economica, nr. 1 (17)/2001 106
Ca si n sondajul ntr-o singura etapa cu
grupe de volume inegale, ambele com-
ponente ale dispersiei pot fi afectate de
variatiile numarului unitatilor dintr-un grup
(M
i
) si de variabilitatea
i
y .
Estimatorul de tip raport
Pentru a estima media sau totalul po-
pulatiei putem folosi urmatorii estimatori
de tip raport:


S i
i
S i
i i
S i
i
S i
i
r
M
y M
M
t
y


K
M
y M
y K t
S i
i
S i
i i
r r



.
Proprietate.
Eroarea medie patratica a estimatorului
r
t

este aproximata perin expresia:


( ) ( )

,
_

,
_



i
i
i
N
i
i
N
i
u iu i r
M
m
m
M
n
N
y y M
N N
n
n
N t t E 1
1
1
1
1
1

1
2
2
1
2 2
2
( )
2
1
1
1

i
M
j
iu ij
i
y y
M

.
Demonstratie: Presupunem ca
n
M
n
i
i
1
este
un bun estimator al volumului mediu al
grupelor a..:

n
i
i
M
n
N K
1
1
.
Cu notatia
i
i
i
m
y
z n i , 1 avem
( )
u i
n
i
i r
y z M
n
N
t t

1

.
Aceasta variabila aleatoare are forma
estimatorului totalului ntr-o populatie
grupata, dar cu variabilele de selectie
( ) n i m j y y
u ij
, 1 , , 1 , .
Rezulta ca: ( ) ( )
,
_

u i
n
i
i r
y z M
n
N
V t t E
1
2


( ) [ ]

,
_

,
_



i
i
i
N
i
i
N
i
u iu i
M
m
m
M
n
N
y y M
N N
n
n
N 1
1
1
1
1
1
1
2
2
1
2

( ) ( ) [ ]
2
1
1
1

i
M
j
u iu iu ij
i
y y y y
M
.

Observatie Estimatorul mediei

S i
i
S i
i i
r
M
y M
y

, spre deosebire de

S i
i i
y M
n
N
K
y
1
nu
necesit a cunoasterea numarului total de unitati din populatie.
Un estimator pentru dispersia lui
r
y

este ([1]):
( )
1
]
1

,
_

+
,
_



S i i
i
i
i
i
r
r
m
s
M
m
M
nN n
s
N
n
M
y V
2
2
2
1
1
1
1


unde
( )
1

2
2

n
y M y M
s
S i
r i i i
r
, iar M
este volumul mediu al grupelor.
Exemplu
Sa presupunem ca vrem sa estimam, ntr-o
crescatorie de iepuri (perfect sanatosi)
numarul mediu de picioare. Crescatoria are
Revista Informatica Economica, nr. 1 (17)/2001 107
doua cladiri: una cu 30 de exemplare si alta
cu 10 exemplare.
Selectam o cladire cu probabilitatea 0,5,
apoi selectam aleator doi indivizi din acea
cladire si folosim
unb
y

pentru a estima
numarul mediu de picioare per individ.
Presupunem ca am selectat prima cladire.
n mod deloc surprinzator, fiecare individ
are patru picioare, deci 120 4 30


I
t .
Atunci un estimator nedeplasat pentru total
va fi: 240

1
2


I unb
t t , deci numarul
mediu de picioare pe individ este
6
40
240


unb
y !
Daca selectam a doua cladire,
40 4 10


II
t , 80

1
2


II unb
t t si
2
40
80


unb
y !
Evident ca n-am obtinut niste estimari
bune, desi sunt nedeplasate. Calitatea slaba
a lor este reflectata nsa de nivelul ridicat
al dispersiei:
( ) 64000 3200 4
2
1
1
1
2
2
1
1 2

2
2
2
2

,
_

+
,
_



i
i
S i
i
i
i t
unb
m
S
M
M
m
n
s
t V .

Aplicnd nsa estimatorul de tip raport
obtinem n ambele cazuri 4


r
y , un
rezultat corect, cu ( ) 0


r
y V .
n general, estimatorul nedeplasat al to-
talului populatiei este ineficient daca volu-
mele grupelor sunt inegale si t
i
sunt pro-
portionale cu M
i
. Dispersia lui
unb
t

depinde
varianta lui t
i
si aceasta varianta poate fi
foarte mare daca M
i
urile sunt diferite.
Estimatorul de tip raport, nsa, n general
da performante bune atunci cnd t
i
este
direct proportional cu M
i
, N i , 1 .

Bibliografie
1. W.Cochran Sampling Technics, 3
rd

Edition, Wiley, New York, 1977
2. M.Dumitrescu Sondaje statistice si
aplicatii, Editura Tehnica, 2000
3. S.Lohr Sampling: Design and
Analysis, Duxbury Press, 1999

Revista Informatica Economica, nr. 1 (17)/2001 108
ANEXA 1

Asemanari si deosebiri ntre sondajul stratificat si sondajul grupat
Sondaj stratificat Sondaj grupat

Fiecare element al populatiei se afla n Fiecare element al populatiei se afla n
exact un singur strat exact un singur cluster

Populatie de H straturi; stratul h are n
h
Sondaj grupat ntr-o etapa; populatie de N
elemente: grupe:








Se considera un esantion simplu aleator Se considera un esantion simplu aleator de
din fiecare strat: grupuri; se observa toate elementele din
interiorul unui grup esantionat:








Varianta estimatorului
u
y depinde de Grupul este unitatea de sondaj; cu ct s
variabilitatea valorilor n interiorul esantioneaza mai multe grupuri, cu att
straturilor. varianta este mai mica. n cazul estimatorului

u
y depinde n primul rnd de variabilitatea
ntre mediile grupelor.
Pentru o precizie mai mare elementele Pentru o precizie mai mare elementele
din interiorul fiecarui strat trebuie sa din interiorul fiecarui grup trebuie sa fie
aiba valori apropiate, dar mediile eterogene, iar mediile grupelor trebuie sa
straturilor trebuie sa difere unele de aiba valori apropiate una de alta.
altele, pe ct este posibil.






Revista Informatica Economica, nr. 1 (17)/2001 109
ANEXA 2

Diferenta dintre sondajul grupat ntr-o etapa si cel n doua etape

O etapa Doua etape
Populatie de N grupe: Populatie de N grupe:







Se considera un esantion simplu aleator Se considera un esantion simplu aleator
de n grupe: de n grupe:







Se observa fiecare unitate din interiorul Se considera un esantion simplu aleator
fiecarui grup esantionat: de m
i
unitati pentru fiecare grup i esantionat: