Sunteți pe pagina 1din 5

Curs 6.

Tehnici de sondaj Eșantionarea de tip cluster

Obiectivele cursului
 Să înţelegem principiile clusterizării.
 Să înţelegem efectele clusterizării asupra erorii standard.
 Să calculăm efecte de design în cazul eşantionării folosind
clustere (şi să estimăm mărimea optimă a unui cluster).

Estimarea omogenităŃii clusterelor

Coeficient de corelaŃie intracluster CorelaŃie intraclustere (intraclase)


Distribuţia clusterelor în populaţie nu este aleatoare. Ea este σ u2
caracterizată printr-o anumită omogenitate ce tinde să crească ρ=
σ u2 + σ e2
varianţa eşantionului.
unde :
Cu cât clusterele sunt mai omogene cu atât eroarea standard a σ u2 − varianţa între clustere
eşantionului este mai ridicată. σ e2 − varianţa din interiorul clusterelor
Indicatorul privind omogenitatea – rho. Rho – proporţia varianţei de nivel 2 în totalul varianţei.
Rho – intraclass correlation, intracluster correlation sau VPC
(Variance partitioning coefficient).
 Dacă clusterele sunt complet omogene – rho=1
 Dacă clusterele conţin elemente distribuite aleator – rho=0.
 Pe măsură ce omogenitatea creşte – rho creşte.

1
Valori ridicate ale lui Rho Valorile indivizilor - Valori scăzute ale lui Rho Valorile indivizilor –
apropiate de mediile împrăştiate faţă mediile
clusterelor din care fac clusterelor din care fac
parte. parte.

Distanţe mari între Distanţe mici între


valorile medii ale valorile medii ale
clusterelor. clusterelor.

σ u2 σ u2
ρ= ρ=
σ u2 + σ e2 σ u2 + σ e2

Rho=1 Rho=0

Valorile indivizilor –
prezise perfect de
mediile clusterelor din Mediile clusterelor nu
care fac parte. variază (sunt prezise
perfect de media
tuturor clusterelor).
σ u2 σ u2 σ u2 0
ρ= = =1 ρ= = =0
σ u2 + σ e2 σ u2 + 0 σ u2 + σ e2 0 + σ e2

ExerciŃiile 1-2
1. Care este valoarea lui rho dacă:  Omogenitatea clusterelor poate fi măsurată după realizarea
1. Varianţa interclustere este 10 iar cea intraclustere este 20? studiului.
2. Varianţa interclustere este 0 iar cea intraclustere este 2?  Pentru a planifica studii putem folosi studii anterioare în care
se măsoară corelaţiile intraclustere.
3. Varianţa interclustere este 10 iar cea intraclustere este 0?

2. Pentru un studiu putem alege pentru variabilă dată două tipuri de


clusterizare: pentru prima variantă rho este 0.5, iar pentru cea
de-a doua rho este 0.2.
a. Ce ne spun cele două valori?
b. Care dintre variante este cea mai bună pentru studiu dacă
costurile implementării lor sunt similare?

2
 xtmixed rvarsta, || siruta:
Măsuri ale lui rho din National Health Survey, Mixed-effects ML regression Number of obs = 1214
Group variable: siruta Number of groups = 107
Sudman, pg 229
Obs per group: min = 7
avg = 11.3
max = 35

rho
Wald chi2(0) = .
Mărimea gospodăriei 0.196 Log likelihood = -5254.2398 Prob > chi2 = .

Respondentul este negru 0.472


Venitul familiei este mai mic de 2000 dolari 0.091 rvarsta Coef. Std. Err. z P>|z| [95% Conf. Interval]

Venitul familiei este mai mare de 5000 de dolari sau mai mult 0.180 _cons 48.45928 .7124573 68.02 0.000 47.06289 49.85567

Respondentul este angajat 0.122


Numărul bolilor cronice la bărbaţi 0.032
Random-effects Parameters Estimate Std. Err. [95% Conf. Interval]
Numărul zilelor de boală la pat în ultimele două săptămâni 0.011
siruta: Identity
sd(_cons) 4.990005 .7563276 3.707538 6.716087

sd(Residual) 17.84367 .3793059 17.11552 18.6028

LR test vs. linear regression: chibar2(01) = 22.55 Prob >= chibar2 = 0.0000

. iccvar
Exercițiul 3
Intraclass Correlation Estimates

ICC Std. Err. [95% Conf. Interval]

siruta 0.07253 0.02039 0.03256 0.11250

Repetăm, repetăm...
 Clusterizarea tinde să crească eroarea standard (avantajul este
însă că un eşantion mai mare poate fi obţinut pentru o sumă
dată).
 Eroarea standard creşte deoarece clusterele tind să fie mai
degrabă omogene.
 Clusterizarea are un efect opus stratificării.

Efectul mărimii clusterelor asupra


erorii standard

3
Efectul de design datorat clusterizării Exemplu
 Dacă b=10 şi rho=0 =>DEFFcl=1
DEFFCL = 1 + (b − 1) * ρ 

Dacă b=10 şi rho=1 =>DEFFcl=10
Dacă b=10 şi rho=0.05 => DEFFcl=1+(10-1)*0.05=1.45
Unde:
b- numărul de unităţi pe cluster (în practică b poate varia
uşor, în acest caz numărul mediu de unităţi pe cluster este o
aproximare bună).
rho – intra-cluster correlation.
De notat: rho este o caracteristică a populaţiei ce ţine de
definiţia unităţilor primare de analiză, dar designul eşantionului
trebuie să implice o alegere bună a lui b.

ExerciŃiul 4 În cazul unui eşantion tristadial


 Stabiliţi efectele de design și mărimea efectivă a eșantionalor
ținând cont de faptul că eșantionul este clusterizat și că
DEFFCL = 1 + (b1 − 1)b2 * ρ1 + (b2 − 1) * ρ 2
volumul eșantionului este de 1000 de persoane în următoarele
situații... Unde b1 este numărul mediu al unităţilor secundare de selecţie
(SSUs) selectate în interiorul unităţilor primare de selecţie (PSU).
b2 – numărul mediu al unităţilor finale selectate în interiorul
fiecărui SSU
Rho1 – omogenitatea intracluster între unităţile secundare de
selecţie din interiorul aceleiaşi unităţi primare de selecţie.
Rho2 – omogenitatea intracluster între unitățile populaţiei din
interiorul aceleiaşi unităţi secundare de selecţie.

Exercițiul 5
 Calculaţi efectele de design pentru următoarele eşantioane şi
stabiliţi care este mai eficient:
1. Sunt selectate 10 judeţe. În interiorul fiecărui judeţ sunt selectate
câte 4 secţii de votare iar în interiorul fiecărei secţii de votare câte
20 de persoane. Coeficientul de corelaţie intrajudeţe este de 0.1 iar
cel intrasecţii de votare este de 0.2.
2. Sunt selectate 20 judeţe. În interiorul fiecărui judeţ sunt selectate
câte 8 secţii de votare iar în interiorul fiecărei secţii de votare câte 5
de persoane. Coeficientul de corelaţie intrajudeţe este de 0.1 iar cel
intrasecţii de votare este de 0.2.
Unităţi secundare. Conţin b2 (5) 3. Se stratifică populaţia după mărimea localităţii şi regiune iar în
unităţi finale de selecţie. Măsura de Unităţi primare. Conţin b1 (3) unităţi fiecare strat se selectează un număr de 10 secţii de votare ce conţin
omogenitate în interiorul fiecărei primare de selecţie. Măsura de
unităţi secundare de selecţie este omogenitate este rho1. câte 10 persoane. Coeficientul de corelaţie intraclustere este de 0.2.
rho2.
DEFFCL = 1 + (b1 − 1)b2 * ρ1 + (b2 − 1) * ρ 2

4
Exercițiul 6 Exercițiul 7
 Calculați efectul de design și factorul de design pentru diferite  Știind că ne dorim ca pentru un eșantion construit eroarea
grade de omogenitate și pentru mărime a clusterelor. Pentru maximă să fie de +/-3% la un nivel de încredere de 95% (și că
calculul mărimii eșantionului efectiv luați în calcul faptul că pentru aceasta cu un eșantion aleator am avea nevoie de un
eșantionul total utilizat este de 1067 de persoane. eșantion de 1067de persoane), calculați eșantionul efectiv de
care este nevoie pentru a obține aceste rezultate.

Exercițiul 8 Efect de design total


DEFFstrat = efectul de design datorat stratificării
DEFFcluster = efectul de design datorat clusterizării
Dacă acestea sunt singurii factori care afectează varianţa (faţă de SRS) atunci:
DEFFtotal = DEFFstrat * DEFFcluster

Exercițiile 9-11

S-ar putea să vă placă și