Documente Academic
Documente Profesional
Documente Cultură
Obiectivele cursului
Să înţelegem principiile clusterizării.
Să înţelegem efectele clusterizării asupra erorii standard.
Să calculăm efecte de design în cazul eşantionării folosind
clustere (şi să estimăm mărimea optimă a unui cluster).
1
Valori ridicate ale lui Rho Valorile indivizilor - Valori scăzute ale lui Rho Valorile indivizilor –
apropiate de mediile împrăştiate faţă mediile
clusterelor din care fac clusterelor din care fac
parte. parte.
σ u2 σ u2
ρ= ρ=
σ u2 + σ e2 σ u2 + σ e2
Rho=1 Rho=0
Valorile indivizilor –
prezise perfect de
mediile clusterelor din Mediile clusterelor nu
care fac parte. variază (sunt prezise
perfect de media
tuturor clusterelor).
σ u2 σ u2 σ u2 0
ρ= = =1 ρ= = =0
σ u2 + σ e2 σ u2 + 0 σ u2 + σ e2 0 + σ e2
ExerciŃiile 1-2
1. Care este valoarea lui rho dacă: Omogenitatea clusterelor poate fi măsurată după realizarea
1. Varianţa interclustere este 10 iar cea intraclustere este 20? studiului.
2. Varianţa interclustere este 0 iar cea intraclustere este 2? Pentru a planifica studii putem folosi studii anterioare în care
se măsoară corelaţiile intraclustere.
3. Varianţa interclustere este 10 iar cea intraclustere este 0?
2
xtmixed rvarsta, || siruta:
Măsuri ale lui rho din National Health Survey, Mixed-effects ML regression Number of obs = 1214
Group variable: siruta Number of groups = 107
Sudman, pg 229
Obs per group: min = 7
avg = 11.3
max = 35
rho
Wald chi2(0) = .
Mărimea gospodăriei 0.196 Log likelihood = -5254.2398 Prob > chi2 = .
Venitul familiei este mai mare de 5000 de dolari sau mai mult 0.180 _cons 48.45928 .7124573 68.02 0.000 47.06289 49.85567
LR test vs. linear regression: chibar2(01) = 22.55 Prob >= chibar2 = 0.0000
. iccvar
Exercițiul 3
Intraclass Correlation Estimates
Repetăm, repetăm...
Clusterizarea tinde să crească eroarea standard (avantajul este
însă că un eşantion mai mare poate fi obţinut pentru o sumă
dată).
Eroarea standard creşte deoarece clusterele tind să fie mai
degrabă omogene.
Clusterizarea are un efect opus stratificării.
3
Efectul de design datorat clusterizării Exemplu
Dacă b=10 şi rho=0 =>DEFFcl=1
DEFFCL = 1 + (b − 1) * ρ
Dacă b=10 şi rho=1 =>DEFFcl=10
Dacă b=10 şi rho=0.05 => DEFFcl=1+(10-1)*0.05=1.45
Unde:
b- numărul de unităţi pe cluster (în practică b poate varia
uşor, în acest caz numărul mediu de unităţi pe cluster este o
aproximare bună).
rho – intra-cluster correlation.
De notat: rho este o caracteristică a populaţiei ce ţine de
definiţia unităţilor primare de analiză, dar designul eşantionului
trebuie să implice o alegere bună a lui b.
Exercițiul 5
Calculaţi efectele de design pentru următoarele eşantioane şi
stabiliţi care este mai eficient:
1. Sunt selectate 10 judeţe. În interiorul fiecărui judeţ sunt selectate
câte 4 secţii de votare iar în interiorul fiecărei secţii de votare câte
20 de persoane. Coeficientul de corelaţie intrajudeţe este de 0.1 iar
cel intrasecţii de votare este de 0.2.
2. Sunt selectate 20 judeţe. În interiorul fiecărui judeţ sunt selectate
câte 8 secţii de votare iar în interiorul fiecărei secţii de votare câte 5
de persoane. Coeficientul de corelaţie intrajudeţe este de 0.1 iar cel
intrasecţii de votare este de 0.2.
Unităţi secundare. Conţin b2 (5) 3. Se stratifică populaţia după mărimea localităţii şi regiune iar în
unităţi finale de selecţie. Măsura de Unităţi primare. Conţin b1 (3) unităţi fiecare strat se selectează un număr de 10 secţii de votare ce conţin
omogenitate în interiorul fiecărei primare de selecţie. Măsura de
unităţi secundare de selecţie este omogenitate este rho1. câte 10 persoane. Coeficientul de corelaţie intraclustere este de 0.2.
rho2.
DEFFCL = 1 + (b1 − 1)b2 * ρ1 + (b2 − 1) * ρ 2
4
Exercițiul 6 Exercițiul 7
Calculați efectul de design și factorul de design pentru diferite Știind că ne dorim ca pentru un eșantion construit eroarea
grade de omogenitate și pentru mărime a clusterelor. Pentru maximă să fie de +/-3% la un nivel de încredere de 95% (și că
calculul mărimii eșantionului efectiv luați în calcul faptul că pentru aceasta cu un eșantion aleator am avea nevoie de un
eșantionul total utilizat este de 1067 de persoane. eșantion de 1067de persoane), calculați eșantionul efectiv de
care este nevoie pentru a obține aceste rezultate.
Exercițiile 9-11