Sunteți pe pagina 1din 79

Curs 4.

Esantionarea
Curs Metodologie (II) / Dragos Iliescu
Ce analizam? Pe ce date? La ce
moment?
Cattell (1966) a propus un model sintetic
Cubul de covariaii (The Covariation Chart)

Intentii:
(1) un exemplu didactic, care s ndemne
cercettorii la o gndire multidimensional atunci
cnd i planific designurile
(2) s ilustreze istoric modalitile i naterea unor noi
modele i tehnici de analiz factorial (cum ar fi
tehnicile P, O, S i T).
The Covariation Chart
Cubul covariaiilor const din trei dimensiuni, numite i
moduri:
subieci,
variabile,
ocazii.

Aceste trei moduri formeaz un cub, o cutie, numit i


cutia cu date (data box), ce are pe fiecare latur o
serie de dou din aceste trei moduri.

Conform lui Cattell (1966), aceast concepie sintetic


privind relaiile dintre moduri sugereaz valoroase
forme de cercetare care altfel ar putea fi ignorate.
Multiway Analysis (1)
Multiway Analysis (2)
Cubul covariaiilor, desfurat
Tehnic Modul Modul replicat Modul
factorizat constant
O Ocazii Variabile Participani

P Variabile Ocazii Participani

Q Participani Variabile Ocazii

R Variabile Participani Ocazii

S Participani Ocazii Variabile

T Ocazii Participani Variabile


Perechea R-Q
Tehnica R, care este cel mai des folosit, ia n
considerare date culese cu aceeai ocazie (modul
constant), de la mai muli subieci (modul replicat), pe
care le analizeaz din punctul de vedere al variabilelor
implicate (modul factorizat).

Tehnica Q, care este perechea sa, dei are acelai mod


constant (date culese cu aceeai ocazie), consider date
ce se refer la mai multe variabile (modul replicat) i le
analizeaz din punctul de vedere al subiecilor de la care
au fost culese (modul factorizat).
Matricea de date folosit n tehnica Q va avea deci subieci pe
coloane i variabilele pe linii, exact invers dect are matricea de
date din R.
Perechea O-P
Tehnica O i tehnica P sunt opuse una alteia,
fiind ambele ideale pentru studiile de caz

Tehnica O folosete date culese de la acelai subiect,


privitoare la mai multe variabile, ncercnd s
deceleze diferene i similariti ntre diferitele ocazii
la care respectivele date s-au manifestat.

Tehnica P, pe de alt parte, culege date tot de la un


singur subiect, dar ncearc s deceleze ce variabile
s-au manifestat n diferite ocazii / evenimente.
Perechea O-P (contd.)
Tehnica P este precursorul acelor designuri de cercetare
numite astzi single-subject design.

Este n mod deosebit util n analiza proceselor


psihoterapeutice (Mintz & Luborski, 1970).

Mintz & Luborski (1970) au selectat 60 de sesiuni diferite de


terapie individual (ocazii, deci), ale aceluiai subiect. Acestea
au fost evaluate de trei evaluatori diferii, pe 18 scale, fiecare
reprezentnd o variabil diferit. Analiza factorial a relevat c
cele 18 variabile se grupeaz n patru factori, care descriu relaia
ntre pacient i terapeut (cei patru factori fiind cu mare
probabilitate specifici doar pentru respectiva relaie). Din cei
patru factori, doi corelau n mod semnificativ cu rezultatele
terapiei.
Perechea O-P (contd.)
Tehnica O ncearc s identifice similariti ntre
comportamentele n diferite ocazii ale aceluiai subiect.

Jones, Thompson & Miller (1980) au dorit s exemplifice pe ct


posibil modelele didactice / pedagogice aflate la dispoziia
profesorilor din Statele Unite.
Au fost alese 16 modele didactice diferite (ocazii), care au fost
evaluate din punctul de vedere a 33 de indicatori (variabile) de
ctre un numr de 142 de subieci, fiecare din ei avnd de evaluat
5-6 din cele 16 modele.
Atragem atenia asupra faptului c subiecii n ansamblu au fost
considerai ca fiind entitate evaluatoare (deci subiectul din
designul factorial). Analiza factorial a relevat trei meta-modele
pedagogice, care stau astzi la baza nvmntului pre-universitar
din Statele Unite.
Perechea S-T
Gorsuch (1983):
Tehnicile S i T nu sunt folosite practic niciodat,
pentru c generalizarea pe care ele ar putea-o ncerca
ar fi limitat doar la o singur variabil

Am putea specula c lipsa de folosire a tehnicilor S i T s-ar


putea datora faptului c analiza factorial, ca metod de
analiz, tinde n principal spre a releva diferene individuale
Diferenele individuale sunt nelese de psihologie ca fiind
variabile, deci un design n care variabila s fie modul
constant este greu de conceput.

Putem totusi imagina un design de tip S sau T?


Exemple
Research questions:

doresc sa evaluez felul in care stresul ocupational se relationeaza cu


sanatatea fizica

doresc sa evaluez felul in care o persoana se raporteaza la diverse


branduri

doresc sa evaluez cum un copil reactioneaza mai mult sau mai putin
agresiv in diverse situatii

doresc sa evaluez cum o situatie suscita comportamente anxioase diferite


la oameni diferiti

doresc sa evaluez cum emotiile placute sunt induse la angajatii din IT prin
diversi stimuli vizuali

...
Populatie, populatie-tinta, esantion
Populatie (population)

Populatie tinta (target population)


populatie de referinta
toate cazurile care respecta anumite specificatii

Esantion (sample)
reprezinta o proportie (o parte) din populatia de
referinta;
un subset de elemente extras din populatia generala,
care respecta caracteristicile de baza ale populatiei.
Populatie, populatie-tinta, esantion
(contd.)
Tipuri de esantionare si
reprezentativitate
Daca populatia este destul de mica incat sa o
masuram pe toata:
cercetare recensamant (census research):
Statisticienii britanici pot prezice cate persoane vor muri anul
acesta. Cei sicilieni pot da chiar si niste nume...

Daca populatia este prea mare, esantionam, dar


dorim sa generalizam la nivelul populatiei
Reprezentativitatea este conditia pentru care
esantionarea functioneaza
Probability sampling: esantioane reprezentative
Nonprobability samples: esantioane non-reprezentative
Pasi in esantionare
Population definition
definirea populatiei

Sampling frame
stabilirea cadrului de esantionare

Sampling method
stabilirea metodei de esantionare

Sample size:
determinarea marimii esantionului

Sampling & data collection:


implementarea planului si culegerea datelor

Review:
compararea esantionului cu intentiile, pentru a evalua generalizabilitatea
Definirea populatiei
definim populatia catre care dorim sa
generalizam rezultatele studiului
stabilim criterii de incluziune / excluziune

Exemplul 1: dorim sa evaluam specificul


anxietatii de testare in Romania

Exemplul 2: dorim sa evaluam atitudinea


tinerelor mame privind vaccinarea bebelusilor
Cadrul de esantionare
este o definitie operationala a populatiei definite
pentru studiu

spune in clar de unde luam participantii

de ex.
liste electorale
registrul scolar
cartea de telefon
de pe strada
din gospodarii
Sampling method
1. Probability Sampling
A. Aleatorie simpla
B. Esantionare sistematica (aleatorie)
C. Esantionare stratificata
D. Cluster Sampling

2. Nonprobability Sampling
A. Quota Sampling
B. Purposive sampling
C. Accidental/Convenience Sampling
1A. Simple Random Sampling
Fiecare membru are o sansa egala de a fi extras

Avantaje
minimizeaza erorile, interpretare facila

Dezavantaje
un esantion care nu reflecta structura populatiei de
referinta
Exemplu: analiza caracteristicilor esantionului indica
faptul ca avem 54% barbati si 46 % femei biased
sample
1A. Simple Random Sampling
(contd.)
equal chance of selection
culegere a raspunsurilor de pe strada?
carte de telefon?
se rezolva cu random-digit dialing?
liste electorale?

random selection
no bias involved in the selection of the sample
Sir Ronald Aylmer Fisher
(1890-1962)
Principiul randomizarii
Studies in Crop Variation I, II, III
BRILLIANT!!!

Rothamsted Experimental Station,


Harpenden, UK
serii de date (longitudinal, time series)
productia de grau ca functie a:
precipitatiilor (climat fluctuant de la an la an)
deteriorare a solului (efect usor descrescator)
Principiul randomizarii
(contd.)
Studies in Crop Variation I
efectul diferitelor mixuri de ingrasamant asupra cartofilor

Idee:
nu mai punem tipuri diferite de ingrasamant pe acelasi camp, in
ani diferiti
ci impartim campul in arii mai mici, ca o tabla de sah
fertility gradient pentru camp (necunoscut: tine de inclinatia solului,
diverse substante existente, umbra vs. soare etc.)

daca punem tipuri diferite de ingrasamant pe casutele din nord vs.


sud e posibil sa stam fix pe fertility gradient
daca punem alternativ, e posibil ca fertility gradient sa mearga
NW-SE
1B. Systematic Random Sampling
Procedura:
Pasul de esantionare: k=N/n
Ex: 21623849/2000 = 10811
Se va alege un numar la intamplare intre 1 si 10811 (sa zicem 233) si
ulterior se va selecta fiecare al 10811-lea membru din populatie.

Avantaje:
Usurinta aplicarii metodei ex: posesia de automobile lux in populatia
persoanelor cu venituri peste 1000 Euro lunar.
Potentiala crestere a eficacitatii statistice (aceasta va fi cel putin la fel
de eficienta ca in cazul SRS) (Kish, 1965)

Dezavantaje:
Ex: Sampling Frame Lista persoanelor care lucreaza in cazarme
militare. Daca lista este alcatuita in ordinea gradelor poate fi extras un
esantion omogen si nereprezentativ ex: doar ofiteri cu gradul
locotenent sau maior
1C. Esantionare Stratificata
Procedura:
Stabilirea unor sub-grupe (populatii) in functie de anumite criterii
mutual exclusive.
Criteriile ar trebui sa fie relationate sau relevante pentru modelul
de cercetare.

Ex: posesia de carti si IQ-ul (intre 0 si 100, intre 100 si


1000, peste 1000) 3 grupe distincte.

Procedura:
Ulterior se va aplica una din tehnicile de esantionare mentionate
anterior (ex: SRS sau Esantionarea Sistematica)
1C. Esantionare Stratificata
(contd.)
Avantaje:
asigura faptul ca diferitele sub-grupuri sunt reprezentate adecvat
in structura si volumul esantionului;
asigura un grad ridicat de control asupra esantionului
minimizand erorile;
cresterea preciziei analizelor statistice;
poate facilita realizarea unor analize mai detaliate

Dezavantaje:
costuri ridicate sub aspect material
durata cercetarii
irelevanta criteriului de stratificare (ex: trasaturi de personalitate
si IQ) pot fi generate grupuri irelevante
1C. Esantionare Stratificata
(contd.)
Alocare proportionata
N total = 15000, in functie de criteriul posesia de carti
4 grupe (n1=6000, n2=4200, n3=3300, n4=1500)
Volumul esantionului = 750 participanti
Sampling fraction = 750/15000=0.05
Ex:
n1 - 6000 X 0.05 = 300
n4 - 1500 X 0.05 = 75

Alocarea disproportionata surse de eroare la


nivelul analizelor statistice
1C. Esantionare Stratificata
(contd.)
1C. Esantionare Stratificata
(contd.)
Exercitiu
studiu politic populatia tinta pentru un
politician dintr-un anumit colegiu electoral
N (populatia) = 70000
n= 900
Formulati criterii de stratificare
Stratificare proportionala
straturile unui esantion pot fi orice fel de
variabile, insa de obicei sunt considerate
variabile demografice
de exemplu:
gen
varsta
mediu de provenienta
etc.
Stratificarea univariata a unei
populatii
Populatie
Masculin: 48%
Feminin: 52%

Esantion de 340 de participanti


Masculin: 163 participanti
Feminin: 177 participanti
Stratificarea bivariata a unei
populatii
Populatie
Gen:
Masculin: 48% (164 participanti)
Feminin: 52% (177 participanti)

Varsta
18-30 ani: 29% (99 participanti)
31-55 ani: 34% (116 participanti)
56+ ani: 37% (126 participanti)
Stratificarea bivariata a unei
populatii (Gen x Varsta, %)

Masculin Feminin Total

18-30 ani 13.92% 15.08% 29%

31-55 ani 16.32% 17.68% 34%

56+ ani 17.76% 19.24% 37%

Total 48% 52% 100%


Stratificarea bivariata a unei
populatii (Gen x Varsta, N)

Masculin Feminin Total

18-30 ani 47 51 99

31-55 ani 55 60 116

56+ ani 60 65 126

Total 163 177 340


Stratificarea trivariata a unei
populatii
Populatie
Gen:
Masculin: 48% (164 participanti)
Feminin: 52% (177 participanti)

Varsta
18-30 ani: 29% (99 participanti)
31-55 ani: 34% (116 participanti)
56+ ani: 37% (126 participanti)

Mediu de provenienta
urban: 59% (201 participanti)
rural: 41% (139 participanti)
Stratificarea trivariata a unei
populatii (Gen x Varsta x Mediu, %)
Masculin Feminin Total
Urban 18-30 ani 8.21 8.9 17.11

31-55 ani 9.63 10.43 20.06

56+ ani 10.48 11.35 21.83

Total 28.32 30.68 59


Rural 18-30 ani 5.71 6.18 11.89

31-55 ani 6.69 7.25 13.94

56+ ani 7.28 7.89 15.17

Total 19.68 21.32 41


Stratificarea trivariata a unei
populatii (Gen x Varsta x Mediu, N)
Masculin Feminin Total
Urban 18-30 ani 28 30 58

31-55 ani 33 35 68

56+ ani 36 39 74

Total 96 104 201


Rural 18-30 ani 19 21 40

31-55 ani 23 25 47

56+ ani 25 27 52

Total 67 72 139
Atunci cand esantionul e stratificat
(mai ales cu straturi complicate),
trebuie sa prezentati stratificarea
... si mai complicat ...
... si raportat la populatia de
referinta ...
... si uneori diferit de populatia de
referinta (argument?)
1D. Cluster Sampling
Esantionare in clustere

Procedura:
in loc sa fie esantionate elemente individuale, se vor esantiona grupuri
de elemente

Ex: evaluarea anxietatii de testare la elevii din clasa a IX a la nivel


national
N=255729
n= 2000
In medie fiecare liceu are 100 de elevi de clasa a IX a.
Nu se vor selecta elevi din cadrul fiecarui liceu, ci se vor selecta licee

Avantaje:
Costuri reduse (materiale, timp, evaluatori)
1D. Cluster Sampling (contd.)
2A. Quota Sampling
Esantionare pe cote

Principiu:
cercetatorul stabileste in mod deliberat proportiile pe care le au diferitele
grupuri (straturi) din esantion

de obicei supra-reprezinta anumite straturi astfel incat sa se asigure ca


sunt totusi reprezentate
Ex.:
dorim sa comparam nivelul de anxietate pentru diferite etnii: Romani vs. Maghiari
vs. Romi
dar proportia de Romi din populatie este de doar 2%
din 1000 de participanti, vom avea 20 de Romi: e suficient?

uneori sub-reprezinta anumite straturi, pentru a nu irosi resurse


Ex.:
dorim sa normam (etalonam) un test psihologic
dorim sa avem reprezentate toate varstele
dar conform recensamantului, 65% din populatia adulta este peste 40 de ani
2A. Quota Sampling (contd.)
Exemplu:
dorim sa studiem felul in care se compara
diferite religii, dar vrem sa comparam cel putin
ortodocsi, catolici, protestanti si neo-
protestanti
stim ca in populatie avem aproximativ 85%
ortodocsi, 7% catolici, 6% protestanti si 1%
neo-protestanti
cum esantionam?
2B. Purposive sampling
Esantionare pe obiectiv

Principiu:
un subset non-reprezentativ al populatiei, care serveste unui
scop anume
Ex:
manageri de resurse umane
nu cunoastem populatia, nu o putem specifica
vom include orice manager de resurse umane care ne sta la
dispozitie
dar ii vom cauta in mod activ

Snowball sampling = este un tip de purposive sampling


2C. Accidental/Convenience
Sampling
Esantionare de convenienta

Principiu:
includem orice participant este la indemana
de ex. voluntari, sau o intreaga clasa etc.
Sample size
Cat de mare trebuie sa fie un esantion pentru ca
analizele statistice sa fie precise si valide?

Exemplu
Politician, sondaj de opinie, N=1.500.000
Parametrul de interes (proportia totala a oamenilor care il
favorizeaza)
Din esantion (n) este necesar sa se afle proportia de oameni
care il favorizeaza (p)
Datorita erorilor parametrul nu va niciodata egal cu p
Diferenta dintre parametru si p = SAMPLING ERROR
Sample size (contd.)
Teorema limitei centrale
Pe masura ce creste volumul esantionului,
distributia mediilor esantionate tinde sa se
apropie de curba normala.
Cu cat creste n, cu atat scade eroarea de
esantionare;

Power analysis
Power analysis
Sample size:
de ce avem nevoie de esantion mai mare?
avem asteptari privind cresterea fidelitatii in
rezultate
si stim ca bigger is better
insa de fapt noi avem nevoie de un esantion
adecvat pentru scopul cercetarii
pentru respingerea sau nu (cu suficienta
corectitudine) a ipotezei nule
Power analysis (contd.)
Power analysis (contd.)
Power analysis (contd.)
Power analysis (contd.)
alpha:
willingness of rejecting a true null hypothesis
probability of committing a type I error
false negative: negative pregnancy test when a woman is in fact
pregnant
alpha < .05

beta
probability of committing a type II error
false positive: positive pregnancy test when a woman is not pregnant

significance = 1 - alpha

power = 1 - beta
Power analysis (contd.)
Type I errors vs. Type II errors
raport beta vs. alpha
4:1 ratio
alpha = .05
beta = .20
power = .80
O explicatie pas cu pas a
Erorilor de Tip 1 si 2
p si dependenta lui de N
p este dependent de marimea esantionului
http://vassarstats.net/tabs_r.html

de ex: r constant, variaza N


r = .30; N = 30, p = .0536
r = .30; N = 50, p = .0171
r = .30; N = 100, p = .0012
r = .30; N = 200, p = .000008

sau: N constant, variaza r


N = 100; r = .30, p = .0012
N = 100; r = .20, p = .0230
N = 100; r = .15, p = .0682
p si dependenta lui de N
deci la un esantion suficient de mare,
orice corelatie poate fi semnificativa

dar noi stim ca semnificatia nu e totul -


puterea efectului este si ea importanta
de ex. la r = .10, efectul este de R2 = .01 (1%)
p si dependenta lui de N
dar asta inseamna ca la esantioane mari o sa
acceptam drept corect (o sa detectam) un efect
care nu exista de fapt
ooops!

doar pentru ca esantionul este foarte mare, eu


detectez drept corect (semnificativ statistic) un efect
inexistent (effect size mic)

aceasta e Eroarea de Tip I


Eroarea de Tip I
Eroarea de Tip I = un fals pozitiv

spunem ca exista efect, dar el nu exista

cu cat e mai mic alpha (p), cu atat e mai mica sansa


pentru un astfel de fals pozitiv

deci ne aparam (printre altele) de Eroarea de Tip I


lucrand cu praguri de probabilitate severe
alpha < .10?
alpha < .05?
alpha < .01?
alpha < .001?
Inca o privire la relatia dintre alpha,
N si marimea efectului
daca avem un alpha=.05 si o limita de
r=.30 semnificativa (de ex., N = 30 si
atunci este sig doar ce e peste .30),
efectul minim care poate fi pus in evidenta
este R2 = .09 !
adica putem pune in evidenta efecte de .09, .
10, .20 etc, dar nu efecte de .08
de ce?
caci pentru ca noi sa avem R2 = .07, trebuie ca r
sa fie .264, dar un r = .264 este ns. (p = .079)
Cum punem in evidenta efecte mai
fine?
asadar, daca vreau sa pun in evidenta efecte
mici, fine, am nevoie de un anumit tip de
esantion, cu un N suficient de mare incat sa am
semnificatie statistica si la r-uri mici

altfel risc sa nu pot detecta un efect nici chiar


atunci cand el exista

acesta este o Eroare de Tip II


probabilitatea de avea o eroare de tip 2 se bazeaza
pe un indice similar cu alpha, numit beta
Alpha si Beta
indici
alpha = probabilitatea de a avea Eroare de Tip I
beta = probabilitatea de a avea Eroare de Tip II

deci alpha imi spune daca e posibil sa fi detectat in mod


fals un efect inexistent (fals pozitiv)
1-alpha = semnificatia = cat de sigur pot fi ca nu spun este la un
efect inexistent

iar beta imi spune daca e posibil sa nu fi detectat un efect


real (fals negativ)
1-beta = puterea = cat de sigur pot fi ca nu am ratat un efect
existent
Asa arata poza
Deciziile gresite (misdecision)
ambele erori (tip 1 si tip 2) sunt erori gresite
(misdecision)

teoretic, cand cresc pe una, scad pe alta

si pentru ca ambele sa fie optime, e nevoie de


un echilibru foarte fin intre
N
alpha
beta
effect size
Erori si erori ...
dar care din cele doua erori (I si II) e mai rea?

e mai rau sa zicem ca ceva exista si sa nu existe


(Tip I)

daca nu detectam un efect real (Tip II), nu e


mare problema
mai incercam si mai incercam si daca efectul e real,
pana la urma iese, mai ales la numarul mare de studii
care se fac astazi
Asadar e mai rea eroarea de Tip I
de principiu e mai bine sa ignori un adevar decat sa crezi o
greseala
de aceea se considera ca Type 1 e mai grav decat Type 2

si se considera ca raportul de 'gravitate' dintre cele doua este


de 1:4
deci de obicei echilibrul dintre alpha si beta este de 1:4

asta inseamna ca pentru un alpha .05 avem un beta de .20


asta inseamna un significance de 1-alpha = .95 si un power de 1-beta
= .80

(totusi, la studii de eficacitate e posibil sa vrem sa micsoram


beta si sa marim power)
Cum calculam acesti indici?
GPower

analiza apriori:
stim la ce effect size sa ne asteptam (sau
facem un educated guess)
stim cu ce alpha operam
stim cu ce beta operam
cerem sa ni se calculeze N-ul optim
Sau dupa ce este realizat studiul
analiza apriori nu ne scuteste insa de analiza reala a
studiului nostru real, dupa ce avem datele
pentru ca viata bate filmul si pentru ca nu iese nimic fix cum ne-
am propus

dupa ce avem datele stim exact


ce effect size avem
ce alpha avem la acel effect size
cat e N
deci putem calcula puterea reala a studiului nostru (1-beta)

asta se numeste "analiza post-hoc"


Sampling error(s)
Standard Error of Sampling:
SES = (1/sqrt(N))*100
+/- SES ne da abaterea fata de proportiile populatiei
e valabil pentru frecvente simple (distributii univariate)

Standard Error of Proportion:


SEP = sqrt((p(1-p)/N))
Daca p reprezinta o estimare perfecta a parametrului, atunci Standard
error of proportion = 0
+/- SEP ne da intervalul de incredere al proportiilor estimate
de ex. pentru un esantion de N=200 si un parametru estimat de 25%
(0.25, adica 1 din 4 participanti raspund da la o intrebare), SEP =
sqrt(.25*.75/200)=.03 adica 3%, deci parametrul real este intre 22-28%

Ex.
in cazul politicianului, daca p=.50, n=100?
Sample size (contd.)
European Federation of Psychologists Associations (EFPA, 2006)
Dimensiunea esantioanelor normative ale testelor

Validare de construct, convergenta, criterion related, precum si


estimarea fidelitatii
Levels of measurement &
Levels of analysis
Este CRITIC sa stabilim corect cadrele de masurare si
de analiza

Nivelul de masurare
tipul de variabila unde se face masurarea

Nivelul de analiza
tipul de variabila unde se face analiza datelor

Cele 2 niveluri nu trebuie niciodata amestecate (cel putin


nu pentru statisticile care ne sunt accesibile la acest
moment)
cand se amesteca: Multi-Level Modeling
Exemple de Multi-Level Designs
Research question 1:
In ce masura numarul de angajati dintr-o companie
influenteaza sprijinul social perceput de angajati

Research question 2:
In ce masura Well-being-ul profesorilor influenteaza
achizitiile elevilor

Research question 3:
In ce masura satisfactia muncii influenteaza
productivitatea organizatiilor
Watch me!

http://www.youtube.com/watch?v=e8i6YQ9-y5E

S-ar putea să vă placă și