Documente Academic
Documente Profesional
Documente Cultură
EŞANTIOANELOR DE STUDIU
- Metode de eșantionare;
- Calculul dimensiunii eșantionului
Eşantionul ar avea o eroare de deplasare (engl. bias error), numit bieu, care ar denatura valorile
medii reale existente pe întreaga populaţie.
Exemplul 2
Au existat perioade în care guvernele au investit mai mult în domeniul medical – ca urmare s-au efectuat
și studii asupra stării de sănătate a populație.
Problemă: în majoritatea cazurilor a rezultat o corelație de tip direct proporțional între investiție și
starea scăzută de sănătate a populației. Cum este posibil ca investind în domeniul medical să se obțină o
scădere a stării de sănătate ? Poate exista o eroare de interpretare ? Pot exista factori de confuzie ?
Exemplul 3
Există meserii care cer efort fizic crescut. Ca urmare dintr-un studiu a reieșit că durerile de spate scad
odată cu creșterea efortului fizic. Această concluzie este ciudată atâta timp cât este știut că efortul
fizic crescut duce în general la apariția afecțiunilor legate de sistemului osos.
Problemă: care sunt posibilele erori ? Eșantionul a fost ales corect ? Aceeași întrebare apare: există
factori de confuzie ? Cum îi luăm în calcul? Cum corectăm ?
Exemplul 4
Un studiu asupra elevilor din clasele terminate, a avut ca temă evaluarea aptitudinilor cognitive din
domeniul matematic. S-a creat un chestionar și s-a aplicat pe eșantionul corect determinat pentru
analiză. În final s-a obținut semnificație statistică deci diferență confirmată între grupurile create după
gen. Băieții obținând în medie cu 8 puncte, din totalul de 100, mai mult decât fetele.
Evident întrebarea era cât se poate de provocatoare: Oare este corectă această concluzie ? Nu există
factori de confuzie care să deformeze realitatea ?
S-a reanalizat studiul și s-a introdus o nouă informație (o nouă variabilă) orele de pregătire
suplimentară la matematică. Deoarece majoritatea băieților intenționau să urmeze studii universitare
sau postliceale din domeniul tehnic, aceștia se pregăteau suplimentar la matematică și fizică.
Introducând această informație în analiză nu s-a mai obținut semnificație statistică pentru genul
persoanei deoarece diferența era definită de orele suplimentare de pregătire în domeniu.
În concluzie pregătirea suplimentară este o variabilă mediatoare care se interpune în lanțul de estimare
a cunoștințelor de forma:
Ore pregătire
Gen Evaluare mate.
mate.
Exemplul 5
S-a efectuat un studiu și s-a găsit o relație direct proporțională semnificativă între consumul de
înghețată și vânzările de ochelari.
Evident relația nu prezintă legătură cauză efect: ”consumul de înghețată implică creșterea dorinței sau
necesitatea de a cumpăra ochelari ” ?!?
Variabila care este implicată este temperatura exterioară care odată ce este crescută, deci avem zile
însorite călduroase, implică creșterea consumului de înghețată cât și utilizarea ochelarilor.
Această variabilă este numită de confuzie având efect asupra altor variabile. Astfel relația dintre
variabile este cauzată de variabila de confuzie – creează această confuzie.
Zile însorite.
Temperaturi
crescute
Consum Vânzări
înghețată ochelari
Relație lipsită, apparent este de natura
cauză-efect
Metode de alegere a elementelor eşantionului
Media eşantioanelor create prin această metodă este o variabilă aleatoare distribuită normal cu media
egală cu media populaţiei de studiu (se poate demonstra matematic – teorema limită centrală). Faptul că nu
există diferenţă între media reală şi media acestor combinaţii determină lipsa erorii de deplasare.
Prin acest procedeu, fiecare caz are aceleaşi şanse de a fi selectat, probabilitatea fiind egală cu 1/N.
Exemplu
Un exemplu practic poate fi realizat folosind Microsoft Excel. În cadrul acestei aplicații avem funcţia
RAND(). Aceasta returnează un număr de tip aleator, cuprins între 0 şi 1. Distribuţia este de tip uniform
(constantă), deci păstrează o probabilitate egală de apariţie pentru orice valoare din domeniu.
Metoda 1 – Adăugăm o coloană nouă setului inițial de date. Această coloană o încărcăm cu valoarea rand().
Ordonăm după această coloană datele – practic astfel acestea vor fi așezate aleator. Alegem din acestea
primele n rânduri pentru care vom aplica analiza statistică. –
Metoda 2 – Folosim această funcţie pentru a genera numere aleatoare în domeniul 1,…,N. Pentru aceasta vom
înmulţi funcţia RAND() cu N şi vom alege doar partea întreagă a rezultatului. Tot în MS Excel avem funcţia
INT() care extrage partea întreagă a unui număr pozitiv prin pierderea zecimalei. Astfel, vom fi nevoiţi să
înmulţim cu N+1 pentru a genera numere între 1 şi N.
Tehnica pleacă de la un punct de start, ce poate fi chiar primul element al listei şi prin adunarea la
acesta a unui număr constant se determină poziţia următorului element ce va fi inclus în lot. Se repetă
procedeul până la ultimul termen al listei sau până când s-a completat întregul volum de analiză.
1 – Se porneşte cu elementul iniţial (I0), la care se adaugă o cantitate constantă (k) şi se alege elementul
de pe poziţia I0+k, apoi I0+2k, … , I0+(n-1)k.
2 – Se pleacă de la elementul iniţial (I0), se sar k elemente şi se alege elementul de pe poziţia I0+k+1, apoi
I0+2(k+1), … , I0+(n-1)(k+1).
Exemplu
Folosind programul MS Excel, alegem funcţia MOD(N1, N2). Numărul N1 este deîmpărțitul iar N2
este împărţitorul. Funcţia MOD determină restul împărţirii lui N1 la N2. Dacă N2 este multiplu de N1 atunci
restul este 0. Prin urmare, se aleg elementele pentru care funcţia MOD returnează valoarea 0.
Astfel dacă alegem perioada de 3, atunci N2=3 iar N1 este numărul de ordine din cadrul listei totale.
Elementele din coloana funcţiei MOD de valoare 0 vor fi cele alese. Acestea pot fi uşor determinate prin
ordonare.
După numele acesteia putem deduce existenţa unei legături între această metodă şi eşantionarea
simplă aleatore. Metoda stratificată este o modificare a eşantionării simple în sensul păstrării unei proporţii
reale între subgrupurile ce alcătuiesc întreaga populaţie ţintă. Este utilă în situaţii în care subgrupurile
componente prezintă variaţii diferite.
Presupunem că avem m subgrupuri componente, fiecare având ni elemente. m
Fiecare eşantion al unui subgrup este determinat prin metoda de eşantionare aleatoare simplă. Volumul
fiecărui subgrup este stabilit prin tehnici ce vor fi prezentate în capitolele următoare.
Şi în această situaţie statistica matematică poate demonstra lipsa erorii de deplasare în eşantionarea
stratificată aleatoare. Chiar mai mult, precizia în determinarea valorii medie este mai bună decât cea din
metoda aleatoare simplă. Tocmai păstrarea proporţiei aduce această îmbunătăţire a preciziei.
4 - Eşantionarea în ciorchine (cluster – grup, ciorchine)
Elementul selectat în acest caz este un grup (ciorchine – cluster). Pentru a realiza un astfel de
studiu, de exemplu într-un oraş, se pot alege prin tehnici aleatoare, diferite blocuri de persoane, pentru ca
apoi pe familii să se completeze chestionarele în cauză.
Avantajul acestei metode rezidă în partea materială, studiul de acest fel fiind optimizat din punct de
vedere al resurselor umane, financiare se câştigă şi timp este și economic. Metoda dă rezultate bune dacă se
aplică corect alegerea aleatoare a ciorchinelor ce definesc eşantionul.
Dacă dorim să intervievăm turiştii dintr-o anumită zonă geografică, vom aplica chestionare în
diferite puncte de atracţie. Dacă limba de comunicare este engleza, atunci din start am ales doar pe
cei anglofoni. Deja o eroare este inclusă în eşantion.
Un alt punct de vedere de exemplu, dacă nu ţinem cont de puterea financiară a turiştilor,
putem afecta corectitudinea studiului. Dacă punctele de atracţie sunt foarte scumpe, evident doar
persoanele cu putere financiară vor avea acces. Astfel, numărul de chestionare trebuie să fie în
echilibru cu proporţia pe subgrupe a populaţiei.
Chiar şi momentul ales din timpul zilei este important. Ziua anumite centre de atracţie au
căutare iar spre seară, evident, apar alte priorităţi în programul turiştilor – aici vârsta va fi un factor de
determinare a programului ales și astfel a punctelor de atracție frecventate.
6 –Eşantionarea prin autogenerare (bootstrap – autogenerator)
Este ca noţiune, diferită de cele deja prezentate deoarece aceasta creează eșantioane noi dintr-un set de
date deja extras.
Permite crearea de eşantioane din elementele unui lot de studiu. Mai mult chiar, elementele se pot
repeta în cadrul eşantionului. Cerinţa de bază este ca eşantionul sursă utilizat să fie reprezentativ pentru
populaţia analizată.
Este o metodă neparametrică ce se poate utiliza pentru a estima indicatorii statistici (media este de
obicei de interes) prin interval de încredere. Cu alte cuvinte, nu se cere ca tipul distribuţiei să fie cunoscut (de
obicei de tip Gauss-Laplace).
Paşii de urmat în aplicarea metodei:
1 – Se pleacă iniţial de la elementele eşantionului sursă de volum notat N.
2 – Se defineşte volumul n al fiecărui nou eşantion generat.
3 – Se realizează prima extragere de tip aleator de n elemente din cele N. Primul eşantion este astfel generat.
4 – Se întorc elementele n la loc în sursă. Ca urmare a acestui fapt, metoda se numeşte „cu întoarcere” sau „cu
înlocuire”.
5 – Se realizează a doua extragere în acelaşi mod şi procedeul se repetă până la completarea numărului de
eşantioane dorite.
Eşantioanele astfel create pot forma o bază de date de studiu, iar tehnicile aplicate trebuie să fie de
tip neparametric, deoarece nu se cunoaşte tipul de distribuţie din care sunt culese datele – avantaj pentru
această tehnică !
Exemplu
Lotul iniţial cuprinde 30 de date în domeniul B3:K5. Prin FORMULAS+DEFINE NAMES denumim
acest bloc de date şi îl numim ESANTION. Folosim funcţia INDEX() care citeşte valoarea unei celule
determinate de numărul rândului, respectiv al coloanei blocului de date definit. Pentru a alege celule într-o
formă aleatorie folosim funcţia RAND() deja prezentată în exemplele anterioare.
Astfel, în fiecare din celulele de la B7 până la K106 (deci o sută de eşantioane), avem funcţia:
=INDEX(ESANTION,ROWS(ESANTION)*RAND()+1,COLUMNS(ESANTION)*RAND()+1)”.
Dimensiunea eşantionului de studiu
În cadrul efectuării unei analize statistice, într-o primă etapă, o problemă crucială constă în
determinarea volumului eşantionului de studiu. Ne interesează în mod imperativ numărul de date necesare
pentru ca lotul de studiu să fie reprezentativ statistic, ceea ce înseamnă să avem încredere în rezultatele
obţinute prin aplicarea analizei statistice.
Statistica matematică ne ajută pentru indicatorul studiat, cu formule determinate pe baza intervalului
de variaţie cu o încredere prestabilită. Astfel, intervalul de variaţie admis trebuie să fie mai mic decât o
valoare definită ca satisfăcătoare pentru a accepta rezultatele finale – este eroarea admisă.
Prezentăm mai multe situaţii în care determinăm matematic volumul eşantionului şi apoi pentru o buna
înţelegere, completăm cu exemple practice.
Situaţie adevărată
Sistem decizional cu prag Ipoteza H1 este
Ipoteza H0 este adevărată
adevărată În statistică se lucrează cu două ipoteze H0
Nu există eroare respectiv H1. Decizia se ia funcție de o condiție
Decizie prin test
Intervalul de confidență al mediei este : X min/ max = X Z deci d = Z
1− n 1− n
2 2
2
2
Putem deduce volumul eșantionului :
n Z 2
(pentru populație infinită) 1− 2 d
În cazul studiului de prevalenţă scopul este de a determina proporţia de bolnavi dintr-o anumită
populaţie.
p (1 − p )
Pentru această situaţie eroarea standard are formula de calcul: Er.std . =
n
Aici p este proporţia ce trebuie verificată.
Asemănător metodei 1 de determinare a volumului eşantionului, putem pune condiţia ca limitele maximă,
respectiv minimă să nu depăşească o anumită distanţă d definită de cercetători ca acceptabilă studiului.
p (1 − p )
Cerinţa aceasta poate fi exprimată matematic: Z d
1− n
2
2
p (1 − p )
Se determină în final volumul eşantionului: n Z
1− 2 d2
Formula pare puţin ciudată! Dorim să estimăm proporţia p cu o eroare mică notată d şi determinăm
volumul eşantionului, funcţie tot de proporţia p. Dacă nu cunoaştem această proporţie, atunci ar trebui mai
întâi estimată într-o formă, poate aplicând un studiu pilot pentru a avea o informaţie minimă asupra ei.
Ca observaţie, valoarea proporţiei p poate să nu fie cunoscută. S-a menţionat deja
posibilitatea efectuării unui studiu pilot pentru determinarea valorii p. Totuşi p variază
Formula de calcul prezentată este între 0 şi 1, iar produsul p(1-p) are o proprietate remarcabilă.
valabilă pentru o populaţie infinită
Figura alăturată prezintă variaţia produsului p(1-p) pe intervalul [0, 1]. Maximul
sau de volum foarte mare (pentru
este pentru p=0,5 şi are valoarea 0,25. Iată o proprietate ce ne ajută foarte mult. Chiar
estimarea corectă a proporţiilor). dacă nu cunoaştem valoarea proporţiei noi putem impune condiţia ca volumul
În realitate, populaţiile au volum eşantionului să fie de o anumită dimensiune. Chiar dacă această dimensiune nu este
finit (pop=volumul, în formulă). optimizată, ea este foarte utilă deoarece numărul de date fiind mărit şi încrederea la
Este normal să se aplice o corecţie rândul ei va fi mai mare.
matematică în situaţiile finite.
Formula corectată a determinării p(1-p)
volumului eşantionului: 0.3
0.25
n
n corectat = 0.2
n −1
1+ 0.15
pop
0.1
0.05
0
0 0.125 0.25 0.375 0.5 0.625 0.75 0.875 1
p
Exemplu 2
Presupunem că avem de determinat o proporţie a cărei valoare
valori este aproximativ cunoscută
p 0,80 . Cu încredere de 95% să se deducă numărul de date necesare pentru a nu se efectua o eroare
mai mare de 10% în estimarea proporţiei.
Pentru 95% încredere, avem = 1 − 0,95 = 0,05 . Astfel 1 − = 0,975 şi deducem
2
Z ( 0,975) = 1,96 (din tabelul distribuţiei Gauss normalizate).
Dacă eroarea este de maxim 10% avem d= 0,8 0,1 = 0,08 (atenţie în definirea erorii).
2
p (1 − p )
Calculăm volumul minim al eşantionului de studiu: n Z ,
1− 2 d 2
0,8 (1 − 0,8)
n (1,96 )
2
2
, obţinem n=96,04. Alegem astfel n=97 pacienţi.
0,08
Menţionăm că şi softul EpiInfo 3.3.2 2005, poate determina volumul eşantionului urmând paşii:
Utility + StatCalc + Sample Size &Power + Population Survey.
Observaţie
Dacă nu cunoşteam valoarea aproximativă a proporţiei atunci aproximăm prin adaos. Astfel
p(1-p)=maxim pt p=0.5. Obţineam n=150. Astfel, numărul de pacienţi ar fi fost crescut – ca analiză
statistică ar fi fost corect !
Exemplu 2 GPower
În cadrul ipotezei alternative (H1 sau Ha), mediile NU sunt egale, vom avea mai multe variante ale
diferențelor posibile. Astfel depinzând de situația reală și distribuția diferențelor mediilor va putea fi în
dreapta sau în stânga la o anumită distanță de distribuția diferențelor mediilor pentru H0 adevărată.
Observație: deoarece deviația standard depinde invers proporțional de n (prin 1/sqrt(n)) prin mărirea
volumului eșantionului putem micșora dispersiile și deci erorile vor fi mai mici. Acceptăm ușor regula că pentru
eșantioane de volume mari estimările sunt cu interval de confidență mic.
4 – Determinarea volumului eşantionului de studiu pentru verificarea unei diferenţe impuse
În cadrul unei cercetări se poate impune condiţia ca diferenţa existentă între parametrii de interes
(medie sau proporţie) să depăşească o anumită valoare critică.
Faptul că există teste de detectare a diferenţei semnificative nu este suficient. Noutatea constă în
dimensiunea impusă diferenţei căutate (diferență clinică minimă semnificativă). De exemplu necesitatea
utilizării metodei în determinarea eficienţei unui tratament (se compară cu efectul placebo).
Dacă indicatorul de interes este media, deci măsura se realizează pe o scară de tip continuu, atunci
importantă pentru estimarea volumului este diferenţa căutată. Nu ni se garantează că aceasta va fi găsită
ci ni se garantează volumul minim necesar sesizării unei diferențe căutate. Aceasta trebuie apoi verificată
(prin interval de confidență de exemplu).
Formule de calcul pentru volumele eșantioanelor (date independente) pt. variabile de tip continuu:
𝜎12 𝜎22
Diferența impusă este d=d1+d2 și este cerută prin proiect: 𝑑 = 𝑍(1−𝛽) + 𝑍(1−𝛼/2) ∙ + 𝑛2.
𝑛1
2 2∙𝜎 2
Facem aproximările: n1=n2=n/2 , 𝜎12 = 𝜎22 = 𝜎2 și avem: 𝑑 2 = 𝑍(1−𝛽) + 𝑍(1−𝛼/2) ∙ 𝑛/2
2 𝜎2
Obținem în final: 𝑛 = 4 ∙ 𝑍(1−𝛽) + 𝑍(1−𝛼/2) ∙ . Deci n1=n2=n/2
𝑑2
Exemplu 4 GPower
În această situaţie pentru determinarea volumului eşantionului necesar estimării valorii coeficientului de
corelaţie într-un mod consistent, se va apela la testele ipotezelor statistice. Este greu să se determine o
eroare acceptată a coeficientului de corelaţie, aşa cum s-a făcut de exemplu pentru estimarea proporţiei.
Se vor impune condiţii, atât asupra nivelului de semnificaţie α , cât şi asupra puterii testului, 1-β .
Ipoteza statistică nulă este : H0 – coeficientul de corelaţie este 0, deci ρ=0 .
Ipoteza alternativă este: Ha – coeficientul de corelaţie are valoarea cunoscută ρc.
Valoarea cunoscută a coeficientului se ştie din studii anterioare, publicaţii recente sau un studiu pilot
efectuat special cu acest scop.
2
Z (1− ) + Z (1− )
Formula de calcul dedusă în acest caz este : n = 3 +
F (c )
1 1 + c
z = F ( c ) = ln
2 1 − c
Exemplu 5 Gpower – estimare volum eșantion pentru determinarea unei corelații (model normal
bivariat)
Atenție !
Calculul volumului eșantionului ne asigură consistența statistică în sensul următor: Noi plecăm de la
presupunerea că diferența necesară minimă este d. Căutăm să demonstrăm această diferență. Faptul că
avem eșantionul cules conform cu datele cerute nu asigură diferența impusă în calcul. Această diferență
trebuie verificată.
Zc=1.644854
EXEMPLE DE CALCUL !
Răspundeți la următoarele întrebări pentru a clarifica elementele de teorie.