Sunteți pe pagina 1din 39

METODE DE DETERMINARE A

EŞANTIOANELOR DE STUDIU

- Metode de eșantionare;
- Calculul dimensiunii eșantionului

Conf. dr. Vasile Lucian Boiculese


INTRODUCERE
Pentru extragerea informaţiilor despre cazurile cercetate, avem la îndemână varianta de a trata
exhaustiv problema şi a măsura pentru toţi pacienţii parametrii de interes, sau ca alternativă, să determinăm
un set format dintr-un număr cât mai mic de cazuri, care să prezinte trăsăturile populaţiei astfel încât
aproximarea făcută să fie acceptabilă. Setul astfel definit se numeşte eşantion de studiu şi trebuie să
respecte condiţia de a fi reprezentativ statistic prin reflectarea proprietăţilor populaţiei sursă.
De obicei, utilizarea întregului volum al populaţiei pentru cercetare este neindicat sau în unele cazuri
chiar imposibil de realizat. Tehnica exhaustivă este mare consumatoare de timp, bani şi energie. Astfel,
necesitatea determinării de metode statistice ce să definească mărimea cât şi tehnica de alegere a
elementelor unui eşantion reprezentativ a devenit de importanţă capitală.

În statistică sunt dezvoltate metode eficiente de selecţie a datelor şi de determinare a volumului


eşantionului (numărul de elemente componente), în moduri specifice, pentru a obţine rezultate cât mai
reale, de fidelitate cât mai mare. Este de așteptat ca analizând un set de date, deci o parte din populație,
să avem anumite erori de aproximare în studiu. Aceste erori pot fi evaluate, și impunând condiția de a
avea valori suficient de mici, putem determina volumul eșantionului reprezentativ statistic.
TEMA 1 – alegerea datelor dintr-o populație.
TEMA 2 – determinarea dimensiunii eșantionului de studiu.

Învățăm din studiul exemplelor.


Iată o situație practică în care putem greşi prin alegerea neatentă a elementelor
unui eşantion.
Presupunem că avem de realizat un studiu asupra unei populaţii de copii cu vârsta cuprinsă între 5
şi 10 ani, dintr-o anumită regiune geografică. Trebuie selectat un eşantion şi trimise părinţilor
chestionarele de interes.
Prin metoda de alegere (definită) se selectează primul copil din cele 120 de liste ale comunităţilor
existente. Dacă listele ar fi întocmite în mod aleator, eroarea ar fi minimă. În multe din cazuri, listele sunt
în ordinea vârstei copiilor. Astfel primii de pe listă vor fi copii de vârste mici, ducând la o pondere mare a
acestora în eşantionul final, evident cu repercusiuni nedorite.

Eşantionul ar avea o eroare de deplasare (engl. bias error), numit bieu, care ar denatura valorile
medii reale existente pe întreaga populaţie.
Exemplul 2
Au existat perioade în care guvernele au investit mai mult în domeniul medical – ca urmare s-au efectuat
și studii asupra stării de sănătate a populație.
Problemă: în majoritatea cazurilor a rezultat o corelație de tip direct proporțional între investiție și
starea scăzută de sănătate a populației. Cum este posibil ca investind în domeniul medical să se obțină o
scădere a stării de sănătate ? Poate exista o eroare de interpretare ? Pot exista factori de confuzie ?

Exemplul 3
Există meserii care cer efort fizic crescut. Ca urmare dintr-un studiu a reieșit că durerile de spate scad
odată cu creșterea efortului fizic. Această concluzie este ciudată atâta timp cât este știut că efortul
fizic crescut duce în general la apariția afecțiunilor legate de sistemului osos.
Problemă: care sunt posibilele erori ? Eșantionul a fost ales corect ? Aceeași întrebare apare: există
factori de confuzie ? Cum îi luăm în calcul? Cum corectăm ?
Exemplul 4
Un studiu asupra elevilor din clasele terminate, a avut ca temă evaluarea aptitudinilor cognitive din
domeniul matematic. S-a creat un chestionar și s-a aplicat pe eșantionul corect determinat pentru
analiză. În final s-a obținut semnificație statistică deci diferență confirmată între grupurile create după
gen. Băieții obținând în medie cu 8 puncte, din totalul de 100, mai mult decât fetele.
Evident întrebarea era cât se poate de provocatoare: Oare este corectă această concluzie ? Nu există
factori de confuzie care să deformeze realitatea ?

S-a reanalizat studiul și s-a introdus o nouă informație (o nouă variabilă) orele de pregătire
suplimentară la matematică. Deoarece majoritatea băieților intenționau să urmeze studii universitare
sau postliceale din domeniul tehnic, aceștia se pregăteau suplimentar la matematică și fizică.
Introducând această informație în analiză nu s-a mai obținut semnificație statistică pentru genul
persoanei deoarece diferența era definită de orele suplimentare de pregătire în domeniu.
În concluzie pregătirea suplimentară este o variabilă mediatoare care se interpune în lanțul de estimare
a cunoștințelor de forma:
Ore pregătire
Gen Evaluare mate.
mate.
Exemplul 5
S-a efectuat un studiu și s-a găsit o relație direct proporțională semnificativă între consumul de
înghețată și vânzările de ochelari.
Evident relația nu prezintă legătură cauză efect: ”consumul de înghețată implică creșterea dorinței sau
necesitatea de a cumpăra ochelari ” ?!?

Variabila care este implicată este temperatura exterioară care odată ce este crescută, deci avem zile
însorite călduroase, implică creșterea consumului de înghețată cât și utilizarea ochelarilor.
Această variabilă este numită de confuzie având efect asupra altor variabile. Astfel relația dintre
variabile este cauzată de variabila de confuzie – creează această confuzie.

Zile însorite.
Temperaturi
crescute
Consum Vânzări
înghețată ochelari
Relație lipsită, apparent este de natura
cauză-efect
Metode de alegere a elementelor eşantionului

1- Eşantionarea simplă aleatoare (random)


Dacă avem o populaţie de volum N şi dorim să extragem un eşantion de volum n (n<N), atunci vom
genera n numere aleatoare (distribuție uniformă) distincte ce să reprezinte poziţia elementului în cadrul listei cu n
întreg mai mare ca 0 şi mai mic sau egal cu N. Această metodă de determinare nu prezintă eroare de deplasare.
Numărul total de variante de n elemente din N este combinări de N
N N!
luate câte n şi se calculează cu formula: nr. variante =   = C n
=
n !  ( N − n)!
N
n
Factorialul este produsul: N!=1  2 ... N Pt. eşantioane consistente –
de volum mare !

Media eşantioanelor create prin această metodă este o variabilă aleatoare distribuită normal cu media
egală cu media populaţiei de studiu (se poate demonstra matematic – teorema limită centrală). Faptul că nu
există diferenţă între media reală şi media acestor combinaţii determină lipsa erorii de deplasare.
Prin acest procedeu, fiecare caz are aceleaşi şanse de a fi selectat, probabilitatea fiind egală cu 1/N.
Exemplu
Un exemplu practic poate fi realizat folosind Microsoft Excel. În cadrul acestei aplicații avem funcţia
RAND(). Aceasta returnează un număr de tip aleator, cuprins între 0 şi 1. Distribuţia este de tip uniform
(constantă), deci păstrează o probabilitate egală de apariţie pentru orice valoare din domeniu.
Metoda 1 – Adăugăm o coloană nouă setului inițial de date. Această coloană o încărcăm cu valoarea rand().
Ordonăm după această coloană datele – practic astfel acestea vor fi așezate aleator. Alegem din acestea
primele n rânduri pentru care vom aplica analiza statistică. –
Metoda 2 – Folosim această funcţie pentru a genera numere aleatoare în domeniul 1,…,N. Pentru aceasta vom
înmulţi funcţia RAND() cu N şi vom alege doar partea întreagă a rezultatului. Tot în MS Excel avem funcţia
INT() care extrage partea întreagă a unui număr pozitiv prin pierderea zecimalei. Astfel, vom fi nevoiţi să
înmulţim cu N+1 pentru a genera numere între 1 şi N.

Coloana nouă astfel generată va conține


poziția deci rândul ce trebuie selectat pentru
analiză (atenție: s-ar putea ca unele numere
să se repete.)
2 - Eşantionarea sistematică

Tehnica pleacă de la un punct de start, ce poate fi chiar primul element al listei şi prin adunarea la
acesta a unui număr constant se determină poziţia următorului element ce va fi inclus în lot. Se repetă
procedeul până la ultimul termen al listei sau până când s-a completat întregul volum de analiză.

Se observă o anumită periodicitate în alegerea eşantionului. Astfel, se poate deduce un dezavantaj


al metodei, prin faptul că dacă lista iniţială la rândul ei prezintă o ciclicitate identică cu cea aplicată în
selecţie (sau multiplu), se pot genera eşantioane care prezintă eroare mare de deplasare.

Eşantionarea sistematică prezintă mai multe variante, cum ar fi :

1 – Se porneşte cu elementul iniţial (I0), la care se adaugă o cantitate constantă (k) şi se alege elementul
de pe poziţia I0+k, apoi I0+2k, … , I0+(n-1)k.

2 – Se pleacă de la elementul iniţial (I0), se sar k elemente şi se alege elementul de pe poziţia I0+k+1, apoi
I0+2(k+1), … , I0+(n-1)(k+1).
Exemplu

Folosind programul MS Excel, alegem funcţia MOD(N1, N2). Numărul N1 este deîmpărțitul iar N2
este împărţitorul. Funcţia MOD determină restul împărţirii lui N1 la N2. Dacă N2 este multiplu de N1 atunci
restul este 0. Prin urmare, se aleg elementele pentru care funcţia MOD returnează valoarea 0.
Astfel dacă alegem perioada de 3, atunci N2=3 iar N1 este numărul de ordine din cadrul listei totale.
Elementele din coloana funcţiei MOD de valoare 0 vor fi cele alese. Acestea pot fi uşor determinate prin
ordonare.

Prin cazul prezentat am determinat un eșantion ce are un


volum de 3 ori mai mic decât setul sursă de date.
3 - Eşantionarea stratificată aleatoare

După numele acesteia putem deduce existenţa unei legături între această metodă şi eşantionarea
simplă aleatore. Metoda stratificată este o modificare a eşantionării simple în sensul păstrării unei proporţii
reale între subgrupurile ce alcătuiesc întreaga populaţie ţintă. Este utilă în situaţii în care subgrupurile
componente prezintă variaţii diferite.
Presupunem că avem m subgrupuri componente, fiecare având ni elemente. m

Volumul n al eşantionului va fi suma tuturor elementelor n1+n2+…+nm : n =  ni


i =1

Fiecare eşantion al unui subgrup este determinat prin metoda de eşantionare aleatoare simplă. Volumul
fiecărui subgrup este stabilit prin tehnici ce vor fi prezentate în capitolele următoare.
Şi în această situaţie statistica matematică poate demonstra lipsa erorii de deplasare în eşantionarea
stratificată aleatoare. Chiar mai mult, precizia în determinarea valorii medie este mai bună decât cea din
metoda aleatoare simplă. Tocmai păstrarea proporţiei aduce această îmbunătăţire a preciziei.
4 - Eşantionarea în ciorchine (cluster – grup, ciorchine)
Elementul selectat în acest caz este un grup (ciorchine – cluster). Pentru a realiza un astfel de
studiu, de exemplu într-un oraş, se pot alege prin tehnici aleatoare, diferite blocuri de persoane, pentru ca
apoi pe familii să se completeze chestionarele în cauză.
Avantajul acestei metode rezidă în partea materială, studiul de acest fel fiind optimizat din punct de
vedere al resurselor umane, financiare se câştigă şi timp este și economic. Metoda dă rezultate bune dacă se
aplică corect alegerea aleatoare a ciorchinelor ce definesc eşantionul.

5 - Eşantionarea convenabilă (convenience – avantaj, comoditate)


Eşantionul este ales în acest caz după o metodă arbitrată, uşoară de aplicat, accesibilă, convenabilă
şi rapidă. Se doreşte ca lotul determinat să păstreze proprietatea de reprezentativitate dar însăşi metoda în
sine nu ne garantează acest lucru.
În majoritatea cazurilor aceste loturi ajută doar la crearea unei prime imagini asupra problemei
analizate. Estimările făcute pot prezenta erori mari de deplasare, de aceea datele astfel culese sunt folosite
doar ca studii pilot ce ajută apoi la schiţarea de noi direcţii de cercetare.
Exemplu: - pentru un studiu s-a creat un post într-un oraș într-un punct de aglomerație mare, tocmai pentru
a putea intervieva cât mai multe persoane – astfel șansa de a avea participanți a fost crescută. Timpul scurt
de lucru nu permite altă abordare.
Exemplu

Dacă dorim să intervievăm turiştii dintr-o anumită zonă geografică, vom aplica chestionare în
diferite puncte de atracţie. Dacă limba de comunicare este engleza, atunci din start am ales doar pe
cei anglofoni. Deja o eroare este inclusă în eşantion.

Un alt punct de vedere de exemplu, dacă nu ţinem cont de puterea financiară a turiştilor,
putem afecta corectitudinea studiului. Dacă punctele de atracţie sunt foarte scumpe, evident doar
persoanele cu putere financiară vor avea acces. Astfel, numărul de chestionare trebuie să fie în
echilibru cu proporţia pe subgrupe a populaţiei.

Chiar şi momentul ales din timpul zilei este important. Ziua anumite centre de atracţie au
căutare iar spre seară, evident, apar alte priorităţi în programul turiştilor – aici vârsta va fi un factor de
determinare a programului ales și astfel a punctelor de atracție frecventate.
6 –Eşantionarea prin autogenerare (bootstrap – autogenerator)
Este ca noţiune, diferită de cele deja prezentate deoarece aceasta creează eșantioane noi dintr-un set de
date deja extras.
Permite crearea de eşantioane din elementele unui lot de studiu. Mai mult chiar, elementele se pot
repeta în cadrul eşantionului. Cerinţa de bază este ca eşantionul sursă utilizat să fie reprezentativ pentru
populaţia analizată.
Este o metodă neparametrică ce se poate utiliza pentru a estima indicatorii statistici (media este de
obicei de interes) prin interval de încredere. Cu alte cuvinte, nu se cere ca tipul distribuţiei să fie cunoscut (de
obicei de tip Gauss-Laplace).
Paşii de urmat în aplicarea metodei:
1 – Se pleacă iniţial de la elementele eşantionului sursă de volum notat N.
2 – Se defineşte volumul n al fiecărui nou eşantion generat.
3 – Se realizează prima extragere de tip aleator de n elemente din cele N. Primul eşantion este astfel generat.
4 – Se întorc elementele n la loc în sursă. Ca urmare a acestui fapt, metoda se numeşte „cu întoarcere” sau „cu
înlocuire”.
5 – Se realizează a doua extragere în acelaşi mod şi procedeul se repetă până la completarea numărului de
eşantioane dorite.
Eşantioanele astfel create pot forma o bază de date de studiu, iar tehnicile aplicate trebuie să fie de
tip neparametric, deoarece nu se cunoaşte tipul de distribuţie din care sunt culese datele – avantaj pentru
această tehnică !
Exemplu

Presupunem că dorim să producem prin metoda de eşantionare cu autogenerare un număr de 100


eşantioane de 10 elemente dintr-un lot de 30 de date.
Vom lucra tot în MS Excel, deoarece este un program ce prezintă multiple facilităţi şi este foarte
popular.

Lotul iniţial cuprinde 30 de date în domeniul B3:K5. Prin FORMULAS+DEFINE NAMES denumim
acest bloc de date şi îl numim ESANTION. Folosim funcţia INDEX() care citeşte valoarea unei celule
determinate de numărul rândului, respectiv al coloanei blocului de date definit. Pentru a alege celule într-o
formă aleatorie folosim funcţia RAND() deja prezentată în exemplele anterioare.

Astfel, în fiecare din celulele de la B7 până la K106 (deci o sută de eşantioane), avem funcţia:
=INDEX(ESANTION,ROWS(ESANTION)*RAND()+1,COLUMNS(ESANTION)*RAND()+1)”.
Dimensiunea eşantionului de studiu
În cadrul efectuării unei analize statistice, într-o primă etapă, o problemă crucială constă în
determinarea volumului eşantionului de studiu. Ne interesează în mod imperativ numărul de date necesare
pentru ca lotul de studiu să fie reprezentativ statistic, ceea ce înseamnă să avem încredere în rezultatele
obţinute prin aplicarea analizei statistice.
Statistica matematică ne ajută pentru indicatorul studiat, cu formule determinate pe baza intervalului
de variaţie cu o încredere prestabilită. Astfel, intervalul de variaţie admis trebuie să fie mai mic decât o
valoare definită ca satisfăcătoare pentru a accepta rezultatele finale – este eroarea admisă.
Prezentăm mai multe situaţii în care determinăm matematic volumul eşantionului şi apoi pentru o buna
înţelegere, completăm cu exemple practice.
Situaţie adevărată
Sistem decizional cu prag Ipoteza H1 este
Ipoteza H0 este adevărată
adevărată În statistică se lucrează cu două ipoteze H0
Nu există eroare respectiv H1. Decizia se ia funcție de o condiție
Decizie prin test

Acceptare Eroare tip II (β)


(1-α)
ipoteză H0
Adevărat negativ
Fals negativ impusă, deci avem un prag decizional. Practic, între
Respingere Eroare tip I Nu există eroare realitate şi decizia luată vor exista două tipuri de
ipoteză H0 ( α nivel de semnificaţie) (puterea testului 1-β) erori posibile prezentate în tabelul din stânga.
Acceptare H1 Fals pozitiv Adevărat pozitiv
Nivelul de semnificaţie (eroarea de tip I) este determinat de valoarea α (alfa) a probabilităţii şi standard
are valori de 0.05 (5%) sau 0.01(1%). Acesta reprezintă eroarea de a accepta ipoteza alternativă, când în
realitate ipoteza H0 este adevărată.
Eroarea de tip II exprimată prin probabilitatea β (beta), arată acceptarea ipotezei nule deci a lipsei
diferenţelor, când în realitate acestea sunt confirmate. Puterea testului se defineşte prin 1-β. Valorile
standard sunt 1-β=0.8 sau 0.9 şi corespunzător β=0.2 respectiv β=0.1.
Funcţie de tipul de studiu aplicat se poate ţine cont de eroarea de tip I în principal sau de ambele tipuri.
Pentru verificarea unei ipoteze se creează o statistică care este practic o funcţie ce depinde de ipoteza
H0 respectiv H1. Datele astfel create prin funcţia mai sus amintită respectă o distribuţie cu un anumit
specific. De exemplu, în ipoteza H0: definită de µ1=µ0 putem avea o distribuţie normală N(µx,σx), iar în cazul
alternativ putem avea o distribuţie normală cu alţi parametri N(µy,σy).

Nivelul de semnificaţie este o probabilitate ce reprezintă pragul ales


pentru decizie. Amintim că pentru o distribuție de tip Gauss-Laplace
pentru un interval de confidență de 2σ în jurul mediei avem conform figurii
alăturate 0.954 probabilitate.
✓ Volumul eșantionului este determinat funcție de estimarea cu interval
de confidență a indicatorului statistic de interes.
1 – Determinarea volumului eşantionului de studiu pentru o variabilă de tip continuu în care precizia
în estimare ne interesează (eroare de tip I)
Pentru o variabilă de tip continuu, în majoritatea cazurilor de interes, focalizarea problemei se face
asupra valorii medii.
Pentru ca evaluarea să fie corectă se stabileşte nivelul de încredere la 95% (de obicei acesta este
standardul).
Se stabileşte de către echipa de cercetare care este eroarea admisă (notată d). Aceasta exprimă
valoarea maximă a intervalului Xmax-Xmed sau Xmed-Xmin. De fapt, această eroare admisă joacă rolul unei
precizii asupra măsurătorilor realizate. Se poate intui o relaţie de genul: cu cât eroarea cerută este mai mică cu
atât numărul de elemente ale eşantionului va trebui să fie mai mare.

 
Intervalul de confidență al mediei este : X min/ max = X  Z   deci d = Z  
 1−  n  1−  n
 2  2

2
 
 
2
Putem deduce volumul eșantionului : 
n   Z     2
(pentru populație infinită)  1− 2   d
  

În situația în care populația este finită avem formula corectată 


2
 N  2
(N este volumul populației): n   Z    
  1−    
2
  2
d 2 ( N − 1) +  2   Z    
  1−  
  2
Exemplu 1.1 Presupunem că dorim să determinăm greutatea la naştere a copiilor dintr-o
anumită comunitate ce prezintă caracteristici specifice (tradiţii, zonă geografică).
Se cunoaşte deviaţia standard dintr-un studiu pilot ca fiind   0,7 . Nivelul de
semnificaţie acceptat este 95%, iar eroarea admisă pentru a putea compara cu valoarea
normală este dedusă de investigatori d = 0,2 Kg (ceea ce înseamnă că amplitudinea
Xmax-Xmin=0,4Kg admis).

Pentru 95% încredere, avem  = 1 − 0,95 = 0,05 . Astfel 1 − = 0,975 şi
2
deducem Z (0.975) = 1,96 (din tabelul distribuţiei Gauss normalizate).
0,7 2
Putem calcula acum valoarea minimă n 1,96 2  . Obţinem n  47,059 şi
2
0,2
alegem nminim=48.
Dacă populația de studiu ar fi finită de volum 4000 atunci volumul devine:
4000  0,7 2
n  1,96  2
2
, deci n  46,52 , valoare foarte
0,2  (4000 − 1) + 0,7  1,96
2 2

apropiată de cea obținută pentru populație infinită.


Exemplu 1.1 - GPower

Gpower program dedicat


studiului puterii unui test
respectiv dimensiunii
eșantionului. Este gratuit și
se poate descărca de la
adresa:
https://gpower.software.infor
mer.com/3.1/

Deoarece nu ținem cont de


puterea testului alegem 1-B=0.5

Nu contează decât diferența


mediilor. Efect=dif.medii./stdev
Exemplu 1.2 - Excel

Calculul fiind relativ simplu


se poate realiza și în
Excel.
Exemplu 1.2 - GPower

Deoarece nu ținem cont de


puterea testului alegem 1-B=0.5

Nu contează decât diferența


mediilor. Efect=dif.medii./stdev
2 – Determinarea volumului eşantionului de studiu pentru estimarea unei proporţii – precizia în
estimare este de interes (eroare de tip I)

În cazul studiului de prevalenţă scopul este de a determina proporţia de bolnavi dintr-o anumită
populaţie.
p  (1 − p )
Pentru această situaţie eroarea standard are formula de calcul: Er.std . =
n
Aici p este proporţia ce trebuie verificată.
Asemănător metodei 1 de determinare a volumului eşantionului, putem pune condiţia ca limitele maximă,
respectiv minimă să nu depăşească o anumită distanţă d definită de cercetători ca acceptabilă studiului.
p  (1 − p )
Cerinţa aceasta poate fi exprimată matematic: Z  d
 1−  n
 2
2
 
  p  (1 − p )
Se determină în final volumul eşantionului: n   Z    
 1− 2   d2
  
Formula pare puţin ciudată! Dorim să estimăm proporţia p cu o eroare mică notată d şi determinăm
volumul eşantionului, funcţie tot de proporţia p. Dacă nu cunoaştem această proporţie, atunci ar trebui mai
întâi estimată într-o formă, poate aplicând un studiu pilot pentru a avea o informaţie minimă asupra ei.
Ca observaţie, valoarea proporţiei p poate să nu fie cunoscută. S-a menţionat deja
posibilitatea efectuării unui studiu pilot pentru determinarea valorii p. Totuşi p variază
Formula de calcul prezentată este între 0 şi 1, iar produsul p(1-p) are o proprietate remarcabilă.
valabilă pentru o populaţie infinită
Figura alăturată prezintă variaţia produsului p(1-p) pe intervalul [0, 1]. Maximul
sau de volum foarte mare (pentru
este pentru p=0,5 şi are valoarea 0,25. Iată o proprietate ce ne ajută foarte mult. Chiar
estimarea corectă a proporţiilor). dacă nu cunoaştem valoarea proporţiei noi putem impune condiţia ca volumul
În realitate, populaţiile au volum eşantionului să fie de o anumită dimensiune. Chiar dacă această dimensiune nu este
finit (pop=volumul, în formulă). optimizată, ea este foarte utilă deoarece numărul de date fiind mărit şi încrederea la
Este normal să se aplice o corecţie rândul ei va fi mai mare.
matematică în situaţiile finite.
Formula corectată a determinării p(1-p)
volumului eşantionului: 0.3

0.25
n
n corectat = 0.2
n −1
1+ 0.15
pop
0.1

0.05

0
0 0.125 0.25 0.375 0.5 0.625 0.75 0.875 1
p
Exemplu 2
Presupunem că avem de determinat o proporţie a cărei valoare
valori este aproximativ cunoscută
p  0,80 . Cu încredere de 95% să se deducă numărul de date necesare pentru a nu se efectua o eroare
mai mare de 10% în estimarea proporţiei.

Pentru 95% încredere, avem  = 1 − 0,95 = 0,05 . Astfel 1 − = 0,975 şi deducem
2
Z ( 0,975) = 1,96 (din tabelul distribuţiei Gauss normalizate).
Dacă eroarea este de maxim 10% avem d= 0,8  0,1 = 0,08 (atenţie în definirea erorii).
2
 
  p  (1 − p )
Calculăm volumul minim al eşantionului de studiu: n   Z     ,
 1− 2   d 2
  
0,8  (1 − 0,8)
n  (1,96 ) 
2
2
, obţinem n=96,04. Alegem astfel n=97 pacienţi.
0,08
Menţionăm că şi softul EpiInfo 3.3.2 2005, poate determina volumul eşantionului urmând paşii:
Utility + StatCalc + Sample Size &Power + Population Survey.
Observaţie
Dacă nu cunoşteam valoarea aproximativă a proporţiei atunci aproximăm prin adaos. Astfel
p(1-p)=maxim pt p=0.5. Obţineam n=150. Astfel, numărul de pacienţi ar fi fost crescut – ca analiză
statistică ar fi fost corect !
Exemplu 2 GPower

Dacă obținem un rezultat


mai mic ca 62/88 =0.705,
înseamnă că proporția Dacă obținem un rezultat
este mai mică ca 0.8. mai mare ca 78/88=0.886
înseamnă că proporția
este mai mare ca 0.8.

Deoarece nu ținem cont de


puterea testului alegem 1-B=0.5
Volum al eșantionului mai mic
deoarece am folosit o aproximare
mai bună – distribuția binomială

Efectul este diferența proporțiilor


3 – Eroare de tip I respectiv II
Amintim că în cadrul inferențelor statistice se lucrează cu ipoteza H0 respectiv H1. Ca urmare a deciziei
luate se pot efectua două tipuri de erori:
Eroarea de tip I – marcată prin nivelul de semnificație notat α (de obicei 0.05) reprezintă valorile fals
pozitive. Această eroare constă în acceptarea ipotezei H1 când în realitate H0 este adevărată.
Eroarea de tip II – marcată de nivelul de semnificație β (de obicei 0.1 sau 0.2) reprezintă valorile fals
negative – acceptarea ipotezei nule în situația în care ipoteza H1 este adevărată.

Am asociat atributul negativ ipotezei H0 respectiv pozitiv ipotezei H1.


Situaţie adevărată
Sistem decizional cu
prag Ipoteza H1 este
Ipoteza H0 este adevărată
adevărată
Nu există eroare
Acceptare Eroare tip II (β)

Decizie prin test


(1-α)
ipoteză H0 Fals negativ
Adevărat negativ
Acceptare H1 Eroare tip I Nu există eroare
Respingere ( α nivel de semnificaţie) (puterea testului 1-β)
ipoteză H0 Fals pozitiv Adevărat pozitiv
Descrierea erorii de tip I
În cadrul ipotezei H0 admitem că media unei populații are o valoare cunoscută să zicem M1 sau mediile
sunt egale pentru 2 populați de studiu. Știm că distribuția mediilor eșantioanelor este de tip Gauss-Laplace
pentru volume mari și populații normal distribuite (teorema limită centrală asigură aceasta chiar dacă
distribuția populației nu este normală).
Dacă avem Media populației µ respectiv deviația standard σ atunci media eșantioanelor va fi distribuită
de forma N(x, μ, σ/sqrt(n)). Aici n este volumul eșantionului.
Ne supunem deciziei după regula: acceptăm ipoteza H0 deci egalitate în situația în care ne aflăm
într-un interval de 95% confidență în jurul mediei (aprox. 2σ).
Dacă din setul de date obținem o valoare poziționată în afara intervalul simetric de 95% confidență,
atunci ipoteza H0 este eliminată în favoarea ipotezei H1 (alternative) – aceasta rezultă din decizia impusă de
noi. Astfel pot exista cazuri în care am depășit limita impusă dar H0 este adevărată. Cu alte cuvinte putem
greși cu 5%. Această probabilitate de 0.05 reprezintă eroarea de falși pozitivi acceptată.
În graficul alăturat cele două suprafețe (de culoare
albă) simetrice față de medie reprezintă eroarea de tip
I deci α.
Suprafața albastră reprezintă standardul de 0.95 Eroare de tip I (α)
probabilitate – ca regiune de definire a normalului în
logica de decizie.
Descrierea erorii de tip II

În cadrul ipotezei alternative (H1 sau Ha), mediile NU sunt egale, vom avea mai multe variante ale
diferențelor posibile. Astfel depinzând de situația reală și distribuția diferențelor mediilor va putea fi în
dreapta sau în stânga la o anumită distanță de distribuția diferențelor mediilor pentru H0 adevărată.

Este adevărat că dacă diferența reală este mare atunci


H1 adevărat erorile (exprimate prin suprapunerea curbelor) sunt mici.
Ho adevărat
Astfel cu cât cele două curbe densitate de probabilitate
sunt mai depărtate cu atât cele 2 tipuri de erori vor fi mai
mici.
În concluzie condiția de semnificație α, condiția de
putere a testului 1-β și dependența de n a deviației
standard, vor reprezenta ipoteza de lucru, în determinarea
volumului eșantionului necesar pentru studiul statistic.
Nivel semnificație α Nivel semnificație β
Eroare de tip I Eroare de tip II

Observație: deoarece deviația standard depinde invers proporțional de n (prin 1/sqrt(n)) prin mărirea
volumului eșantionului putem micșora dispersiile și deci erorile vor fi mai mici. Acceptăm ușor regula că pentru
eșantioane de volume mari estimările sunt cu interval de confidență mic.
4 – Determinarea volumului eşantionului de studiu pentru verificarea unei diferenţe impuse

În cadrul unei cercetări se poate impune condiţia ca diferenţa existentă între parametrii de interes
(medie sau proporţie) să depăşească o anumită valoare critică.
Faptul că există teste de detectare a diferenţei semnificative nu este suficient. Noutatea constă în
dimensiunea impusă diferenţei căutate (diferență clinică minimă semnificativă). De exemplu necesitatea
utilizării metodei în determinarea eficienţei unui tratament (se compară cu efectul placebo).
Dacă indicatorul de interes este media, deci măsura se realizează pe o scară de tip continuu, atunci
importantă pentru estimarea volumului este diferenţa căutată. Nu ni se garantează că aceasta va fi găsită
ci ni se garantează volumul minim necesar sesizării unei diferențe căutate. Aceasta trebuie apoi verificată
(prin interval de confidență de exemplu).
Formule de calcul pentru volumele eșantioanelor (date independente) pt. variabile de tip continuu:

2 𝜎2 d-este diferența dintre medii sau proporții.


𝑛 = 4 ∙ 𝑍(1−∝/2) + 𝑍(1−𝛽) ∙ 2
𝑑
Pentru proporții:
𝑝ҧ ∙ 1 − 𝑝ҧ p1 + p2
𝑛 = 4 ∙ 𝑍(1−∝/2) + 𝑍(1−𝛽)
2
∙ p=
𝑑2 2
n
În final pentru volume egale ale eșantioanelor avem: n1 = n2 =
2

Observaţie – dacă studiul este bilateral atunci vom transforma:


Este știut că distribuția diferențelor mediilor eșantioanelor a
două populații definite N1(x,μ1,σ1) respectiv N2(x,μ2,σ2) pentru H0
H1 adevărat adevărat, este de tip normal cu media 0 respectiv dispersia:
Ho adevărat 2 𝜎12 𝜎22
=𝜎𝑥1−
ҧ 𝑥2
ҧ + .
𝑛1 𝑛2
Dacă μ2>μ1 și facem diferența μ1-μ2 atunci vom avea H1
adevărată conform cu figura alăturată. Putem calcula:
𝜎12 𝜎22
𝑑1 = 𝑍(1−𝛼/2) ∙ + , respectiv
𝑛1 𝑛2
𝜎12 𝜎22
𝑑2 = 𝑍(1−𝛽) ∙ +
𝑛1 𝑛2
Nivel semnificație α Nivel semnificație β
Eroare de tip I Eroare de tip II
d2 d1
d

𝜎12 𝜎22
Diferența impusă este d=d1+d2 și este cerută prin proiect: 𝑑 = 𝑍(1−𝛽) + 𝑍(1−𝛼/2) ∙ + 𝑛2.
𝑛1
2 2∙𝜎 2
Facem aproximările: n1=n2=n/2 , 𝜎12 = 𝜎22 = 𝜎2 și avem: 𝑑 2 = 𝑍(1−𝛽) + 𝑍(1−𝛼/2) ∙ 𝑛/2
2 𝜎2
Obținem în final: 𝑛 = 4 ∙ 𝑍(1−𝛽) + 𝑍(1−𝛼/2) ∙ . Deci n1=n2=n/2
𝑑2
Exemplu 4 GPower

Pentru validarea unui nou


tratament trebuie ca diferența
între valoarea inițială de studiu
(parametru biologic) și
valoarea după tratament să fie
de minim 15 unități.
Eroarea de tip 1 acceptată
este standard de 0.05 iar
eroarea de tip II este de 0.10 -
deci puterea testului este 90%.
Se poate aproxima
Sigma1=Sigma2 (σ1=σ2).
Valoarea deviației standard
este 24.

Folosind formula prezentată


anterior (Excel) obținem n=54

Nu contează decât diferența


mediilor. Efect=dif.medii./stdev
5 – Determinarea volumului eşantionului de studiu pentru estimarea unei corelaţii

În această situaţie pentru determinarea volumului eşantionului necesar estimării valorii coeficientului de
corelaţie într-un mod consistent, se va apela la testele ipotezelor statistice. Este greu să se determine o
eroare acceptată a coeficientului de corelaţie, aşa cum s-a făcut de exemplu pentru estimarea proporţiei.
Se vor impune condiţii, atât asupra nivelului de semnificaţie α , cât şi asupra puterii testului, 1-β .
Ipoteza statistică nulă este : H0 – coeficientul de corelaţie este 0, deci ρ=0 .
Ipoteza alternativă este: Ha – coeficientul de corelaţie are valoarea cunoscută ρc.
Valoarea cunoscută a coeficientului se ştie din studii anterioare, publicaţii recente sau un studiu pilot
efectuat special cu acest scop.
2
 Z (1− ) + Z (1−  ) 
Formula de calcul dedusă în acest caz este : n = 3 +  
 F (c ) 

Unde folosim transformata z Fisher (z=arctanh(ρ)) la determinarea intervalului de confidență:

1 1 + c
z = F ( c ) =  ln
2 1 − c
Exemplu 5 Gpower – estimare volum eșantion pentru determinarea unei corelații (model normal
bivariat)
Atenție !
Calculul volumului eșantionului ne asigură consistența statistică în sensul următor: Noi plecăm de la
presupunerea că diferența necesară minimă este d. Căutăm să demonstrăm această diferență. Faptul că
avem eșantionul cules conform cu datele cerute nu asigură diferența impusă în calcul. Această diferență
trebuie verificată.

1 – se determină volumele eșantioanelor n1=n2=n/2 conform cu formula demonstrată.


2 – se culeg datele după metoda de eșantionare decisă (aleatoare simplă – sau funcție de caz).
3 – Se verifică că diferența 𝑥1 − 𝑥2 (diferența mediilor eșantioanelor) depășește d. Se aplică teste
statistice specifice.
În Microsoft Excel pentru calculul valorilor Z, anume a absciselor curbei Gauss˗Laplace normalizate avem:

Zc=Normsinv(prob) sau Zc=Norm.s.inv(prob) , unde prob este probabilitatea de la –infinit la Zc (abscisa


calculată).

Câteva valori mai des folosite: probabilitate Zc


0.8 0.841621
0.85 1.036433
0.9 1.281552
0.95 1.644854
0.975 1.959964
0.99 2.326348
0.995 2.575829

Zc=1.644854

EXEMPLE DE CALCUL !
Răspundeți la următoarele întrebări pentru a clarifica elementele de teorie.

• Cum se definește eroarea de tip Alfa ? R: probabilitatea de falși pozitivi.


• Definiți eroarea de tip Beta. R: probabilitatea de falși negativi.
• În ce formă depinde dimensiunea eșantionului de probabilitatea de estimare (ca precizie, deci eroarea
de tip Alfa este implicată în calcul) ? R: în formă invers proporțională cu eroarea de tip α, respectiv în
formă direct proporțională cu probabilitatea de estimare (95%).
• Cum definim precizia ? R: Exprimă o eroare în estimare.
• Care este probabilitatea standard de estimare a volumului eșantionului pentru evaluarea prin precizie
a unei mărimi statistice ? R: 95% sau 0.95.
• În ce sens influențează eroarea acceptată, volumul eșantionului ? O eroare mică implică …. R: eroare
mică implică volum mare al eșantionului.
• Putem determina volumul eșantionului pentru a estima o prevalență, dacă nu cunoaștem dintr-un
studiu pilot o aproximare a acestei prevalențe ? R: da se aproximează prevalența cu valoarea 0.5.
• Volumul eșantionului pentru o populație finită este mai mic sau mai mare comparativ cu volumul
eșantionului calculat pentru o populație infinită ? R: volumul eșantionului pentru o populație finită
este mai mic comparativ cu o populație infinită.
Vă mulțumesc !

S-ar putea să vă placă și