Sunteți pe pagina 1din 31

MASTER MUS

Determinarea mărimii
eşantioanelor
Curba Gauss – scoruri z
Scorul z masoara distanţa dintre o anumită valoare şi media
distribuţiei din care face parte, măsurată în abateri standard
Determinarea numărului minim
de subiecţi extraşi dintr-o populaţie pentru a calcula cu
aproximaţie dată procentul de indivizi afectaţi din populaţie

 Dacă într-o populaţie există un procent necunoscut de indivizi afectaţi, o modalitate


de lucru este aceea de a extrage aleator un lot suficient de mare şi de a calcula
procentul de indivizi afectaţi din acel lot.

 În condiţii obişnuite, procentul de indivizi afectaţi din populaţie este aproximat de


procentul calculat pe lotul extras

 Aproximaţia este mai precisă sau mai puţin precisă în funcţie de mai mulţi factori,
unul din cei mai importanţi fiind volumul lotului, sau numărul de indivizi din lot

 O precizie de câteva procente în plus sau în minus, este de obicei considerată


acceptabilă. Această precizie este dată de intervalul de încredere (vezi mai jos)

 De exemplu, dacă incidenţa unei afecţiuni într-o populaţie este de 13%, o evaluare de
tipul “incidenţa este cuprinsă între 11% şi 15%, este o evaluare considerată acceptabilă

 Uneori este nevoie bineînţeles de evaluări mai precise, totuşi, precizii în plus şi minus
sub 1% nu sunt necesare
PROCENTE
 Procentele se exprimă de obicei însoţite de intervalul de încredere de
95%, pentru a putea aprecia dacă ele au sau nu valoare informativă
 Prin “valoare informativă”, înţelegem precizia de evaluare
 Dacă am evaluat procentul de 13% ca având precizia dată de intervalul de
încredere între 11% şi 15%, evaluarea ARE VALOARE INFORMATIVĂ
 Dacă însă, procentul de 13% are precizia dată intervalul de încredere este
între 1% şi 25%, valoarea informativă a evaluării este foarte mică
 Cum se calculează întervalul de încredere? La valoarea procentului
obţinut se adună şi se scade aproximativ dublul valorii obţinute prin
extragerea radicalului din formula de mai jos

p1  p 
p  z95% 
n
EXEMPLE
 De exemplu, dacă n = 1600 şi din cei 1600 de indivizi, 208 au
afecţiunea, înseamnă că estimăm procentul de afectaţi ca fiind de
208/1600, adică 13%.
 Cu formula de mai sus, intervalul de încredere este între 11,3% şi
14,7%. Este un interval de încredere care arată că estimarea este
bună, cu valoare informativă.
 Dacă însă, estimăm un procent pe baza unui lot mult mai mic,
n=400 şi afectaţi sunt 52, atunci procentul este tot de 13%, dar
intervalul de încredere este de la 9,6% la 16,4%, valoarea
informativă este mai mică, estimarea este mai imprecisă.
 Dacă numărul total de pacienţi la care se referă procentul este
mare, intervalul de încredere poate lipsi, dar se recomandă chiar
şi în acest caz, prezentarea intervalului de încredere.
 Calculele de mai sus sunt aproximative, corect este ca în faţa
radicalului să fie 1,96, aceasta fiind valoarea z95%. Am folosit
valoarea 2 pentru simplificarea calculelor.
PROCENTE
•Intervalele de încredere
pentru procente calculate prin
extragerea aleatorie dintr-o
populaţie a unui eşantion de
mărime variabilă
•De exemplu, pentru un lot de
10 indivizi, din care 7 au
afecţiunea, procentul de 70%
are intervalul de încredere
între 41,6% şi 98,4%. Nu există
valoare informativă
•Pe un lot de 100 de indivizi,
procentul de 43% are un
interval de încredere între
33,3% şi 52,7%. Valoarea
informativă este forte slabă

Pentru lotul de 10000 de indivizi, procentul de 32,6% are intervalul de încredere


între 31,6% şi 33,5%. Valoarea informativă este foarte mare
CALCULUL LUI n
 Formula de calcul a numărului minim de
indivizi dintr-un lot, astfel ca procentul
estimat cu ajutorul acelui lot, să aibă un
interval de încredere cu o variaţie de cel
mult plus-minus ε%

4  p1  p 
n
 2
EXEMPLU
 De exemplu, dacă p este 13%,şi vrem
o precizie de plus-minus 2%, calculul
este:

4  0,13  0,87 0,4524


n   1131
0,02  0,02 0,0004
PROBLEME….!
 Din păcate, statistica nu poate pune la dispoziţia
practicianului metoda de mai sus, aşa cum a fost
expusă

 Pentru calculul lui n, ar trebui să cunoaştem deja


valoarea lui p

 În practică, acest lucru este imposibil, deoarece


p este tocmai procentul pe care dorim să îl
aproximăm, şi este necunoscut, înaintea
efectuării experienţei sau studiului
SOLUTII…?

 De obicei se fac înaintea experimentului propriu-zis,


aşa numitele studii pilot

 Pe un lot cu un număr redus de indivizi, se estimează


aproximativ valoarea lui p

 Pe baza acestei valori imprecise, se determină numărul


minim de indivizi dintr-un lot corespunzător unei
precizii dorite
Eşantion dintr-o populaţie normală

 In următoarele 9 imagini veţi vedea:


◦ În prima, distribuţia unei populaţii Gauss
◦ În a doua, distribuţia mediilor calculate pe loturi
de 2 indivizi
◦ În continuare, distribuţia mediilor calculate pe
eşantioane de 3, 4, 9, 16, 25, 36, 100 de indivizi
Concluzie:
 Media de eşantionare calculată pe un
eşantion de volum n extras dintr-o
populaţie distribuită Gauss are:
◦ Distribuţie de tip Student
◦ Media egală cu cea a populaţiei de provenienţă
◦ Abaterea standard este abaterea populaţiei de
provenienţă împărţită la radicalul lui n =
Eroarea standard!
Err = σ / √
n
Interval de încredere - definiţie

 Numim interval de încredere pentru medie,


un interval de numere reale în care suntem
aproape siguri că se află media reală, pe care
o aproximăm.
 Gradul de siguranţă poate fi ales; de obicei
este 95% sau 99%
Interval de încredere

 Dacă avem o serie de valori şi am obţinut media de


eşantionare şi abaterea standard X σ, atunci avem
următoarea probabilitate furnizată de distribuţia
mediei de eşantionare:

 s s 
P X  t c   m  X  tc    0,95
 n n
Exemplu de calcul: I95%
 Serie: Latenţe pe nervul optic
 Medie: 112,2
 Abatere standard: 12,5
 Volum eşantion: 156
 Eroarea standard:
 În tabele:
 Limitele sunt:
Teste statistice

Testele statistice verifică veridicitatea unor


ipoteze - inferenţe statistice

ipoteza H0 (sau ipoteza de nul): datele nu prezintă


legături între ele, sunt independente/ valorile
comparate nu diferă între ele

ipoteza H1 (sau ipoteza alternativă): datele prezintă


legături între ele, sunt dependente/ valorile comparate
diferă între ele
Testul t-Student clasic
 Testul de comparare a două medii când abaterile
standard sunt egale (cazul eşantioanelor mici)

1. Se aplică dacă măsurătorile efectuate la cele două eşantioane


sunt independente
2. Se aplică dacă eşantioanele provin din populaţii care sunt
normal distribuite (lucru care trebuie verificat înainte de
aplicarea testului)
3. Se aplică dacă populatiile din care provin eşantioanele au
dispersii egale (sau abateri standard, ceea ce este acelasi
lucru)
Convenţie
 Ipoteza că mediile populatiiţor din care provin eşantioanele sunt
egale o vom numi ipoteza de nul (notată totdeauna cu H0) -----
-----H0 : m1 = m2
 Ipoteza, sau ipotezele, care epuizează restul posibilităţilor le vom
numi ipoteze alternative (notate totdeauna cu H1, H2 etc.) --
---- H1 : m1  m2

 Dacă testul respinge H0, vom spune că datele suportă ipoteza că


mediile populaţiilor sunt diferite
 Dacă testul nu respinge H0, vom spune că datele nu susţin
ipoteza că mediile populaţiilor sunt diferite
Exemplu de calcul 120
VSH

Medie ± deviţia standard


Au fost analizaţi 25 de pacienţi cu o infecţie localizată şi 25 100
cu sepsis, printre alte măsurători înregistrându-se şi valoarea 80
74.48
VSH. 54.68
60

40
Nr.pacient Infecţie localizată Sepsis
1 25 55
2 20 88 20
3 110 53
4 45 30 0
5 50 72 Infecţie localizată Sepsis
6 50 52
7 72 91 p test Student = 0.011186 - S
8 53 70
9 30 110 t-Test: Two-Sample Assuming Equal Variances
10 50 123
11 27 56
Infecţie localizată Sepsis EXPLICATII
12 35 31
Mean 54.68 76.48 MEDIA ESANTIOANELOR
13 85 100
14 22 70 Variance 596.56 704.84 DISPERSIA ESANTIOANELOR
15 78 44 Observations 25 25 VOLUMUL ESANTIOANELOR
16 65 70 Pooled Variance 650.70 DISPERSIA COMUNA
17 85 90 Hypothesized Mean Difference 0 DIFERENTA TESTATA
18 85 123
df 48 GRADE DE LIBERTATE: 25+25-2
19 55 85
20 25 72
t Stat -3.02149 VALOAREA t CALCULATA
21 50 75 P(T<=t) one-tail 0.00201
22 85 50 t Critical one-tail 1.67722
23 75 85 P(T<=t) two-tail 0.00403 p - REZULTATUL TESTULUI
24 40 107 t Critical two-tail 2.01063 PRAGUL CRITIC AL LUI t (tc)
25 50 110
Media 54.68 76.48
Deviaţia standard 24.42 26.55 p<0,05 - se respinge H0
Dispersia
C.V. (%)
596.56
44.67%
704.84
34.81%
cu pragul de semnificaţie de 95%
Analiza intervalelor de încredere

Parametru Infecţie localizată Sepsis


Nr.pacienţi 25 25
Media 54.68 76.48
Deviaţia standard 24.42 26.55
Eroarea standard 4.88 5.31
Valoare t95% (df=24) 2.064 2.064
Nivel de eroare 95% 10.08 10.96
Limita inferioară 44.60 65.52
Limita superioară 64.76 87.44

Observăm că limita superioară a intervalului de încredere de 95% pentru media mai


mică este sub limita superioară a intervalului de încredere de 95% pentru media mai
mare.
În concluzie, cele două medii sunt diferite pentru nivelul de semnificaţie de 95% -
ceea ce am demonstrat prin testul t Student.
 Atunci când constatăm diferenţe mari între mediile
a două loturi, punem diferenţa pe seama faptului
că populaţiile din care provin loturile au medii
diferite
 Invers, când sunt diferenţe mici între mediile celor
două loturi, le punem pe seama întâmplării şi
considerăm că loturile provin din populaţii cu medii
egale, sau, că provin din aceeaşi populaţie.
 Această problemă apare foarte des în practică
pentru că foarte des aplicăm tratamente la loturi
care trebuie apoi comparate cu loturi la care nu se
aplică tratamentul.
Răspunsul pe care îl dă un test statistic nu este sigur. Este
posibil:
 Ipoteza de nul să fie adevărată şi testul să o respingă
 Sau ea să fie falsă şi testul să nu o respingă

De fapt, sunt posibile următoarele patru cazuri:


H0 adevărată H0 falsă
(Nu există diferenţă - (Există diferenţă –
tratamentul nu are efect) tratamentul are efect)

Testul nu respinge Corect! Eroare tipul II


H0 (p>0,05)

Testul respinge H0 Eroare tipul I Corect!


(p<0,05)
 Eroarea de tipul I este considerată ca mai gravă
decât eroarea de tipul al doilea şi este impusă
limita de 5% pentru această eroare, acest prag fiind
numit prag de semnificaţie (S)
 Eroarea de tipul al doilea, considerată mai puţin
importantă, se admite să fie până la 20%, însă de
obicei este aleasă la proiectarea unui test, mai mică
decât 15%
 Numărul minim de indivizi ce trebuie să fie cuprinşi
în studiu depinde printre altele şi de nivelul dorit al
acestor erori.
 Cum ne asigurăm că un studiu menţine erorile de
ambele tipuri sub limite rezonabile?
ESTIMAREA NUMĂRULUI MINIM
DE PACIENŢI DIN LOTURI LA
COMPARAREA MEDIILOR
Dacă dorim să facem un studiu în care avem
două loturi (cazuri şi martori, sau trataţi –
netrataţi, sau alte situaţii), unul din paşii
indispensabili este estimarea aproximativă
a numărului minim de indivizi din loturi,
astfel încât ambele tipuri de erori să fie
menţinute sub limitele dorite
 În fiecare lot, avem acelaşi număr de indivizi, notat cu n.
 Formula care dă numărul minim de indivizi din fiecare lot,
este:
2( Z1 / 2  Z1  ) 2   2
n
2
2( Z1 / 2  Z1  ) 2   2
n
2
 Z reprezinta valori tabelate
 σ este deviaţia standard comună a celor două populaţii din
care provin loturile

 Δ este diferenţa între cele două medii pe care estimăm că o


vom pune în evidenţă cu ajutorul testului
 În practică, σ fiind necunoscut se estimează pe baza unor
studii pilot pe eşantioane mici, iar Δ se estimează tot pe baza
unor medii găsite pe studii pilot, sau se impune din
considerente clinice, deoarece de multe ori, diferenţa dintre
mediile celor două loturi trebuie să impunem să fie mai mare
decât o limită minimală, altfel nu are semnificaţie clinică.
 Tratamentului cu agonişti de PPAR- produce
modificarea nivelului leptinei sanguine la pacienţii cu
diabet zaharat II, obezi sau supraponderali
 Exemplul dat este un trial clinic, studiu de impact al
unui tratament, designul este cu un singur lot,
măsurătorile efectuându-se înainte şi după tratament

 Variabila independentă este tratamentul,


variabila dependentă este leptinemia
 Se vor măsura înainte de începerea tratamentului şi
apoi, din nou, după patru luni de tratament: nivelul
leptinemiei, lipidele, greutatea, insulinemia,
adiponectina
2( Z1 / 2  Z1  ) 2   2
n
2
•Deci, avem 1,96+1,036=2,996. Pentru simplificare,vom folosi
valoarea 3Compararea valorilor medii înregistrate înainte şi
după tratament se va face cu testul t-Student, varianta pentru
eşantioane pereche

•Numărul minim de pacienţi pentru a se putea aplica acest test


este de 30 – această condiţie este impusă de faptul că
leptinemia, are o distribuţie destul de asimetrică (nu are
distribuţie Gauss)

•Alegem un nivel de semnificaţie de 95%, ceea ce înseamnă că


z95%=1,96 (menţinem eroarea de tipul I sub 5%)

•Alegem o putere a testului de comparare de 85%. Deci


zp=1,036 (Menţinem eroarea de tipul al II-lea sub 15%)
2( Z1 / 2  Z1  ) 2   2
n
2
 Valorile raportate ca normale în literatură sunt în intervalul
8,4 - 14,7 mUI/mL

 Valori medii raportate în literatură sunt aproximativ 10,8 


1,3 mUI/mL. Deci se poate lua σ = 1,3

 Impunem ca testul să fie capabil să detecteze o diferenţă de


aproximativ 5% între valorile iniţiale şi finale (dacă această
diferenţă există în realitate). Acest fapt lasă ca posibilă şi
existenţa eventuală a unei diferenţe mai accentuate

 Deci, pentru , vom putea folosi valoarea =0,58 (5% din


10,8). Pentru simplitate, alegem valoarea =0,6

 Calculăm valoarea lui n, pentru Ф=3, σ = 1,3 şi =0,6


2( Z1 / 2  Z1  ) 2   2 2  9 1,69 30,42
n    84,5
2 0,36 0,36
•Concluzie: Dacă lotul va conţine 85 de pacienţi, este aproape
sigur că:
•Dacă există în realitate o diferenţă a nivelului leptinei în sânge
de cel puţin 5%, aceasta va fi pusă în evidenţă de testul Student
cu un nivel de siguranţă de 95%
•Dacă nu există în realitate o diferenţă a nivelului leptinei în
sânge de cel puţin 5% (ori e mai mică, ori e inexistentă), testul
are cel puţin o putere de 80% de a pune în evidenţă acest fapt.