Curs 3d Analiza Datelor Si Biostatistica

ANALIZA DATELOR
C. Băicuş, 2009
De ce avem nevoie de statistică?
Vrem sa tragem concluzii cât mai valide din

cantităţi limitate de date.
• Diferenţe importante sunt deseori mascate
de variabilitatea biologică şi/sau imprecizia
experimentală
• Mintea umană excelează în găsirea de tipare
şi relaţii, dar tinde să generalizeze în exces.
• Calculele statistice
extrapolează de la eşantion la
populaţie
• În cercetarea biomedicală se presupune că
populaţia este infinită, sau cel puţin foarte
mare în comparaţie cu eşantionul nostru.
• Control de calitate
O fabrică de cămăşi: se extrage la întâmplare
un eşantion din întreaga populaţie de
cămăşi, iar concluziile legate de calitatea
eşantionului se extrapolează la toată
producţia.
• Sondajul politic
Se extrage la întâmplare un eşantion de
votanţi, iar rezultatul se extrapolează la
întreaga populaţie de votanţi
• Studii clinice
Eşantionul de pacienţi studiat este rareori
extras la întâmplare. Totuşi, pacienţii incluşi
în studiu sunt reprezentativi pentru alţi
pacienţi similari, iar extrapolarea de la
eşantion la populaţie se poate face.
Tipuri de variabile
• Variabila = orice calitate, caracteristică sau

constituent al unei persoane sau lucru, care
poate fi măsurat
• toată cercetarea medicală = studiul relaţiilor
dintre variabile
• cercetătorii medicali sunt interesaţi de
studierea fie a asociaţiilor, fie a diferenţelor
dintre variabile.
Tipuri de variabile
• Variabile nominale
– variabile sub formă de nume sau alte simboluri
reprezentînd categorii ce nu pot fi ordonate una
în raport cu cealaltă
– numele, grupa sanguină, sexul, rasa, culoarea
ochilor, diagnosticul etc.
– variabile dihotomice (binare, bimodale) =
variabile ce nu pot lua decât două valori
• mort/viu, fumător/nefumător, prezent/absent,
normal/anormal - DA/NU
Tipuri de variabile
• Variabile ordinale
– variabile ce sunt clasificate în mai mult de două
categorii şi la care există o ordine naturală între
categorii
– evoluţia, stadializări, clasificări, scoruri etc.
Tipuri de variabile
• Variabile cantitative
– continue
• variabile cu un număr potenţial infinit de valori
de-a lungul unui continuum
• înălţimea, greutatea, TA, vârsta etc.
– discontinue (discrete)
• variabile ce pot fi descrise numai prin unităţi
întregi ce nu pot fi măsurate în intervale mai mici
decât unitatea
• AV, nr. copii etc.
Tipuri de variabile - statistică
descriptivă
Variabile nominale
• tabel de frecvenţă (frecvenţa observaţiilor
pe categorii)
• grafic: bare, plăcintă
• modul (categoria cea mai frecventă)
Figura II.3. Distribuţia pe oraşe a cazurilor incluse în studiu
TIMISOARA
11 (6,7%)
TARGU MURES 3 (1,8%)
SIBIU 10 (6%)
IASI 13 (8%)
CLUJ 23 (14%)
BUCURESTI 98 (60%)
BRASOV 6 (3,7%)
descriptivă
Variabile ordinale
• tabel de frecvenţă, mediana, modul
• utilitatea mediei este discutabilă (intervalele
dintre categorii nu sunt egale ca mărime)
• deseori, media este furnizată - se presupune
că intervalele scalei sunt egale sau, cel puţin
aproximativ egale
Clasa Frecventa Frecventa Frecventa
NYHA relativa cumulata
I 50 %
23,8% 23,8%
%
II 70 %
33,3% %
57%
III 60 %
28,6% %
85,7%
IV 30 %
14,3% %
100%
TOTAL 210 %
100%
George J et al.
Heart 2006;92:1420–1424.
descriptivă
Variabile cantitative
• măsura tendinţei centrale (media, mediana,
modul)
• măsura dispersiei (deviaţia standard,
varianţa)
• distribuţia normală
47,5%
(x-x)2
SD =
n-1
• SD = deviatia standard
– arata gradul de dispersie al valorilor
• SEM = eroarea standard a mediei

– CI95% al mediei
– SEM = SD / \/n
Regresie
Comparaţia a
Student (t) lineară
2 grupuri
multiplă
distribuţie teste Comparaţia a
normală Test F (ANOVA)
parametrice 3 grupuri
Corelaţia a 2 Corelaţie
Variabilă variabile în (coeficient Pearson)/
cantitativă acelaşi grup regresie
distribuţie Corelaţia a 2 Corelaţie

nonnormală variabile în (coef. Spearman)
acelaşi grup
Variabilă teste
ordinală non- Comparaţia a Mann-Whitney U,
parametrice 2 grupuri Wilcoxon
Comparaţia a Kruskall-Wallis
3 grupuri
Variabilă Regresie
dihotomică X2 logistică
Fisher exact
Interval de Modelul
Log rank
timp lui Cox
ANALIZA STATISTICA II
C. Băicuş, 2005
P si intervalele de incredere
Cristian Baicus
nov 2005
populaţie
eşantionare p, CI
eşantion
Incertitudinea statistica
• Incertitudinea (prezenta chiar intr-un

esantion reprezentativ) care apare atunci
cand folosim datele esantionului pentru a
trage concluzii asupra populatiei
De ce apare incertitudinea statistica?
• Nu putem include toti indivizii dintr-o

populatie tinta intr-un studiu.
• De exemplu, intr-un RCT al unui tratament

nou pentru HTA, nu este posibila includerea
tuturor pacientilor cu HTA. In schimb vom
folosi un esantion pentru a testa tratamentul
nou si cel standard.
Masurarea incertitudinii statistice
• Incertitudinea statistica poate fi

cuantificata prin:
– testarea ipotezei (cu calculul valorii p)
– calculul intervalelor de incredere (CI)

Marimea esantionului
• 1/~ p
• 1/~ largimea intervalului de incredere

p
10x10.000
H0: C=P
H1: C>P 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C
37,5%
p=0,375
unidirectional, one tailed (one sided)
p
H0: C=P
H1: C>P 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C
~17,5%
p=0,175
p
H0: C=P
H1: C>P 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C
1%
p=0,01
p
H0: C=P
H1: CP 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C
37,5% 37,5%
p=0,75
bidirectional, two tailed (two sided)
p
H0: C=P
H1: CP 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C
~17,5% ~17,5%
p=0,35
p
H0: C=P
H1: CP 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C
1% 1%
p=0,02
CI
Basescu Procent CI
6/10 60% [27 ,86]
CI
Basescu Procent CI
6/10 60% [27%, 86%]
24/40 60% [43%, 74%]
CI
Basescu Procent CI
6/10 60% [27% 86%]
24/40 60% [43% 74%]
120/200 60% [53%, 67%]
CI
Basescu Procent CI
6/10 60% [27% 86%]
24/40 60% [43% 74%]
120/200 60% [53% 67%]
240/400 60% [55% 65%]
1200/2000 60% [58% 62%]
p şi CI
• p: probabilitatea ca diferenţa dintre tratamente observată în
studiul nostru să fie datorată întâmplării, iar în realitate
(la nivelul populaţiei) să nu existe nici o diferenţă între tratamente.
• interval de încredere: intervalul în care se află

parametrul respectiv în realitate (la nivelul populaţiei) (cu o
probabilitate de 95%).
RR, OR, RRR, RRA, NNT
p şi CI
Studiu terapeutic, RR=0,8
• dacă la nivelul populaţiei nu există nici o
diferenţă între mortalităţile la cei trataţi şi cei
netrataţi, probabilitatea ca în studiul (eşantionul)
nostru să apară un RR=0,8 este p
• la nivelul populaţiei (în realitate), RR[0.5, 0.9].

p şi CI
Studiu etiologic de cohortă, RR=7
• dacă la nivelul populaţiei nu există nici o
diferenţă între incidenţele cancerului pulmonar
la fumători şi nefumători, probabilitatea ca în
studiul (eşantionul) nostru să apară un RR7 este
p
• la nivelul populaţiei (în realitate), RR[3 , 15].

• intervalul de încredere dă aceleaşi
informaţii ca şi p (de fapt chiar mai
multe)
Nesemnificativ statistic:
atunci când CI include
• 1 (pt. RR, OR)
• 0 (pt. RRR sau RRA)
•  (pt. NNT)
CI
semnificaţie statistică

semnificaţie clinică
• Efect important /efect surogat
• p publicate sunt mai optimiste
• CI sunt optimiste (mai înguste decât

în realitate)
Alegerea între un test
parametric/nonparametric - cazurile simple
Alegem un test neparametric în 2 situaţii:

• efectul este o variabilă ordinală şi populaţia este clar
non-Gaussiană (de ex. notele studenţilor, scorul
Apgar, scala vizuală analogică pt. Durere etc.)
• efectul este o variabilă cantitativă şi suntem siguri
că nu are o distribuţie gaussiană în populaţie
(transformare: log, reciproca, radical)
• efectul este o variabilă cantitativă cu distribuţie
gaussiană, dar dispersia este mult diferită
parametric/nonparametric - cazurile dificile
• Când avem cazuri puţine, este greu de spus

dacă distribuţia este Gaussiană, iar testele
speciale (Kolmogorov-Smirnov) au putere
mică
• ceea ce contează este distribuţia la nivelul
populaţiei, şi nu la nivelul eşantionului
nostru! De căutat în literatură
• Când nu sunt siguri de tipul distribuţiei, unii

aleg un test parametric (deoarece nu sunt
siguri că este violată prezumţia de
normalitate), iar alţii aleg teste
nonparametrice (deoarece nu sunt siguri că
prezumţia de normalitate este satisfăcută)
• În natură, distribuţiile non-gaussiene sunt

frecvente!
• Este valabil îndeosebi în cazul valorilor
biologice
parametric/nonparametric - are importanţă?
Depinde de mărimea eşantionului!

• Dacă eşantionul este mare (cel puţin 24/30 de date
în fiecare grup), este mai uşor de spus dacă
eşantionul provine dintr-o populaţie Gaussiană,
dar nu are mare importanţă, putem folosi orice tip
de test.
• Dacă eşantionul este mic, este greu de spus dacă
populaţia este gaussiană, dar este f. important:
testele nonparametrice nu sunt puternice, iar cele
parametrice nu sunt robuste.
Teste împerecheate sau
neîmperecheate? (paired / unpaired)
• Neîmperecheat când valorile individuale
dintr-un grup nu sunt împerecheate cu cele
din celălalt (grupurile/măsurătorile sunt
independente)
• împerecheat când valorile reprezintă:
– măsurători repetate asupra aceluiaşi subiect
– măsurători pe subiecţi împerecheaţi înainte de
colectarea datelor

Curs 3d Analiza Datelor Si Biostatistica

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 3d Analiza Datelor Si Biostatistica

Încărcat de

Drepturi de autor:

Formate disponibile

ANALIZA DATELOR

Vrem sa tragem concluzii cât mai valide din

• Variabila = orice calitate, caracteristică sau

TARGU MURES 3 (1,8%)

• SEM = eroarea standard a mediei

distribuţie Corelaţia a 2 Corelaţie

• Incertitudinea (prezenta chiar intr-un

• Nu putem include toti indivizii dintr-o

• De exemplu, intr-un RCT al unui tratament

• Incertitudinea statistica poate fi

– testarea ipotezei (cu calculul valorii p)

– calculul intervalelor de incredere (CI)

• 1/~ largimea intervalului de incredere

• interval de încredere: intervalul în care se află

• la nivelul populaţiei (în realitate), RR[0.5, 0.9].

• la nivelul populaţiei (în realitate), RR[3 , 15].

atunci când CI include

• 1 (pt. RR, OR)

• 0 (pt. RRR sau RRA)

• CI sunt optimiste (mai înguste decât

Alegem un test neparametric în 2 situaţii:

• Când avem cazuri puţine, este greu de spus

• Când nu sunt siguri de tipul distribuţiei, unii

• În natură, distribuţiile non-gaussiene sunt

Depinde de mărimea eşantionului!

S-ar putea să vă placă și