Sunteți pe pagina 1din 56

ANALIZA DATELOR

C. Băicuş, 2009
De ce avem nevoie de statistică?

Vrem sa tragem concluzii cât mai valide din


cantităţi limitate de date.
• Diferenţe importante sunt deseori mascate
de variabilitatea biologică şi/sau imprecizia
experimentală
• Mintea umană excelează în găsirea de tipare
şi relaţii, dar tinde să generalizeze în exces.
De ce avem nevoie de statistică?

• Calculele statistice
extrapolează de la eşantion la
populaţie
• În cercetarea biomedicală se presupune că
populaţia este infinită, sau cel puţin foarte
mare în comparaţie cu eşantionul nostru.
De ce avem nevoie de statistică?

• Control de calitate
O fabrică de cămăşi: se extrage la întâmplare
un eşantion din întreaga populaţie de
cămăşi, iar concluziile legate de calitatea
eşantionului se extrapolează la toată
producţia.
De ce avem nevoie de statistică?

• Sondajul politic
Se extrage la întâmplare un eşantion de
votanţi, iar rezultatul se extrapolează la
întreaga populaţie de votanţi
De ce avem nevoie de statistică?

• Studii clinice
Eşantionul de pacienţi studiat este rareori
extras la întâmplare. Totuşi, pacienţii incluşi
în studiu sunt reprezentativi pentru alţi
pacienţi similari, iar extrapolarea de la
eşantion la populaţie se poate face.
Tipuri de variabile

• Variabila = orice calitate, caracteristică sau


constituent al unei persoane sau lucru, care
poate fi măsurat
• toată cercetarea medicală = studiul relaţiilor
dintre variabile
• cercetătorii medicali sunt interesaţi de
studierea fie a asociaţiilor, fie a diferenţelor
dintre variabile.
Tipuri de variabile

• Variabile nominale
– variabile sub formă de nume sau alte simboluri
reprezentînd categorii ce nu pot fi ordonate una
în raport cu cealaltă
– numele, grupa sanguină, sexul, rasa, culoarea
ochilor, diagnosticul etc.
– variabile dihotomice (binare, bimodale) =
variabile ce nu pot lua decât două valori
• mort/viu, fumător/nefumător, prezent/absent,
normal/anormal - DA/NU
Tipuri de variabile

• Variabile ordinale
– variabile ce sunt clasificate în mai mult de două
categorii şi la care există o ordine naturală între
categorii
– evoluţia, stadializări, clasificări, scoruri etc.
Tipuri de variabile

• Variabile cantitative
– continue
• variabile cu un număr potenţial infinit de valori
de-a lungul unui continuum
• înălţimea, greutatea, TA, vârsta etc.
– discontinue (discrete)
• variabile ce pot fi descrise numai prin unităţi
întregi ce nu pot fi măsurate în intervale mai mici
decât unitatea
• AV, nr. copii etc.
Tipuri de variabile - statistică
descriptivă

Variabile nominale
• tabel de frecvenţă (frecvenţa observaţiilor
pe categorii)
• grafic: bare, plăcintă
• modul (categoria cea mai frecventă)
Figura II.3. Distribuţia pe oraşe a cazurilor incluse în studiu

TIMISOARA
11 (6,7%)

TARGU MURES 3 (1,8%)

SIBIU 10 (6%)

IASI 13 (8%)

CLUJ 23 (14%)

BUCURESTI 98 (60%)

BRASOV 6 (3,7%)
Tipuri de variabile - statistică
descriptivă

Variabile ordinale
• tabel de frecvenţă, mediana, modul
• utilitatea mediei este discutabilă (intervalele
dintre categorii nu sunt egale ca mărime)
• deseori, media este furnizată - se presupune
că intervalele scalei sunt egale sau, cel puţin
aproximativ egale
Clasa Frecventa Frecventa Frecventa
NYHA relativa cumulata
I 50 %
23,8% 23,8%
%
II 70 %
33,3% %
57%

III 60 %
28,6% %
85,7%

IV 30 %
14,3% %
100%
TOTAL 210 %
100%
George J et al.
Heart 2006;92:1420–1424.
Tipuri de variabile - statistică
descriptivă
Variabile cantitative
• măsura tendinţei centrale (media, mediana,
modul)
• măsura dispersiei (deviaţia standard,
varianţa)
• distribuţia normală
47,5%

(x-x)2
SD =
n-1
• SD = deviatia standard
– arata gradul de dispersie al valorilor

• SEM = eroarea standard a mediei


– CI95% al mediei
– SEM = SD / \/n
Regresie
Comparaţia a
Student (t) lineară
2 grupuri
multiplă
distribuţie teste Comparaţia a
normală Test F (ANOVA)
parametrice 3 grupuri

Corelaţia a 2 Corelaţie
Variabilă variabile în (coeficient Pearson)/
cantitativă acelaşi grup regresie

distribuţie Corelaţia a 2 Corelaţie


nonnormală variabile în (coef. Spearman)
acelaşi grup
Variabilă teste
ordinală non- Comparaţia a Mann-Whitney U,
parametrice 2 grupuri Wilcoxon

Comparaţia a Kruskall-Wallis
3 grupuri

Variabilă Regresie
dihotomică X2 logistică
Fisher exact
Interval de Modelul
Log rank
timp lui Cox
ANALIZA STATISTICA II

C. Băicuş, 2005
P si intervalele de incredere

Cristian Baicus
nov 2005
populaţie

eşantionare p, CI

eşantion
Incertitudinea statistica

• Incertitudinea (prezenta chiar intr-un


esantion reprezentativ) care apare atunci
cand folosim datele esantionului pentru a
trage concluzii asupra populatiei
De ce apare incertitudinea statistica?

• Nu putem include toti indivizii dintr-o


populatie tinta intr-un studiu.

• De exemplu, intr-un RCT al unui tratament


nou pentru HTA, nu este posibila includerea
tuturor pacientilor cu HTA. In schimb vom
folosi un esantion pentru a testa tratamentul
nou si cel standard.
Masurarea incertitudinii statistice

• Incertitudinea statistica poate fi


cuantificata prin:

– testarea ipotezei (cu calculul valorii p)

– calculul intervalelor de incredere (CI)


Marimea esantionului

• 1/~ p

• 1/~ largimea intervalului de incredere


p
10x10.000
H0: C=P
H1: C>P 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C
37,5%

p=0,375
unidirectional, one tailed (one sided)
p
H0: C=P
H1: C>P 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C

~17,5%

p=0,175
unidirectional, one tailed (one sided)
p
H0: C=P
H1: C>P 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C

1%

p=0,01
unidirectional, one tailed (one sided)
p
H0: C=P
H1: CP 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C
37,5% 37,5%

p=0,75
bidirectional, two tailed (two sided)
p
H0: C=P
H1: CP 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C

~17,5% ~17,5%

p=0,35
bidirectional, two tailed (two sided)
p
H0: C=P
H1: CP 25%
20% 5C 20%
4C 6C
12% 12%
3C 7C
4,5% 4,5%
2C 8C 1%
0,1%1% 0,1%
0C 1C 9C 10C

1% 1%

p=0,02
bidirectional, two tailed (two sided)
CI

Basescu Procent CI
6/10 60% [27 ,86]
CI

Basescu Procent CI
6/10 60% [27%, 86%]
24/40 60% [43%, 74%]
CI

Basescu Procent CI
6/10 60% [27% 86%]
24/40 60% [43% 74%]
120/200 60% [53%, 67%]
CI

Basescu Procent CI
6/10 60% [27% 86%]
24/40 60% [43% 74%]
120/200 60% [53% 67%]
240/400 60% [55% 65%]
1200/2000 60% [58% 62%]
p şi CI
• p: probabilitatea ca diferenţa dintre tratamente observată în
studiul nostru să fie datorată întâmplării, iar în realitate
(la nivelul populaţiei) să nu existe nici o diferenţă între tratamente.

• interval de încredere: intervalul în care se află


parametrul respectiv în realitate (la nivelul populaţiei) (cu o
probabilitate de 95%).
RR, OR, RRR, RRA, NNT
p şi CI
Studiu terapeutic, RR=0,8
• dacă la nivelul populaţiei nu există nici o
diferenţă între mortalităţile la cei trataţi şi cei
netrataţi, probabilitatea ca în studiul (eşantionul)
nostru să apară un RR=0,8 este p

• la nivelul populaţiei (în realitate), RR[0.5, 0.9].


p şi CI
Studiu etiologic de cohortă, RR=7
• dacă la nivelul populaţiei nu există nici o
diferenţă între incidenţele cancerului pulmonar
la fumători şi nefumători, probabilitatea ca în
studiul (eşantionul) nostru să apară un RR7 este
p

• la nivelul populaţiei (în realitate), RR[3 , 15].


• intervalul de încredere dă aceleaşi
informaţii ca şi p (de fapt chiar mai
multe)
Nesemnificativ statistic:

atunci când CI include

• 1 (pt. RR, OR)

• 0 (pt. RRR sau RRA)

•  (pt. NNT)
CI

semnificaţie statistică


semnificaţie clinică
• Efect important /efect surogat
• p publicate sunt mai optimiste

• CI sunt optimiste (mai înguste decât


în realitate)
Alegerea între un test
parametric/nonparametric - cazurile simple

Alegem un test neparametric în 2 situaţii:


• efectul este o variabilă ordinală şi populaţia este clar
non-Gaussiană (de ex. notele studenţilor, scorul
Apgar, scala vizuală analogică pt. Durere etc.)
• efectul este o variabilă cantitativă şi suntem siguri
că nu are o distribuţie gaussiană în populaţie
(transformare: log, reciproca, radical)
• efectul este o variabilă cantitativă cu distribuţie
gaussiană, dar dispersia este mult diferită
Alegerea între un test
parametric/nonparametric - cazurile dificile

• Când avem cazuri puţine, este greu de spus


dacă distribuţia este Gaussiană, iar testele
speciale (Kolmogorov-Smirnov) au putere
mică
• ceea ce contează este distribuţia la nivelul
populaţiei, şi nu la nivelul eşantionului
nostru! De căutat în literatură
Alegerea între un test
parametric/nonparametric - cazurile dificile

• Când nu sunt siguri de tipul distribuţiei, unii


aleg un test parametric (deoarece nu sunt
siguri că este violată prezumţia de
normalitate), iar alţii aleg teste
nonparametrice (deoarece nu sunt siguri că
prezumţia de normalitate este satisfăcută)
Alegerea între un test
parametric/nonparametric - cazurile dificile

• În natură, distribuţiile non-gaussiene sunt


frecvente!
• Este valabil îndeosebi în cazul valorilor
biologice
Alegerea între un test
parametric/nonparametric - are importanţă?

Depinde de mărimea eşantionului!


• Dacă eşantionul este mare (cel puţin 24/30 de date
în fiecare grup), este mai uşor de spus dacă
eşantionul provine dintr-o populaţie Gaussiană,
dar nu are mare importanţă, putem folosi orice tip
de test.
• Dacă eşantionul este mic, este greu de spus dacă
populaţia este gaussiană, dar este f. important:
testele nonparametrice nu sunt puternice, iar cele
parametrice nu sunt robuste.
Teste împerecheate sau
neîmperecheate? (paired / unpaired)
• Neîmperecheat când valorile individuale
dintr-un grup nu sunt împerecheate cu cele
din celălalt (grupurile/măsurătorile sunt
independente)
• împerecheat când valorile reprezintă:
– măsurători repetate asupra aceluiaşi subiect
– măsurători pe subiecţi împerecheaţi înainte de
colectarea datelor

S-ar putea să vă placă și