Sunteți pe pagina 1din 17

TRUNCHI COMUN, anul I (2008(2008-2009)

Intervalul de ncredere
Inferena statistic
Testarea distribuiei unui set de date

TRUNCHI COMUN, anul I (2008(2008-2009)

Intervalul de ncredere

Analiza corelaiei

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Cuprins

De ce intervalul de ncredere?

Estimarea punctual

Definiie. Scop
Interpretare
Intervalul de ncredere pentru medie
Intervalul de ncredere pentru frecven

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

= o valoare pentru parametrul teoretic estimat


Influenat de fluctuaiilor de eantionare
poate fi la o mare distan de valoarea real a

parametrului estimat

Este recomandabil s se estimeze un parametru


teoretic nu printr-o singur valoare ci printr-un
interval, numit interval de ncredere (n care s se
poat afirma c parametrul estimat se gsete cu o
probabilitate ridicat).
Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

Definiie

Interpretare

Un i de valori al unui estimator de interes calculat


astfel nct pentru o probabilitate de eroare aleas s
includ valorile adevrate ale variabilei.
P[valoarea critic inferioar < estimatorul <
valoarea critic superioar] = 1-

Dac intervalul de ncredere pentru diferena


dintre o medie observat i una teoretic
cuprinde valoarea 0, datele sunt compatibile cu
o diferen a mediei populaiei egal cu 0.
Dac intervalul de ncredere pentru diferena
dintre o medie observat i una teoretic nu
cuprinde valoarea 0, datele nu sunt compatibile
cu egalitatea mediilor populaiei.

unde = nivelul de semnificaie

Intervalul definit de valorile critice va cuprinde


estimatorul populaiei cu o probabilitate de 1-
Se aplic n cazul variabilelor distribuite normal!
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

TRUNCHI COMUN, anul I (2008(2008-2009)

Intervalul de ncredere

Intervalul de ncredere pentru medie

Se calculeaz n funcie de:

Eroarea standard a mediei este egal cu deviaia


standard mprit la radicalul volumului eantionului

Talia eantionului sau a populaiei


Variabila de studiat (calitativ, cantitativ)

Dac deviaia standard este mare, ansa de eroare n

Formula de calcul cuprinde 2 pri:

estimator este mare

Un estimator al calitii eantionului pe baza cruia

Dac volumul eantionului este mare, ansa erorii n

estimatorul populaiei s-a calculat (eroarea standard)


de ncredere (confiden) al intervalului
specificat (scorul Z)

estimator este mic.

Gradul

Cel mai frecvent utilizat este intervalul de ncredere


pentru medie
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

s
s

X Z n , X + Z n

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

10

Intervalul de ncredere pentru medie

Intervalul de ncredere pentru medie

Scorul Z este scorul distribuiei normale de medie 0 i deviaie


standard de 1. Orice distribuie poate fi transformat n scorul
Z utiliznd formula:
Z = X X /s

Media glicemiei la un
eantion de 121 pacieni este
de 105 iar variaia de 36.
Care este intervalul de
ncredere al mediei
glicemiei n populaia din
care s-a extras eantionul cu
un prag de semnificaie
=0,05, considernd c
glicemia este normal
distribuit i pentru acest
prag Z = 1,96.

Scorul pozitiv este mai mare dect media


Scorul negativ este mai mic dect media
Pentru intervalul de confiden de 95%: Z5% = 1,96
Pentru intervalul de confiden de 99%: Z1% = 2,58

s
s

X Z n , X + Z n

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

11

Compararea mediilor cu ajutorul


intervalului de ncredere

n = 121
s2 = 36
s=6

X = 105

6
6

105 1,96 121 ; 105 + 1,96 121

[105-1.07, 105+1.07]
[103.93 106.07]
[104-106]

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

12

Intervalul de ncredere pentru frecvene


Dac np > 10

200

f (1 f )
f (1 f )
; f + Z
f Z

n
n

TAS(mmHg)

100

Tratament
A

Tratament
B

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Tratament
C
Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

13

f = 400/10000 = 0.04

0,04 0,96
0,04 0,96
; 0,04 + 1,96
0,04 1,96

10000
10000

[0,04-0,004; 0,04+0,004]
[0,036; 0,044]

f (1 f )
f (1 f )
; f + Z

f Z
n
n

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

14

De reinut!

Intervalul de ncredere pentru frecvene


Suntem interesai n
estimarea frecvenei
cancerului de sn la femeile
ntre 50 i 54 de ani care au
antecedente familiale
pozitive. ntr-un studiu
randomizat la care au
participat 10000 de femei, s-a
constatat c 400 dintre
acestea au fost diagnosticate
cu cancer de sn.
Care este intervalul de
ncredere de 95% asociat
frecvenei observate?

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

15

Estimarea corect a unui parametru statistic se


face cu ajutorul intervalului de ncredere.
Intervalul de ncredere depinde de volumul
eantionului i de eroarea standard.
Cu ct eroarea standard este mai mare cu att
intervalul de ncredere este mai larg.
Cu ct volumul eantionului este mai mic cu
att intervalul de ncredere este mai larg.
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

16

Inferena statistic

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

17

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

18

Cuprins

Definiie, aplicabilitate

Definiie, aplicabilitate
Ipoteza statistic versus ipoteza clinic
Testarea unei ipoteze statistice:

Un test statistic este conceput i utilizat pentru


verificarea unei ipoteze statistice.
De regul, ipoteza care trebuie testat (H0, ipoteza
nul) se poate formula ca fiind una n care nu exist
nici o schimbare:

Etapele unui test statistic

Nu exist nici o diferen ntre mediile a dou

populaii (media taliei la o populaie de nou-nscui la


termen i respectiv nscui prematur)
Nu exist diferen semnificativ ntre mediile a dou
eantioane extrase din aceste populaii.
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

19

TRUNCHI COMUN, anul I (2008(2008-2009)

20

Termeni

Testul statistic

Ipoteza nul (H0): ipoteza care urmeaz a fi


testat
Ipoteza alternativ (H1): opusul ipotezei nule
Prag de semnificaie:

Metod de comparaie a dou sau mai multe


populaii, prin intermediul unor variabile
observate ale lor.

Probabilitatea de eroare acceptat de cercettor


De obicei este de 5% (0,05)

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

21

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Ipoteza statistic
statistic vs ipoteza clinic
clinic

Etapele unui test statistic

1. Formularea problemei n termenii ipotezelor


statistice.
2. Alegerea i calcularea parametrului statistic
al testului.
3. Regiunea critic.
4. Concluzia testului.

Scopul unui test statistic este de a defini realitatea.


Definirea ntrebrii de cercetare (ipoteza clinic):

Tratamentul cu Nebivolol este la fel de eficient ca i


cel cu Valsartan n tratamentul hipertensiunii
arteriale?

Transpunerea ntrebrii de cercetare n termeni


statistici (ipoteza statistic):

Curs 10

22

Media tensiunii arteriale a pacienilor tratai cu


Valsartan nu difer semnificativ de media tensiunii
arteriale a pacienilor tratai cu Nebivolol

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

23

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

1. Formularea problemei n termenii


ipotezelor statistice

1. Formularea problemei n termenii


ipotezelor statistice

Ipoteza nul: ipoteza care trebuie testat,


testul efectundu-se sub prezumia c ipoteza
nul ar fi adevrat
Ipoteza alternativ: acea ipotez care ntr-un
sens sau altul contrazice ipoteza nul. Aceast
ipotez se mai numete i ipoteza de lucru

Ipoteza nul: tipuri

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Curs 10

24

O coad (one-tailed sau one-side):

Media este mai mare


Media este mai mic

Dou cozi (one-tailed sau one-side):

Media este egal

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

25

TRUNCHI COMUN, anul I (2008(2008-2009)

26

2. Alegerea i calcularea parametrului


statistic al testului

2. Alegerea i calcularea parametrului


statistic al testului

Parametrul statistic al testului exprim ntr-o


anumit form, diferena dintre elementele
comparate.
innd seama de faptul c eantionul sau
eantioanele utilizate sunt aleator extrase din
populaiile care fac obiectul testului,
parametrul statistic este o variabil aleatoare
de selecie, care urmeaz o anumit lege de
probabilitate.

Un parametru statistic al testului bun trebuie s


ndeplineasc dou condiii:

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Trebuie s se comporte diferit atunci cnd

ipoteza nul H0 este adevrat fa de situaia


n care ipoteza alternativ H1 este adevrat.
Distribuia de probabilitate a parametrului
statistic al testului sub prezumia c H0 este
adevrat, este cunoscut.

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

27

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

3. Regiunea critic
critic

3. Regiunea critic
critic

Trebuie s fim capabili s decidem n funcie de


valoarea parametrului statistic calculat care dintre
ipoteze, cea nul sau cea alternativ, este adevrat.
Dac valoarea parametrului statistic aparine
regiunii critice, ipoteza nul H0 va fi respins i va
fi acceptat ipoteza alternativ H1.
Dac valoarea parametrului statistic nu aparine
regiunii critice, ipoteza nul H0 va fi acceptat.

Decidem mrimea regiunii critice.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

riscului de eroare pe care l acceptm.


Pe scurt, definim nivelul de semnificaie, notat
cu , sau mrimea riscului pe care suntem
dispui s ni-l asumm n respingerea ipotezei
nule H0 n cazul n care aceasta este adevrat.
De obicei se alege un nivel de semnificaie
ntre 1% i 5%.

29

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

3. Regiunea critic
critic

Decidem mrimea regiunii critice.

Decidem mrimea regiunii critice.

Probabilitatea unei erori de tipul I:

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

3. Regiunea critic
critic

30

Probabilitatea unei erori de tipul II:

probabilitatea de respingere a ipotezei nule H0


n favoarea ipotezei alternative H1, n condiiile
n care H0 este adevrat.
probabilitatea unei erori de tipul I se noteaz cu
i se mai numete nivel de semnificaie al
testului.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

28

Pentru aceasta trebuie s specificm mrimea

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

Curs 10

probabilitatea acceptrii ipotezei nule n


condiiile n care ipoteza alternativ H1 este
adevrat.
aceast probabilitate se noteaz cu .

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

31

TRUNCHI COMUN, anul I (2008(2008-2009)

32

3. Regiunea critic
critic

4. Concluzia testului

Ipoteza nul H0 este respins dac valoarea


parametrului statistic aparine regiunii critice.
Regiunea critic trebuie astfel aleas nct
dac ipoteza alternativ H1 este adevrat,
probabilitatea de respingere a ipotezei nule H0
este mai mare dect n cazul n care ipoteza
nul H0 ar fi adevrat.

unilateral la dreapta valoarea parametrului


statistic al testului este mai mare sau egal cu
valoarea din dreapta a intervalului critic;
unilateral la stnga valoarea parametrului
statistic al testului este mai mic sau egal cu
valoarea din stnga a intervalului critic;
bilateral valoarea parametrului statistic al testului
este mai mic sau egal cu valoarea extrem din
stnga regiunii critice sau mai mare sau egal cu
valoarea extrem din dreapta regiunii critice,
valorile extreme ale regiunii critice avnd nivele
egale de semnificaie.
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

33

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

34

4. Concluzia testului

4. Concluzia testului

Acceptarea ipotezei nule H0 atunci cnd


ipoteza alternativ H1 este adevrat, este
cunoscut ca i eroarea de tipul II.

n testarea oricrei ipoteze statistice, exist patru


situaii care determin dac decizia noastr este corect
sau nu

probabilitatea ei se noteaz cu
msoar nivelul de eroare

Cazuri
H0 este adevrat H0 este fals
Concluzie

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

35

Luarea deciziei pe baza valorii


probabilit
probabilitii p de semnificaie a testului

H0 se accept
H0 se respinge

decizie corect
eroare de tipul I

eroare de tipul II
decizie corect

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

36

Luarea deciziei pe baza valorii


probabilit
probabilitii p de semnificaie a testului

n momentul n care prelucrm statistic o serie de date


dorim s tim dac rezultatele obinute sunt sau nu
semnificative statistic.
Rspunsul la aceast ntrebare este dat de valoarea lui
p calculat de orice program statistic la prelucrarea
unor date.
n cazul testelor statistice, ipoteza nul este respins
dac nivelul de semnificaie este mai mic dect 0,05
iar programele de prelucrare statistic a datelor vor
afia o stelu (*) n tabelul rezultatelor.
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

37

TRUNCHI COMUN, anul I (2008(2008-2009)

Luarea deciziei pe baza valorii


probabilit
probabilitii p de semnificaie a testului

Luarea deciziei pe baza valorii


probabilit
probabilitii p de semnificaie a testului

Dac p 0,05: respingem ipoteza nul i


acceptm ipoteza alternativ (am obinut
semnificaia statistic)
Dac p > 0,05: acceptm ipoteza nul (nu am
obinut semnificaia statistic)

p = 0,13
NU respingem ipoteza nul
Risc de eroare de tip II
= 0,05
p = 0,02
Respingem ipoteza nul
Risc de eroare de tip I

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

39

Semnificaia lui p: reguli empirice

Criteriu de luare a deciziei cu privire la o


ipotez statistic nul
Cuantific ansa ca o decizie de respingere a
ipotezei nule s fie greit
Msur a semnificaiei statistice i NU
CLINIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

41

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

Semnificaia lui p

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

38

40

0,01 p < 0,05: rezultatul e semnificativ statistic


0,001 p < 0,01: rezultatul e nalt semnificativ statistic
p < 0,001: rezultatul e foarte nalt semnificativ statistic
p 0,05: rezultatul e considerat nesemnificativ statistic

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

42

Limite ale valorii p

Puterea unui test statistic

Valoarea p NU ne d informaii despre:

Este capacitatea de a detecta o diferen acolo unde


exist
Creterea volumului eantionului determin creterea
puterii testului statistic aplicat
Valoarea este n relaie direct cu eroarea de tip II:

ansa de beneficiu a unui pacient individual


Procentul

de pacieni care vor avea un


beneficiu n urma instituirii procedurii
medicale
Gradul de beneficiu expectat pentru un anumit
pacient

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Puterea = 1

Cea mai utilizat modalitate de cretere a puterii unui


test statistic este de a crete volumul eantionului

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

43

Interval Nominal Observaii

Corelaie Pearson

Paii testului statistic sunt identici att pentru testele


parametrice ct i pentru cele non-parametrice.
Orice test statistic se poate interpreta din perspectiva
valorii critice sau a intervalului critic i respectiv din
perspectiva valorii p.
Orice test statistic are asociat 2 tipuri de erori. Fiecare
tip de eroare are o anumit semnificaie.
Puterea unui test statistic este n relaie cu eroarea de
tip II i depinde de volumul eantionului.

Exist o relaie liniar?

Student

Doar 2 grupuri

ANOVA

2 sau mai multe grupuri

Student perechi

Eantioane perechi

Msurtori repetate 1
(ANOVA)

Mai mult de 2 grupuri, date


perechi

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

44

De reinut!

Tipul scalei de m
msur
sur testul statistic
Denumire test

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

45

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

46

Testarea distribuiei unui set de date

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

47

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

Cuprins

Obiective

Obiective
Testarea normalitii unei distribuii
Testarea egalitii a dou distribuii

Datele urmeaz o distribuie normal?

48

Se poate aplica i pe alte tipuri de distribuii

(Binomial, Poisson, etc.)

Dou distribuii au aceeai form?


Nu rspunde la ntrebarea: Care este form de

distribuie a datelor?
Ne spune dac formele de distribuie a dou

seturi de date sunt sau nu diferite.


Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

49

TRUNCHI COMUN, anul I (2008(2008-2009)

Testarea normalit
normalitii unei distribuii

Teste de normalitate

De ce normalitate?

Chi-Square goodness-of-fit: 1900

Este o condiie preliminar de aplicare a unor

50

conservativ

teste statistice (test parametric vs test nonparametric)


Teste parametrice: aplicate pe date care
urmeaz o distribuie normal:

Kolmogorov-Smirnov (abreviere KS): 1933


conservativ

Shapiro-Wilk: 1965

Testul t
Testul z
Analiza varianei

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

51

Teste de normalitate
Shapiro-Wilk
Shapiro-Wilk

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

52

KolmogorovKolmogorov-Smirnov:
Smirnov: un eantion
Forma distribuiei datelor e normal (nu facem
asumpii asupra mediei sau deviaiei standard)?

Test mai puin Test conservativ


conservativ
Eantion mic (5-50)
Eantion mare (> 50)

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Kolmogorov-Smirnov

H0: forma distribuiei este normal

Chi-Square Goodness-of-Fit

Eantionul a fost extras dintr-o populaie normal


distribuit (facem asumpii asupra medie i a deviaie
standard)?
H0: forma distribuiei populaiei din care a fost extras

eantionul nu este diferit de o distribuie normal


specificat (de o anumit medie i deviaie standard)

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

53

TRUNCHI COMUN, anul I (2008(2008-2009)

KolmogorovKolmogorov-Smirnov:
Smirnov: un eantion

KolmogorovKolmogorov-Smirnov:
Smirnov: un eantion

3.
4.
5.

Valorile critice pentru diferite valori ale


nivelului de semnificaie:

= 0,01: (1,63/n)-(1/3,5n)
= 0,05: (1,36/n)-(1/4,5n)
= 0,10: (1,22/n)-(1/5,5n)

6.

1. Aranjm valorile eantionului n ordine


cresctoare
2. x este valoarea eantionului la care datele se
modific
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Curs 10

7.
8.
9.

54

Fie k numrul de membrii cu valori mai mici de x


Fie Fn(x) = k/n (calculat pentru fiecare valoare a lui x)
Valoarea expectat pentru fiecare x este dat de formula:
z=(x-m)/s
Pentru fiecare z calculm valoarea expectat Fe(n) dat de
aria de sub curba normal de la dreapta lui z (e nevoie de
program sau de tabel standard).
Calculm diferena absolut | Fn(x) - Fe(n) |
Testul statistic L este dat de cea mai mare valoarea a
diferenei
Dac L este mai mare dect valoarea critic se respinge
ipoteza nul (H0).
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

55

KolmogorovKolmogorov-Smirnov:
Smirnov: un eantion

TRUNCHI COMUN, anul I (2008(2008-2009)

56

KolmogorovKolmogorov-Smirnov:
Smirnov: un eantion

Variabila de interes: vrsta a zece pacieni internai


cu infarct miocardic
Valoarea critic:
= 0,05: (1,36/10)-(1/4,510) = 0,408

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

57

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

ChiChi-Square goodnessgoodness-ofof-fit

ChiChi-Square goodnessgoodness-ofof-fit

H0: populaia din care a fost extras eantionul este


normal distribuit
Dac valoarea calculat a testului e mai mare dect
valoarea critic: respingem ipoteza nul (Ho)

2 = 7,895 < 16,92: acceptm ipoteza nul

2 =

(n i ei )2
ei

58

n i2
ei

(1 coad)

0,10

0,05

0,025

0,01

df = 6

10,64

12,59

14,45

16,81

df = 8

13,36

15,51

17,53

20,09

df = 9

14,68

16,92

19,02

21,67

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

59

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

60

De reinut!
Normalitatea datelor trebuie testat pentru a
aplica corect un test statistic.
Testele de normalitate se fac cu ajutorul
programelor (SPSS, Statistica, etc.)
Trebuie s tim s interpretm un test de
normalitate att din perspectiva regiunii critice
ct i din cea a valorii p.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

10

TRUNCHI COMUN, anul I (2008(2008-2009)

61

TRUNCHI COMUN, anul I (2008(2008-2009)

62

Cuprins

Analiza corelaiilor

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

63

Corelaia
Semnificaia corelaiei
Tipuri de coeficieni de corelaie
Regresia liniar simpl
Regresia liniar multipl

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

64

Corelaie vs regresie

Coeficient de corelaie

Se folosesc pentru:

Puterea asocierii dintre dou variabile prin msurarea


gradului n care punctele unui grafic de tip scatter
(nor de puncte) se ntind de-a lungul unei linii.

Evaluarea puterii de asociere dintre dou

S se stabileasc dac exist o legtur ntre

variabile cantitative continue corelaie


Prezicerea unei variabile (Y) n funcie de o
alt variabil (X) regresie

variabilele X i Y (cantitative continue) i s se


determine o modalitate de a msura intensitatea
acestei legturi.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

65

Coeficient de corelaie

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Coeficientul de corelatie

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

66

Coeficient de corelaie

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

11

TRUNCHI COMUN, anul I (2008(2008-2009)

67

Coeficient de corelaie

TRUNCHI COMUN, anul I (2008(2008-2009)

68

Tipuri de coeficieni de corelaie


Pearson: 2 variabile cantitative continue
(relaie de liniaritate, variabile normal
distribuite)
Spearman: 2 variabile cantitative (relaie de
non-liniaritate sau date nedistribuite normal); 1
variabil calitativ + 1 variabil cantitativ
Kendall tau a, b, i c: similar cu Spearman
Gamma: Similar cu Spearman

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

69

Corelaia Pearson (r)

TRUNCHI COMUN, anul I (2008(2008-2009)

H0: coeficientul de
corelaie = 0
H1: coeficientul de
corelaie 0
Testul statistic aplicat
pentru obinerea
semnificaiei
coeficientului de
corelaie: Student

Ambele caractere sunt de tip interval sau raie


Ambele variabile urmeaz o distribuie normal i

distribuia lor comun este bivariat normal

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

71

Interpretarea coeficientului de corelaie


r [-1, +1], r = +1 exist o relaie de liniaritate
ntre cele dou caractere; r = -1 exist o relaie
invers de liniaritate ntre cele dou caractere.
Clasificarea (regulile) lui Colton (Colton, 1974):
r [-0.25, +0.25] nu exist relaie
r (0.25, +0.50] (-0.25, -0.50] relaie slab

70

r=

(X X )(Y Y )
(X X ) (Y Y )
2

unde X, Y = valori ale


caracterului pentru fiecare
msurtoare i (i = 1, 2, ,
n); Xm, Ym = medii ale
msurtorilor celor dou
caractere.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

72

Coeficientul de corelaie al rangurilor


Spearman ()
Scop:
Msur non-parametric de cuantificare a relaiei

dintre dou caractere (evalueaz ct de bine o funcie


monoton poate descrie relaie dintre cele dou
caractere) (Spearman, 1904).

Metoda este satisfctoare pentru testarea ipotezei


nule (nu exist relaie ntre cele dou caractere) dar
nu se recomand ca i instrument de cuantificare a
relaiei (Bland, 1995).

r (0.50, +0.75] (-0.50, -0.75] relaie moderat


r (0.75, +1) (-0.75, -1) relaie foarte bun

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Corelaia Pearson (r)

Scop: cuantific puterea i direcia legturii liniare


dintre dou variabile prin descrierea direciei i a
gradului n care o variabil este n relaie de liniaritate
cu cealalt variabil de interes (Pearson, 1896).
Condiii de aplicare:

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

12

TRUNCHI COMUN, anul I (2008(2008-2009)

73

TRUNCHI COMUN, anul I (2008(2008-2009)

74

Coeficientul de corelaie al rangurilor


Spearman ()

Coeficientul de corelaie al rangurilor


Spearman ()

Condiii de aplicare:

unde RX, RY = rangurile


atribuite valorilor msurate
ale caracterelor; RXm, RYm =
media rangurilor asociate
celor dou caractere
unde D = diferena dintre
dou perechi de ranguri (RX
RY); n = volumul
eantionului

Nu necesit nici un fel de asumpie asupra distribuiei

de frecven a msurtorilor;
Nu necesit asumpia relaiei de liniaritate dintre
caractere;
Caracterele nu trebuie s fie cantitative de tip raie sau
interval.

Testul statistic aplicat pentru obinerea semnificaiei


coeficientului de corelaie:

r=

(R R )(R R )
(R R ) (R R )
X

X
2

= 1

6 D 2

n(n 2 1)

Testul Student
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

75

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

76

Coeficienii de corelaie Kendall tau ()

Coeficientul de corelaie Gamma ()

Scop:

Scop: Metod de determinare a coeficientului de corelaie care


n comparaie cu Kendall e mai rezistent la existena perechilor
de date cu ranguri egale (Goodman i Kruskal, 1963); este
utilizat cnd datele de analizat conin multe date perechi cu
ranguri egale (Siegel i Castellan, 1988).
Parametrul statistic:
= (C-D)/(C+D)
unde C = concordan i D = discordana dintre perechile de
caractere cantitative de interes.
Testul statistic aplicat pentru obinerea semnificaiei
coeficientului de corelaie: Testul Z

coeficieni de corelaie non-parametrici utilizai

pentru evaluarea i testarea corelaiei dintre


date non-interval ordinale (Kendall, 1938;
1942).
Este considerat a fi echivalent cu coeficientul
de corelaie al rangurilor Spearman.

Se cunosc trei coeficieni de corelaie notai a,


b, i c.
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

77

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

78

Coeficient de determinare r2

Coeficieni de corelaie: exemplu

Msura n care variaia unei variabile poate fi


explicat variaiei celei de a doua variabile
Proporia prin care variaia unei variabile poate
fi explicat de relaia liniar cu cealalt
variabil.
Definete mrimea asocierii
Nu definete direcia asocierii

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

13

TRUNCHI COMUN, anul I (2008(2008-2009)

79

TRUNCHI COMUN, anul I (2008(2008-2009)

80

Coeficient de determinare r2

De reinut! Coeficientul de corelaie

r2=0 variaia lui Y nu poate fi atribuit modificrilor


lui X
r2=1 variaia lui Y este atribuit relaiei liniare dintre
Y i X
cnd r este semnificativ statistic i r2 este semnificativ

Coeficientul de corelaie:

Identificarea legturii dintre dou variabile


Cuantificarea legturii
Direcia legturii

Coeficientul de determinare: este ptratul


coeficientului de corelaie

ntr-un studiu de asociere dintre psihoza indus ce


consumul de amfetamine i nivelul plasmatic de
amfetamine s-a determinat un r=0,94 r2=0,942 =
0.8836.
88% din variaia psihozei poate fi atribuit variaiei
nivelului plasmatic al amfetaminei.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

81

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

82

Regresia

Regresii liniare

S se stabileasc dac Y depinde de X i dac


da n ce form se realizeaz aceast
dependen.

Descrie relaia dintre dou variabile


Este posibil determinarea unei variabile dependente
n funcie de o variabil independent folosind
ecuaia:

Funcia de regresie

Curs 10

Y = a + bX
Y= variabila dependent
X= variabila independent
a = deplasarea de origine pe axa 0Y
b = panta liniei de regresie

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

83

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

84

Regresii liniare

Diagrama scatter

X = variabila independent
Y = variabila dependent

Alegerea axelor:
Variabile observate alegere arbitrar
Regresia este folosit pentru a prezice o variabil n

funcie de alta variabila care trebuie prezis


(variabila dependent) va fi pe axa 0Y

Epidemiologie: variabila independent = factor

Relaia dintre greutatea i lungime la natere

lungime (cm)

de risc, variabila dependent = apariia unei


anumite patologii
Studii experimentale: variabilele independente
sunt fixate de cercettor (doze ale unui nou
medicament)
Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Curs 10

54
52 y = 0.0055x + 35.102
2
50
R = 0.5644
48
46
44
42
40
1200 1400 1600 1800 2000 2200 2400 2600 2800 3000

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTICgreutate (grame)

Curs 10

14

TRUNCHI COMUN, anul I (2008(2008-2009)

85

TRUNCHI COMUN, anul I (2008(2008-2009)

Regresii multiple

Regresii multiple

Dou tehnici:

Regresia logistic:

Regresii lineare multiple


Regresii logistice multiple

Variabila de rspuns nu este normal distribuit

transformarea msurii rspunsului n rata ansei


(probabilitatea de a avea boala/probabilitatea de a fi
indemn la boal) logaritmare
Permite prezicerea probabilitii ca o patologie s
apar (cancer pulmonar) folosind mai multe variabile
ca predictori (fumatul, vrsta, sexul)

Relaia dintre o variabil dependent i una sau mai


multe variabile independente
Presiunea arterial vrst, greutate, fumat,

antecedente heredo-colaterale

Variabila dependent = continu, normal distribuit ...


dac nu se folosete regresia logistic

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

87

Indicatori statistici n evaluarea


modelelor de regresie

TRUNCHI COMUN, anul I (2008(2008-2009)

88

Valoarea lui crete dac noul termen introdus n model

determin o mbuntire a acestuia mai mare dect


cea ateptat prin ansa.
Spre deosebire de coeficientul de determinare care este
un estimator pentru eantion, coeficientul de
determinare ajustat este un estimator pentru populaie.

explicat de relaia de liniaritate dintre aceasta i


variabilele X.

Eroarea standard a estimatului: media erorii n


estimarea lui obinut pe baza ecuaiei de regresie.

Curs 10

89

Indicatori statistici n evaluarea


modelelor de regresie

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Coeficientul de determinare ajustat: valoarea ajustat


a coeficientului de determinare pentru numrul
variabilelor independente din model (X).

Cuantific proporia variaiei lui Y care poate fi

TRUNCHI COMUN, anul I (2008(2008-2009)

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Indicatori statistici n evaluarea


modelelor de regresie

Coeficientul de corelaie (r): exprim cantitativ


puterea relaiei liniare dintre activitatea de interes i
variabila sau variabilele independente
Coeficientul
de
determinare
(r2):
ptratul
coeficientului de corelaie.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

86

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

90

Indicatori statistici n evaluarea


modelelor de regresie

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

15

TRUNCHI COMUN, anul I (2008(2008-2009)

91

Exemplu 1

TRUNCHI COMUN, anul I (2008(2008-2009)

92

Exemplu 1

S-a studiat scderea numrului de neuroni odat cu


naintarea n vrst, prin examinarea creierului unui
eantion de 38 pacieni cu vrste cuprinse ntre 13 101 ani care au decedat fr nici un fel de istoric de
boal sau demen. S-au numrat neuronii din
hipocamp, pe mai multe seciuni ale fiecrei regiuni a
hipocampusului. Cercettorii implicai n numrarea
neuronilor nu cunoteau vrstele pacienilor.

S-au obinut urmtoarele rezultate*:


Subdiviziuni hipocamp

Panta numr p
neuroni/vrst

Dental granule cell layer

-54000

0,1700

Dental hilus

-9000

0,0120

Pyramidal cell layer CA3-2 -6000

0,1800

Pyramidal cell layer CA1

-29000

0,2600

Subiculum

-36000

0,0013

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

93

West et al. 1994

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

94

Exemplu 1

Exemplu 1

1. Ce se nelege prin panta numr de neuroni


versus vrst?

2. De ce cercettorii nu au cunoscut vrsta


pacienilor?

Estimarea modificrii numrului neuronilor


pe an
Este panta liniei de regresie
Panta este negativ deoarece numrul de
neuroni scade odat cu naintarea n vrst

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

TRUNCHI COMUN, anul I (2008(2008-2009)

95

Exemplu 2

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

TRUNCHI COMUN, anul I (2008(2008-2009)

Curs 10

96

Exemplu 2

Greutatea la natere a unui eantion de 1333


brbai suedezi n vrst de 50 ani a fost
extras din registrele de eviden a naterilor.
S-a descoperit o corelaie semnificativ ntre
vrsta la natere i nlimea acestor persoane
adulte (r = 0.22, p < 0.001)
(Leon et al. 1996)

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Cercettorii se pot atepta ca persoanele mai


n etate s aib mai puini neuroni n
comparaie cu persoanele mai tinere. Astfel,
dac cercettorii cunosc vrsta pacienilor se
ateapt ca numrul de neuroni s fie mai mic
la persoanele mai n etate numrul de
neuroni poate fi astfel subestimat

Curs 10

Ce se nelege prin corelaie i r=0,22?


Corelaie pozitiv:
greutatea la natere nlime
greutatea la natere nlime
Corelaie negativ:
greutatea la natere nlime
greutate la natere nlime
r = coeficientul de corelaie care msoar puterea relaiei liniare

ntre cele dou variabile continue

r = 0,22 corelaia este pozitiv; nlimea adulilor tinde s fie mai


mare pentru subiecii cu greutate mai mare la natere dar corelaia
este slab.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

16

TRUNCHI COMUN, anul I (2008(2008-2009)

97

TRUNCHI COMUN, anul I (2008(2008-2009)

98

Exemplu 2

De reinut! Regresia

Ce concluzie putem trage din relaia dintre nlimea


adultului i greutatea la natere?

Se utilizeaz pentru a estima i ulterior a


prezice o variabil n funcie de alt variabil.
Parametrii de interpretare ai modelului de
regresie!
Relaia de liniaritate nu se ntlnete frecvent
n studiile medicale.

Pentru populaia din care acest eantion a fost extras ,

nlimea adultului este n relaie cu greutatea la natere,


dar relaia este slab. Brbaii nali se pare c au avut o
greutate la natere mai mare. Din aceste date nu putem
trage concluzia c relaia este una de cauzalitate.

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

Sorana D. BOLBOACA INFORMATIC MEDICAL I BIOSTATISTIC

Curs 10

17

S-ar putea să vă placă și