Sunteți pe pagina 1din 51

INFORMATICA MEDICALA

SI
BIOSTATISTICA
Informatica Medicala si
Biostatistica
7 cursuri
Nota:
LP (20%) (max 3 abs + min nota 5)
Proba practica (30%) (min nota 5)
Referat (proiect) (10% -optional)
Proba teoretica (40%) (min 4 rasp corecte/20)
LP -> Proba practica -> Proba teoretica
Tipuri de date, frecvene,
distribuii, eantionare
Coninutul acestui curs:
Tipuri de date
Distribuii de frecven
Histograme i alte reprezentri grafice
Simetrie i asimetrie, mediana i alte
cuantilele, media, amplitudinea, dispersia,
abaterea standard
Distribuia normal
Tipuri de date
Datele calitative apar atunci cnd indivizii pot aparine
unor (fi clasificai n) clase separate.
Ex: diagnosticul, sexul, decedat/viu
O variabil calitativ este cunoscut i sub numele de
variabil categorial, variabil de clasificare sau atribut.
Datele cantitative sunt numerice i sunt obinute fie prin
numrare fie sunt rezultatul unei msurtori.
Dac valorile sunt numere ntregi (obinute prin numrare)
atunci aceste date se numesc discrete.
Ex: nr de episoade de ulcer
Dac sunt valorile sunt obinute prin msurtori atunci ele
pot fi orice valoare dintr-un interval i n acest caz se
numesc continue.
Ex: presiunea sngelui, colesterolul seric
Tipuri de date
Populaie - nr mare de indivizi
- caracter dinamic
- este bine definit la un moment de timp dat
Eantion-ul este parte mic din populaie (se poate
extrage suficient informaie pentru a se face inferene
asupra caracteristicilor studiate la nivelul populaiei)
Variabilele sunt caliti sau cantiti care pot s aib
valori diferite de la un membru al unui grup (eantion) la
altul.
O statistic este o formul a crei valoare se obine cu
ajutorul datelor dintr-un eantion.
Distribuii de frecvene
Sursa de referin pentru pacienii dintr-un studiu
psihoterapeutic referitor la consilierea durerii lombare
(Frost et al., 2004)

Sursa de referin (consilierul) este o variabil calitativ.

Frost H, Lamb SE, Doll HA, Carver PT, Stewart-Brown S. (2004) Randomised controlled trial of physiotherapy compared with advice
for low back pain. British Medical Journal 329, 708-711.
Distribuii de frecvene
Sursa de referin pentru pacienii dintr-un studiu
psihotarapeutic (Frost et al., 2004)

Numrul de persoane care aparin unei anumite categorii se


numete frecven a aceastei categorii. Proporia persoanelor
care aparin unei anumite categorii se numete frecven
relativ sau frecven proporional.
Frecvena relativ pentru medicii generaliti este de 256/285
= 0.898 sau 89.8%.
Distribuii de frecvene
Sursa de referin pentru pacienii dintr-un studiu
psihotarapeutic (Frost et al., 2004)

Numrul de persoane care aparin unei anumite categorii se


numete frecven a aceastei categorii. Proporia persoanelor
care aparin unei anumite categorii se numete frecven
relativ sau frecven proporional.
Muimea valorilor frecvenelor pentru toate categoriile
posibile se numete distribuie de frecven a variabilei.
Categorii ordonate
Mobilitatea pacienilor recrutai n studiul VenUS I
(Nelson et al., 2004)
Imobilitate

Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and short-stretch compression
bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91, 1292-1299.
Categorii ordonate
Mobilitatea pacienilor recrutai n studiul VenUS I
(Nelson et al., 2004)
Imobilitate
1
2
3

Frecvena cumulat pentru o valoare a unei variabile


reprezint numrul de indivizi cu valori mai mici sau egale
cu aceast valoare. Frecvena cumulat relativ pentru o
valoare este proporia de indivizi din eantion cu valori mai
mici sau egale cu aceast valoare.
Variabile cantitative discrete
Numrul de episoade de ulcer venos dup debut la
pacienii din studiul VenUS I (Nelson et al., 2004)
Variabile cantitative discrete
Numrul de episoade de ulcer venos dup debut la
pacienii din studiul VenUS I (Nelson et al., 2004)

Se poate numra de cte ori apare fiecare valoare


pentru a obine distribuia de frecven.
Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).

Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme gene deletion
polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.
Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).

Exist mai multe valori apar doar o singur dat iar numrul
de apariii al unei valori nu ajut n acest caz.
Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).

Se mparte scala (plaja de valori) colesterolului seric n intervale


(clase) adic 3.0 - 4.0, 4.0 - 5.0, i aa mai departe.
Se numr persoanele cu colesterol seric din fiecare interval.
Variabile continue
Intervalele (clasele) nu trebuie s se suprapun astfel
ca trebuie s se decid ce interval va conine punctul de
frontier pentru a se evita numrarea unei valori de
dou ori.
Se obinuiete se pun limita inferioar n intervalul la
care ne referim iar limita superioar n intervalul
urmtor.
Astfel, intervalul care ncepe de la 3.0 i se termin la
4.0, conine 3.0 dar nu conine 4.0.
Putem scrie aceasta ca 3.0 sau 3.0 4.0 sau
3.0 3.999.
Variabile continue
Colesterolul seric (mmol/L):
Variabile continue
Distribuia de frecven a colesterolul seric (mmol/L):

Depinde de alegerea limii intervalului (?mare, ?mic).


Forma distribuiei este foarte important.
Prezentarea grafic a acestei distribuii este histograma.
Histograme i alte grafice pentru frecven
Modalitatea cea mai utilizat n descrierea unei distribuii de
frecven este histograma.
Ea este o diagram n care fiecare interval este reprezentat pe
ax de o bar dreptunghiular a crui nlime este direct
proporional cu frecvena sau nr de observaii (proporia.. ) care
se afl n intervalul considerat.
Oy:

Frecvena relativ
Frecvena

Ox: Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)


Nr de apariii! Proporii!
Histograme i alte grafice pentru frecven
Histograma colesterorului seric, scala de frecvene:

Frecvena
Frecvena

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)

Diferite puncte de plecare (limita inferioar a primului


interval) i lungimi de interval, form oarecum diferit!
Echilibrat! Grosolan!
Histograme i alte grafice pentru frecven
Histograma colesterorului seric, scala de frecven i de
densitate de frecven

Densitate de frecven
Frecvena

2 4

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)


n acest caz aria de sub histogram reprezint frecvena.
Densitatea de frecven este nr de observaii pe unitatea de variabil.
Pentru 3.75 - 4.25 mmol/L, densitatea de frecven este de 4 observaii
pe mmol/L. Limea intervalului = 0.5, frecvena = 4 0.5 =2.
Histograme i alte grafice pentru frecven
Histograma colesterorului seric, scala de densitate de
frecven i densitate de frecven relativ

Densitate de frecven relativ


Densitate de frecven

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)


Dac se reprezint grafic densitatea de frecven relativ
(proporia de observaii pe unitatea de variabil) atunci aria
histogramei va fi 1.0.
Histograme i alte grafice pentru frecven
Densitatea de frecven ne per- Distribuie
neregulat!
mite netezirea histogramelor.

Frecven
Pe scala frecvenelor, unificarea
intervalelor produce o impresie
greit.
Presiunea sistolic a sngelui (mm Hg)

Combinarea

Densitate de frecven
Form corect
ultimelor 3 a distribuiei
Frecven

intervale!

Impresie
eronat!

Presiunea sistolic a sngelui (mm Hg) Presiunea sistolic a sngelui (mm Hg)
Histograme i alte grafice pentru frecven
Pentru o variabil discret dreptunghiurile (barele) pot
fi separate:
Frecvena

Numrul de episoade de ulcer venos


Aceasta subliniaz discretitudinea.
Histograme i alte grafice pentru frecven
Poligonul frecvenelor:

Frecvena relativ
unirea vrfurile barelor
din histogram

Colesterolul seric (mmol/L)

Sntoi
Util n reprezentarea a Frecvena relativ
mai mult de o Pacieni cu
accident vascular
distribuie pe aceleai
axe!
Colesterolul seric (mmol/L)
Histograme i alte grafice pentru frecven
Pentru o variabil calitativ se poate folosi diagrama
circular sau diagrama cu dreptunghiuri orizontale
(bare):
Forma distribuiilor de frecven
Modul este valoarea cea mai frecvent ntlnit n
distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia unimodal este distribuia cu un singur modul.
Modul
Frecvena

Coada
Coada
inferioar
superioar

Interval (clasa) modal()


Colesterolul seric (mmol/L)
Forma distribuiilor de frecven
Modul este valoarea cea mai frecvent ntlnit n
distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia unimodal este distribuia cu un singur modul.

O singur
populaie!
Frecvena

Numrul de episoade de ulcer venos


Forma distribuiilor de frecven
Modul este valoarea cea mai frecvent ntlnit n
distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia bimodal este distribuia cu dou module.
Modul
Tensiunea arterial
sistolic la 251 pacieni
Modul
admii la o unitate de
Frecvena

terapie intensiv (77


diagnostice).

n acest caz avem dou


Presiunea sistolic a sngelui (mm Hg)
Valori normale
populaii!
Forma distribuiilor de frecven
Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.
Dac coada din dreapta este de lungime similar cu
cea din stnga, se spune c distribuia este simetric.
Frecvena

nlimea pentru 222 de


femei admise n studiul
VenUS I.

nlimea (cm)
Forma distribuiilor de frecven
Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.
Dac coada din dreapta este mai lung dect coada
din stnga atunci distribuia este asimetric la
dreapta sau pozitiv asimetric.
Frecvena

Frecvena

Colesterolul seric (mmol/L) Numrul de episoade de ulcer venos


Forma distribuiilor de frecven
Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.
Dac coada din stnga este mai lung dect coada din
dreapta atunci distribuia este asimetric la stnga
sau negativ asimetric.

Vrsta gestational
(sarcinii) n
Frecvena

momentul naterii.

-
Vrsta sarcinii (sptmni)
Forma distribuiilor de frecven

Majoritatea datelor medicale au


distribuii unimodale!

Majoritatea datelor medicale urmeaz


o distribuie fie simetric fie pozitiv
asimetric!
Sintetizarea datelor cantitative:
mediane i cuantile
Cuantilele sunt valori care mpart distribuia astfel
nct exist o anumit proporie de observaii care se
afl la stnga cuantilei.
Mediana este valoarea central a distribuiei astfel
nct jumtate dintre observaii sunt mai mici sau
egale dect valoarea ei i jumtate sunt mai mari sau
egale cu aceasta.
Pentru datele referitoare la colesterol mediana este
6.15 i se afl ntre observaiile a 43-a i a 44-a.
Dac avem un numr impar de observaii, mediana
este valoarea central iar pentru un numr par de
observaii, mediana este media aritmetic a celor
dou valori centrale.
Sintetizarea datelor cantitative:
mediane i cuartile
Cuartilele sunt valori (trei!) care mpart distribuia n patru
pri egale. Cea de-a doua cuartil este mediana.
Prima cuartil este valoare care delimiteaz primul sfert de
distribuie (las 25% din observaii la stnga ei), iar cea de-a
treia cuartil delimiteaz primele trei sferturi de distribuie
(las la stnga ei 75% din observaii).
!! cuartila este un punct
de diviziune, nu reprezint
Frecvena

aria de sub grafic.

Putem mpri distribuia


Prima A treia
cuartil cuartil n 100 de pri egale adic
Mediana
n centile sau percentile.
Colesterolul seric (mmol/L)
Sintetizarea datelor cantitative:
media
Media artimetic, de obicei ntlnit sub denumirea
simpl de medie, se obine prin nsumarea valorilor
tuturor observaiilor i apoi prin mprirea sumei la
numrul lor.
Media este adesea notat cu o bar micu asezat
deasupra simbolului variabilei, adic x .
Media eantinului are proprieti matematice mult mai
utile dect mediana i din acest motiv este folosit
adesea n metodele de comparaie pe care le vom
descrie mai trziu.
Mediana este o statistic descriptiv foarte util ns nu
este prea des utilizat.
Sintetizarea datelor:
mediana, media i asimetria
Media colesterolului = 6.34, mediana colesterolului = 6.15
Media nlimii = 162.2, mediana nlimii = 162. 6
Media episoadelor de ulcer = 3.4, mediana episoadelor = 2
Dac distribuia este simetric media i mediana au aproximativ
aceeai valoare, iar n cazul unei distribuii asimetrice media i
mediana sunt de obicei diferite.
Dac distribuia este asimetric la dreapta, la fel ca n cazul
colesterolui seric, valoarea mediei va fi de obicei mai mare dect
cea a valoarea medianei, iar n cazul n care este asimetric la
stnga valoarea medianei va fi de obicei mai mare dect valoarea
mediei.
Acest lucru se datoreaz faptului c valorile din coada distribuiei
afecteaz media i nu mediana.
Sintetizarea datelor:
mediana, media i asimetria
Asimetrie spre
Frecvena dreapta!

Media
Mediana

Colesterolul seric (mmol/L)

Prin creterea valorii celor mai mari observaii, valoarea


mediei va crete i ea.
Mediana nu este, ns, afectat!
Sintetizarea datelor cantitative:
variabilitatea
Media i mediana sunt msuri de tendin
central care ncearc s determine poziia
de mijloc a distribuiei.
Este necesar o msur pentru mprtiere,
dispersie sau variabilitate a datelor din
distribuiei.
Amplitudinea este diferena dintre cea mai mare i cea
mai mic valoare.

Aceasta este o msur util din punct de vedere descriptiv, dar are
dou dezavantaje:
- depinde de valorile extreme (variaz mult de la un eantion la altul)
- depinde de mrimea eantionului (eantion mare => extremele
departate una de cealalt)
Sintetizarea datelor cantitative:
variabilitatea

Amplitudinea depinde de mrimea eantionului!

Putem rezolva aceast problem prin utilizarea


amplitudinii intercuartile (interquartile range sau
IQR) adic diferena dintre prima i a treia cuartil.
Sintetizarea datelor cantitative:
variabilitatea
n analiza datelor, amplitudinea obinuit i
amplitudinea intercuartil nu sunt suficiente. n
locul acestora vom folosi alte dou msuri ale
variabilitii i anume dispersia sau variana i
abaterea standard.
Aceste msuri arat ct de deprtate sunt observaiile
de centrul distribuiei.
Variana sau dispersia este media aritmetic a
ptratelor diferenelor dintre observaii i media lor.
Abaterea standard (SD = standard deviation) este
rdcina ptrat din varian sau dispersie.
Sintetizarea datelor cantitative:
variana sau dispersia
Variana sau dispersia este media aritmetic a
ptratelor diferenelor dintre observaii i media lor.
n cazul unei singure observaii, variana sau dispersia
nu se poate calcula. Media este chiar observaia nsi
iar diferena este nul. Sunt necesare cel puin dou
observaii.
Suma ptratelor diferenelor fa de medie este
proporional cu numrul observaiilor minus unu,
valoare cunoscut sub numele de grade de libertate.
Variana este estimat ca fiind suma ptratelor
diferenelor fa de medie mprit prin gradele de
libertate.
Sintetizarea datelor cantitative:
variana sau dispersia
nlime: variana = 49.7 cm2
Colesterol: variana = 1.96 mmol/L2
Episoadele de ulcer: variana = 42.3 episoade2
Vrsta gestaional: variana = 5.24 sptmni2

Variana se bazeaz pe ptratul valorilor observaiilor i


astfel unitile de msur pentru varian sunt
exprimate n unitile de msur iniiale la ptrat.
Aceasta face lucrurile dificil de interpretat!
Sintetizarea datelor cantitative:
abaterea standard
Variana se calculeaz cu ajutorul ptratelor valorilor
observaiilor. Aceasta nseamn c nu avem aceleai
uniti de msur ca i observaiile.
Prin extragerea rdcinii ptrate vom avea aceleai
uniti de msur ca i observaiile sau ca media.
Rdcina ptrat a varianei este cunoscut sub
numele de abatere standard (SD sau s) i, de obicei, se
noteaz cu s.
nlime: s = 49.7 = 7.01 cm
Colesterol: s = 1.96 = 1.40 mmol/L
Episoadele de ulcer: s = 42.3 = 6.5 episoade
Sintetizarea datelor cantitative:
abaterea standard
nlimea: s = 49.7 = 7.01 cm
Distribuie simetric!
media= 162.2
mediana= 162. 6
Frecvena

(m-2s, m+2s):
(148.1, 176.3)

Media-2s Media Media+2s


Media-s Media+s

nlimea (cm)
!!Majoritatea observaiilor (aproximativ 2/3 65%) se afl
la o SD fa de medie. Aproape toate se ncadreaz n
aproximativ 2xSD fa de medie (aproximativ 95%).
Sintetizarea datelor cantitative:
abaterea standard
Colesterol: s = 1.96 = 1.40 mmol/L
Distribuie aproape
simetric!
media= 6.34
Frecvena

mediana= 6.15
4,5 valori n afara
intervalului
(m-2s, m+2s)
Media-2s Media Media+2s
Media-s Media+s

Colesterolul seric (mmol/L)


Majoritatea observaiilor (aproximativ 2/358%) se afl la o SD
fa de medie. Aproape toate se ncadreaz n aproximativ 2xSD
fa de medie (aproximativ 95%) iar cele din afar se pot afla
toate spre unul din capetele distribuiei.
Sintetizarea datelor cantitative:
abaterea standard
Durata ulcerului venos: s = 189.3 = 13.8 luni
Distribuie foarte
asimetric!
Asimetrie spre dreapta!
Frecvena

(pozitiv asimetric)
media= 9.4
mediana= 3
7% valori mai mari dect
m+2s!
Media-2s Media Media+2s
Media-s Media+s

Durata ulcerului (luni)


Majoritatea observaiilor (aproximativ 2/3 87%) se afl la o SD
fa de medie. Aproape toate se ncadreaz n aproximativ 2xSD
fa de medie (aproximativ 95%) iar cele din afar se pot afla
toate spre unul din capetele distribuiei.
Sintetizarea datelor cantitative:
abaterea standard
Vrsta sarcinii: s = 5.242 = 2.29 sptmni
Distribuie asimetric!
Asimetrie spre stnga!
(negativ asimetric)
Frecvena

media= 38.5
mediana= 39
2 valori din 1749 (0.1%)
mai mari dect m+2s!
62 valori din 1749 (3.5%)
Media-2s Media Media+2s
mai mici dect m-2s!
Media-s Media+s

Vrsta sarcinii (sptmni)


Majoritatea observaiilor (aproximativ 2/3) se afl la o SD fa de
medie. Aproape toate se ncadreaz n aproximativ 2xSD fa de
medie (aproximativ 95%) iar cele din afar se pot afla toate spre
unul din capetele distribuiei.
Sintetizarea datelor cantitative:
depistarea asimetriei
Dac media este mai mic dect dou abateri standard,
atunci media minus dou abateri standard este o valoare
negativ.
Cum nici o variabil nu poate lua valori negative, acesta ne
spune c distribuia trebuie s fie pozitiv asimetric.
Dac media sau mediana sunt apropiate ca valori de una
din limitele amplitudinii sau amplitudinii intercuartile,
atunci aceasta ne ofer o indicaie asupra asimetriei
distribuiei. n cazul n care este media sau mediana sunt
apropiate de limita inferioar distribuia va fi pozitiv
asimetric, iar n cazul n care se afl n apropiere de limita
superioar distribuia va fi negativ asimetric.
Sintetizarea datelor cantitative:
depistarea asimetriei
Durata ulcerului:
mediana = 3.0, media = 9.4, SD = 14.0,
aplitudinea = 0 la 75, IQR = 1 la 10 (pozitiv asimetric)
Varsta sarcinii:
mediana = 39, media = 38.5, SD = 2.29,
aplitudinea = 21 la 44, IQR = 38 la 40 (negativ asimetric)
Regula empiric merge doar unidirecional, adic
media poate s depeasc dou abateri standard i
distribuia poate fi totui asimetric.