Sunteți pe pagina 1din 51

INFORMATICA MEDICALA

SI
BIOSTATISTICA
Informatica Medicala si
Biostatistica
• 7 cursuri
• Nota:
LP (20%) (max 3 abs + min nota 5)
Proba practica (30%) (min nota 5)
Referat (proiect) (10% -optional)
Proba teoretica (40%) (min 7 rasp corecte/20)
• LP -> Proba practica -> Proba teoretica
Tipuri de date, frecvențe,
distribuții, eșantionare
Conținutul acestui curs:
• Tipuri de date
• Distribuții de frecvență
• Histograme și alte reprezentări grafice
• Simetrie și asimetrie, mediana și alte
cuantilele, media, amplitudinea, dispersia,
abaterea standard
• Distribuția normală
Tipuri de date
• Datele calitative apar atunci când indivizii pot aparține
unor (fi clasificați în) clase separate.
Ex: diagnosticul, sexul, decedat/viu
O variabilă calitativă este cunoscută și sub numele de
variabilă categorială, variabilă de clasificare sau atribut.
• Datele cantitative sunt numerice și sunt obținute fie prin
numărare fie sunt rezultatul unei măsurători.
Dacă valorile sunt numere întregi (obținute prin numărare)
atunci aceste date se numesc discrete.
Ex: nr de episoade de ulcer
Dacă sunt valorile sunt obținute prin măsurători atunci ele
pot fi orice valoare dintr-un interval și în acest caz se
numesc continue.
Ex: presiunea sângelui, colesterolul seric
Tipuri de date
• Populație - nr mare de indivizi
- caracter dinamic
- este bine definită la un moment de timp dat
• Eșantion-ul este parte “mică” din populație (se poate
extrage suficientă informație pentru a se face inferențe
asupra caracteristicilor studiate la nivelul populației)
• Variabilele sunt calități sau cantități care pot să aibă
valori diferite de la un membru al unui grup (eșantion) la
altul.
• O statistică este o formulă a cărei valoare se obține cu
ajutorul datelor dintr-un eșantion.
Distribuții de frecvențe
Sursa de referință pentru pacienții dintr-un studiu
psihoterapeutic referitor la consilierea durerii lombare
(Frost et al., 2004)

Sursa de referință (consilierul) este o variabilă calitativă.

Frost H, Lamb SE, Doll HA, Carver PT, Stewart-Brown S. (2004) Randomised controlled trial of physiotherapy compared with advice
for low back pain. British Medical Journal 329, 708-711.
Distribuții de frecvențe
Sursa de referință pentru pacienții dintr-un studiu
psihotarapeutic (Frost et al., 2004)

Numărul de persoane care aparțin unei anumite categorii se


numeşte frecvență a aceastei categorii. Proporția persoanelor
care aparțin unei anumite categorii se numește frecvență
relativă sau frecvență proporțională.
Frecvența relativă pentru medicii generaliști este de 256/285
= 0.898 sau 89.8%.
Distribuții de frecvențe
Sursa de referință pentru pacienții dintr-un studiu
psihotarapeutic (Frost et al., 2004)

Numărul de persoane care aparțin unei anumite categorii se


numeşte frecvență a aceastei categorii. Proporția persoanelor
care aparțin unei anumite categorii se numește frecvență
relativă sau frecvență proporțională.
Muțimea valorilor frecvențelor pentru toate categoriile
posibile se numeşte distribuție de frecvență a variabilei.
Categorii ordonate
Mobilitatea pacienților recrutați în studiul VenUS I
(Nelson et al., 2004)
Imobilitate

Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and short-stretch compression
bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91, 1292-1299.
Categorii ordonate
Mobilitatea pacienților recrutați în studiul VenUS I
(Nelson et al., 2004)
Imobilitate
1
2
3

Frecvența cumulată pentru o valoare a unei variabile


reprezintă numărul de indivizi cu valori mai mici sau egale
cu această valoare. Frecvența cumulată relativă pentru o
valoare este proporția de indivizi din eşantion cu valori mai
mici sau egale cu această valoare.
Variabile cantitative discrete
Numărul de episoade de ulcer venos după debut la
pacienții din studiul VenUS I (Nelson et al., 2004)
Variabile cantitative discrete
Numărul de episoade de ulcer venos după debut la
pacienții din studiul VenUS I (Nelson et al., 2004)

Se poate număra de câte ori apare fiecare valoare


pentru a obține distribuția de frecvență.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de 86
pacienți cu accident vascular cerebral (Markus et al., 1995).

Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme gene deletion
polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de 86
pacienți cu accident vascular cerebral (Markus et al., 1995).

Există mai multe valori apar doar o singură dată iar numărul
de apariții al unei valori nu ajută în acest caz.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de 86
pacienți cu accident vascular cerebral (Markus et al., 1995).

Se împarte scala (plaja de valori) colesterolului seric în intervale


(clase) adică 3.0 - 4.0, 4.0 - 5.0, şi aşa mai departe.
Se numără persoanele cu colesterol seric din fiecare interval.
Variabile continue
Intervalele (clasele) nu trebuie să se suprapună astfel
ca trebuie să se decidă ce interval va conține punctul de
frontieră pentru a se evita numărarea unei valori de
două ori.
Se obișnuiește se pună limita inferioară în intervalul la
care ne referim iar limita superioară în intervalul
următor.
Astfel, intervalul care începe de la 3.0 şi se termină la
4.0, conține 3.0 dar nu conține 4.0.
Putem scrie aceasta ca ”3.0 — ” sau ”3.0 — 4.0” sau
”3.0 — 3.999”.
Variabile continue
Colesterolul seric (mmol/L):
Variabile continue
Distribuția de frecvență a colesterolul seric (mmol/L):

Depinde de alegerea lățimii intervalului (?mare, ?mică).


Forma distribuției este foarte importantă.
Prezentarea grafică a acestei distribuții este histograma.
Histograme și alte grafice pentru frecvență
Modalitatea cea mai utilizată în descrierea unei distribuții de
frecvență este histograma.
Ea este o diagramă în care fiecare interval este reprezentat pe
axă de o bară dreptunghiulară a cărui înălțime este direct
proporțională cu frecvența sau nr de observații (proporția.. ) care
se află în intervalul considerat.
Oy:

Frecvența relativă
Frecvența

Ox: Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)


Nr de apariții! Proporții!
Histograme și alte grafice pentru frecvență
Histograma colesterorului seric, scala de frecvențe:

Frecvența
Frecvența

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)

Diferite puncte de plecare (limita inferioară a primului


interval) și lungimi de interval, formă oarecum diferită!
Echilibrată! Grosolană!
Histograme și alte grafice pentru frecvență
Histograma colesterorului seric, scala de frecvență și de
densitate de frecvență

Densitate de frecvență
Frecvența

2 4

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)


În acest caz aria de sub histogramă reprezintă frecvența.
Densitatea de frecvență este nr de observații pe unitatea de variabilă
(nr de observatii/lungimea intervalului). Pentru 3.75 - 4.25 mmol/L,
densitatea de frecvență este de 4 observații pe mmol/L. Lățimea
intervalului = 0.5, frecvența = 4  0.5 =2.
Histograme și alte grafice pentru frecvență
Histograma colesterorului seric, scala de densitate de
frecvență și densitate de frecvență relativă

Densitate de frecvență relativă


Densitate de frecvență

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)


Dacă se reprezintă grafic densitatea de frecvență relativă
(proporția de observații pe unitatea de variabilă) atunci aria
histogramei va fi 1.0.
Histograme și alte grafice pentru frecvență
Densitatea de frecvență ne per- Distribuție
neregulată!
mite netezirea histogramelor.

Frecvență
Pe scala frecvențelor, unificarea
intervalelor produce o impresie
greșită.
Presiunea sistolică a sângelui (mm Hg)

Combinarea

Densitate de frecvență
Formă corectă
ultimelor 3 a distribuției
Frecvență

intervale!

Impresie
eronată!

Presiunea sistolică a sângelui (mm Hg) Presiunea sistolică a sângelui (mm Hg)
Histograme și alte grafice pentru frecvență
Pentru o variabilă discretă dreptunghiurile (barele) pot
fi separate:
Frecvența

Numărul de episoade de ulcer venos


Aceasta subliniază discretitudinea.
Histograme și alte grafice pentru frecvență
Poligonul frecvențelor:

Frecvența relativă
unirea vârfurile barelor
din histogramă

Colesterolul seric (mmol/L)

Sănătoși
Util în reprezentarea a Frecvența relativă
mai mult de o Pacienți cu
accident vascular
distribuție pe aceleași
axe!
Colesterolul seric (mmol/L)
Histograme și alte grafice pentru frecvență
Pentru o variabilă calitativă se poate folosi diagrama
circulară sau diagrama cu dreptunghiuri orizontale
(bare):
Forma distribuțiilor de frecvență
Modul este valoarea (?) cea mai frecvent întâlnită în
distribuție.
Cozile sunt locuri sunt extreme ale distribuției unde
observațiile sunt, de obicei, rare.
Distribuția unimodală este distribuția cu un singur modul.
Modul
Frecvența

Coada
Coada
inferioară
superioară

Interval (clasa) modal(ă)


Colesterolul seric (mmol/L)
Forma distribuțiilor de frecvență
Modul este valoarea cea mai frecvent întâlnită în
distribuție.
Cozile sunt locuri sunt extreme ale distribuției unde
observațiile sunt, de obicei, rare.
Distribuția unimodală este distribuția cu un singur modul.

O singură
populație!
Frecvența

Numărul de episoade de ulcer venos


Forma distribuțiilor de frecvență
Modul este valoarea cea mai frecvent întâlnită în
distribuție.
Cozile sunt locuri sunt extreme ale distribuției unde
observațiile sunt, de obicei, rare.
Distribuția bimodală este distribuția cu două module.
Modul
Tensiunea arterială
sistolică la 251 pacienți
Modul
admişi la o unitate de
Frecvența

terapie intensivă (77


diagnostice).

În acest caz avem două


Presiunea sistolică a sângelui (mm Hg)
Valori normale
populații!
Forma distribuțiilor de frecvență
Părțile histogramei aflate în apropierea extremelor se
numesc cozi ale distribuției.
Dacă coada din dreapta este de lungime similară cu
cea din stânga, se spune că distribuția este simetrică.
Frecvența

Înălțimea pentru 222 de


femei admise în studiul
VenUS I.

Înălțimea (cm)
Forma distribuțiilor de frecvență
Părțile histogramei aflate în apropierea extremelor se
numesc cozi ale distribuției.
Dacă coada din dreapta este mai lungă decât coada
din stânga atunci distribuția este asimetrică la
dreapta sau pozitiv asimetrică.
Frecvența

Frecvența

Colesterolul seric (mmol/L) Numărul de episoade de ulcer venos


Forma distribuțiilor de frecvență
Părțile histogramei aflate în apropierea extremelor se
numesc cozi ale distribuției.
Dacă coada din stânga este mai lungă decât coada din
dreapta atunci distribuția este asimetrică la stânga
sau negativ asimetrică.

Vârsta gestatională
(sarcinii) în
Frecvența

momentul nașterii.

-
Vârsta sarcinii (săptămâni)
Forma distribuțiilor de frecvență

Majoritatea datelor medicale au


distribuții unimodale!

Majoritatea datelor medicale urmează


o distribuție fie simetrică fie pozitiv
asimetrică!
Sintetizarea datelor cantitative:
mediane și cuantile
Cuantilele sunt valori care împart distribuția astfel
încât există o anumită proporție de observații care se
află la stânga cuantilei.
Mediana este valoarea centrală a distribuției astfel
încât jumătate dintre observații sunt mai mici sau
egale decât valoarea ei şi jumătate sunt mai mari sau
egale cu aceasta.
Pentru datele referitoare la colesterol mediana este
6.15 și se află între observațiile a 43-a și a 44-a.
Dacă avem un număr impar de observații, mediana
este valoarea centrală iar pentru un număr par de
observații, mediana este media aritmetică a celor
două valori centrale.
Sintetizarea datelor cantitative:
mediane și cuartile
Cuartilele sunt valori (trei!) care împart distribuția în patru
părți egale. Cea de-a doua cuartilă este mediana.
Prima cuartilă este valoare care delimitează primul sfert de
distribuție (lasă 25% din observații la stânga ei), iar cea de-a
treia cuartilă delimitează primele trei sferturi de distribuție
(lasă la stânga ei 75% din observații).
!! cuartila este un punct
de diviziune, nu reprezintă
Frecvența

aria de sub grafic.

Putem împărți distribuția


Prima A treia
cuartilă cuartilă în 100 de părți egale adică
Mediana
în centile sau percentile.
Colesterolul seric (mmol/L)
Sintetizarea datelor cantitative:
media
Media artimetică, de obicei întâlnită sub denumirea
simplă de medie, se obține prin însumarea valorilor
tuturor observațiilor și apoi prin împărțirea sumei la
numărul lor.
Media este adesea notată cu o bară micuță asezată
deasupra simbolului variabilei, adică x .
Media eșantinului are proprietăți matematice mult mai
utile decât mediana și din acest motiv este folosită
adesea în metodele de comparație pe care le vom
descrie mai târziu.
Mediana este o statistică descriptivă foarte utilă însă nu
este prea des utilizată.
Sintetizarea datelor:
mediana, media și asimetria
Media colesterolului = 6.34, mediana colesterolului = 6.15
Media înălțimii = 162.2, mediana înălțimii = 162. 6
Media episoadelor de ulcer = 3.4, mediana episoadelor = 2
Dacă distribuția este simetrică media și mediana au aproximativ
aceeași valoare, iar în cazul unei distribuții asimetrice media şi
mediana sunt de obicei diferite.
Dacă distribuția este asimetrică la dreapta, la fel ca în cazul
colesterolui seric, valoarea mediei va fi de obicei mai mare decât
cea a valoarea medianei, iar în cazul în care este asimetrică la
stânga valoarea mediei va fi de obicei mai mica decât valoarea
medianei.
Acest lucru se datorează faptului că valorile din coada distribuției
afectează media și nu mediana.
Sintetizarea datelor:
mediana, media și asimetria
Asimetrie spre
Frecvența dreapta!

Media
Mediana

Colesterolul seric (mmol/L)

Prin creșterea valorii celor mai mari observații, valoarea


mediei va crește și ea.
Mediana nu este, însă, afectată!
Sintetizarea datelor cantitative:
variabilitatea
Media şi mediana sunt măsuri de tendință
centrală care încearcă să determine poziția
de mijloc a distribuției.
Este necesară o măsură pentru împrăștiere,
dispersie sau variabilitate a datelor din
distribuției.
Amplitudinea este diferența dintre cea mai mare şi cea
mai mică valoare.

Aceasta este o măsură utilă din punct de vedere descriptiv, dar are
două dezavantaje:
- depinde de valorile extreme (variază mult de la un eșantion la altul)
- depinde de mărimea eşantionului (eşantion mare => extremele
departate una de cealaltă)
Sintetizarea datelor cantitative:
variabilitatea

Amplitudinea depinde de mărimea eşantionului!

Putem rezolva această problemă prin utilizarea


amplitudinii intercuartile (interquartile range sau
IQR) adică diferența dintre prima şi a treia cuartilă.
Sintetizarea datelor cantitative:
variabilitatea
În analiza datelor, amplitudinea obișnuită și
amplitudinea intercuartilă nu sunt suficiente. În
locul acestora vom folosi alte două măsuri ale
variabilității și anume dispersia sau varianța și
abaterea standard.
Aceste măsuri arată cât de depărtate sunt observațiile
de centrul distribuției.
Varianța sau dispersia este media aritmetică a
pătratelor diferențelor dintre observații și media lor.
Abaterea standard (SD = standard deviation) este
rădăcina pătrată din varianță sau dispersie.
Sintetizarea datelor cantitative:
varianța sau dispersia
Varianța sau dispersia este media aritmetică a pătratelor
diferențelor (abateri) dintre observații și media lor.
În cazul unei singure observații, varianța sau dispersia nu se
poate calcula. Media este chiar observația însăși iar
diferența este nulă. Sunt necesare cel puțin două observații.
Suma pătratelor diferențelor față de medie este
proporțională cu numărul observațiilor minus unu, valoare
cunoscută sub numele de grade de libertate.
Varianța este estimată ca fiind suma pătratelor diferențelor
față de medie împărțită prin gradele de libertate.
Sintetizarea datelor cantitative:
varianța sau dispersia
Înălțime: varianța = 49.7 cm2
Colesterol: varianța = 1.96 mmol/L2
Episoadele de ulcer: varianța = 42.3 episoade2
Vârsta gestațională: varianța = 5.24 săptămâni2

Varianța se bazează pe pătratul valorilor observațiilor și


astfel unitățile de măsură pentru varianță sunt
exprimate în unitățile de măsură inițiale la pătrat.
Aceasta face lucrurile dificil de interpretat!
Sintetizarea datelor cantitative:
abaterea standard
Varianța se calculează cu ajutorul pătratelor valorilor
observațiilor. Aceasta înseamnă că nu avem aceleași
unități de măsură ca și observațiile.
Prin extragerea rădăcinii pătrate vom avea aceleași
unități de măsură ca și observațiile sau ca media.
Rădăcina pătrată a varianței este cunoscută sub
numele de abatere standard (SD sau s) și, de obicei, se
notează cu s.
Înălțime: s = 49.7 = 7.01 cm
Colesterol: s = 1.96 = 1.40 mmol/L
Episoadele de ulcer: s = 42.3 = 6.5 episoade
Sintetizarea datelor cantitative:
abaterea standard
Înălțimea: s = 49.7 = 7.01 cm
Distribuție simetrică!
media= 162.2
mediana= 162. 6
Frecvența

(m-2s, m+2s):
(148.1, 176.3)

Media-2s Media Media+2s


Media-s Media+s

Înălțimea (cm)
!!Majoritatea observațiilor (aproximativ 2/3  65%) se află
la o SD față de medie. Aproape toate se încadrează în
aproximativ 2xSD față de medie (aproximativ 95%).
Sintetizarea datelor cantitative:
abaterea standard
Colesterol: s = 1.96 = 1.40 mmol/L
Distribuție aproape
simetrică!
media= 6.34
Frecvența

mediana= 6.15
4,5 valori în afara
intervalului
(m-2s, m+2s)
Media-2s Media Media+2s
Media-s Media+s

Colesterolul seric (mmol/L)


Majoritatea observațiilor (aproximativ 2/358%) se află la o SD
față de medie. Aproape toate se încadrează în aproximativ 2xSD
față de medie (aproximativ 95%) iar cele din afară se pot afla
toate spre unul din capetele distribuției.
Sintetizarea datelor cantitative:
abaterea standard
Durata ulcerului venos: s = 189.3 = 13.8 luni
Distribuție foarte
asimetrică!
Asimetrie spre dreapta!
Frecvența

(pozitiv asimetrică)
media= 9.4
mediana= 3
7% valori mai mari decât
m+2s!
Media-2s Media Media+2s
Media-s Media+s

Durata ulcerului (luni)


Majoritatea observațiilor (aproximativ 2/3 87%) se află la o SD
față de medie. Aproape toate se încadrează în aproximativ 2xSD
față de medie (aproximativ 95%) iar cele din afară se pot afla
toate spre unul din capetele distribuției.
Sintetizarea datelor cantitative:
abaterea standard
Vârsta sarcinii: s = 5.242 = 2.29 săptămâni
Distribuție asimetrică!
Asimetrie spre stânga!
(negativ asimetrică)
Frecvența

media= 38.5
mediana= 39
2 valori din 1749 (0.1%)
mai mari decât m+2s!
62 valori din 1749 (3.5%)
Media-2s Media Media+2s
mai mici decât m-2s!
Media-s Media+s

Vârsta sarcinii (săptămâni)


Majoritatea observațiilor (aproximativ 2/3) se află la o SD față de
medie. Aproape toate se încadrează în aproximativ 2xSD față de
medie (aproximativ 95%) iar cele din afară se pot afla toate spre
unul din capetele distribuției.
Sintetizarea datelor cantitative:
depistarea asimetriei
Dacă media este mai mică decât două abateri standard,
atunci media minus două abateri standard este o valoare
negativă.
Cum nici o variabilă nu poate lua valori negative, acesta ne
spune că distribuția trebuie să fie pozitiv asimetrică.
Dacă media sau mediana sunt apropiate ca valori de una
din limitele amplitudinii sau amplitudinii intercuartile,
atunci aceasta ne oferă o indicație asupra asimetriei
distribuției. În cazul în care este media sau mediana sunt
apropiate de limita inferioară distribuția va fi pozitiv
asimetrică, iar în cazul în care se află în apropiere de limita
superioară distribuția va fi negativ asimetrică.
Sintetizarea datelor cantitative:
depistarea asimetriei
Durata ulcerului:
mediana = 3.0, media = 9.4, SD = 14.0,
aplitudinea = 0 la 75, IQR = 1 la 10 (pozitiv asimetrică)
Varsta sarcinii:
mediana = 39, media = 38.5, SD = 2.29,
aplitudinea = 21 la 44, IQR = 38 la 40 (negativ asimetrică)
Regula empirică merge doar unidirecțional, adică
media poate să depăşească două abateri standard şi
distribuția poate fi totuși asimetrică.

S-ar putea să vă placă și