Documente Academic
Documente Profesional
Documente Cultură
SI
BIOSTATISTICA
Informatica Medicala si
Biostatistica
• 7 cursuri
• Nota:
LP (20%) (max 3 abs + min nota 5)
Proba practica (30%) (min nota 5)
Referat (proiect) (10% -optional)
Proba teoretica (40%) (min 7 rasp corecte/20)
• LP -> Proba practica -> Proba teoretica
Tipuri de date, frecvențe,
distribuții, eșantionare
Conținutul acestui curs:
• Tipuri de date
• Distribuții de frecvență
• Histograme și alte reprezentări grafice
• Simetrie și asimetrie, mediana și alte
cuantilele, media, amplitudinea, dispersia,
abaterea standard
• Distribuția normală
Tipuri de date
• Datele calitative apar atunci când indivizii pot aparține
unor (fi clasificați în) clase separate.
Ex: diagnosticul, sexul, decedat/viu
O variabilă calitativă este cunoscută și sub numele de
variabilă categorială, variabilă de clasificare sau atribut.
• Datele cantitative sunt numerice și sunt obținute fie prin
numărare fie sunt rezultatul unei măsurători.
Dacă valorile sunt numere întregi (obținute prin numărare)
atunci aceste date se numesc discrete.
Ex: nr de episoade de ulcer
Dacă sunt valorile sunt obținute prin măsurători atunci ele
pot fi orice valoare dintr-un interval și în acest caz se
numesc continue.
Ex: presiunea sângelui, colesterolul seric
Tipuri de date
• Populație - nr mare de indivizi
- caracter dinamic
- este bine definită la un moment de timp dat
• Eșantion-ul este parte “mică” din populație (se poate
extrage suficientă informație pentru a se face inferențe
asupra caracteristicilor studiate la nivelul populației)
• Variabilele sunt calități sau cantități care pot să aibă
valori diferite de la un membru al unui grup (eșantion) la
altul.
• O statistică este o formulă a cărei valoare se obține cu
ajutorul datelor dintr-un eșantion.
Distribuții de frecvențe
Sursa de referință pentru pacienții dintr-un studiu
psihoterapeutic referitor la consilierea durerii lombare
(Frost et al., 2004)
Frost H, Lamb SE, Doll HA, Carver PT, Stewart-Brown S. (2004) Randomised controlled trial of physiotherapy compared with advice
for low back pain. British Medical Journal 329, 708-711.
Distribuții de frecvențe
Sursa de referință pentru pacienții dintr-un studiu
psihotarapeutic (Frost et al., 2004)
Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and short-stretch compression
bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91, 1292-1299.
Categorii ordonate
Mobilitatea pacienților recrutați în studiul VenUS I
(Nelson et al., 2004)
Imobilitate
1
2
3
Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme gene deletion
polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de 86
pacienți cu accident vascular cerebral (Markus et al., 1995).
Există mai multe valori apar doar o singură dată iar numărul
de apariții al unei valori nu ajută în acest caz.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de 86
pacienți cu accident vascular cerebral (Markus et al., 1995).
Frecvența relativă
Frecvența
Frecvența
Frecvența
Densitate de frecvență
Frecvența
2 4
Frecvență
Pe scala frecvențelor, unificarea
intervalelor produce o impresie
greșită.
Presiunea sistolică a sângelui (mm Hg)
Combinarea
Densitate de frecvență
Formă corectă
ultimelor 3 a distribuției
Frecvență
intervale!
Impresie
eronată!
Presiunea sistolică a sângelui (mm Hg) Presiunea sistolică a sângelui (mm Hg)
Histograme și alte grafice pentru frecvență
Pentru o variabilă discretă dreptunghiurile (barele) pot
fi separate:
Frecvența
Frecvența relativă
unirea vârfurile barelor
din histogramă
Sănătoși
Util în reprezentarea a Frecvența relativă
mai mult de o Pacienți cu
accident vascular
distribuție pe aceleași
axe!
Colesterolul seric (mmol/L)
Histograme și alte grafice pentru frecvență
Pentru o variabilă calitativă se poate folosi diagrama
circulară sau diagrama cu dreptunghiuri orizontale
(bare):
Forma distribuțiilor de frecvență
Modul este valoarea (?) cea mai frecvent întâlnită în
distribuție.
Cozile sunt locuri sunt extreme ale distribuției unde
observațiile sunt, de obicei, rare.
Distribuția unimodală este distribuția cu un singur modul.
Modul
Frecvența
Coada
Coada
inferioară
superioară
O singură
populație!
Frecvența
Înălțimea (cm)
Forma distribuțiilor de frecvență
Părțile histogramei aflate în apropierea extremelor se
numesc cozi ale distribuției.
Dacă coada din dreapta este mai lungă decât coada
din stânga atunci distribuția este asimetrică la
dreapta sau pozitiv asimetrică.
Frecvența
Frecvența
Vârsta gestatională
(sarcinii) în
Frecvența
momentul nașterii.
-
Vârsta sarcinii (săptămâni)
Forma distribuțiilor de frecvență
Media
Mediana
Aceasta este o măsură utilă din punct de vedere descriptiv, dar are
două dezavantaje:
- depinde de valorile extreme (variază mult de la un eșantion la altul)
- depinde de mărimea eşantionului (eşantion mare => extremele
departate una de cealaltă)
Sintetizarea datelor cantitative:
variabilitatea
(m-2s, m+2s):
(148.1, 176.3)
Înălțimea (cm)
!!Majoritatea observațiilor (aproximativ 2/3 65%) se află
la o SD față de medie. Aproape toate se încadrează în
aproximativ 2xSD față de medie (aproximativ 95%).
Sintetizarea datelor cantitative:
abaterea standard
Colesterol: s = 1.96 = 1.40 mmol/L
Distribuție aproape
simetrică!
media= 6.34
Frecvența
mediana= 6.15
4,5 valori în afara
intervalului
(m-2s, m+2s)
Media-2s Media Media+2s
Media-s Media+s
(pozitiv asimetrică)
media= 9.4
mediana= 3
7% valori mai mari decât
m+2s!
Media-2s Media Media+2s
Media-s Media+s
media= 38.5
mediana= 39
2 valori din 1749 (0.1%)
mai mari decât m+2s!
62 valori din 1749 (3.5%)
Media-2s Media Media+2s
mai mici decât m-2s!
Media-s Media+s