Documente Academic
Documente Profesional
Documente Cultură
șI BIOSTATISTICĂ
CURS IV
Elena Poenaru
elena.poenaru@gmail.com
Notiuni
• Introducere in biostatistica
• Termeni uzuali in biostatistica
• Aplicatii utilizate in
biostatistica
• Variabile
• Statistica descriptiva si
Statistica inferentiala
• Esantion, populatie
• Tipuri de date, frecvențe,
distribuții
Introducere
in Biostatistica
Unii ar putea spune…
Influenteaza:
Ø Analiza datelor
Ø Rezultatele
Ø Concluziile
Analiza datelor
Analiza datelor
– Cum sumarizez cel mai bine informațiile provenind de la
datele brute?
– Confruntarea cu variabilitatea (pentru date ce provin din
populatie cât și cele care provin din esantioane):
• Modele importante din date sunt acoperite de variabilitate
• Distingerea modelelor reale dintre cele de variație aleatorie
– Inferenta: folosesc informații dintr-un singur studiu corelate
cu informații despre variabilitate pentru a face declarații cu
privire la populație/procesul de interes
Probleme …
• Planificare/design-ul studiului
– Formularea intrebarilor de interes:
- Cuantificarea informatiilor despre un singur grup?
- Comparatii intre grupuri?
– Marimea esantionului
- De cati subiecti am nevoie in total?
- Cati in fiecare dintre grupurile comparate?
– Selectia participantilor in studiu
- se aleg aleator dintr-o lista?
- se selecteaza dintr-o baza de persoane de interes?
- oricine apare?
– În cazul comparației grupurilor de interes, cum se vor
distribui in grupuri?
“Dirty Data”
• Punctul de vedere al Cercetatorului
“Dirty Data”
• Punctul de vedere al Statisticii:
• Datele sint produse de un proces
• Modelarea ideala de esantioane rezultate din proces
este imposibila:
• Distorsiuni – esantioane corupte de proces
• Selectare distorsionata (bias) – probabilitate ca esantionul sa
depinda de valorile sale
• Dependenta – esantioanele nu sint complet independente
• Variabilitate – elementele urmarite (ex. pacienti) intra si ies din
studiu pe durata acestuia
• Procesul de prelucrare poate imbunatatii rezultatele prin
adaugarea de noi modele
• Dar… nu se pot modela toate tipurile de imperfectiuni
• Trebuie gasit un echilibru intre acuratete si simplitate
(uneori chiar realizabilitate)
“Dirty Data”
• Punctul de vedere al Database:
• Acestea sunt datele pe care le am
• Unele din ele nu corespund (sunt lipsa,
corupte, gresite, duplicate)
• Rezultatele obtinute in prelucrare sint
absolute, determinate de modelul relational
• Singura modalitate de a avea un raspuns mai
bun este imbunatatirea calitatii datelor de
intrare
“Dirty Data”
• Punctul de vedere al Expertului:
• Este formulat in raport cu un model implicit de
date ce este deja asumat (expertiza)
• Datele nu arata bine à rezultatul obtinut nu
poate fi corect
• Rezultatul nu arata bine à datele initiale nu
pot fi corecte
“Dirty Data” - probleme
1) Impartirea textului (parsing) in cimpuri
(probleme de separator)
2) Conventii de denumire (ex NYC vs New York)
3) Lipsa unui cimp necesar (e.g. key field)
4) Reprezentare diferita (2 vs Doi)
5) Trunchierea unui cimp prea lung
6) Cheie primara eronata (de la structura pana la
integrare)
7) Inregistrari redundante (exact sau partial)
8) Probleme de formatare – in special la
reprezentarea datei
9) Probleme de acces la date (ex. licentiere/date
private)
Sursa: Stanford Data Integration Course
Problema: calitatea datelor
• Calitatea datelor este greu/ne masurabila
– Acuratetea si completitudinea datelor sunt foarte greu/
imposibil de masurat
• Calitatea datelor (definita prin ceea ce e important)
este data de context
– Precizia e data de scopul prelucrarii (ex. cantitatea de sare
din mincarea pasagerilor in perspectiva greutatii avionului)
– Calculul valorilor agregate tolereaza lipsa punctuala de
precizie (ex. consumul de energie electrica)
• Masurarea calitatii este/va fi intotdeauna incompleta
– Ce parere aveti de metrici ca: interpretabilitatea,
disponibilitatea, accesibilitatea, calitatea metadatelor, etc ?
• Termenul este vag
– Nu exista un mod clar in care definitia poate fi actualizata
sau imbunatatita in functie de necesitati/utilizare
Virsta pacientilor
Esantion
Populatie
Statistica
descriptiva
Parametrii Statistica
Populatiei esantionului
Cercetarea statistica
Statistica
Definitie:
1. Crearea si studiul reprezentarilor
vizuale a datelor in scopul
comunicarii clare si eficiente a
informatiei catre diferite clase de
utilizatori
2. Este un termen general care descrie
orice efort de a ajuta oamenii să
înțeleagă semnificația datelor prin
plasarea lor într-un context vizual.
Modelele, tendințele și corelațiile
care pot să nu fie detectate în datele
bazate pe text (tabele) pot fi expuse
și recunoscute mai ușor cu software-
ul de vizualizare a datelor.
[Sursa: Wikipedia]
Managementul datelor
Interval Ratio
Evaluarea informațiilor
• Un studiu stiintific necesită o cantitate explicită măsurabilă,
cunoscut ca o variabilă aleatoare (venitul anual, nivelul de
colesterolului), pentru populație.
• Variabilă are o distribuție probabilistica ideală a valorilor în
populație (de ex. o curba normala), care, la rândul său, are
anumite caracteristici - parametri, cum ar fi "centrul" și
"răspândirea".
• Ipoteză nulă presupune de obicei o valoare numerică fixă
sau mai mare, sau mai mica, decat o valoare numerică,
pentru un parametru specific al distribuției (ex: media IQ-
ului in populatie este prognozat la 100)
• Afișarea vizuala, prin oricare metoda a datelor empirice,
de exemplu histogramă
Evaluarea informațiilor
• “Rezumarea” numerica a datelor, prin intermediul
caracteristicilor esantionului, numite statistici, care
estimează acești parametri, fără erori, obiectiv (ex. media
din esantion a IQ-ului este 117)
• Prin procesul, cunoscut sub numele de inferență statistică,
ipoteza nulă originală este respinsă sau acceptata, astfel:
– dacă diferența dintre valorile obtinute din esantion si cele
obtinute din populatie (117 - 100 = 17) este semnificativă
statistic la un nivel de semnificație pre-specificat (ex. 5%),
adică autentica, nu se intampla sigur din cauze întâmplătoare
à se va respinge ipoteza nulă, în favoarea ipotezei
alternative.
– dacă diferență este nesemnificativa,adică se datorează
sigur întâmplării, datele tind să susțină ipoteza nulă.
Evaluarea informațiilor
• Decizia ca ipoteza nulă sa fie respinsă sau acceptata este
atinsa prin calculul a trei statistici:
1) Interval de încredere: statistica observata a
esantionului (media - 117), plus sau minus o marjă de
eroare.
– Acest interval este construit astfel încât să conțină valoarea
parametrului estimat (100), cu o probabilitate specificată
ridicata, de 95% (de exemplu), numita nivel de încredere;
dacă nu ipoteza nula va fi respinsa.
2) Regiunea de acceptare: valoarea parametrului estimat
(100), plus sau minus, o marjă de eroare.
– Aceasta este construit pentru a conține statistica
esantionului (117), la un nivel pre-specificat de încredere de
95%; dacă nu, atunci ipoteza nulă este respinsă.
Evaluarea informațiilor
• Decizia ca ipoteza nulă originală sa fie respinsă sau
acceptata este atinsa prin calculul a trei statistici:
3) valoarea p = o măsură a cât de probabil este de a obține
statistica observata a esantionului (117) sau, mai rău,
presupunerea că ipoteza nulă este adevărată, adică, valoarea
estimata (100) este într-adevăr valoarea reală a parametrului.
– cu cat este mai mica valoarea p, cu atât mai puțin probabil
este ca datele din eșantion sa susțina ipoteza nulă.
– această "probabilitate coada" (0% -100%) este în mod
normal calculată folosind o statistică de testare, și se
compară cu nivelul de semnificație pentru a ajunge la o
decizie cu privire la ipoteza nulă.
or Fischer, 4/10/2006 iv
Evaluarea
POPULATIONinformațiilor
µ = 100
Statistical
Experiment to Conclusion
test hypothesis experimental
tend to supp
Variabila aleatoare the null hypo
X X = scorul IQ
Null Hypothesis: Meanµ == 100
100 RANDOM SAMPLE
(about a parameter) Observations
• Experiment pentru testarea ipotezei: µ = 100
• Inferenta statistica: experimentul sustine sauAnalysis of empirically-generated data (e.g., via a histogram):
respinge ipoteza nula?
ESANTION
Statistical Inference
• Este diferenta semnificativa statistic sau
Experiment to Conclusion: Does the
variaza
test hypothesis aleator? experimental evidence
tend to support or refute
the null hypothesis?
Esantion aleator
Observatii ale variabilei X
RANDOM SAMPLE
Observations
Analiza: Observat (esantiona) vs
Estimat
Analysis (in populatie)data (e.g., via a histogram):
of empirically-generated
X
Statistic: Media x = 117
Mean x = 117
(estimate of parameter)
Evaluarea informațiilor
• Incercare este făcută, uneori, să se formuleze un model
matematic al unei variabile raspuns dorite în populație (ex.
cancer pulmonar), în ceea ce privește una sau mai multe
variabile predictor (ex. fumatul), cu care are o anumită
corelație diferită de zero, folosind datele din esantion.
• Regresia poate fi utilizată pentru a calcula un astfel de
model, precum și pentru a testa validitatea acestuia.
Modalitati de evaluare a informațiilor
• Statistica descriptivă - totalitatea metodelor de culegere,
prezentare şi caracterizare a unui set de date numerice, în
scopul de a descrie diferitele trăsături principale ale acestui
set de date
• Statistica inferenţială - interpretarea datelor oferite de
statistica descriptiva pentru a formula concluzii si a lua
decizii.
à totalitatea metodelor care fac posibilă estimarea caracteristicilor unei
populaţii sau luarea unor decizii privind o populaţie, pe baza
rezultatelor obţinute pe un eşantion
à folosesc informații dintr-un singur studiu, corelate cu informații
despre variabilitate, pentru a face declarații cu privire la populație/
procesul de interes
Modalitati de evaluare a informațiilor
Inferenta
Statistica
(Statistica Inferentiala)
descriptiva
Esantion
Populatie
Statistica
descriptiva
Parametrii Statistica
Populatiei esantionului
(µ,σ) ( x ,s)
Aplicatii utilizate in statistica
• SAS
• Stata
• SPSS
• MSOffice Excel
• R
• EpiInfo
• Minitab
Frecvențe,
distribuții
Notatii
• n − numarul indivizilor cercetaţi;
• X − o variabila (caracteristica) studiata;
• x1, x2,...,xm − valorile variabilei X;
• n1, n2,...,nm − numărul de indivizi corespunzător
valorilor variabilei (sau care poseda valoarea
respectiva a caracteristicii).
Frecvente
• Frecvenţa absolută - este numărul indivizilor care aparţin
acelei clase
• Frecvenţa relativă - se calculează prin împărţirea
frecvenţei absolute la numărul total al indivizilor din
eşantion
• Frecvenţa procentuala este frecvenţa relativa exprimata
în procente
• Frecvenţa cumulativa
Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and
short-stretch compression bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91,
1292-1299.
Categorii ordonate
Mobilitatea pacienţilor recrutați în studiul VenUS I
Imobilitate
1
2
3
Variabila cantitativă
discreta
Colesterolul seric à
variabilă obținută prin
măsurare
à variabila cantitativa!
à 86 valori!
Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme
gene deletion polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de
86 pacienţi cu accident vascular cerebral
Variabilă obținută
prin măsurare!
à 86 valori!
à Distribuție de
frecvență dificil de
construit!
à Prelucrarea
datelor!
à Variabilă obținută
prin măsurare
à 86 valori
à Distribuție de
frecvență dificil de
construit!
à Intervale
Distribuția de
frecvență nu
este unică!
Frecvența relativă
Frecvența
Ox:
Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)
Frecvența
Frecvența
Densitate de frecvență
Frecvența
2 4
neregulată!
à histogramele tind sa fie mai
putin bune in cazul in care am
un numar mic de observatii
à se pot combina intervalele
Presiunea sistolică a sângelui (mm Hg) de la extreme pentru a forma
intervale mai mari (se combina
ultimele 3 intervale)
Histograme
Distribuția
• Densitatea de frecvență permite neregulată!
Frecvență
netezirea histogramelor.
• Pe scala frecvențelor, unificarea
intervalelor produce o impresie
greșită!
Densitate de
frecvență
Frecvență
Presiunea sistolică a sângelui (mm Hg) Presiunea sistolică a sângelui (mm Hg)
Histograme și
alte grafice pentru frecvență
Pentru o variabilă discretă dreptunghiurile (barele)
pot fi separate: discretitudinea
• O forma usor
modificata a
Frecvența
histogramei pentru
variabile continue
à spatierea dintre
dreptunghiuri
subliniaza
discretitudinea
Numărul de episoade de ulcer venos
Histograme și alte grafice pentru
frecvență
• Poligonul frecvențelor
Frecvența relativă
Colesterolul seric (mmol/L)
Frecvența relativă
• Util în reprezentarea a mai Sănătoși
Pacienti sanatosi
Coada
Coada
inferioară
superioară
Frecvența
Frecvența
Frequency
100
50
7 8 9 10 11 0 10 20 30 40 50 60
erol (mmol/L) Episodes since first onset of ulcer Vârsta sarcinii (săptămâni)
Episoade ulceroase de la
declansare
Forma distribuțiilor de frecvență
• Daca coada din stanga este egala cu cea din dreapta
distributia este simetrica.
• Majoritatea datelor medicale au distribuții unimodale!
The parts of the histogram near the extremes are c
• Majoritatea datelor medicale urmează
tails of theodistribution.
distribuție simetrică
sau pozitiv asimetrică! If the tail on the right is of similar length to the tail o
• Distributiile negativ asimetrice the
sunt distribution
mai rare is symmetrical:
in medicina!
Totusi exista!
80
Heights of
Frecvența
60
Frequency
women ad
40 the VenUS
20
0
130 140 150 160 170 180 190
Height (cm)
Inaltime (cm)
Alte reprezentari grafice pentru
frecvență
• Variabilă calitativă à diagrama cu dreptunghiuri orizontale
(bare):
3
Frecvența!
Imobil
Frecventa Relativa
0.4, 0%
6.3, 6% 3.5, 4%
MG
Consultant
Triaj
CS
89.8, 90%
Alte reprezentari grafice pentru
frecvență
Frecvența cumulativa! !"# $%&&'()*)+, +%&-().'/ 0'1' !"
100
50
25
0
25 35 45 55 65 75
Age (years)
cancer de plamani
'()*+ %$, C&)#D%-?D$)%* ?'E0$%/ *1+ ?'E&+';"&'1- 1*
-"#;)+ 1* $)E'1-E .%"E)? ;/ E#%$$01F ('+"E '- )22
Age (years)
!"#$ %$& !"#"$%&'() *+),")-./ 0$1& *1+ %2) 1* 3456 #)- 7'&8 $"-2 .%-.)+ 9:%;$) <=> %-?
Alte reprezentari grafice pentru
frecvență - “Stem-and-leaf” '()*+ %$, C&)#D%-?D$)%* ?'E0$%/ *1+ ?'E&+';"&'1- 1*
-"#;)+ 1* $)E'1-E .%"E)? ;/ E#%$$01F ('+"E '- )22
#)#;+%-)E 9E)) :%;$) <=4B=
G"#;)+ 1* $)E'1-E
HI 6
3 H<>66J
< 333<<<KKK6AJJJ
4 HH<<4>5K6AAJJJ
> H3<444>KK66AAAJJJ
5 33<4>>6A
K H3>5K666J
6 H56
A H<4>>6
Ex. distributia numarului de J A
cazuri datorate virusului 3H
smallpox in membrana oului 33 <
&8) .1"-&L %-? '- )%.8 +17 91+ ME&)#NB &8) -"#;)+E &1 &8) +'28& 9&8)
Alte reprezentari grafice - boxplots
• Boxplots sunt grafice care prezintă caracteristicile cheie ale
unui set de date
• Instrumente utile pentru compararea vizuala a datelor ce
provin din multiple esantioane
Total Length of Stay, 2011
Claims With at Least One Inpatient Visit
40
30
Length of Stay (Days)
(Large)
Outliers
20
Median
Interquartile Range (IQR)
0
(50th percentile)
25th percentile (lower hinge)
Smallest non-outlying value (upper tail)
Boxplots
• Boxplot (box-and-wisker) reprezinta grafic
quartile
• Elemente:
– Upper hinge = Q3
– Lower hinge = Q1
– IQR = Q3 – Q1 ß contine 50% din observatii
– Upper fence = Upper hinge + 1.5*IQR
– Lower fence = Lower hinge – 1.5*IQR
• Datele din afara “fence” se numesc
“outliers”
EDA (Exploratory Data Analysis)
• Exemplu: 23, 24, 24, 25, 32, 36, 45, 47, 51, 61, 62, 67,
73, 76, 78, 78
– Q2 = (47+51)/2 = 49
– Q1 = (25+32)/2 = 28.5 ß LH
– Q3 = (67+73)/2 = 70 ß UH
– IQR = 70 – 28.5 = 41.5
Tehnici de vizualizare: Scatter
Plots
– Valoarea atributelor determina pozitia intr-un sistem de
coordonate
– Cel mai des exista 2 axe de reprezentare, reprezentarea in
3 axe fiind folosita doar in cazul prezentarilor interactive
– Alte atribute pot fi reprezentate prin forma, culoarea sau
dimensiunea asociata punctelor
– Este utilizata pentru
reprezentarea sumarizata
a relatiilor intre diferitele
perechi de atribute
Exemplu: Scatter Plot Array
Tehnici de vizualizare: Contour
Plots
• Contour plots
– Utilizate mai ales atunci cind un atribut continuu este
masurat spatial
– Impart spatiul in regiuni cu aceeasi valoare (grupa de
valori) a atributului
– Linia de contur uneste puncte cu valori egale
– Reprezinta de obicei curbe
de nivel geografic, cantitati
de precipitatie, temperatura, etc.
Celsius
Contour Plot
Celsius
SST Dec, 1998
Bibliografie