C4 Mgro

INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS IV
Elena Poenaru
elena.poenaru@gmail.com
Notiuni
• Introducere in biostatistica
• Termeni uzuali in biostatistica
• Aplicatii utilizate in
biostatistica
• Variabile
• Statistica descriptiva si
Statistica inferentiala
• Esantion, populatie
• Tipuri de date, frecvențe,
distribuții
Introducere
in Biostatistica
Unii ar putea spune…
• Lumea este in mijlocul unei manii a datelor!

• Este era “Big Data”!
Ø Genomica
Ø Informatica medicala
Ø Imagistica
Ø Utilizarea internetului
§ Datele nu au fost niciodata mai relevante!
Big Data
• Big Data”= seturi de date foarte mari, complexe, pentru

care aplicatiile de prelucarea traditionala “data processing”
sunt inadecvate
• Termenul vizeaza, in general, metode avansate de
prelucrare, analiza predictiva, …
• Acuratetea in “big data” conduce catre decizii de incredere,
mai precise à eficienta operationala, reducerea costurilor,
reducerea riscurilor
• Analiza seturilor de date duce la o noi corelatii, la
prevenirea bolilor
• Cercetaatorii se confrunta cu limitari in genomica, in
simulari, in zona cercetarilor ambientale si in studiul
fenomenelor biologice.
Datele sunt pretutindeni!
– Sondaje de piata
– Grupuri de cercetare
– Cercetare de marketing
– Media
– Monitorizarea diversilor parametrii (semne vitale,
conditii climatice, fizica pamantului,…)
– ...
Datele furnizeaza informatii
• Datele “bune” pot fi analizate si apoi sumarizate
pentru a furniza informatii utile J
• Datele “proaste” pot fi analizate si apoi sumarizate

pentru a furniza informatii incorecte/non-informative,
à care conduc la…? L
Datele furnizeaza informatii
• Datele sunt fapte prime sau forma

neorganizata (ex: date
alfanumerice, imaginile, date audio
și date video).
– Tipul de date care vor fi colectate si
apoi procesate este strans legat de
ipotezele formulate
• Informația este o colecție de fapte
organizate în așa fel încât să aibă o
valoare dincolo de faptele în sine.
“Statistics is above all the subject most disliked by
(medical) students” J
“Making Doctors: An Institutional Apprenticeship”
by Simon Sinchair, 1997 (Berg Publishers).
“Medical students may not like statistics, but as

doctors they will” J
Martin Bland, Letter to the Editor, 1998 (BMJ)
“I keep saying that the sexy job in the next 10 years

will be statisticians!” “And I’m not kidding.”
said Hal Varian, chief economist at Google.
Hal Varian , Google Chief Economist, August 2009
Ce este statistica?
• Statistica - domeniu ştiinţific care permite studiul
fenomenelor de masa a căror proprietate fundamentală
este variabilitatea.
• Stiinta colectarii, clasificarii, prezentarii, interpretarii datelor
si a folosirii acestora pentru a formula concluzii si a lua
decizii.
• Stiinţa care se ocupă cu studiul datelor obţinute din grupuri
„mici” de indivizi şi extinderea rezultatelor la populaţii
„mari”.
• Teoria și metodologia de design de studiu pentru
descrierea, analiza și interpretarea datelor generate de
studii.
De ce avem nevoie de statistică?
• Indiferent de semnificatia data termenului de statistica obiectul de
studiu al acesteia il reprezinta fenomenele de masa, fenomene
complexe, atipice, rezultate din actiunea combinata si repetata a
unui numar mare de factori de influenta
– statistica privilegiaza rationamentele de tip inductiv (generalizari
rezultate din observatii individuale)
• Vrem sa tragem concluzii cât mai valide din cantităţi limitate de date:
– diferenţe importante sunt deseori mascate de variabilitatea
biologică şi/sau imprecizia experimentală
– mintea umană excelează în găsirea de tipare şi relaţii, dar tinde
să generalizeze în exces
Intrebari la care statistica poate da
un raspuns
• Exprimând caracteristicile unui numar de indivizi ai unei
populatii prin variabile (unele numerice, altele nu), admitem
că prin măsurare sau evaluare vom obţine seturi de date cu
care vom construi tabele de date.
• Întrebările esenţiale care se pun de obicei sunt:
– cum putem să descriem „sintetic” datele pe care le-am
obţinut?
– cum putem să transmitem altora informaţii pertinente
despre ansamblul indivizilor, fără însă a le transmite toate
datele obţinute?
Biostatistica
Biostatistica = domeniu particular al statisticii
(aplicarea metodelor statisticii în problemele
biologice/medicale):
– O “palarie” peste biologie și statistică (uneori
menționată ca biometrie) este aplicarea statisticii
pentru o gamă largă de subiecte în biologie.
– O ramură a acesteia este Biostatistica medicala, care
se referă exclusiv la medicină și sănătate:
• Colectarea, sumarizarea și analiza datelor din
experimente;
• Interpretarea, concluzionarea rezultatelor
(inferenta) .
Statistica
• Statistica descriptivă
à totalitatea metodelor de culegere, prezentare şi
caracterizare a unui set de date numerice, în scopul de a
descrie diferitele trăsături principale ale acestui set de date
• Statistica inferenţială
à interpretarea datelor oferite de statistica descriptiva
pentru a formula concluzii si a lua decizii
à totalitatea metodelor care fac posibilă estimarea
caracteristicilor unei populaţii sau luarea unor decizii privind
o populaţie, pe baza rezultatelor obţinute pe un eşantion
Cercetarea statistica
Obiectul activitatii de cercetare statistica presupune:
• Planificare/design-ul studiului
• Colectarea de date
• Prelucrare
• Analiza
• Interpretarea datelor statistice
• In functie de obiectivul urmarit, a gradului de generalitate si

a concluziilor asteptate, dar si de mijloacele utilizate:
– Faza descriptiva (exploratorie)
– Faza inferentiala (decizionala)
à Biostatistica poate juca un rol in fiecare dintre etape
à uneori se ocupa doar de analiza datelor
(1) Colecteaza informatii (date)

(2) Evalueaza informațiile (clasifica, rezuma, organizeaza,
analizeaza)
(3) Extrage concluzii pe baza evaluării
(4) Permite studiul fenomenelor de masa a căror
proprietate fundamentală este variabilitatea
Colectarea datelor
Colectarea datelor
• Crearea chestionarelor
– Design-ul chestionarului à Uneori vrem răspunsuri
precise, uneori suntem interesați în domenii de valori.
Influenteaza:
Ø Analiza datelor
Ø Rezultatele
Ø Concluziile
Analiza datelor
Analiza datelor
– Cum sumarizez cel mai bine informațiile provenind de la
datele brute?
– Confruntarea cu variabilitatea (pentru date ce provin din
populatie cât și cele care provin din esantioane):
• Modele importante din date sunt acoperite de variabilitate
• Distingerea modelelor reale dintre cele de variație aleatorie
– Inferenta: folosesc informații dintr-un singur studiu corelate
cu informații despre variabilitate pentru a face declarații cu
privire la populație/procesul de interes
Probleme …
• Planificare/design-ul studiului
– Formularea intrebarilor de interes:
- Cuantificarea informatiilor despre un singur grup?
- Comparatii intre grupuri?
– Marimea esantionului
- De cati subiecti am nevoie in total?
- Cati in fiecare dintre grupurile comparate?
– Selectia participantilor in studiu
- se aleg aleator dintr-o lista?
- se selecteaza dintr-o baza de persoane de interes?
- oricine apare?
– În cazul comparației grupurilor de interes, cum se vor
distribui in grupuri?
“Dirty Data”
• Punctul de vedere al Cercetatorului
“Dirty Data”
• Punctul de vedere al Statisticii:
• Datele sint produse de un proces
• Modelarea ideala de esantioane rezultate din proces
este imposibila:
• Distorsiuni – esantioane corupte de proces
• Selectare distorsionata (bias) – probabilitate ca esantionul sa
depinda de valorile sale
• Dependenta – esantioanele nu sint complet independente
• Variabilitate – elementele urmarite (ex. pacienti) intra si ies din
studiu pe durata acestuia
• Procesul de prelucrare poate imbunatatii rezultatele prin
adaugarea de noi modele
• Dar… nu se pot modela toate tipurile de imperfectiuni
• Trebuie gasit un echilibru intre acuratete si simplitate
(uneori chiar realizabilitate)
“Dirty Data”
• Punctul de vedere al Database:
• Acestea sunt datele pe care le am
• Unele din ele nu corespund (sunt lipsa,
corupte, gresite, duplicate)
• Rezultatele obtinute in prelucrare sint
absolute, determinate de modelul relational
• Singura modalitate de a avea un raspuns mai
bun este imbunatatirea calitatii datelor de
intrare
“Dirty Data”
• Punctul de vedere al Expertului:
• Este formulat in raport cu un model implicit de
date ce este deja asumat (expertiza)
• Datele nu arata bine à rezultatul obtinut nu
poate fi corect
• Rezultatul nu arata bine à datele initiale nu
pot fi corecte
“Dirty Data” - probleme
1) Impartirea textului (parsing) in cimpuri
(probleme de separator)
2) Conventii de denumire (ex NYC vs New York)
3) Lipsa unui cimp necesar (e.g. key field)
4) Reprezentare diferita (2 vs Doi)
5) Trunchierea unui cimp prea lung
6) Cheie primara eronata (de la structura pana la
integrare)
7) Inregistrari redundante (exact sau partial)
8) Probleme de formatare – in special la
reprezentarea datei
9) Probleme de acces la date (ex. licentiere/date
private)
Sursa: Stanford Data Integration Course
Problema: calitatea datelor
• Calitatea datelor este greu/ne masurabila
– Acuratetea si completitudinea datelor sunt foarte greu/
imposibil de masurat
• Calitatea datelor (definita prin ceea ce e important)
este data de context
– Precizia e data de scopul prelucrarii (ex. cantitatea de sare
din mincarea pasagerilor in perspectiva greutatii avionului)
– Calculul valorilor agregate tolereaza lipsa punctuala de
precizie (ex. consumul de energie electrica)
• Masurarea calitatii este/va fi intotdeauna incompleta
– Ce parere aveti de metrici ca: interpretabilitatea,
disponibilitatea, accesibilitatea, calitatea metadatelor, etc ?
• Termenul este vag
– Nu exista un mod clar in care definitia poate fi actualizata
sau imbunatatita in functie de necesitati/utilizare
Sursa:Ted Johnson’s SIGMOD 2003

Calitatea datelor
• La sursa datele par sa fie implicit eronate (“dirty”).
• Transformarile complexe pot corupe date (ex. rotunjiri
succesive)
• Integrarea datelor din surse curate (“clean”) multiple
poate avea ca rezultat date eronate.
• Erori “rare” pot deveni frecvente dupa transformare si
integrare
• Datele vechi isi pot pierde in timp precizia (“data/bit rot”)
• Combinatii multiple ale factorilor de mai sus
Numeric Outliers
Virsta pacientilor
Sursa: Joe Hellerstein, 2012

Curatarea datelor rezolva
problemele?
• Aparitia unei gauri in stratul de
ozon deasupra Antarcticii a fost
detectata de fapt, prima oara, in
1976
• Existenta ei a fost atit de
neasteptata incit datele
masurate de instrumente au fost
respinse ca fiind rezultate dintr-o
functionare necorespunzatoare
De fapt, datele au fost
respinse ca fiind
“outliers” de algoritmii
de control a calitatii
Sursa: National Center for Atmospheric Research datelor
Continuumul calitatii datelor
• Datele si informatiile nu au caracter static ci
urmaresc un proces de la colectare la utilizare:
– Colectare de date
– Livrare de date
– Stocare de date
– Integrare de date
– Regasire (retrieval)
– Analiza datelor (data mining/analysis)
– Reprezentarea vizuala (data visualization)
Etape in statistica
• Statisticile este o disciplina cantitativa, care permite afirmații
generale, obiective, despre o populație, bazate pe date
specifice, numerice sau categoriale luate dintr-un eșantion
aleatoriu.
Etapele fundamentale ale metodei științifice clasice:
(1) formularea unei ipoteze nule ce poate fi testata pentru
populație,
(2) proiectarea unui experiment special conceput pentru a
testa această ipoteză,
(3) observații empirice à colectarea informatiilor (date)
(4) evaluarea datelor (clasifica, rezuma, organizeaza,
analizeaza)
(5) interpretarea setului de date generat,
(6) concluzie cu privire la ipoteza formulata
Inferenta
Statistica
(Statistica Inferentiala)
descriptiva
Esantion
Populatie
Statistica
descriptiva
Parametrii Statistica
Populatiei esantionului
Statistica
Statistica descriptiva Statistica inferentiala

Ø culegerea datelor Ø extinderea proprietăţilor
statistice determinate pe un eşantion
Ø prezentarea (descrierea) la întreaga populaţie
datelor statistice,
Ø reprezentarea grafica a
datelor statistice,
Ø determinarea unor
caracteristici numerice
sintetice ale datelor
statistice
Rezultate si concluzii
• Prezentarea
– Ce forma a rezumatului va transmite cel mai bine
"Mesajele principale” în raspunsul la întrebările
de cercetare, de interes (primare și secundare)
– Cum sa formulez incertitudinea în estimările pe
baza datelor
• Interpretarea
– Ce înseamnă rezultatele în termeni de practică,
de program, de populația, etc ...?
Ce este “Data Visualization”?
Definitie:
1. Crearea si studiul reprezentarilor
vizuale a datelor in scopul
comunicarii clare si eficiente a
informatiei catre diferite clase de
utilizatori
2. Este un termen general care descrie
orice efort de a ajuta oamenii să
înțeleagă semnificația datelor prin
plasarea lor într-un context vizual.
Modelele, tendințele și corelațiile
care pot să nu fie detectate în datele
bazate pe text (tabele) pot fi expuse
și recunoscute mai ușor cu software-
ul de vizualizare a datelor.
[Sursa: Wikipedia]
Managementul datelor
De ce relațiile dintre variabile sunt importante?

• În general, scopul final al fiecărui cercetari sau analiză
științifică este de a găsi relațiile dintre variabile.
• Statistica ajuta in evaluarea relațiilor dintre variabile.
Populatie vs Esantion
• Esantion: un subgrup (parte) dintr-un grup mai
mare (populația), de la care datele sunt colectate
pentru a avea informatii despre grupul mai mare
– Exemplu: douăzeci de studenti la medicina, în vârstă de
20 de ani, din UMF
• Populatie: intregul grup pentru care vreau sa aflu
informatii
– Exemplu: toti studentii în vârstă de 20 de ani, din
Romania
Esantionare aleatoare
• Este optimă pentru studii în care esantionul din care se extrag
datele sunt reprezentative pentru populatia studiata
– Nu întotdeauna este posibil!
• Vom considera această ipoteză dacă nu se specifică altfel
– O modalitate de a obține un eșantion reprezentativ
à eșantionarea aleatorie simplă
– O schemă de eșantionare în care fiecare sub-eșantion
posibil, de dimensiune n, dintr-o populație este la fel de
probabil să fie selectat
Esantionaj aleator & non-aleator
• Schema de constituire a unui eşantion dă şi denumirea tipului
de eşantionaj
A. Eşantion probabilistic (aleator)
B. Eşantion non-probabilistic, non-aleator, empiric
A. Dacă o probă este selectat aleator dintr-o populație,
caracteristicile eșantionului le-ar putea imita (imperfect) pe
cele ale populației
B. Esantioane non-aleatoare pot avea ca rezultat esantioane
ale căror elemente nu reflectă caracteristicile populațiilor de
interes (o eroare sistematica, spre deosebire de o distorsiune
aleatorie a unei statistici în urma procedurii de esantionare)
– Utilizatorii de droguri intravenoase din Chennai
– Pacientii cu o anumită boală
Rezumat
• Esantion din populația de interes:
– Extragerea de esantioane aleatorii este cea mai bună
strategie pentru a obține un eșantion ale cărui caracteristici
va imita (imperfect) populația
– Cu toate acestea … eșantionarea aleatorie nu este
întotdeauna posibila à alte abordări pot fi utilizate
• procedura de eșantionare trebuie să fie luata în
considerare atunci când se aplică rezultatele de la
esantion la populație
Tipuri de date/variabile
Evaluarea datelor/informatiilor
Concepte statistice esentiale in
analiza datelor
• Variabila
• Tipuri de variabile
• Cazuri
• Importanta identificarii tipurilor de variabile implicate
• Statistica descriptiva vs statistica inferentiala
• Metode de realizare a rapoartelor statistice
• Intervale de incredere si statisticile punctuale
• Teste parametrice si teste neparametrice
• Semnificatie statistica
Termeni uzuali
• Statistica: o formulă a cărei valoare se obține cu

ajutorul datelor dintr-un eșantion.
– statistica este o caracteristica numerica a unui esantion
• ex: Inaltimea medie a celor 25 de inaltimi in cazul
unui esantion de 25 de studenti
• Parametru: o caracteristica numerica a unei
populatii.
– Ex: Procentul de studenti de la UMF care au promovat toate
examenele la sesiunea din iarna este un exemplu de
parametru ın cazul populatiei “studentii de la UMF”
Termeni uzuali
• Caracteristică sau variabilă statistică − proprietate în
functie de care se cerceteaza o populatie statistica şi care, în
general, poate fi măsurată, luand valori diferite de la un
individ la altul;
• Valoare (stare, realizare) − forma concretă de manifestare a
unei variabile statistice pentru un individ;
• Scală − totalitatea valorilor diferite ale unei caracteristici sau
intervalul în care acestea sunt conţinute (domeniu de valori al
variabilei);
• Măsurare − procesul prin care se obţin valorile variabilelor
sau atribuirea de valori caracteristicilor indivizilor potrivit unor
reguli;
• Cercetare − studiul variabilelor şi a relaţiilor dintre ele.
Variabile
• Variabilele (caracteristică sau variabilă statistică) - orice
calitate, caracteristica sau constituent al unei persoane sau
lucru, care poate fi măsurat
– este o proprietate în functie de care se cerceteaza o populatie
statistica şi care, în general poate fi măsurata, avand valori
diferite de la un individ (esantion) la altul
– calități sau cantități care pot să aibă valori diferite de la un
membru al unui grup (eșantion) la altul.
• Cercetarea medicala à studiul relaţiilor dintre variabile
• Cercetătorii din domeniul medical sunt interesaţi de
studierea asociaţiilor, a diferenţelor dintre variabile.
Tipuri de variabile
Ce mai intalnita clasificare:
• Calitative - apar atunci când indivizii aparțin/pot fi clasificati
in clase separate.
– Nominale (categoriale)
– Ordinale
• Cantitative (numerice) - sunt obținute fie prin numărare fie
sunt rezultatul unei măsurători.
– De tip interval
– De tip raport
Tipuri de variabile
in clase separate.
• variabile sub formă de nume sau alte simboluri
reprezentiand categorii ce nu pot fi ordonate una în
raport cu cealalta
– numele, grupa sanguina, sexul, rasa, culoarea
ochilor, diagnosticul etc.
• variabile dihotomice (binare, bimodale) - variabile ce
nu pot lua decât doua valori
– fumător/nefumător, prezent/absent, normal/
anormal; DA/NU
Tipuri de variabile
in clase separate.
– Ordinale
• variabile ce sunt clasificate în mai mult de doua
categorii şi la care exista o ordine naturala între
categorii
– evoluţia, stadializări, clasificări, scoruri etc.
» Inaltime: scund, mediu, inalt
» Clasificarea tarilor in functie de populatie: foarte
mari, mari, mici;
Tipuri de variabile
in clase separate:
– Ordinale
• Cantitative (numerice) - sunt obținute fie prin numărare, fie
sunt rezultatul unei măsurători:
– Continue
• variabile cu un număr potenţial infinit de valori de-a lungul unui
continuum
• înălţimea, greutatea, vârsta, tensiune arteriala etc.
– Discontinue (discrete)
• variabile ce pot fi descrise numai prin unităţi întregi ce nu pot fi
măsurate în intervale mai mici decât unitatea (nr. copii, numar
familii dintr-un oras, numar accidente vasculare, etc.)
Tipuri de variabile
• Variabile cantitative: interval
– Utilizate pentru a ordona categoriile, cazurile, distantele,
intervalele, fiecare valoare a acestuia fiind egala (similar
unei rigle gradate), utilizând o valoare zero convenţionala
– La compararea valorilor găsim răspuns la întrebări de
tipul: “Cu cât e mai mare?” Types
sau “Cu of
cât variables
e mai mică?”
• ex: longitudinea si latitudine fiecarei
tari sunt variabile interval
• Obs: valorile variabilelor numerice
nu se codifica; în calitate de “cod”
se ia chiar valoarea variabilei.
Tipuri de variabile
• Variabile raport - variabile cantitative (numerice), utilizand
o valoare zero naturala
– La fel ca variabilele interval, dar au un “zero adevarat”,
care indica inexistenta variabilei
• ex: populatia (populatia = 0 à extinctie)
varsta (varsta = 0 à nu s-a nascut)
• Obs: valoarea 0 indica inexistenţa variabilei.
Tipuri de variabile
Clasificarea variabilelor dupa modul de obţinere :
• Primare − variabile obţinute în etapa de culegere a datelor
(exemplu: vârsta înregistrata pe ani, notele primite la
examenele din sesiune etc.);
• Derivate (auxiliare) − variabile obţinute în urma procesului
de prelucrare a variabilelor primare (exemplu: vârsta
calculata pe grupe de vârsta, nota medie a fiecarui student
pe sesiune etc.).
Variabile
Types of Data
Qualitative Data Quantitative Data
Nominal Ordinal Discrete Continuous
Interval Ratio
Evaluarea informațiilor
• Un studiu stiintific necesită o cantitate explicită măsurabilă,
cunoscut ca o variabilă aleatoare (venitul anual, nivelul de
colesterolului), pentru populație.
• Variabilă are o distribuție probabilistica ideală a valorilor în
populație (de ex. o curba normala), care, la rândul său, are
anumite caracteristici - parametri, cum ar fi "centrul" și
"răspândirea".
• Ipoteză nulă presupune de obicei o valoare numerică fixă
sau mai mare, sau mai mica, decat o valoare numerică,
pentru un parametru specific al distribuției (ex: media IQ-
ului in populatie este prognozat la 100)
• Afișarea vizuala, prin oricare metoda a datelor empirice,
de exemplu histogramă
• “Rezumarea” numerica a datelor, prin intermediul
caracteristicilor esantionului, numite statistici, care
estimează acești parametri, fără erori, obiectiv (ex. media
din esantion a IQ-ului este 117)
• Prin procesul, cunoscut sub numele de inferență statistică,
ipoteza nulă originală este respinsă sau acceptata, astfel:
– dacă diferența dintre valorile obtinute din esantion si cele
obtinute din populatie (117 - 100 = 17) este semnificativă
statistic la un nivel de semnificație pre-specificat (ex. 5%),
adică autentica, nu se intampla sigur din cauze întâmplătoare
à se va respinge ipoteza nulă, în favoarea ipotezei
alternative.
– dacă diferență este nesemnificativa,adică se datorează
sigur întâmplării, datele tind să susțină ipoteza nulă.
• Decizia ca ipoteza nulă sa fie respinsă sau acceptata este
atinsa prin calculul a trei statistici:
1) Interval de încredere: statistica observata a
esantionului (media - 117), plus sau minus o marjă de
eroare.
– Acest interval este construit astfel încât să conțină valoarea
parametrului estimat (100), cu o probabilitate specificată
ridicata, de 95% (de exemplu), numita nivel de încredere;
dacă nu ipoteza nula va fi respinsa.
2) Regiunea de acceptare: valoarea parametrului estimat
(100), plus sau minus, o marjă de eroare.
– Aceasta este construit pentru a conține statistica
esantionului (117), la un nivel pre-specificat de încredere de
95%; dacă nu, atunci ipoteza nulă este respinsă.
• Decizia ca ipoteza nulă originală sa fie respinsă sau
acceptata este atinsa prin calculul a trei statistici:
3) valoarea p = o măsură a cât de probabil este de a obține
statistica observata a esantionului (117) sau, mai rău,
presupunerea că ipoteza nulă este adevărată, adică, valoarea
estimata (100) este într-adevăr valoarea reală a parametrului.
– cu cat este mai mica valoarea p, cu atât mai puțin probabil
este ca datele din eșantion sa susțina ipoteza nulă.
– această "probabilitate coada" (0% -100%) este în mod
normal calculată folosind o statistică de testare, și se
compară cu nivelul de semnificație pentru a ajunge la o
decizie cu privire la ipoteza nulă.
or Fischer, 4/10/2006 iv
Evaluarea
POPULATIONinformațiilor
Random Variable: X = IQ score, having an ideal distribution of values X

Null Hypothesis:
POPULATIE Ipoteza(about
nula (despreMean
a parameter) un =parametru):
100
µ = 100
Statistical
Experiment to Conclusion
test hypothesis experimental
tend to supp
Variabila aleatoare the null hypo
X X = scorul IQ
Null Hypothesis: Meanµ == 100
100 RANDOM SAMPLE
(about a parameter) Observations
• Experiment pentru testarea ipotezei: µ = 100
• Inferenta statistica: experimentul sustine sauAnalysis of empirically-generated data (e.g., via a histogram):
respinge ipoteza nula?
ESANTION
Statistical Inference
• Este diferenta semnificativa statistic sau
Experiment to Conclusion: Does the
variaza
test hypothesis aleator? experimental evidence
tend to support or refute
the null hypothesis?
Esantion aleator
Observatii ale variabilei X
RANDOM SAMPLE
Observations
Analiza: Observat (esantiona) vs
Estimat
Analysis (in populatie)data (e.g., via a histogram):
of empirically-generated
X
Statistic: Media x = 117
Mean x = 117
(estimate of parameter)
• Incercare este făcută, uneori, să se formuleze un model
matematic al unei variabile raspuns dorite în populație (ex.
cancer pulmonar), în ceea ce privește una sau mai multe
variabile predictor (ex. fumatul), cu care are o anumită
corelație diferită de zero, folosind datele din esantion.
• Regresia poate fi utilizată pentru a calcula un astfel de
model, precum și pentru a testa validitatea acestuia.
Modalitati de evaluare a informațiilor
• Statistica descriptivă - totalitatea metodelor de culegere,
prezentare şi caracterizare a unui set de date numerice, în
scopul de a descrie diferitele trăsături principale ale acestui
set de date
• Statistica inferenţială - interpretarea datelor oferite de
statistica descriptiva pentru a formula concluzii si a lua
decizii.
à totalitatea metodelor care fac posibilă estimarea caracteristicilor unei
populaţii sau luarea unor decizii privind o populaţie, pe baza
rezultatelor obţinute pe un eşantion
à folosesc informații dintr-un singur studiu, corelate cu informații
despre variabilitate, pentru a face declarații cu privire la populație/
procesul de interes
Modalitati de evaluare a informațiilor
Inferenta
Statistica
(Statistica Inferentiala)
descriptiva
Esantion
Populatie
Statistica
descriptiva
Parametrii Statistica
Populatiei esantionului
(µ,σ) ( x ,s)
Aplicatii utilizate in statistica
• SAS
• Stata
• SPSS
• MSOffice Excel
• R
• EpiInfo
• Minitab
Frecvențe,
distribuții
Notatii
• n − numarul indivizilor cercetaţi;
• X − o variabila (caracteristica) studiata;
• x1, x2,...,xm − valorile variabilei X;
• n1, n2,...,nm − numărul de indivizi corespunzător
valorilor variabilei (sau care poseda valoarea
respectiva a caracteristicii).
Frecvente
• Frecvenţa absolută - este numărul indivizilor care aparţin
acelei clase
• Frecvenţa relativă - se calculează prin împărţirea
frecvenţei absolute la numărul total al indivizilor din
eşantion
• Frecvenţa procentuala este frecvenţa relativa exprimata
în procente
• Frecvenţa cumulativa
Funcţii EXCEL: FREQUENCY()

Argumente:
1.Domeniul în care au fost plasate valorile variabilelor (data array);
2.Domeniul în care se trec valorile de separare, în ordine crescătoare
(bins array).
Distribuții de frecvențe
Sursa de referință pentru pacienții dintr-un studiu
psihoterapeutic referitor la consilierea durerii lombare
Sursa de referință (personalul care consiliaza)

à variabilă calitativă nominala
Categoriile (medici, consultanti,...) – sunt valorile
variabilei calitative (sursa de referinta)
Frost H, Lamb SE, Doll HA, Carver PT, Stewart-Brown S. (2004) Randomised controlled trial of
physiotherapy compared with advice for low back pain. British Medical Journal 329, 708-711.
Numărul de persoane care aparțin unei anumite categorii se

numeşte frecvenţă a aceastei categorii.
Proporţia persoanelor care aparțin unei anumite categorii se
numește frecvență relativă sau frecvenţă proporţională.
Ex: Frecvenţa relativă pentru medicii generaliști este de
256/285 = 0.898 sau 89.8%.
Sursa de referință pentru pacienții dintr-un studiu psihotarapeutic

(Frost et al., 2004)
• Muțimea valorilor frecvenţelor pentru toate

categoriile posibile se numeşte distribuţie de
frecvenţă a variabilei.
Sursa de referință pentru pacienții dintr-un studiu psihotarapeutic

(Frost et al., 2004)
Categorii ordonate
Mobilitatea pacienţilor recrutați în studiul VenUS I
Imobilitate
Categorii ordonate: Mers liber (1) < Mers cu dificultate (2)

Mers cu dificultate (2) < Imobil (3)
Variabilă calitativă ordinala (variabile la care exista o
ordine naturala între categorii)
Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and
short-stretch compression bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91,
1292-1299.
Categorii ordonate
Imobilitate
1
2
3
• Frecvenţa cumulată pentru o valoare a unei variabile

reprezintă numărul de indivizi care se incadreaza cu
valori mai mici sau egale cu valoarea considerata.
• Frecvenţa cumulată relativă pentru o valoare este
proporţia de indivizi din eşantion cu valori mai mici sau
egale cu valoarea considerata.
Categorii ordonate
• Datorita ordonarii categoriilor se poate calcula o frecventa
cumulata.
Imobilitate
1
2
3
(238+142)/383=99.2% à numarul de persoane care pot merge liber

sau cu dificultate
• Frecventa cumulata crescatoare a unei valori x a variabilei à suma
tuturor frecventelor valorilor care apar pana la x inclusiv
• Frecventa cumulata descrescatoare a unei valori x a variabilei suma
tuturor frecventelor valorilor care apar de la x inclusiv.
(Nelson et al., 2004)
Variabile cantitative discrete
Numărul de episoade de ulcer venos după debut la
pacienții din studiul VenUS I
Variabila cantitativă
discreta
Valori ale variabilei

! Numărare
! Nu există fracțiuni
Variabile cantitative discrete
Numărul de episoade de ulcer venos după debut la
pacienții din studiul VenUS I
Se poate număra de câte ori apare fiecare valoare pentru

a obține distribuția de frecvență.
• Multimea frecventelor tuturor valorilor posibile formeaza
o distributiie de frecventa.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de
86 pacienţi cu accident vascular cerebral
Colesterolul seric à
variabilă obținută prin
măsurare
à variabila cantitativa!
à 86 valori!
Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme
gene deletion polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de
86 pacienţi cu accident vascular cerebral
Variabilă obținută
prin măsurare!
à 86 valori!
à Distribuție de
frecvență dificil de
construit!
à Prelucrarea
datelor!
• Există mai multe valori care apar doar o singură dată

à numărul de apariţii al unei valori nu ajută în acest caz.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de 86 pacienţi
cu accident vascular cerebral.
à Variabilă obținută
prin măsurare
à 86 valori
à Distribuție de
frecvență dificil de
construit!
à Intervale
• Se împarte scala (plaja de valori: 3.7 – 10.4) colesterolului seric în

intervale (clase): 3.0 - 4.0, 4.0 - 5.0, etc...
• Se numără persoanele care au colesterol seric in fiecare interval (clasa)
à pentru aceste clase se construieste distributia de frecvente
Variabile continue
• Intervalele (clasele) nu trebuie să se suprapună
à se decide ce interval va conţine punctul de
frontieră pentru a se evita numărarea unei valori
de două ori.
Ø Conventie: se considera limita inferioară în intervalul la
care ne referim iar limita superioară în intervalul
următor.
– Ex: intervalul [3.0 - 4.0) à conține 3.0 dar nu conţine 4.0.
Variabile continue
Colesterolul seric (mmol/L):
Variabile continue
Distribuția de frecvență a colesterolul seric (mmol/L):
Distribuția de
frecvență nu
este unică!
• Distributia de frecventa depinde de lățimea intervalului dar si de

punctul de plecare (limita inferioara a primului interval)
• Forma distribuției este foarte importantă; contine multe informatii
• Prezentarea grafică a distribuției de frecvente à histograma
Histograme
Modalitatea cea mai utilizată în descrierea unei distribuții de
frecvență este histograma:
• A: înălţimea este direct proporțională cu frecvenţa sau numărul de
observaţii care se află în intervalul considerat.
• B: frecventa relativa à inalltimea e proportionala cu proportia de
observatii din interval B
A
Oy:
Frecvența relativă
Frecvența
Ox:
Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)
Nr. de apariții! Proporții!

à Comparare a distribuțiilor
diferite ca nr de observații!
Histograme
Histograma colesterorului seric, scala de frecvențe
• Puncte de plecare (limita inferioară a primului interval) și lungimi de
interval diferite à formă oarecum diferită a histogramei (cu aceleasi date)!
Frecvența
Frecvența
Echilibrată! Forme diferite! Intervale mici:

Mai clară! Aceleași date! Fluctuații aleatoare!
• Latimea intervalului trebuie aleasa astfel incit forma distributiei sa fie clara!
Histograme
Densitate de frecvență
Frecvența
2 4
Densitatea de frecvență = numarul de observații/unitatea de variabilă

(= frecventa/latimea intervalului)
Densitatea relativa de frecventa = proportia/latimea intervalului
à frecventa = densitatea de frecventa x latimea intervalului
Ex: pentru intervalul 3.75 - 4.25 mmol/L:
• lățimea intervalului = 0.5
• densitatea de frecvență este de 4 observaţii pe mmol/L
à frecvența = 4 × 0.5 =2
Histograme
• La ce foloseste densitatea de frecventa?
– Permite folosirea intervalelor de dimensiuni diferite
Distribuția este destul de

Frecvență
neregulată!
à histogramele tind sa fie mai
putin bune in cazul in care am
un numar mic de observatii
à se pot combina intervalele
Presiunea sistolică a sângelui (mm Hg) de la extreme pentru a forma
intervale mai mari (se combina
ultimele 3 intervale)
Histograme
Distribuția
• Densitatea de frecvență permite neregulată!
Frecvență
netezirea histogramelor.
• Pe scala frecvențelor, unificarea
intervalelor produce o impresie
greșită!
Presiunea sistolică a sângelui (mm Hg)

Combinarea ultimelor Impresie eronată pe scala
3 intervale frecventelor
Densitate de
frecvență
Frecvență
Presiunea sistolică a sângelui (mm Hg) Presiunea sistolică a sângelui (mm Hg)
Histograme și
alte grafice pentru frecvență
Pentru o variabilă discretă dreptunghiurile (barele)
pot fi separate: discretitudinea
• O forma usor
modificata a
Frecvența
histogramei pentru
variabile continue
à spatierea dintre
dreptunghiuri
subliniaza
discretitudinea
Numărul de episoade de ulcer venos
Histograme și alte grafice pentru
frecvență
• Poligonul frecvențelor
Colesterolul seric (mmol/L)
• Util în reprezentarea a mai Sănătoși
Pacienti sanatosi
mult de o distribuție pe Pacienti cu

Pacienți cu accident
aceleași axe vascularaccident
vascular
Colesterolul seric (mmol/L)

Forma distribuțiilor de frecvență
Modul este valoarea cea mai frecvent întâlnită în distribuţie
– Ex: val cea mai intilnita este 5.6, frecventa fiind de 7 din 86
valori
Cozile sunt extreme ale distribuţiei unde observaţiile sunt,
de obicei, rare.
Distribuția unimodală este distribuția cu un singur modul.
Modul
Frecvența
Coada
Coada
inferioară
superioară
Interval (clasa) modal(ă)

Colesterolul seric (mmol/L) à (5.0 - 6.0) cu 24 observatii
• Părţile histogramei aflate în apropierea extremelor se numesc
cozi ale distribuției.
• Dacă coada din dreapta este mai lungă decât coada din stanga
histogram nearatunci distribuţia
the extremes este asimetrică
are called the la dreapta sau pozitiv
ution. asimetrică (A)
• than
ght is longer Dacăthecoada
tail on din
the stânga
left, the este mai lungă decât coada din dreapta
ew to the rightatunci distribuţia
or positively este asimetrică la stânga sau negativ
skew:
asimetrică (B).
150 B
A
Frecvența
Frecvența
Frequency
100
50
7 8 9 10 11 0 10 20 30 40 50 60
erol (mmol/L) Episodes since first onset of ulcer Vârsta sarcinii (săptămâni)
Episoade ulceroase de la
declansare
• Daca coada din stanga este egala cu cea din dreapta
distributia este simetrica.
• Majoritatea datelor medicale au distribuții unimodale!
The parts of the histogram near the extremes are c
• Majoritatea datelor medicale urmează
tails of theodistribution.
distribuție simetrică
sau pozitiv asimetrică! If the tail on the right is of similar length to the tail o
• Distributiile negativ asimetrice the
sunt distribution
mai rare is symmetrical:
in medicina!
Totusi exista!
80
Heights of
Frecvența
60
Frequency
women ad
40 the VenUS
20
0
130 140 150 160 170 180 190
Height (cm)
Inaltime (cm)
Alte reprezentari grafice pentru
frecvență
• Variabilă calitativă à diagrama cu dreptunghiuri orizontale
(bare):
3
Frecvența!
Imobil
Mers cu dificultate 142
Mers liber 238
0 50 100 150 200 250

frecvență
Frecvența relativă!
Frecventa Relativa
0.4, 0%
6.3, 6% 3.5, 4%
MG
Consultant
Triaj
CS
89.8, 90%
frecvență
Frecvența cumulativa! !"# $%&&'()*)+, +%&-().'/ 0'1' !"
100
Cumulative relative frequency

75
50
25
0
25 35 45 55 65 75
Age (years)
Frecventa cumulativa pe varsta pentru 1357 barbati cu

!"#$ %$& !"#"$%&'() *+),")-./ 0$1& *1+ %2) 1* 3456 #)- 7'&8 $"-2 .%-.)+ 9:%;$) <=> %-? @'2= <=AB=
cancer de plamani
'()*+ %$, C&)#D%-?D$)%* ?'E0$%/ *1+ ?'E&+';"&'1- 1*
-"#;)+ 1* $)E'1-E .%"E)? ;/ E#%$$01F ('+"E '- )22
Age (years)
!"#$ %$& !"#"$%&'() *+),")-./ 0$1& *1+ %2) 1* 3456 #)- 7'&8 $"-2 .%-.)+ 9:%;$) <=> %-?
frecvență - “Stem-and-leaf” '()*+ %$, C&)#D%-?D$)%* ?'E0$%/ *1+ ?'E&+';"&'1- 1*
-"#;)+ 1* $)E'1-E .%"E)? ;/ E#%$$01F ('+"E '- )22
#)#;+%-)E 9E)) :%;$) <=4B=
G"#;)+ 1* $)E'1-E
HI 6
3 H<>66J
< 333<<<KKK6AJJJ
4 HH<<4>5K6AAJJJ
> H3<444>KK66AAAJJJ
5 33<4>>6A
K H3>5K666J
6 H56
A H<4>>6
Ex. distributia numarului de J A
cazuri datorate virusului 3H
smallpox in membrana oului 33 <
&8) .1"-&L %-? '- )%.8 +17 91+ ME&)#NB &8) -"#;)+E &1 &8) +'28& 9&8)
Alte reprezentari grafice - boxplots
• Boxplots sunt grafice care prezintă caracteristicile cheie ale
unui set de date
• Instrumente utile pentru compararea vizuala a datelor ce
provin din multiple esantioane
Total Length of Stay, 2011
Claims With at Least One Inpatient Visit
40
30
Length of Stay (Days)
(Large)
Outliers
20
Largest non-outlying value

(upper tail)
75th percentile (upper hinge)
10
Median
Interquartile Range (IQR)
0
(50th percentile)
25th percentile (lower hinge)
Smallest non-outlying value (upper tail)
Boxplots
• Boxplot (box-and-wisker) reprezinta grafic
quartile
• Elemente:
– Upper hinge = Q3
– Lower hinge = Q1
– IQR = Q3 – Q1 ß contine 50% din observatii
– Upper fence = Upper hinge + 1.5*IQR
– Lower fence = Lower hinge – 1.5*IQR
• Datele din afara “fence” se numesc
“outliers”
EDA (Exploratory Data Analysis)
• Exemplu: 23, 24, 24, 25, 32, 36, 45, 47, 51, 61, 62, 67,
73, 76, 78, 78
– Q2 = (47+51)/2 = 49
– Q1 = (25+32)/2 = 28.5 ß LH
– Q3 = (67+73)/2 = 70 ß UH
– IQR = 70 – 28.5 = 41.5
Tehnici de vizualizare: Scatter
Plots
– Valoarea atributelor determina pozitia intr-un sistem de
coordonate
– Cel mai des exista 2 axe de reprezentare, reprezentarea in
3 axe fiind folosita doar in cazul prezentarilor interactive
– Alte atribute pot fi reprezentate prin forma, culoarea sau
dimensiunea asociata punctelor
– Este utilizata pentru
reprezentarea sumarizata
a relatiilor intre diferitele
perechi de atribute
Exemplu: Scatter Plot Array
Tehnici de vizualizare: Contour
Plots
• Contour plots
– Utilizate mai ales atunci cind un atribut continuu este
masurat spatial
– Impart spatiul in regiuni cu aceeasi valoare (grupa de
valori) a atributului
– Linia de contur uneste puncte cu valori egale
– Reprezinta de obicei curbe
de nivel geografic, cantitati
de precipitatie, temperatura, etc.
Celsius
Contour Plot
Celsius
SST Dec, 1998
Bibliografie
• Clinical Biostatistics, by Martin Bland, University of York

• Statistical reasoning for Public Health, John McGrady, Johns Hopkins
Bloomberg School of Public Health
• Introduction to Medical Statistics, John Chen, Stony Brook University
School of Medicine
• Biostatistica pentru studenti – E Panaitescu, L Iliuta, E Poenaru,
Marius Rac Albu, Editura ‘Carol Davila’, 2013
• http://en.wikipedia.org/
• Statistica pe intelesul tuturor – Elena Druica, Editura C.H. Beck, 2011
• Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
• www.mste.uiuc.edu/hill/dstat/dstat.html
• www.stats.gla.ac.uk/steps/glossary/paired_data.htm

C4 Mgro

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

C4 Mgro

Încărcat de

Drepturi de autor:

Formate disponibile

INFORMATICĂ MEDICALĂ

• Lumea este in mijlocul unei manii a datelor!

• Big Data”= seturi de date foarte mari, complexe, pentru

• Datele “proaste” pot fi analizate si apoi sumarizate

• Datele sunt fapte prime sau forma

“Medical students may not like statistics, but as

“I keep saying that the sexy job in the next 10 years

• In functie de obiectivul urmarit, a gradului de generalitate si

(1) Colecteaza informatii (date)

Sursa:Ted Johnson’s SIGMOD 2003

Sursa: Joe Hellerstein, 2012

Statistica descriptiva Statistica inferentiala

De ce relațiile dintre variabile sunt importante?

• Statistica: o formulă a cărei valoare se obține cu

Qualitative Data Quantitative Data

Nominal Ordinal Discrete Continuous

Random Variable: X = IQ score, having an ideal distribution of values X

Funcţii EXCEL: FREQUENCY()

Sursa de referință (personalul care consiliaza)

Numărul de persoane care aparțin unei anumite categorii se

Sursa de referință pentru pacienții dintr-un studiu psihotarapeutic

• Muțimea valorilor frecvenţelor pentru toate

Sursa de referință pentru pacienții dintr-un studiu psihotarapeutic

Categorii ordonate: Mers liber (1) < Mers cu dificultate (2)

• Frecvenţa cumulată pentru o valoare a unei variabile

(238+142)/383=99.2% à numarul de persoane care pot merge liber

Valori ale variabilei

Se poate număra de câte ori apare fiecare valoare pentru

• Există mai multe valori care apar doar o singură dată

• Se împarte scala (plaja de valori: 3.7 – 10.4) colesterolului seric în

• Distributia de frecventa depinde de lățimea intervalului dar si de

Nr. de apariții! Proporții!

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)

Echilibrată! Forme diferite! Intervale mici:

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)

Densitatea de frecvență = numarul de observații/unitatea de variabilă

Distribuția este destul de

Presiunea sistolică a sângelui (mm Hg)

mult de o distribuție pe Pacienti cu

Colesterolul seric (mmol/L)

Interval (clasa) modal(ă)

Mers cu dificultate 142

Mers liber 238

0 50 100 150 200 250

Cumulative relative frequency

Frecventa cumulativa pe varsta pentru 1357 barbati cu

Largest non-outlying value

• Clinical Biostatistics, by Martin Bland, University of York

S-ar putea să vă placă și