Sunteți pe pagina 1din 772

INFORMATICĂ MEDICALĂ

șI BIOSTATISTICĂ
CURS I

Elena Poenaru, MSc, MBA, PhD


Informatica Medicala&Biostatistica
Orar cursuri
§  Curs 1 – 27.03
§  Curs 2 – 8.04
§  Curs 3 – 10.04
§  Curs 4 – 15.04
§  Curs 5 – 29.04
§  Curs 6 – 8.05
§  Curs 7 – 15.05
§  Q&A – 22.05
Evaluare
•  Laborator – 20%
–  conditie de trecere – minim 10 lucrari practice
•  Examen practic – 30%
–  conditie de trecere – minim nota 5
•  Examen teoretic (grila) – 50%
–  conditie de trecere – minim nota 5
•  Conditii necesare pentru a finaliza cursul de Informatica Medicala
si Biostatistica
•  minim 10 lucrari practice realizate
•  minim nota 5 la examenul practic
•  participare curs – minim 5 cursuri
•  minim nota 5 la examenul teoretic
•  Important: Nota finala se calculeaza pe baza procentelor de mai sus,
numai in cazul in care sunt indeplinite conditiile minime mentionate!!
Obiectivele cursului

•  Concepte IT&C si
terminologie
•  Intelegerea notiunilor de
Informatica Medicala
•  Aplicatii utilizate in
Informatica Medicala
De ce acest curs?

§  Cum poate fi IT&C utilizat in stocarea si transformarea


informatiilor medicale?
§  Sisteme IT&C pentru organizatiile medicale
§  Impactul noilor tehnologiilor in sistemul medical
§  Aplicatii utilizate in domeniul medical
Viitorul in Informatica Medicala
20/20 Vision and Medical Informatics in the 21st Century
“The future belongs to the unreasonable ones,
the ones who look forward not backward,
who are certain only of uncertainty, and
who have the ability and the confidence
to think completely differently.”

Bernard Shaw
Viitorul in Informatica Medicala
20/20 Vision and Medical Informatics in the 21st Century
“În vremurile schimbării,
cei ce învață vor moșteni lumea,
în timp ce ‘învățații’ vor descoperi
că sunt minunat echipați pentru a
face față unei lumi care nu mai există”

Eric Hoffer
Viitorul in Informatica Medicala

“Analfabeții secolului 21 nu vor fi cei care nu vor știi


să citească și să scrie ci vor fi cei care nu vor știi
să învețe, să se dezvețe și să învețe din nou!”

Alvin Toffler
Predictia viitorului un exercitiu periculos
640K ought to be enough for anybody.
Bill Gates, 1981.

There is no reason anyone would want a computer in their home.


Ken Olson, president, chairman and founder of
Digital Equipment Corp., 1977

This 'telephone' has too many shortcomings to be seriously considered


as a means of communication. The device is inherently of no value to us.
Western Union internal memo, 1976

The concept is interesting and well-formed, but in order to earn


better than a 'C', the idea must be feasible.
Yale University professor in response to Fred Smith's paper
proposing reliable overnight delivery service.
(Smith went on to found FedEx.)
Informatica medicala (Health Informatics)

Ø Este un domeniu științific - Medical Computer Science


Ø Se ocupă cu colectarea informațiilor biomedicale, a datelor,
stocarea, extragerea și utilizarea optimă a acestora in
scopul de a rezolva problemele medicale și de a lua
deciziile potrivite, in timp cat mai scurt.
Ø Interactioneaza cu toate domeniile de bază și cele aplicate
din zona științelor biomedicale și este strâns legată de
tehnologiile informaționale moderne,
în special cu cele de calcul și de comunicare
(Stanford Medical Informatics)
Informatica medicala
•  Este știința care utilizeaza instrumente analitice in scopul
de a dezvolta proceduri (algoritmi) pentru managementul,
controlul procesului medical, luarea deciziilor dar și
posibilitatea de a analiza din punct de vedere științific
informatiile medicale.
(Shortliffe EH. The science of biomedical computing)
Glosar de termeni si abrevieri

IS = Informatin System (Sistemul informatic)


HIS – Hospital Informatin System (Sistem Informatic de Spital)
EHR – Electronic Health Record
DES – Dosarul Electronic de Sanatate
CBIS = Computer-Based Information Systems
MIS = Sistem de Management al Informației
CPOE = Computerized Physician Order Entry
HL7 = Heath Level Seven
DICOM = Digital Imaging and Communications in Medicine
PACS = Picture Archiving and Communication System
RIS = Radiology Information Systems
Informatica medicala - provocari
•  IT&C are un impact important in operatiunile si
managementul organizatiilor à investitii consistente
•  Integrarea sistemelor clinice
Ø Stocarea, regăsirea in timp cat mai scurt și utilizarea optimă a
informațiilor biomedicale, a datelor și cunoștințelor, pentru
rezolvarea problemelor și luarea deciziilor
•  Baze de date uriase à Business Intelligence and
Knowledge Management
Informatica medicala - provocari

•  Sistemele IT &C din domeniul medical:


–  Tehnologia este recenta
–  Evolutie constanta si rapida
–  Dezvoltarea tehnologiilor
–  Aplicatiile sunt din ce in ce mai complexe
–  Departamente specializate
–  Descentralizarea în serviciile funcționale
–  Importanță strategică

à Management IT&C complex


Informatica medicala - provocari
•  Dezvoltarea si managementul IT&C in organizatiile
medicale
•  Cum?
–  Productivitate
–  Identificarea utilizării strategice a IT&C
–  Investiții permanente, bine planificate
–  Dezvoltare modulara
–  Evaluarea riscurilor
–  Gestionarea implementarii solutiilor IT&C
Directii de dezvoltare ale
sistemului sanitar

•  Deep data/Big Data


•  Smart sensors
•  Virtual patients in medical education
•  Internet-of-Humans
•  Artificial Intelligence
•  Internet of Medical Things (IoMT) - Based Systems
from a Human-Centric Perspective
Directii de dezvoltare ale sistemului
sanitar - digitizare, digitalizare si
transformare digitala

•  Digitizare: tranzitia de la date analogice la formate


digitale à de aici incepe totul.
•  Digitalizare: folosirea informatiilor digitizate in
activitatea de zi cu zi
•  Transformarea digitala: creare de concepte,
procese complet noi folosind digitalizarea
Directii de dezvoltare ale sistemului
sanitar – digitizare

Arii importante necesare in transformarea digitala:


•  O cultura digitala la nivel de sistem (organizatie/
spital/clinica/universitate) care sa implice
guvernarea si schimbarea sa.
•  Arhitectura de intreprindere digitala (Digital
Enterprise Architecture) à infrastructura, aplicatii
•  Canalele de interactiune si comunicare
•  Gestionarea informatiei
Necesitatile sistemului sanitar actual
–  Tehnologiile digitale și cele mobile, informatiile medicale,
disponibile in momentul si in locul in care trebuiesc utilizate;
–  Posibilitatea de a colabora între furnizorii de servicii medicale
astfel incat sa se poata oferi solutii de îngrijire de înaltă calitate, în
condiții de siguranță optime pentru toti cei implicati.
–  Medicii care asigura ingrijirea primara au acces la informațiile
medicale de specialitate ale pacientului
–  Specialiștii au acces la informațiile de asistenta medicala primara
prin conectarea prin dispozitive inteligente la DES (EHR),
–  Integrarea DES cu aplicatiile furnizorilor care ofera servicii
personalizate de e-sănătate și livrarea acestora direct catre
dispozitive mobile inteligente, multi-scop.
Solutii informatice destinate domeniului
medical (Medical/Health Informatics)
–  Sisteme de inregistrare a datelor personale de sănătate
(Personal Health Record Systems)
–  Retele pentru schimbul de informații destinate sistemului
medical (Health Information Exchange - HIE Networks)
–  Sisteme de informatii genomice si bio-banci
(Genomic Information Systems & BioRepositories)
–  Robotica in domeniul asistentei medicale
–  Wearable Health IT Systems
–  Tehnologii implantabile destinate domeniului medical
(Implantable Health IT Technologies)
–  Retele de computere Grid (Grid Computing) în sănătate
–  Nano-tehnologii & Nano-medicina
Informatica medicala – concepte
•  Sistemele Integrate de Spital
(Hospital Information System – HIS) sunt sisteme complexe,
integrate, de informații concepute pentru a gestiona toate
aspectele legate de operațiunile din cadrul spitalului:
–  din zona medicala,
–  administrativa,
–  financiara,
–  juridica
–  serviciile asociate acestora care proceseaza datele corespunzătoare.
Informatica medicala – concepte
•  Electronic Health Record - EHR,
Dosarului Electronic al Pacientului (DES),
Fisa medicala a pacientului (Electronic Medical Record)
•  versiuni diferite ale sistemelor de colectare si înregistrare a
datelor pacientului
–  un mod de a accesa dosarul medical al unui pacient printr-o interfață
computerizată
–  termen general care descrie sistemele de înregistrare electronica a
datelor pacientului.
–  uneori termenul este extins pentru a include funcții ca istoria medicala,
medicatia, interventiile suferite de pacient, cat si alte funcții comune.
•  Alti termeni consacrati:
–  CPR – Computer-Based Patient Record
–  EPR - Electronic Patient Record.
Informatica medicala – concepte
•  Electronic Data Interchange (EDI): termen general care descrie
nevoia aplicatiilor de asistenta medicala pentru a face posibil
schimbul de date, care necesită adoptarea de standarde comune
convenite pentru forma și conținutul mesajelor care sunt
transmise între aplicații.
•  HL7 – Health Level Seven – dezvoltarea standardelor
internaționale de interoperabilitate pentru sistemele de
informatica medicala
–  oferă un cadru (și standardele conexe) pentru schimbul, integrarea,
punerea la dispozitie (sharing) și regăsirea informațiilor electronice
cu privire la sanatate.
–  versiunile 2.x ale standardelor, care susțin practica clinică și
managementul respectiv, livrarea și evaluarea serviciilor de
sănătate, sunt cele mai frecvent utilizate în lume
Informatica medicala – concepte
Electronic Data Interchange (EDI)
•  DICOM (Digital Imaging and Communications in Medicine):
este un standard pentru manipulare, depozitare, tipărire și
transmiterea informațiilor în imagistica medicală.
–  Include definirea formatului de fișier și protocolul de comunicații în
rețea. Protocolul de comunicatie este un protocol la nivel de
aplicație, care utilizează TCP/IP pentru a asigura comunicatia între
sisteme.
–  Fișierele DICOM pot fi schimbate între două entități care sunt
capabile de a primi imaginile și datele pacientului în format DICOM.
Ce este un sistem informatic?
(Computer-Based Information Systems - CBIS)

Sistem Informatic (SI) - colectie de resurse tehnice și


umane, care asigură depozitarea, calculul, distribuția și
comunicatiile pentru informațiile solicitate de toate sau de o
parte a unei organizatii.
–  Sistem de Management al Informației (MIS) - o formă
specială de SI care oferă informații necesare in
gestionarea unei organizatii.
Ce este un sistem informatic?
(Computer-Based Information Systems - CBIS)
Functionalitati ale unui Sistem
Informatic:
•  Colecteaza intrari
•  Gestioneaza procese
•  Stocheaza date
•  Analizeaza si furnizeaza informații
pentru un anumit scop
•  Asigura iesirea datelor și a informațiile
intr-o forma solicitata
Componentele unui Sistem
Informatic?
•  Hardware: echipamente utilizate in activitati de intrare, procesare si iesire
Software: programele care gestioneaza operatiile la nivel de computer
•  Bază de date: Organizarea colecției de fapte și informații, de obicei, formata din
două sau mai multor fișiere de date
•  Telecomunicații, rețele, și Internet: Transmiterea electronică a semnalelor pentru
comunicații
–  Rețele: conectarea calculatoarelor și a echipamentelor care să permită
comunicații electronice
–  Internet: cea mai mare retea de calculatoare din lume, formata din mii de
rețele interconectate, toate schimband informații în mod liber
–  Intranet: retea interna care permite oamenilor în cadrul unei organizații sa
faca schimb sau sa partajeze informații și să lucreze la proiecte comune
–  Extranet: rețea care permite unor entitati din exterior, selectate, sa acceseze
resursele autorizate de intranet a unei organizatii
•  Oameni: Cel mai important element în cele mai multe sisteme informatice
•  Proceduri: includ strategii, politici, metode și norme pentru utilizarea CBIS
Sistem Informatic de Spital

http://www.iclinicworld.com/hospital-information-system/
Model schematic al unui SIS
Introducerea Monito-
datelor rizare Module Financiar
& vizionare eveni- Logice
Laborator Medicale
Rezultate mente

Codificari
specializate

Farmacie
Interfata BD
Dictionar
Termeni
medicali

Radiologie

Baza date
Baza de date pacient
cercetare
Sisteme Informatice
Date & informații
•  Datele sunt fapte prime sau
forma neorganizata (ex: date
alfanumerice, imaginile, date
audio și date video).
–  tipul de date care vor fi
procesate sunt strans legate
de funcțiile organizatiei
–  ulterior vor fi interpretate,
prezentate, actualizate...
•  Informația este o colecție de
fapte organizate în așa fel încât
să aibă o valoare dincolo de
faptele în sine.
–  se obţine în general din
prelucrarea datelor
•  Procesul este un set de sarcini
legate într-un mod logic.
Sisteme Informatice
Date & informații
•  Datele şi informaţiile reprezintă componentele primare ale
sistemului informaţional.
•  Data reprezintă o înşiruire de caractere, numerice sau alfa
numerice, care au o anumită semnificaţie.
•  Informaţiile se obţin în general din prelucrarea datelor (nu
se confundă însă cu acestea).

Valoarea informațiilor:
•  sunt direct legate de modul în care acestea ajută factorii de
decizie in realizarea obiectivelor organizației
•  ajutor in îndeplinirea sarcinilor mai eficient și mai eficace
Standardizare
•  Organismele de standardizare lucrează la modalități care
au ca scop încurajarea colaborării între tehnologi şi
clinicieni pentru a asigura reușita deplină la nivel mondial a
aplicațiilor de informatica medicala.
–  Exemplul relevant este IEEE Standards Association (una dintre cele
mai dezvoltate organizatii la nivel mondial care are ca focus noile
tehnologii si utilizarea lor in beneficiul umanitatii), entitate
recunoscută la nivel mondial ca fiind organismul prin care se
stabilesc standardele de comunicație, activ implicată în elaborarea
standardelor care contribuie la dezvoltarea telemedicinei.
•  Aceste standarde stabilesc modalitățile prin care
dispozitivele medicale, ce colecteaza automat şi detaliat
datele de la pacient (semnele vitale, datele operaţionale ale
echipamentului) şi sistemele de prelucrare de date asociate
pot comunica.
Standardizare
•  Instituții de standardizare din domeniul IT (IEEE, IETF, ITU,
ETSI, ANSI, etc) au deja adoptate standarde care privesc
echipamentele medicale, nu doar în ceea ce privește
construcția hardware, dar și legate de modul de comunicație
sau formatul datelor, pe arii de interes:
–  conținutul semantic, structura și schimbul de date (ex. HL7, DICOM);
–  modelul, reprezentarea datelor și specificații speciale (ex. IEEE 11073)
–  construcția dispozitivelor medicale (ex. ISO 11633);
–  interoperabilitatea dispozitivelor medicale (ex. IHE)
–  securitatea și calitatea serviciului de comunicație (ex. AES);
–  securitatea datelor medicale (ex. ISO27799)
Telemedicina
•  Furnizarea de servicii de ingrijire a sanatatii între
indivizi separați geografic, cu ajutorul sistemelor de
telecomunicații, de exemplu, conferințe video.
Telemedicina
•  “Totalitatea sistemelor care ajută la procesul de îngrijire a
sănătăţii prin schimbul cât mai eficient de informaţie
medicală”
(Bannet,1978)
•  Telemedicina se constituie ca un sistem integrat de îngrijire
a sănătăţii bazat pe resurse tehnologice, organizaţionale şi/
sau sistemice
•  Telemedicina constă în esenţă în utilizarea semnalelor
electronice, a tehnologiei informaţiei şi a telecomunicaţiilor
pentru a transfera informaţiile medicale de la un sistem la
altul.
Telemedicina
•  Dezvoltarea infrastructurii tehnologice ca suport important în
activitatea medicală;
•  Diminuarea costurilor pe pacient în condițiile în care acestea sunt
ridicate și nu acoperă necesarul;
•  Integrarea datelor existente la nivel de pacient într-un sistem
unitar, realizat conform standardelor actuale existente la nivel
mondial (ex. HL7);
•  Colectarea și integrarea la nivel de sistem a datelor complete
despre pacient, care să poată asigura informațiile necesare
diagnosticării și tratării acestuia, indiferent de locația în care se află
•  Remodelarea sistemului de sănătate într-un sistem integrat care să
poată susține îngrijirea continuă a pacienților, să asigure
securitatea informațiilor legate de pacient .
Telemedicina
•  Progresele realizate în domeniul tehnologiilor de
telecomunicaţii utilizate în sistemele de sănătate din ultimul
deceniu au extins posibilităţile de dezvoltare ale aplicațiilor
dedicate acestuia.
•  Astăzi aplicaţiile destinate acestui domeniu sunt în
extindere datorită posibilitățiilor de utilizare a serviciilor
video interactive, prin
posibilitațile de stocare şi
transmitere a informațiilor
care au fost realizare în
ultimul timp.
–  Teleconsultatia:
consultare clinică realizată
utilizând un serviciu
bazat pe IT&C.
Telemedicina

•  The Telemedicine Alliance, 2005


Telehealth
•  Elementele principalele:
–  Interacțiunea directă medic – pacient și cooperarea medic
– medic prin intermediul mijloacelor audio/video/date,
definită de obicei sub numele de “telemedicină;
–  Schimbul de informații între entitățile ce asigură servicii de
sanatate (“health providers”);
–  Serviciile de sănătate publică;
–  Asociațiile medicale profesionale;
–  Educația pacienților.
Telemedicina
•  Telemedicina, ca și concept, cuprinde o mare varietate
de servicii medicale:
–  teleradiologia
–  telepatologia
–  teledermatologia
–  teleconsultația
–  telemonitorizarea
–  telechirurgia
–  teleoftalmologia.
Telemedicina - posibilitati
•  Tehnologiile moderne (telefoane inteligente, senzori şi
instrumentaţie) joaca un rol strategic în adoptarea aplicațiilor
de telemedicină,
•  Telefoanele inteligente combinate cu reţele de mare viteză de
telefonie mobilă pot fi folosite pentru a monitoriza
non-invaziv starea pacienților.
•  Progrese realizate în domeniul bio-senzorilor, durabilitatea şi
fiabilitatea senzorilor care preiau electrocardiograma (EKG),
realizarea de senzori care pot monitoriza de la distanţă
pacientul cu risc de atac cardiovascular, cu o calitate
semnificativ îmbunătățită şi cu costuri minime pentru
monitorizare la distanță.
Telemedicina - cerinte arhitecturale
•  Lipsa oricărei interferențe cu dispozitivele medicale electrice
•  Indicator pentru activitățile care implică transmisii radio
•  Controlul transmisiei radio
•  Suport pentru inițierea comunicației de către pacient sau de
furnizorul de servicii
•  Suport pentru implementarea comunicației activata de politici, de
evenimente sau pe bază de programare
•  Rutarea datelor bazată pe conținut
•  Actualizări ale protocoalelor de securitate
•  Portabilitatea conexiuni
•  Monitorizarea locației
•  Modalitate securizată de a transmite mesajele
•  Inițializarea, înregistrarea și mentenanța dispozitivelor etc
Telemedicina - aplicabilitate

•  Monitorizarea la distanță a pacientului


•  Transferul de mesaje securizate între pacient
și providerul de servicii medicale
•  Măsurarea de semnale electrice corporale
de amplitudine scăzută
Telemedicina
Machine-to-Machine (M2M)

•  Sistemele de telemedicină sunt o categorie particulară a unui


domeniu mai larg numit M2M (Machine-to-Machine)
•  M2M à modalitatea de comunicare directa între două entități
non-umane în scopul îndeplinirii unei sarcini bine definite
(ETSI, 2011).
•  Din acestă categorie fac parte:
–  tele-măsurătorile (smart metering)
–  aplicațiile pentru autovehicole
–  automatizarea orașelor și a locuințelor
–  monitorizarea pacienților
Telemedicina
Arhitectura M2M, ETSI
Telemedicina
Machine-to-Machine (M2M)

•  Domeniul dispozitivelor M2M (M2M Device Domain) -


include totalitatea senzorilor inteligenți și a metodelor de
comunicație dintre aceștia.
•  Domeniul de rețea (M2M Network Domain) - include
totalitatea elementelor fizice ce fac posibilă comunicația
precum și serviciile asociate și protocoalele care stau
la baza acestora
•  Domeniul de aplicații (M2M Application Domain) - acoperă
partea de recepționare și analiză a datelor.
Telemedicina
Machine-to-Machine (M2M) –DD

•  DD - cea mai dinamică zonă cu un grad de


diversitate maxim
•  Organizată sub forma:
–  PAN (Personal Area Network): totalitatea dispozitivelor
M2M asociate unei persoane sau unei zone bine definite
–  BAN (Body Area Network): totalitatea dispozitivelor M2M
atașate de corpul unei persoane (in-body, on-body, near-
body)
Telemedicina
Machine-to-Machine (M2M) –DD

•  Comunicațiile în interiorul DD sunt in general wireless,


guvernate de standarde IEEE
•  Cerințe fundamentale:
–  Simplitate și fiabilitate
–  Configurare automată
–  Utilizare pe dispozitive cu restricții mari în ceea ce privește
puterea de calcul, memoria disponibila și consumul de
curent
–  Viteză de comunicație redusă (sute de kbps)
Telemedicina
Machine-to-Machine (M2M) – ND & AD

•  Network Domain (ND) = totalitatea rețelei de transport de


date (acces și core), bine definită de alianțele industriale
3GPP si WiFi
•  Application Domain (AD) = totalitatea aplicațiilor de
prelucrare a datelor (software și middleware) și sistemele
asociate acestora (hardware computing și networking);
asimilată deseori cu noțiunea de Centru de Date (Datacenter)
Telemedicina
Machine-to-Machine (M2M) – zona AD

•  Aplicațiile M2M care realizează comunicația parcurg


în general patru stări distincte:
–  colectarea datelor
–  transferal datelor peste o rețea de comunicații
specifică
–  evaluarea datelor
–  generarea unui răspuns în concordanță cu datele
primite.
Telemedicina - riscuri asociate
•  Lipsa unor stadarde bazate pe experiență;
•  Interoperabilitatea dispozitivelor medicale;
•  Lipsa securității datelor;
•  Efectul erorilor de comunicație aparute în timpul
consultației on-line;
•  Schimbul de informații securizat
•  Trainingul personalului medical pentru utilizarea sistemului;
•  Schimbările aparute în relația pacient – doctor în lipsa unui
contact direct;
•  Posibilitățile de fraudă și abuz.
Tehnologia
•  In această eră a informației digitale, noile tehnologii pot afecta
viața oamenilor în ambele sensuri, atat pozitiv cat și negativ.
–  Potential:
•  imbunatatirea calitatii ingrijirii pacientilor,
•  creșterea siguranței pacienților
•  costuri mai mici pe termen lung
•  accesul crescut al pacientului la un consult de specialitate
•  scurtarea perioadei panacand pacientul va fi consultat
–  Risc:
•  eventuale probleme legate de etica
•  posibilitățile de fraudă și abuz, posibile prin utilizarea noilor
tehnologii.
•  lipsa unor stadarde bazate pe experiență;
•  interoperabilitatea dispozitivelor medicale;
•  lipsa securității datelor;
•  efectul erorilor de comunicație aparute în timpul consultației
on-line;
Infrastructura tehnologica
– de la stategie la aplicatii –

Stategii & Procese

Conduce
Permite

Aplicatii

Conduce Permite

Infrastructura IT

Adapted from Kalakota & Robinson, E-business 2.0, Addison-Wesley, 2001


Infrastructura tehnologica

•  Infrastructura tehnologică a unei organizații


medicale este o combinație de hardware
(servere, calculatoare, aparate de informare,
de rețea) și software (sisteme de operare și
software de tip server), care va alcătui
temelia pe care pot fi construite sistemele de
aplicații.
Software
•  Firmware – ansamblu de
microprograme
•  Software - set de programe,
proceduri care determină
calculatorul să îndeplinească sarcini
specifice
•  Instrucţiune → routina → proceduri
→ program → aplicatie
Hardware
•  Mediu de intrare – care asigura preluarea datelor sau
instructiunilor
•  Mediu de memorare – in care se depoziteaza programul si
datele aferente
•  Mediu de prelucrare – asigura functii de natura aritmetica si
logica pentru prelucrarea datelor
•  Mediu de iesire – asigura extragerea rezultatelor
•  Mediu de control – capabil sa interpreteze instructiunile
extrase din memorie si sa controleze integ procesul de
automatizare a calculelor
Hardware

Input Output
•  Mouse •  Monitor
•  Keyboard •  Printer
•  Scanner •  Plotter
•  Microphone •  Boxes
•  Trackball •  Touch screen
•  Touch screen
Hardware
Dispozitive medicale pentru masurarea:

•  Presiunii arteriale
•  Puls
•  Masurarea greutatii

Probleme:
a.  Transmiterea datelor (tehnic)
b.  Procesare (algoritmi)
c.  Interoperabilitate
d.  Decizie
Software
•  Sistemul de operare (OS) - pachet de
programe, cu rol de a gestiona resursele
hardware-ului pe care este instalat, in
timpul indeplinirii diverselor task-uri
–  Controleaza transferul de date intre diverse
parti ale computerului cat si cu exteriorul
–  Permite utilizatorului sa acceseze resursele
computerului prin intermediul GUI (Graphical
User Interface)
•  Exemple:
–  Linux: SUSE, Mandrake, Ubuntu
–  Microsoft: Windows XP, Vista, Windows 8
–  Apple: MacOS
Probleme legate de etica
•  Etica in Informatica Medicala este disciplina care ia in
consideratie implicațiile tehnologiei și încearcă să determine
ceea ce este bun sau adecvat în domeniul Informaticii
Medicale.
•  Abordarea deciziilor din punct de vedere etic à pas cu pas
•  Există întrebări cheie care ar trebui să fie utilizate în timpul
procesului de luare a deciziilor:
–  Care sunt faptele cazului respectiv?
•  Identificarea tuturor faptelor pertinente și a specialiștilor implicati.
–  Care sunt întrebările etice?
•  Identificarea normelor pertinente și a problemelor juridice legate
de open surce software.
–  Care sunt părțile afectate?
•  Identificarea principalelor părți interesate (stakeholders.)
Probleme legate de etica
•  Identificarea unora dintre problemele etice și preocupările
care ar trebui abordate înainte ca aceste noi soluții
informatice in zona serviciilor medicale sa fie
implementate.
–  dezvoltarea unor măsuri care să ia în considerare si sa răspunda
acestor provocări etice cu scopul de a atenua posibile consecinte

•  Continuarea progresului în dezvoltarea și utilizarea de noi


tehnologii in zona de soluții informatice medicale, dar si
acordarea unei atenții sporite fata de problemele legate de
intimitatea pacientului, securitatea sistemului și a altor
probleme de etică ce pot aparea.
Probleme legate de etica
•  Cum acționăm unul față de celălalt, inclusiv modul în care se face
proiectarea, dezvoltarea, și implementarea acestor noi sisteme
informatice medicale, sunt în mare măsură determinate de etica.
•  Exemple de utilizare a calculatorului, care sunt discutabile din
punct de vedere etic:
–  copierea, utilizarea și distributia de software nelicentiat
–  colectarea, cumpărarea și folosirea informațiilor cu privire la pacienti fără a
verifica în mod conștiincios validitatea sau acuratețea acestor informații
–  crearea și răspândirea virușilor care cauzează probleme considerabile pentru
cei care folosesc și întrețin sistemele IT, inclusiv sisteme informatice
medicale sensibile.
–  punerea pe piata a sistemelor informatice de catre dezvoltatori înainte de a fi
complet testate; in cazul sistemelor informatice medicale, acest lucru poate
pune în pericol viața oamenilor.
–  spargerea sistemelor informatice și furtul de parole, a informațiilor cu
caracter personal, a informațiilor proprietare intentionata.
–  monitorizarea e-mail-urilor și a altor documente personale ale angajatilor
stocate pe PC-urile sau laptop-urile institutiei.
Probleme legate de etica - concluzii

•  Necesitatea de a implementa sisteme selectate IT & C in


sănătate este predominanta, existand un imperativ etic de a
implementa și de a folosi sistemele de informatii clinice
moderne ACUM!
•  Trebuie sa continuam crearea și implementarea sistemelor
IT &C in sanatate, care contribui la reducerea dramatica a
erorilor medicale și îmbunătățirea calității în sistemul de
sănătate.
Fisiere
•  Orice informatie stocata pe un suport permanent.
•  Orice fisier are un continut si un header (contine date de
identificare, cu ajutorul caruia pot fi regasite si accesate
datele)
–  nume fisier;
–  lungime - numarul caracterelor din continutul fisierului;
–  un pointer catre cluster în care incepe conţinutul fisierului;
–  citeva atribute care ajuta la restrictionarea accesului la
fisier;
–  numele utilizatorului care a creat fişierul - "proprietarul”;
–  data crearii, data celei mai recente modificari a
conţinutului fisierului
Aplicatii: MS - Excel
•  Insert Worksheet
Aplicatii – MS Excel

•  Tipuri cursor:
–  Selectia domeniului
–  Editarea continutului unei
celule
–  Mutarea domeniului selectat
–  Extinderea unei formule
Aplicatii – MS Excel

•  Cursor - “fill handle”


–  Extinderea unei formule la
un domeniu sau crearea
unei serii incrementale
Aplicatii – MS Excel
Ex
tools
• included
Analysis Toolpak add-in
installations,
so requires the following steps:
Aplicatii – MS EXCEL
•  Referinte absolute si
referinte relative
•  Referinta celulei sau
adresa celulei

•  In cazul unei referinte relative, referinta celulei intr-o formula se va schimba in


functie de pozitia sa din worksheet.
•  D5 = B5 * C5
à D6 = B6 * D6;
à D7 = B7 * D7, etc.
•  In cazul unei referinte absolute, referinta celulei intr-o formula nu se va schimba in
concordanta cu pozitia sa din worksheet.
Aplicatii – MS Excel
•  Insert Function
Aplicatii – MS Excel
Functii matematice:
•  SUM(domain)
•  INT(cell)
•  RAND()

Functii statistice:
•  COUNT(domain)
•  AVERAGE(domain)
•  STDEV(domain)
Bibliografie
•  Medical Informatics: Emerging Technologies, ‘Open’ EHR Systems, and Ethics in
the 21st Century, Groen, Mahootian, & Goldstein, 2008
•  Informatica pentru Medici, vol II – L Iliuta, E Poenaru, Editura ‘Carol Davila’, 2011
•  Journal of Medical Ethics - http://jme.bmj.com/
•  The American Journal of BioEthics - http://www.bioethics.net/journal/
•  BioEthics.Net Web Site - http://www.bioethics.net/
•  Institute for Ethics& Emerging Technologies - http://ieet.org/
•  http://en.wikipedia.org/
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS I

Elena Poenaru, MSc, MBA, PhD


Informatica Medicala&Biostatistica
Orar cursuri
§  Curs 1 – 27.03
§  Curs 2 – 8.04
§  Curs 3 – 10.04
§  Curs 4 – 15.04
§  Curs 5 – 29.04
§  Curs 6 – 8.05
§  Curs 7 – 15.05
§  Q&A – 22.05
Evaluare
•  Laborator – 20%
–  conditie de trecere – minim 10 lucrari practice
•  Examen practic – 30%
–  conditie de trecere – minim nota 5
•  Examen teoretic (grila) – 50%
–  conditie de trecere – minim nota 5
•  Conditii necesare pentru a finaliza cursul de Informatica Medicala
si Biostatistica
•  minim 10 lucrari practice realizate
•  minim nota 5 la examenul practic
•  participare curs – minim 5 cursuri
•  minim nota 5 la examenul teoretic
•  Important: Nota finala se calculeaza pe baza procentelor de mai sus,
numai in cazul in care sunt indeplinite conditiile minime mentionate!!
Obiectivele cursului

•  Concepte IT&C si
terminologie
•  Intelegerea notiunilor de
Informatica Medicala
•  Aplicatii utilizate in
Informatica Medicala
De ce acest curs?

§  Cum poate fi IT&C utilizat in stocarea si transformarea


informatiilor medicale?
§  Sisteme IT&C pentru organizatiile medicale
§  Impactul noilor tehnologiilor in sistemul medical
§  Aplicatii utilizate in domeniul medical
Viitorul in Informatica Medicala
20/20 Vision and Medical Informatics in the 21st Century
“The future belongs to the unreasonable ones,
the ones who look forward not backward,
who are certain only of uncertainty, and
who have the ability and the confidence
to think completely differently.”

Bernard Shaw
Viitorul in Informatica Medicala
20/20 Vision and Medical Informatics in the 21st Century
“În vremurile schimbării,
cei ce învață vor moșteni lumea,
în timp ce ‘învățații’ vor descoperi
că sunt minunat echipați pentru a
face față unei lumi care nu mai există”

Eric Hoffer
Viitorul in Informatica Medicala

“Analfabeții secolului 21 nu vor fi cei care nu vor știi


să citească și să scrie ci vor fi cei care nu vor știi
să învețe, să se dezvețe și să învețe din nou!”

Alvin Toffler
Predictia viitorului un exercitiu periculos
640K ought to be enough for anybody.
Bill Gates, 1981.

There is no reason anyone would want a computer in their home.


Ken Olson, president, chairman and founder of
Digital Equipment Corp., 1977

This 'telephone' has too many shortcomings to be seriously considered


as a means of communication. The device is inherently of no value to us.
Western Union internal memo, 1976

The concept is interesting and well-formed, but in order to earn


better than a 'C', the idea must be feasible.
Yale University professor in response to Fred Smith's paper
proposing reliable overnight delivery service.
(Smith went on to found FedEx.)
Informatica medicala (Health Informatics)

Ø Este un domeniu științific - Medical Computer Science


Ø Se ocupă cu colectarea informațiilor biomedicale, a datelor,
stocarea, extragerea și utilizarea optimă a acestora in
scopul de a rezolva problemele medicale și de a lua
deciziile potrivite, in timp cat mai scurt.
Ø Interactioneaza cu toate domeniile de bază și cele aplicate
din zona științelor biomedicale și este strâns legată de
tehnologiile informaționale moderne,
în special cu cele de calcul și de comunicare
(Stanford Medical Informatics)
Informatica medicala
•  Este știința care utilizeaza instrumente analitice in scopul
de a dezvolta proceduri (algoritmi) pentru managementul,
controlul procesului medical, luarea deciziilor dar și
posibilitatea de a analiza din punct de vedere științific
informatiile medicale.
(Shortliffe EH. The science of biomedical computing)
Glosar de termeni si abrevieri

IS = Informatin System (Sistemul informatic)


HIS – Hospital Informatin System (Sistem Informatic de Spital)
EHR – Electronic Health Record
DES – Dosarul Electronic de Sanatate
CBIS = Computer-Based Information Systems
MIS = Sistem de Management al Informației
CPOE = Computerized Physician Order Entry
HL7 = Heath Level Seven
DICOM = Digital Imaging and Communications in Medicine
PACS = Picture Archiving and Communication System
RIS = Radiology Information Systems
Informatica medicala - provocari
•  IT&C are un impact important in operatiunile si
managementul organizatiilor à investitii consistente
•  Integrarea sistemelor clinice
Ø Stocarea, regăsirea in timp cat mai scurt și utilizarea optimă a
informațiilor biomedicale, a datelor și cunoștințelor, pentru
rezolvarea problemelor și luarea deciziilor
•  Baze de date uriase à Business Intelligence and
Knowledge Management
Informatica medicala - provocari

•  Sistemele IT &C din domeniul medical:


–  Tehnologia este recenta
–  Evolutie constanta si rapida
–  Dezvoltarea tehnologiilor
–  Aplicatiile sunt din ce in ce mai complexe
–  Departamente specializate
–  Descentralizarea în serviciile funcționale
–  Importanță strategică

à Management IT&C complex


Informatica medicala - provocari
•  Dezvoltarea si managementul IT&C in organizatiile
medicale
•  Cum?
–  Productivitate
–  Identificarea utilizării strategice a IT&C
–  Investiții permanente, bine planificate
–  Dezvoltare modulara
–  Evaluarea riscurilor
–  Gestionarea implementarii solutiilor IT&C
Directii de dezvoltare ale
sistemului sanitar

•  Deep data/Big Data


•  Smart sensors
•  Virtual patients in medical education
•  Internet-of-Humans
•  Artificial Intelligence
•  Internet of Medical Things (IoMT) - Based Systems
from a Human-Centric Perspective
Directii de dezvoltare ale sistemului
sanitar - digitizare, digitalizare si
transformare digitala

•  Digitizare: tranzitia de la date analogice la formate


digitale à de aici incepe totul.
•  Digitalizare: folosirea informatiilor digitizate in
activitatea de zi cu zi
•  Transformarea digitala: creare de concepte,
procese complet noi folosind digitalizarea
Directii de dezvoltare ale sistemului
sanitar – digitizare

Arii importante necesare in transformarea digitala:


•  O cultura digitala la nivel de sistem (organizatie/
spital/clinica/universitate) care sa implice
guvernarea si schimbarea sa.
•  Arhitectura de intreprindere digitala (Digital
Enterprise Architecture) à infrastructura, aplicatii
•  Canalele de interactiune si comunicare
•  Gestionarea informatiei
Necesitatile sistemului sanitar actual
–  Tehnologiile digitale și cele mobile, informatiile medicale,
disponibile in momentul si in locul in care trebuiesc utilizate;
–  Posibilitatea de a colabora între furnizorii de servicii medicale
astfel incat sa se poata oferi solutii de îngrijire de înaltă calitate, în
condiții de siguranță optime pentru toti cei implicati.
–  Medicii care asigura ingrijirea primara au acces la informațiile
medicale de specialitate ale pacientului
–  Specialiștii au acces la informațiile de asistenta medicala primara
prin conectarea prin dispozitive inteligente la DES (EHR),
–  Integrarea DES cu aplicatiile furnizorilor care ofera servicii
personalizate de e-sănătate și livrarea acestora direct catre
dispozitive mobile inteligente, multi-scop.
Solutii informatice destinate domeniului
medical (Medical/Health Informatics)
–  Sisteme de inregistrare a datelor personale de sănătate
(Personal Health Record Systems)
–  Retele pentru schimbul de informații destinate sistemului
medical (Health Information Exchange - HIE Networks)
–  Sisteme de informatii genomice si bio-banci
(Genomic Information Systems & BioRepositories)
–  Robotica in domeniul asistentei medicale
–  Wearable Health IT Systems
–  Tehnologii implantabile destinate domeniului medical
(Implantable Health IT Technologies)
–  Retele de computere Grid (Grid Computing) în sănătate
–  Nano-tehnologii & Nano-medicina
Informatica medicala – concepte
•  Sistemele Integrate de Spital
(Hospital Information System – HIS) sunt sisteme complexe,
integrate, de informații concepute pentru a gestiona toate
aspectele legate de operațiunile din cadrul spitalului:
–  din zona medicala,
–  administrativa,
–  financiara,
–  juridica
–  serviciile asociate acestora care proceseaza datele corespunzătoare.
Informatica medicala – concepte
•  Electronic Health Record - EHR,
Dosarului Electronic al Pacientului (DES),
Fisa medicala a pacientului (Electronic Medical Record)
•  versiuni diferite ale sistemelor de colectare si înregistrare a
datelor pacientului
–  un mod de a accesa dosarul medical al unui pacient printr-o interfață
computerizată
–  termen general care descrie sistemele de înregistrare electronica a
datelor pacientului.
–  uneori termenul este extins pentru a include funcții ca istoria medicala,
medicatia, interventiile suferite de pacient, cat si alte funcții comune.
•  Alti termeni consacrati:
–  CPR – Computer-Based Patient Record
–  EPR - Electronic Patient Record.
Informatica medicala – concepte
•  Electronic Data Interchange (EDI): termen general care descrie
nevoia aplicatiilor de asistenta medicala pentru a face posibil
schimbul de date, care necesită adoptarea de standarde comune
convenite pentru forma și conținutul mesajelor care sunt
transmise între aplicații.
•  HL7 – Health Level Seven – dezvoltarea standardelor
internaționale de interoperabilitate pentru sistemele de
informatica medicala
–  oferă un cadru (și standardele conexe) pentru schimbul, integrarea,
punerea la dispozitie (sharing) și regăsirea informațiilor electronice
cu privire la sanatate.
–  versiunile 2.x ale standardelor, care susțin practica clinică și
managementul respectiv, livrarea și evaluarea serviciilor de
sănătate, sunt cele mai frecvent utilizate în lume
Informatica medicala – concepte
Electronic Data Interchange (EDI)
•  DICOM (Digital Imaging and Communications in Medicine):
este un standard pentru manipulare, depozitare, tipărire și
transmiterea informațiilor în imagistica medicală.
–  Include definirea formatului de fișier și protocolul de comunicații în
rețea. Protocolul de comunicatie este un protocol la nivel de
aplicație, care utilizează TCP/IP pentru a asigura comunicatia între
sisteme.
–  Fișierele DICOM pot fi schimbate între două entități care sunt
capabile de a primi imaginile și datele pacientului în format DICOM.
Ce este un sistem informatic?
(Computer-Based Information Systems - CBIS)

Sistem Informatic (SI) - colectie de resurse tehnice și


umane, care asigură depozitarea, calculul, distribuția și
comunicatiile pentru informațiile solicitate de toate sau de o
parte a unei organizatii.
–  Sistem de Management al Informației (MIS) - o formă
specială de SI care oferă informații necesare in
gestionarea unei organizatii.
Ce este un sistem informatic?
(Computer-Based Information Systems - CBIS)
Functionalitati ale unui Sistem
Informatic:
•  Colecteaza intrari
•  Gestioneaza procese
•  Stocheaza date
•  Analizeaza si furnizeaza informații
pentru un anumit scop
•  Asigura iesirea datelor și a informațiile
intr-o forma solicitata
Componentele unui Sistem
Informatic?
•  Hardware: echipamente utilizate in activitati de intrare, procesare si iesire
Software: programele care gestioneaza operatiile la nivel de computer
•  Bază de date: Organizarea colecției de fapte și informații, de obicei, formata din
două sau mai multor fișiere de date
•  Telecomunicații, rețele, și Internet: Transmiterea electronică a semnalelor pentru
comunicații
–  Rețele: conectarea calculatoarelor și a echipamentelor care să permită
comunicații electronice
–  Internet: cea mai mare retea de calculatoare din lume, formata din mii de
rețele interconectate, toate schimband informații în mod liber
–  Intranet: retea interna care permite oamenilor în cadrul unei organizații sa
faca schimb sau sa partajeze informații și să lucreze la proiecte comune
–  Extranet: rețea care permite unor entitati din exterior, selectate, sa acceseze
resursele autorizate de intranet a unei organizatii
•  Oameni: Cel mai important element în cele mai multe sisteme informatice
•  Proceduri: includ strategii, politici, metode și norme pentru utilizarea CBIS
Sistem Informatic de Spital

http://www.iclinicworld.com/hospital-information-system/
Model schematic al unui SIS
Introducerea Monito-
datelor rizare Module Financiar
& vizionare eveni- Logice
Laborator Medicale
Rezultate mente

Codificari
specializate

Farmacie
Interfata BD
Dictionar
Termeni
medicali

Radiologie

Baza date
Baza de date pacient
cercetare
Sisteme Informatice
Date & informații
•  Datele sunt fapte prime sau
forma neorganizata (ex: date
alfanumerice, imaginile, date
audio și date video).
–  tipul de date care vor fi
procesate sunt strans legate
de funcțiile organizatiei
–  ulterior vor fi interpretate,
prezentate, actualizate...
•  Informația este o colecție de
fapte organizate în așa fel încât
să aibă o valoare dincolo de
faptele în sine.
–  se obţine în general din
prelucrarea datelor
•  Procesul este un set de sarcini
legate într-un mod logic.
Sisteme Informatice
Date & informații
•  Datele şi informaţiile reprezintă componentele primare ale
sistemului informaţional.
•  Data reprezintă o înşiruire de caractere, numerice sau alfa
numerice, care au o anumită semnificaţie.
•  Informaţiile se obţin în general din prelucrarea datelor (nu
se confundă însă cu acestea).

Valoarea informațiilor:
•  sunt direct legate de modul în care acestea ajută factorii de
decizie in realizarea obiectivelor organizației
•  ajutor in îndeplinirea sarcinilor mai eficient și mai eficace
Standardizare
•  Organismele de standardizare lucrează la modalități care
au ca scop încurajarea colaborării între tehnologi şi
clinicieni pentru a asigura reușita deplină la nivel mondial a
aplicațiilor de informatica medicala.
–  Exemplul relevant este IEEE Standards Association (una dintre cele
mai dezvoltate organizatii la nivel mondial care are ca focus noile
tehnologii si utilizarea lor in beneficiul umanitatii), entitate
recunoscută la nivel mondial ca fiind organismul prin care se
stabilesc standardele de comunicație, activ implicată în elaborarea
standardelor care contribuie la dezvoltarea telemedicinei.
•  Aceste standarde stabilesc modalitățile prin care
dispozitivele medicale, ce colecteaza automat şi detaliat
datele de la pacient (semnele vitale, datele operaţionale ale
echipamentului) şi sistemele de prelucrare de date asociate
pot comunica.
Standardizare
•  Instituții de standardizare din domeniul IT (IEEE, IETF, ITU,
ETSI, ANSI, etc) au deja adoptate standarde care privesc
echipamentele medicale, nu doar în ceea ce privește
construcția hardware, dar și legate de modul de comunicație
sau formatul datelor, pe arii de interes:
–  conținutul semantic, structura și schimbul de date (ex. HL7, DICOM);
–  modelul, reprezentarea datelor și specificații speciale (ex. IEEE 11073)
–  construcția dispozitivelor medicale (ex. ISO 11633);
–  interoperabilitatea dispozitivelor medicale (ex. IHE)
–  securitatea și calitatea serviciului de comunicație (ex. AES);
–  securitatea datelor medicale (ex. ISO27799)
Telemedicina
•  Furnizarea de servicii de ingrijire a sanatatii între
indivizi separați geografic, cu ajutorul sistemelor de
telecomunicații, de exemplu, conferințe video.
Telemedicina
•  “Totalitatea sistemelor care ajută la procesul de îngrijire a
sănătăţii prin schimbul cât mai eficient de informaţie
medicală”
(Bannet,1978)
•  Telemedicina se constituie ca un sistem integrat de îngrijire
a sănătăţii bazat pe resurse tehnologice, organizaţionale şi/
sau sistemice
•  Telemedicina constă în esenţă în utilizarea semnalelor
electronice, a tehnologiei informaţiei şi a telecomunicaţiilor
pentru a transfera informaţiile medicale de la un sistem la
altul.
Telemedicina
•  Dezvoltarea infrastructurii tehnologice ca suport important în
activitatea medicală;
•  Diminuarea costurilor pe pacient în condițiile în care acestea sunt
ridicate și nu acoperă necesarul;
•  Integrarea datelor existente la nivel de pacient într-un sistem
unitar, realizat conform standardelor actuale existente la nivel
mondial (ex. HL7);
•  Colectarea și integrarea la nivel de sistem a datelor complete
despre pacient, care să poată asigura informațiile necesare
diagnosticării și tratării acestuia, indiferent de locația în care se află
•  Remodelarea sistemului de sănătate într-un sistem integrat care să
poată susține îngrijirea continuă a pacienților, să asigure
securitatea informațiilor legate de pacient .
Telemedicina
•  Progresele realizate în domeniul tehnologiilor de
telecomunicaţii utilizate în sistemele de sănătate din ultimul
deceniu au extins posibilităţile de dezvoltare ale aplicațiilor
dedicate acestuia.
•  Astăzi aplicaţiile destinate acestui domeniu sunt în
extindere datorită posibilitățiilor de utilizare a serviciilor
video interactive, prin
posibilitațile de stocare şi
transmitere a informațiilor
care au fost realizare în
ultimul timp.
–  Teleconsultatia:
consultare clinică realizată
utilizând un serviciu
bazat pe IT&C.
Telemedicina

•  The Telemedicine Alliance, 2005


Telehealth
•  Elementele principalele:
–  Interacțiunea directă medic – pacient și cooperarea medic
– medic prin intermediul mijloacelor audio/video/date,
definită de obicei sub numele de “telemedicină;
–  Schimbul de informații între entitățile ce asigură servicii de
sanatate (“health providers”);
–  Serviciile de sănătate publică;
–  Asociațiile medicale profesionale;
–  Educația pacienților.
Telemedicina
•  Telemedicina, ca și concept, cuprinde o mare varietate
de servicii medicale:
–  teleradiologia
–  telepatologia
–  teledermatologia
–  teleconsultația
–  telemonitorizarea
–  telechirurgia
–  teleoftalmologia.
Telemedicina - posibilitati
•  Tehnologiile moderne (telefoane inteligente, senzori şi
instrumentaţie) joaca un rol strategic în adoptarea aplicațiilor
de telemedicină,
•  Telefoanele inteligente combinate cu reţele de mare viteză de
telefonie mobilă pot fi folosite pentru a monitoriza
non-invaziv starea pacienților.
•  Progrese realizate în domeniul bio-senzorilor, durabilitatea şi
fiabilitatea senzorilor care preiau electrocardiograma (EKG),
realizarea de senzori care pot monitoriza de la distanţă
pacientul cu risc de atac cardiovascular, cu o calitate
semnificativ îmbunătățită şi cu costuri minime pentru
monitorizare la distanță.
Telemedicina - cerinte arhitecturale
•  Lipsa oricărei interferențe cu dispozitivele medicale electrice
•  Indicator pentru activitățile care implică transmisii radio
•  Controlul transmisiei radio
•  Suport pentru inițierea comunicației de către pacient sau de
furnizorul de servicii
•  Suport pentru implementarea comunicației activata de politici, de
evenimente sau pe bază de programare
•  Rutarea datelor bazată pe conținut
•  Actualizări ale protocoalelor de securitate
•  Portabilitatea conexiuni
•  Monitorizarea locației
•  Modalitate securizată de a transmite mesajele
•  Inițializarea, înregistrarea și mentenanța dispozitivelor etc
Telemedicina - aplicabilitate

•  Monitorizarea la distanță a pacientului


•  Transferul de mesaje securizate între pacient
și providerul de servicii medicale
•  Măsurarea de semnale electrice corporale
de amplitudine scăzută
Telemedicina
Machine-to-Machine (M2M)

•  Sistemele de telemedicină sunt o categorie particulară a unui


domeniu mai larg numit M2M (Machine-to-Machine)
•  M2M à modalitatea de comunicare directa între două entități
non-umane în scopul îndeplinirii unei sarcini bine definite
(ETSI, 2011).
•  Din acestă categorie fac parte:
–  tele-măsurătorile (smart metering)
–  aplicațiile pentru autovehicole
–  automatizarea orașelor și a locuințelor
–  monitorizarea pacienților
Telemedicina
Arhitectura M2M, ETSI
Telemedicina
Machine-to-Machine (M2M)

•  Domeniul dispozitivelor M2M (M2M Device Domain) -


include totalitatea senzorilor inteligenți și a metodelor de
comunicație dintre aceștia.
•  Domeniul de rețea (M2M Network Domain) - include
totalitatea elementelor fizice ce fac posibilă comunicația
precum și serviciile asociate și protocoalele care stau
la baza acestora
•  Domeniul de aplicații (M2M Application Domain) - acoperă
partea de recepționare și analiză a datelor.
Telemedicina
Machine-to-Machine (M2M) –DD

•  DD - cea mai dinamică zonă cu un grad de


diversitate maxim
•  Organizată sub forma:
–  PAN (Personal Area Network): totalitatea dispozitivelor
M2M asociate unei persoane sau unei zone bine definite
–  BAN (Body Area Network): totalitatea dispozitivelor M2M
atașate de corpul unei persoane (in-body, on-body, near-
body)
Telemedicina
Machine-to-Machine (M2M) –DD

•  Comunicațiile în interiorul DD sunt in general wireless,


guvernate de standarde IEEE
•  Cerințe fundamentale:
–  Simplitate și fiabilitate
–  Configurare automată
–  Utilizare pe dispozitive cu restricții mari în ceea ce privește
puterea de calcul, memoria disponibila și consumul de
curent
–  Viteză de comunicație redusă (sute de kbps)
Telemedicina
Machine-to-Machine (M2M) – ND & AD

•  Network Domain (ND) = totalitatea rețelei de transport de


date (acces și core), bine definită de alianțele industriale
3GPP si WiFi
•  Application Domain (AD) = totalitatea aplicațiilor de
prelucrare a datelor (software și middleware) și sistemele
asociate acestora (hardware computing și networking);
asimilată deseori cu noțiunea de Centru de Date (Datacenter)
Telemedicina
Machine-to-Machine (M2M) – zona AD

•  Aplicațiile M2M care realizează comunicația parcurg


în general patru stări distincte:
–  colectarea datelor
–  transferal datelor peste o rețea de comunicații
specifică
–  evaluarea datelor
–  generarea unui răspuns în concordanță cu datele
primite.
Telemedicina - riscuri asociate
•  Lipsa unor stadarde bazate pe experiență;
•  Interoperabilitatea dispozitivelor medicale;
•  Lipsa securității datelor;
•  Efectul erorilor de comunicație aparute în timpul
consultației on-line;
•  Schimbul de informații securizat
•  Trainingul personalului medical pentru utilizarea sistemului;
•  Schimbările aparute în relația pacient – doctor în lipsa unui
contact direct;
•  Posibilitățile de fraudă și abuz.
Tehnologia
•  In această eră a informației digitale, noile tehnologii pot afecta
viața oamenilor în ambele sensuri, atat pozitiv cat și negativ.
–  Potential:
•  imbunatatirea calitatii ingrijirii pacientilor,
•  creșterea siguranței pacienților
•  costuri mai mici pe termen lung
•  accesul crescut al pacientului la un consult de specialitate
•  scurtarea perioadei panacand pacientul va fi consultat
–  Risc:
•  eventuale probleme legate de etica
•  posibilitățile de fraudă și abuz, posibile prin utilizarea noilor
tehnologii.
•  lipsa unor stadarde bazate pe experiență;
•  interoperabilitatea dispozitivelor medicale;
•  lipsa securității datelor;
•  efectul erorilor de comunicație aparute în timpul consultației
on-line;
Infrastructura tehnologica
– de la stategie la aplicatii –

Stategii & Procese

Conduce
Permite

Aplicatii

Conduce Permite

Infrastructura IT

Adapted from Kalakota & Robinson, E-business 2.0, Addison-Wesley, 2001


Infrastructura tehnologica

•  Infrastructura tehnologică a unei organizații


medicale este o combinație de hardware
(servere, calculatoare, aparate de informare,
de rețea) și software (sisteme de operare și
software de tip server), care va alcătui
temelia pe care pot fi construite sistemele de
aplicații.
Software
•  Firmware – ansamblu de
microprograme
•  Software - set de programe,
proceduri care determină
calculatorul să îndeplinească sarcini
specifice
•  Instrucţiune → routina → proceduri
→ program → aplicatie
Hardware
•  Mediu de intrare – care asigura preluarea datelor sau
instructiunilor
•  Mediu de memorare – in care se depoziteaza programul si
datele aferente
•  Mediu de prelucrare – asigura functii de natura aritmetica si
logica pentru prelucrarea datelor
•  Mediu de iesire – asigura extragerea rezultatelor
•  Mediu de control – capabil sa interpreteze instructiunile
extrase din memorie si sa controleze integ procesul de
automatizare a calculelor
Hardware

Input Output
•  Mouse •  Monitor
•  Keyboard •  Printer
•  Scanner •  Plotter
•  Microphone •  Boxes
•  Trackball •  Touch screen
•  Touch screen
Hardware
Dispozitive medicale pentru masurarea:

•  Presiunii arteriale
•  Puls
•  Masurarea greutatii

Probleme:
a.  Transmiterea datelor (tehnic)
b.  Procesare (algoritmi)
c.  Interoperabilitate
d.  Decizie
Software
•  Sistemul de operare (OS) - pachet de
programe, cu rol de a gestiona resursele
hardware-ului pe care este instalat, in
timpul indeplinirii diverselor task-uri
–  Controleaza transferul de date intre diverse
parti ale computerului cat si cu exteriorul
–  Permite utilizatorului sa acceseze resursele
computerului prin intermediul GUI (Graphical
User Interface)
•  Exemple:
–  Linux: SUSE, Mandrake, Ubuntu
–  Microsoft: Windows XP, Vista, Windows 8
–  Apple: MacOS
Probleme legate de etica
•  Etica in Informatica Medicala este disciplina care ia in
consideratie implicațiile tehnologiei și încearcă să determine
ceea ce este bun sau adecvat în domeniul Informaticii
Medicale.
•  Abordarea deciziilor din punct de vedere etic à pas cu pas
•  Există întrebări cheie care ar trebui să fie utilizate în timpul
procesului de luare a deciziilor:
–  Care sunt faptele cazului respectiv?
•  Identificarea tuturor faptelor pertinente și a specialiștilor implicati.
–  Care sunt întrebările etice?
•  Identificarea normelor pertinente și a problemelor juridice legate
de open surce software.
–  Care sunt părțile afectate?
•  Identificarea principalelor părți interesate (stakeholders.)
Probleme legate de etica
•  Identificarea unora dintre problemele etice și preocupările
care ar trebui abordate înainte ca aceste noi soluții
informatice in zona serviciilor medicale sa fie
implementate.
–  dezvoltarea unor măsuri care să ia în considerare si sa răspunda
acestor provocări etice cu scopul de a atenua posibile consecinte

•  Continuarea progresului în dezvoltarea și utilizarea de noi


tehnologii in zona de soluții informatice medicale, dar si
acordarea unei atenții sporite fata de problemele legate de
intimitatea pacientului, securitatea sistemului și a altor
probleme de etică ce pot aparea.
Probleme legate de etica
•  Cum acționăm unul față de celălalt, inclusiv modul în care se face
proiectarea, dezvoltarea, și implementarea acestor noi sisteme
informatice medicale, sunt în mare măsură determinate de etica.
•  Exemple de utilizare a calculatorului, care sunt discutabile din
punct de vedere etic:
–  copierea, utilizarea și distributia de software nelicentiat
–  colectarea, cumpărarea și folosirea informațiilor cu privire la pacienti fără a
verifica în mod conștiincios validitatea sau acuratețea acestor informații
–  crearea și răspândirea virușilor care cauzează probleme considerabile pentru
cei care folosesc și întrețin sistemele IT, inclusiv sisteme informatice
medicale sensibile.
–  punerea pe piata a sistemelor informatice de catre dezvoltatori înainte de a fi
complet testate; in cazul sistemelor informatice medicale, acest lucru poate
pune în pericol viața oamenilor.
–  spargerea sistemelor informatice și furtul de parole, a informațiilor cu
caracter personal, a informațiilor proprietare intentionata.
–  monitorizarea e-mail-urilor și a altor documente personale ale angajatilor
stocate pe PC-urile sau laptop-urile institutiei.
Probleme legate de etica - concluzii

•  Necesitatea de a implementa sisteme selectate IT & C in


sănătate este predominanta, existand un imperativ etic de a
implementa și de a folosi sistemele de informatii clinice
moderne ACUM!
•  Trebuie sa continuam crearea și implementarea sistemelor
IT &C in sanatate, care contribui la reducerea dramatica a
erorilor medicale și îmbunătățirea calității în sistemul de
sănătate.
Fisiere
•  Orice informatie stocata pe un suport permanent.
•  Orice fisier are un continut si un header (contine date de
identificare, cu ajutorul caruia pot fi regasite si accesate
datele)
–  nume fisier;
–  lungime - numarul caracterelor din continutul fisierului;
–  un pointer catre cluster în care incepe conţinutul fisierului;
–  citeva atribute care ajuta la restrictionarea accesului la
fisier;
–  numele utilizatorului care a creat fişierul - "proprietarul”;
–  data crearii, data celei mai recente modificari a
conţinutului fisierului
Aplicatii: MS - Excel
•  Insert Worksheet
Aplicatii – MS Excel

•  Tipuri cursor:
–  Selectia domeniului
–  Editarea continutului unei
celule
–  Mutarea domeniului selectat
–  Extinderea unei formule
Aplicatii – MS Excel

•  Cursor - “fill handle”


–  Extinderea unei formule la
un domeniu sau crearea
unei serii incrementale
Aplicatii – MS Excel
Ex
tools
• included
Analysis Toolpak add-in
installations,
so requires the following steps:
Aplicatii – MS EXCEL
•  Referinte absolute si
referinte relative
•  Referinta celulei sau
adresa celulei

•  In cazul unei referinte relative, referinta celulei intr-o formula se va schimba in


functie de pozitia sa din worksheet.
•  D5 = B5 * C5
à D6 = B6 * D6;
à D7 = B7 * D7, etc.
•  In cazul unei referinte absolute, referinta celulei intr-o formula nu se va schimba in
concordanta cu pozitia sa din worksheet.
Aplicatii – MS Excel
•  Insert Function
Aplicatii – MS Excel
Functii matematice:
•  SUM(domain)
•  INT(cell)
•  RAND()

Functii statistice:
•  COUNT(domain)
•  AVERAGE(domain)
•  STDEV(domain)
Bibliografie
•  Medical Informatics: Emerging Technologies, ‘Open’ EHR Systems, and Ethics in
the 21st Century, Groen, Mahootian, & Goldstein, 2008
•  Informatica pentru Medici, vol II – L Iliuta, E Poenaru, Editura ‘Carol Davila’, 2011
•  Journal of Medical Ethics - http://jme.bmj.com/
•  The American Journal of BioEthics - http://www.bioethics.net/journal/
•  BioEthics.Net Web Site - http://www.bioethics.net/
•  Institute for Ethics& Emerging Technologies - http://ieet.org/
•  http://en.wikipedia.org/
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS I

Elena Poenaru, MSc, MBA, PhD


Informatica Medicala&Biostatistica
Evaluare
•  Laborator – 20%
–  conditie de trecere: minim 10 lucrari practice
•  Examen practic – 30%
–  conditie de trecere: minim nota 5
•  Examen teoretic (grila) – 50%
–  conditie de trecere: minim nota 5
•  Conditii necesare pentru a finaliza cursul de Informatica Medicala
si Biostatistica
•  minim 12 lucrari practice realizate
•  minim nota 5 la examenul practic
•  participare curs – minim 5 cursuri
•  minim nota 5 la examenul teoretic
•  Important: Nota finala se calculeaza pe baza procentelor de mai sus
numai in cazul in care sunt indeplinite conditiile minime mentionate!!
Obiectivele cursului

•  Concepte IT&C si
terminologie
•  Intelegerea notiunilor de
Informatica Medicala
•  Aplicatii utilizate in
Informatica Medicala
Informatica medicala

•  Sistemele IT &C din domeniul medical:


–  Tehnologia este recenta
–  Evolutie constanta si rapida
–  Aplicatiile complexe
–  Departamente specializate
–  Descentralizarea în serviciile funcționale
–  Importanță strategică
Necesitatile sistemului sanitar actual
–  Tehnologiile digitale și cele mobile
–  Colabore între furnizorii de servicii medicale
–  Acces la informațiile medicale de specialitate ale pacientului
–  Integrare
Informatica medicala – concepte
•  Sistemele Integrate de Spital: sunt sisteme complexe,
integrate, de informații concepute pentru a gestiona toate
aspectele legate de operațiunile din cadrul spitalului:
–  din zona medicala,
–  administrativa,
–  financiara,
–  juridica
–  serviciile asociate acestora care proceseaza datele
corespunzătoare.
Informatica medicala – concepte

•  Electronic Health Record - EHR,


•  Dosarului Electronic al Pacientului (DES),
•  Fisa medicala a pacientului
Informatica medicala – concepte
•  Electronic Data Interchange (EDI): schimbul de date,
standarde comune convenite pentru forma și conținutul
mesajelor transmise
•  HL7 – Health Level Seven – dezvoltarea standardelor
internaționale de interoperabilitate pentru sistemele de
informatica medicala
Informatica medicala – concepte
Electronic Data Interchange
DICOM: standard pentru manipulare, depozitare, tipărire și
transmiterea informațiilor în imagistica medicală.
Ce este un sistem informatic?
(Computer-Based Information Systems - CBIS)

Sistem Informatic (SI) - colectie de resurse tehnice și


umane, care asigură depozitarea, calculul, distribuția și
comunicatiile pentru informațiile solicitate de toate sau de o
parte a unei organizatii.
Ce este un sistem informatic?
(Computer-Based Information Systems - CBIS)
Functionalitati ale unui Sistem
Informatic:
•  Colecteaza intrari
•  Gestioneaza procese
•  Stocheaza date
•  Analizeaza si furnizeaza informații
pentru un anumit scop
•  Asigura iesirea datelor și a informațiile
intr-o forma solicitata
Sistem Informatic de Spital

http://www.iclinicworld.com/hospital-information-system/
Standardizare
•  Organismele de standardizare lucrează la modalități care
au ca scop încurajarea colaborării între tehnologi şi
clinicieni pentru a asigura reușita deplină la nivel mondial a
aplicațiilor de informatica medicala.
•  Aceste standarde stabilesc modalitățile prin care
dispozitivele medicale, ce colecteaza automat şi detaliat
datele de la pacient (semnele vitale, datele operaţionale ale
echipamentului) şi sistemele de prelucrare de date asociate
pot comunica.
Telemedicina
•  Furnizarea de servicii de ingrijire a sanatatii între
indivizi separați geografic, cu ajutorul sistemelor de
telecomunicații, de exemplu, conferințe video.
Telemedicina

•  The Telemedicine Alliance, 2005


Telemedicina - aplicabilitate

•  Monitorizarea la distanță a pacientului


•  Transferul de mesaje securizate între pacient
și providerul de servicii medicale
•  Măsurarea de semnale electrice corporale
de amplitudine scăzută
Telemedicina
Arhitectura M2M, ETSI
Tehnologia
Potential:
•  imbunatatirea calitatii ingrijirii pacientilor,
•  creșterea siguranței pacienților
•  costuri mai mici pe termen lung
•  accesul crescut al pacientului la un consult de
specialitate
•  scurtarea perioadei panacand pacientul va fi consultat
Risc:
•  eventuale probleme legate de etica
•  posibilitățile de fraudă și abuz, posibile prin utilizarea
noilor tehnologii.
•  lipsa unor stadarde bazate pe experiență;
•  interoperabilitatea dispozitivelor medicale;
•  lipsa securității datelor;
•  efectul erorilor de comunicație aparute în timpul
consultației on-line;
Infrastructura tehnologica
– de la stategie la aplicatii –

Stategii & Procese

Conduce
Permite

Aplicatii

Conduce Permite

Infrastructura IT

Adapted from Kalakota & Robinson, E-business 2.0, Addison-Wesley, 2001


Software
•  Instrucţiune → routina → proceduri → program → aplicatie
Hardware
•  Mediu de intrare
•  Mediu de memorare
•  Mediu de prelucrare
•  Mediu de iesire
•  Mediu de control
Fisiere

•  Orice informatie stocata pe un suport permanent.


•  Orice fisier are un continut si un header (contine date de
identificare, cu ajutorul caruia pot fi regasite si accesate
datele)
Probleme legate de etica

•  Necesitatea securitatii sistemelor medicale


•  Accesul la date
•  Reducerea erorilor medicale și îmbunătățirea calității în
sistemul de sănătate.
Aplicatii: MS - Excel
Aplicatii – MS Excel
Ex
tools
included
installations,
so requires the following steps:
Aplicatii – MS EXCEL
Aplicatii – MS Excel
Aplicatii – MS Excel
Functii matematice:
•  SUM(domain)
•  INT(cell)
•  RAND()

Functii statistice:
•  COUNT(domain)
•  AVERAGE(domain)
•  STDEV(domain)
Aplicatii –EpiInfo
Analysis

Selected
commands

Result
window

Given
commands
Aplicatii –Visual FoxPro
Bibliografie
•  Informatica pentru Medici, vol II – L Iliuta, E Poenaru, Editura ‘Carol Davila’, 2011
•  Biostatistica pentru studenti – E Panaitescu, L Iliuta, E Poenaru, Marius Rac
Albu, Editura ‘Carol Davila’, 2013
•  Journal of Medical Ethics - http://jme.bmj.com/
•  The American Journal of BioEthics - http://www.bioethics.net/journal/
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS II

Elena Poenaru
elena.poenaru@gmail.com
Notiuni
•  Introducere in biostatistica
•  Termeni uzuali in biostatistica
•  Aplicatii utilizate in
biostatistica
•  Variabile
•  Statistica descriptiva si
Statistica inferentiala
•  Esantion, populatie
•  Tipuri de date, frecvențe,
distribuții
Introducere
in Biostatistica
Unii ar putea spune…

•  Lumea este in mijlocul unei manii a datelor!


•  Este era “Big Data”!
Ø  Genomica
Ø  Informatica medicala
Ø  Imagistica
Ø  Utilizarea internetului
§  Datele nu au fost niciodata mai relevante!
Big Data

•  Big Data”= seturi de date foarte mari, complexe, pentru


care aplicatiile de prelucarea traditionala “data processing”
sunt inadecvate
•  Termenul vizeaza, in general, metode avansate de
prelucrare, analiza predictiva, …
•  Acuratetea in “big data” conduce catre decizii de incredere,
mai precise à eficienta operationala, reducerea costurilor,
reducerea riscurilor
•  Analiza seturilor de date duce la o noi corelatii, la
prevenirea bolilor
•  Cercetaatorii se confrunta cu limitari in genomica, in
simulari, in zona cercetarilor ambientale si in studiul
fenomenelor biologice.
Datele sunt pretutindeni!
–  Sondaje de piata
–  Grupuri de cercetare
–  Cercetare de marketing
–  Media
–  Monitorizarea diversilor parametrii (semne vitale,
conditii climatice, fizica pamantului,…)
–  ...
Datele furnizeaza informatii
•  Datele “bune” pot fi analizate si apoi sumarizate
pentru a furniza informatii utile J

•  Datele “proaste” pot fi analizate si apoi sumarizate


pentru a furniza informatii incorecte/non-informative,
à care conduc la…? L
Datele furnizeaza informatii

•  Datele sunt fapte prime sau forma


neorganizata (ex: date
alfanumerice, imaginile, date audio
și date video).
–  Tipul de date care vor fi colectate si
apoi procesate este strans legat de
ipotezele formulate
•  Informația este o colecție de fapte
organizate în așa fel încât să aibă o
valoare dincolo de faptele în sine.
“Statistics is above all the subject most disliked by
(medical) students” J
“Making Doctors: An Institutional Apprenticeship”
by Simon Sinchair, 1997 (Berg Publishers).

“Medical students may not like statistics, but as


doctors they will” J
Martin Bland, Letter to the Editor, 1998 (BMJ)

“I keep saying that the sexy job in the next 10 years


will be statisticians!” “And I’m not kidding.”
said Hal Varian, chief economist at Google.
Hal Varian , Google Chief Economist, August 2009
Ce este statistica?
•  Statistica - domeniu ştiinţific care permite studiul
fenomenelor de masa a căror proprietate fundamentală
este variabilitatea.
•  Stiinta colectarii, clasificarii, prezentarii, interpretarii datelor
si a folosirii acestora pentru a formula concluzii si a lua
decizii.
•  Stiinţa care se ocupă cu studiul datelor obţinute din grupuri
„mici” de indivizi şi extinderea rezultatelor la populaţii
„mari”.
•  Teoria și metodologia de design de studiu pentru
descrierea, analiza și interpretarea datelor generate de
studii.
De ce avem nevoie de statistică?
•  Indiferent de semnificatia data termenului de statistica obiectul de
studiu al acesteia il reprezinta fenomenele de masa, fenomene
complexe, atipice, rezultate din actiunea combinata si repetata a
unui numar mare de factori de influenta
–  statistica privilegiaza rationamentele de tip inductiv (generalizari
rezultate din observatii individuale)
•  Vrem sa tragem concluzii cât mai valide din cantităţi limitate de date:

–  diferenţe importante sunt deseori mascate de variabilitatea


biologică şi/sau imprecizia experimentală
–  mintea umană excelează în găsirea de tipare şi relaţii, dar tinde
să generalizeze în exces
Intrebari la care statistica poate da
un raspuns
•  Exprimând caracteristicile unui numar de indivizi ai unei
populatii prin variabile (unele numerice, altele nu), admitem
că prin măsurare sau evaluare vom obţine seturi de date cu
care vom construi tabele de date.
•  Întrebările esenţiale care se pun de obicei sunt:
–  cum putem să descriem „sintetic” datele pe care le-am
obţinut?
–  cum putem să transmitem altora informaţii pertinente
despre ansamblul indivizilor, fără însă a le transmite toate
datele obţinute?
Biostatistica
Biostatistica = domeniu particular al statisticii
(aplicarea metodelor statisticii în problemele
biologice/medicale):
–  O “palarie” peste biologie și statistică (uneori
menționată ca biometrie) este aplicarea statisticii
pentru o gamă largă de subiecte în biologie.
–  O ramură a acesteia este Biostatistica medicala, care
se referă exclusiv la medicină și sănătate:
•  Colectarea, sumarizarea și analiza datelor din
experimente;
•  Interpretarea, concluzionarea rezultatelor
(inferenta) .
Statistica
•  Statistica descriptivă
à totalitatea metodelor de culegere, prezentare şi
caracterizare a unui set de date numerice, în scopul de a
descrie diferitele trăsături principale ale acestui set de date
•  Statistica inferenţială
à interpretarea datelor oferite de statistica descriptiva
pentru a formula concluzii si a lua decizii
à totalitatea metodelor care fac posibilă estimarea
caracteristicilor unei populaţii sau luarea unor decizii privind
o populaţie, pe baza rezultatelor obţinute pe un eşantion
Cercetarea statistica
Obiectul activitatii de cercetare statistica presupune:
•  Planificare/design-ul studiului
•  Colectarea de date
•  Prelucrare
•  Analiza
•  Interpretarea rezultatelor

•  In functie de obiectivul urmarit, a gradului de generalitate si


a concluziilor asteptate, dar si de mijloacele utilizate:
–  Faza descriptiva (exploratorie)
–  Faza inferentiala (decizionala)
à  Biostatistica poate juca un rol in fiecare dintre etape
à  uneori se ocupa doar de analiza datelor
Cercetarea statistica

(1)  Colecteaza informatii (date)


(2)  Evalueaza informațiile (clasifica, rezuma, organizeaza,
analizeaza)
(3)  Extrage concluzii pe baza evaluării
(4)  Permite studiul fenomenelor de masa a căror
proprietate fundamentală este variabilitatea
Colectarea datelor
Colectarea datelor
•  Crearea chestionarelor
–  Design-ul chestionarului à Uneori vrem răspunsuri
precise, uneori suntem interesați în domenii de valori.

Influenteaza:
Ø  Analiza datelor
Ø  Rezultatele
Ø  Concluziile
Analiza datelor
Analiza datelor
–  Cum sumarizez cel mai bine informațiile provenind de la
datele brute?
–  Confruntarea cu variabilitatea (pentru date ce provin din
populatie cât și cele care provin din esantioane):
•  Modele importante din date sunt acoperite de variabilitate
•  Distingerea modelelor reale dintre cele de variație aleatorie
–  Inferenta: folosesc informații dintr-un singur studiu corelate
cu informații despre variabilitate pentru a face declarații cu
privire la populație/procesul de interes
Probleme …
•  Planificare/design-ul studiului
–  Formularea intrebarilor de interes:
-  Cuantificarea informatiilor despre un singur grup?
-  Comparatii intre grupuri?
–  Marimea esantionului
-  De cati subiecti am nevoie in total?
-  Cati in fiecare dintre grupurile comparate?
–  Selectia participantilor in studiu
-  se aleg aleator dintr-o lista?
-  se selecteaza dintr-o baza de persoane de interes?
-  oricine apare?
–  În cazul comparației grupurilor de interes, cum se vor
distribui in grupuri?
“Dirty Data”
•  Punctul de vedere al Cercetatorului
“Dirty Data”
•  Punct de vedere - Statistica:
•  Datele sunt produse de un proces
•  Modelarea ideala de esantioane rezultate din proces
este imposibila:
•  Distorsiuni – esantioane corupte in timpul procesului procesului
•  Selectare distorsionata (bias)
•  Dependenta – esantioanele nu sunt complet independente
•  Variabilitate – elementele urmarite (ex. pacienti) intra si ies din
studiu pe durata acestuia
•  Procesul de prelucrare poate imbunatatii rezultatele prin
adaugarea de noi modele
•  Dar… nu se pot modela toate tipurile de imperfectiuni
•  Trebuie gasit un echilibru intre acuratete si simplitate
(uneori chiar realizabilitate)
“Dirty Data”
•  Punct de vedere - Database:
•  Acestea sunt datele pe care le am
•  Unele din ele nu corespund (sunt lipsa,
corupte, gresite, duplicate)
•  Rezultatele obtinute din prelucrare sunt
absolute, determinate de modelul relational
•  Singura modalitate de a avea un raspuns mai
bun este imbunatatirea calitatii datelor de
intrare
“Dirty Data”
•  Punct de vedere - Expert:
•  Este formulat in raport cu un model implicit de
date ce este deja asumat (expertiza)
•  Datele nu arata bine à rezultatul obtinut nu
poate fi corect
•  Rezultatul nu arata bine à datele initiale nu
pot fi corecte
“Dirty Data” - probleme
1)  Impartirea textului (parsing) in cimpuri
(probleme de separator)
2)  Conventii de denumire (ex NYC vs New York)
3)  Lipsa unui cimp necesar (e.g. key field)
4)  Reprezentare diferita (2 vs Doi)
5)  Trunchierea unui cimp prea lung
6)  Cheie primara eronata (de la structura pana la
integrare)
7)  Inregistrari redundante (exact sau partial)
8)  Probleme de formatare – in special la
reprezentarea datei
9)  Probleme de acces la date (ex. licentiere/date
private)
Sursa: Stanford Data Integration Course
Problema: calitatea datelor
•  Calitatea datelor este greu/ne masurabila
–  Acuratetea si completitudinea datelor sunt foarte greu/
imposibil de masurat
•  Calitatea datelor (definita prin ceea ce e important)
este data de context
–  Precizia e data de scopul prelucrarii (ex. cantitatea de sare
din mincarea pasagerilor in perspectiva greutatii avionului)
–  Calculul valorilor agregate tolereaza lipsa punctuala de
precizie (ex. consumul de energie electrica)
•  Masurarea calitatii este/va fi intotdeauna incompleta
–  Ce parere aveti de metrici ca: interpretabilitatea,
disponibilitatea, accesibilitatea, calitatea metadatelor, etc ?
•  Termenul este vag
–  Nu exista un mod clar in care definitia poate fi actualizata
sau imbunatatita in functie de necesitati/utilizare

Sursa:Ted Johnson’s SIGMOD 2003


Calitatea datelor
•  La sursa datele par sa fie implicit eronate (“dirty”).
•  Transformarile complexe pot corupe date (ex. rotunjiri
succesive)
•  Integrarea datelor din surse curate (“clean”) multiple
poate avea ca rezultat date eronate.
•  Erori “rare” pot deveni frecvente dupa transformare si
integrare
•  Datele vechi isi pot pierde in timp precizia (“data/bit rot”)
•  Combinatii multiple ale factorilor de mai sus
Numeric Outliers

Virsta pacientilor

Sursa: Joe Hellerstein, 2012


Curatarea datelor rezolva
problemele?
•  Aparitia unei gauri in stratul de ozon deasupra Antarcticii
detectata, prima oara, in 1976

De fapt, datele au fost respinse


ca fiind “outliers” de algoritmii
de control a calitatii datelor

Sursa: National Center for Atmospheric Research


Continuumul calitatii datelor
•  Datele si informatiile nu au caracter static ci
urmaresc un proces de la colectare la utilizare:
–  Colectare de date
–  Livrare de date
–  Stocare de date
–  Integrare de date
–  Regasire (retrieval)
–  Analiza datelor (data mining/analysis)
–  Reprezentarea vizuala (data visualization)
Etape in statistica
•  Statisticile este o disciplina cantitativa, care permite afirmații
generale, obiective, despre o populație, bazate pe date
specifice, numerice sau categoriale luate dintr-un eșantion
aleatoriu.
Etapele fundamentale ale metodei științifice clasice:
(1)  formularea unei ipoteze nule ce poate fi testata pentru
populație,
(2)  proiectarea unui experiment special conceput pentru a
testa această ipoteză,
(3)  observații empirice à colectarea informatiilor (date)
(4)  evaluarea datelor (clasifica, rezuma, organizeaza,
analizeaza)
(5)  interpretarea setului de date generat,
(6)  concluzie cu privire la ipoteza formulata
Cercetarea statistica
Inferenta
Statistica
(Statistica Inferentiala)
descriptiva

Esantion

Populatie

Statistica
descriptiva

Parametrii Statistica
Populatiei esantionului
Cercetarea statistica
Statistica

Statistica descriptiva Statistica inferentiala


Ø  culegerea datelor Ø  extinderea proprietăţilor
statistice determinate pe un eşantion
Ø  prezentarea (descrierea) la întreaga populaţie
datelor statistice,
Ø  reprezentarea grafica a
datelor statistice,
Ø  determinarea unor
caracteristici numerice
sintetice ale datelor
statistice
Rezultate si concluzii
•  Prezentarea
–  Ce forma a rezumatului va transmite cel mai bine
"Mesajele principale” în raspunsul la întrebările
de cercetare, de interes (primare și secundare)
–  Cum sa formulez incertitudinea în estimările pe
baza datelor
•  Interpretarea
–  Ce înseamnă rezultatele în termeni de practică,
de program, de populația, etc ...?
Ce este “Data Visualization”?

Definitie:
1.  Crearea si studiul reprezentarilor
vizuale a datelor in scopul
comunicarii clare si eficiente a
informatiei catre diferite clase de
utilizatori
2.  Este un termen general care
descrie orice efort de a ajuta
oamenii să înțeleagă semnificația
datelor prin plasarea lor într-un
context vizual.
[Sursa: Wikipedia]
Managementul datelor

De ce relațiile dintre variabile sunt importante?


•  În general, scopul final al unui studiu de cercetare sau
analiză științifică este de a găsi relațiile dintre variabile.
•  Statistica ajuta in evaluarea relațiilor dintre variabile.
Populatie vs Esantion
•  Esantion: un subgrup (parte) dintr-un grup mai
mare (populația), de la care datele sunt colectate
pentru a avea informatii despre grupul mai mare
–  Exemplu: douăzeci de studenti la medicina, în vârstă de
20 de ani, din UMF
•  Populatie: intregul grup pentru care vreau sa aflu
informatii
–  Exemplu: toti studentii în vârstă de 20 de ani, din
Romania
Esantionare aleatoare
•  Este optimă pentru studii în care esantionul din care se extrag
datele sunt reprezentative pentru populatia studiata
•  Nu întotdeauna este posibil!
•  Vom considera această ipoteză dacă nu se specifică altfel
•  O modalitate de a obține un eșantion reprezentativ
à eșantionarea aleatorie simplă
•  O schemă de eșantionare în care fiecare sub-eșantion posibil,
de dimensiune n, dintr-o populație este la fel de probabil să fie
selectat
Esantionaj aleator & non-aleator
•  Schema de constituire a unui eşantion dă şi denumirea tipului
de eşantionaj
A.  Eşantion probabilistic (aleator)
B.  Eşantion non-probabilistic, non-aleator, empiric
A. Dacă o probă este selectat aleator dintr-o populație,
caracteristicile eșantionului le-ar putea imita (imperfect) pe
cele ale populației
B. Esantioane non-aleatoare pot avea ca rezultat esantioane
ale căror elemente nu reflectă caracteristicile populațiilor de
interes (o eroare sistematica, spre deosebire de o distorsiune
aleatorie a unei statistici în urma procedurii de esantionare)
Rezumat
•  Esantion din populația de interes:
–  Extragerea de esantioane aleatorii este cea mai bună
strategie pentru a obține un eșantion ale cărui caracteristici
va imita (imperfect) populația
–  Cu toate acestea … eșantionarea aleatorie nu este
întotdeauna posibila à alte abordări pot fi utilizate
•  procedura de eșantionare trebuie să fie luata în
considerare atunci când se aplică rezultatele de la
esantion la populație
Tipuri de date/variabile
Evaluarea datelor/informatiilor
Concepte statistice esentiale in
analiza datelor
•  Variabila
•  Tipuri de variabile
•  Cazuri
•  Importanta identificarii tipurilor de variabile implicate
•  Statistica descriptiva vs statistica inferentiala
•  Metode de realizare a rapoartelor statistice
•  Intervale de incredere si statisticile punctuale
•  Teste parametrice si teste neparametrice
•  Semnificatie statistica
Termeni uzuali

•  Statistica: o formulă a cărei valoare se obține cu


ajutorul datelor dintr-un eșantion.
–  statistica este o caracteristica numerica a unui esantion
•  ex: Inaltimea medie a celor 25 de inaltimi in cazul
unui esantion de 25 de studenti
•  Parametru: o caracteristica numerica a unei
populatii.
–  Ex: Procentul de studenti de la UMF care au promovat toate
examenele la sesiunea din iarna este un exemplu de
parametru ın cazul populatiei “studentii de la UMF”
Termeni uzuali
•  Caracteristică sau variabilă statistică − proprietate în
functie de care se cerceteaza o populatie statistica şi care, în
general, poate fi măsurată, luand valori diferite de la un
individ la altul;
•  Valoare (stare, realizare) − forma concretă de manifestare a
unei variabile statistice pentru un individ;
•  Scală − totalitatea valorilor diferite ale unei caracteristici sau
intervalul în care acestea sunt conţinute (domeniu de valori al
variabilei);
•  Măsurare − procesul prin care se obţin valorile variabilelor
sau atribuirea de valori caracteristicilor indivizilor potrivit unor
reguli;
•  Cercetare − studiul variabilelor şi a relaţiilor dintre ele.
Variabile
•  Variabilele (caracteristică sau variabilă statistică) - orice
calitate, caracteristica sau constituent al unei persoane sau
lucru, care poate fi măsurat
–  este o proprietate în functie de care se cerceteaza o populatie
statistica şi care, în general poate fi măsurata, avand valori
diferite de la un individ (esantion) la altul
–  calități sau cantități care pot să aibă valori diferite de la un
membru al unui grup (eșantion) la altul.
•  Cercetarea medicala à studiul relaţiilor dintre variabile
•  Cercetătorii din domeniul medical sunt interesaţi de
studierea asociaţiilor, a diferenţelor dintre variabile.
Tipuri de variabile
Ce mai intalnita clasificare:
•  Calitative - apar atunci când indivizii aparțin/pot fi clasificati
in clase separate.
–  Nominale (categoriale)
–  Ordinale
•  Cantitative (numerice) - sunt obținute fie prin numărare fie
sunt rezultatul unei măsurători.
–  De tip interval
–  De tip raport
Tipuri de variabile
•  Calitative - apar atunci când indivizii aparțin/pot fi clasificati
in clase separate.
–  Nominale (categoriale)
•  variabile sub formă de nume sau alte simboluri
reprezentiand categorii ce nu pot fi ordonate una în
raport cu cealalta
– numele, grupa sanguina, sexul, rasa, culoarea
ochilor, diagnosticul etc.
•  variabile dihotomice (binare, bimodale) - variabile ce
nu pot lua decât doua valori
– fumător/nefumător, prezent/absent, normal/
anormal; DA/NU
Tipuri de variabile
•  Calitative - apar atunci când indivizii aparțin/pot fi clasificati
in clase separate.
–  Nominale (categoriale)
–  Ordinale
•  variabile ce sunt clasificate în mai mult de doua
categorii şi la care exista o ordine naturala între
categorii
– evoluţia, stadializări, clasificări, scoruri etc.
» Inaltime: scund, mediu, inalt
» Clasificarea tarilor in functie de populatie: foarte
mari, mari, mici;
Tipuri de variabile
•  Calitative - apar atunci când indivizii aparțin/pot fi clasificati
in clase separate:
–  Nominale (categoriale)
–  Ordinale
•  Cantitative (numerice) - sunt obținute fie prin numărare, fie
sunt rezultatul unei măsurători:
–  Continue
•  variabile cu un număr potenţial infinit de valori de-a lungul unui
continuum
•  înălţimea, greutatea, vârsta, tensiune arteriala etc.
–  Discontinue (discrete)
•  variabile ce pot fi descrise numai prin unităţi întregi ce nu pot fi
măsurate în intervale mai mici decât unitatea (nr. copii, numar
familii dintr-un oras, numar accidente vasculare, etc.)
Tipuri de variabile
•  Variabile cantitative: interval
–  Utilizate pentru a ordona categoriile, cazurile, distantele,
intervalele, fiecare valoare a acestuia fiind egala (similar
unei rigle gradate); utilizam o valoare zero convenţionala
–  La compararea valorilor găsim răspuns la întrebări de
tipul: “Cu cât e mai mare?” sau “Cu cât e mai mică?”
•  ex: longitudinea si latitudine fiecarei
tari sunt variabile interval
•  Obs: valorile variabilelor numerice
nu se codifica; în calitate de “cod”
se ia chiar valoarea variabilei.
Tipuri de variabile
•  Variabile raport - variabile cantitative (numerice); includ o
valoare zero naturala
–  Similar cu variabilele interval, dar au un “zero adevarat”,
care indica inexistenta variabilei
•  ex: populatia (populatia = 0 à extinctie)
varsta (varsta = 0 à nu s-a nascut)
•  Obs: valoarea 0 indica inexistenţa variabilei.
Tipuri de variabile
Clasificarea variabilelor dupa modul de obţinere :
•  Primare − variabile obţinute în etapa de culegere a datelor
(exemplu: vârsta înregistrata pe ani, notele primite la
examenele din sesiune etc.);
•  Derivate (auxiliare) − variabile obţinute în urma procesului
de prelucrare a variabilelor primare (exemplu: vârsta
calculata pe grupe de vârsta, nota medie a fiecarui student
pe sesiune etc.).
Variabile
Types of Data

Qualitative Data Quantitative Data

Nominal Ordinal Discrete Continuous

Interval Ratio
Evaluarea informațiilor (1)
•  Un studiu stiintific necesită o cantitate explicită măsurabilă,
cunoscut ca o variabilă aleatoare (venitul anual, nivelul
colesterolului), pentru populație.
•  Variabilă are o distribuție probabilistica ideală a valorilor în
populație (de ex. o curba normala), care, la rândul său, are
anumite caracteristici - parametri, cum ar fi "centrul" și
"răspândirea".
•  Ipoteză nulă presupune de obicei o valoare numerică fixă ​sau
mai mare, sau mai mica, decat o valoare numerică, pentru un
parametru specific al distribuției
à ex: media IQ-ului in populatia studiata este prognozat la 100
•  Afișarea vizuala, prin oricare metoda a datelor empirice, de
exemplu histogramă
Evaluarea informațiilor (2)
•  “Rezumarea” numerica a datelor, prin intermediul
caracteristicilor esantionului, numite statistici, care
estimează acești parametri, fără erori, obiectiv
à ex. media din esantion a IQ-ului este 117
•  Prin procesul, cunoscut sub numele de inferență statistică,
ipoteza nulă este respinsă sau acceptata, astfel:
–  dacă diferența dintre valorile obtinute din esantion si cea
obtinuta din populatie (117 - 100 = 17) este semnificativă
statistic, la un nivel de semnificație stabilit (ex. 5%),
à este autentica, nu apare din cauze intamplatoare
à se va respinge ipoteza nulă, în favoarea ipotezei
alternative.
–  dacă diferență este nesemnificativa, adică se datorează sigur
întâmplării,
à datele tind să susțină ipoteza nulă.
Evaluarea informațiilor (3)
Decizia ca ipoteza nulă sa fie respinsă sau acceptata este
atinsa prin calculul a trei statistici:
1)  Interval de încredere: statistica observata a esantionului,
plus sau minus o marjă de eroare.
–  Acest interval este construit astfel încât să conțină valoarea
parametrului estimat (100), cu o probabilitate ridicata, de
95% (de exemplu), numit nivel de încredere;

2)  Regiunea de acceptare: valoarea parametrului estimat


(100), plus sau minus, o marjă de eroare.
–  Aceasta este construit pentru a conține statistica esantionului
(117), la un nivel pre-specificat de încredere de 95%;
Evaluarea informațiilor (4)
•  Decizia ca ipoteza nulă sa fie respinsă sau acceptata este
atinsa prin calculul a trei statistici:
3)  valoarea p
–  cu cat este mai mica valoarea p, cu atât mai puțin probabil
este ca datele din eșantion sa susțina ipoteza nulă.
–  această "probabilitate coada" (0% -100%) este în mod
normal calculată folosind o statistică de testare, și se
compară cu nivelul de semnificație pentru a ajunge la o
decizie cu privire la ipoteza nulă.
Evaluarea informațiilor - exemplu
Random Variable: X = IQ score, having an ideal distribution of va

POPULATIE Ipoteza nula (despre unP parametru):


µ = 100

Variabila aleatoare X
X = scorul IQ, cu o distributie ideala,
teoretica a valorilor
X
µP= 100
•  Experiment pentru testarea ipotezei nule: µ = 100
•  Inferenta statistica: experimentul sustine sau
respinge ipoteza nula?
•  Este diferenta semnificativa statistic sau ESANTION
variaza aleator?

Esantion aleator
Observatii ale variabilei X

Analiza: Observat (esantiona) vs


Estimat (in populatie) X
Statistic: Media x = 117
Mean x = 117
Evaluarea informațiilor (5)
•  Formularea unui model matematic pentru o variabila
raspuns din populație (ex. cancer pulmonar), în ceea ce
privește una sau mai multe variabile predictor (ex.
fumatul), cu care are o anumită corelație diferită de zero,
folosind datele din esantion.
•  Regresia poate fi utilizată pentru a calcula un astfel de
model, precum și pentru a testa validitatea acestuia.
Modalitati de evaluare a informațiilor
•  Statistica descriptivă - totalitatea metodelor de culegere,
prezentare şi caracterizare a unui set de date numerice, în
scopul de a descrie diferitele trăsături principale ale acestui
set de date
•  Statistica inferenţială - interpretarea datelor oferite de
statistica descriptiva pentru a formula concluzii si a lua
decizii.
à totalitatea metodelor care fac posibilă estimarea caracteristicilor unei
populaţii sau luarea unor decizii privind o populaţie, pe baza
rezultatelor obţinute pe un eşantion
à folosesc informații dintr-un singur studiu, corelate cu informații
despre variabilitate, pentru a face declarații cu privire la populație/
procesul de interes
Modalitati de evaluare a informațiilor
Inferenta
Statistica
(Statistica Inferentiala)
descriptiva

Esantion

Populatie

Statistica
descriptiva

Parametrii Statistica
Populatiei esantionului
(µ,σ) ( x ,s)
Tipuri de studii in medicina
Aplicatii utilizate in statistica
•  SAS
•  Stata
•  SPSS
•  MSOffice Excel
•  R
•  EpiInfo
•  Minitab
Frecvențe,
distribuții
Notatii
•  n − numarul indivizilor cercetaţi;
•  X − o variabila (caracteristica) studiata;
•  x1, x2,...,xm − valorile variabilei X;
•  n1, n2,...,nm − numărul de indivizi corespunzător
valorilor variabilei (sau care poseda valoarea
respectiva a caracteristicii).
Frecvente
•  Frecvenţa absolută - este numărul indivizilor care aparţin
acelei clase
•  Frecvenţa relativă - se calculează prin împărţirea
frecvenţei absolute la numărul total al indivizilor din
eşantion
•  Frecvenţa procentuala este frecvenţa relativa exprimata
în procente
•  Frecvenţa cumulativa

Funcţii EXCEL: FREQUENCY()


Argumente:
1. Domeniul în care au fost plasate valorile variabilelor (data array);
2. Domeniul în care se trec valorile de separare, în ordine crescătoare
(bins array).
Distribuții de frecvențe
Sursa de referință pentru pacienții dintr-un studiu
psihoterapeutic referitor la consilierea durerii lombare

Sursa de referință (personalul care consiliaza)


à variabilă calitativă nominala
Categoriile (medici, consultanti,...) – sunt valorile
variabilei calitative (sursa de referinta)
Frost H, Lamb SE, Doll HA, Carver PT, Stewart-Brown S. (2004) Randomised controlled trial of
physiotherapy compared with advice for low back pain. British Medical Journal 329, 708-711.
Distribuții de frecvențe

Numărul de persoane care aparțin unei anumite categorii se


numeşte frecvenţă a aceastei categorii.
Proporţia persoanelor care aparțin unei anumite categorii se
numește frecvență relativă sau frecvenţă proporţională.
Ex: Frecvenţa relativă pentru medicii generaliști este de
256/285 = 0.898 sau 89.8%.

Sursa de referință pentru pacienții dintr-un studiu psihotarapeutic


(Frost et al., 2004)
Distribuții de frecvențe

•  Muțimea valorilor frecvenţelor pentru toate


categoriile posibile se numeşte distribuţie de
frecvenţă a variabilei.

Sursa de referință pentru pacienții dintr-un studiu psihotarapeutic


(Frost et al., 2004)
Categorii ordonate
Mobilitatea pacienţilor recrutați în studiul VenUS I
Imobilitate

Categorii ordonate: Mers liber (1) < Mers cu dificultate (2)


Mers cu dificultate (2) < Imobil (3)
Variabilă calitativă ordinala (variabile la care exista o
ordine naturala între categorii)

Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and
short-stretch compression bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91,
1292-1299.
Categorii ordonate
Mobilitatea pacienţilor recrutați în studiul VenUS I

Imobilitate
1
2
3

•  Frecvenţa cumulată pentru o valoare a unei variabile


reprezintă numărul de indivizi care se incadreaza cu
valori mai mici sau egale cu valoarea considerata.
•  Frecvenţa cumulată relativă pentru o valoare este
proporţia de indivizi din eşantion cu valori mai mici sau
egale cu valoarea considerata.
Categorii ordonate
•  Datorita ordonarii categoriilor se poate calcula o frecventa
cumulata.
Imobilitate
1
2
3

(238+142)/383=99.2% à numarul de persoane care pot merge liber


sau cu dificultate
•  Frecventa cumulata crescatoare a unei valori x a variabilei à suma
tuturor frecventelor valorilor care apar pana la x inclusiv
•  Frecventa cumulata descrescatoare a unei valori x a variabilei suma
tuturor frecventelor valorilor care apar de la x inclusiv.
Mobilitatea pacienţilor recrutați în studiul VenUS I
(Nelson et al., 2004)
Variabile cantitative discrete
Numărul de episoade de ulcer venos după debut la
pacienții din studiul VenUS I

Variabila cantitativă
discreta

Valori ale variabilei


! Numărare
! Nu există fracțiuni
Variabile cantitative discrete
Numărul de episoade de ulcer venos după debut la
pacienții din studiul VenUS I

Se poate număra de câte ori apare fiecare valoare pentru


a obține distribuția de frecvență.
•  Multimea frecventelor tuturor valorilor posibile formeaza
o distributiie de frecventa.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de
86 pacienţi cu accident vascular cerebral

Colesterolul seric à
variabilă obținută prin
măsurare
à variabila cantitativa!
à 86 valori!

Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme
gene deletion polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de
86 pacienţi cu accident vascular cerebral

Variabilă obținută
prin măsurare!
à 86 valori!
à Distribuție de
frecvență dificil de
construit!
à Prelucrarea
datelor!

•  Există mai multe valori care apar doar o singură dată


à numărul de apariţii al unei valori nu ajută în acest caz.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de 86 pacienţi
cu accident vascular cerebral.

à Variabilă obținută
prin măsurare
à 86 valori

à  Distribuție de
frecvență dificil de
construit!
à  Intervale

•  Se împarte scala (plaja de valori: 3.7 – 10.4) colesterolului seric în


intervale (clase): 3.0 - 4.0, 4.0 - 5.0, etc...
•  Se numără persoanele care au colesterol seric in fiecare interval (clasa)
à pentru aceste clase se construieste distributia de frecvente
Variabile continue
•  Intervalele (clasele) nu trebuie să se suprapună
à se decide ce interval va conţine punctul de
frontieră pentru a se evita numărarea unei valori
de două ori.
Ø  Conventie: se considera limita inferioară în intervalul la
care ne referim iar limita superioară în intervalul
următor.
–  Ex: intervalul [3.0 - 4.0) à conține 3.0 dar nu conţine 4.0.
Variabile continue
Colesterolul seric (mmol/L):
Variabile continue
Distribuția de frecvență a colesterolul seric (mmol/L):

Distribuția de
frecvență nu
este unică!

•  Distributia de frecventa depinde de lățimea intervalului dar si de


punctul de plecare (limita inferioara a primului interval)
•  Forma distribuției este foarte importantă; contine multe informatii
•  Prezentarea grafică a distribuției de frecvente à histograma
Histograme
Modalitatea cea mai utilizată în descrierea unei distribuții de
frecvență este histograma:
•  A: înălţimea este direct proporțională cu frecvenţa sau numărul de
observaţii care se află în intervalul considerat.
•  B: frecventa relativa à inalltimea e proportionala cu proportia de
observatii din interval B
A
Oy:

Frecvența relativă
Frecvența

Ox:
Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)

Nr. de apariții! Proporții!


à Comparare a distribuțiilor
diferite ca nr de observații!
Histograme
Histograma colesterorului seric, scala de frecvențe
•  Puncte de plecare (limita inferioară a primului interval) și lungimi de
interval diferite à formă oarecum diferită a histogramei (cu aceleasi date)!

Frecvența
Frecvența

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)

Echilibrată! Forme diferite! Intervale mici:


Mai clară! Aceleași date! Fluctuații aleatoare!
•  Latimea intervalului trebuie aleasa astfel incit forma distributiei sa fie clara!
Histograme

Densitate de frecvență
Frecvența

2 4

Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)

Densitatea de frecvență = numarul de observații/unitatea de variabilă


(= frecventa/latimea intervalului)
Densitatea relativa de frecventa = proportia/latimea intervalului
à  frecventa = densitatea de frecventa x latimea intervalului
Ex: pentru intervalul 3.75 - 4.25 mmol/L:
•  lățimea intervalului = 0.5
•  densitatea de frecvență este de 4 observaţii pe mmol/L
à frecvența = 4 × 0.5 =2
Histograme
•  La ce foloseste densitatea de frecventa?
–  Permite folosirea intervalelor de dimensiuni diferite

Distribuția este destul de


Frecvență

neregulată!
à histogramele tind sa fie mai
putin bune in cazul in care am
un numar mic de observatii
à se pot combina intervalele
Presiunea sistolică a sângelui (mm Hg) de la extreme pentru a forma
intervale mai mari (se combina
ultimele 3 intervale)
Histograme
Distribuția
•  Densitatea de frecvență permite neregulată!

Frecvență
netezirea histogramelor.
•  Pe scala frecvențelor, unificarea
intervalelor produce o impresie
greșită!

Presiunea sistolică a sângelui (mm Hg)


Combinarea ultimelor Impresie eronată pe scala
3 intervale frecventelor

Densitate de
frecvență
Frecvență

Presiunea sistolică a sângelui (mm Hg) Presiunea sistolică a sângelui (mm Hg)
Histograme și
alte grafice pentru frecvență
Pentru o variabilă discretă dreptunghiurile (barele)
pot fi separate: discretitudinea

•  O forma usor
modificata a

Frecvența
histogramei pentru
variabile continue
à spatierea dintre
dreptunghiuri
subliniaza
discretitudinea
Numărul de episoade de ulcer venos
Histograme și alte grafice pentru
frecvență
•  Poligonul frecvențelor

Frecvența relativă
Colesterolul seric (mmol/L)

Frecvența relativă
Sănătoși
•  Util în reprezentarea a mai Pacienti sanatosi

mult de o distribuție pe Pacienti cu


Pacienți cu accident
aceleași axe vascularaccident
vascular

Colesterolul seric (mmol/L)


Forma distribuțiilor de frecvență
Modul este valoarea cea mai frecvent întâlnită în distribuţie
–  Ex: val cea mai intilnita este 5.6, frecventa fiind de 7 din 86
valori
Cozile sunt extreme ale distribuţiei unde observaţiile sunt,
de obicei, rare.
Distribuția unimodală este distribuția cu un singur modul.
Modul
Frecvența

Coada
Coada
inferioară
superioară

Interval (clasa) modal(ă)


Colesterolul seric (mmol/L) à (5.0 - 6.0) cu 24 observatii
Forma distribuțiilor de frecvență
•  Părţile histogramei aflate în apropierea extremelor se numesc
cozi ale distribuției.
•  Dacă coada din dreapta este mai lungă decât coada din stanga
atunci distribuţia este asimetrică la dreapta sau pozitiv
asimetrică (A)
•  Dacă coada din stânga este mai lungă decât coada din dreapta
atunci distribuţia este asimetrică la stânga sau negativ
asimetrică (B).
150 B
A

Frecvența
Frecvența
Frequency

100

50

0
0 10 20 30 40 50 60
Episodes since first onset of ulcer Vârsta sarcinii (săptămâni)
Episoade ulceroase de la
declansare
Forma distribuțiilor de frecvență
•  Daca coada din stanga este egala cu cea din dreapta
distributia este simetrica.
•  Majoritatea datelor medicale au distribuții unimodale!
•  Majoritatea datelor medicale urmează o distribuție simetrică
sau pozitiv asimetrică!
•  Distributiile negativ asimetrice sunt mai rare in medicina!
Totusi exista!
80

Frecvența
60

Frequency
40

20

0
130 140 150 160 170 180 190
Height (cm)
Inaltime (cm)
Alte reprezentari grafice pentru
frecvență
•  Variabilă calitativă à diagrama cu dreptunghiuri orizontale
(bare):

3
Frecvența!
Imobil

Mers cu dificultate 142

Mers liber 238

0 50 100 150 200 250


Alte reprezentari grafice pentru
frecvență
Frecvența relativă!

Frecventa Relativa
0.4, 0%
6.3, 6% 3.5, 4%

MG
Consultant
Triaj
CS
89.8, 90%
Alte reprezentari grafice pentru
frecvență
Frecvența cumulativa!
100

Cumulative relative frequency


75

50

25

0
25 35 45 55 65 75
Age (years)

Frecventa cumulativa pe varsta pentru 1357 barbati cu


cancer de plamani
Alte reprezentari grafice pentru
frecvență - “Stem-and-leaf”
G"#;)+ 1* $)E'1-E

HI 6
3 H<>66J
< 333<<<KKK6AJJJ
4 HH<<4>5K6AAJJJ
> H3<444>KK66AAAJJJ
5 33<4>>6A
K H3>5K666J
6 H56
A H<4>>6
J A
Ex. distributia numarului de
3H
cazuri datorate virusului
33 <
smallpox in membrana oului
Alte reprezentari grafice - boxplots
•  Boxplots sunt grafice care prezintă caracteristicile cheie ale
unui set de date
•  Instrumente utile pentru compararea vizuala a datelor ce
provin din multiple esantioane
Total Length of Stay, 2011
Claims With at Least One Inpatient Visit
40
30

(Large)
Outliers
20

Largest non-outlying value


(upper tail)
75th percentile (upper hinge)
10

Median
Interquartile Range (IQR)
0

(50th percentile)
25th percentile (lower hinge)
Smallest non-outlying value (upper tail)
Boxplots
•  Boxplot (box-and-wisker) reprezinta grafic
quartile
•  Elemente:
–  Upper hinge = Q3
–  Lower hinge = Q1
–  IQR = Q3 – Q1 ß contine 50% din observatii
–  Upper fence = Upper hinge + 1.5*IQR
–  Lower fence = Lower hinge – 1.5*IQR
•  Datele din afara “fence” se numesc
“outliers”
EDA (Exploratory Data Analysis)
•  Exemplu: 23, 24, 24, 25, 32, 36, 45, 47, 51, 61, 62, 67,
73, 76, 78, 78
–  Q2 = (47+51)/2 = 49
–  Q1 = (25+32)/2 = 28.5 ß LH
–  Q3 = (67+73)/2 = 70 ß UH
–  IQR = 70 – 28.5 = 41.5
Tehnici de vizualizare: Scatter
Plots
–  Valoarea atributelor determina pozitia intr-un sistem de
coordonate
–  Cel mai des exista 2 axe de reprezentare, reprezentarea in
3 axe fiind folosita doar in cazul prezentarilor interactive
–  Alte atribute pot fi reprezentate prin forma, culoarea sau
dimensiunea asociata punctelor
–  Este utilizata pentru
reprezentarea sumarizata
a relatiilor intre diferitele
perechi de atribute
Exemplu: Scatter Plot Array
Tehnici de vizualizare: Contour
Plots
•  Contour plots
–  Utilizate mai ales atunci cind un atribut continuu este
masurat spatial
–  Impart spatiul in regiuni cu aceeasi valoare (grupa de
valori) a atributului
–  Linia de contur uneste puncte cu valori egale
–  Reprezinta de obicei curbe
de nivel geografic, cantitati
de precipitatie, temperatura, etc.

Celsius
Contour Plot

Celsius
SST Dec, 1998
Bibliografie

•  Clinical Biostatistics, by Martin Bland, University of York


•  Statistical reasoning for Public Health, John McGrady, Johns Hopkins
Bloomberg School of Public Health
•  Introduction to Medical Statistics, John Chen, Stony Brook University
School of Medicine
•  Biostatistica pentru studenti – E Panaitescu, L Iliuta, E Poenaru,
Marius Rac Albu, Editura ‘Carol Davila’, 2013
•  http://en.wikipedia.org/
•  Statistica pe intelesul tuturor – Elena Druica, Editura C.H. Beck, 2011
•  Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
•  www.mste.uiuc.edu/hill/dstat/dstat.html
•  www.stats.gla.ac.uk/steps/glossary/paired_data.htm
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS III

Elena Poenaru MSc, MBA, PhD


Notiuni
•  Statistica descriptiva
•  Scala de masura Z
•  Sintetizarea datelor
cantitative
•  Distributia normala
•  Distributia normala – aplicatii
•  Compararea distributiilor
datelor continue
Statistica
descriptiva
Statistica descriptiva

Date cantitative
Masurarea tendintei centrale (Measures of central
tendency)
•  Medie
•  Mediana
•  Mod
Masurarea variabilitatii (Measures of variability)
•  Deviatia standard (Standard deviation)
•  Varianta (Variance)
•  Amplitudinea (Range)
Alte masuri ale locatiei (Other Measures of Location)
•  Percentile
Statistica descriptiva
Sintetizarea datelor cantitative
•  Modalitati de sinteza prin care datele sa poata fi
mai usor de analizat si interpretat
à Ex: media - sinteza a datelor

OBS:
•  Date calitative – distributii de frecventa sau procente
•  Date cantitative – distributii de frecventa sau histograme
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Modul
Modulul - valoarea cea mai frecventa intalnita in esantion
•  Distributie unimodala (cu un singur mod - A)
•  Distributie multimodala (B)

25 Mode
Mod 60 Mod
A B
20

Frecvența
Mod

Frequency
Frecvența
Frequency

40
15
10 20
Lower Upper
5 tail tail
0
0
50 100 150 200 250
2 3 4 5 6 7 8 9 10 11 Systolic blood pressure (mm Hg)
Serum cholesterol
Colesterolul (mmol/L)
seric (mmol/L) Tensiunea arteriala sistolica (mmHg)
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Mediana

Mediana – valoarea
centrală a distribuţiei
–  este un indicator de tendinta
centrală

Frecvența
–  jumătate dintre observaţii
sunt mai mici sau egale Prima
cuartilă
A treia
cuartilă
Mediana
decât valoarea ei şi
jumătate sunt mai mari sau Colesterolul seric (mmol/L)
egale
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Mediana

•  Numar impar de valori in esantion, aranjate in ordine


crescatoare:

80 90 95 110 120
Mediana

•  Mediana nu e senzitiva la valori extreme


–  Ex: daca 120 devine 200, mediana va fi aceeasi, dar media
se va schimba din 99 mmHg in 115 mmHg
80 90 95 110 200
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Mediana
•  Esantionul cu un numar par de valori, aranjate in ordine
crescatoare :
80 90 95 110 120 125

Mediana
95 + 110
= 102.5 mmHg
2
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Media

Media (media artimetică) à se obține prin însumarea


valorilor tuturor observațiilor și apoi prin împărțirea
sumei la numărul numarul observatiilor
–  Notatie: x

•  Ex: cinci valori ale tensiunii arteriale sistolice (mmHg), n=5


120, 80, 90, 110, 95
x1= 120, x2=80,…..x5=95

120 + 80 + 90 + 110 + 95
x= = 99 mmHg
5
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Media
•  Media - este utilizata atunci când răspândirea datelor este
destul de asemănătoare pe fiecare parte a punctului de
mijloc,
–  de exemplu: datele sunt "distribuite în mod normal”
–  in cazul în care o valoare (sau un număr de valori) este mult mai
mica sau mai mare decât celelalte, asimetrie a datelor, media nu va
da o imagine buna a valorii tipice
•  Formula generalizata:
n

∑x i n
x= i =1

n
∑x
i =1
i = x1 + x 2 + x3 + ....... + x n
Sintetizarea datelor cantitative:
media, mediana si asimetria
•  Dacă distribuția este simetrică media și mediana au
aproximativ aceeași valoare;
•  In cazul unei distribuţii asimetrice media şi mediana
sunt de obicei diferite;
•  In cazul unei distribuţii asimetrică la dreapta, valoarea
mediei va fi de obicei mai mare decât valoarea
medianei,
•  In cazul în care distributia este asimetrică la stânga
valoarea medianei va fi de obicei mai mare decât
valoarea mediei.
–  valorile extreme afectează media și nu mediana.
Sintetizarea datelor cantitative:
media, mediana si asimetria
•  Prin creșterea valorii celor mai mari observații, valoarea
mediei va crește dar mediana nu va fi afectată!
•  Diferenta intre medie si mediana este un indicator al
asimetriei!
Asimetrie spre dreapta!
Frecvența Me (mediana) < M (media)

Media
Mediana

Colesterolul seric (mmol/L)


Sintetizarea datelor cantitative:
media vs mediana
Media Mediana
•  media eșantionului ia in •  mediana este o statistică
calcul toate valorile descriptivă utilă, observatiile
observate, de aceea are extreme avand un efect mic
proprietăți matematice mai (pot fi modificate fara sa fie
utile decât mediana și din afectata mediana)
acest motiv este folosită •  pentru ca poate sa nu fie
adesea în metodele de afectata de valorile extreme
comparație poate prezenta un avantaj
•  media este mai stabila si se
modifica mai putin de la un
esantion la altul fata de
mediana.
Sintetizarea datelor cantitative
Masuri ale tendintei intermediare
Cuantile = un subgrup al unui grup, creat atunci când grupul
este împărţit în părţi egale, ordonate.
–  impărţirea în 100 de părţi egale à centile sau percentile;
–  punctul care delimitează 20% din observaţii reprezinta
centila 20 sau a 20-a percentilă.
–  impărţirea în 4 părţi egale à cuartilele
Sintetizarea datelor cantitative
Masuri ale tendintei intermediare
•  Mediana este cuantila de ordinul 2,
•  Cuartilele sunt cuantilele de ordinul 4,
–  Q1, prima cuartila, este centila 25
–  Q2, mediana, a doua cuartila, sau centila 50
–  Q3, a treia cuartilă este centila 75.
•  Decilele sunt cuantilele de ordinul 10,
•  Centilele sunt cuantilele de ordinul 100
Sintetizarea datelor cantitative
Masuri ale tendintei centrale

•  Cuartile - cele 3 puncte care împart aria de sub curba de


frecvenţe în 4 arii egale (fiecare arie reprezentând 25% din
întreaga arie de sub curbă)
•  Se aplica in cazul unei curbe de frecvenţe, pentru o
distributie a unei variabile continue.
Sintetizarea datelor cantitative:
Masuri ale tendintei centrale
•  Q2 mediana, este un indicator de tendinta centrală
•  Cuartilele Q1 si Q3 sunt indicatori de localizare a unor
tendinţe intermediare
Sintetizarea datelor cantitative

•  Măsuri ale tendinţei centrale, care definesc poziţia


de mijloc a distribuţiei, media şi mediana
•  Măsuri ale împrăștierii datelor, dispersia sau
variabilitatea datelor:
–  Varianta (s2)
–  Abaterea standard sau deviatia standard (s sau SD)
–  Amplitutinea
Sintetizarea datelor cantitative
Variabilitate, tendinte intermediare

•  Amplitudinea este diferenţa dintre cea mai mare şi cea mai


mică valoare.
Amplitudine = valoarea max– valoarea min
•  Ex: 5 valoari are tensiunii sistolice arteriale (mmHg); n=5
120, 80, 90, 110, 95
à Amplitudinea = 120 – 80 = 40 mmHg

•  Amplitudinea depinde de mărimea eşantionului:


- dacă eşantionul este mai mare extremele sunt susceptibile
de a fi departe una de cealaltă
Sintetizarea datelor cantitative
Variabilitate, tendinte intermediare

à Amplitudinea intercuartila
à IQR - Inter-Quartile Range
–  IQR= Q3-Q1
–  IQR – statistica descriptiva, foarte utilizata
à  aplitudinea de 95%: centila 97.5 – centila 2.5
à  include 95% din observatii
à  este necesar un esantion
mare pentru calcul
Sintetizarea datelor cantitative
Variabilitatea
•  În analiza datelor, amplitudinea și amplitudinea intercuartilă
nu sunt suficiente.
•  Alte două măsuri ale variabilității:
–  dispersia sau varianța (s2)
–  abaterea standard (s)
•  Aceste măsuri arată cât de depărtate sunt observaţiile de
centrul distribuţiei.
•  Abaterea standard, (SD - Standard Deviation)
Sintetizarea datelor cantitative:
variabilitatea
Varianta (s2) & Abaterea standard (s sau SD)
•  Varianța sau dispersia (s2) este media aritmetică a pătratelor
diferențelor dintre observații și media lor.
•  Abaterea standard sau deviatia
standard (s sau SD – Standard
Deviation) este rădăcina pătrată din
varianță
•  Deviația standard (s) este folosita
pentru datele care sunt "distribuite
normal”, pentru a furniza informații
cu privire la cat de mult variaza
acestea în jurul mediei distributiei.
Sintetizarea datelor cantitative
Variabilitatea
Varianta (s2) & Abaterea standard (s sau SD)
n
n
∑ (x i − x) 2
∑ i
(x − x ) 2

s2 = i =1
s= i =1

n −1 n −1

Exemplu:
•  n=5 à 120, 80, 90, 110, 95 à 5 valori ale tensiunii sistolice
•  Media:
120 + 80 + 90 + 110 + 95
x= = 99 mmHg
5
Sintetizarea datelor cantitative

à Suma pătratelor diferențelor față de medie este


proporțională cu numărul observațiilor minus unu,
valoare cunoscută sub numele de grade de libertate;
à varianța este estimată ca fiind suma pătratelor
diferențelor față de medie împărțită prin gradele de
libertate.
Sintetizarea datelor cantitative
Variabilitatea
Varianta (s2) & Abaterea standard (s sau SD)

•  n=5 à 120, 80, 90, 110, 95 à 5 valori ale tensiuniix sistolice


•  Media:
120 + 80 + 90 + 110 + 95
x= = 99 mmHg
5
•  Abaterea standard:
5

∑ i
(x
i =1
− x ) 2
= ( 120 − 99 ) 2
+ ( 80 − 99 ) 2
+ ( 90 − 99 ) 2

+ ( 110 − 99 ) 2 + ( 95 − 99 ) 2
5
2 2 2 2 2 2 2
∑ i
(
i=1
x − x) = (21) + ( −19) + ( −9) + (11) + ( −4) = 1020mmHg
Sintetizarea datelor cantitative
Variabilitatea

Varianta (s2) & Abaterea standard (s sau SD)

•  Varianta esantionului
n

2
∑ i
(x − x )2
1020
s = i =1
= = 255 mmHg2
n −1 4
•  Standard deviation (s) a esantionului

2 2
s = 255 mmHg s = 15.97 ≈ 16 (mmHg)
Sintetizarea datelor cantitative:
varianța sau dispersia
•  Cu cat s este mai mare cu atat variabilitatea e mai mare
•  s masoara imprastierea fata de medie
•  s = 0 à nu exista imprastiere
–  toate cele n observatii au aceeasi valoare
•  Unitatea de masura pentru s este aceeasi cu cea a datelor
(ex, mm Hg)
•  s2 este cea mai buna estimare dintr-un esantion a variantei
din populatie, σ2;
•  s este cea mai buna estimare dintr-un esantion a deviatiei
standard a populatiei, σ
Compararea distributiilor datelor continue

•  Frecvent, in medicina, cercetatorii sunt interesati in


compararea a doua (sau mai multe) populatii:
–  prin compararea datelor colectate din esantioane care
provin din aceste populatii de interes;
•  Astfel de comparatii pot fi utilizate pentru a raspunde la
intrebari:
–  Cum poate sa difere modificarea greutatii intre grupurile
care urmeaza o dieta cu grasimi scazute si cei care
urmeaza o dieta scazuta in carbohidrati?
–  Cum variaza nivelul colesterolului in functie de diferite
categorii de greutate?
Compararea distributiilor datelor continue

•  În timp ce distribuțiile de date continue pot fi realizate prin


compararea eșantioanelor în mai multe moduri, unele
abordări cheie includ:
–  comparații vizuale, cum ar fi boxplots
–  comparații numerice, în principal, diferențe intre mediile
oricaror grupuri provenind din două eșantioane
•  Teoretic, aceste rezultate pot proveni din:
–  Diferente intre mediane, rapoarte ale mediilor, rapoarte ale
deviatiilor standard, etc.
•  Cele mai uzuale sunt diferentele intre mediile esantioanelor
•  Atunci când se compară distribuțiile de eșantioane acest lucru
poate fi o măsură rezonabilă a diferențelor globale din aceste
distribuții (ca o estimare a diferenței dintre distribuțiile populației)
Compararea distributiilor datelor continue
•  Comparații numerice, diferențe intre mediile oricaror grupuri
provenind din două eșantioane
Ex: Greutatea dupa Sex
(Nepali Children – Histogram)
xbaieti − x fetite = 7.4 kg-6.7 kg = 0.7 kg

x fetite − xbaieti = 6.7 kg-7.4 kg = -0.7 kg


à In medie baietii Weight At 12 Months, Nepal
cantaresc la Male

30
nastere mai mult cu xbaieti = 7.4 kg

20
0.7 Kg fata de fetite

10
SAU Percent

0
à fetitele cantaresc Weight At 12 Months, Nepal
Female
la nastere mai putin
30

cu 0.7 Kg fata de x fetite = 6.7 kg


20

baieti
10
0

2 4 6 8 10
Weight (kg)
Graphs by sex
Comparatii vizuale - Boxplots
•  Boxplots sunt instrumente utile pentru compararea vizuala a
datelor ce provin din multiple esantioane

Total Length of Stay, 2011


40
30 Claims With at Least One Inpatient Visit

(Large)
Outliers
20

Largest non-outlying value


(upper tail)
75th percentile (upper hinge)
10

Median
Interquartile Range (IQR)
0

(50th percentile)
25th percentile (lower hinge)
Smallest non-outlying value (upper tail)
Boxplots
•  Capetele box-ului sunt Q1 si Q3 ale esantionului à IQR
•  Mediana
•  Liniile din exteriorul box-ului ("mustati")
à (Q1 - 1.5IQR, Q3 + 1.5IQR).

•  Punctele din intervalul

200
(Q1 - 3IQR, Q1 - 1.5IQR)

190
à extreme negative,
•  Puncte din intervalul
Height

180
(Q3 + 1.5IQR, Q3 + 3IQR) 170

à extreme pozitive.
•  Punctele situate în afara
160

intervalului
(Q1 - 3IQR, Q3 + 3IQR) sunt
considerate a fi extreme.
Boxplots
Weight By Sex,Nepal
Random Sample of 239 Twelve-Month Old Children
12
10
Weight (kg)

8
6
4

Male Female
Concluzii:

•  Statisticile de sinteză, care pot fi calculate pe un eșantion de


date continue, includ media, mediana (percentila 50), abaterea
standard), IQR, precum și alte percentile utile;
•  Aceste estimări provenind din eșantion sunt cele mai bune
estimări ale cantităților necunoscute, subliniind caracteristicile
populației
–  x este cea mai buna estimarea a mediei din populatie (µ)
–  s (SD) este cea mai buna estimare a abaterii pentru
abaterea standard a populatiei (σ)
Concluzii:
Inferenta
Statistica
(Statistica Inferentiala)
descriptiva

Esantion

Populatie

Statistica
descriptiva

Parametrii Statistica
Populatiei esantionului
(µ,σ) ( x ,s)
Distributii de frecventa
Scala Z
Date, variabile, informatii
Clasificarea variabilelor statistice

Types of Data

Qualitative Data Quantitative Data

Nominal Ordinal Discrete Continuous

Interval Ratio
Scale de masura
Scale de masura:
–  Scala interval: pentru masurarea variabilelor cantitative
continue (valorile temperaturii exprimate în grade Celsius);
•  Scale diferite, ambele pentru temperatura; F° poate fi
convertit in C° si invers
–  Scala discreta: pentru masurarea variabilelor cantitative
discrete (numarul de operatii)
–  Scala nominala: pentru masurarea variabilelor calitative
nominale (gen: masculin, feminin; rasa: alba, neagra,
galbena, alta)
–  Scala ordinala: pentru masurarea variabilelor calitative
ordinale (starea de sanatate: slaba, medie, buna; scor
Apgar)
Scale de masura

•  Scale de masura:
–  temperatura in grade Fahrenheit si in Celsius
–  scale diferite, ambele pentru temperatura
•  F° poate fi convertit in C° si invers
•  In statistica exista o scala standard – Scala Z
–  Orice scor din orice scala poate fi convertit intr-un scor pe
scala Z si acesta va fi scorul Z
à Scala Z permite o comunicare eficienta si rezultatele sunt
usor de interpretat
Scorul Z
Conversia in scor Z:
•  Z = (X – M) / SD
–  X – scor pe scala originala (raw score)
–  M – media (mean)
–  SD – deviatia standard (standard deviation)

•  Z = (X – M) / SD
–  X=Media à Scorul Z = 0
–  Scor Z pozitiv à scorul Z este peste medie
–  Scor Z negativ à scorul Z este sub medie
Scorul Z
Scorul Z
•  Consider un individ (ales aleator) cu temperatura
99.6 F°
•  Presupun M = 98.6, SD = 0.5

•  Conversia din X (F°) in Z:


• Z = (X – M) / SD
• Z = (99.6 – 98.6) / 0.5 = 2
•Z=2
Sumar

•  Scala Z este scala standard in statistica


•  Orice scor poatt fi convertite in scorur pe scala Z
•  Scorurile Z pot fi utilizate pentru a calcula cuantile
•  Scor initial à Scor Z à cuantila
•  Datele pot fi comunicate intre diverse studii
•  Daca toate datele se raporteaza la scala Z se pot
face usor interpretari
Distribuția
normala
§ P·
 ¨ ¸
© V ¹ S
f f
SV

Distributia normala
f
´

f

Johann Carl Friedrich Gauss


(1777 - 1855)

V
•  Distributia normala este o distribuție de probabilitate
à perfect simetrică în jurul mediei sale, a medianei
teoretică, P V și
a modului § P·
 ¨ ¸
© V ¹ S
P f f
SV

Total Area f
f ´

= ´
¶f (x) dx = 1 f
f
V

V
V
Distribuția normală
•  Distribuţia normală nu este o singura distribuţie ci o întreagă familie
de distribuţii!
•  Un anumit membru al acestei familii este definit prin două numere
numite parametri: media (µ) şi abaterea standard (σ).
•  Parametrul este un termen matematic, un număr care defineşte un
membru al unei anumite clase.
–  cei doi parametri, µ si σ identifică membrul familiei distribuției normale.
Distribuția normală

•  Cei doi parametri µ (media) si σ (abaterea standard)


identifică membrul familiei distribuției normale

Distribuțiile sunt
recvență relativă

aceleași în
Densitate f

termenii abaterii
standard față de
medie!
Var =1 pentru
ambele curbe

Variabilă normală
Distribuția normală
•  Un anumit membru al acestei familii este definit prin două
numere, parametri: media (µ) şi abaterea standard (σ).
•  Asimetrie (Skewness) - indicator folosit in analiza distributiei
unei serii de date pentru a indica deviatia distributiei empirice
in raport cu o distributie simetrica in jurul mediei.
–  Skewness > 0 - distributia este concentrata spre stanga, avand mai
multe valori extreme spre dreapta.
–  Skewness < 0 - distributia este concentrata spre dreapta, avand mai
multe valori extreme spre stanga.
–  Skewness = 0 - media = mediana, distributia este simetrica in jurul
mediei.
Distribuția normală
•  Un anumit membru al acestei familii este definit prin două
numere, parametri: media (µ) şi abaterea standard (σ).
•  Aplatizare (kurtosis) - indicator folosit in analiza distributiei
unei serii de date pentru a indica gradul de aplatizare sau de
ascutire a unei distributii.
–  Kurtosis > 3 - distributie leptokurtica, mai ascutita decat o distibutie
normala; avand mai multe valori concentrate in jurul mediei si cozi mai
groase ceeea ce inseamna probabilitati ridicate pentru valorile
extreme.
–  Kurtosis < 3 - distributie platikurtica, mai plata decat o distibutie normal
avand valori dispersate pe un interval mai mare in jurul mediei.
Probabilitatea pentru valori extreme este mai mica decat in cazul unei
distributii normale.
–  Kurtosis = 3 - distributie mezokurtica - exemplu distributia normala.
Distributia normala
•  Toate distributiile normale, indiferent de valorile mediei si
ale abaterii standard au aceleasi proprietati:
–  Media = mediana = modul
–  Valorile sunt distribuite simetric in jurul mediei
–  Valorile apropiate de medie sunt mai frecvente decat
cele indepartate de aceasta
X ~ N( µ, σ2)
50% 50%

µ- 2σ µ- σ µ µ+ σ µ+ 2σ
Distributia normala standard
Distribuție de referință à distribuția normală standard
frecvență relativă
Densitate

Distribuție normală standard


à media µ = 0 și SD (σ) = 1

Variabilă normală

( x − µ )2
à Ecuatia distributiei normale
1 − da densitatea frecventei relative
f ( x) = e 2σ 2
σ 2π pentru fiecare valoare a variabilei
Distribuția normală
Multe metode statistice sunt valabile numai dacă se poate
presupune că datele urmează o distribuţie normală
à o distribuție continuă, simetrică și unimodală
Densitate de frecvență

Înălțimi ale femeilor cu


ulcere venoase în
relativă

studiul VenUS I.

Distribuția normală!

Înălțimea (g)
Distribuția normală
•  Distribuția normală este o distribuție de probabilitate teoretică:

ve Z=(X- µ)/ σ .
µ- 2σ µ- σ µ µ+ σ µ+ 2σ X
Distributia Normala

The curve is al-


The area under the ways divided into
Aria de sub curba Curba este
curve is always re- 2 equal parts of
este 1 impartita de
garded as being 1. 0.5 each. The left
medie
side is in doua
negative
and parti
the egale
right is
positive.
P V
r
r
VV
r Vr V r rVV

ing to the tabulated


tabulated standard normal
X  P P
ula Z = .e., X P
= P +V
ZV .
V, i
V

P V d d P V
Distribuția normală
•  De unde vine aceasta regula?
•  Care sunt procentele sub
curba pentru alte abateri
standard de la medie?

•  Intrările în acest tabel dau


aria de sub curba, între
medie și z (deviația
standard peste medie)
Ex: z = 1.25 à aria de
sub curba dintre medie și
z este 0.3944
Distribuția normală
•  Multe variabile din medicina au distributie normala
•  Esantionele mari au in general distributie normala
•  Exista tabele cu valorile distributiei normale standard
pentru a putea calcula frecvenţa între două valori alese ale
variabilei
–  s-au dezvoltat mai multe metode numerice de calcul, cu
o precizie acceptabilă, folosite în obținerea de tabele
extinse de valori ale distribuţiei normale.
•  Software-ul de calcul statistic are implementate metodele
numerice de calcul a frecvenţelor pentru distribuția normală
și pentru alte distribuții cunoscute.
Distribuția normală
•  SD indică cât de mult un set de valori este răspândit în jurul
mediei.
•  ± 1 SD (sub și peste mediei) include 68,2% din valorile
esantionului
± 2 SD include 95,4% 14
din date. 12

•  ± 3 SD include 99,7%. 10
Number of patients
8

6
±1 SD (68.2%)
4

2
±2 SD (95.4%)
±3 SD (99.7%)
0
60 65 70 75 80 85 90 95 100
Weight (kg)
Distribuția normală
Regula distributiei normale:
68-95-99.7
m-3s m-2s m-s m m+s m+2s m+3s

•  68% din observatii cad intr-o


adatere standard fata de
medie sau 68% din
observațiile dintr-o distribuție
normală se află în intervalul
(µ-σ, µ+σ) m-3s m-2s m-s m m+s m+2s m+3s

•  95% dintre observațiile se


încadrează in doua adateri
standard fata de medie
•  99.7% dintre observațiile se
încadrează in trei adateri m-3s m-2s m-s m m+s m+2s m+3s

standard fata de medie


r V
r V r V
Distributia normala - aplicatii
r V
ing to the tabulated
Exemplu:
r V XPr V
ula Z = , i
V
P V După procesarea rezultatelor
unui chestionar am găsit
tabulated standard normal răspunsul la întrebarea 1 (total
P
.e., X = P + ZV P  V d d P V dezacord =1 pana la total de
V
. acord = 9) avand o distribuție
normală, cu o medie de 3,47 și
 d d o deviație standard de 2,05.
P V d d P V ◊ Vrem să stabilim
d  d
 d d probabilitatea unui scor de 8
•  Z = 2.21 unitati ale abaterii sau mai mare provenind dintr-o
d standard
 d pestemedie astfel de distribuție.
◊ În cazul în care tabelele
•  reprezintă probabilitatea ca un scor Z sa
P V  fie mai mic decât 2,21 deviații standard tradiționale vor fi utilizate,
atunci primul pas este de a
peste medie. standardiza scorul 8 în termeni
•  2.21 este numit uneori valoarea de abateri standard de la
standardizată a lui 8 în termenii
P V d d P V
distributiei de date, în care media este
medie.

P  V d 3.47 d șiP deviația


V standard este 2.05.
 d d
 d d
Distributia normala - aplicatii
•  Aria de sub curbă la stânga
scorului Z, Z < 2.21,

r V reprezintă probabilitatea ca
r V o valoare sa fi mai mică
r V r V decat 8 (există o
r V r V probabilitate ridicată)
•  Aria de sub curbă la dreapta
scorului Z (> 2.21)
ing to thetabulated
tabulated
standard normal reprezintă probabilitatea ca
X P P o valoare sa fie mai mare
ula Z = i X = P +PZV . V
,.e.,
VV
decat 8 (există o
probabilitate mică)
•  Cu ajutorul curbei normale aflam care este probabilitatea
unui scorP Z VfieVdmai
Psa Pd de
d dmare P V2,21
V
•  Valoarea ariei din tabel pentru Z=2.21 este 0.9864;
  d d d pentru
reprezintă probabilitatea d un scor Z sa fie mai mic
decât 2,21 d deviațiistandard
d peste medie.
d  d

Distributia Standard Normala

Tabelele distribuției
standard normale
(Z- tables) prezintă
probabilități mai mici
decat un scor Z dat

Aria alba are o


Aria gri are o
probabilitate de
probabilitate
0.9864
de 0.014
Distributia Standard Normala
Functia
=normdist(x,mean,standard_dev,cumulative)
x – X score
Cumulative:
TRUE = Cumulative Normal Distribution Function
FALSE = Normal Probability Density Function

Aria alba are o


Aria gri are o
probabilitate de
probabilitate de
0.9864
0.014
P V
Distributia Standard Normala
Ex: Considerand exemplul anterior, care este probabilitatea
obtinerii unui scorPmai mare de 7, cand media este 3.47 si SD este
r V
2.05?
ing to =the
=norm.dist(x,mean,standard_dev,cumulative)=(7,3.47,2.05,1) tabulated
0.957461
7à Z= 1.72 Unitati ale Deviatiei Standard XP
P(Z>1.72)=1−.957461=.0427 ula Z = V , i
à 4.27% probabilitatea ca scorul sa fie mai mare decat 7
=normdist(C2,C3,C4,C5)
where C2
C3
C4
= X-score (observed Value)
= Mean to be tested against,
= Standard deviation
P V
C5 = Indicator point to use the probabil-
ity density function. TRUE indicates
the area under curve and FALSE in-
dicates the ordinate 35. 

probabilitate probabilitate
Rezultatul 0.957461da probabilitatea ca d
de 0.9574 de 0.0427 scorul sa fie mai mic decat 7
à probabilitatea ca scorul X sa fie mai
mare sau egal cu 7: 
à 1 - 0.957461=0.0427 or 4.27%.
Distributia Standard Normala

Ex: Care este probabilitatea ca unele persoane sa aiba un IQ


peste 135, cand media IQ-ului este 100 si SD este 15?

=norm.dist(x,mean,standard_dev,cumulative) = (135,100,15,1)
=.990185 à 99% este probabilitatea ca cineva sa aiba
IQ ≤135,
sau probabilitatea ca cineva sa aiba un
IQ > 135 à ~1% (1-.990185)

Pentru a calcula probabilitatea ca cineva sa aiba un IQ=135:


=NORM.DIST(135,100,15,0) = .001748
à 0.1748 à 0.17% vor avea IQ 135
Distribuția normală

•  Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente,


se considera ca are o distributie normala cu medie 65 pg/ml și
abaterea standard de 12,5 pg/ml.
A) Ce procent al adolescentelor vor avea un nivel mai mare de 65 pg/ml?
B) Ce procent au sub 65 pg/ml?
C) Ce procent au între 40 pg/ml și 90 pg / ml?

50% 50%

µ=65 pg/ml
Distribuția normală
•  Aria de sub curba pentru distributia normala este 1!

0.3173 0.3173
2 2

0.6827

-1 µ=0 1

0.3173 0.3173
2 2

ve Z=(X- µ)/ σ .
-1 µ=0 1 Z
Distribuția normală
•  Distribuția normală este o distribuție de probabilitate teoretică:

Z 0.00 0.01 0.02 . . . 0.09


.0 1.000 .9920 .9840 . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
.9 .3681 .3628 .3576 . . . .
1.0 .3173 .3125 .3077 . . . .
1.1 .2713 .2670 .2627 . . . .
. . . . . . . .

ve Z=(X- µ)/ σ .
Distribuția normală

ve Z=(X- µ)/ σ .
-2 µ=0 2 Z

Z 0.00 0.01 0.02 . . . 0.09


.0 1.000 .9920 .9840 . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
1.9 .0574 .0561 .0549 . . . .
2.0 .0455 .0444 .0434 . . . .
2.1 .0357 .0349 .0340 . . . .
. . . . . . . .
. . . . . . . .
Distribuția normală

ve Z=(X- µ)/ σ .
-2 µ=0 2 Z

0.9545

0.0455
0.0455
2
2

-2 µ=0 2
Distribuția normală
•  Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente
se considera ca are o distributie normala cu medie 65 pg/ml
și abaterea standard de 12,5 pg/ml.
C) Ce procent au între 40 pg/ml și 90 pg/ml?

40 - 65 90 - 65
Z1 = = -2 Z2 = = 2
12.5 12.5

40 65 90 -2 0 2
Distribuția normală
Exemplu:
•  Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente
se considera ca are o distributie normala cu medie 65 pg/ml
și abaterea standard de 12,5 pg/ml.
C) Ce procent sunt între 40 pg/ml și 90 pg / ml?

Z 0.00 0.01 0.02 . . . 0.09


.0 1.000 .9920 .9840 . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
1.9 .0574 .0561 .0549 . . . .
2.0 .0455 .0444 .0434 . . . .
2.1 .0357 .0349 .0340 . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Distribuția normală
Exemplu:
•  Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente
se considera ca are o distributie normala cu medie 65 pg/ml
și abaterea standard de 12,5 pg/ml.
C) Ce procent sunt între 40 pg/ml și 90 pg / ml?
0pg/ml ? 40 - 65 90 - 65
Z1 = = -2 Z2 = = 2
12.5 12.5

0.9544

0.0455 0.0455
2 2
= 0.0227 = 0.0227

40 65 90 -2 0 2
Distribuția normală
Regula distributiei normale
standard: 68-95-99.7
m-3s m-2s m-s m m+s m+2s m+3s

•  68% din observatii cad intr-o


adatere standard fata de
medie
•  95% dintre observațiile se
încadrează in doua adateri
m-3s m-2s m-s m m+s m+2s m+3s

standard fata de medie


•  99.7% dintre observațiile se
încadrează in trei adateri
standard fata de medie

m-3s m-2s m-s m m+s m+2s m+3s


Distribuția normală - sintetizarea datelor
cantitative
Înălțime: s = 49.7 = 7.04 cm Distribuție simetrică!
media= 162.2 cm
mediana= 162.6 cm
(m-2s, m+2s):
(148.1, 176.3)
Frecvența

Centila 97.5: 176.3


Centila 2.5: 148.1

Media-2s Media Media+2s


Media-s Media+s 95% din observatii intre
148.1 cm si 176.3 cm
Înălțimea (cm)

àMajoritatea observaţiilor, 65% (~ 2/3 sau mai mult), se


află la o SD față de medie (media ± SD);
à aproape toate observatiile se încadrează în aproximativ
~ 95% (media ± 2SD)
Distribuția normală - sintetizarea datelor
cantitative
Colesterol: s = 1.96= 1.40 mmol/L.
Distribuție usor pozitiv
asimetrică!
Frecvența

media= 6.34
mediana= 6.15
à 4,5 valori în afara
Media-2s Media Media+2s
intervalului (m-2s, m+2s)
Media-s Media+s

Colesterolul seric (mmol/L)

•  Majoritatea observaţiilor (~2/3) se află la o SD față de medie.


•  Aproape toate observatiile 95%, se încadrează în
aproximativ 2SD fata de medie (media ± 2SD)
•  Observatiile din afara celor 95% pot fi doar intr-o coada a
distributiei
Distribuția normală - sintetizarea datelor
cantitative
Durata ulcerului venos: s = 189.3 = 13.8 luni
Distribuție foarte asimetrică!
Asimetrie spre dreapta
Frecvența

(pozitiv asimetrică)
media= 9.4
mediana= 3
Media-2s Media Media+2s 7% valori mai mari decât m+2s!
Media-s Media+s

Durata ulcerului (luni)

à  Majoritatea observaţiilor, 87% se află la o SD față de medie.


à  7% din valori se afla la mai mult de 2SD fata de medie
à  Aproape toate se încadrează în aproximativ 2xSD față de medie
(~ 95%)
à  Observatiilor din afară 2SD se pot afla toate spre unul dintre capetele
distribuției (spre dreapta in exemplul de mai sus)
Distribuția normală - sintetizarea datelor
cantitative
Vârsta sarcinii: s = 5.242 = 2.29 săptămâni

Distribuție asimetrică!
(negativ asimetrică)
Frecvența

media= 38.5
mediana= 39
2 valori din 1749 (0.1%) mai
mari decât m+2s!
Media-2 62 valori din 1749 (3.5%) mai
Media Media+2s
s
Media+s
mici decât m-2s!
Media-s

Vârsta sarcinii (săptămâni)

à  Majoritatea observaţiilor (~ 2/3) se află la o SD față de medie.


à  Aproape toate, 95%, se încadrează în aproximativ 2xSD față de medie
à  Restul observatiilor din afară 2SD se pot afla toate spre unul dintre
capetele distribuției (ex. 2 valori din 1749 sunt mai mari de 2SD si 62
sunt mai mici, in stinga)
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției !
normale cand datele nu respecta distributia normala?

•  Distribuția normală este o distribuție de probabilitate teoretică;


Ex: pentru o distributie normala adevarata cozile merg la infinit atat
negativ cat si pozitiv
•  Unele distributii de date sunt aproximate destul de bine pe
baza distributiei normale à se utilizeaza proprietatile curbei
normale pentru a caracteriza distributia datelor analizate
•  DAR: multe distributii de date nu se pot aproxima cu o
distributie normala à utilizand proprietatile curbei normale
pentru a caracteriza distributia de date se vor obtine rezultate
incorecte!
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției
!
normale cand datele nu respecta distributia normala?

•  Exemplu: Solicitarile de spitalizare la Heritage Health cu o


durata de spitalizare de cel puțin o zi, în 2011:
Estimare µ: x = 4.3 zile
Estimare σ: s = 4.9 zile
Total Length of Stay, 2011
Claims With At Least One Inpatient Visit

40
2.5: x − 2 s = 4.3- 2×4.9 = -5.5 zile

30
97.5: x + 2 s = 4.3 +(2×4.9) = 14.1
20
10
0

0 10 20 30 40
Length of Stay (Days)
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției !
normale cand datele nu respecta distributia normala?
•  Utilizand media esantionului si abaterea standard,
presupunand o distributie normala obtinem percentilele de
2.5 si 97.5 astfel
2.5: = -5.5 zile
97.5: = 14.1 zile
•  Pentru acest esantion se estimeaza ca 95% din persoanele
care au facut cereri pentru aceasta clinica au o durata de
spitalizare intre -5.5 and 14.1 zile in 2011
à folosind distributia normala à valori incorecte !
•  Obs: valorile empirice pentru percentilele 2.5 si 97.5 a celor
12,298 valori din esantion sunt de 1 zi si respectiv 20 zile
?
Distribuția normală !
Ce se intimpla daca se aplica principiile distribuției
normale cand datele nu respecta distributia normala?
•  Să presupunem că sunt utilizate aceste date pentru a estima
proporția populației cu cereri de spitalizare cu o durata peste 5
zile.
•  Dacă se transforma aceasta masura de 5 zile in unități ale
deviației standard (pentru acest esantion) peste medie à se
calculeaza scorul z:

x = 4.3 zile s = 4.9 zile

val.obs. − medie (5.0 − 4.3)zile 0.7zile


= = ≈ 0.14SD
SD 4.9zile / SD 4.9zile / SD
à Probabilitatea ca observatiile sa fie peste medie cu 0.14 SD,
in cazul unei distributii normale, este de 0.44 sau 44%.
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției
!
normale cand datele nu respecta distributia normala?
•  Cu toate acestea, dacă ne uităm la unele percentile ale
esantionului de date:

Percentile Valori
2.5 1 zi
10 1 zi Total Length of Stay, 2011
Claims With At Least One Inpatient Visit
25 1 zi

40
50 2 zile
75 5 zile

30
90 10 zile

20
97.5 20 zile
10
0

0 10 20 30 40
Length of Stay (Days)
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției
!
normale cand datele nu respecta distributia normala?

•  Pentru mai multa claritate


adaugam percentilele 60, 70 si 80: •  Pe baza acestor
analize, estimăm că
Percentile Valori aproximativ 25%
2.5 1 zi
dintre cereri au avut o
10 1 zi
25 1 zi
durata de peste 5 zile
50 2 zile •  Acest procent este
60 4 zile mult mai mic decât
70 4 zile estimarea de 44%
75 5 zile obtinuta folosind
80 6 zile media și abaterea
90 10 zile
standard pentru a
97.5 20 zile
calcula scorul z
Distribuția normală
Rezumat

•  Media esantionului și deviația standard ( x and s ) estimate,


sunt folosite pentru:
à Estimarea probabilitatii ca o observatie sa se încadreze
într-un anumit interval de valori
à Cât de departe se afla orice punct fata de media
distributiei în unitati standardizate (calcularea scorului z)
à Convertirea scorurilor z la proporțiile relative/
probabilități (percentile) pentru valori care au o
distribuție normală (aproximativ)
Bibliografie
•  Clinical Biostatistics, by Martin Bland, University of York
•  Statistical reasoning for Public Health, John McGrady,
Johns Hopkins Bloomberg School of Public Health
•  Introduction to Medical Statistics, John Chen, Stony Brook
University School of Medicine
•  Biostatistica pentru studenti – E Panaitescu, L Iliuta,
E Poenaru, Marius Rac Albu, Editura ‘Carol Davila’, 2013
•  http://en.wikipedia.org/
•  Johnson Robert, Elementary Statistics, Duxbury Press,
1984, Boston
•  www.mste.uiuc.edu/hill/dstat/dstat.html
•  www.stats.gla.ac.uk/steps/glossary/paired_data.htm
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS III

Elena Poenaru MSc, MBA, PhD


Notiuni
•  Statistica descriptiva
•  Sintetizarea datelor
cantitative
•  Distributia normala
•  Distributia normala – aplicatii
•  Compararea distributiilor
datelor continue
Distribuția
normala
Distribuția normală
•  Un anumit membru al acestei familii este definit prin două numere
numite parametri: media (µ) şi abaterea standard (σ).
Distribuția normală

•  Asimetrie - indicator folosit in analiza distributiei unei


serii de date pentru a indica deviatia distributiei empirice
in raport cu o distributie simetrica in jurul mediei.
•  Aplatizare (kurtosis) - indicator folosit in analiza
distributiei unei serii de date pentru a indica gradul de
aplatizare sau de ascutire a unei distributii.
Distributia normala
•  Toate distributiile normale, indiferent de valorile mediei si
ale abaterii standard au aceleasi proprietati

X ~ N( µ, σ2)
50% 50%

µ- 2σ µ- σ µ µ+ σ µ+ 2σ
Distributia normala standard
Distribuție de referință à distribuția normală standard
frecvență relativă
Densitate

Distribuție normală standard


à media µ = 0 și SD (σ) = 1

Variabilă normală

( x − µ )2
à Ecuatia distributiei normale
1 − da densitatea frecventei relative
f ( x) = e 2σ 2
σ 2π pentru fiecare valoare a variabilei
Distribuția normală
Multe metode statistice sunt valabile numai dacă se poate
presupune că datele urmează o distribuţie normală
à o distribuție continuă, simetrică și unimodală
Densitate de frecvență

Înălțimi ale femeilor cu


ulcere venoase în
relativă

studiul VenUS I.

Distribuția normală!

Înălțimea (g)
Distribuția normală
•  Distribuția normală este o distribuție de probabilitate teoretică

µ- 2σ µ- σ µ µ+ σ µ+ 2σ X

ve Z=(X- µ)/ σ .
Distribuția normală
Distribuția normală
•  Multe variabile din medicina au distributie normala
•  Esantionele mari au in general distributie normala

14

12

10
Number of patients

6
±1 SD (68.2%)
4

2
±2 SD (95.4%)
±3 SD (99.7%)
0
60 65 70 75 80 85 90 95 100
Weight (kg)
Distributia Standard Normala
Functia
=normdist(x,mean,standard_dev,cumulative)
x – X score
Cumulative:
TRUE = Cumulative Normal Distribution Function
FALSE = Normal Probability Density Function
Distributia Standard Normala
Ex: Considerand exemplul
=norm.dist(x,mean,standard_dev,cumulative)=(7,3.47,2.05,1)
= 0.957461

P(Z>1.72)=1−.957461=.0427 à 4.27%
Distribuția normală

•  Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente,


se considera ca are o distributie normala cu medie 65 pg/ml și
abaterea standard de 12,5 pg/ml.
A) Ce procent al adolescentelor vor avea un nivel mai mare de 65 pg/ml?
B) Ce procent au sub 65 pg/ml?
C) Ce procent au între 40 pg/ml și 90 pg / ml?

50% 50%

µ=65 pg/ml
Distribuția normală
•  Distribuția normală este o distribuție de probabilitate teoretică:

Z 0.00 0.01 0.02 . . . 0.09


.0 1.000 .9920 .9840 . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
.9 .3681 .3628 .3576 . . . .
1.0 .3173 .3125 .3077 . . . .
1.1 .2713 .2670 .2627 . . . .
. . . . . . . .
Distribuția normală

0.9545

0.0455
0.0455
2
2

-2 µ=0 2
Distribuția normală
Exemplu:
•  Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente
se considera ca are o distributie normala cu medie 65 pg/ml
și abaterea standard de 12,5 pg/ml.
C) Ce procent sunt între 40 pg/ml și 90 pg / ml?

Z 0.00 0.01 0.02 . . . 0.09


.0 1.000 .9920 .9840 . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
1.9 .0574 .0561 .0549 . . . .
2.0 .0455 .0444 .0434 . . . .
2.1 .0357 .0349 .0340 . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Distribuția normală

•  Distribuția normală este o distribuție de


probabilitate teoretică
•  Distribuțiile unor date vor fi bine aproximate de o
distribuție normală
Distribuția normală
Distribuţia normală este importantă pentru ca:
1.  Multe variabile naturale sunt foarte apropiate
sau destul de apropiate de această distribuție,
ceea ce ne permite utilizarea în analiza lor a
metodelor statistice adecvate distribuției
normale.
2.  Teorema limită centrală
Distribuția normală - sintetizarea datelor
cantitative
s = 49.7
Distribuție simetrică!
media= 162.2 cm
mediana= 162.6 cm
(m-2s, m+2s):
(148.1, 176.3)
Frecvența

Centila 97.5: 176.3


Centila 2.5: 148.1

Media-2s Media Media+2s


Media-s Media+s 95% din observatii intre
148.1 cm si 176.3 cm
Înălțimea (cm)
Distribuția normală - sintetizarea datelor
cantitative

Colesterol: s = 1.96= 1.40 mmol/L.


Distribuție usor pozitiv
asimetrică!
Frecvența

media= 6.34
mediana= 6.15

Media-2s Media Media+2s


Media-s Media+s

Colesterolul seric (mmol/L)

•  Majoritatea observaţiilor (~2/3) se află la o SD față de medie.


Distribuția normală - sintetizarea datelor
cantitative

Durata ulcerului venos: s = 189.3 = 13.8 luni


Distribuție foarte asimetrică!
Frecvența

media= 9.4
mediana= 3

Media-2s Media Media+2s


Media-s Media+s

Durata ulcerului (luni)

à  Majoritatea observaţiilor, 87% se află la o SD față de medie.


Distribuția normală - sintetizarea datelor
cantitative

Vârsta sarcinii: s = 5.242 = 2.29 săptămâni

Distribuție asimetrică!
(negativ asimetrică)
Frecvența

media= 38.5
mediana= 39

Media-2
Media Media+2s
s
Media-s Media+s

Vârsta sarcinii (săptămâni)

à  Majoritatea observaţiilor (~ 2/3) se află la o SD față de medie.


Distribuția normală
Ce se intimpla daca se aplica principiile distribuției !
normale cand datele nu respecta distributia normala?

•  Distribuția normală este o distribuție de probabilitate teoretică;


•  Unele distributii de date sunt aproximate destul de bine pe
baza distributiei normale
•  DAR: multe distributii de date nu se pot aproxima cu o
distributie normala à utilizand proprietatile curbei normale
pentru a caracteriza distributia de date se vor obtine rezultate
incorecte!
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției
!
normale cand datele nu respecta distributia normala?

•  Exemplu: Solicitarile de spitalizare la Heritage Health cu o


durata de spitalizare de cel puțin o zi, în 2011:
Estimare µ: x = 4.3 zile
Total Length of Stay, 2011
Estimare σ: s = 4.9 zile Claims With At Least One Inpatient Visit

40
30
20
10
0

0 10 20 30 40
Length of Stay (Days)
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției
!
normale cand datele nu respecta distributia normala?

Percentile Valori
2.5 1 zi
10 1 zi
25 1 zi
50 2 zile
Total Length of Stay, 2011
75 5 zile Claims With At Least One Inpatient Visit

90 10 zile

40
97.5 20 zile

30
20
10
0

0 10 20 30 40
Length of Stay (Days)
Distribuția normală !
Ce se intimpla daca se aplica principiile distribuției
normale cand datele nu respecta distributia normala?

Percentile Valori
2.5 1 zi
10 1 zi
25 1 zi
50 2 zile
60 4 zile
70 4 zile
75 5 zile
80 6 zile
90 10 zile
97.5 20 zile
Esantionare
si estimare
Eșantionare
•  In cercetare de cele mai multe ori datele provin din populatii
largi care nu pot fi studiate in intregime
•  Cele mai multe date de cercetare provin de la subiecţi care
formeaza un eșantion prelevat cu atentie dintr-o populaţie
mare, astfel incat caracteristicile acestuia sa fie relevante
pentru populatie
Exemple:
–  Mostră de sânge (eșantion) pentru estimarea concentraţiei de glucoză.
–  Obținem trei valori ale unor măsurători: 6.0, 5.9, şi 5.8.
•  Care dintre acestea este corectă?
Eșantionare
Exemplu:
Trei studii à pentru compararea bandajului de compresie
multistrat elastic cu cel inelastic, in cazul tratamentului ulcerului
venos .
à Diferenţe obtinute: 13%, 25% şi 20% la pacienți cu vindecare
completă
* Toate estimările sunt în avantajul bandajului elastic!
* Există o variabilitate aleatorie naturală între eșantioane!
à Este posibil sa existe o diferenta de timp intre studii si
tratament

Fletcher A, Nicky Cullum N, Sheldon TA. (1997) A systematic review of compression treatment for
venous leg ulcers. British Medical Journal 315, 576-580.
Eșantionare
•  Distribuţie de eşantionare
•  Folosind informațiile ce provin din esantioanele extrase
dintr-o populație va rezulta o distribuție de eșantionare
pe baza careia, considerand, teorema limita centrala, se
vor putea rezuma parametrii de interes (medie,
proporția, rata de incidenta).
Esantionare
Teorema limită centrală: chiar şi atunci când avem
o variabilă care nu urmează o distribuţie normală,
dacă se extrag mai multe eşantioane de observaţii,
P în aceste
din aceeasi populatie, mediile calculate
P V urmează o distribuţie normală.
eșantioane
distribution of is n
V § V ·
that is, X ~ N¨P ¸.
© n¹
Distributii de eșantionare
Cum functioneaza esantionarea?
Exemplu: Un zar obișnuit cu 6 fețe.
•  Prin aruncarea zarului se va obține un scor care va
juca rolul măsurătorilor care ar putea fi făcute.
•  Prin aruncarea unui zar se obține unul dintre cele şase
numere: 1, 2, 3, 4, 5, sau 6.
à Obținerea fiecarui număr este posibilă în aceeaşi
proporţie și anume de 1/6 (in teorie) :-)
à Vom estimam media populatiei prin media
masuratorilor efectuate intr-un esantion.
Distributii de eșantionare
Proporţiile aruncărilor care reprezintă fiecare rezultat
posibil, toate fiind egale cu 1/6 sau 0.167

Media=3.5 SD=1.71
Distribuția rezultatelor obținute
Proporția aruncărilor

prin aruncare unui singur zar!

Media=3.5
SD = Var
SD =1.71

Scorul obținut prin aruncarea unui singur zar


Distributii de eșantionare
•  Ex: două zaruri aruncate simultan à estimarea mediei populaţiei tuturor
valorilor obținute prin aruncarea de două zaruri.

Media=1; (1,1);
Media=3.5 SD=1.21
Media=1.5, (1,2), (2,1),
Proporția aruncărilor

Media=2, (1,3), (3,1),…,


Media scorurilor obținute prin aruncarea a două zaruri

à  Media este de 3.5, la fel ca în primul caz; abaterea standard este 1.21
Distributii de eșantionare
à Distribuţiile normale impreuna cu curbele normale
aferente;

Media=3.5 SD=1.71 Media=3.5 SD=1.21

aruncărilor
aruncărilor

Proporția
Proporția

Media scorurilor obținute prin aruncarea unui Media scorurilor obținute prin aruncarea a
singur zar două zaruri

Media=3.5 SD=0.85 Media=3.5 SD=0.70


aruncărilor

aruncărilor
Proporția

Proporția

Media scorurilor obținute prin aruncarea a Media scorurilor obținute prin aruncarea a
patru zaruri șase zaruri
Eroarea standard
•  Esantionarea introduce erori – erori de esantionare
P va genera o estimare diferita pentru
–  fiecare esantion
P V valorile populatiei.
distribution of is n
V § V ·
that is, X ~ N¨P ¸.
© n¹

•  Eroarea standard a unei variabile aleatoare¾


V
is
n

¾
P
V

V P
Eroarea standard
"eroare standard” vs "abatere standard".

•  distribuţia unui eşantion sau a unei populaţii


à "abatere standard”
•  o estimație calculată pe baza datelor dintr-un
eșantion à "eroare standard
Eroarea standard
Ex: Studiul bandajelor elastice versus cele inelastice, in
vindecarea ulcerului venos:
•  Diferenţa între cele doua modalitati de vindecare a ulcerelor,
complet vindecate, este de de 13% (=63%-50%)
•  Aceasta este o estimare a diferenţei în populaţia de pacienți cu
ulcer venos.
•  Care este eroarea standard?
à în grupul cu bandaj elastic s-au vindecat 31 din 49 à 0.63 pacienți;
à în grupul cu bandaj inelastic s-au vindecat 26 din 52 à 0.5
à din punct de vedere teoretic, diferența ar putea face parte din
familia de distribuţii normale
Eroarea standard
Ex: Studiul bandajelor elastice versus cele inelastice:
•  De care membru al familiei de distribuţii normale apartine
proporţia de pacienți din întreaga populație care s-ar
putea vindeca dacă folosesc bandaje elastice şi proporţia
de pacienți din întreaga populatie care s-ar putea vindeca
dacă folosesc bandaje inelastice?
à Se poate estima, folosind procentele obținute în
eşantioane 63% (31/49), respectiv 50% (26/52).
Eroarea standard
Ex: Studiul bandajelor elastice versus cele inelastice:
à Eroarea standard: consider cazul în care procentele
necunoscute ale populaţiei ar fi, de fapt, egale cu cele
obținute în eșantioane.
à Această estimație a erorii standard poate fi folosită pentru
a evalua precizia sau estimația diferenţei.

à Pentru diferenţa dintre procentele cu ulcere vindecate,


13 = 63-50, eroarea standard este de 10%.
à Pentru: p1 = 0.63; p2 = 0.5; n1= 49; n2= 52
à ES = [(p1 (1-p1))/n1+(p2 (1-p2))/n2]1/2 à 10%
Bibliografie
•  Biostatistica pentru studenti – E Panaitescu, L Iliuta,
E Poenaru, Marius Rac Albu, Editura ‘Carol Davila’, 2013
•  http://en.wikipedia.org/
•  Elementary Statistics, Duxbury Press, 1984, Boston
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS VI

Elena Poenaru MSc, MBA, PhD


Cuprins:

•  Distributii de esantionare
•  Eroarea standard
•  Intervale de incredere
•  Teste de semnificatie
statistica
•  Interpretarea valorii p
•  Erori in folosirea testelor de
semnificatie
Statistica înseamnă că nu trebuie să
spui niciodată că ești absolut sigur!

•  Concluziile statistice sunt întotdeauna prezentate în termeni


de probabilitate
•  Dacă vreodată o concluzie statistică pare sigură, probabil că
îti scapa ceva L
•  Esenta in statistica este de a cuantifica incertitudinea J
Esantionare
si estimare
Esantionare
•  In cercetare de cele mai multe ori datele provin din populatii
largi care nu pot fi studiate in intregime
•  Cele mai multe date de cercetare provin de la subiecţi care
formeaza un eșantion prelevat cu atentie dintr-o populaţie
mare, astfel incat caracteristicile acestuia sa fie relevante
pentru populatie
•  Eșantioanele permit statisticienilor sa traga concluzii pentru
intreaga populatie analizand doar o parte a acesteia.
Exemple:
–  Mostră de sânge (eșantion) pentru estimarea concentraţiei de glucoză.
•  O picătură de sânge reprezință sângele din întregul corp.
–  Obținem trei valori ale unor măsurători: 6.0, 5.9, şi 5.8.
•  Care dintre acestea este corectă?
•  Răspuns: nici una - valorile sunt toate estimări ale aceleeaşi cantitati.
•  Nu ştim dacă vreuna dintre ele este cea adevărată!
Eșantionare
Exista mai multe metode de esantionare:
•  Esantion probabilistic – fiecare membru are o sansa egala
de a fi selectat
–  ideal pentru analiza statistica
•  Esantion non-probabilistic – membrii nu au sanse egale de
a fi selectati
–  pentru populatii care nu sunt disponibile in intregime
–  pot fi mai usor de selectat si cu costuri mai mici
•  Un rezultat exact este dificil de obtinut dar se pot obtine valori
probabile si se pot estima intervale de incredere care pot
contine valoarea adevarata
•  Esantionarea introduce erori à erori de esantionare
–  fiecare esantion va genera o estimare diferita pentru valorile populatiei.
Eșantionare
•  Estimările care se pot obţine pentru statisticile din toate
eșantioanele posibile, extrase în acelaşi mod dintr-o populație, au
o distribuţie.
•  Această distribuție poartă numele de distribuţie de eşantionare.
•  Folosind informațiile ce provin din esantioanele extrase dintr-o
populație va rezulta o distribuție de eșantionare pe baza careia,
considerand, teorema limita centrala, se vor putea rezuma
parametrii de interes (medie, proporția, rata de incidenta).
•  Acest proces va permite stabilirea unui interval care sa ofere o
probabilitate ca adevarata valoare din populatie sa fie in acest
interval.
Esantionare
Teorema limită centrală: chiar şi atunci când avem
o variabilă care nu urmează o distribuţie normală,
dacă se extrag mai multe eşantioane, de aceeasi
marime, din aceeasi populatie, mediile calculate în
aceste eșantioane urmează o distribuţie normală.
Distributia de esantionare

Pentru o variabila data, oarecare X:


•  presupunem ca distributia populatiei variabilei X este
cunoscuta si este normala, cu media µ si varianta σ2
à X ~ N(µ, σ)

•  àmediile variabilei X din esantioanele de P


aceeasi marime n,
care provine din aceeasi populatie, vor avea o distributie de
P V care va fi o distributie normala
esantionare,
à Teoremadistribution
limita centrala of is n
V § V ·
that is, X ~ N¨P ¸.
© n¹
Teorema limita centrala - TLC
POPULATION = U.S. Adult Males RANDOM SAMPLES
Random Variable X = Height (inches) (all of size n)

EXTREMELY TYPICAL
EXTREMELY – most are near the EXTREMELY
RARE – mostly population mean, with a RARE – mostly
short outliers few short and tall outliers tall outliers
x << 70 x | 70 x >> 70

TYPICAL
x | 70

4
RARE – short outlier RARE – tall outlier VX =
x >> 70 n
x << 70
VX = 4

X X
P X = 70 P X = 70
Population Distribution of X Sampling Distribution of X

Introduction to Biostatistics, Ismor Fischer, 2006


V § V· P
¾ P ¨P ¸
© ¹ V
Distributii de eșantionare
Presupunem P ca variabila X, varsta unei populatiiVnormal
¾
V P V P
distribuite, cu media µ = 27.0 ani si σ = 12.0 ani
V ales aleator din
•  Probabilitatea ca varsta unui individ
P
¾ P
populatie sa fie mai mica de V30 ani, este: r V
individual is less than 30 years normally distributed
§ 30  27·
is P(X < 30) = P¨Z < V 12 ¸ i.e.,
ingXto
~ N(27, 12).
the tabulated
© ¹
P V XPP
= P(Z < 0.25) = 0.5987. ula Z = , i
V
P
of
selected


rs P V d
§ §·  27·
¨ ¨¸ ¸
© ©¹ ¹ P = 27 P
30 P X
 d
V
=norm.dist(x,mean,standard_dev,cumulative) d 
=(30,27,12,1) = 0.5987

¾ V  P§ § VV ··
¾ P P
V
V
¨P¨P ¸
¸¹  PV
¾ © © ¹ P
V
Distributii
P VP V
de
P eșantionare
V V
V
¾ ¾
P V
Presupunem ca variabila X, varsta unei populatii normal distribuite, r V
cu
P §  ·
P ¾ r V P r ¨V ¸
media µ =¾27.0 ani si σ = 12.0 ani V © V ¹
•  Probabilitatea ca varsta unui§ individ
 ·ales aleator din populatie sa fie
§ is de
mai mica than
30 · 30
ani, este: ¨ P ing¸ to the tabulated V P
normally distributed
individual
¨ less ©
years ¹
© P ¸¹ V X VPP V i.e., X ~PN(27, 12).
§ 30  27 · ula Z of = PV , i P V
is P(X < 30) = P¨Z < 12 ¸ selected
© ¹ rs V P §¨P V ·¸
P
= P(Z < 0.25) = 0.5987. §  27· © ¹
¨
©
¸
¹ P  VP =d27 30 d P V X
§  ·
¨ ¸
© ¹
P P d d
•  Presupunem ca avem P de
V un esantion V 12 yrs
¾ dThat is, X ~ Nd(27,
 2).
V populatie.
n = 36 indivizi din aceeasi rror =
nP P 36
= 2
V X P
•  Conform TLC, mediile
¾ din esantioane
V 
ula is Z =
V/ n
~ N(0, 1).
au o distributie normala, cu media P
egala cuPµ=V27.0 ani, V § 
P P V ¨
P V ©
•  SD = eroarea standard à 2 ani
= 36 randomly selected individuals is less§ than§ 30   ··
§ 30  27· ¨ ¨
©
¸¸
¹¹
©
years is P( X < 30) = P¨Z < 2 ¸ = P(Z < 1.5) == 0.9332
© ¹ P V d d P V
0.9332. § § §   · · · P
¨ ¨ ¸ ¸
¨ © © ¸ ¹ ¹  d P d
Distributii de eșantionare
Considerind un eșantion format din n observații si cunoscand media
acestora, pentru aproape toate observațiile, consideram:
1.  Mediile acestor eșantioane au o distribuție care are aceeași medie
ca media populației din care au fost extrase.
2.  Distribuţia mediilor acestor eșantioane are o abatere standard mai
mică decât abaterea standard a populației din care au fost extrase;
3.  Cu cât eșantioanele au dimensiune mai mare cu atât abaterea
standard ale mediilor eșantioanelor va fi mai mică.
4.  Forma distribuției mediilor eșantioanelor se apropie de forma
distribuţiei normale când dimensiunea eșantioanelor crește.
5.  Orice statistică calculată pentru un eșantion (media, proporția,
mediana, abaterea standard) are o distribuție de eșantionare.
Distributia de esantionare & TLC
POPULATION = U.S. Adult Males RANDOM SAMPLES
Random Variable X = Height (inches) (all of size n)

EXTREMELY TYPICAL
EXTREMELY – most are near the EXTREMELY
RARE – mostly population mean, with a RARE – mostly
short outliers few short and tall outliers tall outliers
x << 70 x | 70 x >> 70

TYPICAL
x | 70

4
RARE – short outlier RARE – tall outlier VX =
x >> 70 n
x << 70
VX = 4

X X
P X = 70 P X = 70
Population Distribution of X Sampling Distribution of X

Introduction to Biostatistics, Ismor Fischer, 2006


Eroarea standard
•  Un rezultat exact pentru a obtine valoarea adevarata din
populatie a statisticilor calculate pe esantioane este dificil
de obtinut, dar se pot obtine valori probabile si se pot
estima intervale de incredere care pot contine aceasta
valoare
•  Esantionarea introduce erori – erori de esantionare
–  fiecare esantion va genera o estimare diferita pentru
valorile populatiei.
•  Eroarea standard a unei variabile aleatoare este o
măsură a depărtării acesteia de valoarea aşteptată, a
împrăştierii, obtinuta prin experimente repetate.
Eroarea standard

P
Pentru o variabila data oarecare X:
P
• P presupunem
V ca distributia populatiei variabilei X este
V P V
cunoscuta si este normala, cu media µ si varianta σ2,
V à X ~ N(µ, σ) § V · V provine din § V ·
P
àpentru orice ¨esantion ¸ de marime n, care
© ¹ P ¨P ¸ P
V
aceeasi populatie, distributia P V a mediilor ©
de esantionare ¹
variabilei X, va fi de asemeni o distributie normala
distribution of is n
cu media µ si varianta σ /n2
V § V·
P that is, X ~ N¨P ¸.
© n¹
à V = eroarea standard a distributiei de esantionare
¾ is
n
X P P
à Scorul
ulaZ:
is Z = ~ N(0, 1).
¾ V V/ n V
¾
Eroarea standard
•  Eroarea standard a unei variabile aleatoare este o măsură
a depărtării acesteia de valoarea aşteptată, a împrăştierii,
obtinuta din experimente repetate.
–  se folosește pentru a descrie cât de bună este o anumită
estimație.
–  provine din distribuția de eșantionare.
•  Abaterea standard a distribuţiei de eşantionare arată cât de
bună este statistica calculată pe eșantionul studiat, ca
estimare a valorii reale din populaţie.
•  Abaterea standard a distribuţiei de eşantionare este
cunoscută sub numele de eroarea standard a estimării.
•  Eroarea standard este importanta, deoarece este folosita
pentru a calcula alte măsuri, cum ar fi intervalele de
încredere și marje de eroare.
Eroarea standard
•  Eroarea standard este utilizată pentru estimarea
intervalului valorilor reale ale mediei și pentru testarea de
ipoteze cu privire la adevărata medie µ a unei distribuții.
•  Putem folosi eroarea standard pentru a descrie cât de
bună este estimare noastră.
•  Eroarea standard provine din distribuția de eșantionare.
•  Deviația standard a distribuției de eșantionare arată cât de
bună este statistica eșantionului, ca o estimare a valorii
populației.
•  În general, atunci când lucrăm cu mediile eșantioanelor
folosim eroarea standard, dar când lucrăm cu date
punctuale individuale folosim abaterea standard.
•  Cu cat este mai mare marimea eșantionului cu atat mai
mica este eroarea standard.
Eroarea standard
•  Termenii “standard error” si “standard deviation” se confunda
adesea, eroarea standard fiind un tip al deviatiei standard
•  Folosim termenul "deviație standard" atunci când vorbim
despre distribuții, fie dintr-un eșantion sau o populație.
•  Folosim termenul "eroare standard", atunci când este vorba
despre o estimare gasita intr-un eșantion.

Distributia mediilor
din esantioane

Distributia populatiei
Intervale de
incredere
Intervale de incredere
•  Analiza statistică a datelor conduce la două
tipuri de rezultate: intervale de încredere și
valori P.
•  Cele două oferă informații complementare și
sunt adesea calculate în tandem.
•  Intervalele de încredere permit să indicam un
rezultat cu o marja de eroare.
Intervale de incredere
•  Estimarea este procesul de stabilire a valorii probabile a unei
variabile.
•  Forma cea mai directă de estimare este de a stabili un singur
punct, o valoare
–  media, mediana sau modul pot fi folosite ca un singur
punct de estimare.
•  O estimare care este un singur număr, cum ar fi diferenta
observata intr-un studiu, se numește o estimare punctuală.
•  Utilizarea acestor statistici unice nu conține întotdeauna
suficiente informații
à alternativa este estimarea unui interval
Intervale de incredere
•  Provocarea in statistica este să începi cu observația într-un
singur eșantion și să faci generalizări despre populația
totală.
•  O modalitate de a exprima rezultatele este cel prin interval
de încredere.
•  După ce am calculat o statistica in esantionul ales, pot
calcula un interval care stiu că va conține proporția
adevărată a populației
à intervalul de încredere de 95%, standard
•  Pot calcula intervalul pentru orice grad de încredere doresc
àNivel crescut de incredere inseamna sa calculez un
intervalul mai larg.
Intervale de incredere

•  Estimari de tip interval (interval de incredere) – un interval


centrat pe punctul estimat
–  uneori este mai util sa aleg doua limite intre care parametrul studiat
se estimeaza ca se incadreaza, impreuna cu probabilitatea ca
acesta sa incadreze in aceste limite
–  Se estimează o limită inferioară și una superioară între care sperăm
să se afle valoarea reală
à limitele se numesc limite de incredere
à intervalul dintre limitele de incredere il numim interval de
incredere
Intervale de incredere

•  Un interval de încredere care provine dintr-un eșantion de


date, poate include valoarea reala a parametrului
necunoscut, sau nu
•  Niciodată nu vom ști dacă un interval de încredere conține
adevărul
•  Ce reprezinta un interval de încredere de 95% ?
–  Pentru 95% din eșantioane selectate aleator dintr-o
populație, intervalul de încredere din eșantion va conține
valoarea reală a parametrului (medie, proporția, rata de
incidență etc. ..) de interes
–  Dacă 95% din intervalele de încredere de 95% includ
valoarea reala a parametrului din populație à 5% trebuie
să-l excludă.
Intervale de incredere

•  Dacă 95% din intervalele de încredere de 95% includ


valoarea reala a parametrului din populație à 5% trebuie să-l
excludă.

•  Folosim întotdeauna un interval de încredere de 95%?


–  intervalele de încredere de 95% vor fi alese astfel încât
95% dintre intervale sa includa valoarea din populație
–  intervalul de încredere de 95% este doar o alegere.
–  am putea folosi un alt nivel, cum ar fi 99% sau intervale de
încredere de 90%.
Intervale de incredere

•  Conform TLC (Teorema Limita Centrala) atunci când extrag


aleator un eșantion de valori continue, de mărimea n, dintr-o
populație cu media adevărata µ și SD adevarata σ, distribuția
teoretică a mediilor esantioanelor, a tuturor eșantioanelor
aleatorii posibile de dimensiune n, vor fi distribuite aproximativ
normal
•  Acest punct de vedere este valabil pentru un "n mare” (n>60);
–  Se pot calcula corect CI de 95%, indiferent de mărimea
eșantionului

σ
σ x = SE ( x ) =
n

µ
Intervale de incredere

•  Pentru 95% incredere, date normal distribuite: X ± 1. 96 σ


CI = x ± (1.96 × SE) n
–  putem fi 95% siguri ca adevarata medie din populatie ( µ ) va fi intre
aceste valori
–  95% din mediile calculate in esantioane ( x ) vor contine media reala
( µ ) a populatiei.
•  Este cu siguranță posibil, cu toate acestea, să se estimeze
intervale cu diferite niveluri de încredere, astfel:
–  interval de încredere de 90% pentru o medie a populației
s
x ± 1.65 ×
n
–  interval de încredere de 99% pentru o medie a populației
s
x ± 2.58 ×
n
Intervale de incredere
Tabelele distribuției standard normale (Z- tables)
A(z)

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
-4 -3 -2 -1 0 1 z 2 3 4
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9
1.0
0.8159
0.8413
0.8186
0.8438
0.8212
0.8461
0.8238
0.8485
0.8264
0.8508
0.8289
0.8531
0.8315
0.8554
0.8340
0.8577
0.8365
0.8599
0.8389
0.8621
Aria gri are o
1.1
1.2
0.8643
0.8849
0.8665
0.8869
0.8686
0.8888
0.8708
0.8907
0.8729
0.8925
0.8749
0.8944
0.8770
0.8962
0.8790
0.8980
0.8810
0.8997
0.8830
0.9015
probabilitate de 0.975
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
à z = 1.96
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
d
P V
P V d
Intervale
  de
P
incredere r V
In general… Def
ing to the tabulated
P D d d D
XP
ula Z =o V , i
D/2 1D D/2
P d D

Hence, P  V
Z P P D V d
zD/2 0 zD/2 
α = nivel de semnificatie

Valoarea critica zα/2 à P(−zα/2 ≤ Z ≤ zα/2) = 1−α, d


sau echivalent “tail probabilities”:
P(Z≤−zα/2) = P(Z≥zα/2) = α/2 
à P(µ−zα/2σ ≤ X ≤ µ+zα/2σ) = 1−α
PV P P V
P V d d P V
 
Intervale de incredere
 d d

95% à Prob ( −1.96 < Z <d 1.96 ) = 0t.95


X −µ σ σ
Prob (− 1. 96 < < 1.96 ) = 0.95 P
Prob ( X − 1.96 < µV d
< X + 1d P
. 96 ) = 0V.95
  σ/ n n n
σ
σ Def
x = SE ( x ) =
In general… n D

P D d d D D
o
D/2 1D D/2
d  de
α P= nivel t D
D semnificatie D
Hence,
Z P P D V d d P D V D
zD/2 0 zD/2

95%

2.5% 2.5%

-1.96 0 1.96
 d

d

P

Intervale de incredere  

 d

d
Prob (− ?? < µ < ??) = 0.95 Prob (− ?? < Z < ??) = 0.95 P
 

In general…
 D d
Z 0.00 . . . . 0.05 0.06 0.07 . 0.09
D/2 1D D/2
d D

.0 1.000 . . . . .9601 .9522 .9442 . .


Z P D
. . . . . . . . . z . D/2 0 z.
D/2

. . . . . . . . . . .
. . . . . . . . . . .
1.8 .0719 . . . . .0643 .0629 .0615 . .5888
1.9 .0574 . . . . .0512 .0500 .0488 . .0466
2.0 .0455 . . . . .0404 .0394 .0385 . .0366
. . . . . . . . . . .
. . . . . . .
Probabilitatile . pentru
cozilor . curba. normala
.
 

 d

Intervale de incredere d

P V

95% à Prob ( −1.96 < Z < 1 .96 ) = 0.95


 d
Intervalul de incredere de 95% σ
pentru media populatiei µ: X ± 1. 96 d
n
P V
α = 1-95%=5%; n=100, σ=0.5;
 

In general… Def
Excel: =confidence(α,σ,n) P D d
o
Ex: x =1.99; SD = 0.05, n=100 D/2 1D D/2
P d D

=confidence(.05,.05,100) Hence,
=0.01 Z P P D V
zD/2 0 zD/2
àCI: 1.99±0.01
Intervale de incredere
•  Intervale de încredere nu includ
întotdeauna valoarea reală a populaţiei!
•  Dacă 95% din intervale de încredere de
95% includ valoarea reala din populatie 95%
rezultă că există 5% intervale care nu o
includ.
•  În practică, nu putem spune dacă
intervalul de încredere calculat este unul
dintre cele 95% sau unul dintre cele 5%.
•  95% din intervalele construite folosind
media esantioanelor ( x ) vor conține
adevărata medie din populatie (µ).
σ
Excel: X ± 1. 96
•  =confidence(α,σ,n)
n
Intervale de incredere
Exemplu:
Trei studii à pentru compararea eficientei bandajului de
compresie multistrat elastic cu cel inelastic, in cazul tratamentului
ulcerului venos .
à  Diferenţe obtinute in cele 3 studii: 13%, 25% şi 20% la pacienți
cu vindecare completă
–  49 pacienţi pentru grupurile cu bandaj elastic
–  52 pacienţi pentru grupurile cu bandaj inelastic
* Toate estimările sunt în avantajul bandajului elastic!
* Există o variabilitate aleatorie naturală între eșantioane!
à Este posibil sa existe o diferenta de timp intre studii si
tratament

Fletcher A, Nicky Cullum N, Sheldon TA. (1997) A systematic review of compression treatment for
venous leg ulcers. British Medical Journal 315, 576-580.
Intervale de incredere
Exemplu: in studiul privind eficienta bandajelor elastice versus cele
inelastice in vindecarea ulcerului venos avem o valoarea estimată pentru
diferenţă intre mediile din esantioane de 13% şi o eroare standard de 10%.
•  intervalele de incredere de 95% pentru diferenta mediilor pacientilor
vindecati in 3 studii care compara eficienta bandajului elastic cu cel
inelastic;

Diferența între procentele


50%
42%
à Marimea intervalului de 33%

de vindecați
încredere depinde de 25%
20%
numarul de observaţii 13%
à al treilea studiu include un 9%
numar mai mic de observatii
-7%
decât celelalte. -10%

Numărul studiului

à Toate aceste intervale de încredere se suprapun, sunt destul de


consistente à valoare reală necunoscută s-ar putea afla în toate acestea.
Simulare pe calculator a studiului
referitor la bandaje
Dimensiunile eșantioanelor din studiu sunt:
•  49 pacienţi pentru grupurile cu bandaj elastic
•  52 pacienţi pentru grupurile cu bandaj inelastic
•  S-a presupus că în întreaga populaţie de pacienţi procentul de
pacienţi cu vindecare totală va fi de 57% în grupul cu bandaj elastic
şi 37 % în grupul cu bandaj inelastic.
Diferența între procentele de vindecați

Valoarea diferentei in populatie (20%)


•  Estimăm ca 5% intervale
nu contin valoarea reală a
diferentei dintre
tratamente in populaţie
(5 intervale nu vor contine
diferenta )
•  Din 100 simulări şase
intervale de încredere de
95% nu includ diferenţa
20% (57%-37%)
Numărul studiului
Intervale de incredere
Erori în folosirea și interpretarea intervalelor de
încredere
1. Greșeala cea mai frecventă: nu se citează intervalele de
încredere in studiile facute public.
Cele mai multe dintre jurnalele precizează în instrucţiunile
lor că rezultatele ar trebui să fie date în formă de intervale
de încredere, dar autorii dau numai valorile p.
Ex: in instrucţiunile revistei Lancet’s pentru autori se afirmă:
“When possible, quantify findings and present them with
appropriate indicators of measurement error or uncertainty
(such as confidence intervals). Avoid relying solely on
statistical hypothesis testing, such as the use of P values,
which fails to convey important quantitative information.”
Intervale de incredere
Erori în folosirea și interpretarea intervalelor de
încredere
2. Citarea unui interval de încredere care nu oferă un
răspuns direct la problema cercetată.
Un astfel de exemplu este oferirea de intervale de încredere
pentru estimările separate pe grupurile de tratament, în loc de
unul care să estimeze diferenţa între cele două grupuri.
•  Ex: în studiul referitor la ulcerele venoase din Nord-Est, intervalul de
încredere pentru procentul vindecați în grupul cu bandajul elastic a
fost de la 50% la 77%, iar pentru grupul cu bandaj inelastic a fost de
la 36% la 64%.
à citând aceste rezultate nu se poate vedea diferenţa estimată,
cea care ne interesează cu adevarat.
à Intervalul de încredere pentru diferenţa procentelor de
vindecați este de la -7% la +33%.
Intervale de incredere
Erori în folosirea și interpretarea intervalelor de
încredere
3. Calculul intervalul de încredere pentru o estimație obţinută
într-un eşantion mic folosind o metodă concepută pentru
eşantioane mari.
•  Exemplu: într-un studiu de evaluare a prevalenței HIV la foşti
deţinuţi (Turnbull et al., 1992) din 29 de femei care nu si-au
injectat droguri una a fost diagnosticată cu HIV pozitiv.
Autorii au raportat acest lucru ca fiind 3.4% cu un interval de
încrederede 95%, de la -3.1% la 9.9%.
Limita inferioară de -3.1% obţinută din proporţia observată minus
1.96 x eroarea standard, nu este corecta.
à Metoda corectă pentru eșantioane mici dă un interval
cuprins intre 0.1% si 17.8%.
Turnbull, P.J., Stimson, G.V., and Dolan, K.A. (1992) Prevalence of HIV infection among ex-
prisoners. British Medical Journal 304, 90-1.
Meta-analiza
•  Meta-analiza este o tehnica de a aduce impreuna rezultate
dintr-o serie de studii similare, pentru a da o estimare globală a
efectului.
•  Multe meta-analize compara efectele tratamentului, evidentiind
mediile și intervalele de incredere de 95% pe aceeasi diagramă,
pentru studiile comparate.

Study A
Study B
Study C
Study D
Study E
Combined estimate

–40 –30 –20 –10 0 10


Change in BP (mmHg)

Forest plot - lot cu 5 studii pentru un nou medicament antihipertensiv.


Meta-analiza
•  Exemplu: se pot combina rezultatele pentru toate cele cinci
studii și se calculeaza reducerea totală medie a TA, care este
de 14 mmHg, CI (12,16).
–  reprezentare printr-o "estimare combinată”
–  combinarea unui număr de studii reduce CI, oferind o
estimare mai exactă efectului real al tratamentului.

Study A
Study B
Study C
Study D
Study E
Combined estimate

–40 –30 –20 –10 0 10


Change in BP (mmHg)
Teste de
semnificatie
statistica
Principii generale în testele de
semnificație
Procedura generală pentru un test de semnificație:
1.  Stabilirea ipotezei nule şi a ipotezei alternative.
2.  Verificarea ipotezelor de testare (presupunerilor referitoare la
test).
3.  Calculul valorii statisticii testului.
4.  Compararea valorii statisticii testului cu o valoarea cunoscută
a distribuţiei care ar fi urmata în cazul în care ipoteza nulă
este adevărată.
5.  Determinarea probabilității unei valori a statisticii testului în
care una sau mai multe valori extreme sunt observate, în
cazul în care ipoteza nulă este adevărată.
6.  Concluzii: datele sunt în concordanță sau în contradicţie cu
ipoteza nulă?
Principii generale în testele de
semnificație
•  Există mai multe teste de semnificaţie concepute pentru a răspunde la
diverse întrebări, pentru diferite tipuri de date
•  Toate testele de semnificatie urmeză un model
•  Atunci când testăm dacă două grupuri diferă (medie diferită, proporție
diferită etc.), mai întâi formulam ipoteză nula, si anume ca cele două
populații sunt, de fapt, identice.
•  Apoi, ne întrebam: dacă ipoteza nulă ar fi adevărată, cât de puțin
probabil ar fi să se obțină aleator eșantioane în care diferența este la fel
de mare (sau chiar mai mare) decât cea observată de fapt?
•  Ne întrebăm dacă diferența observată este suficient de mică astfel încât
să se datoreze întâmplarii, în cazul în care nu există în mod real nici o
diferență în populație?
Semnificație statistică
•  În cazul în care datele nu sunt în concordanţă cu ipoteza nulă,
diferenţa este declarată semnificativ statistic.
•  În cazul în care datele sunt în concordanţă cu ipoteza nulă,
diferenţa se spune că nu este semnificativ statistic.
•  Putem vedea probabilitatea testului de semnificaţie ca un index de
putere a dovezii împotriva ipotezei nule.
•  Probabilitatea unei valori extreme a statisticii testului, care apare în
cazul în care ipoteza nulă este adevărată, este adesea numită
valoare p.
•  Valoarea p à probabilitatea ca in cazul in care H0 este adevarata,
sa obtinem date departate de cele asteptate (cele observate)
•  Valoarea p nu este probabilitatea ca ipoteza nulă să fie adevărată!
•  Ipoteza nulă poate să fie adevărată sau nu, ea este aleatoare şi nu
are probabilitate.
Principii generale în testele de semnificație

•  Dacă valoarea P este mare, datele sunt în concordanță cu


ipoteza nulă.
•  Dacă valoarea P este mică, există doar o mică șansă ca din
intamplare să se fi creat o diferență observată la fel de mare
ca în realitate
•  Dacă valoarea P este mai mică de 0,05 (un prag arbitrar, dar
bine acceptat), rezultatele sunt considerate statistic
semnificative;
•  Inseamnă că diferența (asocierea sau corelația ...) pe care
am observat-o este întâmplatoare in mai puțin de 5% dintre
situatii.
•  „Nu diferă semnificativ” nu înseamnă că efectul este absent,
mic sau irelevant științific.
Interpretarea valorii p
•  Valoarea p indica probabilitatea ca orice diferența observata
sa se datoreze întâmplarii.
•  Valoarea p (probabilitatea) este utilizata atunci când dorim
să vedem cât de probabil este ca o ipoteză sa fie adevărată.
–  ipoteza conform careia nu există nici o diferență între cele
doua stari (două tratamente), este cunoscuta sub numele
de "ipoteza nulă”.
•  Cu cat este mai mica valoarea p, cu atat mai puțin probabil este
ca diferența sa se datoreze întâmplarii și cu atat mai mare este
semnificația constatării.
–  p = 0,5 înseamnă că probabilitatea ca diferența sa se datoreze intimplarii este
de 0.5 la 1, sau 50:50.
–  p = 0,05 înseamnă că probabilitatea, ca diferența sa se datoreze intimplarii,
este de 0,05 la 1, adică 1 la 20.
Interpretarea valorii p
Ca un ghid în interpretare, putem vedea valorile p ca indicând
puterea evidenței (dovada) pentru a respinge ipoteza nulă, cu
pragurile:

Valoarea p Evidență pentru diferența sau


(nivel de semnificație) relația existentă
p > 0.1 Evidență aproape inexistentă
(lipsa ei)
Între 0.05 și 0.1 Evidență slabă
Între 0.01 și 0.05 Evidență
Mai mică de 0.01 Evidență puternică
Mai mică de 0.001 Evidență foarte puternică

Obs: Valoarea p este uneori referita si ca nivel de semnificatie


Interpretarea valorii p

•  "Ipoteza nulă" este unul dintre conceptele care stau la baza


testelor statistice.
•  Metoda de testare (emiterea ipotezei) presupune că nu există
o diferență între grupuri, iar in functie de rezultatul testului, fie
se acceptă, fie se respinge această ipoteză.
•  Ipoteza nulă este, în general, opusul a ceea ce suntem de
fapt interesati sa demonstram
–  dacă suntem interesati sa dovedim faptul ca exista o diferență
între două tratamente atunci ipoteza nulă ar fi că nu există nici
o diferență intre tratamente à se încearca să se infirme acesta
presupunere.
Prezentarea valorilor p
•  Programele de analiză statistică determină valorile p
exacte pentru cele mai multe teste statistice.
•  Aceste valori trebuie raportate și nu specificat:
–  ”nesemnificativ”, ”ns” sau ”p > 0.05”.
•  În mod similar, dacă avem p = 0.0072, se va pierde
informație prin raportarea de forma ”p < 0.01”.
•  Aceste metode de prezentare a datelor s-au păstrat
din perioada în care calculele erau făcute manual și
valorile p raportate erau găsite în tabele.
•  Este bine să se raporteze valoarea p cu o cifra
semnificativă à p = 0.007 (cifrele care urmează după
7 nu oferă foarte multă informație).
Prezentarea valorilor p

à Uneori programele de analiză statistică dau valori precum


”0.0000” sau ”0.000” (formatul pentru numerele afișate la
patru sau trei zecimale a fost setat in sursa programului).
•  Valoarea p de ”0.0000” poate fi corectă dacă probabilitatea
este mai mică de 0.00005 şi astfel este egală cu 0.0000
pentru primele patru zecimale.
•  Probabilitatea nu poate fi niciodată exact zero
à de obicei, se citează sub forma p <0.0001.
Semnificație statistica
•  Testarea ipotezelor: obtinerea valorii p (p-value)
•  Valoarea p este probabilitatea de a obține un rezultat de studiu
ca extremă (mai departe de valoarea nulă), din întâmplare,
dacă ipoteza nulă este adevărata
•  Cum folosesc p value pentru a lua decizii privind compararea
celor doua ipoteze?
–  p<0.05: se respinge ipoteza nula si se considera adevarata
ipoteza alternativa;
•  rezultatul este considerat semnificativ statistic la pragul de 0.05
–  p≥ 0.05: ipoteza nula se considera adevarata
•  nu este o concluzie solida
Semnificație statistica
Rejection region: α

(1- α)
Non-rejection
region

µ 0

Critical value
Semnificație statistica

Teste unilaterale Teste bilaterale

à Valori critice (puncte de tăietura) pentru distributia normala


Semnificație reală și importantă

•  În cazul în care o diferenţă nu este semnificativ statistic, ea


poate fi totuși reală!
–  Am putea avea, pur şi simplu, un eșantion prea mic
pentru a arăta că există o diferenţă à diferenţa poate fi
importantă!
•  Faptul că "Nu există semnificație" nu înseamnă că nu
există nici un efect!
–  "Nu există semnificație" înseamnă că nu s-a reuşit să
se demonstreze existenţa dovezii (evidenței).
Nivele de semnificație și tipuri de erori
•  Să presupunem că avem o probabilitate de 0.01 sau mai
mică, care constituie o dovadă (evidență) rezonabilă pentru a
respinge ipoteza nulă.
à Dacă ipoteza nulă este totusi adevărată, vom lua o decizie
greşită într-o sută de situații (1 din 100).
•  Decizia de a respinge ipoteza nulă când ea este adevărată
se numeşte eroare de primul tip, eroare de tipul I, sau
eroarea α (alfa).
•  Eroarea de tipul al doilea sau eroare β (beta), apare in cazul
in care vom decide în favoarea ipotezei nule, care este de
fapt falsă.
Nivele de semnificație și tipuri de erori
•  Decizia de a respinge ipoteza nulă când ea este
adevărată se numeşte eroare de primul tip, eroare de
tipul I, sau eroarea α (alfa)
•  Eroarea de tipul al doilea sau eroare β (beta), apare in
cazul in care vom decide în favoarea ipotezei nule, care
este de fapt falsă.
Teste de semnificație: Testul semnelor
Scorurile cunoștințelor (de la -18 la 18) pentru 10 asistente
care participă la un curs de medicină bazată pe dovezi.

Cursul va îmbunătăti cunoștințele?


Principii generale în testele de
semnificație
Procedura generală pentru un test de semnificație:
Stabilirea ipotezei nule şi a ipotezei alternative
Ipoteza nulă:
"În populaţia de asistente medicale, nu există nici o diferenţă
între scorurile de cunoștințe înainte și după curs" sau “in
populaţia de asistente medicale, probabilitatea de obținere a
unei diferenţe într-o anumită direcție în scorul de cunoştinţe este
egală cu probabilitatea de obtinere a unei diferenţe de scor în
cealaltă direcţie".
Ipoteza alternativă:
"În populaţia de asistente medicale, există o diferenţă între
scorurile de cunoștințe înainte și după curs" sau “in populaţia de
asistente medicale, probabilitatea de a obține o diferenţa într-o
anumită direcție, în scorul de cunoştinţe, nu este egală cu
probabilitatea de a obtine o diferenţa de scor în cealaltă
direcţie".
Principii generale în testele de
semnificație

Presupunere
à Observaţiile trebuie să fie independente între ele.
Statistica testului
à Calcul pe baza datelor observate, cu scopul de a
testa ipoteza nula
Teste de semnificație: Testul semnelor

•  Cele 10 asistente medicale formează un eşantion extras


din populaţia tuturor asistentelor medicale care ar putea
participa la acest curs.
•  Ceilalți membrii ai acestei populaţii si-ar putea spori
cunoştinţele după participarea la acest curs?
•  Într-un test de semnificație ne întrebăm dacă diferența
observată este suficient de mică astfel încât să o putem
explica prin întâmplare, în cazul în care nu există în mod
real nici o diferență în populație.
•  Dacă diferența este mult mai mare decât ne așteptăm sa
intalnim, atunci dovada în favoarea existenței unei
diferențe reale devine mai puternică si nu mai poate fi
atribuita intimplarii.
Teste de semnificație: Testul semnelor
Scorurile cunoștințelor (de la -18 la 18) pentru 10 asistente
care participă la un curs de medicină bazată pe dovezi.

1 diferență din 10
? 2 diferențe din 10
? 3 diferențe din 10
...
?5 diferențe din 10

...
? diferențe concluzia
inversa

•  Există vreo dovadă ca sorurile cunoștințelor vor crește după curs?


•  Majoritatea asistentelor au un scor mai mare după curs dar exista
o diferenta negativa
à este necesar un test de semnificatie à testul semnelor
Teste de semnificație: Testul semnelor
•  Pentru a face un test de semnificație vom presupune că, în
populație, nu există nici o diferenţă între cunoştinţe, înainte şi după
curs.
à Ipoteza referitoare la "nici o diferenţă" sau "nici un efect" în
populaţie se numeşte ipoteza nulă.
à Vom compara ipoteza nulă cu ipoteza alternativă referitoare la
faptul că există o diferenţă între scorurile cunoştințelor măsurate
înainte şi după curs.
•  Vom determina cât de probabilă ar fi apariția unor date
extreme precum cele observate, dacă ipoteza nulă ar fi
adevărată:
–  Dacă această probabilitate este mare atunci datele sunt în
concordanţă cu ipoteza nulă;
–  In cazul în care probabilitatea este mică atunci este puţin probabil ca
astfel de date să fi apărut dacă ipoteza nulă era adevărată şi dovezile
sunt în favoarea ipotezei alternative.
Teste de semnificație: Testul semnelor
Scorurile cunoștințelor (de la -18 la 18) pentru 10 asistente care
participă la un curs de medicină bazată pe dovezi.

•  Testul semnelor foloseşte numai direcţia diferenţelor.


–  În eşantion avem o diferență negativă şi nouă pozitive.
Teste de semnificație: Testul semnelor
•  Considerăm diferenţele dintre scorul cunoştinţelor înainte şi
după curs pentru fiecare asistentă medicală.
•  Dacă ipoteza nulă ar fi adevărată, atunci probabilitatea ca
diferenţele de scor al cunoştinţelor să fie pozitive sau
negative este aceeasi (pot fi aleatorii).
•  Probabilitatea de a obține o diferenţă negativă ar fi egală cu
probabilitatea de a obține o diferență pozitivă àp= 0.5.
–  numărul de diferențe negative s-ar comporta exact la fel
ca şi în cazul aruncării simultane a 10 monezi, pentru
care ne interesează apariția numărului de steme.
Teste de semnificație: Testul semnelor

à Numărul de diferențe
negative s-ar comporta exact
la fel ca şi în cazul aruncării
simultane a 10 monezi pentru
care ne interesează apariția
numărului de steme.
à Care este modelul
matematic asociat?
à Distribuţia binomială cu
parametrii n = 10 şi p = 0.5.
Teste de semnificație: Testul semnelor
Numărul de diferențe negative s-ar comporta exact la fel ca
şi în cazul aruncării simultane a 10 monezi, pentru care
ne interesează apariția numărului de steme.
à Numărul de diferențe
negative s-ar comporta
exact la fel ca şi în cazul
Probabilitate

aruncării simultane a 10
monezi pentru care ne
interesează apariția
numărului de steme.
à Care este modelul
matematic asociat?
à Distribuţia binomială
cu parametrii n = 10 şi
Numărul de diferențe negative
p = 0.5.
Teste de semnificație: Testul semnelor
Dacă vreunul dintre subiecți a avut acelasi scor înainte şi
după curs îl omitem deoarece nu oferă informaţii despre
direcţia diferenţelor
à n este numărul de subiecți pentru care există
o diferenţă pozitivă sau negativă, in cadrul testului.
Distribuția numărului de
diferențe negative în cazul în
care ipoteza nulă este
Probabilitate

adevărată.

Distributia binomiala
Parametrii:
n= 10 (nr. de aruncari)
p= 0.5 (probabilitatea de
succes intr-o aruncare;
Numărul de diferențe negative moneda nu cade pe muchie)
Teste de semnificație: Testul semnelor

•  Estimăm ca numărul mediu de diferenţe


negative, în cazul în care ipoteza nulă
este adevărată, să fie de 5.
•  Daca H0 este adevarata ne
asteptam ca jumatate din diferente
sa fie negative
•  In exemplu, numărul de diferenţe
negative observate este doar de 1
•  Care este probabilitatea de a obţine o
valoare atât de departe de ceea ce ne-
am fi aşteptat să observăm?
Teste de semnificație: Testul semnelor

•  H0= adevarata à ne
asteptam ca ½ din
diferente sa fie negative (5)
•  In cazul studiat
o diferenţa este negativa
(date extreme)
•  Pentru obtinerea
probabilitatii se insumeaza
valorile incercuite
à ~0.02 (2 sanse din 100)
Teste de semnificație: Testul semnelor
•  Estimăm ca numărul
mediu de diferenţe
negative, în cazul în care
ipoteza nulă este
adevărată, să fie de 5.

Probabilitate
•  Numărul de diferenţe
negative observate este Valori Valori
extreme
doar de 1. mici
extreme
mari
•  Care este probabilitatea
de a obţine o valoare atât
de departe de ceea ce Numărul de diferențe negative
ne-am fi aşteptat să
observăm?
à 0.02 (2 sanse din 100)
Teste de semnificație: Testul semnelor
•  Estimăm ca numărul mediu
de diferenţe negative, în
cazul în care ipoteza nulă
este adevărată, să fie de 5.
•  Numărul de diferenţe
negative observate este doar
de 1.
•  Care este probabilitatea de
a obţine o valoare atât de
departe de ceea ce ne-am fi
aşteptat să observăm?
à 0.02 (2 sanse din 100)
Teste de semnificație: Testul semnelor
•  Probabilitatea de a obține o valoare extremă, precum cea
observată, indiferent de direcția aleasă, este de 0.0214844.
•  Dacă ipoteza nulă ar fi adevărată vom avea un eşantion in
care apariția unei valori extreme, precum cea observată, are
probabilitatea de apariție, prin șansă, de 0.02, adică de o
sansa din cincizeci.
•  Datele nu sunt în concordanță cu ipoteza nulă, astfel încât
putem concluziona că există dovezi în favoarea unei
diferenţe între scorurile cunoștințelor înainte și după curs.
•  În populaţia de asistente medicale, nu există nici o diferenţă între
scorurile de cunoștințe înainte și după curs" sau “in populaţia de
asistente medicale, probabilitatea de obținere a unei diferenţe într-o
anumită direcție în scorul de cunoştinţe este egală cu probabilitatea
de obtinere a unei diferenţe de scor în cealaltă direcţie".
Teste de semnificație: Testul semnelor

à Testul semnelor este un test de semnificație.

à Numărul de schimbări negative este numit


statistică a testului și se calculeaza din datele
folosite pentru testarea ipotezei nule.
Principii generale în testele de semnificație
Procedura generală pentru test de semnificație analizat:
1.  Stabilirea ipotezei nule şi a ipotezei alternative.
2.  Verificarea ipotezelor de testare (presupunerilor referitoare la test)
à observatiile independente intre ele à avem 10 observatii de la 10
persoane diferite (o observatie nu spune nimic despre celelalte)
3.  Calculul valorii statisticii testului à nr de schimbari negative à1
4.  Compararea valorii statisticii testului cu o valoarea cunoscută a
distribuţiei care ar fi urmata, în cazul în care ipoteza nulă este
adevărată à distributie cunoscuta – Binomiala cu n=10 si p=0.5
5.  Determinarea probabilității unei valori a statisticii testului în care
una sau mai multe valori extreme sunt observate, în cazul în care
ipoteza nulă este adevărată à probabilitate p=0.02
6.  Concluzie: datele sunt în concordanță sau în contradicţie cu
ipoteza nulă? à probabilitatea aparitiei valorii observate, o
diferenta negativa, in cazul in care H0 e adevarata, este foarte
mica (p=0.02)
Teste unilaterale și bilaterale
•  În exemplu pentru datele referitoare la asistente medicale, ipoteza
alternativă a fost că a existat o diferenţă într-o direcţie sau alta;
p = 0.02
•  Aceasta se numeşte test bilateral pentru că am folosit
probabilităţile valorilor extreme în ambele direcţii (scorul final
poate fi mai mare sau mai mic decât scorul inițial).
Test unilateral:
•  Ipoteza alternativă: în cadrul populaţiei scorul final va fi mai mare
decât scorul inițial.
•  Ipoteza nulă: în cadrul populaţiei scorul final al cunoştinţelor va fi,
egal sau mai mic decât scorul inițial.
•  p = 0.01 à un nivel de semnificație mai înalt decât în cazul unei
test bilateral
Teste unilaterale și bilaterale

•  Ipoteza nulă unilaterală: în


cadrul populaţiei scorul
final al cunoştinţelor va fi,

Probabilitate
egal sau mai mic decât
scorul inițial.
Valori
extreme
•  Ipoteza alternativă pentru
unilaterală: în cadrul testele
unilaterale
populaţiei scorul final va fi
mai mare decât scorul
inițial. Numărul de diferențe negative
•  Se ia in calcul doar
probabilitate aparitiei unei
diferente negative sau nici
una.
Teste unilaterale și bilaterale
•  Ipoteza nulă bilaterală: în populaţie scorul final al
cunoştinţelor va fi egal cu scorul inițial.
•  Ipoteza alternativă bilaterală: în cadrul populaţiei scorul final
va fi diferit de scorul inițial.

Valori extreme Valori extreme


pentru testele pentru testele

Probabilitate
bilaterale bilaterale

Valori extreme
pentru testele
unilaterale

Numărul de diferențe negative


Teste unilaterale și bilaterale
Test unilateral:
Ipoteza nulă: în populaţie scorul final al cunoştinţelor va fi
egal sau mai mic decât scorul inițial.
Ipoteza alternativă: în cadrul populaţiei scorul final va fi mai
mare decât scorul inițial.
•  Inseamna ca o descreștere a scorului cunoștințelor în
direcția inversă (scorul final mai mic decât cel inițial!!) va
fi interpretată ca nefiind nici o schimbare.
à Acest lucru este rareori adevărat în cercetarea medicală!
•  Testele trebuie să fie bilaterale, cu excepţia cazului în
care există un anumit motiv să nu fie folosite acestea.
Erori în folosirea testelor de semnificație
•  Niciodată nu trebuie concluzionat faptului că nu există nici o
diferenţă sau o relaţie deoarece testul nu este semnificativ
à vom spune că nu există nici o diferenţă deoarece
aceasta nu a putut fi detectată.
•  Concluzia nu trebuie să se bazeze numai pe un test de
semnificaţie în cazul în care se poate da un interval de
încredere.
à Intervale de încredere sunt deosebit de utile atunci când
testul nu este semnificativ.
•  Este necesar să se dea valori exacte pentru p ori de câte
ori este posibil (nu să se specifice p <0.05 sau p = NS);
doar o singură cifră semnificativă este necesară!
•  Să se evite testările multiple à este bine să se specifice
clar ipoteza principală şi variabila rezultat.
Teste de
semnificatie
multipla
Teste de semnificație multiplă
•  Dacă se testează o ipoteză nulă care este de fapt adevărată,
folosind 0.05 ca nivel de semnificaţie critic, probabilitatea de a
obține concluzia că "nu este semnificativă" (adică corect), este
0.95. Probabilitatea de a obține concluzia că "este
semnificativă" (adică fals) este de 0.05.
•  Dacă vom testa două ipoteze nule adevărate, independente una de
cealaltă, probabilitatea ca testul să nu fie semnificativ este de
(0.95)2 = 0.90. Probabilitatea ca cel puţin una dintre acestea să fie
semnificativa este 1.00 - 0.90 = 0.10.
•  Dacă vom testa douăzeci de ipoteze nule, probabilitatea ca nici
una dintre ele să nu fie semnificativă este de (0.95)20 = 0.36.
Probabilitatea de a obţine cel puţin un rezultat semnificativ este
1.00 - 0.36 = 0.64.
•  Deci avem o probabilitate aproape egală de a obține un rezultat
semnificativ sau nu.
•  Numărul estimat de rezultate false semnificative este 20 × 0.2 = 1.
Teste de semnificație multiplă
•  Multe studii de cercetare din domeniul sănătății sunt publicate cu
un număr mare de teste de semnificaţie.
•  Acestea de obicei nu sunt independente, referindu-se la
aceeași mulțime de subiecți
•  Dacă vom testa suficient de multe ipoteze, ne putem aştepta să
se identifice ceva "semnificativ", chiar şi atunci când toate
ipotezele nule testate sunt adevărate şi nu este nimic de găsit
acolo.
•  Se cere atenție, în a acorda o importanţa ridicata, pentru un
singur rezultat semnificativ într-o mulțime de rezultate
nesemnificative.
–  acesta poate fi unul din cele douăzeci care este dat numai de șansa
(întâmplare).
Teste de semnificație multiplă

v Mai multe subgrupuri

v Mai multe variabile rezultat


Teste de semnificație multiplă:
mai multe subgrupuri

Williams et al.,1992:
•  Studiu în care s-au alocat aleatoriu pacienţi vârstnici
internați într-un spital în două grupuri: vizitați constant de
către asistenţii sociali, în comparație cu cei pentru care nu
se făcea nici o vizită, cu excepţia cazului în care era
absolută nevoie; pacientii au fost evaluați referitor la
starea fizică, handicap și starea mentală folosindu-se
scala unui chestionar à 6 grupuri (2x3)
–  2 grupuri (vizitati constant si nevizitati)
–  3 grupuri din puncte de vedere al evaluarii (starea fizică, handicap
și starea mentală)
•  Nu au existat diferenţe semnificative generale între
grupul cu intervenţie şi grupul de control!
Teste de semnificație multiplă:
mai multe subgrupuri
Williams et al. 1992:
•  În rândul femeilor cu vârsta de 75-79 din grupul de control
s-a obținut o deteriorare semnificativ mai mare la scorul fizic în
comparație cu grupul cu intervenție (p = 0.04), iar în rândul
bărbaţilor de peste 80 de ani din grupul de control s-a obținut o
deteriorare semnificativ mai mare în scorul referitor la handicap
decât în grupul cu interventie (p = 0.03).
à  Nu se stie exact cate subgrupuri au fost folosite pentru a testa diferenta
intre tratamente
à  Variabilele de grupare: vârstă, sex, dacă trăiesc sau nu singuri à cel
putin 8 subgrupuri
Autorii au declarat:
"Două mici subgrupuri de pacienti au arătat un posibil beneficiu al
intervenţiei asistenților sociali. ... Aceste beneficii trebuie, totuși, să fie
tratate cu prudenţă deoarece se pot datora unor factori de şansă (adică
din întâmplare)."
Teste de semnificație multiplă:
mai multe subgrupuri
Soluție à metoda Bonferronià noi valori p
à daca se obtine semnificatie à testele sunt valide
•  Se vor multiplica valorile p prin numărul de teste.
•  Dacă se obține ceva semnificativ, atunci testul general
referitor la ipoteza nulă compusă este semnificativ.
Exemplu: Williams et al. (1992)
–  Subiecții au fost clasificați pe grupe de vârstă, sex, dacă
trăiesc sau nu singuri (există cel puțin opt grupuri).
–  Ipoteza nulă compusă: există o diferenţă semnificativă între
tratamente pentru cel puţin un grup de subiecţi
à ipoteza testata prin metoda Bonferroni
–  Chiar dacă am lua în considerare cele trei scale separat, valori
reale pentru p sunt 8 × 0.04 = 0.32 şi 8 × 0.03 = 0.24, ambele
mai mari decât 0.05 à Statistic nesemnificativ!
Teste de semnificație multiplă:
mai multe subgrupuri – corecția Bonferroni

•  Ipoteza nulă compusă: există o diferenţă semnificativă


între tratamente pentru cel puţin un grup de subiecţi.
•  Aceasta ipoteza nu este aceeaşi ca ipoteza nulă
referitoare la diferenţa dintre tratamentele care
variază între două grupuri de subiecţi.
à Sunt necesare interacțiuni!
Teste de semnificație multiplă:
mai multe subgrupuri – corecția Bonferroni

•  Ex: studiu clinic efectuat în Newnham et al. (1993)


•  Avem două grupuri: unul de femei însărcinate cărora li
s-au făcut o serie de măsurători a fluxului sanguin prin
ultrasunete Doppler și un grup de control.
•  S-au găsit proporții înalt semnificative pentru greutatea la
naștere sub centila a 3-a și a 10-a (p= 0.006 și p = 0.02).
•  S-au făcut mai mult de două comparări: cel puțin 35 au fost
raportate în lucrare deși numai două dintre acestea au fost
raportate în rezumat.
•  Greutatea la naștere nu a fost variabila rezultat care a
constituit scopul studiului.
Teste de semnificație multiplă:
mai multe subgrupuri – corecția Bonferroni
•  Aceste teste nu sunt independente deoarece toate folosesc
aceleași grupuri de subiecți și astfel variabilele pot să nu fie
independente.
•  Proporțiile pentru greutatea la naștere sub centila a 3-a și a
10-a nu sunt independente.
à Pentru rezolvarea acestei probleme se aplică corecția
Bonferroni.
–  De exemplu, valorile p pot fi ajustate prin 35 × 0.006 = 0.21 și
35 × 0.02 = 0.70.
•  Deoarece testele nu sunt independente, valorile p ajustate
sunt mult prea mari.
•  Acest test este un test conservator (se dau valori mai mari
pentru p, mai degraba decat mai mici à directie
conservatoare)
Variabila rezultat principală și
analiza primară a acesteia

•  În unele studii, în special studii clinice, putem evita


problema testărilor multiple prin specificarea unei variabile
rezultat principala în avans.
•  Este bine să stabilim inițial, de preferinţă, înainte de a
colecta datele, o variabilă specială care este rezultatul
principal.
•  Dacă vom obţine un efect semnificativ pentru această
variabilă, avem dovezi asupra efectului.
•  În caz contrar nu avem dovezi referitoare la efect indiferent
ce se întâmplă cu restul variabilelor.
Metode de
inferenta
pentru medii
Metode de inferență pentru medii

•  Procesul de inferenta statistica = obtinerea


unor concluzii referitoare la date
•  Metode:
–  Intervale de incredere
–  Teste de semnificatie
•  Esantioane:
–  Mari à distributie normala
–  Mici à distributia t
Metode de inferență pentru medii
•  Eșantioane mari
–  O singură medie: Metoda normală (metoda z)
–  Date în perechi: Metoda normală (metoda z)
–  Două eșantioane: Metoda normală (metoda z)
•  Eșantioane mici
–  O singură medie: Metoda t pentru un eșantion
–  Date în perechi: Metoda t pentru eșantioane perechi
–  Două eșantioane: Metoda t pentru două eșantioane
(metoda t pentru eșantioane independente, metoda t
pentru două grupuri)
•  Mai mult de două eșantioane
–  Analiza de varianță unidirecțională (ANOVA)
Metoda pentru eșantioane mari
O singură medie
à  Interval de încredere care folosește distribuția normală.
à Metoda se poate folosi pentru orice eșantion mare.
à Datele pot să provină din orice distribuție.
à  Vom aborda problema estimarii mediei populatiei pe baza
mediei unui esantion si vom compara astfel de medii
Ex: Distribuția greutății la naștere a copiilor în cazul a 1749
sarcini de tip singleton, la mamele caucaziene din sudul Londrei.

Media = 3296.0 g
Frecvența

Abaterea standard, SD = 563.2 g


Eroarea standard a mediei = 13.5 g
Brooke OG, Anderson HR, Bland JM, Peacock
JL, Stewart CM. (1989) Effects on birth weight of
smoking, alcohol, caffeine, socioeconomic
factors, and psychosocial stress. British Medical
Journal, 298, 795-801.
Greutatea la naștere (g)
Metoda pentru eșantioane mari
O singură medie
•  Metode:
–  Intervale de incredere
–  Teste de semnificatie
•  Mediile obtinute din esantioane au o distributie normala
à Pasi: SD in esantion; ES = SD / n ; IC;

1. SD si media in esantion:
Media = 3296.0 g
Frecvența

Abaterea standard, SD = 563.2 g

Brooke OG, Anderson HR, Bland JM, Peacock


JL, Stewart CM. (1989) Effects on birth weight of
smoking, alcohol, caffeine, socioeconomic
factors, and psychosocial stress. British Medical
Greutatea la naștere (g) Journal, 298, 795-801.
Metoda pentru eșantioane mari
O singură medie

2. Calcul ES:
à Interval de încredere (CI) care
folosește distribuția normală.
Media = 3296.0 g,
Abaterea standard:
SD = 563.2 g,
Eroarea standard a mediei:

Frecvența
s / n = 563.2 / 1769
ES = 13.5 g.
à Eșantioane mari: media
eșantioanelor au o distribuție
normală à media = 3296.0 și
SD = 13.5 (estimate din date). Greutatea la naștere (g)
Metoda pentru eșantioane mari
O singură medie

3. IC:
(m-1.96*ES, 1+1.96*ES):

Frecvența
à 95% din observații dintr-o
distribuție normală se află în
intervalul 1.96 × SD de o
parte și de alta a mediei.

95% CI: Greutatea la naștere (g)


Lim inf: 3296.0 - 1.96 × 13.5
Lim sup: 3296.0 + 1.96 × 13.5
à (3270, 3322).
Metoda pentru eșantioane mari
O singură medie
Presupuneri (conditii ce trebuiesc indeplinite
pentru a putea aplica metoda intervalelor):
•  Observațiile sunt independente între ele.
•  Eșantionul trebuie să fie suficient de mare astfel
încât eroarea standard să poată fi bine determinată.
à regulă empirică: 100 observații pentru un grup
Metoda pentru eșantioane mari
Date în perechi
Intervalul de încredere (CI) pentru diferența mediilor care
folosește distribuția normală.
à Avem un esantion dat de diferentele obtinute din cele
doua esantioane in perechi (esantioane in corespondenta)
Ex: Modificările stării de depresie cu ajutorul internetului
Au fost recrutați 525 indivizi cu simptome de depresie
indentificati într-un sondaj, alocați aleator la 3 site-uri web:
•  BluePages care oferă informaţii despre depresie
(n = 166),
•  MoodGYM care se referă la o terapie cognitiv
comportamentă (n = 182)
•  Grup de control care folosește placebo (n = 178).
Christensen H, Griffiths KM, Jorm AF. (2004) Delivering interventions for depression by using the
internet: randomised controlled trial. British Medical Journal 328, 265-268.
Metoda pentru eșantioane mari
Date în perechi
•  Esantioane in perechi = esantioane in
corespondenta (observatiile sunt in corespondenta)
à esantion dat de diferente leobtinute din cele doua
esantioane in perechi
à se calculeaza diferenta intre observatia din primul
esantion si observatia corespunzatoare din cel de-al doilea
esantion.
Metoda pentru eșantioane mari
Date în perechi
Scorul de bază în depresie, după șase săptămâni de tratament
pentru un grup de 525 pacienți cu depresie, obtinut pe baza unui
chestionar cu 20 intrebari (raspunsurile pot lua valori intre 0-3 à
max 60 pct):

à 90 (17%) dintre subiecţii nu au răspuns la chestionar și autorii


au presupus că scorurile lor au rămas neschimbate.
àinitial m>0 si SD ~ ½ din valoarea mediilor à distributie asimetric
pozitiva; modul=90 à nu am distributie normala;
Metoda pentru eșantioane mari
Date în perechi
1: BluePages: 165 de subiecţi (esantion mare)
media diferențelor în scorurile depresiei = 3.9
abaterea standard = 9.1.
2: Eroarea standard a mediei = 0.71
3: Intervalul de 95% încredere pentru media diferențelor este:
Lim inf: 3.9 - 1.96 x 0.71
Lim sup: 3.9 + 1.96 x 0.71
àCI: (2.5, 5.3) puncte pe scala depresiei.
à reprezintă estimarea pentru intervalul de diferențe ale
mediilor punctajelor depresiei intre scorul initial si cel final,
presupunând ca răspunsul non-respondenților este același.
Metoda pentru eșantioane mari
Date în perechi
BluePages: 165 de subiecţi,
media diferențelor în scorurile depresiei = 3.9,
abaterea standard = 9.1,
eroarea standard a mediei = 0.71
Test de semnificație:
Ipoteza nulă: Media schimbărilor în populație este 0;
Ipoteza alternativă: Există o schimbare (în orice direcție)
H0: µ=0; H1: µ≠0
à Eșantioane mari: mediile estimate urmează o distribuție
normală, cu abarerea standard egală cu eroarea standard a
mediei.
à  Diferența dintre media observată în eşantion și media
necunoscută a populației împărţită prin eroarea standard va
urma distribuţia normală standard (statistica testului).
à  -1.96< (µ-m)/SD/√n< 1.96 (95% din valori intre ±1.96)
Metoda pentru eșantioane mari
Date în perechi
Test de semnificație:
Ipoteza nulă: Media schimbărilor în populație este 0;
Ipoteza alternativă: Există o schimbare (în orice direcție)
H0: µ=0; H1: µ≠0

Distributia normala 95%


standard
Z ~ N( µ = 0, σ2 = 1) 2.5% 2.5%

-1.96 0 1.96
à 95% din valori sunt in intervalul:
-1.96< (µ-m)/SD/√n< 1.96
Metoda pentru eșantioane mari
Date în perechi
BluePages: 165 de subiecţi,
media diferențelor în scorurile depresiei = 3.9,
abaterea standard = 9.1,
eroarea standard a mediei = 0.71
Test de semnificație:
Ipoteza nulă: Media schimbărilor în populație este 0.
à Dacă ipoteza nulă este adevărată atunci media observată în
eşantionul împărţită prin eroarea standard (statistica testului)
va urma distribuţia normală standard.
z = (µ-m)/SD/√n= 3.9/0.71 = 5.49.
p = 0.00000004 (vom scrie p <0.0001);
à probabilitatea de a obtine valoarea observata (z=5.49) daca H0 e
adevarata!
à  95%CI: (2.5, 5.3) à 0 nu se află în interval!
à  testul pentru eșantioane mari de distribuție normală pentru o
singură medie, test cunoscut si ca testul z pentru o singură medie.
Metoda pentru eșantioane mari
Date în perechi

Presupuneri:
§  Observaţiile sunt independente.
à Trebuie să avem, de exemplu, un grup de 100 observații astfel
ca pentru 10 subiecți să avem cam 10 observații pentru fiecare.
§  Eşantionul este suficient de mare.
à Regula empirică spune că trebuie cel puțin 100 observații
pentru un grup.
Metoda pentru eșantioane mari
Date independente
Scorul de bază în depresie, după șase săptămâni de tratament
pentru un grup de 525 pacienți cu depresie

Intervalul de încredere pentru diferența mediilor, in cazul


BluePages si MoodGYM:

Diferența = - 0.3 à 3.9 – 4.2 = -0.3


ES (a diferenței) = 0.712 + 0.672 = 0.98
Obs: Testul se aplică doar în cazul grupurilor independente.
Metoda pentru eșantioane mari
Date independente

Se calculeaza un interval de incredere pentru diferenta a 2


medii:m = x1- x2

ES: ES12
ES122 = ES12 + ES22 à ES12

Intervalul de încredere pentru diferența mediilor:


Diferența = - 0.3 à 3.9 – 4.2 = -0.3
ES (a diferenței) = 0.712 + 0.672 = 0.98
Intervalul de 95% încredere pentru media diferențelor este:
Lim inf: -0.3 - 1.96 x 0.98
Lim sup: -0.3 + 1.96 x 0.98,
à (-2.2, +1.6) puncte pe scala depresiei
à contine valoarea 0
Metoda pentru eșantioane mari
Date independente

Ipoteza nulă pentru testarea egalitatății mediilor


(BluePages vs MoodGYM).
Diferența = -0.3,
2 2
ES (a diferenței) = 0.71 + 0.67 = 0.98
Dacă ipoteza nulă este adevărată: diferența/eroarea standard (statistica
testului) va avea o distribuție normală standard.à H0: Dif 12=0 à m1=m2
Diferența/eroarea standard = -0.3/0.98= -0.31
Pentru distribuția normală p = 0.76.
95%CI: (-2.2, +1.6) à 0 se află în interval!
à testul z pentru eșantioane mari idenpendente sau
testul z pentru două medii.
Metoda pentru eșantioane mari
Date independente

BluePages vs Control:
Diferența = 2.9 (3.9 – 1.0)
Eroarea standard a diferenței = 0.95
95%CI: (1.0, 4.8) – 0 nu se află în interval!
Diferența/eroarea standard = 2.9/0.95=3.05
àPentru distribuția normală p = 0.002.
MoodGYM versus Control:
Diferența = 3.2,
Eroarea standard a diferenței = 0.92
95%CI: (1.4, 5.0) – 0 nu se află în interval!
Diferența/eroarea standard = 3.2/0.92=3.48
à Pentru distribuția normală p = 0.0005.
Metoda pentru eșantioane mari
Date în perechi
Presupuneri:
•  Observaţiile şi grupurile sunt independente între ele.
à Nu trebuie să existe legături între observaţiile dintre
cele două grupuri, precum ar fi un studiu în care fiecare
subiect într-un grup este relaționat, de exemplu, prin
vârstă şi sex, cu un subiect din celălalt grup.
•  Eșantioanele trebuie să suficient de mari pentru ca
erorile standard să fie bine estimate iar mediile trebuie
să aibă o distribuţie normală.
à Regula empirică spune că pentru un singur eșantion
ar trebui să avem cel puţin 100 de observaţii iar pentru
două eşantioane de cel puţin 50 de observații în fiecare.
Bibliografie

•  Clinical Biostatistics, by Martin Bland, University of York


•  Statistical reasoning for Public Health, John McGrady, Johns Hopkins
Bloomberg School of Public Health
•  Introduction to Medical Statistics, John Chen, Stony Brook University
School of Medicine
•  Biostatistica pentru studenti – E Panaitescu, L Iliuta, E Poenaru,
Marius Rac Albu, Editura ‘Carol Davila’, 2013
•  Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
•  www.mste.uiuc.edu/hill/dstat/dstat.html
•  www.stats.gla.ac.uk/steps/glossary/paired_data.htm
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS VII

Elena Poenaru PhD, MSc, MBA


Cuprins:
•  Teste de semnificatie pentru
esantioane mici
•  Analiza datelor calitative
–  Testul Hi-patrat
–  Testul Fischer
•  Riscul relativ - RR
•  Riscul relativ estimat - OR
•  Corelatia
•  Regresia
Metode de inferenta
pentru medii,
esantioane mici
Distribuția t Student
•  Familia de distribuții t cu un parametru:
à numărul gradelor de liberate.
•  Cu cât numărul gradelor de libertate crește cu atât
distribuția t tinde să devină mai apropiată de distribuția
normală standard!
1 grad de libertate 4 grade de libertate

probabilitate
Densitate de
probabilitate
Densitate de

t t
Distribuția normală
20 grade de libertate standard
probabilitate

probabilitate
Densitate de

Densitate de
t t
Distributia t
Puncte de tăietură 5% pentru
distributia t cu 4 grade de libertate
Densitate de probabilitate

1.96 pentru
distributia
normala
Valoarea
H0 depinde de
adevărată
marimea
esantionului

Regiune de
acceptare

t cu 4 grade de libertate
Puncte de taietură din distributia t
Metoda t pentru esantioane mici
•  Problema estimarii mediei populatiei pe baza
observatiilor provenite de la un esantion mic
Ex: 9 pacienți cu răni cronice nevindecte
(Shukla et al., 2004).
Biopsiile au fost evaluate folosind scorul obținut cu ajutorul unui
sistem care gradează angiogeneza microscopică (MAGS) și
care furnizează un indice care evaluează cât de bine vasele
mici de sânge sunt în curs de dezvoltare, prin urmare,
evaluează regenerarea epitelială;
* scorurile mari sunt cele mai bune.
Cele nouă observaţiile au fost: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7
Abaterea standard = 12.5
Eroarea standard a mediei = 4.2
Shukla VK, Rasheed MA, Kumar M, Gupta SK, Pandey SS. (2004) A trial to determine the role of placental extract
in the treatment of chronic non-healing wounds. Journal of Wound Care 13, 177-9,
Metoda t pentru esantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7
Abaterea standard = 12.5
Eroarea standard a mediei = 4.2

Interval de încredere 95% pentru medie, esantioane mari:

(media – 1.96 × ES, media + 1.96 × ES)

ES = eroarea standard a mediei

Nu putem folosi metoda pentru eșantioane mari bazată pe


distribuția normală deoarece esantionul este prea mic!
à În acest caz eroarea standard nu este suficient de bine
estimată!
Valori critice pentru distributia t
Valori critice (puncte de tăietura) pentru
distributia t

à t-score similar cu z-score aplicat pentru t –dist in loc de


z-dist
à similar pentru probabilitati si valori critice
à valorile depind de df
Puncte de tăietură din distribuția t

à Valoarea t pentru α = 0.05


Metoda t pentru eșantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7,
Abaterea standard = 12.5,
Eroarea standard a mediei = 4.2.

Interval de încredere pentru medie, 95%:

(media – t0.05 × ES, media + t0.05 × ES)

t0.05 = 2.31 à CI 95% à (41.7 – 2.31 × 4.2, 41.7 + 2.31 × 4.2)

à CI (32.0, 51.4) unități MAGS

* Calculele sunt valabile daca observatiile provin dintr-o populatie normal


distribuita
Distributia t
Punct critic 5% pentru
distributia t cu 8 grade de libertate

Resping H0 Resping H0
Regiune de
acceptare H0
- 2.31 2.31

Punct distributia t cu 8 grade de libertate


Metoda t pentru esantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7
Abaterea standard = 12.5
Eroarea standard a mediei = 4.2

Interval de 95% încredere pentru medie:


(media – t0.05 × ES, media + t0.05 × ES)

Ce este t0.05?
à valoare care provine din distributia Student t
à t0.05 este punctul de tăietură 5% bilateral al distribuției t cu
un număr de grade de libertate (numarul de observatii
minus unu)
Metoda t pentru esantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7
Abaterea standard = 12.5
Eroarea standard a mediei = 4.2

Interval încredere pentru medie, 95%:


(media – t0.05 × ES, media + t0.05 × ES)

Ce este t0.05?
à t0.05 este punctul de tăietură 5% bilateral al distribuției t cu
un număr de grade de libertate egal cu numarul de
observații minus unu.
à 9 observatii à 8 grade de libertate.
Metoda t pentru eșantioane mici

•  Valoarea ttest > t(0.05, df) à resping H0, accept H1


•  Valoarea ttest < t(0.05, df) à accept H0

Aria este p –value

critic critic
Metoda t pentru eșantioane mici

•  Observatiile si grupurile sunt independente între ele


•  Observatiile din esantion provin dintr-o populatie cu o
distributie normală
•  Omogenitatea esantioanelor (esantioane perechi)
Analiza datelor
calitative
Analiza datelor calitative
Datele calitative, date nominale sau categoriale
à atunci când se pot clasifica subiecţii în două sau
mai multe categorii.
* Variabilele cu doar două categorii sunt numite
dihotomice sau binare.
Metode:
Ø  Testul hi-pătrat de asociere
Ø  Testul Fisher exact,
Ø  Raportul riscurilor (RR), riscul relativ sau raportul
șanselor,
Ø  Raportul cotelor (OR) sau riscul relativ estimat.
Tabele de contingență
Tabel de contingenta pentru două variabile categoriale

Acceptarea testului HIV în funcție de grupele stării civile


(Meadows et al., 1994)

Meadows J, Jenkinson S, Catalan J. (1994) Who chooses to have the HIV antibody test
in the antinatal clinic? Midwifery 10, 44-48.
Tabele de contingență
Tabel de contingenta pentru variabile categoriale de tip r × c

•  tabel cu doua intrari, sau tabel de tip 4 × 2.

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Tabele de contingență
à Testarea ipotezei nule
à H0: nu există nici o relaţie (asociere) între cele două
variabile de tip categorial
•  Eșantion mare à testul hi-pătrat.
•  Eșantion mic à testul Fisher exact.

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
2
Testul pentru un esantion mare, χ (chi-squared), in care distributia
esantionului este distributia hi-patrat, cand ipoteza nula este
adevarata.
•  H0 à nu există nici o asociere între cele două variabile
•  H1 à există o asociere de un anumit tip.

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
Proporţia celor care au acceptat testul HIV: 134/788.
à din 486 de persoane căsătorite ne aşteptăm (estimăm) ca
486 × 134/788 = 82.6 să accepte testul HIV, dacă ipoteza
nulă referitoare la asociere este adevărată.

82.6

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
Proporţia de persoane care au refuzat testul este = 654/788.
à  Deci din 486 de persoane căsătorite, ne aşteptăm ca 486 ×
654/788 = 403.4 să refuze testul, dacă ipoteza nulă este
adevărată.
à  Frecventele estimate pentru persoanele casatorite sunt:
82.6 + 403.4 = 486
à suma frecventelor asteptate = suma frecventelor observate

82.6 403.4

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
à  Pentru 222 persoane necasătorite care au un partener, ne
aşteptăm ca 222 × 134/788 = 37.8 să accepte testul HIV, dacă
ipoteza nulă este adevărată.
à  Pentru 222 persoane necasătorite care au un partener ne
aşteptăm ca 222 × 654/788 = 184.2 să refuze testul dacă ipoteza
nulă este adevărată à obs: 37.8 + 184.2 = 222.

82.6 403.4
37.8 184.2

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
82.6 + 37.8 + 8.5 + 5.1 = 134.0
403.4 + 184.2 + 41.5 + 24.9 = 654.0.
à Frecvenţele observate şi cele estimate au același total pe
rânduri şi pe coloane.

82.6 403.4
37.8 184.2
8.5 41.5
5.1 29.9

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
Formula generala de obtinere a frecventelor estimate in cazul
in care H0 este adevarata:
total linie x total coloana
total general

82.6 403.4
37.8 184.2
8.5 41.5
5.1 29.9

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
à Se compară frecvenţele observate cu cele estimate.
à Σ [(observat - aşteptat)2/aşteptat] (pentru fiecare celulă)
à statistica testului χ2 = 10.57
à Dacă ipoteza nulă este adevărată și dimensiunea eșantioanelor
este suficient de mare, atunci această statistică urmează distribuția
hi-pătrat, adesea notată cu χ2.

82.6 403.4
37.8 184.2
8.5 41.5
5.1 29.9

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Distribuția hi-pătrat χ2
à Familii de distribuții χ2, cu un parametru - grad de libertate.
à Statistica testului X2
Densitate de df = (r-1)x(c-1)

Densitate de
probabilitat

probabilitat
e

e
1 grad de libertate 3 grade de libertate

Densitate de
Densitate de

probabilitat
probabilitat

e
e

6 grade de libertate 15 grade de libertate


Puncte de tăietură în distribuția hi-pătrat

Nr gradelor de
libertate d.f.:
d.f.= (r-1)x(c-1)

à Pentru a identifica
membrul familiei
distribuției χ2
Distribuția hi-pătrat χ2
Puncte de tăietură în distribuția hi-pătrat
Densitate de probabilitate
Proprietate:
df=3 Media distributiei = df
2 df=3
7.81 χ critic

χ2 =10.57

χ2cr = 7.81
χ2cr > χ2

p = 0.027 = 0.03
Hi-pătrat cu 3 grade de libertate (d.f.)

•  Nu exista o formula simpla pt a calcula aria de sub grafic,


adica probabilitatea de a depasi o anumita valoare data!
à sunt metode matematice de aproximare pentru calculul valorilor
care trebuie depasite pentru a respinge H0
Testul hi-pătrat pentru asociere

df=3

χ2 =10.57

χ2cr = 7.81

χ2cr > χ2

p = 0.027 = 0.03

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Puncte de tăietură în distribuția hi-pătrat

•  Pentru a respinge H0 statistica testului trebuie sa depaseasca valoarea


din tabel, corespunzatoare gradelor de libertate si probabiliatii alese
Testul hi-pătrat pentru asociere
•  Statistica testului urmează o distribuție hi-pătrat care
furnizează valori așteptate (estimate) destul de mari.
•  Acesta este un test care se folosește în cazul în care
eșantioanele sunt destul de mari.
•  Cu cât sunt mai mici valorile estimate cu atât testul va deveni
mai nesigur.
•  Criteriul convențional pentru ca testul să fie valid:
–  cel puţin 80% din frecvenţele estimate depăşesc valoarea
5 şi toate frecvenţele estimate depăşesc valoarea 1.
•  In cazul neindeplinirii conditiei se recomanda folosirea
testului Fisher
•  Testul hi-pătrat pentru asociere este, de asemenea,
cunoscut și sub numele de testul hi-pătrat Pearson.
Testul hi-pătrat pentru asociere
•  Statistica hi-pătrat nu este un index al puterii de asociere.
•  Dacă dublăm frecvențele, valoarea statisticii testului se
dublează și ea, însă puterea de asociere rămâne
neschimbată.
•  Resping H0 à exista o asociere intre variabile, dar nu stiu
directia asocierii à exista indici de putere (masuri de
asociere) care indica puterea relatiei si cat de mult din variatia
unei variabile poate fi asociata cu variatia celeilate variabile
–  Masuri de asociere (directia, putere)
•  Lambda, Cramer (una dintre variabile este nominală)
–  (0,1) numai putere
•  Somers (ambele variabile sunt ordinale)
–  (1,1) directie +putere
* 0-0.1 relatie slaba; 0.1-0.2 relatie moderata, 0.2-0.3 relatie
puternic moderata; >0.3 relatie puternica
Testul Fisher exact
•  Este, de asemenea, cunoscut și sub numele de testul exact
Fisher-Irwin.
•  Aceasta se poate aplica pentru orice tip de eşantion.
•  Este un test unilateral
•  Este folosit în general numai pentru eșantioane mici în tabele
de tip 2 x 2
•  Se genereaza toate tabelele cu totalurile pe linii si coloane
Se calculează probabilitățile tuturor tabelelor posibile care au
date totalurile pe randuri și coloane.
•  Se însumează apoi probabilităţile pentru toate tabelele pentru
care am obținut probabilități mai mici decât cea observată.
Testul Fisher exact
Testul hi-pătrat pentru asociere: χ2 =10.57 d.f. = 3, p = 0.027
Testul Fisher exact: p = 0.029
à Rezultate asemanatoare pentru cele doua teste
Riscul relativ - RR
Riscul relativ estimat - OR
Raportul riscurilor RR (riscul relativ)

•  Riscul relativ se utilizeaza in studiile de cohorta, in studiile


prospective care urmaresc un grup intr-o perioada de timp
si atunci cand se doreste o estimare a efectul tratamentului
sau a factorului de risc;
•  Riscul reprezinta probabilitatea ca un eveniment sa se
intample.
Raportul riscurilor RR (riscul relativ)
•  Se dorește o estimare a dimensiunii “efectul tratamentului”
•  Diferenţa dintre proporții: 0.538 - 0.284 = 0.254 sau de 53.8%
- 28.4% = 25.4% (diferența riscului).
•  Proporția de vindecați (probabilitatea) se numeşte
“riscul” (probabilitatea) de vindecare pentru această populaţie.
•  Raportul riscurilor = 53.8/28.4 = 1.89 (>1)
•  Acesta este cunoscut și sub denumirea de risc relativ,
raportul ratelor sau RR.

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul riscurilor RR (riscul relativ)
•  Diferenţa dintre proporții: 0.538 - 0.284 = 0.254 sau
53.8% - 28.4% = 25.4% (diferența riscului).
–  Proporția de vindecați (probabilitatea) se numeşte
“riscul” (probabilitatea) de vindecare pentru această populaţie.
–  Raportul riscurilor = 53.8/28.4 = 1.89 (>1)

•  RR = 1 à nu am diferente intre grupuri in ceea ce priveste


riscul
•  RR > 1 à rata pentru acel eveniment este mai ridicata
comparativ cu cea din grupul control
•  RR < 1 à rata pentru acel eveniment este mai scazuta
comparativ cu cea din grupul control
•  RR este adesea insotit de 95% CI
–  Daca CI pentru RR nu include 1 (nici o diferenta in ceea ce priveste
riscul) à exista semnificatie statistica
Raportul riscurilor RR (riscul relativ)
Test echivalent cu hi-patrat:
•  H0: proportia de vindecati cu bandaj elastic = proportia de
vindecati cu bandaj inelastic
•  Statistica testului = diferenta proportiilor/eroarea standard
~ N(0,1); H0 adevarata

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul riscurilor RR (riscul relativ)
•  Raportul riscurilor = 53.8/28.4 = 1.89
•  RR este o estimare a riscului
•  RR fiind raport are o distributie foarte dificilă (asimetrică!)
à deoarece variatia numitorului produce efecte mari vom
considera logaritmul raportului ratelor
–  Distribuţia devine în acest caz aproximativ normală şi se
poate calcula simplu o eroare standard când frecvențele
nu sunt mici.

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul riscurilor RR (riscul relativ)
•  Raportul riscurilor: RR = 53.8/28.4 = 1.89
•  Loge(RR) = 0.6412
•  SE pentru Loge(RR) = 0.2256.
•  95% încredere pentru Loge(RR):
•  (0.6412 – 1.96×0.2256, 0.6412 + 1.96×0.2256) =
= (0.1990, 1.0834).
•  95% încredere pentru RR: (exp (0.1990), exp (1.0834)) =
(1.22, 2.95)

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul riscurilor RR (riscul relativ)
•  Loge(RR) = 0.6412, 95% CI: (0.1990, 1.0834).
•  Raportul riscurilor, RR = 53.8/28.4 = 1.89, 95% CI: (1.22, 2.95).
•  Valoarea RR nu este mijlocul intervalului.
–  Intervalul este simetric pe scala logaritmică și nu pe scala naturală.
•  Testul hi-pătrat pentru asociere: X2 = 8.87, p = 0.0029.
–  Metoda valabila pentru esantioane mari (toate frecventele ≥ 5)
–  Daca una dintre frecvente este zero RR poate fi zero sau nu se poate
calcula; nu se pot calcula nici limitele CI

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul cotelor OR (riscul relativ estimat)
•  Este o modalitate de a compara pacientii care au deja conditii
certe de boala (grupul caz) cu cei care nu au (control)
à studii “caz-control”
•  Cota = raportul dintre numarul de apariții ale unui eveniment
și numărul de neapariții ale evenimentului.
–  Ex: la fiecare doua nasteri se naste un baiat à cota pentru
cazul in care un baiat se naste va fi de 1:1 (50:50) =1/1=1
–  Ex: daca unul dintre 100 pacienti sufera de efecte secundare in
cazul unui tratament à cota = 1/99 = 0.0101 (1:99)
•  Raportul cotelor = raportul dintre cota celor cu factor de risc si
cei din grupul control
–  OR=1 à nici o diferenta intre grupuri
–  OR >1 à rata de aparitie a evenimentelor este mai crescuta in
grupul pacientilor expusi fata de cei din grupul control
–  OR <1 à rata de aparitie a evenimentelor este mai scazuta in
grupul pacientilor expusi fata de cei din grupul control
Raportul cotelor OR (riscul relativ estimat)

•  Metoda de estimare a relatiei pentru un tabel tip 2x2 este


raportul cotelor sau riscul relativ estimat
•  Riscul de vindecare = vindecati/total= 35/65 = 0.538
•  Cota de vindecare = vindecati/nevindecati= 35/30 = 1.17
•  Riscul = numărul de apariții a evenimentului împărţit la
numărul total.
•  Cota = raportul dintre numarul de apariții și numărul de
neapariții ale evenimentului.

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul cotelor OR (riscul relativ estimat)
•  Cota de vindecare cu bandaje elastice = 35/30 = 1.17
•  Cota de vindecare cu bandaje inelastice = 19/48 = 0.40.
35/30 1.17
Raportul cotelor = = = 2.95
19/48 0.40
•  de 2.95 ori mai multe persoane se vor vindeca dacă folosesc
bandaje elastice prin comparație cu cei care folosesc
bandaje inelastice.

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul cotelor OR (riscul relativ estimat)
•  Raportul cotelor OR = (35/30)/(19/48) = 2.95.
•  Ca și RR, OR are o distribuție dificila si asimetrica; intervalul
de încredere va fi estimat în acelaşi mod.
•  Se va folosi logaritmul raportului cotelor pentru a aproxima
această distribuţie cu distribuția normală, astfel incat sa se
poata calcula simplu o eroare standard când frecvențele nu
sunt mici.
•  OR este adesea insotit de 95% CI
–  Daca CI pentru OR nu include 1 (nici o diferenta in ceea
ce priveste riscul) à exista semnificatie statistica
Raportul cotelor OR (riscul relativ estimat)
•  Raportul cotelor OR = (35/30)/(19/48) = 2.95.
•  loge(OR)=loge (2.95)=1.0809
•  SE loge(OR)= 0.3679
•  95% CI pentru loge(OR): (0.3598; 1.8020)
= (1.0809 - 1.96 × 0.3679; 1.0809 + 1.96 × 0.3679)
•  95% CI pentru loge(OR): (1.43; 6.06)
(exp(0.3598), exp(1.8020))

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul cotelor OR (riscul relativ estimat)
•  loge(OR)=loge (2.95)=1.0809, 95% CI: (0.3598; 1.8020).
•  Raportul cotelor, OR = (35/30)/(19/48) = 2.95,
•  95% CI: (1.43; 6.06).
•  OR nu se află în mijlocul intervalului de încredere.
•  Intervalul este simetric pe scara log și nu pe scară naturală.

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul cotelor OR (riscul relativ estimat)
•  Raportul cotelor pentru vindecați:
OR = (35/30)/(19/48) = 2.95.
à Nu contează ordinea!
•  Raportul cotelor pentru tratament:
OR = (35/19)/(30/48) = 2.95.
à Ambele versiuni dau OR
à (35×48)/(30×19) = 2.95 à numim acest raport
raport de produse încrucişate.

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Raportul cotelor OR (riscul relativ estimat)
•  Schimbând ordinea rândurilor sau coloanelor se inversează
raportul de cote. Raportul cotelor pentru cei nevindecați la care
s-a folosit bandajul elastic în raport cu cel inelastic:
OR = (30/35)/(48/19) = 1/2.95=0.33.
•  Există numai două rapoarte posibile.
–  Pe scara logaritmică sunt egale și de semn opus.
•  loge(2.95) = 1.082 şi loge(0.339) = -1.082

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Folosirea lui OR si a lui RR
•  Inversarea coloanele nu duce la obținerea valorii inverse
pentru raportul riscurilor.
•  Raportul riscurilor pentru nevindecați considerând bandajul
elastic: RR = (30/65) / (48/67) = 0.644.
•  Raportul riscurilor pentru vindecați considerând bandajul
elastic:
RR = (35/65) / (19/67) = 1.89 à 1/1.89 = 0.529 și nu 0.644.

Vindecarea rănilor pentru pacienți cu ulcer la gambă în funcție de tipul de bandaj


(Callam et al., 1992)
Corelatia
Corelaţia
•  In statistica adesea apar probleme de tipul:
–  Pentru aceeasi populatie avem doua seturi de date
corespunzatoare pentru doua variabile distincte;
–  Intre cele doua variabile exista vreo legatura (relatie)?
•  care este aceasta relatie, daca exista?
•  cum sunt aceste variabile asociate?
–  Relatiile pe care le discutam sunt relatii matematice care permit
anticiparea comportamentului unei variabile in functie de
comportamentul celeilalte, nu sunt neaparat de tip cauza-efect
–  Ex: Doctorii care testeaza un nou medicament prescriu cantitati
diferite si observa raspunsul pacientilor;
à intrebare: cantitatea de medicament prescrisa determina
timpul de insanatosire al pacientului?
Corelaţia
•  In cazul in care pentru o populatie avem doua seturi de date
corespunzatoare la doua variabile distincte se formeaza
perechile de date (x, y), in care x este valoarea primei
variabile si y este valoarea celei de-a doua variabile.
•  O pereche ordonata de date (x, y) se numeste data
bidimensionala.
–  Variabila X (valorile xi) se numeste variabila de intrare -
variabila independenta;
–  Variabila Y (valorile yi) se numeste variabila de iesire -
variabila dependenta.
–  Variabila de intrare X este cea masurata sau controlata
pentru a prezice variabila Y .
Corelaţia
•  Analiza de corelatie are ca obiectiv sa stabileasca legatura
dintre cele doua variabile;
•  In cazul problemelor de analiza a corelatiei dintre doua
variabile datele esantionului se reprezinta sub forma unei
diagrame de imprastiere.
•  O diagrama de imprastiere sau nor de puncte este
reprezentarea grafica a perechilor de date, intr-un sistem de
coordonate ortogonal.
–  Valorile x ale variabilei de intrare X sunt reprezentate pe axa Ox,
iar valorile y ale variabilei de iesire Y, pe axa Oy.
Corelaţia

àcând studiez legătura


între două variabile
numerice aleg un
eşantion, apoi datele
provenite din
măsurătorile efectuate
asupra indivizilor sunt
inregistrate
Corelația
Ex: Datele referitoare la rezistență (forţa musculară) și
înălțime pentru 41 de bărbați alcoolici (Hickish et al., 1989).

Corelaţia: Scatter Plot


•  Exista o relatie

Forța muculară (newtoni)


liniara intre doua
variabile?

(rezistența)
à exista corelatie
intre ele?
•  Coeficientul de
corelatie arata cat de
puternica este aceasta
relatie Înălțimea (cm)
Hickish T, Colston K, Bland JM, Maxwell JD. (1989) Vitamin D deficiency and muscle
strength in male alcoholics. Clinical Science 77, 171-176.
Corelația
•  Coeficientul de corelatie masoara puterea de asociere, sau
puterea relatiei, intre doua variabile cantitative

•  Fiecare punct reprezinta un


subiect (rezistenta Y, inaltime X);

Forța muculară
•  Tendinta: barbatii mai inalti au

(rezistența)
(newtoni)
forta mai mare.
•  Cel mai inalt nu are forta cea mai
mare si nici cel mai mic forta cea
mai mica
à corelatia ne permite sa Înălțimea (cm)
masuram cat de aproape este
asocierea
Corelaţia
Funcţii EXCEL: CORREL(), PEARSON()
à Funcţiile au două argumente care sunt domeniile care
contin cele două serii de date.
•  Coeficientul de corelatie Pearson poate fi calculat doar in
cazul datelor care provin dintr-o distributie normala
•  Coeficientul de corelatie Spearman poate fi calculat in cazul
in care datele nu provin dintr-o distributie normala

Coeficientul de corelaţie Spearman


à Daca X şi Y nu pot fi obţinute prin măsurători
coeficientiul de corelatie se va calcula, cu formula
6∑ d k Pentru X, Y ordinale, dk – diferenţa rangurilor pentru
ro = 1 − concurentul k (ex: rangurile acordate concurenţilor
n(n 2 − 1) de către doi arbitri)
Corelația
•  Daca pentru valorile x, care cresc, ale variabilei de
intrare X, exista o deplasare clara, bine definita, a
valorilor y ale variabilei Y, atunci spunem ca avem
corelatie.
–  corelatie pozitiva in cazul in care y tinde sa creasca
odata cu cresterea lui x
–  corelatie negativa in cazul in care y tinde sa descreasca
odata cu cresterea lui x.
•  Cat de puternica este corelatia?
à cu cat se schimba y atunci cand x creste?
Corelația

àCand nr de tigări
creste, capaciatea
creste scade pulmonara tinde să scada
à Cele 2 variabile
covariază în directii opuse

Media produsului de abateri este o


măsură a modului în care cele 2 variabile
se modifică împreună!
Corelația

1
creste scade C=
n −1
∑ (
xk − m X )( y k
− mY )
Cov( X , Y ) 2 ≤ Var ( X ) ⋅Var (Y )

C − 53.75
rX ,Y = = = -0.96
s X sY 55.90
Corelația
•  Coeficientul de corelatie se bazeaza pe diferentele (abaterile)
dintre fiecare observatie si media sa:
X-mX, Y-mY; unde mX, mY - mediile celor doua serii de date

à Coeficientul de corelatie (teoretic)

Cov( X , Y )
ρ( X , Y ) = ∈ [−1,1]
Var ( X ) ⋅ Var (Y )

ρ( X , Y ) = 0 à Cele doua variabile aleatoare sunt independente

ρ( X , Y ) = 1 sau - 1 à  în cazul în care între variabile există o


relaţie liniară:
Y = a+bX (cu b>0 sau b<0)
Corelația
•  Coeficientul de corelatie liniara r masoara cat de puternica
este corelatia liniara dintre cele doua variabile.
–  Consistenta efectului pe care-l are schimbarea valorii variabilei
independente X asupra variabilei dependente Y.
–  Valoarea coeficientului de corelatie liniara r permite sa se formuleze un
raspuns la ıntrebarea:
“exista o corelatie liniara ıntre cele doua variabile considerate?”
•  Coeficientul de corelatie liniara r are valori ıntre −1 si +1.
–  r = +1 à corelatie liniara pozitiva perfecta,
–  r = −1 à corelatie liniara negativa perfecta.
–  r = 0 à nu exista corelatie intre variabile
–  r = 0 – 0.2 à corelatie foarte slaba ori deloc
–  r = 0.2 – 0.4 à corelatie slaba
–  r = 0.4 – 0.6 à corelatie rezonabila
–  r = 0.6 – 0.8 à corelatie ridicata
–  r = 0.8 – 1.0 à corelatie puternica
Corelația

•  Daca perechile (x, y) tind sa urmeze o dreapta spunem ca


avem o corelatie liniara.

•  Daca toate perechile (x, y) se gasesc pe o dreapta, care nu


este nici orizontala nici verticala, atunci consideram ca
exista o corelatie liniara perfecta.

OBS: Daca toate perechile de variabile (x, y) se gasesc pe o


dreapta orizontala sau verticala nu exista corelatie intre cele
doua variabile, schimbarea uneia nu afecteaza valoarea
celeilalte.
Corelația
•  Intre 0 si 1 exista o valoare numita punct de decizie care
indica daca exista sau nu exista corelatie liniara.
•  Un punct simetric exista si intre −1 si 0.
•  Valoarea punctului de decizie depinde de marimea
esantionului.
Coeficientul de corelație
•  Coeficientul de corelatie se bazeaza pe diferenta (abaterea)
dintre observatie si media seriei de valori:
X-mX, Y-mY; unde mX, mY - mediile celor doua serii de date
•  Vom însuma produsele de abateri pentru toți subiecții.
•  Se traseaza media pentru
forta musculara si

Forța muculară (newtoni)


Media înălțimii
media pentru inaltime
prin doua linii

(rezistența)
Media
rezistenț
Sumă de produse în ei
jurul mediei!
N

∑( x k − mX ) ( yk − mY )
i=1
Înălțimea (cm)
Coeficientul de corelație
•  Coeficientul de corelație r.
•  Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)

r = 0.42.
(rezistența)

Corelaţia este pozitivă și


destul de scăzută.

Înălțimea (cm)
Coeficientul de corelație
•  Corelaţia este pozitivă când valori mari ale unei variabile
se asociază cu valori mari ale celeilalte variabile.
Variabila Y

Variabila X
Coeficientul de corelație
•  Corelaţia este pozitivă când valori mari ale unei variabile
se asociază cu valori mari ale celeilalte variabile.
Variabila Y

Variabila X
Coeficientul de corelație
•  Corelaţia este negativă când valori mari ale unei
variabile se asociază cu valori mici ale celeilalte
variabile.
Variabila Y

Variabila X
Coeficientul de corelație
•  Corelaţia este negativă când valori mari ale unei
variabile se asociază cu valori mici ale celeilalte
variabile.
Variabila YY
Variabila

Variabila
Variabila XX
Coeficientul de corelație
•  r = +1.00 când valori mari ale unei variabile sunt
asociate cu valori mari pentru cealaltă variabilă şi
punctele se află exact pe o linie dreaptă
à corelatie puternica
Variabila YY
Variabila

Variabila
Variabila XX
Coeficientul de corelație
•  r = -1.00 când valori mari ale unei variabile sunt asociate
cu valori mici pentru cealaltă variabilă şi punctele se află
exact pe o linie dreaptă.
Variabila Y

Variabila X
Coeficientul de corelație
•  r = 0.00 în cazul în care nu avem o relație liniară.
•  Valori mari ale unei variabile sunt asociate atat cu
valori mici cat si cu valori mari ale celeilalte variabile;
nu exista un anumit sens!

Variabila Y

Variabila X
Coeficientul de corelație
•  Este posibil ca r = 0.00 în cazul în care avem o relație
aproape perfectă însă aceasta nu este liniară.
Variabila Y

Variabila X
Teste pentru coeficientul de corelație

•  Putem testa ipoteza nulă pentru a stabili daca coeficientul


de corelație în populaţie este zero.
•  H0: r=0 à nu avem relatie de tip liniar
–  Presupunere: observațiile sunt independente și cel puţin
una dintre variabilele urmează o distribuţie normală.
•  Abateri mari de la aceste presupuneri fac ca valoarea p
pentru acest test să fie foarte instabilă.
•  r = 0.42. p = 0.006.
•  Programele de analiză statistică dau, aproape întotdeauna, o
valoare p în momentul în care raportează un coeficient de
corelaţie.
Coeficientul de determinatie R
•  r = 0.42
•  R2 = 0.176, 17.6% din variatia variabilei Y este data de
variatia variabilei X
•  à cu cat R2 este mai aproape de 1 cu atat va fi mai puternica
corelatia
Forța muculară (newtoni)
(rezistența)

Înălțimea (cm)
Teste pentru coeficientul de corelație
•  Se poate calcula un interval de încredere pentru
coeficientul de corelație în populaţie.
–  Presupunere: ambele variabile urmează distribuţii normale.
•  Abateri mari de la aceste
presupuneri fac ca valoarea p
pentru acest test să fie
foarte instabilă.

Forța muculară (newtoni)


•  r = 0.42. p = 0.006.

(rezistența)
•  95% CI aproximativ: (0.13, 0.64).
•  Programele de analiză statistică
dau rar un astfel de
interval de încredere.
Înălțimea (cm)
Analiza de corelație și regresie
Ø  Coeficientul de corelatie à masoara puterea de
asociere sau puterea relatiei intre doua variabile
cantitative

Ø  Analiza de corelatie si regresie à metoda de analiza a


datelor cantitative, obtinute ca rezultat al unei
masuratori
Regresia
Regresia
•  Analiza de regresie à cum variaza un set de date fata de celalalt
•  Daca valoarea coeficientului de corelatie liniara r indica o
corelatie liniara stransa atunci se pune problema stabilirii unei
relatii numerice exacte
à Relatia exacta este obtinuta prin regresie liniara.
•  In general statisticianul cauta o ecuatie care exprima relatia dintre
doua variabile
à ecuatii de predictie:
à Regresia liniara
stabileste
dependenta ın
medie a lui y ın
functie de x.
Regresia
Y
Întrebare: există o legătură
(asociere) între variabilele X şi Y?
y
Dată o valoare x a variabilei X,
putem “previziona” valoarea X
x
corespunzătoare a variabilei Y?
Y
Legătură liniară?
Y = α + βX
y
Permitem ca valorile lui Y să aibă
o mică “abatere aleatoare”
X
x
Obs: ε este “eroarea”
Regresia
Y
În practică dispunem de
eşantioane de valori
“perechi”?
Valoare prezisa
y1
Y = α + βX
yi Eroarea εi
Estimăm α şi β din y2
datele eşantionului
(metoda celor mai mici Valoare
observata
pătrate)
à dreapta de regresie X
x1 xi x2
Regresia
Întrebare: există o legătură
(asociere) liniară între
variabilele X şi Y?
Răspuns “corect”: DA
(coeficient de corelaţie = r)

r apropiat de 1

r apropiat de 0
Regresia liniară simplă
Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) in cm la 86 femei (Malcolm Savage)
•  Ce este o relație?
•  Regresia: Putem prezice BMI cu ajutorul CA?

•  Regresia:
prezicerea unei variabile

BMI(kg/m2)
cu ajutorul altor variabile
•  Exista o relatie intre
BMI si CA (din diagrama)?

Circumferință abdominală
CA (cm)
Regresia liniară simplă

Ex: Indicele de masa corporală (BMI) și circumferința


abdominală (CA) la 86 femei (Malcolm Savage).

•  Ce este o relație?
•  Regresia: Putem prezice BMI cu ajutorul CA?

•  Care este valoarea medie a indicelui de masa


corporală (BMI) pentru femei, pentru orice valoare
observată a circumferinței abdominale (CA) ?
Regresia liniară simplă
Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) la 86 femei (Malcolm Savage).

•  Ce este o relație?
•  Regresia: Putem prezice BMI cu ajutorul CA?

•  Care este valoarea medie a BMI-ului pentru femei,


pentru orice valoare observată a CA?
•  BMI este rezultatul, variabila dependentă, Y, sau
variabila din partea stângă.
•  CA este predictorul, variabila explicativă, variabila
independentă, x, sau variabila din partea dreaptă.
Regresia liniară simplă
•  Relația liniară:
BMI = intercept + panta × CA
Relaţia estimată este liniară deoarece reprezentarea
sa grafică este o dreaptă.
•  Panta à cu cat creste in medie variabila rezultat la
cresterea variabilei independente (variabila predictor)
•  Interceptul à valoarea variabilei rezultat (BMI) cind
predictorul (CA) are valoarea zero.
Regresia liniară simplă
Care este linia de regresie pe care trebuie să o
alegem?

à Stabilesc un criteriu!

BMI(kg/m2)

Circumferință abdominală
CA (cm)
Regresia liniară simplă
Care este linia pe care trebuie să o alegem ?
Criteriu: se aleage linia care face ca distanţa de la
puncte la linie, în direcţia lui y să fie la nivel minim.
•  Distanțele sunt
diferenţele între
valorile BMI

BMI(kg/m2)
observate şi
valorile BMI
prezise de linie.

Circumferință abdominală
CA (cm)
Regresia liniară simplă
Care este linia pe care trebuie să o alegem?
Vom alege linia pentru care se va obține minimul
sumei de pătrate ale acestor diferenţe.
•  Metoda este cunoscută
sub numele de
principiu celor

BMI(kg/m2)
mai mici pătrate
iar estimările
obţinute sunt denumite
linia sau ecuaţia
celor mai mici pătate.
Circumferință abdominală
CA (cm)
Regresia liniară simplă
BMI = -4.15 + 0.35 × CA
•  Se pot determina intervale de încredere şi valorile p
pentru coeficienţii obținuți.
Panta à 0.35 = coeficient de regresie
Intercept à -4.15
•  Coeficientul de regresie
arata cu cit creste BMI,

BMI(kg/m2)
in medie, cand CA creste
cu o unitate
•  Atentie la unitatile de
masura! à daca se
schimba unitatea
de masura se schimba Circumferință abdominală
coeficientii ! CA (cm)
Regresia liniară simplă
•  Se pot determina intervale de încredere şi valorile p
pentru coeficienţii obținuți (pentru panta si intercept)
Panta = 0.35 Kg/m2/cm, 95% CI = (0.31 - 0.40) Kg/m2/cm,
p <0.001 în raport cu valoarea zero.
Interceptul = -4.15 kg/m2, 95% CI = (-7.11 la -1.18) kg/m2.

H0: panta = 0

BMI(kg/m2)
à Cresterea BMI in
raport cu CA este nula
à CA nu influenteaza BMI

Circumferință abdominală
CA (cm)
Regresia liniară simplă
•  Se pot determina intervale de încredere pentru estimațiile
obținute prin regresie și valoarea prezisă pentru un nou
subiect.
Intervale de predicție sau
Intervale de 95% încredere
intervale de 95% încredere
pentru estimațiile de regresie
pentru valori BMI prezise cu
pentru BMI și circumferința
ajutorul circumferinței
abdominală
abdominale
BMI(kg/m2)

BMI(kg/m2)

Circumferință abdominală Circumferință abdominală


CA (cm) CA (cm)
Regresia liniară simplă
Presupuneri:
•  Abaterile de la linia de regresie trebuie să aibă o distribuție
normală cu varianță uniformă à varianta nu trebuie sa
depinda de valorile predictorului (variabile independente)
•  Observatiile sunt independente intre ele

BMI(kg/m2)

Circumferință abdominală
CA (cm)
Regresie liniară multiplă

•  Mai mult de o variabilă predictor:


Ex: cu doua variabile predictor
BMI (kg/m2)

BMI (kg/m2)
Circumferință abdominală – CA (cm) Circumferința brațului – CB (cm)

BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB

BMI = -5.94 + 0.18 × CA + 0.59 × CB


Regresie liniară multiplă
Mai mult de o variabilă predictor: ex: doua variabile predictor
BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB
BMI = -5.94 + 0.18 × CA + 0.59 × CB

•  Ecuatie cu 2 variabile predictor à metoda: regresie liniara


multipla)
•  În acest caz s-au determinat coeficienţii astfel încât suma
pătratelor diferenţelor între BMI observat și cel prezis de
regresie să fie minimă
à metoda: regresia obişnuită a celor mai mici pătrate
sau OLS (ordinary least squares).
à Ca si CB sunt ambii predictori importanti pentru BMI!
(p<0.0001)
Regresie liniară multiplă
Mai mult de o variabilă predictor: ex: doua variabile predictor
BMI = -1.35 + 0.31 × CA BMI = -4.59 + 9.1 × CB
BMI = -5.94 + 0.18 × CA + 0.59 × CB
•  Ambii coeficienţi sunt acum mai aproape de zero, deoarece
circumferinta abdominală (CA) și a brațul (CB) sunt legate
între ele.

Circumferința abdominală CA (cm)


CB = 7.52 + 2.79 × CA
r = 0.77, p <0.001
à Circumferinta abdominală
(CA) și a brațului (CA) explică,
fiecare, o parte din relaţia
cu BMI.

Circumferința brațului – CB (cm)


Regresie liniară multiplă
Mai mult de o variabilă predictor: ex: doua variabile predictor
•  Putem determina intervale de încredere pentru coeficienți și
testa ipotaza nulă referitoare la egalitatea cu zero a
coeficienților din populație.
BMI = -5.94 + 0.18 × CA + 0.59 × CB
95% CI (-8.10, -3.77) (0.14, 0.22) (0.45, 0.74)
p <0.001 p <0.001
•  Cu cit este mai mare panta predictorului cu atit este mai
important
•  Fiecare predictor reduce importanţa celuilalt deoarece aceștia
sunt legați unul de celălalt cat şi de BMI.
•  De obicei, în regresiile multiple, este foarte posibil ca una
dintre variabilele să devină nesemnificativă chiar dacă
regresia în ansamblu este înalt semnificativă.
Regresie liniară multiplă
Presupuneri:
La fel ca în cazul regresiei liniare simple, pentru a fi valide
intervalele de încredere şi valorile p, datele trebuie să
îndeplinească următoarele presupuneri:
Ø  Abaterile de la linia de regresie trebuie să aibă o distribuție
normală
Ø  Varianța să fie uniformă
Ø  Observațiile trebuie să fie independente
•  Modelul pentru date se referă la faptul că relația pentru
fiecare dintre predictori poate fi reprezentată adecvat nu
numai printr-o dreaptă ci și printr-o curbă.
Dimensiunea eșantionului
•  Va trebui întotdeauna să avem mai multe
observaţii decât variabile.
Reguli empirice:
•  Regresia multiplă: cel puțin 10 observații pentru
o variabilă
•  Regresia logistică: cel puţin 10 observaţiile
pentru rezultatul "da" şi cel puțin 10 observaţii
pentru rezultatul "nu" pentru fiecare variabilă.
•  În caz contrar, metodele pot fi foarte instabile.
Tipuri de regresie
Regresia multiplă şi regresia logistică sunt tipurile de
regresie care pot fi văzute de cele mai multe ori în
literatura medicală.
Există multe alte tipuri de regresie pentru diverse tipuri de
variabile rezultat:
Ø  Regresia Cox (analiza de supravieţuire)
Ø  Regresie logistică ordonată (variabilele rezultat care
sunt calitative cu categorii ordonate)
Ø  Regresie multinomială (variabile rezultat care sunt
calitative cu categorii neordonate)
Ø  Regresie Poisson (variabile rezultat care sunt valori
obținute prin numărare - counts)
Ø  Regresie binomială negativă (variabile rezultat care
sunt valori obținute prin numărare - counts cu surse
suplimentare de variabilitate)
Bibliografie

•  Clinical Biostatistics, by Martin Bland, University of York


•  Statistical reasoning for Public Health, John McGrady, Johns Hopkins
Bloomberg School of Public Health
•  Introduction to Medical Statistics, John Chen, Stony Brook University
School of Medicine
•  Biostatistica pentru studenti – E Panaitescu, L Iliuta, E Poenaru,
Marius Rac Albu, Editura ‘Carol Davila’, 2013
•  Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
•  www.mste.uiuc.edu/hill/dstat/dstat.html
•  www.stats.gla.ac.uk/steps/glossary/paired_data.htm
INTRODUCERE IN
SISTEME DE
BAZE DE DATE
MEDICALE
CALIN POENARU, MENG, PHD
APLICATII

INTRODUCERE IN BAZE
DE DATE
INTRODUCERE ÎN BAZE
DE DATE
Sint urmatoarele exemple baze de date?
•  Un fișier Excel cu numele pacienților și medicatia asociata într-un
spital
•  O agendă a unei asistente medicale cu activitatile viitoare
•  Un program de garzi pentru trimestrul I 2016
•  O listă a medicamentelor disponibile in farmacia spitalului
•  Dosarul medical al unui pacient
•  Un fisier text cu lucrarile publicate intr-un proiect de cercetare
INTRODUCERE ÎN BAZE
DE DATE
Bazele de date sint colecții de date cu o structură specifica și
un scop bine definit
Structura este data de:
•  inregistrari (records): o colectie/lista de elemente
•  cimpuri (fields): elementele unei inregistrari
In spitale, bazele de date colecteaza cantitati importante de
date si sint elementul central al sistemelor informatice de
spital
INTRODUCERE ÎN BAZE
DE DATE
Avantajele utilizării bazelor de date:
•  Posibilitatea de a stoca o cantitate foarte mare de date
•  Introducerea şi editarea facilă a datelor
•  Ordonarea şi sortarea rapidă
•  Viteză mare în utilizare
•  Partajarea datelor cu alte pachete software, în retele de
calculatoare
•  Securitatea datelor prin protectie împotriva accidentelor
software şi hardware
BAZE DE DATE ȘI TIPURI
DE STRUCTURI
Tipuri de structuri de date:
•  Date nestructurate (flat)
•  Date ierarhice
•  Date Object-Oriented
•  Date relaționale

à  Datele medicale (ex. cele prezente în dosarul electronic de


sănătate al unui pacient) sint de cele mai multe ori o
combinatie a unuia sau mai multor tipuri de date de mai
sus
TIPURI DE STRUCTURI DE DATE
BAZE DE DATE TIP FIȘIER “FLAT”
Un fișier “flat” poate fi un fișier text simplu, care conține de obicei o
înregistrare pe linie, dar poate fi si un fișier binar.
Avantaj:
•  Functioneaza foarte bine pentru datele simple.
•  Majoritatea software-ului existent include accesul facil la fișierele de date “flat”
Dezavantaj:
•  irosesc spatiu de stocare prin păstrarea de informații cu privire la elemente
nedisponibile pe cale logica
•  bazele de date “flat” nu sint “prietenoase” cu interogarile complicate
TIPURI DE STRUCTURI
DE DATE
MODELE IERARHICE
Modele ierarhice - modele de date în care relația dintre obiecte
este arborescenta, fiecare element are un singur “parinte”, dar
poate avea mai multi “copii”
Avantaje:
•  Acțiunile asupra "părinților" salveaza timp, deoarece acestea se aplica
tuturor "copiilor"
Dezavantaje:
•  În lumea medicală reală cele mai multe relații nu sint strict ierarhice.

Doctor

Pacient A Pacient B

Analize Imagistica Tratament Analize


TIPURI DE STRUCTURI DE DATE
MODELE ORIENTATE OBIECT
•  Datele sint reprezentate sub forma de “obiecte” (o instanta a unei clase)
•  Utilizeaza “obiecte” reale din viața de zi-cu-zi (entități) si stocheaza datele si
relatiile dintre ele direct, fara sa mai utilizeze o structura de randuri/coloane
•  Se poate utiliza pentru interogare OQL (Object Query Language)
•  Mult mai mare flexibilitate de programare, deoarece există posibilitatea de a
integra baza de date direct cu limbaje de programare orientate obiect (de
exemplu Java, C #, etc)
TIPURI DE STRUCTURI
DE DATE
MODELE RELATIONALE

•  Baza de date relationala este o colecție de tabele, care reprezintă


entități și relațiile dintre ele
•  Model foarte simplu de organizare
•  Interogare prin intermediul limbajelor de nivel inalt (simplu, dar
scump)
•  Implementare eficienta
BAZE DE DATE
RELATIONALE
Caracteristici:
•  Datele sint organizate in tabele: rinduri & coloane
•  Fiecare rind reprezinta un instanta a unei entitati/
obiect (inregistrare)
•  Fiecare coloana reprezinta un atribut al entitatii/
obiectului
•  Fiecare coloana este descrisa de metadate
•  Relatiile dintre entitati sint reprezentate de valorile
stocate in coloanele ce fac corespondenta intre
tabele (keys)
•  Accesul la date se face prin intermediul unui limbaj
de nivel inalt numit “Standard Query
Language” (SQL)
BAZE DE DATE
RELATIONALE
Relațiile sint create între datele stocate în tabele
diferite. O relație conectează un câmp dintr-un tabel la
un câmp dintr-un alt tabel (cele două campuri pot avea
nume diferite).
Trei tipuri de relații există:
•  One-to-one,
•  One-to-many K L

•  Many-to-many.
BAZE DE DATE
RELATIONALE
Cheie (Key) - atribut a cărui valoare este unică în fiecare rand sau
un set de atribute ale căror valori combinate sint unice
NULL - valoare specială utilizata pentru un atribut "necunoscut"
sau "nedefinit”
VIEW - tabel virtual compus din parti/sub-seturi ale tabelelor reale

ID Name GR Photo ID College CNT Year


123 Ana 33 A.jpg 124 Sf. Sava B 2013
Name College CNT Year
124 Barbu 33 Null 125 Saguna BV 2012
Costin Saguna BV 2013
125 Costin 33 B.jpg 126 Loga TM 2013
… … … …
… … … … … … … …
BAZE DE DATE
RELATIONALE
Schema este o descriere structurală a relațiilor în
baza de date
Instanță este conținutul efectiv, la un moment dat
Baza de date este un set de relații nominalizate sau
tabele
•  Fiecare relație are un set de atribute nominalizate (sau
coloane)
•  Fiecare rând (sau tuple) are o valoare pentru fiecare atribut
•  Fiecare atribut are un tip sau domeniu
Tranzactia este o unitate de actiuni efectuate
impreuna asupra bazei de date
MODEL ENTITATE-
RELAȚIE
Exemplu de “schema” in modelul relational:

Previous-
balance
Patient- Patient-
address reference
Insurance- Patient-
number balance
Patient- Patient-
name gender
Financial-
Demographics record

Patient
METADATA
•  Sint date ce descriu proprietatile sau
caracteristicile altor date
•  Nu includ datele propriu-zise (sample
data)
•  Permit designerilor si utilizatorilor sa
inteleaga sensul datelor propriu-zise
EXEMPLU: METADATA &
DATA TABLE
Name Type Max Length Description
Name Alphanumeric 100 Organism name
Size Integer 10 Genome length (bases)
Gc Float 5 Percent GC
Accession Alphanumeric 10 Accession number
Release Date 8 Release date
Center Alphanumeric 100 Genome center name
Sequence Alphanumeric Variable Sequence

Name Size Gc Accession Release Center Sequence


Escherichia coli K12 4,640,000 50 NC_000913 09/05/1997 Univ. AGCTTTTC
Wisconsin ATT…
Streptococcus 2,040,000 40 NC_003098 09/07/2001 Eli Lilly and TTGAAAGA
pneumoniae R6 Company AAA…

SEPARAREA INTRE
PROGRAME SI DATE
In procesarea fisierelor orice potentiala modificare
a structurii acestora necesita o modificare a tuturor
programelor de acces la fisiere
In cazul bazelor de date structura fisierelor este
scrisa in catalogul DBMS separat de programele
de acces
Acest lucru este numit program-data
independence
EXEMPLU: DATA
INDEPENDENCE
Profesori: Logical Level
id IName fName Level Alocare:
View
15901 Elena Poenaru id cid
...
Title iName fName15901 Year 130128
InfoMed Elena Poenaru
... 2018
... cid Title Year
Cursuri:
130128 InfoMed 2018
...

Lecturers_file Courses_title_index_file Assignments2018_file

Lectors_fname_index_file Courses_file Physical Level

19
BAZE DE DATE SQL IN
MEDICINA
Avantaje
•  Opțiuni avansate de agregare a datelor, statistici și rapoarte la nivel
de date
•  Caracteristici bune ale tranzactiilor
•  Interogări SQL complexe, potrivite pentru (aproape) orice caz
•  O gamă largă de instrumente și software compatibil
•  Independența de “database applications”

Dezavantaje
•  Complexitate ridicata a SQL și costurile mari pentru soluții de mari
dimensiuni
•  Învățarea nu este facilă
•  Probleme de scalabilitate
•  Probleme de performanță
•  Probleme de întreținere
BAZE DE DATE
RELATIONALE
Principiile bazelor de date relaționale pot fi
rezumate la următoarele:
Datele din bazele de date relationale sint valori stocate în tabelele ce formeaza
baza de date.
Datele luate individual sint inutile.
Bazele de date relaționale sint compuse dintr-un set de tabele.
•  Fiecare tabel conține înregistrări (rândurile tabelului) și cimpuri (coloanele).
•  Campurile pot fi de diferite tipuri de date: alfanumeric, numeric, data/timp, Boolean,
etc
Pentru accesul la o anumita inregistrare (record) din tabel se utilizeza o cheie
(key):
•  Cheia care identifică în mod unic o înregistrare este cheia primară
•  Cheile sint parte din structura logică.
Într-o bază de date relațională o anume vizualizare a datelor (view) este, de fapt, un
tabel virtual compus dintr-un sub-set de tabele reale.
"Integritatea datelor” descrie precizia, valabilitatea și unitatea datelor existente
LIMBAJUL SQL
SQL = Structured Query Language
Cele mai cunoscute DBMS relaționale cu versiuni noi la fiecare doi ani
Suportat de toate sistemele majore de baze de date comerciale
Standardizat de ANSI (American National Standards Institute)
Mod de actiune declarativ, bazat pe algebra relațională
Bazat pe tranzacții pentru regasirea si actualizarea inregistrarilor
SQL este independent de aplicatiile de date (data applications) care au
acces la date prin:
•  Extensii de limbaj care permit “embedded SQL”
•  API (Application Programming Interfaces) ca ODBC/JDBC care permit
construirea de querry-uri SQL catre baza de cdate
Aplicațiile specifica ”ce” nu “cum“ intr-un limbaj potrivit utilizatorului
TIPURI/SETURI DE
COMENZI SQL

1.  Data Definition Language (DDL): comenzi care


definesc baza de date si includ crearea,
alterarea si stergerea tabelelor si a
constringerilor asociate
2.  Data Manipulation Language (DML): comenzi
care mentin si interogheaza (querry) baza de
date
3.  Data Control Language (DCL): comenzi ce
controleaza accesul la date, inclusiv controlul
privilegiilor administrative
(SUB) SETURI SQL
Data Definition Language: elemente de sintaxa
utilizate pentru definirea structurii de date a unei
baze de date
• CREATE TABLE [table name] ( [column
definitions] ) [table parameters]
• DROP objecttype objectname
(SUB) SETURI SQL
Data Manipulation Language: elemente de
sintaxa utilizate pentru selectarea, inserarea,
stergerea sau actualizarea datelor
• SELECT ... FROM ... WHERE ...
• INSERT INTO ... VALUES ...
• UPDATE ... SET ... WHERE ...
• DELETE FROM ... WHERE …
(SUB) SETURI SQL
Data Control Language: elemente de sintaxa
utilizare pentru controlul accesului la regasirea
si manipularea datelor
• GRANT SELECT
ON [database]
TO user_one;
• REVOKE SELECT
ON [database]
TO user_two
TIPURI DE ACTIVITATI
ASUPRA
BAZELOR DE DATE
OLTP - Online Transaction Processing
•  Tranzacții scurte
•  Interogări simple
•  Lucreaza cu cantitați mici de date
•  Actualizări frecvente
OLAP - Online Analytical Processing
•  Tranzacțiilor lungi
•  Interogări complexe
•  Lucreaza cu cantitați mari de date
•  Actualizări rare
O SCHEMĂ SIMPLIFICATĂ A UNUI
MEDIU TIPIC SQL
DBMS
DMBS - DEFINITIE
Programele de acces, dezvoltare si gestionare a acestor date
sint numite Sisteme de management/gestionare a bazelor de
date (DBMS/SGDB)
Scopul principal al oricărui DBMS/SGBD este regăsirea rapidă
atunci când este căutata o data particulara in datele stocate.
Exemple :
•  MS Access
•  Oracle
•  SQL Server
•  DB2
•  mySQL
•  Postgres
INTRODUCERE ÎN DBMS
Un sistem de baze de date Sistemele de baze de
consta in: date permit
•  Date (the database) utilizatorilor
•  Software urmatoarele operatii
•  Hardware asupra datelor:
•  Utilizatori (users) •  Stocare (Store)
•  Actualizare (Update)
•  Recuperare (Retrieve)
•  Organizare (Organise)
•  Protejare (Protect)
FUNCTIONALITATI
TIPICE ALE DBMS
Defineste o baza de date in termeni de tipuri
de date, structura si constringeri
Construieste (Load) continutul initial pe un
mediu de stocare
Manipuleaza datele:
•  Retrieval: interogare (querying), raportare
•  Modification: inserare, stergere si actualizare
continut
•  Accessing: prin intermediul aplicatiilor
Partajeaza datele intre mai multi utilizatori si
programe simultan
CARACTERISTICI DBMS
(1)
Sistemul de Management al bazei de date (DBMS) pune la
dispozitie o modalitate eficientă, de încredere, convenabila și
sigură de stocare și acces multi-user la cantități masive de
date persistente.
sistemele de baze de date pot gestiona date la o scară masivă à
sisteme de baze de date care manipuleaza terabytes de date,
uneori chiar și terabytes de date în fiecare zi.
unul dintre aspectele critice este că datele care sint manipulate de
către sistemele de management al BD sint mult peste memoria
unui sistem de calcul obisnuit à sistemele de baze de date sint
concepute să gestioneze date care se afla în afara de memorie.
CARACTERISTICI DBMS
(2)
Sistemul de Management al bazei de date
(DBMS) pune la dispozitie o modalitate
eficientă, de încredere, convenabila și
sigură de stocare și acces multi-user la
cantități masive de date persistente.
Datele care sint manipulate de către sistemele de gestionare a bazelor
de date sint de obicei persistente (datele din baza de date continua sa
existe si dupa ce programele care prelucreaza aceste date s-au incheiat)
•  Un model de calcul tipic va începe să ruleze cu variabilele create la
pornire; cand programul se termina, datele utilizate dispar.
•  In cazul bazelor de date situatia este inversa: date exista și inainte si
dupa prelucrare. Programul se executa, opereaza asupra datelor, se
termina, dar datele vor fi în continuare acolo.
Cel mai probabil, mai multe programe vor utiliza aceleași date pentru
operare.
CARACTERISTICI DBMS
(3)
Sistemul de Management al bazei de date (DBMS)
pune la dispozitie o modalitate eficientă, de
încredere, convenabila și sigură de stocare și
acces multi-user la cantități masive de date
persistente.
sistemele de baze de date, deoarece sint utilizate in aplicații
critice trebuie să ofere garanții că datele gestionate de sistem vor
rămâne într-o stare consistentă
Datele nu vor fi pierdute, corupte sau suprascrise atunci când
există erori de software, erori de hardware, pene de curent sau
chiar probleme cu utilizatori (rău intenționați, neinstruiti, etc.)
à Sistemele de baze de date au un număr de mecanisme interne
care să garanteze că datele rămân consistente, indiferent de ceea
ce se întâmplă.
CARACTERISTICI DBMS
(4)
Sistemul de Management al bazei de date (DBMS) pune la
dispozitie o modalitate eficientă, de încredere, convenabila și
sigură de stocare și acces multi-user la cantități masive de
date persistente.

Multi-user: programele unice sau multiple pot opera pe aceeași


bază de date și permit mai multor utilizatori sau aplicații diferite sa
acceseze datele concomitent.
Atunci când mai multe aplicații lucrează pe aceleași date, sistemul
trebuie să aibă mecanisme interne care să garanteze că datele
rămân consistente.
CARACTERISTICI DBMS
(5)
Sistemul de Management al bazei de date (DBMS)
pune la dispozitie o modalitate eficientă, de
încredere, convenabila și sigură de stocare și
acces multi-user la cantități masive de date
persistente.
Comoditatea este de fapt una dintre caracteristicile
esențiale ale sistemelor de baze de date. Acestea sint
concepute pentru a face mai ușor lucrul cu cantități mari de
date și pentru a face prelucrari avansate pe aceste date.
Independenta fizica a datelor constă in faptul că modul în
care datele sint stocate și puse pe disc (ex. organizarea
fisierelor) este independent de modul în care programele
inteleg structura datelor. Operațiunile asupra datelor sint
independente de modul în care datele sint pastrate.
CARACTERISTICI DBMS
(6)
Sistemul de Management al bazei de date (DBMS) pune la dispozitie o
modalitate eficientă, de încredere, convenabila și sigură de stocare și
acces multi-user la cantități masive de date persistente.

Eficiența: cea mai importanta caracteristica a bazelor de date este


faptul că cele mai importante trei lucruri ale unui sistem de baze de
date sint: performanța, performanța și din nou performanța.

Sistemele de baze de date trebuie să faca mii de interogări sau actualizări


pe secundă à acestea pot fi operațiuni extrem de complexe
à Construirea unui sistem de baze de date, care poate executa interogări
complexe, la rate mari, peste cantități gigantice de date (terabytes) nu este
o sarcină simplă, iar performanta este una dintre caracteristicile majore ale
unui sistem de management de baze de date.
CARACTERISTICI DBMS
(7)
Sistemul de Management al bazei de date (DBMS) pune la dispozitie o
modalitate eficientă, de încredere, convenabila și sigură de stocare și
acces multi-user la cantități masive de date persistente.

Încredere: este extrem de important ca sistemele critice (ex. bancar,


telecom, sistemele de sănătate, etc.) să fie tot timpul active

à 99.99999% timp de functionare este un exemplu de


garanție că sistemele de gestionare a bazelor de date
pot sa serveasca aplicații critice.
à atunci când avem nevoie să construim o aplicatie
care implică date critice, este important să avem toate
aceste caracteristici grupate la un loc à DBMS.
CONCLUZIE: CE E UN
DBMS
Un sistem de management de baze de date
(DBMS) este un ansamblu software care permite
crearea de baze de date și manipularea continutului
lor (date)
CONCLUZIE: CE FACE UN
DBMS
Furnizeaza utilizatorilor: DBMS furnizeza
•  Data definition language (DDL) •  Persistenta
•  Data manipulation language •  Concurenta
(DML) •  Integritate
•  Data control language (DCL) •  Securitate
Adesea acestea au acelasi •  Independenta datelor
limbaj Dictionarul datelor
•  Descrierea datelor (the
database itself)
CONCLUZIE: CE
AVANTAJE ARE DBMS
•  Independența program – date
•  Redundanța minima a datelor (back-up &
recuperare)
•  Coerența și calitatea datelor îmbunătățită
•  controlul accesului
•  controlul tranzacției
•  Îmbunătățirea accesibilității și schimbul de date
•  Creșterea productivității de dezvoltare de
aplicatii
•  Forteaza standardizarea
APLICATII

HOSPITAL INFORMATION
SYSTEMS
CE ESTE HIS?
Un sistem informatic de spital (HIS) este un element al Health
Informatics care se concentrează în principal pe nevoile
administrative ale spitalelor.
Una dintre cele mai importante probleme este de servicii de
îngrijire a sănătății
Cea mai utilizata referință (Wikipedia) defineste HIS:
"Un sistem informatic de spital (HIS) este un element de
informatică de sănătate care se concentrează în principal pe
nevoile administrative ale spitalului. În multe implementări, un
HIS este un sistem de informații cuprinzător, integrat, destinat
să gestioneze toate aspectele de funcționare ale unui spital,
cum ar fi probleme medicale, administrative, financiare și
juridice și cat si prelucrarea corespunzătoare a serviciilor
asociate acestora."
CE ESTE HIS?
CIS (Clinical Information Systems) este
uneori separat de HIS în sensul în care
primul se concentreaza pe datele
referitoare la starea clinica (dosarul
electronic) a pacientului, iar cel din urmă
ține evidența problemelor administrative
legate de pacient.
Distincția nu este întotdeauna clara și există
dovezi contradictorii împotriva unei utilizări
consecvente a ambilor termeni.
CE ESTE HIS?
HIS este un sistem format din mai multe componente, cu
extensii specifice pentru fiecare functie speciala:
•  Sistem informatic de laborator (LIS),
•  Politici organizationale și sistemul de management operational
•  Sistemul de Informații de Radiologie (RIS)
•  Arhivare imagini si sistem de comunicare (PACS)
•  Electronic Health Record (DES)
HIS ia în considerare toate grupurile de activitati de spital:
•  secții
•  unități de ambulatoriu
•  unități de servicii medicale (diagnostic, terapie, altele)
•  departamente administrative
•  management si unități executive
HIS are ca subiect principal stocarea datelor (DW) si prin urmare are un
model mai static de gestionare a informațiilor.
CE ESTE HIS?
HIS trebuie să ia în considerare toate grupurile de persoane …
•  medici
•  asistente medicale
•  personal administrativ
•  personal tehnic
•  Informaticieni/manageri de informații medicale

... si nu in ultimul rand, grupurile externe:


•  pacienți
•  vizitatori
•  furnizori
•  ...
STRUCTURA GENERICA
A HIS
Intro date Monitor Module Financiar
& vizionare Logice
Laborator Evenimente
Resultate Medicale

Codificari
Specializate

Farmacie Interfata
Database
Dictionar
entitati
Medicale

Radiologie

Baza date
Baza date pacient
cercetare
INFORMATII DIN HIS
HIS pune la dispozitie:
•  informații, în primul rând despre pacienți, asigurandu-se ca
acestea sint corecte, pertinente și actuale, furnizate la timp si
accesibile de catre persoanele potrivite, la locul potrivit, într-un
format utilizabil imediat
•  cunoștințe, în primul rând despre boli, dar si despre modul lor
de abordare, de tratament, moduri si efecte de interacțiune
intre medicamente, pentru a sprijini diagnosticul și terapia
•  rapoarte despre calitatea ingrijirii pacientilor, performantele
spitalului și costurile asociate
TIPURI DE DATE
UTILIZATE
Tipuri de date de sănătate utilizate de HIS:
Date specifice de pacient
•  Datele clinice
•  Date administrative
•  Date financiare și de facturare
Date agregate de sănătate
•  Index de boli și proceduri
•  Rapoarte cost
•  Statistici de sănătate publica
•  Măsuri rezultate
•  Index de performanta
TIPURI DE ACTIUNI
Resursele de calcul sint utilizate în general pentru următoarele
activitati:
•  Sprijin administrativ - planificarea administrativă și logistică legata de ingrijirea
pacientului si de interventiile necesare.
•  Colectare a datelor pacientului - achiziționarea, stocarea și regăsirea datelor
pacientului (ex. examenele clinice, biosemnale, imagini, etc.), verificarea,
codificarea și prelucrarea lor, precum și integrarea tuturor datelor într-o
prezentare cuprinzătoare.
•  Decizii - Simularea intervențiilor prin utilizarea de modele, suport pentru
procesul decizional legat de diagnostic și tratament.
•  Monitorizare - Monitorizarea și evaluarea terapiei (medicamentoase si nu
numai).
•  Raportare - Generarea de rapoarte (ex. după externarea pacientului din
spital).
•  Evaluare - Evaluarea efectului ingrijirilor ce au fost furnizate pacientului
asupra starii sale.
HEALTHCARE
ANALYTICS

Source: Analytic Data Solution


SISTEME ICT IN MEDICINA

CALIN POENARU, MENG, PHD


DE CE E NEVOIE DE DATA
PROCESSING?
•  Nevoia de decizii operationale rapide si eficiente
•  Clinic: diagnoza, tratament, preventie, etc.5
•  Administrativ: utilizare resurse, programari , internari/externari,
etc.
•  Imbunatairea eficientei operationale intr-un spital duce, in final,
la aplicarea de analize predictive in toate procesele asociate
cu actul medical (care-delivery)
•  Utilizarea datelor existente: 80 MB/an genereaza pacientul
mediu
•  Eficientizarea costurilor: 300 bil USD pot fi salvate doar prin
analiza datelor existente [McKinsey]
DATA PROCESSING

Ad-Hoc Traditional

Expertiza
domeniu
Data
Engineering

Data Science
Computer Matematica
Science & Statistica
Machine
Learning
CE INSEAMNA DATA
SCIENCE
Domeniu de activitate pentru cei care:
•  Fac cercetari pentru a raspunde la intrebari specializate
domeniului
•  Utilizeaza volume mari de date pentru a furniza raspunsurile
cerute
•  Pregatesc datele pentru a fi utilizate in studii inferentiale si
predictive
•  Exploreaza datele pentru a gasi pattern-uri ascunse
•  Automatizeaza procesele pentru studii statistice
•  Prezinta rezultatele catre cei care iau decizii
CE INSEAMNA DATA
ENGINNERING
Domeniu de activitate pentru cei care:
•  Dezvolta, construiesc, opereaza si intretin arhitecturi si solutii
pentru procesarea si stocarea datelor
•  Aliniaza arhitecturile si solutiile la cerintele proceselor de
prelucrare de date
•  Descopera noi modalitati de achizitii de date
•  Dezvolta si implementeaza procese pentru data cleansing,
data modelling, data mining, etc.
•  Recomanda proceduri pentru imbunatatirea calitatii, eficientei
si sigurantei datelor
DE CE NU E UTILIZAT
MODELUL
•  Lipsa cererii interne
•  Costuri
•  Utilzare in procese
•  Inlocuirea data scientist cu alti profesionisti interni existenti
•  Utilizarea de combinatii medic/programator pentru sarcini
punctuale
•  Lipsa increderii in rezultatul analizei de date (analytics vs.
instinct)
AGENDA
Elemente de ICT
•  Hardware
•  Software
•  Storage
•  Comunicatii
Modele de utilizare
•  Datacenter
•  Cloud Computing
DEFINITII GENERALE
Bioinformatica: este o arie interdisciplinara care dezvolta metode
si unelte software utilizate pentru studiul datelor biologice,
combinind ingineria software cu statistica si matematica. Este o
“umbrela” pentru cercetari in zona genetica/genomica
Informatica medicala: reprezinta aplicarea directa a tehnologiilor
ICT in medicina. Este o arie multidisciplinara care utilizeaza
tehnici ICT pentru a imbunatatii calitatea, eficienta si inovatia in
domeniul sanatatii. Zonele acoperite sint gestiunea resurselor, a
echipamentelor si metodelor necesare achizitiei, stocarii, regasirii
si utilizarii informatiei cu caracter medical.

Sursa: Wikipedia
HARDWARE

COMPUTING, STORAGE,
COMMUNICATIONS
DATA PROCESSING
DEFINITIE
Server software= o instanta functionala a unei aplicatii software
care primeste cereri de la o alta entitate software la care ofera un
raspuns adecvat serviciului oferit
Server hardware = defineste echipamentul special destinat
gazduirii aplicatiilor software care ofera un anumit serviciu

Sursa: Wikipedia, 2017


DATA PROCESSING
FUNCTIONALITATI
Un server hardware (o masina dedicata) poate avea unul sau mai
multe server-e software active, oferind servicii diferite
Server-ul faciliteaza accesul concurent la date, schimbul de
informatii, partajarea resurselor, etc.
Serviciile oferite sint accesibile prin intermediul retelelor de
comunicatii, fie private (intranet), fie publice (Internet).
DATA PROCESSING
CARACTERISTICI
Hardware “specializat” in termeni de
performanta, marime, disponibilitate,
consum
Anumite componente ale unui calculator
obisnuit sint absente (monitor, tastatura,
porturi I/O, mouse, interfete specializate,
etc.)
Modul uzual de impachetare:
•  sasiu rackabil 19”
•  blade
DATA PROCESSING
CERINTE SPECIALE
1.  Performanta:
•  CPU, memorie, HDD, I/O
2.  Disponibilitate:
•  Calculata ca raport:
A = UpTime/TotalTime
•  Exprimata ca procent: 99.999%
3.  Consum energie/racire
•  Relevant pentru echipamente care functioneaza continuu
•  Calculat ca raport, eficacitatea consumului de energie:
PUE= Total_Energy/Total_IT_Energy
•  Exprimat in KW sau BTU
DATA STORAGE
DEFINITIE
Computer Data Storage: utilizarea de medii de stocare volatile si
non-volatile pentru pastrarea informatiei pe termen scurt/lung
In mod uzual:
•  Mediu volatil = mentine datele cit timp device-ul este alimentat (ex.
memorie)
•  Mediu non-volatil = mentine datele indiferent de starea alimentarii
(ex. HDD, SSD/flash)
Unitatea fundamentala este bit
Unitatea cea mai folosita este bytes (8 bits) si multiplii acestuia
(KB, MB, GB, TB, …)
DATA STORAGE
IERARHIE

Primary

Secondary

Tertiary
Source: Wikimedia
DATA STORAGE
FUNCTIONALITATI
Protectie la erori
•  Codare speciala pentru detectie/corectie de erori (CRC)
Criptare
•  Utilizare de algoritmi speciali pentru prevenirea accesului neautorizat
(LRW)
Redundanta
•  Utilizare de arhitecturi de sistem specializate pentru a evita
pierderea datelor critice (RAID)
Acces la distanta
•  Utilizare de protocoale speciale pentru accesul datelor pe sisteme
remote (SAN/NAS)
DATA STORAGE
CARACTERISTICI
Volatilitate: dependenta (sau nu) de prezenta alimentarii cu energie
electrica
Mutabilitate: posibilitatea de a face operatii de citire/scriere sau doar
de citire
Accesibilitate: posibilitatea de a accesa (sau nu) orice locatie in
acelasi timp, independent de pozitie
Adresabilitate: defineste unitatea atomica de informatie adresabila
(bit, byte, fisier)
Capacitate: defineste capacitatea totala de stocare
Performanta: defineste timpul de acces la o anume locatie si
capacitatea de transfer (in/out) a datelor
Consum: cantitatea de energie necesara accesarii unei cantitati
predefinite de informatie intr-un interval de timp
DATA STORAGE
TEHNOLOGII
Stocare
•  Semiconductor
•  Magnetic
•  Optic
Acces
•  DAS (Direct Attached Storage) – sistemul de stocare este atasat fizic
direct cu sistemul de prelucrare
•  NAS (Network Attched Storage) – sistemul de stocare este conectat
de sistemul de prelucrare prin intermediul LAN/WAN si ofera acces
direct la fisiere
•  SAN (Storage Area Network) – sistemul de stocare este conectat de
sistemul de prelucrare prin intermediul unei retele specializate si
ofera acces direct la blocuri de disk
DATA TRANSMISSION
DEFINITII
Data trasmission/communications: defineste transmiterea (fizica)
a datelor reprezentate in forma unui semnal electromagnetic,
intre sisteme conectate prin canale punct-la-punct sau punct-la-
multipunct (electrice, magnetice, optice)
Transmisia poate fi:
•  Analogica
•  Digitala
DATA TRANSMISSION
MODELUL TCP

Source: Wikimedia
DATA TRANSMISSION
CARACTERISTICI
Aria acoperita
•  PAN (Personal Area Network)
•  LAN (Local Area Network)
•  MAN (Metropolitan Area Network)
•  WAN (Wide Area Network)
Capacitatea (viteza) de transmisie
•  Kbps, Mbps, Gbps
Mediul de transmisie
•  Shared
•  Point-to-point
Protocolul de transmisie
DATA TRANSMISSION
TEHNOLOGII
Wired
•  Ethernet
•  Fiber Channel
•  History = {Token Ring, ATM, Frame Relay}
Wireless
•  PAN (Personal Area Network): Bluetooth, zigBee
•  LAN (Local Area Network): WiFi
•  MAN (Metropolitan Area Network): WiMAX
•  WAN (Wide Area Network): Cellular 2G/3G/4G
SOFTWARE

COMPUTING, STORAGE,
COMMUNICATIONS
SISTEME DE OPERARE
Sistem de operare (OS): software care administreaza resursele unui
computer si le pune la dispozitia aplicatiilor
Resursele hardware uzuale sint:
•  Memorie
•  CPU
•  I/O (devices)
Resursele software uzuale sint:
•  Sistem de fisiere
•  Gestiunea proceselor
•  Gestiunea intreruperilor
SISTEME DE OPERARE
Tipuri de OS:
•  Multi-tasking/Multi-user
•  Real-time
•  Embedded

Source: Wikimedia
VIRTUALIZARE
DEFINITII
Virtualizare: reprezinta gruparea si abstractizarea resurselor si
serviciilor intr-un mod in care natura si limitele fizice ale acestora
sint ascunse utilizatorilor

Source: Gardner
VIRTUALIZARE
COMPUTING - HARDWARE
Hardware (full) virtualization: crearea unui “masini virtuale” care
din puctul de vedere al OS se comporta ca un computer real, cu
resurse proprii, partitionate din resursele reale ale masinii fizice
pe care ruleaza.
VIRTUALIZARE
COMPUTING - HARDWARE
Presupune existenta unui “Host
OS” transformat in “hypervisor” si
a unui “Guest OS” cel in care
ruleaza aplicatiile dorite
Exista si alte metode de
virtualizare (ex. la nivel de OS),
dar utilizarea este restrinsa
VIRTUALIZARE
SERVER

Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App

Server Server Server Server Server


200-500Mb/s 200-500Mb/s 200-500Mb/s 200-500Mb/s 200-500Mb/s
VIRTUALIZARE
SERVER

OS+App OS+App OS+App OS+App OS+App


Hypervisor Hypervisor Hypervisor Hypervisor Hypervisor

Server Server Server Server Server


200-500Mb/s 200-500Mb/s 200-500Mb/s 200-500Mb/s 200-500Mb/s
VIRTUALIZARE
SERVER

OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
Hypervisor Hypervisor

Server Fizic A Server Fizic B


VIRTUALIZARE
SERVER

Un singur server fizic gazduieste


multiple si independente {Guest
OS + aplicatii}
Hypervisor-ul abstractizeaza
hardware-ul fizic de Guest OS si
de aplicatii
• Prezinta un “server” standard CPU
catre OS si aplicatie Hypervisor
vNIC
Virtual Machine
• Poate prezenta multiple Virtual SMP Virtual Switch File System
Identities (IP + MAC)
VMFS
RAM
Partitiile impart resursele fizice ale
sistemului
pNIC HBA
• RAM, CPU, disk, etc.
Multiple implementari diferite
• VMware, XEN, Microsoft,
Sun containers
MODELE DE
INTERCONECTARE
ARHITECTURI DISTRIBUITE
DEFINITII

O arhitectura distribuita include elemente de calcul (noduri) care


sint rezidente in locatii diferite (pe sisteme fizice sau virtuale
diferite) si care isi coordoneaza actiunile (asociate cu o aplicatie)
prin mesaje transmise prin intermediul unei retele de comunicatii
O astfel de arhitectura:
•  Nu depinde de locatia nodurilor
•  Fiecare nod are propria memorie
•  Ansamblul tolereaza defectarea unor componente individuale
ARHITECTURI DISTRIBUITE
PEER-TO-PEER
Partitioneaza task-urile intre
perechi de entitati, cu aceleasi
drepturi si putere
Fiecare entitate pune la dispozitie
o parte din resurse catre alte
entitati cu care vine in contact
ARHITECTURI DISTRIBUITE
CLIENT – SERVER
Client – Server: partitioneaza task-
urile intre perechi de entitati, care
fie pun la dispozitie resursele sau
serviciile (server) sau fie le solicita
pentru utilizare (client)
Comunicatia Client – Server se
face (in majoritatea cazurilor) prin
intermediul unei retele
DATACENTER
DEFINITII
Data Center: o locatie (facility) unde sint gazduite elemente de
computing, storage si comunicatii de date in scopul oferirii unor servicii
ICT
Cerintele obligatorii sint specificate de standarde specializate (TIA-942,
GR-3160)
DATACENTER
DEFINITII
Principala cerinta este business continuity:
•  Tier 1: 99.671%
•  Tier 2: 99.741%
•  Tier 3: 99.982%
•  Tier 4: 99.995%
A doua cea mai importanta este energy efficiency
•  PUE = [1.1 – 2.0]
DATA CENTER -
STRUCTURA FIZICA
HOT AISLE
DC
COLD AISLE Pod

Zone

Pod

Network

Servers

Storage

4 - 6 Zones Per DC & 6 – 15 MW per DC


5,000 – 8,000 m2 per zone – 1-3 MW per zone
200 – 400 racks/cabinets per zone
Cooling and power per pod (per pair of rack rows) Topologia poate fi diferita si depinde
8 – 48 servers per rack/cabinet – 1-1.5 KW per mai ales de tipul serverelor si al
cabinet echipamentelor de comunicatii
2 – 11 interfaces per server
2500 – 30000 server per DC
4000 – 120,000 ports per DC
DATA CENTER - STRUCTURA LOGICA
DC Core
Gigabit Ethernet

10 Gigabit Ethernet
10GbE Core WAN
10 Gigabit DCE

IP+MPLS WAN 4Gb Fibre Channel

Agg Router 10 Gigabit FCoE/DCE

DC Aggregation
SAN A/B
10GbE Agg MDS 9500
10GbE VSS Agg DC Services
DC Services Storage Core

DC Access

End-of-Row Rack Blade End-of-Row Rack Blade Storage

10GbE and 4Gb FC Server Access


1GbE Server Access 10GbE and 4Gb FC Server Access Storage
10Gb FCoE Server Access
CLOUD COMPUTING
DEFINITII
Cloud Computing: Model de consum al resurselor si serviciilor IT
care este abstractizat de infrastructura necesara pentru livrare si
care este oferit la cerere si intr-un mod scalabil intr-un mediu
multi-utilizator
CARACTERISTICLIE CLOUD
COMPUTING (NIST)

Serviciu Elasticitate
Caracteristici
masurabil rapida
Esentiale Resurse
Self Service Broad Network
organizate in
la cerere Access
grupuri mari

Modele de Software as a Platform as a Infrastucture as a


servicii Service (SaaS) Service (PaaS) Service (IaaS)

Modele de
livrare Public Private Hybrid Community

http://www.csrc.nist.gov/groups/SNS/cloud-computing/index.html
MODELE DE LIVRARE CLOUD
COMPUTING
Resursele si serviciile IT sint oferite
Public Cloud catre toata lumea folosind Internet-ul
public
Resursele si serviciile IT sint oferite
Private Cloud utilizatorilor dintr-o singura
NIST

organizatie
Federalizarea, automatizarea si
Hybrid Cloud integrarea cooperativa dintre could-ul
public si cel privat

Community Servicii de cloud oferite unei categorii


Cloud foarte bine definite de utilizatori (ex.
intr-o arie geografica, intr-o industrie)

…si unul suplimentar


Virtual Private Servicii de cloud de tip privat utilizind
Cloud infrastructura dintr-un cloud public
MODELE DE SERVICII CLOUD
COMPUTING
Application Servicii de aplicatii
(SaaS) (End users)

Platform Servicii de dezvoltare


as a Service (Execution Platforms –
Developers)

Infrastructure Servicii de infrastructura


as a Service (System Administrators)

Technologie Infrastructra provider-ilor de


servicii Cloud
(Public/Private Cloud Providers)
E UN SERVICIU DE
CLOUD ATUNCI CIND…
… este provizionat de utilizator (auto)
… creaza iluzia unor resurse infinite
… platesti doar ce utilizezi
THE HEALTHCARE CLOUD
Cloud Computing pentru HC:
• Scalabilitate
• Optimizare costuri
• Reducere a complexitatii IT
• Standardizare
• OPEX vs CAPEX

Oportunitati SaaS in HC:


• EHR
• PACS
• Hospital IS
• Radiology IS
• ePrescription
• TP/HealthPresence
• Web Collaboration
• Email/vmail/IP Tel
SISTEME ICT IN MEDICINA

CALIN POENARU, MENG, PHD


DE CE E NEVOIE DE DATA
PROCESSING?
•  Nevoia de decizii operationale rapide si eficiente
•  Clinic: diagnoza, tratament, preventie, etc.5
•  Administrativ: utilizare resurse, programari , internari/externari,
etc.
•  Imbunatairea eficientei operationale intr-un spital duce, in final,
la aplicarea de analize predictive in toate procesele asociate
cu actul medical (care-delivery)
•  Utilizarea datelor existente: 80 MB/an genereaza pacientul
mediu
•  Eficientizarea costurilor: 300 bil USD pot fi salvate doar prin
analiza datelor existente [McKinsey]
DATA PROCESSING

Ad-Hoc Traditional

Expertiza
domeniu
Data
Engineering

Data Science
Computer Matematica
Science & Statistica
Machine
Learning
CE INSEAMNA DATA
SCIENCE
Domeniu de activitate pentru cei care:
•  Fac cercetari pentru a raspunde la intrebari specializate
domeniului
•  Utilizeaza volume mari de date pentru a furniza raspunsurile
cerute
•  Pregatesc datele pentru a fi utilizate in studii inferentiale si
predictive
•  Exploreaza datele pentru a gasi pattern-uri ascunse
•  Automatizeaza procesele pentru studii statistice
•  Prezinta rezultatele catre cei care iau decizii
CE INSEAMNA DATA
ENGINNERING
Domeniu de activitate pentru cei care:
•  Dezvolta, construiesc, opereaza si intretin arhitecturi si solutii
pentru procesarea si stocarea datelor
•  Aliniaza arhitecturile si solutiile la cerintele proceselor de
prelucrare de date
•  Descopera noi modalitati de achizitii de date
•  Dezvolta si implementeaza procese pentru data cleansing,
data modelling, data mining, etc.
•  Recomanda proceduri pentru imbunatatirea calitatii, eficientei
si sigurantei datelor
DE CE NU E UTILIZAT
MODELUL
•  Lipsa cererii interne
•  Costuri
•  Utilzare in procese
•  Inlocuirea data scientist cu alti profesionisti interni existenti
•  Utilizarea de combinatii medic/programator pentru sarcini
punctuale
•  Lipsa increderii in rezultatul analizei de date (analytics vs.
instinct)
AGENDA
Elemente de ICT
•  Hardware
•  Software
•  Storage
•  Comunicatii
Modele de utilizare
•  Datacenter
•  Cloud Computing
DEFINITII GENERALE
Bioinformatica: este o arie interdisciplinara care dezvolta metode
si unelte software utilizate pentru studiul datelor biologice,
combinind ingineria software cu statistica si matematica. Este o
“umbrela” pentru cercetari in zona genetica/genomica
Informatica medicala: reprezinta aplicarea directa a tehnologiilor
ICT in medicina. Este o arie multidisciplinara care utilizeaza
tehnici ICT pentru a imbunatatii calitatea, eficienta si inovatia in
domeniul sanatatii. Zonele acoperite sint gestiunea resurselor, a
echipamentelor si metodelor necesare achizitiei, stocarii, regasirii
si utilizarii informatiei cu caracter medical.

Sursa: Wikipedia
HARDWARE

COMPUTING, STORAGE,
COMMUNICATIONS
DATA PROCESSING
DEFINITIE
Server software= o instanta functionala a unei aplicatii software
care primeste cereri de la o alta entitate software la care ofera un
raspuns adecvat serviciului oferit
Server hardware = defineste echipamentul special destinat
gazduirii aplicatiilor software care ofera un anumit serviciu

Sursa: Wikipedia, 2017


DATA PROCESSING
FUNCTIONALITATI
Un server hardware (o masina dedicata) poate avea unul sau mai
multe server-e software active, oferind servicii diferite
Server-ul faciliteaza accesul concurent la date, schimbul de
informatii, partajarea resurselor, etc.
Serviciile oferite sint accesibile prin intermediul retelelor de
comunicatii, fie private (intranet), fie publice (Internet).
DATA PROCESSING
CARACTERISTICI
Hardware “specializat” in termeni de
performanta, marime, disponibilitate,
consum
Anumite componente ale unui calculator
obisnuit sint absente (monitor, tastatura,
porturi I/O, mouse, interfete specializate,
etc.)
Modul uzual de impachetare:
•  sasiu rackabil 19”
•  blade
DATA PROCESSING
CERINTE SPECIALE
1.  Performanta:
•  CPU, memorie, HDD, I/O
2.  Disponibilitate:
•  Calculata ca raport:
A = UpTime/TotalTime
•  Exprimata ca procent: 99.999%
3.  Consum energie/racire
•  Relevant pentru echipamente care functioneaza continuu
•  Calculat ca raport, eficacitatea consumului de energie:
PUE= Total_Energy/Total_IT_Energy
•  Exprimat in KW sau BTU
DATA STORAGE
DEFINITIE
Computer Data Storage: utilizarea de medii de stocare volatile si
non-volatile pentru pastrarea informatiei pe termen scurt/lung
In mod uzual:
•  Mediu volatil = mentine datele cit timp device-ul este alimentat (ex.
memorie)
•  Mediu non-volatil = mentine datele indiferent de starea alimentarii
(ex. HDD, SSD/flash)
Unitatea fundamentala este bit
Unitatea cea mai folosita este bytes (8 bits) si multiplii acestuia
(KB, MB, GB, TB, …)
DATA STORAGE
IERARHIE

Primary

Secondary

Tertiary
Source: Wikimedia
DATA STORAGE
FUNCTIONALITATI
Protectie la erori
•  Codare speciala pentru detectie/corectie de erori (CRC)
Criptare
•  Utilizare de algoritmi speciali pentru prevenirea accesului neautorizat
(LRW)
Redundanta
•  Utilizare de arhitecturi de sistem specializate pentru a evita
pierderea datelor critice (RAID)
Acces la distanta
•  Utilizare de protocoale speciale pentru accesul datelor pe sisteme
remote (SAN/NAS)
DATA STORAGE
CARACTERISTICI
Volatilitate: dependenta (sau nu) de prezenta alimentarii cu energie
electrica
Mutabilitate: posibilitatea de a face operatii de citire/scriere sau doar
de citire
Accesibilitate: posibilitatea de a accesa (sau nu) orice locatie in
acelasi timp, independent de pozitie
Adresabilitate: defineste unitatea atomica de informatie adresabila
(bit, byte, fisier)
Capacitate: defineste capacitatea totala de stocare
Performanta: defineste timpul de acces la o anume locatie si
capacitatea de transfer (in/out) a datelor
Consum: cantitatea de energie necesara accesarii unei cantitati
predefinite de informatie intr-un interval de timp
DATA STORAGE
TEHNOLOGII
Stocare
•  Semiconductor
•  Magnetic
•  Optic
Acces
•  DAS (Direct Attached Storage) – sistemul de stocare este atasat fizic
direct cu sistemul de prelucrare
•  NAS (Network Attched Storage) – sistemul de stocare este conectat
de sistemul de prelucrare prin intermediul LAN/WAN si ofera acces
direct la fisiere
•  SAN (Storage Area Network) – sistemul de stocare este conectat de
sistemul de prelucrare prin intermediul unei retele specializate si
ofera acces direct la blocuri de disk
DATA TRANSMISSION
DEFINITII
Data trasmission/communications: defineste transmiterea (fizica)
a datelor reprezentate in forma unui semnal electromagnetic,
intre sisteme conectate prin canale punct-la-punct sau punct-la-
multipunct (electrice, magnetice, optice)
Transmisia poate fi:
•  Analogica
•  Digitala
DATA TRANSMISSION
MODELUL TCP

Source: Wikimedia
DATA TRANSMISSION
CARACTERISTICI
Aria acoperita
•  PAN (Personal Area Network)
•  LAN (Local Area Network)
•  MAN (Metropolitan Area Network)
•  WAN (Wide Area Network)
Capacitatea (viteza) de transmisie
•  Kbps, Mbps, Gbps
Mediul de transmisie
•  Shared
•  Point-to-point
Protocolul de transmisie
DATA TRANSMISSION
TEHNOLOGII
Wired
•  Ethernet
•  Fiber Channel
•  History = {Token Ring, ATM, Frame Relay}
Wireless
•  PAN (Personal Area Network): Bluetooth, zigBee
•  LAN (Local Area Network): WiFi
•  MAN (Metropolitan Area Network): WiMAX
•  WAN (Wide Area Network): Cellular 2G/3G/4G
SOFTWARE

COMPUTING, STORAGE,
COMMUNICATIONS
SISTEME DE OPERARE
Sistem de operare (OS): software care administreaza resursele unui
computer si le pune la dispozitia aplicatiilor
Resursele hardware uzuale sint:
•  Memorie
•  CPU
•  I/O (devices)
Resursele software uzuale sint:
•  Sistem de fisiere
•  Gestiunea proceselor
•  Gestiunea intreruperilor
SISTEME DE OPERARE
Tipuri de OS:
•  Multi-tasking/Multi-user
•  Real-time
•  Embedded

Source: Wikimedia
VIRTUALIZARE
DEFINITII
Virtualizare: reprezinta gruparea si abstractizarea resurselor si
serviciilor intr-un mod in care natura si limitele fizice ale acestora
sint ascunse utilizatorilor

Source: Gardner
VIRTUALIZARE
COMPUTING - HARDWARE
Hardware (full) virtualization: crearea unui “masini virtuale” care
din puctul de vedere al OS se comporta ca un computer real, cu
resurse proprii, partitionate din resursele reale ale masinii fizice
pe care ruleaza.
VIRTUALIZARE
COMPUTING - HARDWARE
Presupune existenta unui “Host
OS” transformat in “hypervisor” si
a unui “Guest OS” cel in care
ruleaza aplicatiile dorite
Exista si alte metode de
virtualizare (ex. la nivel de OS),
dar utilizarea este restrinsa
VIRTUALIZARE
SERVER

Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App

Server Server Server Server Server


200-500Mb/s 200-500Mb/s 200-500Mb/s 200-500Mb/s 200-500Mb/s
VIRTUALIZARE
SERVER

OS+App OS+App OS+App OS+App OS+App


Hypervisor Hypervisor Hypervisor Hypervisor Hypervisor

Server Server Server Server Server


200-500Mb/s 200-500Mb/s 200-500Mb/s 200-500Mb/s 200-500Mb/s
VIRTUALIZARE
SERVER

OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
Hypervisor Hypervisor

Server Fizic A Server Fizic B


VIRTUALIZARE
SERVER

Un singur server fizic gazduieste


multiple si independente {Guest
OS + aplicatii}
Hypervisor-ul abstractizeaza
hardware-ul fizic de Guest OS si
de aplicatii
• Prezinta un “server” standard CPU
catre OS si aplicatie Hypervisor
vNIC
Virtual Machine
• Poate prezenta multiple Virtual SMP Virtual Switch File System
Identities (IP + MAC)
VMFS
RAM
Partitiile impart resursele fizice ale
sistemului
pNIC HBA
• RAM, CPU, disk, etc.
Multiple implementari diferite
• VMware, XEN, Microsoft,
Sun containers
MODELE DE
INTERCONECTARE
ARHITECTURI DISTRIBUITE
DEFINITII

O arhitectura distribuita include elemente de calcul (noduri) care


sint rezidente in locatii diferite (pe sisteme fizice sau virtuale
diferite) si care isi coordoneaza actiunile (asociate cu o aplicatie)
prin mesaje transmise prin intermediul unei retele de comunicatii
O astfel de arhitectura:
•  Nu depinde de locatia nodurilor
•  Fiecare nod are propria memorie
•  Ansamblul tolereaza defectarea unor componente individuale
ARHITECTURI DISTRIBUITE
PEER-TO-PEER
Partitioneaza task-urile intre
perechi de entitati, cu aceleasi
drepturi si putere
Fiecare entitate pune la dispozitie
o parte din resurse catre alte
entitati cu care vine in contact
ARHITECTURI DISTRIBUITE
CLIENT – SERVER
Client – Server: partitioneaza task-
urile intre perechi de entitati, care
fie pun la dispozitie resursele sau
serviciile (server) sau fie le solicita
pentru utilizare (client)
Comunicatia Client – Server se
face (in majoritatea cazurilor) prin
intermediul unei retele
DATACENTER
DEFINITII
Data Center: o locatie (facility) unde sint gazduite elemente de
computing, storage si comunicatii de date in scopul oferirii unor servicii
ICT
Cerintele obligatorii sint specificate de standarde specializate (TIA-942,
GR-3160)
DATACENTER
DEFINITII
Principala cerinta este business continuity:
•  Tier 1: 99.671%
•  Tier 2: 99.741%
•  Tier 3: 99.982%
•  Tier 4: 99.995%
A doua cea mai importanta este energy efficiency
•  PUE = [1.1 – 2.0]
DATA CENTER -
STRUCTURA FIZICA
HOT AISLE
DC
COLD AISLE Pod

Zone

Pod

Network

Servers

Storage

4 - 6 Zones Per DC & 6 – 15 MW per DC


5,000 – 8,000 m2 per zone – 1-3 MW per zone
200 – 400 racks/cabinets per zone
Cooling and power per pod (per pair of rack rows) Topologia poate fi diferita si depinde
8 – 48 servers per rack/cabinet – 1-1.5 KW per mai ales de tipul serverelor si al
cabinet echipamentelor de comunicatii
2 – 11 interfaces per server
2500 – 30000 server per DC
4000 – 120,000 ports per DC
DATA CENTER - STRUCTURA LOGICA
DC Core
Gigabit Ethernet

10 Gigabit Ethernet
10GbE Core WAN
10 Gigabit DCE

IP+MPLS WAN 4Gb Fibre Channel

Agg Router 10 Gigabit FCoE/DCE

DC Aggregation
SAN A/B
10GbE Agg MDS 9500
10GbE VSS Agg DC Services
DC Services Storage Core

DC Access

End-of-Row Rack Blade End-of-Row Rack Blade Storage

10GbE and 4Gb FC Server Access


1GbE Server Access 10GbE and 4Gb FC Server Access Storage
10Gb FCoE Server Access
CLOUD COMPUTING
DEFINITII
Cloud Computing: Model de consum al resurselor si serviciilor IT
care este abstractizat de infrastructura necesara pentru livrare si
care este oferit la cerere si intr-un mod scalabil intr-un mediu
multi-utilizator
CARACTERISTICLIE CLOUD
COMPUTING (NIST)

Serviciu Elasticitate
Caracteristici
masurabil rapida
Esentiale Resurse
Self Service Broad Network
organizate in
la cerere Access
grupuri mari

Modele de Software as a Platform as a Infrastucture as a


servicii Service (SaaS) Service (PaaS) Service (IaaS)

Modele de
livrare Public Private Hybrid Community

http://www.csrc.nist.gov/groups/SNS/cloud-computing/index.html
MODELE DE LIVRARE CLOUD
COMPUTING
Resursele si serviciile IT sint oferite
Public Cloud catre toata lumea folosind Internet-ul
public
Resursele si serviciile IT sint oferite
Private Cloud utilizatorilor dintr-o singura
NIST

organizatie
Federalizarea, automatizarea si
Hybrid Cloud integrarea cooperativa dintre could-ul
public si cel privat

Community Servicii de cloud oferite unei categorii


Cloud foarte bine definite de utilizatori (ex.
intr-o arie geografica, intr-o industrie)

…si unul suplimentar


Virtual Private Servicii de cloud de tip privat utilizind
Cloud infrastructura dintr-un cloud public
MODELE DE SERVICII CLOUD
COMPUTING
Application Servicii de aplicatii
(SaaS) (End users)

Platform Servicii de dezvoltare


as a Service (Execution Platforms –
Developers)

Infrastructure Servicii de infrastructura


as a Service (System Administrators)

Technologie Infrastructra provider-ilor de


servicii Cloud
(Public/Private Cloud Providers)
E UN SERVICIU DE
CLOUD ATUNCI CIND…
… este provizionat de utilizator (auto)
… creaza iluzia unor resurse infinite
… platesti doar ce utilizezi
THE HEALTHCARE CLOUD
Cloud Computing pentru HC:
• Scalabilitate
• Optimizare costuri
• Reducere a complexitatii IT
• Standardizare
• OPEX vs CAPEX

Oportunitati SaaS in HC:


• EHR
• PACS
• Hospital IS
• Radiology IS
• ePrescription
• TP/HealthPresence
• Web Collaboration
• Email/vmail/IP Tel
🤖
Info
Intervalele 95% cel mai des utilizate
Variabilitatea datelor = abaterea standard

Distributia normala = cei 2 parametri sunt media si deviatia standard, mediana


= modulul

Variația e deviatia standard la pătrat


Distributia normala = mediana media si modulul sunt egale, gradul de libertate
inseamna n-1
Variabile cantitativ discrete = valorile sunt nr intregi

Variabile nominale = cele din categorii


Scala z = orice scor poate fi folosit pe scala z, în distribuitia normală;scor
asociat distribuției normale
Datele medicale urmează o distribuție simetrică sau asimetrică spre dreapta

Valoarea P = nivel de semnificație (si in spss);


Testarea de semnificație = mă refer la ipoteza nula

P0,05 resping ipoteza alternativă , accept ipoteza nula

P 0, 05 accept ipoteza alternativă , resping ipoteza nula


Orice variație nu e corecta

valoarea P e probabilitatea ca eu sa identifi un raspuns, sa accpet ipoteza nula


in caz ca nu e adevarata, o probabilitate sa dau un raspuns gresit 120

eroarea standard = este abaterea standard a distribuitiei de esantionare ;scade


cand nr de indivizi creste,

diferenta e considerata semnificativ statistic daca: P0,05

coeficientul de corelatie= acel grad in care daca ma refer la 2 variabile, ele


variaza in acelasi mod (una creste, creste si cealalta = corelatie) daca una

Info 1
creste si una scade nu sunt in concordanta ; daca una scade si cealalta scade
au acelasi trend si e posibil sa existe o asociere intre ele
coeficientul poate lua valori intre 1 ; 1 ]; daca e 1 ⇒ am o corelatie absoluta,
perfecta; daca e 0 nu e corelatie; daca e 1, inseamna ca sunt asociate,dar
invers (una creste una scade)

Cum arată un tabel de contingenta ⇒ Unele au nr randuri × nr coloane


Grade de libertate =parametrul unei distribuții hi pătrat
Nr coloane 1 /nr randuri-1

Ex 2 × 2 ⇒ 2 coloane 2 randuri ⇒ 1 grad de libertate 2121

statistica descriptiva = se pot determina statistici referitoare la tendinta


centrala (media, mediana, modulul) si la variabilitatea datelor ( fata de media /
tendinta centrala a acestora a setului de date : varianta, amplitudinea, quartile
de interes etc) ⇒ nu poti selecta participantii din esantion in aceasta statistic;
ai numarul dar nu pot sa spui: in esantionul asta trebuie sa am x cazuri ca sa
fie semnificativ

statistica inferentiala = aflam proprietatile populatiei pornind de la esantion

variabilele calitative : in functie de ele aplicam teste etc; care pot fi nominale
si ordinale ; sunt etichete;

ordinale cand poti sa pui categoriile in ordine ascendenta/descendenta (


impartirea pe grupe de varsta)

nominala cand nu poti sa organizezi categoriile ( ex: branduri )

de citit slide-uri

ICT : 17 18 21 22 26 27 46
DATA BASE : 414, 16(metadata), 2022, 3040
Hospital info system 4446

Info 2

S-ar putea să vă placă și