Documente Academic
Documente Profesional
Documente Cultură
șI BIOSTATISTICĂ
CURS I
• Concepte IT&C si
terminologie
• Intelegerea notiunilor de
Informatica Medicala
• Aplicatii utilizate in
Informatica Medicala
De ce acest curs?
Bernard Shaw
Viitorul in Informatica Medicala
20/20 Vision and Medical Informatics in the 21st Century
“În vremurile schimbării,
cei ce învață vor moșteni lumea,
în timp ce ‘învățații’ vor descoperi
că sunt minunat echipați pentru a
face față unei lumi care nu mai există”
Eric Hoffer
Viitorul in Informatica Medicala
Alvin Toffler
Predictia viitorului un exercitiu periculos
640K ought to be enough for anybody.
Bill Gates, 1981.
http://www.iclinicworld.com/hospital-information-system/
Model schematic al unui SIS
Introducerea Monito-
datelor rizare Module Financiar
& vizionare eveni- Logice
Laborator Medicale
Rezultate mente
Codificari
specializate
Farmacie
Interfata BD
Dictionar
Termeni
medicali
Radiologie
Baza date
Baza de date pacient
cercetare
Sisteme Informatice
Date & informații
• Datele sunt fapte prime sau
forma neorganizata (ex: date
alfanumerice, imaginile, date
audio și date video).
– tipul de date care vor fi
procesate sunt strans legate
de funcțiile organizatiei
– ulterior vor fi interpretate,
prezentate, actualizate...
• Informația este o colecție de
fapte organizate în așa fel încât
să aibă o valoare dincolo de
faptele în sine.
– se obţine în general din
prelucrarea datelor
• Procesul este un set de sarcini
legate într-un mod logic.
Sisteme Informatice
Date & informații
• Datele şi informaţiile reprezintă componentele primare ale
sistemului informaţional.
• Data reprezintă o înşiruire de caractere, numerice sau alfa
numerice, care au o anumită semnificaţie.
• Informaţiile se obţin în general din prelucrarea datelor (nu
se confundă însă cu acestea).
Valoarea informațiilor:
• sunt direct legate de modul în care acestea ajută factorii de
decizie in realizarea obiectivelor organizației
• ajutor in îndeplinirea sarcinilor mai eficient și mai eficace
Standardizare
• Organismele de standardizare lucrează la modalități care
au ca scop încurajarea colaborării între tehnologi şi
clinicieni pentru a asigura reușita deplină la nivel mondial a
aplicațiilor de informatica medicala.
– Exemplul relevant este IEEE Standards Association (una dintre cele
mai dezvoltate organizatii la nivel mondial care are ca focus noile
tehnologii si utilizarea lor in beneficiul umanitatii), entitate
recunoscută la nivel mondial ca fiind organismul prin care se
stabilesc standardele de comunicație, activ implicată în elaborarea
standardelor care contribuie la dezvoltarea telemedicinei.
• Aceste standarde stabilesc modalitățile prin care
dispozitivele medicale, ce colecteaza automat şi detaliat
datele de la pacient (semnele vitale, datele operaţionale ale
echipamentului) şi sistemele de prelucrare de date asociate
pot comunica.
Standardizare
• Instituții de standardizare din domeniul IT (IEEE, IETF, ITU,
ETSI, ANSI, etc) au deja adoptate standarde care privesc
echipamentele medicale, nu doar în ceea ce privește
construcția hardware, dar și legate de modul de comunicație
sau formatul datelor, pe arii de interes:
– conținutul semantic, structura și schimbul de date (ex. HL7, DICOM);
– modelul, reprezentarea datelor și specificații speciale (ex. IEEE 11073)
– construcția dispozitivelor medicale (ex. ISO 11633);
– interoperabilitatea dispozitivelor medicale (ex. IHE)
– securitatea și calitatea serviciului de comunicație (ex. AES);
– securitatea datelor medicale (ex. ISO27799)
Telemedicina
• Furnizarea de servicii de ingrijire a sanatatii între
indivizi separați geografic, cu ajutorul sistemelor de
telecomunicații, de exemplu, conferințe video.
Telemedicina
• “Totalitatea sistemelor care ajută la procesul de îngrijire a
sănătăţii prin schimbul cât mai eficient de informaţie
medicală”
(Bannet,1978)
• Telemedicina se constituie ca un sistem integrat de îngrijire
a sănătăţii bazat pe resurse tehnologice, organizaţionale şi/
sau sistemice
• Telemedicina constă în esenţă în utilizarea semnalelor
electronice, a tehnologiei informaţiei şi a telecomunicaţiilor
pentru a transfera informaţiile medicale de la un sistem la
altul.
Telemedicina
• Dezvoltarea infrastructurii tehnologice ca suport important în
activitatea medicală;
• Diminuarea costurilor pe pacient în condițiile în care acestea sunt
ridicate și nu acoperă necesarul;
• Integrarea datelor existente la nivel de pacient într-un sistem
unitar, realizat conform standardelor actuale existente la nivel
mondial (ex. HL7);
• Colectarea și integrarea la nivel de sistem a datelor complete
despre pacient, care să poată asigura informațiile necesare
diagnosticării și tratării acestuia, indiferent de locația în care se află
• Remodelarea sistemului de sănătate într-un sistem integrat care să
poată susține îngrijirea continuă a pacienților, să asigure
securitatea informațiilor legate de pacient .
Telemedicina
• Progresele realizate în domeniul tehnologiilor de
telecomunicaţii utilizate în sistemele de sănătate din ultimul
deceniu au extins posibilităţile de dezvoltare ale aplicațiilor
dedicate acestuia.
• Astăzi aplicaţiile destinate acestui domeniu sunt în
extindere datorită posibilitățiilor de utilizare a serviciilor
video interactive, prin
posibilitațile de stocare şi
transmitere a informațiilor
care au fost realizare în
ultimul timp.
– Teleconsultatia:
consultare clinică realizată
utilizând un serviciu
bazat pe IT&C.
Telemedicina
Conduce
Permite
Aplicatii
Conduce Permite
Infrastructura IT
Input Output
• Mouse • Monitor
• Keyboard • Printer
• Scanner • Plotter
• Microphone • Boxes
• Trackball • Touch screen
• Touch screen
Hardware
Dispozitive medicale pentru masurarea:
• Presiunii arteriale
• Puls
• Masurarea greutatii
Probleme:
a. Transmiterea datelor (tehnic)
b. Procesare (algoritmi)
c. Interoperabilitate
d. Decizie
Software
• Sistemul de operare (OS) - pachet de
programe, cu rol de a gestiona resursele
hardware-ului pe care este instalat, in
timpul indeplinirii diverselor task-uri
– Controleaza transferul de date intre diverse
parti ale computerului cat si cu exteriorul
– Permite utilizatorului sa acceseze resursele
computerului prin intermediul GUI (Graphical
User Interface)
• Exemple:
– Linux: SUSE, Mandrake, Ubuntu
– Microsoft: Windows XP, Vista, Windows 8
– Apple: MacOS
Probleme legate de etica
• Etica in Informatica Medicala este disciplina care ia in
consideratie implicațiile tehnologiei și încearcă să determine
ceea ce este bun sau adecvat în domeniul Informaticii
Medicale.
• Abordarea deciziilor din punct de vedere etic à pas cu pas
• Există întrebări cheie care ar trebui să fie utilizate în timpul
procesului de luare a deciziilor:
– Care sunt faptele cazului respectiv?
• Identificarea tuturor faptelor pertinente și a specialiștilor implicati.
– Care sunt întrebările etice?
• Identificarea normelor pertinente și a problemelor juridice legate
de open surce software.
– Care sunt părțile afectate?
• Identificarea principalelor părți interesate (stakeholders.)
Probleme legate de etica
• Identificarea unora dintre problemele etice și preocupările
care ar trebui abordate înainte ca aceste noi soluții
informatice in zona serviciilor medicale sa fie
implementate.
– dezvoltarea unor măsuri care să ia în considerare si sa răspunda
acestor provocări etice cu scopul de a atenua posibile consecinte
• Tipuri cursor:
– Selectia domeniului
– Editarea continutului unei
celule
– Mutarea domeniului selectat
– Extinderea unei formule
Aplicatii – MS Excel
Functii statistice:
• COUNT(domain)
• AVERAGE(domain)
• STDEV(domain)
Bibliografie
• Medical Informatics: Emerging Technologies, ‘Open’ EHR Systems, and Ethics in
the 21st Century, Groen, Mahootian, & Goldstein, 2008
• Informatica pentru Medici, vol II – L Iliuta, E Poenaru, Editura ‘Carol Davila’, 2011
• Journal of Medical Ethics - http://jme.bmj.com/
• The American Journal of BioEthics - http://www.bioethics.net/journal/
• BioEthics.Net Web Site - http://www.bioethics.net/
• Institute for Ethics& Emerging Technologies - http://ieet.org/
• http://en.wikipedia.org/
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS I
• Concepte IT&C si
terminologie
• Intelegerea notiunilor de
Informatica Medicala
• Aplicatii utilizate in
Informatica Medicala
De ce acest curs?
Bernard Shaw
Viitorul in Informatica Medicala
20/20 Vision and Medical Informatics in the 21st Century
“În vremurile schimbării,
cei ce învață vor moșteni lumea,
în timp ce ‘învățații’ vor descoperi
că sunt minunat echipați pentru a
face față unei lumi care nu mai există”
Eric Hoffer
Viitorul in Informatica Medicala
Alvin Toffler
Predictia viitorului un exercitiu periculos
640K ought to be enough for anybody.
Bill Gates, 1981.
http://www.iclinicworld.com/hospital-information-system/
Model schematic al unui SIS
Introducerea Monito-
datelor rizare Module Financiar
& vizionare eveni- Logice
Laborator Medicale
Rezultate mente
Codificari
specializate
Farmacie
Interfata BD
Dictionar
Termeni
medicali
Radiologie
Baza date
Baza de date pacient
cercetare
Sisteme Informatice
Date & informații
• Datele sunt fapte prime sau
forma neorganizata (ex: date
alfanumerice, imaginile, date
audio și date video).
– tipul de date care vor fi
procesate sunt strans legate
de funcțiile organizatiei
– ulterior vor fi interpretate,
prezentate, actualizate...
• Informația este o colecție de
fapte organizate în așa fel încât
să aibă o valoare dincolo de
faptele în sine.
– se obţine în general din
prelucrarea datelor
• Procesul este un set de sarcini
legate într-un mod logic.
Sisteme Informatice
Date & informații
• Datele şi informaţiile reprezintă componentele primare ale
sistemului informaţional.
• Data reprezintă o înşiruire de caractere, numerice sau alfa
numerice, care au o anumită semnificaţie.
• Informaţiile se obţin în general din prelucrarea datelor (nu
se confundă însă cu acestea).
Valoarea informațiilor:
• sunt direct legate de modul în care acestea ajută factorii de
decizie in realizarea obiectivelor organizației
• ajutor in îndeplinirea sarcinilor mai eficient și mai eficace
Standardizare
• Organismele de standardizare lucrează la modalități care
au ca scop încurajarea colaborării între tehnologi şi
clinicieni pentru a asigura reușita deplină la nivel mondial a
aplicațiilor de informatica medicala.
– Exemplul relevant este IEEE Standards Association (una dintre cele
mai dezvoltate organizatii la nivel mondial care are ca focus noile
tehnologii si utilizarea lor in beneficiul umanitatii), entitate
recunoscută la nivel mondial ca fiind organismul prin care se
stabilesc standardele de comunicație, activ implicată în elaborarea
standardelor care contribuie la dezvoltarea telemedicinei.
• Aceste standarde stabilesc modalitățile prin care
dispozitivele medicale, ce colecteaza automat şi detaliat
datele de la pacient (semnele vitale, datele operaţionale ale
echipamentului) şi sistemele de prelucrare de date asociate
pot comunica.
Standardizare
• Instituții de standardizare din domeniul IT (IEEE, IETF, ITU,
ETSI, ANSI, etc) au deja adoptate standarde care privesc
echipamentele medicale, nu doar în ceea ce privește
construcția hardware, dar și legate de modul de comunicație
sau formatul datelor, pe arii de interes:
– conținutul semantic, structura și schimbul de date (ex. HL7, DICOM);
– modelul, reprezentarea datelor și specificații speciale (ex. IEEE 11073)
– construcția dispozitivelor medicale (ex. ISO 11633);
– interoperabilitatea dispozitivelor medicale (ex. IHE)
– securitatea și calitatea serviciului de comunicație (ex. AES);
– securitatea datelor medicale (ex. ISO27799)
Telemedicina
• Furnizarea de servicii de ingrijire a sanatatii între
indivizi separați geografic, cu ajutorul sistemelor de
telecomunicații, de exemplu, conferințe video.
Telemedicina
• “Totalitatea sistemelor care ajută la procesul de îngrijire a
sănătăţii prin schimbul cât mai eficient de informaţie
medicală”
(Bannet,1978)
• Telemedicina se constituie ca un sistem integrat de îngrijire
a sănătăţii bazat pe resurse tehnologice, organizaţionale şi/
sau sistemice
• Telemedicina constă în esenţă în utilizarea semnalelor
electronice, a tehnologiei informaţiei şi a telecomunicaţiilor
pentru a transfera informaţiile medicale de la un sistem la
altul.
Telemedicina
• Dezvoltarea infrastructurii tehnologice ca suport important în
activitatea medicală;
• Diminuarea costurilor pe pacient în condițiile în care acestea sunt
ridicate și nu acoperă necesarul;
• Integrarea datelor existente la nivel de pacient într-un sistem
unitar, realizat conform standardelor actuale existente la nivel
mondial (ex. HL7);
• Colectarea și integrarea la nivel de sistem a datelor complete
despre pacient, care să poată asigura informațiile necesare
diagnosticării și tratării acestuia, indiferent de locația în care se află
• Remodelarea sistemului de sănătate într-un sistem integrat care să
poată susține îngrijirea continuă a pacienților, să asigure
securitatea informațiilor legate de pacient .
Telemedicina
• Progresele realizate în domeniul tehnologiilor de
telecomunicaţii utilizate în sistemele de sănătate din ultimul
deceniu au extins posibilităţile de dezvoltare ale aplicațiilor
dedicate acestuia.
• Astăzi aplicaţiile destinate acestui domeniu sunt în
extindere datorită posibilitățiilor de utilizare a serviciilor
video interactive, prin
posibilitațile de stocare şi
transmitere a informațiilor
care au fost realizare în
ultimul timp.
– Teleconsultatia:
consultare clinică realizată
utilizând un serviciu
bazat pe IT&C.
Telemedicina
Conduce
Permite
Aplicatii
Conduce Permite
Infrastructura IT
Input Output
• Mouse • Monitor
• Keyboard • Printer
• Scanner • Plotter
• Microphone • Boxes
• Trackball • Touch screen
• Touch screen
Hardware
Dispozitive medicale pentru masurarea:
• Presiunii arteriale
• Puls
• Masurarea greutatii
Probleme:
a. Transmiterea datelor (tehnic)
b. Procesare (algoritmi)
c. Interoperabilitate
d. Decizie
Software
• Sistemul de operare (OS) - pachet de
programe, cu rol de a gestiona resursele
hardware-ului pe care este instalat, in
timpul indeplinirii diverselor task-uri
– Controleaza transferul de date intre diverse
parti ale computerului cat si cu exteriorul
– Permite utilizatorului sa acceseze resursele
computerului prin intermediul GUI (Graphical
User Interface)
• Exemple:
– Linux: SUSE, Mandrake, Ubuntu
– Microsoft: Windows XP, Vista, Windows 8
– Apple: MacOS
Probleme legate de etica
• Etica in Informatica Medicala este disciplina care ia in
consideratie implicațiile tehnologiei și încearcă să determine
ceea ce este bun sau adecvat în domeniul Informaticii
Medicale.
• Abordarea deciziilor din punct de vedere etic à pas cu pas
• Există întrebări cheie care ar trebui să fie utilizate în timpul
procesului de luare a deciziilor:
– Care sunt faptele cazului respectiv?
• Identificarea tuturor faptelor pertinente și a specialiștilor implicati.
– Care sunt întrebările etice?
• Identificarea normelor pertinente și a problemelor juridice legate
de open surce software.
– Care sunt părțile afectate?
• Identificarea principalelor părți interesate (stakeholders.)
Probleme legate de etica
• Identificarea unora dintre problemele etice și preocupările
care ar trebui abordate înainte ca aceste noi soluții
informatice in zona serviciilor medicale sa fie
implementate.
– dezvoltarea unor măsuri care să ia în considerare si sa răspunda
acestor provocări etice cu scopul de a atenua posibile consecinte
• Tipuri cursor:
– Selectia domeniului
– Editarea continutului unei
celule
– Mutarea domeniului selectat
– Extinderea unei formule
Aplicatii – MS Excel
Functii statistice:
• COUNT(domain)
• AVERAGE(domain)
• STDEV(domain)
Bibliografie
• Medical Informatics: Emerging Technologies, ‘Open’ EHR Systems, and Ethics in
the 21st Century, Groen, Mahootian, & Goldstein, 2008
• Informatica pentru Medici, vol II – L Iliuta, E Poenaru, Editura ‘Carol Davila’, 2011
• Journal of Medical Ethics - http://jme.bmj.com/
• The American Journal of BioEthics - http://www.bioethics.net/journal/
• BioEthics.Net Web Site - http://www.bioethics.net/
• Institute for Ethics& Emerging Technologies - http://ieet.org/
• http://en.wikipedia.org/
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS I
• Concepte IT&C si
terminologie
• Intelegerea notiunilor de
Informatica Medicala
• Aplicatii utilizate in
Informatica Medicala
Informatica medicala
http://www.iclinicworld.com/hospital-information-system/
Standardizare
• Organismele de standardizare lucrează la modalități care
au ca scop încurajarea colaborării între tehnologi şi
clinicieni pentru a asigura reușita deplină la nivel mondial a
aplicațiilor de informatica medicala.
• Aceste standarde stabilesc modalitățile prin care
dispozitivele medicale, ce colecteaza automat şi detaliat
datele de la pacient (semnele vitale, datele operaţionale ale
echipamentului) şi sistemele de prelucrare de date asociate
pot comunica.
Telemedicina
• Furnizarea de servicii de ingrijire a sanatatii între
indivizi separați geografic, cu ajutorul sistemelor de
telecomunicații, de exemplu, conferințe video.
Telemedicina
Conduce
Permite
Aplicatii
Conduce Permite
Infrastructura IT
Functii statistice:
• COUNT(domain)
• AVERAGE(domain)
• STDEV(domain)
Aplicatii –EpiInfo
Analysis
Selected
commands
Result
window
Given
commands
Aplicatii –Visual FoxPro
Bibliografie
• Informatica pentru Medici, vol II – L Iliuta, E Poenaru, Editura ‘Carol Davila’, 2011
• Biostatistica pentru studenti – E Panaitescu, L Iliuta, E Poenaru, Marius Rac
Albu, Editura ‘Carol Davila’, 2013
• Journal of Medical Ethics - http://jme.bmj.com/
• The American Journal of BioEthics - http://www.bioethics.net/journal/
INFORMATICĂ MEDICALĂ
șI BIOSTATISTICĂ
CURS II
Elena Poenaru
elena.poenaru@gmail.com
Notiuni
• Introducere in biostatistica
• Termeni uzuali in biostatistica
• Aplicatii utilizate in
biostatistica
• Variabile
• Statistica descriptiva si
Statistica inferentiala
• Esantion, populatie
• Tipuri de date, frecvențe,
distribuții
Introducere
in Biostatistica
Unii ar putea spune…
Influenteaza:
Ø Analiza datelor
Ø Rezultatele
Ø Concluziile
Analiza datelor
Analiza datelor
– Cum sumarizez cel mai bine informațiile provenind de la
datele brute?
– Confruntarea cu variabilitatea (pentru date ce provin din
populatie cât și cele care provin din esantioane):
• Modele importante din date sunt acoperite de variabilitate
• Distingerea modelelor reale dintre cele de variație aleatorie
– Inferenta: folosesc informații dintr-un singur studiu corelate
cu informații despre variabilitate pentru a face declarații cu
privire la populație/procesul de interes
Probleme …
• Planificare/design-ul studiului
– Formularea intrebarilor de interes:
- Cuantificarea informatiilor despre un singur grup?
- Comparatii intre grupuri?
– Marimea esantionului
- De cati subiecti am nevoie in total?
- Cati in fiecare dintre grupurile comparate?
– Selectia participantilor in studiu
- se aleg aleator dintr-o lista?
- se selecteaza dintr-o baza de persoane de interes?
- oricine apare?
– În cazul comparației grupurilor de interes, cum se vor
distribui in grupuri?
“Dirty Data”
• Punctul de vedere al Cercetatorului
“Dirty Data”
• Punct de vedere - Statistica:
• Datele sunt produse de un proces
• Modelarea ideala de esantioane rezultate din proces
este imposibila:
• Distorsiuni – esantioane corupte in timpul procesului procesului
• Selectare distorsionata (bias)
• Dependenta – esantioanele nu sunt complet independente
• Variabilitate – elementele urmarite (ex. pacienti) intra si ies din
studiu pe durata acestuia
• Procesul de prelucrare poate imbunatatii rezultatele prin
adaugarea de noi modele
• Dar… nu se pot modela toate tipurile de imperfectiuni
• Trebuie gasit un echilibru intre acuratete si simplitate
(uneori chiar realizabilitate)
“Dirty Data”
• Punct de vedere - Database:
• Acestea sunt datele pe care le am
• Unele din ele nu corespund (sunt lipsa,
corupte, gresite, duplicate)
• Rezultatele obtinute din prelucrare sunt
absolute, determinate de modelul relational
• Singura modalitate de a avea un raspuns mai
bun este imbunatatirea calitatii datelor de
intrare
“Dirty Data”
• Punct de vedere - Expert:
• Este formulat in raport cu un model implicit de
date ce este deja asumat (expertiza)
• Datele nu arata bine à rezultatul obtinut nu
poate fi corect
• Rezultatul nu arata bine à datele initiale nu
pot fi corecte
“Dirty Data” - probleme
1) Impartirea textului (parsing) in cimpuri
(probleme de separator)
2) Conventii de denumire (ex NYC vs New York)
3) Lipsa unui cimp necesar (e.g. key field)
4) Reprezentare diferita (2 vs Doi)
5) Trunchierea unui cimp prea lung
6) Cheie primara eronata (de la structura pana la
integrare)
7) Inregistrari redundante (exact sau partial)
8) Probleme de formatare – in special la
reprezentarea datei
9) Probleme de acces la date (ex. licentiere/date
private)
Sursa: Stanford Data Integration Course
Problema: calitatea datelor
• Calitatea datelor este greu/ne masurabila
– Acuratetea si completitudinea datelor sunt foarte greu/
imposibil de masurat
• Calitatea datelor (definita prin ceea ce e important)
este data de context
– Precizia e data de scopul prelucrarii (ex. cantitatea de sare
din mincarea pasagerilor in perspectiva greutatii avionului)
– Calculul valorilor agregate tolereaza lipsa punctuala de
precizie (ex. consumul de energie electrica)
• Masurarea calitatii este/va fi intotdeauna incompleta
– Ce parere aveti de metrici ca: interpretabilitatea,
disponibilitatea, accesibilitatea, calitatea metadatelor, etc ?
• Termenul este vag
– Nu exista un mod clar in care definitia poate fi actualizata
sau imbunatatita in functie de necesitati/utilizare
Virsta pacientilor
Esantion
Populatie
Statistica
descriptiva
Parametrii Statistica
Populatiei esantionului
Cercetarea statistica
Statistica
Definitie:
1. Crearea si studiul reprezentarilor
vizuale a datelor in scopul
comunicarii clare si eficiente a
informatiei catre diferite clase de
utilizatori
2. Este un termen general care
descrie orice efort de a ajuta
oamenii să înțeleagă semnificația
datelor prin plasarea lor într-un
context vizual.
[Sursa: Wikipedia]
Managementul datelor
Interval Ratio
Evaluarea informațiilor (1)
• Un studiu stiintific necesită o cantitate explicită măsurabilă,
cunoscut ca o variabilă aleatoare (venitul anual, nivelul
colesterolului), pentru populație.
• Variabilă are o distribuție probabilistica ideală a valorilor în
populație (de ex. o curba normala), care, la rândul său, are
anumite caracteristici - parametri, cum ar fi "centrul" și
"răspândirea".
• Ipoteză nulă presupune de obicei o valoare numerică fixă sau
mai mare, sau mai mica, decat o valoare numerică, pentru un
parametru specific al distribuției
à ex: media IQ-ului in populatia studiata este prognozat la 100
• Afișarea vizuala, prin oricare metoda a datelor empirice, de
exemplu histogramă
Evaluarea informațiilor (2)
• “Rezumarea” numerica a datelor, prin intermediul
caracteristicilor esantionului, numite statistici, care
estimează acești parametri, fără erori, obiectiv
à ex. media din esantion a IQ-ului este 117
• Prin procesul, cunoscut sub numele de inferență statistică,
ipoteza nulă este respinsă sau acceptata, astfel:
– dacă diferența dintre valorile obtinute din esantion si cea
obtinuta din populatie (117 - 100 = 17) este semnificativă
statistic, la un nivel de semnificație stabilit (ex. 5%),
à este autentica, nu apare din cauze intamplatoare
à se va respinge ipoteza nulă, în favoarea ipotezei
alternative.
– dacă diferență este nesemnificativa, adică se datorează sigur
întâmplării,
à datele tind să susțină ipoteza nulă.
Evaluarea informațiilor (3)
Decizia ca ipoteza nulă sa fie respinsă sau acceptata este
atinsa prin calculul a trei statistici:
1) Interval de încredere: statistica observata a esantionului,
plus sau minus o marjă de eroare.
– Acest interval este construit astfel încât să conțină valoarea
parametrului estimat (100), cu o probabilitate ridicata, de
95% (de exemplu), numit nivel de încredere;
Variabila aleatoare X
X = scorul IQ, cu o distributie ideala,
teoretica a valorilor
X
µP= 100
• Experiment pentru testarea ipotezei nule: µ = 100
• Inferenta statistica: experimentul sustine sau
respinge ipoteza nula?
• Este diferenta semnificativa statistic sau ESANTION
variaza aleator?
Esantion aleator
Observatii ale variabilei X
Esantion
Populatie
Statistica
descriptiva
Parametrii Statistica
Populatiei esantionului
(µ,σ) ( x ,s)
Tipuri de studii in medicina
Aplicatii utilizate in statistica
• SAS
• Stata
• SPSS
• MSOffice Excel
• R
• EpiInfo
• Minitab
Frecvențe,
distribuții
Notatii
• n − numarul indivizilor cercetaţi;
• X − o variabila (caracteristica) studiata;
• x1, x2,...,xm − valorile variabilei X;
• n1, n2,...,nm − numărul de indivizi corespunzător
valorilor variabilei (sau care poseda valoarea
respectiva a caracteristicii).
Frecvente
• Frecvenţa absolută - este numărul indivizilor care aparţin
acelei clase
• Frecvenţa relativă - se calculează prin împărţirea
frecvenţei absolute la numărul total al indivizilor din
eşantion
• Frecvenţa procentuala este frecvenţa relativa exprimata
în procente
• Frecvenţa cumulativa
Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and
short-stretch compression bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91,
1292-1299.
Categorii ordonate
Mobilitatea pacienţilor recrutați în studiul VenUS I
Imobilitate
1
2
3
Variabila cantitativă
discreta
Colesterolul seric à
variabilă obținută prin
măsurare
à variabila cantitativa!
à 86 valori!
Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme
gene deletion polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.
Variabile continue
Colesterolul seric (mmol/L) măsurat pe un eşantion de
86 pacienţi cu accident vascular cerebral
Variabilă obținută
prin măsurare!
à 86 valori!
à Distribuție de
frecvență dificil de
construit!
à Prelucrarea
datelor!
à Variabilă obținută
prin măsurare
à 86 valori
à Distribuție de
frecvență dificil de
construit!
à Intervale
Distribuția de
frecvență nu
este unică!
Frecvența relativă
Frecvența
Ox:
Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)
Frecvența
Frecvența
Densitate de frecvență
Frecvența
2 4
neregulată!
à histogramele tind sa fie mai
putin bune in cazul in care am
un numar mic de observatii
à se pot combina intervalele
Presiunea sistolică a sângelui (mm Hg) de la extreme pentru a forma
intervale mai mari (se combina
ultimele 3 intervale)
Histograme
Distribuția
• Densitatea de frecvență permite neregulată!
Frecvență
netezirea histogramelor.
• Pe scala frecvențelor, unificarea
intervalelor produce o impresie
greșită!
Densitate de
frecvență
Frecvență
Presiunea sistolică a sângelui (mm Hg) Presiunea sistolică a sângelui (mm Hg)
Histograme și
alte grafice pentru frecvență
Pentru o variabilă discretă dreptunghiurile (barele)
pot fi separate: discretitudinea
• O forma usor
modificata a
Frecvența
histogramei pentru
variabile continue
à spatierea dintre
dreptunghiuri
subliniaza
discretitudinea
Numărul de episoade de ulcer venos
Histograme și alte grafice pentru
frecvență
• Poligonul frecvențelor
Frecvența relativă
Colesterolul seric (mmol/L)
Frecvența relativă
Sănătoși
• Util în reprezentarea a mai Pacienti sanatosi
Coada
Coada
inferioară
superioară
Frecvența
Frecvența
Frequency
100
50
0
0 10 20 30 40 50 60
Episodes since first onset of ulcer Vârsta sarcinii (săptămâni)
Episoade ulceroase de la
declansare
Forma distribuțiilor de frecvență
• Daca coada din stanga este egala cu cea din dreapta
distributia este simetrica.
• Majoritatea datelor medicale au distribuții unimodale!
• Majoritatea datelor medicale urmează o distribuție simetrică
sau pozitiv asimetrică!
• Distributiile negativ asimetrice sunt mai rare in medicina!
Totusi exista!
80
Frecvența
60
Frequency
40
20
0
130 140 150 160 170 180 190
Height (cm)
Inaltime (cm)
Alte reprezentari grafice pentru
frecvență
• Variabilă calitativă à diagrama cu dreptunghiuri orizontale
(bare):
3
Frecvența!
Imobil
Frecventa Relativa
0.4, 0%
6.3, 6% 3.5, 4%
MG
Consultant
Triaj
CS
89.8, 90%
Alte reprezentari grafice pentru
frecvență
Frecvența cumulativa!
100
50
25
0
25 35 45 55 65 75
Age (years)
HI 6
3 H<>66J
< 333<<<KKK6AJJJ
4 HH<<4>5K6AAJJJ
> H3<444>KK66AAAJJJ
5 33<4>>6A
K H3>5K666J
6 H56
A H<4>>6
J A
Ex. distributia numarului de
3H
cazuri datorate virusului
33 <
smallpox in membrana oului
Alte reprezentari grafice - boxplots
• Boxplots sunt grafice care prezintă caracteristicile cheie ale
unui set de date
• Instrumente utile pentru compararea vizuala a datelor ce
provin din multiple esantioane
Total Length of Stay, 2011
Claims With at Least One Inpatient Visit
40
30
(Large)
Outliers
20
Median
Interquartile Range (IQR)
0
(50th percentile)
25th percentile (lower hinge)
Smallest non-outlying value (upper tail)
Boxplots
• Boxplot (box-and-wisker) reprezinta grafic
quartile
• Elemente:
– Upper hinge = Q3
– Lower hinge = Q1
– IQR = Q3 – Q1 ß contine 50% din observatii
– Upper fence = Upper hinge + 1.5*IQR
– Lower fence = Lower hinge – 1.5*IQR
• Datele din afara “fence” se numesc
“outliers”
EDA (Exploratory Data Analysis)
• Exemplu: 23, 24, 24, 25, 32, 36, 45, 47, 51, 61, 62, 67,
73, 76, 78, 78
– Q2 = (47+51)/2 = 49
– Q1 = (25+32)/2 = 28.5 ß LH
– Q3 = (67+73)/2 = 70 ß UH
– IQR = 70 – 28.5 = 41.5
Tehnici de vizualizare: Scatter
Plots
– Valoarea atributelor determina pozitia intr-un sistem de
coordonate
– Cel mai des exista 2 axe de reprezentare, reprezentarea in
3 axe fiind folosita doar in cazul prezentarilor interactive
– Alte atribute pot fi reprezentate prin forma, culoarea sau
dimensiunea asociata punctelor
– Este utilizata pentru
reprezentarea sumarizata
a relatiilor intre diferitele
perechi de atribute
Exemplu: Scatter Plot Array
Tehnici de vizualizare: Contour
Plots
• Contour plots
– Utilizate mai ales atunci cind un atribut continuu este
masurat spatial
– Impart spatiul in regiuni cu aceeasi valoare (grupa de
valori) a atributului
– Linia de contur uneste puncte cu valori egale
– Reprezinta de obicei curbe
de nivel geografic, cantitati
de precipitatie, temperatura, etc.
Celsius
Contour Plot
Celsius
SST Dec, 1998
Bibliografie
Date cantitative
Masurarea tendintei centrale (Measures of central
tendency)
• Medie
• Mediana
• Mod
Masurarea variabilitatii (Measures of variability)
• Deviatia standard (Standard deviation)
• Varianta (Variance)
• Amplitudinea (Range)
Alte masuri ale locatiei (Other Measures of Location)
• Percentile
Statistica descriptiva
Sintetizarea datelor cantitative
• Modalitati de sinteza prin care datele sa poata fi
mai usor de analizat si interpretat
à Ex: media - sinteza a datelor
OBS:
• Date calitative – distributii de frecventa sau procente
• Date cantitative – distributii de frecventa sau histograme
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Modul
Modulul - valoarea cea mai frecventa intalnita in esantion
• Distributie unimodala (cu un singur mod - A)
• Distributie multimodala (B)
25 Mode
Mod 60 Mod
A B
20
Frecvența
Mod
Frequency
Frecvența
Frequency
40
15
10 20
Lower Upper
5 tail tail
0
0
50 100 150 200 250
2 3 4 5 6 7 8 9 10 11 Systolic blood pressure (mm Hg)
Serum cholesterol
Colesterolul (mmol/L)
seric (mmol/L) Tensiunea arteriala sistolica (mmHg)
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Mediana
Mediana – valoarea
centrală a distribuţiei
– este un indicator de tendinta
centrală
Frecvența
– jumătate dintre observaţii
sunt mai mici sau egale Prima
cuartilă
A treia
cuartilă
Mediana
decât valoarea ei şi
jumătate sunt mai mari sau Colesterolul seric (mmol/L)
egale
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Mediana
80 90 95 110 120
Mediana
Mediana
95 + 110
= 102.5 mmHg
2
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Media
120 + 80 + 90 + 110 + 95
x= = 99 mmHg
5
Statistica descriptiva
Sintetizarea datelor cantitative
Masuri ale tendintei centrale – Media
• Media - este utilizata atunci când răspândirea datelor este
destul de asemănătoare pe fiecare parte a punctului de
mijloc,
– de exemplu: datele sunt "distribuite în mod normal”
– in cazul în care o valoare (sau un număr de valori) este mult mai
mica sau mai mare decât celelalte, asimetrie a datelor, media nu va
da o imagine buna a valorii tipice
• Formula generalizata:
n
∑x i n
x= i =1
n
∑x
i =1
i = x1 + x 2 + x3 + ....... + x n
Sintetizarea datelor cantitative:
media, mediana si asimetria
• Dacă distribuția este simetrică media și mediana au
aproximativ aceeași valoare;
• In cazul unei distribuţii asimetrice media şi mediana
sunt de obicei diferite;
• In cazul unei distribuţii asimetrică la dreapta, valoarea
mediei va fi de obicei mai mare decât valoarea
medianei,
• In cazul în care distributia este asimetrică la stânga
valoarea medianei va fi de obicei mai mare decât
valoarea mediei.
– valorile extreme afectează media și nu mediana.
Sintetizarea datelor cantitative:
media, mediana si asimetria
• Prin creșterea valorii celor mai mari observații, valoarea
mediei va crește dar mediana nu va fi afectată!
• Diferenta intre medie si mediana este un indicator al
asimetriei!
Asimetrie spre dreapta!
Frecvența Me (mediana) < M (media)
Media
Mediana
à Amplitudinea intercuartila
à IQR - Inter-Quartile Range
– IQR= Q3-Q1
– IQR – statistica descriptiva, foarte utilizata
à aplitudinea de 95%: centila 97.5 – centila 2.5
à include 95% din observatii
à este necesar un esantion
mare pentru calcul
Sintetizarea datelor cantitative
Variabilitatea
• În analiza datelor, amplitudinea și amplitudinea intercuartilă
nu sunt suficiente.
• Alte două măsuri ale variabilității:
– dispersia sau varianța (s2)
– abaterea standard (s)
• Aceste măsuri arată cât de depărtate sunt observaţiile de
centrul distribuţiei.
• Abaterea standard, (SD - Standard Deviation)
Sintetizarea datelor cantitative:
variabilitatea
Varianta (s2) & Abaterea standard (s sau SD)
• Varianța sau dispersia (s2) este media aritmetică a pătratelor
diferențelor dintre observații și media lor.
• Abaterea standard sau deviatia
standard (s sau SD – Standard
Deviation) este rădăcina pătrată din
varianță
• Deviația standard (s) este folosita
pentru datele care sunt "distribuite
normal”, pentru a furniza informații
cu privire la cat de mult variaza
acestea în jurul mediei distributiei.
Sintetizarea datelor cantitative
Variabilitatea
Varianta (s2) & Abaterea standard (s sau SD)
n
n
∑ (x i − x) 2
∑ i
(x − x ) 2
s2 = i =1
s= i =1
n −1 n −1
Exemplu:
• n=5 à 120, 80, 90, 110, 95 à 5 valori ale tensiunii sistolice
• Media:
120 + 80 + 90 + 110 + 95
x= = 99 mmHg
5
Sintetizarea datelor cantitative
∑ i
(x
i =1
− x ) 2
= ( 120 − 99 ) 2
+ ( 80 − 99 ) 2
+ ( 90 − 99 ) 2
+ ( 110 − 99 ) 2 + ( 95 − 99 ) 2
5
2 2 2 2 2 2 2
∑ i
(
i=1
x − x) = (21) + ( −19) + ( −9) + (11) + ( −4) = 1020mmHg
Sintetizarea datelor cantitative
Variabilitatea
• Varianta esantionului
n
2
∑ i
(x − x )2
1020
s = i =1
= = 255 mmHg2
n −1 4
• Standard deviation (s) a esantionului
2 2
s = 255 mmHg s = 15.97 ≈ 16 (mmHg)
Sintetizarea datelor cantitative:
varianța sau dispersia
• Cu cat s este mai mare cu atat variabilitatea e mai mare
• s masoara imprastierea fata de medie
• s = 0 à nu exista imprastiere
– toate cele n observatii au aceeasi valoare
• Unitatea de masura pentru s este aceeasi cu cea a datelor
(ex, mm Hg)
• s2 este cea mai buna estimare dintr-un esantion a variantei
din populatie, σ2;
• s este cea mai buna estimare dintr-un esantion a deviatiei
standard a populatiei, σ
Compararea distributiilor datelor continue
30
nastere mai mult cu xbaieti = 7.4 kg
20
0.7 Kg fata de fetite
10
SAU Percent
0
à fetitele cantaresc Weight At 12 Months, Nepal
Female
la nastere mai putin
30
baieti
10
0
2 4 6 8 10
Weight (kg)
Graphs by sex
Comparatii vizuale - Boxplots
• Boxplots sunt instrumente utile pentru compararea vizuala a
datelor ce provin din multiple esantioane
(Large)
Outliers
20
Median
Interquartile Range (IQR)
0
(50th percentile)
25th percentile (lower hinge)
Smallest non-outlying value (upper tail)
Boxplots
• Capetele box-ului sunt Q1 si Q3 ale esantionului à IQR
• Mediana
• Liniile din exteriorul box-ului ("mustati")
à (Q1 - 1.5IQR, Q3 + 1.5IQR).
200
(Q1 - 3IQR, Q1 - 1.5IQR)
190
à extreme negative,
• Puncte din intervalul
Height
180
(Q3 + 1.5IQR, Q3 + 3IQR) 170
à extreme pozitive.
• Punctele situate în afara
160
intervalului
(Q1 - 3IQR, Q3 + 3IQR) sunt
considerate a fi extreme.
Boxplots
Weight By Sex,Nepal
Random Sample of 239 Twelve-Month Old Children
12
10
Weight (kg)
8
6
4
Male Female
Concluzii:
Esantion
Populatie
Statistica
descriptiva
Parametrii Statistica
Populatiei esantionului
(µ,σ) ( x ,s)
Distributii de frecventa
Scala Z
Date, variabile, informatii
Clasificarea variabilelor statistice
Types of Data
Interval Ratio
Scale de masura
Scale de masura:
– Scala interval: pentru masurarea variabilelor cantitative
continue (valorile temperaturii exprimate în grade Celsius);
• Scale diferite, ambele pentru temperatura; F° poate fi
convertit in C° si invers
– Scala discreta: pentru masurarea variabilelor cantitative
discrete (numarul de operatii)
– Scala nominala: pentru masurarea variabilelor calitative
nominale (gen: masculin, feminin; rasa: alba, neagra,
galbena, alta)
– Scala ordinala: pentru masurarea variabilelor calitative
ordinale (starea de sanatate: slaba, medie, buna; scor
Apgar)
Scale de masura
• Scale de masura:
– temperatura in grade Fahrenheit si in Celsius
– scale diferite, ambele pentru temperatura
• F° poate fi convertit in C° si invers
• In statistica exista o scala standard – Scala Z
– Orice scor din orice scala poate fi convertit intr-un scor pe
scala Z si acesta va fi scorul Z
à Scala Z permite o comunicare eficienta si rezultatele sunt
usor de interpretat
Scorul Z
Conversia in scor Z:
• Z = (X – M) / SD
– X – scor pe scala originala (raw score)
– M – media (mean)
– SD – deviatia standard (standard deviation)
• Z = (X – M) / SD
– X=Media à Scorul Z = 0
– Scor Z pozitiv à scorul Z este peste medie
– Scor Z negativ à scorul Z este sub medie
Scorul Z
Scorul Z
• Consider un individ (ales aleator) cu temperatura
99.6 F°
• Presupun M = 98.6, SD = 0.5
Distributia normala
f
´
¶
f
V
• Distributia normala este o distribuție de probabilitate
à perfect simetrică în jurul mediei sale, a medianei
teoretică, P V și
a modului § P·
¨ ¸
© V ¹ S
P f f
SV
Total Area f
f ´
¶
= ´
¶f (x) dx = 1 f
f
V
V
V
Distribuția normală
• Distribuţia normală nu este o singura distribuţie ci o întreagă familie
de distribuţii!
• Un anumit membru al acestei familii este definit prin două numere
numite parametri: media (µ) şi abaterea standard (σ).
• Parametrul este un termen matematic, un număr care defineşte un
membru al unei anumite clase.
– cei doi parametri, µ si σ identifică membrul familiei distribuției normale.
Distribuția normală
Distribuțiile sunt
recvență relativă
aceleași în
Densitate f
termenii abaterii
standard față de
medie!
Var =1 pentru
ambele curbe
Variabilă normală
Distribuția normală
• Un anumit membru al acestei familii este definit prin două
numere, parametri: media (µ) şi abaterea standard (σ).
• Asimetrie (Skewness) - indicator folosit in analiza distributiei
unei serii de date pentru a indica deviatia distributiei empirice
in raport cu o distributie simetrica in jurul mediei.
– Skewness > 0 - distributia este concentrata spre stanga, avand mai
multe valori extreme spre dreapta.
– Skewness < 0 - distributia este concentrata spre dreapta, avand mai
multe valori extreme spre stanga.
– Skewness = 0 - media = mediana, distributia este simetrica in jurul
mediei.
Distribuția normală
• Un anumit membru al acestei familii este definit prin două
numere, parametri: media (µ) şi abaterea standard (σ).
• Aplatizare (kurtosis) - indicator folosit in analiza distributiei
unei serii de date pentru a indica gradul de aplatizare sau de
ascutire a unei distributii.
– Kurtosis > 3 - distributie leptokurtica, mai ascutita decat o distibutie
normala; avand mai multe valori concentrate in jurul mediei si cozi mai
groase ceeea ce inseamna probabilitati ridicate pentru valorile
extreme.
– Kurtosis < 3 - distributie platikurtica, mai plata decat o distibutie normal
avand valori dispersate pe un interval mai mare in jurul mediei.
Probabilitatea pentru valori extreme este mai mica decat in cazul unei
distributii normale.
– Kurtosis = 3 - distributie mezokurtica - exemplu distributia normala.
Distributia normala
• Toate distributiile normale, indiferent de valorile mediei si
ale abaterii standard au aceleasi proprietati:
– Media = mediana = modul
– Valorile sunt distribuite simetric in jurul mediei
– Valorile apropiate de medie sunt mai frecvente decat
cele indepartate de aceasta
X ~ N( µ, σ2)
50% 50%
µ- 2σ µ- σ µ µ+ σ µ+ 2σ
Distributia normala standard
Distribuție de referință à distribuția normală standard
frecvență relativă
Densitate
Variabilă normală
( x − µ )2
à Ecuatia distributiei normale
1 − da densitatea frecventei relative
f ( x) = e 2σ 2
σ 2π pentru fiecare valoare a variabilei
Distribuția normală
Multe metode statistice sunt valabile numai dacă se poate
presupune că datele urmează o distribuţie normală
à o distribuție continuă, simetrică și unimodală
Densitate de frecvență
studiul VenUS I.
Distribuția normală!
Înălțimea (g)
Distribuția normală
• Distribuția normală este o distribuție de probabilitate teoretică:
ve Z=(X- µ)/ σ .
µ- 2σ µ- σ µ µ+ σ µ+ 2σ X
Distributia Normala
P V d d P V
Distribuția normală
• De unde vine aceasta regula?
• Care sunt procentele sub
curba pentru alte abateri
standard de la medie?
• ± 3 SD include 99,7%. 10
Number of patients
8
6
±1 SD (68.2%)
4
2
±2 SD (95.4%)
±3 SD (99.7%)
0
60 65 70 75 80 85 90 95 100
Weight (kg)
Distribuția normală
Regula distributiei normale:
68-95-99.7
m-3s m-2s m-s m m+s m+2s m+3s
r V reprezintă probabilitatea ca
r V o valoare sa fi mai mică
r V r V decat 8 (există o
r V r V probabilitate ridicată)
• Aria de sub curbă la dreapta
scorului Z (> 2.21)
ing to thetabulated
tabulated
standard normal reprezintă probabilitatea ca
X P P o valoare sa fie mai mare
ula Z = i X = P +PZV . V
,.e.,
VV
decat 8 (există o
probabilitate mică)
• Cu ajutorul curbei normale aflam care este probabilitatea
unui scorP Z VfieVdmai
Psa Pd de
d dmare P V2,21
V
• Valoarea ariei din tabel pentru Z=2.21 este 0.9864;
d d d pentru
reprezintă probabilitatea d un scor Z sa fie mai mic
decât 2,21 d deviațiistandard
d peste medie.
d d
Distributia Standard Normala
Tabelele distribuției
standard normale
(Z- tables) prezintă
probabilități mai mici
decat un scor Z dat
probabilitate probabilitate
Rezultatul 0.957461da probabilitatea ca d
de 0.9574 de 0.0427 scorul sa fie mai mic decat 7
à probabilitatea ca scorul X sa fie mai
mare sau egal cu 7:
à 1 - 0.957461=0.0427 or 4.27%.
Distributia Standard Normala
=norm.dist(x,mean,standard_dev,cumulative) = (135,100,15,1)
=.990185 à 99% este probabilitatea ca cineva sa aiba
IQ ≤135,
sau probabilitatea ca cineva sa aiba un
IQ > 135 à ~1% (1-.990185)
50% 50%
µ=65 pg/ml
Distribuția normală
• Aria de sub curba pentru distributia normala este 1!
0.3173 0.3173
2 2
0.6827
-1 µ=0 1
0.3173 0.3173
2 2
ve Z=(X- µ)/ σ .
-1 µ=0 1 Z
Distribuția normală
• Distribuția normală este o distribuție de probabilitate teoretică:
ve Z=(X- µ)/ σ .
Distribuția normală
ve Z=(X- µ)/ σ .
-2 µ=0 2 Z
ve Z=(X- µ)/ σ .
-2 µ=0 2 Z
0.9545
0.0455
0.0455
2
2
-2 µ=0 2
Distribuția normală
• Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente
se considera ca are o distributie normala cu medie 65 pg/ml
și abaterea standard de 12,5 pg/ml.
C) Ce procent au între 40 pg/ml și 90 pg/ml?
40 - 65 90 - 65
Z1 = = -2 Z2 = = 2
12.5 12.5
40 65 90 -2 0 2
Distribuția normală
Exemplu:
• Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente
se considera ca are o distributie normala cu medie 65 pg/ml
și abaterea standard de 12,5 pg/ml.
C) Ce procent sunt între 40 pg/ml și 90 pg / ml?
0.9544
0.0455 0.0455
2 2
= 0.0227 = 0.0227
40 65 90 -2 0 2
Distribuția normală
Regula distributiei normale
standard: 68-95-99.7
m-3s m-2s m-s m m+s m+2s m+3s
media= 6.34
mediana= 6.15
à 4,5 valori în afara
Media-2s Media Media+2s
intervalului (m-2s, m+2s)
Media-s Media+s
(pozitiv asimetrică)
media= 9.4
mediana= 3
Media-2s Media Media+2s 7% valori mai mari decât m+2s!
Media-s Media+s
Distribuție asimetrică!
(negativ asimetrică)
Frecvența
media= 38.5
mediana= 39
2 valori din 1749 (0.1%) mai
mari decât m+2s!
Media-2 62 valori din 1749 (3.5%) mai
Media Media+2s
s
Media+s
mici decât m-2s!
Media-s
40
2.5: x − 2 s = 4.3- 2×4.9 = -5.5 zile
30
97.5: x + 2 s = 4.3 +(2×4.9) = 14.1
20
10
0
0 10 20 30 40
Length of Stay (Days)
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției !
normale cand datele nu respecta distributia normala?
• Utilizand media esantionului si abaterea standard,
presupunand o distributie normala obtinem percentilele de
2.5 si 97.5 astfel
2.5: = -5.5 zile
97.5: = 14.1 zile
• Pentru acest esantion se estimeaza ca 95% din persoanele
care au facut cereri pentru aceasta clinica au o durata de
spitalizare intre -5.5 and 14.1 zile in 2011
à folosind distributia normala à valori incorecte !
• Obs: valorile empirice pentru percentilele 2.5 si 97.5 a celor
12,298 valori din esantion sunt de 1 zi si respectiv 20 zile
?
Distribuția normală !
Ce se intimpla daca se aplica principiile distribuției
normale cand datele nu respecta distributia normala?
• Să presupunem că sunt utilizate aceste date pentru a estima
proporția populației cu cereri de spitalizare cu o durata peste 5
zile.
• Dacă se transforma aceasta masura de 5 zile in unități ale
deviației standard (pentru acest esantion) peste medie à se
calculeaza scorul z:
Percentile Valori
2.5 1 zi
10 1 zi Total Length of Stay, 2011
Claims With At Least One Inpatient Visit
25 1 zi
40
50 2 zile
75 5 zile
30
90 10 zile
20
97.5 20 zile
10
0
0 10 20 30 40
Length of Stay (Days)
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției
!
normale cand datele nu respecta distributia normala?
X ~ N( µ, σ2)
50% 50%
µ- 2σ µ- σ µ µ+ σ µ+ 2σ
Distributia normala standard
Distribuție de referință à distribuția normală standard
frecvență relativă
Densitate
Variabilă normală
( x − µ )2
à Ecuatia distributiei normale
1 − da densitatea frecventei relative
f ( x) = e 2σ 2
σ 2π pentru fiecare valoare a variabilei
Distribuția normală
Multe metode statistice sunt valabile numai dacă se poate
presupune că datele urmează o distribuţie normală
à o distribuție continuă, simetrică și unimodală
Densitate de frecvență
studiul VenUS I.
Distribuția normală!
Înălțimea (g)
Distribuția normală
• Distribuția normală este o distribuție de probabilitate teoretică
µ- 2σ µ- σ µ µ+ σ µ+ 2σ X
ve Z=(X- µ)/ σ .
Distribuția normală
Distribuția normală
• Multe variabile din medicina au distributie normala
• Esantionele mari au in general distributie normala
14
12
10
Number of patients
6
±1 SD (68.2%)
4
2
±2 SD (95.4%)
±3 SD (99.7%)
0
60 65 70 75 80 85 90 95 100
Weight (kg)
Distributia Standard Normala
Functia
=normdist(x,mean,standard_dev,cumulative)
x – X score
Cumulative:
TRUE = Cumulative Normal Distribution Function
FALSE = Normal Probability Density Function
Distributia Standard Normala
Ex: Considerand exemplul
=norm.dist(x,mean,standard_dev,cumulative)=(7,3.47,2.05,1)
= 0.957461
P(Z>1.72)=1−.957461=.0427 à 4.27%
Distribuția normală
50% 50%
µ=65 pg/ml
Distribuția normală
• Distribuția normală este o distribuție de probabilitate teoretică:
0.9545
0.0455
0.0455
2
2
-2 µ=0 2
Distribuția normală
Exemplu:
• Nivelul seric de 1,25 dihidroxivitaminei D pentru adolescente
se considera ca are o distributie normala cu medie 65 pg/ml
și abaterea standard de 12,5 pg/ml.
C) Ce procent sunt între 40 pg/ml și 90 pg / ml?
media= 6.34
mediana= 6.15
media= 9.4
mediana= 3
Distribuție asimetrică!
(negativ asimetrică)
Frecvența
media= 38.5
mediana= 39
Media-2
Media Media+2s
s
Media-s Media+s
40
30
20
10
0
0 10 20 30 40
Length of Stay (Days)
Distribuția normală
Ce se intimpla daca se aplica principiile distribuției
!
normale cand datele nu respecta distributia normala?
Percentile Valori
2.5 1 zi
10 1 zi
25 1 zi
50 2 zile
Total Length of Stay, 2011
75 5 zile Claims With At Least One Inpatient Visit
90 10 zile
40
97.5 20 zile
30
20
10
0
0 10 20 30 40
Length of Stay (Days)
Distribuția normală !
Ce se intimpla daca se aplica principiile distribuției
normale cand datele nu respecta distributia normala?
Percentile Valori
2.5 1 zi
10 1 zi
25 1 zi
50 2 zile
60 4 zile
70 4 zile
75 5 zile
80 6 zile
90 10 zile
97.5 20 zile
Esantionare
si estimare
Eșantionare
• In cercetare de cele mai multe ori datele provin din populatii
largi care nu pot fi studiate in intregime
• Cele mai multe date de cercetare provin de la subiecţi care
formeaza un eșantion prelevat cu atentie dintr-o populaţie
mare, astfel incat caracteristicile acestuia sa fie relevante
pentru populatie
Exemple:
– Mostră de sânge (eșantion) pentru estimarea concentraţiei de glucoză.
– Obținem trei valori ale unor măsurători: 6.0, 5.9, şi 5.8.
• Care dintre acestea este corectă?
Eșantionare
Exemplu:
Trei studii à pentru compararea bandajului de compresie
multistrat elastic cu cel inelastic, in cazul tratamentului ulcerului
venos .
à Diferenţe obtinute: 13%, 25% şi 20% la pacienți cu vindecare
completă
* Toate estimările sunt în avantajul bandajului elastic!
* Există o variabilitate aleatorie naturală între eșantioane!
à Este posibil sa existe o diferenta de timp intre studii si
tratament
Fletcher A, Nicky Cullum N, Sheldon TA. (1997) A systematic review of compression treatment for
venous leg ulcers. British Medical Journal 315, 576-580.
Eșantionare
• Distribuţie de eşantionare
• Folosind informațiile ce provin din esantioanele extrase
dintr-o populație va rezulta o distribuție de eșantionare
pe baza careia, considerand, teorema limita centrala, se
vor putea rezuma parametrii de interes (medie,
proporția, rata de incidenta).
Esantionare
Teorema limită centrală: chiar şi atunci când avem
o variabilă care nu urmează o distribuţie normală,
dacă se extrag mai multe eşantioane de observaţii,
P în aceste
din aceeasi populatie, mediile calculate
P V urmează o distribuţie normală.
eșantioane
distribution of is n
V § V ·
that is, X ~ N¨P ¸.
© n¹
Distributii de eșantionare
Cum functioneaza esantionarea?
Exemplu: Un zar obișnuit cu 6 fețe.
• Prin aruncarea zarului se va obține un scor care va
juca rolul măsurătorilor care ar putea fi făcute.
• Prin aruncarea unui zar se obține unul dintre cele şase
numere: 1, 2, 3, 4, 5, sau 6.
à Obținerea fiecarui număr este posibilă în aceeaşi
proporţie și anume de 1/6 (in teorie) :-)
à Vom estimam media populatiei prin media
masuratorilor efectuate intr-un esantion.
Distributii de eșantionare
Proporţiile aruncărilor care reprezintă fiecare rezultat
posibil, toate fiind egale cu 1/6 sau 0.167
Media=3.5 SD=1.71
Distribuția rezultatelor obținute
Proporția aruncărilor
Media=3.5
SD = Var
SD =1.71
Media=1; (1,1);
Media=3.5 SD=1.21
Media=1.5, (1,2), (2,1),
Proporția aruncărilor
à Media este de 3.5, la fel ca în primul caz; abaterea standard este 1.21
Distributii de eșantionare
à Distribuţiile normale impreuna cu curbele normale
aferente;
aruncărilor
aruncărilor
Proporția
Proporția
Media scorurilor obținute prin aruncarea unui Media scorurilor obținute prin aruncarea a
singur zar două zaruri
aruncărilor
Proporția
Proporția
Media scorurilor obținute prin aruncarea a Media scorurilor obținute prin aruncarea a
patru zaruri șase zaruri
Eroarea standard
• Esantionarea introduce erori – erori de esantionare
P va genera o estimare diferita pentru
– fiecare esantion
P V valorile populatiei.
distribution of is n
V § V ·
that is, X ~ N¨P ¸.
© n¹
¾
P
V
V P
Eroarea standard
"eroare standard” vs "abatere standard".
• Distributii de esantionare
• Eroarea standard
• Intervale de incredere
• Teste de semnificatie
statistica
• Interpretarea valorii p
• Erori in folosirea testelor de
semnificatie
Statistica înseamnă că nu trebuie să
spui niciodată că ești absolut sigur!
EXTREMELY TYPICAL
EXTREMELY – most are near the EXTREMELY
RARE – mostly population mean, with a RARE – mostly
short outliers few short and tall outliers tall outliers
x << 70 x | 70 x >> 70
TYPICAL
x | 70
4
RARE – short outlier RARE – tall outlier VX =
x >> 70 n
x << 70
VX = 4
X X
P X = 70 P X = 70
Population Distribution of X Sampling Distribution of X
rs P V d
§ §· 27·
¨ ¨¸ ¸
© ©¹ ¹ P = 27 P
30 P X
d
V
=norm.dist(x,mean,standard_dev,cumulative) d
=(30,27,12,1) = 0.5987
¾ V P§ § VV ··
¾ P P
V
V
¨P¨P ¸
¸¹ PV
¾ © © ¹ P
V
Distributii
P VP V
de
P eșantionare
V V
V
¾ ¾
P V
Presupunem ca variabila X, varsta unei populatii normal distribuite, r V
cu
P § ·
P ¾ r V P r ¨V ¸
media µ =¾27.0 ani si σ = 12.0 ani V © V ¹
• Probabilitatea ca varsta unui§ individ
·ales aleator din populatie sa fie
§ is de
mai mica than
30 · 30
ani, este: ¨ P ing¸ to the tabulated V P
normally distributed
individual
¨ less ©
years ¹
© P ¸¹ V X VPP V i.e., X ~PN(27, 12).
§ 30 27 · ula Z of = PV , i P V
is P(X < 30) = P¨Z < 12 ¸ selected
© ¹ rs V P §¨P V ·¸
P
= P(Z < 0.25) = 0.5987. § 27· © ¹
¨
©
¸
¹ P VP =d27 30 d P V X
§ ·
¨ ¸
© ¹
P P d d
• Presupunem ca avem P de
V un esantion V 12 yrs
¾ dThat is, X ~ Nd(27,
2).
V populatie.
n = 36 indivizi din aceeasi rror =
nP P 36
= 2
V X P
• Conform TLC, mediile
¾ din esantioane
V
ula is Z =
V/ n
~ N(0, 1).
au o distributie normala, cu media P
egala cuPµ=V27.0 ani, V §
P P V ¨
P V ©
• SD = eroarea standard à 2 ani
= 36 randomly selected individuals is less§ than§ 30 ··
§ 30 27· ¨ ¨
©
¸¸
¹¹
©
years is P( X < 30) = P¨Z < 2 ¸ = P(Z < 1.5) == 0.9332
© ¹ P V d d P V
0.9332. § § § · · · P
¨ ¨ ¸ ¸
¨ © © ¸ ¹ ¹ d P d
Distributii de eșantionare
Considerind un eșantion format din n observații si cunoscand media
acestora, pentru aproape toate observațiile, consideram:
1. Mediile acestor eșantioane au o distribuție care are aceeași medie
ca media populației din care au fost extrase.
2. Distribuţia mediilor acestor eșantioane are o abatere standard mai
mică decât abaterea standard a populației din care au fost extrase;
3. Cu cât eșantioanele au dimensiune mai mare cu atât abaterea
standard ale mediilor eșantioanelor va fi mai mică.
4. Forma distribuției mediilor eșantioanelor se apropie de forma
distribuţiei normale când dimensiunea eșantioanelor crește.
5. Orice statistică calculată pentru un eșantion (media, proporția,
mediana, abaterea standard) are o distribuție de eșantionare.
Distributia de esantionare & TLC
POPULATION = U.S. Adult Males RANDOM SAMPLES
Random Variable X = Height (inches) (all of size n)
EXTREMELY TYPICAL
EXTREMELY – most are near the EXTREMELY
RARE – mostly population mean, with a RARE – mostly
short outliers few short and tall outliers tall outliers
x << 70 x | 70 x >> 70
TYPICAL
x | 70
4
RARE – short outlier RARE – tall outlier VX =
x >> 70 n
x << 70
VX = 4
X X
P X = 70 P X = 70
Population Distribution of X Sampling Distribution of X
P
Pentru o variabila data oarecare X:
P
• P presupunem
V ca distributia populatiei variabilei X este
V P V
cunoscuta si este normala, cu media µ si varianta σ2,
V à X ~ N(µ, σ) § V · V provine din § V ·
P
àpentru orice ¨esantion ¸ de marime n, care
© ¹ P ¨P ¸ P
V
aceeasi populatie, distributia P V a mediilor ©
de esantionare ¹
variabilei X, va fi de asemeni o distributie normala
distribution of is n
cu media µ si varianta σ /n2
V § V·
P that is, X ~ N¨P ¸.
© n¹
à V = eroarea standard a distributiei de esantionare
¾ is
n
X P P
à Scorul
ulaZ:
is Z = ~ N(0, 1).
¾ V V/ n V
¾
Eroarea standard
• Eroarea standard a unei variabile aleatoare este o măsură
a depărtării acesteia de valoarea aşteptată, a împrăştierii,
obtinuta din experimente repetate.
– se folosește pentru a descrie cât de bună este o anumită
estimație.
– provine din distribuția de eșantionare.
• Abaterea standard a distribuţiei de eşantionare arată cât de
bună este statistica calculată pe eșantionul studiat, ca
estimare a valorii reale din populaţie.
• Abaterea standard a distribuţiei de eşantionare este
cunoscută sub numele de eroarea standard a estimării.
• Eroarea standard este importanta, deoarece este folosita
pentru a calcula alte măsuri, cum ar fi intervalele de
încredere și marje de eroare.
Eroarea standard
• Eroarea standard este utilizată pentru estimarea
intervalului valorilor reale ale mediei și pentru testarea de
ipoteze cu privire la adevărata medie µ a unei distribuții.
• Putem folosi eroarea standard pentru a descrie cât de
bună este estimare noastră.
• Eroarea standard provine din distribuția de eșantionare.
• Deviația standard a distribuției de eșantionare arată cât de
bună este statistica eșantionului, ca o estimare a valorii
populației.
• În general, atunci când lucrăm cu mediile eșantioanelor
folosim eroarea standard, dar când lucrăm cu date
punctuale individuale folosim abaterea standard.
• Cu cat este mai mare marimea eșantionului cu atat mai
mica este eroarea standard.
Eroarea standard
• Termenii “standard error” si “standard deviation” se confunda
adesea, eroarea standard fiind un tip al deviatiei standard
• Folosim termenul "deviație standard" atunci când vorbim
despre distribuții, fie dintr-un eșantion sau o populație.
• Folosim termenul "eroare standard", atunci când este vorba
despre o estimare gasita intr-un eșantion.
Distributia mediilor
din esantioane
Distributia populatiei
Intervale de
incredere
Intervale de incredere
• Analiza statistică a datelor conduce la două
tipuri de rezultate: intervale de încredere și
valori P.
• Cele două oferă informații complementare și
sunt adesea calculate în tandem.
• Intervalele de încredere permit să indicam un
rezultat cu o marja de eroare.
Intervale de incredere
• Estimarea este procesul de stabilire a valorii probabile a unei
variabile.
• Forma cea mai directă de estimare este de a stabili un singur
punct, o valoare
– media, mediana sau modul pot fi folosite ca un singur
punct de estimare.
• O estimare care este un singur număr, cum ar fi diferenta
observata intr-un studiu, se numește o estimare punctuală.
• Utilizarea acestor statistici unice nu conține întotdeauna
suficiente informații
à alternativa este estimarea unui interval
Intervale de incredere
• Provocarea in statistica este să începi cu observația într-un
singur eșantion și să faci generalizări despre populația
totală.
• O modalitate de a exprima rezultatele este cel prin interval
de încredere.
• După ce am calculat o statistica in esantionul ales, pot
calcula un interval care stiu că va conține proporția
adevărată a populației
à intervalul de încredere de 95%, standard
• Pot calcula intervalul pentru orice grad de încredere doresc
àNivel crescut de incredere inseamna sa calculez un
intervalul mai larg.
Intervale de incredere
σ
σ x = SE ( x ) =
n
µ
Intervale de incredere
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
-4 -3 -2 -1 0 1 z 2 3 4
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9
1.0
0.8159
0.8413
0.8186
0.8438
0.8212
0.8461
0.8238
0.8485
0.8264
0.8508
0.8289
0.8531
0.8315
0.8554
0.8340
0.8577
0.8365
0.8599
0.8389
0.8621
Aria gri are o
1.1
1.2
0.8643
0.8849
0.8665
0.8869
0.8686
0.8888
0.8708
0.8907
0.8729
0.8925
0.8749
0.8944
0.8770
0.8962
0.8790
0.8980
0.8810
0.8997
0.8830
0.9015
probabilitate de 0.975
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
à z = 1.96
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
d
P V
P V d
Intervale
de
P
incredere r V
In general… Def
ing to the tabulated
P D d d D
XP
ula Z =o V , i
D/2 1D D/2
P d D
Hence, P V
Z P P D V d
zD/2 0 zD/2
α = nivel de semnificatie
P D d d D D
o
D/2 1D D/2
d de
α P= nivel t D
D semnificatie D
Hence,
Z P P D V d d P D V D
zD/2 0 zD/2
95%
2.5% 2.5%
-1.96 0 1.96
d
d
P
Intervale de incredere
d
d
Prob (− ?? < µ < ??) = 0.95 Prob (− ?? < Z < ??) = 0.95 P
In general…
D d
Z 0.00 . . . . 0.05 0.06 0.07 . 0.09
D/2 1D D/2
d D
. . . . . . . . . . .
. . . . . . . . . . .
1.8 .0719 . . . . .0643 .0629 .0615 . .5888
1.9 .0574 . . . . .0512 .0500 .0488 . .0466
2.0 .0455 . . . . .0404 .0394 .0385 . .0366
. . . . . . . . . . .
. . . . . . .
Probabilitatile . pentru
cozilor . curba. normala
.
d
Intervale de incredere d
P V
In general… Def
Excel: =confidence(α,σ,n) P D d
o
Ex: x =1.99; SD = 0.05, n=100 D/2 1D D/2
P d D
=confidence(.05,.05,100) Hence,
=0.01 Z P P D V
zD/2 0 zD/2
àCI: 1.99±0.01
Intervale de incredere
• Intervale de încredere nu includ
întotdeauna valoarea reală a populaţiei!
• Dacă 95% din intervale de încredere de
95% includ valoarea reala din populatie 95%
rezultă că există 5% intervale care nu o
includ.
• În practică, nu putem spune dacă
intervalul de încredere calculat este unul
dintre cele 95% sau unul dintre cele 5%.
• 95% din intervalele construite folosind
media esantioanelor ( x ) vor conține
adevărata medie din populatie (µ).
σ
Excel: X ± 1. 96
• =confidence(α,σ,n)
n
Intervale de incredere
Exemplu:
Trei studii à pentru compararea eficientei bandajului de
compresie multistrat elastic cu cel inelastic, in cazul tratamentului
ulcerului venos .
à Diferenţe obtinute in cele 3 studii: 13%, 25% şi 20% la pacienți
cu vindecare completă
– 49 pacienţi pentru grupurile cu bandaj elastic
– 52 pacienţi pentru grupurile cu bandaj inelastic
* Toate estimările sunt în avantajul bandajului elastic!
* Există o variabilitate aleatorie naturală între eșantioane!
à Este posibil sa existe o diferenta de timp intre studii si
tratament
Fletcher A, Nicky Cullum N, Sheldon TA. (1997) A systematic review of compression treatment for
venous leg ulcers. British Medical Journal 315, 576-580.
Intervale de incredere
Exemplu: in studiul privind eficienta bandajelor elastice versus cele
inelastice in vindecarea ulcerului venos avem o valoarea estimată pentru
diferenţă intre mediile din esantioane de 13% şi o eroare standard de 10%.
• intervalele de incredere de 95% pentru diferenta mediilor pacientilor
vindecati in 3 studii care compara eficienta bandajului elastic cu cel
inelastic;
de vindecați
încredere depinde de 25%
20%
numarul de observaţii 13%
à al treilea studiu include un 9%
numar mai mic de observatii
-7%
decât celelalte. -10%
Numărul studiului
Study A
Study B
Study C
Study D
Study E
Combined estimate
Study A
Study B
Study C
Study D
Study E
Combined estimate
(1- α)
Non-rejection
region
µ 0
Critical value
Semnificație statistica
Presupunere
à Observaţiile trebuie să fie independente între ele.
Statistica testului
à Calcul pe baza datelor observate, cu scopul de a
testa ipoteza nula
Teste de semnificație: Testul semnelor
1 diferență din 10
? 2 diferențe din 10
? 3 diferențe din 10
...
?5 diferențe din 10
...
? diferențe concluzia
inversa
à Numărul de diferențe
negative s-ar comporta exact
la fel ca şi în cazul aruncării
simultane a 10 monezi pentru
care ne interesează apariția
numărului de steme.
à Care este modelul
matematic asociat?
à Distribuţia binomială cu
parametrii n = 10 şi p = 0.5.
Teste de semnificație: Testul semnelor
Numărul de diferențe negative s-ar comporta exact la fel ca
şi în cazul aruncării simultane a 10 monezi, pentru care
ne interesează apariția numărului de steme.
à Numărul de diferențe
negative s-ar comporta
exact la fel ca şi în cazul
Probabilitate
aruncării simultane a 10
monezi pentru care ne
interesează apariția
numărului de steme.
à Care este modelul
matematic asociat?
à Distribuţia binomială
cu parametrii n = 10 şi
Numărul de diferențe negative
p = 0.5.
Teste de semnificație: Testul semnelor
Dacă vreunul dintre subiecți a avut acelasi scor înainte şi
după curs îl omitem deoarece nu oferă informaţii despre
direcţia diferenţelor
à n este numărul de subiecți pentru care există
o diferenţă pozitivă sau negativă, in cadrul testului.
Distribuția numărului de
diferențe negative în cazul în
care ipoteza nulă este
Probabilitate
adevărată.
Distributia binomiala
Parametrii:
n= 10 (nr. de aruncari)
p= 0.5 (probabilitatea de
succes intr-o aruncare;
Numărul de diferențe negative moneda nu cade pe muchie)
Teste de semnificație: Testul semnelor
• H0= adevarata à ne
asteptam ca ½ din
diferente sa fie negative (5)
• In cazul studiat
o diferenţa este negativa
(date extreme)
• Pentru obtinerea
probabilitatii se insumeaza
valorile incercuite
à ~0.02 (2 sanse din 100)
Teste de semnificație: Testul semnelor
• Estimăm ca numărul
mediu de diferenţe
negative, în cazul în care
ipoteza nulă este
adevărată, să fie de 5.
Probabilitate
• Numărul de diferenţe
negative observate este Valori Valori
extreme
doar de 1. mici
extreme
mari
• Care este probabilitatea
de a obţine o valoare atât
de departe de ceea ce Numărul de diferențe negative
ne-am fi aşteptat să
observăm?
à 0.02 (2 sanse din 100)
Teste de semnificație: Testul semnelor
• Estimăm ca numărul mediu
de diferenţe negative, în
cazul în care ipoteza nulă
este adevărată, să fie de 5.
• Numărul de diferenţe
negative observate este doar
de 1.
• Care este probabilitatea de
a obţine o valoare atât de
departe de ceea ce ne-am fi
aşteptat să observăm?
à 0.02 (2 sanse din 100)
Teste de semnificație: Testul semnelor
• Probabilitatea de a obține o valoare extremă, precum cea
observată, indiferent de direcția aleasă, este de 0.0214844.
• Dacă ipoteza nulă ar fi adevărată vom avea un eşantion in
care apariția unei valori extreme, precum cea observată, are
probabilitatea de apariție, prin șansă, de 0.02, adică de o
sansa din cincizeci.
• Datele nu sunt în concordanță cu ipoteza nulă, astfel încât
putem concluziona că există dovezi în favoarea unei
diferenţe între scorurile cunoștințelor înainte și după curs.
• În populaţia de asistente medicale, nu există nici o diferenţă între
scorurile de cunoștințe înainte și după curs" sau “in populaţia de
asistente medicale, probabilitatea de obținere a unei diferenţe într-o
anumită direcție în scorul de cunoştinţe este egală cu probabilitatea
de obtinere a unei diferenţe de scor în cealaltă direcţie".
Teste de semnificație: Testul semnelor
Probabilitate
egal sau mai mic decât
scorul inițial.
Valori
extreme
• Ipoteza alternativă pentru
unilaterală: în cadrul testele
unilaterale
populaţiei scorul final va fi
mai mare decât scorul
inițial. Numărul de diferențe negative
• Se ia in calcul doar
probabilitate aparitiei unei
diferente negative sau nici
una.
Teste unilaterale și bilaterale
• Ipoteza nulă bilaterală: în populaţie scorul final al
cunoştinţelor va fi egal cu scorul inițial.
• Ipoteza alternativă bilaterală: în cadrul populaţiei scorul final
va fi diferit de scorul inițial.
Probabilitate
bilaterale bilaterale
Valori extreme
pentru testele
unilaterale
Williams et al.,1992:
• Studiu în care s-au alocat aleatoriu pacienţi vârstnici
internați într-un spital în două grupuri: vizitați constant de
către asistenţii sociali, în comparație cu cei pentru care nu
se făcea nici o vizită, cu excepţia cazului în care era
absolută nevoie; pacientii au fost evaluați referitor la
starea fizică, handicap și starea mentală folosindu-se
scala unui chestionar à 6 grupuri (2x3)
– 2 grupuri (vizitati constant si nevizitati)
– 3 grupuri din puncte de vedere al evaluarii (starea fizică, handicap
și starea mentală)
• Nu au existat diferenţe semnificative generale între
grupul cu intervenţie şi grupul de control!
Teste de semnificație multiplă:
mai multe subgrupuri
Williams et al. 1992:
• În rândul femeilor cu vârsta de 75-79 din grupul de control
s-a obținut o deteriorare semnificativ mai mare la scorul fizic în
comparație cu grupul cu intervenție (p = 0.04), iar în rândul
bărbaţilor de peste 80 de ani din grupul de control s-a obținut o
deteriorare semnificativ mai mare în scorul referitor la handicap
decât în grupul cu interventie (p = 0.03).
à Nu se stie exact cate subgrupuri au fost folosite pentru a testa diferenta
intre tratamente
à Variabilele de grupare: vârstă, sex, dacă trăiesc sau nu singuri à cel
putin 8 subgrupuri
Autorii au declarat:
"Două mici subgrupuri de pacienti au arătat un posibil beneficiu al
intervenţiei asistenților sociali. ... Aceste beneficii trebuie, totuși, să fie
tratate cu prudenţă deoarece se pot datora unor factori de şansă (adică
din întâmplare)."
Teste de semnificație multiplă:
mai multe subgrupuri
Soluție à metoda Bonferronià noi valori p
à daca se obtine semnificatie à testele sunt valide
• Se vor multiplica valorile p prin numărul de teste.
• Dacă se obține ceva semnificativ, atunci testul general
referitor la ipoteza nulă compusă este semnificativ.
Exemplu: Williams et al. (1992)
– Subiecții au fost clasificați pe grupe de vârstă, sex, dacă
trăiesc sau nu singuri (există cel puțin opt grupuri).
– Ipoteza nulă compusă: există o diferenţă semnificativă între
tratamente pentru cel puţin un grup de subiecţi
à ipoteza testata prin metoda Bonferroni
– Chiar dacă am lua în considerare cele trei scale separat, valori
reale pentru p sunt 8 × 0.04 = 0.32 şi 8 × 0.03 = 0.24, ambele
mai mari decât 0.05 à Statistic nesemnificativ!
Teste de semnificație multiplă:
mai multe subgrupuri – corecția Bonferroni
Media = 3296.0 g
Frecvența
1. SD si media in esantion:
Media = 3296.0 g
Frecvența
2. Calcul ES:
à Interval de încredere (CI) care
folosește distribuția normală.
Media = 3296.0 g,
Abaterea standard:
SD = 563.2 g,
Eroarea standard a mediei:
Frecvența
s / n = 563.2 / 1769
ES = 13.5 g.
à Eșantioane mari: media
eșantioanelor au o distribuție
normală à media = 3296.0 și
SD = 13.5 (estimate din date). Greutatea la naștere (g)
Metoda pentru eșantioane mari
O singură medie
3. IC:
(m-1.96*ES, 1+1.96*ES):
Frecvența
à 95% din observații dintr-o
distribuție normală se află în
intervalul 1.96 × SD de o
parte și de alta a mediei.
-1.96 0 1.96
à 95% din valori sunt in intervalul:
-1.96< (µ-m)/SD/√n< 1.96
Metoda pentru eșantioane mari
Date în perechi
BluePages: 165 de subiecţi,
media diferențelor în scorurile depresiei = 3.9,
abaterea standard = 9.1,
eroarea standard a mediei = 0.71
Test de semnificație:
Ipoteza nulă: Media schimbărilor în populație este 0.
à Dacă ipoteza nulă este adevărată atunci media observată în
eşantionul împărţită prin eroarea standard (statistica testului)
va urma distribuţia normală standard.
z = (µ-m)/SD/√n= 3.9/0.71 = 5.49.
p = 0.00000004 (vom scrie p <0.0001);
à probabilitatea de a obtine valoarea observata (z=5.49) daca H0 e
adevarata!
à 95%CI: (2.5, 5.3) à 0 nu se află în interval!
à testul pentru eșantioane mari de distribuție normală pentru o
singură medie, test cunoscut si ca testul z pentru o singură medie.
Metoda pentru eșantioane mari
Date în perechi
Presupuneri:
§ Observaţiile sunt independente.
à Trebuie să avem, de exemplu, un grup de 100 observații astfel
ca pentru 10 subiecți să avem cam 10 observații pentru fiecare.
§ Eşantionul este suficient de mare.
à Regula empirică spune că trebuie cel puțin 100 observații
pentru un grup.
Metoda pentru eșantioane mari
Date independente
Scorul de bază în depresie, după șase săptămâni de tratament
pentru un grup de 525 pacienți cu depresie
ES: ES12
ES122 = ES12 + ES22 à ES12
BluePages vs Control:
Diferența = 2.9 (3.9 – 1.0)
Eroarea standard a diferenței = 0.95
95%CI: (1.0, 4.8) – 0 nu se află în interval!
Diferența/eroarea standard = 2.9/0.95=3.05
àPentru distribuția normală p = 0.002.
MoodGYM versus Control:
Diferența = 3.2,
Eroarea standard a diferenței = 0.92
95%CI: (1.4, 5.0) – 0 nu se află în interval!
Diferența/eroarea standard = 3.2/0.92=3.48
à Pentru distribuția normală p = 0.0005.
Metoda pentru eșantioane mari
Date în perechi
Presupuneri:
• Observaţiile şi grupurile sunt independente între ele.
à Nu trebuie să existe legături între observaţiile dintre
cele două grupuri, precum ar fi un studiu în care fiecare
subiect într-un grup este relaționat, de exemplu, prin
vârstă şi sex, cu un subiect din celălalt grup.
• Eșantioanele trebuie să suficient de mari pentru ca
erorile standard să fie bine estimate iar mediile trebuie
să aibă o distribuţie normală.
à Regula empirică spune că pentru un singur eșantion
ar trebui să avem cel puţin 100 de observaţii iar pentru
două eşantioane de cel puţin 50 de observații în fiecare.
Bibliografie
probabilitate
Densitate de
probabilitate
Densitate de
t t
Distribuția normală
20 grade de libertate standard
probabilitate
probabilitate
Densitate de
Densitate de
t t
Distributia t
Puncte de tăietură 5% pentru
distributia t cu 4 grade de libertate
Densitate de probabilitate
1.96 pentru
distributia
normala
Valoarea
H0 depinde de
adevărată
marimea
esantionului
Regiune de
acceptare
t cu 4 grade de libertate
Puncte de taietură din distributia t
Metoda t pentru esantioane mici
• Problema estimarii mediei populatiei pe baza
observatiilor provenite de la un esantion mic
Ex: 9 pacienți cu răni cronice nevindecte
(Shukla et al., 2004).
Biopsiile au fost evaluate folosind scorul obținut cu ajutorul unui
sistem care gradează angiogeneza microscopică (MAGS) și
care furnizează un indice care evaluează cât de bine vasele
mici de sânge sunt în curs de dezvoltare, prin urmare,
evaluează regenerarea epitelială;
* scorurile mari sunt cele mai bune.
Cele nouă observaţiile au fost: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7
Abaterea standard = 12.5
Eroarea standard a mediei = 4.2
Shukla VK, Rasheed MA, Kumar M, Gupta SK, Pandey SS. (2004) A trial to determine the role of placental extract
in the treatment of chronic non-healing wounds. Journal of Wound Care 13, 177-9,
Metoda t pentru esantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7
Abaterea standard = 12.5
Eroarea standard a mediei = 4.2
Resping H0 Resping H0
Regiune de
acceptare H0
- 2.31 2.31
Ce este t0.05?
à valoare care provine din distributia Student t
à t0.05 este punctul de tăietură 5% bilateral al distribuției t cu
un număr de grade de libertate (numarul de observatii
minus unu)
Metoda t pentru esantioane mici
Observaţii: 20, 31, 34, 39, 43, 45, 49, 51 şi 63.
Media = 41.7
Abaterea standard = 12.5
Eroarea standard a mediei = 4.2
Ce este t0.05?
à t0.05 este punctul de tăietură 5% bilateral al distribuției t cu
un număr de grade de libertate egal cu numarul de
observații minus unu.
à 9 observatii à 8 grade de libertate.
Metoda t pentru eșantioane mici
critic critic
Metoda t pentru eșantioane mici
Meadows J, Jenkinson S, Catalan J. (1994) Who chooses to have the HIV antibody test
in the antinatal clinic? Midwifery 10, 44-48.
Tabele de contingență
Tabel de contingenta pentru variabile categoriale de tip r × c
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Tabele de contingență
à Testarea ipotezei nule
à H0: nu există nici o relaţie (asociere) între cele două
variabile de tip categorial
• Eșantion mare à testul hi-pătrat.
• Eșantion mic à testul Fisher exact.
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
2
Testul pentru un esantion mare, χ (chi-squared), in care distributia
esantionului este distributia hi-patrat, cand ipoteza nula este
adevarata.
• H0 à nu există nici o asociere între cele două variabile
• H1 à există o asociere de un anumit tip.
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
Proporţia celor care au acceptat testul HIV: 134/788.
à din 486 de persoane căsătorite ne aşteptăm (estimăm) ca
486 × 134/788 = 82.6 să accepte testul HIV, dacă ipoteza
nulă referitoare la asociere este adevărată.
82.6
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
Proporţia de persoane care au refuzat testul este = 654/788.
à Deci din 486 de persoane căsătorite, ne aşteptăm ca 486 ×
654/788 = 403.4 să refuze testul, dacă ipoteza nulă este
adevărată.
à Frecventele estimate pentru persoanele casatorite sunt:
82.6 + 403.4 = 486
à suma frecventelor asteptate = suma frecventelor observate
82.6 403.4
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
à Pentru 222 persoane necasătorite care au un partener, ne
aşteptăm ca 222 × 134/788 = 37.8 să accepte testul HIV, dacă
ipoteza nulă este adevărată.
à Pentru 222 persoane necasătorite care au un partener ne
aşteptăm ca 222 × 654/788 = 184.2 să refuze testul dacă ipoteza
nulă este adevărată à obs: 37.8 + 184.2 = 222.
82.6 403.4
37.8 184.2
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
82.6 + 37.8 + 8.5 + 5.1 = 134.0
403.4 + 184.2 + 41.5 + 24.9 = 654.0.
à Frecvenţele observate şi cele estimate au același total pe
rânduri şi pe coloane.
82.6 403.4
37.8 184.2
8.5 41.5
5.1 29.9
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
Formula generala de obtinere a frecventelor estimate in cazul
in care H0 este adevarata:
total linie x total coloana
total general
82.6 403.4
37.8 184.2
8.5 41.5
5.1 29.9
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Testul hi-pătrat pentru asociere
à Se compară frecvenţele observate cu cele estimate.
à Σ [(observat - aşteptat)2/aşteptat] (pentru fiecare celulă)
à statistica testului χ2 = 10.57
à Dacă ipoteza nulă este adevărată și dimensiunea eșantioanelor
este suficient de mare, atunci această statistică urmează distribuția
hi-pătrat, adesea notată cu χ2.
82.6 403.4
37.8 184.2
8.5 41.5
5.1 29.9
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Distribuția hi-pătrat χ2
à Familii de distribuții χ2, cu un parametru - grad de libertate.
à Statistica testului X2
Densitate de df = (r-1)x(c-1)
Densitate de
probabilitat
probabilitat
e
e
1 grad de libertate 3 grade de libertate
Densitate de
Densitate de
probabilitat
probabilitat
e
e
Nr gradelor de
libertate d.f.:
d.f.= (r-1)x(c-1)
à Pentru a identifica
membrul familiei
distribuției χ2
Distribuția hi-pătrat χ2
Puncte de tăietură în distribuția hi-pătrat
Densitate de probabilitate
Proprietate:
df=3 Media distributiei = df
2 df=3
7.81 χ critic
χ2 =10.57
χ2cr = 7.81
χ2cr > χ2
p = 0.027 = 0.03
Hi-pătrat cu 3 grade de libertate (d.f.)
df=3
χ2 =10.57
χ2cr = 7.81
χ2cr > χ2
p = 0.027 = 0.03
Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)
Puncte de tăietură în distribuția hi-pătrat
(rezistența)
à exista corelatie
intre ele?
• Coeficientul de
corelatie arata cat de
puternica este aceasta
relatie Înălțimea (cm)
Hickish T, Colston K, Bland JM, Maxwell JD. (1989) Vitamin D deficiency and muscle
strength in male alcoholics. Clinical Science 77, 171-176.
Corelația
• Coeficientul de corelatie masoara puterea de asociere, sau
puterea relatiei, intre doua variabile cantitative
Forța muculară
• Tendinta: barbatii mai inalti au
(rezistența)
(newtoni)
forta mai mare.
• Cel mai inalt nu are forta cea mai
mare si nici cel mai mic forta cea
mai mica
à corelatia ne permite sa Înălțimea (cm)
masuram cat de aproape este
asocierea
Corelaţia
Funcţii EXCEL: CORREL(), PEARSON()
à Funcţiile au două argumente care sunt domeniile care
contin cele două serii de date.
• Coeficientul de corelatie Pearson poate fi calculat doar in
cazul datelor care provin dintr-o distributie normala
• Coeficientul de corelatie Spearman poate fi calculat in cazul
in care datele nu provin dintr-o distributie normala
àCand nr de tigări
creste, capaciatea
creste scade pulmonara tinde să scada
à Cele 2 variabile
covariază în directii opuse
1
creste scade C=
n −1
∑ (
xk − m X )( y k
− mY )
Cov( X , Y ) 2 ≤ Var ( X ) ⋅Var (Y )
C − 53.75
rX ,Y = = = -0.96
s X sY 55.90
Corelația
• Coeficientul de corelatie se bazeaza pe diferentele (abaterile)
dintre fiecare observatie si media sa:
X-mX, Y-mY; unde mX, mY - mediile celor doua serii de date
Cov( X , Y )
ρ( X , Y ) = ∈ [−1,1]
Var ( X ) ⋅ Var (Y )
(rezistența)
Media
rezistenț
Sumă de produse în ei
jurul mediei!
N
∑( x k − mX ) ( yk − mY )
i=1
Înălțimea (cm)
Coeficientul de corelație
• Coeficientul de corelație r.
• Valoarea minimă = -1.00. Valoarea maximă = 1.00.
Forța muculară (newtoni)
r = 0.42.
(rezistența)
Înălțimea (cm)
Coeficientul de corelație
• Corelaţia este pozitivă când valori mari ale unei variabile
se asociază cu valori mari ale celeilalte variabile.
Variabila Y
Variabila X
Coeficientul de corelație
• Corelaţia este pozitivă când valori mari ale unei variabile
se asociază cu valori mari ale celeilalte variabile.
Variabila Y
Variabila X
Coeficientul de corelație
• Corelaţia este negativă când valori mari ale unei
variabile se asociază cu valori mici ale celeilalte
variabile.
Variabila Y
Variabila X
Coeficientul de corelație
• Corelaţia este negativă când valori mari ale unei
variabile se asociază cu valori mici ale celeilalte
variabile.
Variabila YY
Variabila
Variabila
Variabila XX
Coeficientul de corelație
• r = +1.00 când valori mari ale unei variabile sunt
asociate cu valori mari pentru cealaltă variabilă şi
punctele se află exact pe o linie dreaptă
à corelatie puternica
Variabila YY
Variabila
Variabila
Variabila XX
Coeficientul de corelație
• r = -1.00 când valori mari ale unei variabile sunt asociate
cu valori mici pentru cealaltă variabilă şi punctele se află
exact pe o linie dreaptă.
Variabila Y
Variabila X
Coeficientul de corelație
• r = 0.00 în cazul în care nu avem o relație liniară.
• Valori mari ale unei variabile sunt asociate atat cu
valori mici cat si cu valori mari ale celeilalte variabile;
nu exista un anumit sens!
Variabila Y
Variabila X
Coeficientul de corelație
• Este posibil ca r = 0.00 în cazul în care avem o relație
aproape perfectă însă aceasta nu este liniară.
Variabila Y
Variabila X
Teste pentru coeficientul de corelație
Înălțimea (cm)
Teste pentru coeficientul de corelație
• Se poate calcula un interval de încredere pentru
coeficientul de corelație în populaţie.
– Presupunere: ambele variabile urmează distribuţii normale.
• Abateri mari de la aceste
presupuneri fac ca valoarea p
pentru acest test să fie
foarte instabilă.
(rezistența)
• 95% CI aproximativ: (0.13, 0.64).
• Programele de analiză statistică
dau rar un astfel de
interval de încredere.
Înălțimea (cm)
Analiza de corelație și regresie
Ø Coeficientul de corelatie à masoara puterea de
asociere sau puterea relatiei intre doua variabile
cantitative
r apropiat de 1
r apropiat de 0
Regresia liniară simplă
Ex: Indicele de masa corporală (BMI) și circumferința
abdominală (CA) in cm la 86 femei (Malcolm Savage)
• Ce este o relație?
• Regresia: Putem prezice BMI cu ajutorul CA?
• Regresia:
prezicerea unei variabile
BMI(kg/m2)
cu ajutorul altor variabile
• Exista o relatie intre
BMI si CA (din diagrama)?
Circumferință abdominală
CA (cm)
Regresia liniară simplă
• Ce este o relație?
• Regresia: Putem prezice BMI cu ajutorul CA?
• Ce este o relație?
• Regresia: Putem prezice BMI cu ajutorul CA?
à Stabilesc un criteriu!
BMI(kg/m2)
Circumferință abdominală
CA (cm)
Regresia liniară simplă
Care este linia pe care trebuie să o alegem ?
Criteriu: se aleage linia care face ca distanţa de la
puncte la linie, în direcţia lui y să fie la nivel minim.
• Distanțele sunt
diferenţele între
valorile BMI
BMI(kg/m2)
observate şi
valorile BMI
prezise de linie.
Circumferință abdominală
CA (cm)
Regresia liniară simplă
Care este linia pe care trebuie să o alegem?
Vom alege linia pentru care se va obține minimul
sumei de pătrate ale acestor diferenţe.
• Metoda este cunoscută
sub numele de
principiu celor
BMI(kg/m2)
mai mici pătrate
iar estimările
obţinute sunt denumite
linia sau ecuaţia
celor mai mici pătate.
Circumferință abdominală
CA (cm)
Regresia liniară simplă
BMI = -4.15 + 0.35 × CA
• Se pot determina intervale de încredere şi valorile p
pentru coeficienţii obținuți.
Panta à 0.35 = coeficient de regresie
Intercept à -4.15
• Coeficientul de regresie
arata cu cit creste BMI,
BMI(kg/m2)
in medie, cand CA creste
cu o unitate
• Atentie la unitatile de
masura! à daca se
schimba unitatea
de masura se schimba Circumferință abdominală
coeficientii ! CA (cm)
Regresia liniară simplă
• Se pot determina intervale de încredere şi valorile p
pentru coeficienţii obținuți (pentru panta si intercept)
Panta = 0.35 Kg/m2/cm, 95% CI = (0.31 - 0.40) Kg/m2/cm,
p <0.001 în raport cu valoarea zero.
Interceptul = -4.15 kg/m2, 95% CI = (-7.11 la -1.18) kg/m2.
H0: panta = 0
BMI(kg/m2)
à Cresterea BMI in
raport cu CA este nula
à CA nu influenteaza BMI
Circumferință abdominală
CA (cm)
Regresia liniară simplă
• Se pot determina intervale de încredere pentru estimațiile
obținute prin regresie și valoarea prezisă pentru un nou
subiect.
Intervale de predicție sau
Intervale de 95% încredere
intervale de 95% încredere
pentru estimațiile de regresie
pentru valori BMI prezise cu
pentru BMI și circumferința
ajutorul circumferinței
abdominală
abdominale
BMI(kg/m2)
BMI(kg/m2)
BMI(kg/m2)
Circumferință abdominală
CA (cm)
Regresie liniară multiplă
BMI (kg/m2)
Circumferință abdominală – CA (cm) Circumferința brațului – CB (cm)
INTRODUCERE IN BAZE
DE DATE
INTRODUCERE ÎN BAZE
DE DATE
Sint urmatoarele exemple baze de date?
• Un fișier Excel cu numele pacienților și medicatia asociata într-un
spital
• O agendă a unei asistente medicale cu activitatile viitoare
• Un program de garzi pentru trimestrul I 2016
• O listă a medicamentelor disponibile in farmacia spitalului
• Dosarul medical al unui pacient
• Un fisier text cu lucrarile publicate intr-un proiect de cercetare
INTRODUCERE ÎN BAZE
DE DATE
Bazele de date sint colecții de date cu o structură specifica și
un scop bine definit
Structura este data de:
• inregistrari (records): o colectie/lista de elemente
• cimpuri (fields): elementele unei inregistrari
In spitale, bazele de date colecteaza cantitati importante de
date si sint elementul central al sistemelor informatice de
spital
INTRODUCERE ÎN BAZE
DE DATE
Avantajele utilizării bazelor de date:
• Posibilitatea de a stoca o cantitate foarte mare de date
• Introducerea şi editarea facilă a datelor
• Ordonarea şi sortarea rapidă
• Viteză mare în utilizare
• Partajarea datelor cu alte pachete software, în retele de
calculatoare
• Securitatea datelor prin protectie împotriva accidentelor
software şi hardware
BAZE DE DATE ȘI TIPURI
DE STRUCTURI
Tipuri de structuri de date:
• Date nestructurate (flat)
• Date ierarhice
• Date Object-Oriented
• Date relaționale
Doctor
Pacient A Pacient B
• Many-to-many.
BAZE DE DATE
RELATIONALE
Cheie (Key) - atribut a cărui valoare este unică în fiecare rand sau
un set de atribute ale căror valori combinate sint unice
NULL - valoare specială utilizata pentru un atribut "necunoscut"
sau "nedefinit”
VIEW - tabel virtual compus din parti/sub-seturi ale tabelelor reale
Previous-
balance
Patient- Patient-
address reference
Insurance- Patient-
number balance
Patient- Patient-
name gender
Financial-
Demographics record
Patient
METADATA
• Sint date ce descriu proprietatile sau
caracteristicile altor date
• Nu includ datele propriu-zise (sample
data)
• Permit designerilor si utilizatorilor sa
inteleaga sensul datelor propriu-zise
EXEMPLU: METADATA &
DATA TABLE
Name Type Max Length Description
Name Alphanumeric 100 Organism name
Size Integer 10 Genome length (bases)
Gc Float 5 Percent GC
Accession Alphanumeric 10 Accession number
Release Date 8 Release date
Center Alphanumeric 100 Genome center name
Sequence Alphanumeric Variable Sequence
19
BAZE DE DATE SQL IN
MEDICINA
Avantaje
• Opțiuni avansate de agregare a datelor, statistici și rapoarte la nivel
de date
• Caracteristici bune ale tranzactiilor
• Interogări SQL complexe, potrivite pentru (aproape) orice caz
• O gamă largă de instrumente și software compatibil
• Independența de “database applications”
Dezavantaje
• Complexitate ridicata a SQL și costurile mari pentru soluții de mari
dimensiuni
• Învățarea nu este facilă
• Probleme de scalabilitate
• Probleme de performanță
• Probleme de întreținere
BAZE DE DATE
RELATIONALE
Principiile bazelor de date relaționale pot fi
rezumate la următoarele:
Datele din bazele de date relationale sint valori stocate în tabelele ce formeaza
baza de date.
Datele luate individual sint inutile.
Bazele de date relaționale sint compuse dintr-un set de tabele.
• Fiecare tabel conține înregistrări (rândurile tabelului) și cimpuri (coloanele).
• Campurile pot fi de diferite tipuri de date: alfanumeric, numeric, data/timp, Boolean,
etc
Pentru accesul la o anumita inregistrare (record) din tabel se utilizeza o cheie
(key):
• Cheia care identifică în mod unic o înregistrare este cheia primară
• Cheile sint parte din structura logică.
Într-o bază de date relațională o anume vizualizare a datelor (view) este, de fapt, un
tabel virtual compus dintr-un sub-set de tabele reale.
"Integritatea datelor” descrie precizia, valabilitatea și unitatea datelor existente
LIMBAJUL SQL
SQL = Structured Query Language
Cele mai cunoscute DBMS relaționale cu versiuni noi la fiecare doi ani
Suportat de toate sistemele majore de baze de date comerciale
Standardizat de ANSI (American National Standards Institute)
Mod de actiune declarativ, bazat pe algebra relațională
Bazat pe tranzacții pentru regasirea si actualizarea inregistrarilor
SQL este independent de aplicatiile de date (data applications) care au
acces la date prin:
• Extensii de limbaj care permit “embedded SQL”
• API (Application Programming Interfaces) ca ODBC/JDBC care permit
construirea de querry-uri SQL catre baza de cdate
Aplicațiile specifica ”ce” nu “cum“ intr-un limbaj potrivit utilizatorului
TIPURI/SETURI DE
COMENZI SQL
HOSPITAL INFORMATION
SYSTEMS
CE ESTE HIS?
Un sistem informatic de spital (HIS) este un element al Health
Informatics care se concentrează în principal pe nevoile
administrative ale spitalelor.
Una dintre cele mai importante probleme este de servicii de
îngrijire a sănătății
Cea mai utilizata referință (Wikipedia) defineste HIS:
"Un sistem informatic de spital (HIS) este un element de
informatică de sănătate care se concentrează în principal pe
nevoile administrative ale spitalului. În multe implementări, un
HIS este un sistem de informații cuprinzător, integrat, destinat
să gestioneze toate aspectele de funcționare ale unui spital,
cum ar fi probleme medicale, administrative, financiare și
juridice și cat si prelucrarea corespunzătoare a serviciilor
asociate acestora."
CE ESTE HIS?
CIS (Clinical Information Systems) este
uneori separat de HIS în sensul în care
primul se concentreaza pe datele
referitoare la starea clinica (dosarul
electronic) a pacientului, iar cel din urmă
ține evidența problemelor administrative
legate de pacient.
Distincția nu este întotdeauna clara și există
dovezi contradictorii împotriva unei utilizări
consecvente a ambilor termeni.
CE ESTE HIS?
HIS este un sistem format din mai multe componente, cu
extensii specifice pentru fiecare functie speciala:
• Sistem informatic de laborator (LIS),
• Politici organizationale și sistemul de management operational
• Sistemul de Informații de Radiologie (RIS)
• Arhivare imagini si sistem de comunicare (PACS)
• Electronic Health Record (DES)
HIS ia în considerare toate grupurile de activitati de spital:
• secții
• unități de ambulatoriu
• unități de servicii medicale (diagnostic, terapie, altele)
• departamente administrative
• management si unități executive
HIS are ca subiect principal stocarea datelor (DW) si prin urmare are un
model mai static de gestionare a informațiilor.
CE ESTE HIS?
HIS trebuie să ia în considerare toate grupurile de persoane …
• medici
• asistente medicale
• personal administrativ
• personal tehnic
• Informaticieni/manageri de informații medicale
Codificari
Specializate
Farmacie Interfata
Database
Dictionar
entitati
Medicale
Radiologie
Baza date
Baza date pacient
cercetare
INFORMATII DIN HIS
HIS pune la dispozitie:
• informații, în primul rând despre pacienți, asigurandu-se ca
acestea sint corecte, pertinente și actuale, furnizate la timp si
accesibile de catre persoanele potrivite, la locul potrivit, într-un
format utilizabil imediat
• cunoștințe, în primul rând despre boli, dar si despre modul lor
de abordare, de tratament, moduri si efecte de interacțiune
intre medicamente, pentru a sprijini diagnosticul și terapia
• rapoarte despre calitatea ingrijirii pacientilor, performantele
spitalului și costurile asociate
TIPURI DE DATE
UTILIZATE
Tipuri de date de sănătate utilizate de HIS:
Date specifice de pacient
• Datele clinice
• Date administrative
• Date financiare și de facturare
Date agregate de sănătate
• Index de boli și proceduri
• Rapoarte cost
• Statistici de sănătate publica
• Măsuri rezultate
• Index de performanta
TIPURI DE ACTIUNI
Resursele de calcul sint utilizate în general pentru următoarele
activitati:
• Sprijin administrativ - planificarea administrativă și logistică legata de ingrijirea
pacientului si de interventiile necesare.
• Colectare a datelor pacientului - achiziționarea, stocarea și regăsirea datelor
pacientului (ex. examenele clinice, biosemnale, imagini, etc.), verificarea,
codificarea și prelucrarea lor, precum și integrarea tuturor datelor într-o
prezentare cuprinzătoare.
• Decizii - Simularea intervențiilor prin utilizarea de modele, suport pentru
procesul decizional legat de diagnostic și tratament.
• Monitorizare - Monitorizarea și evaluarea terapiei (medicamentoase si nu
numai).
• Raportare - Generarea de rapoarte (ex. după externarea pacientului din
spital).
• Evaluare - Evaluarea efectului ingrijirilor ce au fost furnizate pacientului
asupra starii sale.
HEALTHCARE
ANALYTICS
Ad-Hoc Traditional
Expertiza
domeniu
Data
Engineering
Data Science
Computer Matematica
Science & Statistica
Machine
Learning
CE INSEAMNA DATA
SCIENCE
Domeniu de activitate pentru cei care:
• Fac cercetari pentru a raspunde la intrebari specializate
domeniului
• Utilizeaza volume mari de date pentru a furniza raspunsurile
cerute
• Pregatesc datele pentru a fi utilizate in studii inferentiale si
predictive
• Exploreaza datele pentru a gasi pattern-uri ascunse
• Automatizeaza procesele pentru studii statistice
• Prezinta rezultatele catre cei care iau decizii
CE INSEAMNA DATA
ENGINNERING
Domeniu de activitate pentru cei care:
• Dezvolta, construiesc, opereaza si intretin arhitecturi si solutii
pentru procesarea si stocarea datelor
• Aliniaza arhitecturile si solutiile la cerintele proceselor de
prelucrare de date
• Descopera noi modalitati de achizitii de date
• Dezvolta si implementeaza procese pentru data cleansing,
data modelling, data mining, etc.
• Recomanda proceduri pentru imbunatatirea calitatii, eficientei
si sigurantei datelor
DE CE NU E UTILIZAT
MODELUL
• Lipsa cererii interne
• Costuri
• Utilzare in procese
• Inlocuirea data scientist cu alti profesionisti interni existenti
• Utilizarea de combinatii medic/programator pentru sarcini
punctuale
• Lipsa increderii in rezultatul analizei de date (analytics vs.
instinct)
AGENDA
Elemente de ICT
• Hardware
• Software
• Storage
• Comunicatii
Modele de utilizare
• Datacenter
• Cloud Computing
DEFINITII GENERALE
Bioinformatica: este o arie interdisciplinara care dezvolta metode
si unelte software utilizate pentru studiul datelor biologice,
combinind ingineria software cu statistica si matematica. Este o
“umbrela” pentru cercetari in zona genetica/genomica
Informatica medicala: reprezinta aplicarea directa a tehnologiilor
ICT in medicina. Este o arie multidisciplinara care utilizeaza
tehnici ICT pentru a imbunatatii calitatea, eficienta si inovatia in
domeniul sanatatii. Zonele acoperite sint gestiunea resurselor, a
echipamentelor si metodelor necesare achizitiei, stocarii, regasirii
si utilizarii informatiei cu caracter medical.
Sursa: Wikipedia
HARDWARE
COMPUTING, STORAGE,
COMMUNICATIONS
DATA PROCESSING
DEFINITIE
Server software= o instanta functionala a unei aplicatii software
care primeste cereri de la o alta entitate software la care ofera un
raspuns adecvat serviciului oferit
Server hardware = defineste echipamentul special destinat
gazduirii aplicatiilor software care ofera un anumit serviciu
Primary
Secondary
Tertiary
Source: Wikimedia
DATA STORAGE
FUNCTIONALITATI
Protectie la erori
• Codare speciala pentru detectie/corectie de erori (CRC)
Criptare
• Utilizare de algoritmi speciali pentru prevenirea accesului neautorizat
(LRW)
Redundanta
• Utilizare de arhitecturi de sistem specializate pentru a evita
pierderea datelor critice (RAID)
Acces la distanta
• Utilizare de protocoale speciale pentru accesul datelor pe sisteme
remote (SAN/NAS)
DATA STORAGE
CARACTERISTICI
Volatilitate: dependenta (sau nu) de prezenta alimentarii cu energie
electrica
Mutabilitate: posibilitatea de a face operatii de citire/scriere sau doar
de citire
Accesibilitate: posibilitatea de a accesa (sau nu) orice locatie in
acelasi timp, independent de pozitie
Adresabilitate: defineste unitatea atomica de informatie adresabila
(bit, byte, fisier)
Capacitate: defineste capacitatea totala de stocare
Performanta: defineste timpul de acces la o anume locatie si
capacitatea de transfer (in/out) a datelor
Consum: cantitatea de energie necesara accesarii unei cantitati
predefinite de informatie intr-un interval de timp
DATA STORAGE
TEHNOLOGII
Stocare
• Semiconductor
• Magnetic
• Optic
Acces
• DAS (Direct Attached Storage) – sistemul de stocare este atasat fizic
direct cu sistemul de prelucrare
• NAS (Network Attched Storage) – sistemul de stocare este conectat
de sistemul de prelucrare prin intermediul LAN/WAN si ofera acces
direct la fisiere
• SAN (Storage Area Network) – sistemul de stocare este conectat de
sistemul de prelucrare prin intermediul unei retele specializate si
ofera acces direct la blocuri de disk
DATA TRANSMISSION
DEFINITII
Data trasmission/communications: defineste transmiterea (fizica)
a datelor reprezentate in forma unui semnal electromagnetic,
intre sisteme conectate prin canale punct-la-punct sau punct-la-
multipunct (electrice, magnetice, optice)
Transmisia poate fi:
• Analogica
• Digitala
DATA TRANSMISSION
MODELUL TCP
Source: Wikimedia
DATA TRANSMISSION
CARACTERISTICI
Aria acoperita
• PAN (Personal Area Network)
• LAN (Local Area Network)
• MAN (Metropolitan Area Network)
• WAN (Wide Area Network)
Capacitatea (viteza) de transmisie
• Kbps, Mbps, Gbps
Mediul de transmisie
• Shared
• Point-to-point
Protocolul de transmisie
DATA TRANSMISSION
TEHNOLOGII
Wired
• Ethernet
• Fiber Channel
• History = {Token Ring, ATM, Frame Relay}
Wireless
• PAN (Personal Area Network): Bluetooth, zigBee
• LAN (Local Area Network): WiFi
• MAN (Metropolitan Area Network): WiMAX
• WAN (Wide Area Network): Cellular 2G/3G/4G
SOFTWARE
COMPUTING, STORAGE,
COMMUNICATIONS
SISTEME DE OPERARE
Sistem de operare (OS): software care administreaza resursele unui
computer si le pune la dispozitia aplicatiilor
Resursele hardware uzuale sint:
• Memorie
• CPU
• I/O (devices)
Resursele software uzuale sint:
• Sistem de fisiere
• Gestiunea proceselor
• Gestiunea intreruperilor
SISTEME DE OPERARE
Tipuri de OS:
• Multi-tasking/Multi-user
• Real-time
• Embedded
Source: Wikimedia
VIRTUALIZARE
DEFINITII
Virtualizare: reprezinta gruparea si abstractizarea resurselor si
serviciilor intr-un mod in care natura si limitele fizice ale acestora
sint ascunse utilizatorilor
Source: Gardner
VIRTUALIZARE
COMPUTING - HARDWARE
Hardware (full) virtualization: crearea unui “masini virtuale” care
din puctul de vedere al OS se comporta ca un computer real, cu
resurse proprii, partitionate din resursele reale ale masinii fizice
pe care ruleaza.
VIRTUALIZARE
COMPUTING - HARDWARE
Presupune existenta unui “Host
OS” transformat in “hypervisor” si
a unui “Guest OS” cel in care
ruleaza aplicatiile dorite
Exista si alte metode de
virtualizare (ex. la nivel de OS),
dar utilizarea este restrinsa
VIRTUALIZARE
SERVER
Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
Hypervisor Hypervisor
Zone
Pod
Network
Servers
Storage
10 Gigabit Ethernet
10GbE Core WAN
10 Gigabit DCE
DC Aggregation
SAN A/B
10GbE Agg MDS 9500
10GbE VSS Agg DC Services
DC Services Storage Core
DC Access
Serviciu Elasticitate
Caracteristici
masurabil rapida
Esentiale Resurse
Self Service Broad Network
organizate in
la cerere Access
grupuri mari
Modele de
livrare Public Private Hybrid Community
http://www.csrc.nist.gov/groups/SNS/cloud-computing/index.html
MODELE DE LIVRARE CLOUD
COMPUTING
Resursele si serviciile IT sint oferite
Public Cloud catre toata lumea folosind Internet-ul
public
Resursele si serviciile IT sint oferite
Private Cloud utilizatorilor dintr-o singura
NIST
organizatie
Federalizarea, automatizarea si
Hybrid Cloud integrarea cooperativa dintre could-ul
public si cel privat
Ad-Hoc Traditional
Expertiza
domeniu
Data
Engineering
Data Science
Computer Matematica
Science & Statistica
Machine
Learning
CE INSEAMNA DATA
SCIENCE
Domeniu de activitate pentru cei care:
• Fac cercetari pentru a raspunde la intrebari specializate
domeniului
• Utilizeaza volume mari de date pentru a furniza raspunsurile
cerute
• Pregatesc datele pentru a fi utilizate in studii inferentiale si
predictive
• Exploreaza datele pentru a gasi pattern-uri ascunse
• Automatizeaza procesele pentru studii statistice
• Prezinta rezultatele catre cei care iau decizii
CE INSEAMNA DATA
ENGINNERING
Domeniu de activitate pentru cei care:
• Dezvolta, construiesc, opereaza si intretin arhitecturi si solutii
pentru procesarea si stocarea datelor
• Aliniaza arhitecturile si solutiile la cerintele proceselor de
prelucrare de date
• Descopera noi modalitati de achizitii de date
• Dezvolta si implementeaza procese pentru data cleansing,
data modelling, data mining, etc.
• Recomanda proceduri pentru imbunatatirea calitatii, eficientei
si sigurantei datelor
DE CE NU E UTILIZAT
MODELUL
• Lipsa cererii interne
• Costuri
• Utilzare in procese
• Inlocuirea data scientist cu alti profesionisti interni existenti
• Utilizarea de combinatii medic/programator pentru sarcini
punctuale
• Lipsa increderii in rezultatul analizei de date (analytics vs.
instinct)
AGENDA
Elemente de ICT
• Hardware
• Software
• Storage
• Comunicatii
Modele de utilizare
• Datacenter
• Cloud Computing
DEFINITII GENERALE
Bioinformatica: este o arie interdisciplinara care dezvolta metode
si unelte software utilizate pentru studiul datelor biologice,
combinind ingineria software cu statistica si matematica. Este o
“umbrela” pentru cercetari in zona genetica/genomica
Informatica medicala: reprezinta aplicarea directa a tehnologiilor
ICT in medicina. Este o arie multidisciplinara care utilizeaza
tehnici ICT pentru a imbunatatii calitatea, eficienta si inovatia in
domeniul sanatatii. Zonele acoperite sint gestiunea resurselor, a
echipamentelor si metodelor necesare achizitiei, stocarii, regasirii
si utilizarii informatiei cu caracter medical.
Sursa: Wikipedia
HARDWARE
COMPUTING, STORAGE,
COMMUNICATIONS
DATA PROCESSING
DEFINITIE
Server software= o instanta functionala a unei aplicatii software
care primeste cereri de la o alta entitate software la care ofera un
raspuns adecvat serviciului oferit
Server hardware = defineste echipamentul special destinat
gazduirii aplicatiilor software care ofera un anumit serviciu
Primary
Secondary
Tertiary
Source: Wikimedia
DATA STORAGE
FUNCTIONALITATI
Protectie la erori
• Codare speciala pentru detectie/corectie de erori (CRC)
Criptare
• Utilizare de algoritmi speciali pentru prevenirea accesului neautorizat
(LRW)
Redundanta
• Utilizare de arhitecturi de sistem specializate pentru a evita
pierderea datelor critice (RAID)
Acces la distanta
• Utilizare de protocoale speciale pentru accesul datelor pe sisteme
remote (SAN/NAS)
DATA STORAGE
CARACTERISTICI
Volatilitate: dependenta (sau nu) de prezenta alimentarii cu energie
electrica
Mutabilitate: posibilitatea de a face operatii de citire/scriere sau doar
de citire
Accesibilitate: posibilitatea de a accesa (sau nu) orice locatie in
acelasi timp, independent de pozitie
Adresabilitate: defineste unitatea atomica de informatie adresabila
(bit, byte, fisier)
Capacitate: defineste capacitatea totala de stocare
Performanta: defineste timpul de acces la o anume locatie si
capacitatea de transfer (in/out) a datelor
Consum: cantitatea de energie necesara accesarii unei cantitati
predefinite de informatie intr-un interval de timp
DATA STORAGE
TEHNOLOGII
Stocare
• Semiconductor
• Magnetic
• Optic
Acces
• DAS (Direct Attached Storage) – sistemul de stocare este atasat fizic
direct cu sistemul de prelucrare
• NAS (Network Attched Storage) – sistemul de stocare este conectat
de sistemul de prelucrare prin intermediul LAN/WAN si ofera acces
direct la fisiere
• SAN (Storage Area Network) – sistemul de stocare este conectat de
sistemul de prelucrare prin intermediul unei retele specializate si
ofera acces direct la blocuri de disk
DATA TRANSMISSION
DEFINITII
Data trasmission/communications: defineste transmiterea (fizica)
a datelor reprezentate in forma unui semnal electromagnetic,
intre sisteme conectate prin canale punct-la-punct sau punct-la-
multipunct (electrice, magnetice, optice)
Transmisia poate fi:
• Analogica
• Digitala
DATA TRANSMISSION
MODELUL TCP
Source: Wikimedia
DATA TRANSMISSION
CARACTERISTICI
Aria acoperita
• PAN (Personal Area Network)
• LAN (Local Area Network)
• MAN (Metropolitan Area Network)
• WAN (Wide Area Network)
Capacitatea (viteza) de transmisie
• Kbps, Mbps, Gbps
Mediul de transmisie
• Shared
• Point-to-point
Protocolul de transmisie
DATA TRANSMISSION
TEHNOLOGII
Wired
• Ethernet
• Fiber Channel
• History = {Token Ring, ATM, Frame Relay}
Wireless
• PAN (Personal Area Network): Bluetooth, zigBee
• LAN (Local Area Network): WiFi
• MAN (Metropolitan Area Network): WiMAX
• WAN (Wide Area Network): Cellular 2G/3G/4G
SOFTWARE
COMPUTING, STORAGE,
COMMUNICATIONS
SISTEME DE OPERARE
Sistem de operare (OS): software care administreaza resursele unui
computer si le pune la dispozitia aplicatiilor
Resursele hardware uzuale sint:
• Memorie
• CPU
• I/O (devices)
Resursele software uzuale sint:
• Sistem de fisiere
• Gestiunea proceselor
• Gestiunea intreruperilor
SISTEME DE OPERARE
Tipuri de OS:
• Multi-tasking/Multi-user
• Real-time
• Embedded
Source: Wikimedia
VIRTUALIZARE
DEFINITII
Virtualizare: reprezinta gruparea si abstractizarea resurselor si
serviciilor intr-un mod in care natura si limitele fizice ale acestora
sint ascunse utilizatorilor
Source: Gardner
VIRTUALIZARE
COMPUTING - HARDWARE
Hardware (full) virtualization: crearea unui “masini virtuale” care
din puctul de vedere al OS se comporta ca un computer real, cu
resurse proprii, partitionate din resursele reale ale masinii fizice
pe care ruleaza.
VIRTUALIZARE
COMPUTING - HARDWARE
Presupune existenta unui “Host
OS” transformat in “hypervisor” si
a unui “Guest OS” cel in care
ruleaza aplicatiile dorite
Exista si alte metode de
virtualizare (ex. la nivel de OS),
dar utilizarea este restrinsa
VIRTUALIZARE
SERVER
Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App Hypervisor
OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
OS+App OS+App
Hypervisor Hypervisor
Zone
Pod
Network
Servers
Storage
10 Gigabit Ethernet
10GbE Core WAN
10 Gigabit DCE
DC Aggregation
SAN A/B
10GbE Agg MDS 9500
10GbE VSS Agg DC Services
DC Services Storage Core
DC Access
Serviciu Elasticitate
Caracteristici
masurabil rapida
Esentiale Resurse
Self Service Broad Network
organizate in
la cerere Access
grupuri mari
Modele de
livrare Public Private Hybrid Community
http://www.csrc.nist.gov/groups/SNS/cloud-computing/index.html
MODELE DE LIVRARE CLOUD
COMPUTING
Resursele si serviciile IT sint oferite
Public Cloud catre toata lumea folosind Internet-ul
public
Resursele si serviciile IT sint oferite
Private Cloud utilizatorilor dintr-o singura
NIST
organizatie
Federalizarea, automatizarea si
Hybrid Cloud integrarea cooperativa dintre could-ul
public si cel privat
Info 1
creste si una scade nu sunt in concordanta ; daca una scade si cealalta scade
au acelasi trend si e posibil sa existe o asociere intre ele
coeficientul poate lua valori intre 1 ; 1 ]; daca e 1 ⇒ am o corelatie absoluta,
perfecta; daca e 0 nu e corelatie; daca e 1, inseamna ca sunt asociate,dar
invers (una creste una scade)
variabilele calitative : in functie de ele aplicam teste etc; care pot fi nominale
si ordinale ; sunt etichete;
de citit slide-uri
ICT : 17 18 21 22 26 27 46
DATA BASE : 414, 16(metadata), 2022, 3040
Hospital info system 4446
Info 2