Documente Academic
Documente Profesional
Documente Cultură
INFORMATICĂ MEDICALĂ
ŞI BIOSTATISTICĂ
CUPRINS
Cuvânt înainte..................................................................................................................... 4
1.1. Informatica medicală. Domeniile informaticii medicale. ............................................ 6
1.1.1. Scurt istoric........................................................................................................... 6
1.1.2. Informatica medicală. Domenii ............................................................................ 6
1.2. Organizarea şi funcţionarea unui calculator numeric ................................................ 14
1.2.1. Ce este un calculator ........................................................................................... 14
1.2.2. Schema de organizare şi funcţionare a unui calculator numeric ........................ 15
1.2.3. Structura hardware a unui calculator .................................................................. 19
1.2.4. Codificarea informaţiei ....................................................................................... 30
1.2.5. Notiunea de fişier şi de director.......................................................................... 31
1.2.6. Sisteme de operare.............................................................................................. 34
1.2.7. Reţele de calculatoare ......................................................................................... 42
1.2.8. Răufăcători informatici ....................................................................................... 44
1.3. Pagini WEB și HTML ............................................................................................... 47
1.3.1. Introducere.......................................................................................................... 47
1.3.2. Concepte fundamentale în HTML ...................................................................... 47
1.3.3. Structura unui document HTML ........................................................................ 48
1.4. Baze de date............................................................................................................... 54
1.4.1. Introducere.......................................................................................................... 54
1.4.2. Tipuri de modele de baze de date ....................................................................... 55
1.4.3. Concepte privind bazele de date ......................................................................... 56
1.4.4. Sisteme de gestiune a bazelor de date ................................................................ 57
1.4.5. Obiectivele unui SGBD ...................................................................................... 57
1.4.6. Microsoft Access ................................................................................................ 58
1.5. Achiziţia şi prelucrarea imaginilor medicale ............................................................. 61
1.5.1. Introducere.......................................................................................................... 61
1.5.2. Prelucrarea imaginilor ........................................................................................ 62
1.5.3. Etapele prelucrării imaginii ................................................................................ 63
1.5.4. Caracteristici globale pentru pixelii dintr-o imagine .......................................... 64
1.5.5. Procesări ale imaginii ......................................................................................... 65
1.5.6. Domenii de utilizare ........................................................................................... 67
1.6. Achiziţia şi prelucrarea semnalelor biologice ........................................................... 69
1.6.1. Conceptul de semnal........................................................................................... 69
1.6.2. Eşantionare în timp şi amplitudine ..................................................................... 71
1.6.3. Semnale biomedicale .......................................................................................... 73
1.6.4. Metode de analiză în domeniul timp .................................................................. 74
1.6.5. Metode de analiză în domeniul frecvenţă ........................................................... 83
1
Informatică Medicală și Biostatistică
2
Informatică Medicală și Biostatistică
INFORMATICĂ MEDICALĂ
3
Informatică Medicală și Biostatistică
4
Informatică Medicală și Biostatistică
5
Informatică Medicală și Biostatistică
7
Informatică Medicală și Biostatistică
9
Informatică Medicală și Biostatistică
10
Informatică Medicală și Biostatistică
11
Informatică Medicală și Biostatistică
Capitolul final este cel al referinţelor textului lucrării se fac menţionând între
bibliografice (BIBLIOGRAFIE) în care paranteze rotunde numele primului autor şi
menţionăm numele tuturor articolelor din anul de apariţie. În situaţia în care pentru un
care au fost preluate idei, rezultate, imagini. autor sunt citate mai multe lucrări publicate
Lista referinţelor conţine pentru fiecare în acelaşi an, după precizarea anului este
lucrare menţionată în text numele autorilor, menţionată şi o literă, în ordine alfabetică
titlul articolului, numele revistei sau cărţii, după momentul apariţiei.
anul apariţiei precum şi paginile din lucrare.
Lista bibliogafică finală se face în ordine
În figura 1.1.6. este exemplificată o astfel alfabetică după primul autor. Conţinutul
de indicare. Există două mari variante de listei pentru ficare lucrare are aceleaşi rigori
indicare a referinţelor bibliografice. Varianta ca la cazul prezentat anterior. Care este
din figura 1.1.6. foloseşte pentru construirea avantajul acestei variante? În cazul adăugării
tabelului ordinea menţionărilor din articol. unei noi referinţe este foarte uşoară
Pentru acest tip de listă referinţele din text introducerea ei, căci nu mai avem de
sunt precizate cu numere încadrate între translatat toate numerele referinţelor din
paranteze drepte. Deci lista din tabelul final lucrare. Tabelul final al referinţelor se
este organizată în ordinea menţionării în modifică prin adaugarea corespunzătoare în
articol. Dezavantajul principal la acet tip de poziţia literei primului autor a noii lucrări.
listă apare atunci când trebuie să mai înserăm Avantajul acestei variante este evident, dar
o lucrare, fapt ce duce la schimbarea nu autorul articolului îşi alege varianta, ci
numerotării referinţelor. O variantă mai uşor editura impune tipul de referinţă.
de utilizat este cea în care lista finală este
Figura 1.1.7. ne prezintă imaginea de
ordonată alfabetic. Referinţele în cadrul
ansamblu a unui articol ştiinţific
13
Informatică Medicală și Biostatistică
14
Informatică Medicală și Biostatistică
Cine dă comenzile? Programul, care este curând, mai ales de noile tehnologii ce vor
alcătuit din instrucţiuni, fiecare instrucţiune reconsidera mişcarea mecanică (la nivel de
fiind câte o comandă pentru calculator. nanotehnologii).
Programul se află în memoria calculatorului
iar instrucţiunile lui sunt executate pe rând,
prelucrându-se în acest fel datele 1.2.2. Schema de organizare şi
(informaţia). Să reţinem că datele se află în funcţionare a unui calculator numeric
aceeaşi memorie cu programul.
Cine scrie programul? Omul şi numai el. Majoritatea calculatoarelor numerice
Chiar dacă suntem depăşiţi la viteza de realizate până în prezent funcţionează
calcul, la programare suntem de neînlocuit. conform principiului comenzii după
Ne înţelege limbajul nostru calculatorul? Nu, program (publicat de John von Neumann în
din păcate, deocamdată este necesar să "First Draft of a Report on the EDVAC," în
învăţăm noi limbajul de programare al 1945), în care atât programul cât şi datele
calculatorului, adică semnificaţia sunt înmagazinate în aceeaşi memorie, în
instrucţiunilor ce el le poate executa. formate similare.
Calculatorul a fost dintotdeauna aşa cum
este astăzi? Nu, deşi a avut dintotdeauna ca
sarcină efectuarea de calcule, el a suferit un
proces continuu de transformare. De la un
instrument mecanic (vechile abace sau
numarători), la instrumente electrice (maşini
electrice de calcul, în care motoare electrice
roteau discuri mecanice ce realizau
calculele), la calculatoare electronice (care
efectuiază calculele fără deplasări mecanice,
folosind mişcarea electronilor din tuburile Figura 1.2.2. Schema generală a unui
electronice, tranzistoare, circuite integrate). calculator (dupa von Neumann, 1946)
atenţie etapele pe care le parcurge un elev (cursor) pe ecran. La apăsarea unuia dintre
aflat la momentul abc-ului aritmeticii: butoanele sale, mouse-ul trasmite o comandă
catre calculator. Interpretarea comenzii este
1. Copilul repetă enunţul problemei (doi
legată de poziţia în care se află indicatorul.
şi cu trei faaaac...). În această etapă nu se
În acest fel pe ecran pot fi afişate comenzi
face altceva decât aducerea în aceeaşi
(sub formă de liste sau de desene), lansarea
memorie a datelor (2 şi 3) şi a programului
unei comenzi făcându-se prin ducerea
(adunare).
indicatorului mouse-ului peste simbolul ei şi
2. Pentru găsirea răspunsului copilul apăsarea butonului corespunzător de pe
apelează la un mic ajutor, de exemplu duce mouse.
mâinile la spate şi socoteşte repede pe
• Scanner-ul. Dispozitiv ce asigură
degete. Este exact etapa în care datele sunt
transferul de imagini fotografice în
transferate din memorie în unitatea de calcul,
calculator. Înainte de memorare este
este efectuat calculul, după care rezultatul
necesară transformarea imaginii într-un set
este memorat.
de numere (digitizare).
3. Copilul enunţă rezultatul calculului (...
• Aparatul de fotografiat numeric. Aparat
cinci). Este faza finală, în care prin
de fotografiat ce stochează imaginile în
intermediul blocului de ieşire ne este
format numeric (şiruri de numere întregi)
prezentat rezultatul. Iată că nu suntem
sub formă de fişiere.
departe de funcţionarea unui calculator.
• Camera digitală de luat vederi. Cameră
Să plecăm de la acest simplu exemplu şi
de luat vederi capabilă să digitizeze
să vedem mai în detaliu la ce serveşte fiecare
(transforme în numere) imagini cu subiecţi
bloc în parte.
în mişcare şi să le transfere în memoria
Blocul de intrare calculatorui, fără pierderi sesizabile de
Este poarta prin care programul şi datele informaţie şi cu păstrarea senzaţiei de
pătrund în memoria calculatorului, dirijate mişcare.
de blocul de comandă şi control. Blocul de • Placa de sunet dotată cu microfon.
intrare are rolul de a transforma şi codifica Poate servi pentru a aduce sub formă
informaţia, astfel încât aceasta să se numerică a sunetului într-un calculator.
încadreze în formatul general de memorare,
Blocul de ieşire
pentru a putea fi dirijată de unitatea de
comandă şi control către blocul de memorie. Este poarta prin care calculatorul ne
Dispozitivele ce sunt utilizate pentru a prezintă rezultatele calculelor sale. Blocul de
introduce informaţii în calculator poartă ieşire este folosit şi pentru controlul vizual al
numele de periferice de intrare şi includ: introducerii corecte a informaţiei de intrare.
Blocul de ieşire are rolul de a transforma
• Tastatura (figura 1.2.15). Asigură prin
informaţia memorată şi de a o prezenta
apăsarea unor butoane (taste) transmiterea de
utilizatorului într-un format inteligibil.
litere, cifre, comenzi către blocul de
Dispozitivele ce intră în această categorie
comandă şi control.
poartă numele de periferice de ieşire şi
• Mouse-ul sau şoarecele (figura 1.2.16). includ:
Este dispozitivul ce a revoluţionat dialogul
• Monitorul (display-ul). Asigură
dintre utilizator şi calculator. Mişcarea lui pe
prezentarea către utilizator a rezultatelor, sub
masă duce la deplasarea unui indicator
formă de imagine, pe o suprafaţă ce poate
16
Informatică Medicală și Biostatistică
schimba dinamic informaţia (clasic tub dimensiunea memoriei interne este limitată
cinescop, în prezent suprafaţă cu cristale la o valoare maximă impusă de producătorul
lichide, plasmă). Datorită acestei propietăţi calculatorului. Memoria externă are ca
constituie şi consola de afişare a comenzilor sarcină arhivarea informaţiei, având
date calculatorului, vechile console în care caracteristica principală nevolabilitatea.
comenzile erau înregistrate pe hârtie fiind de Denumirea de externă este legată de faptul că
mult abandonate. este utilizat un suport extern de informaţie,
un suport nevolatil. Suportul extern cel mai
• Imprimanta. Este dispozitivul ce asigură
utilizat în prezent este cel magnetic. Un alt
transferarea pe hârtie a informaţiei stocate de
suport şi el cu o largă răspândire este cel
memoria calculatorului. Putem clasifica
optic (cuvântul optic vine de la faptul că
imprimantele în funcţie de: modul de
informaţia se citeşte optic). Ambele tipuri de
tipăririe (impact, jet de cerneală sau laser),
suport necesită pentru acces deplasarea
posibilităţile cromatice (alb-negru sau
mecanică a unui cap de scriere/citire, deci
color), posibilităţile grafice, dimensiunile
necesită un timp de acces (zeci de
suprafeţei hârtiei.
milisecunde) mult mai mare decât în cazul
• Placa de sunet dotată cu difuzoare. Este memoriei electronice. Atenţie, pentru a fi
dispozitivul prin care calculatorul poate atât prelucrată, informaţia găzduită de memoria
oferi semnale acustice simple sau sintetiza externă, trebuie mai întâi adusă în memoria
sunete complexe, cât şi achiziţiona sunete, internă! Acest lucru ne îndreptăţeşte să
prin transformarea lor în şiruri de numere. încadrăm memoria externă în categoria
Pare ciudat, placa de sunet este atât bloc de perifericelor calculatorului. A apărut şi un tip
intrare cât şi de ieşire? Da, acelaşi modul rapid de memorie externă, statică (din
asigură funcţii ce apaţin de blocuri diferite. circuite electronice), ce asigură memorarea a
Blocurile descrise mai jos alcătuiesc cantităţi mari de informaţie şi care nu e
unitatea centrală (figura 1.2.2) şi sunt: volatilă. O considerăm în continuare
memorie externă pentru modul în care este
Blocul de memorie accesată.
Este locul în care calculatorul stochează Blocul de calcul aritmetic şi logic
informaţia. Aici vor fi găzduite, într-un
format similar atât programul cât şi datele ce Este singurul modul capabil să genereze
urmează a fi prelucrate. Trebuie să reţinem informaţie nouă. Sub supravegherea blocului
faptul că există două tipuri de memorie, o de comandă şi control, atunci când
memorie internă (care este cea care ajută la programul o cere, datele sunt transferate din
aplicarea principiului comenzii după memorie şi asupra lor se efectuiază calculul
program) şi una externă, care măreşte dorit.
capacitatea de stocare. Memoria internă este Blocul de comandă şi control
formată din circuite electronice (motiv
Este locul din care se dau toate comenzile
pentru care nu poate stoca informaţia decât
şi care controlează buna funcţionare a
atâta timp cât este alimentată cu energie
întregului calculator. Blocul de comandă şi
electrică), are un timp mic de acces (putem
control este capabil să înţeleagă comenzile
citi sau scrie informaţia într-un timp de
din programul memorat şi să aleagă pentru
ordinul nanosecundelor). Memoria internă
executare blocul necesar, căruia să-i trimită
este adresabilă, adică este formată din celule
semnalele şi datele corespunzătoare. Pentru
la care putem avea acces direct. Fiind
aplicarea principiului comenzii după
formată din circuite electronice,
17
Informatică Medicală și Biostatistică
18
Informatică Medicală și Biostatistică
atâta timp cât calculatorul le poate rula în ce îl compun. Putem include în structura
paralel programele. Singura problemă este să chiar şi cutia în care se află circuitele
li se ofere console separate (nu putem lucra electronice. Ştim cum arată în prezent o un
eficient cu aceeaşi tastatură mai utilizatori). calculator personal clasic (fig.1.2.1), mai
Acest lucru este posibil, blocul de intrare există oare în prezent calculatoare de
putând fi divizat, având în vedere viteza mult dimensiunea ENIAC-ului (fig.1.1.1)? Poate
mai mică la care introduce date un utilizator răspunsul o să dezamăgescă, da, chiar dacă
faţă de viteza de lucru a calculatorului. suntem în era miniaturizărilor mai există şi
Atunci când mai multi utilizatori folosesc calculatoare mari.
simultan acelaşi calculator spunem că se
Acestea poartă numele de mainframe-uri
lucrează în sistem multiuser. În mare, putem
sau supercomputere (figura 1.2.3) şi îşi
spune că am înţeles că un calculator este un
justifică dimensiunile prin capacităţi imense
sistem complex, ce poate efectua calcule, că
de stocare a datelor, precum şi viteze
aceste calcule sunt rezultatul executării unor
impresionate de calcul. Miniaturizarea
instrucţiuni, instrucţiuni pe care le
(fig.1.2.4) însă îşi spune cuvântul,
recunoaşte şi le execută blocul de comandă
dimensiunile pentru calculatorului personal
şi control. Prin înlănţuirea de instrucţiuni se
scad mereu (cu creşterea continuă a
pot întocmi programe cu ajutorul cărora
performanţei!), anumite componente fiind
putem rezolva diverse probleme. Rezolvarea
însă limitate la dimensiuni minime pentru a
efectivă a unei probleme presupune aducerea
putea fi folosite (exemplu tastatura).
în memoria internă a calculatorului atât a
programului cât şi a datelor şi apoi
executarea programului. Aducerea în
memorie a programului şi a datelor înseamnă
de fapt aducerea în memorie a informaţiei şi
procesarea ei. Cum putem memora date
nenumerice, adică informaţie vom vedea în Figura 1.2.4. Calculatoare portabile, stânga
paragraful următor. laptop, dreapta palmtop
Trebuie să subliniem în concluzie şi
faptul că pentru rezolvarea problemelor am
utilizat o structură fizică, palpabilă (numită Să incercăm să descoperim fizic
hardware) şi programe, diferite, specifice. elementele ce compun un calculator.
Această parte poarta numele de software şi Calculatoarele portabile sunt în interior
este partea care face util calculatorul. compacte aşa că vom alege pentru studiul
După ce vom lămuri modul în care putem nostru, calculatorul personal clasic, cel care
reprezenta numeric informaţia vom continua poate fi relativ uşor desfăcut pentru analiză.
cu analiza atât hardware-ul cât software-ul şi Să privim din nou figura 1.2.1. În limbajul
abia atunci vom înţelege mai bine curent înţelegem prin unitate centrală, cutia
calculatorul. care rămâne dintr-un calculator, după ce
înlăturăm, tastatura, mouse-ul, difuzoarele,
uneori monitorul. De ce uneori monitorul?
1.2.3. Structura hardware a unui calculator De multe ori, cutia monitorului găzduieşte şi
unitatea centrală – aceste sisteme se numesc
calculatoarea „All-in-one” (AIO).
Prin hardware-ul unui calculator
Cutia rămasă adăposteşte cea mai mare
înţelegem totalitatea circuitelor electronice
parte a calculatorului (figura 1.2.5), inclusiv
19
Informatică Medicală și Biostatistică
blocul de comandă şi control . Această cutie unităţii centrale ne oferă acces la unitatea
oferă o serie de conectoare, prin care cuplăm optică (CD-compact disc sau DVD-
monitorul, tastatura, mouse-ului, videodisc), la unitatea de disc flexibil, şi la
imprimanta, precum şi alte periferice butonul de pornire al calculatorului (pe care
speciale. În varianta clasică panoul frontal al le găzduieşte).
20
Informatică Medicală și Biostatistică
21
Informatică Medicală și Biostatistică
22
Informatică Medicală și Biostatistică
Capacitatea curentă de memorare, pentru fiabilitate a datelor. Unul din aceste medii
un disc dur, este în continuă creştere, este cel optic. În prezent discul optic poate
dimensiuni de TB fiind curente. Discul dur prezenta varianta disc compact (CD), sau
este un sistem complex, electronic şi disc video (DVD) sau disc BlueRay. În
mecanic ce poate arhiva informaţia, folosind figura 1.2.12 este prezentat un disc optic
discuri magnetice. În prezent datorită pentru a i se vedea dimensiunea şi forma.
creşterii vitezei de lucru a calculatoarelor,
Modalitatea de scriere a datelor pe un
clasicul disc dur este înlocuit cu un disc ce
astfel de disc, este prin perforare (la
nu mai are piese în mişcare şi deci este mult
dimensiuni invizibile ochiului uman) cu
mai rapid, SSD-ul (Solid State Drive)!
fascicole laser. Citirea se face tot cu raze
Unitatea de disc este locul în care un laser, prin reflexie (în locurile perforate
calculator reţine programele şi datele reflexia nemaiavând loc). Din acest motiv
curente. Sistemul de operare este setul de folia metalică pe care a fost înscrisă
programe absolut necesar în utilizarea informaţia trebuie să nu fie acoperită de
simplă şi eficientă a calculatorului şi care se medii opace (etichete). Pentru protecţia
află memorat pe discul dur. De ce pe discul mecanică folia metalică este prinsă între
dur? Pentru că până în prezent discul dur s-a două discuri din plastic transparent. Pe faţa
dovedit memoria externă cea mai rapidă în fără date pot fi inscripţionate etichete, se
ceea ce priveşte citirea sau scrierea datelor. poate scrie cu tuşuri speciale, se pot lipi
În acelaşi timp capacităţile de stocare sunt etichete speciale, toate însă cu respectarea
suficient de mari pentru a face faţă situaţiilor echilibrului dinamic al discului.
curente.
Dezvoltate pentru asigurarea stocării
imaginilor în camere de fotografiere digitală,
cardurile de memorie (SD, mini SD,
microSD) s-au dovedit foarte utile şi
transferului de informaţie între calculatoare.
Uzual, în acest moment transferul de date
între calculatoare se face cu ajutorul stick-
urilor de memorie (Figura 1.2.11). Citirea
sau scrierea lor se face prin intermediul
porturilor USB (Universal Serial Bus - o cale Figura 1.2.12. Disc optic
serială standardizată, de acces rapid spre
calculator). Odată introdus în unitatea de disc optic
este rotit cu viteze destul de mari şi
dezechilibrarea lui poate duce la ruperea în
bucăţi prin acţiunea forţei centrifuge.
Discurile compact sunt de trei feluri:
-CD/ DVD - discuri ce nu pot fi decât
citite, scrierea lor fiind făcută cu dispozitive
Figura 1.2.11. Stick de memorie speciale de tipărire în tiraj mare;
24
Informatică Medicală și Biostatistică
foarte mare, existând chiar şi adaptoare economic). Deşi tot mai performate (stereo,
pentru conectoare seriale sau paralele zgomot acceptabil), funcţiile integrate în
clasice. placa de bază sunt departe de a satisface
necesităţile studiourilor de înregistrare.
Deoarece în funcţionare calculatorul are
Pentru aceste aplicaţii speciale există plăci
nevoie monitor, de multe ori placă de bază
de sunet speciale (la preţuri speciale) ce
integrează şi funcţia de placă video. Ce face
transformă calculatorul într-un performant
de fapt placa video? În primul rând preia
studio de înregistrare, care folosind puterea
datele din memoria microprocesorului şi le
de calcul, transformă voci comune în voci
pregăteşte, într-o memorie proprie, sub
superbe. Variante la preţuri rezonabile
formă de puncte de afişat pe monitor. În mod
pentru plăci de sunet performante au fost
permanent memoria proprie este parcursă de
create şi pentru melomanul curent. Acestea
placa video, transformată în semnal video şi
sunt capabile să ofere şi sunet pe cinci
trimisă către monitor pritr-un cablu exterior.
canale, aşa cum este înregistrat pe
Memoria plăcii video este legată direct de
videodiscuri, iar fidelitatea şi zgomotul
numărul de puncte (pixeli) ce vor fi afişate şi
redus le fac să fie preferate de melomani. În
de posibilităţile cromatice dorite.
cazul plăcilor de sunet nu întâlnim problema
Există plăci de bază ce integrează şi de la plăcile video integrate, placa de sunet
funcţia de placă video, deosebit de atractive independentă poate fi pusă în orice
ca preţ. Preţul este scăzut şi datorită faptului calculator.
că nu mai este necesară o memorie video
Tot mai des placa de sunet se foloseşte
separată, fiind utilizată o parte din memoria
combinată cu o cameră de luat vederi. Au
internă a calculatorului. Soluţia este foarte
apărut aşa numitele Webcam, camere video
bună, mai ales atunci când sistemul de calcul
ieftine, de rezoluţii mulţumitoare, ce asigură
este utilizat pentru birotică, calcule
transmiterea prin reţele de calculatoare a
ştiinţifice, baze de date şi orice alte aplicaţii
imaginilor. Se pot realiza în acest fel
(inclusiv vizionarea de filme sau ascultarea
videoconferinţe (netmeeting), asigurându-se
de muzică), mai puţin jucarea de jocuri cu
într-un mod ieftin dialoguri la distanţă.
grafică 3D de ultimă generaţie.
Camerele video pentru calculator se pot
Încă de la prima lor apariţie conectează prin intermediul conexiunii USB
calculatoarele personale au fost echipate cu sau (mai rar în prezent) prin plăci speciale de
difuzor, prin care să poate emite sunete de achiziţionat semnal video (cu care se poate
avertizare. Bătrânul difuzor este prezent şi în folosi orice cameră video).
prezent, dar pentru sunet calculatoarele
Televiziunea nu putea să rămână uitată de
actuale sunt echipate cu plăci ce pot sintetiza
calculator, pentru vizionarea canalelor TV,
sunete reale, transformând oricând sistemul
există plăci specializate. Acestea ne oferă un
de calcul într-un performant sistem audio
televizor performant pe ecranul
(care utilizează difuzoare externe). Fiind o
calculatorului, ce poate fi comandat prin
funcţie cerută de toţi utilizatorii, cele mai
intermediul unei telecomenzi sau cu ajutorul
multe plăci de bază integrează şi placa de
mouse-ului.
sunet. Placa de sunet este capabilă să preia
semnalul de la microfon şi să îl Ampla răspândire a sistemelor de calcul
achiziţioneze. Acestă funcţie face să existe s-a datorat şi posibilităţii conectării în reţele
aplicaţii prin care să se poată dialoga cu şi accesului la resursele unor alte
calculatorul (sau cu alte calculatoare dintr-o calculatoare. Pentru a realiza conectarea este
reţea realizându-se un sistem telefonic foarte necesar să respectăm standarde atât la nivel
25
Informatică Medicală și Biostatistică
fizic (conectoare, tipuri de cabluri), cât şi la Spre exemplu tasta Enter care serveşte fie la
nivel logic (protocoale necesare realizării lansarea în execuţie a unei comenzi, după ce
comunicaţiei). Respectarea tuturor acestor a fost tastată sau selectată, fie la trecerea la
cerinţe este realizată fie prin placa de reţea, un rând nou atunci când este folosită în
fie prin utilizarea unui modem (dispozitiv ce editarea de texte. Tasta Tab, poate fi utilizată
realizează procesul de modulare/demodulare la introducerea de spaţii într-un text sau la
necesar transferului informaţiei). deplasarea cursorului de scriere la o rubrică
nouă, într-un formular. În această categorie
Avand în vedere faptul ca numărul
putem include tastele funcţionale (F1, F2,
aplicaţilor calculatorului este în continuă
...F12) în care comenzile asociate depind de
creştere nu vom putea spune niciodată că am
programul în care sunt folosite (de regula F1
epuizat descrierea tipurilor plăcilor dintr-un
fiind alocată cereriii de explicaţii la utilizarea
calculator, aşa că suntem nevoiţi să lăsăm
unui program). Putem da şi un exemplu de
deschis acest subiect.
tastă ce în timp şi-a modificat rolul. Este
vorba de Print Screen. În sistemul de operare
MS DOS apăsarea acestei taste ducea la
tipărirea pe hârtie a conţinutului ecranului.
Acum, sub sistemul de operare Windows,
tasta declanşează copierea imaginii de pe
ecran într-o zonă de memorie (Clipboard),
din care poate fi transferată (cu comanda
Paste) în orice program ce acceptă inserarea
Figura 1.2.15. Tastatură QWERTY de imagini. Atunci când am început o
Să vedem acum ce se află în exteriorul comandă şi dorim să renunţăm la ea (nu la
unităţii centrale. Ca principal periferic de efectul ei!) este de multe ori suficient să
intrare vom găsi tastatura. Cu o istorie apăsăm (uneori repetat) tasta Esc (Escape).
respectabilă (Sholes, 1878), tastatura Renunţarea la unele caractere scrise se poate
QWERTY (nume ce provine de la face utilizând tasta Delete (Del), care şterge
dispunerea primului rând de taste litere, caracterul de după cursorul de scriere. Tasta
figura 1.2.15) continuă să însoţească orice Backspace are un rol similar, ştergând
calculator. caracterul din faţa cursorului de scriere. Deci
în funcţie de poziţia cursorului de scriere
Deşi pare un dispozitiv inofensiv
alegem tasta potrivită. Pentru deplasarea
tastatura solicită intens articulaţiile degetelor
cursorului de scriere putem utiliza tastele
precum şi a mâinilor.
săgeţi sau pentru deplasări mai mari tastele:
Fiecare tastă are în general 2 caractere Home, End, Page Up, Page Down. Pentru
ataşate (în cazul literelor litere mari sau stabilirea regimului de lucru al tastaturii
mici), al doilea caracter obţinându-se prin există tastele Caps lock, Num lock şi Insert.
apăsarea împreună cu tasta Shift. Există şi Caps lock acţionează doar asupra tastelor
taste ce nu au ataşate caractere, acestea litere stabilindu-le registrul (litere mari
servind la stabilirea regimului de lucru al atunci când Led-ul corespunzător este aprins
tastaturii, la mărirea numărului de caractere sau mici atunci când este stins). Tasta este cu
ataşate unei taste, la lansarea unor comenzi, memorie, apăsarea succesivă anulând efectul
la deplasarea cursorului, la lansarea de apăsării anterioare. Tot o tasta cu memorie
comenzi. Există taste ce au roluri diferite, este şi Num lock. Aceasta stabileşte regimul
funcţie de programul în care sunt folosite. de lucru (numere sau săgeţi) pentru zona de
26
Informatică Medicală și Biostatistică
taste numerice din dreapta tastaturii. Cu tasta inscripţionate literele ă, î, â, ş, ţ. Cum pentru
Insert stabilim dacă putem insera (sau scrie scrierea în limba română sunt necesare
prin înlocuire) un caracter nou într-un şir de aceste caractere sistemul de operare
caractere. Windows a stabilit o inscripţionare specială
pentru Romania a tastelor (diferenţele între
Tastaturile existente în România, în
cele două tipuri de tastaturi sunt date în
prezent, sunt în cea mai mare parte tastaturi
tabelul 1.2.1).
ce satisfac alfabetul englez şi care nu au
Tabel 1.2.1. Diferenţe între tastatura engleză şi cea română
Tastatura Tastatura Tastatura Tastatura Tastatura Tastatura
americană română americană română americană română
[ ă : Ş ` ]
] î “ Ţ ~ [
\ â , , ! !
; ş < ; @ “
‘ ţ . . # #
{ Ă > : $ ¤
} Î / - % %
| Â ? _ ^ &
y z z y - +
& / ( ) _ ?
* ( ) = = ‘
+ *
27
Informatică Medicală și Biostatistică
cromatice. Datorită programelor tot mai conectare fără fir, ce este destinată în primul
complexe cu tot mai multe comenzi rând calculatoarelor portabile. De regulă
dimensiunea ecranului este în creştere pentru o astfel de imprimantă comunicaţia se
continuă, în prezent dimensiuni de peste 20” realizează prin unde radio sau în infraroşu.
fiind curente. În ceea ce priveşte rezoluţia
Imprimanta matriceală a rămas singura
aceasta poate avea valorile: 460x680;
imprimantă de impact ce se mai foloseşte în
800x600; 1024x768; 1280x960, 1280x1024.
prezent. Imaginea este realizată din puncte,
Rezoluţiile cele mai folosite la momentul fiecare punct fiind urma lăsată de o panglică
actual sunt: tuşată ce este lovită de niste pistoane fine
(ace). Dispozitivul (capul) de scriere posedă
-High Definition (HD, 720p) - 1280 x 720
un numar limitat de ace (9 dispuse pe o
-Full HD (FHD, 1080p) – 1920 x 1080 coloană, pentru imprimantele comune sau 24
-Widescreen Ultra Extended Graphics dispuse pe trei coloane, pentru imprimantele
Array (WUXGA) – 1920 x 1200 de calitate), motiv pentru care este necesar să
fie deplasat mecanic pe orizontală, pentru a
-Ultra HD (UHD, 4K) - 3840 x 2160 acoperi fiecare rând ce i se aduce spre
-"Cinema" 4K 4096 x 2304 4K tipărire. Aducerea rândurilor este realizată
prin deplasarea hârtiei. Imprimantele
Un alt mod de apreciere a calităţii matriceale se mai folosesc în prezent doar în
monitorului este măsurarea distanţei dintre situaţiile în care este necesară tipărirea unui
punctele ce pot fi afişate pe unitatea de original şi a mai multor copii indigo. Alături
lungime (dot pitch) Monitoarele de azi sunt de preţul mic al panglicii tuşate, acest avantaj
în general color, monitoarele monocrome ne face să acceptăm viteza mică de tipărire şi
fiind destul de rare. Imaginea pe ecran se zgomotul mare făcut.
formează prin afişări succesive la viteze mai
mari decât poate sesiza ochiul uman. Cu cât Imprimanta termică are un princiu
rata de reînprospătare (refresh) este mai mare apropriat de imprimanta matriceală,
cu atât ochiul oboseşte mai puţin. imaginea fiind realizată tot din puncte. În loc
de impact impresionarea fiecărui punct se
Dacă dorim să tipărim pe hârtie face prin incălzire, hârtia utilizată find
perifericul necesar este imprimanta (printer- specială (termosensibilă). Pe orizontală nu
ul). Nu este obligatoriu ca fiecare calculator avem deplasare, întregul rând fiind acoperit
să aibă o imprimantă, în reţelele de de pastile de scriere. Singura mişcare este
calculatoare o aceeaşi imprimantă poate fi cea verticală, efectuată de hârtie. Sistemul
utilizată în comun. Atunci cand nu avem o este foarte des folosit la casele de marcat din
imprimantă putem transporta informaţia, magazine. Deoarece hărtia rămâne
utilizând un mediu nevolatil, la un calculator termosensibilă şi după impresionare, orice
cu acces la o imprimantă. În funcţie de sursă de căldură poate compromite întreaga
principiul constructiv o imprimantă poate fi: imagine, aşa că, pentru arhivare este bine să
matriceală, termică, cu jet de cerneală sau realizăm o copie prin alt sistem. Avantajul
laser. Indiferent de tip, orice imprimantă este acestui tip de imprimantă este dat de
caracterizată prin: viteză de tipărire, calitate simplitate (mecanica asigură un singur tip de
de tipărire, materialele consumabile. În deplasare) şi de silenţiozitate.
prezent imprimanta se conectează la
calculator prin portul USB. Trebuie să Imprimanta cu jet de cerneală este
menţionăm şi existenţa modalităţii de imprimanta ideală datorită preţului accesibil
şi a calităţii bune de tipărire. Punctele ce
28
Informatică Medicală și Biostatistică
30
Informatică Medicală și Biostatistică
este motivul pentru care programatorii litere mari + 26 litere mici), plus semnele
folosesc baza 16 în scriere de programe. speciale. Vedem că numarul de ranguri
creşte şi cum este bine să alegem valori
Cunoaştem cu toţii că prelucrarea
multiplu de opt ne vom putea opri chiar la
informaţiei înseamnă nu numai obţinerea de
opt ranguri binare, adică 256 de combinaţii.
rezultate pentru calcule, ci şi texte sau
Este prea mult? Este suficient? Faptul că este
imagini. Cum poate calculatorul reprezenta
suficient e certificat de American Standard
litere când el lucrează doar cu numere?
Code for Information Interexchange, pe
Foarte simplu, singura cerinţă pe care trebuie
scurt ASCII, care codifică toate simbolurile
să o asigure este aceea de a pune la dispoziţie
necesare unui calculator într-o tabelă unică,
suficiente ranguri binare pentru ca numărul
standard universal pentru fiecare
de combinaţii posibile (acel 2n) să acopere
programator.
toate semnele ce dorim să le reprezentăm.
Apoi un mod de codificare va pune în
legătură (în mod unic) câte o combinaţie 1.2.5. Notiunea de fişier şi de director
binară pentru fiecare simbol dorit.
31
Informatică Medicală și Biostatistică
consultat. Cum un calculator nu face altceva (separată de nume prin caracterul punct),
decât să prelucreze informaţia, este necesar care ne codifică tipul de fişier. Codificarea
să folosească şi el o modalitate prin care să o ne este necesară pentru a şti cu ce program
grupeze, să o poată regăsi mai uşor. să deschidem (citim) fişierul. Dacă la cărţi,
Termenul care a fost adoptat în limba operaţia de deschidere înseamnă ridicarea
română pentru a grupa informaţia ce descrie copertei, la fişier deschiderea înseamnă
un anume subiect a fost fişier. Atenţie, deşi decodificarea modului în care a fost pusă
fişierul din calculator există pentru a regăsi informaţia, proprie fiecărui program în parte
uşor informaţia să nu-l confundăm cu fişierul (funcţie şi de specificul programului).
de la bibliotecă (care de fapt este un dulap Trebuie să spunem acum şi faptul că nu toate
plin cu fişe), în care găsim numele tuturor fişierele sunt destinate lecturii umane (aşa
cărţilor din bibliotecă, cu locul în care se cum sunt cărţile). Multe sunt destinate
află! Sunt noţiuni diferite, fişierul din “lecturii” făcute de calculator. Este cazul
calculator este echivalentul cărţii din programelor executabile, care sunt fişiere ce
bibliotecă! Ca şi o carte, pentru a fi citit, un spun calculatorului cum să rezolve ceva.
fişier trebuie deschis. Această operaţie nu Vom cunoaşte aceste fişiere prin extensia pe
poate fi făcută decât cu calculatorul, prin care o au (exemple: exe, com, bat).
aducerea în memoria lui internă. După
consultare fişierul trebuie închis şi pus
undeva, de unde să poată fi citit şi alta dată,
undeva unde să nu dispară. Acest loc, pentru
calculator, este memoria externă, memorie
care depune informaţia pe suporturi
nevolatile. Pe lângă faptul că sunt nevolatile,
suporturile externe de informaţie au şi
avantajul de a fi transferabile între
calculatoare. În prezent suportul cel mai
utilizat este discul. Acesta poate fi magnetic
sau optic, după modalitatea prin care Figura 1.2.17. Structură arborescentă
memorează informaţia.
Ca o concluzie putem defini fişierul Cu toţii ştim că într-o bibliotecă există o
(informatic, folosit de calculator) ca forma organizare riguroasă a aşezării pe raft a
sub care regăsim informaţia, pe un suport cărţilor. O astfel de organizare este necesară
nevolatil. Din punct de vedere al conţinutului atunci când numărul de cărţi este mare. În
fişierul este în general omogen, atât ca situaţia în care numărul de cărţi este mic,
organizare cât şi ca informaţie. Pentru pentru a căuta o carte se pot citi secvenţial
identificare, asemănător cărţilor, fişierul are numele până se găseşte cartea dorită. Iniţial
un nume. Spre deosebire de numele de carte, aceasta a fost situaţia şi pentru calculatoare,
numele de fişier se supune unor restricţii suportul extern de informaţie nu putea
(mai mici sau mai mari, în funcţie de memora foarte multe fişiere (datorită unei
generaţia de calculatoare) privind numărul capacităţi relativ scăzute), căutarea pe suport
de caractere, felul lor (litere mari, litere mici, fiind uşor de făcut. Evident că organizarea
cifre, semne speciale). De asemenea, numele era la nivelul arhivei de suporturi magnetice
fişierului are ceva în plus faţă de numele de (ce putea fi organizată în maniera unei
carte, are aşa numita extensie. Este o biblioteci). Cu trecerea timpului capacitatea
terminaţie, de cel mult trei caractere
32
Informatică Medicală și Biostatistică
33
Informatică Medicală și Biostatistică
un fişier este necesar să descriem unitatea de oferit spre citire dar nu şi spre modificare se
disc pe care se află, care este calea (lanţul de utilizează atributul Read only. Un fişier cu
directoare) de la rădăcina discului până la acest atribut nu poate fi şters!
directorul în care se află şi în final numele
Din pacate toate aceste atribute pot fi uşor
fişierului. Toate aceste informaţii se pot
modificate, aşa că protecţia cea mai bună o
înşirui într-o scriere în care caracterul
constituie ţinutul în sertar.
backslash este separatorul.
34
Informatică Medicală și Biostatistică
35
Informatică Medicală și Biostatistică
36
Informatică Medicală și Biostatistică
37
Informatică Medicală și Biostatistică
nume. Acele nume ce sunt încadrate între Comanda scrisă cu adresare directă este:
paranteze drepte sunt nume de directoare,
copy c:\alfa\*.txt a:\
restul nume de fişiere.
Problema 3. Să se genereze directorul
DEL [d:\][cale\]nume_fisier - şterge
lecţii derivat din directorul alfa ce există şi
fişierul cu numele nume_fisier. derivat din
derivă din rădăcina discului c:.
ultimul director scris în parametrul cale, de
pe discul d:. Dacă parametrii din paranteze Comanda de generare este:
nu-s precizaţi se folosesc cei impliciţi. La md c:\alfa\lectii
nume_fisier poate fi folosită * sau ?.
Comanda cere confirmare în cazul ştergerii Problema 4. Să se prezinte structura
tuturor fişierelor (cazul *.* la nume_fisier). arborescentă a discului c:
COPY [ds:\][cales\]nume_fisier_sursa Comanda este:
[dd:\][caled\][nume_fisier_destinatie] - c:\> tree c:\
copiază fişierele nume_fisiers de pe discul
ds:\, din ultimul director din parametrul cales Problema 5. Să se şteargă toate fişierele
pe discul dd:\, în ultimul director din din rădăcina discului a:
parametrul caled\. sub numele nume_fisierd. Comanda este:
Dacă parametrii d:\cale\ nu sunt precizaţi, se
folosesc cei impliciţi. Dacă parametrul del a:\*.*
nume_fisierd nu e precizat, copiile păstrează Ştergerea efectivă a fişierelor este
numele avut la sursă. În numele de fişiere condiţionată de răspunsul afirmativ (Y) la
poate fi folosită * şi ?. întrebarea:
Câteva exemple All files in directory will be deleted!
Problema 1. Să se afle ce fişiere şi Are you sure (Y/N)?
directoare sunt pe discul a: - pentru a afla
este suficient să dăm comanda:
dir a:\*.* Pentru cei ce doresc să încerce comenzi
MS DOS, sistemul de operare Windows
Răspunsul dat anterior este corect pune la dispoziţie comanda cmd. Aceasta se
indiferent de forma prompterului. Dacă tastează în rubrica destinată căutării de
prompterul este a:\> atunci putem elimina informaţie (aflată permanent pe ecran sau la
din comandă locul ce urmează să fie cercetat: acţionarea butonului Start).
dir *.* Putem modifica prompterul dând
comanda a:. urmată de cd\ dacă prompterul Lansarea acestei comenzi duce la apariţia
nu devine a:\>. unei ferestre ce acceptă comenzi MS DOS.
Dacă se doreşte lucrul fără ferestre (propriu
Urmărind forma generală observăm că nu sistemului de operare MS DOS) se dă
este necesar să indicăm fişierele dorite a fi comanda Alt-Enter (apăsarea tastei Alt şi a
găsite şi să dăm comanda dir a:\ sau dir după tastei Enter). Repetarea comenzii Alt-Enter
cum este prompterul. duce la revenirea ecranului la lucrul cu
Problema 2. Să se copieze fişierele cu ferestre. Renunţarea la lucrul cu comenzi
extensia txt aflate în directorul alfa derivat MS-DOS se face prin tastarea comenzii Exit
din rădăcina discului c:. Destinaţia este şi apăsarea tastei Enter.
rădăcina discului a:
38
Informatică Medicală și Biostatistică
calculatorului, dacă nu sunt detectate erori, Open. Comenzile din meniul flotant pot fi
nu este necesar să intervenim. La finalul lansate în execuţie atât cu click pe butonul
iniţializării sistemul de operare ne invită să din stânga cât şi cu click pe butonul din
ne indicăm parola pentru a fi verificaţi dacă dreapta de pe mouse.
suntem pintre utilizatorii autorizaţi.
Suprafaţa ecranului poartă numele de
Desktop şi se comportă ca o suprafaţă de
lucru. La baza ecranului desktop-ul prezintă
bara de programe active (taskbar). Bara
prezintă, scos în evidenţă, în stânga, butonul
Start ( ). Pentru a se adapta cerinţelor
telefoanelor mobine Microsoft a încercat să
renunţe la butonul Start dar la reacţia
utilizatorilor a trebuit să îl reintroducă.
Apăsarea butonului Start duce la apariţia
meniului Start, prin care resursele
calculatorului ne sunt puse la dispoziţie.
Meniul Start oferă câteva comenzi rapide
(Power, Settings, Documents), precum şi
lista cu toate programele instalate pe
calculator. Deosebit de util este instrumentul
de căutare (o zonă de scriere aflată în
Figura 1.2.20. Elementele unei ferestre vecinătatea butonului Start, identificabilă
Windows printr-o lupă), în care prin tastare indicăm
subiectul dorit a fi căutat. Pot fi atât nume de
Ce observăm în continuare? În primul programe aflate pe calculator, cât şi subiecte
rând suprafaţa ecranul calculatorului ne pentru cautarea pe Internet.
întâmpină cu un număr de mici desene,
fiecare având câte o denumire. Aceste Alegerea unei comenzi din meniul start se
desene poartă numele de icon-uri face ducând cursorul mouse-ului peste
(pictograme, iconiţe). Dacă ducem săgeata numele dorit şi acţionând butonul din stânga.
mouse-ului peste oricare din icon-uri şi În situaţia în care apare o sublistă, continuăm
aşteptăm în locul săgeţii apare un mic text cu să alegem, finalizând cu butonul din stânga.
explicaţii despre icon. Fiecare desen Pe taskbar mai găsim, sub formă de
repreintă un program, Putem lansa în butoane, numele programelor care sunt
execuţie programul ducând vârful săgeţii executate la momentul respectiv. Pe lângă
mouse-ului peste desen şi acţionând prin butoanele programelor, taskbar-ul poate
click dublu rapid butonul din stânga de pe prezenta icon-uri, prin care putem lansa
mouse. Pentru cei mai puţin îndemânatici în rapid, în execuţie programe.
mânuirea mouse-ului, click-ul dublu se poate
înlocui prin click simplu cu butonul din 1.2.6.2.2. Notiunea de fereastra
stânga de pe mouse, urmat de apăsarea tastei Lansarea în execuţie a unui program face
Enter. Putem folosi şi butonul din dreapta de ca pe ecran să apară un dreptunghi, în
pe mouse, click-ul pe acesta, atunci când interiorul căruia să-şi desfăşoare activitatea
săgeata mouse-ului este pe icon-ul programul. Dreptunghiul poartă numele de
programului, duce la apariţia unei liste, fereastră, fereastra fiind unul din conceptele
flotante, de comenzi ce are pe prima poziţie de bază ale sistemului de operare Windows.
40
Informatică Medicală și Biostatistică
42
Informatică Medicală și Biostatistică
care oferea o intefaţă prietenoasă la acea programelor nocive, a aşa numitelor virusuri
vreme (figura 1.2.21). informatice. Primele teorii având ca subiect
posibilitatea realizării de programe ce se pot
Utilizatorii primesc o adresă mail ce are
multiplica au apărut încă din anul 1949. În
structura utilizator@server.domeniu. Dintre
1960 apar primele virusuri experimentale,
servele de mail utilizate larg în prezent
iar din 1984 sunt numite virusuri, datorită
trebuie mentionate ca exemple yahoo.com şi
capacităţii lor de automultiplicare şi a
gmail.com
necesităţii existenţei unei gazde.
O modalitate ce înlocuieşte tot mai mult Calculatorul PC odată apărut devine mediul
scrisorile este comunicarea directă, chat-ul, ideal pentru virusuri, portabilitatea
un alt serviciu Internet. Pentru exemplificare programelor a dus şi la răspândirea acestor
enumerăm programele Skype, Yahoo programe nocive.
messenger, WhatsApp, etc. Aceste aplicaţii
Nivelul următor a fost adus de Internet, a
îţi dau posibilitatea să-ţi vezi interlocutorul
dispărut interesul în infectarea suportului ce
şi să comunici cu el în direct.
schimba informaţia între calculatoare, căci
Pentru micşorarea costurilor calculatoarele erau conectate între ele şi s-a
convorbirilor telefonice internaţionale trecut la o denumire mai largă, răufăcător
aplicaţia VoIP (Voice Over Internet informatic.
Protocol) foloseşte Internetul linie
Americanul Frederick B. Cohen (născut
telefonică.
în 1957), considerat primul realizator al unui
Utilizarea unui calculator aflat la distanţă program virus, îl defineşte ca fiind un
este un alt serviciu oferit de Internet, poartă program ce poate infecta alte programe, prin
numele de Telnet şi este de fapt o includerea copiei sale. În 1987, Fred Cohen
modernizare a terminalelor calculatoarelor a publicat o demonstratie prin care arăta că
din secolul trecut. nu poate fi găsit un algoritm ce să poată
O altă facilitate oferită de Internet este detecta toate virusurile posibile.
transferul de fişiere la distanţă (FTP). Timpul a trecut, iar măiestria celor ce au
Lista poate continua, căci mereu apar noi produs astfel de programe s-a dovedit foarte
funcţii pentru Internet. O să încheiem ingenioasă, în prezent vorbim de software
aducând aminte de utilizarea netmeeting- rău intenționat sau software dăunător (în
ului ca variantă de predare şcolară online în engleză malware, prescurtare de la malicious
perioada pandemiei, perioadă în care a fost software) care este proiectat pentru a acţiona
testată şi eficienţa lecţiilor on-line, pentru fără acceptul proprietarului calculatorului şi
care există o multitudine de programe a face, de regulă, rău. Odată cu progresul şi
dedicate. ţinta acestor programe s-a schimbat. La
început scopul era să faci rău proprietarului,
să îi distrugi fişiere, să îl faci să nu mai poata
1.2.8. Răufăcători informatici utiliza calculatorul, să îi distrugi partea
electronică. Faţă de acţiunile din prezent
acestea au fost ţinte cu profit mic pentru
În paragraful anterior am scos în evidenţă iniţiatori. Acum este mult mai folositor să se
gama largă a valenţelor Internetului. Din afle ce fel de programe utilizezi şi dacă
păcate lumea calculatoarelor nu are numai software-ul e licenţiat, chiar şi determinarea
lucruri bune, existenţa schimbului facil de profilului tău e important (căci se va şti ce fel
informaţie a creat posibilitatea răspândirii de reclame să ţi se trimită). De actualitate
44
Informatică Medicală și Biostatistică
45
Informatică Medicală și Biostatistică
autentificare, parole, date personale, chiar Spam - Nu puteam încheia această foarte
obiceiuri de navigare). De obicei scurtă enumerare fără a aminti de Spam, care
informaţiile sustrase sunt folosite în este procesul prin care primim mesaje
campanii de marketing dar există situaţii în electronice nesolicitate. Sunt de obicei
care datele sunt colectate de producătorii de mesaje agresive cu caracter comercial,
programe pentru a vedea în ce măsură sunt publicitare de multe ori pentru produse
folosite copii pirat precum şi care este tipul produse de calitate îndoielnică.
de soft folosit mai mult.
Programele malware au o evoluţie
Phishing (înșelăciunea electronică), este ascendentă, fiind tot mai greu de detectat
procesul prin care utilizatorul este înşelat şi deoarece orice breşă de securitate. Împotriva
oferă date bancare confidenţiale (detalii lor programatorii dezvoltă programe de
legate de cărți de credit sau conturi bancare, protecţie dar care fac greu faţă ingeniozităţii
nume de utilizatori, parole...). De obicei deosebite a răufăcătorilor. Este necesar să
invitaţia de a oferi astfel de informaţii este avem întotdeauna actualizat programul de
făcută prin e-mail, după care esti direcţionat protecţie!
spre un site clonă (destul de reuşită) a unui
site oficial, în care dacă te păcăleşti îţi
introduci datele.
46
Informatică Medicală și Biostatistică
47
Informatică Medicală și Biostatistică
48
Informatică Medicală și Biostatistică
50
Informatică Medicală și Biostatistică
51
Informatică Medicală și Biostatistică
52
Informatică Medicală și Biostatistică
53
Informatică Medicală și Biostatistică
55
Informatică Medicală și Biostatistică
relație corect definită asigură integritatea la datelor. Principalele concepte ale modelului
nivel de relație, fapt ce garantează că aceasta relațional sunt:
este solidă şi de încredere.
1. Atributul – este o coloană ce are un
Modelul relațional clasifică relațiile ca nume unic într-o relație;
fiind de tip: 2. Domeniul – reprezintă setul de valori
unu la unu (1:1) – când o singură pe care îl poate avea unul sau mai multe
înregistrare din primul tabel este corelată cu atribute;
una singură din al doilea tabel și o singură 3. Tuplu – un rând din cadrul unei relații;
înregistrare din al doilea tabel este corelată 4. Intensia – structura unei relații
cu o singură înregistrare din primul tabel. În împreună cu specificațiile şi constrângerile
acest caz un tabel poartă rolul de “părinte”, de domeniu aplicate;
iar al doilea îndeplinește rolul de “copil”. 5. Extensia – starea relației;
Relația se realizează prin preluarea unei 6. Gradul – numărul de atribute dintr-o
copii a cheii primare a tabelului părinte și relație;
inserarea acesteia în structura tabelului copil, 7. Cardinalitatea – numărul de tupluri
unde devine tot o cheie primară; dintr-o relație;
unu la mai mulți (1:m) – când o 8. Baza de date relațională – reprezintă o
înregistrare din primul tabel poate fi corelată colecție de relații ce pot fi modificate.
cu una sau mai multe înregistrări din al
Avantajele bazelor de date relaționale
doilea tabel, dar o înregistrare din al doilea
sunt:
tabel poate fi corelată cu o singură
înregistrare din primul tabel. Relația se Integritate încorporată la mai multe
stabilește prin preluarea unei copii a cheii nivele. Integritatea datelor se face la nivel de
primare a tabelului părinte și încorporarea câmp pentru asigurarea preciziei datelor. La
acesteia în tabelul copil, unde devine o cheie nivel de relație asigură validitatea acestora
externă. Este cea mai des întâlnită relație şi între tabele;
ajută la eliminarea datelor duplicate; Independența logică şi fizică a datelor
mai mulți la mai mulți (m:m) – dacă o de programele aplicației software;
înregistrare din primul tabel poate fi corelată Garantează consistența și precizia
cu una sau mai multe înregistrări din al datelor;
doilea tabel și o înregistrare din al doilea Extragerea cu ușurință a datelor din
tabel poate fi corelată cu una sau mai multe baza de date.
înregistrări din primul tabel. O astfel de
relație se realizează cu ajutorul unui tabel de
1.4.3. Concepte privind bazele de date
legătură, care ajută la asocierea
înregistrărilor dintr-un tabel cu înregistrările
din celălalt tabel și asigură lipsa oricăror Baza de date relațională este alcătuită
probleme la operațiile de adăugare, ștergere dintr-un ansamblu de tabele (relații) aflate în
sau modificare a dateor corelate. legătură. Pentru a respecta teoria relațională,
Modelul de date relațional utilizează o tabelă nu poate conține dubluri sau mai
tabele bidimensionale ce reprezintă entitățile multe rânduri identice. Pentru a putea
şi constă din rânduri și coloane. Acesta identifica fiecare rând al unei tabele este
folosește o interfață flexibilă accesibilă necesară prezența unui atribut sau grup de
oricărui utilizator indiferent de nivelul atribute – cheie primară. Restricțiile unei
acestuia, oferind o mare independență a cheii primare sunt:
56
Informatică Medicală și Biostatistică
57
Informatică Medicală și Biostatistică
SGBD este nevoie de a se îndeplini un set de Microsoft Access este un SGBD de nivel
obiective, cum ar fi: mediu, acesta este utilizat pe calculatoare ce
au implementat sistemul de operare
Independența datelor față de programe
Windows. SGBD Access folosește
– orice modificare a modalității de memorare
modelarea relațională a datelor și este
sau a strategiei de acces la date afectează
orientat pe obiecte care au asociate
automat şi aplicația informatică;
evenimente și proprietăți. În cadrul acestuia
Redundanța minimă și controlată a
se vor separa cât se poate de clar noțiunile de
datelor – stocarea informațiilor în baza de
bază de date și tabelă – mai întâi se va creea
date se va efectua fără a exista duplicate;
baza de date și apoi aceasta va fi populată cu
Facilități de utilizare a datelor –
tabele şi celelalte obiecte (interogări,
accesul cât mai simplificat al utilizatorilor la
formulare, rapoarte, module, ș.a.).
date în diverse aplicații;
Protecția datelor – realizată prin Tabelele din baza de date pot gestiona
securitate și integritate. Securitatea înseamnă sute de mii de înregistrări și se poate lucra
că accesul la date este realizat printr-o simultan asupra acestora.
autorizare cu ajutorul parolelor. Integritatea
Pentru acționarea asupra datelor din baza
se referă la corectitudinea datelor care este
de date – adăugare, modificare, ștergere,
asigurată prin protejarea împotriva unor
interogare – Access oferă utilizatorilor trei
incidente intenționate sau neintenționate;
tipuri de limbaje:
Partajabilitatea datelor – asigură pe
lângă accesul mai multor utilizatori la QBE (Query By Example) – folosește
aceleași informații și dezvoltarea unor exprimarea grafică a interogării;
aplicații fără a se modifica structura bazei de SQL (Structured Query Language) –
date; se bazează pe blocul de cerere pentru
Legăturile între date – SGBD trebuie exprimare;
să definească şi să descrie structura de date, VBA (Visual Basic for Application) –
precum şi legăturile între acestea, conform pentru elaborarea procedurilor utilizator.
unui model de date;
Perfomanțele globale – pentru 1.4.6.1. Funcțiile Access
gestionarea unui volum mare de date cu o
complexitate ridicată, într-un timp de acces
util pentru diferiți utilizatori, SGBD Descrierea datelor – se va descrie
implementează diferite metode de acces, structura tabelelor şi a relațiilor dintre
tehnici de optimizare, tipuri de date. acestea;
Manipularea datelor – operațiile de
1.4.6. Microsoft Access adăugare, modificare, ștergere și interogare a
datelor;
Confidentialitatea datelor și lucrul în
Reprezentarea datelor într-o bază de date regim de utilizator – administratorul bazei de
este asemănătoare cu cea a datelor dintr-o date oferă utilizatorilor drepturile de acces;
foaie de calcul tabelar. În timp ce foile de Importul și exportul de date – se poate
calcul tabelar sunt superioare în ce privește face între baze de date Access cât și între
colecționarea datelor şi posibilitățile de bazele de date Access și aplicațiile Word sau
calcul, o baza de date excelează din punct de Excel;
vedere al organizării și verificării datelor.
58
Informatică Medicală și Biostatistică
59
Informatică Medicală și Biostatistică
60
Informatică Medicală și Biostatistică
61
Informatică Medicală și Biostatistică
• .BMP – harta de biți (Bitmap) – este vizuală omului aceasta trebuie să aibă
forma brută a unei imagini, fiecare pixel ce anumite caracteristici:
compune imaginea este memorat individual. • Frecvența – trebuie să se încadreze
Acesta este un format foarte bun pentru între limitele sensibilității vizuale ale
procesarea de imagini dar ocupă mult spațiu receptorilor fotosensibili din retină;
pe disc; • Intensitatea – trebuie să depășească
• .GIF – (Graphic Interchange Format) pragul de sensibilitate al acestora.
– oferă o calitate bună și comprimare Senzația de lumină produsă de Soare,
puternică, dezavantajul este memorarea unei stele, lămpi sau becuri cu filamente
palete de numai 256 culori. Cu alte cuvinte incandescente percepută de ochiul uman
utilizarea acestui format este recomandat poartă denumirea de radiație vizibilă.
atunci când imaginea utilizează un număr Cantitatea de lumina emisă de o sursă de
redus de culori sau este de dimensiuni lumină şi percepută de ochiul uman se
reduse; numește flux luminos și se măsoară în lumen
• .JPEG – (Joint Photographic Expert (lm). Cu cât valoarea fluxului luminos este
Group) - poate afișa milioane de culori mai mare cu atât luminozitatea este mai
(limita este de 16 milioane) într-un fișier mare.
foarte comprimat. Acest lucru duce la Intensitatea luminii este o componentă a
pierderea unui număr însemnat de infomații fluxului luminos care cade pe o suprafață ce
din imaginea respectivă; are o anumită dimensiune și depinde de
• DICOM – (Digital Imaging and fluxul luminos al sursei de lumină, de
Communications in Medicine) – standardul unghiul fascicului și distanța dintre suprafața
pentru manipulare, stocare, imprimare și și sursa de lumină.
transmitere de imagini medicale. Fișierul Iluminarea este obținută din fluxul
DICOM conține o imagine dintr-o luminos, 1lm care cade pe o suprafață de
digitalizare medicală (ex. imagini de 1m2. Unitatea de măsură este lux (lx).
computer tomograf) și oferă informații Intensitatea iluminării este dată de distanța
adiționale cum ar fi: date de identificare ale sursei față de zona iluminată și unghiul sau
pacientului, parametrii aparatului care a direcția fasciculelor incidente.
produs imaginea, mărime, dimensiune, Luminanța (strălucirea) este raportul
adâncime, etc. Toate acestea pentru gruparea dintre intensitatea luminii și suprafața
mai multor date și transferarea mai ușor între vizibilă, aceasta se măsoară în candelă pe
dispozitive care accepta formatul DICOM. metru pătrat (cd/m2). Strălucirea unui obiect
este luminanța percepută şi depinde de
luminanța mediului înconjurător obiectului..
1.5.2. Prelucrarea imaginilor O imagine este o suprafață caracterizată
de o anumită culoare care variază în oricare
direcție. Pentru reprezentarea în sistemele
Din perspectiva umană se urmărește ca o numerice nu se poate utiliza mărimea
imagine să aibe un contrast convenabil, o imaginii, de aceea se va apela la forma
claritate cât mai ridicată, muchii bine discretizată a acesteia.
definite, strălucire și culoare. Discretizarea este operația prin care se va
O imagine este rezultatul variației reprezenta o imagine de mărime cu variație
intensității luminii într-un plan continuă sub forma unui ansamblu finit de
bidimensional. Lumina este o radiație esantioane. Trecerea de la domeniul
electromagnetică, iar pentru a crea senzația continuu la domeniul discret se va face prin:
62
Informatică Medicală și Biostatistică
63
Informatică Medicală și Biostatistică
64
Informatică Medicală și Biostatistică
65
Informatică Medicală și Biostatistică
66
Informatică Medicală și Biostatistică
68
Informatică Medicală și Biostatistică
1.6. Achiziţia şi
prelucrarea semnalelor
biologice Figura 1.6.1.1. Comunicaţia telefonică
În investigaţia medicală modernă, atât
Curentul variabil prin circuitul telefonic
medicul cât şi pacientul simt o "presiune"
este purtătorul de informaţie, variaţiile sale
crescândă generată de cantitatea de măsurări
trebuind să urmărească cât mai fidel sunetul
diverse la care este supus pacientul. Această
produs în faţa microfonului. Variația
presiune este simţită la fel de către
curentului electric variabil din circuitul
specialiştii care produc această aparatură,
microfonic este un semnal continuu, adică
motivul fiind simplu, iar cursa fără
fără întreruperi.
întoarcere: medicina devine tot mai exactă,
altfel spus, din cele două componente, Putem privi circuitul electric de mai sus
calitativă şi cantitativă, care în actul medical ca pe un ansamblu funcţional cu o intrare
se combină în beneficiul direct al fiinţei, a (microfonul) şi o ieşire (casca), rolul său
doua capătă o pondere din ce în ce mai mare, fiind transmiterea sunetului la distanţă; astfel
pentru că numai aşa calitatea actului medical îl definim ca sistem. Ce face deci acest
poate fi superioară. sistem? Transformă informaţia (sunetul) de
la intrare într-o formă convenabilă (curent
Toate aceste investigaţii sunt atât de
electric variabil, v. Figura 1.6.1.2) pentru a o
complexe încât nu mai pot fi realizate decât
transmite la distanţă. Ieşirea este dependentă
asistate de un instrument: calculatorul, care
de răspunsul sistemului, adică de fapt de
este prezent într-o formă sau alta în toată
comportarea acestuia. Dacă reproducerea
aparatura modernă, procesul esenţial fiind
sunetului este perfectă, atunci sistemul este
preluarea unor informaţii, prelucrarea lor şi
liniar. Corect spus, faptul că sistemul este
generarea unor rezultate şi decizii (Tărâţă,
liniar determină reproducerea perfectă a
2010).
sunetului. Prin urmare un sistem liniar este
sistemul care nu introduce distorsiuni.
1.6.1. Conceptul de semnal
69
Informatică Medicală și Biostatistică
70
Informatică Medicală și Biostatistică
71
Informatică Medicală și Biostatistică
72
Informatică Medicală și Biostatistică
74
Informatică Medicală și Biostatistică
75
Informatică Medicală și Biostatistică
76
Informatică Medicală și Biostatistică
77
Informatică Medicală și Biostatistică
Filtrul trece bandă FTB (Pass Band de 100000 ori, - 120 dB înseamnă o atenuare
Filter) de 1000000 ori).
Prin definiţie filtrul FTB nu afectează
(adică lasă să treacă) componentele de
frecvenţe cuprinse între două limite
(frecvenţe de tăiere inferioară şi superioară)
ale semnalului de intrare.
78
Informatică Medicală și Biostatistică
79
Informatică Medicală și Biostatistică
80
Informatică Medicală și Biostatistică
∑ s(i)
VMR( s (t )) = i =1
N
N - numărul de eşantioane
i – poziţia eşantionului curent pe axa
timpului.
Figura 1.6.4.12 arată un alt exemplu de
redresare a semnalelor şi legătura sa directă
cu funcţia valoare absolută. Figura 1.6.4.13. ISR: integrala semnalului
redresat din Figura 1.6.4.11. Un semnal mai
mic ar fi dat o pantă mai mică
Mărimea integralei semnalului
de interferenţă redresat (ISR) este funcţie
de amplitudinea şi durata MUAP-urilor
individuale ca şi de frecvenţa descărcărilor.
S-a găsit o dependenţă liniară a ISR de forţa
generată de un muşchi dat, în timpul
contracţiei izometrice, coeficienţii de
corelaţie fiind între 0,93 - 0,99, valoarea
Figura 1.6.4.12. Redresarea semnalelor – alt
dreptei de regresie fiind variabilã între
exemplu. Semnalul redresat este reprezentat
indivizi, dar şi la acelaşi subiect în
cu roşu
înregistrări diferite. În ceea ce priveşte
reproductibilitatea ISR ea s-a înregistrat
Integrarea
pentru 20, 40, 60, 80 % MVC şi au fost găsiţi
Integrarea, ca procedură de prelucrare a coeficienţi de corelaţie între 0,88 şi 0,91
unui semnal se referă la obţinerea ariei de pentru o reproductibilitate între 0,64 şi 0,73.
sub semnal. Unitatea de măsură este Vs
(Voltsecundă) sau o combinaţie de
submultipli. Rădăcina mediei pătratelor (Root
Mean Square RMS)
Procedura nu se poate aplica decât
semnalului redresat, pentru că altfel suma Acest parametru dă de fapt o medie
(aria) ar fi zero sau foarte mică şi fără particulară a semnalului, care de fapt dă
legătură cu conţinutul semnalului, dar în energia semnalului în intervalul de timp T.
acest caz toate valorile fiind pozitive, RMS este calculat după cum urmează:
valoarea redresată integrată creşte continuu
cu timpul, ceea ce se rezolvă mediind, adică
81
Informatică Medicală și Biostatistică
T
câteva vârfuri nu sunt detectate corect. Ele
unde s(t) este semnalul. sunt semnalate în apropierea vârfului real,
dar nu chiar pe el. Oricum, în cazul
Acest parametru face de fapt legătura procedurii prezentate, rata de eroare este
între domeniile timp şi frecvenţă. mică.
Vîrfurile sunt numite uneori puncte de
Vârfuri, treceri prin zero (NTZ) şi întoarcere, de aceea se foloseşte această
puncte de întoarcere (NPI) terminologie în literatura clinică.
Aceste momente importante în evoluţia A doua categorie de momente de interes
semnalelor sunt dificil de detectat, tehnic şi cu relevanţă sunt trecerile prin zero
vorbind, din diverse motive care ţin de (numărul trecerilor prin zero NTZ), de fapt
geneza şi structura semnalelor. Zgomotul traversări ale liniei izoelectrice. Şi ele au
este şi el unul dintre aceste motive. relevanţă în biologie. De exemplu în cazul
unui potenţial de acţiune, el traversează linia
De ce sunt importante vârfurile
izolelectrică atunci când în drumul său de-a
semnalelor biologice? În biologie vârfurile
lungul fibrei musculare trece prin dreptul
semnalelor au relevanţă. De exemplu vârful
electrodului de culegere.
unui semnal electromiografic de suprafaţă
semnifică momentul în care cele mai multe Când este vorba de un semnal complex
din fibrele musculare din teritoriul motor cum este cel EMGS, rezultat prin sumarea
sunt în contracţie – din acest motiv şi spaţială a mai multor semnale individuale,
potenţialul de acţiune de teritoriu motor este explicaţia este şi ea mai complexă.
maxim. În cazul ECG, vârful undei R se Numărarea acestor evenimente este
formează în momentul contracţiei relativ comodă şi oferă clinicianului un
ventriculare maxime. instrument cu ajutorul căruia unele
investigaţii au dovedit că se poate face o
discriminare între muşchiul miopatic şi
normal. Dar asemenea distincţii nu pot fi
fãcute decât statistic.
Nu este recomandabil a fi folosite NTZ
pentru măsurarea semnalului ca funcţie de
forţă, atunci când sunt în curs fenomene de
recrutare şi derecrutare a unor unităţi motorii
şi nici ca funcţie de timp în cazul unor
contracţii susţinute.
Figura 1.6.4.14. Prelucrare complexă a unui
Numai la nivele mici de contracţie relaţia
semnal. Vârfurile semnalului EMG din
între ele şi numărul de potenţiale de acţiune
Figura 1.6.4.10 sunt detectate automat.
MUAP este liniară. Pe măsură ce noi unităţi
Maximele sunt marcate cu + iar minimele
motorii intră în activitate, amplitudinea
cu x
semnalului capătă caracterul zgomotului
82
Informatică Medicală și Biostatistică
83
Informatică Medicală și Biostatistică
aşa încât
a k = Ak sin ϕ k
bk = Ak cos ϕ k
Problema se reduce la găsirea
Figura 1.6.5.4. O funcţie oarecare (stânga)
coeficienţilor ak, bk astfel încât seria
şi spectrul său energetic (dreapta) marcând
∞
componentele dezvoltării ei în serie Fourier
a 0 / 2 + ∑ Ak sin( kx + ϕ k )
k =0
84
Informatică Medicală și Biostatistică
Deoarece Ak = a k + bk , Ak conţine
2 2 2 La un nivel de contracţie mai mare
spectrul suferă fluctuaţii, având însă în mare
informaţie sintetică despre energia aceeaşi formă cu acela al descărcărilor
componentei de ordinul k a spectrului individuale. Chiar în condiţii de interferenţă
(indiferent de ponderea sinusului sau proprietăţile potenţialelor de acţiune
cosinusului în aceasta) şi deoarece ne individuale pot fi extrase din semnalul de
aşteptăm că energia semnalului este aceeaşi interferenţă prin analiză spectrală. Pentru
indiferent de reprezentarea sa, atunci: semnalul compus din potenţiale de unitate
∞ motorie cu forme diferite, spectrul de putere
1 ∞
∫ f 2 (t )dt = ∑ Ak reprezintă o medie ponderată a spectrelor de
2
−∞
2 k = −∞ la unităţile contribuabile.
cunoscută ca relaţia lui Parseval, care
subliniază odată în plus echivalenţa celor
două reprezentări, în timp şi în frecvenţă, ale
aceluiaşi semnal.
În realitate lucrăm cu segmente finite de
semnal, şi impunem ipoteza că segmentul
studiat este periodic, deci că el se repetă. Figura 1.6.5.6. Spectrul de putere al
Aceasta este o observaţie deosebit de potenţialului din Figura 1.6.5.5
importantă. Durata determină într-o proporţie destul
Analiza spectrală a semnalului EMG de mare distribuţia puterii pe intervalul de
în domeniul frecvenţă frecvenţă: impulsuri de scurtă durată conţin
mai multã energie de înaltă frecvenţă decât
Spectrul de putere al semnalului EMGS cele mai lungi. La mărirea duratei, forma
este o măsură a densităţii de putere a curbei spectrale se păstrează, deşi se constatã
semnalului la diferite frecvenţe, altfel spus o deplasare spre frecvenţe mai mici.
cuantumul de putere a semnalului repartizată
pe frecvenţele componente şi are vârful
maxim între 100 Hz sau mai jos şi cca. 200
Hz dacă sunt folosiţi electrozi intramusculari
şi în domeniul 10 Hz - 150 Hz dacă
semnalele sunt obţinute cu electrozi de Figura 1.6.5.7. Electromiograma de
interferenţă, culeasă cu electrozi de
suprafaţă deoarece durata medie a
semnalelor în al doilea caz este mai mare, suprafaţă
deci frecvenţa echivalentă este mai mică. Faza unui potenţial de acţiune înseamnă
porţiunea de semnal de deasupra sau de
dedesubtul liniei izolelectrice între două
traversări successive ale liniei izoelectrice,
ceea ce le defineşte ca faze pozitive,
respectiv negative.
Numărul de faze (NF) ale potenţialului de
acţiune al unităţii motorii influenţează
Figura 1.6.5.5. Un potenţial de acţiune unic puternic spectrul de putere, influenţă
de teritoriu motor (electromiograma unitară) întrepătrunsă cu cea a duratei
85
Informatică Medicală și Biostatistică
Fm ∞ ∫ S ( f )df
∫ S ( f )df = ∫ S ( f )df =
0
0 Fm
2
∫ fS ( f )df
Fa = 0
∞
∫ S ( f )df
0
unde f - frecvenţa,
S(f) - spectrul de putere.
Şi Fm şi Fa sunt sensibile la viteza de
conducere pe fibra musculară, încât
Fa = K * Fm
Figura 1.6.5.10. Spectrele de putere ale
semnalului EMGS pe durata contracţiei unde K - o constantă.
susţinute Estimarea frecvenţei mediane permite o
estimare bună a vitezei de conducere.
86
Informatică Medicală și Biostatistică
87
Informatică Medicală și Biostatistică
BIOSTATISTICĂ
88
Informatică Medicală și Biostatistică
89
Informatică Medicală și Biostatistică
Prin dinamica unui fenomen de masă Statistica medicală este știința care se
înțelegem modul cum evoluează acesta în ocupă cu aplicarea metodelor statisticii în
timp, în mod natural sau sub acţiunea unor medicină. Şi statistica medicală are mai
factori externi. Conexiunea fenomenelor este multe ramuri, care se ocupă de partea clinică,
indicată de relațiile de legătură și, eventual, de partea experimentală sau de partea
de relațiile de dependență între ele. De economico-administrativă a vieţii medicale.
exemplu, fenomene economice pot influența
Medicina modernă este de neconceput
evoluția incidenței unor afecțiuni în cadrul
fără cercetarea medicală, iar un segment din
unei populații.
ce în ce mai consistent al acestei cercetări are
Anumite tendințe de evoluție a incidenței la bază statistica. Nu se mai poate concepe o
unei maladii, sau de modificare a valorilor cercetare de laborator sau clinică, în care
normale la pacienții cu o anumită afecțiune, rezultatele să fie raportate doar prin
pot căpăta caracter de regularitate. Statistica comparaţii simpliste fie între valorile medii
este cea care pune în evidență aceste ale unor variabile, fie între numărul sau
regularități sau legi, care sunt valabile numai procentul de cazuri. Fără asigurarea
la modul general, ca tendință, nu neapărat la statistică, nicio cercetare nu are valoare.
fiecare individ în parte. De exemplu, dacă Simplele comparaţii între valorile mediilor
știm că o anumită fracțiune leucocitară este sau ale procentelor pot duce la concluzii total
crescută în alergii, nu înseamnă neapărat că greșite, de aceea nicio revistă științifică
fiecare alergic are acea fracțiune leucocitară medicală serioasă nu mai publică rezultate
crescută, ci că există numai o tendință în neprelucrate statistic și fără teste de
acest sens. semnificație.
Biostatistica este știința care se ocupă cu
aplicarea metodelor statisticii în științele
2.1.3. Termeni specifici
vieții, ca medicina, zoologia, botanica,
agricultura, psihologia, farmacia şi altele.
Toate capitolele importante ale statisticii Înainte de a încerca să arătăm ce este şi cu
ca: statistica descriptivă, teoria sondajelor, ce se ocupă statistica, este necesar să
teoria estimației, teoria corelației, regresiile explicăm anumite noţiuni specifice acestui
au aplicabilitate și în științele vieții. Unele domeniu.
dintre tehnicile statistice folosite în științele
vieții au fost impulsionate în dezvoltarea lor
chiar de domeniul lor de aplicare. De 2.1.3.1. Individ statistic
exemplu, studiul şi estimarea supraviețuirii
au o aplicabilitate largă în medicină şi
biologie, iar dezvoltarea metodelor de Un individ statistic reprezintă o entitate
analiză din aceste domenii a fost influențată care are anumite caractersitici ce corespund
pozitiv de acest fapt. unor specificații, unor cerinţe definite de
cercetător. Un individ statistic este un
În multe situații, apar confuzii între doi element al unei populații statistice, indiferent
termeni care exprimă discipline diferite, și de natura acesteia.
anume între biostatistică şi statistica
medicală. Aceasta din urmă este un capitol al Prin urmare, noțiunile de individ uman şi
celei dintâi, și anume: de individ statistic nu sunt identice,
91
Informatică Medicală și Biostatistică
deoarece, așa cum rezultă din această specifică la care se referă, numită populație
definiție, individul statistic poate fi: țintă.
-un om (individ sănătos, pacient), Trebuie înţeles că o populaţie statistică se
poate referi şi la alte entităţi, nu numai la
-un animal sau o plantă,
persoane. Exmple de astfel de populaţii pot
-un obiect, fi:
-un eveniment, un fenomen, -mulţimea urşilor din pădurile României
-un grup socio-uman (o școală, o -mulţimea şoarecilor folosiţi în laboratoarele
localitate, un spital etc.), de cercetare din Europa
Mai mult, nu orice individ poate fi şi -mulţimea pixurilor cu pastă roşie folosite în
individ statistic ci, pentru aceasta, trebuie să Craiova
fie cuprins într-o populație statistică.
De multe ori, în statistică, o populație nu
este o mulțime de persoane, fiinţe sau
2.1.3.2. Populație statistică obiecte. De exemplu, în studiile demografice
se iau câteodată ca elemente fundamentale
grupuri sociale ca așezări omenești sau
O populație statistică reprezintă instituții, putând vorbi despre populația
totalitatea entităţilor care au una sau mai școlilor dintr-un județ sau populația
multe însușiri comune, specificate în cadrul așezărilor umane din România. Avem deci în
unui studiu statistic și care fac obiectul unei acest caz populații de grupuri socio-umane.
cercetări statistice. Ele nu sunt alcătuite din indivizi umani, ci
din grupuri de indivizi umani. Mai mult,
În limbajul comun, noțiunea de populație populațiile pot să nu aibă o legătură directă
se referă, în general, la totalitatea cu indivizi umani, ci mai degrabă indirectă,
persoanelor care trăiesc într-un anumit spațiu şi anume se poate vorbi despre populații de
geografic sau social. În contextul evenimente (accidentele de circulație dintr-o
metodologiei cercetării, prin populație se arie geografică).
înțelege „totalitatea cazurilor care corespund
anumitor specificații, definite de cercetător” Indiferent despre ce tip de populație
discutăm la un moment dat, unitatea
De obicei, prin populație statistică, în fundamentală cu care avem de a face este
mod empiric, înțelegem o mulțime de individul statistic.
persoane umane:
-persoanele din județul Dolj care suferă
de HTA, sau 2.1.3.3. Eşantion statistic
92
Informatică Medicală și Biostatistică
populaţie. Soluția acestei probleme constă în numerele din listă formează eşantionul de
studierea unor grupuri de indivizi studiu.
asemănătoare cu cele care fac obiectul
2) eşantionare aleatorie sistematică -
cercetării, numite eşantioane.
fiecare al n-lea (ex: al 10-lea) membru este
Ideea fundamentală a modelului selecţionat dintr-o listă a populaţiei,
populație-eșantion este extrapolarea începând de la o poziţie aleasă aleatoriu.
concluziei de la parte (eșantion) la întreg
3) eşantionare aleatorie stratificată -
(populație), pe baza calității eșantionului de
participanţii sunt selectionaţi aleatoriu din
a fi reprezentativ. În ceea ce privește
grupuri, subgrupuri sau straturi ale
rezultatul, acesta nu are un caracter de
populaţiei (ex: stratul între 18-25 de ani,
certitudine, ci reprezintă o estimare
bărbaţi/femei). Straturile sunt realizate în
probabilistă bazată pe datele măsurate la
funcţie de categorii ale unor caracteristici ale
nivelul realității investigate prin intermediul
populaţiei (vârstă, sex) care pot influenţa
eşantionului.
variabilele analizate în cadrul studiului
Rațiunea fundamentală a eșantionului statistic.
este aceea de a reprezenta cât mai fidel cu
4) eşantionare aleatorie multistadială
putință populația din care este extras. În
(cluster, ciorchine) - grupurile sunt
ciuda simplității de principiu, constituirea
selecţionate aleatoriu şi toţi membrii unui
eșantioanelor reprezintă o problemă
grup selecţionat sunt testaţi (ex: testăm
complexă, de care depinde în mod crucial
comportamentul liceenilor şi alegem clasele
valoarea concluziilor unei cercetări.
a XII-a din toate liceele pentru a forma un
Un eşantion este reprezentativ când cluster). Acest tip de eșantionare este
variabilele măsurate în eşantion au aceleaşi specific cercetărilor pe scară largă, care
caracteristici ca şi ale populaţiei din care a acoperă arii geografice mari.
fost extras. Procedura fundamentală pentru
Alegerea categoriilor și numărul lor
constituirea unui eşantion reprezentativ este
depinde de resursele disponibile şi de
selecţia aleatorie (randomizarea). În
obiectivele cercetării. Să presupunem că
tehnicile de randomizare toţi membrii
dorim să studiem opinia medicilor de familie
populaţiei au aceeasi şansă de a fi
din țară cu privire la introducerea unui nou
selectionaţi într-un eşantion şi toate
sistem de codificare a patologiilor. În acest
posibilele eşantioane au aceeaşi şansă de a fi
caz, putem selecta aleatoriu patru județe, în
folosite în cercetare.
interiorul județelor respective putem selecta
Deoarece criteriul de bază este este aleatoriu câte două orașe, iar la nivelul
alegera bazată pe probabilităţi, avem: fiecărui oraș selecționăm aleatoriu un număr
de cabinete de medicină de familie.
I) Tehnici de eşantionare probabiliste
II) Tehnici de eşantionare
1) eşantionare aleatorie simplă - fiecare
nonprobabiliste
membru al populaţiei are aceeaşi şansă de a
fi selecţionat. Se creează o listă cu toţi 1) eşantionare de convenienţă -
membrii populaţiei, fiecare primind un selecţionăm participanţii apţi, disponibili
număr de ordine, apoi se generează o listă cu (atenţie la deformarea prin voluntariat; cei
numere aleatorii de dimensiunea dorită a care se oferă să participe pot avea anumite
eşantionului, iar indivizii cu poziţiile date de caractersitici diferite de cei care nu se oferă).
93
Informatică Medicală și Biostatistică
94
Informatică Medicală și Biostatistică
general pot fi determinate prin măsurători Date numerice – vârstă, greutate, talie,
uzuale sau de laborator: înălțime, greutate, hemoglobină, transaminaze, calcemie,
vârstă, glicemie, calcemie, hemoglobină, glicemie etc. Datele numerice exprimă
număr eritrocite, viteză de reacție, nivel de caracteristici cantitative ale indivizilor
inteligență (IQ), dar și mărimile referitoare la statistici, care se măsoară direct sau indirect
celule, organite, sinapse, vezicule, şi pot fi continue, adică pot avea orice
membrane etc. Ele sunt totdeauna exprimate valoare (întreagă sau zecimală), sau discrete,
cifric într-un mod precis, obiectiv. adică variabila pe care o reprezintă poate
avea doar anumite valori bine definite (de
- caracteristicile calitative sunt cele care
exemplu, numărul de copii pentru o familie
nu pot fi măsurate prin metode obiective,
poate avea valorile 0, 1, 2 ş.a.m.d., nu 0,5 sau
cantitative, ci se exprimă descriptiv prin
1,33).
termeni calitativi: culoare, formă,
consistență, aspect etc. Caracteristicile Între aceste două tipuri principale se
calitative nu au o unitate de măsură general înscriu datele ale căror valori posibile sunt
acceptată și deci nu pot fi exprimate numeric, reprezentate de categorii, pentru
ca rezultat al unor măsurători, fiind adesea înregistrarea cărora se pot folosi un număr
subiective. finit de simboluri. Acestea, la rândul lor,
sunt:
Date nominale – codul bolii, grupa
2.1.4. Tipuri de date
sanguină, consistenţa ficatului, culoarea
ochilor etc. Codurile folosite nu au o ordine
clară, logică, iar denumirile categoriilor sunt
Un criteriu de clasificare a datelor foarte
doar nişte etichete, diferenţele calitative
important se referă la simbolurile pe care le
dintre ele neavând şi un echivalent cantitativ.
folosim pentru a reprezenta datele
experimentale pe care dorim să le Date ordinale – stadiul evolutiv al unei
înregistrăm și care sunt dependente de natura boli, gradul de rudenie, anul de studii etc.
intrinsecă a datelor. Codurile folosite au o ordine clară, iar
încadrarea într-o anumită categorie implică
Din acest punct de vedere avem mai
şi posibilitatea unor diferenţieri cantitative,
multe categorii de date:
pe lângă cele calitative. Deosebirea față de
Date alfanumerice – nume, prenume, caracteristicile nominale, deși pare
adresă, loc de muncă, descrierea bolii, neimportantă, conduce la principii diferite de
reprezentate prin litere, cifre sau alte tratare statistică și, de aceea, este important
simboluri, care, în general, se consideră că de stabilit dacă o caracteristică o înregistrăm
sunt date de tip text. Trebuie să fim atenţi ca nominală sau ordinală. Măsurătorile pe
deoarece unele date alfanumerice pot fi scala ordinală sunt ordonate. Totuși,
reprezentate doar prin cifre (numerele de intervalele între două clase consecutive nu
telefon, codul numeric personal – CNP, un sunt în mod necesar egale. De exemplu, dacă
număr de ordine într-un tabel), însă putem un pacient apreciază starea de confort indusă
verfica rapid dacă este vorba de date de un medicament contra astmului pe o scală
numerice sau de un simplu text, încercând să de la 0 la 3, diferența între 0 și 1 nu este
efectuăm operaţii matematice cu ele şi neapărat egală cu diferența între 1 și 2, sau
observând dacă rezultatele acestora au sens între 2 şi 3
sau nu.
95
Informatică Medicală și Biostatistică
Datele împărţite în categorii sau clase au exclusive (un individ nu poate să aparţină
următoarele caracteristici: decât unei categorii, nu poate fi inclus în
două categorii în același timp), iar datele sunt
-sunt exhaustive (fiecare individ aparține
de tip nominal (denumirile A şi B au fost
unei singure clase)
alese în această ordine, din întâmplare, cele
-sunt mutual exclusive (nici un individ nu doua antigene diferind foarte puţin).
poate aparține la două clase, simultan)
Datele înregistrate ca numere sau prin
-doi indivizi din aceeași clasă sunt simboluri convenite se numesc scalate (se
echivalenți pe scala respectivă (chiar dacă înregistrează pe o scală, de exemplu scala
pot fi diferiți din alte puncte de vedere). analog-vizuală, scala Likert), în timp ce
Numărul claselor folosite este relativ mic, restul se numesc alfanumerice.
sub zece, de obicei fiind folosite trei-patru Există o legătură între modul de măsurare
categorii. Un caz particular îl reprezintă și metodele statistice folosite. De exemplu,
datele dihotomice, cu două categorii, de tip este absurd să calculăm media datelor
da-nu, absent-prezent, pozitiv-negativ. nominale. Folosirea mediei pentru datele
De exemplu, pentru grupa sanguină, ordinale este şi ea controversată. Pentru
simbolurile 0 I, A II, B III, AB IV sunt calculul mediei sau a altui indicator statistic
categorii exhaustive (orice individ sigur se ce impune calcule trebuie să avem date
regăseşte într-una din ele) și mutual numerice.
-sexul şi mediul de rezidenţă sunt date de introduce într-o celulă a unui tabel trebuie să
tip nominal, deoarece sunt reprezentate prin nu mai poată fi descompusă în informaţii mai
categorii între care nu există o ordine simple, dar care încă au un înţeles propriu.
predefinită
De exemplu, în momentul în care se
-vârsta este o variabilă numerică
înregistrează adresa cuiva (Tabelul 2.1.1),
-decada de vârstă reprezintă o variabilă
informaţia furnizată iniţial va fi de forma:
de tip ordinal, derivată din vârstă
-profesia este o variabilă de tip nominal Tabelul 2.1.1. Înregistrarea adresei
-stadiul este o variabilă de tip ordinal
ADRESA
Str. Calea Bucureşti, Nr.23, Bl. A7, Sc.II,
Et.3, Ap.10, Craiova, jud.Dolj
2.1.5. Principii de bază. Principiul
Craiova, Str. Tudor Vladimirescu, Nr.8
atomicităţii
Bucureşti, Sectorul 1, B-dul Iancu de
Hunedoara, Nr.17, Bl.3, Sc.B, Ap.119
Un atom este definit ca fiind cea mai mică Din punctul de vedere al unui statistician,
parte dintr-un element chimic care mai ar fi mai indicat ca informaţia reprezentată
păstrează însușirile chimice ale elementului de adresă să fie divizată în informaţiile
respectiv (conform DEX). O unitate atomică componente, referitoare la oraş, stradă,
de date reprezintă cea mai mică parte dintr-o numărul imobilului, numele blocului etc
informaţie complexă care încă are un sens (Tabelul 2.1.2).
propriu clar, precis. Principiul atomicităţii se
referă la faptul că informaţia care se
Tabelul 2.1.2. Înregistrarea adresei într-o bază de date electronică
Oraş Judeţ/ Sector Strada Număr Bloc Scară Etaj Ap.
Craiova Dolj Calea Bucureşti 23 A7 II 3 10
Craiova Dolj Tudor Vladimirescu 8
Bucureşti Sectorul 1 Iancu de Hunedoara 17 3 B 119
Tabelul 2.1.3. Înregistrarea simptomelor într-o foaie de observaţie
dureri epigastrice, varsaturi alimentare precoce postprandial, scadere ponderala marcanta
astenie fizica marcata, inapetenta, scadere ponderala
astenie fizica; inapetenta
dureri epigastrice, greturi, scaune melenice, astenie marcata
alterarea starii generale, scadere in greutate, astenie fizica, dureri abdominale; varsaturi
disfagie cu caracter progresiv, epigastralgii,astenie fizica, scadere ponderala
alterarea starii generale, scadere in greutate, inapetenta, varsaturi incoercibile
dureri abdominale, melena
inapetenta, varsaturi bilio-alimentare
scadere ponderala, dureri in epigastru, balonari postprandiale, ameteli, astenie fizica marcata
dureri in epigastru, greturi, varsaturi
97
Informatică Medicală și Biostatistică
98
Informatică Medicală și Biostatistică
99
Informatică Medicală și Biostatistică
egal, diferit (not equal), mai mare, mai mic, pot fi de ordinul sutelor, miilor sau chiar
folosind una sau mai multe variabile prin milioanelor, de aici şi utilitatea și importanța
care sunt descrişi indivizii. lor în statistică.
Exemple: selectarea femeilor, selectarea Ceea ce trebuie urmărit la o serie de
celor din mediul urban, selectarea celor cu valori numerice este modul în care valorile
vârsta de 18 ani, selectarea celor cu vârste din serie sunt distribuite între limitele ei,
mai mari de 65 de ani, selectarea celor cu dacă există o zonă în care valorile tind să se
numele după litera M în ordine alfabetică, concentreze, dacă datele sunt apropiate ca
selectarea bărbaţilor din mediul rural, valoare între ele, dacă există diferenţe mari
selectarea celor care au cancer pulmonar şi între valorile prezente în cadrul seriei. După
stadiul de evoluţie mai mare sau egal cu aspectele pe care le prezintă, vom vorbi
stadiul III. despre indicatori statistici ai tendinţei
centrale, ai împrăştierii datelor şi ai
asimetriei seriei de valori.
2.2.2. Indicatori statistici pentru date
numerice
2.2.2.1.Valori extreme. Amplitudine
100
Informatică Medicală și Biostatistică
„outliners” şi ar trebui îndepărtate din serie reprezintă valoarea în jurul căreia sunt
în momentul în care calculăm indicatorii situate majoritate datelor. Este un indicator
statistici prin care încercăm să prezentăm statistic simplu de calculat şi de înţeles, în
caractersiticile generale ale seriei respective. acelaşi timp foarte sintetic. De obicei, este un
foarte bun indicator al nivelului general al
Un indicator util în aprecierea diversităţii
valorilor dintr-o serie şi al poziţiei de pe axa
datelor, mai ales pentru serii care conţin doar
numerelor în jurul căreia se grupează datele
valori pozitive, îl reprezintă amplitudinea
individuale, din această cauză media fiind un
relativă, care se defineşte ca raportul dintre
indicator extrem de mult utilizat în statistică.
amplitudinea absolută şi media aritmetică a
valorilor. Amplitudinea relativă se exprimă Media se notează cu litera m (sau cu μ,
ca procente şi din această cauză se poate dacă este vorba despre media teoretică a unei
folosi pentru a compara serii diferite din populaţii). Dacă seria de valori este notată cu
punct de vedere al împrăştierii datelor. o majusculă ca X sau Y, media se notează cu
X sau Y . Media aritmetică a unei serii este
raportul dintre suma valorilor din serie și
numărul lor. Formula de calcul este:
x1 + x2 +......... xn
X = =m
Figura 2.2.1. Indicatorii medie, minim, n
maxim, amplitudine absolută și amplitudine Dacă datele prezintă o distribuţie
relativă normală, naturală, adică nu sunt influenţate
prea mult de factori externi, cele mai multe
valori din serie sunt situate în apropierea
Când lucrăm cu date biologice, adesea mediei, doar o mică parte din ele fiind mult
valorile minimă și maximă dintr-o serie nu mai mici sau mai mari decât acest punct
se înscriu în limitele de normalitate, ceea ce central. Din această cauză se spune că media
nu înseamnă neapărat că seria conține arată tendinţa centrală a unei serii numerice,
măsurători greşite sau aberante. Totuși, de adică valorea în jurul căreia tind să se
obicei, cele mai îndepărtate câteva valori, aglomereze datele.
atât cele mai mici cât și cele mai mari trebuie
verificate pentru a ne asigura că nu este O astfel de aşezare a valorilor din serie
vorba de date eronate. față de medie se poate observa din graficul
punctual de dispersie din partea de sus a
figurii 2.2.
2.2.2.2. Indicatori ai tendinței centrale
101
Informatică Medicală și Biostatistică
102
Informatică Medicală și Biostatistică
Aceasta este formula pentru media câtorva valori mult mai mari sau mai mici
ponderată. Nu trebuie să credem că media decât celelalte modifică semnificativ media
ponderată calculată cu formula de mai sus și aritmetică.
media aritmetică calculată cu formula
De asemenea, dacă datele sunt distribuite
prezentată anterior sunt indicatori diferiți,
foarte asimetric în jurul mediei, ea își pierde
media ponderată fiind doar o formă mai
din puterea de a evoca tendința centrală, în
simplă de calcul al mediei aritmetice.
aceste cazuri fiind mult mai util un alt
indicator - mediana.
2.2.2.2.2. Mediana este un număr faţă de
care jumătate din valorile seriei sunt mai
mici, iar jumătate sunt mai mari. Mediana nu
se calculează prin formule matematice, ci se
identifică prin ordonarea tuturor datelor din
serie şi găsirea valorii de la mijlocul ei, care
o împarte în două zone egale ca număr de
valori.
Dacă seria are un număr impar de date,
mediana este chiar valoarea din mijlocul
seriei, iar dacă are un număr par de date este,
prin convenţie, este media celor două valori
care se găsesc la mijlocul seriei. De exemplu:
Figura 2.2.5. Exemplu de utilizare a mediei
ponderate -dacă o serie conţine 100 de valori,
mediana va fi suma dintre a 50-a şi a 51-a
valoare din seria ordonată crescător,
De exemplu, în cazul unui studiu în care împărţită la 2;
vrem să analizăm numărul de copii ai
-dacă o serie conţine 99 de valori,
familiilor dintr-o regiune, am înregistra de
mediana va fi exact a 50-a valoare din seria
multe ori valorile 0, 1, 2 şi aşa mai departe.
ordonată crescător.
În loc să prezentăm datele ca o listă de valori
în care se repetă de multe ori aceleaşi Pentru seria de valori ordonate: 3, 7, 13,
numere, prezentăm datele sub forma unui 26, 34, 48, 52, 67, 112, care conţine nouă
tabel de frecvenţe, în care notăm câte familii valori, mediana este a cincea valoare, adică
au avut 0 copii, câte au avut 1 copil, câte au 34. Dacă eliminăm ultima valoare, 112, şi
avut 2 copii etc. Folosind acest tabel putem rămân doar opt valori în serie, mediana va fi
totuşi calcula media aritmetică a numărului media dintre a patra şi a cincea valoare, adică
de copii, dacă facem suma produselor dintre (26+34)/2=30.
numărul de copii al unei familii şi numărul Mediana este un indicator al tendinţei
de familii pentru care am înregistrat acea centrale mai conservator decât media. Dacă
valoare, după care împărţim rezultatul diverşi factori influenţează valorile unei
obţinut la numărul total de familii, ca în variabile şi modifică distribuţia datelor faţă
figura 2.2.5. de cea naturală, simetrică faţă de un punct
Media aritmetică are dezavantajul că este central, media tinde să se deplaseze mai mult
sensibilă la valori extreme fie foarte mici, fie decât mediana în direcţia acţiunii factorilor
foarte mari. Adăugarea uneia singure sau a respectivi, mediana rămânând mai aproape
103
Informatică Medicală și Biostatistică
de valoare în jurul căreia s-ar fi grupat datele arată deviaţia fiecărei valori de la valoarea
în mod normal. De exemplu, dacă pentru un medie.
lot de pacienţi care au fost expuşi la factori
care cresc tensiunea arterială comparăm
media valorilor şi mediana, vom observa că
mediana este mai mică decât media. Fig.2.2.6.Exemplu de distribuţie a valorilor
individuale faţă de medie
2.2.2.2.3. Modul sau valoarea modală
este valoarea care se repetă de cele mai multe
ori în cadrul unei serii, adică are frecvenţa
Unele abateri individuale vor fi pozitive,
cea mai mare. Modul nu ne oferă multe altele negative, iar prin adunare vom obţine
informaţii pentru serii de date continue şi suma 0, deci nu are sens să calculăm o medie
este mai util pentru serii numerice cu valori a abaterilor absolute pentru a descrie
discrete, care se repetă de multe ori. Pentru
împrăştierea seriei.
aceste serii, valorile ajung să se comporte ca
nişte categorii, pentru care are sens să De exemplu, în figura 2.4 avem o serie
calculăm frecvenţa absolută, adică numărul care conţine patru valori: x1, x2, x3 şi x4.
de repetări al unei valori în cadrul seriei. Media lor este m=(x1+x2+x3+x4)/4.
Clasa sau valoarea care corespunde Abaterile individuale absolute vor fi:
frecvenţei maxime se va numi mod. În
general, frecvenţele pentru valorile mai mici x1-m < 0
decât modul au tendinţa de a creşte pe x2-m < 0
măsură ce ne apropiem de mod, după care
urmează o descreştere continuă. În exemplul x3-m > 0
din figura 2.2.5, mod pentru seria de date x4-m > 0
este valoare 1.
Suma acestor abateri va fi:
x1-m+ x2-m+ x3-m+ x4-m = x1 + x2 + x3 +
2.2.2.3. Indicatori de împrăștiere x4- 4·m =
= x1 + x2 + x3 + x4-4·(x1+x2+x3+x4)/4 = 0
Valorile dintr-o serie pot fi mai Dacă pentru exemple concrete vom
concentrate în jurul mediei sau mai observa care diferenţe sunt pozitive şi care
dispersate, adică se află la distanțe mai mari diferenţe sunt negative şi vom putea folosi
faţă de medie. Am văzut în subcapitolul funcţia modul pentru a afla valoarea lor
2.2.2.1 că putem estima prin amplitudinea absolută (adică partea numerică a valorii,
absolută şi prin cea relativă cât de diferite fără semn, practic distanţa dintre fiecare
între ele sunt datele dintr-o serie, însă aceşti valoare şi medie), în teorie noi nu ştim
indicatori nu ne dau informaţii prea exacte dinainte care difereţe sunt pozitive şi trebuie
despre aşezarea reală a datelor între minim şi păstrate ca atare şi care sunt negative şi
maxim sau faţă de medie. trebuie înmulţite cu -1 pentru a obţine o
2.2.2.3.1. Abaterea individuală absolută cantitate pozitivă.
Un mod de a măsura aceste abateri de la 2.2.2.3.2. Dispersia
medie este de a calcula diferențele dintre Un alt mod de a obţine doar cantităţi
valori și media lor. Aceste diferenţe se pozitive din abaterile individuale absolute,
numesc abateri individuale absolute şi ne indiferent dacă ele sunt mai mari sau mai
104
Informatică Medicală și Biostatistică
mici decât zero, şi de a ocoli astfel faptul că calculăm un indicator minus numărul
suma abaterilor individuale absolute este 0, parametrilor estimaţi în paşi anteriori: pentru
este ridicarea la pătrat a acestora înainte de a calculul dispersiei avem n valori
fi adunate. independente, dar este necesară estimarea
Suma obținută ar trebui împărțită la prealabilă a mediei, deci vor fi n‑1 grade de
numărul de abateri pentru a se obține o libertate.
medie. Valoarea care se obține se numește
dispersie şi este un indicator al gradului de
împrăștiere al seriei. În realitate, împărțirea Dispersia se notează cu D și are formula:
se face la n-1 şi nu la n, din cauza ( x1 − X ) 2 + ( x2 − X ) 2 + ....... + ( xn − X ) 2
conceptului de grade de libertate. D=
n −1
Grade de libertate
După cum se observă, numărătorul
În general, prin număr de grade de fracției din definiția dispersiei este cu atât
libertate al unei mărimi se înţelege numărul mai mare cu cât abaterile individuale de la
variabilelor independente a căror variaţie nu medie sunt mai mari și deci este natural să
suferă nicio restricţie şi care definesc considerăm că o valoare mare a dispersiei
mărimea considerată. Altfel spus, numărul arată o împrăștiere mare a valorilor din serie.
gradelor de libertate este egal cu numărul
variabilelor independente, care definesc De fapt, este bine de reținut că:
mărimea considerată, minus numărul de -la medii aproximativ egale, este mai
restricţii la care sunt supuse. împrăștiată seria cu dispersia mai mare;
De exemplu, dacă avem o serie care -la dispersii aproximativ egale, este mai
conţine o singură valoare, media acelei serii împrăștiată seria cu media mai mică.
va fi exact acea valoare şi nu ar exista o
Dispersia are dezavantajul că se exprimă
abatere de la medie, deci nu ar avea sens să
cu unitățile de măsură ale valorilor din serie,
discutăm despre dispersie. Dacă adăugăm
ridicate la pătrat. De exemplu, dacă valorile
încă o valoare la serie, media se poate
din serie se măsoară în mg/l, atunci dispersia
modifica şi pot să apară diferenţe între medie
se măsoară în mg2/l2, ceea ce este în mod
şi cele două valori, deci are sens să vorbim
evident extrem de nenatural; mai grav este
despre împrăştierea valorilor în jurul mediei,
când obţinem unităţi care au sens, pentru că
adică despre dispersie. Dacă vom adăuga o a
se pot crea confuzii: dispersia pentru distanţe
treia valoare, vom avea doi factori care vor
va avea ca unitate m2, care este unitate de
influenţa dispersia datelor. Vom numi aceşti
măsură pentru suprafeţe.
factori „grade de libertate”, iar numărul lor
va fi cu unul mai mic decât numărul de valori Un alt dezavantaj al dispersiei este acela
din serie, adică n-1. Dispersia a n numere are că, în general, are valori foarte mari
n-1 grade de libertate, deoarece pentru a comparativ cu abaterile de la medie. Dacă
obţine o valoare impusă se pot alege arbitrar avem două valori, 10 şi 30, media lor va fi
n-1 valori, a n‑a valoare fiind în acel 20, iar abaterile absolute sunt -10 şi +10.
moment fixată de restricţia ca valoarea să fie Dispersia va avea o valoarea 200, adică
egală cu valoarea impusă. exagerat de mare în comparație cu abaterile
absolute.
Un alt mod de a vedea lucrurile este acela
că numărul gradelor de libertate este egal cu Din aceste motive, pentru a descrie
numărul valorilor independente pentru care împrăştierea valorilor dintr-o serie se
105
Informatică Medicală și Biostatistică
folosește în mod curent un alt indicator care Notând prima serie cu X, iar pe a doua cu
este radicalul dispersiei. Y, se constată că ambele au media 180.
Pentru abaterile de la medie şi pentru
2.2.2.3.3. Deviaţia sau abaterea
pătratele lor vom avea următoarele valori:
standard se notează cu s (sau cu σ , dacă este
vorba despre deviaţia standard teoretică a -xi - X : -10, 0, -20, 0, 10, 10, 0, 10,
unei populaţii), şi are formula: -10, 10. X = 180.
σ = D sau -yi - Y : -20, -10, 10, -20, 10, 10, 20,
( x1 − X ) + ( x 2 − X ) + ....... + ( x n − X )
2 2 2
0, 0, 0. Y = 180.
s=
n −1
-(xi - X )2 : 100, 0, 400, 0, 100, 100, 0,
100, 100, 100.
Abaterea standard este un indicator foarte -(yi - Y )2 : 400, 100, 100, 400, 100, 100,
fidel al împrăștierii seriei şi nu are 400, 0, 0, 0.
dezavantajele dispersiei, adică unitatea de
măsură este aceeași cu a valorilor din serie,
și are o valoare comparabilă cu abaterile În acest caz, Dx va fi:
individuale de la medie.
( x1 − X ) 2 + ( x2 − X ) 2 +.......+( x10 − X ) 2 400 + 6 ⋅100 1000
Abaterea standard este utilă pentru a Dx = = = = 1111,
10 − 1 9 9
aprecia variabilitatea datelor dintr-o serie. În
medicină acest aspect este important, Calculând în mod asemănător, Dy = 1600
deoarece un parametru biologic care variază / 9 = 177,7.
foarte mult poate să însemne că anumiţi Se observă că, în timp ce abaterile de la
factori care îl influenţează nu sunt bine medie sunt de ordinul zecilor, dispersiile
controlaţi. De exemplu, pentru un pacient sunt de ordinul sutelor, ceea ce este destul de
hipertensiv este mai periculos să aibă valori nenatural, și în plus, unitatea de măsură este
foarte mari care alternează cu valori cu totul alta.
normale, decât să aibă în mod constant valori
uşor crescute, dar bine controlate prin Pentru abaterile standard, vom avea:
tratament, deoarece, în primul caz, este mai
sx = D x = 111,1 = 10,54
probabilă apariţia unui accident vascular
care poate să aibă consecinţe foarte grave. sy = D y = 177,7 = 13,33
Pentru a vedea cum analizăm
variabilitatea unor date cu ajutorul deviaţiei Deoarece mediile celor două serii sunt
standard, să presupunem că am măsurat egale, însă deviaţiile standard, care măsoară
zilnic tensiunea arterială sistolică pentru doi împrăştierea datelor, sunt diferite, putem
pacienți, timp de 10 zile, obținând pentru afirma că seria Y are o variabilitate mai mare
fiecare următoarele valori: sau este mai împrăștiată decât seria X.
-170, 180, 160, 180, 190, 190, 180, 190, 170, Este bine de reținut că:
190, pentru primul pacient și -la medii aproximativ egale, este mai
-160, 170, 190, 160, 190, 190, 200, 180, 180, împrăștiată seria cu deviația standard mai
180, pentru al doilea. mare.
106
Informatică Medicală și Biostatistică
107
Informatică Medicală și Biostatistică
108
Informatică Medicală și Biostatistică
10%, 20%, ... 90% din lot, asemănător cu variabilitate fiziologică foarte mare, de
cuartilele. Decila 5, sau de 50%, este de fapt exemplu pentru greutatea sau înălţimea
mediana. copiilor la o anumită vârstă, în pediatrie (vezi
figura 2.2.8).
2.2.2.4.3. Centilele (percentilele) sunt
mai rar folosite, doar în studii pe mii de 2.2.2.4.4. Excentricitate (skweness) este
cazuri, de obicei desfăşurate la nivel național un indicator al asimetriei.
sau internațional, sau în studii
Excentricitatea unei serii de valori x1,
epidemiologice, și sunt corespunzătoare
x2,…..xn, se calculează cu formula:
procentelor de 1%, 2%,...99% din lot.
Centila de 25% este cuartila Q1, cea de 50% n
109
Informatică Medicală și Biostatistică
fără alte vârfuri locale. La fel se întâmplă şi Formula de calcul a boltirii este:
pentru mulți alți parametric cum ar fi n
bilirubina, transaminazele, colesterolul,
glicemia etc. ∑ (x i − X )4
k= i =1
−3
Totuși, în unele patologii vom întâlni și nσ 4
parametri care se distribuie cu asimetrie spre
stânga: hemoglobina, calcemia, sodiul ionic.
Hemoglobina, de exemplu, se poate distribui
cu frecvență mai mare la valori relativ
normale și cu frecvențe din ce în ce mai mici
pe măsură ce coborâm la valori mai mici.
Figura 2.2.9. Distribuție platicurtică,
Chiar dacă avem o patologie de tip anemie,
mezocurtică şi leptocurtică cu aceeași
ne așteptăm ca frecvența în jurul valorii de 9-
10 g/dl să fie mai mare decât frecvența în medie, dar cu boltiri diferite
jurul valorii de 7-8 g/dl, frecvență care ne
așteptăm să fie foarte mică. 2.2.2.4.6. Scorul z sau scorul standard
Există şi alte formule pentru a estima reprezintă distanţa dintre o anumită valoare
excentricitatea, de aceea, când vorbim dintr-o serie şi media distribuţiei din care
despre excentricitate, trebuie să menționăm face parte, măsurată în abateri standard. Este
şi la ce coeficient ne referim. Iată câteva o modaliatete de a standardiza diferenţa
formule pentru alţi coeficienți de dintre o valoare şi punctul central folosit ca
excentricitate. reper pentu serie, adică media. Formula de
calcul este:
X − Mod
Pearson sk1 = Pearson xi − m
σ zi =
s
3( X − Me)
sk2 = Galton Proprietăţile scorurilor z sunt:
σ
2(Q3 + Q1 − 2 Me) -media unei distribuţii z este întotdeauna
sk3 = Galton egală cu 0 – rezultă din proprietăţile mediei;
Q3 − Q1
(Q − Me) − (Me − Q1 )
sk 4 = 3
-abaterea standard a unei distribuţii z este
întotdeauna 1 – rezultă din proprietăţile
(Q3 − Me) + (Me − Q1 ) abaterii standard.
2.2.2.4.5. Boltirea (kurtosis) este un Prin urmare, transformarea în scoruri z
indicator care descrie forma distribuţiei unei înseamnă transformarea într-o distribuţie cu
serii de date în comparaţie cu o distribuţie m=0 şi s=1.
normală, aşa numita distribuţie mezocurtică.
Seriile cu datele concentrate într-o zonă mică
din întreaga gamă de valori, deci cu un vârf
mai proeminent, se numesc leptocurtice, iar
cele cu distribuţii relativ uniforme se numesc
platicurtice (vezi figura 2.2.9). Boltirea este
un indicator util în aprecierea apropierii
repartiției de repartiția normală, a cărei
boltire este 0.
110
Informatică Medicală și Biostatistică
111
Informatică Medicală și Biostatistică
Tabelul 2.3.1. Prezentarea vârstelor unor pacienţi sub formă de clase din 5 în 5 ani,
împreună cu diferite tipuri de frecvenţă
Nr. Clasa F F cc F cd f F cc F cd
1 25 - 30 5 5 234 2.14% 2.14% 100.00%
2 30 - 35 6 11 229 2.56% 4.70% 97.86%
3 35 - 40 9 20 223 3.85% 8.55% 95.30%
4 40 - 45 26 46 214 11.11% 19.66% 91.45%
5 45 - 50 30 76 188 12.82% 32.48% 80.34%
6 50 - 55 50 126 158 21.37% 53.85% 67.52%
7 55 - 60 53 179 108 22.65% 76.50% 46.15%
8 60 - 65 32 211 55 13.68% 90.17% 23.50%
9 65 - 70 14 225 23 5.98% 96.15% 9.83%
10 70 - 75 5 230 9 2.14% 98.29% 3.85%
11 75 - 80 4 234 4 1.71% 100.00% 1.71%
Total 234 100%
pentru eşantioane de sute de indivizi. 7,4 ani, ci de 10 ani, iar limitele histogramei
Formula de calcul pentru lungimea teroretică vor fi între 20 şi 100 de ani.
a clasei este:
Vom reprezenta vizual împărţirea în clase
Lungime clasă = a datelor prin graficul de tip histogramă, un
(Maxim – Minim)/număr clase grafic cu coloane care prezintă distribuţia
datelor dintr-o serie de valori. Acesta este un
Mai important decât să avem un număr
grafic în care pe orizontală sunt figurate
fix de clase, stabilit anterior, este ca
clasele din tabel, în ordine, prin segmente de
lungimea acestora să fie relevantă pentru
aceeași lungime, iar pe verticală se prezintă
variabila analizată, în acest sens putând
numărul de indivizi, prin coloane care au
modifica valoarea care reprezintă lungimea
înălțimi proporționale cu frecvențele
clasei, obţinută în urma aplicării formulei de
absolute ale claselor. Forma generată de
mai sus. După ce alegem lungimea clasei,
totalitatea coloanelor ne dă impresia vizuală
putem modifica şi valorile limită între care
pe care trebuie să o interpretăm în sensul
reprezentăm histograma, eventual folosind o
sintetizării informației legate de distrubuţia
valoare mai mică decât minimul sau una mai
datelor, de aşezare a valorilor între minim şi
mare decât maximul, care să fie multipli ai
maxim.
valorii lungimii unei clase. De exemplu,
dacă pentru reprezentarea distribuţiei unei Pentru exemplificare, prezentăm Tabelul
serii de vârste am găsit un minim de 22 de 2.3.2, care sintetizează situația parametrului
ani şi un maxim de 96 de ani, diferenţa dintre „Greutate corporală” la 941 pacienți cu
ele fiind de 74 de ani, nu vom folosi clase de diferite afecțiuni. Graficul din figura 2.3.1
reprezintă datele din tabel.
Histograma greutăţilor
180
160
160
136 130
140
(frecvenţa absolută)
Număr de valori
100-105
105-110
35-40
40-45
45-50
50-55
55-60
60-65
65-70
70-75
75-80
80-85
85-90
90-95
113
Informatică Medicală și Biostatistică
Tabelul 2.3.2. Greutatea corporală a 941 de loc un proces invers. Este tendința naturală
pacienți, pe clase din 5kg în 5kg pentru cele mai multe variabile care nu sunt
influenţate de factori externi - datele au de
Clasa Greutate (kg) Frecvența cele mai multe ori tendința de a se situa în
1 35-40 3 stânga şi dreapta mediei, fiind din ce în ce
2 40-45 10 mai puține pe măsură ce ne îndepărtăm de
medie. Pe acest grafic nu este figurată media,
3 45-50 17
dar este logic să presupunem că este situată
4 50-55 46 undeva în zona de mijloc.
5 55-60 76
Indivizii care au sub 35 Kg și cei peste
6 60-65 108 110 Kg, probabil foarte puțini sau absenţi, nu
7 65-70 136 au fost luați în calcul. Se obișnuiește totuși
8 70-75 160 ca ei să fie luați în considerare prin
introducerea a două clase speciale care, în
9 75-80 130
acest caz, ar fi fost clasa „sub 35” şi clasa
10 80-85 106 „peste 110”.
11 85-90 84
Modul cum cresc barele poate fi diferit de
12 90-95 33 modul cum descresc, iar analiza acestor
13 95-100 18 diferenţe ne dă informaţii despre asimetria
14 100-105 9 distribuţiei datelor. Deoarece în această
histogramă se observă un maxim situat
15 105-110 5 central, iar barele situate la distanţe egale de
Observăm că din stânga se începe cu bare o parte şi de alta a lui au înălţimi aproape
scunde care cresc în înălțime pe măsură ce ne egale, putem afirma că prezintă o distribuţie
apropiem de clasa din centru, după care are aproape simetrică.
114
Informatică Medicală și Biostatistică
500
Număr de valori
446
400 368
300 249
196 172
200
126
100 98
45 32 52
0
108-120 luni
12-24 luni
24-36 luni
36-48 luni
48-60 luni
60-72 luni
72-84 luni
84-96 luni
96-108 luni
Durata de supravieţuire (luni)
Figura 2.3.2. Histograma corespunzătoare supravieţuirii în cancerul mamar
luni”. De fapt, în acea clasă sunt cumulate incluse, fie să figurăm lăţimea ei ca fiind
mai multe categorii, de exemplu 120-132 lăţimea tuturor claselor componente.
luni, 132-144 luni etc., şi din această cauză
Vom prezenta mai multe grafice de tip
numărul de valori din ea este mai mare decât
histogramă, care descriu distribuţii diferite,
numărul de valori din clasele care o preced.
întâlnite în practica medicală, pentru a
Pentru a nu crea falsa impresie că frecvenţele
înţelege mai bine ce anume trebuie urmărit
cresc spre final ar trebui fie să împărţim
pe un astfel de grafic şi ce informaţii ne
înălţimea categoriei la numărul de clase
transmit ele.
Histograma înălţimilor
250
223
193
200
(frecvenţa absolută)
172
Număr de valori
142
150
105 107
100
76
50
21 19 11 5
3 9
0 1 1 0 2 1 2 1 2
0
100-105
105-110
110-115
115-120
120-125
125-130
130-135
135-140
140-145
145-150
150-155
155-160
160-165
165-170
170-175
175-180
180-185
185-190
190-195
195-200
< 100
116
Informatică Medicală și Biostatistică
80
64 62 59
60
45 48 36
40 32
21 28
19 18 16
20
5 5 7 3
0 1 1 2 2 1 2 0 1 1
0
90-100
< 50
100-110
110-120
120-130
130-140
140-150
150-160
160-170
170-180
180-190
190-200
200-210
210-220
220-230
230-240
240-250
250-260
260-270
270-280
280-290
290-300
> 300
50-60
60-70
70-80
80-90
50
Număr de valori
38 39
40
30
20 18
15
12 11 9
10 8 8
6 3
1 2 2 0 0 2
0
0-1
1-2
2-3
3-4
4-5
5-6
6-7
7-8
8-9
9-10
10-11
11-12
12-13
13-14
14-15
15-16
16-17
17-18
117
Informatică Medicală și Biostatistică
Histograma vârstelor
45
39 40
40 36
35
(frecvenţa absolută)
31
28
Număr de valori
30
23 24 23
25 22
20
14 15
15
8
10
5
5
0
< 20
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
50 - 55
55 - 60
60 - 65
65 - 70
70 - 75
75 - 80
20-25
frântă care rezultă poartă numele de poligon histograma, cât şi poligonul frecvenţelor
al frecvenţelor. Poligonul frecvenţelor se sunt reprezentări cu pierdere de informaţie
poate realiza şi din histogramă, prin unirea faţă de datele originale, deoarece prezintă
mijloacelor laturilor superioare ale barelor. doar câte valori se găsesc între anumite
limite, nu valorile exacte ale datelor.
Prin urmare, histograma şi poligonul
frecvențelor conțin exact aceeași cantitate de În figura 2.3.7 este reprezentat un
informație, dacă au la bază același tabel de exemplu pentru modul cum se obține
frecvențe. Trebuie precizat că atât poligonul frecvențelor din histogramă.
40
Număr de valori
30 32
30 26
20 14
6 9
10 5 5
4
0
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
50 - 55
55 - 60
60 - 65
65 - 70
70 - 75
75 - 80
Grupa de vârstă (ani)
Figura 2.3.7. Poligonul frecvențelor obținut prin unirea mijloacelor laturilor superioare ale
barelor unei histograme
119
Informatică Medicală și Biostatistică
120
Informatică Medicală și Biostatistică
zeci de valori. De exemplu, pentru o serie de o curbă de repartiție. În plus, oferă o idee mai
15 valori nu se face o histogramă. clară despre cum se obţine o curba de
repartiție.
Numim eveniment orice rezultat al unui
2.3.5. Curba densității de
experiment. Evenimentele pot fi sigure,
probabilitate imposibile sau întîmplătoare, cu o anumită
probabilitate. În cazul nostru, prin eveniment
vom înţelege ca variabila analizată sa aibă o
Pe măsură ce mărim numărul de clase
anumită valoare, aleasă anterior.
dintr-o histogramă, lungimea claselor scade
Probabilitatea (p) unui eveniment este
foarte mult, astfel încât obținem histograme
raportul dintre numărul de cazuri favorabile
cu coloane din ce în ce mai fine. În acest fel
producerii lui (n) şi numărul total de cazuri
obţinem o apropiere din ce în ce mai mare de
posibile (N): p=n/N.
repartiția reală a datelor, până când ajungem
să reprezentăm fiecare valoare în mod Noţiunea de probabilitate este strîns
individual. Problema este că, într-o serie cu legată de noţiunea de frecvenţă relativă.
un număr mic de date, de ordinul zecilor sau Frecvenţele relative reprezintă valori
chiar sutelor, pot să fie variaţii importante experimentale, statistice sau estimaţii ale
între frecvenţele absolute a două valori probabilităţii.
învecinate, ceea ce se traduce printr-o În teoria probabilităților, o funcție a
histogramă cu un aspect zimţat, cu diferenţe densității de probabilitate sau densitatea unei
mari între coloane învecinate. variabile aleatorii continue este o funcție a
Dacă reprezentăm un număr mare de cărei valoare în orice punct dat din setul de
date, pe măsură ce coloanele devin din ce în valori posibile luate de variabila aleatoare
ce mai fine, ele tind să genereze forma unei poate să fie interpretată ca oferind o
curbe. Dacă volumul seriei ar fi extrem de probabilitate ca variabila să fie egală cu acea
mare, de ordinul miilor sau zecilor de mii, valoare.
asemănarea cu o curbă ar fi atât de clară încât În medicină şi biologie, ca şi în celelalte
ochiul nu ar mai putea observa aspectul de domenii de activitate, există o varietate largă
treaptă, mai ales dacă în locul histogramei de curbe ale densității de probabilitate. În
folosim ca reprezentare poligonul figura 2.3.9 sunt prezentate câteva forme de
frecvențelor. Între limitele acelei curbe,
astfel de curbe.
graficul ei şi axa orizontală se vor găsi toate
valorile posibile pe care le poate lua variabila Probabilitatea de producere a unui
analizată. eveniment poate să varieze între 0% şi 100%,
sau, altfel spus, între 0 şi 1. Dacă se
O curbă a densității de repartiție este consideră că aria cuprinsă între curba de
curba care are același aspect cu curba către repartiţie şi axa orizontală este 1 sau 100%,
care tinde poligonul frecvențelor relative, atunci ea poate fi considerată ca fiind o curbă
atunci când numărul de valori dintr-o serie de distribuţie a probabilităţii. Pentru o
tinde la infinit, iar lungimea fiecărei clase exprimare mai clară, în locul termenului de
tinde la 0. curbă a densității de probabilitate, vom folosi
Acest mod de a ajunge la o curbă de termenul de curbă de repartiție, sau mai
repartiție este instructiv prin faptul că oferă simplu, repartiție.
o imagine intuitivă a diferenței dintre o
histogramă sau un poligon al frecvențelor și
121
Informatică Medicală și Biostatistică
Prin urmare, probabilitatea ca, extrăgând extrăgând aleator un individ din populație,
aleator un individ dintr-o populație a cărei valoarea obținută x să fie între a și b
repartiție are o curbă cunoscută și făcând
măsurarea pe acel individ, valoarea obținută
x, să fie situată între două numere a și b 2.3.6. Densitatea Normală (Gauss)
fixate (x≥a și x≤b), este exact aria cuprinsă
între curbă, axa orizontală şi cele două
verticale în a și b (figura 2.3.10). Pe măsură ce statistica a evoluat, s-a
demonstrat că unele din curbele densității de
probabilitate joacă un rol foarte important în
știință în general şi în medicină în special.
Astfel, multe fenomene din știință se petrec
astfel încât deviațiile stânga-dreapta de la
medie ale măsurătorilor pe care le facem sunt
repartizate simetric şi nu la întâmplare, şi
tind să fie distribuite foarte asemănător cu o
anumită formă care se numește curba
densității normale sau curba Gauss. Uneori,
Figura 2.3.10. Aria cuprinsă între curbă, axa graficul funcției este denumit “clopotul lui
orizontală şi două verticale în dreptul Gauss” datorită formei lui deosebite,
numerelor a şi b este probabilitatea ca, asemănătoare unui clopot.
122
Informatică Medicală și Biostatistică
Curba Gauss a jucat în istoria științei și cazuri tinde la infinit, iar lungimea claselor
are şi acum un rol foarte important, iar în se apropie de zero.
medicină foarte mulți parametri legați de
Curba normală mai este cunoscută sub
organismul uman, de legile fundamentale ale
denumirea de legea Gauss-Laplace sau legea
viului, sunt repartizați după această curbă.
normală și apare pentru prima dată într-o
Formula curbei lui Gauss este: lucrare a matematicianului Moivre (1667-
( x − m) 2
1754), apoi în lucrările lui Pierre Simon de
1 − Laplace (1749-1827). Celebră este făcută de
f ( x) = ⋅e s2
lucrările matematicianului, fizicianului şi
s 2π
astronomului Carl Friedrich Gauss (1777-
Se observă că această curbă depinde de 1855). Utilitatea acestei repartiții se
doi parametri, m și s, şi ea este perfect datorează faptului că multe fenomene din
determinată în momentul în care se cunosc natură se supun exact sau cu aproximaţie
acești parametri. Deoarece curba descrie acestei legi. Printre altele, deviațiile stânga-
repartiția unei populații, cei doi parametri dreapta de la medie ale erorilor de măsurare
reprezintă media (m) și abaterea standard (s) urmează această lege simetrică şi erori din ce
ale populației respective. Chiar dacă se în ce mai mari sunt din ce în ce mai rare. S-a
consideră de obicei că pentru variabilele demonstrat că multe repartiții empirice
folosite uzual în practica medicală valorile întâlnite în practică pot fi aduse la o repartiție
medii sunt cunoscute și se cunosc și așa- Gauss prin transformări simple și în felul
numitele intervale de normalitate, în realitate acesta devin mai ușor de studiat.
se cunosc doar foarte bune aproximări ale lor
Trebuie reținut că repartiția Gauss are
obținute pe baza unor studii foarte atente, pe
loturi largi. Valorile reale ale mediei şi următoarele proprietăți importante:
deviației standard pentru o populație 1.Este simetrică față de media m
distribuită normal, notate cu X și σ, sunt 2.Are maximul pentru x = m
aproximate cu m și s, care sunt indicatorii
medie şi abatere standard pentru un lot extras 3.Are două puncte de inflexiune, pentru
din populația respectivă. x= m-s și x=m+s
Curba repartiției normale sau curba lui 4.Are două cozi spre + și – infinit care se
Gauss este simetrică faţă de medie, unde are apropie din ce în ce mai mult de axa
şi valoarea maximă. Prin analiză matematică orizontală, fără să o atingă
se arată că graficul acestei funcții are un 5.Mediana şi modul coincid cu media
maxim pentru x=m, două puncte de
6.Deoarece mediana coincide cu media,
inflexiune (în care devine din concavă,
jumătate din aria de sub curbă se află în
convexă) în dreptul valorilor m-s și m+s şi că
stânga mediei și jumătate în dreapta. Deci,
valoarea ei tinde la zero pe măsură ce ne
într-o populație repartizată Gauss, 50% din
îndepărtăm de medie la stânga sau la dreapta.
indivizi sunt sub medie și 50% peste medie
Curba Gauss este simetrică, însă
Repartiția Gauss este de fapt o familie de
niciodată simetria nu este perfectă pe o
repartiții ce depinde cei doi parametri: media
histogramă reală. Prin distribuţie sau curbă
ideală înțelegem curba perfect simetrică și deviația standard.
către care se îndreaptă histograma sau Avem o infinitate de curbe Gauss care au
poligonul frecvențelor când numărul de aceeași deviație standard dar au medii
123
Informatică Medicală și Biostatistică
124
Informatică Medicală și Biostatistică
între curba Gauss, axa orizontală şi cele două cuprinse între -2,58 şi 2,58, 99,9 au scoruri
verticale la limitele fixate. De obicei se cuprinse între -3,30 şi +3,30.
analizează intervalele din jurul mediei,
Există tabele în care putem vedea relaţia
simetrice, cu limite situate la o distanță de
dintre valoarea scorului z şi procentul din
una sau mai multe abateri standard de medie.
totalul datelor care au valori mai mici decât
Cele mai importante astfel de intervale sunt
acel scor (procent care corespune ariei de la
prezentate în figura 2.3.13.
-∞ până la acea valoare). De exemplu,
În intervalul [m-s, m+s] se află aporape o z95%=1,68 – adică 95% dintre valorile
treime, mai precis aproximativ 68% din scorurilor z sunt mai mici decât 1,68. Dacă
indivizii unei populații repartizate normal. dorim să aflăm care este valoare z, astfel
Aceasta însă nu este o majoritate suficient de încât un procent fixat, de exemplu 95%, să
mare pentru a descrie între ce limite sunt fie între -z şi +z, vom căuta z1-α/2, unde α=1-
situate valorile normale măsurate pentru procentul căutat. Pentru 95%, α=5%, deci 1-
indivizii dintr-o populație. α/2=97,5%, iar z97,5%=1,96.
De aceea se ia cel mai adesea în
considerare intervalul [m-2s, m+2s] în care
se situează aproximativ 95% din indivizii
unei populației repartizate normal. Acest
interval este suficient de larg și cuprinde o
majoritate satisfăcătoare a populației, așa că
este cel mai indicat să fie folosit ca interval
de normalitate.
Când avem nevoie de o siguranţă mai
mare pentru caracterizarea valorilor
indivizilor din populaţie, se folosesc
intervale mai cuprinzătoare, ca intervalul
[m-3s, m+3s], în care se situează peste 99%
din populația considerată. În acest caz, însă,
precizia de măsurare este mai mică, deoarece
intervalul este cu 50% mai larg decât pentru
intervalul [m-2s, m+2s], dar siguranţa creşte
cu doar 4%, faţă de intervalul de 95%.
În concluzie, dacă am transforma valorile
datelor originale în scoruri z (reamintim că
scorul z reprezintă raportul dintre diferenţa
unei valori faţă de medie şi deviaţia
standard), aproimativ 68% dintre valori ar
avea scoruri z cuprinse între -1 şi +1,
aproximativ 95% ar avea scoruri z cuprinse
între -2 şi +2, aproximativ 99% ar avea
scoruri z cuprinse între -3 şi +3. Mai precis,
exact 95% dintre date au scoruri z cuprinse
între -1,96 şi +1.96, 99% au scoruri z
125
Informatică Medicală și Biostatistică
126
Informatică Medicală și Biostatistică
127
Informatică Medicală și Biostatistică
de scădere a primei este însoțită de o tendință celuilalt. Astfel, creșterea valorii creatininei
de scădere a celei de-a doua. Observăm că serice este asociată unei scăderi a ratei
forma graficului este mai laxă, mai filtrării glomerulare. Acești doi parametri
împrăştiată, ceea ce ne arată că regula de sunt un exemplu de corelație inversă; în
asociere dintre tensiunea arterială sistolică şi figura 2.4.4 observăm aşezarea punctelor pe
cea diastolică nu este la fel de precisă ca în o direcţie descendentă.
cazul VSH, deci corelaţia este mai slabă.
Vom spune că doi parametri sunt corelați
Şi alte perechi de parametri manifestă o invers dacă, odată cu creșterea unuia, celălalt
comportare asemănătoare: numărul de are tendinţa să descrească (au tendință
eritrocite şi hemoglobina, colesterolemia și inversă de variație).
lipemia etc. Trebuie subliniat că variația
concomitentă a celor doi parametri se
manifestă numai ca tendință, nu este o
regulă. Pot exista indivizi cu tensiunea
sistolică foarte mare și cea diastolică
normală sau invers, indivizi cu tensiunea
sistolică normală şi cea diastolică scăzută.
Totuși, majoritatea indivizilor manifestă
tendința de a avea valori crescute sau scăzute
pentru ambele, concomitent.
Vom spune că doi parametri care au
tendința de a crește sau descrește simultan
sunt direct corelați.
Figura 2.4.5. Graficul de corelație între
vârstă şi lactat dehidrogenază
129
Informatică Medicală și Biostatistică
a puterii corelației dintre doi parametri, altfel Această formulă, care la prima vedere
nu am putea verifica validitatea pare foarte complicată, ne oferă în realitate,
presupunerilor legate de legăturile descrise şi într-un mod relativ simplu, o valoare
nu am putea face comparaţii între legături, numerică care apreciază foarte obiectiv
iar corelația ar fi o noțiune prea puțin utilă. situația de fapt în ceea ce privește corelația.
De-a lungul timpului au fost propuse mai Coeficientul de corelaţie r are valori
multe metode de măsurare a tendinței de cuprinse între -1 şi 1. Valoarea maximă, 1, se
corelație. Dintre ele cele mai utile s-au obţine când valorile lui y sunt întotdeauna
dovedit acelea care propun calcularea de egale cu o combinaţie liniară a lui x
coeficienți bazaţi pe formule matematice (y=a·x+b, unde a,b>0), iar valoarea minimă,
care evaluează cazurile în care relaţia -1, se obţine când valorile lui y sunt exact
presupusă se manifestă şi cazurile în care se opusul unei combinaţii liniare a lui x (y= - a
observă contrariul sau nu se întâmplă nimic, x+b, unde a,b>0).
coeficienţi care țin cont de toate valorile pe
În cazul unui coeficient de corelaţie
care le avem la dispoziție.
pozitiv (ex. r = 0,5) avem o corelaţie directă,
Coeficientul de corelație r al lui Pearson adică cele două variabile corelate variază în
este de departe cel mai utilizat în exprimarea acelaşi sens (când una creşte, şi cealaltă
tăriei corelației între doi parametri numerici. creşte, respectiv când una scade, şi cealaltă
El poate fi folosit pentru două serii de date scade). În cazul unui coeficient de corelaţie
distribuie gaussian şi măsoară asemănarea negativ (ex. r = -0,5) avem o corelaţie
dintre relaţia observată între perechile de inversă, adică cele două variabile corelate
valori din realitate şi valorile calculate cu variază în sens contrar (când una creşte,
ajutorul unei ecuaţii de ordinul întâi sau cealaltă scade). Dacă valoarea absolută a
liniare. Deşi distribuţiile datelor întâlnite în coeficientului de corelaţie este slabă
medicină nu sunt întotdeauna de aşa natură (aproape de 0), nu trebuie să se conchidă
ca rezultatele obţinute folosind acest neapărat că nu există legătură statistică între
coeficient sa fie cele mai bune, totuşi am cele două variabile; legătura poate să existe,
considerat că acesta este cel mai sintetic dar nu este liniară (nu poate fi descrisă de o
indicator al corelaţiei şi trebuie explicat. linie dreaptă).
Formula folosită pentru calculul Pentru a înțelege cum funcționează
coeficientului de corelaţie Pearson este: formula de calcul pentru coeficientul r să
luăm un exemplu privind corelaţia dintre
∑ (x − X )⋅ ( y i − Y )
n
1 173 80 -7 -2 14 49 4
2 186 90 6 8 48 36 64
3 174 95 -6 13 -78 36 169
4 185 93 5 11 55 25 121
5 190 94 10 12 120 100 144
6 166 62 -14 -20 280 196 400
7 184 74 4 -8 -32 16 64
8 183 94 3 12 36 9 144
9 185 96 5 14 70 25 196
10 171 78 -9 -4 36 81 16
11 196 99 16 17 272 256 289
12 178 69 -2 -13 26 4 169
13 190 83 10 1 10 100 1
14 164 48 -16 -34 544 256 1156
15 175 75 -5 -7 35 25 49
Media Media Suma Suma Suma
180 82 1436 1214 2986
Valorile necesare pentru calculul lui r se numărător tinde să aibă valori pozitive
regăsesc în tabelul 2.4.1. Valoarea lui r este: crescute.
1436 1436 1436 Evident, corelația dintre parametri este
r= = = = 0.754
1214 * 2986 3625004 1093.944 doar o tendință şi este probabil să întâlnim
pacienți care, deși au unul din parametri
Din cauza tendinței a doi parametri care crescut, de exemplu peste medie, celălalt
se corelează direct, ca atunci când unul este poate să nu fie crescut, chiar să fie sub
crescut, să fie și celălalt crescut, sau când medie, caz în care produsul corespunzător lui
unul este scăzut, şi perechea lui să fie
scăzută, pentru majoritatea pacienților vom
(x i − X )⋅ ( yi − Y ) va fi negativ. Dar acest
fi în situații ca în tabelul de mai sus, adică ori fenomen nu este o tendință dacă parametrii
ambii sunt sub medie, iar diferenţele vor fi sunt corelați, ci mai curând un accident, o
negtive, ori ambii sunt peste medie, iar excepţie de la regulă. Suma obținută la
diferenţele vor fi pozitive. Prin urmare, numărător va avea tendința de a lua valori
produsele rezulate sunt preponderent mari și pozitive în ciuda unor astfel de
pozitive şi, când se adună la numărător, situaţii.
acesta va creşte. În acest caz, suma de la
131
Informatică Medicală și Biostatistică
Dacă cei doi parametri sunt corelați ca r să fie cuprins între -1 şi +1.
invers, adică tendința unuia de a avea valori Magnitudinea lui r, precum şi semnul său,
crescute este însoțită de tendința celuilalt de sunt dictate de suma de la numărător.
a avea valori scăzute, predominante vor fi Așadar, orice valori ar lua cei doi parametri,
situațiile în care în produsul prin calculul lui r obținem un număr real
(x i − X )⋅ ( y i − Y ) cuprins în intervalul de numere [-1, 1].
ia valori negative. Într- Puterea corelaţiei este cu atât mai mare cu cât
adevăr, dacă un parametru are valori sub partea numerică, adică modulul sau valoarea
medie și celălalt peste medie, o paranteză va absolută, este mai mare, mai apropiată de 1,
fi pozitivă și una negativă. Dacă acest fapt semnul + sau – arâtând doar tipul de
este o tendință, produsele care se adună la corelaţie, directă sau inversă. În figurile
numărător vor fi cele mai multe negative. 2.4.8 şi 2.4.9 se poate observa legătura dintre
Suma obținută la numărător va avea tendința valoarea lui r şi aspectul graficului scatter.
de a lua valori mari și negative.
Reguli empirice de interpretare pentru
Dacă cei doi parametri nu sunt corelați, valorile lui r au fost sugerate de diverşi
parantezele de la numărător vor avea semne autori, printre cele mai cunoscute fiind cele
aleatorii, unele produse i
(x − X )⋅ ( y − Y )
i propuse de T.Colton, în lucrarea Statistics in
vor fi pozitive și unele negative. Tendința va Medicine, publicată la New York în 1974:
fi ca cele negative și cele pozitive să se r = [-0.25 ; +0.25] → fără corelaţie
anuleze unele pe altele. Prin urmare, suma
r = (+0.25 ; +0.50] + (-0.25 ; -0.50] →
obținută la numărător va avea tendința de a
corelaţie slabă
lua valori mici, pozitive sau negative.
r = (+0.50 ; +0.75] + (-0.50 ; -0.75] →
corelaţie moderată
r = (+0.75 ; +1] + (-0.75 ; -1] → corelaţie
puternică
Interpretarea coeficientului de corelație
Pearson se poate face şi astfel:
Figura 2.4.8. Legătura dintre valoarea lui r
şi aspectul graficului scatter r є [0; 0.2] → corelaţie foarte slabă,
inexistentă
r є [0.2; 0.4] → corelaţie slabă
r є [0.4; 0.6] → corelaţie rezonabilă
r є [0.6; 0.8] → corelaţie înalta
r є [0.8; 1] → corelaţie foarte înaltă -
relaţie foarte strînsă între variabile sau eroare
de calcul.
Figura 2.4.9. Relaţia dintre valoarea lui r şi
Dacă valoarea coeficientului de corelaţie
aspectul graficului scatter
Pearson este 0, acest lucru nu înseamnă că
între date nu există o relaţie de legătură. Este
posibil să existe o relaţie, dar aceasta este
Numitorul coeficientului r are totdeauna
mai complexă şi nu poate să fie echivalată
semnul +, iar rolul lui este numai de a face
132
Informatică Medicală și Biostatistică
unei ecuaţii de gradul întâi, aşa cum se iau valori absolut aleatorii. Cunoscând
observă în ultimul rând al figurii 2.4.9 – valoarea unuia dintre ei, putem estima destul
graficele prezintă o aşezare ordonată a de precis valoarea celuilalt, ea fiind
punctelor, dar acestea nu sunt dispuse de-a condiţionată, limitată ca gamă de valori de
lungul unei drepte. valoarea primului. Relaţie este cu atât mai
exactă, cu cât este mai puternică influenţa
Pentru coeficientul de corelaţie Pearson
unui parametru asupra celuilalt şi cu cât de
putem să calculăm un interval de încredere,
des se manifestă acea relaţie în cadrul
de obicei de 95%, adică intervalul în care se
populaţiei.
vor găsi valorile coeficientului pentru 95 din
100 de loturi de indivizi, extrase din aceeaşi Pentru a putea descrie comportarea unui
populaţie. Se consideră că r este semnificativ set de valori, reprezentând observaţii
atunci când intervalul de încredere este un pereche, se poate folosi o aşa numită ecuaţia
interval ce nu conţine valoarea 0 (respectiv r de regresie. Ecuaţia de regresie este relaţia
> 0,5 sau r < -0,5). Pentru a vedea daca matematică care exprimă dependenţa dintre
valoarea lui r este semnificativă din punct de două sau mai multe variabile.
vedere statistic se poate calcula şi un
Noțiunea de regresie se referă la o clasă
parametru numit t, care corespunde unei
de metode statistice prin care se estimează
distribuţii speciale de probabilitate, numită
relațiile dintre diverse variabile. Mai
distribuţie t Student, care se transformă într-
precis, scopul este de a determina relația
o valoare de probabilitate p. Dacă
dintre o variabilă dependentă şi una sau mai
probabilitatea este sub un anumit prag de
multe variabile independente. Metodele de
semnificaţie, ales de obicei ca fiind 0,05
regresie estimează valoarea unei variabile
(adică opusul lui 95%), putem afirma cu acel
dependente pe baza valorii unei variabile
nivel de siguranţă că între cele două variabile
independente sau valorilor unui set de
se manifestă corelaţia presupusă.
variabile independente. Astfel, scopul
r regresiei este de a determina o funcție a
t= variabilelor independente care furnizează
(1 − r ) /( N − 2)
2
valoarea dependentă corespunzătoare.
Pătratul coeficientului de corelaţie, notat Tehnicile prin care se realizează estimarea în
r2, reprezintă coeficientul de determinare cadrul regresiei depind în principal de tipul
între cei doi parametri, are valori între 0 şi 1 datelor analizate și de tipul funcției care se
şi măsoară valoarea covariaţiei raportată la estimează.
volumul total al variaţiei, rezultând Ecuaţia de regresie se figurează pe un
procentul din variaţia totală care este grafic scatter prin curba de regresie.
explicată de variabila independentă. De
exemplu, dacă r = 0.80, atunci variabila
2.4.4.1. Regresia liniară. Dreapta de regresie
independentă explică 64% din variabilitatea
variabilei dependente y.
Frecvent se foloseşte ecuaţia de gradul
întâi sau liniară pentru a descrie relaţia dintre
2.4.4. Noţiunea de regresie
două variabile. În acest caz, curba prin care
se reprezintă este o linie dreaptă, denumită
Dacă doi parametri sunt suficient de dreaptă de regresie, care are formula:
puternic corelați, atunci perechile de date nu y = a·x +b
133
Informatică Medicală și Biostatistică
unde y este variabila dependentă, iar x graficului. Vom spune că o dreaptă este
este variabila independentă. dreaptă de regresie liniară dacă suma
distanțelor de la puncte la dreaptă, măsurate
Parametrul a este valoarea tangentei
pe verticală și ridicate la pătrat, este minimă.
pentru unghiul format de dreapta de regresie
Folosind ecuaţia acestei drepte, dacă se
şi orizontală, iar în sens geometric reprezintă
cunoaște valoarea de pe orizontală, se poate
panta dreptei de regresie (slope). Panta
calcula cu oarecare aproximaţie valoarea de
dreptei de regresie (parametrul a) mai este
pe verticală, și invers. În exemplul din figura
denumită „coeficient de regresie” şi nu
2.4.10, dacă știm valoarea pentru VSH la o
trebuie confundat cu „coeficientul de
oră, putem calcula cu o bună aproximație
corelaţie”. În cazul corelaţiei directe sau
valoarea pentru VSH la două ore, și invers.
pozitive între variabila dependentă şi cea
Acest fapt este sugerat de săgețile care indică
independentă, el ia o valoare pozitivă, iar în
valoarea aproximativă de pe axa OY,
cazul corelaţiei inverse sau negative, are
corespunzătoare unei anumite valori de pe
valoare negativă. Parametrul b (intercept)
cealaltă axă, OX, valoare care nu este
este valoarea lui y când x este egal cu 0 şi
neapărat identică cu valoarea reală a
reprezintă punctul de intersecţie cu abcisa
parametrului analizat.
(cu axa verticală OY).
Acest model presupune că variabila
dependentă y este egală, în principiu, cu o
funcţie liniară a lui x, depinzând de
parametrii necunoscuţi a şi b. Această
dependenţă liniară este un model şi nu
reflectă exact legătura dintre xi şi yi. Valorile
observate yi nu se găsesc exact pe dreapta de
mai sus. Dreapta trasată este însă cea mai
apropiată, statistic, de valorile observate.
Admiţându-se, fie numai ipotetic,
dependenţa unei variabile de unul sau mai
mulţi factori, trebuie aleasă ecuaţia de
regresie care să descrie relaţia dintre
variabila dependentă şi variabila Figura 2.4.10. Graficul scatter şi dreapta de
independentă cât mai corect, cu cea mai mică regresie care descriu relaţia dintre
eroare. Estimarea parametrilor a (slope) şi b VSH la o oră şi VSH la două ore
(intercept) se face uzual prin „metoda celor
mai mici pătrate” sau în sensul celor mai
mici pătrate, adică să fie minimă suma Trebuie subliniat că valoarea
pătratelor diferenţelor dintre valorile coeficientului de corelaţie reprezintă gradul
înregistrate yi, şi valorile punctelor de apropiere dintre punctele de pe grafic şi
corespunzătoare de pe dreapta de regresie, dreapta de regresie. De exemplu, în cazul
care au valoarea f(x)= a·xi +b, pentru toate indicelui de masă corporală (IMC),
valorile xi. dependenţa de greutatea corporală şi de
înălţime este certă, IMC fiind raportul dintre
În cazurile ca cel din figura 2.4.10, se greutate şi pătratul înălţimii.
poate încerca găsirea unei drepte care să
reprezinte o legătură între cei doi parametri Aşa cum se observă în figurile 2.4.11 şi
şi care să treacă cât mai aproape de punctele 2.4.12, relaţia direct proporţională dintre
134
Informatică Medicală și Biostatistică
greutate şi IMC este mai puternică (r=0.670) întâlni extrem de multe astfel de situații. În
decât relaţia invers proporţională dintre aceste cazuri se caută nu drepte de regresie,
înălţime şi IMC (r= -0.239), norul de puncte ci alte curbe, exprimate prin ecuaţii
din prima figură fiind mai concentrat în jurul polinomiale de ordin superior sau funcţii
dreptei de regresie decât în cea de-a doua. exponențiale, logaritmice.
Pentru regresia polinomială cea mai
simplă generalizare este cazul polinomului
de gradul al doilea:
y=ax2+bx+c,
caz în care, în mod evident, trebuie găsiți trei
coeficienți în loc de doi. Cantitatea de
minimizat prin „metoda celor mai mici
pătrate” este
∑ (y − ax )
n
2
S= i
2
i − bxi − c = min
i =1 .
La modul general, funcția de regresie
dintre două variabile poate fi un polinom de
Figura 2.4.11. Relaţia dintre greutate şi orice grad. Pot fi folosite şi regresii cu
IMC polinoame de ordin mai mare, însă pentru a
presupune că între doi parametri este o
legătură foarte complexă trebuie dovezi
teoretice solide, care de obicei nu sunt
disponibile.
Regresia exponenţială se aplică atunci
când variabila dependentă are valori de semn
constant (are fie numai valori pozitive, fie
numai valori negative – în acest caz se
consideră |y| ca variabilă dependentă). Norul
de puncte se aproximează printr-o curbă
exponenţială, valorile estimate
determinându-se prin formula:
yi=β·eα·xi
Figura 2.4.12. Relaţia dintre înălţime şi
IMC Prin logaritmarea relaţiei şi introducerea
schimbării de variabilă zi=ln(yi), se obţine:
zi= α·xi+ln(β),
2.4.4.2. Regresii neliniare
care este un model de regresie liniară pentru
variabilele X și Z
Există cazuri când dependența între un Regresia logistică, denumită și modelul
efect și o cauză, sau în general între doi regresiv logistic sau logit, este utilizată
parametri, nu este liniară. În realitate se pot pentru a analiza variabilele binare,
135
Informatică Medicală și Biostatistică
Y = a1 ⋅ X 1 + a2 ⋅ X 2 + .......... + an X m
unde Y este parametrul care depinde de
Figura 2.4.13. Exemplu de curbă ceilalți, X1, X2,.............Xn sunt parametrii
reprezentând o regresie logistică independenți, iar m este numărul lor, uzual
136
Informatică Medicală și Biostatistică
având valoarea 2 sau 3, mai rar ajungându-se Cel mai mic număr are rangul 1, iar cel mai
să fie folosite mai multe variabile predictor, mare număr va avea rangul N, unde N este
deoarece formulele devin nepractice şi nici numărul total de valori. După ce fiecărei
nu mai putem să ne asigurăm că variabilele valori i s-a alocat un rang, se calculează un
predictor sunt cu adevărat independente coeficient de corelaţie pe baza rangurilor din
unele de altele. fiecare serie.
Atenţie – termenul de „regresie În cazul seriilor în care numărul datelor
multivariată” se referă la estimarea mai cu ranguri egale depășește 25% din numărul
multor variabile, deci presupune existenţa total, este indicată folosirea testului tau al lui
mai multor variabile dependente şi nu este Kendall, folosit pentru variabile ordinale,
echivalent cu „regresia multivariabilă”, în sau testul gamma al lui Goodman şi Kruskal.
care se folosesc mai multe variabile
Coeficientul Kappa al lui Cohen este o
predictor, deci independente.
măsură statistică a acordului între doi
În regresia multiplă se pune problema evaluatori sau două metode de evaluare.
găsirii coeficienților a1, a2,......an, astfel ca Variație interobservatori poate fi măsurată în
diferențele dintre valorile măsurate y1, orice situație în care doi sau mai mulţi
y2,........yn, să fie cât mai apropiate de valorile observatori independenți evaluează același
calculate cu expresia lucru. Calculul se bazează pe diferența dintre
yi = a1 ⋅ X i + a2 ⋅ X i + .......... + an X im , unde
1 2 numărul de situaţii concordante prezente
indicele i ne indică măsurătoarea, iar (acord observat), comparativ cu cât de multe
coeficienții a1, a2,......an, îi considerăm concordanţe ar fi de așteptat să fie prezente
necunoscute și ne propunem să îi aflăm. şi în doar din întâmplare (acord așteptat).
acest caz se utilizează „metoda celor mai O interpretare a valorilor testului Kappa,
mici pătrate”. De exemplu, pentru între 0 şi 1, este următoarea:
dependența între un parametru dependent şi - acord slab = 0 - 0.20
doi independenți, cantitatea de minimizat - acord minim = 0.20 - 0.40
este: - acord moderat = 0.40 - 0.60
- acord important = 0.60 - 0.80
∑ (y − a X )
n
2
S= i 1
1
i − a 2 X i2 - acord foarte important = 0.80 - 1.00
i =1
137
Informatică Medicală și Biostatistică
138
Informatică Medicală și Biostatistică
Valorile lui p, dacă s-ar putea calcula Testul z pentru proporţii se foloseşte
pentru toate eşantioanele de n indivizi, se pentru a stabili dacă, pentru o variabilă
distribuie astfel încât: calitativă, binară, diferenţa dintre o frecvenţă
teoretică P (într-o populaţie) şi o frecvenţă
-Media lui p este P, adevărata proporţie;
observată p pe un eşantion reprezentativ,
-Dispersia lui p este p(1-p)/n (dacă p nu este este semnificativă din punct de vedere
apropiat de 0 sau 1, formula reiese din statistic, sau pentru a compara frecvenţele
asemnănarea distribuţiei binomiale sau calculate pe două eşantioane randomizate,
Bernoulli cu o distribuţie normală). independente, extrase din două populaţii
O eroare de câteva procente în plus sau în diferite. Formula prin care diferenţa dintre
minus este de obicei considerată acceptabilă. cele două proporţii se transformă în scoruri z
De obicei, se foloseşte nivelul de precizie de este:
95%. Această precizie este dată de intervalul P(1 − P )
de încredere: z = ( p − P) /
n
p(1 − p )
p ± z 95% ⋅ Testul este corect aplicat dacă numărul n
n
al observaţiilor eşantionului este suficient de
unde z95%=1,96 – valoarea scorului z pentru
mare (n·p, n·(1-p)>10, sau daca cele doua
care 95% dintre valorile lui p se regăsesc în
eşantioane au un număr suficient de mare de
intervalul din jurul lui P.
subiecţi (n1, n2 >30).
În unele studii statistice se cere ca nivelul
În cazul testului z, valoarea obţinută se
de eroare al estimării să nu depăşească un
compară cu nişte valori standardizate,
anumit nivel, dianinte satbilit. Formula de
corespunzătoare unui nivel prestabilit (de
calcul a numărului minim de indivizi dintr-
95%, 99% etc.) al încrederii că diferenţa
un lot, astfel ca procentul estimat cu ajutorul
observată este semnificativă din punct de
acelui lot să aibă un interval de încredere cu
vedere statistic. Pentru testele bilaterale
o variaţie de cel mult plus-minus ε% este:
(„two-tailed”) valorile sunt z = 1,96 pentru
z 95% ⋅ P (1 − P ) încredere de 95%, respectiv z = 2,58 pentru
n>
ε2 încredere de 99%.
139
Informatică Medicală și Biostatistică
variabile. Spunem că acestea sunt tabele cu este răspunsul terapeutic, fiecare din cele
două intrări, deoarece coloanele reprezintă două criterii de clasificare are un anumit
categoriile unei variabile, iar rândurile număr de categorii (clase) în care trebuie
reprezintă categoriile celeilalte variabile. clasificați pacienții. Stadiul evolutiv ar avea
Numărând cazurile care se încadrează în cel puțin patru categorii (stadiul I, II, III și
fiecare din subcategoriile generate în acest IV), iar răspunsul terapeutic ar putea avea tot
fel şi prelucrând valorile obţinute prin teste patru clase, şi anume categoriile RC
statistice sau indicatori specifici, putem (remisiune completă, tumora se remite), RP
măsura puterea legăturilor dintre date de tip (remisiune parțială), RN (răspuns negativ) și
ordinal sau nominal. D (deces). Prin urmare, tabelul de incidenţă
ar arăta ca în exemplul furnizat în tabelul
De exemplu, dacă unul din criteriile după
2.5.2, care are 16 celule, corespunzătoare
care au fost înregistrați pacienții este stadiul
celor 4 x 4 subcategorii.
evolutiv al unei afecțiuni maligne, iar celălalt
i =1 Ei ,
Există diferite tehnici şi teste statistice
unde O - frecvenţa absolută observată, E
care încearcă să răspundă la întrebarea dacă
- frecvenţa teoretică (valoarea pentru care
există o relaţie între cele două criterii de
procentajele de pe fiecare rând ar fi egale cu
clasificare dintr-un astfel de tabel de
procentul reprezentat de totalul fiecărei
incidenţă, în funcţie de tipul datelor, ordinale
coloane faţă de totalul valorilor)
sau nominale, şi de dimensiunile tabelelor.
Testul Chi pătrat (de fapt hi pătrat, χ2) Ipotezele testate sunt:
este unul dintre cele mai cunoscute teste H0 (ipoteza nulă) – cei doi factori sunt
statistice care arată dacă există vreo legătură independenți;
(influenţă reciprocă) între doi factori. El este
H1 (ipoteza alternativă) – există o asociere
folosit pentru a interpreta tabelele de
(dependenţă) între cei doi factori.
incidență generate prin aplicarea încrucișata
(„cross tabulation”) a perechilor de factori La testul Chi pătrat de testare a
urmăriți într-un studiu statistic. dependenţei ( χ2 ) se calculează rezultatul
testului pentru datele din tabelul de
Valoarea lui χ2 se calculează prin
incidenţă, rezultat care se compară cu o
formula:
140
Informatică Medicală și Biostatistică
valoarea prag care indică o dependenţă - p < 0.05, rezultat semnificativ (S,
semnificativă între cele două variabile încredere 95% că există o asociere între
analizate (prag de 95% sau 99%) sau o factori);
dependenţă înalt semnificativă (prag de
- p < 0.01, rezultat semnificativ (S,
99.9%) între cei doi factori de clasificare.
încredere 99% că există o asociere între
Rezultatul testului se poate transforma,
factori);
folosind curba χ2 de densitate a probabilităţii
într-o valoare de probabilitate p, care arată - p < 0.001, rezultat înalt semnificativ
cât de plauzibilă este obţinerea unei (HS, încredere 99,9% că există o asociere
distribuţii a datelor din tabel atât de diferită între factori);
de o distribuţie uniformă doar datorită - p > 0.05, rezultat nesemnificativ (NS,
hazardului, adică întâmplător. încrederea de a considera că există o
Se foloseşte următoarea interpretare a dependenţă între factorii studiați este mai
valorilor lui p, furnizate direct de programul mică de 95%, deci eroarea de a respinge
cu care se realizează prelucrarea statistica a ipoteza ca factorii sunt independenți este
datelor, prin aplicarea testului de mai sus: peste 5%, prag considerat prea mare).
Femei Bărbaţi
50% 44.83%
38.00%
40%
31.03%
30%
22.00%
18.00%
20% 13.79%
12.00% 10.34%
10% 6.00%
4.00%
0.00%
0.00%
0%
<50 50-59 60-69 70-79 80-89 90>
Grupa de vârstă (p=0.015 - dif.semnificativa)
Figura 2.5.1. Repartiţia procentuală pe grupe de vârstă în funcţie de sex pentru un lot de
pacienţi şi rezultatul testului Chi pătrat
Tabelul 2.5.3. Frecvenţa absolută pe grupe de vârstă şi pe sexe pentru un lot de pacienţi
Sex\Vârsta <50 50-59 60-69 70-79 80-89 90> Total
Femei 0 4 3 13 9 0 29
Bărbaţi 6 9 11 19 3 2 50
Total 6 13 14 32 12 2 79
141
Informatică Medicală și Biostatistică
Pentru exemplul din tabelul 2.5.3, Pentru eșantioane mici, se poate folosi
rezultatul testului Chi pătrat, p=0,015<0,05, testul Chi pătrat aplicând corecția Yates,
arată că există o diferenţă semnificativă între cunoscuta şi sub denumirea de corecție de
distribuţia pe grupe de vârstă a celor 2 sexe, continuitate, ce implica micșorarea cu 0,5 a
deci diferenţele procentule dintre categoriile diferenței dintre frecvenţa observată şi cea
pereche depăşesc o anumită limită probabilă, în cadrul numărătorului lui Chi
considerată ca inacceptabilă având în vedere pătrat (din formulă), înainte de ridicarea la
numărul de cazuri analizate şi numărul de pătrat; astfel, valoarea lui Chi pătrat scade.
categorii independente din tabel - adică Scăzând valoarea lui Chi pătrat, șansele ca
numărul de grade de libertate, care, pentru un ipoteza nulă să fie respinsă scad, deci şi
tabel de incidenţă este produsul dintre riscul de a face o greșeală de tipul I
numărul M de coloane-1 şi numărul N de (respingerea ipotezei nule atunci când
rânduri-1: df= (M-1)*(N-1). aceasta este, de fapt, adevărată) scade
semnificativ. Creşte însă riscul unei erori de
Testul Chi pătrat este valid daca cel puţin
tipul II (acceptarea unei ipoteze atunci când
80% dintre frecvenţele teoretice probabile
ea este în fapt falsă). Unii statisticieni
depășesc 5 şi toate frecvenţele teoretice
recomanda utilizarea corecției de
depășesc valoarea 1.
continuitate în cazul unui tabel de
Condiția de validitate limitează contingenţă 2x2; alții se împotrivesc
semnificativ utilizarea testului Chi pătrat. În corecției. În literatura medicala, testul Chi
cazul în care o frecvenţă probabilă este sub pătrat se aplica atât cu, cât şi fără această
valoarea 1, sau dacă mai mult de 20% din corecției.
frecvenţele probabile sunt sub valoarea 5, se
recomandă utilizarea testului exact al lui
Fisher, atunci când este permisă aplicarea 2.5.2.2. Alte teste folosite pentru analiza
acestuia - loturi mici, tabele de incidenţă tabelelor de incidență
2x2, 3x2, 3x3 sau 4x2. Atenție: frecvenţele
teoretice probabile sunt calculate în cadrul
testului, nu trebuie confundate cu frecvenţele Testul Cramer verifică puterea de
observate (datele din tabel) şi reprezintă asociere dintre doi factori nominali şi se
valorile pe care ne-am aştepta să le găsim foloseşte pentru tabele cu mai multe rânduri
dacă distribuţia datelor unui factor ar fi şi coloane (pt. tabele 2x2 este preferat
aceeaşi pe toate categoriile celuilalt factor. coeficientul phi), mai precis măsoară dacă
fiecare categorie a unuia dintre factori se
Testul exact al lui Fisher reprezintă deci
asociază în mod preferenţial cu una dintre
o alternativa a testului Chi pătrat în
categoriile celuilalt factor. Rezultatul acestui
examinarea asociațiilor în cadrul unui tabel
test se notează cu V.
de contingenţă 2 x 2 etc., atunci când
frecvenţele probabile sunt mici. Condiția de V = χ 2 / min(r − 1, c − 1)
aplicare a acestui test este ca totalurile pe
rânduri şi pe coloane să fie fixe, cunoscute unde r şi c sunt nr. de randuri şi coloane
dinainte. Testul exact al lui Fisher se din tabelul de incidenta studiat. Valoarea lui
regăsește în majoritatea pachetelor statistice V se interpretează astfel: >0.5 - asociere
şi returnează, ca şi alte teste, o valoare a lui puternică, 0.3 - 0.5 - asociere moderată, 0.1 -
p. 0.3 - asociere slabă, 0 - 0.1 - fără asociere.
142
Informatică Medicală și Biostatistică
Oricum, datele din tabel sugerează şi faptul două categorii (de obicei notate Da/Nu, +/-,
că apariţia bolii nu este legată doar de Prezent/ Absent, Expus/Neexpus)
obiceiul fumatului, deoarece, din numărul
-un factor pasiv (rezultat al celui activ)
total de fumători, 87, doar o treime, adică 29,
care clasifică indivizii tot în două categorii
au afectare pulmonară prezentă.
(Bolnav/Sănătos, Da/Nu, +/-).
Deşi uneori valorile sunt de aşa natură
Prin urmare, vom avea patru categorii de
încât se constată doar prin inspecția valorilor
indivizi şi putem nota cu:
sau prin calcule foarte simple o influenţă a
factorului de clasificare pe orizontală asupra E+ numărul indivizilor expuşi la factorul
celui de clasificare pe verticală, ca în activ la care efectul este prezent
exemplul prezentat anterior, decizia dacă E- numărul indivizilor expuşi la factorul
există sau nu o dependență pare mai degrabă activ la care efectul este absent
subiectivă, deoarece nu avem un criteriu clar N+ numărul indivizilor neexpuşi la
prin care să putem stabili puterea şi natura factorul activ la care efectul este prezent
legăturii. De fapt, acest gen de tabele sunt N- numărul indivizilor neexpuşi la
foarte utile în medicină deoarece, în ciuda factorul activ la care efectul este absent
cantităţii mici de informație pe care o conțin, Dacă factorul pasiv are tendința să apară
doar patru numere, posibilitățile de a aprecia în tandem cu cel activ, atunci ne putem
o dependență între clasificările pe orizontală aștepta ca majoritatea indivizilor să apară
și verticală sunt bine studiate în acest înscriși în celulele E+ şi N-, iar celulele E- şi
moment, existând mai mulţi indicatori care N+ să rămână cu un număr mic de indivizi.
exprimă diferite aspecte ale relaţiilor dintre De obicei valorile dintr-un astfel de tabel se
cei doi factori analizaţi. notează cu a, b, c, d, ca în tabelul 2.5.5 și vom
spune că, în acest caz, majoritatea indivizilor
sunt în celulele a, d, iar în celulele b, c avem
2.5.3. Analiza relaţiilor de tip cauză-efect mai puțini indivizi. Ținând cont de această
observație, vom putea calcula câteva criterii
de dependență care ne permit o apreciere mai
Există două situaţii foarte des întâlnite în
obiectivă a unei eventuale relaţii de
medicină care se pot rezuma prin tabele de
cauzalitate.
incidenţă 2x2. Prima dintre ele se referă la
analiza relaţiei dintre un factor care se
presupune că influenţează apariţia unei boli Tabelul 2.5.5. Tabel de incidență 2x2
şi boala respectivă, iar cea de-a doua se
referă la legătura dintre rezulatele unor Factor Pasiv (Efect, Boală)
analize paraclinice sau ale unui alt tip de test Pozitiv Negativ Total
şi prezenţa sau absenţa unei boli. Factor Pozitiv E+ (a) E-(b) E
Activ Negativ N+ (c) N- (d) N
La modul general, în prima situaţie vom
(Cauză) Total + - Total
observa interacţiunea dintre:
-un factor activ (fie expunerea la un factor
care poate produce boala, consumul unui 2.5.3.1. Criteriul diagonal
produs, fie administrarea unui medicament,
aplicarea unui anumit tip de tratament), în
funcţie de care putem clasifica indivizii în O modalitate de a aprecia tendința celor
doi factori de a apare în tandem, adică
144
Informatică Medicală și Biostatistică
tendința lor de dependență, este de a urmări catalogaţi corect şi numărul total de indivizi
care este raportul dintre numărul pacienților testaţi, iar indicatorul se mai numeşte şi
la care avem concordanţă, adică ambii acurateţe (A sau Acc), aşa cum vom vedea la
factori sunt prezenți sau ambii sunt absenți, analiza testelor de diagnostic.
și numărul pacienților la care nu avem
Este un criteriu mai uşor de înţeles,
concordanţă, adică un factor este prezent iar
deoarece reprezintă, de fapt, procentul de
celălalt absent. Acest raport, pe care îl vom
pacienți la care apar concordanţele aşteptate:
numi Criteriul Diagonal (CD), este:
a+d a+d
CD = CP =
b+c a+b+c+d
În tabelul 2.5.4, avem CD = În tabelul 2.5.4, CP = (29+166)/260 =
(29+166)/(58+7) = 195/65 = 3, adică sunt de 195/260 = 0,750, adică sunt 75,00%
3 ori mai mulți pacienți la care cei doi factori potriviri, ceea ce este o majoritate care arată
apar în tandem decât cei la care un factor este o tendință clară de dependență între fumat şi
prezent şi celălalt absent. Tendința de apariţia unei afecţiuni pulmonare.
dependență este clară între fumat și apariţia
unei afecţiuni pulmonare.
2.5.3.3. Riscul relativ
Trebuie să ne folosim de aceste din ei vor face boala. Prin urmare, chiar dacă
probabilităţi şi nu de frecvenţele absolute de un procent mult mai mic din cei neexpuşi fac
apariţie a bolii, deoarece, de obicei, subiecţii boala, este posibil ca numărul acestora să îl
expuşi la un anumit factor de risc sunt mult depăşească pe cel al indivizilor bolnavi,
mai puţini decât cei neexpuşi, şi doar o parte expuşi la factorul de risc. De exemplu, în
145
Informatică Medicală și Biostatistică
tabelul 2.5.6 avem prezentată o situaţie face boala de 6,25 ori mai mare decât cei
ipotetică în care 200 de persoane sunt expuse neexpuși.
o perioadă prelungită la frig, în timpul iernii,
Dacă riscul relativ are valori mult mai
prin natura activităţii pe care o desfăşoară.
mari ca 1, este o indicație că între factorul de
Dintre acestea, doar 50 vor răci. Pe de altă
risc și boală este o legătură de corelație care
parte, mult mai multe persoane, să spunem
este interpretată ca fiind cauzală, deși nu este
2000, nu sunt expuse decât foarte puţin la
obligatoriu ca factorul de risc să fie cauză
frig, dar, totuşi, unele dintre ele, 80, vor răci.
pentru apariția bolii.
Deoarece riscul relativ se măsoară în
Valori ale riscului relativ apropiate de 1
funcție de riscul la cei expuși şi riscul la cei
arată aproximativ aceeași probabilitate de a
neexpuși, trebuie să definim ce înseamnă
face boala atât la expuși, cât şi la neexpuși,
aceste două riscuri.
şi trebuie considerat că factorul de risc
Riscul la cei expuși este probabilitatea ca respectiv nu are o influență reală asupra
un individ expus la factorul de risc să facă apariției bolii.
boala. Se calculează ca raportul dintre
Există cazuri în care riscul relativ are
numărul celor care au făcut boala fiind
valori subunitare (mai mici ca 1), caz în care
expuși și numărul tuturor celor expuși.
este asimilat cu un factor protector, de
Riscul la cei expuși: Re = a/(a+b) exemplu când expunerea înseamnă
efecuarea unui vaccin sau administrarea
Deci, în tabelul 2.5.6 Re=50/200, adică
preventivă a unui medicament, deoarece, în
0,25 sau 25%.
aceste cazuri, este mai mic riscul de a face
Riscul la cei neexpuși este probabilitatea boala la cei expuși, decît la cei neexpuși.
ca un individ neexpus la acelaşi factor de risc
În toate cazurile, valoarea riscului relativ
să facă boala. Se calculează ca raportul dintre
obținută este doar o aproximare a valorii care
numărul celor care au făcut boala fiind
s-ar obține dacă ar fi analizaţi toți indivizii
neexpuși și numărul tuturor celor neexpuși.
populației de referință (atât cei expuși cât şi
Riscul la cei neexpuși: Rn = c/(c+d) cei neexpuși). Din această cauză se
Deci, în tabelul 5.6 Rn=80/2000, adică calculează aşa-numitele intervale de
încredere, care reprezintă nişte limite în care
0,04 sau 4%.
poate să se încadreze riscul relativ pentru alte
Riscul relativ (RR) este raportul dintre eşantioane asemănătoare şi, prin urmare,
riscul la cei expuși şi riscul la cei neexpuși. pentru întreaga populaţie din care provin ele,
Riscul relativ RR=Re/Rn, sau cu o anumită siguranţă, de obicei nivelurile
a / (a + b ) a ⋅ (c + d ) alese fiind 95% sau 99%.
RR = =
c / (c + d ) c ⋅ (a + b ) Pentru a calcula un interval de încredere
al lui RR, avem nevoie de deviaţia sa
Prin urmare, în tabelul 2.5.6 riscul relativ standard sau de dispersie. Dispersia
este 25/4=6,25. coeficientului RR este dată de formula
1 1 1 1
Riscul relativ ne spune de câte ori este σ RR
2
= RR 2 + + +
mai mare probabilitatea de a face boala când a b c d
ești expus decât atunci când ești neexpus. În
tabelul 2.5.6, riscul relativ fiind 6,25, unde a, b, c, d sunt cele patru numere
înseamnă că cei expuși au probabilitatea de a înscrise în cele patru celule ale tabelului de
incidenţă.
146
Informatică Medicală și Biostatistică
2.5.4. Analiza testelor diagnostice direct o manifestre a bolii sau cauza ei (de
exemplu, prin teste de anatomie patologică
se observă celule canceroase, prin teste
Cea de-a doua situaţie frecvent întâlnită bacteriologice se pun în evidenţă
în studii statistice din domeniul medicinei în organismele care provoacă o anumită
care se utilizează table de incidenţă 2x2 se patologie) sau este un test care a fost deja
referă la analiza relaţiei dintre rezulatele verificat ca fiind extrem de precis și dă o rată
unor analize paraclinice sau ale unui alt tip de erori minimă. Prin urmare, pacienţii care
de test clinic şi prezenţa sau absenţa unei boli fac subiectul analizei unui test se împart
sau a unei manifestări patologice care nu după două criterii:
poate fi observată direct.
-după criteriul bolii (sau al caracteristicii
De aceea, iniţial vom alege două loturi de diagnosticate), sunt două categorii: bolnavi
subiecţi care sunt sigur bolnavi, respectiv (engl: diseased) şi sănătoși (engl: disease
sigur sănătoşi. Faptul că un pacient este sigur free).
în una dintre categorii se stabilește cu
-după criteriul rezultatului testului clinic
ajutorul unui așa-numit test sigur sau test de
studiat sunt tot două categorii: pozitivi şi
aur (engl: golden test). Acest test reprezintă
negativi.
o modalitate prin care se observă în mod
Tabelul 2.5.7. Clasificarea unor subiecți după prezenţa unei afecţiuni (testul sigur) și după
rezultatul pe care îl obțin la un test de diagnosticare pe care dorim să îl evaluăm calitativ
Testul sigur (Golden test)
Bolnavi B Sănătoși S Total
Testul propus Pozitivi Real Pozitivi Fals Pozitivi T+
(Testul clinic) + (RP sau B+) (FP sau S+)
Negativi Fals Negativi Real Negativi T-
-
- (FN sau B ) (RN sau S-)
Total B S B+S= N
În tabelul de incidenţă utilizat într-o astfel -Fals Negativi FN (false negative -FN),
de analiză, categoriile care ţin de patologie, pacienții care în realitate sunt Bolnavi iar în
adică bolnavi şi sănătoşi, reprezintă urma testului sunt Negativi – B-.
întotdeauna coloanele, iar categoriile care
-Fals Pozitivi FP (false positive -FP),
arată rezultatul testului, pozitiv şi negativ,
pacienții care în realitate sunt Sănătoși iar în
reprezintă întotdeauna rândurile, în ordinea
urma testului sunt Pozitivi – S+.
precizată mai sus. Deci, fiecare din indivizii
studiaţi va aparține uneia din următoarele -Real Negativi RN (true negative -TN),
patru clase, care rezultă în urma combinării pacienții care în realitate sunt Sănătoși iar în
în toate modurile posibile a celor patru urma testului sunt Negativi – S-.
categorii de mai sus: După ce se stabilește pentru fiecare
-Real Pozitivi RP (true positive -TP), pacient cărei clase aparține, din cele patru
pacienții care în realitate sunt Bolnavi iar în enumerate mai sus, se realizează un tabel 2x2
urma testului sunt Pozitivi – B+. ca în tabelul 2.5.7.
148
Informatică Medicală și Biostatistică
Prin urmare, un test clinic sau paraclinic calitatea testului clinic propus, în comparație
care se aplică pacienților este o metodă care cu testul considerat sigur (testul de aur).
trebuie să îndeplinească următoarele calități: Ideal ar fi ca ei să fie apropiați de 100%. În
practică, se constată că este foarte greu să se
-un procent cât mai mare dintre pacienții
atingă valori foarte mari, însă este
care au în mod real boala ar trebui să apară
recomandat ca atât sensibilitatea Sn, cât şi
în urma testului ca fiind pozitivi;
specificitatea Sp să fie ambele peste 75%.
-un procent cât mai mare dintre pacienții
Un alt parametru important îl reprezintă
care nu au boala ar trebui să apară în urma
acurateţea unui test, adică raportul dintre
testului ca fiind negativi.
numărul de indivizi catalogaţi corect şi
Parametrii statistici care descriu numărul total de indivizi testaţi:
calitatea testelor diagnostice sunt
A = (B+ + S-)/ N
sensibilitatea şi specificitatea.
Uneori se mai folosesc, pentru a desrie
Sensibilitatea reprezintă abilitatea
calitatea testului, şi ratele de eroare.
de a detecta subiecţii pozitivi dintr-o
populaţie, probabilitatea de a avea un test Rata fals pozitivă (RFP) este raportul
pozitiv (anormal) atunci când subiectul dintre numărul pacienților sănătoși
prezintă afecţiunea investigată. Astfel, o diagnosticați greșit ca pozitivi și numărul
sensibilitate de 98% a unui anumit test de pacienților sănătoși.
laborator înseamnă că acesta poate depista
RFP = S+ / S = 1-Sp
98 de cazuri pozitive din 100, 2 cazuri fiind
raportate ca fiind fals negative. care arată proporţia de subiecţi sănătoşi care
au un rezultat pozitiv (situaţie numită
Sensibilitatea (Sn) unui test este raportul
„eroare de tip I”).
dintre numărul pacienților bolnavi,
diagnosticați ca pozitivi şi numărul total de Rata fals negativă (RFN) este raportul
bolnavi. dintre numărul pacienților bolnavi
diagnosticați greșit ca negativi și numărul
Sn=B+ / B
pacienților bolnavi.
Specificitatea reprezintă abilitatea
RFN = B- / B = 1 –Sn.
unui test de a depista valorile negative dintr-
o populaţie, probabilitatea de a avea un test care arată proporţia de bolnavi care au un
negativ (normal) când subiectul nu prezintă rezultat negativ („eroare de tip II”). Acest tip
afecţiunea. Astfel, o specificitate de 95% de eroare este mai grav, deoarece ne poate
înseamnă că din 100 de subiecţi sănătoşi, 95 face să neglijăm o parte dintre persoanele
sunt depistaţi ca şi cazuri real negative, restul care sunt de fapt bolnave, dar care, prin
de 5 fiind fals pozitivi. prisma rezultatelor testului, par să fie
sănătoase, testul fiind negativ.
Specificitatea (Sp) unui test este raportul
dintre numărul pacienților sănătoși, După ce s-a confirmat că un test clinic
diagnosticați ca negativi şi numărul total de este valoros, deci că identifică în mod corect
sănătoși. cea mai mare parte a indivizilor bonavi, dar
şi a celor sănătoşi, ne interesează mai mult
Sn = S- /S
următorii doi indicatori, prin care
Aceşti doi indicatori sunt considerați interpretăm un rezultat pozitiv sau negativ la
fundamentali, ei fiind cei care dau de fapt un individ despre care vrem să aflăm dacă
149
Informatică Medicală și Biostatistică
este bolnav sau nu, cu alte cuvinte ce prezice Testele de screening, prin care se
un anumit rezultat al testului. efectuează controale populaţionale de masă,
sunt teste simple, care nu au o rata de
Valoarea predictivă pozitivă ne arată
certitudine, adică VPP, foarte mare, dare
proporţia de persoane bolnave din totalul de
care au o rată de infirmare, adică VPN, foarte
subiecţi care au obţinut un rezultat pozitiv.
ridicată, de aproape 99%, astfel încât un
Poate fi interpretată ca fiind probabilitatea de
rezultat negativ practic asigură inexistenţa
a fi bolnav dacă testul este pozitiv şi
patologiei căutate.
reprezintă abilitatea unui test de a identifica
persoanele care au cu adevărat boala. Sensibilitatea, specificitatea, rata fals
pozitivă, rata fals negativă şi acurateţea sunt
Valoarea predictivă pozitivă (VPP)
utile pentru a aprecia calităţile unui test
este raportul dintre numărul pacienților
înainte de a-l folosi practic, în clinică, când
diagnosticați corect ca pozitivi şi numărul
vrem să ne asigurăm că acel test va face
total al celor diagnosticați de test ca pozitivi.
corect discriminarea între bolnavi şi
VPP = B+/ T+. sănătoşi. Pentru a folosi efectiv testul,
Chiar şi o valoare mai mare de 50% a asupra unor subiecţi despre care nu ştim dacă
VPP poate fi utilă, deoarece ne spune că, sunt bolnavi sau nu, devin mai importanţi
dacă are un test pozitiv, individul respectiv e ceilalţi parametri, valoarea predictivă
mai probabil să fie bolnav decât sănătos, deci pozitivă şi cea negativă.
ar trebui să îi facem alte teste mai precise, să În unele studii statistice se mai folosesc
îl supravegem sau să iniţiem un tratament doi indicatori ce reprezintă o modalitate de a
specific patologiei suspectate. uni sensibilitatea şi specificitatea unui test
Valoarea predictivă negativă ne arată într-o singură unitate de măsură, numiţi
proporţia de persoane sănătoase din totalul ratele probabilităţilor (LR = likelihood
de subiecţi care au obţinut un rezultat ratio).
negativ. Poate fi interpretată ca fiind LR+ (a unui test pozitiv) ne arată
probabilitatea de a fi sănătos dacă testul este performanţa testului prin compararea
negativ şi reprezintă abilitatea unui test de a situaţiei când boala este prezentă cu situaţia
identifica persoanele care sunt cu adevărat când boala este absentă. Cel mai bun test
sănătoase. pentru a confirma o boală este cel cu
Valoarea predictivă negativă (VPN) valoarea cea mai mare a LR+.
este raportul dintre numărul pacienților LR + = arată de câte ori e mai probabil să
diagnosticați corect ca negativi şi numărul ai rezultat pozitiv când ai boala.
total al celor diagnosticați de test ca negativi.
Rata de probabilitate pentru un rezultat
VPN = S- / T- pozitiv al testului (likelihood ratio+) este:
Valoarea predictiv negativă ar trebui să LR+ = Sn/(1 – Sp)
fie cât mai mare, de peste 90%, dacă vrem să
LR- (a unui test negativ) ne arată
folosim testul pentru a identifica pacienţii cu
performanţa testului prin compararea
adevărat sănătoşi. De exemplu, dacă VPN
situaţiei când boala este absentă cu situaţia
este 90%, asta înseamnă că sunt 10% şanse
când boala este prezentă. Cel mai bun test
ca individul testat să fie, de fapt, bolnav, ceea
pentru a exclude o boală este cel cu valoarea
ce este un risc mare.
cea mai mică a LR-.
150
Informatică Medicală și Biostatistică
LR- = arată de câte ori e mai probabil să parametru important pentru o anumită
ai rezultat negativ când ai boala. afecţiune, o problemă deosebită este
alegerea unui prag optim, o valoare a acelui
Rata de probabilitate pentru un rezultat
parametru pentru care orice pacient care are
negativ al testului (likelihood ratio-) este:
o valoare mai mare să poată fi declarat
LR – = (1 – Sn)/Sp bolnav, iar cel care are o valoare mai mică să
fie declarat sănătos. Pentru valori diferite ale
variabilei măsurate, folosite pentru a separa
2.5.4.1. Curba ROC subiecţii în pozitivi să negativi, se generează
un alt test diagnostic, care are o anumită
sensibilitate şi o anumită specificitate.
Receiver Operating Characteristic Curve, Astfel, pentru fiecare prag, odată fixat, se
sau curba ROC (figura 2.5.2), reprezintă obţin valori ale sensibilităţii şi specificităţii
curba care descrie performanţele unui test testului, pe care le putem reprezenta printr-
clinic în funcţie de pragul de decizie ales, un punct într-un sistem de axe. Unind între
atunci când rezultatele testului de ele punctele generate astfel, se obţine un
diagnosticare sunt valori continue, şi este o poligon care poartă numele de curba ROC de
metodă prin care se face identificarea unor eşantionare. Curba ROC oferă o ilustrare
valori-prag („cut-off”) utile în discriminarea grafică a compromisului între sensibilitate şi
între cazurile pozitive și negative. (1-specificitate) pentru o serie de valori prag,
Atunci când avem nevoie să luăm o atunci când rezultatele testului de
decizie pe baza valorilor numerice ale unui diagnosticare sunt valori continue.
60%
50%
40%
30%
20%
10%
0%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%100%
1 - Specificitate
Figura 2.5.2. Curba ROC prin care se analizează relaţia dintre valorile BNP şi identificarea
pacienţilor cu 2 sau mai multe exacerbări ale BPOC
151
Informatică Medicală și Biostatistică
152
Informatică Medicală și Biostatistică
153
Informatică Medicală și Biostatistică
Figura 2.6.2. Histogramele seriilor mediilor pentru foarte multe loturi de câte 2, 3, 4, 9, 16,
25, 36, până la 100 de indivizi. Se observă tendința de scădere a împrăştierii mediilor
obţinute pe măsură ce crește volumul loturilor
154
Informatică Medicală și Biostatistică
din serie, deci cu cât valorile din serie sunt probabil să avem medii foarte îndepărtate de
mai dispersate, cu atât valoarea indicatorului media reală.
SE va fi mai mare. Proporționalitatea este
Dacă folosirea de eșantioane restrânse ca
directă, adică o creștere a lui s conduce la o
acelea formate din doar doi sau trei indivizi
creștere proporțională a lui SE.
poate duce la medii foarte îndepărtate de cea
Valoarea lui SE este influențată, după reală, mediile obținute pe eșantioane mai
cum se vede din formulă, și de numărul de numeroase vor fi în general mult mai
valori din serie, în sensul că este cu atât mai apropiate de media reală. De altfel, formula
mică cu cât sunt mai multe valori în serie, Err ne spune tocmai acest lucru, căci se vede
dacă deviația standard nu se schimbă. SE că o creștere a lui n conduce la un numitor
scade în funcție de numărul de valori din mare și deci la o eroare standard mică.
serie, nu însă proporțional cu n, ci cu
Am fi tentați să afirmăm că media de
rădăcina pătrată a lui n.
eșantionare obținută pe un eșantion de volum
De exemplu, dacă n crește de 4 ori, SE mai mare este întotdeauna mai precisă decât
scade de două ori: dacă două serii de valori, media de eșantionare obținută pe un eșantion
X și Y, au aceeași deviație standard egală cu de volum mai mic, ceea ce nu este adevărat.
2, şi numărul de valori din seria X este 25, Adevărată este doar afirmația că este mai
iar cel din seria Y este 100, atunci erorile probabil ca o medie de eșantionare pe un
standard pentru cele două serii sunt: eșantion de volum mai mare să fie mai
precisă decât una obținută pe un eșantion de
2 2
SE X = = = 0,4 volum mai mic. Este posibil ca, prin jocul
25 5 întâmplării, o medie obținută pe un eșantion
mai mare să fie mai diferită de media reală
2 2 decât o medie obținută pe un eșantion mai
SEY = = = 0,2
100 10 mic, numai că această situație este mai puțin
probabilă, cu atât mai puțin probabilă cu cât
Într-un fel, putem afirma că eroarea diferența de volum între cele două
standard este considerată a fi abaterea eșantioane este mai mare.
standard a mediei (calculată pe valorile
măsurate pe un lot) față de media întregii
populații. 2.6.3. Intervale de încredere
Mediile obținute pe eșantioane de volum
n vor fi, de obicei, cu atât mai apropiate de
realitate cu cât n este mai mare. Această Aşa cum deja am arătat, media unui
afirmaţie nu trebuie neapărat demonstrată, eşantion pe care îl avem la dispoziţie este
deoarece intuitim că o aproximare a mediei doar o aproximare a mediei populaţiei din
unei populații este, în principiu, cu atât mai care provine eşantionul, adică este doar o
bună cu cât eșantionul extras este mai aproximare a realităţii, pe care nu o
numeros. cunoaştem şi pe care, de altfel, nu o să o
cunoaştem niciodată. Vom numi interval de
Acest lucru ne spune că, dacă încredere o aproximare în plus şi în minus a
reprezentăm curba Gauss a mediilor de acestei medii necunoscute. Intervalele de
eșantionare, ea va fi cu atât mai concentrată încredere se calculează pornind de la media
în jurul mediei reale cu cât eșantioanele sunt şi deviaţia standard de eşantionare.
de volum mai mare, deoarece este mai puțin
156
Informatică Medicală și Biostatistică
157
Informatică Medicală și Biostatistică
Prin urmare, intervalul de încredere este apariţie a una din două situaţii
I 95% = [110,24 ms;114,16 ms ] complementare, care reprezintă ipotezele
testului şi se definesc astfel:
Putem afirma cu o siguranță de 95% că
-ipoteza H0 (sau ipoteza de nul): datele nu
media reală pentru latența semnalului pe
prezintă legături între ele (variabilele
nervul optic, pe care nu o cunoaștem, este în
analizate sunt independente/ valorile
acest interval.
comparate nu diferă între ele);
Un interval de încredere este totdeauna
-ipoteza H1 (sau ipoteza alternativă):
centrat pe media de eșantionare, lucru care
datele prezintă legături între ele, (variabilele
este normal, el fiind obținut prin adăugarea
analizate sunt corelate/ valorile comparate
și scăderea din media de eșantionare a
diferă între ele).
aceleiași cantități tα% · Err. Ceea ce ne
interesează, însă, este unde se află media Cu alte cuvinte, testele statistice verifică
reală în raport cu intervalul de încredere veridicitatea unor ipoteze, reprezentând
asociat, pentru că acesta este scopul pentru astfel materializarea unei inferenţe statistice.
care construim aceste intervale, ca să Ipotezele pe care le putem supune deciziei
estimăm media reală. unui test statistic sunt foarte variate, în
funcţie de ce aspecte ale datelor observate
După definiția intervalului de încredere,
vrem să analizăm. Categoriile principale de
media reală se află c% sigur (95% sigur, 99%
ipoteze sunt:
sigur etc), între limitele intervalului de
încredere. Am fi tentați să spunem că este la -ipoteze care afirmă că mediile a două sau
mijloc, ceea ce nu este adevărat. Media reală mai multe populații sunt egale;
poate fi oriunde în interiorul intervalului de
-ipoteze care afirmă că dispersiile a două
încredere, așa cum poate să fie chiar şi în
sau mai multe populații sunt egale;
afara lui, cu o probabilitate foarte mică. Nu
este corect să spunem nici măcar că este mai -ipoteze care afirmă că repartiția unei
probabil să se afle la mijlocul sau în jurul variabile aleatorii este o repartiție fixată
mijlocului intervalului de încredere. Ea se (Gauss, Poisson etc.);
află oriunde în intervalul de încredere, la fel -ipoteze care afirmă că doi factori de
de probabil spre mijloc sau spre capete. clasificare sunt independenți.
Eroarea ca media reală să fie în afara Există două tipuri de erori ce pot apărea
intervalului de încredere este 1-c%=α. în testarea ipotezelor unui test statistic.
Eroarea de tip I este situaţia în care se
respinge ipoteza de nul, deşi aceasta nu
2.6.4. Teste statistice trebuia respinsă, în timp ce eroarea de tip II
este situaţia în care ipoteza de nul nu se
respinge, deşi trebuia să fie respinsă (tabelul
Un test statistic este o metodă de decizie
2.6.1). Când efectuăm un test statistic trebuie
care ne ajută la validarea sau invalidarea cu
să alegem un nivel maxim permis al erorii de
un anumit grad de siguranţă a unei ipoteze
tip I, notat cu α (inversul nivelului de
statistice. De cele mai multe ori, printr-un
încredere), precum şi un nivel maxim permis
test statistic se verifică probabilitatea de
al erorii de tip 2, notat cu β.
158
Informatică Medicală și Biostatistică
159
Informatică Medicală și Biostatistică
160
Informatică Medicală și Biostatistică
161
Informatică Medicală și Biostatistică
162
Informatică Medicală și Biostatistică
distribuţie Student cu n-1 grade de libertate fie cea de dincolo de tc, fie cea de dincolo de
pentru care limitele -tc şi tc delimitează -tc, în funţie de alegerea iniţială a sensului
procentul din aria de sub grafic egal cu diferenţei.
nivelul de siguranţă ales de noi. De obicei
Valoarea p este probabilitate de a face o
nivelul de siguranţă ales este 95% sau 99%,
eroare dacă se respinge ipoteza H0 a testului,
deci vom căuta valorile tc pentru care limitele
rezultat furnizat ca un număr între 0 şi 1.
dreapta-stânga cuprind 95% sau 99% din
Dacă p este mai mic decât opusul nivelului
aria de sub curba repartiției Student.
de siguranţă propus, adică pragul de
Va fi deci suficient să căutăm valoarea lui semnificaţie α=1-c%, respingem ipoteza H0,
n −1 n −1 de nul, şi admitem că este adevărată ipoteza
t 95 % sau t 99 % , dată de tabelele statistice
H1; vom spune că datele suportă ipoteza că
pentru tc conform distribuţiei Student şi să o
mediile populaţiilor sunt diferite.
comparăm cu valoarea lui t. Dacă t este mai
Interpretarea valorilor lui p este:
mic decât tc atunci nu există o diferență
semnificativă între media de eșantionare m şi -p > α=0.05, diferenţa între cele două
media teoretică μ0. Dacă t este mai mare medii este nesemnificativă (NS).
decât tc atunci avem motive suficiente pentru
-p < α=0.05, diferenţa între cele două
a afirma că există diferență semnificativă
medii e semnificativă (S, încredere 95%).
între media de eșantionare m şi media
teoretică μ0. -p < α=0.01, diferenţa între cele două
medii e semnificativă (S, încredere 99%).
În figura 2.6.6 este ilustrat motivul pentru
care comparăm tc cu valoarea care -p < α=0.001, diferenţa între cele două
delimitează 95% sau 99% din repartiție. În medii este înalt semnificativă (HS, încredere
95% sau 99% dintre cazuri, dacă eşantionul 99.9%).
provenea din populaţia referinţă, valoarea lui
t ar fi fost cuprinsă în zona verde, adică între
–tc şi tc. Dacă t este la dreapta sau la stânga 2.6.4.3. Testul Student de comparare a
acestor limite este puțin probabil ca mediilor pentru două eșantioane
eşantionul să aparțină populaţiei respective
şi ipoteza H0 va fi respinsă ca falsă.
Testul t al lui Student de comparare
a mediilor pentru 2 loturi propune două
ipoteze statistice:
-ipoteza H0 (sau ipoteza de nul): diferenţa
între medii este întâmplătoare, mediile
Figura 2.6.6. Limitele -tc şi tc delimitează populaţiilor din care provin eşantioanele pot
procentul din aria de sub grafic egal cu fi egale; H0: m1 = m2.
nivelul de siguranţă ales (95% sau 99%).
-ipoteza H1: diferenţa între medii este
semnificativă statistic, foarte probabil
Pentru un test bilateral, rezultatul p al mediile populaţiilor din care provin
testului reprezintă 1-suprafaţa delimitată de - eşantioanele sunt diferite; H1: m1 ≠ m2.
t şi +t pe o curba Student cu n-1 grade de În acest caz, s, abaterea standard comună,
libertate. Dacă testul este unilateral, adică are formula:
verificăm şi sensul diferenţei, m>μ0 sau m<
μ0, se ia în considerare doar o singură zona,
163
Informatică Medicală și Biostatistică
164
Informatică Medicală și Biostatistică
statistic, cu alte cuvinte că datele provin din observăm că limita superioară a intervalului
populaţii diferite. O altă interpretare ar fi că, de încredere de 95% pentru media mai mică
extrăgând în mod asemănător alte este sub limita inferioară a intervalului de
eşantioane, în mai mult de 95% dintre cazuri încredere de 95% pentru media mai mare. În
mediile VSH obţinute vor fi diferite.În figura concluzie, cele două medii sunt diferite
2.6.9, care detaliază calculele pentru pentru nivelul de semnificaţie de 95%, ceea
intervalele de încredere ale mediilor, ce am demonstrat prin testul t Student.
165
Informatică Medicală și Biostatistică
166
Informatică Medicală și Biostatistică
Aşa cum există teste prin care verificăm situaţii în care variabila independentă
dacă repartiţia datelor din eşantion respectă (variabila de grupare) prezintă trei şi mai
o distribuţie Gauss, există alte teste statistice multe categorii (niveluri), pentru a verifica
care verifică dacă datele au dispersii egale. dacă sunt diferenţe semnificative între
În cazul în care comparăm două eşantioane populaţiile din care s-au extras eşantionanele
şi valorile lor sunt distribuite gaussian vom observate.
folosi testul F al lui Fisher pentru a vedea
În analiza variaţiei considerând un singur
dacă există o diferenţă semnificativă între
factor ca şi cauză se formulează următoarele
dispersii.
2 ipoteze:
Testul Fisher se utilizează pentru
-ipoteza nulă H0: m1 = m2 = m3 = ... = mk
verificarea egalităţii dispersiilor a două
(pentru 4 eşantioane)
variabile independente repartizate normal.
Ipoteza nulă este H0: σ12=σ22 -ipoteza alternativă H1: cel puţin două medii
diferă semnificativ
Ambele variante de test Student discutate
au ca şi condiţie de aplicare ca datele să fie Interpretarea valorilor lui p se va face
independente. În unele situaţii trebuie să astfel:
comparăm date din eşantioane care au o -p > 0.05, se acceptă H0, diferenţa între
legătură între ele, de exemplu datele sunt
medii este nesemnificativă (NS).
grupate în perechi ce reprezintă valori
măsurate pentru acelaşi individ la două -p < 0,05 se respinge H0 cu pragul de
momente diferite, să spunem înainte şi după semnificaţie de 95%. Cel puţin două medii
un tratament, sau care reprezintă două diferă semnificativ (S, incredere 95%).
măsurători efectuate la acelaşi individ prin -p <0,01 se respinge H0 cu pragul de
metode diferite. În acest caz vom folosi semnificaţie de 99%. Cel puţin două medii
varianta de test Student pentru date pereche diferă semnificativ (S, incredere 99%).
care, de fapt, analizează dacă media
diferenţelor dintre valorile din fiecare -p <0,001 se respinge H0 cu pragul de
pereche diferă semnificativ de 0. În semnificaţie de 99,9%. Cel puţin două medii
concluzie, acest test calculează în alt mod diferă înalt semnificativ (HS, incredere
valoarea indicatorului t. 99.9%).
Să analizăm următorul exemplu: în trei
comune ale judeţului Dolj au fost colectate
2.6.4.4. Testul ANOVA date despre obiceiurile alimentare şi legătura
lor cu obezitatea şi diabetul. Printre alte date
s-au înregistrat greutatea indivizilor şi date
Testul ANOVA (ANalysis Of VAriance) despre fumat (Figura 2.6.10).
este un procedeu de analiză a dispersiei unei
variabile numerice, între subloturi generate Indivizii, indiferent de sex sau grupă de
de categoriile unei variabile de grupare. Prin vârstă, au fost împărţiţi în patru categorii:
ANOVA se compară medii pentru trei şi mai nefumători, foşti fumători, fumători
multe subpopulaţii distribuite gaussian, dacă ocazionali (sub 10 ţigarete pe zi) şi fumători
dispersiile de eșantionare nu diferă (peste 10 ţigarete pe zi). O întrebare a fost
semnificativ. Practic, această metodă aceea dacă există o legătură între obiceiul
permite extensia analizei realizate prin testul fumatului şi greutatea corporală la aceşti
t, aplicabil asupra a două eşantioane, la
167
Informatică Medicală și Biostatistică
Figura 2.6.10. Datele originale şi rezultatele generate prin efectuarea testului ANOVA în
programul Microsoft Excel
Testul efectuat în programul Excel nu numitele teste „post-hoc”, care fac
pune la dispoziție o comparare pe perechi, comparaţii între toate perechile de
deci concluzia este oarecum ambiguă, căci eşantioane studiate.
nu putem determina cu precizie care din
În cazul în care rezultatul testului
loturi are o medie diferită semnificativ de a
ANOVA este semnificativ statistic, putem
celorlalte. Putem specula că lotul 4 are media
continua analiza prin testele „post hoc”
semnificativ crescută față de celelalte 3, sau
Tuckey HSD sau Fisher LSD, pentru a
că lotul 1 are media semnificativ scăzută față
identifica perechile de categorii între care
de celelalte. De fapt, testul nu urmărește
există diferențe semnificative. Într-un mod
decât să stabilească eventuala legătură între
oarecum asemănator testului t Student se
greutatea corporală şi obiceiul fumatului,
calculează, pentru toate combinațiile
fără să compare diferitele categorii de
posibile de câte 2 categorii, valori p, al căror
fumători/nefumători între ele. Pentru a face
nivel critic α este ajustat în funcție de
acest lucru este nevoie ca programul de
numărul total de combinații, fiind de cele
prelucrare statistică să pună la dispoziţie aşa
168
Informatică Medicală și Biostatistică
mai multe ori mai mic decât pragul obişnuit, suma rangurilor pentru fiecare grup
de 0,05. comparat şi se calculează media lor. În cazul
în care mediile rangurilor pentru grupurile
Există şi varainte ale testului ANOVA
comparate şi, implicit, valorile iniţiale, sunt
care analizează influenţa a doi sau mai mulţi
foarte diferite, valoarea p obţinută în urma
factori asupra variabilei dependente, însă nu
testului va fi mică.
vom detalia condiţiile de aplicare,
rezultatele generate şi interpretarea lor. Testul Kruskal-Wallis este un test
statistic neparametric care compară valorile
Deoarece testul ANOVA are ca şi
datelor din trei sau mai multe grupuri. Fiind
condiţie ca loturile să aibă dispersii egale,
un test neparametric, deci care nu necesită
trebuie să folosim un test statistic pentru a
distribuţia normală, gaussiană, a datelor
face această analiză înainte de a folosi testul
comparate, el poate înlocui testul ANOVA
ANOVA.
când acesta nu poate fi aplicat. Daca dorim
Testul Bartlett este un test pentru să comparăm datele distribuie ne-gaussian
verificarea egalităţii mai multor dispersii din 3 sau mai multe serii-perechi (cu acelaşi
pentru mai multe variabile independente număr de valori, de obicei măsurători făcute
repartizate normal, deci şi el este un test la mai multe momente de timp pe un singur
parametric. Ipoteza nulă pentru acest test lot) vom folosi testul Friedman.
este H0: σ12=σ22=...=σk2
Putem spune, fără a greşi prea mult, că
testele neparametrice de mai sus compară
2.6.4.5. Teste neparametrice mai degrabă medianele sau împrăştierile
decât mediile eşantioanelor studiate.
În cazul în care dorim să comparăm
Testul t al lui Student poate fi aplicat doar dispersiile pentru mai multe loturi care nu au
pentru date numerice care provin dintr-o o distribuţie parametrică putem folosi testul
populaţie cu distribuţie normala, gaussiană. Levene.
Dacă această condiţie nu este îndeplinită,
pentru a compara datele celor două loturi pot Un test neparametric eșuează de obicei
fi folosite testul Wilcoxon (număr de date mai des în tentativa de a respinge H0, atunci
egale, valori pereche) sau testul Mann- când ea ar trebui respinsă. Acest lucru se
Whitney (număr diferit de valori în cele doua datorează de obicei lipsei de informație, iar
loturi comparate). Rezultatele acestor teste cunoașterea distribuției la testele
pot fi şi ele exprimate sub forma unei parametrice este o informație suplimentară
probabilităţi, interpretată la fel ca la testul foarte importantă. Însă, dacă datele nu
Student. urmează modelul de repartiţie presupus de o
distribuţie cunoscută, atunci testele
Pentru a efectua aceste teste, datele din parametrice vor avea mai multe erori de
toate grupurile, separat sau puse împreună, aproximare a realităţii decât testele
sunt aranjate descrescător. Dacă două sau neparametrice şi trebuie evitate.
mai multe valori sunt egale, atunci li se
atribuie ca rang valoarea medie a poziţiilor
ocupate de ele. Cel mai mic număr are rangul
1. Cel mai mare număr va avea rangul N,
unde N este numărul total de valori. După ce
fiecărei valori i s-a alocat un rang se face
169
Informatică Medicală și Biostatistică
170