Sunteți pe pagina 1din 172

Tărâţă Mihai, Georgescu Daniel,

Badea Petrică, Alexandru Dragoş Ovidiu,


Şerbănescu Mircea-Sebastian, Manea Nicolae Cătălin

INFORMATICĂ MEDICALĂ
ŞI BIOSTATISTICĂ

EDITURA MEDICALĂ UNIVERSITARĂ CRAIOVA


- 2020 -
Informatică Medicală și Biostatistică

Lucrarea a fost aprobată în Consiliul de Administrație 368/09.12.2020


Referent ştiinţific: Prof. Univ. Dr. Bălşeanu Tudor Adrian, UMF din Craiova
Prof. Univ. Dr. Pirici Nicolae-Daniel, UMF Craiova
Descrierea CIP a Bibliotecii Naţionale a României
TĂRÂŢĂ, MIHAI
Informatică medicală şi biostatistică / Tărâţă Mihai, Georgescu Daniel, Badea Petrică,
Alexandru Dragoş Ovidiu, Şerbănescu Mircea-Sebastian, Manea Nicolae Cătălin.–
Craiova : Editura Medicală Universitară, 2020
Conţine Bibliografie
ISBN 978-973-106-335-5
I. Georgescu, Daniel
II. Badea, Petrică
III. Alexandru, Dragoş Ovidiu
IV. Şerbănescu, Mircea-Sebastian
V. Manea, Nicolae Cătălin
004
61

EDITURA MEDICALĂ UNIVERSITARĂ CRAIOVA


Acreditată CNCSIS Nr. 54/2001
Str. Petru Rareş 2-4, 200654 Craiova
Tel / Fax: +40 251 502 179
e-mail: editura.medicala.universitara@gmail.com

Copyright © 2020 Editura Medicală Universitară


Toate drepturile asupra acestei ediţii sunt rezervate EMUC. Orice reproducere
integrală sau parţială , prin orice procedeu, a unor pagini din această lucrare, efectuate
fără autorizaţia editorului este ilicită şi constituie o contrafacere. Sunt acceptate
reproduceri strict rezervate utilizării individuale sau citări justificate de interesul
ştiinţific, cu specificarea respectivei citări.

Copyright © 2020 Editura Medicală Universitară


All rights reserved. This book is protected by copyright. No part of this book may be
reproduced în any form or by any means, including photocoying, or utilized by any
informaqtion storage and retrival system without written permision from the
copyright owner.
Informatică Medicală și Biostatistică

CUPRINS
Cuvânt înainte..................................................................................................................... 4
1.1. Informatica medicală. Domeniile informaticii medicale. ............................................ 6
1.1.1. Scurt istoric........................................................................................................... 6
1.1.2. Informatica medicală. Domenii ............................................................................ 6
1.2. Organizarea şi funcţionarea unui calculator numeric ................................................ 14
1.2.1. Ce este un calculator ........................................................................................... 14
1.2.2. Schema de organizare şi funcţionare a unui calculator numeric ........................ 15
1.2.3. Structura hardware a unui calculator .................................................................. 19
1.2.4. Codificarea informaţiei ....................................................................................... 30
1.2.5. Notiunea de fişier şi de director.......................................................................... 31
1.2.6. Sisteme de operare.............................................................................................. 34
1.2.7. Reţele de calculatoare ......................................................................................... 42
1.2.8. Răufăcători informatici ....................................................................................... 44
1.3. Pagini WEB și HTML ............................................................................................... 47
1.3.1. Introducere.......................................................................................................... 47
1.3.2. Concepte fundamentale în HTML ...................................................................... 47
1.3.3. Structura unui document HTML ........................................................................ 48
1.4. Baze de date............................................................................................................... 54
1.4.1. Introducere.......................................................................................................... 54
1.4.2. Tipuri de modele de baze de date ....................................................................... 55
1.4.3. Concepte privind bazele de date ......................................................................... 56
1.4.4. Sisteme de gestiune a bazelor de date ................................................................ 57
1.4.5. Obiectivele unui SGBD ...................................................................................... 57
1.4.6. Microsoft Access ................................................................................................ 58
1.5. Achiziţia şi prelucrarea imaginilor medicale ............................................................. 61
1.5.1. Introducere.......................................................................................................... 61
1.5.2. Prelucrarea imaginilor ........................................................................................ 62
1.5.3. Etapele prelucrării imaginii ................................................................................ 63
1.5.4. Caracteristici globale pentru pixelii dintr-o imagine .......................................... 64
1.5.5. Procesări ale imaginii ......................................................................................... 65
1.5.6. Domenii de utilizare ........................................................................................... 67
1.6. Achiziţia şi prelucrarea semnalelor biologice ........................................................... 69
1.6.1. Conceptul de semnal........................................................................................... 69
1.6.2. Eşantionare în timp şi amplitudine ..................................................................... 71
1.6.3. Semnale biomedicale .......................................................................................... 73
1.6.4. Metode de analiză în domeniul timp .................................................................. 74
1.6.5. Metode de analiză în domeniul frecvenţă ........................................................... 83

1
Informatică Medicală și Biostatistică

2.1. Biostatistica şi statistica medicală ............................................................................. 89


2.1.1. Ce este statistica?................................................................................................ 89
2.1.2. Definiții .............................................................................................................. 90
2.1.3. Termeni specifici ................................................................................................ 91
2.1.4. Tipuri de date...................................................................................................... 95
2.1.5. Principii de bază. Principiul atomicităţii ............................................................ 97
2.2. Indicatori statistici ..................................................................................................... 99
2.2.1. Serii statistice...................................................................................................... 99
2.2.2. Indicatori statistici pentru date numerice.......................................................... 100
2.3. Reprezentarea grafică a datelor statistice ................................................................ 111
2.3.1. Considerații generale ........................................................................................ 111
2.3.2. Tabele de frecvenţe........................................................................................... 111
2.3.3. Graficul histogramă .......................................................................................... 112
2.3.4. Poligonul frecvențelor ...................................................................................... 118
2.3.5. Curba densității de probabilitate ....................................................................... 121
2.3.6. Densitatea Normală (Gauss) ............................................................................. 122
2.4. Corelații statistice .................................................................................................... 126
2.4.1. Noțiunea de corelație ........................................................................................ 126
2.4.2. Graficul Scatter (punctual) ............................................................................... 126
2.4.3. Coeficientul de corelație Pearson ..................................................................... 129
2.4.4. Noţiunea de regresie ......................................................................................... 133
2.5. Tabele de incidență .................................................................................................. 138
2.5.1. Cuantificarea datelor calitative ......................................................................... 138
2.5.2. Tabele de incidență ........................................................................................... 139
2.5.3. Analiza relaţiilor de tip cauză-efect .................................................................. 144
2.5.4. Analiza testelor diagnostice .............................................................................. 148
2.6. Teste statistice ......................................................................................................... 153
2.6.1. Relaţia dintre eşantion şi populaţie................................................................... 153
2.6.2. Eroarea standard ............................................................................................... 155
2.6.3. Intervale de încredere ....................................................................................... 156
2.6.4. Teste statistice .................................................................................................. 158
Bibliografie ..................................................................................................................... 170

2
Informatică Medicală și Biostatistică

INFORMATICĂ MEDICALĂ

3
Informatică Medicală și Biostatistică

limba lor pentru a putea să le ceri să realizeze


Cuvânt înainte programele de care ai nevoie, vor fi momente
când vei fi instruit pentru a folosi un aparat
nou şi dacă nu vei înţelege corect
De ce să învăţăm informatică la funcţionarea nu vei putea ajunge la
facultatea de medicină? performanţe maxime în utilizarea lui. Dacă ţi
se par prea depărtate aceste momente,
gândeşte-te că astăzi a nu şti să utilizezi un
Secolul 21 ne-a făcut dependenţi de calculator înseamnă practic a fi analfabet şi
calculator, folosim calculatorul de cele mai că utilizarea lui înseamnă şi înţelegerea
multe ori fără să sesizăm acest lucru, cele funcţionării lui. Citind această carte vei
mai multe din instrumentele noastre zilnice înţelege cum funcţionează un calculator şi îţi
de lucru au ascuns în interior un calculator vor fi desluşite şi fundamentele principalelor
(necesar pentru a ne face performantă aplicaţii medicale ale calculatoarelor. Totul
activitatea). Nu ne mai dăm seama dacă în va fi pe scurt, atât cât e necesar, fără a pierde
instrumentul de lucru este ascuns un mult timp citind cartea, vei înţelege
calculator, îl folosim, suntem eficienţi, ne principiile de funcţionare şi dacă vei dori să
realizăm rapid sarcinile şi gata. De ce să mai afli mai mult vei putea aborda o carte de
dedicăm special nişte ore invăţării utilizării specialitate fără probleme.
calculatorului când ne descurcăm oricum
învăţând „din mers”? E o întrebare tot mai Astăzi calculatorul electronic este o
des întâlnită printre tinerii de azi (generată maşinărie indispensabilă pentru om. Fără să
mai ales de existenţa calculatorului, care a ne dăm seama a devenit stăpână pe
făcut invăţarea rapidă şi uşoară). informaţie, fiind net superioară capacităţii
umane de memorare, de prelucrare, de
Copii de azi folosesc tableta electronică căutare, sau de decizie. Informatica este
sau telefonul mobil pentru a se juca, cu mult cuvântul ce care îl utilizăm fără să îl
inainte de a învăţa să scrie sau citească şi nu înţelegem complet, ştim că e ceva legat de
rareori chiar să meargă! Este rezultatul computere şi de care ne lovim mereu. Apar
digitizării, a utilizării continue a mereu domenii noi, denumite prin
calculatorului. şi atunci ce să mai înveţe nou completarea cu cuvântul informatică a unor
despre calculator studentul la medicină? domenii vechi, ceea ce înseamnă o creştere a
Un răspuns superficial ar fi că e o performanţei acelor domenii. Alăturarea
pierdere de timp, că ştie destul să utilizeze aceasta de cuvinte poate fi făcută abia atunci
calculatorul ca să se descurce în lumea când calculatorul reuşeşte să facă faţă
medicală modernă că nu are nevoie de mai cerinţelor vechiului domeniu. Să remarcăm
mult. Nu e aşa! Nu poţi folosi eficient un faptul că tehnica de calcul este un instrument
instrument fără să ştii cum funcţionează el, ce măreşte performanţa într-un domeniu şi
nu poţi dezvolta noi aplicaţii fără să ştii care nu un cuceritor de palmares.
sunt posibilităţile. Acest lucru nu înseamnă Medicii au dorit să utilizeze calculatorul
să devii specialist în calculatoare, nici nu ai de la apariţia lui, dar el nu a putut facă face
avea cum, ai mult de învăţat ca viitor medic, faţă cerinţelor. Târziu a devenit prezent
apoi ca specialist într-un anumit domeniu, aproape în orice aparat medical. Spre
căci acum e imposibil să le ştii pe toate. Vor exemplu pentru diagnosticarea automată,
fi momente în care o să colaborezi cu viteza de calcul permitea analizarea a prea
informaticieni şi atunci va trebui să foloseşti puţine simptome şi oferea puţine variante de

4
Informatică Medicală și Biostatistică

diagnostic posibile şi rezultatele erau bune Pionierii acestui domeniu ne sunt


doar pentru a scoate în evidenţă această contemporani, ca şi pionierii calculatorului
posibilitate şi nu a o aplica efectiv. electronic, căci suntem la începutul secolului
Informaticienii au schimbat direcţia de XXI, iar sfârşitul secolului XX cand sau pus
cercetare spre ceva în care puteau să facă fundamentele noului domeniu nu este prea
mult fără sprijinul medicului, stocarea de departe.
informaţie, iar rezultatul a fost mult peste
În acest context este obligatoriu ca întreg
puterea de lucru a personalului medical.
personalul medical să cunoască să utilizeze
Arhivele medicale informatizate sunt mult
performant calculatoarul, să stie ce se poate
superioare celor clasice. Abia acum a putut
face cu această maşinărie minunată, să-i
fi rezolvată mulţumitor şi diagnosticarea.
cunoască limitele, pentru a putea participa la
Bazele de date informatizate puneau la
lărgirea lor, obţinând o îmbunătăţire a
dispoziţia calculatorului suficient de mulţi
eficienţei activităţii medicale.
pacienti cu diagnostic cert astfel încât, prin
comparaţie se putea indica, cu o probabilitate Prezenta carte işi propune să fie un
dorită, diagnosticul noului subiect. Aici nu abecedar al informaticii pentru viitorul
trebuie să uităm aparatul matematic pus la specialist în medicină, să îl familiarizeze cu
dispoziţie de matematicieni prin dezvoltarea utilizarea informaţiilor şi a cunoştiinţelor în
unor teorii ajutătoare. Şi am atins un alt soluţionarea problemelor medicale, nefiind
aspect, în spatele vitezei şi performanţei un curs de calculatoare sau de programare.
calculatorului stă munca unor colective
mixte de ingineri, informaticieni,
matematicieni şi fizicieni care au facut
realizabilă dorinţa medicilor. Cu toţii au pus
umărul la dezvoltarea unui nou domeniu cel
al informaticii medicale.

5
Informatică Medicală și Biostatistică

1.1. Informatica apare un nou domeniu de activitate denumit


printr-o alăturare a cuvântului informatică la
medicală. Domeniile ceva ce omenirea utiliza demult. Alăturarea
informaticii medicale. aceasta de cuvinte poate fi făcută abia atunci
când calculatorul reuşeşte să facă faţă
cerinţelor vechiului domeniu. Să observăm
1.1.1. Scurt istoric că tehnica de calcul constituie un instrument
dorit şi nu un cuceritor de palmares.

Odată cu apariţia omului pe pământ a


apărut şi dorinţa lui de a calcula şi a
comunica. Acţiunile noastre zilnice sunt
pline de calcule şi atunci înţelegem de ce
omenirea a depus un efort fantastic în
dezvoltarea de instrumente de calcul. Cu
toate acestea primul calculator performant a
apărut târziu, abia spre sfârşitul secolului
trecut, concretizând cu ajutorul electronicii
teoria şi experienţa acumulată anterior. De ce
aşa de târziu, când omenirea a avut nevoie de Figura 1.1.1. Calculatorul ENIAC (1946,
calcule de la început? Pentru că mintea Universitatea din Pennsylvania, 30 tone,
omului era superioară maşinii şi calcula mai 24m. lungime, 18000 tuburi electronice,
repede. Abia când, tot mintea omului, a 5000 adunări pe secundă – după Encarta)
dezvoltat o nouă tehnologie, în care curentul
electric era fundamental, viteza de calcul a
maşinii nu a mai putut fi depăşită. Aşa cum 1.1.2. Informatica medicală. Domenii
maşina de calcul electrică înlocuise abacul,
calculatorul electronic devenea cea mai
rapidă maşină de efectuat calcule. Informatica medicală reuneşte toate acele
Suplimentar mai oferea avantajul de a fi domenii la care calculatorul a pus umărul şi
programat şi deci de a efectua succesiuni de le-a mărit performanţa. În prezent este greu
calcule precum şi de a lua decizii. Aceste de găsit un domeniu al medicinei care să nu
noutăţi l-au instalat repede în fruntea utilizeze calculatorul, totuşi în analiza
instrumentelor ajutătoare activităţii omului. următoare vom trece în revistă doar
Calculatorul electronic este maşinăria care a domeniile principale.
devenit repede indispensabilă pentru om. În
figura 1.1.1 vedem imaginea primului
calculator electronic din lume, ENIAC-ul. 1.1.2.1. Diagnosticarea automată
În prezent calculatorul a pus stăpânire pe
tot ceea ce înseamnă informaţie, depăşind cu
mult capacitatea umană de memorare, Pacientul este caracterizat de un şir de
prelucrare, căutare, decizie. Informatica este simptome cu care este alcătuit un vector de
astăzi un cuvânt pe buzele tuturor, este un observaţie. Componentele acestui vector
cuvânt pe care îl folosim fără să ne dorim să- sunt evidenţiate prin:
l înţelegem, căci îl avem în jurul nostru încă -răspunsuri la întrebări standard,
de la naştere. Aproape că nu sesizăm când -semne fizice,
-determinări de laborator,
6
Informatică Medicală și Biostatistică

-măsurări cu aparatură de specialitate. electronice fiind incluse aproape în toate


Atât pentru pacientul sănătos cât şi pentru instrumentele medicale. Microcalculatoare
fiecare afecţiune în parte a fost stabilit câte dobândesc şi procesează date achiziţionate
un vector etalon. Pentru stabilirea direct de la pacient. Clasicele semnale
diagnosticului unui nou pacient i se electrice ce generează electrocardiograma
alcătuieşte vectorul de observaţie şi este (EKG), electroencefalograma (EEG),
comparat (probabilistic sau fuzzy) cu electromiograma (EMG) sunt acum
vectorii etalon ai fiecărei afecţiuni. transformate în şiruri de valori numerice şi
preluate în memoria calculatorului urmând
Calculatorul oferă medicului lista
proceduri performante de prelucrare de
diagnosticelor probabile, iar medicul
semnal. În cazul semnalelor neelectrice,
pornind de la afecţiunea cu probabilitatea
utilizându-se traductoare, se face trecerea la
maximă în jos stabilieşte diagnosticul. Deci
semnal electric şi apoi folosindu-se
tot medicul are decizia finală. O astfel de
convertoare analog numerice se ajunge la
diagnosticare poartă numele de
şiruri de valori numerice. Putem da ca
diagnosticare asistată de calculator.
exemplu activitatea respiratorie şi
Observăm că este rigidă şi nu îşi poate
temperatura. Să exemplificăm cazul
îmbunătăţi performanţa decât prin creşterea
pacienţilor monitorizaţi ce se află în timpul
experienţei medicului examinator.
intervenţiilor chirurgicale sau în unităţile de
A doua variantă este sistemul expert. Şi terapie intensivă. Cu ajutorul unor senzori
acesta presupune existenţa unui sistem calculatorul poate prelua de la pacient
automat de comparare dar şi a unui set informaţii importante privind ritmul cardiac,
(respectabil ca dimensiuni) de vectori saturaţia oxigen din sânge, presiunea
proveniţi de la pacienţi diagnosticaţi (baza arterială, ritmul respirator, temperatura.
de cunoştinţe). Atenţie, cu fiecare nouă Pacientul fiind conectat permanent la
diagnosticare baza de cunoştinţe mai adaugă instrumentele de supraveghere (funcții
un nou vector. În baza de date rămâne pentru vitale, dinamica respiratorie, fibrilația
fiecare vertor şi diagnosticul, deci nu mai ventriculară, aritmii) sunt prelucrate
avem un vector standard al fiecărei boli ci o informaţiile obţinute, afişate rezultatele
mulţime de vectori cu diagnosticul ataşat. preliminare, emise alarme precum şi
Vectorul noului pacient va fi comparat cu transmise date la niveluri superioare.
fiecare din vectorii din baza de date şi acolo
unde se va găsi similitudinea va fi găsit şi
diagnosticul. Din acest moment noul vector 1.1.2.3. Imagistica medicală
cu simptome, dar şi cu diagnostic va fi inclus
în baza de cunoştinţe. Evident că în acest fel
baza de cunoştinţe creşte mereu şi îşi creşte Imagistica medicală este domeniul
şi valoarea comercială, cu cât numărul de medical ce foloseşte instrumente care
pacienţi incluşi creşte, cu atât creşte şi preţul. furnizează medicului imagini (radiografii,
tomografii, ecografii), deosebit de
importante în stabilirea diagnosticului.
1.1.2.2. Instrumentaţia medicală Obţinerea imaginilor se poate realiza cu
ajutorul: razelor X, rezonanţei magneticei
sau reflexiei şi refracţiei undelor ultrasonice
Medicina modernă beneficiază din plin (ecografia). Dacă principiile de obţinere a
de avantajele miniaturizării, montaje imaginilor diferă, pentru prelucrarea lor sunt

7
Informatică Medicală și Biostatistică

folosite cam aceleaşi principii (detectectarea 1.1.2.5. Cercetarea ştiinţifică medicală


şi procesarea contururilor, suprafețelor,
punerea în evidenţă sau ascunderea anumitor
organe sau zone, nuanțe). Obţinerea acestor Experimentul ştiinţific medical
impresionante performanţe nu a putut fi presupune parcurgerea etapelor din figura
realizată decât cu ajutorul calculatorului 1.1.2. Observăm faptul că drumul de la IDEE
performant, caracteristic actualului secol. la PUBLICARE este destul de lung şi
laborios. Remarcăm faptul că fiecare pas este
asistat de documentare. De ce? În cercetarea
1.1.2.4. Sănătatea publică ştiinţifică eşti într-o permanentă cursă contra
cronometru, trebuie să fii informat la zi cu tot
ce apare nou în domeniul tău de cercetare,
Cantitatea mare de informaţie ce trebuie pot să apară cercetări noi a căror rezultate şi
prelucrată în prezent de funcţionarii din idei e bine să fie preluate în cercetarea
domeniul sănătăţii publice face imposibilă personală.
activitatea fără ajutorul calculatoarelor.
Informatica şi-a găsit locul minunat de
acţiune pentru stocarea şi prelucrarea în timp
optim a datelor medicale. Pentru a putea
centraliza date medicale, în vederea
prelucrării prin metode statistice, este
necesar ca ele să existe la nivel de unitate
medicală (cabinet medical, centru medical,
spital). Rezultă necesitatea informatizării
tuturor unităţilor medicale, pentru a putea fi
uşor transmise datele. Dacă la nivelul
cabinetelor medicilor de familie a fost
realizată informatizarea în vederea raportării Figura 1.1.2. Etapele unui experiment
către Casa de Asigurară de Sănătate încă din ştiinţific
secolul trecut, la nivelul spitalelor activitatea
este în curs de realizare. Spitalele mari au Ce faci însă în situaţia în care rezultate
realizat o mare parte a acestei informatizări, similare cercetării personale apar publicate?
transmitând datele către forurile judeţene ale Este un moment neplăcut, revistele
Direcţiilor de Sănătate Publică, care transmit importante, ce caută noutăţi nu vor mai
mai departe către minister. Spitalele mai publica lucarea ta şi fie te vei mulţumi cu
mici au început şi ele această activitate. reviste mai puţin importante. E varianta e
Putem spune cu certitudine că fluxul puţin avantajoasă! Variata grea este cea în
continuu de informații poate fi stocat, care lămureşti revizorii revistei că cercetarea
procesat şi organizat numai datorită ta a fost independentă şi mai ales că ai un alt
informaticii Costul iniţial al acestor proiecte scop (trebuie foarte bine argumentat să
este mare, dar prin eficienţă (necesită mai dovedeşti diferenţele dintre cele două
puțin timp precum şi un personal redus) se lucrări). Acestea sunt motivele pentru care
justifică şi permite organizarea unei rețele de trebuie să fii permanent conectat la ceea ce
nivel înalt pentru Asistenţa de sănătate. apare publicat de lumea ştiinţifică. Privind
schema observăm existenţa experimentului
pilot dar şi a experimentelor. Care este
diferenţa? Experimentul pilot este necesar
8
Informatică Medicală și Biostatistică

pentru a se proba convergenţa rezultatelor, 1.1.2.7. Informarea medicală folosind


plelucrând date la scară redusă se analizează calculatorul
împrăştierea. Dacă avem rezultate
convergente atunci putem continua la scară
largă, dacă însă constatăm că nu avem A trecut demult timpul în care un
convergenţă este necesar să reconsiderăm calculator însemna exclusiv un instrument de
experimentul, să analizăm etapele şi să efectuat rapid calcule matematice, în prezent
redefinim paşii astfel încât să ajungem la calculatorul este un instrument extrem de
rezultate convergente. Abia atunci când utilizat şi pentru informare. Căutatul între
prelucrarea statistică la nivel de experiment volumele prăfuite ale bibliotecilor este azi
pilot oferă rezultate convergente vom putea înlocuit de căutatul electronic, în biblioteci
trece la experimentarea la scară largă, la virtuale, mult mai eficient. Au apărut chiar
analiza statistică a tuturor rezultatelor şi la biblioteci virtuale, care iţi oferă informaţia în
publicarea într-un articol ştiinţific. format electronic şi de la care nu poţi
împrumuta fizic o carte, căci ele nu au un
sediu unde să te întâlneşti cu o bibliotecară şi
1.1.2.6. Modelarea să cauţi fizic prin prin rafturi. În schimb
cantitatea de informaţie găsită este infinit
mai mare! Dacă iţi doreşti neapărat să ţii
În cercetarea medicală modernă de multe cartea în mână şi nu nişte foi de hârtie tipărite
ori se poate simula matematic realitatea şi cu propria imprimantă nu e nici o problemă,
trage concluzii înaintea experimentului pe tot cu ajutorul internetului ţi se comandă un
viu. Modelul este conceput ca o copie volum fizic şi un curier ţi-l aduce acasă. Asta
funcţională a unor structuri sau fenomene în situaţia în care doreşti să cumperi cartea şi
reale şi este descris cu un aparat matematic dacă ea mai există la vânzare! În caz contrar
adecvat, în conformitate cu realitatea. îţi rămâne varianta clasicului împrumut de la
Structurile complexe din biologie, pentru a fi biblioteca apropiată, unde se poate apela la
simulate solicită pe lângă un aparat împrumutul interbibliotecar. Dar mai are
matematic avansat dar şi o capacitate cineva răbdare să aştepte aşa mult? Vom
eficientă de calcul pentru a fi oferite începe însă prezentarea posibilităţilor de
condiţiile realizării simulării. informare medicală cu biblioteca. Fiecare
În practica cercetării medicale moderne facultate de medicină oferă studenţilor un
se generează modelul, apoi se trece la volum de cărţi şi reviste în format fizic.
simulare, după care urmează experimentul Oricât de mare ar fi biblioteca este evident că
pilot. ea nu poate găzdui tot ce apare în întreaga
lume şi atunci căutarea formatului
În general ca etape se porneşte de la electronic, utilizand Internetul, devine o
fenomene reale, care sunt aproximate prin necesitate. Bibliotecile sunt tot mai
modelare matematică, în care sunt interesate să cumpere abonamente
aproximate funcţiile reale, apoi se face electronice la reviste (mai ieftine şi cu
simularea, folosind modelul matematic accesibilitate mult mai largă). Chiar şi cărţile
obţinut şi se trece la compararea cu realitatea pot exista în formă electronică ţinând pasul
pentru a se evalua precizia modelului cu secolul actual. Constatăm că
matematic. documentarea făcută cu ajutorul
calculatorului, prin intermediul Internetului,
devine indispensabilă în acest moment, fiind

9
Informatică Medicală și Biostatistică

eficientă, rapidă şi ieftină. În prezent suficiente situ-ri internet ce să ne ofere


existenţa unor baze de date electronice, posibilitatea informării electronice. Sigur,
internationale, ce acumulează informaţie putem căuta utilizând internetul şi direct
medicală facilitează informarea. Un exemplu după subiectul medical dorit şi garantat vom
îl constitue MEDLINE care este Biblioteca obţine foarte multe articole. O putem face,
Națională de Medicină a Statelor Unite ale dar mare atenţie la analiza obiectivă a celor
Americii (NLM). O caracteristică a citite, nimeni nu garantează asupra
MEDLINE este faptul că sunt indexate corectitudinii celor scrise, Internetul
titlurile cu subiecte medicale NLM gazduind orice! Citind articole din reviste
(MeSH®). MEDLINE este varianta online al medicale cunoscute vom avea garanţia dată
MEDLARS® (MEDical Literature Analysis de revizori că informaţia este corectă. Deci
and Retrieval System) apărută în 1964. mare obiectivitate atunci când vă informaţi
MEDLINE este o bază de date internaţională utilizând Internetul!
ce reţine numele tuturor articolelor din
revistele medicale importante de pe întreg
globul. De remarcat faptul că pe lângă 1.1.2.8. Realizarea şi prezentarea lucrărilor
numele articolului şi a autorilor, este reţinut ştiinţifice medicale
şi rezumatul articolului (ce este scris într-o
limbă de circulaţie internaţională). Pentru
unele articole putem găsi chiar şi forma Activitatea medicală presupune o
integrală ("in extenso"). Varianta la care informare continuă, ce o poţi face atât citind
avem acces uşor este PubMed® lucrări ştiinţifice medicale, cât şi participând
(https://pubmed.ncbi.nlm.nih.gov/) cu peste la manifestări ştiinţifice medicale.
30 de milioane de citate de literatura Atunci când participi la o astfel de
biomedicală MEDLINE. Trebuie să reuniune poţi să îţi faci cunoscută şi
menţionăm în această enumerare şi faptul că activitatea ta de cercetător ştiinţific. Dar care
multe din bibliotecile de specialitate din sunt manifestările ştiinţifice medicale?
întreaga lume oferă înformaţie în format "on-
line". Aici putem adăuga şi abonamentele la Manifestările ştiinţifice medicale sunt, în
reviste de specialitate format ”on line” făcute ordinea crescătoare a numărului
de instituţii guvernamentale şi oferite gratuit participanţilor: Masa rotundă, Simpozionul,
instituţiilor de învăţământ. Într-o astfel de Conferinţa, Congresul. Masa rotundă are
situaţie este şi biblioteca Universităţii de amploarea cea mai mică, are o temă,
Medicină şi Farmacie din Craiova participanţii prezentând lucrări pe tema
(http://www.umfcv.ro/biblioteca), care pe propusă, având loc şi discutarea în comun a
lângă accesul la fondul propriu de cărţi şi lucrărilor. Simpozionul este categoria
reviste oferă, prin intermediul unor următoare, putând fi organizat local,
abonamente instituţionale, acces la reviste judeţean, naţional. Atunci când participarea
”on line”. Un alt capitol al informării depăşeşte cadrul naţional simpozionul
medicale la îndemâna oricui o constituie devine "cu participare internaţională".
consultarea de articole ştiinţifice în format Conferinţele sunt manifestări ştiinţifice de
“open access” (disponibile pe internet). amploare naţională sau internaţională,
Accesând adresa https://doaj.org găsim lista organizatorul lor fiind o asociaţie
adreselor de internet unde ni se oferă gratuit profesională, o societate naţională.
reviste ”on line”. Biblioteca virtuală a Societăţile naţionale sunt afiliate în societăţi
devenit o certitudine, există în prezent internationale, ierarhia fiind după aria

10
Informatică Medicală și Biostatistică

geografică acoperită: europeană, americană, ştiinţifică este adăugată şi lista referinţelor


mondială. Membrii societăţilor naţionale bibliografice. Această listă menţionează
trebuie să respecte un statut şi să plătească o provenienţa tuturor ideilor sau rezultatelor
cotizaţie. Pentru prezentarea rezultatelor preluate din alte lucrări ştiinţifice. Este
ştiinţifice ale activităţii de cercetare, obligatorie, dă valoare lucrării publicate şi
societăţile editează reviste stiinţifice. Fiecare înlătură plagiatul.
societate naţională organizează anual o
O lucrare ştiinţifică începe cu titlul.
conferinţă, iar la un interval mai mare de
Acesta trebuie să trebuie să sintetizeze
timp (de regulă 4 ani) un congres. Fiind
esenţa lucrării, să fie concis (în măsura
organizat mai rar, congresul are o amploare
posibilităţilor) şi să fie cât mai atractiv. În
mult mai mare, cu mai multe teme dezbătute.
figura 1.1.3 este oferit un exemplu de titlu al
Prezentarea rezultatelor cercetărilor unui articol ştiinţific. Imediat sub titlu sunt
ştiinţice obţinute se face prin realizarea unor prezentaţi autorii. Numele lor nu este
lucrări ştiinţifice ce pot fi prezentate verbal precedat de grade ştiinţifice iar ordinea lor
sau sub formă de Poster (afiş) la manifestări indică gradul de participare la realizarea
ştiinţifice, sau publicate în reviste sau cărţi materialului. De obicei pe poziţia finală este
ştiinţifice. Pentru o lucrare ştiinţifică pus autorul care a coordonat şi supravegheat
medicală capitolele ce trebuiesc atinse sunt: realizarea lucrării. Pentru fiecare autor este
Introducere, Material şi metodă, Rezultate, menţionată instituţia de la care provine, de
Discuţii şi Concluzii. În mod obligatoriu regulă printr-un număr şi o listă
pentru un articol ştiinţific sau pentru o carte corespunzătoare (figura 1.1.3).

Figura 1.1.3. Titlul, autorii, rezumatul şi începutul pentru un articol ştiinţific

11
Informatică Medicală și Biostatistică

Imediat după titlu şi lista autorilor


urmează un rezumat al lucrării. Acest
rezumat este scris într-o limbă de circulaţie
internaţională (de regulă engleză) pentru a o
descrie atunci când este prezentată într-o
bază de date internaţională.
INTRODUCERE este primul capitol al
lucrării. Conţinutul acestui capitol arată de
ce este important subiectul tratat şi cum au
ajuns autorii la cercetarea lui.
MATERIAL şi METODĂ este al doilea
capitol al articolului ştiinţific medical şi ne
descrie sintetic loturile studiate precum şi
metodele aplicate. De obicei sunt două Figura 1.1.4. Exemplu de figură dintr-un
loturi, unul de control şi unul care a fost articol şi referirea ei în text
supus acţiunii unui tratament. Dacă se
urmăreşte eficienţa unor tratamente diferite,
cele două loturi vor fi tratate diferit şi
comparat statistic rezultatul. Loturile
studiate trebuie să fie omogene şi de aceeaşi
tip, urmărind ca rezultatele obţinute să difere
doar datorită tratamentului administrat!
Metoda de cercetare utilizată va fi descrisă în
detaliu, menţionând de unde au fost preluate
idei, rezultate, formule de calcul, eventuale Figura 1.1.5. Exemplu de tabel dintr-un
rezultate. articol şi referirea lui în text
Aşa cum îi spune şi numele capitolul
REZULTATE reuneşte valorile obţinute în
studiul nostru. Modalitatea de prezentare
poate grafică sau tabelară. Graficele,
imaginile sau tabelele vor fi numerotate şi
obligatoriu referite în text. Asfel figura 1.1.4
ilustrează modalitatea de inserare a unui
grafic, iar figura 1.1.5. prezintă un exemplu
de referire a unui tabel într-un text al unei
lucrări ştiinţifice.
După prezentarea rezultatelor se trece la
capitolul DISCUŢII, în care se comentează
rezultatele obţinute. Unele reviste unesc
acest capitol cu cel de CONCLUZII. Aici
Figura 1.1.6. Modalitate de indicare în text
sunt prezentate ideile la care s-a ajuns în
a referinţei bibliografice
urma cercetării efectuate. Lista rămâne
întotdeauna deschisă, articolul nostru putând
constitui un punct de plecare pentru o altă
cercetare. Asta dacă articolul este de interes!
12
Informatică Medicală și Biostatistică

Capitolul final este cel al referinţelor textului lucrării se fac menţionând între
bibliografice (BIBLIOGRAFIE) în care paranteze rotunde numele primului autor şi
menţionăm numele tuturor articolelor din anul de apariţie. În situaţia în care pentru un
care au fost preluate idei, rezultate, imagini. autor sunt citate mai multe lucrări publicate
Lista referinţelor conţine pentru fiecare în acelaşi an, după precizarea anului este
lucrare menţionată în text numele autorilor, menţionată şi o literă, în ordine alfabetică
titlul articolului, numele revistei sau cărţii, după momentul apariţiei.
anul apariţiei precum şi paginile din lucrare.
Lista bibliogafică finală se face în ordine
În figura 1.1.6. este exemplificată o astfel alfabetică după primul autor. Conţinutul
de indicare. Există două mari variante de listei pentru ficare lucrare are aceleaşi rigori
indicare a referinţelor bibliografice. Varianta ca la cazul prezentat anterior. Care este
din figura 1.1.6. foloseşte pentru construirea avantajul acestei variante? În cazul adăugării
tabelului ordinea menţionărilor din articol. unei noi referinţe este foarte uşoară
Pentru acest tip de listă referinţele din text introducerea ei, căci nu mai avem de
sunt precizate cu numere încadrate între translatat toate numerele referinţelor din
paranteze drepte. Deci lista din tabelul final lucrare. Tabelul final al referinţelor se
este organizată în ordinea menţionării în modifică prin adaugarea corespunzătoare în
articol. Dezavantajul principal la acet tip de poziţia literei primului autor a noii lucrări.
listă apare atunci când trebuie să mai înserăm Avantajul acestei variante este evident, dar
o lucrare, fapt ce duce la schimbarea nu autorul articolului îşi alege varianta, ci
numerotării referinţelor. O variantă mai uşor editura impune tipul de referinţă.
de utilizat este cea în care lista finală este
Figura 1.1.7. ne prezintă imaginea de
ordonată alfabetic. Referinţele în cadrul
ansamblu a unui articol ştiinţific

Figura 1.1.7. Aspectul general al unui articol ştiinţific.

13
Informatică Medicală și Biostatistică

1.2. Organizarea şi punct comun, în secolul XXI, cine nu mai


ştie să utilizeze un calculator se poate
funcţionarea unui calculator considera analfabet. Este poate prea dur să
numeric spunem acest lucru, dar el este consecinţa
directă a realităţii care ne înconjoară. Prin
calculator înţelegem un sistem complex care
1.2.1. Ce este un calculator stochează şi prelucrează informaţii şi care
este capabil să ne ajute în activitatea zilnică,
cu care să putem calcula, desena, scrie,
Mai are rost să ne întrebăm astăzi ce este întocmi baze de date şi statistici, realiza
un calculator, astăzi, când avem calculatoare arhive cu date, imagini şi sunete, prelucra
la tot pasul, când jucăria dorită de copii informaţii, achiziţiona şi prelucra imagini şi
conţine în interior, miniatural un un semnale. Lista se imbogăţeşte mereu,
calculator. Răspunsul îl vom avea după ce calculatorul infiltrându-se practic în toate
vom parcurge acest capitol şi vom înţelege domeniile de activitate. În figura 1.2.1. este
cum funcţionează calculatorul. prezentată imaginea clasică a calculatorului
personal (Personal Computer -PC), aproape
devenită istorie deoarece în ultimele variante
mai avem doar tastatura, mouse-ul şi
display-ul (în care se află şi unitatea centrală
într-o formă miniaturizată). Mai condensat
dar mult mai performant!
De ce se mai numeşte calculator, ce
legătură poate exista între între artă şi
calcule, între controlarea unor procese şi
Figura 1.2.1. Aspectul clasic al banalele înmulţiri? Numele îi vine chiar de la
calculatorului personal (PC): 1-monitor, activitatea lui de bază, calculul. Aşa cum îi
2-tastatură, 3-mouse, 4-unitate centrală spune numele, calculatorul nu face altceva
decât să efectueze calcule, adică adunări,
scăderi, înmulţiri... În interiorul
Există multe lucruri pe care le utilizăm calculatorului sunt găzduite numere, multe
fără a le înţege funcţionarea. Spre exemplu numere, cu care se efectuează calcule.
stiloul, pixul, scriem cu ele fără a ne întreba Numerele nu reprezintă altceva decât
ce este înăuntru. Cândva atunci cand pixul nu informaţia codificată, iar calculele
mai scria îi schimbam pasta. Acum îl prelucrarea informaţiei. Trebuie să reţinem
aruncăm şi cumpărăm altul. Călimara, din faptul că în calculator nu există decât numere
care părinţii noştrii îşi umpleau stiloul începe şi că orice informaţie, indiferent de natura ei,
să fie uitată, căci schimbăm un mic cilindru poate fi transformată în numere. Calculatorul
plin cu cerneală (cartuş rezervă) şi stiloul prelucrează informaţia efectuând un şir de
fucţionează din nou. Totuşi calculatorul nu calcule (algoritm de calcul), fiecare calcul
este încă atât de simplu şi necesită, aşa cum fiind efectuat la comandă. Pe lângă calculele
automobilul o cere pentru a fi condus, un numerice, calculatorul poate efectua şi
stagiu de învăţare a utilizării lui. Sigur, calcule logice (de tipul este un număr mai
comparaţia dintre stilou şi calculator este mare decât altul, este rezultatul calculului
forţată, diferenţa de complexitate şi pozitiv, negativ, zero etc.).
performanţă este imensă, totuşi există un

14
Informatică Medicală și Biostatistică

Cine dă comenzile? Programul, care este curând, mai ales de noile tehnologii ce vor
alcătuit din instrucţiuni, fiecare instrucţiune reconsidera mişcarea mecanică (la nivel de
fiind câte o comandă pentru calculator. nanotehnologii).
Programul se află în memoria calculatorului
iar instrucţiunile lui sunt executate pe rând,
prelucrându-se în acest fel datele 1.2.2. Schema de organizare şi
(informaţia). Să reţinem că datele se află în funcţionare a unui calculator numeric
aceeaşi memorie cu programul.
Cine scrie programul? Omul şi numai el. Majoritatea calculatoarelor numerice
Chiar dacă suntem depăşiţi la viteza de realizate până în prezent funcţionează
calcul, la programare suntem de neînlocuit. conform principiului comenzii după
Ne înţelege limbajul nostru calculatorul? Nu, program (publicat de John von Neumann în
din păcate, deocamdată este necesar să "First Draft of a Report on the EDVAC," în
învăţăm noi limbajul de programare al 1945), în care atât programul cât şi datele
calculatorului, adică semnificaţia sunt înmagazinate în aceeaşi memorie, în
instrucţiunilor ce el le poate executa. formate similare.
Calculatorul a fost dintotdeauna aşa cum
este astăzi? Nu, deşi a avut dintotdeauna ca
sarcină efectuarea de calcule, el a suferit un
proces continuu de transformare. De la un
instrument mecanic (vechile abace sau
numarători), la instrumente electrice (maşini
electrice de calcul, în care motoare electrice
roteau discuri mecanice ce realizau
calculele), la calculatoare electronice (care
efectuiază calculele fără deplasări mecanice,
folosind mişcarea electronilor din tuburile Figura 1.2.2. Schema generală a unui
electronice, tranzistoare, circuite integrate). calculator (dupa von Neumann, 1946)

Au existat şi calculatoare analogice,


calculatoare la care informaţia era Fiecare calculator numeric este organizat
reprezentată prin tensiuni (valori continue şi după schema din figura 1.2.2. în blocurile de:
nu numere) iar calculele erau efectuate de
circuite electronice. Noţinea de programare  intrare şi ieşiere (pentru a fi asigurată
este diferită la aceste calculatoare, ea comunicaţia cu exteriorul),
însemnând realizarea efectivă a circuitelor şi  memorie (pentru a fi asigurată
nu scrierea de instrucţiuni. Deşi prezintau înmagazinarea datelor şi a programului),
avantaje, datorită lipsei de flexibilitate  calcul (pentru a fi efectuate calculele
calculatoarele analogice sunt mai rar folosite aritmetice şi deciziile logice),
în prezent.  comandă şi control (pentru a fi realizată
coordonarea funcţionării corecte a
Ca o concluzie, denumirea de calculator, tuturor blocurilor).
este echivalentă, în prezent, cu denumirea de
calculator numeric. Atributul de electronic Este oare îndepărtată funcţionarea
(subînţeles), abandonat de mai mulţi ani, este unei astfel de sheme de modul în care
posibil să fie pus sub semnul întrebării cât de calculează oamenii? Să luăm exemplul
adunării numerelor 2 şi 3 şi să observăm cu
15
Informatică Medicală și Biostatistică

atenţie etapele pe care le parcurge un elev (cursor) pe ecran. La apăsarea unuia dintre
aflat la momentul abc-ului aritmeticii: butoanele sale, mouse-ul trasmite o comandă
catre calculator. Interpretarea comenzii este
1. Copilul repetă enunţul problemei (doi
legată de poziţia în care se află indicatorul.
şi cu trei faaaac...). În această etapă nu se
În acest fel pe ecran pot fi afişate comenzi
face altceva decât aducerea în aceeaşi
(sub formă de liste sau de desene), lansarea
memorie a datelor (2 şi 3) şi a programului
unei comenzi făcându-se prin ducerea
(adunare).
indicatorului mouse-ului peste simbolul ei şi
2. Pentru găsirea răspunsului copilul apăsarea butonului corespunzător de pe
apelează la un mic ajutor, de exemplu duce mouse.
mâinile la spate şi socoteşte repede pe
• Scanner-ul. Dispozitiv ce asigură
degete. Este exact etapa în care datele sunt
transferul de imagini fotografice în
transferate din memorie în unitatea de calcul,
calculator. Înainte de memorare este
este efectuat calculul, după care rezultatul
necesară transformarea imaginii într-un set
este memorat.
de numere (digitizare).
3. Copilul enunţă rezultatul calculului (...
• Aparatul de fotografiat numeric. Aparat
cinci). Este faza finală, în care prin
de fotografiat ce stochează imaginile în
intermediul blocului de ieşire ne este
format numeric (şiruri de numere întregi)
prezentat rezultatul. Iată că nu suntem
sub formă de fişiere.
departe de funcţionarea unui calculator.
• Camera digitală de luat vederi. Cameră
Să plecăm de la acest simplu exemplu şi
de luat vederi capabilă să digitizeze
să vedem mai în detaliu la ce serveşte fiecare
(transforme în numere) imagini cu subiecţi
bloc în parte.
în mişcare şi să le transfere în memoria
Blocul de intrare calculatorui, fără pierderi sesizabile de
Este poarta prin care programul şi datele informaţie şi cu păstrarea senzaţiei de
pătrund în memoria calculatorului, dirijate mişcare.
de blocul de comandă şi control. Blocul de • Placa de sunet dotată cu microfon.
intrare are rolul de a transforma şi codifica Poate servi pentru a aduce sub formă
informaţia, astfel încât aceasta să se numerică a sunetului într-un calculator.
încadreze în formatul general de memorare,
Blocul de ieşire
pentru a putea fi dirijată de unitatea de
comandă şi control către blocul de memorie. Este poarta prin care calculatorul ne
Dispozitivele ce sunt utilizate pentru a prezintă rezultatele calculelor sale. Blocul de
introduce informaţii în calculator poartă ieşire este folosit şi pentru controlul vizual al
numele de periferice de intrare şi includ: introducerii corecte a informaţiei de intrare.
Blocul de ieşire are rolul de a transforma
• Tastatura (figura 1.2.15). Asigură prin
informaţia memorată şi de a o prezenta
apăsarea unor butoane (taste) transmiterea de
utilizatorului într-un format inteligibil.
litere, cifre, comenzi către blocul de
Dispozitivele ce intră în această categorie
comandă şi control.
poartă numele de periferice de ieşire şi
• Mouse-ul sau şoarecele (figura 1.2.16). includ:
Este dispozitivul ce a revoluţionat dialogul
• Monitorul (display-ul). Asigură
dintre utilizator şi calculator. Mişcarea lui pe
prezentarea către utilizator a rezultatelor, sub
masă duce la deplasarea unui indicator
formă de imagine, pe o suprafaţă ce poate

16
Informatică Medicală și Biostatistică

schimba dinamic informaţia (clasic tub dimensiunea memoriei interne este limitată
cinescop, în prezent suprafaţă cu cristale la o valoare maximă impusă de producătorul
lichide, plasmă). Datorită acestei propietăţi calculatorului. Memoria externă are ca
constituie şi consola de afişare a comenzilor sarcină arhivarea informaţiei, având
date calculatorului, vechile console în care caracteristica principală nevolabilitatea.
comenzile erau înregistrate pe hârtie fiind de Denumirea de externă este legată de faptul că
mult abandonate. este utilizat un suport extern de informaţie,
un suport nevolatil. Suportul extern cel mai
• Imprimanta. Este dispozitivul ce asigură
utilizat în prezent este cel magnetic. Un alt
transferarea pe hârtie a informaţiei stocate de
suport şi el cu o largă răspândire este cel
memoria calculatorului. Putem clasifica
optic (cuvântul optic vine de la faptul că
imprimantele în funcţie de: modul de
informaţia se citeşte optic). Ambele tipuri de
tipăririe (impact, jet de cerneală sau laser),
suport necesită pentru acces deplasarea
posibilităţile cromatice (alb-negru sau
mecanică a unui cap de scriere/citire, deci
color), posibilităţile grafice, dimensiunile
necesită un timp de acces (zeci de
suprafeţei hârtiei.
milisecunde) mult mai mare decât în cazul
• Placa de sunet dotată cu difuzoare. Este memoriei electronice. Atenţie, pentru a fi
dispozitivul prin care calculatorul poate atât prelucrată, informaţia găzduită de memoria
oferi semnale acustice simple sau sintetiza externă, trebuie mai întâi adusă în memoria
sunete complexe, cât şi achiziţiona sunete, internă! Acest lucru ne îndreptăţeşte să
prin transformarea lor în şiruri de numere. încadrăm memoria externă în categoria
Pare ciudat, placa de sunet este atât bloc de perifericelor calculatorului. A apărut şi un tip
intrare cât şi de ieşire? Da, acelaşi modul rapid de memorie externă, statică (din
asigură funcţii ce apaţin de blocuri diferite. circuite electronice), ce asigură memorarea a
Blocurile descrise mai jos alcătuiesc cantităţi mari de informaţie şi care nu e
unitatea centrală (figura 1.2.2) şi sunt: volatilă. O considerăm în continuare
memorie externă pentru modul în care este
Blocul de memorie accesată.
Este locul în care calculatorul stochează Blocul de calcul aritmetic şi logic
informaţia. Aici vor fi găzduite, într-un
format similar atât programul cât şi datele ce Este singurul modul capabil să genereze
urmează a fi prelucrate. Trebuie să reţinem informaţie nouă. Sub supravegherea blocului
faptul că există două tipuri de memorie, o de comandă şi control, atunci când
memorie internă (care este cea care ajută la programul o cere, datele sunt transferate din
aplicarea principiului comenzii după memorie şi asupra lor se efectuiază calculul
program) şi una externă, care măreşte dorit.
capacitatea de stocare. Memoria internă este Blocul de comandă şi control
formată din circuite electronice (motiv
Este locul din care se dau toate comenzile
pentru care nu poate stoca informaţia decât
şi care controlează buna funcţionare a
atâta timp cât este alimentată cu energie
întregului calculator. Blocul de comandă şi
electrică), are un timp mic de acces (putem
control este capabil să înţeleagă comenzile
citi sau scrie informaţia într-un timp de
din programul memorat şi să aleagă pentru
ordinul nanosecundelor). Memoria internă
executare blocul necesar, căruia să-i trimită
este adresabilă, adică este formată din celule
semnalele şi datele corespunzătoare. Pentru
la care putem avea acces direct. Fiind
aplicarea principiului comenzii după
formată din circuite electronice,

17
Informatică Medicală și Biostatistică

program, blocul de comandă şi control este comandă şi control nu mai supraveghează


cel care asigură trecerea la instrucţiunea acest bloc şi dă sarcini către alte blocuri
următoare, prin generarea adresei locaţiei de componente, aşteaptând de la primul bloc un
memorie, urmată de citirea şi interpretarea semnal prin care acesta să-l anunţe că şi-a
conţinutului ei. realizat sarcina şi că poate primi una nouă. E
simplu, nu? Ca să arătăm cât este de firesc să
dăm un exemplu. Învăţăm pentru un examen.
Multitasking. Multiuser. Sistem de La un moment dat suntem anunţaţi că cineva
Întreruperi o să ne aducă nişte materiale bibliografice.
Odată adus în memorie, programul poate Întrerupem învăţatul pentru a aştepta în
stradă? Nu. Din cinci în cinci minute ne
fi rulat, lansat în execuţie. Pot fi oare aduse
în memorie mai multe programe simultan? uităm pe geam în stradă? Nici vorbă.
Aşteptăm învăţând în continuare şi ne
Da, calculatoarele moderne pot partaja
suspendăm activitatea abia atunci când
(împărţi) memoria internă şi pot oferi pentru
fiecare program câte o zonă proprie de lucru. auzim soneria de la intrare. Că avem grijă să
punem un semn în cartea din care citeam, e
Dacă resursele sistemului de calcul permit,
programele pot fi executate în paralel. Ce adevărat, dar şi calculatorul are grijă să
salveze informaţia necesară pentru a-şi
înseamnă permit? Ne putem uşor imagina că
continua corect activitatea după ce rezolvă
cele două (sau mai multe) programe ce
rulează simultan s-ar putea să solicite în cererea solicitată prin întrerupere. Şi mai ştie
să facă ceva, să acorde nivele de prioritate
acelasi moment o aceeaşi resursă. Cine
arbitrează acest conflict? Nu poate intra în cererilor de întrerupere. Adică nu toate sunt
la fel de importante şi dacă sosesc simultam
discuţie decât blocul de comandă şi control.
mai multe cereri, ele vor fi tratate pe rând în
Acesta poate evita astfel de conficte dacă
atribuie resursele pe rând fiecărui program funcţie de importanţa lor (oare noi nu
răspundem mai întăi la telefon şi apoi
câte o fracţiune de timp. Câte o fracţiune de
timp şi nu întreg timpul pentru a avea deschidem uşa, dacă cele două sonerii sună
simultan?).
activităţi desfăşurate cvasiparalel şi nu
executarea completă a celui de-al doilea
program abia după ce primul a prezentat
rezultatele. E o variantă şi multă vreme
calculatoarele au folosit acest mod de lucru.
Pe măsura dezvoltării complexităţii
calculatoarelor, blocurile componente au
început să beneficieze de sisteme proprii de
gestionare a activităţii. Deasemenea, datorită
tipurilor diferite de activităţi, niciodată Figura 1.2.3. Supercalculatoare
blocurile componente nu au avut aceeaşi
viteză de lucru. şi atunci nu este lipsit de
performanţă să acordăm, prin unitatea de Se rezolvă în acest fel executarea
comandă şi control, fracţiuni de timp de simultană de programe, adică se lucrează în
aceeaşi lungime pentru toate blocurile? Sigur sistem multitasking, mărind mult eficienţa
că da! Aşa a apărut sistemul de întreruperi. sistemului de calcul. Dacă putem executa în
Cum poate lucra în întreruperi fiecare bloc în paralel mai multe programe, acestea nu pot
parte? Simplu, blocul primeşte o sarcină de aparţine mai multor utilizatori? Da, pot lucra
realizat şi începe să o realizeze. Unitatea de mai mulţi utilizatori pe acelaşi calculator,

18
Informatică Medicală și Biostatistică

atâta timp cât calculatorul le poate rula în ce îl compun. Putem include în structura
paralel programele. Singura problemă este să chiar şi cutia în care se află circuitele
li se ofere console separate (nu putem lucra electronice. Ştim cum arată în prezent o un
eficient cu aceeaşi tastatură mai utilizatori). calculator personal clasic (fig.1.2.1), mai
Acest lucru este posibil, blocul de intrare există oare în prezent calculatoare de
putând fi divizat, având în vedere viteza mult dimensiunea ENIAC-ului (fig.1.1.1)? Poate
mai mică la care introduce date un utilizator răspunsul o să dezamăgescă, da, chiar dacă
faţă de viteza de lucru a calculatorului. suntem în era miniaturizărilor mai există şi
Atunci când mai multi utilizatori folosesc calculatoare mari.
simultan acelaşi calculator spunem că se
Acestea poartă numele de mainframe-uri
lucrează în sistem multiuser. În mare, putem
sau supercomputere (figura 1.2.3) şi îşi
spune că am înţeles că un calculator este un
justifică dimensiunile prin capacităţi imense
sistem complex, ce poate efectua calcule, că
de stocare a datelor, precum şi viteze
aceste calcule sunt rezultatul executării unor
impresionate de calcul. Miniaturizarea
instrucţiuni, instrucţiuni pe care le
(fig.1.2.4) însă îşi spune cuvântul,
recunoaşte şi le execută blocul de comandă
dimensiunile pentru calculatorului personal
şi control. Prin înlănţuirea de instrucţiuni se
scad mereu (cu creşterea continuă a
pot întocmi programe cu ajutorul cărora
performanţei!), anumite componente fiind
putem rezolva diverse probleme. Rezolvarea
însă limitate la dimensiuni minime pentru a
efectivă a unei probleme presupune aducerea
putea fi folosite (exemplu tastatura).
în memoria internă a calculatorului atât a
programului cât şi a datelor şi apoi
executarea programului. Aducerea în
memorie a programului şi a datelor înseamnă
de fapt aducerea în memorie a informaţiei şi
procesarea ei. Cum putem memora date
nenumerice, adică informaţie vom vedea în Figura 1.2.4. Calculatoare portabile, stânga
paragraful următor. laptop, dreapta palmtop
Trebuie să subliniem în concluzie şi
faptul că pentru rezolvarea problemelor am
utilizat o structură fizică, palpabilă (numită Să incercăm să descoperim fizic
hardware) şi programe, diferite, specifice. elementele ce compun un calculator.
Această parte poarta numele de software şi Calculatoarele portabile sunt în interior
este partea care face util calculatorul. compacte aşa că vom alege pentru studiul
După ce vom lămuri modul în care putem nostru, calculatorul personal clasic, cel care
reprezenta numeric informaţia vom continua poate fi relativ uşor desfăcut pentru analiză.
cu analiza atât hardware-ul cât software-ul şi Să privim din nou figura 1.2.1. În limbajul
abia atunci vom înţelege mai bine curent înţelegem prin unitate centrală, cutia
calculatorul. care rămâne dintr-un calculator, după ce
înlăturăm, tastatura, mouse-ul, difuzoarele,
uneori monitorul. De ce uneori monitorul?
1.2.3. Structura hardware a unui calculator De multe ori, cutia monitorului găzduieşte şi
unitatea centrală – aceste sisteme se numesc
calculatoarea „All-in-one” (AIO).
Prin hardware-ul unui calculator
Cutia rămasă adăposteşte cea mai mare
înţelegem totalitatea circuitelor electronice
parte a calculatorului (figura 1.2.5), inclusiv
19
Informatică Medicală și Biostatistică

blocul de comandă şi control . Această cutie unităţii centrale ne oferă acces la unitatea
oferă o serie de conectoare, prin care cuplăm optică (CD-compact disc sau DVD-
monitorul, tastatura, mouse-ului, videodisc), la unitatea de disc flexibil, şi la
imprimanta, precum şi alte periferice butonul de pornire al calculatorului (pe care
speciale. În varianta clasică panoul frontal al le găzduieşte).

Figura 1.2.5. Unitate centrală de calculator personal


1-suport pentru unităţile CD, DVD; 2-suport pentru unităţile de disc dur; 3-disc dur; 4-
panglică pentru transferul datelor; 5-circuite electronice integrate; 6-sursă de alimentare; 7-
ventilatorul microprocesorului; 8-circuite de memorie; 9-placă video; 10-sloturi disponibile

posibilităţile tehnologice spectaculoase ale


Componenta ce ne atrage atenţia imediat
circuitelor electronice integrate, producătorii
după ce am scos capacul este o placă plină de
de plăci de bază pot să înghesuie cât mai
piese şi de conectoare, o placă din care
multe funcţii, să micşoreze cât mai mult
pleacă fire şi panglici colorate spre diverse
dimensiunile şi să ajungă la performanţe tot
piese metalice. Această placă este aşa numita
mai înalte. Cel care este principalul circuit
placă de bază, placă pe care se află blocul de
integrat al calculatorului este
comandă şi control, blocul de memorie
microprocesorul. Acesta este cel ce dă
internă, blocul de calcul şi o mare parte din
caracteristicile principale ale calculatorului:
blocurile de intrare-ieşire. Este deci baza
numărul şi complexitatea instrucţiunilor ce
calculatorului (termenul englez este mai
pot fi executate, viteza de execuţie a
potrivit: motherboard)! Ajutaţi de

20
Informatică Medicală și Biostatistică

instrucţiunilor, capacitatea de adresare a existenţa microprocesorului în centrul


memoriei, mărimea cuvântului de memorie. structurii calculatorului).
Microprocesorul este cel care a Microprocesoarele folosite în prezent
revoluţionat modul de realizare al pentru realizarea calculatoarelor personale
calculatoarelor, fiind un mic dar foarte pot executa instrucţiuni la impresionanta
performant calculator în mijlocul structurii viteză de 3 GHz, de mii de ori mai repede
unui microcalculator (abandonată în prezent, decât primul microprocesor.
denumirea de microcalculator, sublinia

Figura 1.2.6. Circuite integrate


1-microprocesor; 2-chipseturi, circuite integrate necesare realizării arhitecturii
calculatorului, 3-numărul mare de conexiuni dictează dimensiunile

cu care accesează memoria internă a


Dimensiunile au crescut în timp, odată cu
calculatorului precum şi periferia. Pe carcasă
sporirea performanţelor (fig.1.2.6), dar în
avem înscrisă o viteză de lucru, atenţie,
principal, din motive de asigurare a spaţiului
această viteză este valabilă doar pentru
necesar conexiunilor cu circuitele externe şi
interior, cu exteriorul, prin contactele
a suprafeţei de disipare a căldurii degajate în
electrice lucrul se efectuiază de câteva ori
timpul funcţionării. Microprocesoarele
mai lent. Aceasta pentru că dispozitivele
moderne nu mai pot funcţiona optim decât
înconjurătoare (care de multe ori includ şi
dacă sunt însoţite de sisteme eficiente de
mişcări mecanice) nu pot ţine pasul. Cu toată
disipare a căldurii degajate. Pentru a nu se
impresionanta lui putere, pentru comunicaţia
distruge, au capacitatea de a-şi sesiza
cu exteriorul, microprocesorul trebuieşte
temperatura la care lucrează şi de reducere a
ajutat de către aşa numitele chipseturi,
vitezei de lucru până la atingerea unei
circuite integrate prin care se realizează
temperaturi nepericuloase.
conectarea cu blocul de memorie şi cu
Microprocesorul este un mic calculator, periferia.
dispune de o memorie internă (locaţiile se
Nu sunt insă singurele circuite necesare,
numesc regiştri), dispune de o unitate de
mai sunt utilizate şi alte circuite integrate.
calcul aritmetic şi logic (calculele sunt
Dintre acestea trebuie menţionat (fig.1.2.7)
efectuate în registrul acumulator),
BIOS-ul (basic input/output system), circuit
recunoaşte şi execută un set de instrucţiuni,
care conţine mici programe necesare pornirii
comunică în exterior prin contacte electrice,

21
Informatică Medicală și Biostatistică

calculatorului, a controlului tastaturii, foarte mult depanarea sau schimbarea


mouse-ului, monitorului şi a citirii de pe disc capacităţii totale (fig.1.2.8).
a sistemului de operare.
Plăcuţele se introduc în socluri speciale,
numărul lor fiind stabilit de fabricantul
plăcii. Dimensiunea curentă a memoriei
interne este în continuă creştere (cel puţin
4/8 GB în prezent). Evident că performanţele
sistemului de calcul cresc direct proporţional
cu dimensiunea memoriei.
Dacă memoria volatilă este găsită pe
placa de bază, memoria nevolatilă, cea cu
ajutorul căreia arhivăm date şi programe,
este găzduită de mai multe dispozitive
Figura 1.2.7. BIOS
externe placii de bază. Unul dintre ele
Pentru exploatarea optimă a resurselor (principalul) este discul dur (figurile 1.2.9,
electronice. BIOS-ul este de fapt o memorie 1.2.10).
electronică nevolatilă. Astfel de circuite
poartă numele de memorii ROM (Read Only
Memory), PROM (atunci când pot fi
programabile o singură dată), EPROM
(atunci când conţinutul poate fi şters şi
rescris de mai multe ori). BIOS-ul operează
şi cu informaţii ce sunt introduse de utilizator
şi care nu trebuie să se piardă (exemplu ora
şi data calendaristică).

Figura 1.2.9. Unitate de disc dur. Aspect


exterior

Figura 1.2.8. Circuite de memorie internă


Pentru memorarea acestor date, pe placa
de bază există şi o baterie. Această baterie nu
alimentează şi circuitele de memorie internă
utilizate pentru programe. Blocul de
memorie internă este format din circuite
RAM (Random Access Memory). Din
motive constructive aceste circuite sunt Figura 1.2.10. Structura internă a unităţii de
montate pe plăcuţe (numite SIMM, DIMM, disc dur
RIMM, funcţie de capacitate şi tehnologie),
alcătuind astfel bancuri de memorie, uşurând

22
Informatică Medicală și Biostatistică

Capacitatea curentă de memorare, pentru fiabilitate a datelor. Unul din aceste medii
un disc dur, este în continuă creştere, este cel optic. În prezent discul optic poate
dimensiuni de TB fiind curente. Discul dur prezenta varianta disc compact (CD), sau
este un sistem complex, electronic şi disc video (DVD) sau disc BlueRay. În
mecanic ce poate arhiva informaţia, folosind figura 1.2.12 este prezentat un disc optic
discuri magnetice. În prezent datorită pentru a i se vedea dimensiunea şi forma.
creşterii vitezei de lucru a calculatoarelor,
Modalitatea de scriere a datelor pe un
clasicul disc dur este înlocuit cu un disc ce
astfel de disc, este prin perforare (la
nu mai are piese în mişcare şi deci este mult
dimensiuni invizibile ochiului uman) cu
mai rapid, SSD-ul (Solid State Drive)!
fascicole laser. Citirea se face tot cu raze
Unitatea de disc este locul în care un laser, prin reflexie (în locurile perforate
calculator reţine programele şi datele reflexia nemaiavând loc). Din acest motiv
curente. Sistemul de operare este setul de folia metalică pe care a fost înscrisă
programe absolut necesar în utilizarea informaţia trebuie să nu fie acoperită de
simplă şi eficientă a calculatorului şi care se medii opace (etichete). Pentru protecţia
află memorat pe discul dur. De ce pe discul mecanică folia metalică este prinsă între
dur? Pentru că până în prezent discul dur s-a două discuri din plastic transparent. Pe faţa
dovedit memoria externă cea mai rapidă în fără date pot fi inscripţionate etichete, se
ceea ce priveşte citirea sau scrierea datelor. poate scrie cu tuşuri speciale, se pot lipi
În acelaşi timp capacităţile de stocare sunt etichete speciale, toate însă cu respectarea
suficient de mari pentru a face faţă situaţiilor echilibrului dinamic al discului.
curente.
Dezvoltate pentru asigurarea stocării
imaginilor în camere de fotografiere digitală,
cardurile de memorie (SD, mini SD,
microSD) s-au dovedit foarte utile şi
transferului de informaţie între calculatoare.
Uzual, în acest moment transferul de date
între calculatoare se face cu ajutorul stick-
urilor de memorie (Figura 1.2.11). Citirea
sau scrierea lor se face prin intermediul
porturilor USB (Universal Serial Bus - o cale Figura 1.2.12. Disc optic
serială standardizată, de acces rapid spre
calculator). Odată introdus în unitatea de disc optic
este rotit cu viteze destul de mari şi
dezechilibrarea lui poate duce la ruperea în
bucăţi prin acţiunea forţei centrifuge.
Discurile compact sunt de trei feluri:
-CD/ DVD - discuri ce nu pot fi decât
citite, scrierea lor fiind făcută cu dispozitive
Figura 1.2.11. Stick de memorie speciale de tipărire în tiraj mare;

În ceea ce priveşte arhivarea datelor -CD-R/ DVD-R - discuri înscrise de


există medii concurente, cu o mai bună utilizator (cu unităţi speciale) într-o sesiune
unică sau în sesiuni succesive;
23
Informatică Medicală și Biostatistică

-CD-RW/ DVD-RW - discuri ce pot fi Calculatorul personal pentru a putea


atât înscrise cât şi şterse de către utilizator, în funcţiona are nevoie de diverse tensiuni de
unităţi speciale. lucru (+5V, +9V, -12V, +12V), toate
nepericuloase pentru om. Această paletă de
tensiuni este asigurată de o sursă de
alimentare (figura 1.2.14) de o putere mereu
în creştere (sute de watti) pentru a asigura
comsumul datorat vitezelor tot mai mari de
lucru.
Cu toate că toate tensiunile sunt
nepericuloase pentru om nu recomandăm
lucrul sub tensiune (conectarea sau
Figura 1.2.13. Unitate CD deconectarea de placi, mufe) deoarece putem
distruge circuitele electronice sau pierde
informaţia din calculator. Sursele de
Unitatea de disc optic (figura 1.2.13) alimentare sunt dotate cu câte un ventilator,
prezintă deci diverse caracteristici, funcţie ce are ca sarcină asigurarea temperaturii
de serviciile ce le poate asigura (citire, optime de lucru atât pentru componentele
scriere, ştergere de discuri compacte sau proprii, cât şi pentru celelalte componente
video). Panoul frontal al unităţii prezintă un ale unităţii centrale. Deci atenţie la
buton pentru deschiderea şi închiderea funcţionarea lui continuă, de multe ori praful
sertarului în care se pune discul (de regulă cu putând bloca axul elicei. Ventilatoare sunt
faţa cu date în jos). montate şi peste circuitele electronice cu
Având în vedere posibilitatea de ascultare grad foarte mare de integrare
a discurilor cu muzică, uneori, panoul frontal (microprocesor, circuite video).
oferă o mufă pentru difuzoare sau căşti şi o Unităţile descrise anterior (disc dur, disc
rozetă de reglare a volumului audiţiei. flexibil, disc optic) sunt conectate pentru
Exploatarea funcţiei de citire a discurilor transferul de informaţie la placa de bază prin
compacte se poate face cu orice program intermediul unor panglici alcătuite din fire.
manager de fişiere, în timp ce rularea Pentru a nu fi conectate greşit fiecare
filmelor sau scrierea discurilor optice se panglică se termină cu un conector
poate face numai cu programe special caracteristic.
destinate acestui scop.
O variantă de conectare de periferice este
conexiunea USB, transferul de informaţie
fiind serial. Un cablu USB pentru periferice
are la un capăt un conector tip A (ce se
introduce în slot-ul A de la calculator) şi un
conector B la celălalt capăt (ce se introduce
în slot-ul B de la periferic). Pentru magistrala
USB există standardele 1.0 (din 1996,
asigură cel mult 127 de periferice cu o rată
de transfer de 12 Mbps), 1.1 (similară cu 1.0)
Figura 1.2.14. Sursă de alimentare PC şi 2.0 (din 2001, rată transfer 480 Mbps).
Standardul 2.0 este compatibil cu 1.0 şi 1.1.
Gama de periferice ce se pot conecta este

24
Informatică Medicală și Biostatistică

foarte mare, existând chiar şi adaptoare economic). Deşi tot mai performate (stereo,
pentru conectoare seriale sau paralele zgomot acceptabil), funcţiile integrate în
clasice. placa de bază sunt departe de a satisface
necesităţile studiourilor de înregistrare.
Deoarece în funcţionare calculatorul are
Pentru aceste aplicaţii speciale există plăci
nevoie monitor, de multe ori placă de bază
de sunet speciale (la preţuri speciale) ce
integrează şi funcţia de placă video. Ce face
transformă calculatorul într-un performant
de fapt placa video? În primul rând preia
studio de înregistrare, care folosind puterea
datele din memoria microprocesorului şi le
de calcul, transformă voci comune în voci
pregăteşte, într-o memorie proprie, sub
superbe. Variante la preţuri rezonabile
formă de puncte de afişat pe monitor. În mod
pentru plăci de sunet performante au fost
permanent memoria proprie este parcursă de
create şi pentru melomanul curent. Acestea
placa video, transformată în semnal video şi
sunt capabile să ofere şi sunet pe cinci
trimisă către monitor pritr-un cablu exterior.
canale, aşa cum este înregistrat pe
Memoria plăcii video este legată direct de
videodiscuri, iar fidelitatea şi zgomotul
numărul de puncte (pixeli) ce vor fi afişate şi
redus le fac să fie preferate de melomani. În
de posibilităţile cromatice dorite.
cazul plăcilor de sunet nu întâlnim problema
Există plăci de bază ce integrează şi de la plăcile video integrate, placa de sunet
funcţia de placă video, deosebit de atractive independentă poate fi pusă în orice
ca preţ. Preţul este scăzut şi datorită faptului calculator.
că nu mai este necesară o memorie video
Tot mai des placa de sunet se foloseşte
separată, fiind utilizată o parte din memoria
combinată cu o cameră de luat vederi. Au
internă a calculatorului. Soluţia este foarte
apărut aşa numitele Webcam, camere video
bună, mai ales atunci când sistemul de calcul
ieftine, de rezoluţii mulţumitoare, ce asigură
este utilizat pentru birotică, calcule
transmiterea prin reţele de calculatoare a
ştiinţifice, baze de date şi orice alte aplicaţii
imaginilor. Se pot realiza în acest fel
(inclusiv vizionarea de filme sau ascultarea
videoconferinţe (netmeeting), asigurându-se
de muzică), mai puţin jucarea de jocuri cu
într-un mod ieftin dialoguri la distanţă.
grafică 3D de ultimă generaţie.
Camerele video pentru calculator se pot
Încă de la prima lor apariţie conectează prin intermediul conexiunii USB
calculatoarele personale au fost echipate cu sau (mai rar în prezent) prin plăci speciale de
difuzor, prin care să poate emite sunete de achiziţionat semnal video (cu care se poate
avertizare. Bătrânul difuzor este prezent şi în folosi orice cameră video).
prezent, dar pentru sunet calculatoarele
Televiziunea nu putea să rămână uitată de
actuale sunt echipate cu plăci ce pot sintetiza
calculator, pentru vizionarea canalelor TV,
sunete reale, transformând oricând sistemul
există plăci specializate. Acestea ne oferă un
de calcul într-un performant sistem audio
televizor performant pe ecranul
(care utilizează difuzoare externe). Fiind o
calculatorului, ce poate fi comandat prin
funcţie cerută de toţi utilizatorii, cele mai
intermediul unei telecomenzi sau cu ajutorul
multe plăci de bază integrează şi placa de
mouse-ului.
sunet. Placa de sunet este capabilă să preia
semnalul de la microfon şi să îl Ampla răspândire a sistemelor de calcul
achiziţioneze. Acestă funcţie face să existe s-a datorat şi posibilităţii conectării în reţele
aplicaţii prin care să se poată dialoga cu şi accesului la resursele unor alte
calculatorul (sau cu alte calculatoare dintr-o calculatoare. Pentru a realiza conectarea este
reţea realizându-se un sistem telefonic foarte necesar să respectăm standarde atât la nivel

25
Informatică Medicală și Biostatistică

fizic (conectoare, tipuri de cabluri), cât şi la Spre exemplu tasta Enter care serveşte fie la
nivel logic (protocoale necesare realizării lansarea în execuţie a unei comenzi, după ce
comunicaţiei). Respectarea tuturor acestor a fost tastată sau selectată, fie la trecerea la
cerinţe este realizată fie prin placa de reţea, un rând nou atunci când este folosită în
fie prin utilizarea unui modem (dispozitiv ce editarea de texte. Tasta Tab, poate fi utilizată
realizează procesul de modulare/demodulare la introducerea de spaţii într-un text sau la
necesar transferului informaţiei). deplasarea cursorului de scriere la o rubrică
nouă, într-un formular. În această categorie
Avand în vedere faptul ca numărul
putem include tastele funcţionale (F1, F2,
aplicaţilor calculatorului este în continuă
...F12) în care comenzile asociate depind de
creştere nu vom putea spune niciodată că am
programul în care sunt folosite (de regula F1
epuizat descrierea tipurilor plăcilor dintr-un
fiind alocată cereriii de explicaţii la utilizarea
calculator, aşa că suntem nevoiţi să lăsăm
unui program). Putem da şi un exemplu de
deschis acest subiect.
tastă ce în timp şi-a modificat rolul. Este
vorba de Print Screen. În sistemul de operare
MS DOS apăsarea acestei taste ducea la
tipărirea pe hârtie a conţinutului ecranului.
Acum, sub sistemul de operare Windows,
tasta declanşează copierea imaginii de pe
ecran într-o zonă de memorie (Clipboard),
din care poate fi transferată (cu comanda
Paste) în orice program ce acceptă inserarea
Figura 1.2.15. Tastatură QWERTY de imagini. Atunci când am început o
Să vedem acum ce se află în exteriorul comandă şi dorim să renunţăm la ea (nu la
unităţii centrale. Ca principal periferic de efectul ei!) este de multe ori suficient să
intrare vom găsi tastatura. Cu o istorie apăsăm (uneori repetat) tasta Esc (Escape).
respectabilă (Sholes, 1878), tastatura Renunţarea la unele caractere scrise se poate
QWERTY (nume ce provine de la face utilizând tasta Delete (Del), care şterge
dispunerea primului rând de taste litere, caracterul de după cursorul de scriere. Tasta
figura 1.2.15) continuă să însoţească orice Backspace are un rol similar, ştergând
calculator. caracterul din faţa cursorului de scriere. Deci
în funcţie de poziţia cursorului de scriere
Deşi pare un dispozitiv inofensiv
alegem tasta potrivită. Pentru deplasarea
tastatura solicită intens articulaţiile degetelor
cursorului de scriere putem utiliza tastele
precum şi a mâinilor.
săgeţi sau pentru deplasări mai mari tastele:
Fiecare tastă are în general 2 caractere Home, End, Page Up, Page Down. Pentru
ataşate (în cazul literelor litere mari sau stabilirea regimului de lucru al tastaturii
mici), al doilea caracter obţinându-se prin există tastele Caps lock, Num lock şi Insert.
apăsarea împreună cu tasta Shift. Există şi Caps lock acţionează doar asupra tastelor
taste ce nu au ataşate caractere, acestea litere stabilindu-le registrul (litere mari
servind la stabilirea regimului de lucru al atunci când Led-ul corespunzător este aprins
tastaturii, la mărirea numărului de caractere sau mici atunci când este stins). Tasta este cu
ataşate unei taste, la lansarea unor comenzi, memorie, apăsarea succesivă anulând efectul
la deplasarea cursorului, la lansarea de apăsării anterioare. Tot o tasta cu memorie
comenzi. Există taste ce au roluri diferite, este şi Num lock. Aceasta stabileşte regimul
funcţie de programul în care sunt folosite. de lucru (numere sau săgeţi) pentru zona de

26
Informatică Medicală și Biostatistică

taste numerice din dreapta tastaturii. Cu tasta inscripţionate literele ă, î, â, ş, ţ. Cum pentru
Insert stabilim dacă putem insera (sau scrie scrierea în limba română sunt necesare
prin înlocuire) un caracter nou într-un şir de aceste caractere sistemul de operare
caractere. Windows a stabilit o inscripţionare specială
pentru Romania a tastelor (diferenţele între
Tastaturile existente în România, în
cele două tipuri de tastaturi sunt date în
prezent, sunt în cea mai mare parte tastaturi
tabelul 1.2.1).
ce satisfac alfabetul englez şi care nu au
Tabel 1.2.1. Diferenţe între tastatura engleză şi cea română
Tastatura Tastatura Tastatura Tastatura Tastatura Tastatura
americană română americană română americană română
[ ă : Ş ` ]
] î “ Ţ ~ [
\ â , , ! !
; ş < ; @ “
‘ ţ . . # #
{ Ă > : $ ¤
} Î / - % %
| Â ? _ ^ &
y z z y - +
& / ( ) _ ?
* ( ) = = ‘
+ *

Din 1996 apare conceptul Intellimouse


Sistemul de operare nu poate citi automat
(figura 1.2.16) ce oferă o rozetă (scroll), cu
ce tip de tastatură i s-a montat calculatorului,
care se poate parcurge mai uşor informaţia a
aşa că atunci când nu dispunem de o tastatură
cărui conţinut depăşeşte un ecran. Trebuie să
inscripţionată în română, informăm
subliniem faptul că pe ecran se deplasează
calculatorul că utilizăm o tastatură română şi
doar informaţia nu şi poziţia cursorului de
apăsăm corespunzător tastele.
scriere.
Cum este destul de greu să memorăm
poziţia semnelor speciale, atunci când avem
nevoie de ele informăm sistemul de operare
că am revenit la tastatura engleză, folosim
semnul dorit, după care ne reîntoarcem la
tastatura română.
Figura 1.2.16. Mouse
Al doilea periferic de intrare, nelipsit în
Windows, este mouse-ul. Acest dispozitiv
poate deplasa un cursor pe ecran, preluînd La capitolul periferice de ieşire pentru un
mişcarea de pe masă prim mijloace calculator este nelipsit monitorul (display-
mecanice, mecano-optice sau mai nou optice ul). Dintre caracteristicile unui monitor
(preferabil datorită fiabilităţii ridicate). menţionăm: principiul de realizare,
Dispozitivul are şi butoane prin care se pot dimensiunea ecranului, numărul de puncte
transmite (în strânsă legătură cu locul în care (pixeli) ce pot fi afişate, rata de
se află cursorul) comenzi către calculator. reînprospătare a imaginii, posibilităţile

27
Informatică Medicală și Biostatistică

cromatice. Datorită programelor tot mai conectare fără fir, ce este destinată în primul
complexe cu tot mai multe comenzi rând calculatoarelor portabile. De regulă
dimensiunea ecranului este în creştere pentru o astfel de imprimantă comunicaţia se
continuă, în prezent dimensiuni de peste 20” realizează prin unde radio sau în infraroşu.
fiind curente. În ceea ce priveşte rezoluţia
Imprimanta matriceală a rămas singura
aceasta poate avea valorile: 460x680;
imprimantă de impact ce se mai foloseşte în
800x600; 1024x768; 1280x960, 1280x1024.
prezent. Imaginea este realizată din puncte,
Rezoluţiile cele mai folosite la momentul fiecare punct fiind urma lăsată de o panglică
actual sunt: tuşată ce este lovită de niste pistoane fine
(ace). Dispozitivul (capul) de scriere posedă
-High Definition (HD, 720p) - 1280 x 720
un numar limitat de ace (9 dispuse pe o
-Full HD (FHD, 1080p) – 1920 x 1080 coloană, pentru imprimantele comune sau 24
-Widescreen Ultra Extended Graphics dispuse pe trei coloane, pentru imprimantele
Array (WUXGA) – 1920 x 1200 de calitate), motiv pentru care este necesar să
fie deplasat mecanic pe orizontală, pentru a
-Ultra HD (UHD, 4K) - 3840 x 2160 acoperi fiecare rând ce i se aduce spre
-"Cinema" 4K 4096 x 2304 4K tipărire. Aducerea rândurilor este realizată
prin deplasarea hârtiei. Imprimantele
Un alt mod de apreciere a calităţii matriceale se mai folosesc în prezent doar în
monitorului este măsurarea distanţei dintre situaţiile în care este necesară tipărirea unui
punctele ce pot fi afişate pe unitatea de original şi a mai multor copii indigo. Alături
lungime (dot pitch) Monitoarele de azi sunt de preţul mic al panglicii tuşate, acest avantaj
în general color, monitoarele monocrome ne face să acceptăm viteza mică de tipărire şi
fiind destul de rare. Imaginea pe ecran se zgomotul mare făcut.
formează prin afişări succesive la viteze mai
mari decât poate sesiza ochiul uman. Cu cât Imprimanta termică are un princiu
rata de reînprospătare (refresh) este mai mare apropriat de imprimanta matriceală,
cu atât ochiul oboseşte mai puţin. imaginea fiind realizată tot din puncte. În loc
de impact impresionarea fiecărui punct se
Dacă dorim să tipărim pe hârtie face prin incălzire, hârtia utilizată find
perifericul necesar este imprimanta (printer- specială (termosensibilă). Pe orizontală nu
ul). Nu este obligatoriu ca fiecare calculator avem deplasare, întregul rând fiind acoperit
să aibă o imprimantă, în reţelele de de pastile de scriere. Singura mişcare este
calculatoare o aceeaşi imprimantă poate fi cea verticală, efectuată de hârtie. Sistemul
utilizată în comun. Atunci cand nu avem o este foarte des folosit la casele de marcat din
imprimantă putem transporta informaţia, magazine. Deoarece hărtia rămâne
utilizând un mediu nevolatil, la un calculator termosensibilă şi după impresionare, orice
cu acces la o imprimantă. În funcţie de sursă de căldură poate compromite întreaga
principiul constructiv o imprimantă poate fi: imagine, aşa că, pentru arhivare este bine să
matriceală, termică, cu jet de cerneală sau realizăm o copie prin alt sistem. Avantajul
laser. Indiferent de tip, orice imprimantă este acestui tip de imprimantă este dat de
caracterizată prin: viteză de tipărire, calitate simplitate (mecanica asigură un singur tip de
de tipărire, materialele consumabile. În deplasare) şi de silenţiozitate.
prezent imprimanta se conectează la
calculator prin portul USB. Trebuie să Imprimanta cu jet de cerneală este
menţionăm şi existenţa modalităţii de imprimanta ideală datorită preţului accesibil
şi a calităţii bune de tipărire. Punctele ce

28
Informatică Medicală și Biostatistică

compun imaginea sunt obţinute cu picături de imprimantă. Pe un cilindru fotosensibil se


foarte fine de cerneală, trimise de capul de desenează imaginea ce urmează a fi tipărită.
scriere. Impulsionarea picăturilor este Desenarea poate fi făcută cu o rază laser sau
realizată piezoelectric sau prin încălzire cu fotodiode luminescente (LED-uri).
puternică. Cerneala trece prin tuburi capilare Desenarea este făcută tot prin puncte, dar
foarte fine existând pericolul uscării atunci dimensiunea punctului este foarte mică
când imprimanta nu este folosită o perioadă (curent 600 puncte pe inch - dpi), imposibil
mai lungă de timp. Datorită acestui pericol de depistat de ochiul uman. În procesul de
cât şi pentru a menţine o calitate ridicată a desenare cilindrul se încarcă electrostatic şi
tipăririi, unele imprimante schimbă odată cu atrage o pulbere foarte fină pe bază de carbon
cerneala şi capul de scriere. Din acest motiv (toner). Coala de hârtie este rulată peste
consumabilele devin mai scumpe. Există şi cilindru şi primeşte, tot electrostatic, tonerul
un alt motiv pentru care preţul ce reprezintă fidel imaginea. Urmează
consumabilelor este mare, de multe ori trecerea hârtiei printr-un cuptor, unde termic
imprimanta se vinde în pierdere, recuparea tonerul polimerizează şi rămâne fixat pe
făcându-se ulterior prin consumabile. De hârtie. Conducerea acestui laborios proces
multe ori preţul unei imprimante noi (cu este făcută de puternicul microprocesor ce
consumabile, dar cu cerneală mai puţină) echipează imprimanta. Aceasta face ca o
este comparabil cu cel al consumabilelor. imprimantă laser, pentru aceeaşi dimensiune
Mecanica imprimantei cu jet de cerneală, a hârtiei, să fie mai scumpă. Calitatea tipării
principial este similară celei de la însă motivează deplin preţul. Există şi
imprimanta matriceală. Diferenţele sunt imprimante laser color, dar mult mai
datorate tipului de hârtie utilizat. Imprimanta scumpe, căci pentru obţinerea culorilor sunt
matriceală utilizează hârtie specială, cu necesari trei cilindrii, fiecare cu câte o
perforaţii pe margini, în timp ce imprimanta culoare fundamentală şi un al patrulea pentru
cu jet de cerneală foloseşte hârtie obişnuită culoarea negru. Într-o logică simplă
format A4 sau A3. Marele avantaj al observăm că avem o complexitate de patru
imprimantelor cu jet de cerneală il construie ori mai mare. Remarcăm faptul că tipărirea
realizarea, la preţuri relativ mici, de imagini se face pe întreaga pagină şi nu rând cu rând,
color. Sistemul ce realizează scrierea posedă ceea ce duce la viteze de tipărire relativ mari,
câte un cap de scriere pentru fiecare din cele dar şi la capacităţi mari de memorie pentru
trei culori fundamentale, plus un al patrulea imprimanta laser. În ceea ce priveşte
pentru cerneală neagră. Amestecarea consumabilele, tonerul nu îşi pierde calităţile
culorilor pentru obţinerea oricărei culori se în timp şi are un randament mai bun decât
realizează direct la nivelul suprafeţei hârtiei. cerneala. Pentru menţinerea calităţii de
La obţinerea finală a culorii contribuie şi tipărire odată cu schimbarea tonerului se
nuanţa sau propietăţile hârtiei, ceea ce face schimbă şi cilindrul fotosensibil. În ceea ce
să nu ajungem la un negru mulţumitor din priveşte calitatea tipăririi imprimanta laser
cele trei culori fundamentale. Pentru negru este etalonul.
nu amestecăm culori fundamentale ci tipărim
Aici putem încheia incursiunea în partea
direct cu negru. Totuşi pentru cei ce nu sunt
electronică a unui sistem de calcul şi putem
pretenţioşi şi îşi doresc o imprimantă foarte
trece la studierea părţii ce ii dă viaţă,
ieftină au fost produse şi modele fără cartuş
software-ul.
negru.
Imprimanta laser are principiul de
funcţionare complet diferit de celelalte tipuri
29
Informatică Medicală și Biostatistică

1.2.4. Codificarea informaţiei byte-ul este unitatea de măsură. Pentru octet


avem multiplii:
-1byte=1B=8biţi
Prelucrarea informaţiei de către
calculator presupune transferul de informaţie -1Kbyte=1KB=1024byte
între blocurile componente. Acest transfer se -1Megabyte=1MB=1024Kbyte
realizează prin intermediul magistralelor (în
figura 1.2.2.a. figurate prin săgeţi). Pentru a -1Gigabyte=1GB=1024MB
realiza transferul, magistralele trebuie să -1Terabyte=1TB=1024GB
poată identifica blocul destinaţie (prin
magistrala de adrese), să prezinte informaţia Numărul de linii pentru magistrala de
(oferită de magistrala de date) şi să posede date este o caracteristică fundamentală a
semnale (magistrala de comenzi) care să micro- procesorului (piesa în jurul căreia se
efectuieze transferul. Fizic aceste magistrale construieşte calculatorul). Primele
sunt de fapt grupări de fire, prin care circulă microprocesoare (Intel 8008, 8080, 8085)
curentul electric. Cum poate trece informaţia utilizau magistrale de 8 biţi, urmate destul de
cu ajutorul curentului electric? Evident că repede de magistralele de 16 biţi. (Intel 8086,
prin intermediul unei convenţii (codificări). 80286), după care s-a trecut la 32 biţi (Intel
Să luăm exemplu unui fir, putem spunem că 80386, 40486). Trecerea la 64 de biţi a fost o
dacă avem tensiune suntem în starea unu şi adevarată revoluţie, procesoarele (Intel
dacă tensiunea este zero avem starea doi. Iată Pentium) fiind construite după o nouă
deci că într-un mod simplu putem codifica arhitectură. Alături de magistrala de date (ce
două stări. Oricât ar părea de simplist acest caracterizează calculatorul) microprocesorul
mod de codificare, este cel care stă şi în are magistrala de adrese. Această magistrală
prezent la baza funcţionării calculatoarelor. are o dimensiune mai mare decât magistrala
Între complexitatea tehnologică a detectării de date (spre exemplu microprocesorul de 8
mai multor stări pe o linie şi mărirea biţi adresa cu 16 linii) şi dă dimensiunea
numărului de linii de comunicaţie, până în capacităţii de adresare a memoriei şi a
prezent a învins folosirea de magistrale cu un perifericelor. Prin magistrala de adrese
număr mai mare de linii. Să revenim la unul microprocesorul poate avea acces la fiecare
dintre fire. Cele două stări posibile sunt locaţie de memorie, efectuând scriere sau
codificare cu 1 atunci când avem tensiune şi citire cu ajutorul semnalelor de pe magistrala
0 atunci când nu avem. Corespunzător stările de comenzi.
sunt adevarat şi fals, cele două valori ale Deci întreaga informaţie este vehiculată
algebrei Boole (algebra binară ce în interiorul calculatorului în cifre de zero şi
fundamentează operaţiile matematice şi unu, adică în biţi. Pentru un operator uman
logice din calculator). Informaţia ce o putem şirururi binare interminabile sunt greu de
trimite pe o linie este o cifră binară şi poartă manevrat, aşa se folosesc baze de numeraţie
numele de bit (binary digit). Pentru a superioare lui 2. În tabelul 1.2.2 este indicată
satisface numărul de stări necesare corespondenţa între bazele de numeraţie 10,
magistralele sunt alcătuite din mai multe 16 şi 2 pentru primele valori. Se poate
linii, pentru n linii numărul de combinaţii observa modalitatea simplă de trecere de la
posibile este 2n. Pentru 8 linii numărul de baza 2 la baza 16 (fiecărui grup de 4 cifre
combinaţii posibile este 256. Opt cifre binare binare –nibble- corespunzâdu-i unul din cele
alăturate alcătuiesc un octet (sau byte). Dacă 16 caractere al afabetului bazei 16. Acesta
bitul este cărămida de bază a informaţiei,

30
Informatică Medicală și Biostatistică

este motivul pentru care programatorii litere mari + 26 litere mici), plus semnele
folosesc baza 16 în scriere de programe. speciale. Vedem că numarul de ranguri
creşte şi cum este bine să alegem valori
Cunoaştem cu toţii că prelucrarea
multiplu de opt ne vom putea opri chiar la
informaţiei înseamnă nu numai obţinerea de
opt ranguri binare, adică 256 de combinaţii.
rezultate pentru calcule, ci şi texte sau
Este prea mult? Este suficient? Faptul că este
imagini. Cum poate calculatorul reprezenta
suficient e certificat de American Standard
litere când el lucrează doar cu numere?
Code for Information Interexchange, pe
Foarte simplu, singura cerinţă pe care trebuie
scurt ASCII, care codifică toate simbolurile
să o asigure este aceea de a pune la dispoziţie
necesare unui calculator într-o tabelă unică,
suficiente ranguri binare pentru ca numărul
standard universal pentru fiecare
de combinaţii posibile (acel 2n) să acopere
programator.
toate semnele ce dorim să le reprezentăm.
Apoi un mod de codificare va pune în
legătură (în mod unic) câte o combinaţie 1.2.5. Notiunea de fişier şi de director
binară pentru fiecare simbol dorit.

Calculatorul nu este altceva decât un


Tabelul 1.2.2. Baze de numeraţie dispozitiv care prelucrează informaţia, care o
Zecimal Hexazecimal Binar poate culege, o poate stoca şi o poate oferi
0 0 0000 atunci când este necesară. Am văzut aceste
1 1 0001 lucruri în paragrafele anterioare. În interiorul
2 2 0010 său calculatorul, are mod propriu de
3 3 0011 codificare a informaţiei, un mod mai greu de
4 4 0100 utilizat de către un nespecialist în ale
5 5 0101 calculatoarelor. Din acest motiv au fost
6 6 0110 create noţiuni ce să se rupă aproape complet
7 7 0111 de nivelul fizic, ce să ofere la nivel logic
8 8 1000 instrumente simple de lucru, astfel încât în
9 9 1001 dialogul cu calculatorul să se opereze cu
10 A 1010 noţiuni familiare oricărui utilizator.
11 B 1011 Dacă dorim să ne informăm (fără
12 C 1100 calculator) despre un domeniu, despre un
13 D 1101 subiect, apelăm la o bibliotecă (mai mare sau
14 E 1110 mai mică) şi consultăm una sau mai multe
15 F 1111 cărţi (integral sau parţial, în funcţie de
situaţie). Acumulăm astfel informaţie,
consultând ceea ce se află scris în cărţi. Nu
Cel mai simplu cod este aşa numitul cod întotdeauna citim cartea în întregime! Totuşi
direct ce poate reprezenta binar orice număr o împrumutăm pe toată! Nu rupem doar
zecimal (în tabelul 1.2.2 avem o paginile de care avem nevoie (cum se mai
exemplificare). El însă nu poate reprezenta şi intâmplă), căci distrugem cartea şi ea trebuie
literele alfabetului. Pentru a putea reprezenta să poată fi consultată în continuare şi de alţi
şi litere numărul de ranguri binare trebuie doritori. Deci cartea nu face decât să grupeze
crescut astfel încât să acoperim totalitatea informaţia despre un subiect, pentru a o face
cifrelor (zece), plus totalitatea literelor (26 mai uşor de transportat, de manevrat, de

31
Informatică Medicală și Biostatistică

consultat. Cum un calculator nu face altceva (separată de nume prin caracterul punct),
decât să prelucreze informaţia, este necesar care ne codifică tipul de fişier. Codificarea
să folosească şi el o modalitate prin care să o ne este necesară pentru a şti cu ce program
grupeze, să o poată regăsi mai uşor. să deschidem (citim) fişierul. Dacă la cărţi,
Termenul care a fost adoptat în limba operaţia de deschidere înseamnă ridicarea
română pentru a grupa informaţia ce descrie copertei, la fişier deschiderea înseamnă
un anume subiect a fost fişier. Atenţie, deşi decodificarea modului în care a fost pusă
fişierul din calculator există pentru a regăsi informaţia, proprie fiecărui program în parte
uşor informaţia să nu-l confundăm cu fişierul (funcţie şi de specificul programului).
de la bibliotecă (care de fapt este un dulap Trebuie să spunem acum şi faptul că nu toate
plin cu fişe), în care găsim numele tuturor fişierele sunt destinate lecturii umane (aşa
cărţilor din bibliotecă, cu locul în care se cum sunt cărţile). Multe sunt destinate
află! Sunt noţiuni diferite, fişierul din “lecturii” făcute de calculator. Este cazul
calculator este echivalentul cărţii din programelor executabile, care sunt fişiere ce
bibliotecă! Ca şi o carte, pentru a fi citit, un spun calculatorului cum să rezolve ceva.
fişier trebuie deschis. Această operaţie nu Vom cunoaşte aceste fişiere prin extensia pe
poate fi făcută decât cu calculatorul, prin care o au (exemple: exe, com, bat).
aducerea în memoria lui internă. După
consultare fişierul trebuie închis şi pus
undeva, de unde să poată fi citit şi alta dată,
undeva unde să nu dispară. Acest loc, pentru
calculator, este memoria externă, memorie
care depune informaţia pe suporturi
nevolatile. Pe lângă faptul că sunt nevolatile,
suporturile externe de informaţie au şi
avantajul de a fi transferabile între
calculatoare. În prezent suportul cel mai
utilizat este discul. Acesta poate fi magnetic
sau optic, după modalitatea prin care Figura 1.2.17. Structură arborescentă
memorează informaţia.
Ca o concluzie putem defini fişierul Cu toţii ştim că într-o bibliotecă există o
(informatic, folosit de calculator) ca forma organizare riguroasă a aşezării pe raft a
sub care regăsim informaţia, pe un suport cărţilor. O astfel de organizare este necesară
nevolatil. Din punct de vedere al conţinutului atunci când numărul de cărţi este mare. În
fişierul este în general omogen, atât ca situaţia în care numărul de cărţi este mic,
organizare cât şi ca informaţie. Pentru pentru a căuta o carte se pot citi secvenţial
identificare, asemănător cărţilor, fişierul are numele până se găseşte cartea dorită. Iniţial
un nume. Spre deosebire de numele de carte, aceasta a fost situaţia şi pentru calculatoare,
numele de fişier se supune unor restricţii suportul extern de informaţie nu putea
(mai mici sau mai mari, în funcţie de memora foarte multe fişiere (datorită unei
generaţia de calculatoare) privind numărul capacităţi relativ scăzute), căutarea pe suport
de caractere, felul lor (litere mari, litere mici, fiind uşor de făcut. Evident că organizarea
cifre, semne speciale). De asemenea, numele era la nivelul arhivei de suporturi magnetice
fişierului are ceva în plus faţă de numele de (ce putea fi organizată în maniera unei
carte, are aşa numita extensie. Este o biblioteci). Cu trecerea timpului capacitatea
terminaţie, de cel mult trei caractere
32
Informatică Medicală și Biostatistică

de memorare a suportului extern s-a mărit


foarte mult, fapt care a facut dificilă căutarea
unui fişier pe un disc (cu toată apariţia de
comenzi specializate). A apărut necesitatea
organizării unor structuri (asemănătoare
rafturilor din biblioteci), ce să ne ajute să
găsim uşor fişierele. Pentru “rafturile”
informatice structura aleasă a fost cea
arborescentă (exemplu în figura 1.2.17), ce
oferă avantajul de a nu se plafona (nimeni nu
poate spune care este numărul maxim de
ramuri într-un arbore) şi acela de a putea
identifica o cale unică de la rădăcina
arborelui până la “ramura” pe care se află
fişierul. În arborele informatic ramurile vor
fi denumite foldere (directoare) şi nu vor
face altceva decât să grupeze fişiere. Cum Fig.1.2.18. Structură arborescentă de
ramurile mai tinere cresc din cele mai în directoare, creată pe discul C:
vârstă. aşa şi în arborele informatic vom avea
directoare derivate din alte directoare, ele Punctul de plecare se numeşte rădăcina
fiind subdirectoare ale directorului din care discului. Cum un calculator poate utiliza mai
provin. Atenţie, la rândul lor subdirectoarele multe discuri, este necesar să fie identificate
pot fi directoare pentru subdirectoarele ce printr-un nume. La acele calculatoare la care
derivă din ele. Deci e posibil ca să ne sistemul de operare este construit de firma
încurcăm în denumirea de director şi Microsoft (MS DOS, Windows), după cum
subdirector, oricând subdirectorul poate fi vom vedea în paragrafele următoare,
denumit director şi invers. Cu o excepţie, rădăcina este notată cu numele discului (care
rădăcina nu e niciodată subdirectorul este o literă urmată de semnul : după care se
nimănui (este punctul de plecare al structurii pune caracterul \ backslash).
arborescente). Exemple de rădăcini:
Directorul este o modalitate de grupare de C:\ este rădăcina discului dur C:
fişiere pe un disc. Această grupare este A:\ este rădăcina discului fexibil A:
făcută de utilizator, în funcţie de dorinţa E:\ este rădăcina discului E:
proprie (se pot face grupări tematice, grupări Din rădăcină se ramifică directoare.
după tipul de fişiere, grupări după tipuri de Fiecare director poate avea subdirectoare. În
activităţi…). Cum aceste directoare pot fi în rădăcină şi în directoare pot exista sau nu
număr mare pe un suport de informaţie, este fişiere. Atenţie, directorul nu face decât să
necesară identificarea lor prin nume. Un grupeze fişiere, el nu conţine informaţie.
nume de director respectă toate regulile de la Informaţia se află numai în fişiere! Aşa cum
numele de fişier (pentru consecventă). într-o bibliotecă nu citim rafturi, ci cărţi de
Modalitatea de organizare a directoarelor pe rafturi, vom deschide spre citire fişiere şi
este cea arborescentă (exemplu în figura nu directoare! Cum o să deosebim fişierele
1.2.18). de directoare, având în vedere faptul că
regulile de denumire sunt identice? Le vom
deosebi tocmai prin faptul că informaţia se
află doar în fişiere! Pentru a indica cu pecizie

33
Informatică Medicală și Biostatistică

un fişier este necesar să descriem unitatea de oferit spre citire dar nu şi spre modificare se
disc pe care se află, care este calea (lanţul de utilizează atributul Read only. Un fişier cu
directoare) de la rădăcina discului până la acest atribut nu poate fi şters!
directorul în care se află şi în final numele
Din pacate toate aceste atribute pot fi uşor
fişierului. Toate aceste informaţii se pot
modificate, aşa că protecţia cea mai bună o
înşirui într-o scriere în care caracterul
constituie ţinutul în sertar.
backslash este separatorul.

Spre exemplu, pentru şirul de caractere: 1.2.6. Sisteme de operare


C:\director1\director2\ana.doc

La începutul acestui capitol atunci când


Se citeşte: fişierul ana.doc. din directorul am lămurit cum funcţionează un calculator,
cu numele director2, derivat din directorul cu am constatat că partea electronică e necesar
numele director1, derivat din rădăcina să fie însoţită de o parte de programe
discului C: Este o descrie lungă, dar care ne (software). Împreună cele două părţi
precizează corect numele şi locul în care se alcătuiesc un sistem de calcul şi sunt
află fişierul. Atenţie, citirea este corectă, capabile să efectuieze prelucrarea
dacă există fişierul ana.doc în directorul informaţiei. Exploatarea hardware-ului
director2! Şirul de caractere exemplificat necesită existenţa unui set de programe ce să
poate fi şi o cale către directorul ana.doc, ne ajute la:
dacă ana.doc este un nume de director,
derivat din director2. Ca derutarea să nu -aducerea în memoria internă a
intervină de la inceput, în acelaşi director nu programelor şi datelor;
pot exista un director şi un fişier cu acelaşi -lansarea în execuţie a programelor;
nume! Deci fie ana.doc e fişier, fie e director!
-urmărirea pe ecran a rezultatelor
În general nu o să fie nevoie să tastăm programelor.
şiruri de caractere de tipul celui de mai sus
pentru indicarea de fişiere, o să utilizăm Acest prim set de programe este denumit
modalităţi grafice mult mai prietenoase, în sistem de operare şi el ne ajută prin funcţiile
care arborele este desenat pe ecran, iar sale să exploatăm eficient resursele
utilizatorul alege din acest arbore fişierul cu calculatorului. Funcţiile unui sistem de
ajutorul indicatorului mouse-ului. operare sunt:

Cum informaţia într-un calculator este -controlul execuţiei programelor


destul de uşor de distrus, trebuie să ştim că (încărcare în memoria internă, lansarea în
avem câteva modalităţi de protejare. Cea mai execuţie, încheierea execuţiei acestora),
bună protecţie este aceea în care fişierele au -planificarea şi controlul fluxului
copii pe mai multe suporturi externe şi nu aplicaţiilor,
sunt la îndemâna oricui. Dar şi aşa suportul
-detectarea şi păstrarea controlului
magnetic poate pierde informaţia în timp,
erorilor ce apar în cursul prelucrărilor,
motiv pentru care se recomandă pentru
arhivări de durată suportul optic. Pentru -administrarea spaţiului memoriei interne
protejare se poate limita accesul, făcând şi externe,
fişierele invizibile, prin utilizarea atributului
-gestionarea sistemului de fişiere,
Hidden. Dacă dorim ca fişierul nostru să fie

34
Informatică Medicală și Biostatistică

-efectuarea operaţiilor de intrare-ieşire, fie programe standard (progame solicitate


des şi care rezolvă situaţii comune) fie
-gestionarea perifericelor calculatorului,
programe particulare, scrise special pentru
-asigurarea interfeţei cu utilizatorul. rezolvarea problemelor proprii unui
După cum vedem, sistemul de operare utilizator.
răspunde de întreaga bună funcţionare a Realizatorii sistemelor de operare includ
calculatorului, îmbrăţişând pur şi simplu (pentru a-l face cât mai util) tot mai multe
întregul hardware. Practic orice acces programe (programe utilitare, accesorii),
dinspre sau către hardware trece prin căutând să rezolve situaţii generale (editarea
sistemul de operare. Sigur, putem construi de texte, desenarea, lucrul cu fişierele...).
programe ce să se adreseze direct hardware-
ului, dar are oare rost? Are rost să rescriem
practic părţi de sistem de operare, numai ca
să evităm să folosim ceva ce există, este
testat şi funcţionează foarte bine?
Bineînţeles că nu. Programele noastre, atunci
când vor trebui să se adreseze hardware-ului,
nu vor face decât să transmită către sistemul
de operare comanda. În continuare sistemul
de operare transmite comanda hardware-ului
şi urmăreşte efectuarea ei, iar la final oferă
rezultatul către programul nostru. Să dăm ca
exemplu scrierea unei informaţii pe disc
flexibil, sub forma unui fişier. Programul Figura 1.2.19. Stuctura unui sistem de calcul
transmite către sistemul de operare numele
unităţii de disc pe care doreşte să fie scris
fişierul, dimensiunea şi numele fişierului. 1.2.6.1. Sistemul de operare MS DOS
Sistemul de operare preia aceste date şi
verifică dacă unitatea de disc există, dacă
există suport pe care să se scrie şi dacă este Unul din primele sisteme de operare este
suficient loc. În situaţia în care condiţiile nu MS DOS (Microsoft Disk Operating
sunt îndeplinite emite mesaje de eroare şi Sistem), creeat de firma Microsoft. MS DOS
urmăreşte ajungerea la indeplinirea lor. Apoi este:
face scrierea pe disc (scrie în FAT, împarte -primul sistem de operare pentru
informaţia în blocuri şi scrie blocurile în calculatoarele personale IBM.
sectoare....). Are oare rost să ne risipim
efortul pentru a controla toate aceste acţiuni? -un sistem de operare de tip “linie de
Nu! Dacă însă nu ar fi existat sistemul de comandă”.
operare am fi fost obligaţi să o facem şi să -un sistem de operare ce utilizează
scriem programe pentru toate aceste operaţii. condiţii hardware modeste.
În figura 1.2.19 este ilustrat modul în care -un sistem de operare la care o parte din
sistemul de operare înconjoară hardware-ul, comenzi (comenzile interne) sunt rezidente
fiind intermediarul între partea electronică şi în memoria internă.
cei ce doresc să o utilizeze. În figură este
ilustrat şi învelişul programelor, acestea sunt

35
Informatică Medicală și Biostatistică

- un sistem de operare la care comenzile DIR - directorul rădăcină


externe sunt încărcate în memorie atunci
FILE - zona alocată fişierelor
când se doreşte executarea lor
-fişier - forma sub care regăsim
- un sistem de operare la care nu se face
informaţia pe un suport nevolatil de
distinţie între literele mici şi cele mari
informaţie (disc magnetic, disc optic). Un
Comenzile MS DOS sunt constituite din nume de fişier se compune din cel mult 8
scurte cuvinte (prescurtări) din limba caractere (litere, cifre, unele semne
engleză, urmate de parametri. După speciale), la care se pot adauga cel mult 3
iniţializarea sistemului de calcul utilizatorul caractere numite extensie (litere, cifre, unele
primeşte invitaţia de a oferi comenzi, prin semne speciale). Separatorul utilizat pentru
apariţia propterului MS DOS pe ecran. După indicarea extensiei este punctul. Exemple:
tastarea comenzii utilizatorul lansează în autoexec.bat; config.sys; teme.doc;
execuţie comanda prin apăsarea tastei enter. calcul.xls. Semne speciale interzise: două
Prompterul este constituit dintr-un şir de puncte (:), spaţiu ( ), slash (/), backslash (\),
caractere ce începe cu o literă urmată de punct (.), mai mic (<), mai mare (>), asterisc
semnul două puncte şi se finalizează cu cu o (*), semnul de întrebare (?), plus (+), egal
liniuţă orizontală clipitoare (cursor). (=), ghilimele (“), punct şi virgulă (;), bara
Cursorul este indicatorul locului în care verticală (|), virgula (.), paranteza ( ) ).
apare caracterul tastat de utilizator. În Desemnarea de familii de nume de fişiere:
majoritatea configurărilor MS DOS
* - înlocuieşte într-un nume de fişier, cu
prompterul începe cu numele unei unităţii de
orice, oricâte caractere
disc, continuă cu indicarea unui lanţ de
directoare şi se finalizează cu semnul mai ? - înlocuieşte într-un nume de fişier, cu
mare, inainte de cursor. orice, un singur caracter
Exemplu: Exemplu: A*.* - toate fişierele ce au
C:\DIRECTOR1\DIRECTOR2>_ numele începând cu litera A
În continuare prezentăm câteva noţiuni -director - modalitate de grupare de
fundamentale utilizate de MS DOS. fişiere pe un disc. Un nume de director
respectă toate regulile de la numele de fişier.
-unitate de disc - suport extern, nevolatil,
Modalitatea de organizare a directoarelor
de informaţie. Denumirea este data de o
este cea arborescentă, punctul de plecare se
litera urmata de semnul doua puncte (:).
numeşte rădăcina discului, notată cu \ (ex:
Exemple:
C:\. A:\). din care se ramifică directoare.
B: a doua unitate de disc flexibil. Fiecare director poate avea subdirectoare. În
rădăcină şi în directoare putem să avem, sau
C: unitatea de disc dur ce găzduieşte
să nu avem fişiere. Pentru a indica un
sistemul de operare.
director se precizeaza întreaga “cale”, de la
Organizarea unui disc: rădăcina discului până la cel în cauză.
BOOT - zona în care se găseşte Separatorul utilizat între nume este \.
programul de încarcare a Sistemului de Exemplu C:\programe\jocuri\sah
operare.
Pentru a indica un fişier este necesar să
FAT - tabela cu informaţiile cu care se fie indicat directorul şi discul pe care se află
aloca spaţiul de pe disc acesta.

36
Informatică Medicală și Biostatistică

Exemplu C:\programe\jocuri\sah\sah.exe apasarea tastei “enter”. Pe durata execuţiei


“prompterul MS-DOS” dispare şi
MS DOS controlează dacă ultimul nume
următoarea comandă nu poate fi dată decât la
din lanţ este de director sau de fişier.
reapariţia prompterului.
-unitate de disc implicită - unitate de disc
În formele generale prezentate în
utilizată de MS DOS atunci când comanda
continuare, parantezele drepte indică
nu specifică asupra cărui disc se refectă
parametrii opţionali (ce pot lipsi din
acţiunea.
comenzi). Atunci când este folosit,
-director implicit - director utilizat de MS parametrului nu i se precizează parantezele.
DOS atunci când comanda nu specifică
Exemple de comenzi:
asupra cărui director se refectă acţiunea.
CLS - şterge ecranul
-prompter - indicator al momentului în
care poate fi tastată şi lansată în execuţie o TIME - indică ora
comandă. Prompterul este prezentat pe ecran
DATE - indică data
sub forma unui şir de caractere ce începe cu
o literă, continuă uneori de nume de MD [d:\][cale\]nume_director -
directoare, separate de semnul \ şi se încheie construieşte pe discul d: directorul cu
cu semnul >. Litera de început prezintă numele nume_director, derivat din ultimul
“unitatea de disc implicită”. Directoarele director scris în parametrul cale.
indicate în prompter se numesc “cale” şi RD [d:\][cale\]nume_director - şterge
precizează lanţul de directoare, de la directorul cu numele nume_director, derivat
rădăcină pâna la “directorul implicit”. din ultimul director scris în parametrul cale,
Exemplu C:\lucrari\inf>_ de pe discul d:.
unitatea de disc implicită este C: TREE - prezintă pe ecran, într-o formă
semigrafică, arborele derivat din ultimul
directorul implicit este inf, derivat din
director din prompter
lucrari.
DIR [d:\][cale\][nume_fisier] [/p] [/w] -
Prompterul apare după ce sistemul de
prezintă lista fişierelor cu numele
operare MS DOS este încărcat în memoria
nume_fisier aflate pe discul d: în ultimul
internă şi lansat în execuţie.
director din parametrul cale. Dacă parametrii
-adresare directă a unui fişier - precizarea d:\cale\ nu sunt precizaţi se folosesc cei
unităţii de disc, a lanţului de directoare de la impliciţi. La parametrul nume_fisier poate fi
rădăcină până la directorul în care se află folosită * şi ?. Dacă parametrul nume_fisier
fişierul. precum şi a numelui fişierului. nu este precizat (echivalent cu *.*) lista oferă
Exemplu C:\lucrari\inf\explorer.exe toate numele din ultimul director din
parametrul cale. Parametrul /p atunci când
-adresare implicită a unui fişier -
este folosit paginează lista, trecerea de la o
utilizarea unităţii de disc implicite şi a
pagina la alta făcându-se prin apăsarea tastei
directorului implicit. Exemplu explorer.exe
“enter”. Fără parametrul /w lista conţine
(unitatea implicită fiind C:\lucrari\inf)
coloanele: nume, extensie, <DIR> pentru
-structura unei comenzi MS-DOS. O directoare sau nimic pentru fişiere,
comandă începe cu un nume şi se continuă dimensiune, data şi ora creerii. Folosind
cu parametri separaţi prin caracterul spaţiu. parametrul /w se trece la un format redus, în
Lansarea în execuţie a comenzii se face la care lista prezintă pe mai multe coloane doar

37
Informatică Medicală și Biostatistică

nume. Acele nume ce sunt încadrate între Comanda scrisă cu adresare directă este:
paranteze drepte sunt nume de directoare,
copy c:\alfa\*.txt a:\
restul nume de fişiere.
Problema 3. Să se genereze directorul
DEL [d:\][cale\]nume_fisier - şterge
lecţii derivat din directorul alfa ce există şi
fişierul cu numele nume_fisier. derivat din
derivă din rădăcina discului c:.
ultimul director scris în parametrul cale, de
pe discul d:. Dacă parametrii din paranteze Comanda de generare este:
nu-s precizaţi se folosesc cei impliciţi. La md c:\alfa\lectii
nume_fisier poate fi folosită * sau ?.
Comanda cere confirmare în cazul ştergerii Problema 4. Să se prezinte structura
tuturor fişierelor (cazul *.* la nume_fisier). arborescentă a discului c:
COPY [ds:\][cales\]nume_fisier_sursa Comanda este:
[dd:\][caled\][nume_fisier_destinatie] - c:\> tree c:\
copiază fişierele nume_fisiers de pe discul
ds:\, din ultimul director din parametrul cales Problema 5. Să se şteargă toate fişierele
pe discul dd:\, în ultimul director din din rădăcina discului a:
parametrul caled\. sub numele nume_fisierd. Comanda este:
Dacă parametrii d:\cale\ nu sunt precizaţi, se
folosesc cei impliciţi. Dacă parametrul del a:\*.*
nume_fisierd nu e precizat, copiile păstrează Ştergerea efectivă a fişierelor este
numele avut la sursă. În numele de fişiere condiţionată de răspunsul afirmativ (Y) la
poate fi folosită * şi ?. întrebarea:
Câteva exemple All files in directory will be deleted!
Problema 1. Să se afle ce fişiere şi Are you sure (Y/N)?
directoare sunt pe discul a: - pentru a afla
este suficient să dăm comanda:
dir a:\*.* Pentru cei ce doresc să încerce comenzi
MS DOS, sistemul de operare Windows
Răspunsul dat anterior este corect pune la dispoziţie comanda cmd. Aceasta se
indiferent de forma prompterului. Dacă tastează în rubrica destinată căutării de
prompterul este a:\> atunci putem elimina informaţie (aflată permanent pe ecran sau la
din comandă locul ce urmează să fie cercetat: acţionarea butonului Start).
dir *.* Putem modifica prompterul dând
comanda a:. urmată de cd\ dacă prompterul Lansarea acestei comenzi duce la apariţia
nu devine a:\>. unei ferestre ce acceptă comenzi MS DOS.
Dacă se doreşte lucrul fără ferestre (propriu
Urmărind forma generală observăm că nu sistemului de operare MS DOS) se dă
este necesar să indicăm fişierele dorite a fi comanda Alt-Enter (apăsarea tastei Alt şi a
găsite şi să dăm comanda dir a:\ sau dir după tastei Enter). Repetarea comenzii Alt-Enter
cum este prompterul. duce la revenirea ecranului la lucrul cu
Problema 2. Să se copieze fişierele cu ferestre. Renunţarea la lucrul cu comenzi
extensia txt aflate în directorul alfa derivat MS-DOS se face prin tastarea comenzii Exit
din rădăcina discului c:. Destinaţia este şi apăsarea tastei Enter.
rădăcina discului a:

38
Informatică Medicală și Biostatistică

1.2.6.2. Sistemul de operare Windows 1993 – Windows NT 3.1 sistem de


operare profesional, destinat reţelelor de
calculatoare
Cu toate avantajele sistemului de operare
1993 – Windows 3.11 (for Workgroups),
MS DOS, utilizarea lui nu era suficient de
completarea variantei Windows 3.1 cu
prietenoasă, motiv pentru care s-au căutat
module necesare conectării calculatoarelor
soluţii ce să facă posibilă utilizarea
în reţele
calculatorului şi de către nespecialişti în
informatică. Primul pas a fost acela de 1995 - Windows 95 nu mai necesită
aducere de liste de comenzi pe ecran, liste lucrul sub MS DOS, este independent dar
din care utilizatorul folosind tastele săgeţi îşi integrează şi foloseşte MS DOS 7. Schimbă
alegea comanda dorită. În acest fel nu mai aspectul interfeţei utilizator, făcând-o mai
erau necesare memorări mecanice de directă în utilizare
comenzi şi nu mai exista riscul încălcării
1996 - Windows NT 4.0. creşte
sintaxei comenzii. Totuşi deplasările cu
performanţa lui NT 3.1. făcând-ul un sistem
ajutorul tastaturii printre liste erau destul de
profesional. Prezintă o variantă pentru staţii
incomode. Apariţia mouse-ul a revoluţionat
de lucru şi una pentru servere
interfaţa utilizator, căci făcea posibil saltul
rapid al cursorului oriunde pe ecran. 1998 – Windows 98 adună sub acelaşi
Sistemul de operare Windows, produs de sistem de operare Windows-ul 95 (varianta
Microsoft, utilizează tocmai acest mod de OSR2) şi toate programele utilitare scrise
deplasare a cursorului. În Windows întrega pentru 95
imagine de pe ecran este grafică, făcând 2001 – Windows XP, deşi asemănător ca
posibilă apariţia oricărui desen. Cerinţele interfaţă grafică este un nou sistem de
hardware însă nu mai sunt modeste, este operare capabil de performanţă superioară
necesar un procesor rapid, o memorie de faţă de variantele anteriore. Egalează
dimensiuni mai mari, o placă video cu stabilitatea şi avantajele Windows-ului NT.
posibilităţi grafice, lucruri ce depăşesc mult
cerinţele MS DOS. 2009 - Windows 7 apreciat de utilizatori
ca al doilea după Windows XP, s-a remarcat
Scurt istoric, cu momentele importante:
prin stabilitate și compatibilitate.
1985 - Prima varianta de Windows,
nesusţinută de platforme hardware suficient 2015 - Windows 10 cel mai recent sistem
de puternice nu are succes de operare văndut de Microsoft. Sistemul
este gandit să asigure funcţionarea atât a
1990 Windows 3.0 destinat calculatoarelor PC cât şi a telefoanelor
calculatoarelor bazate pe procesor 80286, inteligente (cu suprafaţă touchscreen),
putea fi utilizat fără probleme deosebite. Nu oferind o aceeaşi interfaţă utilizator.
putea funcţiona independent, era lansat ca
aplicaţie MS DOS 1.2.6.2.1. Lansarea în execuţie a
programelor
1992 – Windows 3.1 fiind suficient de
stabil, utilizând facilităţile oferite de Apăsarea butonului de pornire (punere
procesoarele 80386 şi 80486 impune noul sub tensiune) a unui calculator dotat cu
mod de utilizare al calculatoarelor personale sistem de operare Windows este în general
suficientă pentru iniţializarea părţii hardware
şi lansarea în execuţie a sistemului de
operare. Pe perioada de iniţializare a
39
Informatică Medicală și Biostatistică

calculatorului, dacă nu sunt detectate erori, Open. Comenzile din meniul flotant pot fi
nu este necesar să intervenim. La finalul lansate în execuţie atât cu click pe butonul
iniţializării sistemul de operare ne invită să din stânga cât şi cu click pe butonul din
ne indicăm parola pentru a fi verificaţi dacă dreapta de pe mouse.
suntem pintre utilizatorii autorizaţi.
Suprafaţa ecranului poartă numele de
Desktop şi se comportă ca o suprafaţă de
lucru. La baza ecranului desktop-ul prezintă
bara de programe active (taskbar). Bara
prezintă, scos în evidenţă, în stânga, butonul
Start ( ). Pentru a se adapta cerinţelor
telefoanelor mobine Microsoft a încercat să
renunţe la butonul Start dar la reacţia
utilizatorilor a trebuit să îl reintroducă.
Apăsarea butonului Start duce la apariţia
meniului Start, prin care resursele
calculatorului ne sunt puse la dispoziţie.
Meniul Start oferă câteva comenzi rapide
(Power, Settings, Documents), precum şi
lista cu toate programele instalate pe
calculator. Deosebit de util este instrumentul
de căutare (o zonă de scriere aflată în
Figura 1.2.20. Elementele unei ferestre vecinătatea butonului Start, identificabilă
Windows printr-o lupă), în care prin tastare indicăm
subiectul dorit a fi căutat. Pot fi atât nume de
Ce observăm în continuare? În primul programe aflate pe calculator, cât şi subiecte
rând suprafaţa ecranul calculatorului ne pentru cautarea pe Internet.
întâmpină cu un număr de mici desene,
fiecare având câte o denumire. Aceste Alegerea unei comenzi din meniul start se
desene poartă numele de icon-uri face ducând cursorul mouse-ului peste
(pictograme, iconiţe). Dacă ducem săgeata numele dorit şi acţionând butonul din stânga.
mouse-ului peste oricare din icon-uri şi În situaţia în care apare o sublistă, continuăm
aşteptăm în locul săgeţii apare un mic text cu să alegem, finalizând cu butonul din stânga.
explicaţii despre icon. Fiecare desen Pe taskbar mai găsim, sub formă de
repreintă un program, Putem lansa în butoane, numele programelor care sunt
execuţie programul ducând vârful săgeţii executate la momentul respectiv. Pe lângă
mouse-ului peste desen şi acţionând prin butoanele programelor, taskbar-ul poate
click dublu rapid butonul din stânga de pe prezenta icon-uri, prin care putem lansa
mouse. Pentru cei mai puţin îndemânatici în rapid, în execuţie programe.
mânuirea mouse-ului, click-ul dublu se poate
înlocui prin click simplu cu butonul din 1.2.6.2.2. Notiunea de fereastra
stânga de pe mouse, urmat de apăsarea tastei Lansarea în execuţie a unui program face
Enter. Putem folosi şi butonul din dreapta de ca pe ecran să apară un dreptunghi, în
pe mouse, click-ul pe acesta, atunci când interiorul căruia să-şi desfăşoare activitatea
săgeata mouse-ului este pe icon-ul programul. Dreptunghiul poartă numele de
programului, duce la apariţia unei liste, fereastră, fereastra fiind unul din conceptele
flotante, de comenzi ce are pe prima poziţie de bază ale sistemului de operare Windows.

40
Informatică Medicală și Biostatistică

Sistemul de operare Windows acceptă Deoarece nu mai este posibilă o altă


execuţia mai multor programe în paralel, fapt maximizare, pe perioada de funcţionare în
care face necesară partajarea tuturor regim de maximizare, butonul de
resurselor calculatorului, inclusiv a maximizare este înlocuit cu butonul de
ecranului. Fiecare program poate obţine la restaurare (cu ajutorul căruia readucem
nevoie orice suprafaţă între întregul ecran şi fereastra la dimensiunea anterioară).
nimic din ecran. Cum ecranul are formă de Apăsarea pe butonul de închidere face ca
dreptunghi, pentru o acoperire eficientă, ferestra să dispară de pe ecran şi programul
suprafeţele oferite programelor vor fi ce rula în fereastră să-si suspende activitatea
dreptunghiulare. Acesta este motivul pentru (să dispară şi din taskbar).
care ferestrele au formă de dreptunghi
Sub bara de titlu, o fereastră poate
(figura 1.2.20).
prezenta o zonă pe care întâlnim diverse
Pentru a putea fi identificată, fiecare nume, fiecare fiind numele (sugestiv ales)
fereastră are nu nume (de regulă numele unei panglici cu butoane reprezentând
programului) ce este prezentatat pe bara de comenzi. Pe aceste butoane apar desene ce să
titlu (partea de sus a ferestrei). ne sugereze efectul comenzii. Sub desen este
scris numele comenzii, iar la staţionarea
Bara de titlu este sensibilă la acţionarea
săgeţii mouse-ului peste buton apare o
cu mouse-ul, un click dublu duce alternativ,
explicaţie. Fiecare panglică conţine grupate
fie la ocuparea întregului ecran de către
comenzile unei categorii de activităţi. Astfel,
fereastră (maximizare), fie la readucerea
pentru File vor fi găsite comenzi legate de
ferestrei la dimensiunea anterioară
lucrul cu fişiere, pentru Home comenzile
maximizării (restaurare). Tot bara de titlu
legate de selectare, copiere, mutare.
(prin intensificarea culorilor componentelor
Panglicile cu comenzi pot fi accesate şi doar
ei) este cea care ne anunţă dacă fereastra este
prin utilizarea tastaturii, la apăsarea tastei Alt
activă. O fereastră este activă atunci când
sub fiecare nume de panglica apare o literă,
poate primi comenzi de la tastatură. Să
aceasta acţionată generează noua panglică cu
reţinem că fereastră activă nu este similar cu
comenzi.
program activ! Programele active sunt
indicate prin butoane pe taskbar (butonul În ceea ce priveşte poziţionarea
ferestrei active fiind apăsat) şi îşi desfăşoară ferestrelor pe ecran, cât şi dimensionarea lor,
activitatea chiar dacă ferestrele lor nu sunt Windows-ul ne oferă rezolvări foarte uşor
active şi nu sunt în prim plan. accesibile. Deplasarea fereastrei pe ecran se
face prin înţeparea cu săgeata mouse-ului a
În partea dreaptă, bara de titlu include trei
barei de titlul urmată de apăsarea prelungă a
butoane, cu următoarele funcţii pentru
butonului din stânga de pe mouse, după care
fereastră: minimizare ( ). maximizare ( )
(fără a ridica degetul de pe buton) se mişcă
sau restaurare ( ) şi închidere ( ).
mouse-ul pe masă până când fereastra ajunge
Minimizarea ferestrei face ca ea să fie
în locul dorit. Modificarea dimensiunilor
prezentă pe ecran doar prin butonul de pe
unei ferestre este o operaţie uşor de efectuat
taskbar. Readucerea (restaurarea) ferestrei
dacă folosim mouse-ul: se duce săgeata să
pe ecran, la dimensiunile anterioare
înţepe frontiera ferestrei şi în momentul în
minimizării se face prin apăsarea butonului
care apare o săgeata cu două vârfuri se apasă
ei de pe taskbar. Pe toată perioada
prelung butonul din stânga de pe mouse şi
minimizarii programul rămâne activ!
(fără a ridica degetul de pe buton) se mişcă
Maximizarea ferestrei duce la ocuparea
mouse-ul pe masă, până când fereastra
întregului spaţiu disponibil, de pe ecran.
41
Informatică Medicală și Biostatistică

ajunge la dimensiunea dorită. Atunci când Transmission Control Protocol/Internet


este cazul putem modifica simultan atât Protocol) sau pe scurt TCP/IP care stabileşte
dimensiunea verticală cât şi orizontală dacă toate regulile a căror necesitate a fost
înţepăm colţul ferestrei. explicată anterior.
Acest protocol este o definire a modului
1.2.7. Reţele de calculatoare în care calculatoarele vor reacţiona atunci
când vor comunica unele cu altele.
Protocolul permite calculatoarelor de la
O reţea de calculatoare înseamnă cel diferiţi producători să comunice între ele şi
puţin două calculatoare care schimbă să folosească software-uri complet diferite.
informaţie între ele. Acum în secolul XXI În explicaţiile anterioare am folosit
considerăm normal ca telefonul, tableta, cuvântul fir pentru a fi mai uşor înţeleşi, deşi
laptopul, calculatorul să ne ofere informaţie putem crea uşor confuzie (eu am internet de
cât mai repede, cât mai multă, cât mai telefonul mobil, unde e firul?), căci tot mai
recentă dar şi cât mai cuprinzătoare. şi frecvent firul nu mai există. Legătura între
tehnica se supune, ne oferă rapid informaţia calculatoare poate fi făcută şi wireless adică
dorită, dar oare cum reuşeşte? În primul rând fără fir, prin unde radio, sonore, luminoase.
calculatoarele sunt conectate între ele în Chiar dacă nu mai avem firul, protocolul de
reţele şi se pot informa între ele. Analizând comunicaţie este acelaşi, existând
constatăm că din aproape în aproape particularităţi legate de situaţie, tip de
ajungem la o reţea cu întindere mondială, conectoare, distanţă şi aşa mai departe. Şi
numită Internet. Ca informaţia să poată fi încă o precizare, structura reţelei este de
înţeleasă de toate calculatoarele conectate, regulă eterogenă îmbinând diferite
ea trebuie organizată după nişte reguli. modalităţi de conecare.
Informaţia este structurată în pachete, fiecare
pachet conţinând datele necesare legării de Să revenim puţin la reţelele fără fir,
pachetul anterior. Trebuie menţionat faptul deoarece astăzi ele au o răspândire tot mai
că atunci când un pachet lipseşte poate fi mare, dată atât de răspândirea reţelelor
recerută emiterea lui. De ce ar putea lipsi un dedicate comunicaţiei între calculatoare cât
pachet? Este foarte posibil ca la un moment şi de tefefonia mobilă care integrează tot mai
dat emiterea pachetele să se suprapună şi multe din funcţiile proprii altădată doar
informaţia să fie compromisă, căci nu există calculatoarelor. Acest fapt este datorat
un sistem de dirijare a emiterii de pachete pe structurii telefonului modern, care este un
acelaşi fir. Compensarea acestui fapt se performant calculator, la care funcţia
realizează prin oferirea posibilităţii de telefonică este procentual din ce în ce mai
reemitere la cerere a pachetului distrus. Pe mică! Putem clasifica reţelele fără fir în:
lângă informaţia de legare între ele, - Wireless Personal Area Network
pachetele conţin şi informaţia necesară (WPAN) -. Rețea personală
stabilirii destinaţiei. Acest lucru face
posibilă reducerea numărului de pachete pe - Wireless Local Area Network (WLAN)
liniile de transfer a informaţiei. Toate aceste - Rețea locală
reguli sunt reunite în protocoale de - Wireless Metropolitan Area Network
comunicaţie, pe care le respectă toate (WMAN) - Rețea metropolitană
sistemele de operare. Pe scurt este respectat
aşa numitul Protocol de control al - Wireless Wide Area Network (WWAN)
transmisiei/Protocol Internet (în engleză - Rețea de arie largă.

42
Informatică Medicală și Biostatistică

În general în activitatea noastră ne vom (Microsoft Internet Explorer, Microsoft


întâlni cu reţeaua personală (pe care vom Edge, Mozilla Firefox, Apple Safari, Google
avea grijă să o parolăm) şi cu cea Chrome, Mozilla Camino, Opera Software
instituţională (la care vom primi un nume de ...). În situaţia în care nu cunoaştem adresa
utilizator şi o parolă la cerere). În rest vom de internet folosim serviciul de căutare oferit
utiliza internetul oferit public de regulă de cele mai multe din programele enumerate
gratuit. Atenţie putem accesa internetul şi mai sus. Se tastează cuvintele ce să
prin telefonia mobilă, operatorii încluzând în desemneze informaţia dorită, în zona special
abonamentele noastre şi acest tip date. oferită de program şi calculatorul îţi oferă
Informaţia oferită de internet este gratuită, lista adreselor de internet cu astfel de locuri.
însă transferul datelor prin intermediul Se acţionează cu mouse-ul pe unul din
telefoniei mobile este contra cost. numele din listă şi în acest fel este transferată
legătura către situl dorit. Nu trebuie să fii
Am folosit de mai multe ori în explicaţiile
surprins dacă adresa nu poate fi accesată, de
anterioare cuvântul Internet. Deşi în prezent
ce motorul de căutare a găsit adresa şi tu
acest cuvânt este des utilizat şi este înţeles ca
acum nu o mai ajungi la ea? Răspunsul este
locul din care găsim răspuns la întrebările
următorul, motorul de căutare, atunci când
noastre să zăbovim puţin asupra lui.
este liber caută şi îşi construieşte liste
"Internet" (scris cu majusculă) denumeşte proprii, organizate pe diverse subiecte. Când
rețeaua mondială a calculatoarelor i se solicită o căutare nouă, motorul nu
interconectate conform regulilor TCP/IP. accesează întreg Internetul, ci listele proprii.
Această imensă reţea de reţele de Astfel el îţi poate oferi ceva ce tu încercând
calculatoare oferă o largă serie de servicii să accesezi nu mai găsesşti. Explicaţiile
bazându-se pe principiile: situaţiei pot merge de la imposibilitatea
- acceptă orice tip de documente: grafice, accesării momentane a sitului (o pană de
text, imagini, video, audio, totul însă în alimentare cu energie electrică, un moment
format numeric voit de decuplare de la Internet...) până la o
ştergere a informaţiei care încă nu a fost
- orice document are o adresa şi atunci detectată de motorul de căutare.
când e necesar conţine adresa altui document
- informaţia în drum spre destinaţie
circulă pe orice traseu
- informaţia e fragmentată în pachete
Suntem obişnuiţi să ne informăm
utilizând Internetul. Acesta este unul din
servicii, World Wide Web (WWW sau
www, pe scurt web), foarte larg răspândit şi Figura 1.2.21. Programul Pine
care pentru mulţi se confundă cu Internetul.
Pentru a beneficia de acest serviciu pe lângă
conexiunea la Internet, avem nevoie de un Dar acesta nu e singurul serviciu oferit de
program (numit navigator sau browser) prin Internet. Lista ar fi trebuit să înceapă cu e-
intermediul căruia să accesăm adresa de mail-ul sau poşta electronică, serviciu
internet (Uniform Resource Locator sau existent şi în prezent, dar care acum e găzduit
URL, adresă Internet unică la nivel mondial) de situri web. Un exemplu celebru de
a celui ce pune la dispoziţie informaţia program poştă electronică îl constituie Pine
43
Informatică Medicală și Biostatistică

care oferea o intefaţă prietenoasă la acea programelor nocive, a aşa numitelor virusuri
vreme (figura 1.2.21). informatice. Primele teorii având ca subiect
posibilitatea realizării de programe ce se pot
Utilizatorii primesc o adresă mail ce are
multiplica au apărut încă din anul 1949. În
structura utilizator@server.domeniu. Dintre
1960 apar primele virusuri experimentale,
servele de mail utilizate larg în prezent
iar din 1984 sunt numite virusuri, datorită
trebuie mentionate ca exemple yahoo.com şi
capacităţii lor de automultiplicare şi a
gmail.com
necesităţii existenţei unei gazde.
O modalitate ce înlocuieşte tot mai mult Calculatorul PC odată apărut devine mediul
scrisorile este comunicarea directă, chat-ul, ideal pentru virusuri, portabilitatea
un alt serviciu Internet. Pentru exemplificare programelor a dus şi la răspândirea acestor
enumerăm programele Skype, Yahoo programe nocive.
messenger, WhatsApp, etc. Aceste aplicaţii
Nivelul următor a fost adus de Internet, a
îţi dau posibilitatea să-ţi vezi interlocutorul
dispărut interesul în infectarea suportului ce
şi să comunici cu el în direct.
schimba informaţia între calculatoare, căci
Pentru micşorarea costurilor calculatoarele erau conectate între ele şi s-a
convorbirilor telefonice internaţionale trecut la o denumire mai largă, răufăcător
aplicaţia VoIP (Voice Over Internet informatic.
Protocol) foloseşte Internetul linie
Americanul Frederick B. Cohen (născut
telefonică.
în 1957), considerat primul realizator al unui
Utilizarea unui calculator aflat la distanţă program virus, îl defineşte ca fiind un
este un alt serviciu oferit de Internet, poartă program ce poate infecta alte programe, prin
numele de Telnet şi este de fapt o includerea copiei sale. În 1987, Fred Cohen
modernizare a terminalelor calculatoarelor a publicat o demonstratie prin care arăta că
din secolul trecut. nu poate fi găsit un algoritm ce să poată
O altă facilitate oferită de Internet este detecta toate virusurile posibile.
transferul de fişiere la distanţă (FTP). Timpul a trecut, iar măiestria celor ce au
Lista poate continua, căci mereu apar noi produs astfel de programe s-a dovedit foarte
funcţii pentru Internet. O să încheiem ingenioasă, în prezent vorbim de software
aducând aminte de utilizarea netmeeting- rău intenționat sau software dăunător (în
ului ca variantă de predare şcolară online în engleză malware, prescurtare de la malicious
perioada pandemiei, perioadă în care a fost software) care este proiectat pentru a acţiona
testată şi eficienţa lecţiilor on-line, pentru fără acceptul proprietarului calculatorului şi
care există o multitudine de programe a face, de regulă, rău. Odată cu progresul şi
dedicate. ţinta acestor programe s-a schimbat. La
început scopul era să faci rău proprietarului,
să îi distrugi fişiere, să îl faci să nu mai poata
1.2.8. Răufăcători informatici utiliza calculatorul, să îi distrugi partea
electronică. Faţă de acţiunile din prezent
acestea au fost ţinte cu profit mic pentru
În paragraful anterior am scos în evidenţă iniţiatori. Acum este mult mai folositor să se
gama largă a valenţelor Internetului. Din afle ce fel de programe utilizezi şi dacă
păcate lumea calculatoarelor nu are numai software-ul e licenţiat, chiar şi determinarea
lucruri bune, existenţa schimbului facil de profilului tău e important (căci se va şti ce fel
informaţie a creat posibilitatea răspândirii de reclame să ţi se trimită). De actualitate

44
Informatică Medicală și Biostatistică

sunt aflarea parolelor, datelor bancare, în Software infecțios


general a informațiilor confidențiale Nu
Virusul informatic este un mic program
prea mai e de actualitate să-ţi strice cineva
care infectează fișiere prin ataşare şi care se
calculatorul. Dar să nu ne bazăm pe acest
poate multiplica fără ca utilizatorul să
lucru şi să fim pregătiţi.
observe acest lucru. De obicei infectează
Cum putem să ne apărăm de aceste sectorul de boot discului şi fișierele. Cel mai
programe? Destul de greu! Nu vom folosi des se răspândește prin partajarea de
decât programe cu licenţă de utilizare, nu software sau fișiere între computere şi prin e-
vom împrumuta fişiere, nu vom deschide, în mail-uri trimise în masă.
poşta electronică, decât mesaje a căror
Viermele informatic este un program
emitent este cunoscut şi nu vom intra în
autonom care se poate multiplica pentru a se
panică la mesaje alarmante. În plus vom
răspândi în alte fișiere, utilizând de obicei
folosi programe antivirus (chiar de la
breșe de securitate ale rețelelor de
instalare sistemul de operare Microsoft
calculatoare. Pentru reţelele de calculatoare
conţine integrat un astfel de program).
daunele constau în creșterea traficului și
Atenţie, de regulă pe un calculator nu pot
consumarea lățimii de bandă. Pentru un
coexista mai multe programe antivirus, noul
vierme nu este necesară ataşarea de un
program antivirus instalat inhibă acţiunea
program existent.
celui existent. Cum funcţionează aceste
programe? O variantă de detecţie este Calul troian este un program malware
căutarea secvenţei de cod proprie care, aşa cum îi spune şi numele, pare un
dăunătorului, pe întreg discul dur al program legitim. Deşi nu se poate
calculatorului şi în memoria internă. Evident automultiplica troianul este deosebit de
că o astfel de metodă poate fi aplicată abia periculos, în momentul în care se activează
după ce a fost detectată apariţia, deci după ce deţine controlul asupra computerului și poate
a fost semnalată infectarea unor alte sustrage date importante.
calculatoare. şi din păcate aceasta este Grayware (software în zona gri)
varianta larg implementată. Calculatoarele
ce sunt protejate în acest mod trebuie să îşi Acele aplicaţii care nu blochează total
actualizeze permanent lista de amprente de calculatorul infectat dar care îi micşorează
dăunători. O altă variantă de protecţie este ca performanţa fie prin prezentarea de reclame,
la orice tentativă de modificare a informaţiei fie prin transmiterea continuă de date privind
de pe disc programul antivirus să întrebe activitatea şi softul folosit.
utilizatorul dacă o autorizează. Protecţia Adware este programul care afișează
teoretic este maximă dar oare câţi utilizatori anunțuri pe computer. Este puţin periculos,
ştiu dacă accesul detectat este unul corect sau utilizarorii ignorând zona din ecran afectată.
al unui răuvoitor. Evident că foarte puţini. Deşi este adus pe ecran odată cu o instalare
Apoi chiar şi cunoscătorii vor fi enervaţi de de probă a unui nou program (de regulă
frecvenţa întrebării şi plictisiţi vor autoriza gratuit), nu dispare la dezinstalarea
toate încercările. Deci metoda teoretic foarte programului testat. De multe ori atunci când
bună, practic nu este utilizabilă. Rămâne să instalăm programe shareware (care au
aplicăm prima variantă şi să avem grijă să utilizare gratuită doar pe perioada de testare),
actualizăm permanent amprenta dobândim şi spyware.
dăunătorilor. În continuare vor fi prezentate
foarte pe scurt categoriile principale de Spyware este program ce fură
malware. informațiile personale (nume de

45
Informatică Medicală și Biostatistică

autentificare, parole, date personale, chiar Spam - Nu puteam încheia această foarte
obiceiuri de navigare). De obicei scurtă enumerare fără a aminti de Spam, care
informaţiile sustrase sunt folosite în este procesul prin care primim mesaje
campanii de marketing dar există situaţii în electronice nesolicitate. Sunt de obicei
care datele sunt colectate de producătorii de mesaje agresive cu caracter comercial,
programe pentru a vedea în ce măsură sunt publicitare de multe ori pentru produse
folosite copii pirat precum şi care este tipul produse de calitate îndoielnică.
de soft folosit mai mult.
Programele malware au o evoluţie
Phishing (înșelăciunea electronică), este ascendentă, fiind tot mai greu de detectat
procesul prin care utilizatorul este înşelat şi deoarece orice breşă de securitate. Împotriva
oferă date bancare confidenţiale (detalii lor programatorii dezvoltă programe de
legate de cărți de credit sau conturi bancare, protecţie dar care fac greu faţă ingeniozităţii
nume de utilizatori, parole...). De obicei deosebite a răufăcătorilor. Este necesar să
invitaţia de a oferi astfel de informaţii este avem întotdeauna actualizat programul de
făcută prin e-mail, după care esti direcţionat protecţie!
spre un site clonă (destul de reuşită) a unui
site oficial, în care dacă te păcăleşti îţi
introduci datele.

46
Informatică Medicală și Biostatistică

1.3. Pagini WEB şi HTML într-o permanentă dezvoltare, actual


standardul HTML a ajuns la versiunea 5.

1.3.1. Introducere De standardul HTML se ocupă consorțiul


W3C (https://www.w3.org/).

HTML (Hypertext Markup Language)


este un limbaj de marcare, nu un limbaj de 1.3.2. Concepte fundamentale în
programare, utilizat pentru realizarea HTML
paginilor web. Site-urile web pot fi
vizualizate de orice utilizator care folosește 1.3.2.1. Etichete
un interpretor de fișiere HTML numit
generic Browser.
HTML-ul este ușor de învățat, elementele HTML este alcătuit din elemente, acestea
de bază sunt accesibile utilizatorilor sunt coduri scurte introduse într-un fișier text
neexperimentați. Limbajul este unul apropiat de către realizatorul site-ului web. Etichetele
de cel natural iar fișierul HTML poate fi sunt cele care separă textul normal de codul
înțeles (interpretat) atât de către utilizator cât HTML, se găsesc între parantezele
şi de către Browser. unghiulare (ex. <etichetă>). Structura
utilizată pentru realizarea unui element este:
Semnificația HTML este: eticheta de început - <etichetă> - conținut și
 HyperText – este modalitatea prin care eticheta finală - </etichetă>. Prezența slash
utilizatorul se poate deplasa pe web, indică terminarea efectului etichetei
apăsând pe un text special numit utilizate. Etichetele, în engleză, poată
hyperlink care face trecerea în pagina numele de tag. Este de remarcat diferența
următoare; între noțiunea de element şi cea de etichetă,
 Markup – marcarea este realizată de elementul este o grupare de etichete și
etichete pentru textul din interiorul lor; conținut pe când eticheta este doar un cuvânt
 Language – este un limbaj deoarece are încadrat între parantezele unghiulare.
vocabular şi sintaxă ca orice alt limbaj. Etichetele se pot scrie atât cu litere mici cât
și cu litere mari, este totuși recomandat ca
Istoric HTML pornește ca un subset de fiecare să utilizeze un singur mod de scriere
SGML (Standard Generalized Mark-up pentru o lizibilitate mai ușoară atât pentru el
Language). Tim Berners Lee, creatorul cât şi pentru alți utilizatori ce vor dori să
HTML, și-a pregătit primul sistem elementar utilizeze codul săuș mai elevat spus
de navigare și autorizare pentru web, a creat etichetele nu sunt case sensitive. Etichetele
un limbaj rapid şi mic procesor hipertext care utilizate nu apar atunci când se dorește
să servească scopurilor sale. Problema vizualizarea paginii prin intermediul unui
sistemului său s-a dovedit a fi în simplitatea browser, dar efectul lor este vizibil.
limbajului, deoarece era bazat doar pe text.
Pe măsură ce tot mai mult conținut se muta
pe Web, creatorii de browsere și-au dat 1.3.2.2. Atribute
seama că limbajul necesită îmbunătățiri.
Dezvoltatorii au implementat noi funcții
pentru browsere, din ele unele au fost Etichetele pot avea proprietăți asociate
păstrate, altele înlăturate. Standardul a fost numite atribute care pot avea valori
predefinite sau setate de către autor. Aceste

47
Informatică Medicală și Biostatistică

atribute se găsesc în etichetele de început și 1.3.3. Structura unui document


sunt separate de spațiu. HTML
Cea mai des întâlnită structură a
atributelor este perechea nume=”valoare”,
după cum se poate observa valoarea Un document HTML are patru
atributului trebuie să fie încadrată între componente esențiale:
ghilimele duble. Există câteva atribute în 1. O linie ce conține informații despre
HTML5 care sunt alcătuite doar din nume, versiunea de HTML utilizată. Linia
acestea sunt numite atribute Booleane (ex. !DOCTYPE este cea care se ocupă de
checked, disabled, readonly, required, ș.a.). acest lucru. Un document HTML valid
declară ce fel de versiune este utilizată.
1.3.2.3. Caractere speciale 2. Eticheta de început <html> este cea care
spune browser-ului că citește cod
HTML.
Caracterele speciale sunt simboluri care 3. O secțiune antet delimitată de elementul
pot fi incluse în documentul HTML folosind head. Acesta conține informații despre
o convenție specială de numire, simboluri ce document, cum ar fi titlul, cuvinte cheie
altfel au altă însmenătate sau nu pot fi ce pot fi utilizate de motoarele de căutare
introduse de utilizator. Structura acestor şi alte date care nu țin de conținutul
caractere speciale începe cu “&” şi se documentului;
termină cu (;). De exemplu: 4. Un corp care are de fapt conținutul
documentului. Aspectul poate fi
• &lt; - reprezintă semnul <; prezentat sub diverse forme în funcție de
• &gt; - reprezintă semnul >; doleanțele fiecăruia. Acesta poate
• &quot; - reprezintă semnul “; conține text, imagini, culori, desene, etc,
• &amp; - reprezintă semnul &; practic orice fel de fișier.

1.3.2.4. Comentarii 1.3.3.1. Atributele class și id

Comentariile sunt folosite destul de des în Atributul id desemnează un idenficator


HTML, de aceea este important să unic unui element. Acesta are următoarele
atenționăm browser-ul pentru a evita afișarea roluri în HTML:
lor. Acestea au următoarea sintaxă: <!--  Selector pentru foile de stil;
Acesta este un comentariu -->.  Modul de referire la un anumit element
Motivele pentru care este indicat să dintr-un script;
utilizăm comentariile sunt:  Identificarea câmpurilor când se extrag
date din baza de date;
• O clarificare asupra unei porțiuni de cod  Traducerea documentelor HTML în alte
lăsat neterminat; formate.
• O notă asupra unor elemente;
• O specificație a codului utilizat. Atributul class constituie unui element
unul sau mai multe nume de clase, astfel se
poate spune că acel element aparține acestor
clase. Numele unei clase poate fi distribuit la

48
Informatică Medicală și Biostatistică

mai multe elemente. Rolurile acestui atribut  Alinierea;


în HTML sunt:  Convenția limbajului scris și direcția
textului;
 Ca selector pentru foile de stil;
 Formatarea paragrafelor cu privire la
 Pentru a accesa și manipula elemente cu
tema conținutului.
numele clasei specifice în JavaScript.
Pentru trecerea unor detalii despre un
medic, fiecare pe un alt rând, (ex:
1.3.3.2. Headings - H1, H2, H3, H4, H5, H6
Specializare, Nume, Orar) se va utiliza
eticheta <br> după fiecare rând.
Heading-urile sunt etichele HTML
încorporate în codul unui website cu rolul de 1.3.3.4. Liste
a evidenția cele mai importante elemente din
conținutul unei pagini şi de a indica
motoarelor de căutare despre ce este vorba în Listele HTML sunt utilizate pentru a
pagina respectivă. prezenta informațiile într-un mod clar și
corect semnatic. Există trei tipuri de liste:
În general un heading este utilizat ca o
introducere către o anumită secțiune de  Neordonate – utilizate atunci când se
conținut. Este recomandat utilizarea unei urmărește gruparea informațiilor dar nu
singure etichete H1, destinată pentru într-o anumită ordine. O listă neordonată
indicarea subiectului unei pagini web. Pentru se creează cu ajutorul etichetei <ul> …
sub-secțiuni se vor utiliza restul etichetelor, </ul>, în interiorul acesteia se vor
fiecare etichetă fiind secundară celei introduce itemii listei care se vor nota cu
anterioare. <li> … </li>. Eticheta <ul> este o
abreivere din englezescul unorder list,
iar eticheta <li> din engelezescul list
1.3.3.3. Linii și paragrafe
item;
 Ordonate – se folosește când avem
Ca şi în scrierea fizică infromația trebuie nevoie de o organizare într-o ordine
organizată în paragrafe. Adăugarea specifică. <ol> … </ol> reprezintă
paragrafelor în cadrul documentului HTML elementul care duce la creearea listelor
se va face cu ajutorul etichetei <p> … </p>. ordonate, fiind o abreivere din
Utilizarea etichetei <p> permite adăugarea englezescul order list. Numărătoarea în
de text în document astfel încât dimensiunea cadrul unei liste ordonate începe inplicit
textul va fi ajustată în funcție de browser-ul cu 1, dacă se dorește schimbarea se va
folosit, fiecare paragraf începând pe un rând utiliza atributul start. În cadrul listelor
nou. Eticheta <p> este o prescurtare a ordonate se pot folosi următoarele
atribute:
englezescului paragraph.
 reversed – elementele din cadrul liste
Pentru a avea o prezentare a ideilor vor fi afișate de la cel mai mare la cel mai
reușită, în cadrul paragrafelor trebuie să se mic;
țină cont de câteva aspecte, atât stilistice cât  type – setează felul în care se vor
şi tehnice: enumera
 Tratarea spațiului alb; • a – pentru litere mici;
 Linie nouă; • A – pentru litere mari;
• i – pentru litere romane mici;
49
Informatică Medicală și Biostatistică

• I – pentru litere romane mari; Rândurile unui table pot fi grupate în


• 1 – pentru numere; antet, corp şi subsol (head, body, foot). Cu
 Liste de definiții – utilizate la creearea de ajutorul acestei grupări utilizatorii au
liste care conțin termeni ce au nevoie de oportunitatea de a derula corpul tabelului
descriere, acestea se creează cu ajutorul independent de antet și subsolul tabelului.
elementelor <dl> … </dl> care Atunci când se dorește tipărirea unui tabel
reprezintă structura de bază în cadrul foarte lung, informațiile aflate în antet şi
căreia se vor utiliza etichetele <dt> … subsol vor fi tipărite pe fiecare pagină care
</dt> - specifică termenul – şi <dd> … conține date din tabel. Antetul şi subsolul
</dd> - descrierea termenului. trebuie să conțină informații despre
Browserele prezintă lista de definiții coloanele tabelului, corpul va fi alcătuit din
plasând termenii și definițiile pe rânduri rânduri ce dețin datele tabelului. Fiecare
separate. Eticheta <dl> este abreviere antet, subsol și corp conțin grupări de
din engelezescul definition list, <dt> din rânduri, fiecare grupare trebuie să conțină cel
definition title, iar <dd> din definition puțin un rând definit cu ajutorul elementului
detail. <tr>. Elementul <tfoot> apare de obicei sub
<tbody> în structura documentului.
1.3.3.5. Tabele 1.3.3.5.1.4. Rândurile: elementul <tr>
Elementul <tr> se comportă ca un
container pentru un rând ce conține celulele
HTML oferă posibilitatea de a grupa unui tabel. Trebuie să existe cel puțin un rând
infromația în tabele. Fiecare tabel poate în cadrul unui tabel.
beneficia de un titlu, acest lucru realizându-
se cu ajutorul elementului <caption>. 1.3.3.5.1.5. Celule: elementele <th> şi <td>

1.3.3.5.1. Elemente necesare pentru Celulele unui tabel trebuie să conțină


construirea unui tabel două tipuri de informații: informații de antet
și date. Această diferență ajută dezvoltatorii
1.3.3.5.1.1. Elementul <table> software să afișeze distinctiv datele de antet
Tabelul este definit de elementul <table> față de cele care compun corpul tabelului,
… </table> care poate conține titlul acestuia. acest lucru fiind posibil chiar şi în absența
În tabel se pot adăuga linii (rânduri) folosind foilor de stil. Pentru evidențierea capului de
elementul <tr></tr>, iar în cadrul liniilor tabel se va folosi elementul <th> … </th>,
cloane, folosind elementul <td> … </td>. acesta definește o celulă ce conține
informații despre antetul tabelului. Eticheta
Eticheta <tr> este o abreviere din <th> este abrevierea pentru table head.
englezescu table row, iar eticheta </td> din
englezescul table data. Celulele se pot întinde pe mai multe
rânduri sau coloane. Numărul de rânduri sau
1.3.3.5.1.2. Titlul tabelului: elementul <caption>
coloane pe care se întind celulele este dat cu
Elementul <caption> are rolul de a ajutorul atributelor rowspan - unirea mai
descrie conținutul tabelului, utilizarea multor rânduri şi colspan – unirea mai
acestuia este permisă doar imediat după multor coloane.
eticheta de început <table>. Elementul
1.3.3.5.2. Marginile tabelului
<table> poate conține un singur titlu.
Marginea unui tabel în HTML poate fi
1.3.3.5.1.3. Gruparea rândurilor: elementele
<thead>, <tfoot> și <tbody> obținută cu ajutorul atributului border=”1”

50
Informatică Medicală și Biostatistică

care se va găsi alături de elementul <table>.  Link vizitat – va apărea subliniat și de


Fiecare poate decide lățimea marginii culoare violet;
tabelului folosind un număr mai mic pentru  Link activ – este subliniat și de culoare
o linie mai subțire sau un număr mai mare roșu.
pentru o linie mai groasă.
În HTML link-urile sunt create cu ajutorul
1.3.3.5.3. Marginile celulelor elementului <a>. Orice lucru care se află
între eticheta de început <a> și cea de
cellspacing – prin intermediul acestui
închidere </a> devine parte a link-ului pe
atribut utilizatorul poate să specifice cât
care utilizatorul îl vede și accesează în
spațiu trebuie lăsat între marginea tabelului
browser. De reținut este faptul că atributul
și cea a celulei, acest lucru fiind valabil
href din fiecare link specifică adresa link-
pentru toate cele patru laturi – stânga, sus,
ului de destinație, iar valoarea acestuia poate
jos, dreapta.
fi o cale URL absolută sau relativă. Eticheta
cellpadding – acest atribut specifică <a> este abrevierea din engelezescul anchor.
spațiul dintre marginea celulei și conținutul
O cale URL absolută este aceea care
acesteia. Dacă valoarea acestui atribut este o
include fiecare parte din formatul URL, cum
lungime de pixeli, toate cele patru margini ar
ar fi protocolul, numele gazdei, şi calea
trebui să fie la această distanță de conținut.
documentului –
Dacă valoare atributului este o lungime
https://www.umfcv.ro/index.html. În timp ce
procentuală, marginile superioare și
o cale URL relativă este locală şi nu
inferioare ar trebui să fie egal separate de
utilizează prefixul http:// (ex: idenx.html).
conținut pe baza unui procent din spațiul
vertical disponibil, iar marginile stânga și Atributul target va spune browser-ului
dreapta trebuie să fie egal separate de unde să deschidă conținutul link-ului ce a
conținut bazat pe un procent al spațiului fost accesat. Există patru valori pentru acest
orizontal disponibil. atribut și fiecare va începe cu caracterul
underscore (_):
Aceste două atribute controlează spațiul
dintre și din interiorul celulor.  _blank – deschide conținutul link-ului în
o nouă fereastră;
 _parent – deschide conținutul link-ului
1.3.3.6. Link-uri
în fereastra părinte;
 _self – deschide conținutul link-ului în
Link-ul reprezintă construcția de bază a aceeași fereastră;
hypertextului. Un link este o conexiune de la  _top – deschide conținutul link-ului în
o resursă Web la alta. Deși este un concept fereastra completă a browser-ului.
simplu, link-ul a fost una dintre forțele de
bază ce a condus la succesul web-ului.
1.3.3.7. Imagini
Prin activarea acestor link-uri,
utilizatorii pot vizita resursele web – o
Imaginile pot acorda un aspect mai plăcut
imagine, un sunet, un videoclip, un fișier
paginilor web făcându-le mai interesante şi
PDF, etc. În general link-urile vor apărea în
mai colorate. Eticheta <img> este utilizată
majoritatea browser-elor:
pentru introducerea de imagini în
 Link-ul nevizitat – este subliniat şi de documentul HTML. Fiecare imagine trebuie
culoare albastru; să aibă cel puțin două atribute:

51
Informatică Medicală și Biostatistică

 src - spune browser-ului unde să utilizatorului, cum ar fi nume, specializare,


găsească imaginea. Valoarea sa este număr de telefon, etc. Formularele conțin de
URL - ul imaginii; obicei elemente care permit introducere de
 alt – oferă un text ce descrie imaginea, text într-un anumit câmp - inputbox,
în cazul în care aceasta nu este selectarea anumitor opțiuni - checkboxes,
disponibilă sau nu poate fi afișată din alegerea unei singure variante - radio-
diverse motive. buttons, butoane de confimare – submit
buttons. Utilizatorii, de obicei, completează
Atributele width şi height sunt utilizate
un formular prin introducerea de text sau
pentru a specifica lățimea şi înalțimea unei
selectarea unor acțiuni și trimit datele către
imagini. Valoarea acestor atribute este de
un server web pentru a fi procesate.
obicei calculată în pixeli.
Elementul utilizat pentru a crea un
De multe ori ne lovim de problema când
formular HTML este <form>. Cel mai
aplicăm funcția de zoom imaginii pentru a
utilizat element în cadrul formularului
se potrivi pe mai multe dispozitive sau
HTML este elementul <input>, acesta ne
reducerea dimensiunii utilizând width şi
permite să utilizăm diverse câmpuri de
height, nu reduce dimensiunea fișierului
introducere, toate acestea depind de atributul
inițial. HTML5 vine cu o rezolvare
type. Elementul <input> poate fi de mai
introducând elementul <picture> care
multe tipuri:
permite definirea mai multor versiuni ale
imagini, aceasta putându-se încadra pe mai  text – este o zonă care permite
multe dispozitive. utilizatorului să introducă text. Această
zonă este creată utilizând elementul
Elementul <picture> poate conține zero
<input>, al cărui atribut type va avea
sau mai multe elemente <source>, fiecare
valoarea text;
făcând trimitere la diferite surse ale imaginii,
 password - este similar celui de text,
iar la final va avea elementul <img>.
diferența constă în caracterele ce sunt
Desigur că fiecare element <source> are un
introduse vor apărea sub formă de steluțe
atribut media care specifică condiția medie
sau puncte. Această modalitate este
pe care browser-ul o va folosi pentru a
introdusă pentru a preveni citirea de
determina când o sursă trebuie utilizată.
către persoane neautorizate a parolei;
Dacă se dorește ca anumite elemente  radio – sunt utilizate pentru a permite
dintr-o imagine să devină link-uri către alte utilizatorului să selecteze o singură
pagini fără ca acestea să fie despărțite în mai opțiune din o listă predefinită. Crearea
multe imagini se poate utiliza elementul este posibilă acordând atributului type
<map>. De exemplu, o hartă a unui spital valoarea radio;
poate avea fiecare secție reprezentată sub  checkbox – permit utilizatorului una sau
formă de link care va face trimitere către mai mai multe opțiuni dintr-o listă
multe informații despre specializarea predefinită. Se va oferi valoarea
selectată. checkbox atributului type;
 file – utilizatorul are posibilitatea de a
1.3.3.8. Formulare căuta un fișier și să-l trimită sub formă
de atașament;
 textarea – permite introducerea unui text
Formularele HTML sunt utiliza pentru a mai lung;
colecta diverse date de intrare ale

52
Informatică Medicală și Biostatistică

 select box – este o listă care se  text-align – modifică aliniamentul


desfășoară în jos și cuprinde mai multe textului, la stânga, dreapta, centrat sau
opțiune ce pot fi alese de utilizator. aliniat la ambele capete;
Crearea se realizează cu ajutorul  font-family – permite utilizarea de font-
elementelor <select> și <option>; uri în funcție de preferințe (Verdana,
 submit button – butonul este utilizat Helvetica, Courier);
pentru a trimite date către server;  font-size - oferă posibilitatea de a
 reset button – resetează totul la valoarea schimba dimensiunea fontului – small,
inițială. medium, large, etc sau valori numerice
urmate de unitatea de masură;
 background-color – schimbă culoarea de
1.3.3.9. Stiluri
fundal prin introducerea unei valori în
hexazecimal, cuvinte sau RGB;
HTML este limitat când vine vorba de  background-image – se poate introduce
aspectul paginii web. A fost creat pentru a o imagine pe fundal.
prezenta informațiile într-un mod cât mai
simplu. Informațiile ce țin de aspect pot fi
atașate fie ca un document separat sau
integrate în documentul HTML. Există trei
metode prin care se pot implementa
elementele ce țin de aspect într-un document
HTML:
 inline styles – este utilizat pentru a oferi
unui element un stil unic. Atributul style
se va trece în eticheta de început, acesta
conține mai multe perechi de property și
value. Fiecare pereche va fi separată de
(;), toate se vor scrie pe o singură linie;
 embedded style – va avea impact doar
asupra documentului în cadrul căruia se
află. Este găsit în secțiunea <head> a
documentului HTML utilizând
elementul <style>;
 external style sheet – cu ajutorul
elementului <link> se va face trimitere
către un fișier CSS (Cascading Style
Sheets).
Câteva din comenzile utilizate pentru a
îmbunătăți aspectul unei pagini web, sunt
următoarele:
 color – schimbă culoarea textului, se
poate utiliza orice valoare a culorii fie în
hexazecimal, cuvinte sau RGB;

53
Informatică Medicală și Biostatistică

1.4. Baze de date - Accesul la date – foile de calcul au


fost create pentru un număr restrâns de
utilizatori, bazele de date permit accesul
1.4.1. Introducere simultan al utilizatorilor la informațiile
deținute;
- Redundanța controlată;
Volumul tot mai mare de informații ce - Posibilitatea recuperării acestora în
trebuie gestionat cât mai repede posibil şi la cazul uneri erori;
costuri accetabile a dus la apariția bazelor de - Administrarea uniformă a datelor;
date. - Stocarea şi gestionarea – informațiile
O colecție organizată de informații între sunt colectate şi organizate acestea fiind în
care există cel puțin o relație şi este stocată același timp și securizate.
electronic poartă denumirea de bază de date. Utilizatorii bazei de date sunt încadrați în
Evoluția istorică a bazelor de date poate diferite categorii în funcție de accesul ce le
fi prezentată prin intermediul unor etape este permis:
istorice:  Administratorul de date – are rolul de
 1960 – bazele de date secvențiale – a gestiona resursele de date și de a proiecta
aveau la bază modelul ierarhic sau rețea, logic a baza de date;
informațiile fiind dependente una de  Administratorul bazei de date – se
cealaltă. Dezavantajul acestei abordări era ocupă de proiectarea și implementarea bazei
parcurgerea în întregime a bazei de date de date - definește structura de stocare şi
pentru găsirea informației dorite, astfel metodele de acces prin scrierea unui set de
timpul de căutare era foarte mare; definiții transferate compilatorului, asigură
 1970 – modelul relațional ~ apariție securitatea prin acordarea de drepturi de
– informațiile se vor memora pe grupuri de acces utilizatorilor pe baza unor conturi de
obiecte, își vor face apariția atributele şi utilizator, monitorizează toate activitățile
relațiile de dependență între grupuri; utilizatorilor, supraveghează creșterea
 1990 – modelul OODB ~ baze de dimensiunilor bazei de date, etc.;
date orientate obiect – folosesc  Programatorii – sunt persoanele care
programarea orientată pe obiect pentre a creează aplicații software ce utilizează baza
crește viteza de procesare a informațiilor; de date pentru a simplifica munca
 Astăzi – bazele de date în cloud – utilizatorilor finali;
produc o revoluție prin modul de colectare,  Utilizator final – este persoana care
stocare, gestionare şi utilizare. utilizează produsul final – aplicația software
+ baza de date.
Cu ajutorul bazelor de date se pot stoca
informații despre pacienți, medicamente, Pentru a colecta volume mari de date,
diagnostice, gestiunea paturilor unui spital, care pot modifica viața şi domeniile de
etc. Se va spune că toate aceste lucruri se pot activitate, oamenii au acces la informații mai
stoca și în cadrul unei foi de calcul Microsoft mult ca niciodată. Persoanele care gândesc în
Excel, dar diferențele între cele două perspectivă pot utiliza bazele de date dincolo
modalități de stocare sunt: de stocare datelor şi de tranzacții, pentru a
analiza cantități mari de date, de la mai multe
- Cantitatea ce poate fi stocată – în sisteme. La momentul actual bazele de date
cadrul unei baze de date putem stoca un acceptă frecvent interogări foarte complexe
volum imens de informații. și se așteaptă de la acestea să furnizeze
54
Informatică Medicală și Biostatistică

răspunsuri aproape instant la interogările  Relație – reprezintă interacțiunea ce


respective. Pentru a obține acest rezultat are loc între două entități – asocierea dintre
administratorii bazelor de date trebuie să un pacient şi diagnosticul care îi este pus.
utilizeze diverse metode pentru a îmbunătăți
performanța. Câteva din provocările pe care
1.4.2. Tipuri de modele de baze de date
aceștia le întâlnesc sunt:
 Absorția creșterilor semnificative ale
volumelor de date – mulțimea de date Pentru a obține o bază de date bună este
provenite de la senzori, aparatele conectate esențial ca utilizatorul să decidă modul în
şi zecile de alte surse obligă administratorii care dorește să o utilizeze. Având în vedere
să depună eforturi pentru a gestiona și modul de organizare și stocare pe suportul
organiza eficient datele; magnetic a informației se cunosc mai multe
 Asigurarea securității datelor – modele de baze de date:
apariția breșelor de securitate duce la
 Modelul ierarhic – are la bază
securizarea datelor, dar în același timp
structura arborescentă, accesul se realizează
acestea să fie accesibile utilizatorilor;
într-un singur sens pornind de la vârful
 Menținerea ritmului cu cererea –
ierarhiei. Baza de date are o structură
domeniul medical este în continuă
ierarhică, inregistrările de date sunt
dezvoltare de aceea este nevoie ca accesul la
conectate prin legături;
date să fie realizat în timp real, pentru
 Modelul rețea – similar modelului
accelerarea procesului de luare a deciziilor la
ierarhic deosebirea fiind făcută de faptul că
timp;
un nod copil poate avea mai mulți părinți.
 Managementul bazelor de date –
Reprezentarea modelului rețea se va face cu
pentru prevenția apariția problemelor şi
ajutorul diagramelor de structură nodurile
efectuarea activităților de mentenanță
fiind înlocuite de tipurile de înregistrare;
preventivă, administratorii bazelor de date
 Modelul relațional – are aplicabilitate
trebuie să le supravegheze permanent.
în viața reală de aceea se află printre cele mai
Modelarea datelor urmărește să utilizate modele (Oracle, Visual, FoxPro,
organizeze datele astfel încât ele să reflecte Paradox, Access). Datorită simplității
situația reală și să fie adaptate reprezentării funcționale și facilităților oferite este utilizat
și prelucrării electronice. de o gamă largă de utilizatori.
Un model de date este definit de o Modelul relațional se bazează pe teoria
colecție de concepte care are menirea de a matematică a relațiilor între mulțimi, cu alte
descrie datele şi relațiile dintre acestea, cuvinte toate operațiile sunt încheiate cu
precum şi constrângerile ce sunt aplicate succes, iar rezultatele sunt predictibile.
datelor.
Principalul avantaj al modelului
Un model de date este alcătuit din trei relațional este că utilizează relațiile pentru a
elemente de bază: accesa valori corespondente din mai multe
tabele.
 Entitate – este un obiect sau concept
din lumea reală, cum ar fi un pacient sau un O relație este alcătuită dintr-o asociere
diagnostic descris în cadrul bazei de date; între înregistrările aflate în mai multe tabele
 Atribut – reprezintă caracteristici ce ce au aceleași valori ale atributelor. Relația
descriu aspectele unei entități - de exemplu este mecanismul care permite extragerea
denumirea unui diagnostic; datelor din mai multe tabele simultan. O

55
Informatică Medicală și Biostatistică

relație corect definită asigură integritatea la datelor. Principalele concepte ale modelului
nivel de relație, fapt ce garantează că aceasta relațional sunt:
este solidă şi de încredere.
1. Atributul – este o coloană ce are un
 Modelul relațional clasifică relațiile ca nume unic într-o relație;
fiind de tip: 2. Domeniul – reprezintă setul de valori
 unu la unu (1:1) – când o singură pe care îl poate avea unul sau mai multe
înregistrare din primul tabel este corelată cu atribute;
una singură din al doilea tabel și o singură 3. Tuplu – un rând din cadrul unei relații;
înregistrare din al doilea tabel este corelată 4. Intensia – structura unei relații
cu o singură înregistrare din primul tabel. În împreună cu specificațiile şi constrângerile
acest caz un tabel poartă rolul de “părinte”, de domeniu aplicate;
iar al doilea îndeplinește rolul de “copil”. 5. Extensia – starea relației;
Relația se realizează prin preluarea unei 6. Gradul – numărul de atribute dintr-o
copii a cheii primare a tabelului părinte și relație;
inserarea acesteia în structura tabelului copil, 7. Cardinalitatea – numărul de tupluri
unde devine tot o cheie primară; dintr-o relație;
 unu la mai mulți (1:m) – când o 8. Baza de date relațională – reprezintă o
înregistrare din primul tabel poate fi corelată colecție de relații ce pot fi modificate.
cu una sau mai multe înregistrări din al
Avantajele bazelor de date relaționale
doilea tabel, dar o înregistrare din al doilea
sunt:
tabel poate fi corelată cu o singură
înregistrare din primul tabel. Relația se  Integritate încorporată la mai multe
stabilește prin preluarea unei copii a cheii nivele. Integritatea datelor se face la nivel de
primare a tabelului părinte și încorporarea câmp pentru asigurarea preciziei datelor. La
acesteia în tabelul copil, unde devine o cheie nivel de relație asigură validitatea acestora
externă. Este cea mai des întâlnită relație şi între tabele;
ajută la eliminarea datelor duplicate;  Independența logică şi fizică a datelor
 mai mulți la mai mulți (m:m) – dacă o de programele aplicației software;
înregistrare din primul tabel poate fi corelată  Garantează consistența și precizia
cu una sau mai multe înregistrări din al datelor;
doilea tabel și o înregistrare din al doilea  Extragerea cu ușurință a datelor din
tabel poate fi corelată cu una sau mai multe baza de date.
înregistrări din primul tabel. O astfel de
relație se realizează cu ajutorul unui tabel de
1.4.3. Concepte privind bazele de date
legătură, care ajută la asocierea
înregistrărilor dintr-un tabel cu înregistrările
din celălalt tabel și asigură lipsa oricăror Baza de date relațională este alcătuită
probleme la operațiile de adăugare, ștergere dintr-un ansamblu de tabele (relații) aflate în
sau modificare a dateor corelate. legătură. Pentru a respecta teoria relațională,
Modelul de date relațional utilizează o tabelă nu poate conține dubluri sau mai
tabele bidimensionale ce reprezintă entitățile multe rânduri identice. Pentru a putea
şi constă din rânduri și coloane. Acesta identifica fiecare rând al unei tabele este
folosește o interfață flexibilă accesibilă necesară prezența unui atribut sau grup de
oricărui utilizator indiferent de nivelul atribute – cheie primară. Restricțiile unei
acestuia, oferind o mare independență a cheii primare sunt:

56
Informatică Medicală și Biostatistică

 Chei compuse – sunt formate din mai


multe atribute, din acestea nu se poate
1.4.4. Sisteme de gestiune a bazelor
elimina un atribut parte din cheie, fără a
distruge caracteristica de unicitate a de date
tuplurilor unei tabele;
 Cheie candidat – reprezintă mulțimea
Majoritatea bazelor de date sunt la
de atribute din cadrul unei tabele care pot
început o listă care crește odată cu trecerea
îndeplini condiția de a fi cheie primară;
timpului, astfel apar redundanțele și
 Cheia primară – este una dintre cheile
inconsistențele. O rezolvare a acestor
candidat desemnate în cadrul unui tabel. Se
probleme o reprezintă transferarea datelor
mai întâlnește sub denumirea de cheie
într-o bază de date creată de un sistem de
naturală atunci când atributul face parte din
gestionare a bazelor de date (SGBD).
mulțimea atributelor ce caracterizează
entitatea identificată de cheia primară. Sistemul de gestionare a bazelor de date
Valoarea cheii naturale arată legăturile din este un ansamblu software care tratează
lumea reală care există între aceasta şi cererile de acces ale utilizatorilor la baza de
entitatea identificată. Pentru a fi cheie date. Cu alte cuvinte este o interfață ce
primară aceasta trebuie să îndeplinească ușurează crearea, actualizarea și consultarea
următoarele condiții: unei baze de date.
1. Stabilă – valoarea nu trebuie să se
La momentul actual cea mai mare parte a
modifice pentru a obține un model stabil;
bazelor de date sunt realizate cu SGBD
2. Minimală – trebuie să aibă un număr
relaționale sau orientate obiect, o foarte mică
minim de câmpuri pentru a asigura
parte cu SGBD de tip ierarhic sau rețea și
unicitatea;
câștigă tot mai mult teren cele realizate cu
3. Centrată pe date, nu pe informații – se
SGBD autonome. Trecerea de la o generație
cere evitarea apariția grupărilor de
la alta a urmărit următoarele aspecte:
caracteristici în cadrul unei valori a unei chei
ce păstrează meta informații adiționale;  Păstrarea aspectelor fundamentale
4. Definitivă – acționează ca o care dau conceptul de SGBD;
contrângere și nu permite decât introducerea  Încadrarea unui SGBD într-o
de informații care au valoarea permisă de generație se face în funcție de modelul de
cheia primară; date implementat;
5. Accesibilă – cheia primară este  Îmbunătățirea organizării datelor prin
vizibilă oricărui utilizator ce dorește să implementarea unui model mai performant;
acționeze asupra bazei de date;  Oferirea unor facilități de utlizare tot
 Cheie străină – face trimitere către mai performante;
atributele care creează legătura între  Diversificarea tipurilor de date ce sunt
rândurile unei tabele cu rândurile altei tabele. utilizate.
Cu alte cuvinte cheia străină este atributul
unui tabel definit sub formă de cheie primară
1.4.5. Obiectivele unui SGBD
în alt tabel, acesta are rolul de a defini
legăturile între tabele;
 Cheie alternativă – nu a fost Obiectivul principal al unui SGBD este
desemnată cheie primară dar poate deveni de a oferi un software complet care să ajute
dacă cheia primară aleasă inițial nu mai la dezvoltarea de aplicații informatice ce
corespunde la un moment dat. utilizează bazele de date. Pentru a deveni un

57
Informatică Medicală și Biostatistică

SGBD este nevoie de a se îndeplini un set de Microsoft Access este un SGBD de nivel
obiective, cum ar fi: mediu, acesta este utilizat pe calculatoare ce
au implementat sistemul de operare
 Independența datelor față de programe
Windows. SGBD Access folosește
– orice modificare a modalității de memorare
modelarea relațională a datelor și este
sau a strategiei de acces la date afectează
orientat pe obiecte care au asociate
automat şi aplicația informatică;
evenimente și proprietăți. În cadrul acestuia
 Redundanța minimă și controlată a
se vor separa cât se poate de clar noțiunile de
datelor – stocarea informațiilor în baza de
bază de date și tabelă – mai întâi se va creea
date se va efectua fără a exista duplicate;
baza de date și apoi aceasta va fi populată cu
 Facilități de utilizare a datelor –
tabele şi celelalte obiecte (interogări,
accesul cât mai simplificat al utilizatorilor la
formulare, rapoarte, module, ș.a.).
date în diverse aplicații;
 Protecția datelor – realizată prin Tabelele din baza de date pot gestiona
securitate și integritate. Securitatea înseamnă sute de mii de înregistrări și se poate lucra
că accesul la date este realizat printr-o simultan asupra acestora.
autorizare cu ajutorul parolelor. Integritatea
Pentru acționarea asupra datelor din baza
se referă la corectitudinea datelor care este
de date – adăugare, modificare, ștergere,
asigurată prin protejarea împotriva unor
interogare – Access oferă utilizatorilor trei
incidente intenționate sau neintenționate;
tipuri de limbaje:
 Partajabilitatea datelor – asigură pe
lângă accesul mai multor utilizatori la  QBE (Query By Example) – folosește
aceleași informații și dezvoltarea unor exprimarea grafică a interogării;
aplicații fără a se modifica structura bazei de  SQL (Structured Query Language) –
date; se bazează pe blocul de cerere pentru
 Legăturile între date – SGBD trebuie exprimare;
să definească şi să descrie structura de date,  VBA (Visual Basic for Application) –
precum şi legăturile între acestea, conform pentru elaborarea procedurilor utilizator.
unui model de date;
 Perfomanțele globale – pentru 1.4.6.1. Funcțiile Access
gestionarea unui volum mare de date cu o
complexitate ridicată, într-un timp de acces
util pentru diferiți utilizatori, SGBD  Descrierea datelor – se va descrie
implementează diferite metode de acces, structura tabelelor şi a relațiilor dintre
tehnici de optimizare, tipuri de date. acestea;
 Manipularea datelor – operațiile de
1.4.6. Microsoft Access adăugare, modificare, ștergere și interogare a
datelor;
 Confidentialitatea datelor și lucrul în
Reprezentarea datelor într-o bază de date regim de utilizator – administratorul bazei de
este asemănătoare cu cea a datelor dintr-o date oferă utilizatorilor drepturile de acces;
foaie de calcul tabelar. În timp ce foile de  Importul și exportul de date – se poate
calcul tabelar sunt superioare în ce privește face între baze de date Access cât și între
colecționarea datelor şi posibilitățile de bazele de date Access și aplicațiile Word sau
calcul, o baza de date excelează din punct de Excel;
vedere al organizării și verificării datelor.

58
Informatică Medicală și Biostatistică

 Integritatea datelor – prin introducerea  OLE Object – păstrează datele de la


unor reguli se va evita introducerea de date alte programe (grafic, document, foaie de
eronate. calcul, etc.
Formularul – permite accesul mai ușor la
1.4.6.2. Obiectele Access înregistrări cu ajutorul unei ferestre de
dialog. Acesta poate fi afișat:
 Modul Design – poate schimba
Tabele – au rolul de a păstra date care
prezentarea, proprietățile unui formular sau
privesc un anumit subiect, sunt identificate
se pot modifica controalele din acesta;
cu ajutorul unui nume unic ce nu poate
 Modul Datasheet – afișează tabelele în
depăși 64 de caractere alfanumerice. O
modul clasic;
tabelă Access este alcătuită din două tipuri
 Modul Form – modul normal de
de informații:
afișare.
Structura are informații despre numărul,
Utilitatea formularelor este pentru:
tipul de date și proprietățile câmpurilor, chei
primare, etc. Pentru creearea unei tabele se • Introducere, editare și afișarea datelor;
poate utiliza una din următoarele modalități: • Raportări simple;
 Utilizatorul poate defini structura • Precizarea elementelor de dialog în
tabelei, câmpurilor, tipurile de date, cheile cadrul aplicațiilor.
primare sau încarcarea cu date; Interogare – este definiția datelor ce se
 Prin intermediul Table Wizard – extrag (câmpuri, tabele, criterii de selecție,
asistent pentru tabele – acesta folosește sortare). În ce privește interogarea Microsoft
tabele predefinite pe care utilizatorul le poate Access asigură următoarele posibilități:
adapta nevoilor sale;
 Copierea unui tabel dintr-o altă bază  Selectarea anumitor câmpuri dintr-o
de date; tabelă;
 Importarea din Word, Excel sau alte  Înregistrările trebuie să îndeplinească
SGBD-uri; anumite criterii pentru a putea fi incluse în
 Atașarea unor tabele construite într-o interogare;
altă bază de date Access, în acest caz nu se  Sortarea este făcuta conform
poate modifica structura bazei de date. cerințelor indicate de utilizator;
 Permite combinarea înregistrărilor din
Date acestea pot fi de mai multe tipuri: mai multe tabele și afisează rezultatul într-o
 Text (maxim 255 caractere singură foaie de date;
alfanumerice);  Creează formulare, rapoarte sau alte
 Number; tipuri de interogări.
 Memo – utilizatorul are posibilitatea Raportul – ajută la prezentarea
de a scrie comentarii până la 32000 de informațiilor din baza de date pentru
caractere; următoarele utilizări:
 Date/Time – dată/oră;
 Currency – valoare monetară;  Afișarea unui rezumat al datelor;
 AutoNumber – număr cu  Afișarea tuturor datelor;
incrementare automată;  Realizarea unui raport care să
 Yes/No – valori logice (adrevărat sau folosească rezultatele unei interogări și nu
fals); datele dintr-o tabelă.

59
Informatică Medicală și Biostatistică

Structura unui raport: Pentru importarea sau exportarea datelor


se fac următoarele recomandări:
 Raport Header – zonă rezervată
începutului unui raport;  când nu se cunoaște ce fel de aplicație
 Page Header – zona destinată va folosi utilizatorul pentru a citi datele, baza
începutului de pagină; de date se va exporta în format dBase (.dbf)
 Detail – descrie rândul de detaliu din sau în format delimitat cu virgule (.csv);
cadrul raportului;  dacă se importa un fișier text iar datele
 Page Footer – zona rezervată depășesc 50 de caractere, se va schimba tipul
sfârșitului de pagină; câmpului din Text în Memo, înainte de
 Raport Footer – prezintă sfârșitul efectuarea importului propriu-zis;
raportului.  Microsoft Access face recomandări de
tip numeric pentru date ce sunt de tip text
Exportul și importul de date – se permite
(ex. numere de telefon);
importarea bazei de date dintr-o sursă
 dacă se observă că anumite date nu au
externă sau extragerea de date din Access
fost importate în noul tabel, se recomandă
pentru a se putea utiliza în cadrul unor
analiza tabelului Paste Errors, acesta se
aplicații software. Importul de date se va
creează automat pentru a reține problemele
transforma în formatul corespunzător în
ce pot apărea în timpul procesului;
urma unei analize realizate de program.

60
Informatică Medicală și Biostatistică

1.5. Achiziţia şi des utilizat multiplu al pixelului este 1 Mpx


= megapixel =1 milion pixeli.
prelucrarea imaginilor Rezoluția
medicale Rezoluția imaginii digitale este dată de
numărul de pixeli; cu cât exită mai mulți
pixeli prezenți cu atât imaginea va fi mai
1.5.1. Introducere clară.
Densitatea de pixeli (PPI – pixels per
inch) este dată de numărul total de pixeli pe
Detaliile pe care omul nu le poate o suprafață specificată. Bit depth în imaginea
indentifica cu ochiul liber au dus la apariția digitală definește numărul de biți alocați
domeniului prelucrării și analizei imaginilor. unui pixel.
Înțelegerea procesului de percepție a Bit Mapped Graphics (BMP) – harta
imaginilor cu ajutorul ochiului uman de biți este creată din biți ce au culori diferite
reprezintă o componentă esențială pentru care împreună alcătuiesc imaginea.
dezvoltarea tehnicii de evaluare a calității Formatul inițial al BMP a fost realizat din
unui sistem sau algoritm de procesare a două culori, fiecărui pixel îi este alocat un
imaginilor. bit, care poate fi 0 sau 1 (culoarea albă sau
Prelucrarea imaginilor are la bază o neagră). O imagine compusă din pixeli albi
teorie matematică riguroasă iar și negri este o imagine pe 1 bit. Odată cu
implementarea poate deveni o mare creșterea complexității se vor adăuga mai
consumatoare de resurse, în special dacă multe culori, acest lucru se poate realiza prin
facem trimitere la utilizarea în timp real a înmulțirea numărului de biți. Utilizând 2 biți,
informațiilor extrase din imagini. vom obține 4 culori ce le putem aloca unui
Digitizarea documentelor reprezintă pixel (negru, gri închis, gri deschis și alb).
procesul prin care informația este Pentru mai multe culori se poate crește
transformată în format digital cu ajutorul numărul de biți la 4,8,16 sau 32.
echipamentelor tehnico-digitale. Formate grafice
Imaginea digitală este replica Imaginea digitală este replica
numerică a imaginii optice, aceasta poate fi numerică a imaginii optice, aceasta poate fi
memorată în fișiere sub diferite formate. memorată sub diferite formate în funcție de
Imaginile analogice pot fi transformate în domeniul de utilizare: captură, arhivare,
digitale, acestea vor fi împărțite în elemente prelucrare, imprimare sau publicare pe
infime ca suprafață numite pixeli. Internet. Imaginile se pot împărți două
Frederic Crockett Billingsley este cel care categorii:
a introdus termenul de pixel în anul 1965. 1. Imaginile vectoriale sunt o colecție de
Pixelul (prescurtarea de la picture element) linii și curbe conectate care alcătuiesc
este cea mai mică unitate cu ajutorul căruia obiectele. Creerea unei imagini vector se
putem vizualiza imaginea pe un monitor. realizează prin introducerea de puncte nod și
Caracteristicile de luminozitate și culoare ale linii ce unesc punctele. Avantajul
pixelui împreună cu cele două coordonate elementelor vectoriale este acela de a nu-și
plane vor fi codificate conform mai multor pierde din calitate când sunt mărite sau
sisteme, rezultând un șir de numere care sunt micșorate, de aceea sunt folosite cel mai des
memorate cu ajutorul calculatorului. Pixelul pentru print.
îl vom întîlni sub prescurtarea – px. Cel mai 2. Imaginile matriciale sau hărți de biți –
formatele BMP, JPEG, GIF, etc.

61
Informatică Medicală și Biostatistică

• .BMP – harta de biți (Bitmap) – este vizuală omului aceasta trebuie să aibă
forma brută a unei imagini, fiecare pixel ce anumite caracteristici:
compune imaginea este memorat individual. • Frecvența – trebuie să se încadreze
Acesta este un format foarte bun pentru între limitele sensibilității vizuale ale
procesarea de imagini dar ocupă mult spațiu receptorilor fotosensibili din retină;
pe disc; • Intensitatea – trebuie să depășească
• .GIF – (Graphic Interchange Format) pragul de sensibilitate al acestora.
– oferă o calitate bună și comprimare Senzația de lumină produsă de Soare,
puternică, dezavantajul este memorarea unei stele, lămpi sau becuri cu filamente
palete de numai 256 culori. Cu alte cuvinte incandescente percepută de ochiul uman
utilizarea acestui format este recomandat poartă denumirea de radiație vizibilă.
atunci când imaginea utilizează un număr Cantitatea de lumina emisă de o sursă de
redus de culori sau este de dimensiuni lumină şi percepută de ochiul uman se
reduse; numește flux luminos și se măsoară în lumen
• .JPEG – (Joint Photographic Expert (lm). Cu cât valoarea fluxului luminos este
Group) - poate afișa milioane de culori mai mare cu atât luminozitatea este mai
(limita este de 16 milioane) într-un fișier mare.
foarte comprimat. Acest lucru duce la Intensitatea luminii este o componentă a
pierderea unui număr însemnat de infomații fluxului luminos care cade pe o suprafață ce
din imaginea respectivă; are o anumită dimensiune și depinde de
• DICOM – (Digital Imaging and fluxul luminos al sursei de lumină, de
Communications in Medicine) – standardul unghiul fascicului și distanța dintre suprafața
pentru manipulare, stocare, imprimare și și sursa de lumină.
transmitere de imagini medicale. Fișierul Iluminarea este obținută din fluxul
DICOM conține o imagine dintr-o luminos, 1lm care cade pe o suprafață de
digitalizare medicală (ex. imagini de 1m2. Unitatea de măsură este lux (lx).
computer tomograf) și oferă informații Intensitatea iluminării este dată de distanța
adiționale cum ar fi: date de identificare ale sursei față de zona iluminată și unghiul sau
pacientului, parametrii aparatului care a direcția fasciculelor incidente.
produs imaginea, mărime, dimensiune, Luminanța (strălucirea) este raportul
adâncime, etc. Toate acestea pentru gruparea dintre intensitatea luminii și suprafața
mai multor date și transferarea mai ușor între vizibilă, aceasta se măsoară în candelă pe
dispozitive care accepta formatul DICOM. metru pătrat (cd/m2). Strălucirea unui obiect
este luminanța percepută şi depinde de
luminanța mediului înconjurător obiectului..
1.5.2. Prelucrarea imaginilor O imagine este o suprafață caracterizată
de o anumită culoare care variază în oricare
direcție. Pentru reprezentarea în sistemele
Din perspectiva umană se urmărește ca o numerice nu se poate utiliza mărimea
imagine să aibe un contrast convenabil, o imaginii, de aceea se va apela la forma
claritate cât mai ridicată, muchii bine discretizată a acesteia.
definite, strălucire și culoare. Discretizarea este operația prin care se va
O imagine este rezultatul variației reprezenta o imagine de mărime cu variație
intensității luminii într-un plan continuă sub forma unui ansamblu finit de
bidimensional. Lumina este o radiație esantioane. Trecerea de la domeniul
electromagnetică, iar pentru a crea senzația continuu la domeniul discret se va face prin:

62
Informatică Medicală și Biostatistică

-Eșantionare – procesul de aproximare a 1.Achiziția imaginii – etapă esențială


unei imagini continue cu o matrice; care va condiționa și etapele următoare de
-Cuantizareaoperația de transformare a prelucrare. În cadrul acestei etape se
imaginii într-un set de numere binare. presupune prezența unui senzor de imagine
Discretizarea presupune descompunerea şi a unui convertor. Senzorul de imagine este
imaginilor în microzone, microzonele se vor un element fizic care va înregistra o radiație
identifica cu pixelii imaginii digitale. electromagnetică într-o anumită bandă de
Oricare microzonă va avea o culoare frecvență. Ieșirea senzorului este de obicei o
uniformă. tensiune proporțională cu energia radiației
În cel mai folosit spațiu de culoare, electromagnetice primită de senzor.
fiecare culoare este compusă din trei culori Convertorul este dispozitivul care
primare (roșu – R, verde – G, şi albastru – transformă mărimea electrică furnizată de
B). Combinarea celor trei culori în cantități senzor într-un format numeric. În domeniul
diferite duce la obținerea de culori existente vizibil cel mai des întâlnit senzor este camera
în spectrul vizibil. Pentru reprezentarea de luat vederi.
numerică se va utiliza intensitatea luminoasă 2.Preprocesarea – are ca scop
a celor trei culori primare. Alocarea de 8 biți îmbunătățirea imaginii. În cadrul etapei de
pentru fiecare componentă se pot codifica achiziție a imaginii apar diverse efecte
256 nivele de intensitate, lipsa culorii nedorite ce pot duce la degradarea acesteia:
(negru) se va codifica prin valoarea mișcarea, ieșirea din câmpul vizual,
00000000 binar (00h), iar intensitatea distorsiuni geometrice, focalizare
maximă (alb) prin valoarea 11111111 binar necorespunzătoare. Operațiile care
(FFh). alcătuiesc etapa de preprocesare sunt:
În urma studiilor efectuate în ceea ce Filtrarea – se folosește pentru eliminarea
privește capacitatea de a percepe detaliile, zgomotelor și evidențierea muchiilor. Se
ochiul uman este mai sensibil la intensitatea utilizează trei tipuri de filtre:
luminoasă a unei culori decât la nuanță. O Trece-jos: elimină zgomotele, spectrul
altă modalitate de reprezentare a culorii este imaginii este uniformizat;
YUV – sistemul de codificare color utilizat Trece-bandă: utilizat pentru prelucrarea
pentru televiziunea analogică la nivel imaginilor provenite din teledetecție;
mondial. Spațiul de culoare YUV diferă de Trece-sus: evidențiază contururile
RGB, ceea ce captează camera şi ceea ce văd datorită comportării de derivator.
oamenii. Y în YUV înseamnă intensitatea Restaurarea imaginilor – se utilizează
luminoasă a unei culori, aceasta se mai pentru a corecta erorile ce apar în zonele de
întâlnește sub denumirea de luminanță. U și interes. Corecția se realizează printr-o
V oferă informații despre diferența de operație de reeșantionare – se determină
culoare, acestea poartă denumirea de relații matematice ce vor calcula valoarea
componente de crominantă. fiecărui eșantion (pixel) din noua imagine pe
baza unui număr de eșantioane din imaginea
distorsionată. Operațiile de restaurare cel
1.5.3. Etapele prelucrării imaginii mai des întâlnite sunt:
Corecția distorsiunilor geometrice – se
bazează pe cunoașterea modelului
Există câteva etape care se vor efectua în matematic al distorsiunilor;
cadrul prelucrării imaginilor şi acestea se pot Reducerea zgomotului din imagine.
clasifica în:

63
Informatică Medicală și Biostatistică

Histograma – oferă informații importante caracterizată de un set de parametri ale căror


asupra conținutului imaginii după cum valori nu se modifică în diferitele puncte ce
urmează: aparțin entității considerate. Cel mai simplu
Pentru imagine întunecată valorile mari parametru de definiție este nivelul de gri al
ale histogramei sunt concentrate în zona de pixelului. Obiectivul acestei metode este
intensități mici; acela de a partiționa o imagine dată în regiuni
Pentru imagine luminoasă valorile mari sau componente;
ale histogramei sunt concentrate în zona de  Metode de segmentare orientate pe
intensități mari; contururi – identifică existența unui contur
Când în imagine apar două obiecte cu în cadrul unei imagini. Operatorii de contur
intensități diferite sau un obiect care se din cadrul unei imagini sunt uniți de faptul
distinge clar de fond, histograma prezintă că ei determină modulul și uneori direcția
vârfuri de maxim local, respectiv minim schimbării intensității nivelului de gri într-o
local. imagine digitală. Modul furnizat de acești
În cazul unei iluminări slabe, neuniforme operatori caracterizează severitatea
sau situată la valori în jurul pragului de schimbării nivelului de gri de la o vecinătate
sensibilitate a senzorului, pot rezulta imagini la alta a imaginii;
cu contrast scăzut, imagini pentru care  Metoda pragului – implementează o
pixelii nu iau valori în întreaga gamă de transformare punctuală simplă. Datorită
nivele de gri. Pentru a corecta aceste defecte diferențelor semnificative între nivelurile de
se folosesc de regulă: egalizarea histogramei gri ale pixelilor aferenți obiectului şi
sau extinderea liniară la întreaga gamă de respectiv fondului, criteriul de segmentare
niveluri de gri. Astfel unui pixel din noua care poate fi utilizat este valoarea nivelului
imagine i se atribuie o valoare de gri de gri. Se vor obține rezultate bune în funcție
calculată pe baza unei funcții ce se determină de alegerea pragului, acesta poate fi o
pe baza imaginii inițiale. După aplicare valoare pentru o imagine dată sau o funcție
imaginea va avea un contrast mult mai bun netedă dependentă de poziția pixelului
decât imaginea inițială deoarece intensitățile curent.
din imaginea inițială sunt scalate astfel încât
să fie relativ uniform distribuite în imagine. 1.5.4. Caracteristici globale pentru
Egalizarea histogramei tinde să amplifice pixelii dintr-o imagine
zgomotul.
3.Segmentarea – imaginea se va împărți
în zone de interes respectând anumite 1. Histograma – este un grafic ce
criterii. Fiecare pixel va avea o valoare de 0 prezintă numărul de pixeli dintr-o imagine
sau 1, reprezentând apartenența acestuia la o care au o anumită luminozitate și
anumită zonă de interes. Segmentarea cartografiază numerele în grafic. Scala
urmărește extragerea, identificarea sau luminozității este prezentată de-a lungul axie
recunoașterea unui anumit obiect dintr-o orizontale x și variază de la 0 la 255. 0 din
imagine. Zonele care alcătuiesc o imagine partea stângă este reprezentat negru pur şi
poartă numele de segmente. Metodele de 255 de casete la dreapta ne arată albul pur.
segmentare a imaginilor se pot clasifica în: Axa verticala y reprezintă numărul de pixeli
 Metode de segmentare orientate pe într-un anumit ton, cu cât bara verticală este
regiuni – urmărește extragerea din imagine a mai înaltă, cu atât avem mai mulți pixeli într-
zonelor ocupate de diversele obiecte un anumit ton. O imagine cu expunere
prezentate în scenă. Un obiect este o entitate echilibrată va avea un grafic ce conține

64
Informatică Medicală și Biostatistică

vârfuri şi depresiuni, dar intervalul tonal va operatorilor se poate realiza detecția


indica în continuare o distribuție a valorilor frontierelor în imagini. Clasificarea
pixelilor în aproximativ întregul interval de detectorilor de contur poate simplifica mult
luminozitate de la 0 la 255. În cazul când procesarea de imagini în vederea artificială,
graficul este mai ascuțit la stânga prin asocierea regulilor de procesare pentru
histogramei (negru) sau la dreapta (alb) fiecare tip de muchie.
înseamnă că există secțiuni fără detalii. În funcție de aceste tipuri de muchii și
Histograma ideală se întinde în mod ținând cont de operatorii care pot fi utilizați,
armonios din zona umbrelor (stânga) până în putem clasifica astfel:
zona luminoasă (dreapta), nu va avea goluri  Detectori care folosesc operatori de
prea mari, dar neapărat va avea elemente gradient;
distribuite şi la capetele graficului.  Detectori laplacieni Zero Crossing;
2. Strălucirea şi contrastul –  Laplacianul Gausianului;
luminozitatea face trimitere la cât de  Detectori gausieni;
luminoasă sau obscură este o imagine,  Detectori color.
contrastul se definește ca fiind diferența de Problemele care pot apărea în extragerea
luminozitate între obiecte. Când conturilor:
luminozitatea este prea mare, cei mai albi  Modificarea condițiilor de iluminare
pixeli sunt saturați distrugând detaliile în  Modificarea fundalului;
aceste zone, reversul este când luminozitatea  Luminanța şi caracteristicile
este setată prea jos, saturând cei mai negri geometrice;
pixeli.  Nedetectarea anumitor muchii
3. Culorile RGB – are la bază emisia de  Detecția falsă a muchiilor
lumină roșie, verde și albastră (Red,  Schimbarea poziției muchiei detectată
Green,Blue). Prin combinarea acestor culori de la adevărata locație.
se obține albul, iar pe aces principiu se
bazează sistemele de afișare cum ar fi
1.5.5. Procesări ale imaginii
monitoarele sau televizoarele. Când lumina
albă lovește un obiect, el blochează selectiv
câteva culori şi reflectă restul care au mai 1. Zoom-ul
rămas. Culorile reflectate oferă senzația de Un zoom optic folosește un set de lentile
culoare. În modelul RGB pe 24 biți există care se mișcă pentru a crește sau a micșora
256 de variații ale fiecăreia dintre culorile factorul de mărire al ansamblului lentilei.
aditive primare roșu, albastru şi verde. Acesta este un sistem voluminos și complex
4. Detecția de contururi – este una din dar cu rezultate bune, deoarece este într-
cele mai utilizate operații în domeniul adevăr doar o lupă.
analizei imaginilor şi în același timp una din Zoom-urile optice au nevoie de multe
problemele fundamentale în acest domeniu. lentile care se mișcă pentru a corecta
Un contur este definit ca fiind totalitatea problemele cauzate atunci când lumina este
pixelilor în care există discontinuități trecută printr-un obiectiv.
abrupte de nivele de gri. Detecția muchiilor Un zoom digital funcționează printr-
este o problemă fundamentală în prelucrarea un proces pur electronic – preluarea unei
imaginilor, deoarece permite extragerea singure imagini formate dintr-un obiectiv
informației de bază dintr-o imagine, standard şi mărirea elementelor de pixel în
necesară mai departe în analiza şi înțelegerea timp ce taie marginile.
computerizată a acesteia. Cu ajutorul

65
Informatică Medicală și Biostatistică

2. Filtrarea imaginilor Filtrul minim este utilizat pentru a


Filtrarea reprezintă o operație de elimina zgomotul de tip sare.
vecinătate, prin aceasta se înțele că la Aplicarea filtrului maxim rezultă o
calculul noii valori a unui pixel vor contribui imagine din care s-a îndepărtat componenta
și valorile pixelilor vecini, nu doar vechea lui zgomot de tip piper.
valoare. 3. Îmbunătățirea contrastului
Filtrele de netezire sunt echivalentele Contrastul unei imagini reprezintă
bidimensionale ale filtrelor trece-jos și sunt diferența dintre strălucirea maximă şi cea
utilizate pentru eliminarea zgomotului, care minimă a pixelilor dintr-o imagine digitală.
se presupune că este de bandă largă. O imagine de contrast scăzut prezintă în
Informația conținută într-o imagine se general o variație mică de strălucire în
regăsește în componentele de joasă majoritatea regiunilor sale spațiale. Prin
frecvență, de aceea este propusă o filtrare modificarea contrastului unei imagini se
trece-jos pentru a reduce puterea urmărește modificarea caracteristicilor
zgomotului. Pentru un filtru trece-jos se acesteia astfel încât noua imagine să fie mai
recomandă respectarea condiției: clară pentru privitor sau să poată fi procesată
componenta continuă a imaginii să nu fie mai ușor în diferite scopuri.
alterată de filtru, adică filtrul să conserve 4. Zgomotul
luminozitatea medie a imaginii. Zgomotul este un semnal aleator, care
Filtrul de mediere este cel mai simplu afectează informația dintr-o imagine. El
filtru de netezire. Caracteristic unui filtru de poate apărea în timpul transmiterii, codării
mediere este faptul ca toți coeficienții măștii sau decodării unei imagini şi reprezintă un
de filtrare sunt egali. element perturbator nedorit. Cele mai
Filtrarea de mediere este deranjantă frecvente tipuri de zgomote sunt: sare şi
pentru imagine în acele zone în care conține piper, zgomot gaussian, zgomot tip speckle
frecvențe înalte, pentru că duce la apariția sau impuls și zgomot periodic.
fenomenului de încețoșare. În modelul de zgomot de tip sare şi
Filtrele trece-sus urmăresc eliminarea piper există doar două valori posibile şi
componentelor de frecvență joasă din probabilitatea de apariție a fiecăruia este mai
imagine. Se utilizează pentru detectarea mică de 0.1 ( la valori mai mari, zgomotul va
frontierelor sau contururilor din imagine, domina imaginea). Apariția acestui zgomot
acolo unde au loc treceri sau variații bruște se datorează funcționării necorespunzătoare
ale luminanței. a celulelor din senzorii camerelor sau de
Filtrul de accentuare nu este un filtru greșeli ale locațiilor de memorie sau de erori
trece-sus, dar folosește această filtrare de sincronizare în procesul de digitizare.
pentru a realiza accentuarea. Prin accentuare Zgomotul gaussian este un zgomot cu
se înțelege contrastarea imaginii și are funcția densității de probabilitate ce are o
scopul de a îmbunătății perceperea vizuală a formă gaussiană. Acesta este utilizat pentru
contururilor obiectelor. modelarea proceselor naturale care introduc
Filtrul median este potrivit pentru zgomote.
eliminarea zgmotului de tip sare şi piper. Eliminarea zgomotelor se poate
După ordonarea valorilor pixelilor, valorile realiza cu ajutorul filtrelor spațiale:
zgmotului se vr situa pe primele, respectiv  Filtre ordonate (neliniare) – se
ultimele poziții în mulțime, astfel la ieșirea bazează pe un tip specific de statistică a
filtrului vom avea o valoare diferită de imaginilor numită statistică ordonată. Aceste
valorile zgomotului. filtre operează tot pe ferestre mici și

66
Informatică Medicală și Biostatistică

înlocuiesc valoarea pixelului central. principală este transductorul (sonda) care


Statistica ordonată este o tehnică care emite ultrasunete şi primește ecourile
aranjează toți pixelii într-o ordine returnate de țesuturile şi organele prin care
secvențială, bazată pe valoarea nivelurilor de au trecut. Imaginile ecografice se obțin în
gri. timp real și este posibil să se vizualizeze
 Filtru median – selectează valoarea de structura și mișcarea organelor interne.
mijloc a unui pixel dintr-o mulțime ordonată Principiul de funționare este asemănător
și îl înlocuiește în poziția corespunzătoare unui aparat radar – un puls de ultrasunere cu
din imaginea destinație; frecvența de 1 -15MHz este trimis de la
 Filtrul de maxim – selectează cea mai nivelul transductorului, acesta este reflectat
mare valoare dintr-o fereastră ordonată de la contactul cu maginile țesutului investigat
valori ale pixelilor. Acest filtru poate fi sub formă de ecouri. Măsurarea timpului
folosit pentru eliminarea zgomotului de tip care trece până la reîntoarcerea
piper. Aplicat asupra unei imagini cu zgomot ultrasunetelor permite calcularea distanței
de tip sare şi piper amplifică zgomotul de tip până la granița de țesut la care are loc
sare. reflectarea undei incidente. Progresele
 Filtrul de minim – selectează cea mai tehnologice au permis dezvoltarea ecografiei
mică valoare dintr-o fereastră ordonată de 3D în care reflexia ultrasunetelor este
valori ale pixelilor. Acest filtru poate fi vizualizată trimidimensional. Ecografia 4D
folosit pentru eliminarea zgomotelor de tip reprezintă vizualizarea unei imagini 3D în
sare, dar aplicat pentru imagini cu zgomot de mișcare. Cu ajutorul ecografiei putem
tip sare şi piper amplifică zgomotul de tip vizualiza: orbita şi globul ocular, vasele mari
piper. ale gâtului, tiroida şi glandele paratiroide,
 Filtre liniare – aceste filtre se aplică cordul, organele abdominale, organele
prin operația de convoluție cu un nucleu de pelvine, sarcina normală şi patologică, etc.
filtru de tip trece jos. Cu ajutorul ecografiei se pot ghida
procedurile intervenționale cum ar fi:
obținerea unei probe de țesut pentru analiza
1.5.6. Domenii de utilizare
anatomo-patologică, evacuarea unor colecții
fluide de tipul chisturilor sau abceselor.
- Laparoscopia – este o procedură
În momentul când are loc analizarea stării
de sănătate a unui pacient, în majoritatea chirurgicală. Cu ajutorul unui tub subțire şi
luminat numit laparoscop care este introdus
ramurilor medicale, un rol deosebit de
important îl au imaginile zonelor investigate. în abdomen printr-o mică incizie se pot
examina organele abdominale sau genitale
Astfel se pot evidenția leziuni și nereguli
interne, se poate obține diagnosticul unor
care nu sunt depistate prin alte metode
(analiza simptomelor sau a testelor de afecțiuni precum chisturile, fibroamele și
infecțiile. Laparoscopia elimină necesitatea
laborator). Cele mai utilizate tehnici de
obținere a imaginilor medicale sunt: unei operații extensive care ar necesita o
incizie mare a abdomenului și implică riscuri
- Ultrasonografia (ecografia) – metoda
mai mici.
prin care sunt vizualizate diferitele organe şi
țesuturi ale corpului uman cu ajutorul - Rezonanța magnetică nucleară
(RMN) – folosește magnetismul, undele
ultrasunetelor. Prezintă avantajul că nu are
contraindicații, deoarece razele sunt din radio și un computer. Transpune în imagini
structurile organismului. Scanerul RMN este
punct de vedere fizic sunete cu frecvență atât
un tub foarte mare înconjurat pe interior de
de înaltă încât nu pot fi auzite. Piesa
67
Informatică Medicală și Biostatistică

un magnet circular gigantic. Se creează un Funcționarea tomografiei computerizată


câmp magnetic puternic cu capacitatea de a se bazează pe două principii:
alinia protonii din atomii de hidrogen. După • Măsurarea atenuării unui fascicul de
aliniere aceștia vor fi expuși undelor radio, raze X ce traversează un corp și calculul
care rotesc diverși protoni din organism, coeficientului său de atenuare, deci a
situație ce duce la formarea unui semnal densității sale radiologice;
captat de unul dintre capetele RMN-ului • Reconstrucția imaginii unui obiect
prevăzut cu un receptor. De la receptor plecând de la proiecțiile sale diferite, practic
informațiile ajung la nivelul computerului realizând o reproducere bidimensională a
unde sunt procesate şi transpuse în imagini. realității tridimensionale.
Imaginea și rezoluția transmise de scannerul Planul de secțiune este pentru majoritatea
RMN sunt destul de detaliate încât să structurilor investigate cel transversal sau
permintă depistarea celor mai mici schimbări axial. Pentru fiecare secțiune tubul de raze X
din structura organismului. Utilizarea RMN se rotește în jurul bolnavului, detectorii al
– ului se face pentru: diagnosticarea căror rol este de a recepta energia folonică ce
traumatismelor cranio-cerebrale, tumori, a traversat corpul uman și de a o transforma
evaluarea integrității coloanei vertebrale, în energie luminoasă, pe care ulterior o
etc. fotodiodă o transformă în semnale electrice.
- Tomografia computerizată (CT) – se Aceste semnale sunt apoi difitalizate și
realizează îmbinând tehnicile digitale și transmise unui procesor de imagini, ce
dispozitive de radiații X. Se obține un număr reconstruiește imaginea pe baza unui număr
de imagini ce reprezintă secțiuni ale mare de măsurători. Aparatele CT noi au
diferitelor părți din corpul uman. sisteme informatice mai rapide şi un
software care poate procesa nu numai
secțiunile transversale individuale, dar şi pe
cele în continuă schimbare.

68
Informatică Medicală și Biostatistică

1.6. Achiziţia şi
prelucrarea semnalelor
biologice Figura 1.6.1.1. Comunicaţia telefonică
În investigaţia medicală modernă, atât
Curentul variabil prin circuitul telefonic
medicul cât şi pacientul simt o "presiune"
este purtătorul de informaţie, variaţiile sale
crescândă generată de cantitatea de măsurări
trebuind să urmărească cât mai fidel sunetul
diverse la care este supus pacientul. Această
produs în faţa microfonului. Variația
presiune este simţită la fel de către
curentului electric variabil din circuitul
specialiştii care produc această aparatură,
microfonic este un semnal continuu, adică
motivul fiind simplu, iar cursa fără
fără întreruperi.
întoarcere: medicina devine tot mai exactă,
altfel spus, din cele două componente, Putem privi circuitul electric de mai sus
calitativă şi cantitativă, care în actul medical ca pe un ansamblu funcţional cu o intrare
se combină în beneficiul direct al fiinţei, a (microfonul) şi o ieşire (casca), rolul său
doua capătă o pondere din ce în ce mai mare, fiind transmiterea sunetului la distanţă; astfel
pentru că numai aşa calitatea actului medical îl definim ca sistem. Ce face deci acest
poate fi superioară. sistem? Transformă informaţia (sunetul) de
la intrare într-o formă convenabilă (curent
Toate aceste investigaţii sunt atât de
electric variabil, v. Figura 1.6.1.2) pentru a o
complexe încât nu mai pot fi realizate decât
transmite la distanţă. Ieşirea este dependentă
asistate de un instrument: calculatorul, care
de răspunsul sistemului, adică de fapt de
este prezent într-o formă sau alta în toată
comportarea acestuia. Dacă reproducerea
aparatura modernă, procesul esenţial fiind
sunetului este perfectă, atunci sistemul este
preluarea unor informaţii, prelucrarea lor şi
liniar. Corect spus, faptul că sistemul este
generarea unor rezultate şi decizii (Tărâţă,
liniar determină reproducerea perfectă a
2010).
sunetului. Prin urmare un sistem liniar este
sistemul care nu introduce distorsiuni.
1.6.1. Conceptul de semnal

Pentru a înțelege cum funcționează


aparatura medicală modernă este important Figura 1.6.1.2. Curentul variabil
conceptul de semnal, pe care îl fundamentăm corespunzând sunetului
prin exemple simple.
Sunetul pe care îl auzim este mai complex
În cazul comunicaţiei telefonice, sursa de decât credeam, are două componente:
informaţie este omul care vorbeşte în faţa semnalul util şi zgomotul. Zgomotul este şi
unui microfon; microfonul transformă el un semnal, dar un semnal nedorit.
sunetul în variaţii ale curentului electric
Ideal, nici una din componente nu trebuie
printr-un circuit electric ce cuprinde o
să fie afectată de prezenţa celeilalte, ceea ce
baterie, microfonul şi casca, iar acest curent
înseamnă că în acest caz cele două semnale
electric variabil trecând prin bobina căştii
coexistă, dar pot fi separate unul de celălalt,
receptoare va reface sunetul, care este auzit
extrăgând astfel semnalul util din semnalul
de persoana corespondentă (Figura 1.6.1.1).
complex prin eliminarea zgomotului.

69
Informatică Medicală și Biostatistică

În cele de mai sus, am definit astfel o


proprietate remarcabilă a sistemelor:
liniaritatea. În realitate lucrurile nu sunt atât
de simple. În primul rând, liniaritatea este o
situaţie ideală, deoarece sistemele reale au o Figura 1.6.1.4. Semnalul rezultat în urma
funcţionare în general neliniară, iar în al filtrării
doilea rând chiar în situaţia unei liniarităţi
În cazul în care zgomotul are componente
perfecte, este posibil ca zgomotul să aibă
de frecvenţă comparabilă cu a semnalului
componente de frecvenţe comparabile cu ale
util, atenuarea zgomotului implică şi
semnalului util. Ori, dacă semnalul util este
alterarea componentelor utile, cu excepţia
cunoscut, în sensul că el poate fi generat din
unor situaţii în care zgomotul poate fi estimat
nou de către sursa de semnal, deci spunem
destul de corect, dar deja cu această idee
despre el că este deterministic, zgomotul
intrăm în domeniul sistemelor adaptive.
apare întâmplător, este un semnal aleator, a
cărui evoluţie nu poate fi prevăzută.
Revenind la exemplul nostru, în cazul în
care sistemul este liniar şi zgomotul
(fâşâitul) are frecvenţe net mai mari decât ale Figura 1.6.1.5. Reprezentarea simbolică a
semnalului (micile oscilații în Figura sistemului de transmitere telefonică
1.6.1.3), caz în general adevărat, atunci Putem reprezenta sistemul analizat şi
eliminarea zgomotului sau cel puţin simbolic sub formă sistemică (Figura
micşorarea sa semnificativă, numită 1.6.1.5). În situaţia în care semnalul generat
atenuare, este relativ comodă. de microfon este prea mic pentru a fi
transmis direct, el trebuie mărit, amplificat.
În Figura 1.6.1.6 vedem cele două
componente discutate, amplificator și filtru,
adăugate sistemului inițial.

Figura 1.6.1.3. Semnalul complex rezultat


prin suprapunerea zgomotului

Figura 1.6.1.6. Sistemul complex, cu


Această operaţie în urma căreia rezultă un amplificator şi filtru
semnal mai curat, se numeşte filtrare, iar
procedura prin care se realizează ea, se
numește filtru. Figura 1.6.1.2 prezintă o Pentru a nu rămâne cu ideea că semnalele
porţiune dintr-un semnal (sunet), iar Figura reale sunt toate continue, este acum
1.6.1.3 semnalul complex rezultat în urma momentul să analizăm un alt exemplu,
suprapunerii zgomotului microfonului peste anume evoluţia cursului zilnic al unei
semnalul util, aşa cum va fi el reprodus de monede în şapte zile consecutive. Acest
cască. În fine Figura 1.6.1.4 arată semnalul semnal, reprezentat în Figura 1.6.1.7, nu mai
rezultat în urma filtrării; trebuie remarcată este continuu, luând valori discrete,
îmbunătăţirea majoră realizată prin filtrare, intervalul de timp între momentele
comparativ cu semnalul infestat cu zgomot. consecutive fiind în exemplul nostru, o zi.
Microcalculatorul este un sistem discret, la a
cărui intrare este prezent un semnal discret

70
Informatică Medicală și Biostatistică

(cursul monedei în 7 zile consecutive). La Eşantionarea înseamnă pierdere de


ieşire furnizează predicţia pentru informaţie, deoarece porţiunile din semnal
următoarele trei zile, de asemeanea un între punctele marcate nu mai sunt vizibile:
semnal discret. s-au pierdut. Problema care se pune este dacă
şi în ce măsură, semnalul original mai poate
fi refăcut în urma procesului de eşantionare,
în situația în care nu știm ce valoare a avut el
între momentele de eșantionare.
Figura 1.6.1.7. Semnale discrete
Fiecare eşantion are asociată o anumite
Ansamblul valorilor de intrare constituie valoare numerică, reprezentând mărimea
semnalul de intrare pentru un sistem de la semnalului (Figura 1.6.2.2), aşa încât
care solicităm de exemplu predicţia cursului semnalul inițial este eşantionat (discretizat)
pentru următoarele trei zile. Acest sistem atât în timp cât şi în amplitudine.
poate fi un calculator, care însă pentru a
realiza predicţia are nevoie de un program,
care determină efectuarea unor operaţii
logice după un set de reguli specifice, care
constituie un algoritm.

Figura 1.6.2.2. Valorile primelor 8


1.6.2. Eşantionare în timp şi eşantioane successive din Figura 1.6.2.1
amplitudine
Iată ce devine semnalul prin eșantionare:
o succesiune de numere – poziţia numărului
Dacă privim Figura 1.6.1.2 care în şir înseamnă momentul de timp în care
reprezintă semnalul generat de microfon în semnalul a avut acea valoare – deoarece
evoluţia sa continuă, ceea ce înseamnă că în timpul între eşantioane succesive este
orice moment de timp semnalul are o constant în acest exemplu - iar valoarea în
anumită valoare, înțelegem că, oricât de mic sine, mărimea semnalului în acel moment.
ar fi intervalul de timp între momente Ştiind aceste două elemente: perioada de
consecutive, semnalul există (are o anumită eşantionare şi respectiv mărimea
valoare). Comparând situația aceasta cu eşantioanelor succesive, semnalul va putea fi
Figura 1.6.2.1, ne dăm seama că este vorba oricând reconstruit, în aproximația dată de
despre acelaşi semnal, cu deosebirea că în eșantioanele existente.
Figura 1.6.2.1 semnalul este marcat numai în
anumite momente, deci de data aceasta este
un semnal discret, provenit din semnalul
initial, care era continuu. Spunem că am
eşantionat semnalul în timp. Figura 1.6.2.3. Semnalul eşantionat de două
ori mai rar decât în Figura 1.6.2.1

Figura 1.6.2.1. Semnal eşantionat în timp şi


amplitudine Figura 1.6.2.4. Semnalul eşantionat de patru
ori mai rar decât în Figura 1.6.2.1

71
Informatică Medicală și Biostatistică

Constatăm din analiza figurilor 6.2.3 şi 1.6.2.1 Aliasing


6.2.4 că semnalul este din ce în ce mai greu
de recunoscut şi deci de reconstruit, pe
Eșantionăm sinusoida de frecvenţă 1 Hz
măsură ce perioada de eşantionare creşte,
cu o frecvenţă de 4 Hz, deci patru perioade
deci cu cât eşantionarea devine mai rară,
de eşantionare pe ciclu. În Figura 1.6.2.1.1 se
deoarece vom avea la dispoziție din ce în ce
observă clar ambiguitatea între eşantioanele
mai puține valori reale.
acestui semnal şi respectiv ale unui alt
Ne gândim că există o anumită frecvenţă semnal sinusoidal de frecvenţă 1+4=5 Hz,
de eşantionare sub care semnalul nu mai aşa cum se vede în figură, în sensul că ele au
poate fi reconstruit, deoarece există prea eșantioane comune.
puţină informaţie pentru a mai reface
semnalul. Pentru a lămuri acest aspect este
util să considerăm ca exemplu un semnal
simplu, şi anume semnalul sinusoidal
(Figura 1.6.2.5). Figura 1.6.2.1.1. Ambiguitate în cazul
sinusoidelor eşantionate
Altfel spus, date fiind eşantioanele
marcate în figură, pe care din cele două
semnale este corect să-l reconstruim? Care a
Figura 1.6.2.5. Semnal sinusoidal fost originalul? Care din ele a fost semnalul
real, eşantionat? Din cele două semnale este
vreunul fals?
Putem vorbi despre acest semnal ca
despre un proces continuu sinusoidal.
Perioada sinusoidei din Figura 1.6.2.6 este 1
secundă; acest semnal este produs prin
eşantionarea cu o perioadă T a semnalului
original, continuu. Figura 1.6.2.1.2. Ambiguitate în cazul
sinusoidelor eşantionate
Noi ştim că am eşantionat cu o frecvenţă
de 4 Hz un semnal de 1 Hz, dar constatăm că
eşantioanele astfel obţinute şi marcate în
figură sunt aceleaşi cu a fi eşantionat cu
Figura 1.6.2.6. Sinusoida discretă, aceeaşi frecvenţă de 4 Hz un alt semnal, cu
obţinută prin eşantionarea unei sinusoide frecvenţa de 5 Hz. Dacă dispunem numai de
continue cu o perioadă de eşantionare 1s eşantioanele obţinute, întrebarea este: care
este semnalul adevărat, cel de 1 Hz, sau cel
de 5 Hz?
De data aceasta T=1/13 s fiind perioada
de eşantionare (se vede în figură că într-o După cum se vede este imposibil să
perioadă a semnalului sunt 13 perioade de decidem pe care din cele trei sinusoide le
eşantionare), sinusoida devine un şir de reprezintă eşantioanele marcate, aşa încât
valori numerice, deci un semnal discret. identitatea semnalului original s-a pierdut.
Fenomenul acesta se numeste "aliasing",
tocmai din acest motiv (rădăcina acestui

72
Informatică Medicală și Biostatistică

cuvânt este cuvântul latin alias= în alt timp  domeniul de intrare;


sau loc, în alte circumstanțe).  rezoluţia de cuantificare - dată de
obicei în bit (8, 10, 12, ...) şi care indică
Este suficient să eliminăm din semnalul
fineţea eşantionării în amplitudine;
original, prin filtrare prealabilă achiziţiei
 timpul de conversie - care reprezintă
orice componentă parazită posibilă de
timpul necesar convertorului pentru a
frecvenţă mai mare ca o frecvență superioară
genera valoarea numerică corespunzând
fsup, pentru a garanta că valorile obţinute
mărimii reale a semnalului în momentul
prin eşantionare reprezintă semnalul corect. eşantionării.
Deci o condiţie obligatorie este ca
frecvenţa de eşantionare fs să fie mai mare ca
fsup. Pentru ca frecvenţele alias să fie Figura 1.6.2.2.1. Structura unui sistem de
superioare lui fsup, frecvenţa de eşantionare achiziţie de semnale
trebuie să fie cel puţin dublul frecvenţei fsup. Convertoarele analog/numerice sunt
Acest rezultat este cunoscut ca teorema componente indispensabile sistemelor de
eşantionării, cele de mai sus nefiind o achiziţie de date. Figura 1.6.2.2.1 arată
demonstraţie, ci mai degrabă o justificare structura unui astfel de sistem (Tărâţă,
utilă. 1999); se vede că semnalul s este amplificat
de un amplificator A, apoi transmis unui bloc
Dacă eşantionarea semnalelor nu numai de eşantionare şi ţinere S&H (Sample and
că înseamnă o pierdere de informaţie faţă de Hold) cu rol de a păstra constant semnalul la
semnalul original, dar pune şi atâtea intrarea convertorului analog/numeric CAN
probleme, atunci de este necesară? în timpul conversiei. S&H este de fapt o
Răspunsul este simplu: deoarece memorie analogică. Interfaţa I asigură
calculatorul numeric nu prelucrează decât dialogul cu calculatorul C. La intrarea
informaţie discretă, iar pentru a-l putea folosi amplificatorului este necesar un filtru anti-
la prelucrarea semnalelor, acestea trebuiesc alias, pentru eliminarea componentelor alias,
furnizate discret. Deci semnalele continue discutate mai sus.
trebuiesc amplificated, eşantionate şi
convertite numeric pentru a putea fi
achiziţionate şi prelucrate. 1.6.3. Semnale biomedicale

1.6.2.2. Structuri de achiziţie a Având clar acum conceptul de semnal,


semnalelor putem gândi semnalele biomedicale ca pe o
nouă clasă de semnale specifice, prelucrarea
Eşantionarea semnalelor şi asocierea lor referindu-se la prelucrarea valorilor
fiecărui eşantion a valorii sale numerice, numerice ale eșantioanelor cu ajutorul unui
constituie conversia analog/numerică, iar calculator. Prelucrarea semnalelor
elementul care face acest lucru este biomedicale reprezintă acum un domeniu
convertorul analog/numeric (CAN). distinct, cu particularităţile sale, date de fapt
de particularităţile semnalelor. În sensul că
Acum, convertoarele analog/numerice un semnal biomedical, ca martor al
sunt componente electronice integrate, funcţionării sistemului, este continuu atâta
performanţa lor fiind definită prin câţiva timp cât sistemul din care provine este viu,
parametri importanţi:
73
Informatică Medicală și Biostatistică

atunci semnalele biomedicale sunt continue diferenţele de potenţial preluate de pe piele,


în evoluţia lor (v. ca exemplu Figura 1.6.3.1). constituind astfel electroencefalograma,
electrocardiograma sau electromiograma
după locul din care sunt preluate şi după
fenomenul pe care îl evidenţiază.
Figurile 1.6.3.1, 1.6.3.2, 1.6.3.3,1.6.3.4
Figura 1.6.3.1. Electrocardiograma de
sunt exemplificări de semnale biologice
iepure
continue. După cum se vede semnalele
Ele pot fi preluate: biomedicale au o mare varietate de forme,
 prin intermediul unor traductoare, după fenomenul pe care-l reprezintă.
dacă nu sunt de natură electrică (de exemplu
fluxul respirator, presiunea sângelui, etc.).
Traductoarele sunt dispozitive care
transformă (convertesc) o mărime fizică într-
o alta (de exemplu preluarea fluxului
respirator se face prin intermediul unui Figura 1.6.3.4. Electromiograma globală
traductor de flux) cu scopul de a obţine în (M. Biceps Brachii)
final un semnal electric care poate fi Observăm că electrocardiograma (ECG)
achiziţionat şi prelucrat; (Figura 1.6.3.1) are o anumită periodicitate,
 direct, atunci când ele există într-o chiar dacă forma semnalului nu este regulată
formă continuă la sursă (ţesutul biologic) ca ca în cazul sinusoidei. Acest complex mare
semnale bioelectrice – de natură electrică care caracterizează un ciclu cardiac se
(v. Figura 1.6.3.2). repetă, deoarece după încheierea unui ciclu
de pompare, inima începe un nou ciclu.
Electromiograma (Figura 1.6.3.2, 1.6.3.4)
arată mult mai dezordonată, deoarece ea
reprezintă sumarea potenţialelor de acţiune
Figura 1.6.3.2. Electromiograma unitară care se dezvoltă pe fibrele musculare,
umană (înregistrare intramusculară respectiv în unităţile motorii care sunt
cu electrod coaxial, muşchiul Biceps inervate cvasialeator. Electromiograma
Brachii) spontană (Figura 1.6.3.3) constituie o
excepţie, potenţialele de acţiune având aici
un grad mare de regularitate (Tărâţă, 1996a,
b, 1998).

1.6.4. Metode de analiză în domeniul


timp
Figura 1.6.3.3. Descărcări electromiografice
spontane (M. Interosseus Dorsalis) – Tărâţă, Sunt patru clase majore de prelucrare a
1996a, b, 1998 semnalelor:
Exemple imediate sunt diferenţele de  prelucrarea în domeniul timp
potenţial de pe membranele excitabile ale  prelucrarea în domeniul frecvenţă
neuronilor, nervilor sau muşchilor,

74
Informatică Medicală și Biostatistică

 prelucrare în domeniul timp/frecvenţă Să ne amintim, ce sunt valorile


 prelucrare în timp/spațiu echidistante? Nimic altceva decât
(Tărâţă,2004) eşantioanele semnalului; prin urmare şirul de
valori x(i) este chiar semnalul în formă
În capitolul de față ne ocupăm de primele
numerică.
trei. Domeniul timp este firesc pentru noi,
pentru că avem percepţia timpului de mici Pătratul deviaţiei standard, s2, se numeste
copii, ştim că totul în jur evoluează în timp. varianţa procesului. Deviaţia standard
Vom arăta că putem vedea aceeaşi realitate (rădăcina pătrată a varianţei), şi respectiv
şi într-un alt domeniu conex, numit domeniul varianţa, sunt calculate cu numitor N-1, nu
frecvenţă. N, deoarece şirul abaterilor faţă de medie are
Deocamdată ne ocupăm de domeniul N-1 grade de libertate şi nu N.
timp. După cum se vede în figurile Trebuie să observăm acum că dacă
precedente, 6.3.1 – 6.3.4, mai ales în Figura deviaţia standard se referă la populaţia din
1.6.3.4, semnalele prezentate au un grad care a fost extras eşantionul statistic de N
mare de dezordine. Pentru astfel de semnale valori, atunci o notăm cu litera σ (sigma) şi
aleatoare proprietăţile lor statistice sunt nu cu litera s.
importante.
Toate acestea precum şi valoarea medie
Staţionaritatea semnalelor pătratică a semnalului (xRMS):
Conceptul de staţionaritate este n
fundamental. Un proces este staţionar (în ∑ x(i) 2

sens statistic) atunci când parametrii x RMS = i =1

statistici care îl descriu nu se modifică în n


timp. Notă: RMS – Root Mean Square, adică
Altfel spus, dacă procesul este descris tocmai valoare medie pătratică sunt măsuri
printr-un şir de N valori echidistante x(1), ale proprietăţilor semnalului (procesului) în
x(2), x(3),..., x(i),..., x(n) atunci în cazul unui domeniul timp.
proces staționar valoarea medie, care dă Filtrarea semnalelor
tendinţa centrală a datelor,
n
În realitate semnalele achiziţionate sunt
∑ xi amestecate, infestate, cu semnale inutile,
Xm = i =1
numite „zgomot”, provenite din alte surse
n
decât cea care este de interes pentru noi.
şi deviaţia standard s care dă o măsură
Amintiţi-vă ce vedeaţi pe ecranul
pentru împrăştierea datelor în jurul valorii
televizorului atunci când trecea pe stradă o
medii
motocicletă, şi dacă desigur semnalul video
n
venea dintr-o antenă montată pe casă. În cel
∑ (x m − x(i )) 2
mai bun caz erau nişte puncte albe şi negre
s= i =1

n −1 aşezate la întâmplare pe ecran, dar puteau fi


vor fi aceleaşi cu media şi deviaţia şi diverse linii în mişcare, ducând uneori
standard calculate pentru acelaşi proces cu o până la desincronizarea completă a imaginii.
zi mai devreme sau peste o săptămână, Iată un exemplu de zgomot electric cu efect
evident pentru situația reală din acele distrugător asupra semnalului util. Cauza
momente. erau scânteile de la bujiile motorului

75
Informatică Medicală și Biostatistică

motocicletei, care produceau un semnal Aceste măsuri nu elimină zgomotul, ele


parazit de radiofrecvenţă. Undele radio pot doar să micşoreze contribuţia sa nefastă
parasite erau recepţionate de antena asupra semnalelor.
televizorului împreună cu semnalul TV peste
Un alt nivel la care putem interveni, de
care se suprapuneau.
data aceasta numeric, matematic, este chiar
Reducerea zgomotului din semnale este în semnalul achiziţionat, adică asupra
un capitol aparte al ingineriei semnalelor, o vectorului care reprezintă numeric semnalul.
luptă permanentă care nu rezolvă niciodată Este însă util să exemplificăm tipurile de
complet această problemă. Ne mulţumim filtre prin exemple concrete.
însă să atenuăm componente nedorite, să
Am ales în acest scop ca semnal original
favorizăm astfel componente dorite ale
asupra căruia vom aplica diverse filtrări un
semnalelor, astfel încât să putem extrage
segment de electromiogramă de suprafaţă
maximum de adevăr din ele. Este o luptă al
EMGS (Figura 1.6.4.1.)
cărei rezultat este un compromis. Important
însă este să poţi extrage acel maxim de Ca efect, filtrele sunt, de patru tipuri:
adevăr, la care altfel nu poţi ajunge.  filtru trece jos FTJ (Low Pass Filter)
Operaţia aceasta, de favorizare a  filtru trece sus FTS (High Pass Filter)
semnalelor dorite şi de atenuare a  filtru trece bandă FTB (Band Pass
semnalelor parazite, o numim filtrare, iar Filter)
dispozitivul sau algoritmul care realizează  filtru opreşte bandă FOB (Stop Band
filtrarea este un filtru. Filter)
Filtrarea numerică Deoarece filtrele nu sunt ideale, există de
obicei o bandă de trecere caracterizată prin
Am văzut mai sus câteva elemente
două frecvenţe:
privind zgomotele ca semnale nedorite
suprapuse peste semnalele utile şi câte ceva  frecvenţa de trecere, care defineşte
despre cum ne protejăm împotriva efectiv limita de frecvenţă până la care
zgomotelor electrice din punct de vedere al semnalele trec neatenuate;
echipamentelor.  frecvenţa de oprire, care defineşte
limita de frecvenţă de la care trecerea este
minimă (- 20 dB înseamnă o atenuare de 10
ori, - 40 dB înseamnă o atenuare de 100 ori).

Filtrul trece jos FTJ (Low Pass Filter)


Prin definiţie filtrul FTJ nu afectează
(lasă să treacă) componentele de frecvenţă
joasă ale semnalului de intrare.
Filtrul trece jos FTJ este caracterizat
printr-o frecvenţă sugestiv numită frecvenţă
de tăiere.
Figura 1.6.4.1. Semnal original –
electromiograma de suprafaţă EMGS
(M. Biceps Brachii, frecvenţa de
eşantionare 500 Hz)

76
Informatică Medicală și Biostatistică

Filtrul trece sus FTS este caracterizat


printr-o frecvenţă sugestiv numită frecvenţă
de tăiere.

Figura 1.6.4.2. Semnalul din Figura 1.6.4.1.


filtrat trece jos FTJ
(Equiripple FIR ordin 55, frecvenţa de
trecere 35 Hz, frecvenţa de oprire 45 Hz) Figura 1.6.4.4. Semnal filtrat trece sus FTS
(Equiripple FIR ordin 55, frecvenţa de
trecere 35 Hz, frecvenţa de oprire 45 Hz).

Figura 1.6.4.3. Caracteristica de trecere a


filtrului trece jos FTJ
(Equiripple FIR ordin 55, frecvenţa de
trecere 35 Hz, frecvenţa de oprire 45 Hz) Figura 1.6.4.5. Caracteristica de trecere a
filtrului trece sus FTS
Figura 1.6.4.2 prezintă efectul filtrului (Equiripple FIR ordin 55, frecvenţa de
FTJ asupra semnalului original din Figura trecere 35 Hz, frecvenţa de oprire 45 Hz).
1.6.4.1. Se vede dispariţia sau micşorarea
unor componente de frecvenţă mai mare.
Semnalul filtrat arată ca netezit. Figura 1.6.4.4 prezintă efectul filtrului
Figura 1.6.4.3 prezintă caracteristica de FTS asupra semnalului original din Figura
trecere a filtrului trece jos. Se vede clar 1.6.4.1.
semnificaţia celor două frecvenţe Figura 1.6.4.5 prezintă caracteristica de
caracteristice. trecere a filtrului trece sus. Se vede clar
semnificaţia celor două frecvenţe
Filtrul trece sus FTS (High Pass Filter) caracteristice.
Prin definiţie filtrul FTS nu afectează
(adică lasă să treacă) componentele de
frecvenţă înaltă ale semnalului de intrare.

77
Informatică Medicală și Biostatistică

Filtrul trece bandă FTB (Pass Band de 100000 ori, - 120 dB înseamnă o atenuare
Filter) de 1000000 ori).
Prin definiţie filtrul FTB nu afectează
(adică lasă să treacă) componentele de
frecvenţe cuprinse între două limite
(frecvenţe de tăiere inferioară şi superioară)
ale semnalului de intrare.

Figura 1.6.4.7. Caracteristica de trecere


filtrului trece bandă FTB
(Equiripple FIR ordin 105, banda de trcere
40 – 60 Hz, banda de oprire 10 – 90 Hz).

Filtrul opreşte bandă FOB (Stop Band


Filter)
Figura 1.6.4.6. Semnal filtrat trece bandă
FTB (Equiripple FIR ordin 105, banda de Prin definiţie filtrul FOB nu afectează
trecere 40 - 60 Hz, banda de oprire 10,90 (adică lasă să treacă) componentele de
Hz) frecvenţe mai joase şi respective mai mari
decât două limite (frecvenţe de tăiere
inferioară şi superioară) ale semnalului de
Figura 1.6.4.6 prezintă efectul filtrului
intrare.
FTB asupra semnalului original din Figura
1.6.4.1. Figura 1.6.4.7 prezintă caracteristica
de trecere a filtrului trece bandă. Se vede clar
semnificaţia celor două frecvenţe
caracteristice.
Deoarece filtrele nu sunt ideale, există de
obicei o bandă de trecere caracterizată prin
două frecvenţe pentru fiecare front al
filtrului (inferior şi superior):
 frecvenţele de trecere inferioară şi
superioară care definesc efectiv limitele de
frecvenţă de la care şi până la care semnalele Figura 1.6.4.8. Semnal filtrat opreşte bandă
trec neatenuate; FOB (Equiripple FIR ordin 105, trece banda
 frecvenţele de oprire inferioară şi 45, 105, banda de oprire 60,90 Hz)
superioară, care definesc efectiv limitele de
frecvenţă până la care şi de la care trecerea Deoarece filtrele nu sunt ideale, există de
este minimă (- 100 dB înseamnă o atenuare obicei o bandă de trecere caracterizată prin

78
Informatică Medicală și Biostatistică

două frecvenţe pentru fiecare front al compet înecat în acest zgomot de 50 Hz şi


filtrului (inferior şi superior) prin urmare imposibil de explorat.
 frecvenţele de trecere inferioară şi Analiza electromiogramei de
superioară care definesc efectiv limitele de interferenţă
frecvenţă până la care şi de la care semnalele
Vom exemplifica acum ce înseamnă
trec neatenuate;
concret analiza unui semnal biologic, luând
 frecvenţele de oprire inferioară şi
ca exemplu electromiograma, semnal
superioară, care definesc efectiv limitele de
electric generat în procesul de excitaţie –
frecvenţă de la care şi până la care trecerea
contracţie de către fibrele musculare,
este nesemnificativă (- 60 dB înseamnă o
respective de unităţile motorii (MUAP -
atenuare de 1000 ori).
Motor Unit Action Potential). Potenţialele de
acţiune ale unităţilor motorii se sumează
spaţial formând semnalul electromiografic
de suprafaţă EMGS cules prin electrozi la
suprafaţa pielii, deasupra muşchiului în
contracţie. Discuţia de faţă ne dă ocazia să
definim şi alte tipuri de prelucrări ale
semnalelor în timp şi în frecvenţă şi să
analizăm importanţa lor.
Electromiograma este dependentă de
Figura 1.6.4.9. Caracteristica filtrului nivelul de forţă al muşchiului în contracţie,
opreşte bandă FOB (Equiripple FIR ordin de tipul de electrod, de starea muşchiului,
105, banda de trecere 45 – 105 Hz, banda care poate fi odihnit sau obosit, sănătos sau
de oprire 60 – 90 Hz) bolnav, de starea întregului sistem
Figura 1.6.4.8 prezintă efectul filtrului neuromuscular. În electromiografia clinicã
se folosesc în general electrozi ac, deoarece
FOB asupra semnalului original din Figura
1.6.4.1. Figura 1.6.4.9 prezintă caracteristica electrozii de suprafaţă pot masca uneori
anumite modificãri patologice de mare
de trecere a filtrului opreşte bandă. Se vede
clar semnificaţia celor două frecvenţe fineţe.
caracteristice. Activitatea mioelectricã detectată cu
electrozi de suprafaţă fixaţi pe piele deasupra
Filtrele oprește bandă sunt importante de
exemplu în cardiologie, unde filtrarea unui muşchi poate fi consideratã ca o sumare
a semnalelor filtrate generate de un numãr de
opreşte bandă a semnalului ECG este
obligatorie, frecvenţa de tăiere fiind 50 Hz, unităţi motorii active, concurente. Detecţia
cu o bandă de cca. 2 Hz. Scopul acestei de suprafaţă este preferabilă detecţiei cu ac
atunci când se doreşte informaţie globală
proceduri este eliminarea interferenţei
cauzată de reţeaua de alimentare cu energie despre activarea muşchiului sau despre
evoluţia intensităţii contracţiei. În cazul
electrică, de 50 Hz. Deşi acest semnal
perturbator se găseşte în banda utilă a EMGS distribuţia curentului şi funcţia de
semnalului ECG, eliminarea sa este transfer între sursa de semnal şi punctul de
detecţie sunt afectate de proprietăţile locale
obligatorie deşi afectează totuşi şi semnalul
ECG într-o anumită măsură. Fără această ale ţesutului şi de tipul şi poziţia electrozilor,
aşa încât un semnal mioelectric detectat pe
filtrare semnalul ECG ar putea fi uneori
suprafaţă poate conţine contribuţii de la alţi

79
Informatică Medicală și Biostatistică

muşchi din vecinătatea celui deasupra căruia


sunt plasaţi electrozii.
La preluarea electromiogramei la efort
mic (Tărâţă, 2001a, b, c), potenţialul de
acţiune poate fi bine izolat, deoarece sunt
active puţine unităţi motorii. Totuşi, la o
contracţie de 10 % din contracţia voluntarã
maximã (MVC - maximum voluntary
contraction) un numãr mai mare de unităţi
motorii intră în activitate şi potenţialele lor
de acţiune încep să se suprapună în anumite
zone ale muşchiului sau sã se sumeze Figura 1.6.4.10. Semnal electromiografic de
producând un semnal de interferenţă. La o suprafaţă (valoarea medie=0.3171)
forţă de 30 % din MVC creşterea numărului
de unităţi motorii active şi a frecvenţelor lor Redresarea
de descărcare generează un semnal de Pentru a răspunde la întrebarea de mai
interferenţă în aproape toate zonele sus, considerăm semnalul din Figura
muşchiului. Aceasta înseamnă că numai la 1.6.4.10. Se redresează semnalul (Figura
contracţie slabă pot fi analizate 1.6.4.11) prin inversarea valorilor negative
caracteristicile potenţialelor unităţilor (în domeniul pozitiv) - redresare bi-
motorii individuale, aceasta reprezentând alternanţă. Această procedură este
cca. 4 % din MVC. preferabilă deoarece păstrează toată
energia semnalului. Se observă că semi-
În funcţionarea curentă a muşchiului, alternanţele negative au devenit pozitive.
nivelul de contracţie este rareori atât de mic, Redresarea este echivalentă cu funcţia
aşa încât analiza electromiogramei de matematică valoare absolută.
interferenţă este importantă.
Procedura de redresare nu alterează
Analiza semnalului EMG în domeniul energia semnalului. După redresare toate
timp componentele semnalului sunt pozitive şi
Semnalul EMG este dependent de timp şi astfel media aritmetică va constitui o măsură
de forţa de contracţie, amplitudinea sa corectă pentru a estima amplitudinea
variind aleator deasupra şi dedesubtul lui semnalului.
zero, în jurul liniei izoelectrice.
Să ne gândim că vrem să comparăm prin
valoarea lor medie două semnale
asemănătoare ca evoluţie cu cel din Figura
1.6.4.10, dar provenind din muşchi diferiţi.
Unul poate fi mult mai mic decât altul, dar
mediile lor sunt amândouă aproape zero,
deoarece semnalele sunt centrate în jurul
liniei izolelectrice.
Suntem în stare să spunem după valoarea
medie care din cele două semnale este mai
Figura 1.6.4.11. Acelaşi semnal din Figura
mare? Nu suntem.
1.6.4.10, redresat (valoarea medie= 0.8174)

80
Informatică Medicală și Biostatistică

prin împărţire cu timpul (T). Dacă se alege o


perioadă de integrare destul de lungă,
Asfel vom putea compara prin medie
valoarea redresată integrată oferă pentru
diferite semnale între ele din punct de vedere
semnal o măsură ce variază lin. Integrarea
al mărimii lor şi vom obţine un răspuns
traseului de interferenţă redresat a fost una
corect.
din primele tehnici analitice aplicate asupra
Valoarea medie redresată este: semnalelor biologice.
N

∑ s(i)
VMR( s (t )) = i =1

N
N - numărul de eşantioane
i – poziţia eşantionului curent pe axa
timpului.
Figura 1.6.4.12 arată un alt exemplu de
redresare a semnalelor şi legătura sa directă
cu funcţia valoare absolută. Figura 1.6.4.13. ISR: integrala semnalului
redresat din Figura 1.6.4.11. Un semnal mai
mic ar fi dat o pantă mai mică
Mărimea integralei semnalului
de interferenţă redresat (ISR) este funcţie
de amplitudinea şi durata MUAP-urilor
individuale ca şi de frecvenţa descărcărilor.
S-a găsit o dependenţă liniară a ISR de forţa
generată de un muşchi dat, în timpul
contracţiei izometrice, coeficienţii de
corelaţie fiind între 0,93 - 0,99, valoarea
Figura 1.6.4.12. Redresarea semnalelor – alt
dreptei de regresie fiind variabilã între
exemplu. Semnalul redresat este reprezentat
indivizi, dar şi la acelaşi subiect în
cu roşu
înregistrări diferite. În ceea ce priveşte
reproductibilitatea ISR ea s-a înregistrat
Integrarea
pentru 20, 40, 60, 80 % MVC şi au fost găsiţi
Integrarea, ca procedură de prelucrare a coeficienţi de corelaţie între 0,88 şi 0,91
unui semnal se referă la obţinerea ariei de pentru o reproductibilitate între 0,64 şi 0,73.
sub semnal. Unitatea de măsură este Vs
(Voltsecundă) sau o combinaţie de
submultipli. Rădăcina mediei pătratelor (Root
Mean Square RMS)
Procedura nu se poate aplica decât
semnalului redresat, pentru că altfel suma Acest parametru dă de fapt o medie
(aria) ar fi zero sau foarte mică şi fără particulară a semnalului, care de fapt dă
legătură cu conţinutul semnalului, dar în energia semnalului în intervalul de timp T.
acest caz toate valorile fiind pozitive, RMS este calculat după cum urmează:
valoarea redresată integrată creşte continuu
cu timpul, ceea ce se rezolvă mediind, adică
81
Informatică Medicală și Biostatistică

t +T Iată în Figura 1.6.4.14 un exemplu de


∫ s(t ) dt
2
detecţie a vârfurilor unui semnal EMGS.
RMS ( s (t )) = Tehnic nu este uşor. Se şi vede în figură cum
t

T
câteva vârfuri nu sunt detectate corect. Ele
unde s(t) este semnalul. sunt semnalate în apropierea vârfului real,
dar nu chiar pe el. Oricum, în cazul
Acest parametru face de fapt legătura procedurii prezentate, rata de eroare este
între domeniile timp şi frecvenţă. mică.
Vîrfurile sunt numite uneori puncte de
Vârfuri, treceri prin zero (NTZ) şi întoarcere, de aceea se foloseşte această
puncte de întoarcere (NPI) terminologie în literatura clinică.
Aceste momente importante în evoluţia A doua categorie de momente de interes
semnalelor sunt dificil de detectat, tehnic şi cu relevanţă sunt trecerile prin zero
vorbind, din diverse motive care ţin de (numărul trecerilor prin zero NTZ), de fapt
geneza şi structura semnalelor. Zgomotul traversări ale liniei izoelectrice. Şi ele au
este şi el unul dintre aceste motive. relevanţă în biologie. De exemplu în cazul
unui potenţial de acţiune, el traversează linia
De ce sunt importante vârfurile
izolelectrică atunci când în drumul său de-a
semnalelor biologice? În biologie vârfurile
lungul fibrei musculare trece prin dreptul
semnalelor au relevanţă. De exemplu vârful
electrodului de culegere.
unui semnal electromiografic de suprafaţă
semnifică momentul în care cele mai multe Când este vorba de un semnal complex
din fibrele musculare din teritoriul motor cum este cel EMGS, rezultat prin sumarea
sunt în contracţie – din acest motiv şi spaţială a mai multor semnale individuale,
potenţialul de acţiune de teritoriu motor este explicaţia este şi ea mai complexă.
maxim. În cazul ECG, vârful undei R se Numărarea acestor evenimente este
formează în momentul contracţiei relativ comodă şi oferă clinicianului un
ventriculare maxime. instrument cu ajutorul căruia unele
investigaţii au dovedit că se poate face o
discriminare între muşchiul miopatic şi
normal. Dar asemenea distincţii nu pot fi
fãcute decât statistic.
Nu este recomandabil a fi folosite NTZ
pentru măsurarea semnalului ca funcţie de
forţă, atunci când sunt în curs fenomene de
recrutare şi derecrutare a unor unităţi motorii
şi nici ca funcţie de timp în cazul unor
contracţii susţinute.
Figura 1.6.4.14. Prelucrare complexă a unui
Numai la nivele mici de contracţie relaţia
semnal. Vârfurile semnalului EMG din
între ele şi numărul de potenţiale de acţiune
Figura 1.6.4.10 sunt detectate automat.
MUAP este liniară. Pe măsură ce noi unităţi
Maximele sunt marcate cu + iar minimele
motorii intră în activitate, amplitudinea
cu x
semnalului capătă caracterul zgomotului

82
Informatică Medicală și Biostatistică

Gaussian şi relaţia liniară nu mai Se vede clar că primul semnal este o


funcţionează. sinusoidă pură iar al doilea este mai
complex, rezultând din combinarea a două
Mai recent, trecerile prin zero au căpătat
componente.
o nouă consideraţie, demonstrându-se că
prin ele se pot estima modificările EMG
spectrale măsurate prin frecvenţa mediană.
Problema detectării trecerilor prin zero nu
este deloc uşoară, din cauza zgomotului.
Figura 1.6.5.2. În domeniul frecvenţă
1.6.5. Metode de analiză în domeniul semnalul din Figura 1.6.5.1 este marcat
frecvenţă printr-un segment poziţionat la frecvenţa f0
şi de amplitudine proportională cu energia
semnalului, iar semnalul complex prin două
Este poate necesară o introducere segmente la frecvenţele f0 respectiv 2*f0
intuitivă care să sugereze ca idee ce
înseamnă domeniul frecvenţă şi să sublinieze
de la început că descrierea unui semnal în În Figura 1.6.5.2 sunt reprezentate
domeniul timp - de care ne-am ocupat mai aceleaşi semnale ca în Figura 1.6.5.1, deci
înainte - şi respectiv în domeniul frecvenţă, vorbim despre două reprezentări ale aceleiaşi
sunt unul şi acelaşi lucru, reprezintă aceeaşi realităţi fizice. Cele două figuri sunt
realitate, sunt două descrieri echivalente. reprezentări echivalente ale aceleiaşi
realităţi; putem constata cât de clar se vede
Figura 1.6.5.1 arată grafic în evoluţia lor structura semnalelor în reprezentarea în
în timp două sunete, unul simplu sinusoidal, domeniul frecvenţă. În cazul în care ordonata
pur, de frecvenţă f0, iar celălalt mai complex reprezintă energia diferitelor componente,
rezultat din sumarea acestuia cu unul de atunci reprezentarea se numește spectrul
frecvenţă dublă. Figura dă evoluţia în timp a energetic al semnalului, dacă însă pe
celor două semnale, care sunt periodice, ordonată este marcată puterea diferitelor
generate un timp nedefinit, şi sunt perfect componente avem de-a face cu spectrul de
caracterizate de componentele lor putere.
sinusoidale, respectiv de frecvenţa şi de
Ce facem însă dacă semnalele sunt mult
energia acestora, ceea ce se vede în Figura
mai complexe? Aşa cum semnalul complex
1.6.5.2 unde abscisa nu mai marchează
din Figura 1.6.5.1 a rezultat din sumarea a
curgerea timpului ci de data aceasta
două componente, el poate fi şi descompus
frecvenţa.
în cele două componente sinusoidale ale
sale. Dacă putem descompune orice semnal
în astfel de componente sinusoidale,
problema analizei sale în domeniul frecvenţă
este aproape rezolvată.
Răspunsul la această problemă este
Figura 1.6.5.1. Două semnale sinusoidale, al afirmativ: se poate. Ideea de bază este
doilea rezultând din sumarea primului cu un aproximarea semnalelor prin sumarea
alt semnal de frecvenţă dublă ponderată a unor funcţii, în cazul de faţă

83
Informatică Medicală și Biostatistică

sinusoide şi/sau cosinusoide. Redescoperim să fie convergentă şi suma sa să fie egală


astfel dezvoltarea în serie Fourier. cu funcţia periodică dată f(x). Am considerat
a 0 / 2 pentru simplitate.
Datorită ortogonalităţii funcţiilor din
familia 1, cosx, sinx, cos2x, sin2x, cos3x,
sin3x, ... rezultă coeficienţii ak, bk:
π

Figura 1.6.5.3. Forma reală a spectrelor


ak = 1 / π ∫ f ( x)dx
−π
semnalelor din Figura 1.6.5.1, datorată π
1
eşantionării, şi altor fenomene.
Componentele semnalului sunt evidente
ak =
π ∫ f ( x) cos(kx)dx
−π
π
1
Dezvoltarea în serie Fourier bk =
π ∫ f ( x) sin(kx)dx ,
−π
Problema care se pune este deci găsirea
acelor funcţii pentru k întreg. Aceştia sunt coeficienţii
Fourier ai funcţiei f(x).
Ak sin( kx + ϕ k )
Se demonstrează că eroarea medie
pătratică a aproximării funcţiei f(x) printr-
astfel încât o funcţie periodică dată f(x)
un polinom trigonometric de ordinul n (n
să poată fi reprezentată ca: termeni în suma de mai sus) este minimă

f ( x) = ∑ Ak sin( kx + ϕ k ) dacă coeficienţii dezvoltării sunt coeficienţii
k =0 Fourier şi că precizia aproximării creşte cu
Spunem că expresia de mai sus reprezintă creşterea numărului de termeni ai
dezvoltarea funcţiei date în serie dezvoltării.
trigonometrică. Dacă numărul de termeni Altfel spus, coeficienţii ak, bk tind spre
∞ zero când k tinde spre infinit, iar seria
este finit atunci ∑A
k =0
k sin( kx + ϕ k ) este o aceasta aproximează foarte bine funcția
inițială.
aproximare a funcţiei f(x). Termenul general
Ak sin(kx + ϕk ) se numeşte armonica de Rezultatele de mai sus ne garantează
găsirea coeficienţilor ak, bk pentru
ordin n a funcţiei f(x) şi se mai poate scrie:
aproximarea unei funcţii periodice prin
Ak sin(kx + ϕk ) = a k cos kx * bk sin kx polinoame trigonometrice (Figura 1.6.5.4).

aşa încât
a k = Ak sin ϕ k
bk = Ak cos ϕ k
Problema se reduce la găsirea
Figura 1.6.5.4. O funcţie oarecare (stânga)
coeficienţilor ak, bk astfel încât seria
şi spectrul său energetic (dreapta) marcând

componentele dezvoltării ei în serie Fourier
a 0 / 2 + ∑ Ak sin( kx + ϕ k )
k =0

84
Informatică Medicală și Biostatistică

Deoarece Ak = a k + bk , Ak conţine
2 2 2 La un nivel de contracţie mai mare
spectrul suferă fluctuaţii, având însă în mare
informaţie sintetică despre energia aceeaşi formă cu acela al descărcărilor
componentei de ordinul k a spectrului individuale. Chiar în condiţii de interferenţă
(indiferent de ponderea sinusului sau proprietăţile potenţialelor de acţiune
cosinusului în aceasta) şi deoarece ne individuale pot fi extrase din semnalul de
aşteptăm că energia semnalului este aceeaşi interferenţă prin analiză spectrală. Pentru
indiferent de reprezentarea sa, atunci: semnalul compus din potenţiale de unitate
∞ motorie cu forme diferite, spectrul de putere
1 ∞
∫ f 2 (t )dt = ∑ Ak reprezintă o medie ponderată a spectrelor de
2

−∞
2 k = −∞ la unităţile contribuabile.
cunoscută ca relaţia lui Parseval, care
subliniază odată în plus echivalenţa celor
două reprezentări, în timp şi în frecvenţă, ale
aceluiaşi semnal.
În realitate lucrăm cu segmente finite de
semnal, şi impunem ipoteza că segmentul
studiat este periodic, deci că el se repetă. Figura 1.6.5.6. Spectrul de putere al
Aceasta este o observaţie deosebit de potenţialului din Figura 1.6.5.5
importantă. Durata determină într-o proporţie destul
Analiza spectrală a semnalului EMG de mare distribuţia puterii pe intervalul de
în domeniul frecvenţă frecvenţă: impulsuri de scurtă durată conţin
mai multã energie de înaltă frecvenţă decât
Spectrul de putere al semnalului EMGS cele mai lungi. La mărirea duratei, forma
este o măsură a densităţii de putere a curbei spectrale se păstrează, deşi se constatã
semnalului la diferite frecvenţe, altfel spus o deplasare spre frecvenţe mai mici.
cuantumul de putere a semnalului repartizată
pe frecvenţele componente şi are vârful
maxim între 100 Hz sau mai jos şi cca. 200
Hz dacă sunt folosiţi electrozi intramusculari
şi în domeniul 10 Hz - 150 Hz dacă
semnalele sunt obţinute cu electrozi de Figura 1.6.5.7. Electromiograma de
interferenţă, culeasă cu electrozi de
suprafaţă deoarece durata medie a
semnalelor în al doilea caz este mai mare, suprafaţă
deci frecvenţa echivalentă este mai mică. Faza unui potenţial de acţiune înseamnă
porţiunea de semnal de deasupra sau de
dedesubtul liniei izolelectrice între două
traversări successive ale liniei izoelectrice,
ceea ce le defineşte ca faze pozitive,
respectiv negative.
Numărul de faze (NF) ale potenţialului de
acţiune al unităţii motorii influenţează
Figura 1.6.5.5. Un potenţial de acţiune unic puternic spectrul de putere, influenţă
de teritoriu motor (electromiograma unitară) întrepătrunsă cu cea a duratei

85
Informatică Medicală și Biostatistică

Drept rezultat al contracţiilor susţinute,


densitatea de putere creşte la frecvenţe mici
(Figura 1.6.5.9, 1.6.5.10), fenomen
asemănător cu oboseala musculară localizată
(Tărâţă, 1997a, b, 2001d, 2003). Se observă
deplasarea spectrală spre frecvenţe mai mici.
Semnalul EMGS a fost prefiltrat pentru a
reduce zgomotul (Tărâţă, 2003).
Figura 1.6.5.8. Spectrul de putere al
semnalului din Figura 1.6.5.7 Frecvenţe tipice în spectru
În timpul contracţiei izometrice frecvenţa
se reduce cu oboseala, ceea ce semnifică
Pentru valori constante ale duratei, creşterea puterii componentelor de joasă
creşterea numărului de faze împinge spectrul frecvenţă, încât frecvenţa medie a EMG pare
spre frecvenţe mari, pe când pentru durate să fie în sine o măsură bună pentru gradul de
crescând proporţional cu creşterea oboseală izometrică.
numărului de faze, apare un vârf mai
pronunţat în spectrul de putere. Există de fapt două frecvenţe importante
caracteristice ale spectrului de putere:
1. Frecvenţa mediană Fm este frecvenţa
faţă de care spectrul se divide în două regiuni
cu puteri egale.
Matematic:

Fm ∞ ∫ S ( f )df
∫ S ( f )df = ∫ S ( f )df =
0

0 Fm
2

Figura 1.6.5.9. Evoluţia spectrului de putere 2. Frecvenţa medie (average) Fa definită


pentru un semnal mecanomiografic MMG ca:
cu evoluţia oboselii musculare ∞

∫ fS ( f )df
Fa = 0

∫ S ( f )df
0

unde f - frecvenţa,
S(f) - spectrul de putere.
Şi Fm şi Fa sunt sensibile la viteza de
conducere pe fibra musculară, încât
Fa = K * Fm
Figura 1.6.5.10. Spectrele de putere ale
semnalului EMGS pe durata contracţiei unde K - o constantă.
susţinute Estimarea frecvenţei mediane permite o
estimare bună a vitezei de conducere.

86
Informatică Medicală și Biostatistică

Practic se pot folosi oricare din cei doi


parametri, deşi Fm are o imunitate mai mare
la zgomot şi este în relaţie mai strânsã cu
numãrul trecerilor prin zero NTZ.
Folosind frecvenţele medie şi mediană s-
a studiat alternanţa efort-refacere, dovedind
că spectrul de putere este o măsură
reproductibilă pentru oboseala musculară.
De asemenea s-au studiat, folosind un
model liniar pentru semnalul EMG,
Figura 1.6.5.11. Spectrele de putere ale modificările spectrului de putere al
semnalului EMGS pe durata contracţiei semnalului mioelectric. Aceste modificări
susţinute (25% MVC). Se observă scăderea pot fi induse de mai mulţi factori posibili, ca
progresivă a frecvenţei mediane (MF) cu recrutarea unor tipuri diferite de unităţi,
înaintarea oboselii (Tărâţă, 2003). modificări în viteza de conducere şi a
frecvenţei descărcărilor.
Rezultatele arată că vârfurile spectrului se
modifică cu frecvenţa şi că frecvenţa
mediană este slab dependentă de frecvenţa
descărcărilor şi demonstrează că are loc o
deplasare a energiilor spre frecvenţe joase pe
măsură ce oboseala musculară creşte, atât
pentru semnalul EMGS cât şi pentru MMG
(Tărâţă 2003).
În ceea ce priveşte influenţa sarcinii
Figura 1.6.5.12. Spectrele de putere ale (încărcării) nu există încă concluzii
semnalului MMG pe durata contracţiei acceptate. Este însă stabilit că alterarea
susţinute (25% MVC). Se observă scăderea densităţii spectrale a EMG este cauzată şi de
progresivă a frecvenţei mediane (MF) cu alterarea proprietăţilor statistice ale
înaintarea oboselii (Tărâţă, 2003). intervalelor inter-impuls IPI cu oboseala şi
sarcina. În plus, densitatea spectrală de
putere este dependentă de tipul de electrod,
muşchi, starea muşchiului, adică sarcina şi
oboseala.

87
Informatică Medicală și Biostatistică

BIOSTATISTICĂ

88
Informatică Medicală și Biostatistică

2.1. Biostatistica şi prin care să obţinem informaţii cantitative


precise. Mai ales în ceea ce priveşte biologia,
statistica medicală ştiinţele sociale sau economice, pentru
descrierea obiectelor lor de lucru nu mai
2.1.1. Ce este statistica? există legi exacte prin care putem să
determinăm cu precizie evoluţia lor viitoare.
Cu ajutorul statisticii, chiar şi în aceste
Pentru majoritatea persoanelor, statistica situaţii putem obţine relaţii destul de precise
este asociată cu prelucrarea matematică a care să ne ajute să evaluăm, cu o marjă de
informațiilor din lumea înconjurătoare. În eroare tolerabilă în practică, comportamentul
general, se consideră că entităţilor, sistemelor sau fenomenelor
studiate.
în cadrul unui studiu statistic informațiile
colectate se clasifică, se grupează, se
centralizează şi se rezumă prin indicatori, 2.1.1.1. Apariţia şi dezvoltarea statisticii
tabele și grafice, se pun în evidenţă legături
între diferite caracteristici investigate, se Statistica, prin obiectul şi metoda sa, face
descoperă eventuale relaţii cauzale şi se parte din rândul ştiinţelor ce studiază
analizează fenomene complexe. În plus, aspectele cantitative ale entităţilor,
statistica face și generalizări sau ajută la fenomenelor şi proceselor din cadrul naturii,
demonstrarea unor ipoteze descoperite de tehnologiei şi societăţii. Ea s-a dezvoltat ca
obicei empiric. Chiar dacă nu avem o idee ştiinţă într-un proces istoric îndelungat şi s-a
precisă, cu toții gândim despre această știință diferenţiat în funcţie de particularităţile
că nu operează cu informații referitoare la o domeniului studiat.
singură fiinţă sau obiect sau la un număr
foarte restrâns de astfel de elemente. Forma cea mai veche, statistica practică,
Statistica este știința care prelucrează datează de peste patru milenii. Ea a servit
informații care se referă la un număr mare de unor scopuri fiscale, demografice şi
entități cum ar fi pacienți sau indivizi administrative. De exemplu, în
sănătoși, animale, plante sau obiecte de altă Mesopotamia s-au gasit tabliţe cu scriere
natură. Informațiile referitoare la entităţile cuneiformă prin care se înregistrau vânzări şi
studiate le numim „date”. Atunci când cumpărări de bunuri sau plata unor datorii şi
vorbim de prelucrarea statistică a taxe, iar în Egiptul antic se făcea
informațiilor, folosim expresia „prelucrare a inventarierea aurului şi a pământului. Din
datelor”. Numele, prenumele, vârsta, sexul, documentele descoperite rezultă că şi
afecțiunea şi celelalte informații despre un chinezii dispuneau încă din mileniile IV şi III
pacient, mărimea sau greutatea unui obiect, î.e.n. de date cu privire la numărul
productivitatea unei plante le numim date populaţiei, structura terenurilor şi că utilizau
despre acel pacient, acel obiect sau acea diferite tabele statistice referitor la unele
plantă. aspecte ale activităţii agricole. În Roma
antică recensămintele au devenit operaţii
Utilitatea statisticii este pusă mai bine în vaste şi complicate de care se ocupau,
evidență atunci când trebuie studiate uneori, înşişi împăraţii.
fenomene complexe în care intervin factori
sau mărimi care se află în relații de Ca ştiinţă, statistica s-a dezvoltat în două
dependență. Uneori aceste relaţii nu pot fi direcţii. Prima dintre ele a fost statistica
descrise satisfăcător de ecuații sau formule descriptivă, apărută în Germania. Unul

89
Informatică Medicală și Biostatistică

dintre reprezentanţii importanţi ai acestei înconjurătoare, ce vor fi folosite apoi pentru


şcoli a fost Gottfried Achenwall (1719- realizarea de previziuni ştiinţifice.
1772), considerat „părintele statisticii”
Combinând metoda inductivă şi
pentru faptul că a introdus în uz termenul
deductivă, folosind din ce în ce mai frecvent
„Statistik” în lucrarea sa din 1949. Din punct
rezultatele bazate pe experimentări
de vedere etimologic, „Statistik” provine din
succesive, s-au formulat, pe de o parte,
latinescul „status” în sens de „stare”, dar şi
principiile teoriei selecţiei şi a extinderii
din cuvântul italian „statista” – om de stat,
rezultatelor acesteia pentru caracterizarea
om politic. Folosirea termenului de către
întregului ansamblu şi, pe de altă parte,
Achenwall s-a referit însă strict la descrierea
necesitatea de a privi fenomenele din cadrul
cât mai cuprinzătoare a aspectelor
naturii şi societăţii ca interdependente. Ia
geografice, economice, sociale şi politice ale
naştere astfel statistica inductivă, la care şi-
unei națiuni. Prin urmare, termenul german
au adus contribuţii importante R. Fisher, G.
„Statistik” nu desemna o disciplină
Yule, C.F. Gauss, K. Pearson, E. Pearson, P.
matematică, ci o metodă empirică de a
Cebâşev, A. Marcov şi alţii.
descrie pământurile şi oamenii („Land und
Leute”) şi a reprezentat, inițial, analiza
datelor despre stat - „știința statului”. 2.1.2. Definiții
De atunci, termenul şi domeniul statisticii
s-au extins substanțial pentru a include Statistica este știința care furnizează un
practic toate domeniile de cercetare, set de principii și metodologii pentru
atingând o mare semnificație în știință, proiectarea procesului colectării, clasificării,
politică, economie, științe actuariale şi multe prelucrării, prezentării în rezumat a datelor,
alte discipline. interpretării rezultatelor şi folosirii acestor
Cea de-a doua direcţie a apărut în Anglia, interpretări pentru a formula concluzii şi a
unde s-a conturat şcoala aritmeticii politice, extrage generalizări ale situaţiilor sau
avându-i ca reprezentanţi pe William Petty şi fenomenelor studiate. Statistica se ocupă cu
John Graunt. Prin analogie cu ştiinţele descrierea şi analiza numerică a fenomenelor
naturii, aritmetica politică tindea spre de masă, dezvăluind particularitățile lor de
exactitate şi în cunoaşterea socială, volum, structură, dinamică, precum și a
obiectivul de bază fiind identificarea relaţiilor sau legilor care le guvernează.
regulilor ce se regăsesc în fenomenele Volumul unui fenomen de masă se referă
sociale şi economice. la amploarea lui numerică, la numărul de
Pentru statistica de la mijlocul secolului indivizi cuprinși sau afectați de fenomenul
al XVIII-lea şi din secolul al XIX-lea este respectiv. Astfel, o afecțiune foarte
specifică folosirea tot mai frecventă a răspândită ca hipertensiunea arterială
metodelor matematice şi, în special, a (HTA), este un fenomen de un volum mai
calculului probabilităţilor, în investigarea şi mare ca o afecțiune rară, cum ar fi sindromul
interpretarea rezultatelor privind fenomenele Down.
din natură şi procesele din societate, Prin structura unui fenomen de masă
utilizându-le ca instrumente de cercetare a înțelegem modul în care acesta afectează
producerii fenomenelor. Astfel, statitsica categorii diferite de indivizi, cum ar fi, în
devine o modalitate de a deduce, verifica şi cazul studierii unei afecțiuni răspândite,
cuantifica relaţii de cauzalitate în lumea structura afectării pe sexe, rase, religii, grupe
de vârstă, ocupație, zone geografice etc.
90
Informatică Medicală și Biostatistică

Prin dinamica unui fenomen de masă Statistica medicală este știința care se
înțelegem modul cum evoluează acesta în ocupă cu aplicarea metodelor statisticii în
timp, în mod natural sau sub acţiunea unor medicină. Şi statistica medicală are mai
factori externi. Conexiunea fenomenelor este multe ramuri, care se ocupă de partea clinică,
indicată de relațiile de legătură și, eventual, de partea experimentală sau de partea
de relațiile de dependență între ele. De economico-administrativă a vieţii medicale.
exemplu, fenomene economice pot influența
Medicina modernă este de neconceput
evoluția incidenței unor afecțiuni în cadrul
fără cercetarea medicală, iar un segment din
unei populații.
ce în ce mai consistent al acestei cercetări are
Anumite tendințe de evoluție a incidenței la bază statistica. Nu se mai poate concepe o
unei maladii, sau de modificare a valorilor cercetare de laborator sau clinică, în care
normale la pacienții cu o anumită afecțiune, rezultatele să fie raportate doar prin
pot căpăta caracter de regularitate. Statistica comparaţii simpliste fie între valorile medii
este cea care pune în evidență aceste ale unor variabile, fie între numărul sau
regularități sau legi, care sunt valabile numai procentul de cazuri. Fără asigurarea
la modul general, ca tendință, nu neapărat la statistică, nicio cercetare nu are valoare.
fiecare individ în parte. De exemplu, dacă Simplele comparaţii între valorile mediilor
știm că o anumită fracțiune leucocitară este sau ale procentelor pot duce la concluzii total
crescută în alergii, nu înseamnă neapărat că greșite, de aceea nicio revistă științifică
fiecare alergic are acea fracțiune leucocitară medicală serioasă nu mai publică rezultate
crescută, ci că există numai o tendință în neprelucrate statistic și fără teste de
acest sens. semnificație.
Biostatistica este știința care se ocupă cu
aplicarea metodelor statisticii în științele
2.1.3. Termeni specifici
vieții, ca medicina, zoologia, botanica,
agricultura, psihologia, farmacia şi altele.
Toate capitolele importante ale statisticii Înainte de a încerca să arătăm ce este şi cu
ca: statistica descriptivă, teoria sondajelor, ce se ocupă statistica, este necesar să
teoria estimației, teoria corelației, regresiile explicăm anumite noţiuni specifice acestui
au aplicabilitate și în științele vieții. Unele domeniu.
dintre tehnicile statistice folosite în științele
vieții au fost impulsionate în dezvoltarea lor
chiar de domeniul lor de aplicare. De 2.1.3.1. Individ statistic
exemplu, studiul şi estimarea supraviețuirii
au o aplicabilitate largă în medicină şi
biologie, iar dezvoltarea metodelor de Un individ statistic reprezintă o entitate
analiză din aceste domenii a fost influențată care are anumite caractersitici ce corespund
pozitiv de acest fapt. unor specificații, unor cerinţe definite de
cercetător. Un individ statistic este un
În multe situații, apar confuzii între doi element al unei populații statistice, indiferent
termeni care exprimă discipline diferite, și de natura acesteia.
anume între biostatistică şi statistica
medicală. Aceasta din urmă este un capitol al Prin urmare, noțiunile de individ uman şi
celei dintâi, și anume: de individ statistic nu sunt identice,

91
Informatică Medicală și Biostatistică

deoarece, așa cum rezultă din această specifică la care se referă, numită populație
definiție, individul statistic poate fi: țintă.
-un om (individ sănătos, pacient), Trebuie înţeles că o populaţie statistică se
poate referi şi la alte entităţi, nu numai la
-un animal sau o plantă,
persoane. Exmple de astfel de populaţii pot
-un obiect, fi:
-un eveniment, un fenomen, -mulţimea urşilor din pădurile României
-un grup socio-uman (o școală, o -mulţimea şoarecilor folosiţi în laboratoarele
localitate, un spital etc.), de cercetare din Europa
Mai mult, nu orice individ poate fi şi -mulţimea pixurilor cu pastă roşie folosite în
individ statistic ci, pentru aceasta, trebuie să Craiova
fie cuprins într-o populație statistică.
De multe ori, în statistică, o populație nu
este o mulțime de persoane, fiinţe sau
2.1.3.2. Populație statistică obiecte. De exemplu, în studiile demografice
se iau câteodată ca elemente fundamentale
grupuri sociale ca așezări omenești sau
O populație statistică reprezintă instituții, putând vorbi despre populația
totalitatea entităţilor care au una sau mai școlilor dintr-un județ sau populația
multe însușiri comune, specificate în cadrul așezărilor umane din România. Avem deci în
unui studiu statistic și care fac obiectul unei acest caz populații de grupuri socio-umane.
cercetări statistice. Ele nu sunt alcătuite din indivizi umani, ci
din grupuri de indivizi umani. Mai mult,
În limbajul comun, noțiunea de populație populațiile pot să nu aibă o legătură directă
se referă, în general, la totalitatea cu indivizi umani, ci mai degrabă indirectă,
persoanelor care trăiesc într-un anumit spațiu şi anume se poate vorbi despre populații de
geografic sau social. În contextul evenimente (accidentele de circulație dintr-o
metodologiei cercetării, prin populație se arie geografică).
înțelege „totalitatea cazurilor care corespund
anumitor specificații, definite de cercetător” Indiferent despre ce tip de populație
discutăm la un moment dat, unitatea
De obicei, prin populație statistică, în fundamentală cu care avem de a face este
mod empiric, înțelegem o mulțime de individul statistic.
persoane umane:
-persoanele din județul Dolj care suferă
de HTA, sau 2.1.3.3. Eşantion statistic

-persoanele din județul Dolj de sex


bărbătesc care suferă de diabet zaharat, sau Un eșantion statistic reprezintă un grup
-persoanele din România care suferă de de indivizi selectaţi dintr-o populație
cancer pulmonar. statistică printr-o procedură bine stabilită,
astfel încât să reproducă cât mai corect
Exemplele de populații statistice de acest caracteristicile populaţiei.
gen sunt practic nelimitate, de fapt fiind
necesar să se definească aproape pentru În practică este imposibil să se studieze
fiecare nou studiu statistic o populație toate cazurile din care este constituită o

92
Informatică Medicală și Biostatistică

populaţie. Soluția acestei probleme constă în numerele din listă formează eşantionul de
studierea unor grupuri de indivizi studiu.
asemănătoare cu cele care fac obiectul
2) eşantionare aleatorie sistematică -
cercetării, numite eşantioane.
fiecare al n-lea (ex: al 10-lea) membru este
Ideea fundamentală a modelului selecţionat dintr-o listă a populaţiei,
populație-eșantion este extrapolarea începând de la o poziţie aleasă aleatoriu.
concluziei de la parte (eșantion) la întreg
3) eşantionare aleatorie stratificată -
(populație), pe baza calității eșantionului de
participanţii sunt selectionaţi aleatoriu din
a fi reprezentativ. În ceea ce privește
grupuri, subgrupuri sau straturi ale
rezultatul, acesta nu are un caracter de
populaţiei (ex: stratul între 18-25 de ani,
certitudine, ci reprezintă o estimare
bărbaţi/femei). Straturile sunt realizate în
probabilistă bazată pe datele măsurate la
funcţie de categorii ale unor caracteristici ale
nivelul realității investigate prin intermediul
populaţiei (vârstă, sex) care pot influenţa
eşantionului.
variabilele analizate în cadrul studiului
Rațiunea fundamentală a eșantionului statistic.
este aceea de a reprezenta cât mai fidel cu
4) eşantionare aleatorie multistadială
putință populația din care este extras. În
(cluster, ciorchine) - grupurile sunt
ciuda simplității de principiu, constituirea
selecţionate aleatoriu şi toţi membrii unui
eșantioanelor reprezintă o problemă
grup selecţionat sunt testaţi (ex: testăm
complexă, de care depinde în mod crucial
comportamentul liceenilor şi alegem clasele
valoarea concluziilor unei cercetări.
a XII-a din toate liceele pentru a forma un
Un eşantion este reprezentativ când cluster). Acest tip de eșantionare este
variabilele măsurate în eşantion au aceleaşi specific cercetărilor pe scară largă, care
caracteristici ca şi ale populaţiei din care a acoperă arii geografice mari.
fost extras. Procedura fundamentală pentru
Alegerea categoriilor și numărul lor
constituirea unui eşantion reprezentativ este
depinde de resursele disponibile şi de
selecţia aleatorie (randomizarea). În
obiectivele cercetării. Să presupunem că
tehnicile de randomizare toţi membrii
dorim să studiem opinia medicilor de familie
populaţiei au aceeasi şansă de a fi
din țară cu privire la introducerea unui nou
selectionaţi într-un eşantion şi toate
sistem de codificare a patologiilor. În acest
posibilele eşantioane au aceeaşi şansă de a fi
caz, putem selecta aleatoriu patru județe, în
folosite în cercetare.
interiorul județelor respective putem selecta
Deoarece criteriul de bază este este aleatoriu câte două orașe, iar la nivelul
alegera bazată pe probabilităţi, avem: fiecărui oraș selecționăm aleatoriu un număr
de cabinete de medicină de familie.
I) Tehnici de eşantionare probabiliste
II) Tehnici de eşantionare
1) eşantionare aleatorie simplă - fiecare
nonprobabiliste
membru al populaţiei are aceeaşi şansă de a
fi selecţionat. Se creează o listă cu toţi 1) eşantionare de convenienţă -
membrii populaţiei, fiecare primind un selecţionăm participanţii apţi, disponibili
număr de ordine, apoi se generează o listă cu (atenţie la deformarea prin voluntariat; cei
numere aleatorii de dimensiunea dorită a care se oferă să participe pot avea anumite
eşantionului, iar indivizii cu poziţiile date de caractersitici diferite de cei care nu se oferă).

93
Informatică Medicală și Biostatistică

2) eşantionare prin evaluare - se - mărimea echipei de cercetare;


alcătuieşte un eşantion despre care
-tema cercetării, dacă vizează situații
cercetătorul crede că e reprezentativ, dar nu
rare.
este ales aleatoriu.
3) eşantionare pe cote - se stabilesc
anumite cote, proporţii din populaţie (de 2.1.3.4. Variabile statistice
exemplu, dacă într-o anumită populație
femeile sunt în procent de 63%, atunci și în
eșantion vom avea acelaşi procent de femei). O caracteristică prezentă la toţi indivizii
dintr-o populaţie statistică, dar care se
4) eşantionare prin identificare schimbă de la individ la individ sau la același
(snowball) - potenţialii participanţi sunt individ în timp sau ca răspuns la condițiile
identificaţi de participanţii deja aleşi pe baza externe se numește variabilă.
unor criterii prin care şi ei au fost
selecţionaţi. Caracteristicile sunt ceea ce în limbajul
obișnuit înțelegem prin atribut, calitate.
2.1.3.3.1. Stabilirea dimensiunii eşantionului Atributele ce caracterizează organismul
În funcţie de tipul variabilelor studiate: uman și prezintă interes medical, sunt extrem
numerice, alfanumerice sau împărţite în de multe.
categorii, există tehnici specifice prin care se Cele mai simple sunt cele
estimează dimensiunea minimă a antropometrice, adică înălțime, greutate,
eşantionului pentru ca rezultatele studiului să circumferința toracelui, circumferința
se încadreze în limita de eroare dorită de cei craniului, culoarea părului, a ochilor,
care proiectează studiul, cu condiţia ca lotul constituția corporală și multe altele.
să fie reprezentativ, adică să reproducă
distribuţia din populaţie a altor caracteristici Altele caracterizează starea organismului
care influenţează variabila studiată. ca fiziologică sau patologică și sunt de obicei
Dimensiunea eşantionului trebuie calculată obținute cu ajutorul instrumentelor sau
având în vedere anumite criterii de referință, analizelor de laborator, însă pot fi şi aprecieri
cele mai importante fiind reprezentativitatea subiective: tensiunea arterială (presiunea
(capacitatea de generalizare a rezultatului arterială, de fapt), frecvența cardiacă, ritmul
cercetării) şi puterea testului statistic respirator, glicemia, calcemia, hemoglobina,
(probabilitatea de respingere a ipotezei de lipemia, colesterolemia, bilirubina, fosfataza
nul - confirmarea ipotezei cercetării). Aceste acidă, creatinina, antigenul HBs, prezența
aspecte vor fi discutate în capitolul 2.6. Teste albuminei în urină, culoarea urinei,
statistice. consistența ficatului etc.
Uneori, constrângerile impuse de Din punctul de vedere al statisticii
contextul cercetării pot influența la rândul medicale, caracteristicile sunt de două tipuri
lor dimensiunea eșantioanelor. Dintre fundamentale: cantitative şi calitative.
acestea, cele mai frecvente influențe provin - caracteristicile cantitative sunt acelea
de la: care prin natura lor sunt măsurabile, adică
-costurile implicate; pentru care există unități de măsură şi o
convenție de măsurare general acceptată. În
-timpul necesar procedurilor de această categorie intră toate constantele
măsurare; fiziologice, biochimice, biofizice, care în

94
Informatică Medicală și Biostatistică

general pot fi determinate prin măsurători Date numerice – vârstă, greutate, talie,
uzuale sau de laborator: înălțime, greutate, hemoglobină, transaminaze, calcemie,
vârstă, glicemie, calcemie, hemoglobină, glicemie etc. Datele numerice exprimă
număr eritrocite, viteză de reacție, nivel de caracteristici cantitative ale indivizilor
inteligență (IQ), dar și mărimile referitoare la statistici, care se măsoară direct sau indirect
celule, organite, sinapse, vezicule, şi pot fi continue, adică pot avea orice
membrane etc. Ele sunt totdeauna exprimate valoare (întreagă sau zecimală), sau discrete,
cifric într-un mod precis, obiectiv. adică variabila pe care o reprezintă poate
avea doar anumite valori bine definite (de
- caracteristicile calitative sunt cele care
exemplu, numărul de copii pentru o familie
nu pot fi măsurate prin metode obiective,
poate avea valorile 0, 1, 2 ş.a.m.d., nu 0,5 sau
cantitative, ci se exprimă descriptiv prin
1,33).
termeni calitativi: culoare, formă,
consistență, aspect etc. Caracteristicile Între aceste două tipuri principale se
calitative nu au o unitate de măsură general înscriu datele ale căror valori posibile sunt
acceptată și deci nu pot fi exprimate numeric, reprezentate de categorii, pentru
ca rezultat al unor măsurători, fiind adesea înregistrarea cărora se pot folosi un număr
subiective. finit de simboluri. Acestea, la rândul lor,
sunt:
Date nominale – codul bolii, grupa
2.1.4. Tipuri de date
sanguină, consistenţa ficatului, culoarea
ochilor etc. Codurile folosite nu au o ordine
clară, logică, iar denumirile categoriilor sunt
Un criteriu de clasificare a datelor foarte
doar nişte etichete, diferenţele calitative
important se referă la simbolurile pe care le
dintre ele neavând şi un echivalent cantitativ.
folosim pentru a reprezenta datele
experimentale pe care dorim să le Date ordinale – stadiul evolutiv al unei
înregistrăm și care sunt dependente de natura boli, gradul de rudenie, anul de studii etc.
intrinsecă a datelor. Codurile folosite au o ordine clară, iar
încadrarea într-o anumită categorie implică
Din acest punct de vedere avem mai
şi posibilitatea unor diferenţieri cantitative,
multe categorii de date:
pe lângă cele calitative. Deosebirea față de
Date alfanumerice – nume, prenume, caracteristicile nominale, deși pare
adresă, loc de muncă, descrierea bolii, neimportantă, conduce la principii diferite de
reprezentate prin litere, cifre sau alte tratare statistică și, de aceea, este important
simboluri, care, în general, se consideră că de stabilit dacă o caracteristică o înregistrăm
sunt date de tip text. Trebuie să fim atenţi ca nominală sau ordinală. Măsurătorile pe
deoarece unele date alfanumerice pot fi scala ordinală sunt ordonate. Totuși,
reprezentate doar prin cifre (numerele de intervalele între două clase consecutive nu
telefon, codul numeric personal – CNP, un sunt în mod necesar egale. De exemplu, dacă
număr de ordine într-un tabel), însă putem un pacient apreciază starea de confort indusă
verfica rapid dacă este vorba de date de un medicament contra astmului pe o scală
numerice sau de un simplu text, încercând să de la 0 la 3, diferența între 0 și 1 nu este
efectuăm operaţii matematice cu ele şi neapărat egală cu diferența între 1 și 2, sau
observând dacă rezultatele acestora au sens între 2 şi 3
sau nu.

95
Informatică Medicală și Biostatistică

Datele împărţite în categorii sau clase au exclusive (un individ nu poate să aparţină
următoarele caracteristici: decât unei categorii, nu poate fi inclus în
două categorii în același timp), iar datele sunt
-sunt exhaustive (fiecare individ aparține
de tip nominal (denumirile A şi B au fost
unei singure clase)
alese în această ordine, din întâmplare, cele
-sunt mutual exclusive (nici un individ nu doua antigene diferind foarte puţin).
poate aparține la două clase, simultan)
Datele înregistrate ca numere sau prin
-doi indivizi din aceeași clasă sunt simboluri convenite se numesc scalate (se
echivalenți pe scala respectivă (chiar dacă înregistrează pe o scală, de exemplu scala
pot fi diferiți din alte puncte de vedere). analog-vizuală, scala Likert), în timp ce
Numărul claselor folosite este relativ mic, restul se numesc alfanumerice.
sub zece, de obicei fiind folosite trei-patru Există o legătură între modul de măsurare
categorii. Un caz particular îl reprezintă și metodele statistice folosite. De exemplu,
datele dihotomice, cu două categorii, de tip este absurd să calculăm media datelor
da-nu, absent-prezent, pozitiv-negativ. nominale. Folosirea mediei pentru datele
De exemplu, pentru grupa sanguină, ordinale este şi ea controversată. Pentru
simbolurile 0 I, A II, B III, AB IV sunt calculul mediei sau a altui indicator statistic
categorii exhaustive (orice individ sigur se ce impune calcule trebuie să avem date
regăseşte într-una din ele) și mutual numerice.

Figura 2.1.1.Tabel cu date de diverse tipuri


În figura 2.1.1, relaţiile dintre tipurile de -anul este o variabilă ordinală, deoarece
date şi variabilele înregistrate sunt reprezintă categorii cu o ordine clară în care
următoarele: sunt încadraţi subiecţii
-numele şi prenumele sunt date
-numărul curent este o variabilă
alfanumerice, de tip text
alfanumerică, deoarece reprezintă un cod de
identificare
96
Informatică Medicală și Biostatistică

-sexul şi mediul de rezidenţă sunt date de introduce într-o celulă a unui tabel trebuie să
tip nominal, deoarece sunt reprezentate prin nu mai poată fi descompusă în informaţii mai
categorii între care nu există o ordine simple, dar care încă au un înţeles propriu.
predefinită
De exemplu, în momentul în care se
-vârsta este o variabilă numerică
înregistrează adresa cuiva (Tabelul 2.1.1),
-decada de vârstă reprezintă o variabilă
informaţia furnizată iniţial va fi de forma:
de tip ordinal, derivată din vârstă
-profesia este o variabilă de tip nominal Tabelul 2.1.1. Înregistrarea adresei
-stadiul este o variabilă de tip ordinal
ADRESA
Str. Calea Bucureşti, Nr.23, Bl. A7, Sc.II,
Et.3, Ap.10, Craiova, jud.Dolj
2.1.5. Principii de bază. Principiul
Craiova, Str. Tudor Vladimirescu, Nr.8
atomicităţii
Bucureşti, Sectorul 1, B-dul Iancu de
Hunedoara, Nr.17, Bl.3, Sc.B, Ap.119
Un atom este definit ca fiind cea mai mică Din punctul de vedere al unui statistician,
parte dintr-un element chimic care mai ar fi mai indicat ca informaţia reprezentată
păstrează însușirile chimice ale elementului de adresă să fie divizată în informaţiile
respectiv (conform DEX). O unitate atomică componente, referitoare la oraş, stradă,
de date reprezintă cea mai mică parte dintr-o numărul imobilului, numele blocului etc
informaţie complexă care încă are un sens (Tabelul 2.1.2).
propriu clar, precis. Principiul atomicităţii se
referă la faptul că informaţia care se
Tabelul 2.1.2. Înregistrarea adresei într-o bază de date electronică
Oraş Judeţ/ Sector Strada Număr Bloc Scară Etaj Ap.
Craiova Dolj Calea Bucureşti 23 A7 II 3 10
Craiova Dolj Tudor Vladimirescu 8
Bucureşti Sectorul 1 Iancu de Hunedoara 17 3 B 119
Tabelul 2.1.3. Înregistrarea simptomelor într-o foaie de observaţie
dureri epigastrice, varsaturi alimentare precoce postprandial, scadere ponderala marcanta
astenie fizica marcata, inapetenta, scadere ponderala
astenie fizica; inapetenta
dureri epigastrice, greturi, scaune melenice, astenie marcata
alterarea starii generale, scadere in greutate, astenie fizica, dureri abdominale; varsaturi
disfagie cu caracter progresiv, epigastralgii,astenie fizica, scadere ponderala
alterarea starii generale, scadere in greutate, inapetenta, varsaturi incoercibile
dureri abdominale, melena
inapetenta, varsaturi bilio-alimentare
scadere ponderala, dureri in epigastru, balonari postprandiale, ameteli, astenie fizica marcata
dureri in epigastru, greturi, varsaturi

97
Informatică Medicală și Biostatistică

În medicină, în foile de observaţie ale


pacienţilor putem regăsi frecvent
Tabelul 2.1.4. Înregistrarea tensiunii arterile
simptomele notate ca în Tabelul 2.1.3.
Ar fi mai bine, pentru o prelucrare TA TAs TAd
statistică mai uşoară, să creăm câte o coloană
140/90 140 90
separată pentru: dureri epigastrice, greţuri,
vărsături, melenă, inapetenţă, scădere 140/100 140 100
ponderală, astenie fizică, în care să notăm 150/100 150 100
numai DA sau NU. 130/95 130 95
Un alt exemplu este legat de tensiunea
120/95 120 95
arterială, pentru care, în mod curent, se
raportează două valori: tensiunea arterială 140/100 140 100
maximă sau sistolică, respectiv tensiunea 140/95 140 95
arterială minimă sau diastolică. În foile de 150/100 150 100
observaţie, de obicei, vom găsi cele două
170/110 170 110
valori scrise în acelaşi loc, separate printr-o
bară, însă într-un tabel ce urmează să fie 140/90 140 90
folosit pentru prelucrări statistice este mai 150/100 150 100
util să creăm două coloane, în care să notăm 130/100 130 100
individual tensiunea sistolică şi pe cea 130/80 130 80
diastolică (Tabelul 2.1.4).
Un alt principiu care ar trebui respectat la 170/120 170 120
înregistrarea datelor ar fi acela de a crea o 140/85 140 85
coloană prin care să se numeroteze liniile
tabelului sau să li se atribuie nişte coduri
unice, indiferent dacă softul o face automat,
pentru a putea reveni oricând la ordine
iniţială, de la introducerea datelor, şi pentru
a avea o modalitate sigură de a le diferenţia
în mod unic. Prin urmare, coloana respctivă
ar fi o cheie primară artificială pentru acel
tabel.

98
Informatică Medicală și Biostatistică

2.2. Indicatori statistici date numerice putem folosi indicatori


statistici obţinuţi prin calcule matematice,
care nu ar avea sens să fie utilizaţi pentru
date ordinale reprezentate prin numere (dacă
2.2.1. Serii statistice
stadiile unei afecţiuni sunt notate cu 1,2,3,4,
nu ar avea sens să calculăm valoare medie a
În cadrul unui studiu statistic, după ce am stadiilor unui grup de pacienţi).
stabilit metodologia de colectare a datelor şi Tot în etapa de organizare a datelor în
componenţa eşantionului pe care îl vom vederea prelucrării statistice se încadrează şi
folosi, urmează etapa de strângere efectivă a operaţiile de sortare şi de selectare.
datelor şi de înregistrare a lor. În acest fel
Sortarea este operaţia prin care
vom obţine datele statistice brute, care
înregistrările sunt aranjate în ordine după un
trebuie organizate şi clasificate pentru a le
anumit criteriu, după o caracteristică pe care
putea prelucra.
toţi indivizii statistici o au şi ale cărei valori
Organizarea datelor presupune au o regulă de ordonare. Putem realiza
identificarea valorilor variabilelor care fac sortare ascendentă (numeric în ordine
obiectul studiului statistic şi gruparea lor în crescătoare, alfabetic de la A la Z) sau
serii de valori. De obicei, datele vor fi sortare descendentă (numeric în ordine
înregistrate cu ajutorul unor baze de date descrescătoare, alfabetic de la Z la A).
create într-un program de calculator
Exemple: sortare după vârstă, după nume,
specializat, în tabele ale căror rânduri
după anul naşterii, după stadiul unei
reprezintă indivizii statistici, iar coloanele
afecţiuni, după durata de supravieţiure.
reprezintă variabilele; prin urmare, seriile
statistice vor fi şirurile de valori reprezentate Sortare multicriterială reprezintă sortarea
de datele de pe o coloană a unui astfel de în care se ţine cont de două sau mai multe
tabel. criterii. Iniţial, datele se sortează după
primul criteriu şi, dacă există valori egale, se
În practică, seriile statistice vor avea
sortează doar acele înregistrări şi după al
denumirea variabilei pe care o reprezintă:
doilea criteriu.
nume, sex, mediu de rezidenţă, vârstă,
înălţime, greutate, glicemie, tensiune Exemple: sortarea după nume şi
arterială. Teoretic, vom nota o variabilă cu o prenume, sortarea după sex, mediu de
literă majusculă (X, Y, Z), numărul de rezidenţă şi vârstă, sortarea după tipul de
elemente din serie va fi notat cu N, iar cancer, stadiul de evoluţie în cancer şi durata
valorile individuale vor fi notate cu litera supravieţuirii.
respectivă, mică, urmată de un indice care
Selectarea sau filtrarea este operaţia prin
arată poziţia din serie, de la 1 la N. De
care o parte a înregistrărilor unui tabel este
exemplu, seria X va conţine valorile x1, x2,
temporar îndepărtată, rămânând numai
x3,...xi,...xn.
înregistrările care îndeplinesc o condiţie
Clasificarea datelor înseamnă cerută de utilizator, după un anumit criteriu
identificarea tipului de date reprezentat prin clar stabilit, o condiţie pe care trebuie să o
fiecare variabilă, etapă care este simplă, dar îndeplinească valorile unei caracteristici pe
importantă, deoarece tipuri diferite de date care toţi indivizii statistici o au. Putem crea
au modalităţi diferite prin care pot fi condiţii de filtrare complexe, folosind
prelucrate şi prezentate. De exemplu, pentru operatori logici şi de comparaţie: şi, sau,

99
Informatică Medicală și Biostatistică

egal, diferit (not equal), mai mare, mai mic, pot fi de ordinul sutelor, miilor sau chiar
folosind una sau mai multe variabile prin milioanelor, de aici şi utilitatea și importanța
care sunt descrişi indivizii. lor în statistică.
Exemple: selectarea femeilor, selectarea Ceea ce trebuie urmărit la o serie de
celor din mediul urban, selectarea celor cu valori numerice este modul în care valorile
vârsta de 18 ani, selectarea celor cu vârste din serie sunt distribuite între limitele ei,
mai mari de 65 de ani, selectarea celor cu dacă există o zonă în care valorile tind să se
numele după litera M în ordine alfabetică, concentreze, dacă datele sunt apropiate ca
selectarea bărbaţilor din mediul rural, valoare între ele, dacă există diferenţe mari
selectarea celor care au cancer pulmonar şi între valorile prezente în cadrul seriei. După
stadiul de evoluţie mai mare sau egal cu aspectele pe care le prezintă, vom vorbi
stadiul III. despre indicatori statistici ai tendinţei
centrale, ai împrăştierii datelor şi ai
asimetriei seriei de valori.
2.2.2. Indicatori statistici pentru date
numerice
2.2.2.1.Valori extreme. Amplitudine

În continuare vom descrie modul în care,


prin aşa-numiţii indicatori statistici, se pot Cei mai simpli indicatori statistici sunt
prezenta în rezumat informaţii despre seriile minimul şi maximul. Ei reprezintă extremele
de valori numerice, precum şi cei mai unei serii numerice, minimul fiind cea mai
importanţi indicatori. mică valoare, iar maximul cea mai mare.
Indicatorii statistici sunt numere reale, Minimul şi maximul nu se calculează prin
care sintetizează o parte din informația formule matematice, ci se identifică prin
conținută de o serie de valori, dând compararea tuturor datelor sau prin
posibilitatea aprecierii globale a întregii ordonarea seriei.
serii, în loc să ținem cont de fiecare valoare Importanţa acestor doi indicatori este dată
din șir. Ei pot fi calculaţi cu ajutorul unor de faptul că ne arată care este gama de valori
funcţii matematice sau pot fi obţinuţi prin în care se încadrează toate datele din serie.
alte operaţii prin care prelucrăm şiruri de Diferenţa dintre maxim şi minim reprezintă
valori numerice. amplitudinea absolută a unei serii de valori.
Fiecare indicator urmărește să scoată în Dacă o serie are o amplitudine absolută
evidență proprietăți diferite ale șirului de mică, asta înseamnă că datele individuale au
valori. Prin folosirea şi combinarea mai valori apropiate între ele şi că seria este
multor indicatori, obținem informații omogenă. O diferenţă mare între maxim şi
relevante şi sintetice despre valorile șirului. minim nu înseamnă, neapărat, că datele sunt
Dacă în locul șirului propriu-zis folosim o neomogene şi că există diferenţe mari între
serie de indicatori statistici, o parte din ele, deoarece doar una sau două valori pot să
informație se pierde, indicatorii statistici fie mult mai mari sau mult mai mici decât
reținând doar esențialul. Acest lucru nu este restul, ieşind din tiparul obişnuit, creând
atât de grav, deoarece indicatorii statistici astfel o falsă impresie a unei diversităţi
scot în evidenţă, pe scurt, printr-un număr foarte mari. Astfel de valori, care diferă mult
mic de valori numerice, cele mai importante de majoritatea datelor, dacă sunt în număr
aspecte ale datelor din seriile analizate, care mic, poartă numele de „valori aberante” sau

100
Informatică Medicală și Biostatistică

„outliners” şi ar trebui îndepărtate din serie reprezintă valoarea în jurul căreia sunt
în momentul în care calculăm indicatorii situate majoritate datelor. Este un indicator
statistici prin care încercăm să prezentăm statistic simplu de calculat şi de înţeles, în
caractersiticile generale ale seriei respective. acelaşi timp foarte sintetic. De obicei, este un
foarte bun indicator al nivelului general al
Un indicator util în aprecierea diversităţii
valorilor dintr-o serie şi al poziţiei de pe axa
datelor, mai ales pentru serii care conţin doar
numerelor în jurul căreia se grupează datele
valori pozitive, îl reprezintă amplitudinea
individuale, din această cauză media fiind un
relativă, care se defineşte ca raportul dintre
indicator extrem de mult utilizat în statistică.
amplitudinea absolută şi media aritmetică a
valorilor. Amplitudinea relativă se exprimă Media se notează cu litera m (sau cu μ,
ca procente şi din această cauză se poate dacă este vorba despre media teoretică a unei
folosi pentru a compara serii diferite din populaţii). Dacă seria de valori este notată cu
punct de vedere al împrăştierii datelor. o majusculă ca X sau Y, media se notează cu
X sau Y . Media aritmetică a unei serii este
raportul dintre suma valorilor din serie și
numărul lor. Formula de calcul este:
x1 + x2 +......... xn
X = =m
Figura 2.2.1. Indicatorii medie, minim, n
maxim, amplitudine absolută și amplitudine Dacă datele prezintă o distribuţie
relativă normală, naturală, adică nu sunt influenţate
prea mult de factori externi, cele mai multe
valori din serie sunt situate în apropierea
Când lucrăm cu date biologice, adesea mediei, doar o mică parte din ele fiind mult
valorile minimă și maximă dintr-o serie nu mai mici sau mai mari decât acest punct
se înscriu în limitele de normalitate, ceea ce central. Din această cauză se spune că media
nu înseamnă neapărat că seria conține arată tendinţa centrală a unei serii numerice,
măsurători greşite sau aberante. Totuși, de adică valorea în jurul căreia tind să se
obicei, cele mai îndepărtate câteva valori, aglomereze datele.
atât cele mai mici cât și cele mai mari trebuie
verificate pentru a ne asigura că nu este O astfel de aşezare a valorilor din serie
vorba de date eronate. față de medie se poate observa din graficul
punctual de dispersie din partea de sus a
figurii 2.2.
2.2.2.2. Indicatori ai tendinței centrale

Indicatorii tendinţei centrale pentru o


serie de date numerice ne arată care este
valoarea în jurul căreia se concentrează
datele din serie. Aceştia sunt media
aritmetică, mediana şi modul.
Figura 2.2.2. Serii de valori cu aceeași
2.2.2.2.1. Media aritmetică a unei serii
medie, dar cu distribuţii complet diferite,
de valori este principalul indicator care arată
tendinţa centrală a seriei şi, de obicei, valorile de jos fiind mai împrăștiate

101
Informatică Medicală și Biostatistică

Sunt însă şi situaţii în care distribuţia


datelor face ca media să nu mai aibă
relevanţă în aprecierea nivelului general al
valorilor din serie, să nu mai fie un indicator
reprezentativ prin care să apreciem nivelul
majorităţii valorilor. În aceste cazuri, media
devine doar un număr calculat corect printr-
o formulă matematică, dar care nu mai are Figura 2.2.3.Grup de studenţi la Medicină
puterea să facă rezumatul situaţiei reale.
În partea de jos a figurii 2.2.2 este
prezentată o situaţie extremă, în care foarte
multe date au valori mult mai mici decât
media şi foarte multe date au valori mult mai
mari, astfel încât media este situată între cele
două grupuri, într-o zonă cu puţine valori. În
realitate nu se întâlnesc foarte des astfel de
cazuri, însă trebuie ţinut cont şi de acest
aspect, al diferenţelor dintre datele
individuale sau dintre date şi medie, în
momentul în care folosim media ca indicator
al tendinţei centrale. De aceea, este Figura 2.2.4.Grup de elevi şi părinţi
recomandat să se precizeze, atunci când se
prezintă media unei serii de valori, şi o
măsură a împrăştierii datelor sau a Dacă, în cazul studenţilor, media de 19-
distribuţiei lor faţă de medie. 20 de ani este reprezentativă, adică aproape
Pentru a evidenţia importanţa prezentării pentru toţi am fi aproape de adevăr dacă am
celor doua aspecte, legate de tendinţa spune că au această vârsta, în cazul copiilor
centrală şi de împrăştiere, să analizăm o şi părinţilor, dacă am spune că vreunul dintre
situaţie în care comparăm două grupuri ei are vârsta de aproximativ 19-20 de ani am
complet diferite de persoane: greşi foarte mult prin estimarea făcută. În
acest caz, media nu mai este reprezentativă
-un grup format din studenţi la Medicină în deoarece valorile vârstelor din cadrul celui
anul I, care au, majoritatea, vârste de 18-19- de-al doilea grup sunt foarte diferite între ele,
20 de ani, media fiind probabil între 19 şi 20 deci grupul nu este unul omogen.
de ani (figura 2.2.3)
În cazul în care într-o serie avem valori
-un grup format din elevi în clasa I, care vin care se repetă de mai multe ori, o formulă
la deschiderea anului şcolar însoţiţi fiecare simplificată pentru media aritmetică este
de câte un părinte (figura 2.2.4). Copii au dată de:
aproximativ 7 ani, iar părinţii ar putea avea,
x1 ⋅ F1 + x2 ⋅ F2 + ............ + xn ⋅ Fn
cei mai mulţi, vârste între 30 şi 35 de ani. O X =
pereche copil-părinte, prin urmare şi întregul F1 + F2 + ........... + Fn
grup, ar avea vârsta medie de aproximativ unde cu n am notat numărul de valori
19-20 de ani, valoare apropiată de cea a diferite din seria de valori, iar F1, F2, ...,Fn
grupului de studenţi. sunt frecvențele de apariție în serie ale
valorilor x1, x2, ...,xn.

102
Informatică Medicală și Biostatistică

Aceasta este formula pentru media câtorva valori mult mai mari sau mai mici
ponderată. Nu trebuie să credem că media decât celelalte modifică semnificativ media
ponderată calculată cu formula de mai sus și aritmetică.
media aritmetică calculată cu formula
De asemenea, dacă datele sunt distribuite
prezentată anterior sunt indicatori diferiți,
foarte asimetric în jurul mediei, ea își pierde
media ponderată fiind doar o formă mai
din puterea de a evoca tendința centrală, în
simplă de calcul al mediei aritmetice.
aceste cazuri fiind mult mai util un alt
indicator - mediana.
2.2.2.2.2. Mediana este un număr faţă de
care jumătate din valorile seriei sunt mai
mici, iar jumătate sunt mai mari. Mediana nu
se calculează prin formule matematice, ci se
identifică prin ordonarea tuturor datelor din
serie şi găsirea valorii de la mijlocul ei, care
o împarte în două zone egale ca număr de
valori.
Dacă seria are un număr impar de date,
mediana este chiar valoarea din mijlocul
seriei, iar dacă are un număr par de date este,
prin convenţie, este media celor două valori
care se găsesc la mijlocul seriei. De exemplu:
Figura 2.2.5. Exemplu de utilizare a mediei
ponderate -dacă o serie conţine 100 de valori,
mediana va fi suma dintre a 50-a şi a 51-a
valoare din seria ordonată crescător,
De exemplu, în cazul unui studiu în care împărţită la 2;
vrem să analizăm numărul de copii ai
-dacă o serie conţine 99 de valori,
familiilor dintr-o regiune, am înregistra de
mediana va fi exact a 50-a valoare din seria
multe ori valorile 0, 1, 2 şi aşa mai departe.
ordonată crescător.
În loc să prezentăm datele ca o listă de valori
în care se repetă de multe ori aceleaşi Pentru seria de valori ordonate: 3, 7, 13,
numere, prezentăm datele sub forma unui 26, 34, 48, 52, 67, 112, care conţine nouă
tabel de frecvenţe, în care notăm câte familii valori, mediana este a cincea valoare, adică
au avut 0 copii, câte au avut 1 copil, câte au 34. Dacă eliminăm ultima valoare, 112, şi
avut 2 copii etc. Folosind acest tabel putem rămân doar opt valori în serie, mediana va fi
totuşi calcula media aritmetică a numărului media dintre a patra şi a cincea valoare, adică
de copii, dacă facem suma produselor dintre (26+34)/2=30.
numărul de copii al unei familii şi numărul Mediana este un indicator al tendinţei
de familii pentru care am înregistrat acea centrale mai conservator decât media. Dacă
valoare, după care împărţim rezultatul diverşi factori influenţează valorile unei
obţinut la numărul total de familii, ca în variabile şi modifică distribuţia datelor faţă
figura 2.2.5. de cea naturală, simetrică faţă de un punct
Media aritmetică are dezavantajul că este central, media tinde să se deplaseze mai mult
sensibilă la valori extreme fie foarte mici, fie decât mediana în direcţia acţiunii factorilor
foarte mari. Adăugarea uneia singure sau a respectivi, mediana rămânând mai aproape

103
Informatică Medicală și Biostatistică

de valoare în jurul căreia s-ar fi grupat datele arată deviaţia fiecărei valori de la valoarea
în mod normal. De exemplu, dacă pentru un medie.
lot de pacienţi care au fost expuşi la factori
care cresc tensiunea arterială comparăm
media valorilor şi mediana, vom observa că
mediana este mai mică decât media. Fig.2.2.6.Exemplu de distribuţie a valorilor
individuale faţă de medie
2.2.2.2.3. Modul sau valoarea modală
este valoarea care se repetă de cele mai multe
ori în cadrul unei serii, adică are frecvenţa
Unele abateri individuale vor fi pozitive,
cea mai mare. Modul nu ne oferă multe altele negative, iar prin adunare vom obţine
informaţii pentru serii de date continue şi suma 0, deci nu are sens să calculăm o medie
este mai util pentru serii numerice cu valori a abaterilor absolute pentru a descrie
discrete, care se repetă de multe ori. Pentru
împrăştierea seriei.
aceste serii, valorile ajung să se comporte ca
nişte categorii, pentru care are sens să De exemplu, în figura 2.4 avem o serie
calculăm frecvenţa absolută, adică numărul care conţine patru valori: x1, x2, x3 şi x4.
de repetări al unei valori în cadrul seriei. Media lor este m=(x1+x2+x3+x4)/4.
Clasa sau valoarea care corespunde Abaterile individuale absolute vor fi:
frecvenţei maxime se va numi mod. În
general, frecvenţele pentru valorile mai mici x1-m < 0
decât modul au tendinţa de a creşte pe x2-m < 0
măsură ce ne apropiem de mod, după care
urmează o descreştere continuă. În exemplul x3-m > 0
din figura 2.2.5, mod pentru seria de date x4-m > 0
este valoare 1.
Suma acestor abateri va fi:
x1-m+ x2-m+ x3-m+ x4-m = x1 + x2 + x3 +
2.2.2.3. Indicatori de împrăștiere x4- 4·m =
= x1 + x2 + x3 + x4-4·(x1+x2+x3+x4)/4 = 0
Valorile dintr-o serie pot fi mai Dacă pentru exemple concrete vom
concentrate în jurul mediei sau mai observa care diferenţe sunt pozitive şi care
dispersate, adică se află la distanțe mai mari diferenţe sunt negative şi vom putea folosi
faţă de medie. Am văzut în subcapitolul funcţia modul pentru a afla valoarea lor
2.2.2.1 că putem estima prin amplitudinea absolută (adică partea numerică a valorii,
absolută şi prin cea relativă cât de diferite fără semn, practic distanţa dintre fiecare
între ele sunt datele dintr-o serie, însă aceşti valoare şi medie), în teorie noi nu ştim
indicatori nu ne dau informaţii prea exacte dinainte care difereţe sunt pozitive şi trebuie
despre aşezarea reală a datelor între minim şi păstrate ca atare şi care sunt negative şi
maxim sau faţă de medie. trebuie înmulţite cu -1 pentru a obţine o
2.2.2.3.1. Abaterea individuală absolută cantitate pozitivă.
Un mod de a măsura aceste abateri de la 2.2.2.3.2. Dispersia
medie este de a calcula diferențele dintre Un alt mod de a obţine doar cantităţi
valori și media lor. Aceste diferenţe se pozitive din abaterile individuale absolute,
numesc abateri individuale absolute şi ne indiferent dacă ele sunt mai mari sau mai
104
Informatică Medicală și Biostatistică

mici decât zero, şi de a ocoli astfel faptul că calculăm un indicator minus numărul
suma abaterilor individuale absolute este 0, parametrilor estimaţi în paşi anteriori: pentru
este ridicarea la pătrat a acestora înainte de a calculul dispersiei avem n valori
fi adunate. independente, dar este necesară estimarea
Suma obținută ar trebui împărțită la prealabilă a mediei, deci vor fi n‑1 grade de
numărul de abateri pentru a se obține o libertate.
medie. Valoarea care se obține se numește
dispersie şi este un indicator al gradului de
împrăștiere al seriei. În realitate, împărțirea Dispersia se notează cu D și are formula:
se face la n-1 şi nu la n, din cauza ( x1 − X ) 2 + ( x2 − X ) 2 + ....... + ( xn − X ) 2
conceptului de grade de libertate. D=
n −1
Grade de libertate
După cum se observă, numărătorul
În general, prin număr de grade de fracției din definiția dispersiei este cu atât
libertate al unei mărimi se înţelege numărul mai mare cu cât abaterile individuale de la
variabilelor independente a căror variaţie nu medie sunt mai mari și deci este natural să
suferă nicio restricţie şi care definesc considerăm că o valoare mare a dispersiei
mărimea considerată. Altfel spus, numărul arată o împrăștiere mare a valorilor din serie.
gradelor de libertate este egal cu numărul
variabilelor independente, care definesc De fapt, este bine de reținut că:
mărimea considerată, minus numărul de -la medii aproximativ egale, este mai
restricţii la care sunt supuse. împrăștiată seria cu dispersia mai mare;
De exemplu, dacă avem o serie care -la dispersii aproximativ egale, este mai
conţine o singură valoare, media acelei serii împrăștiată seria cu media mai mică.
va fi exact acea valoare şi nu ar exista o
Dispersia are dezavantajul că se exprimă
abatere de la medie, deci nu ar avea sens să
cu unitățile de măsură ale valorilor din serie,
discutăm despre dispersie. Dacă adăugăm
ridicate la pătrat. De exemplu, dacă valorile
încă o valoare la serie, media se poate
din serie se măsoară în mg/l, atunci dispersia
modifica şi pot să apară diferenţe între medie
se măsoară în mg2/l2, ceea ce este în mod
şi cele două valori, deci are sens să vorbim
evident extrem de nenatural; mai grav este
despre împrăştierea valorilor în jurul mediei,
când obţinem unităţi care au sens, pentru că
adică despre dispersie. Dacă vom adăuga o a
se pot crea confuzii: dispersia pentru distanţe
treia valoare, vom avea doi factori care vor
va avea ca unitate m2, care este unitate de
influenţa dispersia datelor. Vom numi aceşti
măsură pentru suprafeţe.
factori „grade de libertate”, iar numărul lor
va fi cu unul mai mic decât numărul de valori Un alt dezavantaj al dispersiei este acela
din serie, adică n-1. Dispersia a n numere are că, în general, are valori foarte mari
n-1 grade de libertate, deoarece pentru a comparativ cu abaterile de la medie. Dacă
obţine o valoare impusă se pot alege arbitrar avem două valori, 10 şi 30, media lor va fi
n-1 valori, a n‑a valoare fiind în acel 20, iar abaterile absolute sunt -10 şi +10.
moment fixată de restricţia ca valoarea să fie Dispersia va avea o valoarea 200, adică
egală cu valoarea impusă. exagerat de mare în comparație cu abaterile
absolute.
Un alt mod de a vedea lucrurile este acela
că numărul gradelor de libertate este egal cu Din aceste motive, pentru a descrie
numărul valorilor independente pentru care împrăştierea valorilor dintr-o serie se

105
Informatică Medicală și Biostatistică

folosește în mod curent un alt indicator care Notând prima serie cu X, iar pe a doua cu
este radicalul dispersiei. Y, se constată că ambele au media 180.
Pentru abaterile de la medie şi pentru
2.2.2.3.3. Deviaţia sau abaterea
pătratele lor vom avea următoarele valori:
standard se notează cu s (sau cu σ , dacă este
vorba despre deviaţia standard teoretică a -xi - X : -10, 0, -20, 0, 10, 10, 0, 10,
unei populaţii), şi are formula: -10, 10. X = 180.
σ = D sau -yi - Y : -20, -10, 10, -20, 10, 10, 20,
( x1 − X ) + ( x 2 − X ) + ....... + ( x n − X )
2 2 2
0, 0, 0. Y = 180.
s=
n −1
-(xi - X )2 : 100, 0, 400, 0, 100, 100, 0,
100, 100, 100.
Abaterea standard este un indicator foarte -(yi - Y )2 : 400, 100, 100, 400, 100, 100,
fidel al împrăștierii seriei şi nu are 400, 0, 0, 0.
dezavantajele dispersiei, adică unitatea de
măsură este aceeași cu a valorilor din serie,
și are o valoare comparabilă cu abaterile În acest caz, Dx va fi:
individuale de la medie.
( x1 − X ) 2 + ( x2 − X ) 2 +.......+( x10 − X ) 2 400 + 6 ⋅100 1000
Abaterea standard este utilă pentru a Dx = = = = 1111,
10 − 1 9 9
aprecia variabilitatea datelor dintr-o serie. În
medicină acest aspect este important, Calculând în mod asemănător, Dy = 1600
deoarece un parametru biologic care variază / 9 = 177,7.
foarte mult poate să însemne că anumiţi Se observă că, în timp ce abaterile de la
factori care îl influenţează nu sunt bine medie sunt de ordinul zecilor, dispersiile
controlaţi. De exemplu, pentru un pacient sunt de ordinul sutelor, ceea ce este destul de
hipertensiv este mai periculos să aibă valori nenatural, și în plus, unitatea de măsură este
foarte mari care alternează cu valori cu totul alta.
normale, decât să aibă în mod constant valori
uşor crescute, dar bine controlate prin Pentru abaterile standard, vom avea:
tratament, deoarece, în primul caz, este mai
sx = D x = 111,1 = 10,54
probabilă apariţia unui accident vascular
care poate să aibă consecinţe foarte grave. sy = D y = 177,7 = 13,33
Pentru a vedea cum analizăm
variabilitatea unor date cu ajutorul deviaţiei Deoarece mediile celor două serii sunt
standard, să presupunem că am măsurat egale, însă deviaţiile standard, care măsoară
zilnic tensiunea arterială sistolică pentru doi împrăştierea datelor, sunt diferite, putem
pacienți, timp de 10 zile, obținând pentru afirma că seria Y are o variabilitate mai mare
fiecare următoarele valori: sau este mai împrăștiată decât seria X.

-170, 180, 160, 180, 190, 190, 180, 190, 170, Este bine de reținut că:
190, pentru primul pacient și -la medii aproximativ egale, este mai
-160, 170, 190, 160, 190, 190, 200, 180, 180, împrăștiată seria cu deviația standard mai
180, pentru al doilea. mare.

106
Informatică Medicală și Biostatistică

-la deviații standard aproximativ egale, 2.2.2.4. Indicatori de asimetrie


este mai împrăștiată seria cu media mai mică.
Dacă mediile şi deviațiile sunt foarte
Atunci când valorile unei serii sunt
diferite, atunci putem face o comparare a
distribuite nesimetric în jurul mediei, acest
împrăştierii dacă se folosește raportul dintre
fapt este imposibil de surprins cu ajutorul
deviația standard şi medie, exprimat în
indicatorilor de dispersie. De aceea, trebuie
procente.
folosiţi alţi indicatori care să pună în
2.2.2.3.4. Coeficientul de variație este evidență și aceste aspecte ale seriilor de
raportul dintre deviația standard şi medie, valori, asimetria sau excentricitatea. Aceşti
atunci când media este diferită de 0, și se indicatori trebuie să descrie numărul de
exprimă în procente: valori care sunt la stânga sau la dreapta faţă
de medie, cât şi depărtarea lor față de medie.
σ
C .V . =
X Unul dintre indicatorii prezentaţi
anterior, mediana, se folosește în combinație
Pentru seriile de mai sus, care au medii cu media pentru aprecierea asimetriei. O
egale, coeficientul de variație este mai mare mediană mult diferită de medie indică
pentru cea mai împrăștiată, adică pentru cea asimetrie puternică, iar o mediană foarte
cu deviația standard mai mare. apropiată de medie indică o tendință spre
C.V.x= 10,5 / 180 = 0,058 = 5,8 %. simetrie.
C.V.y = 13,3 / 180 = 0,073 = 7,3%. 2.2.2.4.1. Cuartilele sunt acele valori
care împart o serie aranjată crescător în
Aprecierea cu ajutorul coeficientului de sferturi, ca număr de valori.
variație se face mai ales atunci când două
serii de valori au medii mult diferite, iar Cuartila Q1 este valoarea dintr-o serie de
valorile absolute ale deviațiilor standard nu valori pentru care un sfert din valorile seriei
ne mai dau o informaţie clară în legătură cu sunt mai mici decât Q1 şi trei sferturi mai
gradul de împrăştiere al datelor din fiecare mari.
serie. De asemenea, coeficientul de variaţie Cuartila Q3 este valoarea dintr-o serie de
ar trebui folosit doar pentru serii cu valori valori pentru care trei sferturi din valorile
doar pozitive sau negative, pentru că, în seriei sunt mai mici decât Q3 şi un sfert mai
cazul în care în serie avem atât valori mari.
pozitive, cât şi negative, media ar putea fi
mai apropiată de zero, iar valoarea deviaţiei Cuartila Q2 este chiar mediana, adică
standard ar putea să fie chiar mai mare decât valoarea care împarte seria în două părţi
media şi ar putea să ne sugereze o egale, ca număr de valori.
împrăştiere a datelor mai mare decât în Cuartila Q0 este minimul unei serii, iar
realitate. cuartila Q4 este maximul.
Prin urmare, în general coeficientul de În mod obişnuit, nu vom folosi denumirea
variație este cel mai fidel indicator al de cuartile decât atunci când ne referim la
împrăștierii unei serii statistice, însă la medii cuartila 1 şi cuartila 3, pentru celelalte
foarte apropiate de 0 își pierde din fidelitate folosind denumirile consacrate, care sunt
și nu este indicat să fie folosit. mai clare: minim, maxim, mediană.

107
Informatică Medicală și Biostatistică

În cazul seriei folosite pentru a factori care influenţează distribuţia datelor,


exemplifica găsirea medianei (3, 7, 13, 26, îndepărtând-o de la o distribuţie naturală,
34, 48, 52, 67), indicatorii de mai sus vor simetrică, cu majoritatea datelor concentrate
avea următoarele valori: în zona centrală.
Cuartila 0 sau minimul = 3 Indicatorii statistici fundamentali
pentru o serie de date numerice sunt media şi
Cuartila 1 = (7+13)/2 = 10
deviaţia standard.
Cuartila 2 sau mediana = (26+34)/2 = 30
La seriile de valori distribuite relativ
Cuartila 3 = (48+52)/2 = 50 simetric, media și deviația standard
Cuartila 4 sau maximul = 67 furnizează cea mai mare cantitate de
informație din informația conținută de seria
de valori. Dacă o serie de valori are o
Cuartilele se folosesc în combinație cu repartiție normală și are suficient de multe
mediana și indicatorii minim şi maxim valori, cei doi indicatori poartă în ei aproape
pentru aprecierea simetriei. Pentru o serie de toată informația necesară pentru a descrie
valori distribuite natural, simetric faţă de seria respectivă. Dacă o serie de valori are
medie, cu majoritatea valorilor concentrate media X şi deviația standard σ, notarea
în jurul acesteia, mediana va avea o valoare celor doi parametri se face sub forma X ± σ.
foarte apropiată de medie şi va fi situată la
La seriile distribuite asimetric, deși se
mijlocul distanţei dintre minim şi maxim.
consideră ca indicatori fundamentali tot
Cuartila 1 şi cuartila 3 se vor găsi simetric şi
media şi deviația standard, sunt mai utile
mai aproape de mediană decât de minim,
mediana și cuartilele.
respectiv de maxim. Prin urmare, diferenţa
dintre mediană şi cuartila 1 va fi aproape Pentru seriile distribuite asimetric, în loc
egală cu diferenţa dintre cuartila 3 şi să folosim media şi deviaţia standard pentru
mediană şi va avea o valoare mai mică decât a descrie datele, vom folosi mediana şi
diferenţa dintre cuartila 1 şi minim, respectiv intervalul intercuartile Q1-Q3, interval în
dintre maxim şi cuartila 3, acestea două fiind care se găsesc jumătate din datele seriei, şi
şi ele aproape egale. anume acea jumătate care ar trebui să fie mai
concentrată în jurul locului spre care tind să
se regăsească valorile seriei. În acest caz,
este încetățenită notarea medianei M şi a
cuartilelor Q1 și Q3 sub forma M[Q1; Q3].
2.2.2.4.2. Decile sunt acele valori care
Figura 2.2.7.Aşezarea faţă de mediană a împart o serie în zece părţi egale, ca număr
cuartilelor 1 şi 3, a minimului şi a de date. Uneori, loturi foarte mari, formate
maximului pentru o serie cu distribuţie din sute sau mii de indivizi, trebuie descrise
naturală, simetrică foarte precis în ceea ce privește modul cum
sunt distribuite valorile. În aceste situaţii se
folosesc indicatorii numiţi decile, care oferă
Dacă, pentru o serie de valori, observăm o descriere a distribuţiei mai bună decât
o poziţionare diferită a cuartilelor 1 şi 3 faţă cuartilele, împărţind numărul de valori în
de minim, mediană şi maxim, înseamnă că, zece grupe, egale ca număr de valori. Sunt 9
pentru datele din acea serie, există anumiţi decile, fiecare corespunzând unui procent de

108
Informatică Medicală și Biostatistică

10%, 20%, ... 90% din lot, asemănător cu variabilitate fiziologică foarte mare, de
cuartilele. Decila 5, sau de 50%, este de fapt exemplu pentru greutatea sau înălţimea
mediana. copiilor la o anumită vârstă, în pediatrie (vezi
figura 2.2.8).
2.2.2.4.3. Centilele (percentilele) sunt
mai rar folosite, doar în studii pe mii de 2.2.2.4.4. Excentricitate (skweness) este
cazuri, de obicei desfăşurate la nivel național un indicator al asimetriei.
sau internațional, sau în studii
Excentricitatea unei serii de valori x1,
epidemiologice, și sunt corespunzătoare
x2,…..xn, se calculează cu formula:
procentelor de 1%, 2%,...99% din lot.
Centila de 25% este cuartila Q1, cea de 50% n

este mediana, iar cea de 75% este cuartila Q3. ∑ (x i − X )3


Centilele de 10%, 20%, 30%….90%, sunt sk = i =1

cele nouă decile. Centilele dau o imagine nσ 3


destul de exactă a distribuției valorilor dintr-
Acest coeficient are valori cuprinse între
o serie de valori foarte mare. Nu are rost să
-1 şi +1. Cu cât o distribuție este mai
calculăm centile pentru serii cu câteva sute
simetrică, cu atât sk tinde la 0.
de valori, pentru că erorile sunt prea mari și
Excentricitatea pentru o distribuție normală
imaginea obținută este deformată.
este zero și orice serie de date simetrice ar
trebui să aibă o excentricitate apropiată de
zero. Excentricități mult diferite de 0, mai
mari de 0,20 sau mai mici de -0,20 arată că
seria este asimetrică. Valorile negative
pentru excentricitate indică date care sunt
asimetrice spre stânga, iar valorile pozitive
indică date care sunt asimetrice spre dreapta
(prin asimetrie spre stânga se întelege că
extremitatea stângă a distribuţiei este mai
lungă în raport cu extremitatea dreaptă). Ca
o regulă generală, la distribuțiile cu
excentricitate pozitivă media este mai mare
decât mediana, iar la distribuțiile cu
excentricitate negativă media este mai mică
decât mediana.
Distribuțiile cu excentricitate pozitivă
sunt mai des întâlnite decât cele cu
excentricitate negativă. În medicină,
Figura 2.2.8. Exemplu de folosire a parametrii biologici sunt modificați în
percentilelor în medicină diverse afecțiuni de obicei în sensul creşterii
valorilor peste normal. Astfel, tensiunea
arterială poate avea, într-un lot de pacienţi,
În practica medicală se folosesc valori normale, crescute sau scăzute. Vom
percentilele de 5% şi de 95%, împreună cu întâlni cu atât mai rar indivizi cu valori foarte
percentila de 50%, adică mediana, pentru a mari, cu cât valoarea respectivă este mai
indica gama de valori considerate normale mare, iar distribuția va avea o coadă spre
pentru unii parametri care prezintă o dreapta, cu o pantă constant descendentă,

109
Informatică Medicală și Biostatistică

fără alte vârfuri locale. La fel se întâmplă şi Formula de calcul a boltirii este:
pentru mulți alți parametric cum ar fi n
bilirubina, transaminazele, colesterolul,
glicemia etc. ∑ (x i − X )4
k= i =1
−3
Totuși, în unele patologii vom întâlni și nσ 4
parametri care se distribuie cu asimetrie spre
stânga: hemoglobina, calcemia, sodiul ionic.
Hemoglobina, de exemplu, se poate distribui
cu frecvență mai mare la valori relativ
normale și cu frecvențe din ce în ce mai mici
pe măsură ce coborâm la valori mai mici.
Figura 2.2.9. Distribuție platicurtică,
Chiar dacă avem o patologie de tip anemie,
mezocurtică şi leptocurtică cu aceeași
ne așteptăm ca frecvența în jurul valorii de 9-
10 g/dl să fie mai mare decât frecvența în medie, dar cu boltiri diferite
jurul valorii de 7-8 g/dl, frecvență care ne
așteptăm să fie foarte mică. 2.2.2.4.6. Scorul z sau scorul standard
Există şi alte formule pentru a estima reprezintă distanţa dintre o anumită valoare
excentricitatea, de aceea, când vorbim dintr-o serie şi media distribuţiei din care
despre excentricitate, trebuie să menționăm face parte, măsurată în abateri standard. Este
şi la ce coeficient ne referim. Iată câteva o modaliatete de a standardiza diferenţa
formule pentru alţi coeficienți de dintre o valoare şi punctul central folosit ca
excentricitate. reper pentu serie, adică media. Formula de
calcul este:
X − Mod
Pearson sk1 = Pearson xi − m
σ zi =
s
3( X − Me)
sk2 = Galton Proprietăţile scorurilor z sunt:
σ
2(Q3 + Q1 − 2 Me) -media unei distribuţii z este întotdeauna
sk3 = Galton egală cu 0 – rezultă din proprietăţile mediei;
Q3 − Q1
(Q − Me) − (Me − Q1 )
sk 4 = 3
-abaterea standard a unei distribuţii z este
întotdeauna 1 – rezultă din proprietăţile
(Q3 − Me) + (Me − Q1 ) abaterii standard.
2.2.2.4.5. Boltirea (kurtosis) este un Prin urmare, transformarea în scoruri z
indicator care descrie forma distribuţiei unei înseamnă transformarea într-o distribuţie cu
serii de date în comparaţie cu o distribuţie m=0 şi s=1.
normală, aşa numita distribuţie mezocurtică.
Seriile cu datele concentrate într-o zonă mică
din întreaga gamă de valori, deci cu un vârf
mai proeminent, se numesc leptocurtice, iar
cele cu distribuţii relativ uniforme se numesc
platicurtice (vezi figura 2.2.9). Boltirea este
un indicator util în aprecierea apropierii
repartiției de repartiția normală, a cărei
boltire este 0.
110
Informatică Medicală și Biostatistică

2.3. Reprezentarea frecvenţei şi gruparea datelor sunt procedee


de prelucrare primară, utilizate atunci când
grafică a datelor numărul de valori este mare. Atunci când
statistice într-un set de date multe sunt distincte nu are
sens să calculăm frecvenţa de apariţie a
fiecăreia în parte, ci se face mai întâi o
2.3.1. Considerații generale grupare a datelor în clase, după care se
calculează frecvenţa de apariţie pentru
fiecare clasă în parte. Frecvenţa F a unei
În capitolul anterior am văzut cum putem clase arată de câte ori apar valori ale
prezenta diverse informaţii despre serii de variabilei x, incluse în clasa respectivă, în
valori numerice folosindu-ne de indicatorii setul de date original. Clasele pe care le
statistici care descriu tendinţa centrală a creăm sunt mutual exclusive (nu există date
datelor, împrăştierea sau asimetria lor. În care să poată fi incluse în două clase diferite)
acest mod realizăm o reprezentare numerică şi sunt exhaustive (oricare din date aparţine
a datelor, însă, în anumite situaţii, putem unei clase), la fel ca şi categoriile pentru
apela la o reprezentare grafică a acestora. datele nominale sau ordinale.
Reprezentarea grafică este mai potrivită În tabelul 2.3.1 avem un exemplu de tabel
decât cea numerică pentru identificarea de frecevenţe care prezintă clase de vârstă.
vizuală a anumitor aspecte ale datelor,
scutindu-ne de explicaţii complicate, de Numărul de valori care se încadrează într-
multe ori fiind adevărată expresia „o imagine o anumită clasă reprezintă frecvenţa absolută
valorează cât o mie de cuvinte”. Această a acelei clase, adică frecvenţa cu care apar
variantă necesită însă o alegere judicioasă a reprezentanţi ai clasei în setul de date
modalităţii de expunere grafică, pentru a nu original. Se numeşte frecvenţă absolută
crea impresii false sau pentru a omite aspecte deoarece ne furnizează o informaţie
importante la care trebuie să răspundă completă şi independentă, care nu trebuie
prezentarea datelor. Pe de altă parte, pusă în relaţie cu o altă valoare. Procentul
descrierea numerică este mai obiectivă şi reprezentat de numărul de valori dintr-o
mai precisă şi, deoarece se completează una clasă, raportat la numărul total de valori din
pe alta, în multe cazuri este util să folosim serie, se numeşte frecvenţă relativă,
combinat cele două modalităţi de prezentare deoarece, pentru a ne forma o imagine
a datelor. completă asupra semnificaţiei ei trebuie să o
punem în relaţie cu numărul total de date din
serie. De exemplu, dacă spunem că 20% din
2.3.2. Tabele de frecvenţe bolnavii depistaţi cu o anumită afecţiune au
decedat pe parcursul ultimelor 12 luni pare
foarte mult, însă, dacă au fost doar 5 bolnavi
După colectarea unui set de date urmează depistaţi, asta înseamnă că doar unul a
prelucrarea lor primară. În afară de decedat, ceea ce poate fi atribuit întâmplării.
calcularea indicatorilor statistici prin care Situaţie este diferită de cea care din 1000 de
rezumăm informaţiile cele mai importante bolnavi au decedat 200, valori care
despre o serie de valori, determinarea sugerează un grad ridicat de obiectivitate.

111
Informatică Medicală și Biostatistică

Tabelul 2.3.1. Prezentarea vârstelor unor pacienţi sub formă de clase din 5 în 5 ani,
împreună cu diferite tipuri de frecvenţă
Nr. Clasa F F cc F cd f F cc F cd
1 25 - 30 5 5 234 2.14% 2.14% 100.00%
2 30 - 35 6 11 229 2.56% 4.70% 97.86%
3 35 - 40 9 20 223 3.85% 8.55% 95.30%
4 40 - 45 26 46 214 11.11% 19.66% 91.45%
5 45 - 50 30 76 188 12.82% 32.48% 80.34%
6 50 - 55 50 126 158 21.37% 53.85% 67.52%
7 55 - 60 53 179 108 22.65% 76.50% 46.15%
8 60 - 65 32 211 55 13.68% 90.17% 23.50%
9 65 - 70 14 225 23 5.98% 96.15% 9.83%
10 70 - 75 5 230 9 2.14% 98.29% 3.85%
11 75 - 80 4 234 4 1.71% 100.00% 1.71%
Total 234 100%

părţi egale, în ordinea crescătoare a valorilor.


Uneori este de folos să se prezinte, pe
Comparând distanţele dintre indicatorii
lângă frecvenţele absolute (F) sau relative (f)
enumeraţi anterior puteam observa tendinţa
brute, pentru fiecare clasă, şi frecvenţele
de concentrare a datelor în anumite zone din
cumulate crescător (F cc, f cc) sau
gama de valori, respectiv împrăştierea lor în
descrescător (F cd, f cd), ca în tabelul 2.3.1.
alte zone.
Informaţiile furnizate de acestea pot fi utile
când scopul studiului statistic nu este doar de O altă metodă prin care putem analiza
a prezenta frecvenţa claselor de valori, ci de distribuţia constă în împărţirea intervalului
a stabili anumite praguri. De exemplu, dacă dintre minim şi maxim în porţiuni egale din
în tabelul anterior vrem să aflăm câte punct de vedere numeric, numite clase sau
persoane au vârsta peste 50 de ani sau cât la categorii, numărând apoi câte valori din serie
sută din totalul pacienţilor au vârste sub 50 se încadrează în fiecare astfel de regiune.
de ani, ar trebui să ne uităm pe coloana F cd Reprezentând clasele prin coloane cu aceeaşi
pentru a vedea că 158 de persoane au vârste lăţime şi cu înălţimi proporţionale cu
peste 50 de ani, respectiv pe coloana f cc numărul de valori din interiorul lor vom
pentru a vedea că 32,48% dintre ele au vârste obţine un grafic numit histogramă. Prin
sub 50 de ani, în loc să facem calcule cu urmare, ca şi informaţie, histograma este de
frecveţele brute, de pe coloanele F sau f. fapt echivalentul grafic al unui tabel de
frecvențe.
Cea mai importantă decizie în construcţia
2.3.3. Graficul histogramă
unei histograme este alegerea lungimii unei
clase. Pentru aceasta, se împarte
amplitudinea absolută la numărul de clase
Am văzut că putem analiza distribuţia
(bare) dorit. De obicei se folosesc 10 clase.
datelor dintr-o serie cu ajutorul medianei,
Numărul de clase poate varia între 8-12
cuartilelor 1 şi 3, minimului şi maximului,
pentru eşantioane de zeci de indivizi şi 15-20
împărţind numărul de date din serie în patru
112
Informatică Medicală și Biostatistică

pentru eşantioane de sute de indivizi. 7,4 ani, ci de 10 ani, iar limitele histogramei
Formula de calcul pentru lungimea teroretică vor fi între 20 şi 100 de ani.
a clasei este:
Vom reprezenta vizual împărţirea în clase
Lungime clasă = a datelor prin graficul de tip histogramă, un
(Maxim – Minim)/număr clase grafic cu coloane care prezintă distribuţia
datelor dintr-o serie de valori. Acesta este un
Mai important decât să avem un număr
grafic în care pe orizontală sunt figurate
fix de clase, stabilit anterior, este ca
clasele din tabel, în ordine, prin segmente de
lungimea acestora să fie relevantă pentru
aceeași lungime, iar pe verticală se prezintă
variabila analizată, în acest sens putând
numărul de indivizi, prin coloane care au
modifica valoarea care reprezintă lungimea
înălțimi proporționale cu frecvențele
clasei, obţinută în urma aplicării formulei de
absolute ale claselor. Forma generată de
mai sus. După ce alegem lungimea clasei,
totalitatea coloanelor ne dă impresia vizuală
putem modifica şi valorile limită între care
pe care trebuie să o interpretăm în sensul
reprezentăm histograma, eventual folosind o
sintetizării informației legate de distrubuţia
valoare mai mică decât minimul sau una mai
datelor, de aşezare a valorilor între minim şi
mare decât maximul, care să fie multipli ai
maxim.
valorii lungimii unei clase. De exemplu,
dacă pentru reprezentarea distribuţiei unei Pentru exemplificare, prezentăm Tabelul
serii de vârste am găsit un minim de 22 de 2.3.2, care sintetizează situația parametrului
ani şi un maxim de 96 de ani, diferenţa dintre „Greutate corporală” la 941 pacienți cu
ele fiind de 74 de ani, nu vom folosi clase de diferite afecțiuni. Graficul din figura 2.3.1
reprezintă datele din tabel.

Histograma greutăţilor
180
160
160
136 130
140
(frecvenţa absolută)
Număr de valori

120 108 106


100
76 84
80
60 46
33
40
17 18
20 10 9
3 5
0
95-100

100-105

105-110
35-40

40-45

45-50

50-55

55-60

60-65

65-70

70-75

75-80

80-85

85-90

90-95

Clasa de greutate (kg)

Figura 2.3.1 Histograma greutăților corporale pentru 941 de pacienți

113
Informatică Medicală și Biostatistică

Tabelul 2.3.2. Greutatea corporală a 941 de loc un proces invers. Este tendința naturală
pacienți, pe clase din 5kg în 5kg pentru cele mai multe variabile care nu sunt
influenţate de factori externi - datele au de
Clasa Greutate (kg) Frecvența cele mai multe ori tendința de a se situa în
1 35-40 3 stânga şi dreapta mediei, fiind din ce în ce
2 40-45 10 mai puține pe măsură ce ne îndepărtăm de
medie. Pe acest grafic nu este figurată media,
3 45-50 17
dar este logic să presupunem că este situată
4 50-55 46 undeva în zona de mijloc.
5 55-60 76
Indivizii care au sub 35 Kg și cei peste
6 60-65 108 110 Kg, probabil foarte puțini sau absenţi, nu
7 65-70 136 au fost luați în calcul. Se obișnuiește totuși
8 70-75 160 ca ei să fie luați în considerare prin
introducerea a două clase speciale care, în
9 75-80 130
acest caz, ar fi fost clasa „sub 35” şi clasa
10 80-85 106 „peste 110”.
11 85-90 84
Modul cum cresc barele poate fi diferit de
12 90-95 33 modul cum descresc, iar analiza acestor
13 95-100 18 diferenţe ne dă informaţii despre asimetria
14 100-105 9 distribuţiei datelor. Deoarece în această
histogramă se observă un maxim situat
15 105-110 5 central, iar barele situate la distanţe egale de
Observăm că din stânga se începe cu bare o parte şi de alta a lui au înălţimi aproape
scunde care cresc în înălțime pe măsură ce ne egale, putem afirma că prezintă o distribuţie
apropiem de clasa din centru, după care are aproape simetrică.

Tabelul 2.3.3. Situația supraviețuirilor în cazurile de cancer mamar - clase de 12 luni


Nr.crt. Supravieţuire Nr.cazuri Procent % Procent cumulat %
1 0-12 luni 672 27.36% 27.36%
2 12-24 luni 446 18.16% 45.52%
3 24-36 luni 368 14.98% 60.50%
4 36-48 luni 249 10.14% 70.64%
5 48-60 luni 196 7.98% 78.62%
6 60-72 luni 172 7.00% 85.63%
7 72-84 luni 126 5.13% 90.76%
8 84-96 luni 98 3.99% 94.75%
9 96-108 luni 45 1.83% 96.58%
10 108-120 luni 32 1.30% 97.88%
11 Peste 120 luni 52 2.12% 100.00%

114
Informatică Medicală și Biostatistică

Histograma supravieţuirii în cancerul mamar


800
672
700
600
(frecvenţa absolută)

500
Număr de valori

446
400 368

300 249
196 172
200
126
100 98
45 32 52
0

108-120 luni

Peste 120 luni


0-12 luni

12-24 luni

24-36 luni

36-48 luni

48-60 luni

60-72 luni

72-84 luni

84-96 luni

96-108 luni
Durata de supravieţuire (luni)
Figura 2.3.2. Histograma corespunzătoare supravieţuirii în cancerul mamar

Pentru a realiza diferența dintre o permite sî observăm uşor concentrarea


distribuție simetrică şi una asimetrică, vom datelor spre valori mici, respectiv numărul
reprezenta printr-o histogramă situația din redus de subiecţi cu durate mari de
tabelul 2.3.3, care descrie situația supravieţuire.
supraviețuirilor în cazurile de cancer mamar
Histograma, ca reprezentare vizuală, ne
pe un lot de 2456 de pacienți.
permite să găsim răspunsuri la anumite
În figura 2.3.2, este reprezentată întrebări legate de distribuţia datelor din
histograma corespunzătoare pentru tabelul seria de valori mai uşor decât dacă ne-am
2.3.3. Se observă că barele histogramei au uita la numerele înregistrare în tabelul de
înălțimi descrescătoare, întocmai ca şi frecvenţe. Totuşi, nu poate înlocui complet
frecvențele absolute ale claselor şi este uşor prezentarea numerică a frecvenţelor,
să identificăm prima coloană ca fiind clasa deoarece nu este capabilă să ne furnizeze
cu numărul cel mai mare de decese. Această răspunsuri la alt gen de întrebări despre date.
histogramă are o asimetrie foarte puternică De exemplu, dacă ne interesează
spre dreapta, adică spre partea unde supravieţuirea medie în cancerul mamar,
descreșterea este mai lentă. adică durata până când 50% dintre persoane
decedează, putem folosi frecvenţa relativă
Tendința observată în această histogramă
cumulată, din tabel, unde observăm că în
este normală, având în vedere fenomenul
clasa 24-36 luni se face trecerea de la un
descris, procesele de supraviețuire fiind de
procent al deceselor de 45,52% la 60,50%.
obicei marcate de o distribuție a valorilor cu
excentricitate spre dreapta, adică spre Histograma din figura 2.3.2 prezintă un
supraviețuiri lungi, majoritatea pacienţilor aspect particular ce trebuie menţionat, legat
decedând precoce. Graficul cu bare ne de ultima clasă, denumită „peste 120 de
115
Informatică Medicală și Biostatistică

luni”. De fapt, în acea clasă sunt cumulate incluse, fie să figurăm lăţimea ei ca fiind
mai multe categorii, de exemplu 120-132 lăţimea tuturor claselor componente.
luni, 132-144 luni etc., şi din această cauză
Vom prezenta mai multe grafice de tip
numărul de valori din ea este mai mare decât
histogramă, care descriu distribuţii diferite,
numărul de valori din clasele care o preced.
întâlnite în practica medicală, pentru a
Pentru a nu crea falsa impresie că frecvenţele
înţelege mai bine ce anume trebuie urmărit
cresc spre final ar trebui fie să împărţim
pe un astfel de grafic şi ce informaţii ne
înălţimea categoriei la numărul de clase
transmit ele.

Histograma înălţimilor
250
223
193
200
(frecvenţa absolută)

172
Număr de valori

142
150
105 107
100
76

50
21 19 11 5
3 9
0 1 1 0 2 1 2 1 2
0
100-105
105-110
110-115
115-120
120-125
125-130
130-135
135-140
140-145
145-150
150-155
155-160
160-165
165-170
170-175
175-180
180-185
185-190
190-195
195-200
< 100

> 200 Înălţimea (cm)

Figura 2.3.3. Histograma taliei pentru 1096 pacienţi, pe clase din 5 în 5 cm

În figura 2.3.3 prezentăm histograma de „prelungire” a spectrului de valori spre


taliei (a înălţimilor) pentru 1096 de pacienți, stânga, spre valori mici.
pe clase din 5 în 5 cm. Este un exemplu de
În figura 2.3.4 avem reprezentată
distribuție cu o ușoară asimetrie spre stânga.
histograma tensiunii arteriale (TAs) la 577
Dacă facem abstracţie de clasele sub 140 cm,
de pacienți cu diferite afecțiuni. Se observă
imaginea care rămâne încă seamănă cu o
o excentricitate puternică spre dreapta,
distribuţie naturală, simetrică. Factorul care
deoarece factorii care determină creşterea
produce asimetria spre stânga este
tensiunii arteriale sunt mai numeroşi şi mai
introducerea în studiu şi a unor pacienţi din
puternici decât cei care determină scăderea
secţiile de Pediatrie, care au înălţimi mai
ei şi, în plus, valori ale TAs foarte mici nu
mici decât adulţii şi care generează senzaţia
sunt compatibile cu supravieţuirea.

116
Informatică Medicală și Biostatistică

Histograma valorilor tensiunii arteriale sistolice


120
98
100
(frecvenţa absolută)
Număr de valori

80
64 62 59
60
45 48 36
40 32
21 28
19 18 16
20
5 5 7 3
0 1 1 2 2 1 2 0 1 1
0
90-100
< 50

100-110
110-120
120-130
130-140
140-150
150-160
160-170
170-180
180-190
190-200
200-210
210-220
220-230
230-240
240-250
250-260
260-270
270-280
280-290
290-300
> 300
50-60
60-70
70-80
80-90

Tensiunea arterială sistolică (mmHg)

Figura 2.3.4. Histograma TAs la 577 de pacienți cu diferite afecțiuni

Histograma valorilor bilirubinei totale


70
60
60
(frecvenţa absolută)

50
Număr de valori

38 39
40

30

20 18
15
12 11 9
10 8 8
6 3
1 2 2 0 0 2
0
0-1
1-2
2-3
3-4
4-5
5-6
6-7
7-8
8-9
9-10
10-11
11-12
12-13
13-14
14-15
15-16
16-17
17-18

Bilirubina totală (mg/dl)

Figura 2.3.5. Histograma bilirubinei totale la 234 de pacienți cu afecțiuni hepatice

117
Informatică Medicală și Biostatistică

Histograma din figura 2.3.5, ce prezintă Figura 2.3.6 prezintă histograma


distribuţia valorilor bilirubinei totală, are o vârstelor la 308 pacienți cu afecțiuni
distribuţie extrem de asimetrică spre dreapta. hepatice. Se observă că graficul are două
Acest lucru se datorează faptului că pacienţii vârfuri. Se spune despre acest tip de
cu afecţiuni heaptice grave ajung să aibă distribuție a datelor că este bimodală. Este un
valori ale bilirubinei mult crescute faţă de lot neomogen, alcătuit din două subloturi,
valoarea normală, care este sub 1,2 mg/dl, o unul cu maximul în jurul vârstei de 40 - 45
parte deloc neglijabilă dintre pacienţi având de ani și celălalt în jurul vârstei de 60 - 65 de
valori de 10-15 ori mai mari, în timp ce mulţi ani. În mod normal, într-un asemenea caz, se
pacienţi au valori aproape normale sau puţin studiază, din punct de vedere al vârstei,
crescute, lucru observat deoarece categoriile fiecare sublot în parte, de exemplu lotul celor
0-1, 1-2 şi 2-3 conţin majoritatea cazurilor care au patologii hepatice care afectează
(137 din 234). Din această cauză histograma vârstele mai tinere, precum hepatita B sau C,
are un vârf foarte apropiat de minim şi o şi, separat, lotul celor care au patologii care
„coadă” lungă spre dreapta. sunt apanajul vârstelor mai înaintate, precum
ciroze de diferite etiologii sau cancere
hepatice.

Histograma vârstelor
45
39 40
40 36
35
(frecvenţa absolută)

31
28
Număr de valori

30
23 24 23
25 22
20
14 15
15
8
10
5
5
0
< 20

25 - 30

30 - 35

35 - 40

40 - 45

45 - 50

50 - 55

55 - 60

60 - 65

65 - 70

70 - 75

75 - 80
20-25

Grupa de vârstă (ani)


Figura 2.3.6. Histograma vârstelor la 308 pacienți cu afecțiuni hepatice

2.3.4. Poligonul frecvențelor unele coloane le-ar putea masca pe altele şi


atunci am avea dificultăţi în interpretarea
imaginilor. Din această cauză, uneori se
În anumite situaţii este necesar să reprezintă valorile claselor doar prin puncte,
comparăm distribuţiile a două variabile prin care marchează mijlocul claselor de pe
intermediul histogramelor. Dacă am orizontală, iar acestea se unesc între ele
suprapune cele două histograme pe un grafic, pentru a reliefa forma distribuţiei. Linia
118
Informatică Medicală și Biostatistică

frântă care rezultă poartă numele de poligon histograma, cât şi poligonul frecvenţelor
al frecvenţelor. Poligonul frecvenţelor se sunt reprezentări cu pierdere de informaţie
poate realiza şi din histogramă, prin unirea faţă de datele originale, deoarece prezintă
mijloacelor laturilor superioare ale barelor. doar câte valori se găsesc între anumite
limite, nu valorile exacte ale datelor.
Prin urmare, histograma şi poligonul
frecvențelor conțin exact aceeași cantitate de În figura 2.3.7 este reprezentat un
informație, dacă au la bază același tabel de exemplu pentru modul cum se obține
frecvențe. Trebuie precizat că atât poligonul frecvențelor din histogramă.

Histograma vârstelor şi poligonul frecvenţelor


60 53
50
50
(frecvenţa absolută)

40
Număr de valori

30 32
30 26

20 14
6 9
10 5 5
4
0
25 - 30

30 - 35

35 - 40

40 - 45

45 - 50

50 - 55

55 - 60

60 - 65

65 - 70

70 - 75

75 - 80
Grupa de vârstă (ani)
Figura 2.3.7. Poligonul frecvențelor obținut prin unirea mijloacelor laturilor superioare ale
barelor unei histograme

Deși oferă o imagine foarte bună a Histograma este influențată în ceea ce


modului cum sunt distribuite valorile din privește forma de anumiţi factori, cum ar fi
serie pe clase, poligonul frecvențelor este numărul de valori pentru care se face
mai puțin folosit decât histograma, deoarece reprezentarea sau numărul de clase ales, deci
aceasta crează o imagine compactă, care are ne poate da o informație mai mult sau mai
un impact vizual mai puternic în momentul puțin valoroasă în funcție de aceştia.
în care dorim să evaluăm forma distribuţiei.
Ca şi în cazul celorlalți indicatori
Poligonul frecvenţelor este mai util când
statistici, vom considera histograma ca
vrem să analizăm variabilitatea sau evoluţia
având înmagazinată informație cu atât mai
valorilor de la o clasă la alta, pentru că atrage
corectă cu cât avem un număr mai mare de
atenţia asupra inflexiunilor de pe grafic. În
indivizi în lotul pe care ea îl reprezintă.
realitate, între cele două grafice nu există o
diferență calitativă.

119
Informatică Medicală și Biostatistică

Figura 2.3.8. Influența lungimii claselor asupra aspectului unei histograme


În figura 2.3.8 este exemplificată -un număr prea mare de clase duce la o
influența lungimii claselor asupra aspectului ascundere a esențialului de către aspectele
unei histograme. La fiecare histogramă, s-au nesemnificative, generând o variabilitate
folosit 738 de valori obţinute de la pacienți prea mare de la o clasă la următoarea.
la care s-a măsurat hemoglobina. Ceea ce se
În ceea ce priveşte aleagerea numărului
modifică de la o histogramă la alta este
de clase, se recomandă ca:
lungimea claselor și, implicit, numărul de
clase. Se observă că lungimi prea mari (din -pentru câteva zeci de valori să se
5 în 5, din 4 în 4, din 3 în 3, din 2 în 2 și din aleagă maximum 6 - 8 clase;
1,5 în 1,5) dau histograme care nu -pentru câteva sute de valori să se
furnizează destule informaţii. Lungimi prea aleagă între 10 şi 15 clase;
mici (din 0,5 în 0,5, din 0,25 în 0,25) dau
prea multe detalii inutile. Cele mai potrivite -pentru câteva mii de valori să se aleagă
lungimi în acest caz sunt din 1 în 1 și din peste 15 clase.
0,75 în 0,75. Nu se recomandă folosirea a mai mult de
Ca regulă generală, este bine să se rețină 20 - 30 de clase decât în cazuri speciale, în
că: studii cu multe mii de cazuri. Nici mai puțin
de 4 - 6 clase nu este recomandat să se
-se pierde cu atât mai multă informație folosească. Nu se recomandă folosirea
cu cât numărul de clase este mai mic, deci histogramelor dacă nu avem cel puțin câteva
nu se recomandă histograme cu 2-4 clase;

120
Informatică Medicală și Biostatistică

zeci de valori. De exemplu, pentru o serie de o curbă de repartiție. În plus, oferă o idee mai
15 valori nu se face o histogramă. clară despre cum se obţine o curba de
repartiție.
Numim eveniment orice rezultat al unui
2.3.5. Curba densității de
experiment. Evenimentele pot fi sigure,
probabilitate imposibile sau întîmplătoare, cu o anumită
probabilitate. În cazul nostru, prin eveniment
vom înţelege ca variabila analizată sa aibă o
Pe măsură ce mărim numărul de clase
anumită valoare, aleasă anterior.
dintr-o histogramă, lungimea claselor scade
Probabilitatea (p) unui eveniment este
foarte mult, astfel încât obținem histograme
raportul dintre numărul de cazuri favorabile
cu coloane din ce în ce mai fine. În acest fel
producerii lui (n) şi numărul total de cazuri
obţinem o apropiere din ce în ce mai mare de
posibile (N): p=n/N.
repartiția reală a datelor, până când ajungem
să reprezentăm fiecare valoare în mod Noţiunea de probabilitate este strîns
individual. Problema este că, într-o serie cu legată de noţiunea de frecvenţă relativă.
un număr mic de date, de ordinul zecilor sau Frecvenţele relative reprezintă valori
chiar sutelor, pot să fie variaţii importante experimentale, statistice sau estimaţii ale
între frecvenţele absolute a două valori probabilităţii.
învecinate, ceea ce se traduce printr-o În teoria probabilităților, o funcție a
histogramă cu un aspect zimţat, cu diferenţe densității de probabilitate sau densitatea unei
mari între coloane învecinate. variabile aleatorii continue este o funcție a
Dacă reprezentăm un număr mare de cărei valoare în orice punct dat din setul de
date, pe măsură ce coloanele devin din ce în valori posibile luate de variabila aleatoare
ce mai fine, ele tind să genereze forma unei poate să fie interpretată ca oferind o
curbe. Dacă volumul seriei ar fi extrem de probabilitate ca variabila să fie egală cu acea
mare, de ordinul miilor sau zecilor de mii, valoare.
asemănarea cu o curbă ar fi atât de clară încât În medicină şi biologie, ca şi în celelalte
ochiul nu ar mai putea observa aspectul de domenii de activitate, există o varietate largă
treaptă, mai ales dacă în locul histogramei de curbe ale densității de probabilitate. În
folosim ca reprezentare poligonul figura 2.3.9 sunt prezentate câteva forme de
frecvențelor. Între limitele acelei curbe,
astfel de curbe.
graficul ei şi axa orizontală se vor găsi toate
valorile posibile pe care le poate lua variabila Probabilitatea de producere a unui
analizată. eveniment poate să varieze între 0% şi 100%,
sau, altfel spus, între 0 şi 1. Dacă se
O curbă a densității de repartiție este consideră că aria cuprinsă între curba de
curba care are același aspect cu curba către repartiţie şi axa orizontală este 1 sau 100%,
care tinde poligonul frecvențelor relative, atunci ea poate fi considerată ca fiind o curbă
atunci când numărul de valori dintr-o serie de distribuţie a probabilităţii. Pentru o
tinde la infinit, iar lungimea fiecărei clase exprimare mai clară, în locul termenului de
tinde la 0. curbă a densității de probabilitate, vom folosi
Acest mod de a ajunge la o curbă de termenul de curbă de repartiție, sau mai
repartiție este instructiv prin faptul că oferă simplu, repartiție.
o imagine intuitivă a diferenței dintre o
histogramă sau un poligon al frecvențelor și

121
Informatică Medicală și Biostatistică

Figura 2.3.9. Diverse forme ale curbei densității de probabilitate

Prin urmare, probabilitatea ca, extrăgând extrăgând aleator un individ din populație,
aleator un individ dintr-o populație a cărei valoarea obținută x să fie între a și b
repartiție are o curbă cunoscută și făcând
măsurarea pe acel individ, valoarea obținută
x, să fie situată între două numere a și b 2.3.6. Densitatea Normală (Gauss)
fixate (x≥a și x≤b), este exact aria cuprinsă
între curbă, axa orizontală şi cele două
verticale în a și b (figura 2.3.10). Pe măsură ce statistica a evoluat, s-a
demonstrat că unele din curbele densității de
probabilitate joacă un rol foarte important în
știință în general şi în medicină în special.
Astfel, multe fenomene din știință se petrec
astfel încât deviațiile stânga-dreapta de la
medie ale măsurătorilor pe care le facem sunt
repartizate simetric şi nu la întâmplare, şi
tind să fie distribuite foarte asemănător cu o
anumită formă care se numește curba
densității normale sau curba Gauss. Uneori,
Figura 2.3.10. Aria cuprinsă între curbă, axa graficul funcției este denumit “clopotul lui
orizontală şi două verticale în dreptul Gauss” datorită formei lui deosebite,
numerelor a şi b este probabilitatea ca, asemănătoare unui clopot.

122
Informatică Medicală și Biostatistică

Curba Gauss a jucat în istoria științei și cazuri tinde la infinit, iar lungimea claselor
are şi acum un rol foarte important, iar în se apropie de zero.
medicină foarte mulți parametri legați de
Curba normală mai este cunoscută sub
organismul uman, de legile fundamentale ale
denumirea de legea Gauss-Laplace sau legea
viului, sunt repartizați după această curbă.
normală și apare pentru prima dată într-o
Formula curbei lui Gauss este: lucrare a matematicianului Moivre (1667-
( x − m) 2
1754), apoi în lucrările lui Pierre Simon de
1 − Laplace (1749-1827). Celebră este făcută de
f ( x) = ⋅e s2
lucrările matematicianului, fizicianului şi
s 2π
astronomului Carl Friedrich Gauss (1777-
Se observă că această curbă depinde de 1855). Utilitatea acestei repartiții se
doi parametri, m și s, şi ea este perfect datorează faptului că multe fenomene din
determinată în momentul în care se cunosc natură se supun exact sau cu aproximaţie
acești parametri. Deoarece curba descrie acestei legi. Printre altele, deviațiile stânga-
repartiția unei populații, cei doi parametri dreapta de la medie ale erorilor de măsurare
reprezintă media (m) și abaterea standard (s) urmează această lege simetrică şi erori din ce
ale populației respective. Chiar dacă se în ce mai mari sunt din ce în ce mai rare. S-a
consideră de obicei că pentru variabilele demonstrat că multe repartiții empirice
folosite uzual în practica medicală valorile întâlnite în practică pot fi aduse la o repartiție
medii sunt cunoscute și se cunosc și așa- Gauss prin transformări simple și în felul
numitele intervale de normalitate, în realitate acesta devin mai ușor de studiat.
se cunosc doar foarte bune aproximări ale lor
Trebuie reținut că repartiția Gauss are
obținute pe baza unor studii foarte atente, pe
loturi largi. Valorile reale ale mediei şi următoarele proprietăți importante:
deviației standard pentru o populație 1.Este simetrică față de media m
distribuită normal, notate cu X și σ, sunt 2.Are maximul pentru x = m
aproximate cu m și s, care sunt indicatorii
medie şi abatere standard pentru un lot extras 3.Are două puncte de inflexiune, pentru
din populația respectivă. x= m-s și x=m+s

Curba repartiției normale sau curba lui 4.Are două cozi spre + și – infinit care se
Gauss este simetrică faţă de medie, unde are apropie din ce în ce mai mult de axa
şi valoarea maximă. Prin analiză matematică orizontală, fără să o atingă
se arată că graficul acestei funcții are un 5.Mediana şi modul coincid cu media
maxim pentru x=m, două puncte de
6.Deoarece mediana coincide cu media,
inflexiune (în care devine din concavă,
jumătate din aria de sub curbă se află în
convexă) în dreptul valorilor m-s și m+s şi că
stânga mediei și jumătate în dreapta. Deci,
valoarea ei tinde la zero pe măsură ce ne
într-o populație repartizată Gauss, 50% din
îndepărtăm de medie la stânga sau la dreapta.
indivizi sunt sub medie și 50% peste medie
Curba Gauss este simetrică, însă
Repartiția Gauss este de fapt o familie de
niciodată simetria nu este perfectă pe o
repartiții ce depinde cei doi parametri: media
histogramă reală. Prin distribuţie sau curbă
ideală înțelegem curba perfect simetrică și deviația standard.
către care se îndreaptă histograma sau Avem o infinitate de curbe Gauss care au
poligonul frecvențelor când numărul de aceeași deviație standard dar au medii

123
Informatică Medicală și Biostatistică

diferite. Ele sunt identice ca formă, dar sunt


localizate diferit în plan și pot fi suprapuse
prin translații stânga-dreapta. În figura
2.3.11 sunt desenate câteva curbe Gauss care
diferă numai prin medie. Având toate aceeași
deviație standard, au aceeași aplatizare și pot
fi suprapuse prin translații stânga-dreapta..

Figura 2.3.12. Exemple de curbe Gauss cu


parametri diferiţi
Figura 2.3.11. Curbe Gauss cu aceeași
deviație standard
Așa cum am arătat, repartiția normală sau
Dacă fixăm media, dar permitem orice Gaussiană este des întâlnită în studiul
deviație standard, există o infinitate de curbe fenomenelor biologice şi are unele
Gauss care au aceeași medie. Ele sunt proprietăți utile. În biologie, una din
localizate identic stânga-dreapta, dar diferă problemele importante care se pun în
prin aplatizarea mai mult sau mai puțin legătură cu datele pe care le măsurăm este
accentuată. Cu cât valoarea deviației aceea dacă se încadrează sau nu în limitele
standard, adică a lui s, este mai mare, cu atât de normalitate. Repartiția Gauss ne poate
curba este mai aplatizată. Când s ia valori ajuta să dăm un răspuns acestei întrebări, cel
mici, curba este mai înaltă. În figura 2.3.12 puțin pentru acele date care sunt distribuite
sunt desenate mai multe curbe Gauss cu normal, adică nu sunt influenţate major de
deviații standard diferite, trei dintre ele factori externi.
având aceeaşi medie.

Figura 2.3.13. Intervalele importante identificate pe o curbă Gauss


Cunoscând despre o variabilă că are După cum am mai afirmat, pentru o variabilă
repartiție Gauss, se pot deduce unele repartizată normal, procentul din populație
afirmații despre valorile pe care le poate lua. situat între două limite date este aria cuprinsă

124
Informatică Medicală și Biostatistică

între curba Gauss, axa orizontală şi cele două cuprinse între -2,58 şi 2,58, 99,9 au scoruri
verticale la limitele fixate. De obicei se cuprinse între -3,30 şi +3,30.
analizează intervalele din jurul mediei,
Există tabele în care putem vedea relaţia
simetrice, cu limite situate la o distanță de
dintre valoarea scorului z şi procentul din
una sau mai multe abateri standard de medie.
totalul datelor care au valori mai mici decât
Cele mai importante astfel de intervale sunt
acel scor (procent care corespune ariei de la
prezentate în figura 2.3.13.
-∞ până la acea valoare). De exemplu,
În intervalul [m-s, m+s] se află aporape o z95%=1,68 – adică 95% dintre valorile
treime, mai precis aproximativ 68% din scorurilor z sunt mai mici decât 1,68. Dacă
indivizii unei populații repartizate normal. dorim să aflăm care este valoare z, astfel
Aceasta însă nu este o majoritate suficient de încât un procent fixat, de exemplu 95%, să
mare pentru a descrie între ce limite sunt fie între -z şi +z, vom căuta z1-α/2, unde α=1-
situate valorile normale măsurate pentru procentul căutat. Pentru 95%, α=5%, deci 1-
indivizii dintr-o populație. α/2=97,5%, iar z97,5%=1,96.
De aceea se ia cel mai adesea în
considerare intervalul [m-2s, m+2s] în care
se situează aproximativ 95% din indivizii
unei populației repartizate normal. Acest
interval este suficient de larg și cuprinde o
majoritate satisfăcătoare a populației, așa că
este cel mai indicat să fie folosit ca interval
de normalitate.
Când avem nevoie de o siguranţă mai
mare pentru caracterizarea valorilor
indivizilor din populaţie, se folosesc
intervale mai cuprinzătoare, ca intervalul
[m-3s, m+3s], în care se situează peste 99%
din populația considerată. În acest caz, însă,
precizia de măsurare este mai mică, deoarece
intervalul este cu 50% mai larg decât pentru
intervalul [m-2s, m+2s], dar siguranţa creşte
cu doar 4%, faţă de intervalul de 95%.
În concluzie, dacă am transforma valorile
datelor originale în scoruri z (reamintim că
scorul z reprezintă raportul dintre diferenţa
unei valori faţă de medie şi deviaţia
standard), aproimativ 68% dintre valori ar
avea scoruri z cuprinse între -1 şi +1,
aproximativ 95% ar avea scoruri z cuprinse
între -2 şi +2, aproximativ 99% ar avea
scoruri z cuprinse între -3 şi +3. Mai precis,
exact 95% dintre date au scoruri z cuprinse
între -1,96 şi +1.96, 99% au scoruri z

125
Informatică Medicală și Biostatistică

2.4. Corelații statistice tendința altui parametru de a se schimba în


același sens sau invers
-tendința unui parametru de a se schimba
2.4.1. Noțiunea de corelație la același individ, de exemplu în timp, iar
modificarea este însoțită de o variație
corespunzătoare a altui parametru, la același
Ideea de corelaţie reprezintă un concept pacient
foarte general, folosit pentru a defini
interdependenţa sau legătura dintre
variabilele observate în populaţii statistice. 2.4.2. Graficul Scatter (punctual)
Termenul apare uneori cu un înţeles
foarte larg, acoperind orice legătură statistică
În afară de cuantificarea matematică a
fie între variabile cantitative, fie între
puterii unei legături, putem face şi o estimare
variabile calitative, fie între ambele tipuri de
mai simplă, vizuală, prin reprezentarea
variabile. În sens restrâns, însă, corelaţia
grafică a relaţiei. Pentru aceasta, folosim
reprezintă o măsură a gradului de legătură
perechile de valori prin care descriem un
statistică dintre variabilele cantitative, care
pacient ca şi coordonate într-un plan X0Y,
se măsoară prin indicatori statistici reuniţi
creând astfel un grafic format din puncte,
sub denumirea de „coeficienţi de corelaţie”.
cunoscut şi sub denumirea de grafic de
Coeficienţii de corelație vor fi folosiţi pentru
împrăştiere sau scatter.
a scoate în evidenţă legături între parametri
cantitativi, care pot fi măsurați, deci sunt Graficul scatter este un grafic care
exprimați prin numere. Prin urmare, nu este foloseşte valorile a doi parametri, amândoi
corect să exprimăm corelații prin astfel de măsurați la mai mulți pacienți, pentru a
coeficienţi, cel puțin nu în sensul definiției reprezenta fiecare pacient printr-un punct,
de mai sus, între parametri calitativi care se astfel:
pot exprima prin simboluri numerice, dar
-pe abscisă (orizontală) este reprezentat
reprezintă, de fapt, date nominale sau
unul din parametri, măsurat la un pacient;
ordinale.
-pe ordonată (verticală) este reprezentat
Cel mai cunoscut şi mai des folosit este
celălalt parametru, măsurat la același
coeficientul de corelaţie r al lui Pearson,
pacient.
numit şi coeficient de corelaţie liniară, care
măsoară gradul de legătură între variabile Graficul Scatter (XY) se foloseşte pentru
distribuite normal, adică gaussian, şi a căror a evalua, vizual, corelația dintre doi
relaţie poate fi descrisă matematic destul de parametri. Acest grafic este extrem de util în
precis printr-o ecuaţie de ordinul întâi, adică statistică, furnizând o informație bogată,
funcţia matematică prin care se defineşte o deoarece nu pierde din informație, ca
dreaptă: y=a·x+b. histograma.
Tendința de corelație o putem înțelege în Pentru a explica noțiunea de corelație,
mai multe sensuri, dintre care două vom exemplifica acest concept prin câteva
interesează mai mult domeniul medicinei: legături între parametri biologici ce
caracterizează organismul uman. În figurile
-tendința unui parametru de a se schimba
următoare sunt redate câteva exemple de
de la pacient la pacient poate fi însoţită de

126
Informatică Medicală și Biostatistică

acest tip întâlnite în practică, reprezentate cunoscute şi sub denumirea de „outliners”.


prin grafice scatter. Acest exemplu ne arată și că unele din
valorile aberante pot fi observate pe graficul
De exemplu, știm cu toții că există o
de corelație.
corelație între înălţime şi greutate. Acest fapt
înseamnă că ne aşteptăm ca persoanele care
au o înălţime mai mare să aibă şi o greutate
corporală mai mare, lucru valabil mai ales în
cazul persoanelor normoponderale.
În figura 2.4.1 fiecare punct de pe grafic
corespunde unui individ, poziţia punctului
de pe orizontală reprezentând înălţimea
individului, iar poziţia de pe verticală -
greutatea. Putem afirma că există o corelație
puternică între înălţime şi greutate, deoarece
norul de puncte are o formă ordonată,
alungită, cu punctele concentrate de-a lungul
unei direcţii ascendente şi ocupând o zonă
bine delimitată din suprafaţa graficului – ele
nu par răspândite la întâmplare. Figura 2.4.2. Graficul de corelație între
viteza de sedimentare a hematiilor la o oră
și la două ore

Figura 2.4.1. Graficul care prezintă relație


dintre înălțime şi greutate
Figura 2.4.3. Graficul de corelație între
tensiunea sistolică şi diastolică
În figura 2.4.2 este dat un exemplu de
pereche de parametri care se corelează foarte
puternic: viteza de sedimentare a hematiilor O altă legătură biologică cunoscută o
(VSH) măsurată la o oră și VSH măsurată la reprezintă corelație între tensiunea arterială
două ore. Norul foarte alungit și subțire arată sistolică şi cea diastolică (figura 2.4.3). Cu
tendința de corelație. Cele câteva puncte care alte cuvinte, tendința de creștere a tensiunii
sunt mult în afara norului arată fie erori de sistolice este însoțită de o tendință de
introducere a datelor, fie valori aberante, creștere și a tensiunii diastolice, iar tendința

127
Informatică Medicală și Biostatistică

de scădere a primei este însoțită de o tendință celuilalt. Astfel, creșterea valorii creatininei
de scădere a celei de-a doua. Observăm că serice este asociată unei scăderi a ratei
forma graficului este mai laxă, mai filtrării glomerulare. Acești doi parametri
împrăştiată, ceea ce ne arată că regula de sunt un exemplu de corelație inversă; în
asociere dintre tensiunea arterială sistolică şi figura 2.4.4 observăm aşezarea punctelor pe
cea diastolică nu este la fel de precisă ca în o direcţie descendentă.
cazul VSH, deci corelaţia este mai slabă.
Vom spune că doi parametri sunt corelați
Şi alte perechi de parametri manifestă o invers dacă, odată cu creșterea unuia, celălalt
comportare asemănătoare: numărul de are tendinţa să descrească (au tendință
eritrocite şi hemoglobina, colesterolemia și inversă de variație).
lipemia etc. Trebuie subliniat că variația
concomitentă a celor doi parametri se
manifestă numai ca tendință, nu este o
regulă. Pot exista indivizi cu tensiunea
sistolică foarte mare și cea diastolică
normală sau invers, indivizi cu tensiunea
sistolică normală şi cea diastolică scăzută.
Totuși, majoritatea indivizilor manifestă
tendința de a avea valori crescute sau scăzute
pentru ambele, concomitent.
Vom spune că doi parametri care au
tendința de a crește sau descrește simultan
sunt direct corelați.
Figura 2.4.5. Graficul de corelație între
vârstă şi lactat dehidrogenază

În figura 2.4.5 avem reprezentată relaţia


dintre vârsta unor pacienţi cu afecţiuni
hepatice şi o enzimă numită lactat
dehidrogenază. Se observă că între valorile
celor doi parametri nu există nicio corelație,
deoarece punctele sunt distribuite
aproximativ întâmplător, sub o formă
aproape circulară, fără o regulă clară de
aşezare, în afară de tendința naturală ca
densitatea punctelor să fie mai mare în
Figura 2.4.4. Graficul de corelație între mijloc. Prin urmare, un astfel de grafic, unde
valorile creatininei serice şi rata de filtrare punctele reprezentând pacienţii par dispuse
glomerulară (RFG) aleatoriu este sugestiv pentru lipsa unei
corelaţii între variabilele reprezentate.
În graficul din figura 2.4.6 se observă că
Pe de altă parte, există cazuri în care doi între valorile sodiului seric și potasiului seric
parametri se corelează prin creșterea unuia ale pacienților cu afecțiuni hepato-renale nu
însoțită de o tendință de descreștere a există nici o corelație, deoarece datele sunt
128
Informatică Medicală și Biostatistică

distribuite aproximativ întâmplător. Nu se În ceea ce privește graficul de


poate observa o tendință clară ca punctele împrăştiere, există trei tipuri diferite de
graficului să fie așezate într-un fel anume, în informație pe care acesta ni le poate oferi:
afară de tendința naturală ca densitatea să fie
-dacă cele două serii de valori sunt
mai mare în mijloc, tendință care se poate
corelate (corelația);
observa, în general, la majoritatea datelor în
medicină, biologie şi nu numai. Pe de altă -dacă eșantionul pe care s-au făcut
parte, tendința punctelor de a se așeza într-un măsurătorile este omogen sau este eterogen
singur nor arată omogenitatea seriei de (omogenitatea);
valori. -anumite informații despre simetria
distribuției celor două serii de valori
(simetria).
În figura 2.4.7 sunt reprezentate valorile
bilirubinei totale şi ale bilirubinei directe la
pacienți cu ciroze hepatice și cancer hepatic.
Se observă o corelație extrem de puternică,
din forma norului de puncte care este extrem
de alungit şi subțire, iar datele sunt
distribuite aproximativ de-a lungul unei linii
drepte. De asemenea, eșantionul este
omogen, lucru care se observă din faptul că
norul de puncte nu are tendința de a se divide
în doi nori diferiți.
Pe de altă parte, se vede că norul este mult
mai dens în stânga jos. Deci, valorile din
Figura 2.4.6. Graficul de corelație între seria bilirubinei totale (orizontală), sunt
valorile sodiului seric și potasiului seric distribuite asimetric (mai multe valori în
stânga = asimetrie spre dreapta). La fel,
valorile din seria bilirubinei directe
(verticală), sunt mai dense jos, la valori mici,
deci sunt distribuite tot asimetric, cu
asimetrie spre dreapta.

2.4.3. Coeficientul de corelație


Pearson

Așa cum a fost descrisă anterior, noțiunea


de corelație se referă la tendința de creștere
sau descreștere simultană a doi parametri,
fără a preciza cât de corectă este estimarea
Figura 2.4.7. Graficul de corelație între făcută sau cât de des se manifestă la indivizii
valorile bilirubinei totale şi directe din populaţie relaţia presupusă. În practică,
este nevoie de o măsurare, de o cuantificare

129
Informatică Medicală și Biostatistică

a puterii corelației dintre doi parametri, altfel Această formulă, care la prima vedere
nu am putea verifica validitatea pare foarte complicată, ne oferă în realitate,
presupunerilor legate de legăturile descrise şi într-un mod relativ simplu, o valoare
nu am putea face comparaţii între legături, numerică care apreciază foarte obiectiv
iar corelația ar fi o noțiune prea puțin utilă. situația de fapt în ceea ce privește corelația.
De-a lungul timpului au fost propuse mai Coeficientul de corelaţie r are valori
multe metode de măsurare a tendinței de cuprinse între -1 şi 1. Valoarea maximă, 1, se
corelație. Dintre ele cele mai utile s-au obţine când valorile lui y sunt întotdeauna
dovedit acelea care propun calcularea de egale cu o combinaţie liniară a lui x
coeficienți bazaţi pe formule matematice (y=a·x+b, unde a,b>0), iar valoarea minimă,
care evaluează cazurile în care relaţia -1, se obţine când valorile lui y sunt exact
presupusă se manifestă şi cazurile în care se opusul unei combinaţii liniare a lui x (y= - a
observă contrariul sau nu se întâmplă nimic, x+b, unde a,b>0).
coeficienţi care țin cont de toate valorile pe
În cazul unui coeficient de corelaţie
care le avem la dispoziție.
pozitiv (ex. r = 0,5) avem o corelaţie directă,
Coeficientul de corelație r al lui Pearson adică cele două variabile corelate variază în
este de departe cel mai utilizat în exprimarea acelaşi sens (când una creşte, şi cealaltă
tăriei corelației între doi parametri numerici. creşte, respectiv când una scade, şi cealaltă
El poate fi folosit pentru două serii de date scade). În cazul unui coeficient de corelaţie
distribuie gaussian şi măsoară asemănarea negativ (ex. r = -0,5) avem o corelaţie
dintre relaţia observată între perechile de inversă, adică cele două variabile corelate
valori din realitate şi valorile calculate cu variază în sens contrar (când una creşte,
ajutorul unei ecuaţii de ordinul întâi sau cealaltă scade). Dacă valoarea absolută a
liniare. Deşi distribuţiile datelor întâlnite în coeficientului de corelaţie este slabă
medicină nu sunt întotdeauna de aşa natură (aproape de 0), nu trebuie să se conchidă
ca rezultatele obţinute folosind acest neapărat că nu există legătură statistică între
coeficient sa fie cele mai bune, totuşi am cele două variabile; legătura poate să existe,
considerat că acesta este cel mai sintetic dar nu este liniară (nu poate fi descrisă de o
indicator al corelaţiei şi trebuie explicat. linie dreaptă).
Formula folosită pentru calculul Pentru a înțelege cum funcționează
coeficientului de corelaţie Pearson este: formula de calcul pentru coeficientul r să
luăm un exemplu privind corelaţia dintre
∑ (x − X )⋅ ( y i − Y )
n

i înălţimile şi greutăţile unui grup de 15


r= i =1 pacienţi. Pentru calculul lui r avem nevoie de
∑ (x −X) ⋅ ∑ (y −Y )
n n
mediile celor două serii statistice, X şi Y ,
2 2
i i
i =1 i =1 și, pentru fiecare pacient în parte, de
unde X ÷ x1 , x2 ,.......xn şi diferențele
x −X
i şi
y −Y
i . Aceste
Y ÷ y1 , y 2 ,....... y n , sunt valorile măsurate diferenţe trebuie înmulțite între ele pentru a
calcula numărătorul, iar pentru numitor
pentru cei doi parametri a căror corelaţie o trebuie ridicate la pătrat, apoi adunate pentru
calculăm, iar X , Y sunt mediile de toți pacienții, după care din sumele obţinute
eşantionare corespunzătoare lor. Se spune că extragem radical şi înmulţim rezultatele
r este raportul dintre covariaţia seriilor şi obţinute.
produsul deviaţiilor lor standard.
130
Informatică Medicală și Biostatistică

Tabelul 2.4.1 Calculul coeficientului de corelație Pearson


Înaltimea Greutatea
Nr. ( X ) (Y ) xi − X y i − Y ( x − X )·( y − Y ) ( x − X )2 ( y − Y )2
i i i i

1 173 80 -7 -2 14 49 4
2 186 90 6 8 48 36 64
3 174 95 -6 13 -78 36 169
4 185 93 5 11 55 25 121
5 190 94 10 12 120 100 144
6 166 62 -14 -20 280 196 400
7 184 74 4 -8 -32 16 64
8 183 94 3 12 36 9 144
9 185 96 5 14 70 25 196
10 171 78 -9 -4 36 81 16
11 196 99 16 17 272 256 289
12 178 69 -2 -13 26 4 169
13 190 83 10 1 10 100 1
14 164 48 -16 -34 544 256 1156
15 175 75 -5 -7 35 25 49
Media Media Suma Suma Suma
180 82 1436 1214 2986

Valorile necesare pentru calculul lui r se numărător tinde să aibă valori pozitive
regăsesc în tabelul 2.4.1. Valoarea lui r este: crescute.
1436 1436 1436 Evident, corelația dintre parametri este
r= = = = 0.754
1214 * 2986 3625004 1093.944 doar o tendință şi este probabil să întâlnim
pacienți care, deși au unul din parametri
Din cauza tendinței a doi parametri care crescut, de exemplu peste medie, celălalt
se corelează direct, ca atunci când unul este poate să nu fie crescut, chiar să fie sub
crescut, să fie și celălalt crescut, sau când medie, caz în care produsul corespunzător lui
unul este scăzut, şi perechea lui să fie
scăzută, pentru majoritatea pacienților vom
(x i − X )⋅ ( yi − Y ) va fi negativ. Dar acest
fi în situații ca în tabelul de mai sus, adică ori fenomen nu este o tendință dacă parametrii
ambii sunt sub medie, iar diferenţele vor fi sunt corelați, ci mai curând un accident, o
negtive, ori ambii sunt peste medie, iar excepţie de la regulă. Suma obținută la
diferenţele vor fi pozitive. Prin urmare, numărător va avea tendința de a lua valori
produsele rezulate sunt preponderent mari și pozitive în ciuda unor astfel de
pozitive şi, când se adună la numărător, situaţii.
acesta va creşte. În acest caz, suma de la

131
Informatică Medicală și Biostatistică

Dacă cei doi parametri sunt corelați ca r să fie cuprins între -1 şi +1.
invers, adică tendința unuia de a avea valori Magnitudinea lui r, precum şi semnul său,
crescute este însoțită de tendința celuilalt de sunt dictate de suma de la numărător.
a avea valori scăzute, predominante vor fi Așadar, orice valori ar lua cei doi parametri,
situațiile în care în produsul prin calculul lui r obținem un număr real
(x i − X )⋅ ( y i − Y ) cuprins în intervalul de numere [-1, 1].
ia valori negative. Într- Puterea corelaţiei este cu atât mai mare cu cât
adevăr, dacă un parametru are valori sub partea numerică, adică modulul sau valoarea
medie și celălalt peste medie, o paranteză va absolută, este mai mare, mai apropiată de 1,
fi pozitivă și una negativă. Dacă acest fapt semnul + sau – arâtând doar tipul de
este o tendință, produsele care se adună la corelaţie, directă sau inversă. În figurile
numărător vor fi cele mai multe negative. 2.4.8 şi 2.4.9 se poate observa legătura dintre
Suma obținută la numărător va avea tendința valoarea lui r şi aspectul graficului scatter.
de a lua valori mari și negative.
Reguli empirice de interpretare pentru
Dacă cei doi parametri nu sunt corelați, valorile lui r au fost sugerate de diverşi
parantezele de la numărător vor avea semne autori, printre cele mai cunoscute fiind cele
aleatorii, unele produse i
(x − X )⋅ ( y − Y )
i propuse de T.Colton, în lucrarea Statistics in
vor fi pozitive și unele negative. Tendința va Medicine, publicată la New York în 1974:
fi ca cele negative și cele pozitive să se r = [-0.25 ; +0.25] → fără corelaţie
anuleze unele pe altele. Prin urmare, suma
r = (+0.25 ; +0.50] + (-0.25 ; -0.50] →
obținută la numărător va avea tendința de a
corelaţie slabă
lua valori mici, pozitive sau negative.
r = (+0.50 ; +0.75] + (-0.50 ; -0.75] →
corelaţie moderată
r = (+0.75 ; +1] + (-0.75 ; -1] → corelaţie
puternică
Interpretarea coeficientului de corelație
Pearson se poate face şi astfel:
Figura 2.4.8. Legătura dintre valoarea lui r
şi aspectul graficului scatter r є [0; 0.2] → corelaţie foarte slabă,
inexistentă
r є [0.2; 0.4] → corelaţie slabă
r є [0.4; 0.6] → corelaţie rezonabilă
r є [0.6; 0.8] → corelaţie înalta
r є [0.8; 1] → corelaţie foarte înaltă -
relaţie foarte strînsă între variabile sau eroare
de calcul.
Figura 2.4.9. Relaţia dintre valoarea lui r şi
Dacă valoarea coeficientului de corelaţie
aspectul graficului scatter
Pearson este 0, acest lucru nu înseamnă că
între date nu există o relaţie de legătură. Este
posibil să existe o relaţie, dar aceasta este
Numitorul coeficientului r are totdeauna
mai complexă şi nu poate să fie echivalată
semnul +, iar rolul lui este numai de a face

132
Informatică Medicală și Biostatistică

unei ecuaţii de gradul întâi, aşa cum se iau valori absolut aleatorii. Cunoscând
observă în ultimul rând al figurii 2.4.9 – valoarea unuia dintre ei, putem estima destul
graficele prezintă o aşezare ordonată a de precis valoarea celuilalt, ea fiind
punctelor, dar acestea nu sunt dispuse de-a condiţionată, limitată ca gamă de valori de
lungul unei drepte. valoarea primului. Relaţie este cu atât mai
exactă, cu cât este mai puternică influenţa
Pentru coeficientul de corelaţie Pearson
unui parametru asupra celuilalt şi cu cât de
putem să calculăm un interval de încredere,
des se manifestă acea relaţie în cadrul
de obicei de 95%, adică intervalul în care se
populaţiei.
vor găsi valorile coeficientului pentru 95 din
100 de loturi de indivizi, extrase din aceeaşi Pentru a putea descrie comportarea unui
populaţie. Se consideră că r este semnificativ set de valori, reprezentând observaţii
atunci când intervalul de încredere este un pereche, se poate folosi o aşa numită ecuaţia
interval ce nu conţine valoarea 0 (respectiv r de regresie. Ecuaţia de regresie este relaţia
> 0,5 sau r < -0,5). Pentru a vedea daca matematică care exprimă dependenţa dintre
valoarea lui r este semnificativă din punct de două sau mai multe variabile.
vedere statistic se poate calcula şi un
Noțiunea de regresie se referă la o clasă
parametru numit t, care corespunde unei
de metode statistice prin care se estimează
distribuţii speciale de probabilitate, numită
relațiile dintre diverse variabile. Mai
distribuţie t Student, care se transformă într-
precis, scopul este de a determina relația
o valoare de probabilitate p. Dacă
dintre o variabilă dependentă şi una sau mai
probabilitatea este sub un anumit prag de
multe variabile independente. Metodele de
semnificaţie, ales de obicei ca fiind 0,05
regresie estimează valoarea unei variabile
(adică opusul lui 95%), putem afirma cu acel
dependente pe baza valorii unei variabile
nivel de siguranţă că între cele două variabile
independente sau valorilor unui set de
se manifestă corelaţia presupusă.
variabile independente. Astfel, scopul
r regresiei este de a determina o funcție a
t= variabilelor independente care furnizează
(1 − r ) /( N − 2)
2
valoarea dependentă corespunzătoare.
Pătratul coeficientului de corelaţie, notat Tehnicile prin care se realizează estimarea în
r2, reprezintă coeficientul de determinare cadrul regresiei depind în principal de tipul
între cei doi parametri, are valori între 0 şi 1 datelor analizate și de tipul funcției care se
şi măsoară valoarea covariaţiei raportată la estimează.
volumul total al variaţiei, rezultând Ecuaţia de regresie se figurează pe un
procentul din variaţia totală care este grafic scatter prin curba de regresie.
explicată de variabila independentă. De
exemplu, dacă r = 0.80, atunci variabila
2.4.4.1. Regresia liniară. Dreapta de regresie
independentă explică 64% din variabilitatea
variabilei dependente y.
Frecvent se foloseşte ecuaţia de gradul
întâi sau liniară pentru a descrie relaţia dintre
2.4.4. Noţiunea de regresie
două variabile. În acest caz, curba prin care
se reprezintă este o linie dreaptă, denumită
Dacă doi parametri sunt suficient de dreaptă de regresie, care are formula:
puternic corelați, atunci perechile de date nu y = a·x +b

133
Informatică Medicală și Biostatistică

unde y este variabila dependentă, iar x graficului. Vom spune că o dreaptă este
este variabila independentă. dreaptă de regresie liniară dacă suma
distanțelor de la puncte la dreaptă, măsurate
Parametrul a este valoarea tangentei
pe verticală și ridicate la pătrat, este minimă.
pentru unghiul format de dreapta de regresie
Folosind ecuaţia acestei drepte, dacă se
şi orizontală, iar în sens geometric reprezintă
cunoaște valoarea de pe orizontală, se poate
panta dreptei de regresie (slope). Panta
calcula cu oarecare aproximaţie valoarea de
dreptei de regresie (parametrul a) mai este
pe verticală, și invers. În exemplul din figura
denumită „coeficient de regresie” şi nu
2.4.10, dacă știm valoarea pentru VSH la o
trebuie confundat cu „coeficientul de
oră, putem calcula cu o bună aproximație
corelaţie”. În cazul corelaţiei directe sau
valoarea pentru VSH la două ore, și invers.
pozitive între variabila dependentă şi cea
Acest fapt este sugerat de săgețile care indică
independentă, el ia o valoare pozitivă, iar în
valoarea aproximativă de pe axa OY,
cazul corelaţiei inverse sau negative, are
corespunzătoare unei anumite valori de pe
valoare negativă. Parametrul b (intercept)
cealaltă axă, OX, valoare care nu este
este valoarea lui y când x este egal cu 0 şi
neapărat identică cu valoarea reală a
reprezintă punctul de intersecţie cu abcisa
parametrului analizat.
(cu axa verticală OY).
Acest model presupune că variabila
dependentă y este egală, în principiu, cu o
funcţie liniară a lui x, depinzând de
parametrii necunoscuţi a şi b. Această
dependenţă liniară este un model şi nu
reflectă exact legătura dintre xi şi yi. Valorile
observate yi nu se găsesc exact pe dreapta de
mai sus. Dreapta trasată este însă cea mai
apropiată, statistic, de valorile observate.
Admiţându-se, fie numai ipotetic,
dependenţa unei variabile de unul sau mai
mulţi factori, trebuie aleasă ecuaţia de
regresie care să descrie relaţia dintre
variabila dependentă şi variabila Figura 2.4.10. Graficul scatter şi dreapta de
independentă cât mai corect, cu cea mai mică regresie care descriu relaţia dintre
eroare. Estimarea parametrilor a (slope) şi b VSH la o oră şi VSH la două ore
(intercept) se face uzual prin „metoda celor
mai mici pătrate” sau în sensul celor mai
mici pătrate, adică să fie minimă suma Trebuie subliniat că valoarea
pătratelor diferenţelor dintre valorile coeficientului de corelaţie reprezintă gradul
înregistrate yi, şi valorile punctelor de apropiere dintre punctele de pe grafic şi
corespunzătoare de pe dreapta de regresie, dreapta de regresie. De exemplu, în cazul
care au valoarea f(x)= a·xi +b, pentru toate indicelui de masă corporală (IMC),
valorile xi. dependenţa de greutatea corporală şi de
înălţime este certă, IMC fiind raportul dintre
În cazurile ca cel din figura 2.4.10, se greutate şi pătratul înălţimii.
poate încerca găsirea unei drepte care să
reprezinte o legătură între cei doi parametri Aşa cum se observă în figurile 2.4.11 şi
şi care să treacă cât mai aproape de punctele 2.4.12, relaţia direct proporţională dintre

134
Informatică Medicală și Biostatistică

greutate şi IMC este mai puternică (r=0.670) întâlni extrem de multe astfel de situații. În
decât relaţia invers proporţională dintre aceste cazuri se caută nu drepte de regresie,
înălţime şi IMC (r= -0.239), norul de puncte ci alte curbe, exprimate prin ecuaţii
din prima figură fiind mai concentrat în jurul polinomiale de ordin superior sau funcţii
dreptei de regresie decât în cea de-a doua. exponențiale, logaritmice.
Pentru regresia polinomială cea mai
simplă generalizare este cazul polinomului
de gradul al doilea:
y=ax2+bx+c,
caz în care, în mod evident, trebuie găsiți trei
coeficienți în loc de doi. Cantitatea de
minimizat prin „metoda celor mai mici
pătrate” este

∑ (y − ax )
n
2
S= i
2
i − bxi − c = min
i =1 .
La modul general, funcția de regresie
dintre două variabile poate fi un polinom de
Figura 2.4.11. Relaţia dintre greutate şi orice grad. Pot fi folosite şi regresii cu
IMC polinoame de ordin mai mare, însă pentru a
presupune că între doi parametri este o
legătură foarte complexă trebuie dovezi
teoretice solide, care de obicei nu sunt
disponibile.
Regresia exponenţială se aplică atunci
când variabila dependentă are valori de semn
constant (are fie numai valori pozitive, fie
numai valori negative – în acest caz se
consideră |y| ca variabilă dependentă). Norul
de puncte se aproximează printr-o curbă
exponenţială, valorile estimate
determinându-se prin formula:
yi=β·eα·xi
Figura 2.4.12. Relaţia dintre înălţime şi
IMC Prin logaritmarea relaţiei şi introducerea
schimbării de variabilă zi=ln(yi), se obţine:
zi= α·xi+ln(β),
2.4.4.2. Regresii neliniare
care este un model de regresie liniară pentru
variabilele X și Z
Există cazuri când dependența între un Regresia logistică, denumită și modelul
efect și o cauză, sau în general între doi regresiv logistic sau logit, este utilizată
parametri, nu este liniară. În realitate se pot pentru a analiza variabilele binare,
135
Informatică Medicală și Biostatistică

dihotomice, de tip „0/1” (de exemplu, un


pacient poate avea sau nu o anumită boală –
Deoarece coeficienții β exprima
figura 2.4.13). Regresia logistică este
modificări ale variabilei dependente în
folosită pentru a modela probabilitatea ca un
unități logaritmate, ei sunt dificil de
individ să aibă o anumită valoare din cele
interpretat şi, de aceea, sunt adesea convertiți
două variante posibile ale variabilei
în raporturi ale cotelor („odds ratios” - OR),
dependente. În modelul logit, logaritmul
prin exponenţierea coeficientului beta, unde
cotelor de probabilitate ca valoarea
OR=exp(β).
dependentă să fie „1” este estimat ca o
combinație liniară a variabilei predictor, De obicei, în tabelul care prezintă
independente: rezultatele unei analize de regresie logistică
se notează şi valorile pentru eroare standard
logit(P (yi=1) )=ln( P(yi=1)/ (1- P(yi=1)) ) =
asociată coeficientului β, care este utilizată
β0+β1 ·xi
pentru a testa dacă parametrul este
Variabila dependentă se măsoară pe o semnificativ diferit de 0; prin împărțirea
scală logaritmica şi arată creșterea (sau estimării parametrilor prin eroarea standard
scăderea, dacă semnul coeficientului este se obține o valoare t, interpretată conform
negativ) cotelor logaritmice previzionate curbei Student de repartiţie a probabilităţii.
pentru variabila dependentă, date de o Erorile standard pot fi, de asemenea, utilizate
creștere cu o unitate a variabilei pentru a calcula un interval de încredere
independente. Prin transformarea inversă se pentru coeficientul β. De obicei se raportează
găseşte valoarea probabilităţii P, după şi valoarea coeficientului Wald chi-pătrat şi
formula: valoarea p corespunzătoare lui, folosite
pentru testarea ipotezei că β diferă
1 semnificativ de 0, deci că are impact în
P=
1 + e −( β0 + β1xi ) estimarea variabilei dependente.

De obicei, o valoare a funcţiei mai mare


decât 0,5 înseamnă că acceptăm ca fiind mai 2.4.4.3. Regresia liniară multiplă
probabil ca valoarea y să fie 1, însă acest
prag poate să fie diferit, în funcţie de cât de
fidel modelul estimează realitatea. Metoda regresiei liniare se poate extinde
de la combinaţii de două variabile la mai
multe variabile, prin metoda regresiei liniare
multiple sau multivariabilă. În acest caz vom
avea o variabilă dependentă şi mai multe
variabile predictive, deoarece există multe
situații în care este util să considerăm că un
parametru este influenţat de doi sau chiar
mai mulți parametri independenți. Prin
urmare, se caută o dependență de forma:

Y = a1 ⋅ X 1 + a2 ⋅ X 2 + .......... + an X m
unde Y este parametrul care depinde de
Figura 2.4.13. Exemplu de curbă ceilalți, X1, X2,.............Xn sunt parametrii
reprezentând o regresie logistică independenți, iar m este numărul lor, uzual

136
Informatică Medicală și Biostatistică

având valoarea 2 sau 3, mai rar ajungându-se Cel mai mic număr are rangul 1, iar cel mai
să fie folosite mai multe variabile predictor, mare număr va avea rangul N, unde N este
deoarece formulele devin nepractice şi nici numărul total de valori. După ce fiecărei
nu mai putem să ne asigurăm că variabilele valori i s-a alocat un rang, se calculează un
predictor sunt cu adevărat independente coeficient de corelaţie pe baza rangurilor din
unele de altele. fiecare serie.
Atenţie – termenul de „regresie În cazul seriilor în care numărul datelor
multivariată” se referă la estimarea mai cu ranguri egale depășește 25% din numărul
multor variabile, deci presupune existenţa total, este indicată folosirea testului tau al lui
mai multor variabile dependente şi nu este Kendall, folosit pentru variabile ordinale,
echivalent cu „regresia multivariabilă”, în sau testul gamma al lui Goodman şi Kruskal.
care se folosesc mai multe variabile
Coeficientul Kappa al lui Cohen este o
predictor, deci independente.
măsură statistică a acordului între doi
În regresia multiplă se pune problema evaluatori sau două metode de evaluare.
găsirii coeficienților a1, a2,......an, astfel ca Variație interobservatori poate fi măsurată în
diferențele dintre valorile măsurate y1, orice situație în care doi sau mai mulţi
y2,........yn, să fie cât mai apropiate de valorile observatori independenți evaluează același
calculate cu expresia lucru. Calculul se bazează pe diferența dintre
yi = a1 ⋅ X i + a2 ⋅ X i + .......... + an X im , unde
1 2 numărul de situaţii concordante prezente
indicele i ne indică măsurătoarea, iar (acord observat), comparativ cu cât de multe
coeficienții a1, a2,......an, îi considerăm concordanţe ar fi de așteptat să fie prezente
necunoscute și ne propunem să îi aflăm. şi în doar din întâmplare (acord așteptat).
acest caz se utilizează „metoda celor mai O interpretare a valorilor testului Kappa,
mici pătrate”. De exemplu, pentru între 0 şi 1, este următoarea:
dependența între un parametru dependent şi - acord slab = 0 - 0.20
doi independenți, cantitatea de minimizat - acord minim = 0.20 - 0.40
este: - acord moderat = 0.40 - 0.60
- acord important = 0.60 - 0.80
∑ (y − a X )
n
2
S= i 1
1
i − a 2 X i2 - acord foarte important = 0.80 - 1.00
i =1

2.4.4.4. Alte măsuri ale corelației

Pentru date care nu au o distribuție


gaussiană, dar care se pot ordona, fără a avea
un număr mare de valori egale între ele,
putem folosi coeficientul ρ Spearman,
obținut prin testul neparametric Spearman de
corelație a rangurilor. Pentru a efectua acest
test, valorile din cele două serii de date sunt
aranjate crescător. Dacă două sau mai multe
valori sunt egale, atunci li se atribuie ca rang
valoarea medie a poziţiilor ocupate de ele.

137
Informatică Medicală și Biostatistică

2.5. Tabele de incidență bolii. Sunt listate frecvențele absolute, adică


numărul de cazuri din fiecare stadiu în parte,
stadializarea fiind 0, I, IIA, IIB, IIIA, IIIB şi
IV. Pe ultima coloană sunt listate procentele
2.5.1. Cuantificarea datelor calitative
sau frecvențele relative.

Dacă pentru datele numerice avem


2.5.1.1. Estimarea unei proporţii pentru o
diverşi indicatori statistici prin care putem să
variabilă binară
le cuantificăm şi să le evidenţiem
caracteristicile cele mai importante într-o
formă rezumativă, pentru datele reprezentate
O variabilă binară este o variabilă care are
prin categorii nominale sau ordinale nu mai
doar două valori posibile, de tip „1” sau „0”/
avem această posibilitate. Tot ce putem face
„Da” sau „Nu” / „Adevărat” sau „Fals”.
este să numărăm câţi indivizi din eşantionul
Atunci când vrem să estimăm proporţia de
studiat se încadrează în fiecare categorie,
indivizi dintr-o populaţie care au o anumită
adică să descoperim frecvenţa absolută a
valoare a variabilei (au prezentă o anumită
fiecărei categorii în parte, şi să analizăm
caracteristică), trebuie extras aleator un
valorile obţinute prin alte procedee statistice,
eşantion de volum n şi numărate cazurile
eventual după o transformare a lor în
care au valoarea ce ne interesează. Să
procente din total, adică în frecvenţe relative.
presupunem că, din cei n indivizi aleşi în
De exemplu, daca variabila analizată
eşantion, doar x, un număr mai mic decât n,
reprezintă stadiul evolutiv al unei afecțiuni
au proprietatea căutată. Variabila aleatorie
maligne, vom număra câți pacienți sunt în
care estimează proporţia căutată va fi notată
stadiul 0, câți sunt în stadiul I și aşa mai
p şi reprezintă raportul dintre cei ce prezintă
departe (tabelul 2.5.1).
caracteristica urmărită şi numărul total de
Tabelul 2.5.1. Clasificarea pacienților după indivizi din eşantion. Deci p=x/n.
stadiul unei afecțiuni maligne
Variabila aleatorie p va lua valori care
Numărul aproximează mai bine sau mai puţin bine
Procentul
Stadiul de cazuri valoarea adevărată a proporţiei, pe care nu o
(frecvența
Nr clinic (frecvenţa cunoaştem şi care este P. Dacă populaţia din
relativă)
absolută) care s-a extras eşantionul este suficient de
1 0 26 4.0% largă şi dacă extragerea s-a făcut aleator,
2 I 46 7.1% atunci distribuţia lui x este binomială B(n,P).
3 IIA 76 11.7% În această situaţie, probabilitatea ca exact
4 x={0,1,...n} dintre indivizii din eşantion să
IIB 102 15.7%
aibă calitatea căutată (să fie pozitivi), este:
5 IIIA 108 16.6%
p x = C nx P x (1 − P )
n− x
6 IIIB 195 30.0% .
7 IV 97 14.9%
Valorile proporţiei reale, estimate prin p,
8 Total 650 100.0% se distribuie în jurul adevăratei proporţii şi,
pe măsură ce vom mări numărul de
observaţii n, adică volumul eşantionului,
În tabelul 2.5.1 sunt centralizate împrăştierea valorilor aproximative p în jurul
rezultatele numărării pacienților pe stadii ale adevăratei proporţii tinde să scadă.

138
Informatică Medicală și Biostatistică

Valorile lui p, dacă s-ar putea calcula Testul z pentru proporţii se foloseşte
pentru toate eşantioanele de n indivizi, se pentru a stabili dacă, pentru o variabilă
distribuie astfel încât: calitativă, binară, diferenţa dintre o frecvenţă
teoretică P (într-o populaţie) şi o frecvenţă
-Media lui p este P, adevărata proporţie;
observată p pe un eşantion reprezentativ,
-Dispersia lui p este p(1-p)/n (dacă p nu este este semnificativă din punct de vedere
apropiat de 0 sau 1, formula reiese din statistic, sau pentru a compara frecvenţele
asemnănarea distribuţiei binomiale sau calculate pe două eşantioane randomizate,
Bernoulli cu o distribuţie normală). independente, extrase din două populaţii
O eroare de câteva procente în plus sau în diferite. Formula prin care diferenţa dintre
minus este de obicei considerată acceptabilă. cele două proporţii se transformă în scoruri z
De obicei, se foloseşte nivelul de precizie de este:
95%. Această precizie este dată de intervalul P(1 − P )
de încredere: z = ( p − P) /
n
p(1 − p )
p ± z 95% ⋅ Testul este corect aplicat dacă numărul n
n
al observaţiilor eşantionului este suficient de
unde z95%=1,96 – valoarea scorului z pentru
mare (n·p, n·(1-p)>10, sau daca cele doua
care 95% dintre valorile lui p se regăsesc în
eşantioane au un număr suficient de mare de
intervalul din jurul lui P.
subiecţi (n1, n2 >30).
În unele studii statistice se cere ca nivelul
În cazul testului z, valoarea obţinută se
de eroare al estimării să nu depăşească un
compară cu nişte valori standardizate,
anumit nivel, dianinte satbilit. Formula de
corespunzătoare unui nivel prestabilit (de
calcul a numărului minim de indivizi dintr-
95%, 99% etc.) al încrederii că diferenţa
un lot, astfel ca procentul estimat cu ajutorul
observată este semnificativă din punct de
acelui lot să aibă un interval de încredere cu
vedere statistic. Pentru testele bilaterale
o variaţie de cel mult plus-minus ε% este:
(„two-tailed”) valorile sunt z = 1,96 pentru
z 95% ⋅ P (1 − P ) încredere de 95%, respectiv z = 2,58 pentru
n>
ε2 încredere de 99%.

Din păcate, în realitate nu putem folosi


formula de mai sus. Pentru calculul lui n, ar 2.5.2. Tabele de incidență
trebui să cunoaştem deja valoarea lui P. În
practică, acest lucru este imposibil, deoarece
p este tocmai procentul pe care dorim să îl În cazul parametrilor care nu sunt
aproximăm, şi este necunoscut, înaintea reprezentaţi prin date numerice, continue sau
efectuării experienţei sau studiului. De discrete, nu putem calcula coeficienţii de
obicei se fac înaintea experimentului corelaţie tradiţionali, enumeraţi în capitolul
propriu-zis, aşa numitele studii pilot - pe un anterior, pentru a arăta legăturile dintre ei. În
lot cu un număr redus de indivizi, se cazul datelor ordinale sau nominale trebuie
estimează aproximativ valoarea lui P. Pe să apelăm la teste care analizează aşa-
baza acestei valori imprecise, se determină numitele tabelele de incidenţă generate prin
numărul minim de indivizi dintr-un lot aplicarea încrucişata („cross tabulation”) a
corespunzător unei precizii dorite unor perechi de factori, folosite pentru a
identifica legăturile dintre categoriile acelor

139
Informatică Medicală și Biostatistică

variabile. Spunem că acestea sunt tabele cu este răspunsul terapeutic, fiecare din cele
două intrări, deoarece coloanele reprezintă două criterii de clasificare are un anumit
categoriile unei variabile, iar rândurile număr de categorii (clase) în care trebuie
reprezintă categoriile celeilalte variabile. clasificați pacienții. Stadiul evolutiv ar avea
Numărând cazurile care se încadrează în cel puțin patru categorii (stadiul I, II, III și
fiecare din subcategoriile generate în acest IV), iar răspunsul terapeutic ar putea avea tot
fel şi prelucrând valorile obţinute prin teste patru clase, şi anume categoriile RC
statistice sau indicatori specifici, putem (remisiune completă, tumora se remite), RP
măsura puterea legăturilor dintre date de tip (remisiune parțială), RN (răspuns negativ) și
ordinal sau nominal. D (deces). Prin urmare, tabelul de incidenţă
ar arăta ca în exemplul furnizat în tabelul
De exemplu, dacă unul din criteriile după
2.5.2, care are 16 celule, corespunzătoare
care au fost înregistrați pacienții este stadiul
celor 4 x 4 subcategorii.
evolutiv al unei afecțiuni maligne, iar celălalt

Tabelul 2.5.2. Clasificarea a 84 de pacienți după stadiu și răspuns terapeutic


RĂSPUNS
TERAPEUTIC
RC RP RN D Total
I 7 1 0 0 8
STADIU II 19 7 1 1 28
EVOLUTIV III 12 10 6 4 32
IV 6 2 5 3 16
Total 44 20 12 8 84

2.5.2.1. Testul Chi pătrat n


(| Oi − Ei |) 2
χ =∑
2

i =1 Ei ,
Există diferite tehnici şi teste statistice
unde O - frecvenţa absolută observată, E
care încearcă să răspundă la întrebarea dacă
- frecvenţa teoretică (valoarea pentru care
există o relaţie între cele două criterii de
procentajele de pe fiecare rând ar fi egale cu
clasificare dintr-un astfel de tabel de
procentul reprezentat de totalul fiecărei
incidenţă, în funcţie de tipul datelor, ordinale
coloane faţă de totalul valorilor)
sau nominale, şi de dimensiunile tabelelor.
Testul Chi pătrat (de fapt hi pătrat, χ2) Ipotezele testate sunt:
este unul dintre cele mai cunoscute teste H0 (ipoteza nulă) – cei doi factori sunt
statistice care arată dacă există vreo legătură independenți;
(influenţă reciprocă) între doi factori. El este
H1 (ipoteza alternativă) – există o asociere
folosit pentru a interpreta tabelele de
(dependenţă) între cei doi factori.
incidență generate prin aplicarea încrucișata
(„cross tabulation”) a perechilor de factori La testul Chi pătrat de testare a
urmăriți într-un studiu statistic. dependenţei ( χ2 ) se calculează rezultatul
testului pentru datele din tabelul de
Valoarea lui χ2 se calculează prin
incidenţă, rezultat care se compară cu o
formula:
140
Informatică Medicală și Biostatistică

valoarea prag care indică o dependenţă - p < 0.05, rezultat semnificativ (S,
semnificativă între cele două variabile încredere 95% că există o asociere între
analizate (prag de 95% sau 99%) sau o factori);
dependenţă înalt semnificativă (prag de
- p < 0.01, rezultat semnificativ (S,
99.9%) între cei doi factori de clasificare.
încredere 99% că există o asociere între
Rezultatul testului se poate transforma,
factori);
folosind curba χ2 de densitate a probabilităţii
într-o valoare de probabilitate p, care arată - p < 0.001, rezultat înalt semnificativ
cât de plauzibilă este obţinerea unei (HS, încredere 99,9% că există o asociere
distribuţii a datelor din tabel atât de diferită între factori);
de o distribuţie uniformă doar datorită - p > 0.05, rezultat nesemnificativ (NS,
hazardului, adică întâmplător. încrederea de a considera că există o
Se foloseşte următoarea interpretare a dependenţă între factorii studiați este mai
valorilor lui p, furnizate direct de programul mică de 95%, deci eroarea de a respinge
cu care se realizează prelucrarea statistica a ipoteza ca factorii sunt independenți este
datelor, prin aplicarea testului de mai sus: peste 5%, prag considerat prea mare).

Femei Bărbaţi
50% 44.83%
38.00%
40%
31.03%
30%
22.00%
18.00%
20% 13.79%
12.00% 10.34%
10% 6.00%
4.00%
0.00%
0.00%
0%
<50 50-59 60-69 70-79 80-89 90>
Grupa de vârstă (p=0.015 - dif.semnificativa)
Figura 2.5.1. Repartiţia procentuală pe grupe de vârstă în funcţie de sex pentru un lot de
pacienţi şi rezultatul testului Chi pătrat

Tabelul 2.5.3. Frecvenţa absolută pe grupe de vârstă şi pe sexe pentru un lot de pacienţi
Sex\Vârsta <50 50-59 60-69 70-79 80-89 90> Total
Femei 0 4 3 13 9 0 29
Bărbaţi 6 9 11 19 3 2 50
Total 6 13 14 32 12 2 79

141
Informatică Medicală și Biostatistică

Pentru exemplul din tabelul 2.5.3, Pentru eșantioane mici, se poate folosi
rezultatul testului Chi pătrat, p=0,015<0,05, testul Chi pătrat aplicând corecția Yates,
arată că există o diferenţă semnificativă între cunoscuta şi sub denumirea de corecție de
distribuţia pe grupe de vârstă a celor 2 sexe, continuitate, ce implica micșorarea cu 0,5 a
deci diferenţele procentule dintre categoriile diferenței dintre frecvenţa observată şi cea
pereche depăşesc o anumită limită probabilă, în cadrul numărătorului lui Chi
considerată ca inacceptabilă având în vedere pătrat (din formulă), înainte de ridicarea la
numărul de cazuri analizate şi numărul de pătrat; astfel, valoarea lui Chi pătrat scade.
categorii independente din tabel - adică Scăzând valoarea lui Chi pătrat, șansele ca
numărul de grade de libertate, care, pentru un ipoteza nulă să fie respinsă scad, deci şi
tabel de incidenţă este produsul dintre riscul de a face o greșeală de tipul I
numărul M de coloane-1 şi numărul N de (respingerea ipotezei nule atunci când
rânduri-1: df= (M-1)*(N-1). aceasta este, de fapt, adevărată) scade
semnificativ. Creşte însă riscul unei erori de
Testul Chi pătrat este valid daca cel puţin
tipul II (acceptarea unei ipoteze atunci când
80% dintre frecvenţele teoretice probabile
ea este în fapt falsă). Unii statisticieni
depășesc 5 şi toate frecvenţele teoretice
recomanda utilizarea corecției de
depășesc valoarea 1.
continuitate în cazul unui tabel de
Condiția de validitate limitează contingenţă 2x2; alții se împotrivesc
semnificativ utilizarea testului Chi pătrat. În corecției. În literatura medicala, testul Chi
cazul în care o frecvenţă probabilă este sub pătrat se aplica atât cu, cât şi fără această
valoarea 1, sau dacă mai mult de 20% din corecției.
frecvenţele probabile sunt sub valoarea 5, se
recomandă utilizarea testului exact al lui
Fisher, atunci când este permisă aplicarea 2.5.2.2. Alte teste folosite pentru analiza
acestuia - loturi mici, tabele de incidenţă tabelelor de incidență
2x2, 3x2, 3x3 sau 4x2. Atenție: frecvenţele
teoretice probabile sunt calculate în cadrul
testului, nu trebuie confundate cu frecvenţele Testul Cramer verifică puterea de
observate (datele din tabel) şi reprezintă asociere dintre doi factori nominali şi se
valorile pe care ne-am aştepta să le găsim foloseşte pentru tabele cu mai multe rânduri
dacă distribuţia datelor unui factor ar fi şi coloane (pt. tabele 2x2 este preferat
aceeaşi pe toate categoriile celuilalt factor. coeficientul phi), mai precis măsoară dacă
fiecare categorie a unuia dintre factori se
Testul exact al lui Fisher reprezintă deci
asociază în mod preferenţial cu una dintre
o alternativa a testului Chi pătrat în
categoriile celuilalt factor. Rezultatul acestui
examinarea asociațiilor în cadrul unui tabel
test se notează cu V.
de contingenţă 2 x 2 etc., atunci când
frecvenţele probabile sunt mici. Condiția de V = χ 2 / min(r − 1, c − 1)
aplicare a acestui test este ca totalurile pe
rânduri şi pe coloane să fie fixe, cunoscute unde r şi c sunt nr. de randuri şi coloane
dinainte. Testul exact al lui Fisher se din tabelul de incidenta studiat. Valoarea lui
regăsește în majoritatea pachetelor statistice V se interpretează astfel: >0.5 - asociere
şi returnează, ca şi alte teste, o valoare a lui puternică, 0.3 - 0.5 - asociere moderată, 0.1 -
p. 0.3 - asociere slabă, 0 - 0.1 - fără asociere.

142
Informatică Medicală și Biostatistică

Testul lambda al lui Goodman şi exemplu, un anumit simptom sau expunerea


Kruskal (λ) este o măsură de reducere la un factor se poate înregistra prin „prezent”
proporţională a erorii. Pentru tabele de sau „absent”, efectuarea unui tratament –
incidenţă care înregistrează distribuţia unor prin „da” sau „nu”, rezultatul unui test - prin
factori nominali, valoarea coeficientului „pozitiv” sau „negativ”. Sexul, bărbătesc sau
lambda arată cu cât se reduce erorea făcută femeiesc, mediul de rezidenţă, rural sau
la încadrarea unui subiect (pacient) într-o urban sau starea de sănătate, bolnav sau
categorie a unuia dintre factori dacă ştim din sănătos, sunt tot variabile binare, frecvent
ce categorie a celuilalt factor face parte, folosite în studii statistice din domeniul
decât dacă îl încadrăm fără să ştim ce rezultat medical.
s-a înregistrat la primul factor. Atenţie, este
Tabelul 2.5.4 ne dă posibilitatea de a
vorba de scadere exprimată în procente din
aprecia dacă există sau nu o dependență între
valoarea iniţială a erorii, care este şi ea un
obiceiul de a fuma și a apariţia unor afecţiuni
procent.
pulmonare, adică dacă cei doi factori au sau
De exemplu, o reducere cu 40% a unei nu tendința de a apărea în tandem. O
erori de 50% înseamnă că eroarea la final va concordanţă între cei doi factori înseamnă fie
fi 50% x (100%-40%)=50% x 60%=30%, şi asociere pozitivă, adică atunci când subiectul
nu 50%-40%=10%. fumează şi afecţiunea este prezentă, fie o
asociere negativă, adică atunci când
Testul McNemar este o metodă non-
pacientul nu fumează, nici afecţiunea nu
parametrică utilizate pe date nominale. Se
apare.
aplică pe tabele de incidenţă 2×2 (cu date
dihotomice), cu perechi potrivite de subiecţi,
pentru a determina dacă frecvenţele
Tabelul 2.5.4. Tabel de incidenţă 2x2 care
marginale de rând şi coloană sunt egale
descrie relaţia dintre fumat şi o afecţiune
("omogenitatea marginală"). Acest test
pulmonară
înlocuieşte testul Chi patrat atunci când cele
două eşantioane investigate nu sunt Afecţiune pulmonară
independente. El reprezintă o masură a Prezentă Absentă Total
similarităţii dintre datele înregistrate în DA 29 58 87
categoriile-pereche ale celor doi factori Fumat
NU 7 166 173
analizaţi. Pentru tabelele de incidenţă cu mai Total 36 224 260
multe categorii (3x3, 4x4) se folosesc
generalizări ale testului McNemar - testele Din inspecția directă a datelor din tabel se
Stuart-Maxwell şi Bakpar. poate trage mai greu o concluzie clară dacă
avem o tendință certă de apariție împreună a
Testul McNemar are aceeaşi ipoteza ca şi celor doi factori. Putem observa, totuşi, că
testul Chi pătrat. numărul de concordanţe pozitive (fumător cu
afecţiune prezentă), 29 de cazuri, împreună
cu numărul de concordanţe negative
2.5.2.3. Tabele de incidență 2X2 (nefumător fără afecţiune), 166 de cazuri,
dau un total de 195 de situaţii concordante,
care reprezintă 75% din totalul cazurilor
De foarte multe ori, în medicină se analizate, 260. Acest procent este mult mai
înregistrează date sub forma unor variabile mare de 50%, valoare care ar fi mai
binare, adică variabile care au doar două probabilă în lipsa vreunei reguli de asociere
valori posibile, de tip „0” sau „1”. De între fumat şi apariţia afecţiunii pulmonare.
143
Informatică Medicală și Biostatistică

Oricum, datele din tabel sugerează şi faptul două categorii (de obicei notate Da/Nu, +/-,
că apariţia bolii nu este legată doar de Prezent/ Absent, Expus/Neexpus)
obiceiul fumatului, deoarece, din numărul
-un factor pasiv (rezultat al celui activ)
total de fumători, 87, doar o treime, adică 29,
care clasifică indivizii tot în două categorii
au afectare pulmonară prezentă.
(Bolnav/Sănătos, Da/Nu, +/-).
Deşi uneori valorile sunt de aşa natură
Prin urmare, vom avea patru categorii de
încât se constată doar prin inspecția valorilor
indivizi şi putem nota cu:
sau prin calcule foarte simple o influenţă a
factorului de clasificare pe orizontală asupra E+ numărul indivizilor expuşi la factorul
celui de clasificare pe verticală, ca în activ la care efectul este prezent
exemplul prezentat anterior, decizia dacă E- numărul indivizilor expuşi la factorul
există sau nu o dependență pare mai degrabă activ la care efectul este absent
subiectivă, deoarece nu avem un criteriu clar N+ numărul indivizilor neexpuşi la
prin care să putem stabili puterea şi natura factorul activ la care efectul este prezent
legăturii. De fapt, acest gen de tabele sunt N- numărul indivizilor neexpuşi la
foarte utile în medicină deoarece, în ciuda factorul activ la care efectul este absent
cantităţii mici de informație pe care o conțin, Dacă factorul pasiv are tendința să apară
doar patru numere, posibilitățile de a aprecia în tandem cu cel activ, atunci ne putem
o dependență între clasificările pe orizontală aștepta ca majoritatea indivizilor să apară
și verticală sunt bine studiate în acest înscriși în celulele E+ şi N-, iar celulele E- şi
moment, existând mai mulţi indicatori care N+ să rămână cu un număr mic de indivizi.
exprimă diferite aspecte ale relaţiilor dintre De obicei valorile dintr-un astfel de tabel se
cei doi factori analizaţi. notează cu a, b, c, d, ca în tabelul 2.5.5 și vom
spune că, în acest caz, majoritatea indivizilor
sunt în celulele a, d, iar în celulele b, c avem
2.5.3. Analiza relaţiilor de tip cauză-efect mai puțini indivizi. Ținând cont de această
observație, vom putea calcula câteva criterii
de dependență care ne permit o apreciere mai
Există două situaţii foarte des întâlnite în
obiectivă a unei eventuale relaţii de
medicină care se pot rezuma prin tabele de
cauzalitate.
incidenţă 2x2. Prima dintre ele se referă la
analiza relaţiei dintre un factor care se
presupune că influenţează apariţia unei boli Tabelul 2.5.5. Tabel de incidență 2x2
şi boala respectivă, iar cea de-a doua se
referă la legătura dintre rezulatele unor Factor Pasiv (Efect, Boală)
analize paraclinice sau ale unui alt tip de test Pozitiv Negativ Total
şi prezenţa sau absenţa unei boli. Factor Pozitiv E+ (a) E-(b) E
Activ Negativ N+ (c) N- (d) N
La modul general, în prima situaţie vom
(Cauză) Total + - Total
observa interacţiunea dintre:
-un factor activ (fie expunerea la un factor
care poate produce boala, consumul unui 2.5.3.1. Criteriul diagonal
produs, fie administrarea unui medicament,
aplicarea unui anumit tip de tratament), în
funcţie de care putem clasifica indivizii în O modalitate de a aprecia tendința celor
doi factori de a apare în tandem, adică
144
Informatică Medicală și Biostatistică

tendința lor de dependență, este de a urmări catalogaţi corect şi numărul total de indivizi
care este raportul dintre numărul pacienților testaţi, iar indicatorul se mai numeşte şi
la care avem concordanţă, adică ambii acurateţe (A sau Acc), aşa cum vom vedea la
factori sunt prezenți sau ambii sunt absenți, analiza testelor de diagnostic.
și numărul pacienților la care nu avem
Este un criteriu mai uşor de înţeles,
concordanţă, adică un factor este prezent iar
deoarece reprezintă, de fapt, procentul de
celălalt absent. Acest raport, pe care îl vom
pacienți la care apar concordanţele aşteptate:
numi Criteriul Diagonal (CD), este:
a+d a+d
CD = CP =
b+c a+b+c+d
În tabelul 2.5.4, avem CD = În tabelul 2.5.4, CP = (29+166)/260 =
(29+166)/(58+7) = 195/65 = 3, adică sunt de 195/260 = 0,750, adică sunt 75,00%
3 ori mai mulți pacienți la care cei doi factori potriviri, ceea ce este o majoritate care arată
apar în tandem decât cei la care un factor este o tendință clară de dependență între fumat şi
prezent şi celălalt absent. Tendința de apariţia unei afecţiuni pulmonare.
dependență este clară între fumat și apariţia
unei afecţiuni pulmonare.
2.5.3.3. Riscul relativ

2.5.3.2. Criteriul procentual


Riscul realtiv reprezintă un indicator prin
care se măsoară relaţia dintre un factor de
Un alt mod de a analiza datele dintr-un risc, presupus a influența apariția unei boli,
tabel de incidenţă 2x2 este de a calcula şi boala respectivă.
raportul dintre numărul pacienților la care Acest indicator se bazează pe compararea
cei doi factori apar în tandem şi numărul total probabilităţilor de apariţie a bolii la indivizi
de pacienți, raport numit Criteriul Procentual expuşi, respectiv neexpuşi la factorul
(CP). Când datele din tabel reprezintă analizat, probabilităţi numite riscuri de
rezulatele unor analize paraclinice sau ale apariţie a bolii.
unui alt tip de test, criteriul procentual
reprezintă raportul dintre numărul de indivizi
Tabelul 2.5.6.Exemplu de date pentru calcularea riscului relativ
Boala (răceală)
Prezentă "+" Absentă "-" Total
Factor de Expuși"+" 50 (a) 150 (b) 200
risc Neexpuși"-" 80 (c) 1920 (d) 2000
(frig) Total 84 2116 2200

Trebuie să ne folosim de aceste din ei vor face boala. Prin urmare, chiar dacă
probabilităţi şi nu de frecvenţele absolute de un procent mult mai mic din cei neexpuşi fac
apariţie a bolii, deoarece, de obicei, subiecţii boala, este posibil ca numărul acestora să îl
expuşi la un anumit factor de risc sunt mult depăşească pe cel al indivizilor bolnavi,
mai puţini decât cei neexpuşi, şi doar o parte expuşi la factorul de risc. De exemplu, în
145
Informatică Medicală și Biostatistică

tabelul 2.5.6 avem prezentată o situaţie face boala de 6,25 ori mai mare decât cei
ipotetică în care 200 de persoane sunt expuse neexpuși.
o perioadă prelungită la frig, în timpul iernii,
Dacă riscul relativ are valori mult mai
prin natura activităţii pe care o desfăşoară.
mari ca 1, este o indicație că între factorul de
Dintre acestea, doar 50 vor răci. Pe de altă
risc și boală este o legătură de corelație care
parte, mult mai multe persoane, să spunem
este interpretată ca fiind cauzală, deși nu este
2000, nu sunt expuse decât foarte puţin la
obligatoriu ca factorul de risc să fie cauză
frig, dar, totuşi, unele dintre ele, 80, vor răci.
pentru apariția bolii.
Deoarece riscul relativ se măsoară în
Valori ale riscului relativ apropiate de 1
funcție de riscul la cei expuși şi riscul la cei
arată aproximativ aceeași probabilitate de a
neexpuși, trebuie să definim ce înseamnă
face boala atât la expuși, cât şi la neexpuși,
aceste două riscuri.
şi trebuie considerat că factorul de risc
Riscul la cei expuși este probabilitatea ca respectiv nu are o influență reală asupra
un individ expus la factorul de risc să facă apariției bolii.
boala. Se calculează ca raportul dintre
Există cazuri în care riscul relativ are
numărul celor care au făcut boala fiind
valori subunitare (mai mici ca 1), caz în care
expuși și numărul tuturor celor expuși.
este asimilat cu un factor protector, de
Riscul la cei expuși: Re = a/(a+b) exemplu când expunerea înseamnă
efecuarea unui vaccin sau administrarea
Deci, în tabelul 2.5.6 Re=50/200, adică
preventivă a unui medicament, deoarece, în
0,25 sau 25%.
aceste cazuri, este mai mic riscul de a face
Riscul la cei neexpuși este probabilitatea boala la cei expuși, decît la cei neexpuși.
ca un individ neexpus la acelaşi factor de risc
În toate cazurile, valoarea riscului relativ
să facă boala. Se calculează ca raportul dintre
obținută este doar o aproximare a valorii care
numărul celor care au făcut boala fiind
s-ar obține dacă ar fi analizaţi toți indivizii
neexpuși și numărul tuturor celor neexpuși.
populației de referință (atât cei expuși cât şi
Riscul la cei neexpuși: Rn = c/(c+d) cei neexpuși). Din această cauză se
Deci, în tabelul 5.6 Rn=80/2000, adică calculează aşa-numitele intervale de
încredere, care reprezintă nişte limite în care
0,04 sau 4%.
poate să se încadreze riscul relativ pentru alte
Riscul relativ (RR) este raportul dintre eşantioane asemănătoare şi, prin urmare,
riscul la cei expuși şi riscul la cei neexpuși. pentru întreaga populaţie din care provin ele,
Riscul relativ RR=Re/Rn, sau cu o anumită siguranţă, de obicei nivelurile
a / (a + b ) a ⋅ (c + d ) alese fiind 95% sau 99%.
RR = =
c / (c + d ) c ⋅ (a + b ) Pentru a calcula un interval de încredere
al lui RR, avem nevoie de deviaţia sa
Prin urmare, în tabelul 2.5.6 riscul relativ standard sau de dispersie. Dispersia
este 25/4=6,25. coeficientului RR este dată de formula
1 1 1 1
Riscul relativ ne spune de câte ori este σ RR
2
= RR 2  + + + 
mai mare probabilitatea de a face boala când a b c d
ești expus decât atunci când ești neexpus. În
tabelul 2.5.6, riscul relativ fiind 6,25, unde a, b, c, d sunt cele patru numere
înseamnă că cei expuși au probabilitatea de a înscrise în cele patru celule ale tabelului de
incidenţă.
146
Informatică Medicală și Biostatistică

Formula de calcul a intervalului de Cota de îmbolnăviri la cei neexpuși este


încredere de 95% este: raportul dintre numărul celor neexpuși la
I 95% = [RR − 1,96 ⋅ σ RR , RR + 1,96 ⋅ σ RR ] care boala este prezentă și numărul celor
neexpuși la care boala este absentă.
Deci, din cele patru numere ale unui tabel
de incidenţă (numerele a, b, c, d) se poate Odds - =c/d
calcula RR aşa cum s-a vazut mai sus, apoi Raportul cotelor sau Odds Ratio (OR)
σRR, apoi intervalul de încredere. este raporul dintre cota la cei expuşi şi cota
Riscul atribuibil (AR) reprezintă la cei neexpuşi:
procentul din proporţia de cazuri de boală a/b a⋅d
din populaţie, notată P, care se datorează OR = =
prezenţei factorului, dacă acesta apare cu c/d b⋅c
frecvenţa f, iar probabilitatea de apariţie a Formula OR este uşor de reţinut,
bolii la subiecţi neexpuşi Rn=p. deoarece este raportul dintre produsul
P=RRp·f+(1-f)·p=p·[1+f·(RR-1)] numerelor de pe diagonala principală şi
produsul celor de pe cealaltă diagonală.
Diferența dintre riscul la cei expuși şi
riscul la cei neexpuși nu este foarte utilă dacă În tabelul 2.5.6, cotele de îmbolnăviri
f este mică, astfel încât definim: sunt: la cei expuși 50/150, adică de 1 la 3, iar
la neexpuși de 80/1920, adică de 1 la 24.
AR= (P-p)/P= (RR-1)·f/[(RR-1)·f+1] Raportul celor două cote, adică Odds Ratio,
este raportul dintre 1/3 şi 1/24, adică
OR=24/3=8.
2.5.3.4. Odds Ratio
Interpretare lui OR se face asemănător cu
cea a riscului relativ, cu menţiune că, de
Acest indicator nu are o traducere obicei, are tendinţa să supraestimeze
consacrată în limba română, de aceea se legătura dintre factor şi boală, având valori
folosește termenul de „raportul cotelor” sau mai mari decât RR (în exemplul nostru, 8 în
„raportul șanselor”. Deoarece este raportul a loc de 6,25):
două „cote”, trebuie întâi înțeles ce înseamnă
-valori mult peste 1 arată o tendință de
cotă. În engleză, cotele se folosesc la casele
corelație între prezența expunerii și a bolii la
de pariuri. O cotă de 3 la 2 pentru un
pacienți, care este considerată de obicei ca
eveniment, înseamnă că la acea casă de
fiind cauzală, deși nu totdeauna este cazul;
pariuri se consideră că sunt 3 șanse pentru şi
2 șanse contra ca evenimentul să se întâmple. -valori apropiate de 1 arată cote
asemănătoare, cea ce înseamnă că expunerea
În studiile clinice, în special în studiile
nu influențează prezența bolii;
caz-martor sau, mai rar, în studiile de
cohortă, se folosește Odds Ratio, ca raportul -valori mult sub 1 arată tot o corelație, dar
între cota de îmbolnăviri la cei expuși şi cota în acest caz, expunerea este considerată un
de îmbolnăviri la cei neexpuși. factor de protecție.
Cota de îmbolnăviri la cei expuși este Intervalele de încredere pentru raportul
raportul dintre numărul celor expuși la care cotelor se calculează în mod asemănător cu
boala este prezentă și numărul celor expuși cele pentru riscul relativ, înlocuindu-se RR
la care boala este absentă. cu OR în formulele prezentate anterior.
Odds + =a/b
147
Informatică Medicală și Biostatistică

2.5.4. Analiza testelor diagnostice direct o manifestre a bolii sau cauza ei (de
exemplu, prin teste de anatomie patologică
se observă celule canceroase, prin teste
Cea de-a doua situaţie frecvent întâlnită bacteriologice se pun în evidenţă
în studii statistice din domeniul medicinei în organismele care provoacă o anumită
care se utilizează table de incidenţă 2x2 se patologie) sau este un test care a fost deja
referă la analiza relaţiei dintre rezulatele verificat ca fiind extrem de precis și dă o rată
unor analize paraclinice sau ale unui alt tip de erori minimă. Prin urmare, pacienţii care
de test clinic şi prezenţa sau absenţa unei boli fac subiectul analizei unui test se împart
sau a unei manifestări patologice care nu după două criterii:
poate fi observată direct.
-după criteriul bolii (sau al caracteristicii
De aceea, iniţial vom alege două loturi de diagnosticate), sunt două categorii: bolnavi
subiecţi care sunt sigur bolnavi, respectiv (engl: diseased) şi sănătoși (engl: disease
sigur sănătoşi. Faptul că un pacient este sigur free).
în una dintre categorii se stabilește cu
-după criteriul rezultatului testului clinic
ajutorul unui așa-numit test sigur sau test de
studiat sunt tot două categorii: pozitivi şi
aur (engl: golden test). Acest test reprezintă
negativi.
o modalitate prin care se observă în mod

Tabelul 2.5.7. Clasificarea unor subiecți după prezenţa unei afecţiuni (testul sigur) și după
rezultatul pe care îl obțin la un test de diagnosticare pe care dorim să îl evaluăm calitativ
Testul sigur (Golden test)
Bolnavi B Sănătoși S Total
Testul propus Pozitivi Real Pozitivi Fals Pozitivi T+
(Testul clinic) + (RP sau B+) (FP sau S+)
Negativi Fals Negativi Real Negativi T-
-
- (FN sau B ) (RN sau S-)
Total B S B+S= N

În tabelul de incidenţă utilizat într-o astfel -Fals Negativi FN (false negative -FN),
de analiză, categoriile care ţin de patologie, pacienții care în realitate sunt Bolnavi iar în
adică bolnavi şi sănătoşi, reprezintă urma testului sunt Negativi – B-.
întotdeauna coloanele, iar categoriile care
-Fals Pozitivi FP (false positive -FP),
arată rezultatul testului, pozitiv şi negativ,
pacienții care în realitate sunt Sănătoși iar în
reprezintă întotdeauna rândurile, în ordinea
urma testului sunt Pozitivi – S+.
precizată mai sus. Deci, fiecare din indivizii
studiaţi va aparține uneia din următoarele -Real Negativi RN (true negative -TN),
patru clase, care rezultă în urma combinării pacienții care în realitate sunt Sănătoși iar în
în toate modurile posibile a celor patru urma testului sunt Negativi – S-.
categorii de mai sus: După ce se stabilește pentru fiecare
-Real Pozitivi RP (true positive -TP), pacient cărei clase aparține, din cele patru
pacienții care în realitate sunt Bolnavi iar în enumerate mai sus, se realizează un tabel 2x2
urma testului sunt Pozitivi – B+. ca în tabelul 2.5.7.

148
Informatică Medicală și Biostatistică

Prin urmare, un test clinic sau paraclinic calitatea testului clinic propus, în comparație
care se aplică pacienților este o metodă care cu testul considerat sigur (testul de aur).
trebuie să îndeplinească următoarele calități: Ideal ar fi ca ei să fie apropiați de 100%. În
practică, se constată că este foarte greu să se
-un procent cât mai mare dintre pacienții
atingă valori foarte mari, însă este
care au în mod real boala ar trebui să apară
recomandat ca atât sensibilitatea Sn, cât şi
în urma testului ca fiind pozitivi;
specificitatea Sp să fie ambele peste 75%.
-un procent cât mai mare dintre pacienții
Un alt parametru important îl reprezintă
care nu au boala ar trebui să apară în urma
acurateţea unui test, adică raportul dintre
testului ca fiind negativi.
numărul de indivizi catalogaţi corect şi
Parametrii statistici care descriu numărul total de indivizi testaţi:
calitatea testelor diagnostice sunt
A = (B+ + S-)/ N
sensibilitatea şi specificitatea.
Uneori se mai folosesc, pentru a desrie
Sensibilitatea reprezintă abilitatea
calitatea testului, şi ratele de eroare.
de a detecta subiecţii pozitivi dintr-o
populaţie, probabilitatea de a avea un test Rata fals pozitivă (RFP) este raportul
pozitiv (anormal) atunci când subiectul dintre numărul pacienților sănătoși
prezintă afecţiunea investigată. Astfel, o diagnosticați greșit ca pozitivi și numărul
sensibilitate de 98% a unui anumit test de pacienților sănătoși.
laborator înseamnă că acesta poate depista
RFP = S+ / S = 1-Sp
98 de cazuri pozitive din 100, 2 cazuri fiind
raportate ca fiind fals negative. care arată proporţia de subiecţi sănătoşi care
au un rezultat pozitiv (situaţie numită
Sensibilitatea (Sn) unui test este raportul
„eroare de tip I”).
dintre numărul pacienților bolnavi,
diagnosticați ca pozitivi şi numărul total de Rata fals negativă (RFN) este raportul
bolnavi. dintre numărul pacienților bolnavi
diagnosticați greșit ca negativi și numărul
Sn=B+ / B
pacienților bolnavi.
Specificitatea reprezintă abilitatea
RFN = B- / B = 1 –Sn.
unui test de a depista valorile negative dintr-
o populaţie, probabilitatea de a avea un test care arată proporţia de bolnavi care au un
negativ (normal) când subiectul nu prezintă rezultat negativ („eroare de tip II”). Acest tip
afecţiunea. Astfel, o specificitate de 95% de eroare este mai grav, deoarece ne poate
înseamnă că din 100 de subiecţi sănătoşi, 95 face să neglijăm o parte dintre persoanele
sunt depistaţi ca şi cazuri real negative, restul care sunt de fapt bolnave, dar care, prin
de 5 fiind fals pozitivi. prisma rezultatelor testului, par să fie
sănătoase, testul fiind negativ.
Specificitatea (Sp) unui test este raportul
dintre numărul pacienților sănătoși, După ce s-a confirmat că un test clinic
diagnosticați ca negativi şi numărul total de este valoros, deci că identifică în mod corect
sănătoși. cea mai mare parte a indivizilor bonavi, dar
şi a celor sănătoşi, ne interesează mai mult
Sn = S- /S
următorii doi indicatori, prin care
Aceşti doi indicatori sunt considerați interpretăm un rezultat pozitiv sau negativ la
fundamentali, ei fiind cei care dau de fapt un individ despre care vrem să aflăm dacă

149
Informatică Medicală și Biostatistică

este bolnav sau nu, cu alte cuvinte ce prezice Testele de screening, prin care se
un anumit rezultat al testului. efectuează controale populaţionale de masă,
sunt teste simple, care nu au o rata de
Valoarea predictivă pozitivă ne arată
certitudine, adică VPP, foarte mare, dare
proporţia de persoane bolnave din totalul de
care au o rată de infirmare, adică VPN, foarte
subiecţi care au obţinut un rezultat pozitiv.
ridicată, de aproape 99%, astfel încât un
Poate fi interpretată ca fiind probabilitatea de
rezultat negativ practic asigură inexistenţa
a fi bolnav dacă testul este pozitiv şi
patologiei căutate.
reprezintă abilitatea unui test de a identifica
persoanele care au cu adevărat boala. Sensibilitatea, specificitatea, rata fals
pozitivă, rata fals negativă şi acurateţea sunt
Valoarea predictivă pozitivă (VPP)
utile pentru a aprecia calităţile unui test
este raportul dintre numărul pacienților
înainte de a-l folosi practic, în clinică, când
diagnosticați corect ca pozitivi şi numărul
vrem să ne asigurăm că acel test va face
total al celor diagnosticați de test ca pozitivi.
corect discriminarea între bolnavi şi
VPP = B+/ T+. sănătoşi. Pentru a folosi efectiv testul,
Chiar şi o valoare mai mare de 50% a asupra unor subiecţi despre care nu ştim dacă
VPP poate fi utilă, deoarece ne spune că, sunt bolnavi sau nu, devin mai importanţi
dacă are un test pozitiv, individul respectiv e ceilalţi parametri, valoarea predictivă
mai probabil să fie bolnav decât sănătos, deci pozitivă şi cea negativă.
ar trebui să îi facem alte teste mai precise, să În unele studii statistice se mai folosesc
îl supravegem sau să iniţiem un tratament doi indicatori ce reprezintă o modalitate de a
specific patologiei suspectate. uni sensibilitatea şi specificitatea unui test
Valoarea predictivă negativă ne arată într-o singură unitate de măsură, numiţi
proporţia de persoane sănătoase din totalul ratele probabilităţilor (LR = likelihood
de subiecţi care au obţinut un rezultat ratio).
negativ. Poate fi interpretată ca fiind LR+ (a unui test pozitiv) ne arată
probabilitatea de a fi sănătos dacă testul este performanţa testului prin compararea
negativ şi reprezintă abilitatea unui test de a situaţiei când boala este prezentă cu situaţia
identifica persoanele care sunt cu adevărat când boala este absentă. Cel mai bun test
sănătoase. pentru a confirma o boală este cel cu
Valoarea predictivă negativă (VPN) valoarea cea mai mare a LR+.
este raportul dintre numărul pacienților LR + = arată de câte ori e mai probabil să
diagnosticați corect ca negativi şi numărul ai rezultat pozitiv când ai boala.
total al celor diagnosticați de test ca negativi.
Rata de probabilitate pentru un rezultat
VPN = S- / T- pozitiv al testului (likelihood ratio+) este:
Valoarea predictiv negativă ar trebui să LR+ = Sn/(1 – Sp)
fie cât mai mare, de peste 90%, dacă vrem să
LR- (a unui test negativ) ne arată
folosim testul pentru a identifica pacienţii cu
performanţa testului prin compararea
adevărat sănătoşi. De exemplu, dacă VPN
situaţiei când boala este absentă cu situaţia
este 90%, asta înseamnă că sunt 10% şanse
când boala este prezentă. Cel mai bun test
ca individul testat să fie, de fapt, bolnav, ceea
pentru a exclude o boală este cel cu valoarea
ce este un risc mare.
cea mai mică a LR-.

150
Informatică Medicală și Biostatistică

LR- = arată de câte ori e mai probabil să parametru important pentru o anumită
ai rezultat negativ când ai boala. afecţiune, o problemă deosebită este
alegerea unui prag optim, o valoare a acelui
Rata de probabilitate pentru un rezultat
parametru pentru care orice pacient care are
negativ al testului (likelihood ratio-) este:
o valoare mai mare să poată fi declarat
LR – = (1 – Sn)/Sp bolnav, iar cel care are o valoare mai mică să
fie declarat sănătos. Pentru valori diferite ale
variabilei măsurate, folosite pentru a separa
2.5.4.1. Curba ROC subiecţii în pozitivi să negativi, se generează
un alt test diagnostic, care are o anumită
sensibilitate şi o anumită specificitate.
Receiver Operating Characteristic Curve, Astfel, pentru fiecare prag, odată fixat, se
sau curba ROC (figura 2.5.2), reprezintă obţin valori ale sensibilităţii şi specificităţii
curba care descrie performanţele unui test testului, pe care le putem reprezenta printr-
clinic în funcţie de pragul de decizie ales, un punct într-un sistem de axe. Unind între
atunci când rezultatele testului de ele punctele generate astfel, se obţine un
diagnosticare sunt valori continue, şi este o poligon care poartă numele de curba ROC de
metodă prin care se face identificarea unor eşantionare. Curba ROC oferă o ilustrare
valori-prag („cut-off”) utile în discriminarea grafică a compromisului între sensibilitate şi
între cazurile pozitive și negative. (1-specificitate) pentru o serie de valori prag,
Atunci când avem nevoie să luăm o atunci când rezultatele testului de
decizie pe baza valorilor numerice ale unui diagnosticare sunt valori continue.

Curba ROC - BNP SERIC (AUC=0.898)


100%
90%
80%
70%
Sensibilitate

60%
50%
40%
30%
20%
10%
0%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%100%

1 - Specificitate
Figura 2.5.2. Curba ROC prin care se analizează relaţia dintre valorile BNP şi identificarea
pacienţilor cu 2 sau mai multe exacerbări ale BPOC

151
Informatică Medicală și Biostatistică

Prin urmare, reprezentarea grafică a respectând regula ca Sn şi Sp să fie ambele


curbelor ROC și calcularea ariei de sub curbă mai mari de 75%.
(AUC) reprezintă o metodă de evaluare a
Pentru aceasta, din tabelul cu valorile
performanței unui test diagnostic. După
sensibilităţii şi specificităţii calculate la
calcularea AUC pentru curba ROC a
diverse valori-prag pentru variabila studiată,
parametrului investigat, în cazul în care
analizăm zona în care Sn, Sp şi suma lor au
diferența AUC faţă de 0,5 (adică 50% din
cele mai înalte niveluri, pentru a identifica
suprafața graficului) este semnificativă sau
pragul optim.
înalt semnificativă statistic, cu p<0,05 sau
p<0,001, se consideră că variabila analizată De exemplu, oricare dintre valorile BNP
permite găsirea şi folosirea în practica din tabelul 2.5.8 ar putea constitui un prag
medicală a unor valori-prag („cut-off”) utile viabil pentru a discerne între pacienţii cu mai
în discriminarea între cazurile pozitive și puţin sau mai mult de 2 exacerbări anuale ale
negative. În etapa următoare se identifică BPOC, deoarece atât Sn, cât şi Sp sunt peste
valoarea-prag optimă, pentru care 75%, însă recomandăm folosirea valorii de
sensibilitatea, specificitatea, suma lor şi 36 pg/ml, deoarece la 35.9 pg/ml avem suma
acurateţea testului au valori cât mai mari, maximă între Sn (92%) şi Sp (78%).

Tabelul 2.5.8. Identificarea valorii-prag optime pentru o curba ROC


BNP SERIC Sensitivitate Specificitate VPP VPN Sn+Sp
35.80 92.00% 75.61% 82.14% 88.57% 167.61%
35.90 92.00% 78.05% 83.64% 88.89% 170.05%
37.80 86.00% 78.05% 82.69% 82.05% 164.05%
38.90 86.00% 80.49% 84.31% 82.50% 166.49%
39.50 84.00% 82.93% 85.71% 80.95% 166.93%
41.10 82.00% 82.93% 85.42% 79.07% 164.93%
41.60 82.00% 85.37% 87.23% 79.55% 167.37%
41.80 80.00% 85.37% 86.96% 77.78% 165.37%
41.90 78.00% 85.37% 86.67% 76.09% 163.37%
43.80 76.00% 85.37% 86.36% 74.47% 161.37%

152
Informatică Medicală și Biostatistică

2.6. Teste statistice inferența, că media coeficientului de


inteligență în populație este de 101,5.
În continuare vom prezenta metodele prin
2.6.1. Relaţia dintre eşantion şi care se poate evalua cât de aproape de media
populaţie reală a populaţiei este media aproximativă,
obținută luând în calcul doar indivizii dintr-
un eșantion. În acest sens, un rol foare
Valorile indicatorilor statistici calculați important îl are distribuția Gauss sau
pentru un eșantion sunt doar aproximări ale normală, care se aseamănă cu distribuţa
valorilor reale ale indicatorilor populației din naturală a unei variabile biologice
care provine eșantionul. Se pune problema neinfluenţate de factori externi. Să
de a stabili câtă încredere se poate avea în presupunem că dorim să identificăm media
aceste aproximări, cât de precise sunt ele. unei populații distribuite gaussiam, cu un
Pentru ca gradul de siguranță în concluziile număr foarte mare de indivizi, care, din
pe care le tragem despre o populație pe baza punct de vedere statistic, se numește „practic
rezultatelor obținute pe un eșantion să fie cât infinită”.
mai mare, acesta trebuie să îndeplinească
anumite condiţii.
Dacă modul în care a fost ales eșantionul
ne dă posibilitatea să afirmăm că acesta este
reprezentativ pentru populaţia pe care dorim
să o studiem, deoarece caracteristicile lui
care pot influenţa valorile parametrului
analizat sunt similare cu cele găsite pentru
populaţia de provenienţă, aşa cum sunt
cunoscute din alte studii din literatura de
specialitate, atunci valorile obţinute pentru
media și deviația standard ale indivizilor din
eşantion sunt bune aproximări ale mediei și Figura 2.6.1. Distribuţia unei populaţii
deviației standard pentru întreaga populație. Gauss de 10000 de indivizi
De fapt, sursele bibliografice nu ne dau nici
ele decât tot aproximări ale caracteristicilor
populaţiei, sau ale adevăratei medii sau Vom spune că media populației
deviații standard, ele fiind obținute tot pe respective în ceea ce privește un anumit
niște eșantioane mari extrase din populația parametru este μ şi deviația standard este σ,
respectivă. Extrapolarea, sau generalizarea valori care sunt de obicei necunoscute, iar
unor rezultate obținute prin măsurători pe un distribuția variabilei respective este normală.
eșantion la întreaga populație o vom numi Să mai presupunem că vrem să aproximăm
inferență. De exemplu, dacă valoare media populației prin medii obținute pe
coeficientului mediu de inteligență pe un eșantioane de volum n, adică loturi cu n
eșantion reprezentativ este 101,5, putem, indivizi.
dacă sunt îndeplinite anumite condiții foarte
precise, să facem generalizarea, sau

153
Informatică Medicală și Biostatistică

Figura 2.6.2. Histogramele seriilor mediilor pentru foarte multe loturi de câte 2, 3, 4, 9, 16,
25, 36, până la 100 de indivizi. Se observă tendința de scădere a împrăştierii mediilor
obţinute pe măsură ce crește volumul loturilor

154
Informatică Medicală și Biostatistică

Dacă luăm foarte multe astfel de În figura 2.6.2 sunt reprezentate


eșantioane vom obține foarte multe medii histogramele corespunzătoare cazurilor
apropiate între ele, aproximații care sunt, când, din populaţia prezentată în Figura
cele mai multe dintre ele, apropiate de 2.6.1, analizăm foarte multe medii pe loturi
adevărata medie, iar altele mai îndepărtate. din ce în ce mai mari, conţinând de la 2 până
Vom numi aceste medii aproximative „medii la 100 de indivizi (2, 3, 4, 9, 16, 25, 36, 100).
de eșantionare de volum n”. Prin urmare, Se observă că se respectă toate cele trei
vom crea o serie statistică formată din afirmații de mai sus.
valorile acestor medii, serie care are o
Ca o concluzie, putem afirma că este cu
importanță deosebită, deoarece are anumite
atât mai probabil ca media calculată pentru
proprietăți care ne vor ajuta să estimăm cât
un eşantion să aproximeze mai corect media
de bune sunt aproximările mediei reale, prin
reală a populaţiei de provenienţă cu cât
medii de eșantionare. Fie seria statistică Mn:
dimensiunea eşantionului este mai mare,
m1, m2, m3..... mn., seria mediilor de
deoarece devine mai puţin probabil să
eșantionare de volum n. Se poate demonstra
includem în eşantion mai multe valori
că:
extreme de acelaşi fel, adică doar foarte mici
-media seriei statistice Mn este aceeași cu sau doar foarte mari, şi cu cât împrăştierea
a populației, adică m; valorilor din eşantion, deci, implicit, din
populaţie, este mai mică, deoarece este mai
-deviația standard a seriei Mn este egală
puţin probabil ca între diferite eşantione
cu σ/ n , adică depinde de deviaţia standard extrase din populaţie să fie diferenţe mari în
a populației, care este σ, în mod invers ceea ce priveşte valorile componente.
propoţional cu radical din numărul de
indivizi din lot, notat cu n;
-distribuția seriei Mn este de tip Gauss 2.6.2. Eroarea standard
dacă variabila iniţială este distribuită
gaussian sau dacă n este mare, n≥30).
Deviația standard a distribuției mediilor
Aceste reguli reprezintă teorema de de eșantionare, care se mai numește „eroare
limită centrală. La modul general, dacă standard”, este un indicator foarte important,
seria de distribuţie a variabilei în cazul care ne ajută să apreciem precizia de calcul a
populaţiei este normală, atunci seria de mediei pe care o estimăm. Eroarea standard
distribuţie a mediilor eşantioanelor este (SE=standard error) este indicatorul care
normală; dacă seria de distribuţiei a arată cât de precis aproximează media
variabilei în cazul populaţiei nu este calculată din valorile unei serii, media
normală, atunci seria de distribuţie a populației din care a fost extras lotul pe care
mediilor eşantioanelor este aproximativ s-a făcut studiul.
normală pentru eşantioane de mărime mai
mare ca 30. Tendinţa către o serie de Are formula: SE =
s
distribuţie normală creşte dacă mărimea n
eşantionului creşte. Pe scurt, teorema de
limită centrală stabileşte că seria de unde s este deviația standard calculată
distribuţie a mediei eşantioanelor este folosind valorile seriei, iar n este numărul de
aproximativ normală, indiferent de valori din serie.
distribuţia variabilei în cazul populaţiei. Se observă că eroarea standard este direct
proporțională cu deviația standard a valorilor
155
Informatică Medicală și Biostatistică

din serie, deci cu cât valorile din serie sunt probabil să avem medii foarte îndepărtate de
mai dispersate, cu atât valoarea indicatorului media reală.
SE va fi mai mare. Proporționalitatea este
Dacă folosirea de eșantioane restrânse ca
directă, adică o creștere a lui s conduce la o
acelea formate din doar doi sau trei indivizi
creștere proporțională a lui SE.
poate duce la medii foarte îndepărtate de cea
Valoarea lui SE este influențată, după reală, mediile obținute pe eșantioane mai
cum se vede din formulă, și de numărul de numeroase vor fi în general mult mai
valori din serie, în sensul că este cu atât mai apropiate de media reală. De altfel, formula
mică cu cât sunt mai multe valori în serie, Err ne spune tocmai acest lucru, căci se vede
dacă deviația standard nu se schimbă. SE că o creștere a lui n conduce la un numitor
scade în funcție de numărul de valori din mare și deci la o eroare standard mică.
serie, nu însă proporțional cu n, ci cu
Am fi tentați să afirmăm că media de
rădăcina pătrată a lui n.
eșantionare obținută pe un eșantion de volum
De exemplu, dacă n crește de 4 ori, SE mai mare este întotdeauna mai precisă decât
scade de două ori: dacă două serii de valori, media de eșantionare obținută pe un eșantion
X și Y, au aceeași deviație standard egală cu de volum mai mic, ceea ce nu este adevărat.
2, şi numărul de valori din seria X este 25, Adevărată este doar afirmația că este mai
iar cel din seria Y este 100, atunci erorile probabil ca o medie de eșantionare pe un
standard pentru cele două serii sunt: eșantion de volum mai mare să fie mai
precisă decât una obținută pe un eșantion de
2 2
SE X = = = 0,4 volum mai mic. Este posibil ca, prin jocul
25 5 întâmplării, o medie obținută pe un eșantion
mai mare să fie mai diferită de media reală
2 2 decât o medie obținută pe un eșantion mai
SEY = = = 0,2
100 10 mic, numai că această situație este mai puțin
probabilă, cu atât mai puțin probabilă cu cât
Într-un fel, putem afirma că eroarea diferența de volum între cele două
standard este considerată a fi abaterea eșantioane este mai mare.
standard a mediei (calculată pe valorile
măsurate pe un lot) față de media întregii
populații. 2.6.3. Intervale de încredere
Mediile obținute pe eșantioane de volum
n vor fi, de obicei, cu atât mai apropiate de
realitate cu cât n este mai mare. Această Aşa cum deja am arătat, media unui
afirmaţie nu trebuie neapărat demonstrată, eşantion pe care îl avem la dispoziţie este
deoarece intuitim că o aproximare a mediei doar o aproximare a mediei populaţiei din
unei populații este, în principiu, cu atât mai care provine eşantionul, adică este doar o
bună cu cât eșantionul extras este mai aproximare a realităţii, pe care nu o
numeros. cunoaştem şi pe care, de altfel, nu o să o
cunoaştem niciodată. Vom numi interval de
Acest lucru ne spune că, dacă încredere o aproximare în plus şi în minus a
reprezentăm curba Gauss a mediilor de acestei medii necunoscute. Intervalele de
eșantionare, ea va fi cu atât mai concentrată încredere se calculează pornind de la media
în jurul mediei reale cu cât eșantioanele sunt şi deviaţia standard de eşantionare.
de volum mai mare, deoarece este mai puțin

156
Informatică Medicală și Biostatistică

Din păcate, nu este posibil să găsim în


general un interval finit în care să fim absolut
siguri că se află valoarea medie a
parametrului de estimat. Tot ceea ce se poate
face este să găsim un interval în care
valoarea medie a parametrului pe care îl
estimăm să se afle nu sigur, ci numai cu o
probabilitate dinainte fixată. Vom numi
interval de încredere cu siguranță
(probabilitate) c% (95%, 99%, 99,9%), un
interval de numere în care suntem c% siguri
că se află adevărata valoare a parametrului
Figura 2.6.3. Valorile coeficientului t
pe care îl estimăm.
Student pentru diferite niveluri de încredere
Se consideră că mediile de eşantion n se şi grade de libertate
distribuie în jurul mediei reale conform unei
distribuţii Student cu (n-1) grade de libertate,
cu deviaţie standard s. În general, pentru calculul intervalului de
Prin urmare, intervalul de încredere de încredere de siguranță c% al mediei μ a
c% pentru estimarea mediei μ a populaţiei se populaţiei, formula este:
calculează cu formula:  σ σ 
I c % =  X − tcn%−1 ⋅ , X + tcn%−1 ⋅ 
s  n n
X ± t cn%−1 ,
n De exemplu, media de eșantionare pentru
unde: o serie statistică în care am măsurat latența
X = media eşantionului, semnalului pe nervul optic este 112,2 ms, iar
s = deviaţia standard a eşantionului abaterea standard este 12,5 ms. Volumul
s = Err =eroarea standard, eșantionului este de 156 de indivizi. Pentru a
n găsi intervalul de încredere de 95% al mediei
n = volumul (numărul de pacienţi), vom face următoarele calcule:
tc% = coeficientul de multiplicare al Err Eroarea standard este:
pentru intervalul de încredere de c%
corespunzător unui lot de n pacienţi (se SE =
s
=
12,5
=
12,5
=1
calculează conform distribuţie t Student care n 156 12,49
are n-1 grade de libertate). În tabele statistice, pentru 155 grade de
Există tabele cu valorile coeficienţilor t libertate se găsește t95 % = 1,96
155

Student, din care se iau pragurile t95%, t99%,


sau, dacă este nevoie, t99,9% (Figura 2.6.3). Pe Deci limitele inferioară și superioară
coloana denumită N sunt listate numărul de pentru intervalul de încredere sunt:
grade de libertate, iar pe coloanele t95%, t99% σ
şi t99,9%, sunt listate valorile pragurilor Inf = X − t95
155
% ⋅ = 112,2 − 1,96 ⋅ 1 = 110,24
n
căutate de noi. De exemplu, pentru 10 grade
de libertate, t95% este 2,228, iar t99% este σ
Sup = X + t 95
155
% ⋅ = 112,2 + 1,96 ⋅ 1 = 114,16
3,169. Pentru 120 de grade de libertate, t95% n
este 1,98, iar t99% este 2,617.

157
Informatică Medicală și Biostatistică

Prin urmare, intervalul de încredere este apariţie a una din două situaţii
I 95% = [110,24 ms;114,16 ms ] complementare, care reprezintă ipotezele
testului şi se definesc astfel:
Putem afirma cu o siguranță de 95% că
-ipoteza H0 (sau ipoteza de nul): datele nu
media reală pentru latența semnalului pe
prezintă legături între ele (variabilele
nervul optic, pe care nu o cunoaștem, este în
analizate sunt independente/ valorile
acest interval.
comparate nu diferă între ele);
Un interval de încredere este totdeauna
-ipoteza H1 (sau ipoteza alternativă):
centrat pe media de eșantionare, lucru care
datele prezintă legături între ele, (variabilele
este normal, el fiind obținut prin adăugarea
analizate sunt corelate/ valorile comparate
și scăderea din media de eșantionare a
diferă între ele).
aceleiași cantități tα% · Err. Ceea ce ne
interesează, însă, este unde se află media Cu alte cuvinte, testele statistice verifică
reală în raport cu intervalul de încredere veridicitatea unor ipoteze, reprezentând
asociat, pentru că acesta este scopul pentru astfel materializarea unei inferenţe statistice.
care construim aceste intervale, ca să Ipotezele pe care le putem supune deciziei
estimăm media reală. unui test statistic sunt foarte variate, în
funcţie de ce aspecte ale datelor observate
După definiția intervalului de încredere,
vrem să analizăm. Categoriile principale de
media reală se află c% sigur (95% sigur, 99%
ipoteze sunt:
sigur etc), între limitele intervalului de
încredere. Am fi tentați să spunem că este la -ipoteze care afirmă că mediile a două sau
mijloc, ceea ce nu este adevărat. Media reală mai multe populații sunt egale;
poate fi oriunde în interiorul intervalului de
-ipoteze care afirmă că dispersiile a două
încredere, așa cum poate să fie chiar şi în
sau mai multe populații sunt egale;
afara lui, cu o probabilitate foarte mică. Nu
este corect să spunem nici măcar că este mai -ipoteze care afirmă că repartiția unei
probabil să se afle la mijlocul sau în jurul variabile aleatorii este o repartiție fixată
mijlocului intervalului de încredere. Ea se (Gauss, Poisson etc.);
află oriunde în intervalul de încredere, la fel -ipoteze care afirmă că doi factori de
de probabil spre mijloc sau spre capete. clasificare sunt independenți.
Eroarea ca media reală să fie în afara Există două tipuri de erori ce pot apărea
intervalului de încredere este 1-c%=α. în testarea ipotezelor unui test statistic.
Eroarea de tip I este situaţia în care se
respinge ipoteza de nul, deşi aceasta nu
2.6.4. Teste statistice trebuia respinsă, în timp ce eroarea de tip II
este situaţia în care ipoteza de nul nu se
respinge, deşi trebuia să fie respinsă (tabelul
Un test statistic este o metodă de decizie
2.6.1). Când efectuăm un test statistic trebuie
care ne ajută la validarea sau invalidarea cu
să alegem un nivel maxim permis al erorii de
un anumit grad de siguranţă a unei ipoteze
tip I, notat cu α (inversul nivelului de
statistice. De cele mai multe ori, printr-un
încredere), precum şi un nivel maxim permis
test statistic se verifică probabilitatea de
al erorii de tip 2, notat cu β.

158
Informatică Medicală și Biostatistică

Tabelul 2.6.1. Situaţiile posibile la aplicarea unui test statistic


Situaţia reală H0 este adevărată H0 este falsă
Ipoteza Acceptăm H0 Decizie corectă Eroare de tip II
statistică 1-α= nivel de încredere β= probabilitatea de a face o
eroare când acceptăm H0
Respingem H0 Eroare de tip I Decizie corectă
Acceptăm H1 α-= probabilitatea de a face o 1-β = puterea testului
eroare când respingem H0

coeficientul V al lui Cramer, coeficientul de


De fapt, nivelul α înseamnă că, dacă este
adevărată H0, există o probabilitate egală cu corelație Matthews MCC = χ 2 / n .
α ca, din alegerea aleatorie a datelor, să
obţinem un lot a cărui medie/ proporţie să fie În funcţie de formularea ipotezelor,
la o distanţă mai mare decât mărimea testele statistice se împart în teste unilaterale
efectului cerută în test. (one-tailed) şi în teste bilaterale (two-tailed).
Testele unilaterale sunt acelea în care alegem
Legat de acceptarea ipotezei H1, dacă să căutăm o diferenţă faţă de media/proporţia
vom stabili un nivel maxim pentru eroarea de de referinţă doar într-o direcţie, strict spre
tip II, adică β, egal cu 0.20, puterea statistică valori mai mici sau strict spre valori mai
a testului respectiv va fi de 0.80, ceea ce mari, pe când, la cele bilaterale, investigăm
semnifică o probabilitate de 80% de a detecta un anumit nivel al diferenţei (valoarea
un efect dacă acesta există. absolută), fără să conteze sensul ei, în plus
Când avem de-a face cu un test statistic, sau în minus.
trebui să definim şi mărimea efectului Dacă ar fi să vorbim despre scoruri z, la
(ES=effect size) pe care vrem să îl punem în testele unilaterale am lua ca scor critic, faţă
evidenţă prin test. Cuantificarea mărimii de media sau proporţia de referinţă, doar o
efectului diferă în funcţie de tipul de date, valoare z, pozitivă sau negativă, pe când la
cantitative sau calitative (împărţite în testele bilaterale, am lua două valori, -z şi z,
categorii ordinale sau nominale) şi de tipul astfel încât suprafaţa de sub curbă delimitată
de distribuție pe care îl au datele. Există de valorile z critice să aibă valoarea gradului
indicatori ai mărimii efectului pentru diferite de încredere în susţinerea ipotezei de nul H0
situaţii: (95%,99%).
-pentru analiza diferenţei dintre date De obicei, rezultatul unui test statistic
cantitative: indicele d al lui Cohen, delta al este furnizat ca un număr între 0 şi 1 şi se
lui Glass, g al lui Hedges (estimează exprimă ca o valoare de probabilitate, p, mai
diferenţa standardizată dintre medii), precis probabilitate de a face o eroare dacă
indicele h al lui Cohen (estimează diferenţa respingem ipoteza H0, deci o eroare de tip I.
standardizată dintre proporţii);
Pragul de semnificaţie, notat cu α, trebuie
-pentru analiza puterii legăturii dintre ales înainte de a efectua un test statistic,
două variabile cantitative: r - coeficientul de adică valoare minimă pe care trebuie să o
corelaţie, r2 - coeficientul de determinare, η2 aibă rezultatul testului pentru a considera ca
- eta pătrat, ω2 - omega pătrat; validă ipoteza de nul se stabileşte „a priori”.
-pentru analiza puterii legăturii dintre Dacă p este mai mic decât pragul de
două variabile calitative: coeficientul φ, semnificaţie α (de obicei α=0,05), respingem

159
Informatică Medicală și Biostatistică

ipoteza H0 şi admitem ca adevărată ipoteza Pentru date calitative, trebuie să cunoaştem


H1. proporţiile p1 și p2 - informații despre
proporțiile cazurilor „pozitive” din cele două
Interpretarea valorilor p se face la
grupuri pe care le comparăm.
majoritatea testelor statistice astfel:
Dacă nu comparăm două grupuri, ci
-p > α=0.05, legătura statistică este
comparăm rezultatele obţinute pe un grup cu
nesemnificativă şi acceptăm H0 (NS).
valori teoretice pentru o populaţie (medie şi
-p < α=0.05, legătura statistică este deviaţie standard/ proporţie) considerate ca
semnificativă (S, încredere 95%). fiind corecte, „reale” pentru populaţia de
-p < α=0.01, legătura statistică este referinţă, aceste informații sunt obținute de
obicei fie din literatură, fie dintr-un studiu
semnificativă (S, încredere 99%).
pilot, fie sunt aproximate.
-p < α=0.001, legătura statistică este înalt
În funcţie de valorile α şi β vom putea
semnificativă (HS, încredere 99.9%).
determina volumul minim al eşantionului, n,
astfel încât să putem pune în evidenţă un
efect cu o valoare minimă, aleasă anterior.
La modul general, pentru testele în care
comparăm un eşantion cu valorile teroretice
ale populaţiei de provenienţă:
n=Z2/ES2,
unde Z=z1-α + z1-β, pentru teste unilaterale,
sau Z= z1-α/2 + z1-β, pentru teste bilaterale.
În situaţiile în care comparăm mediile sau
proporţiile a două eşantione provenite din
populaţii diferite, formulele implicate sunt
altele, dar putem folosi, cu aproximaţie,
valorea n=2·Z2/ES2.
Atenţie, când discutăm despre puterea
unui test, trebuie să avem ca ipoteză
alternativă egalitatea cu o altă valoare,
pentru a putea stabili mărimea efectului.
De exemplu: H0: μ=μ0 vs H1: μ=μ1, pentru
medii, sau H0: p=p0 vs H1: p=p1, pentru
Figura 2.6.4. Relaţia dintre pragul de proporţii. Când folosim două eşantioane şi
semnificaţie α şi scorurile z critice vrem să arătăm că provin din aceeaşi
populaţie, ipotezele se transformă: H0: μ1-
μ2=0 vs H1: μ1-μ2=ES, pentru medii, sau H0:
Ca sa putem calcula nivelul de p1-p2=0 vs H1: p1-p2=ES, pentru proporţii.
semnificaţie al unui test, pentru datele
cantitative sunt necesare informații despre De obicei, pentru medii, mărimea
mediile m1 şi m2 ale celor două grupuri efectului este diferenţa standardizată sau d
investigate, precum şi despre eroarea Cohen: ES=d=Δ/σ, unde Δ=μ0 -μ1, iar σ,
standard comună pentru cele două grupuri, abaterea standard comună. Dacă vom
calculată pe baza deviaţiilor standard s1 şi s2. considera că eşantionul şi populaţia au

160
Informatică Medicală și Biostatistică

aceeaşi deviaţie standard, σ, atunci mediile Pentru testele în care se compară


vor fi distribuite în jurul valorilor de referinţă eşantioane din două populaţii, în loc de σ2 se
μ conform unei curbe Gauss cu o abaterea va folosi suma σ12+σ22 (din formula abaterii
standard egală cu eroarea standard a datelor, standard comune şi a erorii standard comune,
calculată pe valorile din lot, SE = σ / n . capitolul 2.6.4.3).
Pentru proporţii, de obicei se
aproximează distribuţia binomială cu o
distribuţie normal de medie p şi dispersie
p(1-p)=/n, când p≈0.5 (diferită de 0 sau 1).
Dacă folosim un singur eşantion şi
puterea testează dacă diferenţa dintre
proporţia p a lotului şi proporţia p0 a
populaţiei de referinţă nu este mai mare
decât o valoare ε=p1-p0, putem aproxima:
( z1−α / 2 + z1− β ) 2 ⋅ ( p0 (1 − p0 )
n=
( p1 − p0 ) 2

Mai corect, se foloseşte formula:


Figura 2.6.5. Relaţia dintre putere (1-β), ( z1−α / 2 p0 (1 − p0 ) + z1− β p1 (1 − p1 ) ) 2
pragul de semnificaţie α, volumul n, medii şi n=
scorurile z critice (conform [19], p.239) - test ( p1 − p0 ) 2
unilateral, eşantion unic Când comparăm proporţiile unor loturi
din două populaţii diferite, mărimea
efectului este: ES=(p1-p2)/σ, unde σ are
Din figura 2.6.5 se observă că:
formula necombinată (unpooled):
μ1+z1-β·σ/√n=μ0+zα·σ/√n, adică
p1 (1 − p1 ) p2 (1 − p2 )
z1-β-zα=(μ0-μ1)/(σ/√n) σ= + .
n1 n2

Dacă se doreşte verificarea ipotezei că


Din simetria curbei Gauss ştim că: p1=p2, că datele sunt din aceeaşi populaţie, se
zα= -z1-α =>z1-β+ z1-α=(μ0-μ1)/(σ/√n) foloseşe formula combinată (pooled):
Prin urmare, formula pentru numărul n p +n p
σ = p(1 − p )(
1 1
minim de indivizi necesari pentru a asigura + ), p = 1 1 2 2
n1 n2 n1 + n2
unui test unilateral nivelurile alese α şi β e:
Dacă testul verifică ipoteza că nu este nici
( z1−α + z1− β ) 2 ⋅ σ 2 o diferență între două proporții, atunci vom
n= ,
∆2 folosi formula combinată, pooled, iar dacă
testăm pentru o diferență specifică (de
unde z1-α şi z1-β sunt scorurile z pentru
exemplu, diferența dintre două proporții este
nivelurile de încredere alese. Pentru testele
ES - adică valoarea în H0 este un alt număr
bilaterale, în formula de mai sus se
decât 0) atunci va fi folosită formula
înlocuieşte z1-α cu z1-α/2.
unpooled).

161
Informatică Medicală și Biostatistică

În primul caz, dacă n1=n2=n, aproximarea Whitney/Wilcoxon, testul Kruskal-Wallis,


lui n ar fi: Friedman) sau dispersiile (testul Levene).
( z1−α / 2 + z1− β ) 2 ⋅ ( p1 (1 − p1 ) + p2 (1 − p2 )) Anumite teste uzuale, prin care se
n= compară valorile medii ale unor eşantioane,
( p1 − p2 ) 2
necesită ca datele să fie distribuite normal,
Când comparăm două proporţii diferite, gaussian. Verificarea distribuţiei gaussiene a
dacă n1=kn2, putem folosi: valorilor dintr-o serie de date se efectuează
tot cu ajutorul unor teste statistice, numite
( z1−α / 2 p(1 − p)(1 + 1 / k ) + z1−β p1 (1 − p1 ) / k + p2 (1 − p2 ) ) 2 teste de normalitate, printre cele mai
n2 =
( p1 − p2 ) 2 cunoscute fiind testele Shapiro-Wilks,
Anderson-Darling şi Kolmogorov-Smirnov.
În cazul în care datele analizate au o
2.6.4.1. Teste statistice de comparare distribuţie gaussiană, pentru compararea
valorilor medii ale datelor se folosesc testul t
Student, când comparăm două eşantioane,
Înainte de a prezenta testele statistice prin sau testul ANOVA, când comparăm mai
care putem face compararea mediilor sau mult de două eşantioane.
dispersiilor unor eşatioane care presupunem
că provin din populaţii diferite, trebuie să
precizăm că pentru aplicarea corectă a 2.6.4.2. Testul Student de comparare a unei
anumitor teste statistice este necesar ca medii cu media teoretică
datele studiate să aibă un anumit tip de
distribuţie.
Uneori cunoaștem din literatura de
Dacă se poate demonstra că datele au o
specialitate care este media populației din
distribuţie care poate fi reprezentată
care presupunem că este extras un lot şi
simplificat pritr-o funcţie de distribuţie
dorim să verificăm ipoteza că eșantionul
cunoscută (Gauss, Poisson, Student, Chi
aparține într-adevăr populației respective.
pătrat), vom spune că datele sunt
parametrice, adică pot fi corect reprezentate Să presupunem că μ0 este media teoretică
şi regăsite prin folosirea unor funcţii şi că valorile măsurate pentru indivizii din
matematice care depind de un număr mic de lotul de comparat dau seria statistică X=x1,
parametri, de obicei indicatori statistici care x2, .., xn, iar media de eșantionare este m. S-
descriu datele originale, cum ar fi media sau a demonstrat că variabila t, obținută după
deviaţia standard. Prin urmare, diversele formula:
teste de comparare se pot clasifica în:
m − µ0
-teste parametrice: se știe ce fel de t=
distribuție au populațiile din care provin s/ n
eșantioanele pentru care se compară mediile are o repartiție Student cu n-1 grade de
(toate tipurile de test t Student, testul libertate (d.f.=degrees of freedom).
ANOVA) sau dispersiile (testul Fisher, testul
Bartlett); Când concepem testul, vom stabili un
nivel al siguranţei c% de care avem nevoie
-teste neparametrice: nu se cunoaşte pentru a accepta că eşantionul analizat
distribuția populațiilor pentru care se provine din populaţia în discuţie. Vom găsi
compară mediile (testul Mann- valoarea critică tc corespunzătoare de pe o

162
Informatică Medicală și Biostatistică

distribuţie Student cu n-1 grade de libertate fie cea de dincolo de tc, fie cea de dincolo de
pentru care limitele -tc şi tc delimitează -tc, în funţie de alegerea iniţială a sensului
procentul din aria de sub grafic egal cu diferenţei.
nivelul de siguranţă ales de noi. De obicei
Valoarea p este probabilitate de a face o
nivelul de siguranţă ales este 95% sau 99%,
eroare dacă se respinge ipoteza H0 a testului,
deci vom căuta valorile tc pentru care limitele
rezultat furnizat ca un număr între 0 şi 1.
dreapta-stânga cuprind 95% sau 99% din
Dacă p este mai mic decât opusul nivelului
aria de sub curba repartiției Student.
de siguranţă propus, adică pragul de
Va fi deci suficient să căutăm valoarea lui semnificaţie α=1-c%, respingem ipoteza H0,
n −1 n −1 de nul, şi admitem că este adevărată ipoteza
t 95 % sau t 99 % , dată de tabelele statistice
H1; vom spune că datele suportă ipoteza că
pentru tc conform distribuţiei Student şi să o
mediile populaţiilor sunt diferite.
comparăm cu valoarea lui t. Dacă t este mai
Interpretarea valorilor lui p este:
mic decât tc atunci nu există o diferență
semnificativă între media de eșantionare m şi -p > α=0.05, diferenţa între cele două
media teoretică μ0. Dacă t este mai mare medii este nesemnificativă (NS).
decât tc atunci avem motive suficiente pentru
-p < α=0.05, diferenţa între cele două
a afirma că există diferență semnificativă
medii e semnificativă (S, încredere 95%).
între media de eșantionare m şi media
teoretică μ0. -p < α=0.01, diferenţa între cele două
medii e semnificativă (S, încredere 99%).
În figura 2.6.6 este ilustrat motivul pentru
care comparăm tc cu valoarea care -p < α=0.001, diferenţa între cele două
delimitează 95% sau 99% din repartiție. În medii este înalt semnificativă (HS, încredere
95% sau 99% dintre cazuri, dacă eşantionul 99.9%).
provenea din populaţia referinţă, valoarea lui
t ar fi fost cuprinsă în zona verde, adică între
–tc şi tc. Dacă t este la dreapta sau la stânga 2.6.4.3. Testul Student de comparare a
acestor limite este puțin probabil ca mediilor pentru două eșantioane
eşantionul să aparțină populaţiei respective
şi ipoteza H0 va fi respinsă ca falsă.
Testul t al lui Student de comparare
a mediilor pentru 2 loturi propune două
ipoteze statistice:
-ipoteza H0 (sau ipoteza de nul): diferenţa
între medii este întâmplătoare, mediile
Figura 2.6.6. Limitele -tc şi tc delimitează populaţiilor din care provin eşantioanele pot
procentul din aria de sub grafic egal cu fi egale; H0: m1 = m2.
nivelul de siguranţă ales (95% sau 99%).
-ipoteza H1: diferenţa între medii este
semnificativă statistic, foarte probabil
Pentru un test bilateral, rezultatul p al mediile populaţiilor din care provin
testului reprezintă 1-suprafaţa delimitată de - eşantioanele sunt diferite; H1: m1 ≠ m2.
t şi +t pe o curba Student cu n-1 grade de În acest caz, s, abaterea standard comună,
libertate. Dacă testul este unilateral, adică are formula:
verificăm şi sensul diferenţei, m>μ0 sau m<
μ0, se ia în considerare doar o singură zona,

163
Informatică Medicală și Biostatistică

valoarea coeficientului t, aşa cum am mai


(n1 − 1) ⋅ s12 + (n 2 − 1) ⋅ s 22
s= spus, şi sunt următoarele:
n1 + n 2 − 2
-testul t Student pentru eşantioane cu
Eroarea standard comună este:
dispersii egale;
SE = σ
1
+
1
. -testul t Student pentru eşantioane cu
n1 n 2 dispersii diferite (sau testul t Welch) – în
acest caz se va folosi o varianta combinată
Dacă volumul eşantionalor este acelaşi, („pooled”) a erorii standard. Formula de
adică n1=n2=n, putem simplifica formula: calcul este:
s12 + s 22 s12 s22
s= , SE = + , iar
2 n1 n2
2
2  s12 s22 
Astfel, rezultă că SE = s .  + 
n n n2 
d. f . = 2  2
1
În acest caz, t = m1 − m2 / SE , iar ( s1 / n1 ) ( s22 / n2 ) 2
+
d.f.=n1+n2-2. n1 − 1 n2 − 1
Testul t Student clasic este testul de
comparare a două medii când dispersiile -testul t Student pentru eşantioane
datelor, deci implicit abaterile standard, sunt pereche – practic, această variantă verifică
egale (cazul eşantioanelor mici) dacă media diferenţelor dintre fiecare
pereche de valori, mΔ, este semnificativ
Condiţiile de folosire pentru această
diferită de 0. În acest caz:
variantă sunt:
m∆
-măsurătorile efectuate la cele două t= , iar d.f.=n-1.
s∆ / n
eşantioane sunt independente;
-eşantioanele provin din populaţii care În exemplul următor (Tabelul 2.6.2)
sunt normal distribuite (lucru care trebuie prezentăm folosirea testului t Student pentru
verificat înainte de aplicarea testului); eşantioane cu dispersii egale la compararea
valorilor medii ale vitezei de sedimentare a
-populaţiile din care provin loturile au hematiilor (VSH), un marker al inflamaţiei
dispersii egale. care creşte în cazul în care există o infecţie
Există mai multe variante ale testului t în organism, pentru două eşantionane de
Student de comparare a mediilor pentru două subiecţi, unii provenind dintr-o populaţie
eşantioane, în funcţie de anumite condiţii pe care are o infecţie mai puţin gravă,
care le îndeplinesc sau nu datele analizate, localizată, iar alţii provenind dintr-o
variante care diferă prin modul în care se populaţie care are infecţie generalizată, adică
obţine valoarea parametrului intern t, sepsis.
calculat iniţial de test, a cărui valoare se În situaţia prezentată în figurile 2.6.7 şi
transformă, prin intermediul distribuţiei de 2.6.8 valoarea probabilităţii, genearată de
probabilitate Student, într-o valoare p. test, este p=0,00403<0,05. În concluzie,
Cele trei variante ale testului t Student respingem H0 cu pragul de semnificaţie de
diferă prin modul în care se calculează 95% şi acceptăm H1, care afirmă că mediile
eşantioanelor diferă în mod semnificativ

164
Informatică Medicală și Biostatistică

statistic, cu alte cuvinte că datele provin din observăm că limita superioară a intervalului
populaţii diferite. O altă interpretare ar fi că, de încredere de 95% pentru media mai mică
extrăgând în mod asemănător alte este sub limita inferioară a intervalului de
eşantioane, în mai mult de 95% dintre cazuri încredere de 95% pentru media mai mare. În
mediile VSH obţinute vor fi diferite.În figura concluzie, cele două medii sunt diferite
2.6.9, care detaliază calculele pentru pentru nivelul de semnificaţie de 95%, ceea
intervalele de încredere ale mediilor, ce am demonstrat prin testul t Student.

Tabelul 2.6.2. Valorile VSH măsurate la pacienţi cu infecţie localizată şi cu sepsis,


împreună cu indicatorii statistici care le descriu
Nr. pacient Infecţie localizată Sepsis
1 25 55
2 20 88
3 110 53
4 45 30
5 50 72
6 50 52
7 72 91
8 53 70
9 30 110
10 50 123
11 27 56
12 35 31
13 85 100
14 22 70
15 78 44
16 65 70
17 85 90
18 85 123
19 55 85
20 25 72
21 50 75
22 85 50
23 75 85
24 40 107
25 50 110
Media 54.68 76.48
Deviaţia standard 24.42 26.55
Dispersia 596.56 704.84
C.V. (%) 44.67% 34.81%

165
Informatică Medicală și Biostatistică

t-Test: Two-Sample Assuming Equal Variances

Infecţie localizată Sepsis EXPLICATII


Mean 54.68 76.48 MEDIA ESANTIOANELOR
Variance 596.56 704.84 DISPERSIA ESANTIOANELOR
Observations 25 25 VOLUMUL ESANTIOANELOR
Pooled Variance 650.70 DISPERSIA COMUNA
Hypothesized Mean Diffe 0 DIFERENTA TESTATA
df 48 GRADE DE LIBERTATE: 25+25-2
t Stat -3.02149 VALOAREA t CALCULATA
P(T<=t) one-tail 0.00201
t Critical one-tail 1.67722
P(T<=t) two-tail 0.00403 p - REZULTATUL TESTULUI
t Critical two-tail 2.01063 PRAGUL CRITIC AL LUI t (tc)
Figura 2.6.7. Rezultatele generate la efectuarea în programul Microsoft Excel a testului t
Sudent pentru dispersii egale
Parametru Infecţie localizată Sepsis
Nr.pacienţi 25 25
Media 54.68 76.48
VSH Deviaţia standard 24.42 26.55
120 Eroarea standard 4.88 5.31
Valoarea medie ± deviaţia standard

Valoare t95% (df=24) 2.064 2.064


100 Nivel de eroare 95% 10.08 10.96
76.48 Limita inferioară 44.60 65.52
80 Limita superioară 64.76 87.44
54.68
60 Figura 2.6.9. Modul de calcul şi
40 comparearea intervalelor de încredere
pentru mediile celor două eşantioane
20 analizate
0 În cazul în care datele au dispersii egale
Infecţie Sepsis şi doar media lor diferă, se face comparaţia
localizată între două curbe de distribuţie a valorilor
aproape identice ca formă, dar care sunt
p test Student = 0.00403 - S translatate una faţă de alta. În acest caz,
formula prin care calculăm coeficientul t
Figura 2.6.8. Compararea valorilor medii Student, deci prin care apreciem procentul în
ale VSH între cele două loturi care se intersectează cele două curbe, este
mai simplă decât în situaţia în care ele diferă
ca formă. În cazul în care dispersiile celor
două eşantioane sunt diferite vom apela la o
altă variantă de test t Student, varianta pentru
eşantioane cu dispersii diferite.

166
Informatică Medicală și Biostatistică

Aşa cum există teste prin care verificăm situaţii în care variabila independentă
dacă repartiţia datelor din eşantion respectă (variabila de grupare) prezintă trei şi mai
o distribuţie Gauss, există alte teste statistice multe categorii (niveluri), pentru a verifica
care verifică dacă datele au dispersii egale. dacă sunt diferenţe semnificative între
În cazul în care comparăm două eşantioane populaţiile din care s-au extras eşantionanele
şi valorile lor sunt distribuite gaussian vom observate.
folosi testul F al lui Fisher pentru a vedea
În analiza variaţiei considerând un singur
dacă există o diferenţă semnificativă între
factor ca şi cauză se formulează următoarele
dispersii.
2 ipoteze:
Testul Fisher se utilizează pentru
-ipoteza nulă H0: m1 = m2 = m3 = ... = mk
verificarea egalităţii dispersiilor a două
(pentru 4 eşantioane)
variabile independente repartizate normal.
Ipoteza nulă este H0: σ12=σ22 -ipoteza alternativă H1: cel puţin două medii
diferă semnificativ
Ambele variante de test Student discutate
au ca şi condiţie de aplicare ca datele să fie Interpretarea valorilor lui p se va face
independente. În unele situaţii trebuie să astfel:
comparăm date din eşantioane care au o -p > 0.05, se acceptă H0, diferenţa între
legătură între ele, de exemplu datele sunt
medii este nesemnificativă (NS).
grupate în perechi ce reprezintă valori
măsurate pentru acelaşi individ la două -p < 0,05 se respinge H0 cu pragul de
momente diferite, să spunem înainte şi după semnificaţie de 95%. Cel puţin două medii
un tratament, sau care reprezintă două diferă semnificativ (S, incredere 95%).
măsurători efectuate la acelaşi individ prin -p <0,01 se respinge H0 cu pragul de
metode diferite. În acest caz vom folosi semnificaţie de 99%. Cel puţin două medii
varianta de test Student pentru date pereche diferă semnificativ (S, incredere 99%).
care, de fapt, analizează dacă media
diferenţelor dintre valorile din fiecare -p <0,001 se respinge H0 cu pragul de
pereche diferă semnificativ de 0. În semnificaţie de 99,9%. Cel puţin două medii
concluzie, acest test calculează în alt mod diferă înalt semnificativ (HS, incredere
valoarea indicatorului t. 99.9%).
Să analizăm următorul exemplu: în trei
comune ale judeţului Dolj au fost colectate
2.6.4.4. Testul ANOVA date despre obiceiurile alimentare şi legătura
lor cu obezitatea şi diabetul. Printre alte date
s-au înregistrat greutatea indivizilor şi date
Testul ANOVA (ANalysis Of VAriance) despre fumat (Figura 2.6.10).
este un procedeu de analiză a dispersiei unei
variabile numerice, între subloturi generate Indivizii, indiferent de sex sau grupă de
de categoriile unei variabile de grupare. Prin vârstă, au fost împărţiţi în patru categorii:
ANOVA se compară medii pentru trei şi mai nefumători, foşti fumători, fumători
multe subpopulaţii distribuite gaussian, dacă ocazionali (sub 10 ţigarete pe zi) şi fumători
dispersiile de eșantionare nu diferă (peste 10 ţigarete pe zi). O întrebare a fost
semnificativ. Practic, această metodă aceea dacă există o legătură între obiceiul
permite extensia analizei realizate prin testul fumatului şi greutatea corporală la aceşti
t, aplicabil asupra a două eşantioane, la

167
Informatică Medicală și Biostatistică

indivizi. Putem exprima ipotezele acestui Se observă că valoarea lui p=0,00176.


test astfel: Deci, fiind sub 0,01, vom spune că diferența
între mediile de greutate ale celor patru loturi
-H0: indiferent dacă fumează sau nu,
este semnificativă cu un grad de încredere de
greutatea corporală este aceeaşi;
99%.
-H1: cel puţin două categorii din cele 4 au
greutăţi corporale diferite.

Figura 2.6.10. Datele originale şi rezultatele generate prin efectuarea testului ANOVA în
programul Microsoft Excel
Testul efectuat în programul Excel nu numitele teste „post-hoc”, care fac
pune la dispoziție o comparare pe perechi, comparaţii între toate perechile de
deci concluzia este oarecum ambiguă, căci eşantioane studiate.
nu putem determina cu precizie care din
În cazul în care rezultatul testului
loturi are o medie diferită semnificativ de a
ANOVA este semnificativ statistic, putem
celorlalte. Putem specula că lotul 4 are media
continua analiza prin testele „post hoc”
semnificativ crescută față de celelalte 3, sau
Tuckey HSD sau Fisher LSD, pentru a
că lotul 1 are media semnificativ scăzută față
identifica perechile de categorii între care
de celelalte. De fapt, testul nu urmărește
există diferențe semnificative. Într-un mod
decât să stabilească eventuala legătură între
oarecum asemănator testului t Student se
greutatea corporală şi obiceiul fumatului,
calculează, pentru toate combinațiile
fără să compare diferitele categorii de
posibile de câte 2 categorii, valori p, al căror
fumători/nefumători între ele. Pentru a face
nivel critic α este ajustat în funcție de
acest lucru este nevoie ca programul de
numărul total de combinații, fiind de cele
prelucrare statistică să pună la dispoziţie aşa

168
Informatică Medicală și Biostatistică

mai multe ori mai mic decât pragul obişnuit, suma rangurilor pentru fiecare grup
de 0,05. comparat şi se calculează media lor. În cazul
în care mediile rangurilor pentru grupurile
Există şi varainte ale testului ANOVA
comparate şi, implicit, valorile iniţiale, sunt
care analizează influenţa a doi sau mai mulţi
foarte diferite, valoarea p obţinută în urma
factori asupra variabilei dependente, însă nu
testului va fi mică.
vom detalia condiţiile de aplicare,
rezultatele generate şi interpretarea lor. Testul Kruskal-Wallis este un test
statistic neparametric care compară valorile
Deoarece testul ANOVA are ca şi
datelor din trei sau mai multe grupuri. Fiind
condiţie ca loturile să aibă dispersii egale,
un test neparametric, deci care nu necesită
trebuie să folosim un test statistic pentru a
distribuţia normală, gaussiană, a datelor
face această analiză înainte de a folosi testul
comparate, el poate înlocui testul ANOVA
ANOVA.
când acesta nu poate fi aplicat. Daca dorim
Testul Bartlett este un test pentru să comparăm datele distribuie ne-gaussian
verificarea egalităţii mai multor dispersii din 3 sau mai multe serii-perechi (cu acelaşi
pentru mai multe variabile independente număr de valori, de obicei măsurători făcute
repartizate normal, deci şi el este un test la mai multe momente de timp pe un singur
parametric. Ipoteza nulă pentru acest test lot) vom folosi testul Friedman.
este H0: σ12=σ22=...=σk2
Putem spune, fără a greşi prea mult, că
testele neparametrice de mai sus compară
2.6.4.5. Teste neparametrice mai degrabă medianele sau împrăştierile
decât mediile eşantioanelor studiate.
În cazul în care dorim să comparăm
Testul t al lui Student poate fi aplicat doar dispersiile pentru mai multe loturi care nu au
pentru date numerice care provin dintr-o o distribuţie parametrică putem folosi testul
populaţie cu distribuţie normala, gaussiană. Levene.
Dacă această condiţie nu este îndeplinită,
pentru a compara datele celor două loturi pot Un test neparametric eșuează de obicei
fi folosite testul Wilcoxon (număr de date mai des în tentativa de a respinge H0, atunci
egale, valori pereche) sau testul Mann- când ea ar trebui respinsă. Acest lucru se
Whitney (număr diferit de valori în cele doua datorează de obicei lipsei de informație, iar
loturi comparate). Rezultatele acestor teste cunoașterea distribuției la testele
pot fi şi ele exprimate sub forma unei parametrice este o informație suplimentară
probabilităţi, interpretată la fel ca la testul foarte importantă. Însă, dacă datele nu
Student. urmează modelul de repartiţie presupus de o
distribuţie cunoscută, atunci testele
Pentru a efectua aceste teste, datele din parametrice vor avea mai multe erori de
toate grupurile, separat sau puse împreună, aproximare a realităţii decât testele
sunt aranjate descrescător. Dacă două sau neparametrice şi trebuie evitate.
mai multe valori sunt egale, atunci li se
atribuie ca rang valoarea medie a poziţiilor
ocupate de ele. Cel mai mic număr are rangul
1. Cel mai mare număr va avea rangul N,
unde N este numărul total de valori. După ce
fiecărei valori i s-a alocat un rang se face

169
Informatică Medicală și Biostatistică

9. Tărâţă M, Spaepen A, Puers R. The


Bibliografie Accelerometer MMG Measurement Approach in
Monitoring the Muscular Fatigue, Measurement
1. Tărâţă M, Neştianu V, Popescu G. A New Science Review, ISSN 1335-8871,
Approach to Characterize the Spontaneous EMG www.measurement.sk, Number 1, 2001, p. 47-50
Activity, in Stuart D.G., Gantchev G.N., 10. Tărâţă M. Mechanomyography versus
Gurfinkel V.S., Wiesendanger M. (eds.), Motor Electromyography, in monitoring the muscular
Control VII, Tucson: Motor Control Press, 1996, fatigue, BioMedical Engineering OnLine, 2003,
p. 83-86 2:3
2. Tărâţă M. An Original Method to Generate 11. Tărâţă M Bloedel J. An Original Approach
the Fourier Descriptors, Related with the (MTT_SYS) for Time/Space Measurements,
Biological Signal Acquisition Through its Using The Matlab Data Acquisition Toolbox,
Essential Points, Medical Informatics Europe '96, Measurement Science Review, ISSN 1335-8871,
J. Brender et al. (Eds.), IOS Press, Amsterdam, http://www.measurement.sk/S2/p2.html,
1996, p.753-7 Number 4, Section2, 2004, p. 41-50
3. Tărâţă M, Spaepen A, Puers R, Hermans 12. Tărâţă M. Informatică medicală, Editura
Veerle. The Potential of Simultaneously SITECH, Craiova, 2010, ISBN 978-606-530-
recording the EMG and Muscle Mechanical 816-9, vol. I şi II, Editura SITECH, Craiova,
Vibrations in Monitoring the Muscle Behaviour, 2010, ISBN 978-606-530-816-9, vol. I şi II , 568p
în Proceedings of the International Conference 13. Georgescu D, Badea P, Georgescu Carmen-
on Measurement, Smolenice, Slovak Republic, Liana, Microsoft Office – indrumar ilustrat,
May 29-31, 1997, pp. s1-s4 Editura Medicala Universitara Craiova, 2003,
4. Tărâţă M. Monitoring the Evolution of the ISBN 973-8354-42-0, 132p
Muscular Fatigue, Via New Parameters 14. Badea P, Georgescu D, Badea Gabriela
developed from the EMG Signal, Proceedings of Liliana, Software pentru Statistica Medicala,
the ECSAP'97 The First European Conference on Editura Medicala Universitara Craiova, 2003,
Signal Analysis and Prediction, Prague, Czech ISBN 973-8354-54-4, 132p
Republic, June 24-27, 1997, p. 431-434 15. Badea P, Georgescu D, Introducere in
5. Tărâţă M. Specific processing of the Biostatistica, Editura Medicala Universitara
spontaneous EMG, IEEE Engineering in Craiova, 2003, ISBN 973-8354-42-2, 242p
Medicine and Biology, March/April, 1998, p. 16. Georgescu D, Badea P, Informatica medicala
102 - 109 – Calculatorul pe intelesul tuturor, Editura
6. Tărâţă M. Sensorimotor interactions within Medicala Universitara Craiova, 2007, ISBN 978-
the context of muscle fatigue. In: "Sensorimotor 973-106-078-1
Control" (Dengler R., Kossev A., eds.), NATO 17. Tarata M, Georgescu D, Alexandru DO,
Science Series, Series 1: Life and Behavioural Serbanescu MS. Informatică Medicală - lucrări
Sciences, Vol. 326: 84-91, 2001, ISBN 1 58603 practice, Editura SITECH, Craiova, 2018, ISBN
081 7 978-606-11-6403-5
7. Tărâţă M, Spaepen A. A method of 18. Alexandru DO. Biostatistică şi Statistică
reconstruction of the muscular force profile from Medicală, Editura SITECH, Craiova, 2018, ISBN
the EMG in the voluntary exercise. Acta physiol. 978-606-11-6363-2
pharmacol. bulg., 2001, 26: 45-48 19. Rosner B. Fundamentals of biostatistics, 8th
8. Tărâţă M, Staude G, Wolf W, Spaepen A. On Ed., Cengage Learning, Boston, 2016
the EMG Onset Detection in the Reconstruction
of the Force, in the Dynamic Exercise, IFMBE
Proceedings, Medicon 2001, IX Mediterranean
Conference on Medical and Biological
Engineering and Computing, Part II, Zagreb,
2001, pp. 935-938, BIROTISAK, ZAGREB,
ISBN 953-184-024-5

170

S-ar putea să vă placă și