Sunteți pe pagina 1din 225

Gheorghe-Ioan MIHALA Diana LUNGEANU

INFORMATIC MEDICAL I BIOSTATISTIC

Colecia

MANUALE

Gheorghe-Ioan MIHALA Diana LUNGEANU

INFORMATIC MEDICAL I BIOSTATISTIC

Gheorghe-Ioan MIHALA
Profesor Doctor, Membru al Academiei de tiine Medicale Disciplina de Informatic Medical Universitatea de Medicin i Farmacie Victor Babe

Diana LUNGEANU
Profesor Doctor Inginer Disciplina de Informatic Medical Universitatea de Medicin i Farmacie Victor Babe

2009
3

Editura VICTOR BABE Piaa Eftimie Murgu 2, 300041 Timioara Tel./ Fax 0256 495 210 e-mail: evb@umft.ro Director general: Prof. univ. dr. tefan Iosif Drgulescu Consilier editorial: Cala Christian Referent tiinific: Prof. univ. dr. Adrian Neagu Coordonator colecie: Prof. univ. dr. Andrei Motoc 2009 Toate drepturile aparin autorilor. Reproducerea parial sau integral a textului sau imaginilor fr acordul scris al autorilor este interzis i se va sanciona conform legilor n vigoare.

Editur acreditat de Ministerul Educaiei i Cercetrii prin Consiliul Naional al Cercetrii tiinifice din nvmntul Superior, cod 324.

Descrierea CIP a Bibliotecii Naionale a Romniei MIHALA, GHEORGHE-IOAN Informatic medical i biostatistic / Gheorghe- Ioan Mihala, Diana Lungeanu. - Timioara: Editura Victor Babe, 2009 Bibliogr. ISBN 978-973-87757-1-8 I. Lungeanu, Diana
004:61(075.8) 519.22:57(075.8)

Tiprit la Tipografia Eurostampa B-dul Revoluia din 1989 nr. 26, Timioara Tel. 0256- 204 816, edituraeurostampa@gmail.com

CUPRINS
PARTEA I NOIUNI GENERALE
OBIECTUL INFORMATICII MEDICALE ...............................................................11 Teoria informaiei ...................................................................................................................11 BAZE DE DATE MEDICALE. NOIUNI INTRODUCTIVE ....................................19 1. Fiiere de date .....................................................................................................................19 2. Baze de date........................................................................................................................21 3. Sisteme de gestiune a bazelor de date.................................................................................23 4. Tipuri de baze de date. Modele de date ..............................................................................25

Partea a II-a BIOSTATISTIC


INTRODUCERE N BIOSTATISTIC .....................................................................31 1. INFERENA STATISTIC ...................................................................................31 1.1 Conceptele de baz ale biostatisticii .................................................................................31 1.2. Variabile ..........................................................................................................................34 2. PARAMETRII STATISTICI ..................................................................................36 2.1. Indicatorii tendinei centrale ............................................................................................37 2.2. Indicatori de dispersie......................................................................................................40 2.3. Medii de puteri: momente. Momente centrate .................................................................46 2.4. Asimetria ........................................................................................................................46 2.5. Excesul ............................................................................................................................47 3. DISTRIBUII.........................................................................................................48 3.1. Funcia de distribuie .......................................................................................................48 3.2. Funcii de distribuie uzuale ............................................................................................48 4. ESTIMAREA STATISTIC...................................................................................50 4.1. Noiunea de estimator ......................................................................................................50 4.2. Estimarea mediei populaiei ............................................................................................51 4.3. Estimarea procentelor ......................................................................................................54 4.4. Estimarea diferenelor .....................................................................................................55 4.5. Calculul mrimii eantionului .........................................................................................56 5

5. TESTE STATISTICE ............................................................................................ 57 5.1. Noiuni generale ............................................................................................................. 57 5.2. Ipoteze statistice ............................................................................................................. 58 5.3. Etapele aplicrii testului statistic .................................................................................... 60 5.4. Erori. ............................................................................................................................... 61 5.5. Caracteristicile testelor statistice .................................................................................... 62 5.6. Teste parametrice i neparametrice ................................................................................. 63 5.7. Clasificarea testelor statistice.......................................................................................... 63 5.8. Teste uzuale n biostatistic ........................................................................................... 63 6. CORELAIA SI REGRESIA ................................................................................. 84 6.1. Relaii ntre dou variabile cantitative ............................................................................ 85 6.2. Relaii ntre dou variabile ordinale ................................................................................ 96 6.3. Relaii ntre variabile nominale ....................................................................................... 97 6.4. Relaii ntre mai multe variabile cantitative. ................................................................... 98 7. EPIDEMIOLOGIE ................................................................................................ 98 7.1. Analiza riscului ............................................................................................................... 99 7.2. Analiza supravieuirii.................................................................................................... 105

Partea a III-a SEMNALE I IMAGINI BIO-MEDICALE


1. PRELUCRAREA SEMNALELOR BIOLOGICE ................................................ 113 Introducere ........................................................................................................................... 113 1.1. Semnale biologice ......................................................................................................... 113 1.2. Achiziia biosemnalelor ................................................................................................ 116 1.3. Spectre de frecven si filtrare ...................................................................................... 119 1.4. Prelucrarea semnalelor cvasi periodice. Semnalul electrocardiografic ...................... 121 1.5. Analiza semnalelor neperiodice. Prelucrarea EEG ....................................................... 128 2. INTRODUCERE N PRELUCRAREA IMAGINILOR DIGITALE..................... 145 2.1. De ce prelucrarea imaginilor? ....................................................................................... 145 2.2. Fundamente. Un model de imagine .............................................................................. 146 2.3. Noiuni elementare de imagistic medical .................................................................. 147 2.4. Proiectul Visible Human ............................................................................................... 155 2.5. Eantionarea i cuantizarea imaginilor ......................................................................... 156 6

2.6. Relaii de baz dintre pixeli i operaii cu imagini numerice .........................................159 2.7. mbuntirea imaginilor i extragerea unor atribute .....................................................165 2.8. Standardul DICOM .......................................................................................................172

Partea a IV-a DECIZIA MEDICALA ASISTATA DE CALCULATOR


INTRODUCERE ......................................................................................................179 1. DIAGNOSTICUL ASISTAT DE CALCULATOR ................................................180 1.1. Clasificarea metodelor de diagnostic .............................................................................180 1.2. Formalizarea operaiunii de stabilire a diagnosticului ...................................................180 2. METODE LOGICE ..............................................................................................181 2.1. Baza de cunotine ..........................................................................................................181 2.2. Variante de metode logice .............................................................................................181 2.3. Prezentarea rezultatelor ................................................................................................182 2.4. Dezavantajele metodelor logice .....................................................................................182 3. METODE STATISTICE. REGULA LUI BAYES .................................................183 3.1. Aspecte statistice n raionamentul medical ...................................................................183 3.2. Regula lui Bayes ............................................................................................................183 4. PATTERN RECOGNITION ................................................................................185 4.1. Principiul metodei patern recognition ........................................................................185 4.2. Etapele aplicrii metodei pattern recognition. Clasificarea metodelor.......................188 5. ELEMENTE DE LOGIC ...................................................................................189 5.1. Noiuni generale ............................................................................................................189 5.2. Propoziii compuse ........................................................................................................191 5.3. Inferene logice ..............................................................................................................192 5.4. Elemente ale limbajului PROLOG ................................................................................193 6. SISTEME EXPERT..............................................................................................194 6.1. Structura unui sistem expert ..........................................................................................194 6.2. Descrierea conexiunilor .................................................................................................196 6.3. Caracteristicile principale ale sistemelor expert ............................................................196 6.4. Sisteme expert medicale ................................................................................................198 7. ESTIMAREA CALITII CLASIFICRII .........................................................199 8. ALEGEREA INVESTIGAIILOR .......................................................................201 7

9. OPTIMIZAREA TRATAMENTULUI ................................................................. 202 10. DECIZII LA NIVEL DE ORGANIZARE SANITAR ....................................... 202

Partea a V-a SISTEME INFORMATICE MEDICALE


1. INFORMAIA MEDICAL ................................................................................ 205 1.1. Tipuri de activiti ........................................................................................................ 205 1.2. Structura schematic a fluxului informaional .............................................................. 206 1.3. Sistem informaional, sistem informatic ....................................................................... 208 2. SISTEME INFORMATICE N ASISTENA MEDICAL PRIMAR ............... 208 2.1. Activiti la nivelul unitilor de asisten medical primar ........................................ 208 2.2. Modulele sistemelor informatice ale asistenei medicale primare ................................ 209 3. SISTEME INFORMATICE CLINICE ................................................................. 211 3.1. Structura asistenei specializate n clinici ..................................................................... 211 3.2. Obiective generale ale sistemelor informatice clinice .................................................. 212 3.3. Obiective specifice ale sistemelor informatice n departamente clinice ....................... 212 3.4. Obiective specifice n departamente paraclinice i servicii .......................................... 214 4. SISTEME INFORMATICE DE SPITAL (SIS)..................................................... 215 4.1. Tipuri de date n spital .................................................................................................. 215 4.2. Conceptul de SIS .......................................................................................................... 215 4.3. Arhitectura unui SIS ..................................................................................................... 217 4.4. Structura unui SIS ......................................................................................................... 217 4.5. Integrarea SIS ............................................................................................................... 218 4.5. Exemple de SIS ............................................................................................................ 219 5. SISTEME INFORMATICE MEDICALE LA NIVEL CENTRAL ....................... 219 5.1. Nivel teritorial............................................................................................................... 220 5.2. Nivel naional ............................................................................................................... 220 5.3. Nivel internaional ........................................................................................................ 221 6. PROBLEME SPECIFICE N SISTEME INFORMATICE .................................. 222 6.1. Protecia datelor ............................................................................................................ 222 6.2. Standardizarea .............................................................................................................. 223

D. Lungeanu, Gh.-I. Mihala

Partea I

NOIUNI GENERALE

Informatic Medical & Biostatistic

10

D. Lungeanu, Gh.-I. Mihala

OBIECTUL INFORMATICII MEDICALE


Informatica medical este o disciplin tnr, termenul aprnd n cursul anilor 60. n acepiunea iniial informatica medical cuprindea programele de calculator cu aplicabilitate n domeniul medical. Progresul tehnic rapid a artat ns c, pentru aceleai aplicaii, att programele ct i suportul fizic se schimbau; ceea ce rmnea la fel era modul n care era prelucrat informaia. Astfel, n accepiunea actual, centrul definiiei s-a mutat de la calculator la informaie. Coiera [1997] chiar atrage atenia n acest sens: Informatica medical se ocup de calculatoare tot att de mult ct se ocup cardiologia de stetoscoape. Definiii: Obiectul informaticii medicale caseta 1.1. TEORIA INFORMAIEI Noiunea de informaie Pentru a ne ocupa de informaia medical, s ncercm mai nti s privim conceptul de informaie la modul general. Termenul de informaie este folosit n mod curent n viaa de zi cu zi, fiind cel mai adesea asociat cu aducerea unui element de noutate. Fiind un concept cu grad nalt de generalitate (categorie filosofic), informaia nu poate fi definit n manier clasic, pornind de la genul proxim i preciznd diferenele specifice, ci prin propietatea sa esenial cea de a nltura o nedeterminare. Noiunea de informaie caseta 1.2. Proprietile informaiei Informaia nu este materie; totui ea nu poate exista nafara materiei. Norbert Wiener spunea Creierul nu secret informaie precum ficatul fiere. Informaia nu este energie; totui ea nu se poate transmite fr un suport energetic. Nu este o relaie direct ntre cantitatea de energie ce nsoete transmiterea unei informaii i cantitatea de informaie transmis. De exemplu, energia unui trsnet n timpul unei furtuni este imens, ns informaia transmis este neglijabil; n schimb un fonet ntr-o pdure, purtat de o energie infim poate reprezenta o informaie vital punnd pe fug un animal! S semnalm totui c nu exist relaie nici ntre cantitatea de informaie i efectele sale. De ex. Legenda lui Tezeu din metodologia greac: Tezeu promisese tatlui su Aegeus, c dac va invinge n lupt minotaurul va nlocui pnza neagr a corabiei cu pnz alb, dar a uitat i tatl su s-a aruncat de pe stnci. Informaia primit a fost doar 1 bit. Triada abordrilor complete Introducerea aspectelor informaionale n studiul materiei vii completeaz imaginea noastr privind complexitatea sistemelor biologice, actualmente considernduse c o abordare complet trebuie s acopere att aspectele materiale i energetice ct i cele informaionale. Triada abordrilor complete caseta 1.3.

11

Informatic Medical & Biostatistic

Valoarea util a informaiei Sensul noiunii de informaie, aa cum a fost prezentat mai sus etc. legat de alt noiune nederminarea (sau incertitudinea) vag definit la rndul su. Acelai mesaj poate s aib valori informaionale diferite pentru diferii receptori: pentru o persoan care deja tia coninutul su cantitatea de informaie primit este zero, ns pentru receptorii care nu-i tiau coninutul va putea fi evaluat cantitatea de informaie primit deci: Valoarea util a informaiei depinde de receptor.

Caseta 1.1
Obiectul informaticii medicale Accepiunea clasic: totalitatea programelor de calculator cu aplicaii n domeniul biomedical i sntate. Definiia actual: disciplina care studiaz ntregul flux al informaiei medicale: generare, achiziie, stocare, transmitere, prelucrare i utilizare.

Caseta 1.1a
Structura cursului de informatic medical Partea I - Nivel individual Seciunea A. Date 1. Stocare: Baze de date medicale 2. Prelucrare 2a: Date calitative i numerice: Biostatistica 2b: Date grafice: Semnale biologice 2c: Imagini: Imagistica medical

Seciunea B. Cunotine 3. Decizia medical asistat de calculator Partea II - Nivel supraindividual 4. Sisteme informatice n sntate

Caseta 1.2
Noiunea de informaie Informaia este un concept cu grad nalt de generalitate caracterizat prin proprietatea de a nltura o nedeterminare (incertitudine).

12

D. Lungeanu, Gh.-I. Mihala

Caseta 1.3
Triada abordrilor complete - aspectul material structura - aspectul energetic suportul funcional - aspectul informaional mecanismul funcional Valoarea util a informaiei depinde de receptor

Caseta 1.4
Cantitatea de informaie - Cantitatea de informaie eliberat de un eveniment a carui probabilitate este pi
Ii log 2 p i

(1)

Unitatea de msur pentru cantitatea de informaie = bit Definiie: Un bit este cantitatea de informaie primit cnd se nltur o nedeterminare de 1/2 Pentru o succesiune de N evenimente (mesaj de lungime N)
k

I
i 1

ni I i

(2)

Entropia informaional este cantitatea medie de informaie per eveniment (simbol) ntr-un mesaj:
k

H
i 1

pi log 2 pi

(3)

Caseta 1.5
Redondana Entropia maxim: pentru evenimente echiprobabile pi = 1 / k, de unde Hmax = log2 k (1) Redondana absolut: R = Hmax Hreal Redondan relativ: Rr = R / Hmax (2) (3)

13

Informatic Medical & Biostatistic

Cantitatea de informaie Parcurgerea acestui subiect necesit cunotine fundamentale de teoria probabilitilor Pornind de la proprietatea fundamental a informaiei, cea de a nltura o nedeterminare, Shannon a considerat c informaia primit este invers proporional cu probabilitatea de apariie a evenimentului: dac se va ntmpla un eveniment cu probabilitate mare, informaia primit este mic; n schimb primim o informaie mai mare dac apare un eveniment mai rar. (Ziaritii exploateaz intens aceast relaie!) Relaia propus de Shannon pentru calculul cantitii de informaie care este primit cnd se petrece un eveniment cu probabilitatea p i cuprinde logaritmul n baza 2 din inversul probabilitii pi (formula (1) n caseta 1.4). Pe baza acestei relaii stabileste unitatea de msur pentru cantitatea de informaie, numit bit (de la BInary digiT). n mod usual informaia se transmite printr -o succesiune de evenimente, numit adesea mesaj, iar un eveniment ntr-un mesaj se mai numete simbol. n cazul unui mesaj format din N evenimente, fiecare eveniment i apare de ni ori, aducnd de fiecare dat informaia Ii, deci mesajul aduce informaia
k

n1 I 1

2I2

... nk I k
i 1

ni I i relaie care este trecut i n caseta 1.2.

Valoarea medie a informaiei corespunztoare unui eveniment ntr -un ir de N evenimente se mai numete entropie informaional, H, i se calculeaz astfel:

n1 I 1

n2 I 2 ... nk I k N
k

n1 I1 N

n2 I2 N

...

nk Ik N

la limit (i.e. atunci cand N

) relaia devine:

p1 I 1 ...

pk I k
i 1

pi I i

nlocuind Ii conform relaiei (1), obinem formula (3) din caseta 1.4, formul fundamental n teroria informaiei, numit i formula lui Shannon pentru entropia informaional. Relaia ntre entropia informaional i entropia termodinamic Termenul de entropie a fost introdus n termodinamic pentru enunarea principiului al II-lea al termodinamicii: n procesele termodinamice entropia nu poate s scad: ea rmne constant n cadrul proceselor reversibile i crete n cazul proceselor ireversibile. Relaia ntre entropia termodinamic i cea informaional poate fi neleas pornind de la experimentul ideal propus de Maxwell pentru explicarea variaiei entropiei n cazul proceselor ireversibile, prezentat n cadrul cursul ui de biofizic. Se vede deci c sistemul poate evolua n sens contrar celui dictat de al II -lea principiu al termodinamicii n cazul n care primete o informaie. Acesta este mecanismul prin care sistemele vii evolueaz spre stri tot mai organizate i d eosebite de mediul nconjurtor. Redondan Entropia informaional are valoare maxim cnd evenimentele din mesaj sunt echiprobabile: pi

1 ; k

14

D. Lungeanu, Gh.-I. Mihala

atunci H max

1 1 log de unde se obine relaia (1) din caseta 1.5. k k

Un exemplu ar fi cazul unui mesaj encriptat, n care probabilitatea apariiei unui simbol este (cel puin aparent) independent de simbolurile anterioare. n mesajele reale probabilitatea unui simbol depinde de simbolurile anterioare; putem, n funcie de context, s ghicim ce urmeaz, putem folosi prescurtri, putem observa greeli cum ar fi omisiunea unei litere etc. Deci informaia nu este distribuit uniform n mesaj sau chiar n interiorul cuvintelor, cantitatea de informaie transportat n realitate fiind inferioar celei maxime ce ar putea fi transmise folosind aceeai lungime a textului. Aceast diferen, ntre cantitatea maxim ce poate fi coninut n mesaj i cea real se numete redondan i reprezint o parte din mesaj care nu conine informaie! Relaia de definiie a redondanei absolute este: R = Hmax - Hreal Raportnd redondana absolut la Hmax se definete redondana relativ (vezi caseta 1.5). Rolul redondanei Aparent redondana ar reprezenta o ncrctur inutil n mesaj. Totui, prezena ei diminueaz rolul negativ al perturbaiilor ce apar n cursul transmiterii informaiei, putnd deseori reconstitui mesajul iniial chiar dac unele simboluri au fost perturbate. Transmiterea informaiei Am precizat anterior c valoarea util a informaiei depinde de receptor, deci noiunea de informaie are sens doar dac se transmite; altfel, rmne n faza de informaie potenial. Transmiterea informaiei presupune o surs a informaiei (emitor E) i un destinatar (receptor R). Spaiul dintre S i R reprezint canalul de comunicaie (C). Pe canalul de comunicaie pot s apar diverse zgomote care perturb sistemul de comunicaie afectnd calitatea transmisiei. S introducem doi termeni importani n cadrul sistemelor de comunicaie : mesaj un termen pe care l folosim cnd ne referim la coninutul informaional al transmisiei semnal suportul fizic care transport mesajul (sunet, current electric etc.). Pentru diminuarea efectelor perturbaiilor sau pentru a asigura transmiterea mesajului la distane foarte mari, se introduc pe canalul de transmisie nite dispozitive numite traductori. Un traductor schimb suportul fizic al unui semnal. De exemplu, n cazul unei convorbiri telefonice, microfonul este traductorul localizat lng emitor, transformnd sunetele (variaii ale presiunii aerului) n variaii ale unui curent electric. Canalul de comunicaie este reprezentat de firele telefonice. La destinatar un alt traductor, casca telefonic, transform variaiile curentului electric n vibraii ale unei membrane elastice genernd astfel sunete. Exist i alte dispozitive ce pot fi utilizate n sisteme de comunicaie, de ex. modem-ul. Denumirea modem provine de la modulator/demolator. Modemul este un dispozitiv care asigur modularea semnalului, adic suprapunerea semnalului real peste un semnal purttor (und purttoare) care are caracteristici nct se diminueaz efectul perturbaiilor (de ex. perturbaiile uzuale, de joas frecven, sunt eliminate dac unda purttoare are frecven nalt). O alt transformare pe care o putem aplica semnalului pentru transmisie este codificarea. Mesajul este compus uzual dintr-o succesiune de simboluri. Totalitatea simbolurilor utilizate pentru a compune un mesaj se numete alfabet. Simbolurile 15

Informatic Medical & Biostatistic

alfabetului se mai numesc litere, iar cu literele putem construi cuvinte. Totalitatea cuvintelor cu sens reprezint un dicionar, iar precizarea sensului cuvintelor se numete semantic. Cu ajutorul cuvintelor se pot construi propoziii; regulile de construcie a propoziiilor se numete sintax. Un dicionar mpreun cu semantica i o sintez reprezint un limbaj. Noi folosim uzual pentru comunicaie limbaje naturale, dar exist posibilitatea utilizrii unor limbaje formale sau artificiale. Diferitele componente ale sistemului de comunicaie pot folosi diferite alfabete sau dicionare. Transpunerea unui mesaj dintr-o form ce utilizeaz un alfabet ntr -o form n alt alfabet, cu anumite reguli de corespondent se numete codificare. Operaiunea invers se numete decodificare. Transpunerea unui mesaj dintr-un limbaj n altul se numete traducere. S mai menionm legat de sistemele de comunicaie c exist o capacitate limitat de transmisie a informaiei pe canalul de comunicaie, numit vitez de transmisie, msurat n bit/secund. Exemple de transmisie a informaiei n materie vie a) Codul genetic. Informaia privind structura proteinelor ce pot fi sintetizate este stocat n molecula de AND din nucleu. Acizii nucleici conin 4 baze azotate: adenina A, timina T, citozina C i guanina G (n cazul ARN n loc de timin apare uracilul u). Proteinele sunt formate din 20 de aminoacizi eseniali. O succesiune de 3 baze azotate din AND se numete codon i poart informaia pentru codificarea unui aminoacid ntr-o secven proteic. Totalitatea corespondenilor ntre codoni i aminoacizii corespunztori poart denumirea de cod genetic. Poriunea dintr-un lan AND care poart informaia pentru sinteza unei proteine se numete gen, iar ansamblul tuturor genelor unei specii se numete genom. Genomul uman conine circa 30.000 gene. Exerciiu: Ce cantitate medie de informaie poart un aminoacid ntr -o structur proteic avnd 100 aminoacizi? Rezolvare: Considerm c cei 20 aminoacizi au aceeai probabilitate de apariie ntr-o secven proteic (ipotez relativ deprtat de realitate, dar simplificatoare pentru rezolvarea problemei). Calculm entropia informaional cu relaia (3) din caseta 1.4 nlocuind pi = 1/20, deci:
20

H
1

(1 / 20) log 2 1 / 20

100 log 2 20 5 4,2 20

21 biti

b) Codificarea informaiei n sistemul nervos. Pe axoni informaia este transmis printr-o succesiune de impulsuri nervoase; fiecare impuls nervos este un potenial de aciune care are ntotdeauna aceeai amplitudine. Unui stimul mai intens i corespunde o rat mai ridicat de formare a potenialelor de aciune; spunem c pe axon informaia privind intensitatea stimulului este codificat n frecven. La nivelul sinapselor are loc o descrcare a veziculelor cu mediator chimic n spaiul sinaptic, cantitatea de mediator descrcat fiind proporional cu frecvena impulsurilor nervoase pe axon; spunem c n spaiul sinaptic informaia privind intensitatea stimulului este codificat n amplitudine, aceasta fiind reprezentat de cantitatea de mediator descrcat. La nivelul membranei postsinaptice, mediatorul se cupleaz pe receptorii postsinaptici, se deschid canalele de sodium, membrana se depolarizeaz i apare un potenial care se propag pe membrana corpului neuronal sau pe dendrite. Spunem c informaia este codificat n amplitudine, aceasta fiind reprezentat de potenialul local.

16

D. Lungeanu, Gh.-I. Mihala

Informatica medical Dup aceast incursiune n teoria informaiei putem reveni la noiunea central din informatic medical i anume informaia medical. Ce este informaia medical i cnd apare ea? Date i cunotine S ncercm s schim n cel mai simplificat mod actul medical primar i anume vizita pacientului la medic. Poziia central n activitate medical este ocupat de pacient. Fr pacient nu exist medicin! Actorul principal al activitii medicale este medicul, dar n activitatea medical sunt implicate numeroase alte persoane care aparin aa-numitelor profesii aliate. Dialogul medic-pacient ncepe uzual cu expunerea de ctre pacient a motivelor pentru care s -a prezentat la medic. Aceast descriere reprezint transmiterea unor informaii de la pacient ctre medic. Informaiile care se transmit sau se utilizeaz ntr-un act medical (sau ca urmare a unui act medical) reprezint informaia medical. Dialogul este succedat de ctre examenul obiectiv al pacientului, medicul colectnd astfel i alte informaii despre pacient. S observm c aceste informaii au un caracter individual sunt valabile pentru acest pacient. Aceste informaii se numesc date. Uzual paleta datelor se completeaz cu informaii provenind i din alte investigaii (probe de laborator, explorri funcionale, radiografii etc.). Indiferent ct de complexe ar fi ca reprezentare, ele sunt date, fiind caracter istice unui anumit individ. n acelai timp, medicul utilizeaz i alt fel de informaii, numite cunotine. Acestea au un caracter general i sunt acumulate n cursul pregtirii profesionale precum i n experiena sa practic. Fr aceste cunotine informaiile sub form de date nu pot fi interpretate (revenim la afirmaia c valoarea util a informaiei depinde de receptor; practic, fr aceste cunotine receptorul datelor nu este medic). De aceea numeroi autori numesc informaie doar datele interpretate. Pentru a evita confuzia ntre termenul informaie folosit la modul general i informaie pentru treapta de date interpretate, vom pstra termenul de date interpretate pentru acest nivel. Ciclul elementar al informaiei medicale Prin interpretarea datelor de ctre medic pe baza cunotinelor sale, este generat o nou informaie numit diagnostic. Pe baza diagnosticului, folosind din nou cunotinele sale, medicul stabilete un plan terapeutic pe care l aplic pacientului cu scopul de a mbuntii starea pacientului. Urmrirea evoluiei pacientului este nsoit de colectarea unor noi informaii sub form de date. Se observ c se nchide un ciclu al fluxului informaional n activitatea medical, numit ciclul elementar al informaiei medicale. Tipuri de date Informaiile culese despre starea pacientului, adic datele, pot mbrca diverse forme: date calitative cu caracter descriptiv, aa cum apar n anamnez date numerice forma uzual de prezentare a rezultatelor de laborator grafice modul de nregistrare a evoluiei n timp a unor mrimi biologice (ex.: semnalul ECG, EEG etc.) sunete de ex. fonocardiograma; modul de prelucrare este asemntor cu cel al altor semnale imagini radiografia, tomografia, ecografia etc. imagini dinamice filme.

17

Informatic Medical & Biostatistic

Modul de achiziie, stocare i prelucrare este specific pentru fiecare tip de date i n cadrul cursului nostru le corespund capitole separate. Tipuri de cunotine Cunotinele pot fi de mai multe feluri: cunotine explicite care se pot formaliza, se pot exprima n propoziii, pot fi uor transmise pe cale oral sau scris abilitati sau cunotine tacite (limba engleza - skill) cele ctigate prin experien practic (de ex. ndemnarea unui chirurg sau a unui dentist); nu pot fi transmise uor.

Clasificarea informaiei medicale pe nivele structurale n ciclul elementar al informaiei medicale prezentat mai sus am luat n considerare informaiile care apar n activitatea medical curent, la nivelul individului, numit pacient. Totui fenomenele care se petrec n materia vie (legate de starea de sntate a pacientului) privesc deseori nivele infraindividuale, pornind de la nivelul molecular sau celular, urcnd prin nivelul de esut, organ sau sistem pn la nivelul ntregului organism sau nivelul individual. Pe de alt parte, activitatea medical este organizat n uniti care presteaz servicii pentru populaie, deci putem urmri fluxul informaional i la nivel supraindividual, de comunitate. Corespunztor acestor nivele structurale avem diferite discipline biomedicale precum i diferite capitole corespunztoare ale informaticii medicale. Operaii cu informaii Urmrind ciclul de via al informaiei, din momentul generrii sale pn n momentul utilizrii, observm c informaia sufer o serie de operaii: achiziia (colectarea) presupune mijloace specifice tipului de informaie stocarea baze de date, respective baze de cunotine transmitere ci, procedee prelucrare cu o larg palet de metode specifice, pentru a extrage elementele eseniale n vederea interpretrii i utilizrii protecie msurile ce se impun pentru asigurarea integritii informaiei stocate sau transmise, precum i a confidenialitii acesteia interpretare/utilizare pasul final, n care informaia este integrat n aciunile specifice nivelului. Capitolele informaticii medicale i structura cursului Structura schematic a cursului cu durata de un semestru (predat n anul I la studenii facultii de medicin) este prezentat n caseta 1.1a. Partea referitoare la cunotinele medicale este prezentat sumar, la nivel introductiv. Noiunile de modelare, bioinformatic i neuroinformatic se predau numai sub form de cursuri avansate i nu sunt cuprinse n acest volum.

18

D. Lungeanu, Gh.-I. Mihala

BAZE DE DATE MEDICALE. NOIUNI INTRODUCTIVE


Ce sunt bazele de date ? Suntei mult mai familiarizai cu acest concept dect credei. ntlnii baze de date n viaa de fiecare zi. Ai rsfoit vreodat un program TV? Ai consultat un dicionar sau o enciclopedie? Ai intrat ntr-o bibliotec? Ei, toate astea sunt baze de date.
O baza de date este o colecie organizat de date. O baz de date de calculator va fi o colecie de date organizat n calculator (mai exact, n fiiere). Ce fel de date? Orice fel: liste cu nume i adrese, crile dintr-o bibliotec, orice dorii s organizai i s pstrai. 1. FIIERE DE DATE

DEFINIII Fiier (file) = o colecie organizat de date Date (data) = reprezentri formalizate sau fapte (instante), adecvate prelucrarilor umane sau automate

Ce nevoie am de fiiere de date? Nu pot nregistra orice informaii ntr-un fiier creat cu un editor de texte, de exmplu cu Word?! NU! Categoric nu. Un editor de text creaz fiiere de tip text i ne ofer faciliti de redactare i aranjare a textului destinat afirii i/sau tipririi. n fiierele de date informaia este organizat dup o schem: anumite structuri sau machete precizate de noi, astfel ncat s regsim uor orice informaie odat nscris n baza de date i s o putem prelucra dup dorin.
Un fiier de date n format electronic (pe calculator) nu va fi o structur rigid ca o carte de telefon sau un mers al trenurilor tiprite pe hrtie. El ne ofer o structur flexibil prin faptul c putem cuta datele dup diverse criterii i le putem chi ar modifica ordinea. Putem lua ca exemplu fiierul de date reprezentat de catalogul cu fie dintr-o bibliotec, care are un anumit format fix. Deoarece fiecare carte este afiat prin titlul ei sau prin autor, pentru a gsi o anumit carte din acel catalog, trebuie s 19

Informatic Medical & Biostatistic

cunoatem titlul sau autorul. Dac nu ne putem aminti cu suficienta precizie nici una din aceste informaii, rezultatul va fi o cutare ntortocheat prin toate fiele catalogului. Dac acest catalog ar fi fost un fiier de date pe calculator, am fi putut cuta nu numai dup nume sau autor, ci i dup diverse cuvinte -cheie, dup data publicrii, sau dup frnturile de informaie despre autor pe care ni le amintim. Un lucru foarte important este SCHEMA sau STRUCTURA UNUI FISIER DE DATE: Element de structur nregistare cmp Nume n lb. englez record field Explicaie, exemplu similarul unei fie clasice (fia de carte la bibliotec) similarul unei rubrici din fia clasic (numele i prenumele, sex, data naterii, etc.) coninutul concret al unui cmp, respectiv al unei rubrici (POPESCU ALEXANDRU atunci cnd reprezint coninutul cmpului numele i prenumele)

articol

item

Dac ne propunem s inem evidena pacienilor folosind un calculator, vom nscrie datele care erau coninute n fia de eviden clasic (pe hrtie) n nregistrri coninute n fiiere de date, aa cum ne propun figurile I.1 si I.2.

Figura I.1. Exemplu simplificat de fia clasic

Figura I.2. Organizarea unui fiier de date secvenial

20

D. Lungeanu, Gh.-I. Mihala

Ne putem imagina fiierul de date ca fiind un dosar cu nregistrri (fie de eviden, n accepiunea clasic). Observai c fiecrui pacient i va corespunde o nregistrare (o fi de eviden) - record. Fiecare nregistrare este format din cmpuri (rubricile ce trebuiau completate la o fi clasic) - fields. Fiecare cmp are un nume i o dimensiune (exist rubrici mai ncaptoare, ca cele pentru nume, diagnostic i unele mai nguste, ca cele pentru sex sau greutate). Datele concrete care se introduc la un moment dat ntr-un anume cmp le vom numi articole - items (ca de exemplu, POPESCU pentru nume, sau M pentru sex, etc.). Fiecare cmp se va caracteriza prin cteva proprieti: Proprietate cmp nume cmp Exemplu

Nume, Data naterii, Sex, etc. numeric (intreg, real), caracter, logic, data tip cmp calendaristic, etc. 50 caractere, numar real cu 3 cifre la partea ntreag i 2 dimensiune cmp cifre la cea zecimal, etc. Toate aceste elemente de structur trebuiesc definite la crearea fiierului de date. Putem deci vedea fiierele de date ca nite tabele pe care le definim atunci cnd precizm structura i le umplem apoi cu datele propriu-zise (cu articole sau items concrete) - figura I.3. Nr. reg. 2345 Nume Ionescu Adrian Sex M Data_nat. Ocupaie ....... Diagnostic ......... Greutatea .........

Figura I.3. Organizarea logic a unui fiier de date sub forma unui table

2. BAZE DE DATE O baz de date este format din unul sau mai multe fiiere de date, dar este mai mult dect o simpla colecie de fiiere: include, pe lng acestea, descrierea relaiilor dintre nregistrri, descriere apelat i utilizat pe toat durata prelucrrii informaiilor. Figura I.4 prezint comparativ organizarea informaiei sub forma unei baze de date la nivel instituional versus o colecie de fiiere independente, corespunztoare diferitelor departamente dintr-o instituie.

DEFINIIE Baza de date (database) = o nregistrare structurat de date: conine att datele, ct i schema acestora, adic mijloacele de a stabili i a menine relaii ntre date; aceste relaii trebuie s reflecte relaiile dintre entitile reale descrise de date (obiecte fizice, evenimente, concepte abstracte)
21

Informatic Medical & Biostatistic

Inregistrari pacienti

Inregistrari salarii

Inregistrari angajati

Inregistrari de inventar

Inregistrari pacienti

Clinica medicala

Departament salarii

Departament personal

Departament aprovizionare

Clinica chirurgie

(a)

Clinica medicala Baza de date integrata Departament salarii

Clinica chirurgie

Departament aprovizionare

Departament personal
(b) Figura I.4. Organizarea informaiei ntr-o baz de date la nivel instituional (b) comparat cu existena unor fiiere de date independente (a) [Brookshear 2007]

La culegerea datelor trebuie neaparat s fie deja stabilit structura fiierelor i criteriile de validare, care trebuie s in seama de alctuirea fiei de eviden clasice (cu ct discrepanele de organizare sunt mai substaniale, cu att mai mari vor fi ansele de eroare la introducerea datelor i reinerea personalului n adoptarea evidenei electronice a informatiei). Pentru compactarea datelor din fiiere se pot folosi codificari.

Am auzit de validarea datelor. Ce nseamn asta?


Validarea datelor la introducerea lor n baza de date o putem vedea pe mai multe nivele. Exist o validare primar, care se face implicit prin modul n care a fost precizat structura: nu voi putea introduce caractere alfabetice ntr-un cmp numeric, aa cum, dac voi introduce cifre ntr-un cmp de tip caracter, ele nu vor avea nici un fel de semnificaie valoric (nu voi putea face operaii matematice cu ele). Pe al doilea nivel de validare exist posibilitatea precizrii unor anumite valori sau intervale de valori pe care le pot lua articolele din cmpuri: de exemplu, M i F pentru cmpul sex, valori pozitive i mai mici dect 2.5 pentru cmpul nlime, etc. Poate exista i un al treilea nivel de validare, n care se iau n considerare criterii mai complexe, care s in cont de eventualele relaii ntre cmpuri i nregistrri.
Dezvoltarea schemei unei baze de date se face n etapa de proiectare sau de design a acesteia. Odat definit schema sau structura bazei de date, utilizatorul nu va mai fi preocupat de chestiuni legate de organizarea fizic a datelor n fiierele care 22

D. Lungeanu, Gh.-I. Mihala

compun baza de date. De asta se vor ocupa programe speciale. Utilizatorul va face referire la date prin numele cmpurilor i astfel programele scrise pentru consultarea i administrarea bazelor de date vor fi independente de configuraia fizic. 3. SISTEME DE GESTIUNE A BAZELOR DE DATE

DEFINIIE Sistem de Gestiune a Bazelor de Date - SGBD (DBMS - DataBase Management System) = un set de unelte software corelate ce au ca scop construcia unei baze de date i apoi accesul la aceasta; n plus, ele controleaz securitatea, integritatea i secretul datelor
Aceste instrumente software ncorporeaz suplimentar: limbaje specializate pentru descrierea i manipularea datelor; (eventual) un sistem de dicionare de date. Accesul i manipularea datelor se poate face direct prin funciile oferite de SGBD. Cel mai adesea ns, acest lucru l fac utilizatorii specializai. Utilizatorul obinuit va utiliza baza de date la nivelul aplicaiilor specifice scopului dorit, prin intermediul unor interfee speciale definite pentru conectarea programelor de aplicaie la DBMS ( API Application Programming Interface). Figura I.5 prezint acest concept de acces pe mai multe niveluri la baza de date propriu-zis.

Utilizator

Software de aplicatie

SGBD

Baza de date propriu-zisa

Datele vazute in termenii aplicatiei

Datele vazute in termenii modelului bazei de date

Datele vazute in organizarea lor propriu-zisa

Figura I.5. Conceptul de stratificare a accesului la baza de date: poziia utilizatorului fa de baza de date [Brookshear 2007]

Un SGBD are trei funcii de baz: funcia de descriere funcia de manipulare funcia de utilizare. FUNCIA DE DESCRIERE Funcia de descriere permite descrierea schemei bazei de date (structura datelor i relaiile dintre acestea). Totodat, se definesc i condiiile de acces la informaiile coninute n baza de date. Descrierea schemei se realizeaz cu ajutorul unui limbaj de descriere propriu fiecrui sistem de gestiune.

23

Informatic Medical & Biostatistic

FUNCIA DE MANIPULARE Funcia de manipulare permite efectuarea urmtoarelor operaii: crearea, inserarea, suprimarea sau actualizarea unor nregistrari definite de utilizator; faciliteaz cutarea, sortarea i editarea total sau parial a unor nregistrri corespunztoare rezultatului unei ntrebri formulate n acest limbaj. Limbajele de manipulare pot fi grupate n dou mari categorii: limbaje autonome - sunt de sine stttoare, n cadrul lor comenzile de manipulare reprezint chiar funcii referitoare la utilizarea datelor; limbaje care au nevoie de limbaj gazd - ofer doar facilitile de structurare i cutare, celelalte operaii legate de manevrarea fiierelor i de prelucrare a datelor fiind realizate cu ajutorul unor limbaje de nivel nalt universale. FUNCIA DE UTILIZARE Funcia de utilizare permite comunicarea ntre utilizator i baza de date (sub aspectul asigurrii acelor mijloace i servicii care l avantajeaz cel mai mult pe utilizator). Din punct de vedere al funciei de utilizare, utilizatorii pot fi de mai multe cate gorii: utilizatori liberi sau conversaionali, care au la dispozitie limbaje de interogare ntr-o form foarte apropiat de vorbirea curent i formeaz grupa utiliza torilor aa-zii nespecialiti. ntrebrile sunt prestabilite, utilizatorii nu cunosc structura sau modul de lucru cu baza de date i se rezum la apelarea unor proceduri sau programe corespunztoare anumitor aplicaii; utilizatorii parametrici fac uz, de regul, de limbajele de manipulare (n spe cial pentru interogare) utiliznd proceduri prestabilite. Ei au cunotine de programare i cunosc att structura bazei de date ct i problemele sistemului de operare; administratorul bazei de date este un utilizator special, care rspunde de toate activitile i operaiile referitoare la baza de date pe care o gestio neaz, inclusiv performanele acesteia. El definete obiectivele sistemului, ajut la de finirea cerinelor utilizatorilor, definete structura virtual i mparte drepturile de ac ces ale utilizatorilor, stabilete procedurile de validare a datelor, elaboreaz concepia de protecie a datelor i evalueaz performanele sistemului. Administratorul rs punde de alegerea i implementarea SGBD -ului, asigur ncrcarea bazei de date, definete strategia de lucru i distribuie documentaia tuturor utilizatorilor. Pentru orice aplicaie de baze de date de dimensiuni medii sau largi exist cel putin o persoan cu sarcini de administrare. Aceste persoane (i.e. administratorii bazei de date) stabilesc politicile de utilizare i au grij ca ele sa fie respectate. Funci ile specifice de administrare pe care o SGBD trebuie sa le ofere sunt: (i) start/stop aplicaia de baze de date; (ii) funcii pentru definirea grupurilor de utilizatori i pentru controlul accesului; (iii) funcii de arhivare, salvare i restaurare; (iv) funcii de control al securitii i integritii datelor; (v) importul/exportul datelor; (vi) funcii pentru monitorizarea utilizrii sistemului i aplicarea ajustrilor necesare. Dintre cele mai utilizate SGBD-uri: Oracle, Access, MySQL, Sybase, FoxPro, Paradox, dBASE.

24

D. Lungeanu, Gh.-I. Mihala

4. TIPURI DE BAZE DE DATE. MODELE DE DATE Putem clasifica bazele de date astfel: a) Dupa distribuia datelor: a1) BD locale - toate fiierele care compun baza de date se gsesc pe un acelai sistem de calcul, a2) BD distribuite - fiierele care compun baza de date sunt distribuite pe mai multe sisteme de calcul, b) Dupa modelul de date (i.e. specificaiile de arhitectur a datelor). Modele clasice sunt: b1) BD relaionale, b2) BD ierarhice, b3) BD n reea. Modelul de date este o reflectare a modelului conceptual, care reprezint lumea reala prin concepte de tip entitate, relaie i atribute. O entitate este un anumit aspect al acestei lumi reale, care are o existen independent i poate fi identificat n mod unic. Toate modelele clasice pstreaz nregistrarea ca orientare fundamental. BAZE DE DATE RELAIONALE Acestea sunt cele mai utilizate baze de date, pentru c sunt uor de nteles i de manevrat. Structura lor logic este de tip tablou cu relaii ntre linii i coloa ne. Ne imaginm c baza de date din figura I.6 conine informaii privind pacieni purttori ai unei maladii ereditare, motiv pentru care s-au luat n observaie i descendenii acestora.

Figura I.6. Bazele de date relaionale sunt organizate ca nite tabele cu relaii ntre linii i coloane (n acest exemplu numrul de registru este informaia care face conexiunea ntre cele trei fiiere)

Cutarea n baza de date se face prin comparaie ntre criteriile de cutare i datele propriu-zise - valoarea de adevarat/fals, obinut ca rezultat, conducnd la crearea unor nregistrri virtuale, care formeaz apoi tabele virtuale. Aceste tabele virtuale se obin ca rezultat al cutrii i ele conin rspunsul la ntrebri de genul: Care sunt rezultatele obinute la ultimele analize de laborator de pacientul IONESCU ADRIAN i de copiii 25

Informatic Medical & Biostatistic

acestuia?, sau Exist nregistrate datele privind evoluia prinilor lui IONESCU ADRIAN? Dac da, care sunt ele ?. Aceste criterii de cutare se stabilesc de ctre utilizator, iar modificrile n relaiile logice dintre cmpurile i nregistrrile bazei de date se definesc i se modific cu un efort minim. Bazele de date relaionale sunt foarte flexibile i uor exp andabile. BAZE DE DATE IERARHICE Diagramele unor asemenea baze de date sunt arborescente: fiecare element este subordonat unui singur element de pe nivelul precedent al bazei de date i numai unuia. Dependena unui segment de alte segmente de date de nivel superior se exprim printrun punctator (adresa), ceea ce conduce la o economie considerabil de spaiu i se simplific regsirea informaiilor de baz. Prin aceast organizare eficient timpul de prelucrare se scurteaz substanial. Plata pentru aceast eficien este o suplee mult mai scazut la schimbarea procedurii de prelucrare. Pentru volume mari de date i prelucrri intense, avantajele oferite sunt ns determinante. BAZE DE DATE N REEA Bazele de date n reea sunt asemntoare cu cele ierarhice, doar c un copil poate avea mai mult dect un singur "printe", ceea ce le face mai flexibile dar i mai puin eficiente n operaiile de interogare. MODELUL RELAIONAL DE REPREZENTARE I REGSIRE A DATELOR. CARACTERISTICILE SGBD-urilor RELAIONALE Exist cteva familii mari de limbaje relaionale: a) Limbajele orientate pe transformri - constituie o clas de limbaje neprocedurale care, cu ajutorul relaiilor transform datele de intrare n ieirea dorit de utili zator. Aceste limbaje (cel mai cunsocut este SQL - Structured Query Language) produc structuri uor de neles i de manipulat n termeni practici: ce trebuie obinut, pornind de la ce este cunoscut (descriu doar modul n care datele sunt organizate i pot fi regsite). Caracteristici: au nevoie de limbaj gazd i trebuie incluse n pachetele de aplicaie. SQL a cucerit piaa att datorit calitilor sale, ct i faptului c a fost standardizat de ctre ANSI (American National Standards Institute) i a fost iniial promovat de ctre IBM. b) Limbaje bazate pe algebra relaional - utilizeaz o serie de operatori algebrici relaionali (permutare, proiecie, restricie, selecie, mprire, reuniune, in tersecie, diferen, concatenare etc.). Limbajul algebric relaional este un limbaj procedural complet, dar dificil pentru necunosctori. El se bazeaz pe utilizarea unui an samblu de operatori cu ajutorul crora se acioneaz asupra uneia sau mai multor relaii din cadrul unei baze de date relaionale, drept rezultat obinndu-se o nou relaie. c) Limbaje relaionale de tip grafic - modul de lucru: utilizatorul completeaz o serie de rspunsuri, pe un exemplu, prin care sistemul "ghicete" ce trebuie fcut i genereaz instruciuni corespunztoare ale li mbajului.

26

D. Lungeanu, Gh.-I. Mihala

PROBLEME SOCIALE Ca i n cazul altor tehnologii, exist aspecte variate i uneori controversate legate de utilizarea bazelor de date electronice. Ele se asociaz mai ales cu problemele de securitate a datelor i cu faptul c se pot interoga colecii uriae de date aflate la distane mari, cu un efort minim. Sunt i cazuri n care apar probleme legate de dreptul de a colecta i utiliza informaia nc de la nceput sau dreptul de a da informaia colectat ctre tere prti. Multe dintre aceste probleme sunt nc fr un rspuns clar exemple adaptate dup [Brookshear 2007]: n ce masur poate o universitate face uz de datele despre studenii si: (a) numele i adresele; (b) notele? Poate face public distribuia notelor fr a da numele? n ce msur poate un spital s fc uz de informaiile referitoare la pacieni poate folosi datele pentru cercetare? Se schimb ceva dac datele sunt de identificate? Le poate da unor instituii care fac cercetare farmaceutic? n Statele Unite exist nregistrat informaie ADN despre toi deinuii federali, iar baza poate fi consultat n situaia unor investigaii criminalistice este etic ca aceast informaie s fie utilizat i pentru cercetare genetic? poate o banc s dea informaii referitoare la obiceiurile de cheltuieli ale clienilor? Cnd, n ce condiii?

BIBLIOGRAFIE I REFERINE
JH van Bemmel, MA Musen (eds). Handbook of Medical Informatics. Springer Verlag, Heidelberg, 1997 P Beynon-Davies. Database systems (2nd Edition). Macmillan Press, Houndmills UK, 2000 JG Brookshear. Computer science: an overview (9th Edition). Addison Wesley, Boston, 2007 E Coiera: Guide to Medical Informatics, the Internet and telemedicine . Chapman Hall, London, 1997 EH Shortliffe, LE Perreault (eds). Medical Informatics. Computer applications in healthcare and biomedicine (2nd Edition). Springer Verlag, New York, 2001 T Spircu, S. igan: Informatica n Medicin. Ed. Teora, Bucureti, 1995

27

Informatic Medical & Biostatistic

28

D. Lungeanu, Gh.-I. Mihala

Partea a II-a

BIOSTATISTIC

29

Informatic Medical & Biostatistic

30

D. Lungeanu, Gh.-I. Mihala

INTRODUCERE N BIOSTATISTIC
Marea majoritate a cunotinelor manevrate n tiinele naturii, inclusiv cele medicale se bazeaz pe observaii i studii asupra mediului. Una dintre caracteristicile care frapeaz de la nceput este variabilitatea. Indivizii au diferite nlimi, greuti, etc. Am observat ns cu toii c variaile observate sunt relativ limitate n intervale pe care le considerm rezonabile sau normale iar ieirea nafara intervalului reprezint cel mai adesea ieirea din sfera a ceea ce numim normal. Privind ast fel lucrurile am putea spune c tiinele medicale se ocup cu depistarea acestor variaii, cauzele i metodele de revenire n domeniul valorilor normale. De fapt trebuie s se nceap cu definirea limitelor n care ncadrm normalul. Putem deja sesiza c acest lucru nu este deloc uor fiindc vom stabili aceste limite print -un studiu asupra unui grup de indivizi pe care i considerm normali nc nainte de a avea definit normalul. Vom mai observa c variabilitatea poate fi destul de ridicat; n plus, repetnd studiul pe un alt grup obinem alte limite, deci apar semne de ndoial privind stabilirea limitelor i va fi fireasc ntrebarea: cum putem defini un interval rezonabil i ct de mare ncredere putem avea n compararea unei situaii reale cu aceste date generale? Acesta este rolul biostatisticii, care pe baza unei fundamentri matematice solide, n special teoria probabilitilor, ne permite s ne orientm printre datele att de diverse ca cele oferite de viaa de zi cu zi. Caracterul probabilist al interpretrilor este oarecum contrastant cu modelul exact impus de educaia uzual din matematic; de aceea se susine c statistica nu este doar o tiin, ci un mod de gndire; n matematic numerele 130 i 135 sunt evident diferite; n gndirea statistic nu vom mai fi att de siguri c sunt diferite (dac ar fi vorba de exemplu de dou msurtori de tensiuni arteriale sistolice ale unui individ vom ajunge probabil cel mai des la concluzia c nu sunt diferite!). Ca orice tiin, biostatistica opereaz cu cteva concepte de baz care vor fi prezentate n cele ce urmeaz.

1. INFERENA STATISTIC
1.1 CONCEPTELE DE BAZ ALE BIOSTATISTICII A. Individ populaie Definiie. Individ (element, unitate statistic) - concept de baz ce reprezint forma individual caracteristic fenomenului studiat i supus operaiei de msurare a unor parametri (mrimi). Un individ este considerat bine definit dac este: identificat concret localizat n timp (moment sau interval n care se consider c nu se modific sensibil caracteristicile studiate) localizat n spaiu. Exemplu: ntr-un studiu asupra dezvoltrii copiilor, noiunea de individ este asociat unui copil anume, fiind precizat i momentul n care s-au efectuat msurtorile precum i localizarea spaial a studiului.

31

Informatic Medical & Biostatistic

Observaie: individ nu este neaprat o persoan; ntr-un studiu fcut pe obolani, individul va fi un obolan, ntr-o prob de snge va fi o hematie etc. Definiie: Populaie (colectivitate statistic) reprezint ansamblul tuturor indivizilo r la care se refer studiul i care au cel puin o proprietate comun . Populaia este bine definit dac este: - localizat n timp - localizat n spaiu - identificat caracteristica ce este comun indivizilor din populaie. Observaii: - numrul de indivizi dintr-o populaie se numete volumul populaiei - populaiile pot fi finite sau infinite - indivizii i pierd individualitatea n interiorul unei populaii. Exemple de populaii: - copiii n vrst de 10 ani din judeul Timi, n anul 1995 - limfocitele T ale bolnavilor de hepatit B. B. Obiectul i metodele biostatisticii Definiie: Biostatistica este disciplina care i propune studiul caracteristicilor unei populaii. Metode de studiu pentru evaluarea caracteristicilor populaiei: - recensmnt - metod de determinare exact a caracteristicilor populaiei; localizarea n timp este restrns la un moment; tot foarte bine precizat este i delimitarea spaial. Recensmntul este o operaie laborioas i foarte costisitoare fiind utilizat rar, pentru culegerea unor date exacte strict necesare. Deseori n practic nu este necesar precizia oferit de recensmnt, fiind suficiente date aproximative, studiile devenind mult mai ieftine. - screenning - metod asemntoare recensmntului utilizat de obicei pentru depistarea n cadrul unei populaii a indivizilor avnd o abatere deosebit a unui parametru (depistarea precoce a unor afeciuni grave sau cu consecine deosebite); nu este necesar localizarea n timp cu stricteea recensmntului. Fiind o operaie destul de costisitoare, eficiena crete prin alegerea unei selecii din populaie conform unor factori de risc; exist o ntreag metodologie pentru optimizarea screeningurilor. - selecie (eantionare) - metoda cel mai des folosit oferind rezultate cu precizie satisfactoare i un cost mult redus; pentru studiu se alege din populaie o submulime numit eantion (lot, grup), msurtorile fiind efectuate numai pe indivizii eant ionului studiat. C. Inferena statistic Rezultatele obinute pe un eantion le vom considera valabile pentru ntreaga populaie. Definiie: Operaia de generalizare a caracteristicilor unui eantion la nivelul ntregii populaii se numete inferen statistic. Inferena statistic este operaia fundamental a statisticii i n jurul ei graviteaz majoritatea aspectelor teoretice. Importana acestei operaii poate fi mai bine sesizat dac ne gndim c eantionul poate s reprezinte un procent infim din n treaga populaie (s zicem 1:1000); putem foarte uor aluneca spre concluzii eronate dac eantionul nu reprezint ntreaga diversitate pe care o ntlnim n populaie. S ne oprim deci puin asupra operaiei de selecie n eantion (teoria seleciei).

32

D. Lungeanu, Gh.-I. Mihala

D. Eantion reprezentativ Definiie: Eantionul care conine proporional indivizi reprezentnd toate caracteristicile populaiei poart numele de eantion reprezentativ. Criterii pentru eantionul reprezentativ O serie de concluzii interesante pentru statistic s-au putut desprinde cu ocazia sondajelor efectuate n peajma alegerilor, partidele politice fiind deosebit de interesate de aceste rezultate. Instituiile care se ocup cu efectuarea acestor sondaje utilizeaz de obicei eantioane reprezentnd - 1:1000 - 1:100 din populaie. Este des pomenit n crile de statistic o ntmplare cu ocazia alegerilor din SUA din anul 1936. n sondajul efectuat de revista The Literary Digest cu puin nainte de alegeri, candidatul Alfred London prea s aib un avantaj sensibil, ns alegerile au fost ctigate detaat de F. D. Roosvelt, dei erorile sunt neateptat de mari, dac ne gndim c sondajul a fost efectuat pe cca 10 milioane de alegtori (din cca 40). Explicaia const ns tocmai n alegerea defectuoas a eantionului: fiecare al treilea alegtor nregistrat din Chicago, nume alese la ntmplare din listele diferitelor cluburi, din cartea de telefon, etc., favoriznd selecia din mediul urban fa de rural, din cei cu venituri mari fa de cei cu venituri mici, dintre brbai fa de femei. n plus, sondajul s-a efectuat parial prin pot i numai un sfert din cei solicitai au rspuns. S -au putut stabili ulterior reguli pentru alegerea eantioanelor reprezentative care conteaz mai mult dect mrimea eantionului. Criteriile pentru selecia n eantionul reprezentativ: Echiprobabilitate: toi indivizii din populaie s aib aceeai probabilitate de a fi alei n eantion. Independen: alegerea unui individ s fie independent de alegerea altui individ n eantion. E. Metode de selecie a. Sondajul simplu. Populaia de studiat este considerat omogen i fiecare individ este ales n mod aleator (ntmpltor) din ntreaga populaie. Respectarea practic a criteriilor enumerate anterior este dificil datorit mai multor factori: subiectivitatea celui ce face eantionarea, necooperarea unor indivizi selectai, unele condiii tehnice (cnd indivizii sunt animale, celule etc.). De aceea selecia se face, pentru populaii finite, prin cartografierea populaiei (numerotarea indivizilor luai n eviden) i apoi generarea de numere aleatoare (sau folosirea unor tabele de numere aleatoare) care precizeaz indivizii selectai. b. Sondajul dirijat. Populaia este deseori heterogen i poate fi divizat n mai multe categorii, numite straturi n teoria seleciei. (De exemplu un eantion reprezentativ pentru populaia rii noastre trebuie s cuprind proporiile cuvenite de brbai respectiv femei, de persoane din mediul rural sau urban, din diferite regiuni ale rii). n sondajul dirijat se vor selecta n eantion un numr de indivizi din fiecare strat, proporional cu ponderea stratului n populaie. n interiorul fiecrui strat se aplic regulile sondajului simplu. Exist mai multe variante pentru punerea n practic, cel mai adesea, (n anchetele strii se sntate) alegndu-se din fiecare strat localiti i eantionare aleatoare (gospodrii, nr. indivizi) din localitile alese. c. Sondajul mixt. Versiune care mbin sondajul dirijat cu cel simplu. Trebuie menionat aici c exist o serie de reguli (ce vor fi n parte discutate ulterior) prin care se stabilete numrul minim de indivizi din eantion pentru studiul propus.

33

Informatic Medical & Biostatistic

F. Tipuri de eantioane Dei dorina noastr, n cursul seleciei eantionului, este cel mai adesea cea de a evita orice factori care ar influena echiprobabilitatea, constatm c, practic, numeroi factori au tendine, uneori puternice, de a afecta acest criteriu fundamental. De exemplu dac dorim s selectm pentru o experin un lot de oareci din biobaz (cresctorie), este posibil s apar factori subiectivi (ngrijitoarele au uneori simpatii pentru animalele ngrijite - unii oareci sunt mai drgui, cu musti mai lungi etc. i ncearc amnarea unui eventual destin tragic) sau obiectivi (dac alegerea unor oareci la ntmplare dintr-o cuc nseamn a lua pe cei pe care i poi prinde deja putem sesiza c i vom prinde pe cei mai puin abili n a evita capturarea lor - cu alte cuvinte alegerea nu mai este chiar ntmpltoare; n aceast categorie intr i sondajul prin pot: serozitatea de a rspunde la un sondaj nu este egal distribuit n toate straturile!). Definiie: un factor (tendin) care influeneaz probabilitatea de selecie a unui individ ntr-un eantion se numete bias. n funcie de prezena sau absena unui astfel de factor n procesul de selecie putem distinge: - eantioane neselective (unbiased) - care respect echiprobabilitatea - eantioane selective (biased) n care, cu sau fr tirea noastr, un factor a influenat componena lotului. n marea majoritate a cazurilor eantioanele selective sunt evitate; excepie fac studiile din analiza riscului unde aceti factori sunt chiar cutai pentru eventuala definire a unor straturi. 1.2. VARIABILE Studiile experimentate, indiferent de natura lor, se concretizeaz prin culegerea unor date. A. Definiie Mrimile asupra crora este orientat un studiu i se culeg date poart numele de variabile sau caracteristici. B. Tipuri de variabile a. Variabile numerice (se mai numesc cantitative sau cardinale) sunt cele ale cror valori sunt exprimate prin numere, pornind de la o unitate de msur bine definit. Valoarea numeric propriu-zis depinde de unitatea de msur i de precizia instrumentului de msur. Exemple de variabile numerice: - nlimea unui individ (talia) se exprim de obicei n cm sau m (n picioare i inch n unele ri anglo-saxone); - greutatea - de obicei n kg cu precizia de 1 kg pentru aduli i 10g-100g pentru copii (n pounds i ounces n unele tri anglo-saxone); - frecvena cardiac - se exprim n bti/minut; - pH-ul sanguin - se exprim n uniti pH, etc. Variabilele numerice pot fi de dou tipuri: - scar proporional: valoarea zero-originea- este aceeai indiferent de unitatea de msur - scar de intervale: la schimbarea unitii de msur rmn proporionale numai intervalele (ex: temperatura n 0 C i 0 F). Variabilele cantitative se mai pot mpri n: - variabile continue - exprimate prin numere reale (ex: pH-ul sanguin)

34

D. Lungeanu, Gh.-I. Mihala

- variabile discrete - exprimate prin numere ntregi sau raionale, avnd numai anumite valori posibile (ex: frecvena cardiac). n practic, datorit preciziei limitate a instrumentelor cu care se efectueaz msurrile, putem aborda toate variabilele ca discrete; deseori nici nu este necesar mpingerea precizie msurtorilor la maximul tehnic posibil, fiind suficient o precizie limitat, specificat dup necesiti (ex: greutatea unui individ) . b. Variabile ordinale (se mai numesc variabile rang) - sunt exprimate prin numere conform unei scri (scale) convenionale care accept relaia de ordine (mai mare, mai mic, egal) sau ataeaz eventual valori numerice conform unor criterii convenionale. Specific variabilelor ordinale este exprimarea prin numere, dar absena unei uniti de msur. Exemple de variabile ordinale: - nota obinut de un individ la un examen indiferent de forma de examinare; nota nu este altceva dect reflectarea sub form de numr a poziiei pe o scar cu trepte convenionale: nu se poate niciodat afirma c diferena (distana) ntre 9 i 10 este egal cu diferena (distana) ntre 5 i 6! - ierarhia n scara Luscher de preferin a culorilor dintr -o palet de 6 (sau 8) culori date - gradul de apreciere al efortului pe scara Berg (0-20 de la f.f.uor pn la epuizant); etc. c. Variabile calitative (se mai numesc nominale) - sunt exprimate prin nume sau simboluri ce definesc diferite clase de caliti; ntre calitile claselor nu se poate (n general) stabili o relaie de ordine; cele mai frecvente sunt calitile definite dihotomizant astfel nct s apar numai dou clase; teoria demonstrez c toate celelalte cazuri se pot reduce n final la abordarea dihotomic (cu dou clase); variabilele cu numai dou valori posibile se mai numesc I variabile alternative. Exemple de variabile calitative: - grupa sanguin: O/A/B/AB - patru valori posibile - sexul: M/F - dou valori posibile - starea pacientului dup tratament: ameliorat/neameliorat - dou valori posibile, etc. C. Caracteristicile variabilelor Pentru un individ (obiect) valoarea asociat variabilei este definit pentru un moment dat. De obicei culegem un ansamblu de valori corespunznd indivizilor din eantion urmnd ca, prin inferen statistic, sa ncercm s caracterizm starea populaiei la momentul respectiv. n cazul n care urmrim i evoluia n timp a valorilor variabilei studiate obinem o serie temporal care ne d o reprezentare dinamic, n timp, a mrimii studiate. Putem ntlni serii de momente sau serii de intervale. Uneori studiul se ndreapt spre sesizarea unor diferene n funcie de repartiia n spaiu a valorilor individuale; n acest caz obinem o serie spaial. D. Mrimi deterministe i aleatoare a. Mrime determinist - este o marime a crei valoare este bine definit la un moment dat i care prin repetarea msurrii ne ateaptm s obinem din nou aceeai valoare. Eventualele variaii se pot datora numai operaiei propriu-zise de msurare. Exemple: lungimea unui obiect , concentraia unei soluii etc. b. Mrime aleatoare (sau statistic) - este o mrime a crei valoare nu se repet cu necesitate prin repetarea msurtorii, chiar dac ncercm s pstrm nemodificate condiiile experimentale.

35

Informatic Medical & Biostatistic

Exemple: rezultatul la aruncarea zarului (6 valori posibile) sau numrul de dezintegrri/secund al unei surse radioactive (cu variaii ntr -un anumit interval), structura genomului unui descendent (cu cteva variante posibile). Procesele care genereaz marimi statistice se mai numesc i stochastice.

2. PARAMETRII STATISTICI
n biostatistic se utilizeaz frecvent introducerea unor noiuni pornind de la exemple, metod pe care o vom utiliza i noi n continuare. Exemplul 1: Efectum un studiu privind dezvoltarea copiilor din Timioara n 1995. Lum un eantion de 324 copii n vrst de 10 ani din Timioara obinnd valorile din tabelul de mai jos.
Tabelul 1. Datele cu nlimile unui grup de copii

nlime 126 127 128 129 130 131 132 133

Frecvena 1 1 3 4 7 12 11 19

nlime 134 135 136 137 138 139 140 141

Frecvena 25 28 34 37 30 31 22 18

nlime 142 143 144 145 146 147 148 149

Frecvena 13 12 8 3 2 2 0 1

Datele din acest tabel pot fi reprezentate grafic sub forma unei histograme (fig. II.1) Analiznd aceste date, putem observa c: - valorile foarte mici sau foarte mari (extremele), sunt rare, majoritatea valorilor fiind situate n zona central; acest aspect va fi surprins de unii parametri caracteristici numii indicatori ai tendinei centrale - variaiile n jurul parametrului tendinei centrale pot fi mai mari sau mai mici (valorile individuale pot fi mai grupate sau mai mprtiate); acest aspect va fi surprins de ali parametri numii indicatori de dispersie.
40 35 30 25 20 15 10 5 0 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149

Figura II.1. Histograma nlimii unui grup de copii

36

D. Lungeanu, Gh.-I. Mihala

2.1. INDICATORII TENDINEI CENTRALE n funcie de tipul variabilei se recomand folosirea unor diveri indicatori ai tendinei centrale. A. Media aritmetic Este cel mai folosit indicator al tendinei centrale. Dac avem un eantion format din N indivizi i notm valorile variabilei studiate cu Xi, i=1,....,N (citim indicele i lund valori de la 1 la N ), atunci media aritmetic a variabilei X, notat cu X este dat de relaia:

1 N Xi Ni 1

X 1 X 2 ... X N N

(II.2.1.a)

1. n cazul eantioanelor mai mari, anumite valori pot s apar de mai multe ori (ca de ex. n tabelul II.1); dac notm frecvena absolut de apariie a fiecrei valori x j cu nj, atunci media aritmetic se mai numete medie ponderat i este dat de relaia:

1 K nj X j N j 1
K

(II.2.1.b)

unde K reprezint numrul de clase, iar frecvenele respect relaia:

N
i 1

nj

(II.2.1.c)

Observaie: n cazul n care o clas j nu conine numai indivizi care au exact aceeai valoare Xj ci apar variii (deci clasa reprezint de fapt un strat, atunci definim mai nti media stratului j: nj

Xj

1 X ij nj i 1
K nj

(II.2.1.d)

i media pe ntregul eantion va fi:

1 N

X ij
j 1 i 1

(II.2.1.e)

2. n cazul unei variabile numerice continue, n loc de frecvena clasei folosim valoarea funciei de distribuie, deci media aritmetic va fi definit prin: X max

X max

X min

f ( x ) dx
X min

(II.2.1.f)

B. Mediana n cazul variabilelor ordinale este mai potrivit a folosi n loc de media aritmetic un alt indicator, mediana definit astfel: 37

Informatic Medical & Biostatistic

Definiie: Mediana este un indicator statistic al tendinei centrale care mparte lotul n dou pri egale; 50% din indivizi au valori mai mici dect mediana, 50% au valori mai mari. Pentru calculul propriuzis al medianei se procedeaz astfel: - se formeaz un ir ordonat cresctor al tuturor celor N valori - dac N este impar (adic N=2p+1), atunci mediana Me = Xp+1 Valoarea calculat cu (II.2.2.a) este considerat exact dac : (II.2.2.a)

Xp Xp

Xp

(II.2.2.a)

- dac N este par (adic N = 2p), atunci mediana Me este aproximat de

Me

Xp 2

Xp

(II.2.2.b)

Valoarea dat de (II.2.2.b) este considerat exact dac:

Xp 1
sau

Xp Xp 1

Xp 2
2

(II.2.2.b) (II.2.2.b)

Xp 1 Xp

Xp 1 Xp

Dac nu sunt ndeplinite condiiile (II.2.2.a), (II.2.2.b) sau (II.2.2.b) atunci valoarea care se repet de mai multe ori (de nim i) definete un interval median de lime him; mai notm frecvena cumulat pn la intervalul median (pn la limita inferioar inclusiv) cu fim; n acest caz mediana poate fi aproximativ cu relaia:

Me
unde:

X im
im 1

him nim

N 2

f im

(II.2.2.c)

f im
i 1

ni

(II.2.2.c)

Observaie: Dei nu este recomandabil, destul de des apare calculat media aritmetic (fiind mai simplu de calculat) n loc de median n cazul variabilelor ordinale. n cazul distribuiilor simetrice media aritmetic i mediana coincid; totui pentru distribuii asimetrice ele au valori diferite! C. Moda (modul) n cazul variabilelor calitative (nominale), media aritmetic sau mediana nu au sens; indicatorul tendinei centrale utilizabil se numete mod sau mod. Definiie: Moda (Mo) reprezint cea mai frecvent valoare. Moda poate fi definit i pentru variabilele numerice sau ordinale. Pentru exemplul din tabelul II.1. moda este de 137 cm. n cazul distribuiilor simetrice pentru variabilele numerice media aritmetic, mediana i moda coincid. 38

D. Lungeanu, Gh.-I. Mihala

Poziia relativ a modei, medianei i mediei aritmetice pentru distribuii asimetrice este vizibil n figura II.2.

Figura II.2. Moda, mediana i media aritmetic pentru distribuii asimetrice

Pentru variabile numerice, dac obinem o curb de distribuie cu un singur maxim, ea se numete unimodal; n cazul n care are dou maxime (chiar dac diferite), distribuia se numete bimodala (fig. II.3). Similar, pentru mai multe maxime putem ntlni distribuii multimodale. n cazul populaiilor omogene ne ateptm doar la distribuii unimodale. Depistarea unei distribuii bi sau multimodale este cel mai adesea un indiciu al unei populaii neomogene din care s-a extras eantionul, fiind cel mai probabil o suprapunere a dou populaii cu caracteristici diferite. Distribuiile bi sau multi-modale merit un studiu mai amnunit.
20 18 16 14 12 10 8 6 4 2 0
-6,5 -6 -5,5 -5 -4,5 -4 -3,5 -3 -2,5

Figura II.3. Distribuia bimodal: distribuia pragului de sensibilitate pentru detecia gustului amar c=concentraia de chinin la care este sesizat gustul amar)

Observaie: n cazul variabilelor numerice alura graficului de distribuie depinde puternic de modul n care definesc clasele (limea intervalelor). Deseori autorii sunt tentai a lua limea clasei egal cu precizia cu care s-a efectuat msurarea (de ex. pentru nlimea copiilor prezentat n tabelul II.1. precizia msurtorii a fost de 1 cm i de aceea n figura II.1. s-a reprezentat distribuia conform acestei precizii). n biostatistic se recomand ca numrul de clase utilizat s nu fie prea mare, astfel nct fiecare clas s fie destul de reprezentat. Dac se noteaz cu X m i X M valorile extreme gsite (minim, respectiv maxim), si cu N numrul total de indivizi din eantion, atunci limea unei clase pentru histogram poate fi aproximat prin relaia:

39

Informatic Medical & Biostatistic

X M Xm 1 3,322 lg N

(II.2.3)

(Pentru datele din tabelul II.1 obinem h 2,8 3 cm deci reprezentarea recomandabil ar avea clasele de nlime ale copiilor de cte 3 cm: 124 -126, 127-129, 130-132, 133135, 136-138, 139-141, 142-144, 145-147, 148-150 n total 9 clase n loc de 25). D. Ali indicatori ai tendinei centrale Foarte rar este posibil a ntlni i ali indicatori ai tendinei centrale: - media geometric:
N 1/ N

Xg
i 1

Xi
N i 1

(II.2.4.a)

- media armonic:

N Xh

1 Xi

(II.2.4.b)

2.2. INDICATORI DE DISPERSIE Gradul de variabilitate al valorilor individuale ntr-o populaie, vizibil ntr-un eantion se exprim printr-un set de parametri statistici numii indicatori de dispersie. Exist mai multe posibiliti de a exprima acest grad de variabilitate: A. Domeniul de valori (amplitudinea; engl. range) Este un indicator simplu, furniznd doar informaii asupra ordinului de mrime al variabilitii. R = Xmax - Xmin (II.2.5.a)

unde Xmin i Xmax reprezint valoarea absolut minim, respectiv maxim ale variabilei analizate. Se folosete mai rar, de obicei n prezentarea prii introductive a studiului, limitele vrstelor subiecilor dintr-un lot sunt adesea prezentate n acest mod. B. Abatarea central. Eroarea medie absolut Definiie: Distana unei valori individuale fa de valoarea medie se numete abatere central:
i

Xi

Abaterile centrale pot fi pozitive sau negative. Ele au propietatea evident c:


i

40

D. Lungeanu, Gh.-I. Mihala

De aceea, pentru a caracteriza gradul de variabilitate, se folososesc valorile absolute ale abaterilor centrale. O mrime ce poate fi folosit ca msur a variabilitii este:
a

1 N

1 N

Xi

(II.2.5.c)

i se numete eroare medie absolut. C. Deviaia standard Amplitudinea, definit anterior, nu ne spune nimic cu privire la repartiia indivizilor ntre minim i maxim. Informaii mai complete primim dac urmrim i aceast repartiie. n figura II.1. am prezentat histograma nlimii pe un grup finit i destul de mic (cca 300), avnd o precizie oarecum redus de exprimare a variabilei (precizia de 1 cm). Ne putem imagina c, dac am efectua masurri cu precizie mult mai mare, pe un lot foarte numeros, am putea obine curba real de distribuie a nlimilor ntr -o populaie de copii de vrsta dat. S-a constatat c foarte multe mrimi observabile n natur se pot reprezenta print-o curb de distribuie simetric fa de valoarea medie, sub forma unui clopot, numit clopotul lui Gauss sau curba distribuiei normale (fig. II.4). Ecuaia curbei lui Gauss este:

f ( x) y

1 e 2

(x 2

)2
2

(II.2.6.a)

Observm c n ecuaie apar 2 parametri: i . . este indicatorul tendinei centrale, reprezint media i este valoarea n jurul creia curba este simetric; . este indicatorul de dispersie, se numete deviaie standard sau abatere standard i arat gradul de mprtiere a curbei n jurul mediei. Deviaia standard n curba lui Gauss permite urmrirea repartiiei valorilor individuale n jurul valorii medii conform fig. II.4.

Figura II.4. Distribuia normal

41

Informatic Medical & Biostatistic

Analiznd figura putem spune c valorile individuale X i se vor gsi n intervalele: n 68% din cazuri Xi ( , )

Xi Xi

( (

2 , 3 ,

2 3 )

n 95,4% din cazuri n 99,7% din cazuri se va folosi

(II.2.6.b) n cazul lucrului pe un eantion, n loc de media populaiei

media eantionului, X , iar n loc de deviaia standard a populaiei se va folosi deviaia standard a eantionului (abatere standard) care se calculeaz cu relaia:
2 i

(Xi n 1

X )2

(II.2.7.a)

n 1

Exemplu: n urma unui studiu pe un eantion format din n = 25 copii de 10 ani, n care am gsit nlimea medie

X = 137 cm i deviaia standard S = 5 cm putem afirma c cca 68% din copiii de 10 ani au nlimea cuprins ntre 132 cm ( X S) i 142 cm ( X S), cu alte cuvinte, probabilitatea ca nlimea unui copil s fie ntre 132 142 cm este 68%. n general, vom scrie astfel:

Xi

(X

S, X

S)

cu p = 68,3% cu p = 95,4% cu p = 99,7% (II.2.6.c)

Xi
Xi

(X
(X

2S , X
3S , X

2S )
3S )

Definiie: putem acum defini deviaia standard: S reprezint gradul de variaie a valorilor individuale n jurul mediei eantionului. Mrimea 1 (II.2.7.b) S2 ( Xi X )2 n 1 se numete dispersie, sau abatere patratic sau varian. Deseori se raporteaz indicatorul de dispersie la valoarea medie obinnd o nou mrime numit coeficient de variaie exprimat n procente prin: C.V. = 100*S/ X (II.2.7.c) Fiind o mrime relativ, se pot compara cu ajutorul ei serii avnd valori cu ordine de mrimi diferite. Pentru loturi foarte mari, n formulele (II.2.7.a) i (II.2.7.b) se folosete n n loc de n-1. D. Eroarea standard a mediei Scopul principal al unui studiu statistic este carcterizarea populaiei, nu a eantionului. Din exemplul folosit pn acum, am putea oare rspunde la ntrebarea Care este nlimea medie a copiilor de 10 ani din Timioara? Este mare tentaia de a rspunde: 137 cm (media eantionului). Nu se poate ns s nu ne dm seama c este 42

D. Lungeanu, Gh.-I. Mihala

foarte posibil ca, repetnd msurtorile, pe un alt eantion, s obinem alt valoare medie, de exemplu 135,8; pe un al treilea eantion 137,6 i aa mai departe. Este vreuna din aceste valori mai demn de ncredere dect celelalte? Nicidecum! Valoarea adevrat a mediei populaiei, , se poate obine experimental numai fcnd msurtori pe ntreaga populaie. Concluzia pare demoralizant la prima vedere. Totui, adesea nu este necesar cunoterea foarte exact a unui parametru, fiind suficient ncadrarea lui ntr-un interval suficient de ngust. S vedem care sunt cile pentru estimarea acestui interval. Presupunem c din populaia studiat facem msurtori pe toate eantioanele posibile de aceeai dimensiune n, obinnd mediile evident media populaiei: 1 T Xj T j1

X 1 , X 2 , ..., X j , ..., X T . Vom avea


(II.2.1.g)

Analiznd distribuia acestor medii ale eantioanelor vom observa (fig. II.5.a) c i ele se aranjeaz aproximativ dup o curb Gauss, (dac eantioanele sunt destul de mari, n 30) avnd fa de curba din fig. II.4. dou deosebiri: a. variaiile mediilor eantioanelor se ntind pe un interval mult mai ngust dect variaiile valorilor individuale; b. valoarea n jurul creia sunt simetrice variaiile este media populaiei.
60 50 40 30 20 10 0
Figura II.5. Distribuia mediilor eantioanelor

Distribuia mediilor eantioanelor este caracterizat prin parametrii populaiei i X eroarea standard a mediei dat de formula:
X

= media

/ N

(II.2.8.a)

unde N = volumul populaiei i = deviaia standard. S aplicm formula (II.2.8.a) care pentru exemplul nostru concret devine:

SX

S n

(II.2.8.b)

43

Informatic Medical & Biostatistic

pentru eantioane foarte mari, iar pentru eantioane mici folosim

SX

S n

N n N 1

(II.2.8.c)

unde n = mr. indivizi din eantion, N = volumul populaiei. Deci nlocuind datele din exemplu avem:

SX

5 / 25 1cm

Conform analizei schematizate n figura II.5.b putem afirma c 68% din mediile eantioanelor de cte 25 copii vor avea media cuprins n intervalul (137 - 1, 137 + 1) adic ntre 136 i 138 cm, sau n alte cuvinte, probabilitatea ca media unui eantion oarecare s fie cuprins ntre 136 - 138 cm este 68%; Evident, nu pretindem c tim cu exactitate media populaiei, , dar avem deja o localizare satisfctoare a sa, avnd posibilitatea de 68% de a fi ncadrat n intervalul 136 - 138 cm. Generaliznd, putem scrie: cu p = 68,3% ( X SX , X SX )

(X
(X

2S X , X
3S X , X

2S X )
3S X )

cu p = 95,4% cu p = 99,7%

(II.2.8.d)

Definiie: Eroarea standard a mediei: Sx reprezint gradul de variaie al mediilor eantioanelor n jurul mediei populaiei. Cu alte cuvinte, chiar dac printr-un studiu pe un eantion nu putem preciza cu exactitate parametrii caracteristici ai populaiei, putem totui s i localizm n anumite intervale, operaie care se numete estimare i care va fi analizat detaliat ulterior. S observm ns c avem o relaie de invers proporionalitate ntre posibilitatea ncadrrii ntr-un interval i limea intervalului: cu ct suntem mai siguri pe localizare, cu att intervalul este mai larg. De aceea trebuie s gsim un compromis ntre sigurana localizrii i limea intervalului. Experina arat c o localizare cu precizie de 95% este satisfctoare din ambele puncte de vedere i vom accepta aceast valoare pe tot parcursul cursului nostru. E. Indicatori de dispersie ai variabilelor ordinale Indicatorii de dispersie descrii anterior, deviaia standard i eroarea standard a mediei sunt folosii n special pentru variabilele cantitative propriu-zise. n cazul variabilelor ordinale, dei se poate folosi i deviaia standard (i eroarea standard a mediei), se recomand folosirea unor indicatori specifici. Pentru a nelege aceti indicatori de dispersie vom introduce mai nti ali parametri: a. Cuantile. Indicatorul tendinei centrale specifice variabilelor ordinale, mediana, era definit ca valoarea care mparte lotul n dou pri egale.

Figura II.6. Mediana, Cuartile, Decile pentru N=20

44

D. Lungeanu, Gh.-I. Mihala

Putem, prin analogie, defini diverse alte mrimi numite cuantile: ca fiind valorile care mpart lotul n n subclase echinumerice. Denumirile lor sunt prezentate n tabelul II.2.
Tabel II.2. Cuantile uzuale

Nr. clase 2 4 10 100 1000

Simbolul valorilor Me Q1, Q2, Q3, D1, D2, ..., D9 C1,C2,... C99 P4, M2, ...,M999

Denumire mediana cuartile decile centile promile

Observaii Q2 = Me D5 = Me C50=Me C10 = D1, etc. M10 = C1...

b. amplitudinea intercuatile (variaie intercuatile):

Qed

Q3 Q1 / 2

(II.2.5.b)

este o msur a variabilitii, valorile mai mari exprimnd o variabilitate mai mare c. coeficientul de variaie inter-cuartil:
C. Q. Qd Me Q3 Q3 Q1 Q1

(II.2.5.c)

joac rolul coeficientului de variaie dat de (II.2.7.c) i are valori ntre -1 i +1. F. Indicatori de dispersie ai variabilelor nominale Pentru variabilele nominale indicatorul preferat al tendinei centrale este moda; fiecare calsa i este caracterizat prin procentul din eantionul de volum n:

pi
unde

100.

ni n

(II.2.9.a)

ni este frecvena absolut a clase i.


Deviaia standard a procentului este dat de relaia:

Sp
unde:

pi . qi n

(II.2.9.b)

qi 100 pi

(II.2.9.c)

n cazul unei populaii finite de volum N

Sp

pi qi N * n N

n 1

(II.2.9.d)

45

Informatic Medical & Biostatistic

Pentru eantioane suficient de mari, procentul n eantion are distribuie normal i permite interpretri similare cu cele prezentate anterior.

2.3. MEDII DE PUTERI: MOMENTE. MOMENTE CENTRATE Abordarea teoretic a parametrilor statistici caracteristici unui set de valori permite generalizarea unor relaii. S ne oprim puin la definiia mediei aritmetice.

1 N

Xi

Aceast mrime se mai numete i moment de ordin 1, valorile individuale fiind ridicate la puterea 1 i apoi mediate. Prin generalizare numim moment de ordin r marimea:

Xi

1 Xr i N
2

(II.2.7.d)
3

Pentru r = 2, X este media ptratic, pentru r = 3, X este media cubic, pentru r = -1, X h este media armonic. Dac n locul valorilor individuale folosim abaterile centrale, momentele obinute se vor numi momente centrate, deci pentru momentul centrat de ordin r avem formula:

mcr

1 N

( Xi

X )r

(II.2.7.e)

Observm c pentru r = 1 avem

mc1

0, iar pentru r = 2 obinem m c 2

s2

(dispersia). Din cele relatate pn aici putem sesiza c momentele de ordin 1 dau informaii asupra indicatorilor tendinei centrale, iar cele de ordin 2, asupra indicatorilor de dispersie. Celelalte momente ne dau informaii utile; s le analizm pe scurt. 2.4. ASIMETRIA Momentele de ordin 3 dau informaii asupra simetriei distribuiei. a. Se definete un parametru numit indice de asimetrie (engl. skewness) prin relaia:

1 ( xi x ) 3 N Pentru mc 3 0 distribuia este simetric, mc 3 0 asimetrie la stnga mc 3 0 asimetrie la dreapta (fig. II.2) mc 3
Pentru aprecierea asimetriei s-au propus i alte relaii: b. Coeficientul de asimetrie Pearson:

(II.2.10.d)

(II.2.10.b)

M0 S
unde 46

(II.2.10.c)

X = valoarea medie

D. Lungeanu, Gh.-I. Mihala

M0 = moda s = deviaia standard Dup distribuia este simetric sau asimetric la stnga/dreapta la fel ca
dup

mc 3 . (fig. II.7.)
c. Coeficientul de asimetrie intercuantil:

( Q3 (Q3

Me ) ( Me Me ) ( Me

Q1 ) Q1 )

Q3

Q1 2 Me Q3 Q1

(II.2.10.d)

avnd valori ntre +1 i -1, cu 0 pentru distribuii simetrice. d. Coeficientul bazat pe momentele centrate:
2 mc 3 2 mc 2

(II.2.10.e)

cu interpretri similare cu indicele de asimetrie.

2.5. EXCESUL Excesul este un parametru ce d informaii asupra gradului de turtire/boltire (limba engleza kurtosis). Se calculeaz cu relaia:

mc 4 mc22
unde

(II.2.11.a)

mc4 este momentul centrat de ordin 4 dat de:

Figura II.5. Excesul (turtirea / boltirea)

mc4

1 N

(X

X )4

(II.2.11.b) 3) sau distribuii mai boltite (

Pentru distribuia normal = 3 Alte distribuii: distribuii mai turtite ( II.8).

3) - (fig.

47

Informatic Medical & Biostatistic

3. DISTRIBUII
Am utilizat frecvent termenul de distribuie fr s ne ocupm detaliat de el. ncercm n cele ce urmeaz s aducem cteva precizri. 3.1. FUNCIA DE DISTRIBUIE Definiie: Dac x este o variabil independent, reprezentnd valorile posibile ale unui parametru urmrit ntr-un studiu statistic atunci funcia y = f (x), cu y p( x x i ) i care ne arat probabilitatea de a ntlni valoarea x ntr -o populaie se numete funcie de distribuie. Observatii: uzual se folosete nu o funcie continu ci una discret, n care valoarea funciei reprezint probabilitatea de a ntlni mrimea studiat ntr -un interval (xi , xi+1 ) vom face distincie ntre distribuiile teoretice (n care calculm valorile funciei) i cele experimentale (n care valorile funciei au rezultat n urma unor msurtori).

3.2. FUNCII DE DISTRIBUIE UZUALE n cele ce urmeaz vom aminti doar trei funcii de distribuie mai des ntlnite: a. Distribuia uniform

f ( xi )

p(x

xi )

(II.3.1.b)

Experimental se obin diverse fluctuaii (fig. II.6.a) Exemplu: probabilitatea de a arunca cu zarul valorile 1-6 este 1/6 pentru fiecare aruncare. Dup 100 de aruncri obinem o situaie ca n fig. II.6.a. b. Distribuia normal descris de formula (II.2.6.a) avnd forma unui clopot. Reprezentarea n fig. II.6.b. c. Distribuia binomial (util n studiul variabilelor calitative) Exemplu: probabilitatea de a extrage o bil alb dintr -o urn cu N bile dintre care A bile albe i B bile negre (A+B=N) este: p = A / N. Dup extragere bila se introduce napoi n urn (Bernoulli). Dac din urn se scot n bile atunci numrul x de bile albe extrase are o repartiie binomial:

f ( x)

C nx

n x

x = 0,1, ....., n

(II.3.1.c)

48

D. Lungeanu, Gh.-I. Mihala

Figura II.6 Distribuii: a: uniform, b: normal, c: binomial

Funcia de repartiie Uneori, n loc de funcia de distribuie, care ne d probabilitatea p 1 ca variabil studiat x s aib o anumit valoare x1 (sau ncadrat ntr-un interval n jurul lui xi ), se folosete o alt funcie numit funcie de repartiie:

yr

p(x

xi )

(II.3.1.d)

Figura II.7. Funcia de repartiie pentru distribuia uniform (stanga) i normal (dreapta) funciile de repartiie sunt redate cu linie ntrerupt, iar cele de distribuie cu linie continu

n cazul funciilor experimentale discrete, funcia de repartiie ne d frecvenele cumulate pentru toate clasele inferioare. Pentru distribuiile uniform i normal, funciile de de repartiie sunt redate n figura II.7.

49

Informatic Medical & Biostatistic

Distribuia Gauss normalizat Funcia de distribuie normal (Gauss) dat de formula (II.2.6.a) este simetric fa de . Dac am face o schimbare de variabil y = x - ea ar deveni simetric fa de origine i ar mai depinde numai de un parametru: . Dac am mai face nc o schimbare de variabil, (practic alegnd uniti de msur convenabile), putem obine = 1, deci pentru

(II.3.1.e)

obinem curba de distribuia Gauss normalizat (media=0, deviaia standard = 1), sau distribuia Z:
1 (II.3.1.f) f (Z ) e 2 2 Deoarece funcia Gauss nu se poate integra, valorile funciei de repartiie pentru forma normalizat se gsesc n tabele n crile de statistic; de asemenea, programele de prelucrri statistice calculeaz aceste valori. n afar de distribuiile pomenite pn acum exist numeroase alte tipuri de distribuii pe care le ntlnim n cercetare i n practica biomedical.
Z2

4. ESTIMAREA STATISTIC
Am vzut n paragrafele precedente c studiul unei populaii se efectueaz practic pe o submulime a sa, pe un eantion, iar concluziile obinute pe un eantion le vom extinde - prin operaia de inferen statistic - la nivelul ntregii populaii. n timp ce concluziile noastre reprezint afirmaii adevrate efectiv doar pentru eantion, la nivelul populaiei ele au aceeai valoare de adevr numai cu o anumit probabilitate vom spune c estimm parametrii populaiei pornind de la valorile obinute pe eantion. Pentru a pstra rigurozitatea exprimrilor consacrate n acest domeniu, vom preciza civa termeni uzuali. 4.1. NOIUNEA DE ESTIMATOR a. Terminologie Mrimile caracteristice ale unei populaii se numesc parametri i au de obicei ca simboluri literele greceti. Exemple: media populaiei , deviaia standard a populaiei , eroarea standard a mediei x. Mrimile carcteristice ale unui eantion se numesc statistici sau indicatori i au de obicei simboluri litere latine. Exemple: media eantionului X , deviaia standard S, eroarea standard a mediei S x . ntr-un studiu noi nu cunoatem parametrii populaiei ci doar determinm statisticile eantionului, fiecare folosit pentru a aproxima cte un parametru al populaiei i numit estimator. De exemplu: Vom spune c media eantionului X este un estimator al mediei populaiei . Deseori estimatorii se noteaz cu simbolul : s s est ( ). x est sau x

50

D. Lungeanu, Gh.-I. Mihala

Valoarea pe care o are un estimator ntr-o determinare concret se numete estimaie. De exemplu n studiul asupra dezvoltrii copiilor, estimatorul pentru nlimea medie a copiilor de 10 ani era media nlimii copiilor din eantion iar determinarea concret avea estimaia 137 cm. b. Tipuri de estimri Conform definiiilor de mai sus un estimator aproximeaz n general valoarea unui parametru; n acest caz el se numete estimator punctual. Caracteristica esenial a unui estimator punctual este cea de a fi nedeplasat. Avnd n vedere faptul c prin inferen noi nu mai pstrm o ncredere deplin n estimrile punctuale, pentru exprimarea probabilist a ncrederii rmase prin inferen vom ncerca localizarea parametrului ntr -un interval; vom numi aceste aproximaii estimri prin intervale. Aceste estimri sunt cele mai uzuale, iar n cele ce urmeaz ne vom referi numai la ele. Lrgimea intervalului de ncredere n care vrem s localizm un parametru este dependent de probabilitatea ncrederii pe care o dorim i anume: cu ct probabilitatea de a localiza parametrul este mai mare, cu att intervalul de ncredere este mai larg, deci probabilitatea de a grei este mai mic. ns creterea nivelului de ncredere nu ne folosete prea mult dac intervalul devine att de larg nct nu ne mai furnizeaz informaii. Folosind exemplul discutat anterior observm c dac localizm media populaiei cu un nivel de ncredere de 68%, intervalul este ngust: (136,138); pentru 95% devine (135,139), la 99,7% este (134,140) .a.m.d. Este deci nevoie de a gsi un compromis, un nivel de ncredere care s ofere att o localizare satisfctoare ct i o probabilitate ridicat de a fi adevrat localizarea estimat, deci o probabilitate mic de a localiza greit parametrul. Practica a demonstrat c un nivel de ncr edere de 95% satisface optim cerinele n majoritatea cazurilor concrete. De aceea vom considera n continuare c nivelul de ncredere este de 95% (exceptnd cazurile n care vom meniona n mod expres c am ales alt valoare). Atragem ns atenia c aces t nivel este convenional. Probabilitatea de a localiza greit parametrul analizat se noteaz cu i se poate exprima nivelul de ncredere (n.i.) prin relaia: n.i. = 1(II.4.1) c. Principalele tipuri de estimri Dei ne-am oprit pn acum n exemplele discutate asupra estimrii mediei populaiei, n diferite studii ne putem concentra atenia asupra unei palete mai largi de parametri. n cadrul cursului ne vom opri la estimarea urmtorilor parametri: - media populaiei - n cazul eantioanelor mari / mici - diferene ntre medii - proporia unei / unor clase - diferene ntre proporii. 4.2. ESTIMAREA MEDIEI POPULAIEI A. Pentru eantioane mari (N 30) a. Distribuia mediilor eantioanelor n exemplul cu studiul dezvoltrii copiilor, n care am fcut referiri la nlimile copiilor dintr-un eantion, am afirmat c, dac reprezentm grafic mediile eantioanelor extrase din aceeai populaie obinem o distribuie normal numai pentru eantioane mari. 51

Informatic Medical & Biostatistic

b. Formule n acest caz, pentru

= 5% (n.i. = 95%) avem:

X 1,96 Sx ; X

1,96 Sx

(II.4.2.a)

Valoarea 1,96 reprezint valoarea funciei Z (distribuia Gauss normalizat) pentru a cuprinde n intervalul de mai sus 95% din arie (am vzut n cursul precedent c pentru Z = 2 cuprindeam 95,4% din aria de sub curb) (fig. II.10.).

Figura II.10. Relaia lui Z cu pragul de semnificaie

i cu nivelul de ncredere 1 -

Aceast valoare se mai noteaz Z 2 indicele avnd aici semnificaia c aria rmas neinclus este /2 = 2,5% (cte 2,5% n fiecare parte). Obs: n unele cri se noteaz Z1- /2 . Deci ntr-o form mai 52eneral putem scrie:

iar pentru Z

X Z
/2

/2

Sx ; X Z

/2

Sx

(II.4.2.b)

vom lua o valoare din tabelul II.3.


Tabel II.3. Valorile scorului Z al distribuiei normale

Nivel incredere (1 - ) Prag de semnificaie

0,68 0,34 1,00

0,90 0,10 1,65

0,95 0,05 1,96

0,98 0,02 2,33

0,99 0,01 2,58

/2

De obicei manualele conin anexe n care sunt prezentate diverse tabele.

52

D. Lungeanu, Gh.-I. Mihala

c. Exemplul II.2. Pe un eantion de 144 sportivi se gsete pentru VEMS (volumul expirator maxim n 1 secund) valoarea medie X = 4,84 i deviaia standard S = 0,36. S estimm n ce interval gsim media populaiei cu nivel de ncredere de 98%. Avem: S x S / N 0 ,36 / 144 0 ,03 l Pentru 1 = 98% gsim Z
/2

= 2,33, deci:

X X

(4,84 0,03 2,33 ; 4,84 0,03 2,33), (4,77 ; 4,91). 4,84 0,07 ; 4,84 0,07 , adic X

Cu alte cuvinte, avem ncredere de 98% c adevrata medie a VEMS pentru sportivi s fie ntre 4,77 i 4,91, ceea ce nseamn ca probabilitatea ca media VEMS la sportivi s fie n afara acestui interval este sub 2%. B. Pentru eantioane mici (N 30) a. Distribuia mediilor eantioanelor Dup cum am mai specificat anterior, distribuia mediilor eantioanelor poate fi considerat distribuie normal numai n cazul eantioanelor mari. n cazul eantioanelor mici (considerate convenional mici dac N 30), mediile eantioanelor au o distribuie t (sau distribuie normal, ns mai turtit - figura II.11); curba este cu att mai turtit (deci mai diferit de curba Gauss) cu ct eantionul este mai mic. b. Formule Curba de distribuie t depinde deci de mrimea eantionului care va fi caracterizat printr-un parametru, notat cu , numit numr de grade de libertate i dat de relaia: =N-1 (II.4.3) Lrgimea intervalului n care localizm media populaiei va fi dat de relaia: (II.4.4) ( X t / 2, v S X ; X t / 2, S X ) Relaia (II.4.4.) este foarte asemntoare cu (II.4.2.b)

Figura II.11. Distribuia t. Valorile lui t care las cte 2,5% arie n fiecare parte (deci n.i. = 95%) sunt cu att mai mari cu ct eantionul este mai mic

53

Informatic Medical & Biostatistic

Din tabelul II.4. se poate observa apropierea lui t de z pe msur ce crete dimensiunea eantionului.
Tabel II.4. Valorile lui t pentru cteva nivele de ncredere (1- ) i grade de libertate ( )

11 2 5 10 30

0.90 6,31 2,92 2,01 1,81 1,70 1,65

0.95 12,7 4,30 2,57 2,23 2,04 1,96

0.99 63,7 9,92 4,03 3,17 2,75 2,58

c. Exemplul II.3 Considerm din nou exemplul anterior, cu valoare medie a VEMS pe un lot de sportivi X 4 ,84 l i S =0,36 l, dar s presupunem acum c am efectuat determinrile pe un lot de numai N = 16 sportivi. S vedem n ce msur este influenat intervalul n care putem localiza media populaiei cu precizie de 98%. n primul rnd: Sx S / N 0,36 / 16 0,09. Apoi pentru 1- = 98% i =16-1=15 grade de libertate gsim n tabelul distribuiei t valoarea t
/ 2,

2,60 deci:

4,84 0,09 2,60 ; 4,84 0,09 2,60


(4,84 - 0,23 ; 4,84 +0, 23) (4,60 ; 5,08).

X X

Observm c pierderea de precizie n localizare este imens, intervalul fiind de peste 3 ori mai larg comparativ cu localizarea obinut pe un eantion mare. De aceea, dup cum vom vedea chiar n ncheierea acestui subiect, n biostatistic putem calcula o dimensiune minim a eantionilui pentru a putea obine localizri ale mrimilor estimate n intervale suficient de nguste i cu nivel de ncredere satisfctor de ridicat. 4.3. ESTIMAREA PROCENTELOR a. Distribuia procentului n eantion n cazul variabilelor calitative (nominale), indivizii dintr-un eantion sunt grupai n clase; distribuia de acest gen se numete distribuie binominal. n cazul unei populaii avem deci cte un procent real i pentru fiecare clas i: 1
1

2
2

... i ... k ... i ... k

(II.4.5)

La extragerea unui eantion din populaie vom obine procentele p1 , p2 ,...., pk , cu deviaiile standard ale procentelor date de relaia:

Sp
54

p(1 p) N

(II.4.6)

D. Lungeanu, Gh.-I. Mihala

Dac repetm extragerea eantionului, fiecare procent p i va prezenta variaii. Pentru eantioane mari procentele prezint o repartiie normal (pentru procente nici nu se poate lucra pe eantioane mici!). b. Formule Vom putea deci aplica scorul Z, la fel ca n cazul mediilor, deci:

i p

pi

/2

S pi ; pi

/2

S pi

(II.4.7)

c. Exemplul II.3 Dintr-un lot de 80 de indivizi, 24 au grupa sanguin A. Care este proporia real a grupei sanguine A n populaia studiat cu nivel de ncredere de 95%.

100 24 80

(20% ; 40%) (30 - 10, 30 + 10), adic p Cu alte cuvinte, din studiul efectuat putem face doar afirmaia c procentul de rspndire al grupei A este ntre 20% i 40%, cu nivel de ncredere de 95%. Dac aceeai proporie, de 30% o gseam pe un lot de 800 de indivizi (240 din (26,8%; 33,2%). 800), obineam S p 1.62% i p
4.4. ESTIMAREA DIFERENELOR n numeroase studii urmrim nu att valorile absolute ale unor parametri, care au mprtieri naturale destul de largi, ci n special variaiile mrimilor. Aceste variaii pot fi urmrite att pentru valorile propri-zise (medii ale eantioanelor), ct i pentru proporiile din eantioane ce aparin unei clase. A. Diferene ntre medii a. Pentru loturi diferite Exemplu II.4. care este diferena de nlime ntre bieii i fetele de 10 ani? Evident, rspunsul se d dup un studiu n care obinem, pe dou loturi, valori de genul:

p p

0.0512 80 (30 1.96*5.12; 30 + 1.96*5.12) sau

30% ; s p

0.3 0.7

5.12%

nB nF

25, X B 137,2 cm, S B 5,1 cm 25, X F 138,6 cm, S F 5,1 cm

Estimarea diferenei se face prin:

d XB

XB

XF

1,4 cm

(II.4.8.)

Intervalul de ncredere se apreciaz cu ajutorul deviaiei standard estimate prin diferene:

Sd

2 SB nB

2 SF nF

(II.4.9.)

pentru loturi mari ( n1,2

30) ncadrarea o vom face dup

55

Informatic Medical & Biostatistic

d x

x2

(d

/2

Sd ; d

/2

Sd )

(II.4.10.a)

pentru loturi mici ( n 1, 2

30)

d x1

x2

(d

/2 ,

Sd ; d

/2 ,

Sd )

(II.4.10.b)

b. Pentru serii perechi Vom considera n continuare un caz aparte, ntlnit destul de des. S ncepem cu un exemplu. Exemplul II.5. Un medicament antihipertensiv poate fi testat fie considernd dou loturi - unul tratat i unul martor - fie lucrnd pe un singur lot i facnd un set de msurtori ale tensiunii arteriale nainte de tratament, respectiv dup tratament. Este perferat ultima variant. n acest caz vom avea, pentru fiecare individ i din lot efectul exprimat sub form de diferen dintre dou valori: (II.4.11.) di X 2i X1i unde X2i este valoarea dup tratament iar X1i este valoarea nainte de tratament. Eroarea standard a diferenelor este dat de relaia:
2

Sd

di

(II.4.12.)

n ( n 1)

Estimarea diferenei pentru serii perechi va fi dat tot de relaiile (II.4.10.a) sau (II.4.10.b). B. Diferene ntre procente Asemntor cu raionamentele deja prezentate pn acum, putem ncadra i estimarea diferenei a dou procente: dp = p 2 - p1 (II.4.13.) Pentru eroarea standard a diferenei a dou procente folosim formula:

spd

p1 (1 p1 ) n1 1

p2 (1 p2 ) n2 1

(II.4.14.)

Intervalul de ncredere al estimrii va fi:

(d d p

/2

S pd ; d

/2

S pd )

(II.4.15.)

4.5. CALCULUL MRIMII EANTIONULUI Cea mai important consecin a studiilor privind ncadrarea unui parametru ntr un interval este calculul mrimii eantionului. Am vzut c lrgimea intervalului n care ncadrm estimaia depinde puternic de dimensiunea eantionului (n). Aceast dependen ne poate folosi la evaluarea mrimii eantionului astfel nct s obinem ncadrarea parametrului populaiei ntr -un interval rezonabil de ngust. Exemplul II.6. Dorim s determinm nlimea medie a copiilor de 10 ani cu precizie de 1 cm , avnd un nivel de ncredere de cel puin 95%. Ce dimensiune minim trebuie s aib eantionul?

56

D. Lungeanu, Gh.-I. Mihala

Conform relaiei (II.4.2.b) vom avea: Z / 2 Sx 1,96 Sx 1 cm, adic: Sx 1 / 1,96 0,5 cm. Pentru calculul lui n ar trebui cunoscut gradul de mprtiere a valorilor nlimii pentru populaie, exprimat prin deviaia standard a populaiei ; de obicei acest mrime nu este cunoscut i n locul ei se folosete o estimare a deviaiei standard S obinut ntr-un studiu pe un eantion. n cazul exemplului nostru, considernd c ntr-un studiu anterior s-a gsit S = 6 cm, din relaia (5.8.b) obinem: (II.4.16) n (S / Sx )2 n care nlocuind valorile din exemplu n = (6 / 0,5)2 = 144. Deseori nici s nu este cunoscut i atunci fie facem un studiu preliminar fie l aproximm pe s cu relaia: S = (Xmax - Xmin)/6 (II.4.17) n care Xmin i Xmax reprezint valorile extreme la care ne-am atepta, evaluate conform experienelor noastre anterioare.

5. TESTE STATISTICE
5.1. NOIUNI GENERALE A. Diferene semnificative i nesemnificative din punct de vedere statistic n exemplul nostru cu nlimea copiilor nu am fcut pn acum distincie ntre biei i fete. Un studiu asupra dezvoltarii copiilor ar trebui s in cont de evoluia hormonal diferit care va genera dezvoltarea somatic diferit. Vom dezvolta exemplul nostru astfel: Exemplul II.7. Pe un lot de 36 de biei de 10 ani obinem pentru nlime urmtoarele rezultate: n B 36 , x B 137cm, SB =12 cm, deci S B 2cm , iar pe un grup x F de 36 fete de aceeai vrst: nF = 36, X F 140cm, S F 12 cm, deci S X 2 cm. ntrebare: diferenele observate arat c fetele de 10 ani sunt mai nalte dect bieii sau pot s fie atribuite ntmplrii? S remarcm mai nti c diferenele observate n cursul unor studii pot fi clasificate n dou categorii: 1. - diferene ce pot fi atribuite ntmplrii (variabilitii de eantionare); acestea vor fi numite diferene nesemnificative 2. - diferene ce pot avea alte cauze numite diferene semnificative. S analizm datele de mai sus: pentru un nivel de ncredere de 95%, Z0,95 = 2,02 2 deci B (133,141), cu alte cuvinte avem probabilitatea de 95% ca media unui alt eantion, extras din aceeai populaie (de biei) s se gseasc n intervalul 133 - 141 cm. Faptul c pentru un eantion, cum ar fi grupul de fete, am gsit media 140 s-ar putea datora deci, n mare msur, ntmplrii. Accentum exprimarea n mare msur, fiindc aici apare un arbitrar; noi am apreciat intervalul (133; 141) considernd un nivel de ncredere convenional de 95%. Acceptnd aceast convenie ajungem la concluzia c, dac media nlimii fetelor este de 140, acest lucru nu ne ndreptete s afirmm c fetele sunt mai nalte fiindc sunt anse mari ca diferene de acest gen s apar din ntmplare. n schimb, dac obinem pentru fete nlimea medie X IF 142 cm, aceast valoare cdea n afara intervalului (133 ; 141); probabilitatea ca 57

Informatic Medical & Biostatistic

s obinem din ntmplare media unui eantion n afara acestui interval est e sub 5%; n acest caz noi vom considera c nu din ntmplare s-a obinut aceast valoare i c diferenele sunt semnificative (fig. II.12). S facem dou observaii importante: 1. - pragul de 5% pe care l-am folosit n exemplul nostru pentru a decide dac diferenele vor fi considerate semnificative sau nesemnificative este convenional; el se numete prag de semnificaie i este considerat 5% n majoritatea cazurilor; I 2. - concluziile au un caracter pur probabilist; dac obinem X F i spunem c fetele sunt mai nalte, s nu uitm c exist o anumit probabilitate, chiar dac este mic (sub 5%) ca s fi obinut asemenea valori din ntmplare, adic n realitate s nu avem diferene semnificative. De asemenea faptul c pentru cazul X F = 140 spunem c diferenele de nlime ntre biei i fete nu sunt semnificative din punct de vedere statistic nu nsemn c n realitate nu avem diferene semnificative - numai faptul c din msurtorile efectuate nu putem afirma c ar fi statistic semnificative. De aceea n analiza statistic pe care o efectum cnd aplicm testele statistice pornim cu formularea unei ipoteze, pe care o vom accepta sau respinge cu o anumit probabilitate. 5.2. IPOTEZE STATISTICE Testele statistice prin care se realizeaz o comparaie ncep cu enunarea unei ipoteze privind un rezultat posibil al compariei, numit ipotez statistic, pe care o putem defini astfel: Definiie: Ipoteza statistic este o propoziie coninnd o afirmaie sau negaie privind un parametru al unei populaii sau o lege de distribuie. Ipotezele au diferite variante de formulri, de aceea le vom defini la nceput n cazuri nu foarte generale.

Figura II.12. Ilustrarea diferenelor nesemnificative i semnificative din exemplul II.7

A. Ipoteza de zero Ipoteza de zero face ntodeauna afirmaia ca ntre elementele pe care le comparm nu exist diferene semnificative. 58

D. Lungeanu, Gh.-I. Mihala

Ipoteza de zero se noteaz prescurtat de obicei cu H0 i se mai numete ipotez de nul sau ipotez nul (impropriu). Exemplu: n cazul n care comparm nlimea medie a bieilor i fetelor, ipoteza de zero s-ar scrie: (II.5.1) H0 : X B X F Alte enunuri echivalente: - diferenele observate se datoresc numai ntmplrii - nu putem afirma c ntre cele dou valori (serii, distribuii) exist diferene semnificative. Prin ipoteza de zero putem compara: - o valoare medie (obinut pe un lot) cu valoare dat (numr) - dou valori medii (dou loturi) - cel mai adesea - o distribuie experimental cu una teoretic - dou distribuii experimentale - dou dispersii - mai multe valori medii - mai multe dispersii, etc., etc. B. Ipoteze alternative Propoziiile care sunt adevrate cnd/dac H0 nu este adevrat se numesc ipoteze alternative i se noteaz cu Ha sau H1. Ipotezele alternative se pot cel mai simplu exemplifica n cazul comparrii a dou valori medii X B ; X F . Vom putea avea situaiile: a.

XB

XF
XF
XF

(nlimea bieilor este diferit de a fetelor) (bieii sunt mai nali dect fetele) (fetele sunt mai nalte dect bieii).

b. X B c. X B ct i cnd X B

Ipoteza alternativ (a) se numete bilateral (este adevrat att cnd X B

XF

X F ), n timp ce variantele (b) i (c) se numesc unilaterale.

C. Prag de semnificaie Am vzut c pentru a putea stabili dac diferenele sunt semnificative sau nu, trebuie s ne alegem arbitrar un prag al probabilitii, numit prag de semnificaie, , cu ajutorul cruia stabilim limea intervalului n care considerm c avem fluctuaiile, datorate ntmplrii (atribuite variabilitii de eantionare); dac valo area de comparat va fi inclus n acest interval vom spune c diferenele sunt nesemnificative i vom accepta ipoteza de zero. De aceea acest interval se mai numete regiune de acceptare; limitele intervalului se numesc valori critice, iar regiunea exterioar se numete regiune de respingere sau regiune critic (fig. II.13). Pragul de semnificaie are o valoare arbitrar. Alegerea lui trebuie s satisfac dou condiii: - pe de o parte valoarea trebuie s fie suficient de mic pentru ca probabilitate a ca din ntmplare s obinem diferene la fel de mari s fie redus - pe de alt parte alegerea unei valori prea mici lrgete prea mult regiunea de acceptare, deci trebuie s fie suficient de mare pentru a menine intervalul destul de ngust. 59

Informatic Medical & Biostatistic

Convenional se accept c, n majoritatea studiilor n medicin i biologie, este satisfctoare valoarea = 0,05. D. Nivel de ncredere Valoarea 1 - se numete nivel de ncredere i se exprim de obicei n procente. Deci pentru valoarea uzual = 0.05 nivelul de ncredere este de 95%. Cu alte cuvinte, n acest caz avem o ncredere de 95% (probabilitate de 95%) ca decizia pe care o lum prin aplicarea testului s fie corect. 5.3. ETAPELE APLICRII TESTULUI STATISTIC Dup ce am definit principalele mrimi folosite pentru aplicarea unui test statistic putem sistematiza etapele de lucru: A. Definirea mrimilor de comparat - evident, trebuie precizat la nceputul studiului care vor fi mrimile asupra crora se ndreapt atenia i asupra crora se vor aplica testele. n funcie de acestea vom alege diferite tipuri de teste. B. Formularea ipotezei zero i a celei alternative - operaie primar, fiindc rezultatul testului (decizia) se exprim n funcie de H0: se accept sau se respinge. Dac nu se urmrete n mod special o ipotez alternativ H1B sau H1C, se accept ca ipotez alternativ cea bilateral H1A. C. Alegerea pragului de semnificaie al testului - n majoritatea cazurilor se ia = 0,05 care confer un nivel de ncredere de 95%.

Figura II.13. Regiunea de acceptare i H0 exprimat cu valori absolute ale seriilor i diferenelor i cu valori relative, pe scara normalizat fa de S . n aceste exemple s-a
X

utilizat pragul de semnificaie

= 0,05.

D. Alegerea testului - este etapa esenial creia i vom dedica un paragraf separat; n funcie de tipul de variabile i modul de distribuie al valorilor se alege testul cel mai potrivit n funcie de care se efectueaz calculele (etapele E i F). E. Calculul valorilor critice (de obicei cele relative) i stabilirea regiunilor de acceptare / respingere a ipotezei zero. F. Calculul coeficientului p care reprezint probabilitatea ca: - ipoteza de zero s fie adevrat, sau - diferenele sa fie nesemnificative, sau - s ne ncadrm n regiunea de acceptare. 60

D. Lungeanu, Gh.-I. Mihala

Etapele E si F nu sunt distincte din punct de vedere al calculelor. G. Formularea deciziei - etap final, n funcie de p: - dac p acceptm H0 i spunem c diferenele sunt nesemnificative - dac p respingem H0 i spunem c diferenele sunt semnificative. Pentru 0,05 regiunea de respingere sew mparte la rndul ei n 3 subregiuni n care se ncearc o gradare a diferenelor semnificative (fig. II.14). n toate cazurile n care diferenele sunt semnificative ipoteza de zero H0 se respinge. Observaie: Statistic semnificativ nu nseamn i important din punct de vedere bio medical.

Figura II.14. Formularea deciziei unui test statistic n funcie de valoarea lui p

5.4. ERORI Este foarte important sa nu pierdem din vedere faptul c decizia unui test statistic are caracter probabilistic. Deci faptul c n cazul X B 137cm i X F 140cm am obinut p 0,05 i am acceptat H0 afirmnd c diferenele sunt nesemnificative nu nseamn c n realitate nu avem diferene de nlime ntre biei i fete la 10 ani ci doar faptul c, din studiul efectuat de noi, probabilitatea ca fetele i bieii s aib aceeai nlime este mai mare dect 5%, ceea ce nu ne permite s afirmm c diferenele sunt semnificative i deci le-am putea atribui ntmplrii (variabilitii de eantionare). S-ar putea ca n realitate diferenele s fie semnificative dar din diverse motive (fie pur ntmplare, fie loturi prea mici - din care cauz se obine o valoare mare pentru SX ) aceste diferene n-au fost sesizate ca atare. Exist deci riscul de a avea erori n decizia noastr. Erorile statistice posibile se mpart n dou clase: a. erori de tip I : cnd respingeam H0 dei este adevrat b. erori de tip II: cnd acceptm H0 dei este fals. Probabilitatea erorii de tip I se noteaz cu (este de fapt chiar legat de pragul de semnificaie), iar cea a erorii de tip II cu . Situaiile posibile de decizie sunt sintetizate n tabelul II.5.1.

61

Informatic Medical & Biostatistic

Tabelul II.5. Situaii posible n decizia testelor statistice

DECIZIE

Acceptm H0 Respingem H0

SITUAIA H0 = Adevrat Corect p=1Eroare tip I p=

REAL H0 = Fals Eroare tip II p= Corect p=1-

Observaie: Denumirea de erori de tip I i II este din ce n ce mai des ntocmit cu cea de risc de (eroare de) tip I sau II; valorile i arat doar probabilitatea de a le comite. 5.5. CARACTERISTICILE TESTELOR STATISTICE A. Nivelul de ncredere Definiie: Mrimea 1- se numete nivel de ncredere sau nivel de confiden (uneori simplu ncrederea sau confidena) testului; reprezint pragul de semnificaie, sau probabilitatea erorii de tip I i reprezint capacitatea de a accepta o ipotez cnd aceasta este adevrat. B. Puterea testului Definiie: Mrimea 1 - se numete puterea testului, unde reprezint probabilitatea erorii de tip II i reprezint capacitatea de a respinge o ipotez cnd aceasta este fals. Cele dou caracteristici, nivelul de ncredere i puterea testului se afl n relaie de invers proporionalitate. ntr-adevr, dac am dori s cretem nivelul de ncredere al testului, 1 - , ar trebui micorat pragul , de exemplu de la 5% la 1%, n acest caz intervalul n care vom ncadra media unui eantion extras din aceeai populaie va fi mai larg (Z0,99 2,33 fa de Z0,95 1,96) deci suntem mai ncreztori c, dac este adevrat c cele dou medii nu sunt semnificativ diferite (chiar dac din ntmplare a aprut o diferen puin mai mare), acesta nu va afecta decizia. Deci scade probabilitatea erorii de tip I.

Figura II.15. Ilustrarea caracteristicilor unui test. n acest exemplu, valorile medii pentru populaii sunt B =137 cm, F =142 cm. Lund referin lotul de biei, pentru = 5% intevalul de acceptare este (133,141). Fa de limita 141 avem probabilitatea de cca 30% de a gsi

XF

141 dar i p

2,5% pentru a gsi

XB

141.

62

D. Lungeanu, Gh.-I. Mihala

n schimb, dac n realitate diferenele sunt statistic semnificative, aceast lrgire a intervalului ne poate conduce la concluzia fals c diferenele sunt nesemnificative, n timp ce ele n realitate sunt! Deci crete probabilitatea erorii de tip II. Relaia ntre nivelul de ncredere i puterea testului poate fi ilustrat ca n figura II.15; construit pe baza datelor din exemplul folosit anterior. 5.6. TESTE PARAMETRICE I NEPARAMETRICE Stabilirea regiunii de acceptare este evident dependent de tipul de distribuie a valorilor (n exemplele discutate pn acum s-a considerat ca ndeplinit distribuia normal). ns exist situaii n care nu cunoatem tipul de distribuie, astfel nct nu mai putem calcula att de simplu regiunea de acceptare. n funcie de acest aspect putem mpri testele n dou categorii: a. teste parametrice - n care distribuia este cunoscut (cel mai adesea se consider doar distribuia normal, pentru care se pot aplica aceste teste), b. teste neparametrice - n care se consider necunoscut distribuia; testele neparametrice sunt mai generale; dac distribuia este n realitate o distribuie normal testele neparametrice dau - n majoritatea cazurilor - rezultate asemntoare cu cele parametrice; de aceea, n ultimul timp, ele se folosesc din ce n ce mai mult. 5.7. CLASIFICAREA TESTELOR STATISTICE n funcie de mrimile comparate putem distinge mai multe clase de teste statistice: A. Teste de semnificaie - prin care se verific egalitatea unui parametru estimat (medie, procent, etc.) cu o valoare dat. B. Teste de omogenitate - prin care se compar doi parametri (medii, procente, dispersii etc.). Observaie: n unele manuale sunt considerate teste de omogenitate numai cele de comparaie a parametrilor de dispersie (deviaii standard etc.), iar pentru compararea a dou medii sau proporii se utilizeaz termenul de teste de semnificaie. C. Teste de concordan - prin care se compar o distribuie experimental cu una teoretic sau se compar dou distribuii experimentale. D. Teste de independen - prin care se verific independena unor serii de valori experimentale (n special pentru tabele de contingen). E. Teste pentru corelaii - prin care se evalueaz semnificaia parametrilor estimai n analiza corelaiei. Observaie: Unii autori includ aceste teste n categoria testelor de semnificaie. Din punct de vedere teoretic se pot compara statistic i alte elemente, specifice unui anumit domeniu (ex.: n analiza semnalelor biologice) pe care le vom prezenta n contextul corespunztor. 5.8. TESTE UZUALE N BIOSTATISTIC n paragraful care urmeaz vom descrie cele mai importante teste folosite n biostatistic pe care le vom prezenta pornind de la mrimile care se compar. A. Se compar o valoare medie cu o valoare dat . Ipoteza de zero: X = X0 . Test aplicat: a. testul Z - dac n 30 b. testul t - dac n 30 63

Informatic Medical & Biostatistic

Observaie: Denumirea de testul Z nu este folosit prea des deoarece distribuia normal Z este un caz limit al distribuiei t, cnd numrul gradelor de libertate este foarte mare. Denumirea uzual pentru testul aplicat n aceste condiii va fi testul t pentru o serie Observaie: dac m (eroarea standard a populaiei) este cunoscut, se folosete ea n calculul intervalului de acceptare (vezi formula 4.2.b. sau 4.4); dac nu este cunoscut, se folosete estimatorul ei, SX (formula 5.8.b). Exemplu II.8 ntr-un raport se susine c nlimea medie a copiilor de 10 ani este 139 cm. Acceptm aceast afirmaie? Rezolvare: lum un lot avnd n = 36 copii pe care obinem X = 137,3 cm , S = 9 cm. . Ipoteza de zero: H0 : 137,3 = 139 cm . Alegem pragul de semnificaie = 5%; atunci Z = 1,96 2 . Pentru lotul nostru

SX

9 / 36

= 1,5 cm

. Intervalul de acceptare este: - n valori absolute : (137,3 - 1,96 . 1,5; 137,3 + 1,96 . 1,5) adic (137,3 - 3; 137,3 + 3), sau (134,3 - 140,3); valoarea X0 = 139 se gsete n acest interval, deci acceptm H0 i spunem c diferenele observate (ntre media experimental 137,3 i valoarea ipotetic 139) sunt nesemnificative i se datoresc ntmplrii. - n valori absolute ale diferenelor: D X 0 X 139-137,3 = 1,7 cm intervalul fiind (-1,96*1,5 ; +1,96*1,5) adic (-3, +3) Valoarea 1,7 este n acest interval, deci acceptm H0. - n valori relative:

D / SX = 1,7 / 1,5 1,13

intervalul fiind (-1,96; +1,96) Valoarea 1,13 fiind n acest interval, acceptm H0 . B. Se compar dou valori medii X2 . Ipoteza de zero: H0: X 1

S2 ; se poate N1 N 2 . Condiii: S1 . Grade de libertate: = N1 + N2 - 2 . Test aplicat: a) Parametric: testul t nepereche (testul Student) b) Neparametric: testul Mann - Whitney n continuare prezentm dou variante de raionament:
Varianta I Exemplu II.9. Se analizeaz capacitatea vital a unui grup de sportivi comparativ cu un grup de control, obinnd: . lot sportivi: N1 = 36, X 1 = 5,39 l , S1 0,60 l

N 2 50, X 2 = 4,83 l, S2 = 0,70 l Ipoteza de zero: H0 : 5,39 ( 0,6) = 4,83( 0,7)


. lot martor: Alegem pragul de semnificaie: 64 = 5%.

D. Lungeanu, Gh.-I. Mihala

Numrul gradelor de libertate: = 36 + 50 - 2 = 84 Din tabelul cu valorile distribuiei t, observam ca pentru valori ntre 60 i 120 grade de libertate, coeficientul de ncredere va fi acelai. Deci, pentru un test bilateral (two-tailed), gsim t 0,975;60 2.00 . Fiind o valoare din tabel, o vom nota n continuare cu indicele t deci t t = 2.00. Calculm eroarea standard pentru diferene:

Sd
Sd

S12 n1
0.36 36

2 S2 n2

(II.5.2)
0.02 0,14

0.49 50

Deci intervalul de acceptare a diferenelor este:

d
d

( tt Sd , tt Sd ) , adic:
2 0.14 ; 2 * 0.14 sau d

(II.5.3.)

0.28 ; 0.28

Diferena obinut este: (II.5.4.) d X1 X 2 =0.56 deci este situat n afara regiunii de acceptare i noi vom respinge H0, considernd adevrata ipotez alternativ i vom spune c diferenele sunt semnificative. Pentru a vedea eventual i ct de semnificative sunt aceste diferene, putem calcula regiunile de acceptare pentru: . foarte semnificative: tt t0,99:60 2,66; d ( 0,37; 0,37) . extrem de semnificative:

tt

t0,999:60

3,37; d

( 0,47; 0,47 )

Observm c diferena real d 0,56 este n afara att a intervalului de acceptare pentru probabilitile de 1% ct i 0,1% deci vom considera c diferenele sunt extrem de semnificative, probabilitatea ca din ntmplare s obinem din aceeai populaie dou loturi att de diferite fiind sub 0,1%. Varianta II Raionamentul expus mai sus este uor de neles, fiind calculate intervalele de acceptare pentru 3 probabiliti: 5%, 1% i 0,1% i urmrind ncadrarea diferenei reale. n pachetele software de prelucrari statistice se procedeaz invers: se calculeaz direct probabilitatea de a obine asemenea diferene din ntamplare. Se calculeaz mai nti valoarea lui t care corespunde diferenei reale:

tc
adic:

d Sd

X1 Sd

X2

(II.5.5.)

0,56 4.00 0,14 Din tabelul valorilor distribuiei t, pentru 60 grade libertate (urmrim linia lui 60), vedem c tc t0,999; 60 ; programele statistice ne dau valoarea pentru care: tc
65

Informatic Medical & Biostatistic

tc

t p,

(II.5.6.)

i afieaz valoarea lui p, pe care o vom interpreta conform fig.II.14. n exemplul nostru obinem p = 0,00087, deci avnd p 0,001 vom spune c diferenele sunt extrem de semnificative. Testul Mann-Whitney este echivalentul neparametric al testului t nepereche. Ca raionament este similar cu testul Wilcoxon i va fi exemplificat acolo. Pentru loturi mai mari, rezultatul obinut este acelai ca n cazul aplicrii testului t. Pachetele software de prelucrari statistice dau valoarea lui p (adic probabilitatea ca diferenele observate n eantionul de valori s fi aprut din ntamplare, n condiiile n care indivizii observai ar face pate dintr-o aceeai populaie statistic). Interpretarea o facem tot conform fig. II.14. C. Se compar dou valori medii, din dou serii obinute pe aceiai indivizi, n dou condiii diferite . Ipoteza zero: H0: X 1 X 2 . Condiii: valori perechi - Xi1 , Xi2 reprezint valorile obinute pe individul i n condiiile 1 respectiv 2. ntotdeauna: N1 = N2 = N Grade de libertate: = N - 1 . Test aplicat: testul t pereche Observaii: testul t pereche este de fapt un test t pentru o serie aplicat diferenelor; acest lucru este vizibil dac sistematizm datele conform tabelului II .6.
Tabel II.6. Prezentarea datelor pentru testul t pereche

Individ

Valori experimentale Condiia 1 Condiia 2 X11 X 21 X i1 XN1 X 12 X 22 Xi2 XN2

Diferene Di = X2i - X1i D1 D2 Di DN D

1 2 i N Medii

X1

X2

Valorile di pot fi pozitive sau negative; dac ntre cele dou serii nu sunt diferene vom avea D = 0. Ipoteza de zero de mai poate deci scrie: H0 : D = 0 Exemplu II.10. Dorim s studiem efectul unui medicament asupra frecvenei cardiace. Pe un lot de N = 9 indivizi obinem valorile din tabelul II.7 Efectund calculele, obinem: D 4 , S = 4,5 , Sx 1,5 Pentru = 8 i = 5%,

tt

2,3 deci regiunea de acceptare va fi:

(- tt Sd , tt Sd ) = (-2,3 . 1,5 , + 2,3 . 1,5) = (-3,45, + 3.45)

66

D. Lungeanu, Gh.-I. Mihala

deci valoarea obinut D de gsete nafara intervalului de acceptare i vom spune c diferenele sunt semnificative, probabilitatea ca din ntmplare s obinem diferenele din tabelul II.53. fiind sub 5%.
Tabel II.7. Frecvena cardiac nainte i dup tratament

Subiect 1 2 3 4 5 6 7 8 9

FC nainte 63 67 79 67 68 72 73 69 70

FC dup 73 67 76 75 70 71 80 76 75

Diferena +10 0 -3 8 2 -1 7 7 5

Introducnd datele din tabelul II.53. ntr-un program de calculator obinem p = 0,042, adic p 0,05 , deci cu aceeai interpretare. D. Se compar dou mediane sau dou serii ordinale. . Ipoteza de zero se va referi la mediana ca indicator al tendinei centrale. . Test aplicat: testul Wilcoxon - aplicat n dou versiuni: - pentru serii independente : testul suma rangurilor (rank-sum test) - pentru serii perechi: testul semnul rangurilor (signed-rank test) a.) Testul suma rangurilor . Condiii: variabile ordinale (ranguri) sau variabile numerice aduse sub form de ranguri (n acest situaie el este identic cu testul neparametric Mann - Whitney) . Grade de libertate: valorile din tabel sunt dependente de ambele dimensiuni N1 i N 2 ; de aceea de accept s se ia convenional cea mai mic serie ca prima (

N1

N2 )

. Fundamentare teoretic: Fie dou serii de valori ale unei variabile ordinale, obinut pe dou loturi 1 i 2 pe care le ordonm astfel: X 2 ..... X i ..... X N 1 - seria 1, cu N1 indivizi: X1 - seria 2, cu

N 2 indivizi: Y1

Y2 ..... Yj ..... YN 2

Seriile 1 i 2 le lum astfel nct N1 N 2 . Se alctuiete lotul compus din amestecarea celor dou loturi, avnd N = N1 + N2 indivizi i se ordoneaz nct: Z1 Z2 ..... Zk ..... Z N , unde Z este o valoare X sau Y. Acestui ir i se asociaz un ir de ranguri rk cu valori ntre 1 i N; dac dou sau mai multe valori succesive n irul Z sunt egale (de exemplu Z 2 Z 3 Z 4 ), acestor ranguri li se asociaz o valoare intermediar calculat ca medie ntre rangul maxim i cel minim din acel grup de ranguri (n exemplul nostru r2 r3 r4 3. ) S notm deci rangurile cu: r1 r2 .... rk .... rN i notm suma rangurilor ce corespund valorilor din primul lot cu R1 , respectiv din al doilea lot cu R2 . Pentru aplicarea testului se calculeaz dou statistici: 67

Informatic Medical & Biostatistic

U1 U2
i se ia

N1 N 2 N1 N 2

N1 ( N1 1) / 2 R1 N 2 ( N 2 1) / 2 R2

(II.5.7.a) (II.5.7.b)

U = min ( U1 ,U 2 ) . Dac N1 i N2 sunt mari ( normal cu media:


U

(II.5.7.c) 10), statistica U are o distribuie aproximativ (II.5.8)

N1 N 2 / 2
N1N2 (N1 N2 1) / 12

i deviaia standard:
u

(II.5.9.a)

Pentru eantioane mai mici s-au realizat tabele speciale pentru testul Wilcoxon rank-sum ce conin probabilitatea de a obine valori U n anumite inervale. Cel mai des, din tabele se apreciaz intervalul ce cuprinde regiunea de acceptare a ipotezei de zero cu o anumit probabilitate, adic regiunea de ncadrare a valorii R1 care are o repartiie cu media:

R1

N1 ( N1 N 2 1) / 2

(II.5.10)

i deviaia standard

SU

N1 N 2 ( N1 N 2 1) / 12

(II.5.9.b)

Pentru un test bilateral cu = 5%, se caut n tabele valorile pentru R1 (0,025) i R2 (0,975). Pachetele software de prelucrri statistice ne dau direct valoarea probabilitii p interpretabil conform fig. II.14. Exemplu II.11. Se analizeaz aprecierea subiectiv a gradului de adaptare la efort al unui lot de sportivi comparativ cu un lot martor. Pentru aprecierea adaptrii se folosete scara Borg a senzaiei subiective de efort, care asociaz valori de la 0 la 20, aproximativ dup tabelul II.54.
Tabelul II.8. Scara Borg a senzaiei subiective la efort (sumar)

Valoare 0 5 10 15 20

Aprecierea efortului Extrem de uor Relativ uor Mediu Destul de greu Epuizant

Ambele loturi sunt supuse la un efort standard: 5 minute, 45 W efort triunghiular, pe bicicleta ergometric. Un model de rezultate este prezentat n tabelul II.9.

68

D. Lungeanu, Gh.-I. Mihala

Tabelul II.9. Senzaia subiectiv la efort standard pe dou loturi: lot 1 - sportivi (N1=6), lot 2 - martor (N2 =8); valorile sunt ordonate cresctor pentru fiecare lot

Valori Sportivi 2 5 5 6 8 10

Martor 6 6 9 11 11 12 14 15

Ranguri Sportivi 1 2,5 2,5 5 7 9

R1 =27 U1 = 6 8 + 6 7 / 2 - 27 = 42 U2 = 6 8 + 8 9 / 2 - 78 = 6 U =6 24 u 2 60 u Sirul global Nr. crt. Ranguri Lotul 2 5 5 6 1 2 3 4 1 2.5 2.5 5 1 1 1 (1) 6 5 5 (2) 6 6 5 (2)

Martor 5 5 8 10,5 10,5 12 13 14 R2 =78

8 9 10 7 8 9 7 8 9 1 2 1

11 10 10.5 2

11 12 11 12 10.5 12 2 2

14 15 13 14 13 14 2 2

Deoarece n cele dou loturi sunt prea puine valori pentru ca statistica U calculat s urmeze o distribuie normal, vom determina nivelul de semnificaie utiliznd tabelele speciale pentru eantioane mici. Din tabelul pentru testul U se obine, pentru un test bilateral, cu prag de semnificaie =5% ( /2 = 0,025 i 1- /2 = 0,975), intervalul de acceptare pentru R1: (29,61); observm c valoarea noastr R1 = 27 este n afara intervalului de acceptare a ipotezei zero, deci o respingem i vom considera c sportivii apreciaz acelai efort ca fiind mai uor. b.) Testul semnul rangurilor . Condiii: serii perechi de variabile ordinale (ranguri) sau variabile numerice aduse sub form de ranguri (echivalentul neparametric pentru testul t pereche). . Grade de libertate: N1 N 2 N ; . Fundamentare teoretic: Fie dou serii de valori ale unei variabile ordinale, obinute pe un lot, de volum N, n dou condiii, 1 i 2. Pentru fiecare individ i obinem diferena Di X 2i X 1i , care poate fi pozitiv sau negativ. Se ignor diferenele nule. ntr-o prim faz neglijm semnele i ordonm cresctor valorile absolute ale diferenelor; apoi le acordm ranguri, ca n exemplul anterior. Reintroducem acum pentru ranguri semnele pe care le-am avut la diferenele Di i calculm separat dou

69

Informatic Medical & Biostatistic

totaluri: R (+) este suma rangurilor pozitive i R(-) este suma rangurilor negative. Calculm acum statistica testului: R =R(+) (II.5.11) N N 1 1 (II.5.11) T R N N 1 2 N 1 / 24 4 2 N reprezint numarul diferenelor Di care nu sunt zero. Pentru eantioane mari (N 16) statistica T are o repartiie normal, cu media: (II.5.12) N ( N 1) / 4 T i deviaia standard (II.5.13) N ( N 1)(2 N 1) / 24 T Se caut din tabel valoarea T0.025;10 = Ttab pentru a accepta H0 Pentru situaii n care statistica T nu urmeaz o distribuie normal (numrul diferenelor Di care nu sunt zero N < 16), exist tabele speciale care prezint pentru testul Wilcoxon signed-rank. Se poate astfel evalua intervalul de acceptare a ipotezei zero, pentru testele bilaterale respectiv limitele critice pentru testele unilaterale. Pachetele software de prelucrri statistice ne dau valoarea probabilitii p de acceptare a ipotezei zero, interpretabil conform fig. II.14. Exemplu II.12. Aprecierea cunotinelor (aptitudinilor) prin note reprezint variabile ordinale. Analizm eficiena unui curs dup punctajul obinut la un test de cunotine aplicat att nainte ct i dup un curs auxiliar pe acelai grup de studeni. Rezultatul la un astfel de chestionar se exprima printr-un punctaj cu valori ntre 0 i 40. n tabelul II.10 sunt prezentate rezultatele obinute pe un lot de 10 studeni.
Tabelul II.10. Rezultatele la testul de biostatistic obinute pe un lot de 10 studeni, nainte i dup ce au urmat un curs auxiliar de teoria probabilitilor

Student 1 2 3 4 5 6 7 8 9 10

nainte 35 26 36 30 38 29 21 27 31 35

Dup 38 30 36 35 40 28 25 24 30 36

Diferena +3 +4 0 +5 +2 -1 +4 -3 -1 +1

Rang +5,5 +7,5 +9 +4 -2 +7,5 -5,5 -2 +2

La stabilirea rangurilor se ignora diferenele cu valoare 0. ir diferene absolute 0 1 1 1 2 3 3 4 4 Nr. crt. 1 2 3 4 5 6 7 8 Rang 2 2 2 4 5,5 5,5 7,5 7,5 R(+)=35.5 R(-)=9.5

5 9 9

70

D. Lungeanu, Gh.-I. Mihala

n acest exemplu nu vom putea utiliza distribuia normal (sunt prea putine valori), ci tabelul special pentru testul Wilcoxon signed-rank. Putem alege un test unilateral, adic ipoteza de zero s fie H 0 : 0 (n cuvinte: cursul nu a determinat mbuntirea semnificativ a rezultatelor la test), avnd ca alternativ, n cazul respingerii H0 ipoteza H 1 : 0 (adic rezultatele dup cursul auxiliar sunt semnificativ mai bune). Din tabel, pentru = 0,05 i N = 9 obinem valoarea critic Rtab = 40. Pentru statistica T decizia se ia dup regula: Dac R calc R tab , atunci respingem H0. n cazul nostru concret nu vom putea respinge ipoteza de zero. Deci, n ciuda aparenelor (la 6 din cei 10 nota a crescut i a sczut numai la 3, iar creterile sunt mai mari dect scderile), nu putem afirma c diferenele sunt semnificative (probabilitatea s obinem diferene de acest gen din ntmplare este destul de mare, peste 5%). Acceptarea ipotezei de zero n acest caz nu nseamn neaprat cursul auxiliar nu a determinat creteri semnificative ale rezultatelor ci doar c din analiza rezultatel or a 10 studeni nu putem afirma existena unei creteri semnificative a rezultatelor la testul de cunotine. Deseori, n asemenea situaii, cnd rezultatul unui test statistic este la limit, este bine s se extind studiul pe un lot mai mare pentru a se putea atinge semnificaia statistic. Observaie: Rezultatele obinute ar fi asemntoare i dac variabilele ar fi fost considerate numerice n loc de ordinale i am fi aplicat testul t pereche pentru diferene avnd valoarea D 1.4 i S d 0.83 pentru (N = 10); concluziile ar fi i n acest caz la fel ca cele obinute cu testul Wilcoxon. E. Se compar n valori medii .... X n . Ipoteza de zero: H 0 : X 1 X 2 (II.5.14.) . Test aplicat: ANOVA (ANalysis Of VAriance). Testele de tip ANOVA formeaz o ntreag clas ce face obiectul de studiu al unui ntreg capitol al (bio) statisticii numit analiza varianei. Elementul central n analiza varianei este mprirea varianei valorilor individuale (formula 5. 7.b) n funcie de originea posibil (sursele) variaiei. Analiza varianei se aplic pentru testarea egalitii a n valori medii n dou variante principale: Analiza unifactorial (one-way analysis) - pentru a compara n serii independente, obinute pe loturi diferite. Analiza bifactorial (two-way analysis) - pentru a compara n serii dependente, obinute pe acelai lot, n n condiii. a) Analiza unifactorial . Tipuri de analiz unifactorial: i0 - parametric: testul t nepereche generalizat pentru n serii i00 - neparametric: testul Kruskal - Wallis . Fundamentare teoretic: Fie n serii experimentale obinute pe loturi independente, un lot j avnd Nj indivizi. Fiecare lot corespunde unei condiii pe care o vom numi tratament; avem deci n tratamente; pentru tratamentul j analizm lotul corespunztor.

71

Informatic Medical & Biostatistic

Xj1 , Xj2 , .....Xji , ...., XjNi , avnd:


Nj

media variana

Xj

(
i

X ji ) / N j

(II.5.15) (II.5.16)
Nj

S j2

SS j / ( N j 1)
(X j
i

suma ptratelor abaterilor: SS j

X ji ) 2 ; (SS = sum of squares).

Dac amestecm loturile obinem un grup mare avnd n total N indivizi, ale cror valori le notm acum cu X i :
n

N
j
N

Nj
n

(II.5.17)

Pentru acest lot global avem o medie general:

X
i 1

Xi / N
j

NjX j /n

(II.5.18)

i suma total a ptratelor (TSS = total sum of squares):


N

TSS
i 1

(X

X i )2

(II.5.19) Esena n testele ANOVA este a diviza aceast varian total TSS (exprimat de fapt aici prin suma total a abaterilor tuturor valorilor individuale X i fa de media global

X ) n variana datorat variaiilor valorilor individuale X ji din fiecare grup j fa de


media grupului X j , numit variana rezidual (RSS) i variana datorit tratamentelor (treatment variance). TSS =RSS + TrSS Suma ptratelor abaterilor pentru variana rezidual este:
n n Nj

(II.5.20)

RSS
j

SS j
j

(
i

(X j

X ji ) 2 )

(II.5.21) Pentru cele n serii (tratamente), cuprinznd un total de N indivizi , toate cele N valori sunt independente deci numrul gradelor de libertate (d.f. = degrees of freedom) pentru TSS este N. Numrul gradelor de libertate pentru tratamente este :

dfTr

n 1

(II.5.22)

iar pentru reziduale este:


2

dfR

( n 1).

(II.5.23)

72

D. Lungeanu, Gh.-I. Mihala

De fapt RSS i TrSS calculate cu (II.5.21) i (II.5.20) sunt sume ptrate; pentru a reprezenta variante cu adevrat ele trebuiesc divizate cu numrul corespunztor de grade de libertate: (Ms = mean square). MSTr = (TSS - RSS) / MSR = RSS /
2 1

(II.5.24) (II.5.25)

Raportul a dou variane prezint o distribuie F cu ( 1; 2) grade de libertate:

Fcalc

MSTr MSR

Tabel II.11. Scderile tensiunii sistolice dup patru zile de tratament, pe 3 loturi. Valorile negative indic o cretere a tensiunii. n fiecare serie valorile au fost ordonate. Pentru seria global avem:

Tratament j Individ i 1 2 3 4 5 6 7 8 9 10 Nj

1 20 15 15 10 5 5 0 -5 -5 -10 10 5 900

2 30 25 15 10 10 5 5 0 -10 9 10 1200 1200

3 30 25 20 15 10 5 20 250 750

N = 24

Xj

SS j
(X X i )2

X =10 RSS =2350


TSS = 3100

1150

Dac seriile nu difer semnificativ ntre ele, variana care rmne atribuit tratamentelor MSTr este mic, variana total fiind explicat aproape integral de rezidualele MSR (variaiile individuale din fiecare grup), deci F calc va avea valori mici. ns dac seriile difer semnificativ, MSTr va reprezenta o poriune nsemnat din variana total i F va fi mare. Stabilind un prag de semnificaie (5% sau 1%) decizia testului se ia astfel: - dac Fcalc

F1

(tabel), atunci p

, adic respingem H0

- dac Fcalc Ftab , atunci acceptm H0 Actualele pachete statistice prezint rezultatele n forma standard a tabelelor ANOVA i calculeaz direct valoarea lui p interpretabil conform fig.II.14.

73

Informatic Medical & Biostatistic

Exemplul II.13. Comparm 3 tratamente antihipertensive obinnd pe trei loturi rezultatele din tabelul II.11. Din tabelul distribuiei F avem:
, 05 F20, 22

3,44 i F2 , 22 = 5,72
0 , 05

0 , 01

Cum Fcalc F2 , 22 , rezult p

0,05 deci respingem ipoteza de zero H0 vom considera

c ntre cele 3 serii avem diferene semnificative. n tabelul II.12. sunt prezentate datele sintetice ale testului ANOVA.
Tabel II.12. Tabelul ANOVA cu datele brute din tabelul II.7

Sursa de variaie Tratament Reziduale Total

Grade de libertate 2 22 24

Suma ptratelor SS 750 2350 3100

Media ptratelor Ms 375 106,8

Raportul F F 3,48

Observaii: - Cel mai adesea, dup aplicarea unui test ANOVA pentru mai mult de dou serii, analiza poate continua prin compararea pe rnd a cte dou serii prin testul t standard (sau Mann-Whitney - Wilcoxon n caz neparametric) cu ajustarea corespunzatoare a lui funcie de numarul de teste. - Pentru numai dou serii rezultatul obinut prin ANOVA este identic cu cel obinut prin testul t nepereche. b) Analiza bifactorial - Tipuri de analiz bifactorial: - parametric: testul t pereche generalizat - neparametric: testul Friedman

i0 ii00

Fundamentare teoretic Fie n serii de valori experimentale obinute pe acelai lot, cu volumul de N indivizi, n n condiii diferite. Fiecare serie de valori corespunde unei condiii pe care o vom numi i aici tratament. Fiecare individ i este supus tuturor celor n tratamente. Spre deosebire de cazul anterior, cnd luam n considerare un singur factor ce ar putea influena variana - tratamentul, de aceast dat vom lua n considerare i al doilea factor, de exemplu individul - fiecare individ are reacii particulare la fiecare tratament. n general n ANOVA bifactorial gruparea dup primul factor se face n tratamente j, iar dup al doilea factor se face n blocuri- i. S facem urmtoarele notaii: X ji - o valoare individual pentru tratamentul j la blocul i (individul i)
N

Xj

(
i

X j i ) / N - media unui tratament

(II.5.27.a)

74

D. Lungeanu, Gh.-I. Mihala

X
X

(
j
N

X j i ) / n - media unui bloc


n N n

(II.5.27.b)

(
i j

X ji ) / ( Nn )

(
i

X i)/ N

(
j

X j ) / n - media global (II.5.27.c)


(II.5.28.a) (II.5.28.b) (II.5.28.c) (II.5.28.d)

Gradele de libertate sunt: . total: N.n . pentru tratamente: 1 = n - 1 . pentru blocuri: 1 = N - 1 . pentru reziduale: 2 N n

( N 1) (n 1)
Suma patratelor SS TrSS BlSS RSS TSS

Tabelul II.13. Prezentarea tabelului ANOVA pentru analiza bifactorial

Sursa variatiei Tratamente Blocuri (indivizi) Reziduale Total

Grade de libertate df
' 1 " 1

Media patratelor ms
' M1
" M1

Raportul F

n 1
N 1

TrSS /
BlSS /

' 1 " 1

M1' / M2 ( P' ) M1" / M2 ( P" )

Nn

(N

n 2)

M2

RSS /

Nn
N n

Sumele ptratelor vor fi calculate cu:


N n 2 X ij i j

TSS =
i
N

(X
j
n

X ij ) 2
X .i
X ij ) 2

Nn X

(II.5.29.a)

RSS =
i
N

(( X j .
j
n

X)
N
j

X ij ) 2
2

(II.5.29.b) (II.5.29.c)
2

TrSS =
i j

( X j.
N n

X j2.
N

Nn X

BlSS =
i j

( X .i

X ij ) 2

n
i

X .2 i

Nn X

(II.5.29.d)

ntre ele avem relaia: TSS = RSS + TrSS + BlSS

(II.5.30)

Tabelul ANOVA pentru prezentarea rezultatelor va fi de forma II.13. Pentru ca ordinea aplicrii tratamentelor s nu fie aceeai la toi indivizii (acesta ar putea influena efectele), se aloc tratamente n ordine ntmpltoare. Cel mai potrivit este s se foloseasc aa numitul ptrat latin avnd pe linii sau coloane ordinea tratamentelor; de exemplu, pentru 4 condiii sau tratamente (A,B,C,D) am putea avea ptratul:

75

Informatic Medical & Biostatistic

M=

A C D B

B A C D

C D B A

D B A C

(II.5.31)

Indivizii (sau blocurile) se atribuie ntmpltor acestor succesiuni de tratamente. F. Se compar 2 sau n dispersii (deviaii standard). Uneori este necesar n practic verificarea egalitii statistice a unor indicatori de dispersie - de exemplu, testele de semnificaie aplicate pentru valori medii presupun o egalitate statistic a dispersiilor seriilor care trebuie testate nainte de aplicarea testului pentru medii. Dintre testele pentru compararea indicatorilor de dispersie vom prezenta cteva mai des ntlnite: - pentru a compara dou deviaii standard - pentru a compara n deviaii standard obinute pe serii diferite - pentru a compara n deviaii standard obinute pe acelai lot. a. Se compar dou deviaii standard . Ipoteza de zero: H 0 : 1 2 . Test aplicat: testul (exact) F-Fischer-Snedecor . Fundamentare teoretic Raportul a dou dispersii ale unor populaii cu distribuie normal prezint o distribuie notat cu F, numit distribuia Fischer. 2 Fie dou serii experimentale, de volume N1 i N 2 , avnd dispersiile S1 i
2 S2 ; le notm cu indicii 1 i 2 astfel nct S12 2 adic S (1) S2

max( S1 , S 2 ). Se
(II.5.32)

calculeaz raportul:

S(21) / S(22 )

Se alege tabelul cu valorile lui F dup pragul de semnificaie dorit ( 0,05 sau 0,01) i pentru cele dou valori ale gradelor de libertate: (II.5.33) N2 1 N 1 1; 2 1 Ipoteza de zero se accept dac indicele F respect relaia: /2 Fcalc Ftab ( 1, 2 ) (II.5.34) Pachetele statistice dau de obicei valoarea lui p interpretabil conform fig. II.14 Exemplu: Considerm loturile 2 i 3 din tabelul II.11. Pentru lotul 2: S 22 1200 150 S (21)
9 1

Similar: S 2 3

250 5 1

62 ,5

S(22 )

Calculm: F = S(21) / S(22 ) deci Fcalc mari.

150 62,5

2 ,4 . Din tabel, pentru

, 025 = 0,05 avem: F80 ,4

6,04

Ftabel i vom admite H0 dei diferenele dispersiilor preau destul de

76

D. Lungeanu, Gh.-I. Mihala

b. Se compar n deviaii standard obinute pe serii diferite . Ipoteza de zero: H 0: 1 .... 2 n . Test aplicat: testul lui Bartlett . Fundamentare teoretic Pentru n serii experimentale de volume N j , medii X j i deviaii standard S j , notm:
n

- grade de libertate: (II.5.35)

Nj
n

1;

j 1

- numr total de indivizi: - dispersie global:

N
j 1

Nj
1
n j j

(II.5.36)

S2

S2 j

(II.5.37)

- coeficientul:

C
2 XB

1
1 ( c

1 3(n 1)
ln S 2

n j

1
j

(II.5.38)

n j j

- statistica:

ln S 2 j)

(II.5.39)

este o variabilitate aleatoare cu distribuie 2 cu n - 1 grade de libertate. - regiunea de acceptare a ipotezei zero H0 este dat de condiia:
2 XB calc 2 ,n 1 (tab)

(II.5.40)

H0 se respinge n caz contrar.


Pachetele software de prelucrari statistice ne dau direct valoarea lui p.

Exemplu: S comparm deviaiile standard ale celor 3 loturi prezentate n tabelul II.11 - seria 1: N 1 10 , 1 9 , S12 900 / 9 - seria 2: N 2

9,

2 8, S2 2 3

1200 / 8

- seria 3: N 3 5 , 3 4 , S 250 / 4 - aplicm formulele (II.5.36.) - (II.5.39.) . N = 24 , n = 3 1 . S2 ( 900 1200 250) 112 24 3 1 1 1 1 1 . C 1 3 2 9 8 4 9 8 4
2 . XB

15 14

9,59
2

- din tabelul - observm c

pentru
5,99
2 XB (calc)

= 0,05 i n-1 = 2 grade de libertate avem:


2 0,05; 2 ,

2 0,05;2

deci respingem

H0 i vom considera c

dispersiile (derivaiile standard) difer semnificativ.

77

Informatic Medical & Biostatistic

c. Se compar n deviaii standard obinute pe aceiai indivizi . Ipoteza de zero: H0: 1 ... S2 ...... Sn ) 2 n ( sau S1 . Test aplicat: testul lui Cochran . Fundamentare teoretic: Pentru n serii de date experimentale obinute pe acelai lot de volum N, avnd dispersiile S1 , S2 ,...., Sn , se alege:

Smax
i se calculeaz:

max(S1 , S2 ,...., Sn )
n

(II.5.41)

S2
j

S j2

(II.5.42)

Statistica
2 (II.5.43) Q S max / S2 este comparat cu valoarea lui Q din tabelul lui Cohran; tabelele pentru Q sunt asemntoare cu cele pentru F: sunt realizate pentru dou valori ale lui (0,05 i 0,01) i depind de 2 indici: n i N 1 (numrul de grade de libertate). Regiunea de acceptare a ipotezei de zero se alege dac este satisfcut condiia: (II.5.44) Q( calc ) Qn , ( tab ) Pachetele software de prelucrari statistice dau direct valoarea lui p pentru interpretarea testului conform fig. II.14

G. se compar proporii (procente) n cazul variabilelor nominale (calitative), indivizii din ntregul eantion sunt grupai n diferite clase, fiecare clas avnd caracteristic o proporie (procent). Dac mprirea se face n numai dou clase, distribuia se numete binominal, dac se face n mai multe clase se numete multinomial. Testele pentru varibilele nominale sunt numeroase, acoperind toate categoriile de teste (semnificaie, omogenitate etc.), astfel nct n cadrul cursului vom prezenta doar urmtoarele situaii, mai des ntlnite: a. se compar o proporie experimental cu o valoare dat b. se compar dou proporii experimentale c. se compar o distribuie experimental cu una teoretic - test de concordan d. test de omogenitate pe tabel de contingen e. test de independen pe tabel de contingen a. Se compar o proporie experimental cu o valoare dat . Ipoteza de zero: p = p0 . Condiie: se lucreaz pe loturi mari, astfel nct s nu fie vreuna din clase cu mai puin de 5 indivizi, deci N s fie altfel nct N p 0 5 sau

N 1 p0 5 . . Fundamentare teoretic Statistica p p0 Z p0 (1 p0 ) N


78

Dp S p0

(II.5.45)

D. Lungeanu, Gh.-I. Mihala

are o distribuie normal, deci intervalul de acceptare al ipotezei de zero va fi condiia: (II.5.46) Z( calc ) ( Z / 2 , Z / 2 ) adic pentru = 5%

/2

1,96.

Pachetele software de prelucrari statistice ne dau valoarea lui p (probabilitatea ca ipoteza de zero s fie adevrat) interpretabil conform fig. II.14. Exemplu II.14. S se verifice dac este adevrat afirmaia c 4% dintre brbai sunt daltoniti. Cum p0 0,04 i trebuie ca N p 0 5 rezult N 125. Vom lua un lot de 150 brbai pe care obinem N1 8 daltoniti i N2 142 vedere colorat normal. 1 8 / 150 0 ,053; p 2 142 / 150 0 ,946 Avem deci N = 150, p
Sp 0.053 0.946 150 0.018

0,053 0,04 0,01.6

0,833

Observm c Z calc

( 1.96 ; 1.96) deci acceptm H0 .

b. Se compar dou proporii experimentale . Ipoteza de zero: p1 p2 . Condiie: se lucreaz pe loturi mari nct s nu fie vreuna din clase cu mai puin de 5 indivizi . Fundamentarea teoretic. Statistica Z

Dp S pd

p1 p2 S pd

(II.5.47)

au o distribuie normal. Pentru eroarea standard a proporiilor folosim formula (4.14.) sau

Spd
unde:

p0 (1 p0 )(

1 N1

1 ) N2

(II.5.48)

N1 p1 N 2 p2 N1 N 2 Regiunea de acceptare este dat tot de (II.5.46.). p0

(II.5.48.b)

Exemplu II.15. Verificm dac proporia de decese prin cancer de plmni este aceeai la brbai i femei. ntr-un studiu efectuat pe dou loturi: - lot 1: N1 180 certificate deces brbai nregistrate n 3 luni, din care p1 14 / 180 0,0777 cu diagnosticul de mai sus - lot 2:

N2
S pd

165 certificate deces femei, acelai interval, cu


p2 5 / 165 0,030
0 ,03 0 ,97 165 0 ,024 0 ,077 0 ,9222 180

79

Informatic Medical & Biostatistic

( 0,0777 0,030):100 2,4

1,98

Observm c Z( calc ) Z / 2 1,96 deci respingem H0 i vom considera c decesul prin cancer de plmni apare semnificativ mai frecvent la brbai dect la femei. c. Se compar o distribuie experimental cu o distribuie teoretic de proporii n cazul variabilelor nominale, dac avem n clase (distribuie multinominal), rezultatele experimentale obinute prin analiza unui lot de N indivizi se exprim cu ajutorul unui tabel de forma tabelului II.14. j 1, ..., n adic valorile observate experimental Oj . Ipoteza de zero: O j E j difer semnificativ de cele ateptate E j (observed values), pentru toate clasele j.
Tabelul II.14. Prezentarea datelor pentru aplicarea testului de concordon la o distribuie multinominal.

Caracteristica ............ Valori experimentale Valori teoretice

Clasa 1 O1 E1

Clasa 2 O2 E2

........ .........

Clasa n On En

Total N N

. Test aplicat: testul 2 al lui Pearson . Fundamentare teoretic: Statistica


n 2 j 2

(Oi

Ei ) 2 Ei

(II.5.49)

are o repartiie
2

. Pentru ca ipoteza de zero s poat fi respins:


2 ,

(calc)

(tab)

(II.5.50)

. Pachetele statistice dau valoarea lui p interpretabil conform fig. II.14. . Observaie: Valorile teoretice trebuiesc calculate n funcie de specificul studiului; ele pot fi i valori fracionare. Ele pot fi evaluate i pentru un total diferit i apoi convertite pentru acelai total. Exemplul II.16. Dorim s studiem rspndirea grupelor sanguine i facem ipoteza c sunt uniform rspndite. Rezultatele experimentale obinute pe un lot de 80 de indivizi sunt prezentate n tabelul II.15.a.
Tabel II.15.a. Repartiia grupelor sanguine ntr-un lot cu N = 80

(Caracteristica) Grupa sanguin Valori experimentale Valori teoretice

O(I) 22 20

A(II) 33 20

B(III) 14 20

AB (IV) 11 20

Total 80 80

80

D. Lungeanu, Gh.-I. Mihala

Ipoteza de zero: grupele sanguine sunt uniform rspndite n populaia analizat. Conform formulei (6.49.) obinem:
2

22 20 20
2

33 20 20

14 20 20

11 20 20

14.5

Din tabel, pentru


2

2 = 5% gsim x0 ,05 ;3

7,815 deci

(calc)

(tab) i vom respinge

H0 afirmnd c din studiul efectuat rezult c

grupele sanguine nu au o rspndire uniform n populaia analizat. Observaie: noi am efectuat calcule anterioare pentru ipoteza c grupele sanguine ar fi uniform rspndite. Putem ns s verificm i alte i poteze. De exemplu, un studiu efectuat n America Latin afirm c acolo grupele sanguine ar avea rspndirea: 30% grupa 0, 15% grupa A, 40% grupa B i 15% grupa AB. n acest caz tabelul II.5.11. ar deveni:
Tabel II.5.11. Repartiia grupelor sanguine ntr-un lot cu N = 80

(Caracteristica) Grupa sanguin Valori experimentale Valori teoretice iar


2

O(I) 22 24

A(II) 33 12

B(III) 14 32

AB (IV) 11 12

Total 80 80

15.9 deci i in aceast situatie ipoteza

H0 este respins.

d. Test de omogenitate pentru tabele de contingen S introducem mai nti noiunea de tabel de contingen. n cazul variabilelor nomiale (sau variabile numerice dar cu valori mprite pe intervale), dac urmrim imprirea dup dou caracteristici (dou criterii de clasificare) obinem un tabel de contingen. Definiie: Tabelul de contingen reprezint o form de prezentare a datelor variabilelor nominale (sau pe clase) dup dou caracteristici: una plasat pe linii i alta plasat pe coloane. Un exemplu de tabel de contingen este prezentat n tabelul II.5.12.
Tabel II.16. Model de tabel de contingen

elev/student Primul criteriu de clasificare: Mediul Urban

muncitor

ran

intelectual

alte

Total

Rural

Tabelul expus se numete tabel 2 x 5 artnd numrul de clase dup primul, respectiv al doilea criteriu de clasificare. Un test de omogenitate aplicat unui tabel de contingen are menirea de a verifica dac proporiile diferitelor clase pe un rnd (coloan) sunt aproximativ aceleai i pe celelalte rnduri (coloane). Valorile experimentale ntr-un tabel de contingen le notm ca n tabelul II.17.

81

Informatic Medical & Biostatistic

Tabel II-17. Notaii n tabelul de contingen cu L linii i C coloane pentru un eantion de N indivizi

Crit. 2 Crit. 1 1 .... i .... L

...... ..... .....


i1

........ ...... ...... ...... ......


Lj

Total

1j

1C

L1
...

..... ......
L1

.....
ij

...
ic

..... .... .... ....

Li
....

....

...
L*

...... .....

Li
N

Total

C*1
L

C* j

C*c

Pentru notaiile din tabelul II.17 sunt adevrate relaiile de mai jos:
C* j
i ij

(II.5.51.a)

Li
j

ij

(II.5.51.b)

C ij

N
j

C* j
i

Li *
i j

(II.5.51.c)

( L 1) (C - 1)

(II.5.52)

Valorile ateptate Eij se calculeaz pentru fiecare element al tabelului dup relaia:

E ij

Li* C* j N

(II.5.53)

astfel nct totalurile pe linii i coloane vor rmne nemodificate. De obicei se construiete nc un tabel de forma tabelului II.7 cu deosebirea c, n loc de valorile observate, n csue se trec valorile ateptate. Marginile vor rmne nemodificate. Avnd ambele tabele putem trece la aplicarea testului. . Ipoteza de zero : H 0 : O ij Eij , pentru i , j . Test aplicat : testul
2

al lui Pearson.

. Fundamentare teoretic: Statistica

X2
i j

ij

Eij ) 2 Eij

(II.5.54.)

are o distribuie

cu

grade de libertate.

Pentru un prag de semnificaie ales, , se caut n tabel valoarea regiunea de acceptare cnd este ndeplinit condiia (6.50.). Programele de calculator dau direct valoarea lui p. 82

X 2,

i se stabilete

D. Lungeanu, Gh.-I. Mihala

Exemplul II.17.a. Comparm dou tratamente A i B pe dou loturi avnd N1 respectiv N 2 50 pacieni. Rezultatele obinute sunt trecute n tabelul II.17.a.
Tabelul II.17.a. Rezultatele obinute prin dou tratamente

100

Tratament. A Tratament B Total

Ameliorat 40 30 70

Neameliorat 60 20 80

Total 100 50 150

. Ipoteza de zero: H0: cele dou tratamente dau rezultate identice: . Calculm valorile ateptate conform (6.53.) i obinem tabelul II.17.b.
Tabelul II.17.b. Rezultate ateptate n condiia respectrii ipotezei de zero

Tratament. A Tratament B Total

Ameliorat 46,6 23,3 70

Neameliorat 53,3 26,6 80

Total 100 50 150 =

Cu formula (5.54) obinem: 2 5 ,61, n timp ce din tabel, pentru = 5% i 2 1 grad de libertate (pentru un tabel 2 x 2, cu 2 linii i 2 coloane), avem x0 3,84. ,05 ;1

Observm c nu se respect condiia X 2 (calc) X 2 (tab), deci nu acceptm ipoteza de zero i vom spune c tratamentele dau rezultate diferite. e. Test de independen pentru tabele de contingen Un test de independe are scopul de a stabili dac exist vreo relaie de dependen ntre categoriile obinute prin dou clasificri diferite; de exemplu ntre culoarea prului i sex, ntre nlime i greutate, ntre vrst i adaptarea la efort etc. . Ipoteza zero: cele dou criterii de clasificare sunt independente (din punct de vedere probabilistic). . Test aplicat: testul 2 al lui Pearson . Fundamentare teoretic Abordarea este asemntoare cu cea prezentat la testul 2 ca test de omogenitate, avnd i aceleai criterii de interpretare pentru regiunea de acceptare / respingere a H0 . Exemplu II.18. Pentru a stabili dac ntre nlime i greutate exist vreo dependen , n cea mai simpl variant putem alege o valoare care mparte, n dou categorii aproximativ egale o populaie din care extragem un eantion. Rezultatele culese sunt prezentate n tabelul II.18.a.

83

Informatic Medical & Biostatistic

Tabelul II.18.a. Clasificarea indivizilor unui lot dup nlime i greutate

nlime Greutate sub 70 kg peste 70 kg Total

sub 175 cm 40 8 48

peste 175 cm 16 36 52

Total 56 44 100

. Ipoteza de zero: cele dou clasificri sunt independente. . Conform ipotezei de zero putem calcula valorile ateptate cu formula (6.53) i obinem tabelul II.18.b.
Tabelul II.18.b Valorile ateptate la clasificarea indivizilor dup nlime i greutate dac cele dou clasificri ar fi independente

nlime Greutate sub 70 kg peste 70 kg Total

sub 175 cm 26,88 21,12 48

peste 175 cm 29,12 22,88 52

Total 56 44 100

Cu formula (5.54.) obinem 2= 27,5, n timp ce din tabel, pentru = 5% i = 1 grad de libertate avem 2 3 ,84 ; mai mult, chiar pentru = 1% i = 1 avem 0 ,05 ;1
2 0 ,005 ;1

7,88 deci putem respinge

H0 i s spunem c diferenele sunt foarte

semnificative. Respingerea lui H0 n cazul nostru nseamn respingerea ipotezei c cele dou criterii de clasificare sunt independente. O analiz mai detaliat a dependenei ntre variabile se face prin metode adecvate ce vor fi prezentate n capitolul urmtor. Observaie: n cazul tabelelor de contingen, dac vreuna din csue (mai ales ale valorilor ateptate) conine mai puin de 5% din observaii, se prefer aa numita corecie Yates: (/ Oi E i / 0 ,5 ) 2 2 (II.5.55.) i Ei astfel nct valorile foarte sczute (mai rare) s nu influeneze prea puternic valoarea testului.

6. CORELAIA SI REGRESIA
Dup cum am sesizat nc din cursul precedent, mrimile pe care le analizm n diferite studii pot fi, fie independente ntre ele, fie legate prin diferite relaii. Evidenierea unor relaii ntre mrimi poate sugera fie o fenomenologie cauzal, fie o corelaie mai complex ce necesit studii aprofundate. Oricum, respingerea unei ipoteze de zero ntr-un test de independen d n general de gndit cercettorilor, care pot sesiza o serie de aspecte interesante din simpla analiz statistic a datelor. Deseori analiza statistic a unor date sugereaz o serie de alte studii pentru precizarea fenomenelor care genereaz anumite dependene. Datorit faptului c analizele de acest tip urmresc comportarea a dou variabile ele se numesc analize bivariate.

84

D. Lungeanu, Gh.-I. Mihala

6.1. RELAII NTRE DOU VARIABILE CANTITATIVE A. Relaia de dependen a. Variabile independente Variabilele cantitative, fiind foarte des ntlnite n studiile biomedicale, permit cea mai fin analiz a relaiei de dependen/independen. S ilustrm acestea prin cteva exemple.

Figura II.16. Relaia ntre nlimea unui individ h, i concentraia de hemoglobin din snge [Hb]. Repartiia aproape simetric i uniform a punctelor sugereaz absena vreunei corelaii

Exemplul II.19. ntr-un studiu pe un lot de 50 de indivizi am urmrit mai multe variabile, cantitative i calitative. Dac alegem dou variabile (cantitative), de exemplu nlimea h, respectiv concentraia hemoglobinei n sng e, [Hb], ntr-o reprezentare grafic n care lum pe axa Ox nlimea h i pe pe axa Oy concentraia hemoglobinei [Hb], fiecare individ va fi reprezentat print-un punct. Un astfel de grafic se numete grafic de mprtiere (scatter plot). Datele obinute sunt reprezentate n figura II.16. Repartiia simetric i fr vreo tendin a punctelor n graficul obinut sugereaz absena vreunei legturi ntre cele dou mrimi; vom spune despre ele c sunt independente. b. Variabile dependente Dac reprezentm, relaia ntre presiunea parial a oxigenului din aerul respirat i concentraia oxigenului dizolvat n snge am obine un grafic de forma celui din fig. II.17.

Figura II.17. Dependea concentraiei sanguine a oxigenului dizolvat de presiunea parial a oxigenului din aerul respirat

85

Informatic Medical & Biostatistic

Legtura dintre cele dou mrimi este att de vizibil nct ne sugereaz nu numai acceptarea unei relaii cauzale ci chiar gsirea unei formule pentru relaia dintre cele dou mrimi; stabilirea unei astfel de formule (formalizarea matematic a fenomenului) reprezint obiectul de studiu al unui capitol important al informaticii medicale numit modelare i simulare. n partea de biostatistic ne intereseaz doar faptul c cele dou mrimi nu par independente - la testul 2 de independen, mprind pO2 i respectiv [O 2 ] n cteva clase (chiar i cu numai 2 clase), vom respinge ipoteza de zero referitoare la independen, iar acceptarea unei dependene ne impinge spre cutarea unei formule care s exprime respectiva dependent. c. Variabile corelate n exemplul prezentat anterior, relaia cauzal prea rezonabil: n condiiile unei concentraii crescute a oxigenului atmosferic pare uor acceptabil (cauzal) o concentraie mai mare a oxigenului dizolvat n snge. Exist ns situaii n care datele experimentale sugereaz o relaie de dependen, dar mecanismele fiziologice, la nivelul cunotinelor actuale, nu justific pe deplin o relaie cauzal direct, ns cel mai adesea admite o cauz comun pentru variaiile observate ale celor dou mrimi; ast fel de variabile se numesc variabile corelate. Un exemplu tipic l constituie corelaia ntre nlimea i greutatea indivizilor (figura II.18.), n care nu putem preciza c una dintre variabile este cauza i cealalt este efectul.

Figura II.18 Corelaia nlime-greutate pe un lot de 180 brbai aduli

Analiza corelaiei nlime-greutate, pe care o putem efectua cnd cunoatem poziia fiecrui punct n graficul II.18. este mult mai fin dect cea din testul de independen din cursul precedent. Repartizarea punctelor n graficul din figur, sugereaz o exprimare de forma cu ct individul este mai nalt, cu att greutatea sa ne ateptm s fie mai mare. B. Corelaia liniar n cazul n care considerm c punctele dintr -o diagram de mprtiere se situeaz pe o dreapt, corelaia se numete corelaie liniar. a. Coeficient de corelaie Intensitatea corelaiei este apreciat print-un parametru numit coeficient de corelaie Pearson.

86

D. Lungeanu, Gh.-I. Mihala

- Formula coeficientului de corelaie este:

r
unde

rxy

s xy SxSy

(X i (X i

X ) (Yi

Y) (Yi Y )2

(II.6.1)

X )2

reprezint variana lui x, respectiv y: S x2 si S 2 y

Sx2

( Xi N ( Xi

X )2

, S2 y

(Yi N

Y )2

(II.6.2)

iar Sxy se numete convariana ntre x i y i este dat de:

Sxy
0

X ) (Yi N

Y)

(II.6.3)

ii - Proprieti. - coeficientul de corelaie r are valori cuprinse ntre -1 i +1 r [-1, +1] (II.6.4) - valorile pozitive ale lui r indic o corelaie direct ntre x i y (creterea lui x este nsoit de creterea lui y, figura II.19.a), n timp ce valori negative indic o corelaie invers (cnd x crete, y scade, figura II.19.b.).

Figura II.19. Ilustrarea corelaiei liniare directe i inverse

- Valorile absolute mari ale lui r (apropiate de +1, respectiv -1) indic o corelaie puternic, n timp ce valorile mici (n jurul lui 0) indic o corelaie slab (sau absena corelaiei) - figura II.20.

Figura II.20. Aprecierea intensitii corelaiei liniare dup valoarea lui r

87

Informatic Medical & Biostatistic

Observaie: Coeficientul de corelaie Pearson arat numai n ce msur datele experimentale se potrivesc unei reprezentri descrise de o dreapt; deci o valoare sczut a lui r nu nseamn neaprat corelaie slab ci corelaie liniar slab, ns ar putea fi puternic dar de alt tip. b. Semnificaia coeficientului de corelaie Valorile lui r depind att de gradul de mprtiere al valorilor experimentale ct i de N - numrul de puncte. Uneori, cnd N este mic putem obine, din ntmplare, valori ridicate pentru r, conducndu-ne la concluzii hazardate cu privire la intensitatea corelaiei. De aceea, se poate testa semnificaia coeficientului de corelaie liniar r. . Ipoteza de zero: H0: coeficientul de corelaie liniar pentru ntreaga 0 ( populaie, r = coeficientul de corelaie obinut pe un eantion). . Test aplicat: testul t (Student) . Fundamentare teoretic: Se poate demonstra c raportul:

N 2 (II.6.4) 1 r2 are o repartiie Student cu N 2 grade libertate. Pentru un prag de semnificaie gsim n tabel valoarea t / 2 , . n caz c t t calc r

tcalc ttab vom accepta H0 ; n caz contrar o respingem i vom spune c avem o probabilitate ridicat de a avea ntr-adevr o corelaie liniar.

Figura II.21. Regiunile de acceptare/respingere a

H0

pentru coeficientul de corelaie.

Eroarea standard a coeficientului de corelaie se calculeaz cu relaia: 1 r2 (II.6.5) Sr N deci pentru pragul de semnificaie , putem localiza intervalul n care se gsete coeficientul de corelaie al populaiei prin relaia: (II.6.6) r ( r t / 2, Sr ; r t / 2, Sr )

88

D. Lungeanu, Gh.-I. Mihala

Pe baza relaiei (II.6.6) se poate construi un tabel sau se poat e ridica un grafic cu regiunea de acceptare / respingere a ipotezei de zero (figura II.21).

c. Dreapta de regresie i - Definiie n cazul unei corelaii liniare, dreapta care trece cel mai bine printre punctele experimentale se numete dreapt de regresie. ii - Ecuaia dreptei de regresie Dac notm cu x variabila independent i cu y variabila dependent, atunci ecuaia unei drepte y = f(x) are forma: y = a + bx (II.6.7) n care a se numete ordonat la origine (limba engleza intercept) iar b se numete panta dreptei (limba engleza slope) - figura II.22.
0
0

Figura II.22. Semnificaia parametrilor pentru dreapta de regresie liniar.

iii - Metoda celor mai mici ptrate. Pentru determinarea coeficienilor a i b din ecuaia dreptei vom considera c cea mai bun dreapt care trece printre punctele experimentale este cea pentru care suma ptratelor abaterilor, i este minim , adic: 2 SSE min. (II.6.8) i iv - Formule pentru coeficienii dreptei de regresie. . Fundamentare teoretic. Observm c pentru un punct experimental P(X i , Yi ), gsim dreapta de regresie punctul
0

) la distanta P, ( X i ,Y i

unde Y reprezint valoarea pe Y i i

care ar avea-o variabila Y pentru valoarea lui dac punctul s-ar gsi pe dreapt:

89

Informatic Medical & Biostatistic

Y i

a bxi
(II.6.8.b) (II.6.8.c)

(II.6.9.) Suma SSE depinde de coeficienii a i b: SSE ( yi a bxi ) 2 min


SSE a 0, SSE b 0

Valoarea minim se obine cnd derivatele n raport cu a i b se anuleaz: Se obine un sistem de dou ecuaii cu dou necunoscute, a i b, care prin rezolvare ne d rezultatele:

S xy S
2 x

( X i X )( Yi Y ) ( X i X )2

Yxy

Sy Sx

(II.6.9.a)

a Y
0

b X

(II.6.9.b)

v - Intervale de ncredere pentru a i b . Fundamentarea teoretic. Celor N perechi de valori reprezentnd cele N puncte li se asociaz N 2 grade de libertate, ele fiind legate i prin relaia dreptei de regresie. Dac notm dispersia abaterilor cu S 2 : 2 )2 ( yi y SSE i (II.6.10) S2 N 2 N 2 N 2 atunci eroarea standard pentru pant este:
Sx2 iar pentru ordonata la origine
Sa S2 1 N X2 ( Xi X 2

Sb

S2

(II.6.11.a)

(II.6.11.b) , intervalele de localizare ale parametrilor (II.6.12.a) (II.6.12.b)

Pentru un prag de semnificaie

vor fi date de: si b estimai, a (b t b S b ,b t / 2, ( a t / 2, Sa ,a t a


0

/ 2,

Sb )

/ 2,

Sa )

i - Teste de semnificaie pentru a i b. Avnd calculate intervalele de ncredere a estimatorilor, putem aplica teste de semnificaie pentru cei doi coeficieni ai dreptei de regresie. . Pentru pant: - ipoteza de zero: H 0 : b 0 - test aplicat: testul t pentru un prag de semnificaie grade de libertate, din tabel avem t / 2 , . Calculm:
b tcalc

ales i pentru

b / sb

(II.6.13.a)

dac 90

tcalc

ttab se accept H0 , n caz contrar se respinge.

D. Lungeanu, Gh.-I. Mihala

. Pentru ordonata de origine - ipoteza de zero : H 0 : a 0 - test aplicat: testul t pentru un prag de semnificaie N 2 grade de libertate, din tabel avem t / 2 , . Calculm:
a tcalc

ales i pentru (II.6.13.b)

a / Sa

i dac

tcalc

ttab se accept H0 , n caz contrar se respinge.

Observaie: aplicarea testului de semnificaie pentru pant este foarte important deoarece o valoare nesemnificativ diferit de zero arat o independen ntre variabile, chiar dac este mare i satisface testul de semnificaie. Exemplul II.20. Corelaia ntre pH-ul sanguin i frecvena cardiac poate fi reprezentat grafic ca n figura II.23.

Figura II.23. Corelaia ntre pH-ul sanguin i frecvena cardiac: deoarece pHs variaz foarte puin, punctele se nscriu bine pe o dreapt i obinem o valoare mare pentru r, care satisface i testul de semnificaie t. ns panta nu difer semnificativ de zero, deci putem considera mrimile ca independente

vii - Originea denumirii dreptei de regresie Numele de dreapt de regresie a fost introdus de W. Galton, care a studiat relaia ntre nlimea copiilor i nlimea prinilor. Dei pe ansamblu copiii au avut o nlime medie mai ridicat dect a prinilor, aceast cretere nu era uniform repartizat, fiind mai accentuat pentru copiii avnd prini mai scunzi, n timp ce nlimea copiilor provenind din prini nali era deseori mai mic dect a prinilor (figura II.24.). Interpretarea de tendin ctre mediocritate dat acestor observaii suscit nc i azi o serie de discuii.

91

Informatic Medical & Biostatistic

Figura II.24. Alura unei reprezentri ilustrnd termenul de regresie

viii - Testarea liniaritii Corelaia liniar este cea mai simpl i cea mai studiat, de aceea n analiza corelaiei ea se efectueaz prima; deseori, obinerea unor rezultate ce indic o corelaie liniar slab este interpretat - nejustificat - ca absen a unei corelaii. Acest lucru poate fi adevrat ns exist dese situaii cnd variabilele sunt destul de puternic corelate ns nu liniar (figura II.25.). Pentru a verifica liniaritatea se construiete o nou variabil:

Zi

Yi S

Y i
2

S2

(II.6.14.a)

. Ipoteza de zero: H0: regresia este liniar . Test aplicat: testul Z al distribuiei normale, astfel: - alegem un nivel de semnificaie i lum din tabel Z - dac

Zi

i = 1... N

(II.6.14.b)

atunci acceptm

H0 , n caz contrar o respingem.

Figura II.25. Corelaia neliniar

92

D. Lungeanu, Gh.-I. Mihala

ix ncadrarea dreptei de regresie Dreapta de regresie teoretic Y = + = ordonata la origine, = panta)

X poate lua valori n intervalul (aici (II.6.15)

-t S , Y t S ) (Y y y

unde t este valoarea din tabelul repartiiei t pentru un prag de semnificaie ales.

Figura II.26. ncadrarea dreptei de regresie n intevale de ncredere de 95% i 99%

Eroarea standard a estimrii lui

pentru fiecare X se calculez cu: Y


(X X2 ( X )2 X )2 N
(II.6.16)

Sy

S2

1 N

n felul acesta n reprezentarea grafic a diagramei se traseaz i limitele de ncadrare a dreptei (figura II.26.). Observaie: Dreapta de regresie a variabilei Y fa de X este diferit de dreapta de regresie X fa de Y (deci cea care s-ar obine dac am inversa axele pe care sunt plasate cele dou variabile). De aceea, cnd ar exista pericol de confuzie, coeficienii dreptei y =f(x)=a + bx se noteaz by/x i ay/x n timp ce pentru dreapta X = f(y) se noteaz bx / y respectiv a x / y . Coeficientul de corelaie r rmne acelai n ambele situaii. C. Corelaii si regresii neliniare Dei corelaia liniar este ntlnit destul de des, o serie de fenomene din meteria vie conduc la reprezentri destul de deprtate de o dreapt, astfel nct este mult mai potrivit alegerea altei relaii pentru descrierea dependendenei ntre variabile n cazurile respective. a. Raport de corelaie n cazul regeresiei neliniare, n locul coeficientului de corelaie r se folosete un alt parametru numit raport de corelaie, dat de formula:
xy

2 i 2 i

2 i 2 i

(II.6.17)

93

Informatic Medical & Biostatistic

unde , i au semnificaia din figura II.22., cu deosebirea c punctul P va fi se va situat pe curba de regresie (deci nu neaparat pe o dreapt). n aceast relaie y calcula conform curbei care se presupune c descrie relaia dintre x i y. Dac avem o corelaie liniar, raportul de corelaie va fi egal cu coeficientul de corelaie. Intervalele de ncredere pentru rapoartele de regresie se calculeaz cu ajutorul coeficienilor F din testul lui Fisher. n cele ce urmeaz vom enumera cteva corelaii neliniare mai des ntlnite n medicin i biologie. b. Corelaii si regresii exponeniale Sunt foarte des ntlnite n descrierea fenomenelor naturale. - Ecuaia regresiei exponeniale:

a e bx

(II.6.18)

avnd coeficienii a i b. - Exemple: - corelaii exponeniale cresctoare (b 0) - n fenomene de absobie (intenstinal etc.) ii - corelaii exponeniale descresctoare (b 0) - clearance - funcia de epurare (renal, hepatic) i c. Corelaii i regresii logaritmice - Ecuaia regresiei logaritmice: y = a + b log x - Exemple: . legea Weber - Fechner - ntre senzaie i intensitatea stimulului. d. Corelaii i regresii ca funcie putere - Ecuaia funciei putere: y=a.x (II.6.20) - Exemple: . legea lui Stevens - ntre frecvena impulsurilor nervoase pe o fibr i intensitatea stimulului e. Corelaii si regresii hiperbolice - Ecuaia funciei hiperbolice: (x+a) (y + b) = k (II.6.21) - Exemple: . legea lui Hill - relaia ntre for i viteza de contracie pentru muchiul striat . legea lui Abbey - relaia ntre intensitatea i durata unui stimul luminos foarte scurt pentru determinarea pragului de sensibilitate. f. Corelaii i regresii logistice - Ecuaia funciei logistice:
b

(II.6.19)

a x b x

(II.6.22)

94

D. Lungeanu, Gh.-I. Mihala

- Exemple: . Cinetica Michaelis - Menten - relaia ntre viteza reaciei enzimatice i concentraia de substrat. . Curbele doz-efect-relaia ntre doza unei substane medicamentoase i efectul dozei respective asupra unui esut (Ariens) (Observaie: reprezentrile funciei logistice se fac de obicei n coordonate y = f (log x), funcia avnd n acest caz o form sigmoidal i o serie de proprieti de simetrie). Exist i alte tipuri de regresii cu care ne mai putem ntlni: parabolice, polinomiale etc. D. Metode de fitare Definiie: Metodele folosite pentru a gsi cea mai bun dreapt, sau curb de un anumit tip, care s treac printre punctele experimentale se numesc metode de fitare. Cele mai des ntlnite metode de determinare a parametrilor curbei (dreptei) de regresie sunt: a. Metoda celor mai mici ptrate, pe care am descris-o anterior, bazat pe minimizarea sumei abaterilor punctelor experimentale de la curba de regresie (formula 6.8.a.) b. Metoda transformrilor liniare, prin care se efectueaz n ecuaia curbei de regresie o schimbare de variabil astfel nct, cu noile variabile reprezentarea s devin o dreapt. Iat cteva exemple: - pentru regresia exponenial log y = z, log a = c : z = c + b . x - pentru regresia logaritmic log x = z : y = a + b . z - pentru regresia putere log y = z , log x = t, log a = c : t = c + b . t - pentru regresia hiperbolic 1 z : y = -b + k . z x a (II.6.18) (II.6.19) (II.6.20)

(II.6.21)

- pentru corelaia logistic 1 1 1 b (II.6.22) z, t, c, d: z=c+d.t y x a a (Observaie: aceast transformare liniar se mai numete transformarea Lineweaver Burke sau transformare dublu reciproc i este mult utilizat n prelucrarea datelor de cinetic enzimatic). Trebuie menionat c metoda transformrilor liniare conduce la rezultate ce difer de metoda celor mai mici ptrate aplicat direct la datele experimentale. c. Metoda asemnrii maxime - se bazeaz pe determinarea valorilor pentru care datele experimentale ar fi aprut aa cu cea mai mare p robabilitate. Rezultatele obinute sunt apropiate de cele din metoda celor mai mici ptrate.

95

Informatic Medical & Biostatistic

6.2. RELAII NTRE DOU VARIABILE ORDINALE n cazul variabilelor ordinale parametrii definii anterior nu se mai potrivesc i sunt definite mrimi specifice pentru ranguri. A. Coeficientul de corelaie a rangurilor - Spearman Este un coeficient de corelaie liniar ntre rangurile acordate diferiilor indivizi n clasificri diferite. a. Formula D:2 i (II.6.23) R 1
N ( N 2 1)

unde Di este diferena ntre rangurile individului i n cele dou clasificri. b. Exemplul II.21.a Considerm rezultatele obinute prin testul psihologic Luscher de preferin a culorilor pe dou loturi: un grup de aduli i un grup de co pii (cu vrsta 5-15 ani) tabelul II.19.
Tabel II.19.a. Rangurile preferinei culorilor prin testul Luscher la dou loturi Rangul Culoarea Copii R=Rou G=Galben V=Verde A=Albastru W=Alb N=Negru 1 2 5 3,5 3,5 6 Aduli 5,5 5,5 4 1 2 3 -4,5 -3,5 1 2,5 -1,5 3 Preferinei D D
2

Rezultate:

20,25 12,25 1,00 6,25 2,25 9,00

N=6

D2
R=0,35
tab R0 , 05

51

0,829
0,943

R0tab , 01

== Corelaie nesemnificativ

e. Semnificaia coeficientului de corelaie Spearman La fel ca i n cadrul coeficientului de corelaie liniar, coeficientul R poate fi comparat cu valori dintr-un tabel. - Ipoteza de zero: H 0 : R = 0 - Test aplicat: test specific pentru R (coeficientul de corelaie al ragurilor). - Aplicaie: pentru un nivel de semnificaie (0,05 sau 0,01) se caut valoarea din tabel R , N Rtab . Dac

Rtab se accept H0 i se consider corelaia nesemnificativ, n caz contrar se respinge H0 i se consider o corelaie semnificativ a rangurilor.
R B. Coeficientul de corelaie Kendall Este tot un coeficient de corelaie pentru ranguri. a. Formula
K 2S N ( N 1)

(II.6.24)

96

D. Lungeanu, Gh.-I. Mihala

unde S este suma scorurilor pozitive i negative ale rangurilor dintr -o clasificare n raport cu cealalt clasificare. b. Exemplul II.21.b: Rearanjm datele din tabelul II.19.a. astfel nct o clasificare s fie ordonat (de ex. cea pentru copii); datele apar acum ca n tabelul II.19.b. Deci S = -9 + 5= -4 i nlocuind n (II.6.24) obinem K = - 0,266. Exist tabele prin care se poate n continuare verifica i semnificaia acestui coeficient de corelaie.
Tabel II.19.b Rangurile preferinei culorilor - dou clasamente obinute pe dou loturi: copii i aduli - rearanjarea datelor din tabelul 7.1 Rangul Culoarea Copii Rou Galben ............. Albastru Alb ............. Verde Negru 1 2 .................. 3,5 3,5 ................. 5 6 Aduli 5,5 5,5 ............ 1 2 ........... 4 3 r1 r2 ......... r3 r4 .......... r5 r6 Preferinei Notaie D(-) D(+)

ri
4

rj, , j

ri

rj , j i

(r3 , r4 , r5 , r ) 6
4(r
3

0 0 ............ 3( r4 , r5 , r6 ) 2( r5 , r6 ) ............. 0 -

, r4 , r5 , r6 )

.......... 0 0 ............... 1( r6 ) -9

+5

6.3. RELAII NTRE VARIABILE NOMINALE Corelaia ntre variabilele nominale nu se caracterizeaz prin coeficieni de corelaie ci se efectueaz prin aplicarea unui test statistic care s indice prezena / absena unor corelaii ntre clasificrile realizate dup mai multe criterii. A. Testul de independen
2

Sub forma prezentat n capitolul 5, testul poate da informaii asupra corelaiei / independenei ntre clasificrile n cte dou clase, dup dou criterii. Testul poate fi generalizat pentru m clase i n criterii; n acest caz se utilizeaz mai des un coeficient de contingen C:
2

(II.6.25)
N

Coeficientul C = 0 indic independena variabilelor. Cu ct este mai mare, cu att legtura este mai puternic (valoarea maxim Cmax 1 / 2 0,707 ).

97

Informatic Medical & Biostatistic

B. Ali indicatori Pentru variabile nominale sau propus i ali indicatori care s ilustreze posibile relaii ntre clase: a. Indicatori de asociere - folosit pentru tabele de continge 2 * 2 - formula: bc ad , L1, L2, C1, C2 fiind totalurile pe linii, respectiv coloane L1 L2 C1C2 [-1, + 1] ; valori extreme indic asociere puternic, valori n jurul lui 0 indic independen - semnificaia statistic se determin cu ajutorul repartiiei , statistica fiind calculat cu formula: 2 N 2 (II.6.26.b) b. Indicatori de grupare Prin diverse tipuri de analize se pot gsi criterii dup care indivizii unui lot se pot grupa n mai multe clase astfel nct s se poat preciza asemnarea ntre indivizii unei clase i deosebirea lor fa de indivizii altor clase.

6.4. RELAII NTRE MAI MULTE VARIABILE CANTITATIVE n cazul n care generalizm analiza bivariat, n care urmream relaia ntre variabil (dependent) i o variabil independent, obinem o analiz multivariat, n care avem o funcie de mai multe variabile: (II.6.27) y f ( x1 , x 2 , ..., x n ) Cea mai simpl relaie este regresia liniar multipl, n care considerm dependena de forma: y b0 b1x1 b2 x2 .... bn xn (II.6.28) Cea mai bun suprafa de regresie se obine cnd: 2 )2 min ( yi y (II.6.29) i

i unde y

b0

i b1x1

i i b2 x2 .... bn xn

(II.6.28)

Pentru regresia multipl se definesc: coeficientul de corelaie global coeficienii de corelaie pariali (lund pe rnd fiecare pereche de variabile).

7. EPIDEMIOLOGIE
Epidemiologia este un domeniu medical pluridisciplinar avnd o zon de intersecie mare cu biostatistica. n epidemiologia clinic se urmrete att determinarea frecvenei de apariie a unei boli ct i definirea unor asocieri ntre boal i factori cauzali sau favorizani. Cnd se suspecteaz vreo astfel de asociere, se ncearc la nceput s se identifice condiiile care determin creterea riscului unei afeciuni, apoi evidenierea unei relaii cauz-efect, avnd n final consecine n dezvoltarea unui tratament adecvat i a unor strategii profilactice. 98

D. Lungeanu, Gh.-I. Mihala

Studiile epidemiologice intr n categoria studiilor populaionale care cuprind dou mari capitole: - analiza riscului (partea central a epidemiologiei) - analiza supravieuirii 7.1. ANALIZA RISCULUI A. Factori de risc a. Definiie: O cauz ipotetic (indiferent de natur - comportament, condiie, caracteristic fizic sau de mediu etc.) ce determin creterea probabilitii ca un individ sntos s dezvolte a anumit boal reprezint un factor de risc. b. Clasificare: - factori de mediu: factori poluani, toxine, microorganisme infecioase etc. - factori comportamentali (obiceiuri): fumat, alcool, droguri, nerespectarea msurilor de protecie a muncii, sedentarism etc. - factori sociali: evenimente familiare tragice, divor, pierderea serviciului etc. - factori genetici: hipercolesterolemie etc. c. Tipuri de expunere la aciunea factorului de risc: - expunere punctual - ex. accidente (la o intreprindere chimic etc.) - expunere cronic - cea mai frecvent; se estimeaz n aceste condiii doza curent, doza cumulat, durata expunerii etc. d. Relaia factor risc / boal: - factor cauzal - cnd putem atribui factorului o aciune direct - factor favorizant (marker) care crete probabilitatea, dar nu i se poate atribui o aciune direct (ex: factorii sociali - economici, educaionali etc.). B. Prezentarea datelor Uzual datele din analiza riscului se prezint sub forma unui tabel de contingen, cel mai frecvent 2 x 2 (cu dou linii i dou coloane) n care ntregul lot de N indivizi este mprit n grupul de indivizi expui (L1), respectiv neexpui (L2). Din fiecare grup, o parte dezvolt boala, (N11 din L1, respectiv N21 din L2), o parte nu (N12 din L1, respectiv N22 din L2) - tabelul II.20
Tabel II.20. Prezentarea schematic a datelor unui studiu epidemiologic: E+ =expui, E - = neexpui la aciunea factorului de risc; B+ = prezint boala, B- = nu prezint boala

B+ Expunere E+ EN11 N21 C1

BN12 N22 C2 L1 L2 N

C. Metode de studiu n epidemiologie a. Studii experimentale Din punct de vedere teoretic rezultatele cele mai de ncredere s-ar obine ntrun studiu experimental, n care investigatorul are controlul complet asupra factorului de risc (ca variabil independent, cu rol cauzal) i urmrete efectul asupra grupelor (varibile dependente). Din considerente etice ns, aceste studii sunt limitate doar la aciunea unor factori cu risc redus.

99

Informatic Medical & Biostatistic

b. Studii observaionale n marea majoritate a cazurilor studiile trebuie efectuate pe loturi n care expunerea nu s-a ntmplat la dorina expres a investigatorului. Marile dezavantaje ale studiilor observaionale sunt: precizia limitat a msurrii aciunii factorului de ri sc (intensitate, durat) i stabilirea grupelor expui / neexpui ce vor fi comparate concret. Recunoaterea i controlul unor eventuale surse de bias constituie unul din elementele urmrite prioritar n aceste analize. Dintre tipurile de studii observaionale mai des ntlnite enumerm: i - Studiul transversal (cross-secional) se mai numete i studiu de prevalen. Este cel mai simplu model, bazat pe fotografierea unei situaii la un moment dat, culegnd date de tipul celor din tabelul II.20. Dintre dezavantajele mai des citate reinem: - estimarea prevalenei este influenat n cazul evoluiilor rapide (fie spre deces fie spre recuperare) - incertitudinea anteceden - consecin ii - Studiul prospectiv pe cohort (cohort prospective/folow-up/ longitudinal). Pornind de la numele unei uniti militare n epoca roman (cohorta), care oferea condiii asemntoare de lupt pentru membrii ei, studiile de acest tip iau n analiz dou loturi din persoane iniial sntoase, dintre care unul este supus la aciunea factorului de risc suspectat. Loturile sunt urmrite n timp, pornind din momentul definirii lor; se identific apariia afeciunii n ambele loturi. (figura II.27.a) iii - Studiul retrospectiv pe cohort (historical cohort / retrospective / nonconcurrent). La fel ca n studiul prospectiv pe cohort evoluia se urmrete n sensul natural al scurgerii timpului, pornind de la situaia unui grup iniial din care o parte au fost expui i acum putem evalua la ci din fiecare grup, a aprut afeciunea analizat (figura II.27.a) iv - Studiul retrospectiv clasic (case-control) - n care grupul analizat cuprinde cazurile n care a aprut boala i investigm n care din aceste cazuri a existat o expunere la factorul de risc (deci urmrim n sens invers temporal) i identificm apoi prezena/absena factorului de risc i pentru un grup martor (control) figura II.27.b. Aceste studii case -control, dei mai comode pentru colectarea unor date, au destule dezavantaje: grupul martor nu poate fi ntmpltor ci trebuie selectat pe aceleai criterii ca i grupul de cazuri; de asemenea, dac grupul B+ este selectat dintre cazurile spitalizate, el deja cuprinde un important bias: cazurile mai grave! c. Compararea metodelor O analiz a posibilelor surse de erori n diversele tipuri de studii ne permite o ierarhizare a metodelor enumerate, cele mai bune rezultate fiind ateptate de la studiile experimentale; prezentarea ierarhic a metodelor este schiat n tabelul II.21.

100

D. Lungeanu, Gh.-I. Mihala

Tabel II.21. Ierarhia metodelor de studiu n epidemiologie, functie de puterea acestora.

experimental sectional

cohort-prospectiv

cohort-retrospectiv

case-control

cross-

D+ E+ DD+ EDStudiu cohort retrospectiv

D+ E+ DD+ EDStudiu cohort prospectiv

trecut

prezent

viitor

(a)

Timpul trecut Starea factorului de risc expusi afectiune prezenta neexpusi expusi afectiune absenta neexpusi
Figura II.27. Tipurile de studii epidemiologice - prezentarea schematic: (a) studii de tip cohort; (b) studii de tip case-control

prezent Starea afectiunii

(b)

101

Informatic Medical & Biostatistic

D. Parametri fundamentali n epidemiologie a. Indici n studii populaionale i - Prevalena unei boli ntr-o populaie: este proporia din populaia respectiv avnd boala (la un moment dat): N B +(t) Nr. indivizi avnd boala B (II.7.1) Pr v (B,t) N nr. populatie ii - Incidena unei boli: este numrul de cazuri ce apar ntr-un interval t (t1 ,t2) ntr-o populaie cu risc. Ea poate fi exprimat prin: . incidena cumulativ CI: proporia ntr-un grup fix predefinit (cohort) la care apare boala n intervalul specificat (fig. II.28).
inc CI (B, t) = N ( t ) N risc

nr. cazuri noi in t nr. populatie cu risc

(II.7.2)

Pentru exemplul din figura II.28. Prv (1 ian.95) = 4 4% 100 CI 7 (cazuri noi) 100 4 (cazuri existente la momentul t 1 )

7 96

7 ,4% pe perioada de 1 an

Figura II.28. Cazuri de hepatit B ntr-un lot de 100 persoane: calculul indicelui cumulative

. densitatea de inciden ID (numit i rata de inciden, rata de hazard sau fora morbiditii/mortalitii): este dat de numrul de cazuri noi ce apar ntr -un interval t (t1,t2) ntr-o populaie cu risc, studiat pe diverse perioade de timp. ntr -un studiu practic, pe o perioad ndelungat, din lotul iniial (tip cohort) se pierd o serie de persoane din diverse motive (se mut, mor din alte motive , nu continu tratamentul 102

D. Lungeanu, Gh.-I. Mihala

etc.). De aceea, cei care nu au fost prezeni ntreaga perioad nu se scot din studiu ci vor fi luai n considerare numai n msura n care situaia lor a fost cunoscut. inc nr. cazuri noi in t ID (B , t) = N ( t ) (II.7.3) * nr. mediu populatie cu risc pe interval N risc n figura II.29 este prezentat un model de eviden extins fa de cel din figura II.28. Din cohorta de 15 persoane cu risc (4 la 1 ian.1992, apoi 5 noi cazuri, 2 i respectiv 4 noi cazuri la fiecare nceput de an 93-95), la 9 a fost depistat afeciunea (1,3,6,7,8,9,10,12,14), care a determinat decesul n 5 cazuri (1,7,9,12,14); 2 au supravieuit pn la ncheierea studiului (3,6), 1 a fost pierdut din eviden (8), iar unul a decedat din alte cauze (10). Din restul de 6 persoane cu risc studiate (2,4,5,11,13,15) la ncheierea celor 5 ani de urmrire mai erau n eviden 4 (5,11,13,15), unul a fost pierdut din eviden (2) i unul a decedat din alte motive (4). Numrul total de ani de risc pe ntregul lot este suma coloanei din dreapta: 35,5 ani. Deci:
ID 9 35.5 0.25 cazuri/(persoana * an)

Dac loturile sunt omogene se poate folosi cu aproximaie relaia: CI ID x t (II.7.4) De asemenea, se poate aproxima o relaia ntre prevalen i inciden: Prr ID x T (B) (II.7.5) unde T (B) este durata medie a bolii. iii Rata de morbiditate (Mrb): este incidena unei boli ntr -o populaie, ntr-un anumit interval de timp (adesea 1 an).

Figura II.29. Studiu de urmrire a evoluiei unui lot cu risc de cancer

iv Rata de mortalitate: enumer cazurile de deces dintr -o populaie, ntr-un anumit interval de timp; se utilizeaz: - rata de mortalitate general: din orice cauz - rata de mortalitate specific pe cauze: separat, pe boli sau grup de boli - (de exemplu: cardiovasculare etc.) - rata brut de mortalitate: fa de ntreaga populaie - rata de mortalitate specific pe categorii: separat, pe anumite subgrupe de populaie - rata de mortalitate pe grupe de vrst 103

Informatic Medical & Biostatistic

- rata de mortalitate corectat, pe grupe de vrst - se fac corecii n funcie de distribuia pe grupe de vrst. v Rata de fatalitate a bolii: rata de deces ntr-o populaie avnd boala, ntr-un interval de timp. vi Rata de atac: pentru boli cu durat scurt, cnd durata observaiei acoper ntreaga epidemie, proporia celor ce dezvolt boala din populaia cu risc (= CI). b. Parametrii n analiza riscului i - Indicele odd (suportul succes / eec): este probabilitaqtea de apariie a bolii la cei expui fa de probabilitatea de a nu aprea boala la cei expui. Cu notaiile din tabelul II.21 putem scrie: ODD (E+) = N11 / N12 (II.7.6) ODD (E -) = N21 / N22 adic n cte cazuri prezena factorului de risc (E+ = subieci expui) are succes n declanarea bolii (N11) fa de situaiile de eec (N12); similar raportul succes / eec pentru condiia absenei factorului de risc (E - = neexpui). ii - Raportul odds (odds ratio): este raportul indicelui odd pentru grupul expus fa de cel neexpus la factorul de risc: ODD ( E ) N11 / N12 N11 N 22 (II.7.7) OR ODD( E ) N 21 / N 22 N 21 N12 iii - Riscul relativ: este probabilitatea de apariie a afeciunii la cei expui fa de probabilitatea de apariie a afeciunii la la cei neexpui la factorul de risc.
RR N11 / L1 N 21 / L2

(II.7.8)

Dac riscul relativ are valoarea RR 1 putem spune c factorul analizat nu reprezint un factor de risc, probabilitatea de apariie a afeciunii fiind la fel de mare i la lotul neexpus factorului de risc. Valori RR 1 dau o semnificaie aciunii factorului de risc. Pentru a estima intervalul de ncredere n care parametrul RR poate fluctua ntmpltor se folosesc limitele Cornfield pentru p = 95% probabilitate ca ipoteza de zero s fie adevrat. iv - Riscul atributabil: este diferena ntre probabilitatea de apariie a bolii la cei expui i cea de apariie a bolii la cei neexpui. Formula este: AR = N11 / L1 - N21 / L2 (II.7.9) n funcia de tipul studiu efectuat se mai pot defini i ali parametri pe care nu-i mai prezentm aici. E. Analiza multistratificat Deseori indivizii unei populaii sunt supui la aciunea simultan a mai multor factori de risc. Depistarea contribuiei fiecrui factor de risc la efectul final se realizeaz prin analiza multistratificat. Se alctuiesc tabele de forma celui din tabelul II.22.a.

104

D. Lungeanu, Gh.-I. Mihala

Tabel II.22.a. Prezentarea datelor ntr-un studiu cu doi factori de risc (fumat, cafea)

Lot: boal coronarian + Subiect Fumat 1 2 3 ..... 12 DA DA NU .....

Cafea (mg / zi) 1100 800 200 ..... 8/4

Lot: boal coronarian Subiect Fumat 1 2 3 ..... 12 DA NU NU ...... 3/9

Cafea (mg / zi) 1000 300 100 ......

400

716

O analiz superficial incomplet ne-ar putea induce ideea unui risc crescut al consumului de cafea asupra declansrii afeciunilor coronariene, conform centralizrii din tabelul II.22.b.
Tabel II.22.b. Influena consumului de cafea n bolile coronariene

Boal B+ B-

Consum zilnic mediu (mg) 716 400

O stratificare nct s se includ i fumatul, va scoate n eviden rolul dominant al acestuia (tabel II.22.c.).
Tabel II.22.c. Tabel stratificat: consumul mediu de cafea / zi la fumtori i nefumtori, respectiv coronarieni i necoronarieni

Fumat DA NU Medie

B+ 950 250 716

(n = 8) (n = 9) (n = 12)

B1000 (n = 3) 200 (n = 9) 400 (n = 12)

Medie 963 (n = 11) 216 (n = 13) 558 (n = 24)

Analizele multistratificate sunt destul de dificile; uneori este greu a discerne ntre factorul cauzal i ali factori asociai. Exist nite criterii definite de Hill care ar facilita aceast operaiune. 7.2. ANALIZA SUPRAVIEUIRII Un succes indiscutabil al medicinei moderne l prezint rezultatele tratamentelor n cazurile cu diagnostice severe. Depistarea precoce a afeciunilor grave i lrgirea paletei i eficienei tratamentelor au generart extinderea sensibil a speranei de via dup diagnosticarea bolii. Estimarea eficienei unor terapii i compararea tratamentelor se realizeaz prin studii epidemiologice. Dei pot fi retrospective, majoritatea studiilor sunt n general prospective, o serie de date necesare pentru analiza statistic nefiind disponibile pentru studiile retrospective. Capitolul din epidemiologie referitor la aceste studii, numit analiza supravieuirii i -a extins sfera de aplicabilitate i asupra altor tipuri de studii n care se urmrete pe o durat mare de timp (luni, ani) rezulatatul unei terapii. Studiile de acest gen au fost iniial solicitate de companiile de asigurri, ulterior devenind un capitol bine definit n epidemiologie.

105

Informatic Medical & Biostatistic

Metodologia acestor studii a fost standardizat, OMS publicnd n 1974 recomandrile UICC (Union Internationale Contre le Cancer): regulile TNM (tumori, noduli, metastaze). A. Caracteristicile studiilor de lung durat Studiile recomandate sunt de tip cohort prospectiv, ns n cazul unor perioade ndelungate (5-20 ani) apar o serie de factori de care trebuie s inem seama: - o serie de indivizi din lotul inial pot fi pierdui din eviden (i mut domiciliul, intervin alte tratamente etc.); aceste date lips pot s reprezinte uneori un procent nsemnat din ansamblul de date; pentru prelucrri aceste cazuri nu se abandoneaz ci se iau n considerare, dar numai pentru intervalul de timp pentru care situaia individului este clar cunoscut; - persoanele din lot triesc n condiii diferite astfel nct aceast heterogenitate face mai greu vizibil efectul datorat numai factorului de risc; - foarte des din ansamblul condiiilor putem desprinde unele care pot fi de asemenea considerate factor de risc, ce acioneaz sinergic sau competitiv cu fac torul urmrit de noi. B. Prezentarea i prelucrarea datelor a. Tabele de via Metodologia OMS sugereaz colectarea datelor pentru prelucrare sub forma unor tabele de via (life tables): Exemplu II.22. Datele sunt redate n tabelul II.23. Iat descrierea coloanelor: 1. Anul de observaie (i i+1): se calculeaz numrul de ani de la data nceperii trata mentului; de ex: un pacient care a fost prima dat tratat n 7 aprilie 1947 i a decedat n 24 noiembrie 1950 va fi considerat decedat n intervalul 3-4. 2. n via la nceputul intervalului (li ): primul numr (1000) indic numrul total de pacieni studiai; nu nseamn c toi au nceput tratamentul n aceeai zi; ei sunt luai n eviden pe msur ce sunt depistai i ncep tratamentul; n tab el intervalele se msoar pentru oricare pacient pornind de la ziua primului tratament. Numrul de indivizi cunoscui a fi n via la nceputul fiecrui interval (nceput de nou an de la luarea n eviden) se calculeaz din precedentul scznd d i, ui i wi , deci: (II.7.9.a) li 1 li (d i ui wi ) 3. Cei decedai (di) datorit bolii n intervalul i i + 1. 4. Pierdui din urmrire (ui): aici se includ cei a cror situaie, la data ncheierii studiului (31 decembrie 1960) nu este cunoscut, ns pentru care este cunoscut starea pn la un moment dat; de exemplu: un pacient care a nceput tratamentul n 20 Septembrie 1946 i era n via pe 6 iunie 1949, dup care nu se mai tie nimic, va fi considerat pierdut n intervalul 2-3. Aici sunt de obicei inclui i cei decedai din alte cauze. 5. Scoi din urmrire fiind n via la sfritul perioadei analizate (wi). n exemplul nostru perioada analizat se ncheia la 31 decembrie 1960; un pacient care a nceput tratamentul n 5 mai 1954 i este n via la 31 decembrie 1960 va fi scos din calcul n intervalul 6-7 (a supravieuit 6 ani i n-a fost urmrit mai mult). 6. Numrul efectiv al celor expui la riscul de deces (ni). Pacienii pierdui din urmrire (ui) i cei scoi din urmrire (wi) sunt considerai ca fiind distribuii uniform de-a lungul ntregului an, ei pot fi considerai ca expui timp de jumtate de interval; deci: ni li ( i wi ) / 2 (II.7.9.b) S-a presupus c probabilitatea de supravieuire pentru cei pierdui sau scoi din urmrire este aceeai ca i pentru cei rmai n eviden. 106

D. Lungeanu, Gh.-I. Mihala

7. Rata anual de mortalitate (qi) reprezint proporia celor decedai n fiecare an calculat ca probabilitate de deces: qi d i / n i (II.7.9.c) 8. Rata anual de supravieuire (pi) reprezint probabilitatea de a supravieui n intervalul i i+1 (calculat pentru cei n viat la nceputul intervalului):

pi

1 qi
i

(II.7.9.d) i + 1 se

9. Rata cumulativ de supravieuire de la nceput pn la inclusiv intervalul i calculeaz cu:

pi

p 1 p 2 ..... p i
j 1

pj

(II.7.9.e)

Tabelul II.23. Prezentarea datelor pentru prelucrarea prin metoda actuarial sub form de tabele de via. Exemplul se refer la un studiu la pacieni care au nceput tratamentul ntre 1946-1955 i urmrii pn la 31 decembrie 1960. (* din [UICC - TNM ])
1 2 Anul de observaie n via la nceputul intervalului Decedai n interval Pierdui din urmrire n interval n via la sfritul intervalului i scoi din urmrire Numrul efectiv de expui la riscul de deces Rata anual de mortalitate Rata anual de supravieuire Rata cumulativ de supravieuire pn la sfritul intervalului i - i+i li 0-1 1000 1-2 816 2-3 642 3-4 558 4-5 504 5-6 460 6-7 382 7-8 308 8-9 259 9-10 212 10-11 165

3 4

di ui

180 4

170 4

80 4

50 4

40 4

28 6

26 5

7 4

7 3

11 3

wi

44

43

38

37

33

165

ni

998

814

640

536

502

435

358

287

239

194

7 8

qi pi= 1-qi

0.180 0.820

0.209 0.791

0.125 0.875

0.090 0.910

0.010 0.920

0.064 0.936

0.073 0.927

0.024 0.976

0.029 0.971

0.057 0.943

Pi= p1 .p2 .pi

0.820

0.649

0.568

0.517

0.476

0.446

0.413

0.403

0.391

0.369

Curbele de supravieuire se ridic pe baza acestor valori pi. Aranjarea datelor sub forma unui tabel de acest tip este foarte convenabil n studiile de acest gen. b. Metoda actuarial Faptul ca practic nu dispunem de un lot pentru a ncepe un studiu de tip cohort-prospectiv n analiza supravieuirii impune colectarea datelor pe msur ce apar noile cazuri (vezi fig. II.29.). Pentru efectuarea calculelor vom considera o nou origine a timpului - n exemplul anterior a fost data primului tratament; toate intervalele se calculeaz n funcie de acest moment considerat 0 pentru fiecare individ. Metoda de calcul n funcie de aceast origine se numete metod actuarial. Pentru rata cumulativ a supravieuirii se poate calcula i eroarea standard conform relaiei lui Greenwood:

107

Informatic Medical & Biostatistic

Sp

pn
i 1

qi ni pi

(II.7.10)

De exemplu, pentru n = 10 ani de supravieuire 0,180 0,209 0,057 S p 0,369 ...... 0,017 998 0,820 814 0,791 194 0,943 Deci cu nivel de ncredere de 95%, intervalul pentru probabilitatea de a supravieui 10 ani va fi: p10 (0,369 2*0,017 ; 0,369 + 2*0,017) = (33,5% ; 40,3%) Tabelele de via construite dup modelul tabelului II.23 sunt adaptate pentru metoda actuarial care este mai exact dect aa numita metod direct n care apar doar rapoartele privind supraviuirea pe un interval larg (5 ani, 10 ani). c. Corectarea ratelor de supravieuire Concluziile pentru interpretarea ratelor de supravieuire se obin prin comparaie, fie ntre diferite grupe de vrst, fie cu rata general de supravieuire. n calcule pentru perioade ndelungate sau cuprinznd i pacieni mai n vrst este recomandabil a se face corecii n raport cu rata general de supravieuire. Dac notm cu P0 rata general de supravieuire n populaia general (grupele de vrst din care este extras lotul studiat), calculat n funcie de decesele din toate cauzele, atunci rata corectat (ntr-o prim aproximaie) pentru supravieuirea pe n ani este: * (II.7.11) pn pn / p0 Valoarea lui p0 se poate obine pentru orice ar din tabele generale de mortalitate. d. Curbe Kaplan-Mayer Cea mai sugestiv form de prezentare a rezultatelor unui studiu de supravieuire l constituie reprezentarea grafic, n funcie de timp a ratei cumu late de supravieuire pi = f(i) sau a ratei cumulate de mortalitate q i = 1 - pi = g(i), cunoscute sub numele de curbe Kaplan-Mayer. n figura II.30 sunt redate aceste curbe pentru exemplul din tabelul II.23. e. Teste Pentru compararea a dou rate de supravieuire se pot folosi diverse teste statistice, (fie cele corespunztoare comparrii proporiilor, fie testele t sau Wilcoxon).

Figura II.30. Curbele Kaplan-Mayer

108

D. Lungeanu, Gh.-I. Mihala

C. Aplicaii Analizele de tip actuarial, elaborate iniial pentru companiile de asigurri au fost extinse pentru numeroase alte situaii ce implic urmrirea unei terapii: prelucrri dentare, implant cardiac, transplant de rinichi, diverse alte tipuri de protezare, etc. n ultimul timp s-au eleborat i modele teoretice utilizate pentru simularea fenomenelor reale, n aceast direcie fiind cunoscut modelul lui Cox care folosete o funcie hazard pentru descrierea matematic a ratei de mortalitate, sau modelul Cormack - Mc Kendrik pentru rspndirea epidemiilor.

BIBLIOGRAFIE SI REFERINTE
DC Altman. Practical statistics for medical research. Chapman&Hall/CRC, Boca Raton, 1999 P Armitage, G Berry. Statistical methods in medical research (2nd Ed.). Blackwell Scientific Publications, Oxford, 1987 RG Knapp, M Clinton Miller: Clinical epidemiology and biostatistics. Williams & Wilkins, Baltimore, 1992 DJ Sheskin. Handbook of parametric and nonparametric statistical procedures (3rd Ed.). Chapman & Hall/CRC, Boca Raton, 2004 Tabele de distribuii statistice: http://www.statsoft.com/textbook/sttable.html Wikipedia. Teste statistice neparametrice (inclusiv tabele cu valorile critice): http://en.wikipedia.org/wiki/Nonparametric_test

109

Informatic Medical & Biostatistic

110

D. Lungeanu, Gh.-I. Mihala

Partea a

III-a

SEMNALE I IMAGINI BIO-MEDICALE

111

Informatic Medical & Biostatistic

112

D. Lungeanu, Gh.-I. Mihala

1. PRELUCRAREA SEMNALELOR BIOLOGICE


INTRODUCERE Unul dintre capitolele cele mai bine dezvoltate ale informaticii medicale l constituie cel referitor la prelucrarea semnalelor biologice. Funcionarea oricrui organism viu este nsoit de o permanent modificare n timp a unor parametri (bio)fizici i (bio)chimici. Determinarea i nregistrarea acestor parametrii a condus la rezultate tiinifice importante, fiind elaborate o serie de metode de investigare bazate pe culegerea lor. Dezvoltarea deosebit a acestor metode este n bun msur i datorat finanrii unor astfel de cercetri de ctre firmele productoare de aparatur medical. Astzi nici nu se mai produc electrocardiografe sau electroencefalografe fr modelul de prelucrare computerizat. n acest capitol vom trece n revist principalele aspecte referitoare la prelucrarea semnalelor biologice, pornind de la achiziia i filtrarea semnalelor i analiznd apoi principalele tipuri de prelucrri ale semnalelor quasi-periodice (ECG) i neperiodice (EEG).

1.1. SEMNALE BIOLOGICE 1.1.1. Definiie. Fazele prelucrrii unui biosemnal Dup cum am menionat mai sus, investigaia medical modern cuprinde urmrirea evoluiei n timp a unor parametri (bio)fizici sau bio(chimici). Vom numi semnal biologic evoluia n timp a unei mrimi biologice. Culese n forma lor natural, semnalele biologice sunt nsoite de o serie de zgomote pe care dorim s le nlturm, iar din semnalul astfel curat dorim s extragem informaia coninut de semnal reprezentat prin parametrii relevani pentru a caracteriza procesul generator al semnalului i care s fie utili n decizia medical. Putem distinge astfel principalelele faze ale prelucrrii unui semnal biologic (fig. III.1): - culegerea (achiziia) semnalului - prelucrarea (transformarea, reducerea) semnalului - calculul parametrilor caracteristici - clasificarea sau interpretarea semnalului, cu scop diagnostic. Primele dou faze se refer la "sintaxa" semnalului, adic depistarea componentelor elementare ale semnalului i urmrirea succesiunii acestora iar ultimele dou se refer la "semantica" semnalului, adic semnificaia acestor componente (individual sau grupate). 1.1.2. Clasificarea semnalelor biologice Sunt posibile mai multe clasificri ale semnalelor biologice, din diferite puncte de vedere. a) Dup natura semnalului: - biosemnale electrice, de ex: = semnalul electrocardiografic ECG, datorat activitii electrice a inimii

113

Informatic Medical & Biostatistic

= semnalul electroencefalografic EEG, datorat manifestrilor electrice ale activitii creierului = semnalul electromiografic EMG, datorat fenomenelor electrice ce nsoesc activitatea muscular etc. - biosemnale neelectrice de ex.: = fonocardiograma, nregistrat din manifestrile sonore ce nsoesc ciclul cardiac = semnalul Doppler, reprezentat de variaia frecvenei ultrasunetelor reflectate de suprafee n micare etc. n principiu, orice mrime biologic a crei evoluie n timp prezint importan (temperatur, pH, concentraia unor ioni etc.) poate fi considerat semnal biologic i poate fi suspus unor metode de prelucrare cu ajutorul calculatoarelor.

Figura. III. 1. Fazele prelucrrii semnalelor biologice. Cercurile reprezint "forma" n care este prezentat semnalul ntr-o anumit faz. Dreptunghiurile reprezint fazele de prelucrare (tipuri de programe)

b) Dup evoluia n timp Semnale deterministe (comportarea semnalului la orice moment poate fi predeterminat) semnale periodice: semnale sinusoidale armonice (fig. III 2.a) semnale cvasiperiodice: (de exemplu ECG) n care o succesiune de evenimente se repet cu o anumit periodicitate (fig.III 2.b) semnale tranzitorii: (de exemplu potenialul de aciune celular) care apare numai la stimulare; forma este aceeai ori de cte ori repetm stimularea Semnale stochastice (sau aleatoare): - valoarea semnalului la un moment dat nu poate fi determinat din valorile n momentele anterioare. semnale staionare: (de exemplu EEG) n care anumii parametri (de exemplu media) rmn constani (fig.III. 2.d) 114

D. Lungeanu, Gh.-I. Mihala

semnale nestaionare: (de exemplu EMG) n care i parametrii statistici depind de timp (fig. III. 2.e).

Figura III.2. Clasificarea semnalelor biologice: deterministe: a, b, c, i stochastice: d, e. Subdiviziuni: a: semnal periodic (und sinusoidal); b: semnal cvasiperiodic (ECG); c: semnal transzitoriu (potenial de aciune); d: semnal aleator staionar (fusuri alfa n EEG); e: semnal aleator nestaionar (EEG). [Van Bemmel&Musen 1997]

O categorie aparte de semnale o constituie aa-numitele "trenuri de impulsuri" (procese punctiforme - "point processes") n care nu ne intereseaz forma semnalului ci numai apariia sau nu a unui impuls (exemplu: apariia undelor R n semnalul ECG sau impulsurile nervoase pe axoni); aceste semnale se descriu prin aa-numitele impulsuri Dirac - funcii care au valoarea zero peste tot, exceptnd intervalele foarte scurte n care apar evenimentele. 1.1.3. Electrozi de culegere. Traductori Semnalele de natur electric (ECG, EEG, EMG, etc.) reprezentnd manifestri electrice ale fenomenelor studiate (ale inimii n EEG, ale creierului n EEG, ale muchiului n EMG) sunt culese cu ajutorul unor electrozi pui n contact cu esutul analizat sau cel mai adesea pe piele n regiuni n care se proiecteaz aceste activiti electrice. De obicei aceti electrozi sunt confecionai dintr -un metal impolarizabil (Ag), acoperii cu un tifon umezit cu soluie salin sau gel conductor, pentru a asigura un bun contact electric. Cel mai adesea aceti electrozi de culegere sunt meninui n poziia de contact cu ajutorul unor benzi de cauciuc. Este bine a se acorda atenie fixrii acestor electrozi i asigurarea unui contact bun pentru a evita o ntreag gam de artefacte posibile. Asistentele experimentate depisteaz rapid electrozii plasai incorect. Semnalul electric cules de aceti electrozi este filtrat i amplificat fiind n continuare supus operaiilor de prelucrare. n cazul semnalelor care nu sunt de natur electric ci de alt natur (mecanic: contracii, chimic: concentraii etc.), se folosesc dispozitive numite traductori care transform semnalul original n semnal electric. Actualmente s-au realizat traductori care pot transforma n semnal electric aproape orice tip de mrime: presiune, for, temperatur, deplasare, pH, concentraia unei substane (n ultimul timp s-au realizat "biosenzori" pentru unele molecule organice) etc. Exist n momentul de fa o adevrat curs pentru realizarea unei palete largi de biosenzori, pe de o parte pentru comoditatea de lucru comparativ cu metodele chimice (rspuns rapid, fr manevre suplimentare, suficient de precis), pe de alt parte pentru posibilitatea urmririi n timp a parametrilor pentru o perioad mai ndelungat de timp. Semnalele bioelectrice au n general valori foarte mici (milivoli, chiar microvoli) i de aceea trebuiesc amplificate nainte de nceperea prelucrrii. 115

Informatic Medical & Biostatistic

1.2. ACHIZIIA BIOSEMNALELOR 1.2.1. Sisteme de culegere a biosemnalelor Dup cum am menionat mai sus, semnalele biologice pot fi culese n dou moduri: a) n cazul n care biosemnalul nu este de natur electric se folosec traductori care transform semnalul original n semnal electric. b) n cazul n care biosemnalul este electric se folosec pentru culegere nite electrozi de culegere care pot fi: - electrozi superficiali (de exemplu n ECG, EEG), care se aplic la suprafaa tegumentelor; pentru a asigura o bun conducere electric suprafeele unde se aplic electrozii (de obicei argintai, acoperii cu tifon) se umezesc cu soluie salin sau gel salin. - electrozi-ac, de exemplu n EMG, n cadrul metodelor invazive. 1.2.2. Conversia analog-numeric Semnalul cules i amplificat se prezint uzual ca o succesiune continu n timp a unor diferene de potenial, fiind deci un semnal analogic. Pentru a putea prelucra un semnal cu ajutorul unui calculator numeric este necesar a transforma semnalul analogic (continuu), ntr-o succesiune de valori numerice, care reprezint un semnal numeric (sau digital). Transformarea se face prin "citirea" valorilor semnalului real (continuu) la anumite intervale de timp. Definiie. Transformarea unui semnal analogic (continuu) n semnal numeric discret (digital) se numete conversie analog-numeric (digital). Deci descrierea numeric a unui semnal este o descriere discontinu (discret). Dac intervalul de timp ntre dou "citiri" succesive este suficient de scurt, descrierea este fidel. Realizarea conversiei analog-numerice cuprinde dou elemente fundamentale: eantionarea i cuantizarea. ncadrarea convertorului analog-numeric (CAN) n schema de achiziie a unui semnal este prezent n fig. III.3.

Figura III.3. Plasarea convertorului analog numeric CAN n sistemul de achiziie a semnalului EEG ntre pacientul P i calculatorul K. Sistemul de conexiune a electrozilor E este legat de electroencefalograf EEG. Semnalul analogic exprimat de amplitudinea A( V) funcie de timp este "digitizat", devenind semnal numeric exprimat pe n bii. Dac s-ar folosi filtre, atunci filtrul analogic FA s-ar plasa nainte de CAN iar cel numeric FN dup CAN

a) Eantionarea semnalelor Operaia de discretizare a axei orizontale (abscisa) a unui semnal se numete eantionare. Cum pe abscis noi reprezentm timpul, putem spune c eantionarea reprezint "citirea" semnalului la intervale discrete de timp. Putem astfel defini dou mrimi caracteristice ale eantionrii: perioada de eantionare i frecvena de eantionare. 116

D. Lungeanu, Gh.-I. Mihala

Perioada de eantionare a unui semnal reprezint intervalul de timp ntre dou citiri succesive ale valorilor semnalului. Numrul de citiri ale semnalului n unitatea de timp se numete frecven de eantionare. Dac notm perioada de eantionare cu Te i frecvena de eantionare cu fe, atunci: fe = 1 /Te sau Te = 1/fe (III.1) Cnd perioada de eantionare se exprim n secunde (s) obinem frecvena de eantionare n herzi (Hz).

Figura III.4. Conversia analog-numerica: eantionarea i cuantizarea, cu linie continu este reprezentat semnalul real; cu linie intrerupt este reprezentat semnalul eantionat. Cunoatem doar valorile msurate n punctele de citire (la intervalele de timp date de perioada de eantionare Te). Distana q dintre dou trepte de amplitudine determin precizia citirii valorilor

Un exemplu de eantionare greit a semnalului este prezentat n fig. III.5. stnga. Se observ c perioada de eantionare aleas este prea mare; avem o variaie att de rapid a semnalului nct ea va trece neobservat. De aceea, pentru a urmri semnalul real cu fidelitate trebuie s alegem o perioad de eantionare foarte scurt, deci o frecven de eantionare ridicat. Dac notm frecvena maxim a semnalului (numit i frecven Nyquist) cu fmax atunci frecvena de eantionare trebuie s respecte condiia (III.2): fe 2*fmax (III.2)

Aceast condiie se mai numete "teorema de eantionare" sau teorema Shannon-Nyquist, care se enun astfel: Frecvena de eantionare trebuie s fie cel puin dubl fa de frecvena maxim a semnalului. n figura III.5.dreapta s-a crescut frecvena de eantionare i nu se mai pierd detaliile privind variaiile semnalului.

117

Informatic Medical & Biostatistic

Figura III.5. Ilustrarea teoremei de eantionare

Am fi tentai s credem c este foarte bine s lum o frecven de eantionare ct mai mare, ns aceast cretere duce la achiziionarea unui numr ridicat de valori numerice pentru acelai interval de timp, determinnd o cretere substanial a timpului de prelucrare (fr a obine totdeauna o cretere semnificativ a calitii rezultatelor). De aceea frecvena de eantionare se alege la dublul frecvenei Nquist sau uor peste aceast valoare. Uzual se folosesc frecvene de eantionare de 60-100 Hz (EEG), 250-500 Hz (ECG), pn la 1-10 kHz (EMG; poteniale evocate). b) Cuantizarea semnalelor Intervalul de valori cuprins ntre valorile extreme posibile (minim i maxim) ale semnalului se mparte ntr-un numr N de trepte de amplitudine, astfel nct practic se citesc valorile corespunztoare treptelor date de q (fig III.4). Cu ct numrul de trepte este mai mare, cu att precizia de citire este mai bun. Valorile citite se exprim n sistem binar. De aceea, cel mai adesea numrul treptelor de amplitudine este o putere a lui 2. De exemplu, pentru 256 trepte, o valoare citit este exprimat pe 8 bii, cci 256 = 28. Se obinuiete s se caracterizeze un convertor analog-numeric prin numrul de bii prin care se reprezint o valoare citit. n majoritatea tipurilor de prelucrri ntlnite la analiza semnalelor biologice se folosete o reprezentare pe 12 bii, (uneori sunt suficienti 8 sau 10 bii). Mai rar (poteniale evocate, EMG) se folosesc convertoare pe 16 bii. Relaia ntre N - numrul treptelor de amplitudine (cuantizare) i n- numrul de bii prin care se exprim valoarea citit de CAN este: N = 2n (III.3)

Putem astfel exprima sensibilitatea de citire a CAN, adic variaia potenialului de intrare care corespunde unei modificri de 1 bit a valorii citite. Aceast sensibilitate se mai numete rezoluie de amplitudine sau precizie de citire sau cuant de citire i are valoarea:

V
unde:

V max V min N

V max V min 2n

(III.4)

Vmax, Vmin sunt valorile extreme posibile ale semnalului N - numrul de trepte de amplitudine (cuantizare) n - numrul de bii ai CAN.

118

D. Lungeanu, Gh.-I. Mihala

1.2.3. Multiplexarea De obicei nregistrarea biosemnalelor se realizeaz folosind mai muli electrozi de culegere care se aranjeaz n diferite moduri numite derivaii, cel mai adesea standardizate. Fiecare electrod culege semnalul pentru un canal. Echipamentele de conversie analognumeric permit nregistrarea pe mai multe canale folosind un singur convertor care este comutat pe rnd la toate canalele cu ajutorul unui dispozitiv numit "multiplexor". n cadrul programelor trebuie s se in cont de ntrzierea dintre citirile efectuate pe diferite canale. Exist i multiplexoare care citesc valorile pe toate canalele aproape n acelai moment (cu o frecven de eantionare foarte ridicat); dup o pauz urmeaz o nou "salv" de citiri. 1.3. SPECTRE DE FRECVEN I FILTRARE 1.3.1. Reprezentarea semnalelor Semnalele se pot reprezenta ca o funcie de timp [ampl.= f(timp) - evoluia n timp a unei mrimi] sau ca o funcie de frecven [ampl. = f(frecvena) sau putere = f(frecvena) - punnd n eviden compoziia semnalului]. Reprezentrile n funci e de frecven se numesc spectre de frecven. Figura III.6 arat spectrele de frecven ale unor semnale periodice uor de identificat (A, B i C) i a unui semnal neperiodic (D). 1.3.2. FILTRAREA BIOSEMNALELOR Zgomote Semnalele bioelectrice au n general valori foarte mici iar aciunea de culegere a lor este nsoit de culegerea unor zgomote care perturb (uneori foarte puternic) semnalul. Pentru a mbunti raportul ntre semnalul util i zgomot, odat cu amplificarea semnalului se realizeaz i o filtrare pentru eliminarea zgomotelor. Pentru a putea nltura n mod specific zgomotele (parial sau total) s urmrim o clasificare a lor. Clasificarea zgomotelor se poate face din mai multe puncte de vedere. a) Dup evoluie: - zgomote (cavsi)periodice, numite i zgomote "roz", n care sunt predominante anumite frecvene, - zgomote neperiodice, numite i zgomote "albe" n care frecvenele componente au aceeai probabilitate. b) Dup tendin: - zgomote sistematice - de exemplu cele datorate unui electrod plasat necorespunztor, - zgomote ntmpltoare. c) Dup origine: - la culegere - datorate amplasrii nepotrivite a electrozilor sau unor contacte electrice nesatisfctoare - la amplificare - majoritatea amplificatoarelor amplific neuniform diferite domenii de frecven; ponderea acestor zgomote este destul de redus, aparatele moderne avnd amplificatoare de bun calitate, - artefacte "bio" - se ntmpl uneori ca, pe lng semnalul dorit a se nregistra, s fie culese i alte semnale (de exemplu semnal electrocardiografic suprapus peste EEG sau artefactele de respiraie n nregistrarea ECG).

119

Informatic Medical & Biostatistic

Figura III.6. Spectrele diferitelor tipuri de semnale: a) Un semnal sinusoidal cu frecvena f = 2Hz i spectrul su n A. b) Un semnal de 4,5 Hz cu amplitudine mai mic i spectrul su n B. c) Semnalul rezultat din suprapunerea semnalelor din a) i b); spectrul su n C cuprinde dou linii (cu linie ntrerupt este prezentat spectrul cnd se prelucreaz un tronson mai scurt din semnal). d) Pentru un semnal neperiodic, spectrul (D) este continuu. [Popescu 1988]

Tipuri de filtre a) Dup regiunea admis (figura III.7) - filtru "trece sus" (fig.III.7.a) care las s treac toate frecvenele f fo - filtru "trece jos" (fig. III.7.b) care las s treac numai frecvenele f fo - filtru "trece band" (fig. III.7.c) care las s treac frecvenele cuprinse ntre dou limite: fi f fs - filtru "oprete band" (fig. III.7.d) are frecvenele f fi i f fs - filtru "ac" de tip "oprete" (sau "trece") n care regiunea dintre cele dou limite fi - fs este foarte ngust; se utilizeaz n special pentru eliminarea perturbaiilor produse de posturile locale de radio; b) filtre analogice - filtre numerice: cele analogice sunt utilizate ca dispozitive fizice nainte de intrarea semnalului n convertorul analog-digital, n timp ce filtrele numerice se aplic semnalului deja digitizat (fig. III.3 arat plasarea lor); c) filtre fr memorie - cu memorie: cele fr memorie au ca secven de ieire o sum ponderat a unei perioade finite de intrare si au avantajul unei ieiri identice pentru aceeai intrare; filtrele cu memorie in cont de un numr de ieiri anterioare i au avantajul de a folosi un numr redus de coeficieni pentru ieire, ns necesit o iniializare; d) filtre nerecursive - recursive: n cazul filtrelor digitale calculul coeficienilor pe cale recursiv este redus;

120

D. Lungeanu, Gh.-I. Mihala

Figura III.7. Tipuri de filtre clasificare dupa regiunea admis: anumite frecvene sunt lsate s treac, pe cnd altele sunt nlturate

e) filtre generale - dedicate: cunoscnd caracteristicile semnalului, raportul semnal-zgomot este mbuntit n filtrele construite special pentru domeniul de frecvene i amplitudini dorit, precum i pentru tipul de unde; deoarece n multe semnale biologice apar att fenomene mai lente, chiar filtrele special construite pentru un anumit tip de semnal pstreaz un caracter mai general; f) filtre invariante n timp - filtre adaptive: construcia unui filtru ale crui caracteristici frecveniale s se adapteze semnalului necesit un semnal de referin, care n unele situaii poate fi generat - fiind astfel posibil s se suprime unele interferene nedorite n semnal; g) filtre liniare - neliniare: se definesc n funcie de relaia diferitelor componente n structura spectral a semnalului de ieire, funcie de cea de intrare. 1.4. PRELUCRAREA SEMNALELOR CVASI PERIODICE. SEMNALUL ELECTROCARDIOGRAFIC Semnalele cvasi-periodice, dintre care semnalul electrocardiografic (ECG) este cel mai reprezentativ, necesit o prelucrare n care se pornete de la detecia perioadei, urmat de detecia unor evenimente n cadrul perioadei i caracterizarea parametric a undelor i/sau intervalelor. 1.4.1. Semnalul ECG Semnalul ECG reprezint un semnal electric de mic amplitudine ce reflect la nivel superficial activitatea electric a inimii. Inima este un organ ce reprezint un automatism funcional. Declanarea unei revoluii cardiace ncepe printr-o depolarizare a nodului sino-atrial care se propag la nodul atrioventricular. Aceast depolarizare este reprezentat n traseul ECG (vezi figura III.8) prin unda P. Unda de depolarizare se propag genernd depolarizarea ventricular reprezentat de complexul QRS, urmat de repolarizare reprezentat de unda T. n cazuri patologice se observ diverse modificri, prelucrarea cu calculatorul avnd scopul de a crete sensibilitatea sesizrii acestor modificri i a realiza clasificarea lor.

121

Informatic Medical & Biostatistic

Figura III.8. Traseul ECG normal

1.4.2. Achiziia semnalului ECG Ca pentru orice semnal, conversia analog-digital, conform teoremei de eantionare a lui Shannon, preia semnalul filtrat (n general filtre "trece" de band 0,5-40 Hz), apoi l eantioneaz (actualmente se folosete fe=250 - 500 Hz) i l cuantizeaz pe 8, 10 sau 12 bii. Rezultatele obinute cu o frecven de eantionare constant sunt destul de bune, ns, datorit faptului c ritmul cardiac nu este constant, se poate ntrebuina i o frecven de eantionare adaptabil la ritm, astfel ca fiecare btaie a inimii s fie mprit n acelai numr de puncte. Dezvoltarea unor aplicaii care s sesizeze toate abaterile posibile ale semnalului de la normal a concentrat nsemnate eforturi, ilustrate ntr-o bogat literatur consacrat acestei teme: - programe pentru interpretarea ECG n cele 12 derivaii - programe pentru vectocardiograme - programe pentru ECG i VCG - pograme pentru ECG i VCG n efort. 1.4.3. Detecia perioadei n cadrul semnalelor (cvasi-)periodice este esenial detecia perioadei intervalul de timp dup care se repet acelai ciclu de evenimente. Din punct de vedere funcional perioada este definit ca intervalul ntre nceputul cascadei de evenimente care debuteaz cu depolarizarea nodului sino -atrial (nceputul undei P) i nceputul urmtorului ciclu, adic intervalul ntre dou unde P (fig. III.9). Unda P, avnd amplitudine mic (0,1 - 0,2 mV), este detectat destul de greu de catre algoritmii utilizati n aplicaiile de prelucrare automat. De aceea aceste programe utilizeaz ca repere unde de amplitudini mari, de exemplu unda R (cca 1mV). Se definete astfel perioada detectabil R-R. 122

D. Lungeanu, Gh.-I. Mihala

Metoda uzual de detecie se numete "metoda interseciei de nivel". Se alege un nivel de referin (de ex. 0.9 mV) i se compar fiecare punct cu aceast valoare; se rein indicele punctului la o prim traversare a nivelului i cel al traversrii urmtoare. Cunoscnd frecvena de eantionare i cei doi indici se calculeaz imediat intervalul de timp ntre dou bti.

Figura III.9. Detecia perioadei prin metoda interseciei de nivel

Nivelul de intersecie trebuie ales corespunztor. Pentru a fi ct mai aproape de vrful undei R s-ar recomanda o valoare ridicat, ns exist riscul de a pierde bti, deoarece nu toate vrfurile R au aceeai amplitudine (nivelul H n fig. III.9). n plus, s nu uitm c este vorba de un semnal eantionat i rareori citim chiar valoarea de vrf. Pe de alt parte, la coborrea nivelului de intersecie se reduce (pn la anulare) riscul de a pierde bti cardiace, dar apare riscul interseciei cu unda T care ajunge uneori la aproape jumtate din amplitudinea undei R i va fi deci interpretat ca o nou btaie (nivelul L n fig. III.9). De obicei se estimeaz amplitudinea a cca 10 vrfuri R succesive, i se ia ca nivel de intersecie o valoare de 75-80% din media acestor vrfuri (nivelul M n fig. III.9). n programele actuale detecia perioadei se realizeaz foarte exact. Exist numeroase programe care rein aceste perioade pe o durat ndelungat fcnd posibil reprezentarea grafic a evoluiei pulsului pacientului. 1.4.4. Etapele interpretrii ECG Dei programele enumerate difer prin unele caracteristici, toate urmresc anumite elemente fundamentale, prin reducerea i transformarea semnalului ntr-un set de civa parametri semnificativi pentru deciziile ulterioare. Etapele, indiferent de metodele specifice prin care se realizeaz cuprind: a) detecia complexelor QRS b) detecia artefactelor: - corecia liniei de zero - artefacte musculare c) tipificarea complexelor QRS d) tipificarea ST-T e) detecia undelor P f) selecia i medierea ciclurilor g) recunoaterea undelor h) recunoaterea pattern-ului, cuprinznd: - extragerea parametrilor - clasificarea - programe de diagnostic. Majoritatea sistemelor utilizate divid prelucrarea n etapele menionate, fiecare etap reprezentnd un modul program ce conine un set independent de subrutine. 123

Informatic Medical & Biostatistic

Modulele sunt conectate la dispozitivul de stocare a datelor printr-o interfa software. Sistemele sunt, n general, independente de frecvena de eantionare, care variaz ntre 250 i 500 Hz. De asemenea, modulele trebuie s fie independente de derivaiile analizate. n majoritatea cazurilor, cele 12 derivaii sunt mprite n 4 grupe de cte 3 derivaii culese simultan. 1.4.5. Descrierea modulelor de prelucrare ECG Din punct de vedere al informaticianului, sarcinile ce trebuie rezolvate n prelucrarea ECG determin mprirea n module: 1. introducerea datelor: este un modul ce dirijeaz convertorul la culegerea datelor, fie pe o band magnetic, fie on-line de la pacient 2. detecia QRS: este primul pas n toate sistemele; fiecare derivaie este inspectat pentru prezena spike - urilor i se determin un punct de referin ("punct fiducial") n complexele QRS; este dificil separarea unui QRS de un artefact puternic n vecintatea sa 3. detecia artefactelor: n cazul depirii unor nivele, n unele derivaii, datele pot fi filtrate sau eliminate n cazul nivelelor de saturaie 4. clasificarea QRS: complexele QRS detectate sunt grupate n familii, dup forma undelor, stabilindu-se tipul dominant; se msoar i fluctuaia intervalului ntre complexe QRS succesive, util n analiza ritmului; tot acum se evalueaz dac abaterile liniei de baz depesc un anumit nivel 5. tipificarea ST: se detecteaz nceputul segmentului ST (punctul "J" jonction), se compar ntre ele segmentele ST - T ale complexelor QRS dominante i se rein pentru mediere cele asemntoare 6. detecia undelor P: este cercetat activitatea atrial, detectndu-se undele P, att cele la distan fix de QRS, ct i cele la distan variabil; se detecteaz i flutterul atrial, dac este present 7. modulul btaie: cnd s-au gsit suficiente complexe QRS cu segmente STT asemntoare, se mediaz cu punctul de referin gsit n detecia QRS 8. durata QRS: se determin nceputul i sfritul complexelor QRS mediate; aceasta se efectueaz pentru cele trei derivaii simultan n fiecare grup de derivaii 9. durata P: se poate stabili numai dac distana fa de nceputul complexului QRS este fix; se efectueaz simultan n cele trei derivaii din fiecare grupare 10. sfritul undei T: stabilirea sfritului undelor T 11. parametrizarea: pentru fiecare derivaie se rein amplitudinea i durata Q, R, S i amplitudinile P, T (uneori i ali parametri) 12. ritmul: se realizeaz o clasificare a ritmului, conform datelor furnizate de modulele anterioare 13. clasificare a conturului: se efectueaz att pentru ECG ct i n VCG; se utilizeaz adesea codul Minnesota i programul de diagnostic stabilite de sistemele IBM i Mayo Clinic 14. prezentarea rezultatelor: modulul de ieire cuprinznd unii parametri, graficul complexelor mediate i diagnosticul. Dup cum se observ, modulele 2, 3, 6, 8, 9, 10 se refer la probleme tipice de detecie, restul fiind module de recunoatere a formelor (11 de tip extragerea atributelor, iar 4, 5, 12, 13 de clasificare). 1.4.6. Descrierea etapelor de detecie a) Detecia QRS poate fi efectuat prin algoritmi pentru cte o derivaie sau pentru mai multe derivaii. Cea mai uzual tehnic detecteaz un prag stabilit. Semnalul original este filtrat (filtru trece band), iar fiecare traversare a pragului ntr-un anumit sens 124

D. Lungeanu, Gh.-I. Mihala

este reinut; se introduce apoi selecia, prin eliminarea traversrilor la intervale prea scurte fa de precedentele. O alt metod, propus de Udapa i Murthy, utilizeaz descrierea sintactic a complexelor ventriculare i supraventriculare pentru analiza ritmului. Se introduc 7 simboluri pentru aprecierea fiecrui segment de eantionare, conform pantelor (0, uor, mediu sau puternic, pozitive sau negative); semnalul este transformat ntr-o propoziie. Se definesc gramatici pentru complexele ventriculare, care sunt recunoscute prin analiz sintactic (analiza propoziiilor). n cazul analizei simultane pe mai multe derivaii, n special n VCG, se definesc vectori tridimensionali (n cazul a 3 derivaii) i se introduce termenul de vitez spaial pentru variaia vectorului; complexul QRS este detectat dac viteza spaial depete un prag; deseori analiza pe mai multe derivaii utilizeaz intervalul de suprimare folosit n analiza pe o singur derivaie. Detecia QRS fiind o problem fundamental n analiza semnalului ECG, programele sunt n continu mbuntire, ajungndu-se n momentul de fa ca numrul erorilor (QRS fals pozitive i fals negative) s fie destul de redus. b) Detecia artefactelor. Calitatea semnalului de intrare este o condiie esenial pentru interpretarea traseului, indiferent dac este efectuat de om sau computer. Artefactele traseelor nregistrate pot fi mprite n 5 categorii, fiecare cu caracteristicile sale: - devierea liniei de baz - interferena frecvenei reelei de curent - artefacte musculare - spike-uri - saturaia de amplitudine prin modificri brute ale liniei de baz. Fiecare tip de artefact necesit metode specifice de detecie i corecie. . devierea liniei de zero este o perturbaie de joas frecven, datorat respiraiei sau micrii pacientului. Aceste devieri sunt imprevizibile i deci greu de corectat. Sunt posibile mai multe ci de corecie, cea mai uzual fiind metoda lui Riedl. Din semnalul eantionat se selecteaz fiecare al 20-lea punct (care poate aparine fie liniei de baz, fie unei unde); se elimin punctele cu variaii mari fa de cele vecine i se netezete curba, obinndu-se profilul liniei de baz, ce va fi considerat linie de zero; prin scderea ei din semnalul original se obine semnalul corectat (fig.III.10); . interferena frecvenei reelei este o perturbaie previzibil i corecia se poate efectua prin filtrare. Este, totui, important de remarcat c unele componente din complexul QRS se situeaz n acelai domeniu de frecvene cu frecvena retelei de alimentare i astfel se produce o perturbare nedorit a semnalului original. Mortara a descris o tehnic neliniar de estimare a interferenei reelei, bazat pe predicia semnalului la momentul ulterior; este astfel posibil o filtrare numeric, dar complexele QRS pot fi afectate i n aceast situaie; . artefactele musculare au un spectru mai larg de frecven i apar, de regula, n nregistrrile n timpul efortului; o filtrare de joas frecven reduce, n general, contribuia lor la distorsionarea semnalului; . spike-urile, prin durata lor, deosebit de scurt, pot fi recunoscute mai uor i eliminate printr-o procedur de comparaie cu punctele vecine; la frecvene de eantionare mai mici, exist pericolul de confuzie cu componentele QRS;

125

Informatic Medical & Biostatistic

Figura III.10. Exemplu de corecie a liniei zero. [Popescu 1988]

. saturarea n amplitudine este tot o deviere a liniei de baz, ns brusc; corecia se face similar, introducnd condiia de eliminare prin comparaia mai multor puncte vecine; n general, prin aceast corecie se pot pierde unele complexe QRS, deci zonele corectate se eticheteaz. c) Tipificarea QRS: dei este n mare msur o problem de recunoatere a pattern-ului, (fig. III.11) are unele aspecte specifice:

Figura III.11. Tipuri de complexe QRS. [Popescu 1988]

- alinierea complexelor QRS nainte de extragerea atributelor este necesar dac la detecie s-a utilizat direct amplitudinea semnalului i nu derivata sa; alinierea se realizeaz prin modificarea poziiei relative a ntregului complex n raport cu punctul de referin (metoda utilizat este maximizarea coeficientului de corelaie ntre complexe); - alegerea parametrilor pentru extragerea atributelor ofer o palet larg de posibiliti privind punctele de calcul ale amplitudinilor i duratelor. Diferitele programe enumerate la nceputul paragrafului utilizeaz seturi variate de atribute, folosind fie valori culese, fie valori de interpolare; se susine adesea c o frecven de eantionare ridicat (500 Hz) ar deveni preferabil prin calitatea oferit n aceast prelucrare. d) Tipificarea ST - T este, de asemenea, o problem abordabil n stilul clasic al recunoaterii pattern - ului (fig. III.12). 126

D. Lungeanu, Gh.-I. Mihala

Figura III.12. Variante de segmente ST. [Popescu 1988]

Situaii mai deosebite apar cnd corecia liniei de baz a fost insuficient; ele pot fi lesne confundate de computer cu modificri ale conduciei ventriculare. Totui, dac pentru mediere au rmas suficiente segmente ST -T, zgomotul introdus este n mare msur suprimat.

Figura III.13. Exemplu cuprinznd paii de prelucrare a funciei de autocorelaie pentru detecia undelor flutter. [Popescu 1988]

127

Informatic Medical & Biostatistic

e) Detecia undelor P este una dintre cele mai dificile probleme n analiza ECG sau VCG, n literatur existnd nc unele neconcordane de terminologie, detecia undelor P fiind uneori considerat ca determinare a nceputului i sfritului undei P, care fiind o und de mic amplitudine poate fi uor confundat cu un zgomot. Este mai rezonabil a cuta nti prezena undei i apoi a-i delimita marginile. Sunt detectabile 3 tipuri de activiti atriale: - unde P urmate de complexe QRS la intervale fixe, numite unde P cuplate; n aceste cazuri timpul de conducere atrio-ventricular este aproximativ constant (variabilitate de maximum 30 ms) - ritmul sinusal - unde P ce nu sunt ntotdeauna urmate de complexe QRS, sau distana este variabil, ca n cazurile de bloc atrio-ventricular de gradul 2 - unde flutter, definite ca oscilaii regulate bifazice, uniforme, cu frecvene ntre 200-400 pe minut; nu se evidenieaz o linie de baz. Dac nu apare nici unul din tipurile descrise, abaterea de la normal va fi decis de modulul de clasificare a ritmului; astfel de situaii apar n fibrilaia atrial sau ritmurile nodale. Un exemplu privind paii de prelucrare pentru detecia undelor flutter prin funcia de autocorelaie este redat n fig. III.13. Metoda este descris n paragraful privind analiza temporal a semnalului EEG. f) Selecia de mediere a ciclurilor. Aproape toate sistemele de prelucrare utilizeaz un set de msurri pentru partea de diagnostic, care s reprezinte caracteristicile complexului PQRST dominant. Este posibil ca parametrii finali s fie calculai pentru mai multe cicluri dominante i s se medieze parametrii sau ca din ciclurile dominante s se alctuiasc un ciclu reprezentativ din care s se extrag parametrii. n continuarea prelucrarii, se definesc atributele ce vor fi extrase pentru prelucrarea prin metoda recunoaterii pattern-ului (va fi descris n paragraful privind analiza semnalului EEG). Prevalena bolilor cardio-vasculare explic eforturile considerabile depuse pentru elaborarea programelor care au ajuns deja la un grad nalt de fiabilitate. Din cercetrile efectuate pn n prezent, se desprind urmtoarele concluzii: - algoritmii sunt mai performani n VCG dect n ECG standard cu 12 derivaii; s-ar mbunti performanele n ECG dac s -ar modifica derivaiile de nregistrare, astfel nct s se obin 4 grupri de cte 3 derivaii ortogonale - ar fi necesare mbuntiri la detecia artefactelor, n special a spike-urilor, care introduc detecii fals pozitive - n partea de pattern-recognition ar fi necesare mbuntiri ale modulelor de diagnostic, ns aceasta nu ine de algoritmii de prelucrare ci de criteriile general acceptate de comunitatea medical, a crei orientare spre utilizarea tehnicii de calcul va imprima reconsiderarea unor definiii, clasificri i abordri. 1.5. ANALIZA SEMNALELOR NEPERIODICE. PRELUCRAREA EEG Semnalele neperiodice reprezint cel mai des ntlnit tip de semnal biologic, iar metodele de prelucrare au un caracter general. De aceea, dei vom alege semnalul EEG ca exemplu tipic de semanal neperiodic, multe din metodele de prelucrare descrise n continuare se pot aplica i altor semnale. 1.5.1. Caracterele generale ale semnalului EEG Semnalul electroencefalografic reprezint activitatea electric a creierului i este nregistrat n diferite poziii ale electrozilor de culegere pe scalp. Amplitudinea variaz ntre

128

D. Lungeanu, Gh.-I. Mihala

10 i 200 V iar frecvena ntre 0,5 i 30 Hz. Neperiodicitatea este o caracteristic vizibil i pentru un ochi neavizat. Originea semnalului este nc o problem neelucidat. Dei a existat i opinia c rolul preponderent l-ar avea regiunile profunde ale creierului, actualmente se consider c electrozii culeg n special activitatea scoarei, semnalul pe fiecare electrod reprezentnd o sumare ponderat (dependent de distana la electrod i de mediile intermediare) a activitilor unei regiuni relativ ntinse. Experienele efectuate prin deplasarea electrozilor n regiuni nvecitate au dus la concluzia c nu ar fi posibil o delimitare extern precis a diferitelor regiuni. Pentru a putea compara diferite trasee, s-au standardizat unele variante de amplasare a electrozilor, precum i condiiile tehnice de nregistrare. (Din pcate exist nc mai multe standarde). Activitatea EEG nregistrat cuprinde mai multe elemente cu diferene regionale i cu evoluie dinamic, ceea ce ridic numeroase dificulti de prelucrare, dar totodat incit curiozitatea tiinific de a gsi originea acestor variaii, cu scopul ca apoi s poat fi utilizate (de exemplu, n scop diagnostic) sau chiar controlate (terapie). Iat o clasificare a activitilor EEG efectuat de Dumermuth: a) Activitate spontan neparoxistic: activiti fr modificri temporale semnificative (alpha, beta, ritm lent continuu, activitate lent polimorf) activiti cu modificri lente n timp (activitate n somn, activitate postictal, activitate fluctuant n com, activitate de hiperventilaie, descrcri seizure) activiti de tip intermitent (activitate sigma n form de spindles de somn, ritmul miu, ritmuri lente intermitente, diferite pattern-uri psihomotorii). b) Activitate spontan paroxistic: vrfuri, unde ascuite complexe vrf - und formaii ritmice (3/sec) vrf i und unde lente paroxistice vrfuri pozitive complexe SSLE complexe K i poteniale vertex n somn. c) Activitate evocat: poteniale evocate tranzitorii nsuirea fotic a ritmului activitate la deteptare efectele de nchidere a ochilor undele . n mod uzual un medic de explorri funcionale, n interpretarea pe care o d unui traseu EEG utilizeaz o terminologie specific: de exemplu traseu iritativ (unde mai ascuite), cu frecvente fusuri alfa, supravoltat (amplitudini mai mari) etc. Prin metodele de prelucrare se vor putea estima prin valori numerice caracteristicile uzuale adugndu-se i o serie de parametri noi. n ciuda faptului c eforturile depuse pentru analiza semnalului EEG acoper o palet larg i variat de metode, rezultatele obinute pn n prezent sunt relativ modeste, ns acest domeniu este deosebit de dinamic aprnd mereu metode noi.

129

Informatic Medical & Biostatistic

1.5.2. Clasificarea metodelor de prelucrare Complexitatea semnalului a determinat apariia unui numr mare de posibiliti de abordare a prelucrrii, fiind mprite n dou mari categorii: - metode elementare de analiz - metode integrative. Metodele elementare de analiz pot fi divizate la rndul lor n dou mari clase, dup aspectul preponderent urmrit n prelucrare: prelucrri n domeniul timp (analize temporale); prelucrri n domeniul frecven (analize frecveniale).

1.5.3. Metode elementare de analiz. Analiza temporal a semnalului EEG Analizele temporale cuprind tehnici de prelucrare care presupun ca element fundamental secvena temporal a datelor, orientate pe cte o caracteristic particular a semnalului. n exemplele care urmeaz n acest paragraf ne vom referi, n general (cu excepia cazurilor ce vor fi menionate), la semnalul prezentat n fig. III.14, nregistrat n derivaia centro-occipital stng, pe un subiect sntos.

Figura III.14. Poriune de traseu EEG; imagine realizat de programul de vizualizare. [Popescu 1988]

a) Analiza amplitudinilor (Drohocki) const n estimarea unei funcii de distribuie a amplitudinilor i parametrilor statistici asociai ei. Este util pentru rezumarea datelor EEG pe perioade lungi i pentru caracterizarea activitii spontane, astfel nct s poat fi detectate i evenimente paroxistice. Principala form de prezentare a rezultatelor analizei amplitudinilor este histograma amplitudinilor (fig. III.15a). O distribuie mai ascuit dect cea normal ar caracteriza un semnal subvoltat (cnd majoritatea valorilor sunt mici, n apropierea liniei de zero) n timp ce o distribuie mai turtit ar corespunde unui traseu ce uzual ar fi fost numit supravoltat. b) Analiza intervalelor (perioadelor) (Saltzberg i Burch), ce reprezint un studiu al distribuiei intervalelor ntre punctele specifice, cum ar fi: traversarea axei (zero crossing), extreme, puncte de inflexiune, etc (fig. III.15b). Se evalueaz perioade (intervale) i pe prima i a doua derivat a semnalului. Dei metoda este simpl, rezultatele s-au dovedit a fi n foarte bun concordan cu cele obinute prin metode mult mai sofisticate atunci cnd n semnal este prezent un ritm dominant.

130

D. Lungeanu, Gh.-I. Mihala

Figura III.15a. Histograma amplitudinilor, mprind ntreaga plaj de valori de intrare a semnalului (-200 V, + 200 V) n 40 clase de valori (a cte 10 V fiecare)

Cnd sunt prezente mai multe frecvene, metoda poate conduce la interpretri eronate. Frecvenele joase influeneaz puternic linia de zero, ceea ce determin erori n special ale frecvenelor nalte. Adugnd ns i analiza primelor dou derivate, se nltur unele erori, dar frecvenele joase tot nu sunt detectate suficient de bine.

Figura III.15b. Intervalele de traversare a axei de ctre semnal; pentru semiunde se utilizeaz intervalele cu indici pari (i0, i2, ...), pentru unde ntregi, intervalele cu indici impari (i1, i2, ...)

Analiza intervalelor, prin simplitatea sa i viteza mare de calcul este potrivit pentru studii multicanal sau prelucrri de lung durat. A fost utilizat pentru analizele EEG n timpul somnului, pentru monitorizri i n psihofarmacologie pentru a determina profilul modificrilor induse de diferite medicamente. c) Analiza intervale amplitudini (Marko i Petsche), s-a dezvoltat n mai multe variante. Cea mai simpl este o analiz a intervalelor, la care se adaug i informaii privind amplitudinea semnalului, utilizate pentru monitorizare n timpul anesteziei i operaiilor (Pronk 1975) i pentru selecia automat a epocilor fr artefacte de nregistrare (Matousek). 131

Informatic Medical & Biostatistic

Cea mai uzual variant, numit i analiza secvenial (Demetrescu), Harner i Osterngren const n msurarea lungimii de und i amplitudinea de la vrf la vrf a fiecrei unde definite prin trecerile axei. O alt variant ntlnit mai frecvent i numit detecia vrfurilor msoar amplitudinea de la vrf la vrf a fiecrei unde i perioadele ntre amplitudinile extreme (de fapt traversri ale axei pentru prima derivat a semnalului). Se apreciaz c aceast metod este cea mai apropiat de modul n care un EEG-ist citete o electroencefalogram. Metoda e mai robust n cazul variaiilor liniei de zero, ns foarte sensibil la zgomot de frecven mare, care introduce numeroase oscilaii mrunte ale undei; se impune n aceste analize o bun filtrare a frecvenelor mari i o netezire a semnalului nainte de prelucrare. Se observ c aceste analize au ca problem major definirea exact a unei unde sau semiunde, unele variante fiind foarte sensibile la frecvene joase, altele la frecvene nalte. Au fost propuse i variante combinate, utilizndu-se analiza intervalelor pentru unde cu amplitudini mari i frecvene joase, mpreun cu detectarea vrfurilor pentru undele cu amplitudini mici i frecvene mari (Lim i Winters). Tot o form a deteciei vrfurilor este i detecia nfurtoarelor semnalului (Schenk), linia zero fiind considerat media ntre nfurtoarea inferioar i cea superioar. Un aspect interesant al acestor metode l constituie posibilitatea reprezentrii grafice a fiecrei unde ca un punct n sistemul de coordonate amplitudine-interval (lungime de und), fiind posibil i medierea n timp real pe mai multe benzi de frecven i pe mai multe canale deodat, obinndu-se hri topografice ale activitii EEG. d) Analiza corelaiei (Barlow i Brazier) compar un tronson (o epoc) a semnalului cu un alt tronson, fie al aceluiai semnal (autocorelaie), fie al unui semnal cules pe un alt canal (intercorelaie). Compararea se realizeaz prin deplasarea n timp a tronsonului comparat fa de cel de referin i efectuarea produselor tuturor perechilor de valori. Se obine, astfel, o funcie (n raport cu deplasarea n timp) ce evideniaz componentele periodice ale unui semnal (sau dou semnale). Funcia de intercorelaie, prin capacitatea sa de a detecta decaljul cu care apar unele unde n anumite regiuni, este util n determinarea originii anumitor unde EEG, n special a unor focare de epilepsie, care pot fi astfel localizate destul de precis. Funcia de autocorelaie poate fi utilizat pentru obinerea transformatei Fourier a semnalului, care reprezint deja o prelucrare frecvenial. n figura III.16 este prezentat funcia de autocorelaie a semnalului luat ca exemplu n fig. III.14.

Figura III.16. Funcia de autocorelaie a semnalului EEG. [Popescu 1988]

132

D. Lungeanu, Gh.-I. Mihala

Avnd o foarte solid fundamentare matematic i fiind i strns legat de analiza spectral, analiza corelaiei este utilizat ca un instrument de referin pentru celelalte metode. Exist sisteme analogice (corelatoare) care ralizeaz automat analiza corelaiei (att auto- ct i intercorelaia). 1.5.4. Analiza spectral Punctul de plecare al analizei spectrale este ipoteza c un semnal periodic complex poate fi considerat ca suprapunere a unor semnale periodice simple (de exemplu, sinusoidale), cu diferite frecvene, amplitudini i faze iniiale. Se obine astfel din funcia semnal o funcie spectru reprezentnd o distribuie n domeniul frecven s(f). Ipoteza s-a generalizat i pentru semnale neperiodice, obinndu-se, n general, un spectru continuu al semnalului. n funcie de mrimea reprezentat n spectru se disting spectre de amplitudine sau spectre de putere (n care intervine ptratul funciei semnal). a) Consideraii teoretice. Exist mai multe posibiliti de alegere a funciilor periodice simple dup care s se fac descompunerea, ns cea mai uzual descompunere este dezvoltarea n serie Fourier, care consider c semnalul ar rezulta prin suprapunerea unor sinusoide (k=1,2, ...) cu diferite amplitudini (Mk), frecvene (fk) i faze ( k) :

x (t )

M0
k 1

M k cos 2

fk t

(III.5)

Pentru un semnal sinusoidal spectrul este o linie, pentru un semnal periodic oarecare este un grup de linii. Deoarece analiza cuprinde ntotdeauna o poriune finit de semnal, liniile din spectrul calculat nu mai sunt foarte nguste, limea liniilor fiind dependent att de durata nregistrrii, ct i de perioada de eantionare a semnalului. n cazul n care semnalul este neperiodic, spectrul este continuu, iar suma din relaia (III.5) devine integral. n fig. III.16 au fost prezentate cteva tipuri de semnale mpreun cu spectrele lor. nc de la nceputurile electroencefalografiei, n semnalele culese au fost distinse diferite ritmuri fundamentale (delta: 0,5 - 3 Hz, theta: 3 - 7 Hz, alfa: 8 - 12 Hz, beta: 16 22 Hz), ns datorit suprapunerii lor este dificil a se aprecia din ochi ponderea fiecrui ritm. Aceasta explic i interesul deosebit acordat acestui tip de analiz, cu o solid fundamentare matematic (analiza spectral se utilizeaz i n tehnic n studiul vibraiilor, precum i n electronic). Prin analiza spectral se calculeaz componentele spectrale, adic ponderea pe care o au diferite frecvene care prin suprapunere ar genera un semnal similar cu cel analizat. Graficul care se obine se numete spectru, mrimea reprezentativ de obicei fiind densitatea spectral de putere. b) Alegerea parametrilor de prelucrare a semnalului real n toate cazurile reale semnalul este de durat limitat T (de ordinul secundelor); durata tronsonului preluat se mai numete i epoc. Acest interval T determin rezoluia spectral f, adic distana minim ntre dou linii spectrale (fineea de reprezentare a spectrului care se ntinde ntre 0 i fmax (FNY - recvena Nyquist). Relaia ntre f i T este: f = 1/ T (III.6)

133

Informatic Medical & Biostatistic

Conform acestei relaii observm imediat c, pentru a obine o rezoluie spectral satisfctoare (preferabil sub 1Hz), avem nevoie de epoci destul de lungi, ceea ce nseamn achiziionarea unui numr ridicat de puncte, deci i creterea duratei de prelucrare. Frecvena de eantionare fe i durata T a unei epoci prelucrate (lungimea tronsonului) determin structura spectrului obinut. Deoarece semnalul EEG spontan nu intereseaz, n general, frecvenele mai mari de circa 30 Hz (FNy), rezult c frecvena de eantionare trebuie s fie fe 60 Hz. ns, n aceste situaii, semnalul trebuie s fie bine filtrat, nlturndu-se toate frecvenele f fmax n caz contrar apare fenomenul numit aliasing, adic frecvenele superioare sunt interpretate ca frecvene joase i nu exist nici un procedeu de a nltura acest fenomen dup eantionare. n cazul n care semnalul nu este bine filtrat, este preferabil s se lucreze cu frecvene de eantionare mai ridicate (n dauna timpului de rulare). n cazul unui semnal aleator, variabilitatea spectrului nu scade la creterea duratei nregistrrii, astfel nct pentru mrirea reproductibilitii se utilizeaz neteziri ale spectrului sau chiar medieri ale spectrelor obinute pe perioade succesive mai scurte. Trebuie remarcat c spectrul obinut printr-o transformare Fourier pe un tronson mai lung nu este identic cu cel obinut prin medierea spectrelor pe mai multe epoci succesive mai scurte ce acoper acelai tronson (cu ct componenta periodic a semnalului este mai ridicat, cu atat diferenele sunt mai mici). Un alt motiv al variabilitii este nsai natura semnalului, a crei evoluie n timp este reprezentat i prin evoluia spectrului. Ar fi ns necesar ca spectrul, prelucrat prin metodele de mai sus, s nu difere prea mult n aceleai condiii experimentale. Acest deziderat este atins dac semnalul cules respect anumite condiii. Cu relaiile prezente mai sus putem calcula parametrii de prelucrare ai unui semnal. Exemplu. nregistrm un semnal EMG cu valori n plaja 0-10 V, utiliznd un CAN pe 8 bii, cu frecvena de eantionare de 500 Hz, prelund epoci de cte 2 secunde. S estimm: a) perioada de eantionare (n ms) b) frecvena maxim n spectru c) numrul treptelor de cuantizare d) valoarea unei cuante de amplitudine (ce variaie de potenial corespunde unui bit) e) rezoluia spectral. Deci datele problemi sunt: Vmin = 0, Vmax = 10 V, n = 8 bii; fe = 500 Hz, T = 2s. Rezolvare. a) Conform relaiei III.1: Te = 1/fe = 1/500 = 0.002 s = 2 ms b) Din teorema de eantionare III.2: Fmax = FNY = fe/2 = 250 Hz c) Numrul treptelor de amplitudine este conform III.3: N = 2n = 28 = 256

d) O treapt de amplitudine (cuant), confrm III.4 are valoarea: V = (Vmax Vmin ) / N = (10 0) / 256 0,04 V. e) Rezoluia spectral este conform III.6: f = 1/2 = 0,5 Hz

134

D. Lungeanu, Gh.-I. Mihala

Deci vom obine un spectru pentru frecvene din 0.5 n 0.5 Hz de la 0 la 250 Hz. c) Teste pentru semnalul EEG O caracteristic fundamental cerut pentru prelucrrile semnalului este staionaritatea, adic meninerea compoziiei diferitelor frecvene aproximativ constant. Dei s-au dezvoltat metode ce dau rezultate confidente i n cazul semnalelor nestaionare, problema rmne totui deschis i n privina alegerii lungimii tronsonului; lucrnd cu epoci scurte (T 1s), vor fi sesizate toate nestaionaritile (evenimentele tranzitorii vor modifica spectrul), n timp ce epocile mai lungi (sau medierea spectrelor pe tronsoane succesive nsumnd o epoc mai lung), reduc nestaionaritile i cresc reproductibilitatea; n aceste cazuri se lucreaz pe epoci de 4 - 5s, uneori i 10s. O alt caracteristic este ergodicitatea; mediile temporale sunt egale cu mediile statistice. Validitatea acestei ipoteze ne permite s nlocuim medierea pe mai multe realizri (pe ansamblu) cu medierea temporal (pe o singur realizare). Se mai ntlnete frecvent i ipoteza normalitii semnalului, condiie considerat uneori ca prea restrictiv i nesatisfacerea ei nu ar determina eliminarea epocii respective din studiu. Un test obligatoriu ns este testul tendin, care verific pstrarea condiiilor de nregistrare; n anumite situaii este posibil o deplasarea liniei de zero a semnalului, ceea ce modific substanial rezultatele unor prelucrri (ex. zero-crossing). Exist posibilitatea ca aceast alunecare a liniei zero s fie compensat prin programul de calculator. d) Rezultatele analizei spectrale Spectrele obinute prin analiza Fourier a unui semnal divizat ntr-o succesiune de epoci se reprezint, n mod obinuit, ntr-o form comprimat (Bickford), crendu-se impresia unei reprezentri tridimensionale, deci n afar de axele pentru spectrul S(f) sau G(f) se adaug axa timp; fiecare spectru este desenat n spatele celui anterior, avnd originea deplasat (cel mai adesea pe vertical); regiunile care nu se vd din cauza spectrului din fa nu se traseaz (metoda folosit n acest caz se numete metoda liniei de orizont, prin asemnarea imaginii obinute cu imaginile unor lanuri muntoase). n fig. III.17. este redat o astfel de reprezentare pentru un subiect sntos.

Fgiura III.17 Reprezentarea comprimat Bickford a 8 epoci de cte 4,68 s nregistrate pe derivaia centro occipital stng a unui subiect sntos. [Popescu 1988]

Modificrile n unele stri patologice sunt tipice i evidente. n fig. III.18 este redat spectrul unui pacient cu insuficien renal cronic, nainte de dializ. Se observ

135

Informatic Medical & Biostatistic

dispariia ritmului alfa. Dup dializ spectrul devine normal, degenernd ns din nou naintea urmtoarei edine de dializ.

Figura III.18. Reprezentarea comprimat Bickford a 8 epoci de cte 4,68 s ale unui pacient cu insuficien renal cronic nainte de dializ. Puterea semnalului este mai mic n toate regiunile, iar ritmul alfa lipsete. [Popescu 1988]

Modificrile spectrelor permit i urmrirea tratamentului efectuat n diferite tipuri de epilepsie (Gersch), diferite stri fiziologice (de exemplu diferite temperaturi - Pronk, fig. III.19), monitorizare n timpul operaiilor pe cord, studii de psihofarmacologie (Fink), modificri cu vrsta (Turner), etc.

Figura III.19. Modificri spectrale induse de modificarea temperaturii. [Popescu 1988]

136

D. Lungeanu, Gh.-I. Mihala

1.5.5. Detecia elementelor tranzitorii Analiza spectral se aseamn oarecum cu holografia: toate regiunile (punctele) semnalului iniial contribuie cte puin la imaginea final (spectru). Aceasta reprezint un dezavantaj n cazul elementelor tranzitorii, de exemplu descrcri spike sau complexe vrf-und care, dei au uzual amplitudini mari, sunt de scurt durat, deci vor contribui doar n mic msur la spectru (fig. III.20). O metod simpl este folosirea analizei spectrale dar nu pe tronsoane lungi (n care contribuia unui spike este diluat) ci pe tronsoane scurte (sub 0.5 s). Astfel contribuia elementului tranzitoriu devine important i detecia uoar, chiar dac se pierde din rezoluia spectral. Se iau succesiv mai multe astfel de tronsoane, numite n aceast metod i ferestre. Aceast metod, propus de Berg, se mai numete metoda ferestrei mobile i adesea aceste ferestre se iau ntreesute pentru a nu pierde evenimente care ar putea fi eventual fragmentate n dou ferestre succesive (fig. III.20)

Figura III.20.Metoda ferestrei mobile pentru detecia elementelor tranzitorii (Berg). [Popescu 1988]

O abordare cu totul diferit este deci necesar pentru detectarea spike-urilor i undelor ascuite (miu), elemente care sunt de mare importan la citirea unei electroencefalograme. Pentru detectia spike - urilor de ctre calculator (Kooi, 1996) s-au definit o serie de parametri, care sunt comparai cu standarde: panta ramurii ascendente, panta ramurii descendente, unghiul de vrf, amplitudinea, durata etc. (fig. III.21.a). Deoarece evenimentele din spike-uri sunt foarte rapide, filtrarea semnalului utilizat nainte de nregistrare diminueaz frecvenele nalte (de obicei nu le elimin de tot), mpiedicnd o evaluare exact a fenomenelor rapide; chiar frecvena de eantionare utilizat pentru analizele temporale sau/i frecveniale ar putea fi prea mic pentru o analiz detaliat a spike-urilor. Teoretic, parametrii pot fi definii satisfctor, dar calculul lor este laborios, fiind necesare extrapolri pentru evaluare.

137

Informatic Medical & Biostatistic

Fiura. III.21. Detecia spike-urilor. a) Caracteristicile uni spike; panta nu se calculeaz cu punctele din vrf, care datorit eantionrii diminueaz puternic panta; b) aspectul derivatelor I i II n cazul spike-urilor, comparativ cu variaiile mai lente. [Popescu 1988]

O alt tehnic de detectare a spike-urilor este calculul derivatelor de ordin I i II ale semnalului (fig. III.21.b), ceea ce a dus i la realizarea unor dispozitive analogice, simple i fidele, dedicate unor tipuri de unde. Totui, tehnicile numerice au o rspndire mai larg dect cele analogice.

1.5.6. Metode parametrice Un element esenial cutat de aproape toate metoele de prelucrare este reducerea, adic sintetizarea informaiei coninute de semnal ntr -un numr ct mai unic de parametrii. Metodele enumerate mai sus prezint toate un oarecare grad de reducere (comprimare), ns sunt adesea nsoite nc de reprezentri grafice, iar numrul parametrilor caracteristici este nc ridica. Pare deci fireasc tendina de cutare i pentru semnalul EEG a unui numr redus de parametri care s conin toat informaia despre semnal. Au fost numeroase p ropuneri, unele metode au fost chiar primite cu entuziasm ns n cele din urm s-au dovedit toate insuficiente pentru a comprima ntr-o manier att de simpl un semnal att de comlex. Abia metodele integrative, ce vor fi expuse dup acest paragraf, izbutesc s comprime satisfctor semnalul real. Ele folosesc i parametrii propui n metodele numite parametrice. S ne oprim la cele mai importante metode. a) Metoda parametrilor statistici. S-au propus indicatorii statistici uzuali (medie, deviaie standard, momente, asimetrie, exces), dei corelaia lor cu diferite stri fiziologice sau patologice nu a fost prea puternic. b) Metoda descriptorilor normalizai (Hjorth) a atras de la nceput, prin reducerea descrierii semnalului la trei parametri numii activitate, mobilitate i complexitate. Activitatea 2 A a unde
2 a este variaia amplitudinilor.

(III.7..a)

138

D. Lungeanu, Gh.-I. Mihala

Mobilitatea

/ a

(III.7.b)

d fiind deviaia standard a pantelor, iar a a amplitudinilor; cum curba pantelor este de fapt prima derivat a semnalului, mobilitatea poate fi considerat o frecven medie.

Complexitatea

2 dd

/ 2 d

2 d

/ 2 a

(III.7.c)

dd fiind deviaia standard a vitezei de variaie a pantei, deci este legat de derivata a doua a semnalului.

Construirea unor electroencefalografe care realizeaz automat i analiza Hjorth pe fiecare din cele 16 canale (de ex. Mingograf Siemens) a determinat o rspndire mai larg a metodei. O prezentare comparativ a metodei descriptorilor Hjorth cu alte metode a fost fcut de Irwin. n dezvoltarea acestei metode, o important contribuie a fost adus de coala romneasc de neurologie reprezentat prin lucrrile lui C. Arseni i L. Popoviciu. S-au elaborat, astfel, hri computerizate ale creierului pentru numeroase cazuri normale, n diferite stri fiziologice (somn) i patologice (epilepsii, tumori), obinndu-se o semiologie recunoscut pe plan mondial. Sunt deosebit de interesante evoluiile n timp ale liniilor izopoteniale, fiind astfel pentru prima dat descrise fazele intime ale declanrii aciunii focarelor epileptice. Compararea hrilor computerizate cu imaginile obinute prin tomografie au adus noi date privind cunoaterea fenomenelor cerebrale. Actualmente se ncearc dezvoltarea modelelor prin completarea parametrilor i includerea aspectelor generale n metoda recunoaterii pattern-ului. c) Filtrarea autoregresiv Kalman (Fenwick). Asemnarea semnalului EEG cu un semnal aleator cu distribuie normal i medie zero (zgomot alb) a sugerat posibilitatea descrierii sale prin parametrii unei reele de filtre liniare, fr a presupune vreo relaie a modelului cu activitatea de generare a semnalului EEG. 1.5.7. Metode integrative de analiz. Metoda pattern recognition Metoda pattern recognition, tradus uneori nepotrivit i ca recunoatere a formelor, constituie o abordare mai larg, n cadrul creia unii parametri estimai prin metodele anterioare s devin atribute ale pattern-ului. Aplicabilitatea metodei nu se limiteaz la prelucrarea EEG, ci este cu totul general. a) Principiile recunoaterii pattern-ului Capacitatea de a recunoate ceva este o caracteristic general a fiinelor umane, chiar i a altor fiine. Procesul de recunoatere l practicm n permanen: recunoatem obiecte, melodii, tablouri, un scris de mn, paii unui cunoscut pe scar, chiar unele stri sufleteti. Cum? Printr-o deosebit capacitate de prelucrare a unor informaii, adic un sistem complex de recunoatere a unor atribute ale obiectului. n prima faz a procesului de recunoatere, selectm cele mai caracteristice atribute, obinnd un rezumat tipic al informaiilor, numit pattern. n faza urmtoare, asociem acestui pattern un nume, comparnd pattern-ul sesizat cu un set ntreg de pattern-uri din memorie i selectndu-l pe cel mai apropiat.

139

Informatic Medical & Biostatistic

Exist dou abordri principale de recunoatere a pattern-ului: metoda clasificrii, cnd clasele de pattern-uri sunt cunoscute dinainte i metoda gruprii (clustering approach), cnd scopul este crearea i definirea claselor. Un sistem de recunoatere a formelor cuprinde trei tipuri de prelucrri de date: - achiziia datelor; - extragerea atributelor (feature extraction); - clasificarea. Primele dou tipuri de prelucrri se efectueaz utiliznd cunotine anterioare despre obiectele de clasificat. O cerin esenial pentru a obine rezultate bune este ca setul iniial de date s fie reprezentativ. Aceste date iniiale se mpart n dou categorii: setul de nvare i setul de testare. Pe baza setului de nvare se determin o regul de decizie, pentru a distinge pettern-uri din diferite clase. Calitatea clasificrii pe care o poate realiza sistemul se estimeaz prin testarea cu datele din al doilea set. Unii autori consider c o recunoatere propriu-zis o ntlnim doar n metoda clasificrii, n timp ce metoda gruprii pare potrivit ca o etap anterioar pentru definirea unor clase, cnd astfel de definiii nu exist sau nu sunt suficient de precise. b) Construirea unui pattern. Extragerea atributelor Este desigur esenial faza de extragere a atributelor (mrimile cu capacitate de desciminare) pentru a defini un pattern, care poate fi realizat pe dou ci: i0 Arbordarea vectorial: toate caracteristicile msurate formeaz un vector n spaiul msurtorilor; extragerea atributelor ar nsemna trecerea ntr-un spaiu cu mai puine dimensiuni - spaiul atributelor (sau spaiul pattern-urilor), care se realizeaz prin definirea unui criteriu calitativ ce caracterizeaz distribuia pattern-urilor, definirea unui set de funcii pentru mapping i selectarea funciei optime. Definirea criteriului calitativ se face prin diverse metode asupra crora nu ne oprim aici. ii0 Abordarea structural, n care se consider c rezultatul unei msurtori este o nlnuire de elemente i se caut elementele de baz prin care att numrul acestora, ct i pierderea de informaii s fie minime. c) Sinteza clasificatorului Fiind dat un set de nvare se caut funcii de decizie ce corespund celor K clase. Calitatea clasificatorului se msoar prin rata erorilor de clasificare i de generalizare. Exist mai multe ci pentru stabilirea regulilor de decizie, cei mai uzuali clasificatori fiind cei de distan, bazai pe reguli geometrice ntr-un spaiu n dimensional. Abordrile teoretice n metoda pattern recognition sunt destul de sofisticate, iar aplicatiile de acest tip necesit resurse importante, fiind implementate mai mult pe calculatoare puternice. d) Aplicarea recunoaterii pattern-ului la semnalul EEG Faptul c aceast metod ia n considerare mai multe aspecte a determinat numeroi cercettori s mbine aspectele temporale cu cele frecveniale, la care s adauge i alte atribute (fig. III.22), i s obin astfel - o descriere mult mai fidel a semnalului EEG. Vom reda doar cteva aspecte mai importante. i0 Atribute folosite: s-au testat numeroase caracteristici, dintre care enumerm o parte: - atribute spectrale: putere absolut sau relativ a unui ritm ( , , , ) frecvenele medii ale ritmurilor respective etc;

140

D. Lungeanu, Gh.-I. Mihala

- atribute interval / amplitudine: numr de traversri ax n diferite intervale de timp, n semnal i n prima derivat, suma amplitudinilor semiundelor etc.; - descriptorii normalizai Hjorth i coeficienii filtrului Kalman. ii0 Atribute selectate: dup ce au fost ncercate pe grupe de atribute, lista s-a redus la: frecvena medie, puterea procentual a undelor delta, numrul total de traversri ale axei pentru semnal i pentru prima derivat, primii trei coeficieni Kalman, rdcina ptrat a activitii, mobilitatea i complexitatea. iii0 Clasificarea, efectuat n scopul urmririi asimetriei semnalului, a utilizat n prealabil o ierarhizare a atributelor selectate, criteriul cel mai puternic fiind rdcina ptrat a activitii Hjorth. iv0 Evaluarea clasificrii s-a efectuat cu setul test, lund n considerare separat erorile de clasificare fals pozitive i fals negative, eroarea medie de clasificare fiind de circa 25%.

Figura III.22. Reprezentarea ntr-un spaiu cu 6 dimensiuni a semnalelor EEG culese de la un pacient dializat. Gruprile de puncte aparin diferitelor perioade (nainte, n timpul i dup dializ). Prelucrare prin pachetul ISPAHAN. [Popescu 1988]

e) Avantaje i limite ale metodei recunoaterii pattern-ului Aceast metod, nc n curs de dezvoltare, este considerat de mare perspectiv, n special datorit faptului c ine cont de numeroi factori pe care i selecteaz n funcie de calitatea clasificrii obinute pe lotul de nvare. n acest scop s-au i creat pachete de programe specializate pentru problema recunoaterii pattern-urilor (ex: ISPAHAN). Exist ns i unele comentarii care limiteaz entuziasmul artat metodei. n primul rnd, este necesar un numr imens de date pentru lotul de nvare i pentru lotul de test. Dei nu exist un criteriu concret, se apreciaz c numrul de cazuri trebuie s fie de cel puin cinci ori mai mare dect numrul de atribute considerate nmulit cu numrul de clase. Aici ajungem n faa unui compromis - scderea numrului de atribute. Dar scderea numrului de atribute considerate, ar putea influena calitatea clasificrii (totui sa artat c indicele de merit este concentrat doar de cteva atribute), n timp ce creterea

141

Informatic Medical & Biostatistic

ar mri numrul de date care nu numai c ar lungi i timpul de rulare ci, destul de des, nu avem suficiente date pentru loturile iniiale. Un alt dezavantaj l constituie capacitatea de clasificare nc insuficient de ridicat (s-au realizat totui comparaii cu clasificrile realizate de grupuri de medici; variaiile de clasificare, care n cazul calculatorului se numesc erori de clasificare, au fost de acelai ordin de mrime). Dei exist aceste limitri, metoda recunoaterii pattern-urilor este totui mai complex dect celelalte metode (incluzndu-le de fapt, dac le preia atributele). 1.5.8. Analiza sintatic O caracteristic esenial a semnalelor EEG este dinamica lor, n termeni tehnici fiind nestaionaritatea. S ne reamintim c, din punct de vedere teoretic, aplicarea analizei frecveniale solicit mplinirea condiiei de staionaritate a semnalului. Pentru tronsoane scurte (sub 2s) aceast condiie nu este ndeplinit ns ea devine satisfctoare de la 4-5 s n sus. Totui, ne putem lesne imagina c numeroase fenomene cerebrale pot fi foarte rapide i condiia de staionaritate nu ar face dect s ilustreze doar o activitate medie a creierului care ar putea ntr-adevr fi considerat aproximativ constant pentru o anumit stare a subiectului. Analiza activitilor cerebrale intime trebuie totui s acorde atenia cuvenit evenimentelor scurte sau rapide astfel nct, cu riscul sacrificrii rezoluiei spectrale, cercetrile au investigat n detaliu i evoluiile pe epoci scurte. Un grup de cercetare al Universitii Vanderbilt din Tennessee a propus o metod sintatic de analiz a semnalelor EEG, care ar cuprinde urmtoarele faze: - divizarea semnalului cules (pe mai multe canale) n epoci scurte (0.3-1 s) - efectuarea tuturor analizelor elementare pe aceste epoci - aplicarea metodei pattern recognition pentru fiecare epoc; se pot astfel defini o serie de tipuri de activiti care vor fi caracterizate fiecare printr-o etichet (label) a epocii - succesiunea epocilor va fi reprezentat printr-o succesiune a etichetelor, care formeaz o propoziie - se analizeaz propoziiile obinute n diferite tipuri de activiti - se aplic analiza sintactic a acestor propoziii pentru clasificarea activitilor cerebrale. Prin aceast metod au putut fi clasificate cteva tipuri de activiti cerebrale iar cercetrile sunt n plin avnt, ateptndu-se ca prin mbinarea acestor metode sintactice cu cele de "pattern recognition" s se obin identificarea unor tipuri de stri sau activiti ale creierului uman. 1.5.9. Poteniale evocate Studiul activitii cerebrale de fond, dei aduce o serie de date privind starea fiziologic sau patologic a subiectului, nu reprezint dect o imagine parial a funcionalitii creierului. Dei se iau toate precauiile pentru a nu modifica condiiile de nregistrare, caracterul nestaionar al semnalului apare destul de des n eviden. O serie de date noi apar ns atunci cnd urmrim ecoul la nivel cerebral al unor stimuli controlai de noi. Potenialele nregistrate n aceste condiii reflect evident modul de reacie a creierului la modificarea condiiilor, contribuind la aprofundarea mecanismelor care sunt att de puin cunoscute. Se explic astfel i interesul deosebit acordat studiilor de acest gen, care devin din ce n ce mai numeroase. Natura stimulrii poate fi divers. Cele mai numeroase studii se refer la stimularea vizual (cu lumin stroboscopic sau, mult mai des, cu modele tip tabl de ah),

142

D. Lungeanu, Gh.-I. Mihala

stimularea auditiv (sunete de diferite durate sau nlimi, uneori modulate cu frecvene mai joase) sau stimularea somatic. a) Extragerea semnalului Problema major n studiul potenialelor evocate o constituie amplitudinea mic a rspunsului (civa V), care fiind suprapus peste activitatea de fond, de 50 - 100 V, n mod obinuit nici nu se observ pe traseu. Considernd ca semnal potenialul evocat iar activitatea de fond ca zgomot, extragerea semnalului devine o problem de cretere a raportului semnal / zgomot. Presupunnd c potenialul evocat apare ntotdeauna cu aceeai laten dup stimulare, Dawson a introdus metoda superpoziiei, prin care se suprapun epoci de semnal, fiecare epoc ncepnd n momentul stimulrii. Deoarece activitatea de fond este aleatoare, regiunile fr rspuns evocat i compenseaz valorile, n timp ce regiunile ce conin rspunsul i amplific valorile (fig. III.23), aprnd n felul acesta metoda medierii, care s-a rspndit foarte rapid dup apariia mediatoarelor electronice. O alt metod de extragere a semnalului din zgomot este analiza Fourier ntr-o band ngust de frecven, n cazul n care stimulul se repet la intervale regulate. n studiile privind potenialele evocate se recomand utilizarea unei frecvene de eantionare ridicate, deoarece fenomenele sunt rapide (sunt necesare rezoluii de ordinul milisecundei); de asemenea, fiind necesare precizii ridicate de evaluare a amplitudinilor, se recomand convertoare de 12 - 16 bii. b) Nestaionaritatea potenialelor evocate Metoda medierii sau analiza Fourier ar aduce semnalul la forma sa pur dac ar fi adevrat ipoteza c potenialul evocat ar fi identic la fiecare stimulare. Constatrile experimentale arat c potenialele evocate se modific progresiv n timp, ceea ce limiteaz acurateea cu care pot fi comparate dou poteniale evocate. S-au ncercat mai multe variante de a reduce erorile datorate nestaionaritii, fie prin stimularea simultan a diferitelor regiuni, fie, n cazul stimulrii vizuale, prin modularea intensitii stimulului cu un zgomot cu repartiie normal. Trebuie menionat i fenomenul de obinuin la ritmul stimulrii: n anumite cazuri, dup un set de stimuli repetai la intervale regulate, dac se oprete stimularea se mai obin nc rspunsuri.

Figura III.23. Extragerea potenialului evocat prin mediere. a) evoluia stimulului luminos; b) nregistrarea unei stimulri; c) medierea a 2 stimulri; d) medierea a 5 stimulri; e) medierea a 100 de stimulri; f) semnalul din (e) amplificat. [Popescu 1988]

143

Informatic Medical & Biostatistic

Pentru a nltura efectele fenomenului de obinuin, stimulatorul trebuie s genereze stimuli la intervale neregulate de timp, iar sumatorul sau mediatorul s fie de asemenea comandat de stimulator. S-au realizat dispozitive dedicate pentru aceste stimulri i medieri, numite averager. c) Analiza potenialelor evocate Considernd un potenial evocat nregistrat cu toate precauile tehnice, putem extrage din el o serie de parametri deosebit de importani: latena, undele caracteristice (pozitive sau negative), durata lor etc. Din punct de vedere teoretic, problemele ridicate sunt similare cu cele de la analiza temporal a semnalelor (analiza intervalelor sau interval / amplitudine): definirea liniei de zero, definirea undelor etc. O serie de metode caracteristice prelucrrii semnalelor de fond se aplic i n studiul potenialelor evocate: analiza corelaiei, analiza Fourier, pattern recognition. d) Clase de poteniale evocate S-au stabilit mai multe categorii separate de poteniale evocate. n categorisirea unui potenial evocat, se ntmpl destul de des ca acesta s aparin mai multor categorii. O prim clasificare mparte potenialele legate de procesul de stimulare i poteniale legate de procesul de cunoatere - apar aa-numitele unde de ateptare; tot n aceast clas intr i undele P300 (denumirea provine de la faptul c deflexia este pozitiv i au o durat de circa 300 ms). O alt clasificare cuprinde categoriile: poteniale evocate tranzitorii i poteniale evocate staionare. Potenialele tranzitorii, numite uneori i singulare, se obin printr-o stimulare unic. Analiza acestor semnale este mai laborioas i se efectueaz n special n domeniul temporal. Mecanismele generrii diferitelor unde i semnificaia lor nu sunt nc elucidate. Potenialele staionare se obin prin stimularea repetat i se analizeaz prin metoda medierii descris mai sus (fig. III.24).

Figura III.24. Rspuns vizual evocat: (1) la un subiect normal; (2) la un subiect cu scleroz n plci. [Popescu 1988]

Cele dou metode au avantajele i dezavantajele lor. Pentru studiul variabilelor cognitive, potenialele evocate tranzitorii par cu mult mai bune dect cele staionare. n acelai timp, potenialele evocate staionare pot fi prelucrate imediat de un analizator Fourier i reprezentate ca medie mobil (care se deplaseaz n timp). De asemenea, n studiul potenialelor evocate este important, deseori, ca edina de nregistrare s fie ct mai scurt, metoda analizei Fourier fiind din acest punct de vedere mai potrivit dect altele. Din cele prezente mai sus rezult, evident, efortul mare depus pentru analiza semnalelor EEG. Dei exist i o serie de aplicaii clinice (diagnosticul unor epilepsii, detectarea unor tumori, monitorizarea n timpul operaiilor etc.), majoritatea metodelor sunt dedicate cercetrilor fundamentale, care intesc nelegerea mai profund a proceselor cerebrale - ce i cum se modific n diferite stri fiziologice i/sau patologice.

144

D. Lungeanu, Gh.-I. Mihala

2. INTRODUCERE N PRELUCRAREA IMAGINILOR DIGITALE


2.1. DE CE PRELUCRAREA IMAGINILOR? Preocuparea pentru dezvoltarea unor metode de prelucrare a imaginilor vine din dou arii de preocupari: (a) imbunatatirea imaginilor pentru a fi mai uor interpretabile de ctre om; (b) procesarea datelor din imagini pentru percepia automat (" machine perception") - recunoaterea automat sau autonom. Tehnicile de prelucrare de imagini i au originea la nceputul anilor 1920, cand a fost instalat cablul submarin ntre Londra i New York i primele imagini au putut fi transmise pe aceast cale. Timpul necesar transmiterii unei fotografii s-a redus de la ceva mai mult de o sptmn (cu vaporul) la mai puin de trei ore. Echipamentele specializate (cntrind mai mult de 15 tone) codau imaginile nainte de transmisie i le de-codau la recepie, imprimandu-le. Primele sisteme Bartlane de codificare au avut o finee de cinci nivele distincte de luminozitate (n 1921), evolund foarte repede n urmtorii ani, astfel c n 1929 se ajunsese la 15 nivele. n timpul urmtorilor ani metodele de procesare i trans misie s-au dezvoltat continuu, impulsionate fiind de dezvoltarea reelelor de televiziune. Cu toate acestea, abia n 1964 s-a utilizat tehnica de calcul la prelucrarea imaginilor: imaginile selenare transmise de Ranger 7 aveau distorsiuni i zgomote cu caracter regulat i au putut fi considerabil mbuntite utiliznd programe de calculator. De la acest punct de pornire, tehnicile de mbuntire i restaurare a imaginilor transmise de misiunile spaiale a devenit un lucru obinuit: misiunile Surveyor pe Luna, seriile Mariner pe Marte, misiunile Apollo cu echipaj uman, etc. Tehnicile dezvoltate au fost apoi utilizate i n alte domenii, adaptndu-se sau dezvoltndu-se metode noi, specifice imaginilor prelucrate i scopului n care ele sunt utilizate. O sfer important de preocupari o constituie aplicaiile ce au ca scop mbuntirea calitii imaginilor pentru a scoate n eviden coninutul util. Ele au ca el final interpretarea i analiza fcut de catre specialitii umani . Astfel de aplicaii au fost dezvoltate n medicin, geografie, meteorologie, fizic, astronomie, aprare, diverse domenii industriale. Medicina a fost ntotdeauna un lider n dezvoltarea de aplicaii datorit importanei extraordinare a imagisticii n investigaiile medicale. O alt arie major de preocupri este recunoaterea automat a imaginilor (machine perception). n acest caz efortul este concentrat pe dezvoltarea de proceduri pentru extragerea informaiei imagistice ntr -o form potrivit pentru prelucrarea automat i formalizat. Printre problemele tipice care au fost n parte rezolvate i exist aplicaii ce au depit deja faza de laborator (fiind utilizate n mod curent): recunoterea automat a caracterelor (Optical Character Readers - OCR), sisteme de vedere artificial n domeniul industrial (linii de asamblare, controlul calitii), prelucrarea amprentelor digitale, predicii meteorologice, aparatur de analiz automat a probelor sanguine. Aceste sisteme de recunoatere automat ajung la performane extraordinar e (vitez i acuratee ridicate) n aria ngust de probleme pentru care ele sunt create. Trebuie ns accentuat c sistemul vizual uman este neegalat n performan prin varietatea mare de imagini pe care le poate prelucra i nelege, ca i prin capaci tatea de adaptare la condiii noi de percepie n funcie de context i de experienele anterioare. Acesta este unul din motivele pentru care studierea mecanismelor vizuale umane rmne un domeniu important de preocupri nu numai pentru cercettorii din 145

Informatic Medical & Biostatistic

domeniul bio-medical, ci i pentru cei din domeniile tehnice. Un fapt important de subliniat este c cercetarea actual recurge, de regul, la abordri interdisciplinare. 2.2. FUNDAMENTE. UN MODEL DE IMAGINE Termenul de imagine monocrom sau simplu imagine se refer la o funcie a intensitii luminoase, notat f(x,y). Ea reprezint intensitatea (luminozitatea) imaginii n sensul comun al cuvntului n punctul de coordonate (x,y). Cum lumina este o form de energie, ea trebuie s fie strict pozitiv i finit:

0 f ( x, y)
Imaginile pe care le percepem n viaa de zi cu zi constau din lumina reflectat de obiectele din jur. De aceea, natura funciei f(x,y) poate fi caracterizat de dou componente: (1) iluminare i(x,y) (2) reflectanta r(x,y)

f ( x, y) i ( x, y) r ( x, y)
Iluminarea reprezint cantitatea de lumin incident n punctul respectiv i este o caracteristic a sursei de lumin:

0 i ( x, y)
Reflectanta caracterizeaz proprietile obiectului cantitatea de lumin reflectat:

0 r ( x, y) 1
Reflectanta este sczut pentru obiectele pe care le percepem ca fiind negre sau nchise la culoare i are valori tot mai ridicate pentru obiectele de culoare deschis/strlucitoare. Pe parcursul acestei introduceri n prelucrarea imaginilor digitale, vom nota intensitatea imaginii monocrome n punctul de coordonate (x,y) cu l i vom numi aceast valoare nivel de gri al imaginii n punctul respectiv:

Lmin l Lmax Lmin=imin rmin si Lmax=imax rmax [Lmin , Lmax] va constitui scara de gri a imaginii respective.
n practic, se obinuiete s se lucreze cu o scar de gri normalizat: [0 , L]. Convenia este: l=0 este considerat a fi negru l=L este considerat a fi alb Valorile intermediare vor fi nuane de gri. Cu cat L are o valoare mai mare, cu att fineea de prelucrare este mai ridicat. Valoarea L depinde de aplicaia respectiv, de precizia cu care se lucreaz, etc. Sistemul vizual uman distinge aproximativ 64 de nuane, dar sistemele artificiale lucreaz, de regul, cu un numr mai mare de nivele de gri. Principiile de obinere a imaginilor nu se limiteaz ns la spectrul vizibil al undelor electromagnetice. Pentru imaginile obinute cu aparatele Rntgen, nivelul de gri l este o msur a reflexiei sau absorbiei radiaiei X, n timp ce n ecografie se utilizeaz ultrasunetele. n acest fel, se poate vizualiza/investiga interiorul corpului uman fr a -i cauza neajunsuri majore (utiliznd proceduri ct mai puin invazive). Primul pas n procesarea imaginilor este achiziia acestora i vom prezenta pe scurt principalele metode utilizate n imagistica medical, deoarece imaginile obinute folosind lumina vizibil constituie o parte infim din imaginile medicale. 146

D. Lungeanu, Gh.-I. Mihala

Deoarece n acest curs prelucrarea imaginilor este abordat dup celelal te prelucrri de date (inclusiv semnale), considerm oportun s prezentm o sintez a metodelor de procesare a datelor. Tabelul urmtor consider datele n sens general, sistematiznd metodele funcie de tipul de informaie de la intrare ( input), respectiv rezultatul obinut n urma aplicrii metodei (output):
date 3-D date 2-D output imagine 3-D fotografie input date 3-D restaurare detecia imagine 3-D mbuntire limitelor ob. date 2-D reconstrucie restaurare fotografie mbuntire date 1-D reconstrucie reconstrucie semnal vector grafic 3-D grafic 2-D caracteristici (or. obiecte) (or. obiecte) date 0-D modelare modelare identitate (pict.2-D) Adaptat dup [Van Bemmel&Musen 1997] date 1-D semnal detecia liniilor detecia limitelor ob. prelucrarea semnalelor afiare vector model/schi (pict.1-D) vector caracteristici analiza imaginilor analiza imaginilor analiza semnalelor procesarea datelor exemple date 0-D identitate interpretarea imaginilor interpretarea imaginilor interpretarea semnalelor pattern recognition _______

Subliniem faptul c aceast clasificare nu este totdeauna strict i c anumite proceduri pot fi un scop n sine, n timp ce altele sunt doar pai intermediari pentru prelucrri mai complexe. Problemele legate de grafic i de modelare nu vor fi abordate n aceast prezentare (iar cele de imagistic 3-D doar tangenial), dar considerm sinteza util pentru a va putea sistematiza noiunile de prelucrare a semnalelor privite la modul general. 2.3. NOIUNI ELEMENTARE DE IMAGISTIC MEDICAL ntr-o msur foarte mare, imagistica medical este practic imposibil fr tehnica de calcul ea se bazeaz pe principii fizice care necesit un volum considerabil de calcule pentru a reda sub forma vizual informaia culeas. Calculatoarele s e utilizeaz n imagistica medical pentru: construirea imaginilor din msurtori ale unor parametri fizici re-construirea unor imagini pentru o extragere optim a caracteristicilor prezentarea imaginilor pentru a putea fi analizate n timpul actului medical mbuntirea calitii imaginilor msurtori efectuate pe imagini caracteristici geometrice, de coloare/intensitate, de textur, etc. segmentarea imaginilor descompunerea lor n diverse componente arhivarea imaginilor (stocarea i regsirea lor) de cele mai multe ori implic utilizarea unor tehnici de compresie. Multe din imaginile medicale sunt generate utilizand radiaie cu lungime de und divers (de regul nu n spectrul vizibil) i sunt apoi prezentate utiliznd un suport auxiliar (monitor sau film fotografic). Exist ns i imagini obinute n spectrul vizibil, ca cele obinute prin endoscopie sau cele din chirurgia estetic. Prezentm, pe scurt, principalele metode de obinere a imaginilor medicale.

147

Informatic Medical & Biostatistic

Imagini Radiologice Potenialul radiaiei X de a fi utilizat pentru investigarea nedistructiv a interiorului corpului uman a fost sesizat imediat dup descoperirea acesteia de catre Julius Rentgen n 1895. Metodele au fost perfecionate continuu pentru a deveni tot mai puin nocive i mai precise. Lungimile de und utilizate n domeniul medical sunt cuprinse n intervalul 0.1 1 A.

Figura III.2.3.1. Imaginea negativ (radiografia clasic - stnga) i alternativa pozitiv (dreapta)

Figura III.2.3.2. ntrirea contrastului unei imagini radiografice

Radiologia clasic a utilizat filmul fotografic i ne punem ntrebarea fireasc dac este util prelucrarea imaginilor radiografice 2-D cu ajutorul calculatorului? Credem c rspunsul este evident pozitiv: pe lng facilitatea de stocare/regsi re a imaginilor, tehnica de calcul ofer posibilitatea unor prelucrri simple i rapide atunci cnd este nevoie (figurile III.2.3.1 i III.2.3.2 sunt doar nite exemple). O tehnic radiologic ce nu poate fi ns aplicat fr ajutorul tehnicii de calcul este angiografia digital - DSA (Digital Substracted Angiography). Tehnica se utilizeaz n situaii cnd este nevoie s se vizualizeze vase sau caviti interne ce sunt ecranate de prezena unor esuturi cu densitate ridicat (de regul oase). Un exemplu este cel prezentat n figura III.2.3.3, n care a fost necesar investigarea reelei de vase 148

D. Lungeanu, Gh.-I. Mihala din zona cranian. S-a injectat o substan opac la radiaia X i s-a efectuat o radiografie. Pentru zonele abdominale metoda aplicat n acest fel conduce la rez ultate mulumitoare, dar n acest caz imaginea obinut (a) are un contrast sczut i, practic, n ea nu se poate distinge nimic util din punct de vedere medical. De aceea, se achiziioneaz cel puin dou imagini: una nainte de injectarea substanei de contrast i una dup. Prima imagine poart numele de masca i ea se extrage prin tehnici digitale din imaginea a doua, scondu-se astfel n eviden tocmai diferena dintre cele dou imagini reeaua de vase (b).

(a)

(b)

Figura III.2.3.3. n Digital Substracted Angiography se utilizeaz substana de contrast opac la radiaia X, prelundu-se dou imagini (nainte i dup injectarea substanei de contrast). Informaia util (imaginea b n figur) se obine scznd -o pe prima (masca) din imaginea preluat dup injectarea substanei de contrast

Tehnica de calcul ne ajut nu numai s facem calculele necesare operaiei de scdere a celor dou imagini, ci i potrivirea imaginilor prin tehnici de corelaie (asemntoare celor descrise la prelucrrile de semnale) deoarece este practic imposibil ca pacientul s fie poziionat identic pentru cele dou imagini. Operaia poart numele de image registration i este necesar ori de cte ori se fac operaii de comparare, scdere, etc. a dou sau mai multe imagini (ele trebuiesc translatate, rotite, scalate sau ntinse pentru a se potrivi). n mod normal, se achiziioneaz mai multe imagini post-contrast pe msur ce substana de contrast difuzeaz iar contrastul devine mai puternic n zonele periferice i scade n regiunea proximal punctului de injecie. Ele se vor combina pentru a obine imagini de calitate n condiiile utilizrii unor cantiti mici de substan de contrast i a unei iradieri de ct mai mic intensitate. Tomografia Computerizat Un neajuns major al imaginilor radiologice este faptul c ele redau n dou dimensiuni o realitate tridimensional pierderea unei dimensiuni conduce implicit la pierdere de informaie, lucru pe care medicii l compenseaz prin cunotinele specifice, prin intuiie, etc. Chiar atunci cnd aceste imagini sunt mbuntite (ca n situaia angiografiei digitale), ele rmn o proiecie bidimensional a realitii. Mai mult, prin tehnicile clasice este imposibil s se fac distincie ntre esuturile moi pentru c diferena net este ntre os i aer, sau ntre substana de contrast i esuturile moi luate mpreun. Invenia tomografiei computerizate cu raze X (Godfrey N. Hounsfield, 1971), rspltit cu un premiu Nobel n 1979, a produs o adevrat revoluie n l umea medical. Aceast tehnic (ilustrat n figura III.2.3.4) permite vizualizarea unor seciuni bi-dimensionale tiate n zonele de interes din corpul investigat.

149

Informatic Medical & Biostatistic

(a)

(b)

(c)

Figura III.2.3.4. Principiul proieciei inverse utilizat n tomografia computerizat. Presupunem c seciunea pe care dorim s-o vizualizm are forma eliptic (a) cu dou formaiuni de densitate diferit n interior (de exemplu o seciune prin antebra). Se fac dou radiografii (pe direcii perpendiculare) cu fascicole foarte nguste de radiaie X i se obin profile de absorbie bidimensionale (b). Combinndu-se cele dou surse de informaie, se redau diferenele de densitate n seciunea bi-dimensional investigat (c)

Figura III.2.3.5: Principiul tomografiei computerizate utilizat n investigaiile medicale preluat din [Van Bemmel&Musen 1997]

n practic, imaginile sunt reconstruite pornind de la un numr mare de "profile de absorbie", luate la intervale unghiulare constante pentru o incident dat figura III.2.3.5. Utiliznd sute de astfel de profile pentru o seciune dat, calitatea obinut este ridicat (ce a fost ilustrat n figura III.2.3.4 este o exemplificare a ceea ce s -ar obine cu doar dou profile). Tomografia computerizat are cteva neajunsuri ce deriv din faptul ca utilizeaz radiaia X, ceea ce face uneori dificil s se vizualizeze esuturile moi. Sunt situaii n care utilizarea unei alte metode rezonana magnetic nuclear conduce la rezultate mai bune. Figura III.2.3.6 ilustreaz aceste diferene.

150

D. Lungeanu, Gh.-I. Mihala

Figura III.2.3.6. Diferene ntre imagine obinut prin tomografie computerizat cu raze X (A) i prin rezonana magnetic nuclear (B)

Rezonana Magnetic Nuclear Rezonana magnetic nuclear permite vizualizarea distribuiei esuturilor din seciuni transversale tiate prin organele investigate (felii bi-dimensionale) prin analogie cu tomografia computerizat cu raze X, se mai numete tomografie de rezonan magnetic nuclear. Numele vine de la faptul c se bazeaz pe un fenomen de rezonan ntre energia nucleelor atomice aflate ntr -un cmp magnetic i radiaia electromagnetic cu frecven specific fiecarui tip de atom. Principiul este ilustrat n figura III.2.3.7 se bazeaz pe momentul de spin care face ca atomii cu numr de ordine impar s se comporte ca nite mici magnei. Introdui ntr-un cmp magneric exterior suficient de intens, ei tind s se orienteze dup direcia cmpului i apare o magnetizare a corpului investigat. La apariia unui impuls de radiaie electromagnetic de frecven potrivit, nucleele ce intr n rezonan vor absorbi energia i vor ocupa o nou poziie (permis din punct de vedere cuantic) fenomenul se numete excitaie. La ncetarea impulsului perturbator, nucleele vor tinde s -i reia vechea poziie printr-o micare de precesie, emind un semnal n radiofrecvena ( frecvena Larmor) ce este funcie de natura nucleelor, de combinaiile chimice i de condiiile fizice n c are acestea se afl. Aceast revenire poart numele de relaxare i are (i ea) durata n funcie de proprietile esutului respectiv. Se msoar doi timpi de relaxare: T 1 (relaxarea longitudinal sau spin-lattice) i T2 (relaxarea transversal sau spin-spin). Utiliznd succesiuni de impulsuri de excitare i corobornd informaiile culese (frecvena Larmor, T1 i T2) se obine o vizualizare a distribuiei esuturilor precum i a unor fenomene metabolice din seciunile analizate.

151

Informatic Medical & Biostatistic

Figura III.2.3.7. Ilustrarea principiului utilizat n rezonana magnetic nuclear pentru vizualizarea distribuiei esuturilor moi i a fenomenelor metabolice preluat din [Van Bemmel&Musen 1997]

Figura III.2.3.8. Exemplu de reconstrucie a imaginilor 3 -D (3-D rendering) ntr-o aplicaie de imagistic medical

152

D. Lungeanu, Gh.-I. Mihala

Aplicaiile imagistice actuale permit reconstrucia tri -dimensional pornind de la succesiuni de imagini bi-dimensionale figura III.2.3.8. De multe ori se combin imagini obinute prin tehnici diferite: tomografie cu raze X, rezonan magnetic nuclear, radiografie, etc. De regul, astfel de aplicaii permit vizualizarea/reconstrucia unor noi seciuni (ne-existente n investigaia iniial) prin combinarea informaiilor culese din surse diferite. Scintigrafia Principiul care sta la baza acestei metode imagistice este administrarea (prin injectare sau prin inhalare) a unor substane marcate radioactiv (substane radiofarmaceutice) i vizualizarea modului n care aceast radioactivitate interioar se distribuie n organism. Avantajul este c se pot obine imagini dinamice i funcionale pentru organul investigat. De aceea, metoda este foarte util n investigaiile cardiace, iar sincronizarea achiziiei este controlat de semnalul ECG. De mai bun acuratee sunt dezvoltri ale metodei bazate pe principiile tomografice - SPECT (Single Photon Emission Computed Tomography). O alt dezvoltare a metodei (de o acuratee mai mare i potrivit pentru fenomene mai rapide) a produs o adevarat revoluie n investigaiile din neurotiine: tomografia cu emisie de pozitroni - PET (Positron Emission Tomography). Ea a permis vizualizarea proprietilor dinamice ale proceselor biochimice din creier (figura III.2.3.9).

Figura III.2.3.9. Investigarea activitii creierului utiliznd tehnica PET Positron Emission Tomography. Se introduce n circuitul sanguin deoxiglucoza care se acumuleaz rapid n zonele creierulu i care au o activitate ridicat

Ca i n cazul celorlate metode de investigare, tehnicile scintigrafice permit reconstrucia tri-dimensional pornind de la succesiuni de imagini bi-dimensionale. Ecografia Tehnicile ecografice utilizeaz ultrasunete (unde cu frecvene peste 20 kHz) i se bazeaz pe faptul c viteza, impedana caracteristic i coeficientul de absorbie difer funcie de materialul (mediul) pe care acestea l traverseaz. Pentru generarea i receptarea lor se folosesc traductori formai din cristale piezoelectrice ce pot vibra cu frecvene cuprinse ntre 2 i 10 MHz. 153

Informatic Medical & Biostatistic

Datorit faptului c rezoluia i adncimea de penetrare a undelor impun cerine contradictorii privind frecvena acestora, calitatea imaginilor este mai slab dect a celor obinute prin alte metode figura III.2.3.10.

Figura III.2.3.10. Imagini ecografice ale prostatei calitatea este inferioar celei obinute prin alte metode. Avantajul l constituie faptul ca metoda este mult mai puin invaziv de ct radiaia X sau scintigrafia

Pe lng structurile anatomice, ultrasunetele permit i investigarea vitezei de deplasare a unor fluide (de exemplu sngele) prin utilizarea efectului Doppler. De regul, pentru investigaiile cardiace se utilizeaz combinaii ntre imaginile anatomice i cele dinamice. Fiind mai puin invazive ca alte metode (deci cu mai puine efecte secundare), investigaiile cu ultrasunete se utilizeaz n examinrile obstetrice i ale nou-nscuilor, cele oftalmologice i cardiace, ale creierului, etc. Termografia Corpul uman absoarbe radiaia n infra-rou aproape fr reflexie i, n acelai timp, emite radiaie n infra-rou ca o component a propriei energii termice. Intensitatea energiei radiante corespunde temperaturii suprafeei corpului respectiv. Pentru un subiect sntos, temperatura corpului poate varia considerabil n timp, dar distribuia temperaturii pe suprafaa pielii pstreaz forme constante i o simetrie bilateral pronunat. Tehnicile termografice permit vizualizarea acestor forme (" pattern"-uri) i determinarea deviaiilor de la normal i a schimbrilor patologice. Termograful medical este constituit dintr-o camera n infra-rosu, care obine o imagine video a distributiei temperaturii pe suprafata pielii. Termografia are cteva avantaje nete asupra celorlalte metode de obinere a imaginilor n domeniul medical: este complet non-invaziv i este un sistem n timp real (schimbrile pot fi sesizate cu o frecven de o imagine pe secund). Sigur, aceast tehnic nu este comparabil cu radiografia n explorarea interiorului corpului uman, dar este complementar acesteia: radiografia furnizeaz informaie privind st ructurile anatomice, n timp ce termografia indic schimbri n procesele metabolice i de circulaie. Tehnicile termografice sunt utilizate cu succes n investigarea problemelor de circulaie, reumatism, cancer de sn, localizarea placentei n timpul sarc inii, identificarea i localizarea unor tumori intraoculare i orbitale. 154

D. Lungeanu, Gh.-I. Mihala

2.4. PROIECTUL VISIBLE HUMAN Proiectul Visible Human a fost sponsorizat de U.S. National Library of Medicine cu scopul de a pune la dispoziia cercettorilor un set de imagini de referin ale corpului uman pentru: studii de anatomie, cercetare, dezvoltarea unor aplicaii pentru educaie, diagnostic i planificarea tratamentelor, simulri, realitate virtual. n prima faz s-au obinut un set de imagini CT (tomografie computerizat), MRI (rezonan magnetic nuclear) i crioseciuni pentru: brbat rezoluie 1mm (15 Gb) femeie rezoluie 0.33mm (40 Gb)

Figura III.2.4.1. Imagini realizate n cadrul proiectului Visible Human.

Figura III.2.4.1 ilustreaz o crioseciune longitudinal cu evidenierea unor seciuni transversale pentru care sunt prezentate imaginile CT i MRI, precum i o crioseciune la nivelul toracelui. Mai multe informaii gsii pe site-ul dedicat acestui proiect i dezvoltrilor sale ulterioare. Aceste dezvoltri cuprind aplicaii extrem de diverse: sisteme prototip pentru screening (de exemplu n cancerul de colon), antrenarea pentru diverse proceduri chirurgicale (de exemplu cancerul de prostat, chirurgia estetic), sisteme educaionale pentru disecii anatomice, sisteme de realitate virtual, etc.

155

Informatic Medical & Biostatistic

2.5. EANTIONAREA I CUANTIZAREA IMAGINILOR Similar cu prelucrarea semnalelor, imaginile trebuiesc transformate ntr-o versiune numeric (digital) printr-un proces de eantionare, respectiv cuantizare. Pentru a putea fi prelucrat numeric (digital), funcia imagine f(x,y) va fi digitizat att spaial, ct i n amplitudine. Eantionarea i cuantizarea uniform Digitizarea coordonatelor spaiale (x,y) este numit eantionarea imaginii. Digitizarea amplitudinii funciei f(x,y) este numit cuantizarea nivelelor de gri. S presupunem c o imagine continu f(x,y) este aproximat prin eantioane aranjate la intervale egale sub forma unui tablou de dimensiune N*M, unde fiecare element al tabloului reprezint o cantitate discret (o valoare numeric). Aceast matrice se va numi imagine digital:

f ( x, y)

f (0,0) f (1,0) . . . f ( N 1,0)

f (0,1) f (11 ,)

...

f (0, M 1) f (1, M 1)

f ( N 11 , ) ...

f ( N 1, M 1)

Fiecare element al tabloului poart numele de element de imagine (picture element) sau pixel. Figura III.2.5.1 prezint intuitiv noiunea de pixel i analogul acesteia pentru spaiul tri-dimensional (voxel volume element).

(a)

(b)

Figura III.2.5.1. Elementele unei imagini bi-dimensionale pixeli (a) i ai unei imagini tridimensionale voxeli (b).

Exprimarea eantionrii i cuantizrii n termeni matematici formali este util pentru prezentrile urmtoare. Fie Z mulimea numerelor ntregi, iar R mulimea numerelor reale. Procesul de eantionare poate fi privit ca o partiionare a planului xy printr-o gril n care coordonatele centrului fiecruia din elementele grilei vor reprezenta o pereche de elemente ale produsului cartezian Z Z (sau Z2) - adic mulimea tuturor perechilor ordonate de elemente (a,b), cu a,b Z. De aici, f(x,y) este o imagine digital dac (x,y) sunt ntregi din Z Z i f este o funcie care atribuie fiecarei perechi (x,y) o valoare reprezentnd nivelul de gri (un 156

D. Lungeanu, Gh.-I. Mihala

numr aparinnd mulimii numerelor reale R). Dc nivelele de gri sunt de asemenea numere ntregi, funcia f va avea valorile n Z (aa se ntmpl de obicei). Procesul de digitizare necesit stabilirea valorilor pentru fiecare pixel. n procesarea imaginilor digitale se obinuiete ca aceste valori s fie puteri ale lui 2: i

2n

2k

unde cu G s-a notat numrul nivelelor de gri. Vom presupune c cele G valori atribuite pentru nivelele de gri sunt distribuite n mod egal (echidistant) ntre 0 i L pe scara de gri. Numrul de bii necesari pentru a memora o imagine digital va fi dat de relaia: b=N M m Deoarece imaginea digital (matricea) reprezint o aproximare a unei imagini reale continue, o ntrebare se impune n acest moment: ct trebuie s fie N i M i cte nivele de gri sunt necesare pentru o bun aproximare? Rezoluia unei imagini (msura n care se pot discerne deta liile) depinde puternic de aceti parametri - cu ct valorile alese pentru N(M) i m sunt mai mari, cu att imaginea digital se va apropia mai mult de imaginea original. Este dificil s definim o "imagine bun", deoarece calitatea perceput pentru o imagine este puternic subiectiv i depinde n mare masur de cerinele aplicaiei care proceseaz imaginea. Figura III.2.5.2 prezint imagini cu rezoluie diferit. Imaginea din figura III.2.5.2(a) are o rezoluie de 287*260 pixeli cu 256 (=2 8) nuane de gri, pentru ca n figura III.2.5.2(b) rezoluia spaial pe fiecare ax s scad la jumtate i apoi la o ptrime din rezoluia iniial (c). Numrul nivelelor de gri a rmas constant n (a), (b) i (c). Se poate observa creterea progresiv a granulaiei i nrautirea calitii n delimitarea muchiilor. Sigur c aceste detalii depind n mare msur i de performanele echipamentului de tiprire, precum i de mrimea relativ a obiectelor din imagine. Plecnd tot de la imaginea din figura III.2.5.2(a), putei vedea efectul scderii numrului de nivele de gri la 16(=24) n (d); numrul acestora scade apoi la 2(=2 1) nivele n imaginea (e), care este o imagine binar (n alb i negru). n (d) i (e) rezoluia spaial a fost meninut constant, egal cu cea din imaginea iniial (a). Observai fenomenul de "fals conturare" nc din figura III.2.5.2(c), datorat insuficienei nivelelor de gri utilizate pentru reprezentare. Rezultatele prezentate arat efectele produse asupra calitii imaginii de variaia lui N(M) i m luate independent. Totui, aceste rezultate rspund doar parial ntrebrii, pentru c trebuie luat n considerare i relaia dintre cei doi parametri, relaie exprimat de aa-numitele curbe de izo-preferin (corespunztoare imaginilor de egal calitate subiectiv).

G 2m

157

Informatic Medical & Biostatistic

a b d c e

Figura III.2.5.2. Ilustrarea efectelor de schimbare a rezoluiei spaiale, respectiv a numrul de nivele de gri ale unei imagini (287*260 pixeli cu 256 nuane de gri). Prelucrare cu Image-Pro Plus v.3.0

Concluziile unui studiu de izopreferin arat urmtoarele [Gonzalez&Woods 1992] : (1) Aa cum era de ateptat, calitatea imaginii crete cu creterea lui N(M) i respectiv m. n unele cazuri totui, calitatea se mbuntete prin scderea lui m - explicaia este c prin scderea lui m se produce o cretere a contrastului aparent din imagine. 158

D. Lungeanu, Gh.-I. Mihala

(2) Curbele tind s devin independente de m pe msur ce detaliile din imagine se nmulesc. Aceasta sugereaz faptul c pentru imagini foarte detaliate sunt necesare puine nivele de gri (rezoluia spaial este cea decisiv). (3) Curbele de izo-preferin difer substanial de cele pentru care b (numrul de bii necesari pentru memorarea imaginii) este constant. Pentru o iluminare constant, sistemul vizual uman poate distinge aproximativ 64 nivele de gri iar sistemele video standard sunt adaptate la aceast valoare - valori exprimate pe 6 bii. Eantionarea i cuantizarea neuniform n unele situaii, pentru o rezoluie spaial fixat (numr fix de pixeli n imagine), calitatea unei imagini poate fi mbuntit prin utilizarea unei scheme adaptive la care procesul de eantionare depinde de caracteristicile imaginii. n general, o eantionare mai fin este necesar n vecinatatea tranziiilor brute ntre nivele de gri, n timp ce o eantionare mai grosier poate fi utilizat n zonele relativ uniforme. S considerm, de exemplu, o imagine ce const dintr -o faa uman pe un fond uniform. n mod evident, fondul nu poart mult informaie i el poate fi reprezentat printr-o eantionare de finee mai scazut dect faa uman. Eantioanele (pixelii) rmase disponibile de la partea de fond pot fi utilizate pentru a obine o finee mai ridicat n zona feei i astfel rezultatul de ansamblu se va mbunti. n distribuia eantioanelor trebuie acordat o atenie mai mare zonelor de grani ale tranziiilor dintre nivelele de gri. Necesitatea de a identifica n prealabil zonele de grani (chiar dac numai grosier) este n mod clar un dezavantaj al abordrii esantionrii neuniforme. De asemenea, aceast metod nu este practic pentru imaginile ce conin regiuni relativ mici. Cnd numrul nivelelor de gri utilizate trebuie pstrat relativ redus, utilizarea unei cuantizari inegal distribuite a acestora este, de obicei, de dorit. O metod similar celei descrise pentru eantionarea neuniform poate fi utilizat pentru distribuirea nivelelor de gri din imagine. Se vor utiliza puine nivele n vecintatea granielor i mai multe nivele n zonele cu o variaie uniform a nuanelor astfel se vor reduce falsele contururi care apar n aceste zone atunci cnd cuantizarea nu este suficient de fin. O tehnic atractiv n special pentru distribuirea nivelelor de gri const n calcularea frecvenei de apariie a tuturor nivelelor de gri permise. Dac exist intervale ce conin nivele cu apariie mai frecvent, n timp ce alte intervale sunt mai puin "ocupate", se va putea face o cuantizare mai fin n interiorul intervalelor "ocupate" i una mai grosier n celelalte subintervale din [0,L]. 2.6. RELAII DE BAZ DINTRE PIXELI I OPERAII CU IMAGINI NUMERICE dup [Gonzalez&Woods 1992] Vom nota o imagine cu f(x,y). Cnd ne vom referi la un pixel particular, vom utiliza litere mici (p, q, etc). O submulime sau subset de pixeli din f(x,y) va fi notat cu S. Un pixel p aflat la coordonatele (x,y) are: 4 vecini pe orizontal i vertical (x+1,y) (x-1,y) (x,y+1) (x,y-1) aceast mulime se noteaz N4(p) i se numete "vecinatate de 4 a lui p" 4 vecini diagonali (x+1,y+1) (x+1,y-1) (x-1,y+1) (x-1,y-1) 159

Informatic Medical & Biostatistic

aceast mulime se noteaz ND(p) N4(p) i ND(p) formeaz un set numit N8(p) - "vecinatate de 8 a lui p" O notaie uzual pentru vecinii lui p din setul N8(p) este urmtoarea: 0=Est, 1=NE, 2=N, 3=NW, 4=W, 5=SW, 6=S, 7=SE. 3 4 5 2 p 6 1 0 7

Conectivitate Conectivitatea dintre pixeli este un concept important utilizat n stabilirea granielor dintre obiecte i a componentelor regiunilor dintr -o imagine. Pentru a stabili dac doi pixeli sunt conectai, trebuie determinat dac ei sunt vecini ntr-un anumit sens (s zicem, sunt vecini n N4) i dac nivelul lor de gri satisface un anumit criteriu de similaritate (s spunem, au aceeai valoare). Considerm V ca fiind mulimea valorilor nivelelor de gri utilizate pentru a defini criteriul de similaritate. De exemplu, ntr-o imagine binar V={1} pentru conectivitatea pixelilor cu valoarea 1. n imagini cu o scar a nivelelor de gri, pentru conectivitatea pixelilor cu valori de intensitate ntr-un interval. De exemplu, ntre 32 i 64 vom considera V={32, 33, ... , 63, 64}. Considerm 3 tipuri de conectivitate: (a) conectivitate 4 Doi pixeli p i q cu valori n V sunt 4-conectai dac q este n mulimea N4(p). (b) conectivitate 8 Doi pixeli p i q cu valori n V sunt 8-conectai dac q este n mulimea N8(p). (c) conectivitate m (conectivitate mixt) Doi pixeli p i q cu valori n V sunt m-conectai dac: (1) q este n N4(p) sau (2) q este n ND(p) i mulimea N4(p) N4(q) este vid (aceasta este mulimea pixelilor care sunt vecini n N4 att pentru p, ct i pentru q i ale cror valori sunt n V). Conectivitatea mixt a fost introdus ca o modificare a conectivitii 8 n scopul eliminrii conexiunilor ce conduc la ci multiple i care apar deseori atunci cnd se utilizeaz conectivitate 8 - exemplul (b) prezentat n continuare:
0 0 0 1 1 0 (a) 1 0 1 0 0 0 1 1 0 (b) 1 0 1 0 0 0 1 1 0 (c) 1 0 1

160

D. Lungeanu, Gh.-I. Mihala

Definiii Un pixel p este adiacent unui pixel q dac ei sunt conectai. Dou subseturi S1 i S2 ale imaginii sunt adiacente dac exist cel puin un pixel din S1 adiacent cu un altul din S2. Un drum de la un pixel p cu coord. (x,y) la un pixel q cu coord. (s,t) este o secven de pixeli distinci cu coordonatele (x0,y0), (x1,y1), ......, (xn,yn) (x0,y0)= (x,y) si (xn,yn)= (s,t) (xi,yi) este adiacent lui (xi-1,yi-1), cu 1 i n; n = lungimea drumului dintre p i q. Dac p i q sunt pixeli dintr-un subset S al imaginii, atunci p este conectat cu q n S dac exist un drum de la p la q coninut n ntregime n S. Pentru orice pixel p din S, mulimea pixelilor din S conectai cu p este numit componenta conectat a lui S. Noiunile de conectivitate, adiacent i drum sunt necesare la stabilirea proprietilor unor obiecte din imagini (de exemplu la segmentare, calcul de distane, arii i perimetre, etc.). Anumite pachete software de prelucrari de imagini ofer flexibilitate n stabilirea unor parametri la procesare. Msurarea distanei Considerm p, q i z cu coord. (x,y), (s,t) i (u,v) D este o funcie distant sau o metric dac: (1) D(p,q) 0 cu D(p,q) = 0 dac p=q (2) D(p,q)=D(q,p) (3) D(p,z) D(p,q) + D(q,z) Distana euclidean De(p,q) = [(x-s)2 + (y-t)2] 1/2 Deoarece x, y, s, t sunt de regul numere ntregi, aplicarea distanei euclidiene este nepractic n prelucrarea imaginilor digitale. De aceea s -au definit alte tipuri de distan, care au ca rezultat tot numere ntregi. Distana D4
D4 ( p, q) x s y t

Exemplu: configuraia de pixeli pentru care distana fa de (x,y) este D4


2 1 2 2 1 0 1 2 2 1 2

Pixelii cu D4 Distana D8
D8 p, q

1 sunt n N4(x,y).

max x

s, y t

161

Informatic Medical & Biostatistic

Exemplu: configuraia de pixeli pentru care distana fa de (x,y) este D8 va fi:


2 2 2 2 2 2 1 1 1 2 2 1 0 1 2 2 1 1 1 2 2 2 2 2 2

2)

Pixelii cu D8

1 sunt n N8(x,y).

Lungimea drumului D4 ntre dou puncte este egal cu lungimea celui mai scurt drum ntre cele dou puncte cu respectarea conveniilor pentru drum i distan. Acest lucru se aplic i pentru D8. Operaii aritmetice i logice Operaiile aritmetice i logice sunt utilizate pe scara larg n prelucrarea imaginilor. Operaiile logice se aplic doar pe imagini binare, n timp ce operaiile aritmetice se aplic pe imagini cu mai multe nivele de gri. Operaiile aritmetice dintre doi pixeli p i q sunt notate astfel: adunare: p+q scdere: p-q nmulire: p*q (sau pq sau p q) mprire: p q Operaiile aritmetice pe imagini ntregi sunt efectuate pixel cu pixel. Principala utilizare a adunrii este aceea de mediere a imaginii n scopul reducerii zgomotului. Scaderea imaginilor este utilizat mult n imagistica medical, ca instrument prin care se nlatur informaiile date de fondul static al imaginilor prelucrate (atunci cnd a cesta se cunoate). nmulirea imaginilor (sau mprirea) se utilizeaz pentru corecia umbrelor ce provin din neuniformiti n iluminare sau n sensibilitatea senzorului utilizat pentru achiziia imaginii. Operaiile aritmetice implic locaia spaial a unui singur pixel la un moment dat, de aceea pot fi realizate "pe loc": rezultatul efecturii operaiei la locaia (x,y) poate fi memorat la acea locaie ntr-una din imaginile existente (participante la operaia aritmetic), deoarece locaia respectiv nu va mai fi "vizitat" a doua oar. Operaiile logice utilizate n procesarea imaginilor sunt AND (i logic), OR (sau logic) i COMPLEMENT (negare logic), notate astfel:

AND: OR: COMPLEMENT:

p AND q (sau p q) p OR q (sau p+q) NOT p (sau ~p)

Aceste operaii sunt complete din punct de vedere funcional (pot fi combinate pentru a obine orice alt operaie logic). Operaiile logice sunt instrumente de baz n prelucrarea imaginilor deoarece ele sunt utilizate pentru sarcini ca: mascarea, detecia caracteristicilor ("feature detection")

162

D. Lungeanu, Gh.-I. Mihala

i analiza formelor. Ele sunt executate pixel cu pixel i, la fel ca n cazul operaiilor aritmetice, pot fi executate "pe loc". Figura III.2.6.3 prezint cteva exemple de operaii logice pe imagini binare. Pe lng prelucrarea unor ntregi imagini, pixel cu pixel, operaiile aritmetice i logice sunt utilizate i n operaii orientate pe o vecinatate. Procesarea pe o vecinatate este formulat n contextul aa-numitelor operaii cu "masc" - termenii de "tipar" ("template"), "fereastr" sau "filtru" sunt folosii pentru aceeai noiune. Ideea care st la baza acetui tip de operaii este de a permite ca valoarea unui pixel sa fie stabilit ca o funcie dependent de nivelul de gri iniial pentru pixelul respectiv, mpreun cu nivelele vecinilor acestuia.

Figura III.2.6.3. Exemple de operaii logice pe imagini binare. De notat faptul c negrul reprezint n cazul acesta valoarea logic adevarat (sau 1)

Ca exemplu, s considerm o subimagine (a) n care dorim s nlocuim valoarea lui z5 cu media pixelilor dintr-o regiune de 3*3 pixeli centrai n z5, adic: 1 1 9 z z1 z 2 ... z 9 zi 9 9i1

163

Informatic Medical & Biostatistic

z1 z4 z7

z2 z5 z8 (a)

z3 z6 z9

w1 w4 w7

w2 w5 w8 (b)

w3 w6 w9

Dac introducem masca de ponderare (b), vom putea nuana importana acordat valorilor de gri iniiale pentru cei nou pixeli din vecintatea considerat: o nou valoare a lui z5 va fi media ponderat:
9

w1 z1 w2 z 2 .... w9 z9
i 1

wi zi

Situaia precedent (z5 media aritmetic) se va regsi ca un caz particular n care ponderile sunt toate egale: wi=1/9, i=1,2,...,9. Geometria imaginilor Vom prezenta n cele ce urmeaz doar transformri de baz, fr a intra n probleme legate de transformrile de perspectiv. Materialul acestei sectiuni urmarete doar s dea o idee general referitoare la formalizarea unor probleme ca translaia, scalarea sau rotirea imaginilor. Toate transformrile sunt prezentate n sistemul de coordonate cartezian tri dimensional (3-D), n care coordonatele sunt notate cu (X,Y,Z). n mod uzual, coordonatele (X,Y,Z) se numesc "world coordinates". Translaia S presupunem c ne propunem s translatm un punct de coordonate (X,Y,Z) ntr-o nou locaie utiliznd deplasamentele (X0,Y0,Z0). Translaia va fi realizat utiliznd ecuaiile urmtoare (cea din dreapta reprezint forma matricial):
X* Y* Z*
* *

X Z
*

X0 Z0

X* Y* Z*

1 0 0 0 1 0 0 0 1

X0 Y0 Z0

X Y Z 1

Y Y0

unde (X ,Y ,Z ) sunt coordonatele noului punct, iar T se numete matrice de transformare. Se prefer utilizarea matricilor ptrate:
X* Y Z
* *

1 0 0 X0 0 1 0 0 0 0 Y0 1 0 0 1 Z0

X Y Z 1

iar v*=Tv

n mod similar se procedeaz pentru alte transformri geometrice (scalarea, rotirea). Este deseori util s se utilizeze mai multe transformari pentru a se produce un rezultat compus, de exemplu translaie, urmat de scalare i apoi de rotaie . Utilizarea matricilor ptrate simplific mult reprezentarea formal a acestui proces deoarece concatenarea transformrilor se face prin compunerea matricilor i obinerea unei matrici de transformare unice.

164

D. Lungeanu, Gh.-I. Mihala

Pentru transformrile inverse se determin inversele matricilor de transformare (inversele matricilor corespunzatoare transformrilor mai complexe se obin prin tehnici numerice). 2.7. MBUNTIREA IMAGINILOR I EXTRAGEREA UNOR ATRIBUTE Principalul obiectiv al tehnicilor de mbuntire este acela d e a prelucra o imagine n aa fel ncat rezultatul sa fie mai potrivit dect imaginea iniial pentru o anumit aplicaie spunem c sunt orientate pe problem ("problem-oriented"). De exemplu, o metoda foarte potrivit pentru mbuntirea imaginilor obinute cu raze X poate s nu fie cea mai potrivit abordare n cazul imaginilor ecografice sau n prelucrarea imaginilor transmise de pe Marte. Abordrile discutate n acest capitol intra n dou categorii largi (analoage metodelor de la prelucrrile de semnale): metode n domeniul spaial i metode n domeniul frecvenial. Domeniul spaial se refer la planul imaginii, iar metodele din aceast categorie sunt bazate pe manipularea direct a pixelilor din imagine. Domeniul fecvenial cuprinde tehnicile bazate pe modificarea transformatei Fourier a imaginii. n cele ce urmeaz vom aborda doar metode din domeniul spaial. Metode spaiale Funciile de acest tip pot fi exprimate ca fiind:
g ( x, y) T f ( x, y)

unde

f(x,y) este imaginea initial g(x,y) imaginea procesat T este un operator pe f, definit pe o vecinatate a lui (x,y)
y p(x,y)

Centrul subimaginii este mutat pixel cu pixel pornind (de exemplu) din colul stnga sus i aplicnd operatorul T pentru fiecare locaie. Aplicaiile de prelucrri de imagini utilizeaz tehnici de optimizare care reduc considerabil timpul de prelucrare.

165

Informatic Medical & Biostatistic

(a)

(b)

Figura III.2.7.1. Negativul unei imagini o transformare punctual (noua valuare este n funcie doar de valoarea de gri iniial i nu este influenat de vecini). Prelucrare cu ImagePro Plus v.3.0

mbuntirea prin procesare punctual Transformri asupra intensitii au ca formul general: s=T(r) unde r este valoarea de gri iniial, iar s este rezultatul aplicrii operatorului T. La procesrile punctuale, noua valoare este funcie doar de valoarea de gri iniial i nu este influenat de vecini.

negativul unei imagini figura III.2.7.1. ntrirea contrastului ("stretching") figura III.2.7.2.

Figura III.2.7.2. ntrirea contrastului ca transformare punctual (aceeai imagine iniial ca cea din figura 7.2 a). Imagine prelucrat cu Image-Pro Plus v.3.0

mprirea n plane binare

Figura III.2.7.3. mprirea unei imagini cu 256 nivele de gri n 8 plane bin are

166

D. Lungeanu, Gh.-I. Mihala

S presupunem c valoarea fiecrui pixel din imagine este reprezentat pe 8 bii (1 octet). S ne imaginm c imaginea este compus din 8 plane binare (cu valori reprezentate pe 1 bit) astfel nct fiecare plan conine biii de un anumit rang - de la planul 0 (cel mai puin semnificativ) la planul 7 (cel mai semnificativ). Figura III.2.7.3 ilustreaz aceast mprire a unei imagini n plane binare numite " bitplanes". Figura III.2.7.4 prezint o imagine i planele ei binare, ncepnd cu cel mai puin semnificativ. Observai c doar datele din planele binare de ordin nalt (cele 4-5 plane corespunztoare biilor cei mai semnificativi - planele [3,] 4, 5, 6, 7) conin informaie perceptibil, celelalte plane conin detalii de subtilitate.

Figura III.2.7.4. Planele binare ale unei imagini i modul cum este distribuit informaia util din imagine ntre planele de rnd diferit. Imagine preluat i prelucrat cu AIM-Another Image Manager (Universitatea din Amsterdam)

Procesarea histogramei Histograma unei imagini digitale cu L nivele de gri (n domeniul [0 , L-1]) este o funcie discret:

p rk

nk n

rk - nivelul de gri de ordinul k, cu k=0, 1,2, ...., L-1 nk - numrul de pixeli cu nivelul de gri de ordinul k n - numrul total de pixeli din imagine 167

Informatic Medical & Biostatistic

Putem spune c histograma p(rk) ne d o estimare a probabilitii de apariie a nivelului de gri rk n imaginea studiat. O reprezentare grafic a acestei funcii ne d o descriere global a aspectului imaginii. Dei histograma unei imagini este o descriere care nu furnizeaz informaie privind coninutul concret al unei imagini (figura III.2.7.5 ilustreaz acest lucru), alura histogramei unei imagini aduce informaie deosebit de preioas privind posibilitatea mbuntirii contrastului.

(a)

(b)
Figura III.2.7.5. Histograma ne d informaii privind utilizarea nivelelor de gri, nu coninutul imaginii (imaginea i rsturnata ei au aceeai histogram)

Figura III.2.7.6 prezint histogramele pentru trei tipuri de imagini: o imagine (a) cu un contrast nu foarte bun (observai aglo merarea nivelelor de gri n centrul intervalului de valori, lucru deseori acceptabil pentru aplicaii uzuale) i dou histograme ale unor imagini de slab calitate - una foarte ntunecat (b) i una extrem de luminoas (c). O metod de mbuntire bazat pe utilizarea histogramei i larg utilizat pentru anumite tipuri de imagini este cea de egalizare a histogramei (ilustrat n figura III.2.7.7), n fapt o egalizare/redistribuire a utilizrii nivelelor de gri n imagine.

168

D. Lungeanu, Gh.-I. Mihala

(a) (c)

(b)

Figura III.2.7.6. Histograme pentru imagini cu un contrast sczut (o utilizare ne-eficient a plajei de gri): imagine ce utilizeaz doar nivelele de la mijlocul plajei (a); imagine foarte ntunecat (b); imagine foarte luminoas/splcit (c)

Principiul metodei urmrete o uniformizare a densitii de probabilitate pe domeniul nivelelor de gri - o repartizare uniform a acestora n domeniul [0,L -1]. Figura III.2.7.7 prezint rezultate obinute aplicnd aceast metod la prelucrarea unor imagini de pe Marte.

(a)

(b)
Figura III.2.7.7. Efectul egalizrii histogramei informaiile ies la iveal. Histograma (a) pentru imaginea iniial din stnga arat utilizarea aproape exclusiv a nuanelor foarte nchise i aa de apropiate pe scara de gri nct sistemul vizual uman nu le poate distinge. Nivelele de gri sunt redistribuite pe plaja disponibil (b), astfel nct distana dintre dou valori consecutive crete i ele pot fi percepute ca nuane distincte (imaginea din dreapta). Imagine preluat i prelucrat cu AIM-Another Image Manager (Universitatea din Amsterdam)

169

Informatic Medical & Biostatistic

Filtrarea spaial Filtrele liniare folosesc o "masc" (b) pentru determinarea unei noi valori a pixelului z5 din centrul unei vecinti (a) ca o relaie liniar ntre valorile de gri iniiale zi i ponderile wi ce exprim relaia dorit ntre pixeli.:
9

w1 z1

w2 z2 .... w9 z9
i 1

wi zi

z1 z4 z7

z2 z5 z8 (a)

z3 z6 z9

w1 w4 w7

w2 w5 w8 (b)

w3 w6 w9

Filtrele neliniare utilizeaz funcii neliniare pentru determinarea noii valori din centrul unei vecinti de exemplu, pentru valoarea maxim din centrul unei vecinti de 3*3 pixeli:
R max zk | k 1,2,....,9

Similar se utilizeaz i alte funcii: valoarea minim, mediana, etc. Filtre pentru netezire Acest tip de filtrare este prezentat n figura III.2.7.8 are efect de nceoare i voalare a contururilor (blurring). De aceea, filtrele de netezire se mai numesc filtre integrative. n cazul filtrelor liniare, ponderile sunt pozitive la acest tip de filtrare. Observai c cele trei metode de netezire din figura III.2.7.8 nu dau rezultate identice pe cele dou imagini: la imaginea cu zgomot uniform, filtrarea median nu pare s dea rezultate spectaculoase, pe cand la imaginea afectat de zgomot binar filtrarea median pare cea mai performant. Explicaia se gsete n modul n care este ales indicatorul tendinei centrale pentru cele dou tipuri de distribuii ale zgomotului (vezi capitolul de prelucrri statistice). Aici s-au ilustrat doar situaii simple, n care doar distribuia valorilor zgomotului difer (distribuie uniform, respectiv binar), utilizndu -se o distribuie spaial uniform. Prelucrrile devin mai complexe cnd distribuia pixelilor zgomotoi este neuniform spaial; n acelai timp, valorilor de gri pot urma diverse distribuii, ma i complexe dect cele ilustrate aici. Filtre derivative Filtrele derivative utilizeaz mti cu ponderi negative i pozitive care conduc la o derivare a imaginii, punnd n eviden tranziiile i schimbrile de comportament ale funciei imagine (detaliile de finee i tranziiile ntre nivelele de gri). Figura III.2.7.9 prezint rezultatul aplicrii unui filtru de tip gradient (o derivat de ordinul I), iar figura III.2.7.10 a unui filtru Laplace (o derivat de ordinul II).

170

D. Lungeanu, Gh.-I. Mihala

(a)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

Figura III.2.7.8. Efectul filtrelor de netezire. Imaginile (a) i (e) sunt cele originale, cu acelai nivel de zgomot adugat n mod uniform din punct de vedere spaial imaginii (a) i s-a adugat zgomot cu valori ntre 0 i 255 distribuit n mod uniform pe plaja de gri (adic toate nuanele de gri), n timp ce imaginii (e) i s-a suprapus zgomot binar, de tip sare i piper (doar extremele de 0 i 255). Filtrele aplicate au fost: netezire uniform n (b) i (f); netezire Gausiana n (d) i (h); filtrare median n (c) i (g). Imagine prelucrat cu ImagePro Plus v.3.0

171

Informatic Medical & Biostatistic

(a)
Figura III.2.7.9. Rezultatul aplicrii unui filtru gradient. Imagine preluat i prelucrat cu AIM-Another Image Manager (Universitatea din Amsterdam)

(b)

(a)
Figura III.2.7.10. Rezultatul aplicrii unui filtru Laplace. Imagine prelucrata cu Image-Pro Plus v.3.0

(b)

Se observ modul diferit de evideniere a muchiilor pentru cele dou tipuri de filtre derivative (de ordinul I sau II). Prezentarea unor probleme elementare din prelucrarea imaginilor a avut scopul de a ajuta la formarea unei idei generale privind problematica domeniului. Totodat, credem c aceste noiuni de baz vor constitui fundamentul necesar att pentru a putea alege unele din opiunile oferite de programele de prelucrare, cat i pentru studierea mai aprofundat a problemelor specifice imagisticii medicale.

172

D. Lungeanu, Gh.-I. Mihala

2.8. STANDARDUL

DICOM

Digital Imaging and Communications in Medicine

Standardul DICOM faciliteaz interoperabilitatea echipamentelor de imagistic medical standardul specific: un set de protocoale ce trebuiesc respectate de ctre toate echipamentele care pretind ca sunt conforme standardului sintaxa i semantica comenzilor, precum i informaia asociat acestor protocoale informaiile ce trebuiesc furnizate de ctre echipamentele ce se conformeaz standardului

Figura III.2.8.1. Datele furnizate de echipamentele de imagistic medical trebuie s se integreze n circuitul general al informaiei medicale. [DICOM]

173

Informatic Medical & Biostatistic

Scurt istoric anii 1970 introducerea tomografiei computerizate, urmat de dezvoltarea altor tehnici de investigare imagistic nevoia unor standarde de transfer a imaginilor i informaiei asociate acestora ntre echipamentele furnizate de diveri productori 1983 American College of Radiology (ACR) i National Electrical Manufacturers Association (NEMA) formeaz un comitet care dezvolt standardul DICOM (dezvoltat i publicat potrivit standardelor NEMA i n acord cu directivele ISO/IEC) Standardul a fost dezvoltat mpreun cu alte organizaii internaionale de standardizare CEN TC251 Europa JIRA Japonia IEEE HL7 ANSI - SUA 1988 DICOM versiunea 2 2001 DICOM versiunea 3 (publicat de NEMA). Standardul DICOM v.3 este aplicabil n reele (respect protocoalele standard de reea OSI i TCP/IP) realiznd interoperabilitatea complet ntre sistemele conectate n reea (figura III.2.8.2).

Figura III.2.8.2. Standardul DICOM permite conectarea echipamentelor de imagistic medical n reea i interoperabilitatea cu celelalte echipamente medicale. [DICOM]

174

D. Lungeanu, Gh.-I. Mihala

DICOM versiunea 3: specific clar clasele de servicii, semantica comenzilor i tipurile de date modul n care trebuie s reacioneze dispozitivele care pretind c respect standardul specific nivele de conformare cu standardul are organizare modular se pot aduga noi faciliti introduce n mod explicit Information Objects nu numai pentru imagini i grafic, ci i pentru studii, rapoarte, etc. precizeaz tehnica pentru identificarea neambigu a relaiilor dint re diferitele informatii (Information Objects) din reea.

Figura III.2.8.3. Standardul DICOM are organizare modular i ofer flexibilitate, conectnd n mod natural imaginile cu celelate informaii medicale. [DICOM]

Mai multe informaii se pot afla de pe diferite site-uri specializate o bun surs este Penn State Radiology.

175

Informatic Medical & Biostatistic

BIBLIOGRAFIE I REFERINE
I. Bankman. Handbook of medical imaging. Processing and analysis management . Academic Press, San Diego, 2000 JH van Bemmel, MA Musen (eds). Handbook of Medical Informatics. Springer Verlag, Heidelberg, 1997 DICOM. Digital Imaging and communications in Medicine: http://medical.nema.org/ RC Gonzalez, RE Woods. Digital Image Processing (2nd ed.). Prentice Hall, Englewood Cliffs, NJ, 2002 National Library of Medicine. The Visible Human Project: www.nlm.nih.gov/research/visible/visible_human.html Penn State Radiology: http://www.xray.hmc.psu.edu/physresources/dicom/ O. Popescu (ed). Informatica medicala. Editura Medicala, Bucureti, 1988

176

D. Lungeanu, Gh.-I. Mihala

Partea a IV-a

DECIZIA MEDICAL ASISTAT DE CALCULATOR

177

Informatic Medical & Biostatistic

178

D. Lungeanu, Gh.-I. Mihala

INTRODUCERE
Asistm azi la extinderea utilizrii calculatoarelor n cele mai diverse domenii, medicina fiind un domeniu vizat nc de la apariia primelor calculatoare. Atracia pentru medicin nu este ntmpltoare: informaticienii primelor generaii de calculatoare simeau nevoia de a demonstra universalitatea aplicaiilor i doreau exemple n afara granielor tradiionale ale disciplinelor "exacte" n care formalizarea matematic las s se ntrevad uor aplicaiile. Pentru un nespecialist, activitatea medicului la stabilirea diagnosticului pare un simplu proces de asociere a unui termen, numit "diagnostic", cu un set de elemente numite "simptome". n primele programe de diagnostic asistat s-a procedat similar, ns rezultatele obinute au fost deosebit de modeste. La o analiz mai atent se poate vedea c nici nu se puteau atepta rezultate mai bune ntr-o viziune att de simplist. Multe semne nu pot fi ncadrate ntr-o logic bivalent, nu toate semnele apar cu necesitate, nu toate au aceeai valoare n stabilirea diagnosticului; n plus, exist frecvente complicaii sau asocieri care fac ca mulimea diagnosticelor s fie greu de definit. Peste toate acestea s-a adugat i constatarea c raionamentul medicului se deosebete substanial de raionamentul liniar deductiv-exclusiv, fiind considerat oarecum mai apropiat de procesul de recunoatere. Actualmente raionamentul medical se gsete sub lupa specialitilor n inteligena artificial i reprezentarea cunotinelor, ca i a celor interesai n tiine cognitive. S-a progresat foarte mult n aceast direcie, cadrul de dezvoltare, mult mai larg dect cel strict limitat la "diagnosticul asistat", fiind oferit de logica matematic, ce permite formalizarea cunotinelor n general. Apariia limbajelor logice - de exemplu PROLOG - a deschis efectiv un nou mare capitol al informaticii medicale: "decizia medical asistat de calculator", care alturi de aplicaiile privind prelucrarea semnalelor i imaginilor, bazele de date i sistemele informatice medicale, biostatistic i modelarea proceselor biologice, constituie domenii care i schimb ncetul cu ncetul statutul din domenii de vrf n domenii de rutin. Ritmul ridicat n care apar noi programe n aceste discipline face ns ca s fie tot mai dificil de inut pasul cu noutile mai ales cnd ele cu greu i fac loc n programele tradiionale ale nvmntului medical. Aplicaiile practice privind asistarea deciziei medicale nu s-au limitat la cele privind diagnosticul asistat, acoperind i alte aspecte. Putem distinge astefel urmtoarele direcii: a) diagnostic asistat b) alegerea investigaiilor c) optimizarea tratamentului d) asistarea deciziei n managementul sanitar. Vom analiza pe rnd aceste aspecte, tratnd mai detaliat aplicaiile n domeniul diagnosticului asistat.

179

Informatic Medical & Biostatistic

1. DIAGNOSTICUL ASISTAT DE CALCULATOR


1.1. CLASIFICAREA METODELOR DE DIAGNOSTIC Rezultatele modeste ale primelor programe de diagnostic "automat" (denumire la care actualmente s-a renunat) nu au determinat ns o a abandonare a temei, ci tocmai o cretere a eforturilor de analiz aprofundat a raionamentului medical, cu ecou pn la dezvoltarea unor abordri teoretice de finee. Se pot distinge trei direcii principale de studiu: mbuntirea metodelor logice prin care s-a pornit iniial abordarea diagnosticului asistat elaborarea unor metode statistice adecvate, conducnd pn la teoria clasificrii formalizarea cunotinelor medicale n forma lor euristic, cu scopul direct declarat de simulare a raionamentului medical, conducnd la elaborarea sistemelor expert. n continuare vom prezenta stadiul actual al cercetrilor n acest domeniu i vom sistematiza metodele abordate, dei unele metode au caracter hibrid i sunt greu de clasificat. Totodat, prezentarea se va face evitnd abordarea teoretic, ncercnd a expune ntr-o manier descriptiv cele mai importante direcii de dezvoltare a "diagnosticului asistat de calculator". 1.2. FORMALIZAREA OPERAIUNII DE STABILIRE A DIAGNOSTICULUI Operaiunea de stabilire a diagnosticului poate fi privit ca rezultatul confruntrii comparative de ctre medic a dou fluxuri de informaie: - informaii privind starea pacientului, obinute att prin dialog direct (anamnez) ct i prin diverse investigaii (laborator, radiografii, explorri funcionale etc.): ansamblul acestor informaii, cu valori concrete pentru pacientul investigat (simptome) le numim date. - informaii pe care medicul le posed (din pregtire, din experiena clinic, din materiale documentare etc.) i pe care le numim cunotine, cuprind o multitudine de relaii ntre simptome i diagnostice. Operaiunea de stabilire a diagnosticului este prezentat schematic n fig. IV.1.
PACIENT DATE MEDIC Diagnostic

Investigaii

Cunotine

- pregtire - experien clinic - documentare


Figura IV.1. Reprezentarea schematic a fluxurilor informaionale n operai a de stabilire a diagnosticului

Realizarea unor programe de calculator pentru "diagnostic asistat" trebuie s urmreasc deci confruntarea celor dou fluxuri de informaii:

180

D. Lungeanu, Gh.-I. Mihala

- cunotinele din domeniu, care formeaz un ansamblu numit baza de cunotine (BC) - datele despre pacient, anasamblu numit i vectorul de stare al pacientului (PAC). Metodele de diagnostic enumerate mai sus se deosebesc ntre ele prin modul n care este construit baza de cunotine, modul de culegere (reprezentare) a datelor pacientului i modul de confruntare date-cunotine (raionament). S le abordm pe rnd.

2. METODE LOGICE
2.1. BAZA DE CUNOTINE Metodele logice folosesc drept baz de cunotine o matrice boli/simptome (Tabel IV.1).
Tabel IV.1. Structura bazei de cunotine pentru metodele logice n diagnosticul asistat

Simptome Diagnostice D1 (Hipertiroidism) D2 (Hipertensiune) . . . Dn (Angin pectoral)

S1 0 1 . . . 1

S2 1 0 . . . 1

S3 0(n) 1 . . . 0

...

Sm 1 0(n)

. . .

. . . 0(n)

D1, D2 ... Dn reprezint diagnostice iar S1, S2 ... Sm reprezint simptome. Ex: S1 = hipertrofie ventricular stng, S2 = palpitaii, S3 = cefalee,... Sm = exoftalmie

Matricea este construit pe baza logicii bivalente (de unde i denumirea de metode "logice"), valoarea "1" reprezentnd prezena simptomului n diagnosticul respectiv, iar valoarea "0" absena. (n variantele mai noi se utilizeaz i "n" cu semnificaia "nu are importan", adic prezena/absena simptomului respectiv este nerelevant pentru acel diagnostic). Coninutul acestul tabel este realizat prin contribuia unui grup de experi i este reprezentat n program sub forma unei matrici, fiecare element din matrice fiind caracterizat prin doi indici: unul referitor la boal, cellalt la simptom. 2.2. VARIANTE DE METODE LOGICE n metodele logice vectorul de stare al pacientului este format dintr-un ir de valori corespunztoare tuturor simptomelor existente n baza de cunotine. La lansarea programului vectorul PAC conine "0" n toate csuele. Dup modul de construcie al vectorului de stare al pacientului distingem dou variante mai nsemnate de metode logice.

181

Informatic Medical & Biostatistic

a) Tabele de adevr Simptomele sunt clasificate i prezentate pe mai multe pagini de ecran. De obicei selecia se efectueaz prin deplasarea pe ecran a unui cursor pn la simptomul ales i apsarea unei taste de selecie (de obicei "Enter"); se deplaseaz apoi cursorul pe alt poziie i aa mai departe. Pentru simptomele selectate vectorul de stare al pacientului va conine "1", restul csuelor rmnnd "0". Majoritatea programelor menin cel puin o linie "menu" n tot timpul rulrii pentru precizarea modului de lucru n secvena corespunztoare din program. b) Arbori de decizie Pentru o apropiere mai mare de clasica anamnez, n loc de selectarea de pe ecran a simptomelor, programul afieaz succesiv ntrebri privind prezena / absena unor simptome, solicitnd rspuns de tip da/nu. n cazul unui rspuns pozitiv, n vectorul de stare al pacientului apare "1" n poziia simptomului respectiv. Varianta "arbori de decizie" impune alegerea succesiunii ntrebrilor n funcie de rspunsurile primite, evitarea ntrebrilor inutile. (de ex. ntrebri despre sarcin la un brbat etc.). Se apreciaz c prin utilizarea arborilor de decizie, lsnd pacientul nsui s rspund la unele ntrebri se poate obine o mai puternic implicare a sa, cu rezultate pozitive n tratament. 2.3. PREZENTAREA REZULTATELOR Indiferent de varianta prin care se construiete vectorul de stare al pacientului, n continuare acesta este comparat cu fiecare linie a matricii boli/simptome i se calculeaz cte din simptomele caracteristice bolii respective sunt prezente la pacient. De exemplu, dac boala D1 are 8 simptome caracteristice (8 valori notate cu "1" n BC), iar pacientul nostru prezint 6 dintre acestea, atunci procentul de simptome ale bolii D1 prezente la pacient este 6/8 = 75%. Prezentarea rezultatului poate fi efectuat n mai multe feluri: a) prin enumerarea tuturor diagnosticelor n care apar semnele pacientului, n lista afiliat diagnosticele sunt ordonate dup numrul de simptome care coincid; b) prin calcularea unui procent de coincidene i ordonarea diagnosticelor dup acest procent; c) prezentarea pentru fiecare diagnostic din lista-rezultat nu numai a numrului de simptome coincidente, ci i a simptomelor care ar mai fi ateptate pentru un tablou clinic clasic complet; d) varianta anterioar mbuntit ar include elemente de diagnostic diferenial sugerate; e) prezentarea alturi de fiecare diagnostic din lista-rezultat a unor indicaii terapeutice. 2.4. DEZAVANTAJELE METODELOR LOGICE Metodele logice, datorit simplitii lor prezint o atracie pentru utilizatori, mai ales metoda tabelelor de adevr care permite i o rulare operativ. Totui, simplificrile, uneori excesive, restrng utilitatea practic mpingnd aplicaiile preponderent n sfera nvmntului medical. Obieciile ce pot fi aduse se refer mai mult la dou aspecte: - logica bivalent de genul "simptomul este prezent/absent" exclude factorul intensitate; ntr-adevr, o serie de simptome pot fi apreciate ca avnd diferite intensiti (ex: febr ridicat/ moderat/ uoar sau parametri exprimabili numeric)

182

D. Lungeanu, Gh.-I. Mihala - ponderea simptomelor n aprecierea unui diagnostic nu este egal (de ex: concentraia sczut de hemoglobin este un indicator mai puternic pentru anemie dect paloarea) - nu toate simptomele apar cu necesitate; exist numeroase forme atipice sau asimptomatice - metodele logice nu iau n considerare "prevalena" afeciunilor (acest aspect deseori nu reprezint un dezavantaj ci chiar un avantaj, sugernd i posibilitatea unei afeciuni mai rare). Corectarea acestor neajunsuri a impus dezvoltarea unor metode ce depesc cadrul logicii bivalente i care vor fi prezentate n continuare.

3. METODE STATISTICE. REGULA LUI BAYES


3.1. ASPECTE STATISTICE N RAIONAMENTUL MEDICAL O caracteristic esenial a domeniului medical este faptul c majoritatea aspectelor ntlnite au un aspect probabilistic: rareori putem folosi termenii "ntotdeauna" sau "niciodat", dar ne ntlnim frecvent cu termenii "adesea", "uneori", "rareori". Expresia probabilistic a terminologiei medicale este uneori acoperirea lacunelor cunotinelor disponibile care fac deocamdat imposibil dihotomia necesar nlturrii unor ambiguiti, dar trebuie s fim permanent contieni de caracterul statistic intrinsec al multor fenomene biologice, caracterul statistic fiind prezent nc de la nivel molecular, aa c ecoul la nivel macroscopic nu este surprinztor. Abordarea probabilistic n medicin este un mod de gndire impus nc din faza de formare a viitorului medic, chiar dac deocamdat este limitat n bun parte la utilizarea terminologiei "vagi" i mai puin la gndirea statistic propriu-zis. Faptul c aspectul probabilist este fundamental n gndirea medical a determinat dezvoltarea metodelor statistice de decizie medical asistat, fiind nucleul unor metode care au depit cadrul statistic propriu-zis. Abordarea statistic poate fi recomandabil i n situaii n care caracterul intrinsec al aspectului nu este statistic, cum ar fi exprimarea intensitii unui simptom sau ponderea simptomului pentru un anumit diagnostic. Abordrile statistice s-au orientat n dou direcii principale: - regula lui Bayes - pattern recognition. 3.2. REGULA LUI BAYES Punctul de plecare al metodelor numite "bayesiene" l constituie faptul c prezena unui simptom ntr-o boal poate fi dat cu o anumit probabilitate p(s+/b+), element fundamental deosebit de metodele logice n care simptomul putea fi doar prezent sau absent. De asemenea, un simptom poate fi prezent n mai multe boli, deci se poate stabili o probabilitate de a gsi simptomul ntr-o populaie, p(s+), indiferent de bolile cu care se asociaz. Nu trebuie s uitm i faptul c frecvena bolilor ntr-o populaie poate fi caracterizat printr-o probabilitate p(b+). Deci ntlnirea unui simptom trebuie s ne sugereze posibilitatea unei boli cu o probabilitate p(b+/s+) dependent de probabilitile enumerate anterior. Putem calcula ponderea simptomului s pentru diagnosticul bolii b dup formula: p(b+/ s+) = p(s+/ b+) p(b+)/ p(s+) (IV.1)

cunoscut sub numele de "regula lui Bayes". Probabilitile din membrul drept se consider cunoscute pentru un anumit teritoriu ntr-un anumit moment. Ele ar putea fi cunoscute 183

Informatic Medical & Biostatistic

printr-o analiz populaional (screening) sau prin evaluarea datelor de morbiditate pentru p(b+) i din aprecierile unor experi pentru p(s+/b+) i p(s+). Literatura de specialitate apreciaz c deocamdat ultimele dou probabiliti, n special p(s+), sunt cunoscute destul de aproximativ, limitnd sau ngreunnd aplicabilitatea metodei. Tabel IV. 2. Tabel ilustrnd frecvenele cu care poate s apar ntr-o populaie o anumit boal b i relaia ei cu simptomul s; tabele similare trebuie concepute pentru orice pereche b-s. n dreapta sunt prezentate ca exemplu probabilitile necondiionate p(s+) i p(b+) i condiionate p(s+/b+), din care se va calcula p(b+/s+) s+ a c C1 sb d C2

b+ b -

L1 L2 N

p(s+) = C1/N p(b+) = L1/N p(s+/b+) = a/L1 p(b+/s+)=a/C1

De exemplu, s lum o situaie ce ar putea aprea la analiza fielor unui eantion de 4000 de indivizi. Dorim realizarea unui tabel ca tabelul IV.3 pentru o anumit boal (s zicem b = "viroz") i un anumit simptom (s zicem s = "febr"). Din cei 4000 indivizi, n cursul anului precedent s-a semnalat prezena virozei la 100 de persoane; dintre acestea numai 80 au prezentat febr. De asemenea mai putem gsi c febra a fost semnalat i la alte 70 de persoane care nu au avut viroz (dar poate au avut pneumonie, bronit etc.). Trebuie subliniat c cele 3900 persoane care nu au avut viroz nu sunt presupuse sntoase, cuprinznd att persoane sntoase ct i persoane cu alte diagnostice; n tabelul nostru conteaz aici numai proprietatea "nu au avut viroz (b-)".
Tabel IV.3 Exemplu pentru ilustrarea regulii lui Bayes

s+ b+ b80 70 150

s20 3850 3850 100 3900 4000

Relund cele expuse: n total au avut viroz 100 de persoane din 4000, adic p(b+) = 100/4000; au avut febr 150 din 4000, adic p (s+) = 150/4000 etc. Aceste probabiliti (p(b+), p(b-), p(s+), p(s-)) se numesc probabiliti necondiionate, toate acestea avnd la numitor numrul total al indivizilor (N=4000). n cazul n care facem referire numai la o parte dintre ei (de ex. dintre cei care au avut viroz), atunci obinem probabiliti condiionate. Iat un exemplu: din cei 100 care au avut viroz, 80 au prezentat febr, adic p(s+/b+) = 80/100; similar putem scrie orice probabilitate condiionat; alt exemplu: din cei 3850 care nu au febr, 20 au avut viroz, adic p(b+/s-) = 20/3850. De obicei, o probabilitate condiionat, de exemplu (p(b+/s-), se citete "probabilitatea ca un individ s aibe viroz (b+) dac el nu are febr (/s-)". Cnd avem la dispoziie un astfel de tabel putem calcula direct p(b+/s+), dar de obicei astfel de tabele nu sunt disponibile. De aceea folosim regula lui Bazes n care nlocuim p(b+), p(s+) i p(s+/b+) considerate din estimri n funcie de acestea dou (p(s+)). Putem astfel calcula: p(b+/s+) = 80/150. Aceast probabilitate reprezint pentru programele de diagnostic asistat un element important deoarece ea arat ct de mult 184

D. Lungeanu, Gh.-I. Mihala

contribuie faptul c un individ prezint "febr" pentru a nclina spre diagnosticul de "viroz". Pentru a stabili probabilitatea de a avea o anumit boal, trebuie s construim cte un tabel de genul tabelului III.3 pentru fiecare simptom; de fapt se construiesc tabele doar pentru simptomele caracteristice dei actualmente dispunem de un numr relativ sczut de date concrete. Principial, termenii sunt accesibili, astfel nct i putem considera pentru moment cunoscui. Dac am dispune de baze de date suficient de bogate, aceti termeni ar putea fi calculai. Avem deci o evaluare a ponderilor simptomelor cu care am putea estima probabilitatea unui anumit diagnostic; cteva simptome cu ponderi ridicate ar conduce la un diagnostic foarte probabil. Din pcate, se mai impune o regul: pentru ca aceste ponderi s fie combinate pentru mai multe simptome, este necesar ca simptomele s fie independente; ori, este cunoscut faptul c, foarte frecvent simptomele sunt corelate nu ntmpltor, ci printr-o interdependen cauzal; utilizarea simultan a unor simptome puternic corelate conduce la creterea artificial a probabilitii unui diagnostic. Pentru evitarea acestor situaii se pot aplica teste de independen ( 2 = ptrat) din care se pot elimina simptomele redondante. Cu toate dificultile sale, regula lui Bayes a impus un punct de vedere mai realist, introducnd i o disciplin n elaborarea metodelor de diagnostic asistat.

4. PATTERN RECOGNITION
4.1. PRINCIPIUL METODEI PATERN RECOGNITION Am pstrat denumirea original a metodei deoarece traducerea uzual ca "recunoaterea formelor" este nepotriviti, mai ales n contextul diagnosticului asistat. Termenul de "pattern" trebuie neles ca un set de atribute caracteristice, neavnd aici sensul de form. Dei este o metod cu caracter statistic, principiul aplicrii sale este fundamental diferit de cel al regulii lui Bayes. Metoda "pattern recognition" face un pas nsemnat spre apropierea de raionamentul medicului. Suntem de fapt obinuii cu operaiunea de recunotere pe care o utilizm frecvent; recunoatem o persoan ntr-o fotografie, recunoatem o voce, un mers, un obiect, o stare de spirit a unei persoane etc. Pe ce ne bazm n aceste recunoateri? Analiza procesului de recunoatere st la baza metodei pe care o descriem n continuare. Orice sistem sau obiect poate fi caracterizat printr-o imensitate de caracteristici exprimabile cantitativ sau calitativ care formeaz o mulime a proprietilor, M. De exemplu, pentru o persoan aceast mulime ar cuprinde: nlimea, greutatea, vrsta, sexul, frecvena cardiac, tensiunea sistolic, tensiunea diastolic, glicemia, proteinemia, proteinuria, pH-ul sanguin, numrul de respiraii pe minut, indicele de memorie etc., etc. Unele mrimi nu se modific (sexul, nlimea la adult), altele se modific lent (greutatea), altele au variaii dependente de starea organismului (frecvena cardiac). Deci valorile proprietilor trebuie privite dinamic. Indivizii (sau obiectele) unei populaii pot fi mprii n clase dup diferite criterii; de exmplu: dup sex se mpart n brbai i femei; dup vrst: copii i aduli fiind posibil a diviza fiecare clas n subclase (ex: aduli tineri, maturi i vrstnici). Criteriile de includere a unui obiect ntr-o clas sunt convenionale; totui, foarte multe "convenii" au intrat n viaa de zi cu zi astfel nct de cele mai multe ori putem realiza clasificri fr a cunoate exact valorile numerice ale parametrilor implicai. Clasificrile pomenite au apelat la cte o singur proprietate, sexul, respectiv vrsta. 185

Informatic Medical & Biostatistic

Este cazul s facem dou observaii: - prima: din larga paleta de caracetristici, o bun parte nu au putere de discriminare, avnd valori variind pe plaje similare pentru toate clasele (de ex: glicemia nu are putere de discriminare pentru stabilirea sexului sau a vrstei; ea devine ns o proprietate important la definirea clasei diabeticilor). - a doua observaie: indivizii din clase diferite se deosebesc prin mai multe caracteristici (de ex: valorile "normale" la femei sunt diferite de cele la brbai pentru destul de muli parametri; la fel, putem urmri variaia unor valori "normale" cu vrsta); totui pentru definirea unei clase nu apelm la toate deosebirile, mulumindu-ne cu un numr redus de parametri, destul de des chiar cu unul singur, cum au fost clasificrile date ca exemplu pn acum.

Figura IV.2. Reprezentarea n spaiul greutate nlime

Exist ns situaii n care clasele nu pot fi definite dup un singur parametru; de exemplu putem mpri indivizii n: "obezi", "normali" i "caectici". Observm imediat c greutatea nu este un parametru suficient; un individ cu greutatea de 75 kg pare obez la nlimea de 1,55 i slab la 1,95. Trebuie deci s definim clasele lund n considerare i nlimea. n asemenea situaii se obinuiete s se fac reprezentri ntr-un sistem de coordonate avnd pe axe cei doi parametri numit spaiul strilor. ntr-un astfel de spaiu un individ este reprezentat printr-un punct. (fig.IV.2.) Aprecierea aparteneei la o clas sau alta se poate face pe diferite criterii. n exemplul acesta apartenena la o clas dup aspectul fizic conduce la o clasificare cu sensibilitate i specificitate destul de bun, dei din punct de vedere medical este considerat nesatisfctoare. Cnd criteriul de clasificare nu utilizeaz pentru definirea claselor valorile parametrilor folosii, spunem c avem un clasificator independent; dac depinde exclusv de parametrii utilizai atunci avem un clasificator formal, iar dac folosete numai unii din parametrii de reprezentare, eventual mpreun cu ali parametri (adesea calificativi), atunci l numim clasificator parial dependent. n cazul clasificatorilor formali mprirea n clase este definit prin relaii, cel mai adesea empirice, limitele dintre clase fiind convenionale i deci oferind subiect de dispute. Este i cazul exemplului dat n care domeniul greutilor acceptabile se definete n funcie de greutatea normal (sau ideal), care este dat de o relaie de genul (IV.2): mi = (h-100) - (h-159)/4, [h n cm, m n kg] (IV.2) n jurul acestei drepte, ntr-un interval cu limea de 15% se consider greuti acceptabile, cei cu greuti mai mari dect 1,15 mi fiind numii supraponderali, iar dac depesc 186

D. Lungeanu, Gh.-I. Mihala

greutatea ideal cu peste 20% sunt numii obezi; similar se definesc clasele de subponderali, respectiv caectici.

Figura IV.3. Caracterizarea undelor EEG ntr-un spaiu bidimensional: frecven amplitudine. Sunt ilustrate zonele undelor tipice (o.i. = ochii nchii, od = ochii deschii), , , , complexele vrf-und din descrcri epileptice (ep.) i undele din faza de somn "Rapid-Eye-Movement" (REM)

Cele mai interesante reprezentri apar n cazul clasificatorilor independeni sau parial dependeni, situaii n care delimitarea dintre clase nu mai este bine deifint i n practic putem ntlni i zone de intersecie (mulimile nu sunt disjuncte). n fig. III.3 am reprezentat undele EEG tipice n spaiul amplitudine-frecven cu un clasificator parial dependent. Ne putem imagina i o reprezentare cu un clasificator independent, de exemplu lund 3 loturi: un lot de sportivi, unul de indivizi sntoi nesportivi i un lot de astmatici i s-i reprezentm ntr-un sistem de coordonate, s zicem capacitate vital - VEMS (volum expirator maxim pe secund). Clasele se vor suprapune parial ns pentru fiecare grup va exista zona sa de dominan. n metoda "pattern-recognition" aplicat diagnosticului asistat clasificatorul este cel mai adesea parial dependent sau independent, muli dintre parametrii utilizai fiind calitativi, deci fr posibilitatea de a fi plasai pe axe. Problema principal care se pune este ca, avnd la dispoziie ansamblul de date, cantitative i calitative att pentru loturi de pacieni grupai pe diagnostice ct i pentru loturi de control (normali), s gsim cel mai potrivit sistem de axe de coordonate care ne permite s reprezentm loturile prin regiuni ct mai compacte i, dac este posbil, ca acestea s fie disjuncte; aceast faz se numete "selecia atributelor". Dup ce s-au gsit parametrii potrivii se calculeaz domeniile lor de variaie pentru fiecare clas, definindu-se regiunile din spaiu ale claselor, etap numit "nvare supervizat". n aceast faz calculatorul este aproape gata s stabileasc diagnosticul unui pacient reprezentndu-l n spaiu i gsind n ce domeniu, din cele definite anterior, se gsete. Un ultim aspect care ar mai trebui rezolvat se refer la criteriul dup care lum decizia de apartene la o clas, deci mai este necesar etapa de definire a unei funcii de decizie. Toate aceste etape au un suport matematic solid i au fost prezentate sumar n capitolul de prelucrare a semnalelor biologice. Acum nu ne oprim n detaliu la aceste aspecte, trecnd doar rapid n revist elementele eseniale ale fiecrei etape.

187

Informatic Medical & Biostatistic

4.2. ETAPELE APLICRII METODEI PATTERN RECOGNITION. CLASIFICAREA METODELOR a) Alegerea atributelor ("feature selection") Cel mai important aspect n recunoaterea unui pattern ns i cel mai mult discutat este cel referitor la alegerea atributelor cu putere real de descriminare a claselor. Din imensitatea de mrimi caracteristice ale unui obiect sau individ (R), reinerea celor mai "importante" caracteristici poate fi legat de ndeplinirea unor condiii pentru fiecare atribut selectat: - s aibe o variabilitate mic n interiorul claselor (minimizarea "distanelor" intraclas) - s ofere o discriminare satisfctoare ntre clase (maximizarea "distanelor" interclase). S-au propus o serie de metode pentru optimizarea selectrii aributelor, bazate pe transformri de coordonate, fie rotaii, fie introducerea unor ponderi. Se ncearc i gsirea unor noi variabile prin "combinarea" caracteristicilor iniiale, ns numrul acestor combinaii este tot foarte mare. Rezultatele care se obin sunt satisfctoare pentru aplicarea practic, matematicienii fiind mai curnd nemulumii nu de rezultate ci de absena unui criteriu nediscutabil de optimizare. Trebuie s mai menionm c, dup depistarea caracteristicilor eligibile, se verific i gradul de corelaie ntre ele; n cazul unor corelaii puternice ntre dou caracteristici se pstreaz numai una, informaiile aduse de cealalt fiind redondante. Se ajunge n final la selectarea unui numr deosebit de sczut de atribute (N<<R) care pstreaz (uneori chiar mbuntesc) capacitatea de discriminare ntre clase. b) nvarea supervizat. Definirea criteriului de clasificare n faza de alegere a atributelor am ajuns la precizarea n spaiul cu N dimensiuni a poziiei fiecreia din cele K clase; spunem c am realizat o "nvare" supervizat - la fel cum fiecare persoan de fapt trebuie nti s nvee pentru a putea apoi realiza o recunoatere. S presupunem c mprirea n clase a fost realizat conform graficului din fig.IV.2, separarea ntre clasele notate O, N i S fiind dat de liniile de 15%. Introducnd acum datele unui individ despre care nu tim n ce clas face parte, el va aparine unei regiuni deci poate uor fi inclus ntr-o clas i - important - putem face clasificarea chiar fr a mai efectua celelalte calcule. Principii similare stau la baza construciei nomogramelor dac numrul de variabile este sczut. Trebuie menionat totui c acest gen de clasificare este posibil numai dac ansamblul claselor umplu ntregul spaiu, deci cnd separarea ntre clase se face prin plane (sau suprafee curbe) n spaiul cu N dimensiuni (hiperplane). Exist cazuri n care regiunea unei clase nu este definit printr-o relaie ce ne permite extinderea sa, ea fiind restrns la spaiul delimitat de valorile din setul de nvare (ca de ex. n fig.IV.3); astfel de situaii apar mai ales cnd criteriul de clasificare este extern - independent sau parial dependent. n aceste situaii este posibil s ntlnim obiecte (indivizi) care nu aparin nici unei clase ntlnite anterior. ncadrarea sa ntr-o clas se poate face n funcie de "apropierea" de una din clase, deci trebuie s alegem un criteriu geometric i s msurm distana de la obiectul nostru pn la clasele definite (s-au propus variante de distane: pn la "centrul" clasei sau pn la suprafaa clasei). n msurarea distanelor ntr-un spaiu multidimensional apare o problem deosebit: mrimile de pe axe au - aproape ntotdeauna - uniti de msur diferite, fiind deci incomparabile! O soluie este "normalizarea" lor obinut cel mai adesea prin transformarea tuturor mrimilor n procente: se alege pentru fiecare mrime o referin (fie valoarea maxim, fie cea medie, fie derivaia standard etc.) i se transform toate datele n procente fa de referin. Aceast operaiune se face de fapt nainte de selecia atributelor, fiind util i n faza respectiv. Deci ntr-un spaiu normalizat putem compara distanele i vom putea stabili un criteriu dup care s clasificm orice obiect cnd sunt cunoscute caracteristicile claselor. Reguli de acest gen se pot aplica i n cazul claselor definite prin clasificatori formali.

188

D. Lungeanu, Gh.-I. Mihala c) nvare nesupervizat. Metoda gruprii Sistemul descris anterior, de nvare supervizat, presupune o cunoatere apriori a claselor, deci n faza de nvare se ntroduc n calculator, pe lng toate mrimile culese despre obiect, i informaii privind clasa creia i aparine. n aceste situaii calculatorul este folosit numai pentru a categorisi obiecte introduse ulterior n calculator n aceste clase. Avem ns posibilitatea de a urmri modul n care sunt distribuite punctele, care reprezint obiectele (indivizii), ntr-un spaiu multidimensional fr a defini de la nceput nici un fel de clase. n cazul n care gsim regiuni de concentrare a punctelor ("clusters"), putem defini clase n jurul lor. Spunem n acest caz c avem o nvare nesupervizat, clasele nefiind definite apriori ci fiind "descoperite" de calculator. Metoda "pattern recognition", dei are unele caliti prin care depete substanial alte metode de diagnostic asistat, nu are o rspndire prea larg datorat numrului mare de parametri ce trebuie culei n faza iniial precum i numrului foarte mare de calcule necesar pentru optimizri i decizii, ceea ce a impus de la nceput utilizarea unor calculatoare performante, accesibile doar n centrele mai importante de cercetare. Se poate remarca totui o cretere a numrului de aplicaii n ultimul timp, n ciuda concurenei puternice a metodei ce o vom descrie n continuare - sitemele expert.

5. ELEMENTE DE LOGIC
Metodele expuse pn acum, cu performane mai ridicate sau mai modeste, sufer toate de un neajuns: utilizeaz un format de exprimare diferit de cel curent al medicilor. n practica uzual informaia se transmite prin propoziii, iar raionamentul medical se construiete prin operaii cu aceste propoziii. Pare deci ct se poate de natural ca cele mai agreate metode de diagnostic asistat s-au dovedit cele pe care le numim "euristice" (l. gr. heuriskein - a descoperi) n care poziia central o ocup sistemele expert. n aceste metode att baza de cunotine ct i vectorul de stare al pacientului se exprim prin propoziii, cu care se efectueaz operaii logice. Vom prezenta n continuare sintetic cteva noiuni fundamentale de logic. 5.1. NOIUNI GENERALE a) Propoziia n viaa curent ideile noastre se transmit prin propoziii ce exprim proprietile unor obiecte, cauzele unor evenimente, sau exprim ntrebri, dorine, porunci etc. Putem deci clasifica propoziiile n cel puin 3 clase mari: propoziii cognitive = nsuiri ale obiectelor, cauzele unor evenimente propoziii interogative = ntrebri propoziii imperative = ordine, dorine. Ex. Asmul bronic este o boal a aparatului respirator este o propoziie cognitiv.. Numai propoziiile cognitive au asociat o valoare de adevr, adic o propoziie poate fi: adevrat (A sau 1) fals (F sau 0) nesigur (?).

b) Forma logic Exprimarea ideilor se realizeaz n cadrul unor scheme, cu diferite grade de complexitate pe care le numim forme logice. Am ntlnit deja o form logic: propoziia. O propoziie este de fapt aplicarea unei operaii logice (de ex. afirmaia) asupra unor forme 189

Informatic Medical & Biostatistic

logice mai simple, numite noiuni. n exemplul de mai sus am utilizat dou noiuni: asmul bronic, respectiv boal a aparatului respirator. Prima (asmul bronic) reprezint obiectul gndirii i n propoziie se va numi subiect logic, notat cu S iar a doua noiune (boal a aparatului respirator) red ce se spune despre subiect i se va numi predicat logic, notat cu P. Operaia care leag aici S i P este afirmativ i putem nota formula general a unei propoziii afirmative: S este P Pentru o propoziie negativ formula general este: S nu este P Ex. Astmul bronic nu este boal infecioas Pe lng formele logice simple menionate deja - noiunea i propoziia - exist i o form logic mai complex, inferena, care cuprinde mai multe propoziii; unele numite premise din care construim o propoziie derivat numit concluzie. Ex.: Premise: - Hemoragia duce la scderea masei eritrocitare - Eritrocitele conin hemoglobin _________________________________________ - Hemoragia duce la scderea hemoglobinei (anemie)

Concluzie:

Observm deci c formele logice pot fi ierarhizate: noiunea, propoziia, inferena. c) Propoziii categorice Propoziiile categorice sunt cele mai simple propoziii logice,exprimnd un singur raport ntre dou noiuni, fr nici o condiie. Ele pot fi: - universale: = afirmative: Toi S sunt P = negative: Nici un S nu este P - particulare: = afirmative: Unii S sunt P = negative: Unii S nu sunt P - singulare: = afirmative: Acest S este P = negative: Acest S nu este P (IV.3) n logic propoziiile singulare sunt testate ca universale, S fiind o clas cu un singur element. d) Pricipiile logicii Aplicarea unor operaii asupra formelor logice pentru a obine propoziii noi trebuie s respecte o serie de legi de raionare, dintre care patru au un caracter fundamental i se numesc principii logice. Principiul identitii: un obiect este inconfundabil cu alt obiect. Principiul non-contradiciei: o propoziie nu poate fi i adevrat i fals n acelai timp.

190

D. Lungeanu, Gh.-I. Mihala

Principiul terului exclus: o propoziie - ntr-un context - poate fi fie acceptat, fie neacceptat; nu trebuie confundat cu principiul bivalenei privind valoarea de adevr a propoziiei (st la baza demonstraiei prin reducere la absurd). Principiul raiunii suficiente: nici o propoziie nu este acceptat sau respins ntrun raionament dect dac exist o justificare pentru acceptare (respingere, necesitate i suficien).

5.2. PROPOZIII COMPUSE Prin aplicarea unor operaii logice asupra unor propoziii simple se obine o form logic nou - propoziia compus. Valoarea de adevr a propoziiei compuse este dependent de valoarea de adevr ale propoziiilor simple i este redat uzual sub forma unor "tabele de adevr", n care se noteaz valoarea "adevrat" cu 1 i "fals" cu 0. Prezentm n continuare operaiile logice posibile pentru construcia unor propoziii compuse, mpreun cu tabele de adevr asociate. a) Negaia: notat ~ sau numete 'NOT' ; este un operator unar ~ p se citete 'non-p'; se mai q ~p 1 0 0 1 q se citete 'p i q'; se mai

b) Conjuncia: notat ' ' sau ' '; este un operator binar; p numete 'AND' p q 1 0

1 1 0

0 0 0

c) Disjuncia: notat 'V'; pVq se citete 'p sau q'; se mai numete 'OR' p q 1 0 d) Disjuncia exclusiv: notat ' 'XOR' 1 0

1 1

1 0

' sau 'W'; pWq sw citete 'sau p, sau q'; se mai numete

p q 1 0 e) Implicaia: notat ' numete consecvent '; p

1 0 1

0 1 0

q se citete 'dac p atunci q'; p se numete antecedent, q se

191

Informatic Medical & Biostatistic

p q 1 0 f) Echivalena : notat ' ' sau ' p q 1 0

1 1 0

0 1 1

'; p q se citete ' dac i numai dac p atunci q' 1 1 0 0 0 1

5.3. INFERENE LOGICE O form logic mai complex dect propoziia este inferena, prin care, din unele propoziii (premise) se construiete o propoziie nou (concluzie). Exist dou clase mari de inferene: - deductive - de la general spre particular - inductive - de la particular spre general. Sistemele expert actuale utilizate n domeniul medical utilizeaz exclusiv inferene deductive. Vom prezenta n continuare prtincipalele operaii cu propoziii compuse. Vom nota inferena cu semnul ' ' , plasnd premisele n stnga i concluzia n dreapta. a) Modus ponens: p p b) Modus tollens: p q p q c) Silogismul: q q

p q

q p r r

Ar putea fi desigur analizate detaliat cazurile ce apar n funcie de tipul fiecrei propoziii p, q, r, ns nu ne-am propus prezentarea acestor detalii, scopul principal fiind reamintirea elementelor fundamentale de logic ce stau la baza construciei unora dintre cele mai performante programe de informatic medical: sistemele expert.

192

D. Lungeanu, Gh.-I. Mihala

5.4. ELEMENTE ALE LIMBAJULUI PROLOG Majoritatea limbajelor de calculator sunt orientate pentru rezolvarea unor probleme numerice, avnd ca operatori fundamentali operaiile aritmetice. Lucrul cu propoziii necesit ns un limbaj adecvat, n care operatorii fundamentali s fie operatorii logici "nu, i, sau". Un astfel de limbaj este 'PROLOG' (PROgramming in LOGics), dedicat pentru transpunerea formal a propoziiilor i operaii cu propoziii. Rularea unui program implic estimarea valorii de adevr a fiecrei propoziii, iar rezultatul este ntotdeauna fie o valoare de adevr, fie o propoziie. Elementul fundamentale ale limbajului PROLOG sunt: predicate: care exprim o relaie ntre obiecte, de obicei primul avnd rolul subiectului dintr-o propoziie logic iar al doilea, eventual i celelalte fiind obiect al aciunii sau proprieti clauze: reprezint fapte sau reguli; ele se construiesc folosind predicatele enumerate n seciunea de predicate avnd nlocuite concret valori pentru parametrii de parantez domenii: reprezint paragraful de nceput al unui program n PROLOG n care sunt enumerate tipurile de variabile / parametri ntlnii n clauze. Exemplu: domains diagn = symbol tens_art_sis = integer hemoglobin = real predicates are (pacient, diagn, tens_art_sis, hemoglobin) clauses are (X, anemie, _ , Y) if Y 11.5 are (X, hipertensiune, Z, _) if Z 150 are (X, sntos, T,Y) if Z 150 and Y 11.5) are (popescu, Diag, 12, 140) are (ionescu, Diag, 11, 135) are (petrescu, Diag, 13, 160) are (vasile, Diag, 10, 155). Observm c n clauze apar dou feluri de propoziii: primele trei reprezint reguli, (coninnd variabile) iar urmtoarele 4 sunt fapte, coninnd date. Programul solicit operatorului rezolvarea unei probleme ('goal'); de ex. pentru un caz particular: goal: are (ionescu, Diagn, 11, 135) vom primi rspunsul: Diagn = anemie iar pentru un caz general: goal: are (X, Diagn, _ , _) vom primi rspunsul: X = popescu, diagn, = sntos X = ionescu, diagn = anemie X = petrescu, diagn = hipertensiune 193

Informatic Medical & Biostatistic

X = vasile, diagn = anemie X = vasile, diagn = hipertensiune 5 solutions. Desigur n situaii reale avem un grad mult mai ridicat de complexitate. Exemplele prezentate sunt foarte simple, ns ilustreaz modul n care se formalizeaz informaiile n cadrul sistemelor expert.

6. SISTEME EXPERT
6.1. STRUCTURA UNUI SISTEM EXPERT n figura IV.4 este prezentat schematic structura unui sistem expert.

Figura IV.4. Structura unui sistem expert

S descriem pe scurt sistemele componente. a) B.CUN - baza de cunotine: este elementul fundamental al unui sistem expert n care cunotinele sunt de obicei clasificate pe trei nivele: - nivelul cunotinelor factuale, care cuprinde fapte reprezentate ca instane ale conceptelor (cunotine empirice) - nivelul cunotinelor conceptuale, care cuprinde cunotine teoretice, reliefnd legturile i relaiile cauzale ntre elemente - nivelul de metacunoatere, care cuprinde cunotinele despre cunoatere i reprezentrile sale. Metodele de realizare a bazelor de cunotine constituie un dezvoltat capitol al inteligenei artificiale numit "ingineria cunoaterii" (knowledge engineering) sau "reprezentarea cunotinelor" (knowledge representation). Cele mai utilizate metode de reprezentare a cunoaterii sunt: - reprezentarea prin formalizare n calculul predicatelor - metode procedurale - reele semantice - sisteme de producie ("production rules") 194

D. Lungeanu, Gh.-I. Mihala

- reprezentare prin cadre - reprezentare cu hiper-reele. Nu ne oprim aici pentru descrierea lor; menionm doar c van Bemmel semnala nc n 1985 c formalizarea cunotinelor medicale, care are deocamdat un nivel deosebit de sczut, necesit o pregtire teoretic adecvat, insistnd asupra introducerii biomatematicii n programa facultilor de medicin. b) S.COG. - sistemul cognitiv: asigur accesul la baza de cunotine i are n principal dou sarcini: - cutarea pieselor de cunoatere n baza de cunotine (fie prin simboluri fie prin proprieti) - crearea i actualizarea bazei de cunotine (prin adugiri, tergeri sau modificri). c) S.REZ. - sistemul rezolutiv (l.engl: inference machine) este modulul central din program ce are ca obiectiv rezolvarea problemelor puse de utilizator; n funcie de gradul de complexitate el poate realiza: - alegerea strategiei de control adecvate problemei - elaborarea planului de rezolvare - desfurarea aciunilor din plan - trasarea drumurilor de raionament prin arborii deductivi - constituirea informaiei de control - verificarea pailor de rezolvare. Performanele unui sistem expert sunt determinate n principal de calitatea sistemului rezolutiv. Actualmente sunt realizate sisteme expert acoperind o gam larg de performane, de la sisteme simple, n care sistemul rezolutiv se limiteaz la cererea pieselor de cunoatere i estimarea unor "potriviri" ntre situaia real i diferite piese de cunoatere, pn la sisteme sofisticate, cu elaborare de strategii i capabile s schimbe strategia de rezolvare dac este cazul. d) S.EXP. - sistemul explicativ: are ca sarcin principal justificarea soluiilor oferite de sistemul expert la problemele puse, prin: - listarea i/sau interpretarea drumurilor de raionament ale sistemului rezolutiv - editarea cauzelor greelilor sau eecului n gsirea unei soluii - evidenierea pieselor de cunoatere care lipsesc din lanul inferenial. Sistemul explicativ poate chiar lipsi sau poate fi foarte simplu (enumerarea pieselor de cunoatere folosite), dar poate fi elaborat pn la justificarea fiecrui pas din raionament sau evidenierea unor piese de cunoatere contradictorii sau suspecte. Sistemul explicativ are un rol deosebit de important n utilizarea sistemelor expert n procesul didactic. e) S.COM. - sistemul de comunicare: asigur interfaa cu utilizatorul; dei dialogul este dirijat de sistemul rezolutiv, sistemele de comunicare evoluate pot conine: - procesoare pentru limbaje de reprezentare a cunoaterii - procesoare pentru achiziia semnalelor sau imaginilor, ieiri grafice, conexiuni cu alte echipamente etc. f) S.MET. - sistemul metarezolutiv: este inclus n schemele clasice ale sistemelor expert dei sistemele realizate pn n prezent nc nu l conin. Sarcina acestui sistem ar fi adecvarea i validarea mecanismelor fundamentale utilizate de sistemul rezolutiv (sau cognitiv), evaluarea caracteristicilor domeniului de expertiz, prelund sarcini dirijate ale sistemului rezolutiv privind prioriti i restricii de aplicare ale strategiilor de rezolvare. Sistemele expert medicale realizate i aplicate pn n prezent, dei au diferite nivele de dezvoltare, au cutat n special dezvoltarea bazelor de cunotine avnd sistemul rezolutiv i cel explicativ la nivele relativ modeste comparativ cu nivelul teoretic n domeniu i acesta s-ar datora ntr-o bun msur nivelului nc nesatisfctor al formalizrii cunotinelor medicale. Aceasta este i direcia n care se depun actualmente

195

Informatic Medical & Biostatistic

cele mai mari eforturi, fiind necesar n paralel i o pregtire corespunztoare a potenialilor utilizatori. 6.2. DESCRIEREA CONEXIUNILOR Vom ncerca s descriem ntr-o form simplificat aspectele funcionale fundamentale ale unui sistem expert prin descriere a conexiunilor ntre subsisteme. Utilizatorul U formuleaz problema (ntrebarea) notat n fig.3 prin conexiunea P. Sistemul de comunicaie care asigur interfaa cu ansamblul de prelucrare a cunoaterii despre domeniu transform problema P a utilizatorului n "problema bine definit" - 1, care este transmis sistemului rezolutiv. Acesta alege o strategie, elaboreaz un plan de rezolvare i, pentru realizarea acestui plan solicit piese de cunoatere de la sistemul cognitiv (conexiunea 2), care o solicit bazei de cunotine (conexiunea 2'); piesa de cunoatere este transferat sistemului rezolutiv (conexiunile 3 i 3'). Ciclul 2-2'-3-3' se repet de cte ori este necesar pn cnd sistemul rezolutiv fie gsete soluia (sau soluiile) problemei, fie abandoneaz cutarea soluiei din diferite motive, ce vor fi comunicate utilizatorului. Rezultatul obinut este transmis prin conexiunea 4 ctre sistemul explicativ care transform n form inteligibil mesajele sistemului rezolutiv, transmindu-le prin sistemul de comunicaie (conexiunea 5) ctre utilizator, sub forma rspunsului R. Dup comunicarea rspunsului, utilizatorul poate investiga mai n detaliu modul de rezolvare obinnd - la cerere - ntregul traseu al raionamentelor; se pot astfel evidenia cauzele abandonului, piesele de cunoatere lips sau contradictorii, date insuficiente n problem etc. Este evident c actualizarea bazei de cunotine este strict necesar pentru obinerea unor rezultate de ncredere. Pentru aceast operaie utilizatorul poate analiza oricnd piesele de cunoatere, direct prin conexiunile 2" i 2', fr s fie necesar o problem pentru a fi solicitate. Introducerea unor noi piese de cunoatere se face tot direct, prin conexiunile 6 i 6'. Adugarea unui sistem metarezolutiv ar permite supravegherea unor aciuni n cursul funcionrii sistemului expert prin conexiunile 7, 7' i 7" de adecvare a mecanismelor fundamentale. Sistemul metarezolutiv ar folosi cunotinele la nivelul metcunoaterii din baza de cunotine prin conexiunea 8. 6.3. CARACTERISTICILE PRINCIPALE ALE SISTEMELOR EXPERT Dup ce peste dou decenii progresele nregistrate n domeniul diagnosticului asistat au fost relativ modeste, apariia sistemelor expert a revigorat speranele n aceast direcie. Ce au sistemele expert deosebit fa de celelalte modele? a) Sistemele expert au trecut de la reprezentarea empiric a cunotinelor la reprezentri adecvate pentru complexitatea lor, fiind clasificate pe nivele i cuprinznd i relaiile. b) Raionamentele folosite de sistemele expert se fac prin mecanisme infereniale, depind simplele structuri liniare, folosind mecanisme de cutare adecvate ce permit creterea deosebit a performanelor. c) Sistemele expert pot extrage cunotine din baze de date. d) Sistemele expert se ncadreaz n clasa programelor de inteligen artificial prin caracteristica lor de a putea nva. Iat ca exemplu o secven din rularea unui program. Din meniul principal se alege modul de lucru: "introducerea simptomelor"; o poriune de dialog este prezentat mai jos:

196

D. Lungeanu, Gh.-I. Mihala

... > dureri? : da > localizare : piept > se agraveaz la efort? : da > palpitaii? : da > hipertrofie ventricular? : da > stng/dreapt? : stnga ... Dup introducerea simptomelor se revine n meniul principal i se alege modul de lucru: "diagnostic"; ilustrm din nou o secven: >> diagnostic propus: hipertensiune >> suntei de acord cu diagnosticul propus? (da/nu) : nu >> care este diagnosticul dvs.? : angin pectoral n aceast faz programul caut n baza de cunotine "angin pectoral" i simptomele sale, fcnd comparaie cu simptomele introduse. Dac "angina pectoral" exist n baza de cunotine calculatorul va evidenia - din filmul rulrii executate ntrebarea la care decizia sa a ales alt ramur, preciznd: >> nu am ales: angin pectoral >> deoarece la ntrebarea: "transpiraie rece?" >> ai rspuns: "nu" ... Dac n baza de cunotine nu figureaz "angina pectoral", dialogul ar contiua astfel: >> pies de cunoatere absent n baza de cunotine: angina pectoral > prin ce se deosebete : angina pectoral > de: hipertensiune > proprietate nou #1: : dispnee > proprietate nou #2: : end > dorii s salvm noul diagnostic? : da ... Am introdus astfel o nou pies de cunoatere care motenete proprietile de la precedenta i n plus are o proprietate n plus, inexistent la precedenta. Noua pies mpreun cu proprietile sale va fi introdus n baza de cunotine. La o nou rulare a

197

Informatic Medical & Biostatistic

programului, rspunznd n acelai mod ca n rularea precedent, dialogul se va desfura la fel pn cnd se propunea un diagnostic, ns acum va mai apare o ntrebare: > dispnee? : da ... >> diagnostic propus: angin pectoral ... n exemplul dat am folosit o parte din baza de cunotine a sistemului expert INTERNIST ns, la fel ca multe alte sisteme expert, pentru creterea operativitii n manevrare, simptomele nu se introduc prin dialog ci prin selecie dintr-o list de mari dimensiuni (de ex. pentru versiunea INTERNIST folosit de noi aceast list de simptome se intinde pe 34 pagini-ecran). Exemplul dat este simplificat fa de programul real, care prezint de fapt o list de diagnostice ierarhizate dup procentul de potriviri. De asemenea se iau msuri i pentru asigurarea c baza de cunoine nu va fi modificat de persoane neautorizate. De obicei un sistem exepert de uz practic are un administrator care rspunde de integritatea bazei de cunotine. 6.4. SISTEME EXPERT MEDICALE Primul sistem expert, DENDRAL, a fost realizat n 1964 i se referea la structurile moleculelor organice. n domeniul medical primul sistem expert, de mare succes, a fost MYCIN realizat de colectivul condus de Shortliffe pentru diagnostic n infecii bacteriene ale sngelui, bazat pe simptome i date de laborator; dup estimarea diagnosticului sistemul fcea i propuneri de tratament medicamentos. Concepii similare au stat i la baza altor dou sisteme expert: HEADMED pentru patologia neuro-psihiatric i PUFF pentru boli pulmonare. Cel mai cunoscut sistem expert este INTERNIST, pentru asistarea diagnosticului n medicina intern; sistemul este intens folosit i n scopuri didactice n multe universiti din lume. Un alt sistem, expert ntr-un domeniu mai ngust, ns de mare utilitate practic este VM (Ventilator Monitor); acesta este capabil s supravegheze funcionarea plmnului artificial n saloanele de terapie intensiv, s ia decizii n foarte multe situaii i s avertizeze, eventual, personalul n situaii delicate. Sistemul expert CASNET, pentru diagnostic n boli de ochi este unul dintre sistemele expert cele mai bine elaborate prin organizarea bazei de cunotine. Din punct de vedere al aplicaiilor directe probabil c cel mai utilizat este sistemul TROPICAID, elaborat pentru asistarea diagnosticului n ri tropicale, ce permite rezolvarea a peste trei sferturi din cazuri de ctre un cadru mediu, selectnd astfel pentru asistena medical mai elaborat numai cazurile mai deosebite. n ultimul timp au aprut sisteme expert "independente de domeniu", numite i "shell" (de exemplu INTEXP) adic sisteme expert cu structur flexibil n care utilizatorul i poate introduce baza proprie de cunotine, obinnd astfel un sistem expert specializat. Dei eforturile depuse pentru realizarea sistemelor expert au fost foarte mari iar unele sisteme au ajuns destul de performante, aplicarea lor concret este nc relativ limitat, dar n cretere constant, odat cu creterea dotrii cu tehnic de calcul i creterea nivelului de pregtire al utilizatorilor. Sistemele expert vor constitui probabil un instrument omniprezent n clinici i cabinete medicale, chiar dac vor fi folosite numai pentru "asistarea" medicului n faza de diagnostic.

198

D. Lungeanu, Gh.-I. Mihala

7. ESTIMAREA CALITII CLASIFICRII


Sistemele de diagnostic asistat realizeaz, principial, o operaie de clasificare. Utilizarea calculatoarelor pentru asistarea n aceste operaiuni nu este lipsit de riscul unor clasificri greite. De aceea, este important a avea criterii bine definite de apreciere a calitii unui clasificator. (Menionm aici c aceste criterii au un caracter general, nefiind restrnse ca aplicabilitate numai la diagnosticul asistat). Aprecierea pornete desigur de la confruntarea cu realitatea (Tabel IV.4.). S considerm c dintr-un total de N indivizi, L1 sunt pozitivi (de exemplu au o boal) i notm cu L2 restul indivizilor, care sunt negativi din punct de vedere al afeciunii respective (atenie: nu impunem alte condiii, deci nu nseamn c L2 sunt snoi - ei pot avea alte afeciuni). Clasificatorul pe care dorim s-l analizm - n cazul nostru va fi un algoritm de clasificare - face o clasificare corect a n11 indivizi dintre cei L1; acetia se vor numi 'real pozitivi' (R+). Restul subiecilor, pn la L1, (adica n12), au fost apreciai ca neaparinnd clasei K - se vor numi n acest caz 'fals negativi' (F-). Dintre cei L2 care sunt negativi, un numr n22 au fost clasificai corect, ca neaparinnd clasei K (real negativi R - ), dar n21 au fost clasificai greit, ca aparinnd clasei K acetia sunt 'fals pozitivi' (F +).
Tabel IV.4. Estimarea calitii clasificatorului

B real B-

clasificator K+ Kn11 n12

L1

n21 n22 L2 C1 C2 N Se folosesc uzual trei perechi de indicatori pentru a estima calitatea clasificrii. a) Perechea sensibilitate (SN) specificitate (SP) Sensibilitatea reprezint capacitatea clasificatorului de ncadrare corect a celor pozitivi, iar specificitatea este capacitatea de rejecie corect a celor negativi: SN = p(K+/B+) = n11 / L1 SP = p(K-/B-) = n22 / L2 b) Valoarea predictiv pozitiv (VPP) i valoarea predictiv negativ (VPN) Valoarea predictiv pozitiv (VPP) este definit prin proporia ncadrrii corecte a celor declarai pozitivi iar valoarea predictiv negativ (VPN) prin rata ncadrrii corecte a celor clasificai negativi: VPP = p(B+/K+) = n11 / C1 VPN = p(B-/K-) = n22 / C2 c) Indicatori globali acurateea i rata erorii de clasificare AC = ( n11 + n22 ) / N RE = ( n12 + n21 ) / N

199

Informatic Medical & Biostatistic

Curba ROC
Clasificarea se face funcie de o valoare de prag, care poate fi un parametru complex determinat de algoritmul analizat. Indicatorii de estimare a calitii au valori dependente de aceast valoare de prag: o valoare mai sczut dect media va fi mai ngduitoare, acceptnd mai lejer includerea unui subiect n clasa K+, caz n care se produce o cretere a sensibilitii, reducndu-se numrul de fals negativi. Din pacate, n acelai timp o parte din n22 trec n n21, crescnd numrul de fals pozitivi i scznd pe aceast cale specificitatea. Aceast relaie ntre sensibilitate i specificita te impune o alegere optim a pragului, funcie de criteriile care sunt importante n anumite situaii concrete i modul cum se calculeaz funcia de cost a unei clasificri greite. n funcie de scopul urmrit n studiu, vom cuta o sensibilitate mai ridicat (chiar dac tim c va crete numrul de fals pozitivi), iar n altele vom urmri o specificitate crescut. Concluzii interesante se pot trage dac se urmrete grafic relaia ntre sensibilitate i specificitate. Se reprezint de obicei SN = f (1 SP)

Curba ROC

Graficul obinut se numete curba ROC (Receiver Operator Characteristic). Acest grafic are cteva proprieti interesante: dac folosim un criteriu de clasificare fr putere de discriminare (de ex. un scor calculat absolut arbitrar), atunci curba ROC ar coincide cu prima bisectoare a planului, aria de sub curb reprezentnd 50% din total pe de alt parte, dac am avea un criteriu perfect (nici un fals pozitiv sau negativ, indiferent de pragul P), atunci aria de sub curba ROC va fi 100% uzual curba ROC arat ca n fig.1.4.; aria de sub curba ROC este un indicator global satisfctor pentru calitatea clasificatorului folosit i se numete coeficientul c [46, 47, 48, 49, 50], http://gim.unmc.edu/dxtests/.

200

D. Lungeanu, Gh.-I. Mihala

Coeficientul c
Aria de sub curba ROC se mai numete i coeficientul c i reprezinta cel mai important indicator al acurateei prediciei (scorului). Se accept urmtoarea [http://gim.unmc.edu/dxtests]: 0,91 1,00 = excelent 0,81 0,90 = foarte bine 0,71 0,80 = bine 0,61 0,70 = satisfcator sub 0,60 = slab. Exemplu: Relum exemplul cu cei 4000 subieci dintre care 100 au avut viroz. Presupunem c programul nostru de calculator a diagnosticat corect 90 dintre ei, ns a atribuit acelai diagnostic (viroz) i la ali 50 de subieci. Caracterizai programul de diagnostic. Datele din text sunt prezentate sintetic n tabelul IV.5.
Tabel IV.5. Exemplu pentru calculul parametrilor unui clasificator

scar

funcie

de

coeficientul

B real Bfals negativi fals pozitivi sensibilitatea specialitatea acurateea rata erorii

prog. calc. K+ K90 10 50 3850 -

100 3900 4000

F - = 10 F + = 50 SN = 90 / 100 = 90% SP = 3850 / 3900 = 97,4% AC = 3940 / 4000 = 98,5% RE = 60 / 4000 = 1,5%

8. ALEGEREA INVESTIGAIILOR
Calculatorul poate asista medicul n luarea deciziilor nu numai pentru stabilirea diagnosticului ci i n alte aciuni, una dintre acestea fiind alegerea investigaiilor, aciune desigur corelat cu stabilirea diagnosticului. Deseori medicul este solicitat de pacient sau familia acestuia s recomande investigaii nu ntotdeauna necesare sau relevante, uneori scumpe i inavazive. Principalele elemente care intervin n luarea deciziei de recomandare sau nu a unei investigaii sunt: relevana rezultatului pentru conduita terapeutic sau precizarea diagnosticului (se efectueaz o serie de calcule probabilistice pe baza regulii lui Bayes iar apoi, n funcie de sensibilitatea i specificitatea testului se estimeaz probabilitatea evoluiei n cele dou variante - cu sau fr rezultatul investigaiei) tipul de investigaie - invaziv, neinvaziv

201

Informatic Medical & Biostatistic

costul investigaiei efecte secundare, contraindicaii, accidente.

9. OPTIMIZAREA TRATAMENTULUI
Chiar dac aplicaiile actuale acoper n mic msur aspectul optimizrii tratamentului medical, specialitii apreciaz c n urmtoarele dou decenii aceasta va deveni aplicaia major a informaticii medicale. Terapia actual se bazeaz pe existena unor scheme de tratament n care - n majoritatea cazurilor - pacienii sunt ncadrai adoptndu-se cam aceleai doze i intervale de timp, cu variaii mai curnd calitative, n cazuri de complicaii etc. Este un deziderat major al medicinei actuale terapeutice trecerea spre individualizarea tratamentului. Primul pas major se realizeaz prin realizarea unui model individualizat al pacientului pe calculator (cuprinznd caracteristicile sale relevante pentru aspectul analizat), asupra cruia se simuleaz diferite variante de tratament, alegndu-se varianta optim. Astfel de programe au i fost realizate pentru optimizarea tratamentului tumorilor prin iradiere. Problema important care trebuie rezolvat n aceste cazuri este atingerea dozelor terapeutice n regiunea tumoral fr ns a afecta regiunile strbtute de radiaii pn n zona tumoral. Iradierea sub mai multe incidene permite ca n zona tumoral, prin efect aditiv s se cumuleze doza terapeutic, fr a depi limitele admise pentru celelalte regiuni. Programele de calculator folosite precizeaz incidenele i dozele pentru fiecare inciden.

10. DECIZII LA NIVEL DE ORGANIZARE SANITAR


O larg palet de aplicaii este deschis pentru asistarea deciziei la nivele centrale privind: distribuirea resurselor n funcie de prioriti i necesiti estimarea necesarului de medicamente, echipamente, infrastructur, personal reacii operative n caz de epidemii, calamiti, accidente elaborarea politicii sanitare n planuri de scurt i lung durat.

BIBLIOGRAFIE I REFERINE
JH van Bemmel, MA Musen (eds). Handbook of Medical Informatics. Springer Verlag, Heidelberg, 1997 JH van Bemmel, F Gremy, J Zvarova (eds): Medical decision marking: diagnostic strategies and expert system. North Holland, Amsterdam, 1995 G.I. Mihala. Diagnosticul asistat de calculator (n: Progrese n medicin, editor: Gh. Gluhovshi), Helicon, Timisoara, 1997 G.I. Mihala. Strategii de diagnostic asistat de calculator n medicina intern (n: Interdisciplinaritatea medicinii interne, editor: I. Romoan), Helicon, Timisoara, 1993

202

D. Lungeanu, Gh.-I. Mihala

Partea a V-a

SISTEME INFORMATICE MEDICALE

203

Informatic Medical & Biostatistic

204

D. Lungeanu, Gh.-I. Mihala

1. INFORMAIA MEDICAL
n capitolele anterioare am trecut n revist numeroase aplicaii ale calculatoarelor n domeniul medical (crearea bazelor de date, prelucrri statistice, achiziia i prelucrarea biosemnalelor i imaginilor medicale, diagnostic asistat etc.), privite ns ca aplicaii punctuale, fr s acordm atenie deosebit modului n care acestea se integreaz n ansamblul activitilor medicale. n acest capitol vom arbora o privire sintetic pentru a aborda activitile din domeniul medical ca pe un sistem, cu numeroase elemente structurale, ntre care circul informaii i vom urmri msura n care tehnica de calcul poate sprijini aceste activiti precum i particularitile acestui sistem n ansamblul su. i deoarece elementul central urmrit aici este informaia medical, vom ncepe printr-o privire sintetic asupra acestei noiuni, pentru a putea defini conceptul de sistem informatic. Prima tentaie n a defini noiunea de informaie medical ar fi de a -i limita sfera de cuprindere la informaii care privesc aspectele medicale din activitatea de ocrotire a sntii. Vom extinde ns sfera acestei noiuni astfel nct s cuprind orice informaie care apare n cursul activitilor medicale, att cele directe ct i conexe. S trecem n revist tipurile de activiti, nct s putem estima tipurile de informaii care apar n diverse locuri i momente, pentru a putea analiza apoi cum aceast informaie circul n sistemul medical / sanitar.

1.1. TIPURI DE ACTIVITI a) Activiti medicale directe - reprezentate tipic de consultaia medical. Pentru a analiza tipurile de informaii vehiculate, vom distinge cteva faze / aciuni: i0 - stabilirea diagnosticului - faza n care medicul folosete dou categorii de informaii - date: un ansamblu de informaii cu caracter individual, cuprinznd: elementele culese n anamnez, datele de laborator, semnale, imagini - cunotine: anasamblul de informaii generale pe care le achiziioeaz medicul n cursul pregtirii sale profesionale (prin instruire, experien clinic, documentare, cercetare) ii0 - tratament - faz n care medicul urmrete rezultatele terapiei propuse stabilindu-se un permanent schimb de informaii ntre medic i pacient. iii0 - nursing - denumire sub care acoperim toate activitile privind ngrijirea pacienilor. b) Asigurarea logistic a activitii medicale Cadrul n care se desfoar orice activitate necesit o activitate organizatoric, administrativ i managerial, mai simpl sau mai complex, n funcie de specificul activitii i de dimensiunea sistemului. Vor fi desigur deosebiri ntre activitile manageriale la nivel de circumscripie sanitar sau la nivel de spital. Aceste activiti conexe cuprind cel puin dou elemente principale: - activiti de administrare a unitii - activiti financiar contabile.

205

Informatic Medical & Biostatistic

Trebuie menionat c uneori aceste activiti ocup un procent nsemnat din timpul consumat de medic n activitatea sa de ansamblu. c) Integrarea n contextul social. Activitatea medical nu este o aciune izolat, cu scop n sine, ci face parte din ansamblul activitilor dintr -o societate, astfel nct rezultatele activitii medicale trebuie s fie vizibile la nivelul societii. Acest lucru se atinge pe mai multe ci; vom accentua aici ns aciunea de centraliz are a datelor medicale, prin care se raporteaz ierarhic datele sintetice cu ajutorul crora se obine o imagine de ansamblu asupra activitilor din domeniul ocrotirii sntii la nivelul unei comuniti / societi. d) Educaia medical - este o aciune de importan deosebit, fiind veriga esenial n transmiterea informaiei medicale condensate sub forma de cunotine medicale. Ea cuprinde: i0 - nvmntul cadrelor medicale: - medici - cadre medicale - nvmnt postuniversiatr, educaie continu ii0- educaia pacienilor - element deosebit de important pentru anumite categorii de pacieni (diabetici, gravide, astmatici, etc); acestui aspect i se acord actualmente o atenie special i se realizeaz numeroase programe pentru categorii extinse de pacieni. e) Documentarea medical n mod obinuit, dup ncheierea studiilor sursa principal de informare devine documentarea din cri i reviste de specialitate. Acestora li se adaug acum metodele computerizate, folosind fie revistele publicate pe compact-disc (CD), exemplul tipic fiind sistemul MEDLINE elaborat de National Library of Medicine din Bethesda (SUA), fie conectarea pe Internet, cu acces la diferite biblioteci de specialitate din lume, unele dintre acestea asigurnd acces gratuit. Toate aceste forme de completare i actualizare a cunotinelor, mpreun cu diverse cursuri post -universitare, se ncadreaz n conceptul de educaie medical continu. f) Cercetarea medical Cantitatea total de informaie este n cretere rapid i acest lucru se datoreaz dezvoltrii deosebite a cercetrii. Tehnologia informaional contribuie din plin la aceast cretere rapid inclusiv a cercetrii medicale. Actualmente n toate instituiile de nvmnt superior medical se desfoar i o intens activitate de cercetare, integrat de fapt n ansamblul activitilor medicale. 1.2. STRUCTURA SCHEMATIC A FLUXULUI INFORMAIONAL a) Schema fluxului informaional Vom prezenta n continuare tipurile de informaii i conexiunile de transfer a informaiilor legate de activitatea medical (fig. V.1). Poziia central n schem o ocup axa PACIENT - MEDIC care reprezint activitatea medical primar i genereaz toate celelalte aciuni. Medicul culege de la pacient informaia medical sub form de date, care cuprind att elemente descriptive din anamnez ct i alte date: rezultate de laborator, semnale, imagini etc. Aceste date au caracter individual. Ele sunt interpretate de medic pe baza cunotinelor sale de specialitate, obinute prin educaie, documentare (cri, reviste, mijloace informatizate), experien clinic, eventual i cercetare. Interpretarea datelor conduce la stabilirea unui 206

D. Lungeanu, Gh.-I. Mihala

diagnostic i elaborarea unui plan terapeutic care se aplic pacientului. Efectele tratamentului sunt urmrite de ctre medic nchizndu-se astfel un prim ciclu n care noua stare a pacientului privit ca feed-back n circuitul informaional va determina o nou decizie a medicului (aici atributul nou reprezint un nou moment, nu neaprat o alt stare sau decizie). Conform teoriei sistemelor, un sistem cibernetic n care exist un ciclu cu legtura invers este considerat un sistem reglabil (controlabil).

Fig. V.1. Schema fluxului informaional n activitatea medical

n ciclul descris aici datele au un nivel individual, acest lucru fiind marcat n schem printr-o linie ntrerupt care desparte poriunea superioar de cea inferioar a figurii. Caracterul individual al informaiilor se pierde atunci cnd datele se centralizeaz pentru mai muli pacieni, de la mai muli medici, fiind supuse unor prelucrri statistice la NIVEL CENTRAL. Se obine o imagine de ansamblu asupra strii de sntate a populaiei, aceasta fiind o informaie medical la nivel de comunitate. Cunoaterea situaiei la nivelul societii permite luarea unor msuri de mbuntire a activitii de ocrotire a sntii prin: msuri profilactice, vaccinri, eventual aciuni deosebite (n epidemii), orientarea unor fonduri spre anume activiti achiziionri de medicamente, echipamente etc. Msurile luate se rsfrng asupra ntregii SOCIETI, implicit asupra pacienilor ca indivizi. Acesta poate fi considerat ca un al doilea ciclu al fluxului informaiei medicale. Circuitul se nchide i prin influena pe care o poate avea informaia la nivel central cu efect asupra creterii/mbuntirii bazei de cunotine, cum ar fi orientri ale unor teme de cercetare, dezvoltarea nvmntului etc. Acesta ar fi al treilea ciclu al fluxului informaional. S nu trecem cu vederea c toate msurile la nivel central depind de resursele disponibile pentru astfel de aciuni, care - la rndul lor - sunt distribuite de ctre societate.

207

Informatic Medical & Biostatistic

Se observ din schem caracterul complex al transferului de informaie n activitatea medical, numeroasele legturi i tipurile diferite de informaii. b. Nivele de organizare a activitii medicale Putem distinge n activitatea medical patru nivele de organizare: - asistena medical primar - asigurat la nivelul circumscripiilor sanitare de ctre medici de medicin general i / sau medici de familie - asistena medical de specialitate - asigurat la nivelul cabinetelor i / sau clinicilor de specialitate, avnd i suportul unor servicii paraclinice - spitalul ca unitate de organizare a asistenei medicale de specialitate - nivele centrale-decizionale: direcii sanitare, ministere, legturi cu organisme internaionale (Organizaia Mondial a Sntii). 1.3. SISTEM INFORMAIONAL, SISTEM INFORMATIC Dup ce am urmrit schema fluxului informaional n activitile medicale, putem da acum dou definiii: a. Sistemul informaional reprezint un ansamblu de uniti structurale ntre care are loc un schimb de informaii. b. Sistemul informatic reprezint partea din sistemul informaional care cuprinde utilizarea calculatoarelor. Procentul ocupat de sistemele informatice medicale n ansamblul sistemelor informaionale variaz de la o ar la alt i de la un nivel la altul. Peste tot ns se constat o marcat tendin de cretere, actuala generaie de studeni mediciniti din Romnia fiind cu siguran printre cei care vor contribui la creterea acestui procent n ara noastr.

2. SISTEME INFORMATICE N ASISTENA MEDICAL PRIMAR


n cele ce urmeaz vom particulariza aspectele privind fluxul informaional n cadrul asistenei medicale primare. Asistena medical primar constituie primul contact al unui pacient cu sistemul medical. n ara noastr asistena primar este asigurat n cabinete private de medicin general sau medici de familie. 2.1. ACTIVITI LA NIVELUL UNITILOR DE ASISTEN MEDICAL PRIMAR a) activiti medicale propriu-zise, cuprinznd: consultaii, vizite, urmrirea unor categorii speciale de pacieni (bolnavi cronici, gravide, copii sub un an), urgene b) documentare c) organizare i management la nivelul circumscripiei (cabinetului). Calculatoarele pot veni n facilitarea acestor activiti. Vom prezenta n continuare tipurile de programe pe care ar trebui s le conin un calculator al unui medic de medicin general. Sunt trecute i elemente (programe) privind aspecte care ns nu sunt definitivate n ara noastr dar vor fi cu siguran introduse n viitor - ne referim aici n special la introducerea asigurrilor de sntate, direcie n care s-a acumulat mult experien n alte ri i n care aportul calculatoarelor este deosebit de important.

208

D. Lungeanu, Gh.-I. Mihala

2.2. MODULELE SISTEMELOR INFORMATICE ALE ASISTENEI MEDICALE PRIMARE 10. Modulul de baz Modulul de baz, obligatoriu n unele ri, cuprinde programele cel mai des folosite mpreun cu fiierele aferente. Putem clasifica aceste componente n: a) Fiiere de date medicale cuprinznd: - registrele tuturor pacienilor - de fapt a tuturor persoanelor n evidena circumscripiei - date demografice, inclusiv date despre asigurrile medicale ale pacienilor - posibilitatea gruprii datelor pe familii (gospodrii) b) Programe de administrare a activitii medicale - registre (fiiere) pentru: consultaii, vizite, teste de laborator - elaborarea unor documente financiare simple - note de plat - programe simple pentru diferite centralizri (medicamente etc.) c) Programe utilitare ce asigur desfurarea unor operaiuni ca: - asigurarea proteciei datelor - lucrul n partiie (cnd sunt mai multe terminale: n cabinetul medicului, la asistenta de recepie, n sala de laborator/investigaii, n sala de tratamente etc.) - salvarea datelor (back-up) - o operaiune deosebit de important: este obligatoriu ca zilnic s se copieze toate fiierele de date pentru a putea fi restaurate n cazul unor defeciuni ale sistemului de calcul. 20. Modulul medical Are n poziie central fia de observaie, care este placa turnant cu rol cheie n aplicaiile medicale (acest modul se mai ntlnete sub numele EPR electronic patient record, sau CPR - computer - based patient record). a) Fia de observaie conine: - date de identificare (cod personal, nume-prenume-adresa) i alte date personale - date medicale - care se trec grupate cronologic i cuprind: = antecedente personale i heredo - colaterale (istoric) = date ale examinrii (ex: puls, presiune arterial, alte observaii) = rezultate de laborator (hemogram, examen de urin, etc.) = semnale (ECG, EEG etc.) = imagini (radiografie, scintigrafie etc.) = prescripii de medicamente, alte tratamente = trimiteri spre asistena de specialitate. Din punct de vedere al formei de nscriere, datele pot fi grupate n: - date sub form de text - date numerice (cu precizie prestabilit) - date codificate - semnale i imagini (n aceste situaii se folosete termenul de format multimedia) b) Codificarea - este o operaiune frecvent ntlnit pentru o prezentare sub form prescurtat a unor informaii. Ea a fost introdus iniial pentru evidena cauzelor de deces i extins ulterior pentru descrieri complexe. Ansamblul de coduri folosite pentru un scop anume formeaz un nomenclator. Cele mai rspndite sisteme d e codificare sunt:

209

Informatic Medical & Biostatistic

io - ICD10 (International Classification of Diseases) versiunea 10-a, cu cea mai larg rspndire - este un sistem uniaxial, folsind un cod dup un singur criteriu diagnosticul iioo - SNOMED (Systematized Nomenclature of Human and Veterinary Medicine); este un sistem multiaxial, cu coduri separate pentru topologie, etiologie, morfologie, boal etc. c) Prescripia medicamentelor Elaborarea prescriptiei de tratament, este asistat de programele mai recente ntr-o form destul de dezvoltat, avnd posibilitatea de a avertiza medicul de anumite situaii, de genul: - un medicament cu aciune similar mai este inclus n tratament - medicamentul respectiv este contraindicat n... (de ex. sarcin, etc.) - medicamentul respectiv nu este pltit de firma de asigurri, etc. d) Trimiteri Modulul medical conine i programe pentru editarea i tiprirea scrisorilor de trimitere pentru diferite analize ctre cabinetul de specialitate sau spitale. 30. Modulul programri Cu consecine importante n economisirea timpului att al pacienilor ct i al medicului; conine: - evidena programrilor de consultaii - planificarea vizitelor - programarea unor aciuni speciale (vaccinri etc.) - redactarea unor scrisori privind programrile 40. Modulul farmacie Unitile de asisten primar au de obicei i o dotare cu o serie de medicamente strict necesare i pentru urgene; ca o uzan de activitate, cu ocazia consultaiei (vizitei) se pot administra deja unele medicamente, urmnd ca restul s fie achiziionate conform reetei; acest lucru este foarte important n circumscripiile rurale. Modulul farmacie conine de obicei: - evidena medicamentelor n stoc - elaborarea comenzilor - liste de gratuiti / compensaii - lista furnizorilor - date cumulative privind medicamentele prescrise ntr-un anumit interval de timp. Observaie: n multe ri casele de asigurri stabilesc plafoane de cheltuieli pentru tratamente, care s nu fie depite de ctre medici, de aceea, n mod uzual un doctor dorete s-i cunoasc n orice moment nivelul la care a ajuns, comparativ cu plafonul prevzut. 50. Modulul financiar n afar de un program financiar-contabil inclus n modulul de baz, medicul generalist necesit un modul dedicat care s-i satisfac integral necesitile administrrii financiare a unitii, cuprinznd programe pentru: - note de plat privind activitile prestate - statele de plat ale personalului 210

D. Lungeanu, Gh.-I. Mihala

- registrul contabil, inclusiv impozite - corespondena financiar. 60. Modulul de comunicaie Unitile medicale nu sunt entiti izolate, avnd poziii bine precizate ntr -o ntreag reea de asisten medical; totodat are legturi i cu uniti aparinnd altor reele. Se apreciaz c nivelul actual de comunicare este nesatisfctor, datele de interes pentru un medic (cum ar fi cele privind tratamentele aplicate unui pacient ntr-o unitate specializat) sosind deseori incomplete i cu ntrziere. Este evident ca o conexiune a unitilor de asisten primar cu cele specializate (spitale) ar mbunti cu mult situaia, oferind posibilitatea transferului rapid i complet de informaii. 70. Dezvoltri ulterioare Dei satisfac o bun parte din necesiti, programele actuale pot fi nc mbuntite prin adugarea unor faciliti suplimentare: - documentarea asistat tehnici de data mining aplicate pentru resurse web - adugarea unor module de sisteme expert pentru asistarea deciziei medicale, n special diagnosticul (n momentul de fa sistemele expert au o aplicare nc destul de restrns i sunt cel mai adesea utilizate n clinici de specialitate). - ridicarea nivelului de standardizare a fiei de observaie.

3. SISTEME INFORMATICE CLINICE


Caracteristica esenial a sistemelor informatice clinice este c sunt orientate pe pacient, adic fia pacientului este documentul primar i toate relaiile i conexiunile ntre departamente se fac cu referire la pacient. De aceea identificatorul pacientului este un element important pentru regsirea facil i urmrirea datelor. 3.1. STRUCTURA ASISTENEI SPECIALIZATE N CLINICI Un pacient trimis de la nivelul asistenei medicale primare la nivelul asistenei de specialitate va intra n evidena unui departament clinic, ns pentru obinerea unei imagini complete asupra strii sale se apeleaz la o serie de servicii disponibile n departamente paraclinice. n principiu putem considera c un sistem policlinic conine dou categorii de departamente: clinice i paraclinice. Pentru un pacient se poate apela la serviciile oricrui departament paraclinic, iar aceste departamente paraclinic e servesc toate departamentele clinice. Putem enumera principalele departamente de specialitate: a) Departamente clinice - medicin intern, subdivizate n: cardiologie, nefrologie etc. - chirurgie, subdivizate la rndul lor - pediatrie - monitorizri - psihiatrie - neurologie - boli infecioase etc. b) Departamente paraclinice i servicii - radiologie i imagistic - medicin nuclear - explorri funcionale 211

Informatic Medical & Biostatistic

- laborator clinic - endoscopie - laborator anatomo-patologie - terapie - farmacie etc. 3.2. OBIECTIVE GENERALE ALE SISTEMELOR INFORMATICE CLINICE a. Planificarea ngrijirii i interveniilor asupra pacienilor. b. Gestiunea datelor pacienilor: - achiziia, stocarea i regsirea datelor (referitoare la anamnez, date de laborator, biosemnale, imagini etc) - verificarea i codificarea datelor - prelucrarea datelor - prezentarea integrat - n aceast direcie exist o avalan de programe ce propun numeroase variante ce pot oferi sintetic datele eseniale i cu acces uor i rapid la orice alte elemente, cuprinznd inclusiv imagini i grafice. c. Asistarea deciziei medicale - prin programe de: - diagnostic asistat - optimizare a terapiei - simulri de evoluii, inclusiv simulri de intervenii pe modele. d. Obiective educaionale - de exemplu sfaturi pentru pacieni. e. Monitorizri i urmrire - estimarea evoluiei strii pacienilor este un obiectiv esenial al asistenei medicale i permite reacia oportun pentru modificarea tratamentului dup necesiti; de aceea programele de calculator trebuie s permit obinerea rapid i facil a datelor solicitate prezentate ntr-o form uor interpretabil. Adugm aici ca o categorie special programele folosite pentru monitorizarea n terapia intensiv. f. Raportare - activitatea medical presupune redactarea periodic a unor rapoarte cuprinznd date sintetice ale activitii, din care se va estima la nivel central starea de sntate a populaiei n vederea adoptrii celor mai potrivite msuri pentru mbuntirea activitilor de ocrotire a sntii i asisten medical. Redactarea acestor rapoarte, care este o aciune consumatoare de timp este mult uurat prin utilizarea unor programe pentru: - centralizarea datelor - analiza statistic - generare de rapoarte (exist chiar forme standard care pot fi elaborate periodic). g. Evaluarea calitii asistenei medicale i a rezultatelor obinute stocarea uoar a unui numr mare de date, regsirea lor rapid i prelucrarea comod permite aprecierea ori de cte ori este nevoie - a evoluiei bolilor (n special n bolile cronice sau congenitale). Putem include aici i o alt categorie de programe, care permit o estimare realist a calitii asistenei medicale pentru mbuntirea planificrii activitilor i resurselor n viitor i chiar pentru orientarea unor activiti de cercetare. 3.3. OBIECTIVE SPECIFICE ALE SISTEMELOR INFORMATICE N DEPARTAMENTE
CLINICE

Fr a avea pretenia la o prezentare exhaustiv a aplicaiilor calculatoarelor n fiecare specialitate, deoarece am prezentat anterior o serie de obiective generale, ne vom limita la o enumerare succint a unor aplicaii specifice, ntlnite mai des n anumite clinici. 212

D. Lungeanu, Gh.-I. Mihala

a) Medicin intern - Cardiologie: una din disciplinele clinice cu exprimrile cele mai exacte, cu modele matematice dezvoltate i mrimi mai uor de cuantificat, folosind investigaii destul de precise. Sunt tipice prelucrrile de semnale ECG i echocardiografia, precum i de imagini (angiografie coronarian i scintigrafie cardiac) - Boli metabolice: este specific urmrirea pe lung durat; pentru diabetici s au creat o serie de programe de educaie a pacienilor - Hematologie: s-au creat registre de hemofilie, cu date detaliate privind testele i simptomele i care reamintesc pacienilor programrile la consultaii - Nefrologie: baze de date internaionale cu liste de prioriti pentru transplant renal precum i programe de telecomunicaie ntre staiile de dializ la domiciliu i spital pentru monitorizarea pacienilor cu insuficien renal cronic - Gastroenterologie: prelucrri de imagini endoscopice, nregistrri multimedia (cu secvene video), regsirea imaginilor i compararea lor. b) Chirurgie -aplicaii pentru: - planificarea operaiilor - pregtirea i controlul interveniilor chirurgicale - monitorizarea pacienilor n timpul operaiilor - simularea unor operaii prin tehnici de realitate virtual - programe deosebit de utile pentru pregtirea viitorilor specialiti. c) Oncologie - s-au realizat programe speciale pentru: - codificri specifice (ONCOTOP) - asistarea proiectrii terapiei cu radiaii - elaborarea protocoalelor de chimioterapie - centralizarea specific pentru Registrul naional de cancer - prelucrri statistice specifice, inclusiv analiza supravieuirii i compararea tratamentelor. d) Obstetric: - urmrirea sarcinii - prelucrarea ultrasonocardiogramelor fetale - educarea pacientelor - estimarea calitii ngrijirii gravidelor - monitorizarea n timpul travaliului. e) Pediatrie - baze de date pentru prematuri, cu programe speciale de urmrire a evoluiei creterii - depistarea precoce i urmrirea bolilor congenitale - alte aplicaii sunt similare cu cele enumerate la medicin intern sau chirurgie, ns aplicate specific pentru copii de diferite vrste. f) Psihiatrie - baze de date - programe de interpretare a unor teste specifice - sisteme de diagnostic asistat (variabilitate destul de larg a diagnosticului). g) Neurologie - domeniu foarte exact n stabilirea diagnosticului - programe pentru: 213

Informatic Medical & Biostatistic

- estimarea gradului de disabilitate (scoruri) - fi de observaie specific - controlul terapiei. h) Monitorizri - cu programe specifice pentru diverse tipuri; se manevreaz foarte multe date; calculatoarele folosite au plci de achiziie de semnal, cu mai multe canale; exemple de tipuri de monitorizri asistate de calculator - n: - uniti coronariene - terapie intensiv / anestezie - reanimare - urmrirea pre / post - operatorie - monitorizarea perinatal - administrarea bazei de organe pentru transplant. 3.4. OBIECTIVE SPECIFICE N DEPARTAMENTE PARACLINICE I SERVICII a) Explorri funcionale - se nregistreaz diverse semnale biologice: - explorri respiratorii - ECG, EEG, EMG - investigaii n efort, etc. b) Radiologie i imagistic - au specific obinerea de imagini i necesit calculatoare cu mare capacitate de stocare, memorie mare i vitez ridicat de transfer a datelor: - radiografie (radioscopie) - CT (computer - tomografie) - RMN (rezonan magnetic nuclear) - PET (positron emission tomography) - imagini echografice. c) Laboratorul clinic - o serie de particulariti pot fi menionate aici: - identificarea probelor prin coduri cu bare (bar codes - care ofer o mare operativitate) sau dispozitiv de citire OCR (Optical Character Readers) - automatizarea comenzii (solicitrii) de analize - n cazul n care este un pacient internat aceasta poate fi transmis prin reea i pe aceeai cale pot fi primite i rezultatele - inclusiv cu precizarea metodei (unele teste pot fi realizate prin mai multe metode i exist uoare diferene ntre domeniile normale acceptate n funcie de metod) - multe aparate de laborator permit o conectare la calculator i au grad nalt de automatizare al procesrii. d) Laboratorul de patologie - cu rol important n diagnoza a dou tipuri de probe: - pe probe bioptice de la pacieni - pentru diagnoza post mortem. n activitatea medicului patologist un rol important l joac experiena ctigat prin citirea unui numr imens de lame; deseori medicul patologist apeleaz la cri i atlase cu diverse imagini i le compar cu cazul real; acestea pot fi acum furnizate de calculator; de asemenea s-au realizat unele sisteme expert care apeleaz la o serie de parametri numerici (numr de mitoze, dimensiunea i forma nucleilor, coninutul de AND).

214

D. Lungeanu, Gh.-I. Mihala

e) Farmacia Sistemul informational al unei farmacii de spital, care asigur servicii pentru toate celelalte departamente are numeroase sarcini ce pot fi grupate n: i0 - activiti legate de asistena medical: - evidena tuturor reetelor servite - verificarea prescripiilor - furnizarea de informaii la zi doctorilor i asistentelor - prepararea reetelor magistrale ii0 - activiti logistice: - aprovizionare - eviden stocuri i termene de valabilitate - lista furnizorilor iii0 - activiti managerial.

4. SISTEME INFORMATICE DE SPITAL (SIS)


Spitalul reprezint unitatea tipic de organizare a asistenei medicale de specialitate. n paragraful precedent am trecut n revist sistemele informatice din departamentele implicate direct n asistena medical: departamentele clinice, paraclinice i servicii medicale. Spitalul constituie un sistem complex, care integreaz att activitile medicale din departamentele clinice i paraclinice, ct i ntregul lan de activiti conexe (administrative, financiare i manageriale). 4.1. TIPURI DE DATE N SPITAL Disponibilitatea informaiilor, n special sub form de date este un factor cheie n funcionalitatea unui sistem att de complex. Trebuie s facem aici distincie ntre dou tipuri de date: orientate pe pacient, respectiv orientate pe spital. a) Date orientate pe pacient - sunt datele primare ale departamentelor clinice i paraclinice; din fiierele pacienilor se construiesc celelalte fiiere - rapoarte, centralizri etc. Coninutul datelor orientate pe pacient este dinamic i n cretere prin dezvoltarea metodelor de investigaie i terapeutice. b) Date orientate pe spital - care cuprind datele referitoare la ntreaga activitate managerial i financiar contabil precum i datele sintetice extrase din fiierele activitii medicale directe. 4.2. CONCEPTUL DE SIS Pentru a putea mai bine defini noiunea de Sistem Informatic de Spital prin sfera sa de cuprindere s trecem n revist principalele funciuni pe care trebuie s le ndeplineasc: - sprijinirea activitilor zilnice la nivelul asistenei medicale directe - suport n planificarea acestor activiti - sprijin n aciunea de control i corecie a activitilor medicale - extragerea informaiilor cu caracter statistic -populaional - accesul la baza de date medicale pentru cercetarea clinic

215

Informatic Medical & Biostatistic

a) Scopul SIS: utilizarea calculatoarelor pentru colectarea stocarea i prelucrarea informaiei privind asistena acordat pacienilor, precum i administrarea n toate activitile legate de spital i a satisfacerii cerinelor funcionale. Crearea unui SIS asigur: - o utilizare mai eficient a resurselor (ntotdeauna limitate!) disponibile pentru asistena acordat pacienilor - mbuntirea calitativ a serviciilor oferite - un sprijin operativ pentru nivelele centrale n vederea cunoaterii strii de sntate a populaiei ntr-un teritoriu - cadrul adecvat pentru nvmntul medical i pentru cercetare. b) Componentele SIS - Baza de date a pacienilor. Cum n centrul activitilor medicale se gsete pacientul, poziia central n SIS o ocup aceast baz de date. Ea trebuie creat astfel nct dezvoltarea ulterioar a tehnicii de calcul sau limbajelor s permit utilizarea ei n continuare. - Aplicaiile - reprezentate de diferitele programe de prelucrare a datelor din baza de date, pornind de la programele simple pentru introducerea i modificarea datelor, prezentarea fiei pacientului, reprezentri grafice pentru evoluia pacientului pn la programe de centralizare pe zile, boli, tratamente, medicaii, investigaii precum i analize statistice de diverse tipuri. - Sistemul de comunicaie -care cuprinde facilitile de legtur ntre baza de date i utilizatorii individuali; la acest nivel se poate realiza limitarea acccesului diferiilor utilizatori. - Terminalele de lucru - care se gsesc distribuite n clinici, laboratoare, servicii i birouri. Schematic putem reprezenta componentele SIS ca n figura V.2.

Figura V.2. Componentele sistemului informatic de spital: utilizatorii de la terminalele de lucru T au acces la baza de date BD prin sistemul de comunicaie C, folosind diferite aplicaii A

216

D. Lungeanu, Gh.-I. Mihala

4.3. ARHITECTURA UNUI SIS Evoluia sistemelor informatice de spital a relevat posibilitatea unor abordri diferite, cele mai uzuale arhitecturi fiind: a) Sisteme monolitice - concepute i construite ntr-o viziune unitar iniial; au avantajul unei bune compatibiliti ntre componente, ns deza vantajul de a fi scumpe ca investiie unitar; s-au dovedit a fi mai puin flexibile i mai greu de conectat la sisteme externe diferite sau de adaptat la creteri neprevzute. b) Sisteme evolutive - care au aprut ca necesitate a adaptrii permanente a arhitecturii la necesiti; putem aici distinge dou situaii: - extinderea sistemelor monolitice (sisteme evolutive de tip I) prin adugarea de noi componente - conectarea unor sisteme izolate (sisteme evolutive de tip II) care sunt cele mai frecvente. Foarte multe SIS actuale au aprut prin integrarea la un moment dat a unor sisteme departamentale izolate. Dei exist numeroase dezavantaje (deseori fiierele bazelor de date nu au concepie unitar), se folosesc limbaje diferite i calculatoare diferite, marele avantaj al cheltuielilor mai reduse i dezvoltrile flexibile au fcut ca acest sistem s fie cel mai frecvent. c) Sisteme distribuite - destul de asemntoare ca idee cu sistemele evolutive de tip II, prin adoptarea n arhitectur a unor compon ente diferite, care pot chiar rula pe platforme diferite (cu diferite sisteme de operare) i s comunice cu baza de date pe baza unor protocoale standard de comunicaie. 4.4. STRUCTURA UNUI SIS n schema din figura V.3 este prezentat structura unui SIS.

Figura V.3. Structura unui sistem informatic de spital

Un astfel de sistem conine dou magistrale de comunicaie: a) - magistrala de date medicale - la care sunt conectate toate departamentele care lucreaz cu date orientate pe pacient, att departamentele clinice, notate DC (medicin intern: cardiologie, nefrologie, gastroenterologie, endocrinologie, boli metabolice, hematologie; departamente chirurgicale: chirurgie general, urologie, neurochirurgie, chirurgie cardio-toracic, ORL, oftalmologie; departamente complexe: oncologie, obstetric - ginecologie; pediatrie, psihiatrie, boli infecioase (de obicei localizate n cldiri diferite - etc), ct i departamentele paraclinice (laborator clinic, 217

Informatic Medical & Biostatistic

radiologie i imagistic, endoscopie, explorri funcionale, laborator de patologie, medicin nuclear, anestezie etc.), departamente de monitorizare (terapie intensiv, unitate coronarian, reanimare, dializ), departamente de servicii medicale (farmacie, centrul de transfuzii, medicin legal, morga) etc. b) - magistrala de date de spital - la care sunt conectate toate serviciile administrative, manageriale i de suport logistic: blocul operator, blocul alimentar, serviciul tehnic/ntreinere, staia de salvare, serviciul aprovizionare, serviciul personal, contabilitate-financiar i conducerea spitalului. 4.5. INTEGRAREA SIS Noiunea de integrare n terminologia de aici reprezint faptul c SIS nu este izolat (reea local), ci conectat la alte sisteme informatice, cu activiti conexe, ntre SIS i respectivele reele. n figura V.4 este prezentat o schem cuprinznd conexiunile posibile ale unui sistem informatic de spital, cu alte reele cu care exist permanente schimburi de date. Schimburile ntre reele sunt asigurate prin calculatoare de comunicaie numite Gateway, care permit cuplarea unor calculatoare cu sisteme de operare diferite (Unix, Windows, DOS, Apple).

Figura V.4. Integrarea unui sistem informatic de spital

Sistemul integrat cuprinde urmtoarele componente: a) SIS - Reeaua de spital - care n contextul nostru constituie coloana vertebral a ntregrului sistem, i este reprezentat prin poriunea ntre cele dou servere gateway. b) Reeaua academic - marile uniti spitaliceti constituie i o baz de nvmnt: att a viitorilor medici i cadrelor medii auxiliare (asistente, tehnicieni, etc.), ct i nvmntului postuniversitar. Acesta are loc att n forma tradiional (rezideniat - formare a medicilor de specialitate), ct i ca educaie continu pentru aducerea la zi a nivelului cunotinelor cadrelor medicale, n condiiile actuale n care apar continuu noi cunotine, metode, medicamente. Reeaua academic permite utilizarea bazelor de date ale clinicilor i programelor pentru procesul educaional. 218

D. Lungeanu, Gh.-I. Mihala

c) Reeaua de bibliotec - cu menirea de a asigura documentarea cadrelor medicale i a studenilor. Cel mai adesea o astfel de reea are un server cu posibiliti de a servi simultan multe sisteme de calcul conectate la Internet. d) Reeaua de cercetare - omniprezent n spitalele universitare, dar i n alte spitale - permite cuplarea diferitelor laboratoare de cercetare n reeaua integrat; schimbul de informaii este bidirecional: laboratorul de cercetare necesit deseori date clinice n timp ce departamentele clinice doresc s aib la dispoziie ct mai curnd cele mai recente nouti tiinifice. e) Reeaua de asisten medical primar. Trebuie s remarcm mai nti faptul c sistemele informatice ale asistenei medicale primare sunt deseori izolate, ns sunt deja create premizele ca astfel de reele ce interconecteaz mai multe circumscripii / cabinete de medicin general. Legarea acestor reele la un sistem integrat ofer avantaje att medicilor generaliti (prin accesul la datele pacienilor crora li se acord asistena de specialitate, prin accesul la bazele de cunotine etc.) ct i spitalului, pentru transfer rapid de date i urmrirea ambulatorie lejer. 4.5. EXEMPLE DE SIS Pn n prezent au fost realizate numeroase sisteme informatice de spitale. n literatura de specialitate sunt menionate cteva mai deosebite, n care s-au experimentat diferite soluii i s-au creat de fapt standardele de construcie, astfel ncat ele au putut fi actualizate pe paarcursul evolutiei tehnologice. - Sistemul HISCOM - creat de firma Hiscom din Olanda - este un sistem complet, cu grad nalt de integrare, nceput n 1975 - Sistemul DIOGENE - creat la spitalul Cantonal din Geneva - cu arhitectur monolitic, construit n perioada 1971-1978 - Sistemul MGS (Massachusetts General Hospital) - creat la Boston, n perioada 1965-1970 Mai menionm sistemele de la King s College (Londra), Universitatea din Hanovra, Spitalul din Stokholm, Spitalul de Reabilitare din Texas, Spitalul Universitar din Tokyo. Sistemul informatic al reelei de spitale VA ( Veterans Administration) din Statele Unite este aproape n ntregime n form electronic (96% paperless), fiind unul dintre exmplele de succes n domeniu. O prima ncercare n Romnia a fost un proiect de realizare a unui SIS la Spitalul Fundeni din Bucureti, demarat n anul 1980, dar nefinalizat. n prezent, un sistem informatic bine realizat, cu grad de complexitate deosebit este cel al Serviciului de Salvare din Bucureti.

5. SISTEME INFORMATICE MEDICALE LA NIVEL CENTRAL


n fiecare ar exist un specific al organizrii ierarhice a activitilor medicale. n principiu ns se respect structura prezentat de noi, pornind de la asistena medical primar asigurat n circumscripii / cabinete de medicin general, spre cea de specialitate, avnd ca unitate fundamental de organizare spitalul, conform schemei de flux informaional prezentat n figura III.4.1. Dinspre aceste uniti care asigur asistena medical direct, se centralizeaz date ctre aa numitul nivel central. Aici se disting urmtoarele trepte specifice n Romnia:

219

Informatic Medical & Biostatistic

5.1. NIVEL TERITORIAL DSJ (Directiile Sanitare Judetene) organizeaz i supravegheaz activitile de asisten medical la nivel teritorial - jude. La acest nivel se face centralizarea primar a datelor, fiind primul nivel de sintez. n plus, n judee exist Case de Asigurri de Sntate judeene, ca filiale ale Casei Naionale de Asigurri de Sntate (CNAS) ele raporteaz ctre CNAS, dar au i un anumit grad de autonomie local. 5.2. NIVEL NAIONAL a) Ministerul Sntii - centralizeaz la nivel naional datele privind ocrotirea sntii i asistena medical. n cadrul MS funcioneaz Centrul Naional de Statistic Sanitar care concentreaz toate informaiile i redacteaz rapoartele de sintez la nivel naional. Pe acestea ministerul le analizeaz, le prezint guvernului i ia msurile cuvenite pentru ridicarea calitii ocrotirii sntii i asistenei medicale. De menionat c reeaua farmaceutic are o ierarhie teritorial paralel reelei de asisten medical, datele fiind centralizate la Oficiul Central Farmaceutic. b) Casa Nationala de Asigurari de Sanatate (CNAS) primete informaii i finaneaz serviciile de ngrijire a sntii din: asistena primar la nivelul medicilor de familie, asistena n ambulatorii de specialitate, asisten n spitale (att pentru afeciunile acute, ct i pentru cele cronice). c) Alte ministere - n Romnia, pe lng reeaua MS care satisface majoritatea aciunilor de asisten medical, exist unele ministere care au reele proprii de asisten medical: Ministerul Transporturilor, Ministerul Aprrii Naionale i Ministerul de Interne. d) Organe Centrale. Exist activiti cu caracter medical (direct sau conex), desfurate i n alte organisme: - uniti ale Ministerului Muncii i Proteciei Sociale (azile de btrni, inspectorate pentru handicapai etc.) - uniti ale Poliiei Sanitar-Veterinare. Unitile de nivel central (judeean sau naional) au datoria de a asigura legtura cu diferite alte uniti n probleme comune (de ex. alimentarea cu ap, colectarea i depozitarea gunoaielor, diverse aspecte ecologice etc.). Date DRG baza informaional pentru finanarea spitalelor ncepand cu 2004, finanarea spitalelor n Romnia se face prin plata prospectiv bazat pe sistemul DRG (Diagnosis Related Groups). Sistemul a fost iniial introdus experimental ntr-un singur spital (Cluj, 1999) printr-un proiect finanat de USAID, apoi n 23 de spitale (2002) experiena fiind apoi aplicat la nivel naional. Sistemul DRG reprezint o schem de clasificare a pacienilor care permite relaionarea tipurilor de pacieni tratai ntr-un spital (i.e. case-mix-ul) cu costurile crora el trebuie s le fac fa. Concepia i dezvoltarea sistemului a nceput la universitatea Yale la sfritul anilor 1960. Motivaia iniial pentru dezvoltarea lui a constituit-o crearea unui cadru care s permit monitorizarea calitii i a utilizrii serviciilor n domeniul ngrijirii sntii. El s -a extins treptat n SUA i n 1983 a devenit sistemul de plat prospectiv la nivel naional pentru toi pacienii Medicare (i.e. toi cetenii de peste 65 de ani din Statele Unite). 220

D. Lungeanu, Gh.-I. Mihala

n prezent, sistemul DRG se utilizeaz nu numai pentru pacienii Medicare, ci este folosit ca metod preferat de rambursare pentru majoritatea companiilor de asigurari i, cu modificari, a fost introdus n Australia i n mare parte din rile europene. Evoluia sistemului DRG i utilizarea lui ca unitate de baz n plata spitalelor reprezint o recunoatere a rolului fundamental pe care case-mix-ul unui spital l joac n determinarea costurilor. Utilizarea altor caracteristici n stabilirea costurilor (statutul de spital universitar, numrul de paturi, etc.) a euat n gsirea unor explicaii convingatoare att privind diferenele de costuri dintre spitale ct i noiunile de complexitate a cazurilor tratate. Sistemul DRG a fost primul sistem operaional care a oferit mijloacele de a defini i a cuantifica noiunea de complexitate case-mix. Termenul de complexitate case-mix este utilizat ca referin la un set de atribute ale pacientului care sunt inter-relaionate dar distincte i includ: severitatea bolii, prognosticul, dificultatea tratamentului, necesitatea interveniei i intensitatea resurselor utilizate. n sistemul DRG original exist 25 de grupe diagnostice i clasificarea pacienilor n acestea se face pe baza diagnosticelor ICD (International Classification of Diseases recomandat de Organizaia Mondial a Sntii) prin care este descris cazul respectiv. Majoritatea rilor europene i Australia au adoptat deja ICD -10 (versiunea 10 ICD) uneori modificat la nevoile proprii, n timp ce Statele Unite a rmas nc pe ICD -9, care are mai multe grupe diagnostice. n diferite ri europene sistemul de clasificare i finanare a fost adaptat la cerinele i cultura instituional proprii. Romnia a nceput cu sistemul american i continu cu cel australian, ncepand cu jumtatea anului 2007. O dificultate major o constituie dezvoltarea de valori relative locale pe baza datelor de costuri la nivel de pacient, precum i organizarea i dezvoltarea unei structuri de evaluare a calitii serviciilor furnizate de spitale. Un sistem de codificare mai complex este SNOMED, care permite o abordare ontologic a informaiei medicale, dar nc nu este utilizat pe scar larg. 5.3. NIVEL INTERNAIONAL Este tot mai evident c nici o ar nu poate neglija contextul global n care este integrat i multe probleme (inclusiv de ordin medical) sunt comune. Deschiderea granielor, circulaia intens, turismul etc. impun intensificarea comunicrii internaionale. n domeniul medical exist un organism cu sediul la Geneva: OMS Organizaia Mondial a Sntii, care are mai multe departamente i care asigur comunicarea datelor i informaiilor medicale la nivel mondial. Romnia este membr a OMS nc de la nfiinare (1950). Comunicarea la nivel internaional este asigurat i prin intermediul unor societi sau asociaii internaionale; de exemplu n domeniul informaticii medicale, Romnia este membr att a EFMI (Federaia European de Informatic Medical) ct i IMIA (Asociaia Internaional de Informatic Medical). Organismele internaionale au rol informativ i consultativ fiind deseori promotoarele unor proiecte preluate apoi la nivel naional. n domeniul informaticii medicale problemele majore care se discut privind sistemele informa tice medicale integrate sunt cele referitoare la protecia datelor i cele referitoare la standardizare, pe care le vom trece n revist n cele ce urmeaz. Ca i in celelalte probleme legate de ngrijirea sntii, n informatica medical Uniunea European nu d directive ci doar face recomandri statelor membre.

221

Informatic Medical & Biostatistic

6. PROBLEME SPECIFICE N SISTEME INFORMATICE


6.1. PROTECIA DATELOR Realizarea oricrui sistem informatic (de fapt orice conexiune ntre calculatoare) ridic probleme legate de asigurarea confidenialitatii i proteciei datelor. Apare aici o contradicie: pe de o parte unul din scopurile pentru care se realizeaz sistemele informatice este chiar asigurarea accesibilitii datelor, pe de alt parte datele medicale au un specific aparte, caracterul individual privat impunnd ca aceste date s fie confideniale. De asemenea, dorim s asigurm integritatea lor, deci s nu fie afectat coninutul lor (fie accidental, fie intenionat). Termenii legai de aceste aspecte sunt urmtorii: a) Confidenialitatea - datele medicale ale unui pacient sunt considerate confideniale; accesul la ele trebuie deci s fie limitat la un numr redus de persoane. Metode de asigurare a confidenialitii: folosirea unor parole pentru a accesa fie ntregul fiier (sau unele cmpuri) fie programele; codificarea identitii pacientului. b) Protecia datelor - reprezint msurile mpotriva deteriorrii accidentale neatenie n manevrare, defeciuni tehnice. Metode uzuale de protecie: salvarea datelor i programelor prin realizarea periodic (zilnic) a unor copii de siguran (back-up) pe suport extern; de asemenea, se stabilesc nite reguli stricte de operare i eviden. c) Securitatea datelor - reprezint msurile mpotriva accesului sau deteriorrii intenionate a datelor sau programelor. Metode uzuale de securitate: introducerea unor parole de acces pentru diferite nivele sau chiar msuri hardware - folosirea unor cartele, chei etc. Asigurarea confidenialitii i integritii componentelor SIS impune stabilirea unor msuri att la nivelul conducerii spitalului ct i la nivelul departamentelor. Ele pot fi grupate n trei categorii: i0 - msuri hardware (sau de echipament): - uneori echipamentele centrale sunt duplicate - calculatorul central - ntr-o sal ncuiat, cu acces limitat - calculatoarele s permit accesul dup identificarea persoanei cu o cartel (magnetic, optic sau chip) - instalaie de avertizare a accesului neautorizat - protecie mpotriva inundaiilor - instalaii de aer condiionat ii0 - msuri software: - teste de verificare a programelor (cu date foarte variate) - teste de validare a datelor introduse (att la introducere ct i cu anumite periodiciti) - identificarea utilizatorului - cu parole - i a nivelelor de acces prestabilite: citire integral sau parial; se recomand modificarea periodic a parolelor - pstrarea versiunii anterioare - evidena actualizrilor n toate fiierele n care apar date ce se modific iii0 - msuri organizatorice care trebuiesc sistematizate ntr-un Regulament al sistemului informatic i care trebuie s includ cel puin: - precizarea exact (separarea) a sarcinilor

222

D. Lungeanu, Gh.-I. Mihala

- prevenirea situaiilor n care prea multe privilegii aparin u nei singure persoane (situaii care cresce riscul de abuz) - clasificarea datelor n grupe diferite, cu acces depinznd de tipul de date - legarea accesului la date de vechimea lor sau de originea lor - elaborarea unor manuale de operare pentru fiecare funcie n sistem, cu precizarea procedurilor de urmat n diferite situaii - managementul autorizaiilor trebuie de asemenea elaborat innd cont de structura organizatoric a unitii. 6.2. STANDARDIZAREA Termenii de standard i standardizare, folosii frecvent n tehnic preau a fi greu adaptabili la activitatea medical care manevreaz numeroase noiuni fuzzy (definite vag). Totui, n ultimul timp se discut din ce n ce mai intens despre standardizare pentru cel puin dou motive: - asigurarea calitii serviciilor prin instalarea unor norme precise pentru toate activitile, asigurndu-se o responsabilitate bine precizat a tuturor persoanelor implicate n ansamblul activitilor - posibilitatea schimbului eficient de informaii ntre uniti diferite - prin precizarea semnificaiei termenilor. a) Definiii -dup ISO (International Standards Organization). Standardizare - operaiunea de stabilire a unor reguli de desfurare a unor aciuni, privind probleme actuale sau poteniale, pentru atingerea unui grad optim de ordine ntr-un context dat. Standard - este un document stabilit prin consens i aprobat de un organism recunoscut, ce stipuleaz, pentru aciuni comune i repetate, reguli i criterii pentru activiti sau rezultatele lor, cu scopul de a atinge un grad optim de ordine ntr -un context dat. Standardele din domeniul informaticii medicale permit interoperabilitatea ntre sistemele informaionale de sntate. b) Organisme naionale i internaionale - ONS - Oficiul Naional de Standarde din Romnia, Comitetul Tehnic 319 - CEN - Comitetul European pentru Standardizare (norme) - CEN/TC251 - Comitetul Tehnic European pentru Informatic Medical - ANSI - Institutul Naional American de Standarde - ISO - Organizatia Internaional pentru Standarde. c) Etapele lansrii unui standard european La nivelul CEN, n diferitele comitete tehnice se elaboreaz proiec tele de standarde care trec prin urmtoarele etape: ENV - pre-standard european: form preliminar anunat pentru a fi verificat pe o perioad de 3 ani la nivele naionale EN - standard european: un prestandard acceptat devine norm obligatorie; prevederile naionale care nu sunt n concordan trebuie retrase pentru adaptarea deplin a standardului CR - CEN - raport: este prestandard la care nu s-a ajuns la consens, ns are prevederi att de importante nct sunt fcute publice; totodat pot deveni CR alte documente normative care nu sunt propuse ca standarde

223

Informatic Medical & Biostatistic

HD - Harmonization Document este un standard adaptat ca i EN, dar permite unele variaii naionale pentru o perioad de tranziie. d) Caracteristicile unui standard Enunarea unui standard trebuie s ndeplineasc anumite condiii, denumite precurtat SMART: . S - specific - obiectul s fie bine definit, clar, fr ambiguiti . M - msurabil - aciunile s poat fi msurate i exprimate cantitativ i calitativ . A - acceptabil de ctre instituiile care l utilizeaz . R - realistic - s cuprind aciuni ce pot fi intreprinse practic . T - time-related aciunile trebuiesc precizate n timp ca termene i durate. e) Standardul HL7 HL7 este o organizaie internaional, nfiinat cu mai bine de 20 de ani n urm, care dezvolt standarde pentru schimbul de informaii electronice n domeniul sntii, precum i de management i integrare a acestor informaii. HL7 nu dezvolt software, ci specificaii (e.g. messaging standard) care s permit interoperabilitatea aplicaii disparate s poat schimba cel puin un set minimal de date clinice i administrative. Standardul HL7 permite interoperabilitate: tehnica datele pot fi mutate din sistemul A n sistemul B semantica asigur c sistemul A i sistemul B nteleg datele n acelai fel de proces permite ca activitile organizaiilor care gzduiesc sistemele A i B s fie compatibile i s se desfoare mpreun.

BIBLIOGRAFIE I REFERINE
RK Bali, AN Dwivedi (eds). Healthcare knowledge management. Springer, New York, 2007 JH van Bemmel, MA Musen (eds). Handbook of Medical Informatics. Springer, Heidelberg, 1997 A Bowling. Research methods in health: investigating health and health services. Open University Press, McGraw-Hill House, Maidenhead England, 2002 DRG Romania: http://www.drg.ro/ HL7 web site: http://www.hl7.org ICD-10. International Statistical Classification of Diseases and Related Health Problems 10th RevisionVersion for 2007. http://www.who.int/classifications/apps/icd/icd10online SNOMED. International Health Terminology Standards Development Organisation: http://www.ihtsdo.org/ L. Stoicu-Tivadar. Sisteme informatice aplicate in sanatate. Editura Politehnica, Timioara, 2005

224

S-ar putea să vă placă și