Sunteți pe pagina 1din 52

1. Notiuni generale 1.1 Ce este biostatistica ?

Cei mai mul i dintre noi au nevoie de defini ii ale obiectului despre care se discuta. De aceea, vom da n acest prim paragraf o defini ie a statisticii i, bazat pe aceasta, o defini ie a biostatisticii. Din p cate, trebuie spus de la nceput ca n privin a statisticii, oamenii de tiin a nu au reu it sa ajung la un consens n ceea ce prive te o defini ie unanim acceptata. De aceea, vom ncepe cu cteva observa ii descriptive, din care se va desprinde una din defini iile cele mai acceptate ale acestei stiin e. Multi oameni au o parere gresita, (pe care trebuie sa si -o schimbe), ca statistica este o stiinta care se ocupa cu numaratul, calculul procentelor, gruparea pe clase, tabele si alte lucruri asemanatoare. Definitiile, deci, sunt necesare, cel putin pentru a contura n mare, obiectul stiintei statisticii. Cum nsa n general, definitiile, prin laconismul lor, spun mai putin, se poate ca multi sa nteleaga ce este statistica abia dupa ce au cteva contacte practice cu aceasta disciplina, din definitii teoretice nentelegnd prea mult. Statistica este asociata cu un anumit tip de prelucrare a informatiilor din lumea nconjuratoare si anume acel tip de prelucrare care clasifica , centralizeaza informatiile n tabele, si grafice, grupeaza informatiile, descopera legaturi ntre ele, descopera eventuale cauzalitati, analizeaza fenomene complexe. n plus, statistica face si generalizari ale unor ipoteze descoperite de obicei empiric. Chiar daca nu avem o idee precisa, cu totii gndim despre aceasta stiinta ca nu opereaza cu informatii referitoare la un pacient sau o planta sau un obiect sau la un numar foarte restrns de astfel de entitati. stim ca statistica este stiinta care prelucr eaza informatii care se refera la un numar mare de entitati cum ar fi pacienti sau indivizi sanatosi sau sau plante sau obiecte de alta natura. 959m1218j Fenomenele macroeconomice, care cer manipularea si interpretarea unei cantitati uriase de date sunt deseori explicate prin estimari de natura statistica.

Aprecierea evolutiei unui fenomen macroeconomic sau social n timp si estimarea modului lui de evolutie n viitor se face cu ajutorul statisticii. De exemplu, estimarea tendintei economiei unei tar i pe anul urmator sau pe o perioada mai lunga se face prin metode statistice tinnd cont de datele anterioare. Estimarea consumului anumitor tipuri de alimente, estimarea modului de evolutie a popularitatii diferitelor personalitati, partide, se realizeaza de asemeni prin sondaje statistice complexe, elaborate. Utilitatea statisticii este pusa mai bine n evidenta atunci cnd trebuie studiate fenomene complexe n care intervin factori sau marimi care se afla n relatii complexe ce nu pot fi descrise satisfacator prin ecuatii sau formule, sau prin relatii cantitative de dependenta. De exemplu, n tehnica, daca suntem la un moment dat interesati de consumul de carburant al unui motor, exista n mod sigur o determinare destul de exacta a acestuia n func tie de puterea motorului, tipul sau, viteza de deplasare, si alti ctiva parametri. Cunoscnd parametrii de care depinde consumul, aplicam o formula si obtinem consumul de carburant al acelui motor. Ceea ce obtinem este valabil pentru orice motor de acelas i tip si care functioneaza n aceleasi conditii. Daca nsa am dori, n mod utopic, sa calculam numarul de leucocite pe care ar trebui sa la aiba pacientii care sufera de o anumita afectiune avnd datele generale despre acea afectiune si folosind cunostintele de fiziologie, biochimie, biofizica, etc, nu vom avea nici un succes. Variabilele care ar trebui sa intre n calcul sunt att de multe si att de complex depind unele de altele nct orice ncercare de cuprindere n formule matematice este sortita esec ului. n asemenea cazuri, numai abordarea statistica este posibila. Se poate doar, eventual afirma, ca exista o tendinta (semnificativa din puncte de vedere statistic), ca numarul de leucocite sa depinda ntr-o anumita masura de unul sau mai multi factori, si se pot chiar cuantifica aceste legaturi de dependenta. De aceste probleme se ocupa unul din capitolele importante ale statisticii, capitol tratat si n aceasta carte, anume teoria corelatiei (vezi capitolul 9).

De fapt, biologia si medicina lucreaza cu concepte, fapte, notiuni, dintre care doar o mica parte se preteaza la o interpretare determinista, exacta. Chiar daca avem impresia ca majoritatea afirmatiilor de baza din medicina sunt suficient de clare, lamurite si ntelese, prea putin ne dam s eama ca, de fapt, majoritatea lor sunt numai de natura statistica si ca trebuie binenteles interpretate ca atare. Desigur, a spune ca omul are doua emisfere cerebrale sau ca ciclul cardiac are o sistola si o diastola, sunt afirmatii care nu au legatura directa cu statistica. Dar toate determinarile cantitative, unele calitative, toate masuratorile referitoare la parametri fiziologici, biochimici, biofizici etc., au nteles deplin numai n context statistic. n medicina si stiintele vietii, afirmatii le despre mase de oameni cum ar fi populatia unei tari sau regiuni geografice sunt deseori de natura statistica. Daca exista centralizate situatii suficient de clare ale incidentei unei anumite maladii se poate face o apreciere exacta a acestei incidente. De exemplu, afectiunile maligne sunt supravegheate destul de strict n toate tarile civilizate si exista date centralizate destul de exacte asupra incidentei. Totusi, chiar si n tarile dezvoltate, dar mai ales n tarile sarace, datele sunt lacunare, n ce ea ce priveste incidenta reala, adica tinnd cont si de cazurile care nu sunt luate n evidenta de medici si urmarite n evolutie. n aceste cazuri, se poate face o estimare a incidentei unor maladii prin metode statistice. Se alege un esantion reprezentat iv, acesta este cercetat n totalitate si pe baza rezultatului obtinut se face estimarea la nivelul ntregii populatii. Tot asa se fac n ultimul timp din ce n ce mai mult studii de piata, studii n ce priveste intentiile de vot, estimari ale dorintelor u nei populatii, etc. De problemele de acest tip, se ocupa un alt capitol al statisticii, acela al inferentei bazate pe sondaje . Atunci cnd vorbim de prelucrarea statistica a informatiilor, folosim expresia "prelucrare a datelor". Informatiile referitoare la un pacient sau la un individ normal sau la orice alt obiect le numim Date. Numele, prenumele, vrsta, sexul, afectiunea si celelalte informatii despre un anume pacient, marimea,

greutatea unui obiect, productivitatea unei plante, etc, le numim date despre acel pacient, acel obiect sau acea planta. Informatiile referitoare la mai multi pacienti sau indivizi sanatosi, sau animale de experienta, sau plante, sau alte obiecte pe care le studiem, le vom numi tot date. Cnd ne referim la prelucrarea informatiilor, ca scop important al statisticii, vom spune prelucrarea datelor. Cnd vorbim despre nregistrarea pe calculator a acestor informatii vom spune nregistrarea datelor. Astfel, statistica are ca unul din scopuri, nregistrarea si prelucrarea datelor. Totusi, nu orice tip de nregistrare de date si orice prelucrare, tin de obiectul statisticii. nregistrarea evenimentelor cosmice n astronomie, nregistrarea facturilor n contabilitatea unei firme, nregistrarea pozitiei unui mobil n fizica, s i alte nregistrari asemanatoare, nu sunt legate de statistica si nu obliga la prelucraari de natura statistica. Cuvntul statistica este folosit n limbajul uzual n sensuri diferite: n sensul cel mai larg, statistici, se refera la un evanta i de procedee pentru analiza, interpretarea, reprezentarea datelor si luarea deciziilor pe baza faptelor pe care le culegem din realitate. Sensul acesta al cuvntului este acoperit de cursurile de statistica. Al doilea sens este acela de statistica definita ca o cantitate numerica calculata pe baza datelor culese din realitate. Asa cum se va vedea n capitolele ce urmeaza, statisticile aproximeaza caracteristici ale unor populatiilor, cum ar fi media pe ntreaga populatie, pe care nu o cunoaste m si care trebuie aproximata pe baza datelor din realitate, pe care le avem la dispozitie la un moment dat. Datele se culeg de obicei prin studiul unei parti a populatiei, care se numeste esantionsau lot. De exemplu, media calculata lund n considerare doar indivizii dintr-un lot, se numeste statistica. Uneori, termenul de statistica se refera la cantitati calculate nu neaparat relativ la un esantion. De exemplu, exista o statistica a performantelor unui sportiv anume, o statistica a actelor oficiale publicate de o editura, etc.

Definitie: Statistica este stiinta care se ocupa cu descrierea si analiza numerica a fenomenelor de masa, dezvaluind particularitatile lor de volum, structura, dinamica, conexiune, precum si regularitatile sau legile guverneaza. Volumul unui fenomen de masa se refera la amploarea lui numerica, la numarul de indivizi cuprinsi sau afectati de fenomenul repectiv. Astfel, o afectiune foarte raspndita ca HTA (Hipertensiunea Arteriala Esentiala), este un fenomen de un volum mai mare ca o afectiune rara cum ar fi Sindromul Down. Prin structura a unui fenomen de masa, ntelegem modul n care acesta afecteaza diferite categorii de indivizi, cum ar fi n cazul studierii unei afectiuni raspndite, structura afectarii pe sexe, rase, religii, grupe de vrsta, ocupatie, zone geografice, etc. De asemeni, structura reflecta relatiile de legatura ntre marimile prin care descriem fenomenul. De exemplu, n cazul studierii legaturii ntre starea sociala si intentiile de vot, structura presupune si descrierea diferitelor categorii de indivizi pe sexe, rase, stari sociale, ocupatie, etc, ct si legaturile ntre acestea si intentia de vot, exprimata numeric, n procente, etc. Prin dinamica a unui fenomen de masa, ntelegem modul cum evolueaza acesta n timp. Conexiunea fenomenelor este indicata de relatiile de legatura si, eventual, de relatiile de dependenta ntre ele. De exemplu, fenomene economice pot influenta evolutia incidentei unor afectiuni n cadrul un ei populatii. Anumite tendinte de evolutie a incidentei unei maladii, sau de modificare a valorilor normale la pacientii cu o anumita afectiune, pot capata caracter de regularitate. Statistica este cea care pune n evidenta aceste regularitati sau legi, ca re sunt valabile numai la modul general, ca tendinta, nu neaparat la fiecare individ n parte. De exemplu, daca stim ca o anumita fractiune leucocitara este crescuta n alergii, nu nseamna neaparat ca fiecare alergic are acea fractiune leucocitara crescuta, ci ca exista numai o tendinta n acest sens. care le

Definitiile, ca cea de mai sus, sunt de natura sa ne dea o ideie abstracta despre subiectul definit si este extrem de util ca domeniul de interes sau de aplicare al statisticii sa fie mai degraba exemplificat, pentru a crea o imagine concreta. De aceea, n aceasta carte, notiunile introduse sunt mereu exemplificate pentru a crea cititorului o imagine ct mai clara, mai concreta, a notiunii respective. Se stie ca metodele statisticii au o aplicabi litate larga, ncepnd cu ramuri ale economiei, stiintelor biologice, n viata sociala, ca sa nu mai vorbim de stiintele tehnice, astronomie, fizica atomica, etc. Cartea de fata va pune n mod normal accent pe aplicatiile n medicina si stiintele vietii, c a reprezentnd obiectul biostatisticii. Definitie: Biostatistica este stiinta care se ocupa cu aplicarea metodelor statisticii n stiintele vietii. Astfel, toate capitolele importante ale statisticii ca: statistica descriptiva, teoria sondajelor, teoria estimatiei, teoria corelatiei, regresiile, analiza componentelor principale, capitole care vor fi studiate si n acesata carte, au aplicabilitate si n stiintele vietii ca: medicina, biologia, psihologia, sau discipline mai nguste ca biochimia, biofizica, stomatologia, fizioterapia, farmacologia, etc. Metodele cu aplicabilitate n stiintele vietii au fost impulsionate n dezvoltarea lor chiar de domeniul lor de aplicare. Astfel, capitolul statisticii care se ocupa cu studiul si estimarea supravietuirii, are o aplicabilitate larga n medicina si biologie si dezvoltarea lui a fost influentata pozitiv de acest fapt Aceasta deoarece ca medicina a avut mereu nevoie de metode mai perfectionate, pe care statistica a fost nevoita sa i le puna la dispozitie. n multe situatii, apar confuzii ntre doua cuvinte care exprima discipline diferite, si anume ntre biostatistica si statistica medicala. Aceasta din urma, este un capitol al primeia, si anume:

Definitie: Statistica medicala este stiinta care se ocupa cu aplicarea metodelor statisticii n medicina. n aceasta carte va fi vorba n principal de statistica medicala. Totusi, titlul cartii este "Introducere n biostatistica" si de-a lungul cartii este folosit termenul de biostatistica, n traditia existenta nu numai n literatura romneasca ci si n cea occidentala. Dintre aplicatiile biostatisticii sunt tratate acelea care se refera n primul rnd la medicina, fiind ocolite cele cu aplicabilitate numai n alte stiinte biologice, cum ar fi cele c u aplicabilitate numai n agricultura sau n alte stiinte. 1.2 De ce este necesara statistica? Se poate naste ntrebarea daca nu ne putem dispensa de metodele statistice. Adica daca nu ne putem dispensa de urmarirea ct mai exacta a dinamicii populatiei, afectiunilor, simptomelor si chiar a indivizilor, avnd n vedere posibilitatile oferite de mijloacele moderne de nregistrare a datelor si de posibilitatile imense de prelucrare aproape instantanee a acestora. Un raspuns partial ar fi ca niciodata nu putem avea situatii exacte deoarece dinamica sociala implica si o evolutie rapida a starii de sanatate a populatiei, a diferitelor afectiuni, si tot ce este valabil azi nu mai e valabil mine. n plus, urmarirea efectului unor factori nocivi (poluare, substante toxice, alimentatie deficitara, etc) sau benefici (medicamente, viata ordonata, alimentatie sanatoasa, etc), se face des prin studii speciale cum ar fi trialurile clinice n care statistica ocupa un rol central si fara statistica, aceste studii n ici nu ar avea sens. Singurele situatii centralizatoare pe care ne putem baza sunt cele statistice, care ne ofera doar aproximari ale realitatii, dar sunt mai usor de realizat prin studiul unor esantioane reprezentative. Statistica ofera si posibili tati de comparare a diferitilor parametri ai organismului uman, care se modifica n patologie si care sunt att de multi nct este imposibil sa se afirme ca au fost studiati toti si ca se

stie totul despre ei. Mereu apar noi studii statistice care demonstreaza ca organismul uman reactioneaza ntr -un fel sau altul la diferite substante noi, ca organismul uman, normal sau patologic este supus la noi factori de mediu care se schimba mereu si care l fac sa reactioneze mereu altfel. Apar noi afectiuni despre care nu se stie nimic si care pot fi studiate ca impact social si asupra starii de sanatate, prin metode statistice. n plus, statistica ne informeaza stiintific, daca de la o stare la alta, sau sub influenta unui medicament sau agent patogen etc, mo dificarile unuia, sau a unor parametri importanti sunt aleatorii (ntmplatoare, nedependente de factorul pe care l banuim ca le-a produs), sau sunt reale, sigur dependente de acesta. Acest lucru se realizeaza prin testele de semnificatie, care garanteaza printr-o valoare cifrica precisa existenta unor modificari. Valoarea cifrica furnizata de un test, indica si ct de mare este siguranta ca exista modificari reale si nu aleatorii. Tot astfel, ea poate determina corelatia (interdependenta) dintre doi sau m ai multi factori (simptome, de exemplu) prin coeficienti de corelatie, prin ecuatii si drepte de regresie, etc. Toate aceste metode statistice sunt deschideri noi, moderne, foarte importante att pentru medicina fundamentala, preclinica, ct si pentru medi cina practica curenta. De asemenea, tot pe baza statisticii elaborate, si numai asa, n urma determinarii pe foarte multi subiecti (milioane uneori), se afirma n tratatele de medicina ntre ce limite este valoarea normala (tensiunea arteriala, frec venta respiratorie sau cardiaca, glicemia, lipemia, temperatura, forma si greutatea unui organ, naltimea la o anumita vrsta a copilului, hidratarea, presiunea osmotica, debite, viteze, forte musculare, formula leuccitara, etc). Valoarea normala o putem afla numai dupa determinari facute la populatia din tara sau zona geografica respectiva pe loturi de mii, zeci de mii de indivizi normali. Statistica ne ofera mijlocul de a privi mai exact lumea . Sa luam de exemplu parametrul pH sanguin care este o marime cuprinsa normal ntre 7,38 si 7,42, sau,

cum se mai scrie uneori nu prea corect 7,4

0,02. Ce nteles exact se ascunde n

spatele acestor numere? Nu este, binenteles vorba de faptul ca toti oamenii au pHul sanguin cuprins ntre aceste limite, ntruct exista unii oameni care au 7,37 sau 7,43 fara a se putea spune despre ei ca sunt sigur n afara normalului. Afirmatia trebuie nteleasa n sensul ca valorile masurate "la majoritatea indivizilor no rmali" sunt cuprinse ntre limitele respective. Dar care majoritate? Cuvntul "majoritate" are un nteles prea ambiguu pentru a pretinde ca ne exprimam suficient de clar. n plus, unele surse dau pentru acelasi parametru valoarea 7,36 -7,44 ceea ce este n aparenta contradictie cu intervalul dat mai sus. Avnd nsa n vedere ambiguitatea exprimarii, am putea spune ca ambele intervale sunt pe undeva corecte, nsa ceva trebuie sa fie incorect, probabil la amndoua. Statistica ofera posibilitatea unui limbaj riguros n cazuri ca cel de mai sus. Anume, intevalul ntre 7,38 si 7,42, este asa-numitul interval de normalitate, sau intervalul n care se gasesc majoritatea persoanelor normale, sanatoase. Se va vedea n capitolele urmatoare mult mai clar, ce sunt aceste intervale si care este utilitatea lor. Majoritatea care este luata n considerare n medicina cnd este vorba de intervale de normalitate este de 95%. Deci, corect este sa se spuna ca 95% din indivizii sanatosi au pH-ul sanguin ntre 7,38 si 7,42. n ceea ce priveste limitele de la 7,36 la 7,44, acest interval este asa -numitul interval de normalitate de 99%, adica intervalul n care sunt cuprinsi 99% din indivizii sanatosi. Medicina moderna este de neconceput fara cercetarea medicala, iar un segment din ce n ce mai consistent al acestei cercetari are la baza statistica. Nu se mai poate face cercetare de laborator sau clinica, iar rezultatele sa fie raportate doar prin comparari puerile ntre numarul de cazuri sau procente sau medii. Fara asigurarea statistica, nici o cercetare nu are valoare . Acele simple comparari ntre valorile mediilor pot duce la concluzii total gresite. Nici o revista stiintifica medicala serioasa, de 30-40 de ani nu mai publica rezultate neprelucrate statistic, diferente de medii ntre loturi, fara deviatii standard si teste de semnificatie (cel putin).

De exemplu, este posibil, ca diferente care par ochiului foarte importante sa nu se dovedeasca semnificative din punct de vedere statistic, n timp ce diferente aparent minore, sa ascunda semnificatii statistice importante. Se va vedea n capitolul despre teste statistice (capitolul 8), ca nu numai diferentele ntre medii sunt importante ci si dispersarea valorilor luate n calcul. O modificare a creatininei de la o medie de 80 la o medie de 70, poate sa nu fie semnificativa statistic daca valorile luate n calcul au o dispersie mare. Dar o modificare de la o medie de 80 la o medie de 75, poate sa fie semnificativa statistic, daca valorile sunt mai putin dispersate. Asadar, simpla comparare a mediilor, fara a tine seama de dispersii, este lipsita de valoare stiintifica. 1.3 Scurt istoric Notiunea de statistica a suferit de-a lungul timpului modificari importante. Desi termenul n sine este adoptat abia din secolu l al 18-lea, practici statistice sunt atestate din cele mai vechi timpuri. Initial, statisticile au fost egale cu recensamintele. Mai nti numaratori ale populatiei, care sunt atestate nca din Egiptul antic din vremea regatului vechi, adica n mileniul I II nainte de Christos, cnd recensamintele se faceau odata la doi ani. Chinezii au facut si ei recensaminte ale populatiei si pamnturilor tot din mileniul III nainte de Christos. Recensamintele sunt cunoscute mai mult la vechile imperii, desi ele erau c unoscute si polisurilor grecesti. Imperiul Roman, este recunoscut printr-o organizare foarte bine pusa la punct si foarte eficienta. Censul, instituit dupa traditie, de Servius Tulius, rege din secolul VI nainte de Christos, cerea fiecarui cetatean sa si declare numele, prenumele, vrsta, numarul de sclavi si toate celelalte bunuri. Mai trziu, cnd Roma din regat, a devenit un mare imperiu, anchetele si recensamintele au devenit operatii vaste si complicate de care se ocupau uneori nsisi mparati i, asa cum a facut-o Octavian Augustus (primul mparat roman) care a redactat cu mna lui rezultatul unuia dintre recensaminte.

Acest fel de nregistrare a informatiilor a fost facut si n evul mediu si mai trziu, pna n epoca moderna, dar mult ti mp nu au avut dect un caracter empiric si a izvort din necesitati pur practice si anume din nevoia statului de a centraliza datele despre resursele umane si materiale de care dispune. Acceptiunea statisticii ca descriere a statului, se accentueaza n timpul renasterii cnd republicile italiene detin date nu numai despre propriul stat ci si despre partenerii comerciali. Descrierea statului devine n secolele 17 si 18 disciplina universitara n Germania, unde activeaza asa -numita scoala descriptiva germana, care ncet, ncet, capata un sistem de norme teoretice si practice. Ea este denumita initial Staatskunde, iar ulterior capata numele de Statistik. n a doua jumatate a secolului al 18-lea, statistica se diferentiaza din ce n ce mai accentuat de Geografie, punnd accentul pe exprimarea numerica a informatiei si pe eliminarea treptata a aspectului descriptiv. nca din secolul al 17-lea, apar n Anglia o serie de gnditori care, plecnd de la simple tabele de mortalitate (mugurii demografiei ulterioare), ncearca sa faca comparatii si sa descopere anumite legitati, sa analizeze datele prin procedee matematice si chiar sa formuleze rudimente de previziuni. Era vorba de curentul denumitaritmetica politica. n secolele al 18-lea si al 19-lea, curentul predominant este cel al aritmeticii politice, care folosea mai mult procedeele matematice, n detrimentul statisticii ca descriere a statului, care folosea mai mult descrierea verbala. Totusi, denumirea care s-a consacrat a fost tot aceea de statistica si nu de aritmetica politica. Un aport deosebit la fundamentarea statisticii din punct de vedere stiintific l -a avut teoria probabilitatilor. Nascuta ca o teorie a jocurilor de noroc, aceasta si -a dovedit curnd utilitatea n descrierea fenomenelor aleatoare n general si n descrierea fenomenelor statistice n special. Matematicieni celebri precum Bernoulli (1654 - 1705), Pierre-Simon Laplace (1749 - 1827) sau Karl Frederich

Gauss (1775 - 1855), au fundamentat prin lucrarile lo r n acelasi timp si teoria probabilitatilor si statistica. Catre sfrsitul secolului al 19-lea poate fi plasata nasterea statisticii moderne, care deplaseaza accentul de pe desciptivism pe interpretarea analitica (analiza componentelor si cauzelor care concura la evolutia unui fenomen de masa) si spre generarea de concluzii inductive (deducerea de concluzii general valabile din observatiile empirice). Astfel, apar lucrari ale unor personalitati, nu neaparat matematicieni, care au impulsionat dezvolt area statisticii. Printre ei, biologul si antropologul Francis Galton (1822 - 1911), antropologul, psihologul si filozoful Karl Pearson (1857 - 1936), matematicianul si biologul Ronald Aylmer Fisher (1890 - 1962). Galton a pus bazele biometriei, care este o disciplina ce se ocupa cu studiul masuratorilor n biologie, Pearson a adus numeroare contributii la teoria corelatiei iar Fisher a dezvoltat un larg evantai de metode statistice cu aplicabilitate n special n agricultura. Ulterior, n secolul 20, Neyman si Egon S. Pearson (fiul lui Karl Pearson), au dezvoltat teoria estimatiilor prin introducerea riscurilor de ordinul nti si al doilea si al puterii unui test statistic (vezi capitolul despre teste statistice din aceasta carte). Au urmat apoi o serie de statisticieni care au ntarit rolul statisticii ca stiinta, printre celelate stiinte si au largit aria de aplicabilitate a acesteia practic, la toate domeniile principale ale vietii economice si sociale. Printre ei, W. Gosset, Abraham Wald, Georg Udny Yule, A. N. Kolmogorov. Printre matematicienii romni care au adus contributii importante n statistica se numara Octav Onicescu, I. Cuculescu, Gh. Marinescu, etc. Azi, statistica este foarte bine fundamentata stiintific si se dezvolta permanent . Cu toate ca au fost descoperite de -a lungul timpului foarte multe metode utile, care acopera necesitati din cele mai diverse, firea iscoditoare a omului si necesitatile practice fac ca si statistica, n paralel cu celelalte stiinte sa se dezvolte continu u. 1.4. Populatii statistice, indivizi statistici

Introducem cteva notiuni specifice cu care opereaza statistica si cu care vom lucra n capitolele ce urmeaza. Fiind o stinta care nu lucreaza cu fenomene strict deterministe, toate afirmatiile statisticii se refera nu la evenimente sau obiecte singulare ci sunt deduse prin observarea unei multimi ct mai cuprinzatoare de obiecte sau fenomene. Desigur, nu se pot face generalizari pripite din studierea unui caz sau a ctorva cazuri si este destul de clar pen tru oricine ca o generalizare este cu att mai valoroasa cu ct au fost observate un numar mai mare de cazuri. Aici nsa apare problema de a face o apreciere corecta a numarului de observatii efectiv realizate, raportat la numarul posibil de observatii. Daca ne propunem sa facem un studiu asupra unei afectiuni foarte raspndite, cum ar fi hipertensiunea arteriala esentiala (HTA), concluzii valabile nu se pot trage dect pe baza unui numar de cazuri de cel putin cteva mii sau zeci de mii, dar n cazul unei maladii rare cum sunt unele din anomaliile cromozomiale de exemplu, un astfel de numar de cazuri pur si simplu nu poate fi gasit n aria de cercetare considerata, uneori nici pe ntregul glob. Oricum, n general vorbind, este bine ca, n limita posibilitatilor, studiul sa se faca pe un numar ct mai mare de indivizi. Pentru prelucrarea datelor despre pacienti, prin metode statistice, este necesara clarificarea ctorva principii fara de care este posibil ca munca de introducere a datelor precum si efortul de prelucrare sa fie irosite n zadar, fie pentru ca odata introduse datele sa constatam ca nu avem la ndemna notiunile de baza cu ajutorul carora sa ne ghidam n hatisul de metode, fie pur si simplu sa constatam ca nu am introdus corect datele si deci o reprelucrare sau, mai rau, o reintroducere a datelor sa fie necesara. Cea mai generala notiune pe care trebuie sa o discutam este cea care se refera la totalitatea cazurilor, elementelor, obiectelor care au n comun trasatura sau proprietatea studiata de noi. Definitie:

Vom numi populatie statistica o multime de elemente care au una sau mai multe nsusiri comune si care fac obiectul unei cercetari statistice. De obicei, prin populatie statistica, n mod empiric, ntelegem o multime de persoane umane:
y y y

persoanele din judetul Dolj care sufera de HTA, sau persoanele din judetul Dolj de sex feminin care sufera de HTA, sau persoanele din Romnia care sufera de cancer de colon si care au fost operate, etc.

Cum de cele mai multe ori, loturile studiate t rebuie comparate cu loturi de normali, ne vom mai referi la populatii ca:
y y y

persoanele normale dintr-o arie geografica data, sau persoanele de sex feminin din Dolj, sau copiii normali ntre 2 si 14 ani, etc.

Exemplele de populatii statistice de acest gen pot fi multiplicate practic nelimitat, de fapt fiind necesar sa se considere aproape pentru fiecare nou studiu statistic o populatie specifica la care se refera. Pe de alta parte, de obicei n statistica, o populatie nu este o multime de persoane. De exemplu, n studiile demografice se iau cteodata ca elemente fundamentale grupuri sociale ca: asezari omenesti sau institutii, intreprinderi, populatia asezarilor umane din Romnia, populatia scolilor dintr -un judet, etc. Avem deci n acest caz populatii de grupu ri socio-umane. Mai mult, populatiile pot sa nu aiba o legatura directa cu indivizi umani ci mai degraba indirecta, si anume se poate vorbi despre populatii de evenimente (accidentele de circulatie dintr -o arie geografica, accidentele cardiace pe o perioad a anume de timp, etc) sau despre populatii de masuratori (tensiunea arteriala a unui pacient considerata la intervale regulate de timp).

Vom avea deci ca tipuri mai importante de populatii:


y

Populatii de indivizi umani (normali, afectati de o afectiune, expusi la un risc, etc) Populatii de grupuri socio-umane (localitati, scoli, intreprinderi, spitale, etc) Populatii de evenimente (la oameni, la animale de experienta, la celule, etc) Populatii de masuratori (la oameni, la animale, la plante, la alte obiecte, la celule, la gene, la mitocondrii, etc).

y y y

Deci, cnd vorbim despre o populatie, nu este vorba neaparat despre populatia unei tari sau oras, adica despre grupe de oameni. Pe de alta parte, avnd n vedere ca studiem o populatie din punctul de veder e al unei caracteristici comune tuturor indivizilor, ceea ce ne intereseaza de fapt sunt nu indivizii n sine ct caracteristica ce le este comuna si pe care o studiem. De aceea, de obicei ne referim la populatii ca la multimi de numere ce reprezinta masur atori efectuate pe indivizi umani sau de alta natura, plante, obiecte, evenimente, etc. Indiferent despre ce tip de populatie discutam la un moment dat, unitatea fundamentala cu care avem de a face este individul statistic. Definitie: Vom numi individ statistic un element al unei populatii statistice indiferent de natura acesteia. Astfel notiunile de individ uman si de individ statistic nu se suprapun deoarece asa cum rezulta din aceasta definitie, individul statistic poate fi:
y y y y

persoana umana (individ sanatos, pacient), un grup socio-uman (o scoala, o localitate, un spital, etc), un eveniment, o masuratoare, etc.

Mai mult, nu orice individ uman poate fi si individ statistic ci, pentru aceasta trebuie sa fie cuprins ntr-o populatie statistica. Relativ la indivizii statistici, preocuparea fundamentala este studiul anumitor caracteristici ale acestora, anume acele caracteristici care au legatura cu cea avuta n vedere atunci cnd am considerat populatia statistica. De exemplu, ntr-un studiu statistic n care dorim sa punem n evidenta modificarea functiei hepatice la indivizii care sufera de o anumita afectiune, populatia este definita de existenta afectiunii, iar indivizii vor fi studiati prin masurarea mai multor parametri de definesc functia hepatica si pe baza carora putem decide ct de mult a fost afectata functie hepatica. Daca urmarim numai bilirubina totala, n cadrul cirozelor hepatice, avem: Populatia statistica este multimea indivizilor umani care au ciroza hepatica (n interiorul ariei geografice n care are loc studiul) Indivizi statistici sunt fiecare din cei considerati n cadrul populatiei, adica este individ statistic, orice persoana cu ciroza hepatica (din aria geografica considerata). Valoarea masurata a bilirubinei la u n anumit individ statistic este cea care ne intereseaza n cadrul studiului. De aceea se pot confunda la un moment dat individul uman cu valoarea numerica a bilirubinei totale masurate la el. Aceasta confundare nu este periculoasa daca n studiu nu ne intereseaza dect bilirubina totala. 1.5 Caracteristici, variabile 1.5.1 Definitii Organismul uman, cel mai complex sistem existent n natura, nu poate fi descris exact nici prin tomuri ntregi de descriere n cuvinte si nici prin numre orict de multe am folosi. Omul este capabil sa descrie numai anumite trasaturi sau proprietati ale organismului sau. Trebuie sa fim constienti ca desi numarul de trasaturi ale organismului pe care le studiaza anatomia, biochimia, biofizica,

fiziologia si toate celelalte discipline este enorm, niciodata nu vom fi capabili sa descriem exact organismul uman, caci numarul de trasaturi de care am avea nevoie este practic infinit. Trasaturile sau proprietatile organismului uman sunt denumite n statistica caracteristici si sunt cuprinse n categoria generala de date, asa cum sunt descrise n subcapitolul 1.1 al acestui capitol. Definitie: Numim caracteristica o proprietate comuna tuturor indivizilor dintr-o populatie statistica data. Caracteristicile sunt ceea ce n limbajul obisnuit ntelegem prin atribut, calitate. Din punctul de vedere al statisticii medicale, caracteristicile sunt de doua tipuri fundamentale: cantitative si calitative.
y

Caracteristicile cantitative sunt acelea care prin natura lor sunt masurabile, adica pentru care exista unitati de masura si o conventie de masurare general acceptata. n aceasta categorie intra toate constantele fiziologice, biochimice, biofizice, unele anatomice, care n general pot fi determinate prin masuratori uzuale sau de laborator: naltime, greutate, vrsta, glicemie, calcemie, hemoglobina, numar eritrocite, forta musculara, viteza de reactie, nivel de inteligenta (QI), dar si marimile referitoare la celule, organite, sinapse, vezicule, membrane, etc. Ele sunt totdeauna exprimate c ifric ntr-un mod precis, obiectiv. Caracteristicile calitative, sunt cele care nu pot fi masurate prin metode obiective, cantitative, ci se exprima descriptiv prin termeni calitativi: culoare, forma, consistenta, aspect, etc. Caracteristicile calitative n u au o unitate de masura general acceptata si deci nu pot fi exprimate cifric, ca rezultat al unor masuratori. Ele sunt adesea subiective si de obicei exprimate analogic si nu numeric.

Caracteristicile cantitative sunt si ele submpartite n doua categorii fundamentale:

Daca masuratorile pot da orice numar cuprins ntre doua limite date, zecimal sau nu, caracteristica respectiva este o caracteristica continua. Daca nsa valorile nu pot fi dect n numar finit, de obicei ntreg, caracteristica se numeste discreta. Deci, un prim criteriu de clasificare a datelor n statistica este acela care le

mparte

n calitative si cantitative,

iar

pe

cele

cantitative

le

mparte

n continui sidiscrete (vezi figura 1.1).

Figura. 1.1 Clasificarea cea mai generala a datelor n statistica Astfel, majoritatea analizelor de laborator, sunt masuratori cantitative continue. Aceasta deoarece, hemoglobina sau calcemia sau glicemia, etc, pot lua orice valori ntre limitele de normalitate, sau chiar n afara limitelor de normalitate, iar aceste valori depind de pacientul la care s -au facut masuratorile. Atunci nsa cnd nregistram anumite caracteristici anatomice, numarul de copii al unei paciente, numarul de nasteri, numarul de avorturi, folosim pentru nregistrare numere ntregi si spunem ca nregistram o caracteristica numerica discreta. Lumea biologica este caracterizata printr -o mare variabilitate, acest domeniu al realitatii find de fapt cel mai greu de cuprins n cifre foarte exacte, iar atunci cnd se obtin astfel de cifre, diferentele individuale pot fi att de accentuate nct trebuie sa manifestam o mare reticenta n folosirea lor bruta, imediata. Desi sunt unele aspecte care se mentin constante la o aceeasi specie, si n particular la om, unele se schimba de la individ la individ, adica sunt variabile. Asadar, atunci cnd indivizii statistici sunt oameni, caracteristicile care se studiaza sunt de multe ori variabile. De fapt, acelasi lucru se poate spune si cnd indivizii sunt grupuri umane, evenimente, etc, adica se constata aceeasi variabilitate de la individ la individ.

Definitie: O caracteristica care se schimba de la individ la individ sau la acelasi individ n timp sau ca raspuns la conditiile de mediu, de boala de medicatie, etc, se numeste variabila. n aceasta carte, vom opera ndeosebi cu variabile. O valoare numerica care se obtine printr-o masuratoare pe un pacient sau n general pe un individ statistic, este de obicei o variabila si are valori cuprinse de regula ntre anumite limite naturale. Ceea ce este important la aceste variabile sunt doua aspecte: nainte de a face masuratoarea, nu avem o informatie clara asupra rezultatului. De obicei stim ntre ce limite ar trebui sa fie cuprins rezultatul (limite de normalitate), dar n biologie aceste limite sunt depasite de multe ori de rezultate la limita (sau dincolo de limita) sau aberante (eronate). Depasirea limitelor este normala atta timp ct nu devine o regula. Orice interval de normalitate defineste anumite limite n care se nscriu majoritatea indivizilor. Totdeauna nsa, exista indivizi, n numar mic, care au valori ce depasesc limitele de normalitate (vezi capitolul 6). Binenteles ca, daca o caracteristica nu se schimba de la individ la individ, se numeste constanta. Constatntele nu sunt obiectul de studiu al statisticii. Acest fapt nu saraceste prea mult obiectul de studiu al statisticii medicale, deoarece putine sunt acele caracteristici ale organismului uman care sa fie cu adevarat constante. 1.5.2. Variabilitate Medicina este stiinta care trebuie sa puna ordine ntr -un ocean de variabilitate. Cauzele care conduc la date de o variabilitate mai mica sau mai mare sunt att obiective ct si subiective. Variabilitatea contine att variatiile biologice normale si patologice ct si variatiile datorate procesului de masurare si variatii ntmplatoare carora nu li se pot da explicatii logice.

Variatia biologica este o suma de factori necunoscuti care contribuie fiecare cu mici efecte aleatoare la valori mai mici sau mai mari. Sunt nesistematice, adica variatiile sunt n plus sau n minus, ntmplatoare att ca semn ct si ca amplitudine.

Variatia asociata

cu conditiile

de

observare apare

atunci

cnd

masuratorile se fac n conditii despre care se stie ca afecteaza rezultatele. De obicei sunt sistematice, afectnd majoritar n plus sau majoritar n minus. Variatia datorata masuratorilor, sau erorile de masuratoare sunt datorate numai procesului de masurare n sine si pot fi aleatorii sau sistematice. Cele aleatorii sunt erori inerente datorate preciziei limitate de observare a celui care masoara sau preciziei limitate a aparatului de masura. Cele sistematice apar daca aparatul de masura este prost calibrat sau experimentatorul are tendinta de a face citiri de obicei n minus sau de obicei n plus. Variatiile ntmplatoare, fac ca observatiile sa fie centrate pe media reala, n timp ce variatiile sistematice fac ca observatiile sa fie centrate fie pe valori ma i mari, fie pe valori mai mici dect media reala. n timp ce variatiile biologice sunt de neocolit, obiective, celelalte tipuri de variabilitate enumerate mai sus sunt considerate ca factori care perturba procesul de observare si care trebuie pe ct posibil minimizate. Pentru aceasta se folosesc n medicina aparate si metode de masurare din ce n ce mai perfectionate care sa micsoreze ct mai mult erorile. Important: Variatiile biologice, pot fi privite fie ca

variatii intraindividuale sau interindividuale.


y

Variatia valorilor unui parametru la un acelasi individ la momente diferite de timp este variatie intrainidividuala. Se poate datora unor modificari

fiziologice sau patologice care sunt legate de evolutia n timp a organismului.


y

Variatia valorilor unui parametru de la individ la individ care se datoreaza diferentelor naturale ntre indivizi se numeste variatie interindividuala.

Observatie: n realitate, variabilele cu care se lucreaza n mod curent n medicina sunt de obicei datele despre pacienti care sunt culese fie direct de la pacienti, fie prin masuratori directe, fie prin masuratori de laborator. Din motive practice, care tin de precizia posibil de obtinut la o masuratoare, fie ea de laborator sau nu, datele se inregistreaza doar cu un numar finit de valori. De exemplu, hemoglobina este data de obicei pe buletinele de analiza cu o singura zecimala exacta si deci valorile posibil de nregistrat sunt doar cteva zeci, adica n numar finit. Atunci, aceasta variabila este continua sau discreta? Nu trebu ie uitat ca de fapt valorile reale pot ntr-adevar avea o distributie mult mai fina dect din 0,1 n 0,1 si deci variabila o vom considera de tip continuu. Este vorba de fapt de o falsa discretizare care se manifesta la aproape toate variabilele n procesu l de nregistrare, din motive obiective. 1.6 Tipuri de date Un alt criteriu de clasificare, si cel mai important se refera la simbolurile pe care le folosim pentru a reprezenta datele experimentale pe care dorim sa le nregistram si care sunt dependente de natura intrinseca a datelor. Aceasta nseamna ca, pentru nregistrarea datelor putem folosi fie numai numere (spunem ca nregistram date numerice), fie numai simboluri consacrate pe plan international sau national, ori simboluri convenite local (spunem ca nregistram date nominale, sau date ordinale), fie simboluri amestecate cu numere (caz n care spunem ca nregistram date alfanumerice). Datele nregistrate ca numere sau prin simboluri consacrate sau convenite se numesc scalate, n timp ce restul le numi m alfanumerice.

Astfel, scala numerica va permite celui care nregistreaza date sa scrie numere reale sau ntregi. Scala ratio, permite nregistrarea tot prin numere reale sau ntregi dar exprima rapoarte, asa cum este descris mai jos. Scala ordinala si cea nominala, scale asemanatoare, permit nregistrarea dupa coduri si prescurtari. De exemplu, grupa sanguina, stadiul evolutiv al unei afecttiuni maligne, tipul de afectiune, tipul de tumora, etc sunt de obicei standardizate prin conventii internationale la scara continentala sau mondiala (vezi figura 1.2 pentru o clasificare a tipurilor de date). Alte prescurtari privesc sistemul de sanatate dintr-o tara, iar unele sunt specifice unui spital, unei sectii sau unui medic. Astfel, protocoalele de tratament, de si se supun unor directii dictate de organizatii internationale, pot diferi de la tara la tara. Tot astfel, un medic poate sa prescurteze diferite observatii la echograf ale ficatului pacientilor cu ciroza hepatica, prin prescurtari care sa fie fixate chia r de el, sau sa fie specifice unei sectii de care apartine aparatul, etc. Acest lucru este permis atunci cnd importanta datelor nu depaseste limitele sectiei respective, adica sunt informatii interne.

Fig. 1.2 Clasificarea datelor dupa simbolurile folosite la nregistrare 1.6.1. Date scalate De obicei, datele care se nregistreaza n vederea unei prelucrari statistice sunt nregistrate mai succint prin numere, simboluri, prescurtari. Cel care nregistreaza datele nu poate scrie dect informatie codi ficata conform scalei alese. Principalele tipuri de scale sunt descrise succint mai jos. 1.6.1.1 Scala numerica

Datele nregistrate pe scala numerica descriu acele caracteristici ale pacientului care sunt prin excelenta cantitative si se exprima prin numer e ntregi sau zecimale. De obicei este stabilita o margine superioara si inferioara pentru ele (nu putem spune ca un pacient are temperatura mai mare ca 44 o C. ). Masuratorile pe scala numerica sunt de asa natura nct o unitate pe scala are aceeasi magni tudine pe ntreaga scala. De exemplu, nregistrarea greutatii, presupune ca o greutate de 40 kg, este de doua ori mai mica dect una de 80 kg Totusi, scalele numerice nu permit totdeauna interpretari comparative. Astfel, este gresit sa se spuna ca un pacient cu hemoglobina Hb=8 este de doua ori mai anemic dect unul cu Hb=16, bazndu-ne pe faptul ca hemoglobina le cel de-al doilea are o valoare dubla. La fel cu glicemia, calcemia, tensiunea, colesterolemia si aproape toate celelalte analize de laborator exp rimate numeric si n general cu caracteristicile cantitative exprimate pe aceasta scala. Pe scala numerica sunt reprezentate caracteristici cantitative continui si caracteristici cantitative discrete. De exemplu, numarul de nasteri sau numarul de avorturi la o pacienta de nregistreaza numeric, discret, adica din 1 n 1, neavnd sens valori zecimale. Majoritatea analizelor de laborator nsa, se nregistreaza numeric, prin numere zecimale, de obicei cu una sau doua zecimale. 1.6.1.2 Scala ratio Scala ratio este similara cu cea interval cu exceptia faptului ca valorile reprezinta mai curnd rapoarte fata de o valoare standard, fixata. Toate masuratorile se raporteaza la acest numar standard. De exemplu, coeficientul de inteligenta al unui copil este exprimat pe scala ratio. Un copil are QI=120 (corect 1,2), n sensul ca raportul dintre scorul sau si scorul mediu pentru vrsta lui este 1,2. Scorul mediu pentru o anumita vrsta este un scor standard la care se raporteaza toate scorurile obtinute de diversi copii cu acea vrsta biologica. De aceea, sunt attea scale ratio pentru QI cte vrste biologice. De obicei, valorile

standard se determina numai pentru vrste biologice exprimate n ani ntregi. Pe scala ratio sunt reprezentate caracteristici cantitative conti nui 1.6.1.3 Scala nominala Datele nregistrate pe scala nominala descriu o caracteristica sau o variabila pentru nregistrarea careia se pot folosi un numar finit de simboluri, alese la ntmplare sau prin conventie, care reprezinta categoriile posibile, e xhaustiv si mutual exclusiv. De exemplu, pentru grupa sanguina, simbolurile 0, A, B, AB sunt categorii exhaustive (orice individ intra n exact una din ele) si mutual exclusive (un individ nu poate intra n doua categorii n acelasi timp) si sunt date de t ip nominal; Masuratorile nominale constau n asignarea pacientilor la grupuri sau categorii. Nu este purtata nici o informatie cantitativa si nu exista o ordine a categoriilor. Pe scala nominala se nregistreaza caracteristici calitative. Exemplu: preferinte religioase, rasa, sexul, mod de alimentatie, tip de temperament, culoarea ochilor, a parului, etc. Pe scala nominala, indivizii sunt mpartiti n cteva clase:
y y y

Exhaustive (fiecare individ apartine unei singure clase) Mutual exclusive (nici un individ nu poate apartine la doua clase, simultan) Numele claselor sunt simbolice si de obicei sunt fixate de practica medicala sau de conventii internationale, nationale, locale Doi indivizi din aceeasi clasa sunt echivalenti pe scala considerata (chiar daca din alte puncte de vedere nu sunt echivalenti) Nu are sens sa ordonam clasele crescator sau descrescator dupa nici un criteriu

De exemplu, tot pe o scala nominala este bine sa se nregistreze ocupatia, starea civila, tipul de afectiune, tipul de educatie primi ta, etc. Pentru ocupatie, uneori este suficient sa se aleaga numai cteva clase, care ar putea fi intitulate: muncitor, intelectual, functionar, elev, student, pensionar, fara ocupatie. Avem astfel 7 clase.

Trebuie sa ne asiguram ca fiecare individ din cei pe care i studiem, apartine la una din aceste clase. Evident nici unul nu apartine la doua clase n acelasi timp. n ce priveste starea civila, cel mai simplu exemplu de alegere a claselor este sa luam doua: casatorit si necasatorit. Uneori, se iau patru clase, casatorit, necasatorit, divortat si vaduv. si n acest caz, trebuie urmarit ca fiecare individ sa apartina exact la una din clasele alese. Numele claselor este ales dupa dorinta, numele putnd fi si prescurtate pentru a economisi timp daca trebuie nregistrati un numar foarte mare de pacienti. De exemplu, n cazul ocupatiilor, putem folosi prescurtarile: munc, intel, func, elev, stud, pens, fara. n toate cazurile nsa trebuie avut n vedere sa nu apara situatii n care se nregistreaza odata cu nume complet al clasei, altadata cu nume scurt, caci apar complicatii. 1.6.1.4 Scala ordinala Descriu o caracteristica pentru nregistrarea careia se folosesc tot simboluri ce definesc categorii exhaustive si mutual exclusive, dar care sunt ordonate gradat, d e obicei crescator. De exemplu, stadiul evolutiv n anumite afectiuni ca cele maligne (stadiul 0, 1, 2, 3 si 4). Deosebirea fata de caracteristicile nominale, desi pare neimportanta, conduce la principii diferite de tratare statistica si de aceea, este important de stabilit daca o caracteristica o nregistram ca nominala sau ordinala. Masuratorile pe scala ordinala sunt ordonate n sensul ca numere mai mari reprezinta valori mai mari. Totusi, intervalele ntre numere nu sunt n mod necesar egale. De exemplu, daca un pacient apreciaza starea de confort indusa de un medicament contra astmului pe o scala de la 0 la 3, diferenta ntre 0 si 1 nu este neaparat egala cu diferenta ntre 2 si 3. De altfel nici nu s -ar putea descrie cantitativ aceste diferente, ele sunt subiective si lasate la latitudinea observatorului care n exemplul de mai sus este chiar pacientul. Nivelul 0 este ales absolut arbitrar, la fel de bine scala putea fi de la 3 la 6 sau de la -1 la 2. Tot astfel, n cazul stadiilor evolutive n afectiunile maligne stadiile sunt din ce n ce mai grave, dar diferenta de gravitate nu este aceessi cnd trecem de la un stadiu la altul.

Pe scala ordinala, indivizii sunt mpartiti n cteva clase:


y y y

Exhaustive (fiecare individ apartine unei singure clase) Mutual exclusive (nici un individ nu poate apartine la doua clase, simultan) Numele claselor sunt simbolice si de obicei sunt fixate de practica medicala sau conventii internationale nationale, locale Doi indivizi din aceeasi clasa sunt echivalenti pe scala considerata (chiar daca pot fi neechivalenti dintr -un alt punct de vedere) Clasele pot fi ordonate crescator sau descrescator, dar diferentele ntre clase nu exprima cantitati, nu conteaza dect ordinea lor

A se observa ca primele patru puncte sunt identic e la scala ordinala si respectiv, nominala. Singura diferenta este data de posibilitatea ordonarii claselor, care la cele ordinale nu este posibila, n timp ce la cele ordinale este posibila Exista o legatura ntre scala de masurare si metodele statistice folosite. De exemplu, este absurd sa calculam media datelor nominale. Folosirea mediei pentru datele ordinale este nca controversata. Pentru calculul mediei sau a altei statistici ce impune calcule, trebuie sa avem date numerice sau ratio. Observatie: Precizam aici o proprietate fundamentala a datelor de tip nominal si anume aceea ca simbolurile prin care sunt denumite categoriile sub care nregistram datele nu sunt critice, ele ar putea n principiu sa fie schimbate fara a afecta fundamental structura datelor. Sa revenim pentru aceasta la exemplul grupelor sanguine, la care dupa cum se stie uneori folosim simbolurile 0, A, B, AB, pentru a denumi grupele. n limbajul curent, folosit mai ales de nespecialisti, simbolistica intrata n uz este 0I, AII, BIII, ABIV. Acest lucru nu mpiedica cu nimic o buna ntelegere si chiar am putea schimba oricnd aceste simboluri fara ca frecventele observate ntr -un grup de pacienti sa se schimbe (cu conditia binenteles ca lumea medicala sa accepte si aceste noi s imboluri). Ordinea n care

apar citate aceste simboluri nu este fundamentala, este doar o problema de obisnuinta. Poate doar grupele 0I ca donator universal sau ABIV ca primitor universal au cumva locul 1 si 4 ca naturale. Daca nsa grupam pacientii dupa culoarea ochilor, dupa temperament, dupa consistenta ficatului, culoarea urinei, motivul internarii, afectiunea de care sufera, atunci simbolurile sau prescurtarile pe care le folosim au doar importanta data de uzul comun sau de conventiile internati onale, sau de ordinea obisnuita numai n clinica, spitalul, orasul respectiv, neavnd importanta ordinea n care le asezam atunci cnd facem o clasificare a lor. 1.6.2 Date alfanumerice sau literale Sunt cele care retin numele, prenumele, sexul, adresa, lo cul de munca, date despre starea generala a pacientului, data nasterii, etc. Sunt nregistrate folosind cuvinte din limbajul curent, eventual numere, dar nesistematizat. Astfel, pe coloana numita "Adresa", la un pacient poate sa apara o informatie de genul "Str. Trandafirilor, Nr. 24", iar la alt pacient poate sa apara pe aceeasi coloana o informatie ca: "Cart. Calea Giurgiului, Bl A7, Sc A, Ap 24". n general, programele de calculator nu sunt capabile sa clasifice astfel de informatii. De exemplu, nu se poate cere unui program sa scoata o lista cu toti pacientii care locuiesc ntr-un anumit cartier, daca datele au fost nregistrate ca n exemplul de mai sus. Nu sunt folosite prea mult pentru prelucrarile statistice, totusi ele sunt foarte utile si nu se nregistreaza pacienti fara acest tip de date. De fapt, din punctul de vedere al nregistrarii propriu-zise, ele sunt cele mai importante, de obicei sunt prevazute primele n orice tabel, constituind mijlocul de identificare a pacientului. Ca prelucare sunt folosite mai mult pentru selectii si sortari de loturi: lotul de femei si lotul de barbati, lotul celor din Craiova si lotul celor din judet, etc. 1.7 nregistrarea datelor

Pna la aparitia calculatoarelor moderne s -a obisnuit ca informatiile din domeniul medicinei sa fie pastrate n general n fisele medicale de diferite tipuri care sunt destul de greu de mnuit, n special atunci cnd este nevoie sa se realizeze o cercetare a situatiei pe o perioada mai ndelungata de timp. Calculatoarele ofera posibilitatea nregistrarii facile a informatiei si, avantaj esential, accesul la informatie este foarte rapid iar prelucrarea datelor poate fi deosebit de complexa. Este foarte important ca fiecare medic sa nregistreze toate datele semnificative despre pacientii sa i fiindca acest lucru usureaza n mod evident activitatea de zi cu zi si modul n care acestia sunt observati si tratati. De fapt, nregistrarea datelor are un caracter continuu, iar prelucrarea lor se poate face permanent, pe masura ce datele se acumuleaz a, de obicei concluzii interesante si valide aparnd doar dupa luni sau chiar ani de nregistrari. Astfel, se pot naste ipoteze de lucru care mai apoi pot fi testate prin metode statistice elaborate si se poate verifica veridicitatea lor. Datele se nregistreaza pe calculator n tabele primare, sa le numim tabele de date, sau tabele de pacienti, care pot fi legate ntre ele prin natura datelor pe care le contin si se constituie n asa-numitele baze de date. Prelucrarile statistice de baza pot fi facute prin nregistrarea datelor n tabele simple, de aceea vom discuta n continuare despre date tabelate. Asa cum se vede n tabelul 1.1, de obicei datele despre un pacient sunt scrise pe o linie a tabelului, iar pe o aceeasi coloana se pastreaza dat e de acelasi tip despre toti pacientii. Tabelul 1.1 Date despre primii 15 pacienti dintr-un tabel care contine de fapt mai multe linii si coloane dect se vad aici. Pe o linie sunt pastrate datele despre un acelasi pacient, iar pe o coloana date de acelasi tip despre toti pacientii Nr. Nume 1 Popescu Prenume Vrsta Sex Mediu Hb Ion 55 b U 12 Proteine Glicemie Albumina 7,8 0,8 3,5

2 Ionescu

Alin

54 56 56 65 47 55 55 55 50 62 28 50

b b f b f b f b b b f b f b

U R R R U R U R U U U U U R

11

8,3

1,2 0,7 0,6 0,6 1,4 1,1 0,7 0,8 1,2 1,1 1 0,8 1,1 1

4 3,6 4,2 3,5 3,7 3,46 3,3 4 3,4 3,2 2,6 2,1 3,18 3,2

3 Vasilescu Constantin 45 4 Georgescu Elena 5 Darie 7 Morega 8 Drmba 10 Casota 11 Uliu 13 Popa 14 Rotaru 15 Surugiu Vasile Marin Ioana Vasile 6 Florescu Maria

12,69 6,3 10,52 8,2 12,09 5,9 11,10 6,5 10,71 6,8 13,09 6,3 12,22 6 13,8 5,8 14,28 6,5 13,5 5,6 13,08 4,8 11,24 5,9 14,5 7

9 Gherghina Ion

Constantin 48 Costel Adriana Nicolae

12 Ulmeanu Elena

De obicei, datele brute ni se prezinta ntr-un astfel de tabel, care poate fi mult mai mare, att ca numar de linii (ca numar de pacienti nregistrati, n acest caz), ct si ca numar de coloane, adica ca numar de masuratori efectuate pentru fiecare pacient. n mod curent un tabel contine zeci, sute si uneori chiar mii de pacienti, iar numarul de coloane poate sa varieze de la cteva, la cteva zeci sau chiar mai multe sute. Facem cteva observatii de natura practica care pot scuti pe cei ce doresc sa nregistreze si sa prelucreze date, de compli catii inutile. n continuare sunt exemplificate cteva situatii si sunt date recomandari care nu trebuie interpretate ca obligatorii ci mai degraba ca o directionare, astfel ca cel care nregistreaza date sa nu aiba surprize neplacute, mai ales atunci cnd datele introduse trebuie prelucrate folosind mai multe pachete de programme. Chiar daca programul folosit pentru introducerea datelor numeroteaza automat liniile din tabel, este bine ca tabelul sa aiba o coloana de numerotare proprie asa

cum se vede n figura 1.3. Asadar, pacientul nr. 1, Voinea Radu, se afla pe linia a doua, pacientul nr. 2, Diaconescu Ion se afla pe linia a treia, etc. Acesta este clar un inconvenient, dar utilizatorul trebuie sa se obisnuiasca. Majoritatea programmelor numeroteaza linia pe care se afla numele coloanelor (Excel, SPSS, Statistica), dar este recomandabil sa se numeroteze nregistrarile.

Figura 1.3. Tabel de date cu numerotarea pacientilor.Desi programul numeroteaza de la 1 la 11, numerotarea utilizatorului de la 1 la 10 este importanta. Pacientul Voinea este al doilea pentru program, dar primul pentru utilizator.

Figura 1.4. Tabel n care vrstele pacientilor au fost ordonate crescator. Pacientii au fost inversati, fiind asezati dupa vrsta,

mpreuna cu toata informatia aferenta. Reasezarea n pozitia initiala se poate face usor cernd reordonarea dupa coloana A Cel mai important motiv pentru care este bine sa numerotam nregistrarile este acela ca pot fi oricnd ordonate asa cum au fost introduse, daca avem nevoie . Acest lucru nu este obligatoriu dar este recomandabil. De exemplu, n figura 1.4, nregistrarile au fost ordonate dupa vrsta, crescator. Daca nu s -ar pastra pe coloana A informatia despre locul pe care l -a ocupat initial fiecare nregistrare n tabel, restabilirea ordinii initiale nu ar mai fi posibila. Se poate cere programului sa aseze nregistrarile n ordine crescatoare dupa coloana A si astfel de exemplu, Voinea Radu, va fi reasezat pe linia 2, unde a fost initial, si asa mai departe. Se recomanda ca pe coloanele numerice cum ar fi Vrsta (coloana D), sa nu se precizeze la fiecare celula si unitatea de masura, ceea ce ngreuneaza procesul nregistrarii si n plus, face dificile calculele. Astfel, programul Excel, ca si alte programme nu va fac e media de vrsta pe coloana D din figura 1.5, ntruct n toate celulele, programul considera ca am introdus texte si nu numere si ca atare nu opereaza cu datele ca si cu numere. Pentru calcule, trebuie respectat caracterul numeric al datelor.

Figura 1.5. nregistrarea vrstelor cu precizarea unittii de masura este eronata. Toate programele vor considera continutul celulelor de

pe coloana D ca texte si nu ca numere. De exemplu, nu vom putea calcula media de vrsta.

Figura 1.6. Date introduse gresit. n afara de cele precizate n figura 1.5, pe coloana G s-au introdus doua numere ntr-o celula, pe coloana sex barbatii sunt scrisi cnd cu m cnd cu M cnd cu B, si chiar pe coloana H, nu este indicat sa se procedeze ca la celula H8 De asemeni, este total contraindicat sa se introduca mai mult de un singur numar ntr-o celula, asa cum se vede ca s -a procedat n tabelul din figura 1.6, undeviteza de sedimentare a hematiilor la o ora si la doua ore au fost introduse comasat pe coloana G. Nici un fel de prelucrare nu se va putea face, nici ordonari, nici medii, nici comparari, ntr -un cuvnt, nimic. Aceasta este gresala cea mai grava care se comite la introducerea datelor caci, practic ele trebuie reintroduse. Tot n figura 1.6, puteti vedea pe coloana H o alta gresala curenta. Daca coloana H a fost declarata ordinala, cele patru categorii sau clase n care se introduc pacientii fiind I, II, III si IV, atunci este contraindicat sa se scrie de exemplu IV M (pentru metastaza) ca n celula H8. Aceasta deoa rece odata ncalcata regula, vom fi tentati sa o rencalcam la un alt pacient cu o alta nsemnare specifica cum ar fi o localizare sau orice altceva. n final n loc de patru categorii ct am fixat la nceput, gasim 5 sau mai rau, 7-8, uneori mai multe. Nu este gresit sa se stabileasca de la nceput un numar mai mare de categorii. De altfel, mai modern, n oncologie, n afara de stadiul 0, si cele patru stadii clasice, au aparut stadiile IIa si IIb n locul stadiului II,

IIIa si IIIb n locul stadiului III. nsa odata stabilite aceste simboluri care sunt deja intrate n uz, este bine ca ele sa nu fie imbogatite cu alte nsemnari, orict ni s -ar parea de utile. n cazul vitezei de sedimentare a hematiilor este bine sa se foloseasca doua coloane, asa cum se vede n figura 1.7 unde s-au folosit coloanele G si H pentru nregistrarea acelorasi date. La fel trebuie procedat n cazul tensiunilor sistolica si diastolica unde n loc de nregistrarea de genul 140/70 ntr -o aceeasi celula a unei coloane, trebuie folosite doua coloane, una pentru tensiunea sistolica si una pentru cea diastolica. Pentru stadiile afectiunii maligne, este bine ca pe o coloana sa se nregistreze strict numai 0 sau I sau II sau III sau IV, iar nsemnarea care priveste metastaza sa fie nregistrata pe o coloana separata, asa cum se vede mai jos ca s -a procedat pe coloanele I si J. n cazul n care anumiti pacienti nu au analiza facuta, deci nu exista valori de nregistrat este bine sa se ocoleasca practica de a scrie explicit acest lucru n tabel, asa cum vedeti ca s -a procedat n figura 1.7, pe coloanele G si H la pacientii Nedelcu, Radulescu si Armeanca. Unele programme lucreaza corect n aceste cazuri (SPSS), dar altele, cum este cazul programului foarte des utilizat EXCEL, nu lucreaza corect. Astfel, daca i se cere calculul indicatorilor statistici pentru VSH1, deci pentru datele de pe coloana G (vezi capitolul al doilea n legatura cu notiunea de indicator statistic), programul va raspunde cu un mesaj de avertizare si nu va efectua cal culele.

Figura 1.7. nregistrarea corecta a VSH, pe doua coloane. Este singura nregistrare corecta. Totusi, la pacientii la care nu sunt nregistrate valorile nu este indicat sa se scrie ceva. Este bine sa fie lasate celulele goale. Nici asa cum se vede n figura 1.8 nu este corect, deoarece introducerea numerelor 0 acolo unde nu avem date, adica pe coloanele G si H la pacientii 8, 9 si 10, va modifica drastic si va falsifica media sau alte calcule, caci programul nu va considera ca nu s-a facut masuratoarea ci ca din contra, aceasta s -a facut, dar pacientul are valoarea 0, ceea ce este cu totul fals.

Figura 1.8.Introducerea de valori 0 acolo unde masuratorile nu s -au facut, este o gresala. Celulele trebuie lasate goale Ar mai fi de semnalat ca nenregistrarea unitatilor de masura ale datelor de pe o coloana sau alta, desi pare cam nepotrivita, este recomandata. Mai jos, nfigura 1.9, pe coloana D s-a scris si unitatea de masura si s -a folosit si litera specifica pentru alfabetul romnesc ".". Acest lucru nu este interzis dar este nerecomandabil. Programele moderne au introdus de mult caracterele din majoritatea limbilor si pe cele din limba romna. Totusi, datele pe care le introducem folosind un anumit program, vor fi prelucrate probabil cu un altul sau cu mai multe alte programe. Nu pot fi descrise prin suficiente cuvinte frustrarea si

deziluzia unui utilizator, chiar versat, atunc i cnd diverse programe trateaza complet diferit numele lungi, cu caractere speciale ca a, , s, t, - ?, etc, sau nume formate din doua sau mai multe cuvinte.

Figura 1.9. Pe coloana D numele este scris cu "", este format din doua cuvinte si este prea lung. Se recomanda un singur cuvnt (adica fara spatii libere), nefolosirea literelor romnesti n numele coloanelor si nume scurte, de preferat sub 8-10 caractere. De aceea este bine sa nu se scrie n paranteza unitatea de masura, sa nu se foloseasca caractere speciale, sa nu se scrie nume de coloane formate din mai multe cuvinte si sa nu se denumeasca coloanele cu nume foarte lungi (vezi tabelul 1.2 pentru exemple corecte de nume de coloane). Aceste ndrumari s -ar putea sa para foarte restrictive si unii utilizatori de programe de calculator sa fie tentati sa nu le respecte. Recomandam totusi cu tarie respectarea lor. n ce priveste unitatile de masura, care uneori este absolu necesar sa fie pastrate, mai ales atunci cnd sunt diferite de cele uzuale si exista riscul de a se pierde informatia n legatura cu ele, acestea pot fi pastrate ntr-un tabel separat de tabelul care contine date propriu -zise. Tabelul 1.2. Exemple de nume de coloane indicate pentru diferite cazuri Nume de coloana Nume

recomandat Frecventa cardiaca Vrsta (ani) Activitatea plasmatice Leucocite la internare Lintern Leucocite externare Diagnostic Mediul provenienta Luna decesului Data nasterii colaterale Accident cerebral n ce priveste unitatile de masura, este bine ca acestea sa fie pastrate separat ntr-un alt tabel, orict ar parea de incomod. Din punctul de vedere al prelucrarilor care se vor face cu datele introduse, unitatea de masura nu are nici o relevanta atta timp ct datele tuturor indivizilor sunt inregistrate folosind aceeasi unitate de masura. De altfel, nregistrarea n acelasi tabel de date folosind la anumiti pacienti o unitate de masura si la altii o alta unitate de masura, este total contraindicat n orice aplicatie. n figura 1.10 este aratat modul cum ar putea arata numele coloanelor si datele despre care s-a vorbit mai sus, astfel nct, majoritatea programelor cu care am dori sa facem prelucrarea nu ar comite erori si ar face orice prelucrare am dori. vascular AVC Ldec DataNast Diag de Mediu la Lextern Frcard Varsta reninei ARP

Antecedente heredo- AHC

Figura 1.10. nregistrare corecta de date 1.8 Baze de date Programele moderne de calculator, ajuta la pastrarea si prelucrarea informatiilor n asa-numitele "baze de date". n mod empiric, vom ntelege prin baza de date, o colectie de tabele ca cel exemplificat n subcapitolul 1.7, tabele care au ntre ele o legatura logica si care concura la pastrarea mai simpla a datelor. Daca am ncerca sa retinem datele despre pacienti n tabele ca cel d e mai sus, apar dificultati care sunt greu de ocolit sau imposibil. De exemplu, cum nregistram ntr -un singur tabel pacientii care se reinterneaza, daca dorim sa retinem rezultatele unor analize? Solutia cea mai simpla este sa folosim cte o linie pentru fiecare reinternare a pacientului. Atunci tabelele ar putea arata ca n figura 1.11.

Figura 1.11 Exemplu de tabel n care unele date se repeta

Acest tip de nregistrare nu este nsa utilizat n practica, deoarece repetarea unor date duce la redund anta care ngreuneaza prelucrarea. Astfel, n exemplul nostru, numele pacientilor, sexul, vrsta, localitatea si medicul, se repeta, ori de cte ori este reinternat un pacient. Doar vrsta se poate schimba odata cu trecerea unei perioade mai mari de timp ntre doua reinternari. ntr-un tabel cu cteva linii si coloane binenteles ca acest lucru este foarte putin important, dar o baza de date pentru un mare spital poate avea cteva mii de coloane si cteva zeci de mii de linii, daca nregistrarea s -ar face ntr-un singur tabel. O economie deosebita de spatiu de memorare, dar mai ales de timp de prelucrare se obtine daca un tabel ca cel de mai sus se mparte n patru tabele mai mici: un tabel de pacienti, unul de localitati, unul de medici, si unul de analize. Tabelele vor arata ca n figurile 1.12 - 1.14, si trebuie retinut ca, intern, n memoria calculatorului ele se structureaza de obicei ntr -un mod asemanator, pastrnd binenteles proportiile, n sensul ca tabelele reale sunt mai mari, cuprind zeci de localitati si medici, sute sau mii de pacienti si mii sau zeci de mii de buletine de analiza.

Figura 1.12 Tabelul "Pacienti", contine datele despre fiecare pacient, o singura data. Fiecare pacient are un cod numeric pe coloana nti, folosit n identi ficarea pacientului n alte tabele. Localitatea si medicul nu sunt scrise n clar ci prin codurile lor, care se pot urmari n figura 1.13. n figura 1.12, este un exemplu simplificat al unui tabel de pacienti, n care fiecare pacient apare o singura data, si este codificat pe coloana nti printr -un numar. Codificarea se poate realiza si altfel, nu neaparat prin numere de la 1 n sus,

de exemplu se pot folosi combinatii de litere, sau de litere si cifre, sau codul numeric personal al pacientului. n general, tabelele contin date mai complete. De exemplu, la pacienti, se nregistreaza si datele de identificare civila (data nasterii, coduri numerice), da tele de identificare medicala (carnet de sanatate, codul fisei din spital, etc), antecedente, etc. De asemeni, la medici, se nregistreaza si alte date despre medic, cum ar fi specialitatea, functia n cadrul spitalului, saloanele n ngrijire, etc. n figura 1.13, sunt exemplificate tabelele "Localitati" si "Medici", ntr -o forma foarte simpla.

Figura 1.13 Tabelele "Localitati" si "Medici", dau cte un cod numeric pentru fiecare localitate si cte un cod numeric pentru fiecare medic. n mod normal, aceste tabele contin si alte informatii despre medici si respectiv localitati. Tabelul "Analize" poate contine foarte multe coloane si uneori este nevoie ca si acesta la rndul lui sa fie mpartit n baterii de analize nrudite. n figura 1.14, este dat un exemplu simplu, n care codul pacientului este situat pe coloana a doua si, atunci cnd este cazul, codul se repeta, fara ca celelalte date despre pacient sa se repete.

Figura 1.14 Tabelul "Analize" care contine n locul numelui si prenumelui numai codul pacientului, pe coloana a doua. Se observa ca daca un pacient repeta analizele, n tabel se repeta numai codul sau, nu si celelalte date despre el. Trebuie retinut ca aceasta mpartire n tabele mai simple nu afecteaza lizibilitatea datelor, pentru ca n memorie datele sunt reprezentate asemanator cu exemplele dinfigurile 1.12, 1.13 si 1.14, n timp ce vizualizarea datelor se face ntr un format care poate fi chiar cel din figura 1.11. Mai mult, programele de calculator au de obicei functii care permit vizualizarea la un moment dat numai a acelor coloane sau linii care ne intereseaza, dintr -un tabel mare, care altfel ar putea fi foarte greu urmarit. Totusi, nu trebuie nteles ca problema mpartirii n astfel de tabele mai mici a unei baze de date mari, este o problema interna a programului cu care lucram, sau a specialistului n programare. Dimpotriva, medicul este cel care, mpreuna cu specialistul n programare, participa activ la conceperea acestor tabele. Specialistul n programare nu are nici cea mai vaga ideie de modul cum se nlantuie ntre ele datele dintr-o baza de date medicala si numai ghidat de medicul care va fi beneficiarul bazei de date, poate concepe o structura de tabele care sa ofere o prelucrare ct mai simpla si eficienta. 1.9 Tabele de frecventa Datele culese si nregistrate pot contine informatii despre diversi parametri care au fost urmarite fie din necesitatea de a face un studiu anume fie, pur si simplu pentru ca urmarirea lor are importanta pentru indivi zii la care au fost masurate sau pentru cel care face studiul, adica pentru medic. La fiecare individ s -au nregistrat poate mai multi parametri care sunt n anumite relatii de dependenta unii cu altii, fiecare dintre ei participnd ntr-o anumita masura la edificarea specialistului att n ceea ce priveste situatia individuala a pacientilor ct si a ntregului lot. Tabelele din care este alcatuita o baza de date contin datele nesistematizate, ele urmeaza de obicei o ordine aleatorie, sau sunt ordonate dupa un criteriu cum ar fi cel alfabetic, sau n

ordinea codurilor. Un exemplu, la care ne vom opri ceva mai mult este cel din tabelul 1.3. Este un exemplu de tabel, care pentru simplitate nu are dact cteva linii, adica nregistrari, si cteva coloane, adica cmpuri, cum se mai spune n limbajul uzual pentru programarea pe calculator. Tabelul este o mica parte dintr -un tabel mare n care au fost nregistrati un numar de peste 230 de pacienti cu afectiuni hepatice grave (ciroza hepatica, cancer hepatic, etc), tratati de-a lungul timpului n clinica de boli interne a Spitalului de Urgenta din Craiova. ntelesul cmpurilor este evident pentru aproape toate (Diag.= Diagnostic, H.A.V.= Daca pacientul a suferit n trecut de hepatita acuta virala). n cmpul H.A.V. se observa ca au fost nregistrate doar doua posibilitati: Y(da) = "pacientul a suferit de H.A.V. n trecut" si N(nu) pentru ceilalti. n multe programe de calculator este indicata folosirea lui "Y" si"N" n loc de "da" si "nu" (Y=yes, N=no, din limba engleza), deoarece aceste cmpuri sunt considerate de program cmpuri speciale, pe care noi le vom numi cmpuri de tip logic, si sunt tratate prin procedee speciale. Deci, vom numi cmpuri de tip logic, acele coloane pe care este natural ca datele sa fie introduse folosind "Da" si "Nu". Tabelul 1.3. Modul de nregistrare a unor date despre pacienti (nume fictive)

De multe ori, numarul de linii al unui tabel cu date brute, adica al unei baze de date, este att de mare, de ordinul sutelor sau miilor, nct nsiruirea elementelor

unei serii de valori (de exemplu seria vrstelor), este dificila si lipsita de semnificatie. De aceea se prefera folosirea tabelelor de frecventa n care se trec valorile diferite care apar n serie, n dreptul fiecareia precizndu -se de cte ori apare acea valoare, sau frecventa de aparitie, sau frecventa absoluta a acelei valori. De exemplu, din 234 de pacienti cu afectiuni hepatice grave, vrstele au fost distribuite asa cum se observa n tabelul 1.4. Tabelul 1.4 Tabelul de frecventa a vrstelor pentru 234 de pacienti Frecventa absoluta Frecventa cumulata absoluta Nr Vrsta Fi 1 2 3 4 5 6 7 8 9 26 28 29 30 31 32 35 36 37 1 1 1 2 2 1 3 2 3 1 3 5 1 4 10 crescator Ficc 1 2 3 5 7 8 11 13 16 17 20 25 26 30 40 relativa fi 0.43% 0.43% 0.43% 0.85% 0.85% 0.43% 1.28% 0.85% 1.28% 0.43% 1.28% 2.14% 0.43% 1.71% 4.27% Frecventa relativa Frecventa cumulata crescator ficc 0.43% 0.85% 1.28% 2.14% 2.99% 3.42% 4.70% 5.56% 6.84% 7.26% 8.55% 10.68% 11.11% 12.82% 17.09%

10 38 11 40 12 41 13 42 14 43 15 44

16 45 17 46 18 47 19 48 20 49 21 50 22 51 23 52 24 53 25 54 26 55 27 56 28 57 29 58 30 59 31 60 32 61 33 62 34 63 35 64 36 65 37 66 38 67 39 68 40 69 41 70 42 71 43 72

6 6 5 13 2 4 6 9 10 11 14 11 9 19 5 9 13 5 4 4 6 2 4 3 4 1 2 2

46 52 57 70 72 76 82 91 101 112 126 137 146 165 170 179 192 197 201 205 211 213 217 220 224 225 227 229

2.56% 2.56% 2.14% 5.56% 0.85% 1.71% 2.56% 3.85% 4.27% 4.70% 5.98% 4.70% 3.85% 8.12% 2.14% 3.85% 5.56% 2.14% 1.71% 1.71% 2.56% 0.85% 1.71% 1.28% 1.71% 0.43% 0.85% 0.85%

19.66% 22.22% 24.36% 29.91% 30.77% 32.48% 35.04% 38.89% 43.16% 47.86% 53.85% 58.55% 62.39% 70.51% 72.65% 76.50% 82.05% 84.19% 85.90% 87.61% 90.17% 91.03% 92.74% 94.02% 95.73% 96.15% 97.01% 97.86%

44 74 45 77 46 78 Total

1 2 2 234

230 232 234

0.43% 0.85% 0.85% 100,00%

98.29% 99.15% 100.00%

Tabelul 1.5 Modul de calcul al valorilor cuprinse n tabelul de frecvente Frecventa Frecven ta N Vrst r 1 2 3 4 5 6 a 26 28 29 30 31 32 Frecventa absoluta Frecventa relativa fi % % % % % Etc. absoluta cumulata crescator Fi F1= 1 F2= 1 F3= 1 F4= 2 F5= 2 F6= 1 Ficc F1cc=F1=1 F2cc=F1+F2=2 F2cc=F1+F2+F3=3 F2cc=F1+F2+F3+F4=5 F2cc=F1+F2+F3+F4+F
5=7

relativa cumulata crescator ficc 3% 5% 8% 4% 9% Etc.

f1=F1/234=0.43 f1cc=f1/234=0.4 f2=F2/234=0.43 f2cc=f2/234=0.8 f3=F3/234=0.43 f3cc=f3/234=1.2 f4=F4/234=0.85 f4cc=f4/234=2.1 f5=F5/234=0.85 f5cc=f5/234=2.9

Etc.

Se observa ca prin mpartirea frecventelor de aparitie ale vrstelor la numarul de pacienti, se obtin frecventele relative care se exprima de obicei n procente. Frecventele relative se calculeaza cu formula:

Este clar ca prin adunarea frecventelor absolute, se obtine numarul total de indivizi din tabel, n cazul nostru 234:

De asemeni, prin adunarea frecventelor relative (sau valorilor lor exprimate n procente), se obtine 1 (sau 100%):

n acest caz, cunoscnd frecventle absolute, calculul mediei este facilitat pentru ca n loc de adunarea tuturor vrstelor, se poate calcula suma lor prin nmultirea fiecarei vrste care apare n tabel cu numarul de aparitii si apoi se aduna rezultatele. n cazul de mai sus sunt 46 frecvente absolute, corespunzatoare celor 46 vrste ntlnite ntre cei 234 de pacienti. Ele se noteaza cu F1, F2,.....,F46. Notnd si vrstele din cele 46 linii cu x1, x2,.....x46, media vrstelor celor 234 de pacienti este:

n general, formula aceasta de calcul se numeste formula de calcul a mediei ponderate (vezi capitolul al doilea, indicatorul statisitc medie). Daca stim ca valorilex1, x2,.....xm, se repeta fiecare cu frecventele absolute F1, F2,.....,Fm, media este:

Pe ultima coloana a tabelului de frecvente, apar asa -numitele frecvente relative cumulate crescator (f icc). Frecventa relativa cumulata crescator, de pe o anumita linie, este suma frecventelor relative din celulele din coloana frecventelor relative,

suma facndu-se de la nceputul tabelului si pna la linia pe care se afla frecventa pe care o calculam. Astfel, vom avea pentru frecvente relative cumulate crescator, formulele: f1cc=f1 f2cc=f1+f2 f3cc=f1+f2+f3 f4cc=f1+f2+f3+f4

............. fmcc=f1+f2+f3+.+fm

Aceste formule ne ajuta sa gasim procentul de indivizi care au valoarea din serie sub o limita data. De exemplu, n tabelul 1.4, avem 32,48%% din indivizi sub 50 de ani, deoarece n dreptul valorii 50 pe coloana Vrsta, avem f icc=32,48% care se obtine prin cumularea tuturor procentelor vrstelor sub 50 de ani, inclusiv 50. Studiul seriilor de valori, asa cum este seria vrstelor de mai sus, pare la prima vedere rupt de contextul natural n care acestea apar, si anume n bazele de date. O serie de valori contine informatie care este legata de restul informatiei din baza de date, or, studiind-o separat, aceste legaturi se pierd. Totusi, asa cum se va vedea n capitolele ce urmeaza, rezultate utile pot fi obtinute abia dupa ce se clarifica suficient de bine cum se extrag informatiile dintr-o serie de valori luata de sine statator. Tabelele de frecventa ca cel de mai sus dau de obicei o imagine despre distributie, dar nu totdeauna. De exemplu, cei 234 de pacienti cu afectiuni hepatice grave nregistrati, avnd vrste foarte variate, tabelul de frecvente ale acestor vrste are cteva zeci de linii, corespunzator celor cteva zeci de vrste diferite ale

acestora. Mai util, n cazul vrstelor este clasificarea pacientilor pe grupe de vrsta de 5 sau 10 ani si alcatuirea unui tabel n care n dreptul fiecarei grupe de vrsta sa se nscrie numarul de pacienti din grupa respectiva, n acest fel obtinnd de fapt o grupare mai sintetica a datelor. Iata c um arata distributia pe grupe de vrsta a pacientilor din baza de date de care am vorbit mai sus: Tabelul 1.5 Tabelul de frecventa a vrstelor, pe grupe de vrsta de 10 ani, pentru 234 de pacienti. Nr. Clasa 1 2 3 4 5 6 7 8 9 10 25 30 30 35 35 40 40 45 45 50 50 55 55 60 60 65 65 70 70 14 - 5 225 230 23 9 5.98% 2.14% 96.15% 98.29% 9.83% 3.85% 32 211 55 13.68% 90.17% 23.50% 53 179 108 22.65% 76.50% 46.15% 50 126 158 21.37% 53.85% 67.52% 30 76 188 12.82% 32.48% 80.34% 26 46 214 11.11% 19.66% 91.45% 9 20 223 3.85% 8.55% 95.30% 6 11 229 2.56% 4.70% 97.86% 5 5 234 2.14% 2.14% 100.00% Fi Ficc Ficd fi ficc ficd

75 11 75 80 Total 4 234 234 4 1.71% 100% 100.00% 1.71%

Sa urmarim mai nti cele cteva coloane noi care au aparut si sa ncercam sa le subliniem la fiecare din ele utilitatea. Mai nti sa amintim ca Fi, reprezinta frecventele absolute, sau numarul de indivizi care au vrstele cuprinse n limitele claselor respective. Ficc, sunt frecventele absolute, cumulate crescator, adica se obtin dupa formulele:

De exemplu, F4cc = F1 + F2 + F3 + F4 = 5+6+9+26=46, asa cum se poate vedea n linia a patra a tabelului, pe coloana a patra. Sa remarcam ca aceste frecvente cumuleaza frecventele tuturor claselor, pna la clasa curenta, si deci ele raspund la ntrebari de tipul : "cti indivizi mai tineri dect 45 de ani sunt n seria de vrste"? Raspunsul se cauta n dreptul clasei 40 -45 ani, adica n a patra clasa, pe coloana Ficc : 46. Frecventele de tipul Ficd au o semnificatie analoga, cu diferenta ca se cumuleaza descrescator, la fiecare noua clasa se scade frecventa absoluta a clasei precedente, initial plecndu-se de la numarul total de indivizi din lot, n acest caz, 234. Frecventele relative fi, sunt, asa cum am mai precizat, procentele fiecarei clase, lund ntregul lot ca 100%, si se obtin ca raportul ntre frecventele absolute si numarul total de indivizi din lot, apoi fiind nmultite cu 100 pentru a se obtine procente. Frecventele ficc si ficd, sunt obtinute pe acelasi principiu ca si Ficc si Ficd, cu diferenta ca s-au cumulat crescator si respectiv descrescator, frecventele relative si nu cele absolute.

n sfrsit, cteva cuvinte despre intervalele care constituie clasele. Dupa cum se observa, din cauza faptului ca nu s-au nregistrat vrste dect numere ntregi, clasele au o lungime usor de stabilit n mod natural: 25-30, 30-35, etc. n cazul variabilelor la care nregistrarea se face cu una sau doua zecimale, se obisnuieste ca acest lucru sa se reflecte n modul de alcatuire a claselor prin faptul ca se ia la dreapta intervalului una sau doua zecimale egale cu 9: [13 - 13,9]; [14 - 14,9]; etc pentru nregistrarea hemoglobinei, sau intervale care se termina n 99, sau chiar 999 pentru alte variabile. Strict matematic, acest mod de lucru nu este foarte corect, desi este foarte practic. Poate sa apara un caz n care ntr -o baza de date sau prevazut intervalele [13 - 13,9] si [14 - 14,9] si dupa un timp ceva mai lung, aparate mai specializate sa dea un rezultat la o analiza de 13,92, care nu este ncadrabil n nici una din clase. Corect este ca, de exemplu, o clasa sa fie reprezentata printr-un interval nchis la stnga si deschis la dreapta, caz n care orice valoare ar apare ea este ncadrabila n exact una din clase. De exemplu, daca hemoglobina la o serie de valori este cuprinsa ntre 9,6 si 15,9, clasele din 1 n 1 ar fi: [9 - 10), [10 - 11), [11 - 12), [12 - 13), [13 - 14), [14 - 15), [15 - 16). n acest fel, fiecare valoare din serie va intra exact n una din clase (intervale). Prima dintre clase, clasa [9 - 10), nu contine si valoarea 10, care este continuta de clasa urmatoare, si tot asa pentru fiecare clasa. Intervalele trebuie sa acopere complet plaja posibila de valori ale variab ilei si trebuie alese de asa maniera nct numarul de clase care rezulta sa nu fie nici prea mare nici prea mic, astfel ca aprecierea modului cum sunt datele distribuite sa fie ct mai usoara. Este recomandabil ca numarul de intervale pentru un astfel de t abel statistic sa fie de la cteva, pentru loturi de cteva zeci de indivizi, pna la cteva zeci, daca lotul este foarte mare, de mai multe sute sau mii de indivizi. De obicei, programele de calculator realizeaza aceste tabele dupa ce utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge n situatii cnd un astfel de tabel are un numar total neindicat de clase, de obicei se calculeaza lungimea unei clase n asa fel nct numarul de clase sa fie cel dorit. Acest lucru se poate

realiza daca se cauta cea mai mica si cea mai mare valoare din seria de date (notate mai jos cu min si max), si se ia ca lungime a unei clase, aproximativ rezultatul urmatorului calcul:

De exemplu, pentru tabelul de mai sus, cel mai tnar pacient are 26 de ani, iar cel mai vrstnic are 78, deci pentru a obtine 6 clase (numar de clase indicat pentru vrste de adulti), avem L= (78 - 26) / 6 = 8,6. Deci este indicat sa se ia clase de 10 ani, prin rotunjire. Daca nsa se doresc mai multe clase, sa zicem 10, atunci obtinem: L = (78 - 26) / 10 = 5,2 si este indicat sa se ia clase din 5 n 5 ani. Prima clasa va fi [25,30), iar urmatoarele: [30, 35), [35, 40),..[75, 80). Numarul de clase nu este neaparat 10, el se alege de fapt de catre cel care face calculul, astfel ca sa se piarda ct mai putina informatie, dar si numarul de clase sa nu fie prea mare caci atunci luam n considerare aspecte prea nesemnificative. Ca regula generala, este bine sa se retina ca: Se pierde cu att mai multa informatie cu ct n umarul de clase este mai mic Un numar prea mare de clase duce la o ascundere a esentialului de catre aspectele nesemnificative ntruct cei care nu au experienta nu stiu cum sa aleaga numarul de clase, recomandam: Pentru cteva zeci de valori, sa se aleaga maximum 6 - 8 clase Pentru cteva sute de valori, sa se aleaga ntre 10 si 15 clase Pentru cteva mii de valori, sa se aleaga peste 15 clase

Nu se recomanda folosirea a mai mult de 20 - 30 de clase dect n c azuri speciale, n studii cu multe mii de cazuri. Nici mai putin de 4 - 6 clase nu este recomandat sa se foloseasca. Nu se recomanda folosirea acestor tabele daca nu avem cel putin cteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face un tabel de frecventa. Alte exemple: Daca avem de clasificat ntr-un tabel de incidenta valorile pentru hemoglobina, iar minimul este 8,13 iar maximul este 16,23, atunci, pentru a obtine 10 clase, vom face calculul:

n acest caz, vom rotunji la 1 si vom lua clasele din 1 n 1, ncepnd de la 8: [8, 9), [9,10), [16,17). n cazul Imunoglobulinei G, din cei 235 de pacienti din acelasi lot ca cel pentru vrste de mai sus, valoarea minima a fost 112, n timp ce maximul a fost 900. Daca dorim tot 10 clase, atunci calculul este

Vom lua clasele din 100 n 100, ncepnd de la 100: [100,200), [200,300) .. [800,900), [900-1000). Informatia sintetizata ntr-un astfel de tabel este deosebit de utila si este de multe ori completata prin reprezentarea grafica a ei care se face cu ajutorul histogramei. Se poate spune ca sintetizarea informatiei continuta de o serie de valori ntr-un tabel de frecventa, este primul pas n studiul datelor brute, adica asa cum au fost inregistrate. Aceasta "distilare" a valorilor se face cu o pierdere de informatie, dar ofera o imagine sintetica pe care nu o putem avea prin simpla

trecere n revista a valo rilor din serie. Metodele statistice au n general aceasta calitate, aceea ca, n schimbul pierderii de informatie care uneori este nesemnificativa, ofera mai multa claritate prin sintetizarea acestei informatii si scoaterea n evidenta a caracteristicilor esentiale ale seriei sau seriilor de valori pe care le avem de studiat.

S-ar putea să vă placă și