Sunteți pe pagina 1din 6

Biostatistic Cursul nti

1. Introducere
Statistica este asociat cu un anumit tip de prelucrare a informaiilor din lumea nconjurtoare i anume acel tip de prelucrare care clasific, centralizeaz informaiile n tabele, i grafice, grupeaz informaiile, descoper legturi ntre ele, descoper eventuale cauzaliti, analizeaz fenomene complexe. n plus, statistica face i generalizri ale unor ipoteze descoperite de obicei empiric. Chiar dac nu avem o idee precis, cu toii gndim despre aceast tiin c nu opereaz cu informaii referitoare la un pacient sau o plant sau un obiect sau la un numr foarte restrns de astfel de entiti. tim c statistica este tiina care prelucreaz informaii care se refer la un numr mare de entiti cum ar fi pacieni sau indivizi sntoi sau sau plante sau obiecte de alt natur. Atunci cnd vorbim de prelucrarea statistic a informaiilor, folosim expresia prelucrare a datelor. Informaiile referitoare la un pacient sau la un individ normal sau la orice alt obiect le numim Date. Numele, prenumele, vrsta, sexul, afeciunea i celelalte informaii despre un anume pacient, mrimea sau greutatea unui obiect, productivitatea unei plante, etc, le numim date despre acel pacient, acel obiect sau acea plant. Informaiile referitoare la mai muli pacieni sau indivizi sntoi, sau animale de experien, sau plante, sau alte obiecte pe care le studiem, le vom numi tot date. Cnd ne referim la prelucrarea informaiilor, ca scop important al statisticii, vom spune prelucrarea datelor. Cnd vorbim despre nregistrarea pe calculator a acestor informaii vom spune nregistrarea datelor. Astfel, statistica are ca unul din scopuri, nregistrarea i prelucrarea datelor. Totui, nu orice tip de nregistrare de date i orice prelucrare, in de obiectul statisticii. nregistrarea evenimentelor cosmice n astronomie, nregistrarea facturilor n contabilitatea unei firme, nregistrarea poziiei unui mobil n fizic, i alte nregistrri asemntoare, nu sunt legate de statistic i nu oblig la prelucrri de natur statistic. 1.1 Noiunile de baz. Cea mai general noiune pe care trebuie s o discutm este cea care se refer la totalitatea cazurilor, elementelor, obiectelor care au n comun trstura sau proprietatea studiat de noi. Definiie: Vom numi populaie statistic o mulime de elemente care au una sau mai multe nsuiri comune i care fac obiectul unei cercetri statistice. De obicei, prin populaie statistic, n mod empiric, nelegem o mulime de persoane umane: persoanele din judeul Mehedini care sufer de HTA, sau persoanele din judeul Mehedini de sex feminin care sufer de HTA, sau persoanele din Romnia care sufer de cancer de colon i care au fost operate, etc.

Cum de cele mai multe ori, loturile studiate trebuie comparate cu loturi de normali, ne vom mai referi i la populaii ca: persoanele normale dintr-o arie geografic dat, sau persoanele de sex feminin din Mehedini, sau copiii normali ntre 2 i 14 ani, etc.

Exemplele de populaii statistice de acest gen pot fi multiplicate practic nelimitat, de fapt fiind necesar s se considere aproape pentru fiecare nou studiu statistic o populaie specific la care se refer, numit populaie int. Pe de alt parte, de obicei n statistic, o populaie nu este o mulime de persoane. De exemplu, n studiile demografice se iau cteodat ca elemente fundamentale grupuri sociale ca : aezri omeneti sau instituii, intreprinderi, populaia aezrilor umane din Romnia, populaia colilor dintr-un jude, etc. Avem deci n acest caz populaii de grupuri socio-umane. Ele nu sunt alctuite din indivizi umani ci din grupuri de indivizi umani. Mai mult, populaiile pot s nu aib o legtur direct cu indivizi umani ci mai degrab indirect, i anume se poate vorbi despre populaii de evenimente (accidentele de circulaie dintr-o arie geografic, accidentele 1

Biostatistic Cursul nti

cardiace pe o perioad anume de timp, etc) sau despre populaii de msurtori (tensiunea arterial a unui pacient considerat la intervale regulate de timp). Vom avea deci ca tipuri mai importante de populaii: Populaii de indivizi umani (normali, afectai de o afeciune, expui la un risc, etc) Populaii de grupuri socio-umane (localiti, coli, intreprinderi, spitale, etc) Populaii de evenimente (la oameni, la animale de experien, la celule, etc) Populaii de msurtori (la oameni, la animale, la plante, la alte obiecte, la celule, la gene, la mitocondrii, etc).

Deci, cnd vorbim despre o populaie, nu este vorba neaprat despre populaia unei ri sau ora, adic despre grupuri de oameni. Indiferent despre ce tip de populaie discutm la un moment dat, unitatea fundamental cu care avem de a face este individul statistic. Definiie: Vom numi individ statistic un element al unei populaii statistice indiferent de natura acesteia. Astfel noiunile de individ uman i de individ statistic nu se suprapun deoarece aa cum rezult din aceast definiie, individul statistic poate fi: persoan uman (individ sntos, pacient), un grup socio-uman (o coal, o localitate, un spital, etc), un eveniment, o msurtoare, etc.

Mai mult, nu orice individ uman poate fi i individ statistic ci, pentru aceasta trebuie s fie cuprins ntr-o populaie statistic. Relativ la indivizii statistici, preocuparea fundamental este studiul anumitor caracteristici ale acestora, anume acele caracteristici care au legtur cu cea avut n vedere atunci cnd am considerat populaia statistic. 1.2 Scale de msurare Scala numeric Datele nregistrate pe scala numeric descriu acele caracteristici ale pacientului care sunt prin excelen cantitative i se exprim prin numere ntregi sau zecimale. De obicei este stabilit o margine superioar i inferioar pentru ele (nu putem spune c un pacient are temperatura mai mare ca 44 oC, de exemplu). Msurtorile pe scala numeric sunt de aa natur nct o unitate pe scal are aceeai magnitudine pe ntreaga scal. De exemplu, nregistrarea greutii, presupune c o greutate de 40 kg, este de dou ori mai mic dect una de 80 kg, iar diferena de 1 kg este aceeai i de la 40 kg la 41 kg, dar i de la 80 kg la 81 kg. Totui, scalele numerice nu permit totdeauna interpretri comparative. Astfel, este greit s se spun c un pacient cu hemoglobina Hb=8 este de dou ori mai anemic dect unul cu Hb=16, bazndu-ne pe faptul c hemoglobina le cel de-al doilea are o valoare dubl. La fel cu glicemia, calcemia, tensiunea, colesterolemia i aproape toate celelalte analize de laborator exprimate numeric i n general cu caracteristicile cantitative exprimate pe aceast scal. Scala nominal Datele nregistrate pe scala nominal descriu o caracteristic sau o variabil pentru nregistrarea creia se pot folosi un numr finit de simboluri, alese la ntmplare sau prin convenie, care reprezint categoriile posibile, exhaustiv i mutual exclusiv. De exemplu, pentru grupa sanguin, simbolurile 0, A, B, AB sunt categorii exhaustive ( orice individ intr n exact una din ele) i mutual exclusive (un individ nu poate intra n dou categorii n acelai timp ) i sunt date de tip nominal; Msurtorile nominale constau n asignarea pacienilor la grupuri sau categorii. Nu este nregistrat nici o informaie cantitativ i nu exist o ordine a categoriilor. Pe scala nominal se nregistreaz caracteristici 2

Biostatistic Cursul nti

calitative. Exemplu: preferine religioase, rasa, sexul, mod de alimentaie, tip de temperament, culoarea ochilor, a prului, etc. Scala ordinal Descriu o caracteristic pentru nregistrarea creia se folosesc tot simboluri ce definesc categorii exhaustive i mutual exclusive, dar care sunt ordonate gradat, de obicei cresctor. De exemplu, stadiul evolutiv n anumite afeciuni ca cele maligne (stadiul 0, 1, 2, 3 i 4). Deosebirea fa de caracteristicile nominale, dei pare neimportant, conduce la principii diferite de tratare statistic i de aceea, este important de stabilit dac o caracteristic o nregistrm ca nominal sau ordinal. Msurtorile pe scala ordinal sunt ordonate. Totui, intervalele ntre dou clase consecutive nu sunt n mod necesar egale. De exemplu, dac un pacient apreciaz starea de confort indus de un medicament contra astmului pe o scal de la 0 la 3, diferena ntre 0 i 1 nu este neaprat egal cu diferena ntre 1 i 2, sau ntre 2 i 3. De altfel nici nu s-ar putea descrie cantitativ aceste diferene, ele sunt subiective i lsate la latitudinea observatorului care n exemplul de mai sus este chiar pacientul. 1.3 Tabele de frecven. Datele culese i nregistrate pot conine informaii despre diveri parametri care au fost urmrite fie din necesitatea de a face un studiu anume fie, pur i simplu pentru c urmrirea lor are importan pentru indivizii la care au fost msurate sau pentru cel care face studiul, adic pentru medic. Tabelele din care este alctuit o baz de date conin datele nesistematizate, ele urmeaz de obicei o ordine aleatoare, sau sunt ordonate dup un criteriu cum ar fi cel alfabetic, sau n ordinea codurilor. Un exemplu, la care ne vom opri ceva mai mult este cel din tabelul 1.1. Este un exemplu de tabel, care pentru simplitate nu are dact cteva linii, adic nregistrri, i cteva coloane, pe care le vom numi cmpuri, cum se mai spune n limbajul uzual pentru programarea pe calculator. Tabelul este o mic parte dintr-un tabel mare n care au fost nregistrai un numr de peste 230 de pacieni cu afeciuni hepatice grave (ciroz hepatic, cancer hepatic, etc), tratai de-a lungul timpului n clinica de boli interne a Spitalului de Urgen din Craiova. nelesul cmpurilor este evident pentru aproape toate (FO=Numrul foii de observaie, Nume, Prenume, Vrsta, Sex, Mediu, Diagcod.= Cod diagnostic, HAV= Dac pacientul a suferit n trecut de hepatit acut viral). Pe coloana HAV se observ c au fost nregistrate doar dou posibiliti: da = pacientul a suferit de HAV n trecut" i nu pentru ceilali. n multe programe de calculator este indicat folosirea lui Y iN n loc de da i nu (Y=yes, N=no, din limba englez), deoarece aceste cmpuri sunt considerate de unele programe cmpuri speciale, pe care noi le vom numi cmpuri de tip logic, i sunt tratate prin procedee speciale. Deci, vom numi cmpuri de tip logic, acele coloane pe care este natural ca datele s fie introduse folosind Da i Nu. Tabelul 1.1. Modul de nregistrare a unor date despre pacieni (nume fictive)

Biostatistic Cursul nti

De multe ori, numrul de linii al unui tabel cu date brute, adic al unei baze de date, este att de mare, de ordinul sutelor sau miilor, nct niruirea elementelor unei serii de valori (de exemplu seria vrstelor), este dificil i lipsit de semnificaie. Un mod util de clasificare a pacienilor dup vrste este clasificarea pe grupe de vrst de 5 sau 10 ani i alctuirea unui tabel n care n dreptul fiecrei grupe de vrst s se nscrie numrul de pacieni din grupa respectiv, n acest fel obinnd de fapt o grupare mai sintetic a datelor. Iat cum arat distribuia pe grupe de vrst a pacienilor din baza de date de care am vorbit mai sus: Tabelul 1.2 Tabelul de frecven a vrstelor, pe grupe de vrst de 10 ani,pentru 234 de pacieni.

Nr. Frecvena, Nr. pacieni Clasa


1 2 3 4 5 6 7 8 9 10 11 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60 60 - 65 65 - 70 70 - 75 75 - 80 Total

Frecven a relativ, procentul fi


2.14% 2.56% 3.85% 11.11% 12.82% 21.37% 22.65% 13.68% 5.98% 2.14% 1.71% 100%

Fi
5 6 9 26 30 50 53 32 14 5 4 234

Ficc
5 11 20 46 76 126 179 211 225 230 234

Ficd
234 229 223 214 188 158 108 55 23 9 4

ficc
2.14% 4.70% 8.55% 19.66% 32.48% 53.85% 76.50% 90.17% 96.15% 98.29% 100.00%

ficd
100.00% 97.86% 95.30% 91.45% 80.34% 67.52% 46.15% 23.50% 9.83% 3.85% 1.71%

Se observ c prin mprirea frecvenelor de apariie ale vrstelor la numrul de pacieni, se obin frecvenele relative care se exprim de obicei n procente. Frecvenele relative se calculeaz cu formula:

fi =

Fi N

Este clar c prin adunarea frecvenelor absolute, se obine numrul total de indivizi din tabel, n cazul nostru 234:
F1 + F2 + ....... + Fm = 5 + 6 + 9 + ...... + 14 + 5 + 4 = 234 = N

De asemeni, prin adunarea frecvenelor relative (sau valorilor lor exprimate n procente), se obine 1 (sau 100%):
f1 + f 2 + ...... + f m = 2,14 + 2,56 + 3,85 + .... + 5,98 + 2,14 +1,71 = 100

Pe coloana a cincia a tabelului de frecvene, apar aa-numitele frecvene relative cumulate cresctor (f icc). Frecvena relativ cumulat cresctor, de pe o anumit linie, este suma frecvenelor relative din celulele din coloana frecvenelor relative, suma fcndu-se de la nceputul tabelului i pn la linia pe care se afl frecvena pe care o calculm. Astfel, vom avea pentru frecvene relative cumulate cresctor, formulele: 4

Biostatistic Cursul nti

f1cc=f1=2,14 f2cc=f1+f2=2,14+2,56=4,70 f3cc=f1+f2+f3=2,14+2,56+3,85=8,55, i aa mai departe. Aceste formule ne ajut s gsim procentul de indivizi care au valoarea din serie sub o limit dat. De exemplu, n tabelul 1.2, avem 32,48%% din indivizi sub 50 de ani, deoarece n dreptul valorii 50 pe coloana Vrsta, avem ficc=32,48% care se obine prin cumularea tuturor procentelor vrstelor sub 50 de ani, inclusiv 50. S urmrim i celelalte coloane i s ncercm s le subliniem la fiecare din ele utilitatea. Mai nti s amintim c Fi, reprezint frecvenele absolute, sau numrul de indivizi care au vrstele cuprinse n limitele claselor respective. Ficc, sunt frecvenele absolute, cumulate cresctor, adic se obin dup formulele:
Ficc = F1 + F2 +.... + Fi

De exemplu, F4cc = F1 + F2 + F3 + F4 = 5+6+9+26=46, aa cum se poate vedea n linia a patra a tabelului, pe coloana a cincia. S remarcm c aceste frecvene cumuleaz frecvenele tuturor claselor, pn la clasa curent, i deci ele rspund la ntrebri de tipul : ci indivizi mai tineri dect 45 de ani sunt n seria de vrste? Rspunsul se caut n dreptul clasei 40-45 ani, adic n a patra clas, pe coloana Ficc : 46. Frecvenele relative fi, sunt, aa cum am mai precizat, procentele fiecrei clase, lund ntregul lot ca 100%, i se obin ca raportul ntre frecvenele absolute i numrul total de indivizi din lot, apoi fiind nmulite cu 100 pentru a se obine procente. Frecvenele ficc i ficd, sunt obinute pe acelai principiu ca i Ficc i Ficd, cu diferena c s-au cumulat cresctor i respectiv descresctor, frecvenele relative i nu cele absolute. n sfrit, cteva cuvinte despre intervalele care constituie clasele. Dup cum se observ, din cauza faptului c nu s-au nregistrat vrste dect numere ntregi, clasele au o lungime uor de stabilit n mod natural: 25-30, 30-35, etc. Indivizii de 30 de ani se numr n clasa 30-35 i nu se numr n clasa 25 30. n cazul variabilelor la care nregistrarea se face cu una sau dou zecimale, se obinuiete ca acest lucru s se reflecte n modul de alctuire a claselor prin faptul c se ia la dreapta intervalului una sau dou zecimale egale cu 9: [13 - 13,9]; [14 - 14,9]; etc pentru nregistrarea hemoglobinei, sau intervale care se termin n 99, sau chiar 999 pentru alte variabile. Strict matematic, acest mod de lucru nu este foarte corect, dei este foarte practic. Poate s apar un caz n care ntr-o baz de date s-au prevzut intervalele [13 - 13,9] i [14 - 14,9] i dup un timp ceva mai lung, aparate mai specializate s dea un rezultat la o analiz de 13,92, care nu este ncadrabil n nici una din clase. Corect este ca, de exemplu, o clas s fie reprezentat printr-un interval nchis la stnga i deschis la dreapta, caz n care orice valoare ar apare ea este ncadrabil n exact una din clase. De exemplu, dac hemoglobina la o serie de valori este cuprins ntre 9,6 i 15,9, clasele din 1 n 1 ar fi: [9 10), [10 - 11), [11 - 12), [12 - 13), [13 - 14), [14 - 15), [15 - 16). n acest fel, fiecare valoare din serie va intra exact n una din clase (intervale). Prima dintre clase, clasa [9 - 10), nu conine i valoarea 10, care este coninut de clasa urmtoare, i tot aa pentru fiecare clas. Intervalele trebuie s acopere complet plaja posibil de valori ale variabilei i trebuie alese de aa manier nct numrul de clase care rezult s nu fie nici prea mare nici prea mic, astfel ca aprecierea modului cum sunt datele distribuite s fie ct mai uoar. Este recomandabil ca numrul de intervale pentru un astfel de tabel statistic s fie de la cteva, pentru loturi de cteva zeci de indivizi, pn la cteva zeci, dac lotul este foarte mare, de mai multe sute sau mii de indivizi. De obicei, programele de calculator realizeaz aceste tabele dup ce utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge n situaii cnd un astfel de tabel are un numr total neindicat de clase, de obicei se calculeaz lungimea aproximativ a unei clase n aa fel nct numrul de clase s fie cel dorit. Acest lucru se poate realiza dac se caut cea mai mic i cea mai mare valoare din seria de date (notate mai jos cu min i max), i se ia ca lungime a unei clase, aproximativ rezultatul urmtorului calcul:
L= max min nr . clase

De exemplu, pentru tabelul de mai sus, cel mai tnr pacient are 26 de ani, iar cel mai vrstnic are 78, deci pentru a obine 6 clase (numr de clase indicat pentru vrste de aduli), avem L= (78 - 26) / 6 = 8,6. Deci este 5

Biostatistic Cursul nti

indicat s se ia clase de 10 ani, prin rotunjire. Dac ns se doresc mai multe clase, s zicem 10, atunci obinem: L = (78 - 26) / 10 = 5,2 i este indicat s se ia clase din 5 n 5 ani. Prima clas va fi [25,30), iar urmtoarele: [30, 35), [35, 40),.[75, 80). Numrul de clase nu este neaprat 10, el se alege de fapt de ctre cel care face calculul, astfel ca s se piard ct mai puin informaie, dar i numrul de clase s nu fie prea mare cci atunci lum n considerare aspecte prea nesemnificative. Ca regul general, este bine s se rein c: Se pierde cu att mai mult informaie cu ct numrul de clase este mai mic. Nu se recomand tabele cu 2-4 clase Un numr prea mare de clase duce la o ascundere a esenialului de ctre aspectele nesemnificative ntruct cei care nu au experien nu tiu cum s aleag numrul de clase, recomandm: Pentru cteva zeci de valori, s se aleag 4 - 6 clase Pentru cteva sute de valori, s se aleag ntre 8 i 12 clase Pentru cteva mii de valori, s se aleag peste 15 clase

Nu se recomand folosirea a mai mult de 20 30 de clase dect n cazuri speciale, n studii cu multe mii de cazuri. Nici mai puin de 4 6 clase nu este recomandat s se foloseasc. Nu se recomand folosirea acestor tabele dac nu avem cel puin cteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face un tabel de frecven. Alte exemple: Dac avem de clasificat ntr-un tabel de frecven valorile pentru hemoglobin, iar minimul este 8,13 iar maximul este 16,23, atunci, pentru a obine 10 clase, vom face calculul: L= max min 16,23 8,13 8,1 = = = 0,81 nr.clase 10 10

n acest caz, vom rotunji la 1 i vom lua clasele din 1 n 1, ncepnd de la 8: [8, 9), [9,10), [16,17). n cazul Imunoglobulinei G, din cei 234 de pacieni din acelai lot ca cel pentru vrste de mai sus, valoarea minim a fost 112, n timp ce maximul a fost 900. Dac dorim tot 10 clase, atunci calculul este L= max min 900 112 888 = = = 88,8 nr.clase 10 10

Vom lua clasele din 100 n 100, ncepnd de la 100: [100,200), [200,300) . [800,900), [900-1000). Informaia sintetizat ntr-un astfel de tabel este deosebit de util i este de multe ori completat prin reprezentarea grafic a ei care se face cu ajutorul histogramei. Se poate spune c sintetizarea informaiei coninut de o serie de valori ntr-un tabel de frecven, este primul pas n studiul datelor brute, adic aa cum au fost inregistrate.

S-ar putea să vă placă și