Sunteți pe pagina 1din 22

Biostatistic - Cursul I

CURSUL I
INTRODUCERE, INDICATORI STATISTICI

1.Introducere
Statistica este asociat cu un anumit tip de prelucrare a informaiilor din lumea nconjurtoare i anume acel tip de prelucrare care clasific, centralizeaz informaiile n tabele, i grafice, grupeaz informaiile, descoper legturi ntre ele, descoper eventuale cauzaliti, analizeaz fenomene complexe. n plus, statistica face i generalizri ale unor ipoteze descoperite de obicei empiric. Chiar dac nu avem o idee precis, cu toii gndim despre aceast tiin c nu opereaz cu informaii referitoare la un pacient sau o plant sau un obiect sau la un numr foarte restrns de astfel de entiti. tim c statistica este tiina care prelucreaz informaii care se refer la un numr mare de entiti cum ar fi pacieni sau indivizi sntoi sau sau plante sau obiecte de alt natur. Utilitatea statisticii este pus mai bine n eviden atunci cnd trebuie studiate fenomene complexe n care intervin factori sau mrimi care se afl n relaii complexe ce nu pot fi descrise satisfctor prin ecuaii sau formule, sau prin relaii cantitative de dependen. De exemplu, n tehnic, dac suntem la un moment dat interesai de consumul de carburant al unui motor, exist n mod sigur o determinare destul de exact a acestuia n funcie de puterea motorului, tipul su, viteza de deplasare, i ali civa parametri. Cunoscnd parametrii de care depinde consumul, aplicm o formul i obinem consumul de carburant al acelui motor. Ceea ce obinem este valabil pentru orice motor de acelai tip i care funcioneaz n aceleai condiii. Atunci cnd vorbim de prelucrarea statistic a informaiilor, folosim expresia prelucrare a datelor. Informaiile referitoare la un pacient sau la un individ normal sau la orice alt obiect le numim Date. Numele, prenumele, vrsta, sexul, afeciunea i celelalte informaii despre un anume pacient, mrimea sau greutatea unui obiect, productivitatea unei plante, etc, le numim date despre acel pacient, acel obiect sau acea plant. Informaiile referitoare la mai muli pacieni sau indivizi sntoi, sau animale de experien, sau plante, sau alte obiecte pe care le studiem, le vom numi tot date. Cnd ne referim la prelucrarea informaiilor, ca scop important al statisticii, vom spune prelucrarea datelor. Cnd vorbim despre nregistrarea pe calculator a acestor informaii vom spune nregistrarea datelor. Astfel, statistica are ca unul din scopuri, nregistrarea i prelucrarea datelor. Totui, nu orice tip de nregistrare de date i orice prelucrare, in de obiectul statisticii. nregistrarea evenimentelor cosmice n astronomie, nregistrarea facturilor n contabilitatea unei firme, nregistrarea poziiei unui mobil n fizic, i alte nregistrri asemntoare, nu sunt legate de statistic i nu oblig la prelucrari de natur statistic. Definiie: Statistica este tiina care se ocup cu descrierea i analiza numeric a fenomenelor de mas, dezvluind particularitile lor de volum, structur, dinamic, conexiune, precum i regularitile sau legile care le guverneaz. Volumul unui fenomen de mas se refer la amploarea lui numeric, la numrul de indivizi cuprini sau afectai de fenomenul repectiv. Astfel, o afeciune foarte rspndit ca HTA (Hipertensiunea Arterial Esenial), este un fenomen de un volum mai mare ca o afeciune rar cum ar fi Sindromul Down. Prin structur a unui fenomen de mas, nelegem modul n care acesta afecteaz diferite categorii de indivizi, cum ar fi n cazul studierii unei afeciuni rspndite, structura afectrii pe sexe, rase, religii, grupe de vrst, ocupaie, zone geografice, etc. De asemeni, structura reflect relaiile de legtur ntre mrimile prin care descriem fenomenul.

Biostatistic - Cursul I

De exemplu, n cazul studierii legturii ntre starea social i inteniile de vot, structura presupune i descrierea diferitelor categorii de indivizi pe sexe, rase, stri sociale, ocupaie, etc, ct i legturile ntre acestea i intenia de vot, exprimat numeric, n procente, etc. Prin dinamic a unui fenomen de mas, nelegem modul cum evolueaz acesta n timp. Conexiunea fenomenelor este indicat de relaiile de legtur i, eventual, de relaiile de dependen ntre ele. De exemplu, fenomene economice pot influena evoluia incidenei unor afeciuni n cadrul unei populaii. Anumite tendine de evoluie a incidenei unei maladii, sau de modificare a valorilor normale la pacienii cu o anumit afeciune, pot cpta caracter de regularitate. Statistica este cea care pune n eviden aceste regulariti sau legi, care sunt valabile numai la modul general, ca tendin, nu neaprat la fiecare individ n parte. Tot ca exemplu, dac tim c o anumit fraciune leucocitar este crescut n alergii, nu nseamn neaprat c fiecare alergic are acea fraciune leucocitar crescut, ci c exist numai o tendin n acest sens. Definiie: Biostatistica este tiina care se ocup cu aplicarea metodelor statisticii n tiinele vieii. Astfel, toate capitolele importante ale statisticii ca: statistica descriptiv, teoria sondajelor, teoria estimaiei, teoria corelaiei, regresiile, capitole care vor fi studiate sumar i n acest curs, au aplicabilitate i n tiinele vieii ca: medicina, biologia, psihologia, sau discipline mai nguste ca biochimia, biofizica, stomatologia, fizioterapia, farmacologia, etc. Metodele cu aplicabilitate n tiinele vieii au fost impulsionate n dezvoltarea lor chiar de domeniul lor de aplicare. Astfel, capitolul statisticii care se ocup cu studiul i estimarea supravieuirii, are o aplicabilitate larg n medicin i biologie i dezvoltarea lui a fost influenat pozitiv de acest fapt. Aceasta deoarece medicina a avut mereu nevoie de metode mai perfecionate, pe care statistica a fost nevoit s i le pun la dispoziie. n multe situaii, apar confuzii ntre dou cuvinte care exprim discipline diferite, i anume ntre biostatistic i statistica medical. Aceasta din urm, este un capitol al celei dinti, i anume: Definiii: Statistica medical este tiina care se ocup cu aplicarea metodelor statisticii n medicin. Biostatistica este tiina care se ocup cu aplicarea metodelor statisticii n toate tiinele vieii, ca medicin, psihologie, farmacie, agricultur, horticultur, etc. Medicina modern este de neconceput fr cercetarea medical, iar un segment din ce n ce mai consistent al acestei cercetri are la baz statistica. Nu se mai poate face cercetare de laborator sau clinic, iar rezultatele s fie raportate doar prin comparri puerile ntre numrul de cazuri sau procente sau medii. Fr asigurarea statistic, nici o cercetare nu are valoare . Acele simple comparri ntre valorile mediilor pot duce la concluzii total greite. Nici o revist tiinific medical serioas, de 30-40 de ani nu mai public rezultate neprelucrate statistic, diferene de medii ntre loturi, fr deviaii standard i teste de semnificaie (cel puin, vezi cursul al aselea).

***
Introducem cteva noiuni specifice cu care opereaz statistica i cu care vom lucra n cursurile ce urmeaz. Fiind o tin care nu lucreaz cu fenomene strict deterministe, toate afirmaiile statisticii se refer nu la evenimente sau obiecte singulare ci sunt deduse prin observarea unei mulimi ct mai cuprinztoare de obiecte sau fenomene. Nu se pot face generalizri pripite din studierea unui caz sau a ctorva cazuri i este destul de clar pentru oricine c o generalizare este cu att mai valoroas cu ct au fost observate un numr mai mare de cazuri. Aici ns apare problema de a face o apreciere corect a numrului de observaii efectiv realizate, raportat la numrul posibil de observaii. Dac ne propunem s facem un studiu asupra unei afeciuni foarte rspndite, cum ar fi hipertensiunea arterial esenial (HTA), concluzii valabile nu se pot trage dect pe baza unui numr de cazuri de cel puin cteva mii sau zeci de mii, dar n cazul unei maladii rare cum sunt unele din anomaliile cromozomiale de exemplu, un astfel de numr de cazuri pur i simplu nu poate fi gsit n aria de cercetare considerat, uneori nici pe ntregul glob. Oricum, n general vorbind, este bine ca, n limita posibilitilor, studiul s se fac pe un numr ct mai mare de indivizi.

Biostatistic - Cursul I

1.1 Noiunile de baz. Cea mai general noiune pe care trebuie s o discutm este cea care se refer la totalitatea cazurilor, elementelor, obiectelor care au n comun trstura sau proprietatea studiat de noi. Definiie: Vom numi populaie statistic o mulime de elemente care au una sau mai multe nsuiri comune i care fac obiectul unei cercetri statistice. De obicei, prin populaie statistic, n mod empiric, nelegem o mulime de persoane umane: persoanele din judeul Dolj care sufer de HTA, sau persoanele din judeul Dolj de sex feminin care sufer de HTA, sau persoanele din Romnia care sufer de cancer de colon i care au fost operate, etc.

Cum de cele mai multe ori, loturile studiate trebuie comparate cu loturi de normali, ne vom mai referi i la populaii ca: persoanele normale dintr-o arie geografic dat, sau persoanele de sex feminin din Dolj, sau copiii normali ntre 2 i 14 ani, etc.

Exemplele de populaii statistice de acest gen pot fi multiplicate practic nelimitat, de fapt fiind necesar s se considere aproape pentru fiecare nou studiu statistic o populaie specific la care se refer, numit populaie int. Pe de alt parte, de obicei n statistic, o populaie nu este o mulime de persoane. De exemplu, n studiile demografice se iau cteodat ca elemente fundamentale grupuri sociale ca : aezri omeneti sau instituii, intreprinderi, populaia aezrilor umane din Romnia, populaia colilor dintr-un jude, etc. Avem deci n acest caz populaii de grupuri socio-umane. Ele nu sunt alctuite din indivizi umani ci din grupuri de indivizi umani. Mai mult, populaiile pot s nu aib o legtur direct cu indivizi umani ci mai degrab indirect, i anume se poate vorbi despre populaii de evenimente (accidentele de circulaie dintr-o arie geografic, accidentele cardiace pe o perioad anume de timp, etc) sau despre populaii de msurtori (tensiunea arterial a unui pacient considerat la intervale regulate de timp). Vom avea deci ca tipuri mai importante de populaii: Populaii de indivizi umani (normali, afectai de o afeciune, expui la un risc, etc) Populaii de grupuri socio-umane (localiti, coli, intreprinderi, spitale, etc) Populaii de evenimente (la oameni, la animale de experien, la celule, etc) Populaii de msurtori (la oameni, la animale, la plante, la alte obiecte, la celule, la gene, la mitocondrii, etc).

Deci, cnd vorbim despre o populaie, nu este vorba neaprat despre populaia unei ri sau ora, adic despre grupuri de oameni. Indiferent despre ce tip de populaie discutm la un moment dat, unitatea fundamental cu care avem de a face este individul statistic. Definiie: Vom numi individ statistic un element al unei populaii statistice indiferent de natura acesteia. Astfel noiunile de individ uman i de individ statistic nu se suprapun deoarece aa cum rezult din aceast definiie, individul statistic poate fi: persoan uman (individ sntos, pacient), un grup socio-uman (o coal, o localitate, un spital, etc), un eveniment, o msurtoare, etc. 3

Biostatistic - Cursul I

Mai mult, nu orice individ uman poate fi i individ statistic ci, pentru aceasta trebuie s fie cuprins ntr-o populaie statistic. Relativ la indivizii statistici, preocuparea fundamental este studiul anumitor caracteristici ale acestora, anume acele caracteristici care au legtur cu cea avut n vedere atunci cnd am considerat populaia statistic.

1.2 Caracteristici, variabile, tipuri de date, scale. Organismul uman, cel mai complex sistem existent
n natur, nu poate fi descris exact nici prin tomuri ntregi de descriere n cuvinte i nici prin numre orict de multe am folosi. Omul este capabil s descrie numai anumite trsturi sau proprieti ale organismului su. Trebuie s fim contieni c dei numrul de trsturi ale organismului pe care le studiaz anatomia, biochimia, biofizica, fiziologia i toate celelalte discipline este enorm, niciodat nu vom fi capabili s descriem exact organismul uman, cci numrul de trsturi de care am avea nevoie este practic infinit. Trsturile sau proprietile organismului uman sunt denumite n statistic caracteristici i sunt cuprinse n categoria general de date, aa cum sunt descrise mai sus. Definiie: Numim caracteristic o proprietate comun tuturor indivizilor dintr-o populaie statistic dat. Caracteristicile sunt ceea ce n limbajul obinuit nelegem prin atribut, calitate. Atribute ce caracterizeaz organismul uman i prezint interes medical, sunt extrem de multe. Cele mai simple sunt cele antropometrice, adic nlime, greutate, circumferina toracelui, circumferina craniului, culoarea prului, a ochilor, constituia corporal, i multe altele. Altele, caracterizeaz starea organismului ca fiziologic sau patologic i sunt de obicei obinute cu ajutorul instrumentelelor sau analizelor de laborator, ns pot fi aprecieri subiective: tensiunea arterial (presiunea arterial, de fapt), frecvena cardiac, ritmul respirator, glicemia, calcemia, hemoglobina, lipemia, colesterolemia, bilirubina, fosfataza acid, creatinina, antigenul HBS, prezena albuminei n urin, culoarea urinei, consistena ficatului, etc. Din punctul de vedere al statisticii medicale, caracteristicile sunt de dou tipuri fundamentale: cantitative i calitative. Caracteristicile cantitative sunt acelea care prin natura lor sunt msurabile, adic pentru care exist uniti de msur i o convenie de msurare general acceptat. n aceast categorie intr toate constantele fiziologice, biochimice, biofizice, unele anatomice, care n general pot fi determinate prin msurtori uzuale sau de laborator: nlime, greutate, vrst, glicemie, calcemie, hemoglobin, numr eritrocite, for muscular, vitez de reacie, nivel de inteligen (QI), dar i mrimile referitoare la celule, organite, sinapse, vezicule, membrane, etc. Ele sunt totdeauna exprimate cifric ntr-un mod precis, obiectiv. Caracteristicile calitative, sunt cele care nu pot fi msurate prin metode obiective, cantitative, ci se exprim descriptiv prin termeni calitativi: culoare, form, consisten, aspect, etc. Caracteristicile calitative nu au o unitate de msur general acceptat i deci nu pot fi exprimate cifric, ca rezultat al unor msurtori. Ele sunt adesea subiective i de obicei exprimate analogic i nu numeric.

Variabile. Dei sunt unele aspecte care se menin constante la o aceeai specie, i n particular la om, unele
se schimb de la individ la individ, adic sunt variabile. Aadar, atunci cnd indivizii statistici sunt oameni, caracteristicile care se studiaz sunt de multe ori variabile. Definiie: O caracteristic care se schimb de la individ la individ sau la acelai individ n timp sau ca rspuns la condiiile de mediu, de boal de medicaie, etc, se numete variabil.

***
Un alt criteriu de clasificare, i cel mai important se refer la simbolurile pe care le folosim pentru a reprezenta datele experimentale pe care dorim s le nregistrm i care sunt dependente de natura intrinsec a datelor. Aceasta nseamn c, pentru nregistrarea datelor putem folosi fie numai numere (spunem c nregistrm date numerice), fie numai simboluri consacrate pe plan internaional sau naional, ori simboluri convenite local (spunem c nregistrm date nominale, sau date ordinale), fie simboluri amestecate cu 4

Biostatistic - Cursul I

numere (caz n care spunem c nregistrm date alfanumerice). Datele nregistrate ca numere sau prin simboluri consacrate sau convenite se numesc scalate, n timp ce restul le numim alfanumerice. Astfel, scala numeric va permite celui care nregistreaz date s scrie numere reale sau ntregi. Scala ordinal i cea nominal, scale asemntoare, permit nregistrarea dup coduri i prescurtri. De exemplu, grupa sanguin, stadiul evolutiv al unei afeciuni maligne, tipul de afeciune, tipul de tumor, etc sunt de obicei standardizate prin convenii internaionale la scar continental sau mondial. Scala numeric Datele nregistrate pe scala numeric descriu acele caracteristici ale pacientului care sunt prin excelen cantitative i se exprim prin numere ntregi sau zecimale. De obicei este stabilit o margine superioar i inferioar pentru ele (nu putem spune c un pacient are temperatura mai mare ca 44 oC, de exemplu). Msurtorile pe scala numeric sunt de aa natur nct o unitate pe scal are aceeai magnitudine pe ntreaga scal. De exemplu, nregistrarea greutii, presupune c o greutate de 40 kg, este de dou ori mai mic dect una de 80 kg, iar diferena de 1 kg este aceeai i de la 40 kg la 41 kg, dar i de la 80 kg la 81 kg. Totui, scalele numerice nu permit totdeauna interpretri comparative. Astfel, este greit s se spun c un pacient cu hemoglobina Hb=8 este de dou ori mai anemic dect unul cu Hb=16, bazndu-ne pe faptul c hemoglobina le cel de-al doilea are o valoare dubl. La fel cu glicemia, calcemia, tensiunea, colesterolemia i aproape toate celelalte analize de laborator exprimate numeric i n general cu caracteristicile cantitative exprimate pe aceast scal. Pe scala numeric sunt reprezentate caracteristici cantitative continui i caracteristici cantitative discrete. De exemplu, numrul de nateri sau numrul de avorturi la o pacient se nregistreaz numeric, discret, adic din 1 n 1, neavnd sens valori zecimale. Majoritatea analizelor de laborator ns, se nregistreaz numeric, prin numere zecimale, de obicei cu una sau dou zecimale. n cazul nregistrrii cu zecimale, se spune c se folosete scala continu. Scala nominal Datele nregistrate pe scala nominal descriu o caracteristic sau o variabil pentru nregistrarea creia se pot folosi un numr finit de simboluri, alese la ntmplare sau prin convenie, care reprezint categoriile posibile, exhaustiv i mutual exclusiv. De exemplu, pentru grupa sanguin, simbolurile 0, A, B, AB sunt categorii exhaustive (orice individ intr n exact una din ele) i mutual exclusive (un individ nu poate intra n dou categorii n acelai timp) i sunt date de tip nominal; Msurtorile nominale constau n asignarea pacienilor la grupuri sau categorii. Nu este nregistrat nici o informaie cantitativ i nu exist o ordine a categoriilor. Pe scala nominal se nregistreaz caracteristici calitative. Exemplu: preferine religioase, rasa, sexul, mod de alimentaie, tip de temperament, culoarea ochilor, a prului, etc. Pe scala nominal, indivizii ndivizii sunt mprii n cteva clase: Exhaustive (fiecare individ aparine unei singure clase) Mutual exclusive (nici un individ nu poate aparine la dou clase, simultan) Numele claselor sunt simbolice i de obicei sunt fixate de practica medical sau de convenii internaionale, naionale, locale Doi indivizi din aceeai clas sunt echivaleni pe scala considerat (chiar dac din alte puncte de vedere sunt diferii) Nu are sens s ordonm clasele cresctor sau descresctor dup nici un criteriu

De exemplu, tot pe o scal nominal este bine s se nregistreze ocupaia, starea civil, tipul de afeciune, tipul de educaie primit, etc. Pentru variabila ocupaie, uneori este suficient s se aleag numai cteva clase, care ar putea fi intitulate: muncitor, intelectual, funcionar, elev, student, pensionar, fr ocupaie. Avem astfel 7 clase. Trebuie s ne asigurm c fiecare individ din cei pe care i studiem, aparine la una din aceste clase. Evident nici unul nu aparine la dou clase n acelai timp. n ce privete starea civil, cel mai simplu exemplu de alegere a claselor este s lum dou: cstorit i necstorit. Uneori, se iau patru clase, cstorit, necstorit, divorat i vduv . Se pot alege i alte seturi de clase. i n acest caz, trebuie urmrit ca fiecare individ s aparin exact la una din clasele alese. Numele claselor este ales dup dorin, numele putnd fi i prescurtate pentru a economisi timp dac trebuie nregistrai un numr foarte mare de pacieni. De exemplu, n cazul ocupaiilor, putem folosi prescurtrile: munc, intel, func, elev, stud, pens, fr. n 5

Biostatistic - Cursul I

toate cazurile ns trebuie avut n vedere s nu apar situaii n care se nregistreaz odat cu nume complet al clasei, altdat cu nume scurt, cci apar complicaii. Scala ordinal Descriu o caracteristic pentru nregistrarea creia se folosesc tot simboluri ce definesc categorii exhaustive i mutual exclusive, dar care sunt ordonate gradat, de obicei cresctor. De exemplu, stadiul evolutiv n anumite afeciuni ca cele maligne (stadiul 0, 1, 2, 3 i 4). Deosebirea fa de caracteristicile nominale, dei pare neimportant, conduce la principii diferite de tratare statistic i de aceea, este important de stabilit dac o caracteristic o nregistrm ca nominal sau ordinal. Msurtorile pe scala ordinal sunt ordonate. Totui, intervalele ntre dou clase consecutive nu sunt n mod necesar egale. De exemplu, dac un pacient apreciaz starea de confort indus de un medicament contra astmului pe o scal de la 0 la 3, diferena ntre 0 i 1 nu este neaprat egal cu diferena ntre 1 i 2, sau ntre 2 i 3. De altfel nici nu s-ar putea descrie cantitativ aceste diferene, ele sunt subiective i lsate la latitudinea observatorului care n exemplul de mai sus este chiar pacientul. Nivelul 0 este ales absolut arbitrar, la fel de bine scala putea fi de la 3 la 6 sau de la -1 la 2. Totui, este mai intuitiv s se nceap n aceste cazuri de la nivelul 0. Tot astfel, n cazul stadiilor evolutive n afeciunile maligne stadiile sunt din ce n ce mai grave, dar diferena de gravitate nu este aceeai cnd trecem de la un stadiu la altul. Pe scala ordinal, indivizii ndivizii sunt mprii n cteva clase: Exhaustive (fiecare individ aparine unei singure clase) Mutual exclusive (nici un individ nu poate aparine la dou clase, simultan) Numele claselor sunt simbolice i de obicei sunt fixate de practica medical sau convenii internaionale naionale, locale Doi indivizi din aceeai clas sunt echivaleni pe scala considerat (chiar dac pot fi diferii din alte puncte de vedere) Clasele pot fi ordonate cresctor sau descresctor, dar diferenele ntre clase nu exprim cantiti, nu conteaz dect ordinea lor

A se observa c primele patru puncte sunt identice la scala ordinal i respectiv, nominal. Singura diferen este dat de posibilitatea ordonrii claselor, care la cele ordinale nu este posibil, n timp ce la cele ordinale este posibil. Exist o legtur ntre scala de msurare i metodele statistice folosite. De exemplu, este absurd s calculm media datelor nominale. Folosirea mediei pentru datele ordinale este nc controversat. Pentru calculul mediei sau a altei statistici ce impune calcule, trebuie s avem date numerice. 1.3 Tabele de frecven. Datele culese i nregistrate pot conine informaii despre diveri parametri care au fost urmrite fie din necesitatea de a face un studiu anume fie, pur i simplu pentru c urmrirea lor are importan pentru indivizii la care au fost msurate sau pentru cel care face studiul, adic pentru medic. Tabelele din care este alctuit o baz de date conin datele nesistematizate, ele urmeaz de obicei o ordine aleatoare, sau sunt ordonate dup un criteriu cum ar fi cel alfabetic, sau n ordinea codurilor. Un exemplu, la care ne vom opri ceva mai mult este cel din tabelul 1.1. Este un exemplu de tabel, care pentru simplitate nu are dact cteva linii, adic nregistrri, i cteva coloane, pe care le vom numi cmpuri, cum se mai spune n limbajul uzual pentru programarea pe calculator. Tabelul este o mic parte dintr-un tabel mare n care au fost nregistrai un numr de peste 230 de pacieni cu afeciuni hepatice grave (ciroz hepatic, cancer hepatic, etc), tratai de-a lungul timpului n clinica de boli interne a Spitalului de Urgen din Craiova. nelesul cmpurilor este evident pentru aproape toate (FO=Numrul foii de observaie, Nume, Prenume, Vrsta, Sex, Mediu, Diagcod.= Cod diagnostic, HAV= Dac pacientul a suferit n trecut de hepatit acut viral). Pe coloana HAV se observ c au fost nregistrate doar dou posibiliti: da = pacientul a suferit de HAV n trecut" i nu pentru ceilali. n multe programe de calculator este indicat folosirea lui Y iN n loc de da i nu (Y=yes, N=no, din limba englez), deoarece aceste cmpuri sunt considerate de unele programe cmpuri speciale, pe care noi le vom numi cmpuri de tip logic, i sunt tratate prin procedee

Biostatistic - Cursul I

speciale. Deci, vom numi cmpuri de tip logic, acele coloane pe care este natural ca datele s fie introduse folosind Da i Nu.

Tabelul 1.1. Modul de nregistrare a unor date despre pacieni (nume fictive)

De multe ori, numrul de linii al unui tabel cu date brute, adic al unei baze de date, este att de mare, de ordinul sutelor sau miilor, nct niruirea elementelor unei serii de valori (de exemplu seria vrstelor), este dificil i lipsit de semnificaie. Un mod util de clasificare a pacienilor dup vrste este clasificarea pe grupe de vrst de 5 sau 10 ani i alctuirea unui tabel n care n dreptul fiecrei grupe de vrst s se nscrie numrul de pacieni din grupa respectiv, n acest fel obinnd de fapt o grupare mai sintetic a datelor. Iat cum arat distribuia pe grupe de vrst a pacienilor din baza de date de care am vorbit mai sus: Tabelul 1.2 Tabelul de frecven a vrstelor, pe grupe de vrst de 10 ani,pentru 234 de pacieni.

Nr. Frecvena, Nr. pacieni Clasa


1 2 3 4 5 6 7 8 9 10 11

Frecven a relativ, procentul fi


2.14% 2.56% 3.85% 11.11% 12.82% 21.37% 22.65% 13.68% 5.98% 2.14% 1.71% 100% 7

Fi
5 6 9 26 30 50 53 32 14 5 4 234

Ficc
5 11 20 46 76 126 179 211 225 230 234

Ficd
234 229 223 214 188 158 108 55 23 9 4

ficc
2.14% 4.70% 8.55% 19.66% 32.48% 53.85% 76.50% 90.17% 96.15% 98.29% 100.00%

ficd
100.00% 97.86% 95.30% 91.45% 80.34% 67.52% 46.15% 23.50% 9.83% 3.85% 1.71%

25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60 60 - 65 65 - 70 70 - 75 75 - 80 Total

Biostatistic - Cursul I

Se observ c prin mprirea frecvenelor de apariie ale vrstelor la numrul de pacieni, se obin frecvenele relative care se exprim de obicei n procente. Frecvenele relative se calculeaz cu formula:

fi =

Fi N

Este clar c prin adunarea frecvenelor absolute, se obine numrul total de indivizi din tabel, n cazul nostru 234:
F1 + F2 + ....... + Fm = 5 + 6 + 9 + ...... + 14 + 5 + 4 = 234 = N

De asemeni, prin adunarea frecvenelor relative (sau valorilor lor exprimate n procente), se obine 1 (sau 100%):
f1 + f 2 + ...... + f m = 2,14 + 2,56 + 3,85 + .... + 5,98 + 2,14 +1,71 = 100

Pe coloana a cincia a tabelului de frecvene, apar aa-numitele frecvene relative cumulate cresctor (f icc). Frecvena relativ cumulat cresctor, de pe o anumit linie, este suma frecvenelor relative din celulele din coloana frecvenelor relative, suma fcndu-se de la nceputul tabelului i pn la linia pe care se afl frecvena pe care o calculm. Astfel, vom avea pentru frecvene relative cumulate cresctor, formulele: f1cc=f1=2,14 f2cc=f1+f2=2,14+2,56=4,70 f3cc=f1+f2+f3=2,14+2,56+3,85=8,55, i aa mai departe. Aceste formule ne ajut s gsim procentul de indivizi care au valoarea din serie sub o limit dat. De exemplu, n tabelul 1.2, avem 32,48%% din indivizi sub 50 de ani, deoarece n dreptul valorii 50 pe coloana Vrsta, avem ficc=32,48% care se obine prin cumularea tuturor procentelor vrstelor sub 50 de ani, inclusiv 50. S urmrim i celelalte coloane i s ncercm s le subliniem la fiecare din ele utilitatea. Mai nti s amintim c Fi, reprezint frecvenele absolute, sau numrul de indivizi care au vrstele cuprinse n limitele claselor respective. Ficc, sunt frecvenele absolute, cumulate cresctor, adic se obin dup formulele:
Ficc = F1 + F2 +.... + Fi

De exemplu, F4cc = F1 + F2 + F3 + F4 = 5+6+9+26=46, aa cum se poate vedea n linia a patra a tabelului, pe coloana a cincia. S remarcm c aceste frecvene cumuleaz frecvenele tuturor claselor, pn la clasa curent, i deci ele rspund la ntrebri de tipul : ci indivizi mai tineri dect 45 de ani sunt n seria de vrste? Rspunsul se caut n dreptul clasei 40-45 ani, adic n a patra clas, pe coloana Ficc : 46. Frecvenele de tipul Ficd au o semnificaie analog, cu diferena c se cumuleaz descresctor, la fiecare nou clas se scade frecvena absolut a clasei precedente, iniial plecndu-se de la numrul total de indivizi din lot, n acest caz, 234. Frecvenele relative fi, sunt, aa cum am mai precizat, procentele fiecrei clase, lund ntregul lot ca 100%, i se obin ca raportul ntre frecvenele absolute i numrul total de indivizi din lot, apoi fiind nmulite cu 100 pentru a se obine procente. Frecvenele ficc i ficd, sunt obinute pe acelai principiu ca i Ficc i Ficd, cu diferena c s-au cumulat cresctor i respectiv descresctor, frecvenele relative i nu cele absolute. n sfrit, cteva cuvinte despre intervalele care constituie clasele. Dup cum se observ, din cauza faptului c nu s-au nregistrat vrste dect numere ntregi, clasele au o lungime uor de stabilit n mod natural: 25-30, 30-35, etc. Indivizii de 30 de ani se numr n clasa 30-35 i nu se numr n clasa 25 30. n cazul variabilelor la care nregistrarea se face cu una sau dou zecimale, se obinuiete ca acest lucru s se reflecte n modul de alctuire a claselor prin faptul c se ia la dreapta intervalului una sau dou zecimale egale cu 9: [13 - 13,9]; [14 - 14,9]; etc pentru nregistrarea hemoglobinei, sau intervale care se termin n 99, sau chiar 999 pentru alte variabile.

Biostatistic - Cursul I

Strict matematic, acest mod de lucru nu este foarte corect, dei este foarte practic. Poate s apar un caz n care ntr-o baz de date s-au prevzut intervalele [13 - 13,9] i [14 - 14,9] i dup un timp ceva mai lung, aparate mai specializate s dea un rezultat la o analiz de 13,92, care nu este ncadrabil n nici una din clase. Corect este ca, de exemplu, o clas s fie reprezentat printr-un interval nchis la stnga i deschis la dreapta, caz n care orice valoare ar apare ea este ncadrabil n exact una din clase. De exemplu, dac hemoglobina la o serie de valori este cuprins ntre 9,6 i 15,9, clasele din 1 n 1 ar fi: [9 10), [10 - 11), [11 - 12), [12 - 13), [13 - 14), [14 - 15), [15 - 16). n acest fel, fiecare valoare din serie va intra exact n una din clase (intervale). Prima dintre clase, clasa [9 - 10), nu conine i valoarea 10, care este coninut de clasa urmtoare, i tot aa pentru fiecare clas. Intervalele trebuie s acopere complet plaja posibil de valori ale variabilei i trebuie alese de aa manier nct numrul de clase care rezult s nu fie nici prea mare nici prea mic, astfel ca aprecierea modului cum sunt datele distribuite s fie ct mai uoar. Este recomandabil ca numrul de intervale pentru un astfel de tabel statistic s fie de la cteva, pentru loturi de cteva zeci de indivizi, pn la cteva zeci, dac lotul este foarte mare, de mai multe sute sau mii de indivizi. De obicei, programele de calculator realizeaz aceste tabele dup ce utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge n situaii cnd un astfel de tabel are un numr total neindicat de clase, de obicei se calculeaz lungimea aproximativ a unei clase n aa fel nct numrul de clase s fie cel dorit. Acest lucru se poate realiza dac se caut cea mai mic i cea mai mare valoare din seria de date (notate mai jos cu min i max), i se ia ca lungime a unei clase, aproximativ rezultatul urmtorului calcul:
L= max min nr . clase

De exemplu, pentru tabelul de mai sus, cel mai tnr pacient are 26 de ani, iar cel mai vrstnic are 78, deci pentru a obine 6 clase (numr de clase indicat pentru vrste de aduli), avem L= (78 - 26) / 6 = 8,6. Deci este indicat s se ia clase de 10 ani, prin rotunjire. Dac ns se doresc mai multe clase, s zicem 10, atunci obinem: L = (78 - 26) / 10 = 5,2 i este indicat s se ia clase din 5 n 5 ani. Prima clas va fi [25,30), iar urmtoarele: [30, 35), [35, 40),.[75, 80). Numrul de clase nu este neaprat 10, el se alege de fapt de ctre cel care face calculul, astfel ca s se piard ct mai puin informaie, dar i numrul de clase s nu fie prea mare cci atunci lum n considerare aspecte prea nesemnificative. Ca regul general, este bine s se rein c: Se pierde cu att mai mult informaie cu ct numrul de clase este mai mic. Nu se recomand tabele cu 2-4 clase Un numr prea mare de clase duce la o ascundere a esenialului de ctre aspectele nesemnificative ntruct cei care nu au experien nu tiu cum s aleag numrul de clase, recomandm: Pentru cteva zeci de valori, s se aleag 4 - 6 clase Pentru cteva sute de valori, s se aleag ntre 8 i 12 clase Pentru cteva mii de valori, s se aleag peste 15 clase

Nu se recomand folosirea a mai mult de 20 30 de clase dect n cazuri speciale, n studii cu multe mii de cazuri. Nici mai puin de 4 6 clase nu este recomandat s se foloseasc. Nu se recomand folosirea acestor tabele dac nu avem cel puin cteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face un tabel de frecven. Alte exemple: Dac avem de clasificat ntr-un tabel de frecven valorile pentru hemoglobin, iar minimul este 8,13 iar maximul este 16,23, atunci, pentru a obine 10 clase, vom face calculul: L= max min 16,23 8,13 8,1 = = = 0,81 nr.clase 10 10

n acest caz, vom rotunji la 1 i vom lua clasele din 1 n 1, ncepnd de la 8: [8, 9), [9,10), [16,17).

Biostatistic - Cursul I

n cazul Imunoglobulinei G, din cei 234 de pacieni din acelai lot ca cel pentru vrste de mai sus, valoarea minim a fost 112, n timp ce maximul a fost 900. Dac dorim tot 10 clase, atunci calculul este L= max min 900 112 888 = = = 88,8 nr.clase 10 10

Vom lua clasele din 100 n 100, ncepnd de la 100: [100,200), [200,300) . [800,900), [900-1000). Informaia sintetizat ntr-un astfel de tabel este deosebit de util i este de multe ori completat prin reprezentarea grafic a ei care se face cu ajutorul histogramei. Se poate spune c sintetizarea informaiei coninut de o serie de valori ntr-un tabel de frecven, este primul pas n studiul datelor brute, adic aa cum au fost inregistrate.

2. Indicatori statistici
2.1. Serii de valori. Aa cum s-a vzut n capitolul anterior, uneori este necesar s urmrim mai nti o singur variabil numeric din multitudinea de variabile nregistrate ntr-un tabel de date. n acest caz, datele numerice pe care le avem la dispoziie sunt un simplu ir de numere asociate, fiecare din ele, unui individ. Aceste iruri de numere rezultate din datele culese le vom numi serii statistice sau serii de date sau serii de valori. Ceea ce trebuie urmrit n primul rnd la o serie de valori este modul n care valorile din serie sunt distribuite n plaja de valori ntre un minim i un maxim, cum se distribuie n jurul mediei, care este tendina central a seriei, care sunt valorile cel mai des ntlnite, etc. Caracterizarea sintetic a unei serii de valori este dat de aa numiii indicatori statistici, ntre care media, deviaia standard, mediana, etc, indicatori pe care i vom descrie n continuare. Definiie: Indicatorii statistici sunt numere reale, care sintetizeaz o parte din informaia coninut de o serie de valori, dnd posibilitata aprecierii globale a ntregii serii, n loc s inem cont de fiecare valoare din ir. Aa cum se va vedea n acest capitol, fiecare indicator urmrete s scoat n eviden proprieti diferite ale irului de valori. Astfel, prin combinarea mai multor indicatori, obinem informaii relevante i sintetice despre valorile irului. Dac n locul irului propriu-zis, folosim o serie de indicatori statistici, o parte din informaie se pierde. Totui, de obicei se pierde ceea ce este nesemnificativ, accidental, indicatorii statistici reinnd doar esenailul. De aici i utilitatea i importana lor n statistic. n cele ce urmeaz, valorile din irul de numere ce constituie o serie de valori le vom nota cu X: x1, x2,....... xn, sau Y: y1,y2,..yn sau notaii asemntoare folosind alte litere ale alfabetului. De exemplu, n loc s spunem c cele 10 valori ale glicemei la cei zece pacieni dintr-un lot sunt: 88, 97, 103, 89, 93, 105, 98, 105, 88, 103, vom scrie n loc de Glicemie litera X, i n locul fiecrui numr din cele zece, simbolurile x1, x2,.x10. Deci, x1 ine locul lui 88, x2 pe cel al lui 97, etc. Aceste notaii le folosim pentru a uura nelegerea formulelor de calcul pentru unii indicatori. Valori extreme, amplitudine Cel mai uor de cutat i de neles ca semnificaie sunt indicatorii Minim i Maxim care sunt cei ce ne indic plaja de valori pe care se ntinde seria de valori. Minim este cea mai mic valoare din serie, iar Maxim este cea mai mare. Amplitudinea absolut, este diferena dintre maximul i minimul unei serii de valori i ne d informaii despre lrgimea plajei de valori pe care se ntind datele din serie (vezi figura 1.1). O serie de valori cu o amplitudine mare indic o plaj de valori ntins datorat fie unei dispersii sau mprtieri mari a datelor, fie simplului fapt c sunt multe valori. Dac dou serii de valori au acelai numr de valori, dar una are o amplitudine mai mare, atunci valorile ei sunt mai mprtiate.

10

Biostatistic - Cursul I

Figura 1.1. Indicatorii medie, minim, maxim, amplitudine absolut i amplitudine relativ. De cele mai multe ori, valorile minim i maxim dintr-o serie nu se nscriu n limitele de normalitate, ceea ce nu nseamn neaprat c seria conine valori anormale. Totui, de obicei, cele mai ndeprtate cteva valori, att cele mai mici ct i cele mai mari trebuie verificate pentru a ne asigura c nu este vorba de date eronate. De exemplu, dei se consider c valorile normale pentru latena semnalului nervos pe nervul optic ntre stimularea retinei i rspunsul cortical sunt situate aproximativ ntre 90 ms i 115 ms, un eantion de indivizi sntoi poate s produc o serie de valori care are i una sau cteva excepii. De aceea, din 20 sau 30 de valori, una poate fi 88 ms iar alta 117 ms, majoritatea fiind ns ntre 90 i 115 ms. 2.2. Valori medii. Media aritmetic a unei serii de valori. Este un indicator simplu i n acelai timp foarte sintetic, fiind un foarte bun indiciu al valorii n jurul creia se grupeaz datele. Se noteaz cu litera m sau, dac seria de valori este notat cu o majuscul ca X sau Y, media se noteaz cu X sau Y . Formula este cea cunoscut:

X=
Definiie:

x1 + x2 +......... xn =m n

(1.1)

Media aritmetic unei serii de valori este raportul dintre suma valorilor seriei i numrul lor. Iat cteva din proprietile fundamentale ale mediei: Media este cuprins ntre cea mai mic i cea mai mare dintre valorile din irul de valori. Dei avem tentaia s o considerm pe undeva pe la mijlocul intrevalului dintre minim i maxim, ea se afl de multe ori mai aproape de capetele acestui interval. Dac valorile din ir sunt egale ntre ele, atunci media este egal cu fiecare din ele. Astfel, dac vrstele a 5 pacieni sunt toate 45 de ani, media lor de vrst este tot 45. Dei sintetizeaz valori concrete, media este o mrime abstract. De exemplu, cnd se calculeaz numrul mediu de copii ai familiilor dintr-o arie geografic dat, se poate obine un numr mediu de 1,34. Aceasta nu nseamn bineneles dect o valoare abstract. Tot astfel, la o firm, prin venit mediu de 112$, nu nelegem c neaprat unul sau mai muli angajai au ca venit aceast sum.

Media calculat cu formula de mai sus se numete media aritmetic, pentru a o deosebi de alte tipuri de medii pe care le prezentm mai jos. Media aritmetic este cea mai important dintre medii i cea mai folosit n practic. De aceea, de obicei i se mai spune simplu medie. Media este indicatorul care arat tendina central a seriei de valori, i de obicei arat unde tind datele s se aglomereze. De cele mai multe ori, valorile din serie sunt situate n majoritate n apropierea mediei, iar o mai mic parte din ele sunt situate mult n stnga sau n dreapta mediei. O situare a valorilor din serie fa de medie se poate observa din aa-numitul grafic punctual de dispersie, din care este dat un exemplu n figura 1.2

11

Biostatistic - Cursul I

Figura 1.2. Cele mai multe valori sunt de obicei mai apropiate de medie. Dar nu totdeauna datele din seria de valori se situeaz preponderent n apropierea mediei. Mai rar, i oarecum mai forat, ne putem ntlni i cu situaii n care datele din serie se situeaz preponderent n stnga i dreapta, departe de medie i doar o mic parte dintre ele se situeaz aproape de medie, aa cum se observ n figura 1.3.

Figura 1.3. Uneori, cele mai multe valori sunt sub medie i peste medie, destul de departe de aceasta. n seriile de mai sus, avem aceeai medie, dar este evident c nu avem aceeai situaie. Valorile din seria de jos sunt mai mprtiate. Astfel, dac n acelai lot sunt cuprini indivizi hipertiroidieni i hipotiroidieni, i se msoar la fiecare concentraia hormonului tiroidian T4, vom observa c hipotiroidienii au preponderent valori n stnga mediei, cei mai muli destul de departe de medie, iar hipertiroidienii au preponderent valori n dreapta, tot departe de medie. De fapt ntr-un asemenea caz, n zona central lipsesc exact ceea ce am spune c sunt normalii, adic indivizi care au valori pentru T4 uor peste medie i uor sub medie, i care nu au fost inclui ntr-un astfel de lot. Evident c un eantion aa de eterogen nu este folosit prea des n statistic pentru c, aa cum vom vedea, n acest caz este foarte indicat s se constituie dou eantioane distincte pentru cele dou categorii de pacieni. Totui, asemenea situaii, chiar dac de obicei nu sunt indicate i sunt puin artificiale, exist. Situaia de mai sus este ilustrat n figura 1.3. O formul simplificat pentru media aritmetic este dat de:

X =

x1 F1 + x2 F2 + ............ + xn Fn F1 + F2 + ........... + Fn

unde cu n am notat numrul de valori diferite din seria de valori, iar F1, F2, ...,Fn sunt frecvenele de apariie n serie ale valorilor x1, x2, ...,xn. Aceast formul se spune c este formula pentru media ponderat. Nu trebuie s credem c media ponderat calculat cu formula de mai sus i media aritmetic calculat cu formula (1.1), sunt indicatori diferii. Ambele medii sunt n realitate identice. Media ponderat se calculeaz de obicei mai simplu i deci nu reprezint dect o form mai simpl de calcul al mediei aritmetice. Prin faptul c este un indicator extrem de fidel al tendinei centrale al unei serii statistice, media este un indicator extrem de mult utilizat n statistic. Media aritmetic are dezavantajul c este sensibil la valori extreme fie foarte mici, fie foarte mari. Adugarea unei singure valori (sau a ctorva) mult mai mari dect celelalte, modific sensibil media aritmetic. De asemenea, dac datele sunt distribuite n jurul mediei puternic asimetric, media i pierde din puterea de a evoca tendina central, n aceste cazuri fiind mult mai util mediana (vezi mai jos). 2.3. mprtiere. Valorile dintr-o serie de valori pot fi mai aglomerate n jurul mediei sau mai dispersate, adic la distane mari de medie. Un mod de a msura aceste abateri de la medie este s se fac diferena ntre toate aceste valori i media lor. Unele abateri vor fi pozitive, altele negative. Ele nu pot fi adunate, deoarece, prin adunare dau suma 0. Dispersia. Un mod de a ocoli faptul c suma abaterilor absolute este 0, este ridicarea la ptrat a acestora nainte de a fi adunate, pentru a face s dispar semnele negative la unele i pozitive la altele.

12

Biostatistic - Cursul I

Suma obinut, ar trebui mprit la numrul de abateri pentru a se obine o medie. n realitate, din motive teoretice foarte bine ntemeiate, dar mai greu de explicat n cuvinte simple, mprirea se face la n-1 i nu la n. Motivul pentru care se face acest lucru va fi neles mai bine n contextul unor noiuni enunate la cursul despre teoria estimaiei. Valoarea care se obine astfel se numete dispersie i este un indicator al gradului de mprtiere al seriei. Dispersia se noteaz cu D i are formula:

D=

( x1 X ) 2 + ( x2 X ) 2 + ....... + ( xn X ) 2 n 1

Dup cum se observ, numrtorul fraciei din definiia dispersiei este cu att mai mare cu ct abaterile individuale de la medie sunt mai mari i deci este natural s considerm c o valoare mare a dispersiei arat o mprtiere mare a valorilor din serie. De fapt, este bine de reinut c: La medii aproximativ egale, este mai mprtiat seria cu dispersia mai mare. La dispersii aproximativ egale, este mai mprtiat seria cu media mai mic. Dispersia are dezavantajul c se exprim cu unitile de msur ale valorilor din serie, ridicate la ptrat, i are n general valori foarte mari comparativ cu abaterea medie. De exemplu, dac valorile din serie se msoar n mg/l, atunci dispersia se msoar n mg 2/l2, ceea ce este n mod evident extrem de nenatural. n plus, dac abaterile absolute au o medie, de exemplu n jurul lui 10, dispersia va avea o valoare n jurul lui 100, adic exagerat de mare n comparaie cu abaterile absolute. De aceea se mai folosete un alt indicator, numit abatere standard care este radicalul dispersiei. Abaterea standard. Se noteaz cu i are formula:
= D sau =

( x1 X ) 2 + ( x2 X ) 2 + ....... + ( xn X ) 2 n 1

Acest indicator se exprim cu aceeai unitate de msur ca i valorile din seria considerat i este un indicator foarte fidel al mprtierii seriei. Abaterea standard, nu are dezavantajele dispersiei, adic unitatea de msur este aceeai cu a valorilor din serie, i, are o valoare comparabil cu abaterile individuale de la medie. Exemplu de calcul: S presupunem c am msurat zilnic tensiunea arterial sistolic la doi pacieni timp de 10 zile, obinnd pentru fiecare urmtoarele valori: 170, 180, 160, 180, 190, 190, 180, 190, 170, 190, pentru primul pacient i 160, 170, 190, 160, 190, 190, 200, 180, 180, 180, pentru al doilea. Lsnd la o parte studiul modului cum evolueaz de la zi la zi tensiunea pacienilor, care este bineneles important, s ne propunem s determinm care are tensiunea cu valori mai mprtiate, indiferent de evoluia n timp. Notnd prima serie cu X iar pe a doua cu Y se constat uor c ambele au media 180 (datele nu sunt reale, au fost deliberat alese ca s simplifice calculele). Atunci, vom avea pentru abaterile de la medie i pentru ptratele lor urmtoarele valori: xi - X : -10, 0, -20, 0, 10, 10, 0, 10, -10, 10. X = 180. yi - Y : -20, -10, 10, -20, 10, 10, 20, 0, 0, 0. Y = 180. 2 (xi - X ) : 100, 0, 400, 0, 100, 100, 0, 100, 100, 100. (yi - Y )2 : 400, 100, 100, 400, 100, 100, 400, 0, 0, 0.

Deci vom avea pentru Dx:

( x1 X ) 2 + ( x 2 X ) 2 +.......+( x10 X ) 2 400 + 6 100 1000 Dx = = = = 111,1 10 1 9 9

13

Biostatistic - Cursul I

i cu un calcul absolut analog, Dy = 1600 / 9 = 177,7. Se observ c, n timp ce abaterile de la medie sunt de ordinul zecilor, dispersiile sunt de ordinul sutelor, ceea ce este destul de nenatural, i n plus, dup cum am mai spus, unitatea de msur este cu totul alta. Pentru abaterile standard, vom avea:
x = Dx = 111,1 =10,5 y = Dy = 177,7 =13,3

calculele fiind fcute cu aproximaie. Deci, este ceva mai mprtiat seria Y. De fapt, este bine de reinut c: La medii aproximativ egale, este mai mprtiat seria cu deviaia standard mai mare. La deviaii standard aproximativ egale, este mai mprtiat seria cu media mai mic. Ce se ntmpl ns dac mediile i deviaiile sunt foarte diferite? Atunci o bun apreciere se obine dac se folosete raportul deviaiei standard fa de medie, exprimat n procente, acest raport fiind un alt indicator al mprtierii valorilor dintr-o serie. Acest indicator se numete coeficient de variaie. Coeficientul de variaie. Este raportul dintre deviaia standard i medie, atunci cnd media este diferit de 0 i se exprim n procente: C .V . =

Pentru seriile de mai sus, coeficientul de variaie este mai mare pentru cea mai mprtiat, adic pentru cea cu deviaia standard mai mare: C.V.x= 10,5 / 180 = 0,058 = 5,8 %. C.V.y = 13,3 / 180 = 0,073 = 7,3%. Totui, seriile de mai sus sunt comparabile cu ajutorul abaterilor standard, deoarece au aceeai medie, i, aa cum s-a vzut, la medii egale sau aproximativ egale, are valorile mai mprtiate seria cu abaterea standard mai mare. Aprecierea cu ajutorul coeficientului de variaie se face mai ales atunci cnd dou serii de valori au medii mult diferite i deviaiile standard pot s nu ne dea o indicaie suficient de util. De exemplu, msurnd latena i amplitudinea semnalului electric pe nervul optic la 120 de pacieni cu scleroz multipl, s-au obinut urmtoarele rezultate: Latena medie: 113,6 Abaterea standard a latenei: 14,7 Amplitudinea medie: 2,68 Abaterea standard a amplitudinii: 2,03

Dac dorim s apreciem mprtierea valorilor din cele dou serii, abaterile standard nu ne sunt de ajutor. ntr-adevr, latena are o abatere standard mult mai mare dect amplitudinea, dar i media latenei este cu mult mai mare dect aceea a amplitudinii. De aceea, n acest caz, doar coeficientul de variaie ne permite o apreciere corect a mprtierilor, n vederea comparrii lor: Pentru laten: C.V .latena =
14,7 = 0,129 =12,9% 113,6 2,03 = 0,757 = 75,7% 2,68

Pentru amplitudine: C.V .amplitudine =

Se observ c valorile amplitudinii sunt cu mult mai mprtiate dect cele ale latenei. Acest fapt se datoreaz att unei variabiliti biologice mai mari la amplitudine dect la laten, ct i unei variabiliti datorate aparatelor de msur, care msoar latena cu mai mult precizie, n timp ce la msurarea amplitudinii, erorile de msurare sunt mai mari.

14

Biostatistic - Cursul I

Coeficientul de variaie este cel mai fidel indicator al mprtierii unei serii statistice, dar are i el un inconvenient, este cu att mai fidel cu ct mediile sunt mai deprtate de 0. La medii foarte apropiate de 0 i pierde din fidelitate i nu este indicat s fie folosit. Acest lucru se ntmpl mai ales atunci cnd valorile din serie sunt i negative i pozitive, i cnd, din acest motiv, media poate fi aproape de 0. 2.4. Indicatori de asimetrie. Atunci cnd valorile unei serii sunt distribuite nesimetric n jurul mediei, acest fapt este imposibil de surprins cu ajutorul indicatorilor de dispersie. De aceea, s-au introdus indicatori care s pun n eviden i acest aspect al seriilor de valori: excentricitatea, sau asimetria. Va trebui s inem cont att de numrul de valori care sunt n stnga i n dreapta mediei, ct i deprtarea lor fa de medie. Mediana. Este un indicator al tendinei centrale, i anume este valoarea de mijloc, ntr-o serie de valori. Definiie: Mediana este acea valoare dintr-o serie de valori, pentru care exact jumtate din ele sunt mai mici dect ea, iar jumtate mai mari. Altfel spus, este valoarea msurat pentru individul din mijloc, dac indivizii pe care s-au fcut msurtorile ar fi ordonai creasctor. Pentru o nelegere mai uoar, s lum un exemplu cu numai 10 nregistrri: tensiunea arterial maxim la un bolnav n 10 zile: 150, 160, 160, 170, 160, 170, 150, 160, 170,160. Dac se aaz aceste valori ntr-un ir cresctor, obinem: 150, 150, 160, 160, 160, 160, 160, 170,170,170. n acest caz, mediana se ia ntre a cincia i a asea valoare din acest ir ordonat, adic 160. Dac aceste dou valori de mijloc difer, se ia media lor aritmetic. Dac numrul de msurtori este impar atunci madiana este chiar valoarea de mijloc, care n acest caz este unic. De fapt, mediana este important n primul rnd la serii de valori cu foarte multe nregistrri, caz n care se poate lucra direct pe tabelul de frecven, sau chiar pe tabelul pe clase. Pentru a exemplifica modul cum se caut mediana pe tabelul de frecven, vom lua tabelul 1.3, n care sunt centralizate vrstele a 234 de pacieni, fiecare valoare a vrstei avnd o anumit frecven absolut Fi, o frecven relativ fi i o frecven relativ cumulat cresctor, ficc (vezi mai sus, pentru amnunte). Tabelul 1.3. Vrstele a 234 de pacieni centralizate ntr-un tabel de frecven

Valoarea medianei se culege din coloana nti, a vrstelor, dar pentru a ti care valoare trebuie aleas, trebuie s privim pe ultima coloan, a frecvenelor cumulate, f icc, n dreptul frecvenei cumulate de 50%. Se observ c, pe coloana frecvenelor cumulate, nu exist frecvena de 50%, dar, exist frecvena de 47,9%, care este prea mic, i frecvena de 53,8%, care este prea mare. n acest caz, mediana se citete din dreptul primei

15

Biostatistic - Cursul I

frecvene cumulate cresctor care depete 50%, n cazul nostru, n dreptul frecvenei de 53,8%, i pe coloana Vrsta citim 55 ani. Deci, vrsta median este 55 ani. Deci, vom spune c jumtate dintre pacieni au vrstele cuprinse ntre 26 i 55 ani i jumtate au vrstele mai mari dect 55 ani. Aceast alegere este permis n cazul acesta al vrstelor care se nregistreaz cu valori ntregi. Mediana este un indicator al tendinei centrale, ca i media, dar ofer mai puin informaie dect aceasta din urm. La distribuiile echilibrate, la care valorile din serie se dispun aproximativ simetric n stnga i n dreapta mediei, media i mediana sunt foarte apropiate, deci folosirea medianei este superflu. Dac ns mediana este mult n stnga sau n dreapta mediei, distribuia se zice c este excentric. De exemplu, venitul median este mai informativ dect venitul mediu deoarece distribuia veniturilor ntr-o populaie este foarte excentric, fiind foarte muli indivzi cu salarii foarte mici i foarte puini indivizi cu salarii foarte mari. Cuartilele. n mod asemntor cu cutarea medianei, se poate pune problema cutrii unor valori pentru care s avem un sfert din valorile seriei mai mici i respectiv, mai mari. Definiie: Cuartila Q1 este acea valoare dintr-o serie de valori, pentru care 25% din valorile seriei sunt sub Q1 i 75%, peste. Pentru tabelul de frecvene 1.3, cuartila Q 1 se caut n dreptul frecvenei relative cumulate cresctor de 25%. n tabel gsim procentul de 24,4% i n dreptul lui vrsta de 47 de ani, precum i frecvena de 29,9 i n dreptul ei vrsta de 48 de ani. Vom lua tot vrsta care corespunde primului procent peste 25%, adic 48 de ani. Definiie: Cuartila Q3 este acea valoare dintr-o serie de valori, pentru care 75% din valorile seriei sunt sub Q3 i 25%, peste. Pentru tabelul 1.3, cuartila Q3 se ia din dreptul frecvenei relative cumulate cresctor de 75%. Poate fi luat cu aproximaie, 60 ani. Care este utilitatea medianei i cuartilelor n aprecierea simetriei distribuiei? Pentru a sublinia utilitatea indicatorilor Q1 i Q3, s considerm irul vrstelor: cel mai tnr pacient, Q1, Vrsta median, Q3, cel mai n vrst pacient. Se observ c sfertul (25%) pacienilor cei mai tineri este situat n zona 26 - 48 de ani adic ntr-o plaj de 22 de ani. Sfertul urmtor, este intre 48 i 55 de ani, adic pe un interval de doar 7 ani. Al treilea sfert este situat ntre 55 i 60 de ani, adic pe 5 ani, Cei mai n vrst 25 % din pacieni sunt ntre 60 i 69 de ani, pe un interval de 9 ani.

Pentru tabelul 1.3, obinem irul: 26 ani, 48 ani, 55 ani, 60 ani, 69 ani.

Putem s spunem c vrstele pacienilor se distribuie uor asimetric, deoarece: 1. Sfertul cel mai tnr se distribuie pe o plaja de 22 de ani, iar cel mai n vrst pe o plaj de doar 9 ani. 2. Sfertul al doilea se distribuie pe 7 ani, iar al treilea doar pe 5 ani. n cadrul laboratorului, alte exemple vor arta utilitatea acestor indicatori.

16

Biostatistic - Cursul I

S mai observm c mediana este ntr-un fel cuartila de 50%, adic Q 2. Se spune c exist trei cuartile: Q1, mediana, Q3. Decile Uneori, loturi mai mari de multe sute de indivizi trebuie urmrite foarte atent n ceea ce privete modul cum sunt distribuite valorile i de aceea s-au introdus indicatorii decile, care sunt de o acuratee mai bun dect cuartilele. Sunt 9 decile, fiecare corespunznd unui procent de 10%, 20%, ... 90% din lot, asemntor cu cuartilele. Decila 5, sau de 50%, este de fapt mediana. Centilele (percentilele) sunt mai rar folosite, n studii pe mii de cazuri, de obicei de un interes mai larg, naional, internaional, n studii epidemiologice, i sunt corespunztoare procentelor de 1%, 2%,...99% din lot. Centila de 25% este cuartila Q1, cea de 50% este mediana, iar cea de 75% este cuartila Q 3. Centilele de 10%, 20%,.90%, sunt cele nou decile. Centilele dau o imagine destul de exact a distribuiei valorilor dintr-o serie de valori foarte mare. Nu are rost s calculm centile pentru serii cu cteva sute de valori, pentru c erorile sunt prea mari i imaginea obinut este deformat. 2.5. Ali indicatori statistici Eroarea standard Este indicatorul care arat ct de precis aproximeaz media calculat din valorile unei serii, media populaiei din care a fost extras eantionul sau lotul pe care s-au fcut msurtorile. Are formula:
Err =

unde

este deviaia standard calculat folosind valorile seriei, iar n este numrul de valori din serie.

Se observ c este direct proporional cu deviaia standard a valorilor din serie i deci, cu ct valorile din serie sunt mai dispersate, cu att valoarea indicatorului Err va fi mai mare. Proporionalitatea este direct, adic o cretere a deviaiei standard, conduce la o cretere proporional a lui Err. Valoarea lui Err, este influenat dup cum se vede din formul i de numrul de valori din serie, n sensul c, este cu att mai mic cu ct sunt mai multe valori n serie, dac deviaia standard nu se schimb. Err scade n funcie de numrul de valori din serie, nu ns proporional. De exemplu, dac n crete de 4 ori, Err scade de dou ori: dou serii de valori, X i Y, au aceeai deviaie standard egal cu 2,3, iar numrul de valori n seria X este 25 iar cel al seriei Y este 100. Atunci erorile standard pentru cele dou serii sunt:
ErrX = ErrY =

25

= =

2,3 = 0,46 5 2,3 = 0,23 10

100

Deoarece este considerat a fi abaterea standard a mediei (calculat pe valorile msurate pe un lot), fa de media ntregii populaii, i se mai spune uneori abaterea standard a mediei de la medie, ceea ce este bineneles un simplu joc de cuvinte i nu trebuie luat n serios atunci cnd este ntlnit. Modul. Dintre frecvenele absolute aprute ntr-un tabel de frecvene, una este maxim. Clasa sau valoarea corespunztoare acestei frecvene maxime se numete mod. Modul este de obicei un indicator al tendinei centrale. n tabelul 1.2. modul este clasa de la 55 la 60 de ani, cu frecvena absolut 53. De obicei, frecvenele absolute au tendina de a crete ctre mod, dup care urmeaz o descretere continu. Modul este deci o indicaie relativ la maximul frecvenelor absolute. Sunt ns distribuii la care se nregistreaz creteri i descreteri astfel nct pot apare dou moduri sau chiar mai multe. Aceste distribuii sunt mai rare i au un caracter cu totul special. Ele se numesc distribuii bimodale sau multimodale, dup caz. Este un indicator care poart n el puin informaie despre datele seriei. Modul este mult influenat de fluctuaii aleatoare i nu este prea recomandat pentru a aprecia tendina central a valorilor dintr-o serie. Mai mult, unele distribuii pot fi multimodale, caz n care modul nu mai indic prea mult despre tendina central. Excentricitate. (Engl. Skew, Skweness). Este un indicator al asimetriei i este luat de diveri autori cu diverse formule. Distribuiile cu excentricitate pozitiv sunt mai des ntlnite dect cele cu excentricitate negativ. n medicin, parametrii fiziologici sunt n majoritate modificai n diverse afeciuni n sensul c au 17

Biostatistic - Cursul I

valori peste normal. Astfel, tensiunea arterial o vom ntlni la valori normale, crescute sau sczute. Cum indivizi cu valori foarte mari, vom ntlni cu att mai rar cu ct valoarea este mai mare, distribuia va avea o coad spre dreapta. La fel la muli ali parametric cum ar fi bilirubina, transaminazele, colesterolul, lipemia, etc. Totui, vom ntlni i parametri care se distribuie cu asimetrie stnga n patologii: hemoglobina, calcemia, sodiul ionic, etc. Hemoglobina, de exemplu, se poate distribui cu frecven mai mare la valori relativ normale i cu frecvene din ce n ce mai mici pe msur ce coborm la valori mai mici. Chiar dac avem o patologie de tip anemie, ne ateptm ca frecvena n jurul a 9-10 s fie mai mare dect frecvena n jurul a 78, frecven care ne ateptm s fie foarte mic. Excentricitatea unei serii de valori x1, x2,..xn, se calculeaz cu formula:
n

sk =

(x
i =1

X )3

n 3

Cu ct o distribuie este mai simetric cu att sk tinde la 0. Ca o regul general, la distribuiile cu excentricitate pozitiv, media este mai mare dect mediana . Evident, media este mai mic dect mediana la distribuiile cu excentricitate negativ. Exist cazuri rare n care regula de mai sus nu este valabil. Sunt multe alte formule pentru ali coeficieni de excentricitate i cnd vorbim despre excentriciatte, trebuie s menionm la ce coeficient de excentricitate ne referim. Uneori se folosete un coeficient de asimetrie care msoar diferena dintre medie i median, eventual raportat la abaterea standard sau la intervale intercuartilice( Q3 - Q1). Indiferent ce formul se folosete, o excentricitate egal cu zero, sau foarte apropiat de zero, este un indiciu al simetriei repartiiei valorilor din serie. Din contr, excentriciti mult diferite de 0, peste 0,15 -0,20, sau mai jos de -0,15 -0,20 sunt indicii ale asimetriei. Dm mai jos, cu titlu facultativ, cteva formule pentru coeficieni de excentricitate.
sk1 = X Mo

sk2 =

3( X Me) sk = 2(Q3 + Q1 2 Me) sk = ( Q3 Me ) ( Me Q1 ) 3 4

Q3 Q1

( Q3 Me) + ( Me Q1 )

Boltirea (facultativ). Boltirea este un indicator care se bazeaz pe lungimea cozilor unei distribuii. Cele cu cozi relativ mari se numesc leptocurtice iar cele cu cozi relativ mici se numesc platicurtice (vezi figura 1.4). Formula de calcul a boltirii este:

k=

(x
i =1

X )4 3

n 4

Aa cum se va vedea n capitolul despre repartiii, boltirea este un indicator util n aprecierea apropierii repartiiei de repartiia normal. Distribuiile din figura 1.4 au aceeai medie, aceeai dispersie, aproximativ aceeai excentricitate dar difer mult ca boltire.

Figura 1.4. Distibuie leptocurtic i distribuie platicurtic. 2.6. Clasificarea indicatorilor Indicatorii statistici poart n ei, fiecare, o anumit cantitate de informaie, din seria de va lori pentru care au fost calculai. Aa cum s-a vzut n paragrafele precedente, unii indicatori ne dau informaii despre tendina central a valorilor din serie, alii ne dau informaii despre mprtierea valorilor, alii ne dau indicaii despre simetria valorilor din serie, boltirea ne d indicaii despre lungimea cozilor distribuiei, etc. 18

Biostatistic - Cursul I

Informaia oferit de indicatorii statistici este redundant, n sensul c, de exemplu, mprtierea valorilor din serie este indicat i de dispersie i de abaterea standard i de amplitudinea absolut i de coeficientul de variaie, etc. Totui, fiecare din ei aduce o mic informaie specific, deci, nu ne putem lipsi de unul sau altul dintre indicatorii statistici. Uneori trebuie folosii unii dintre indicatori, fiind cei mai eficieni, alteori trebuie folosii alii. Pentru a avea o ideie despre modul cum trebuie folosii indicatorii statistici, ei sunt clasificai n cteva categorii mai importante, categorii care vor fi exemplificate mai jos, insistnd pe aceia care sunt cei mai importani, restul fiind indicatori mai rar folosii, numai n cazuri speciale. Indicatori ai tendinei centrale. Cei mai importani indicatori ai tendinei centrale sunt media, mediana i modul. Media indic tendina central atunci cnd seria de valori este repartizat simetric n jurul ei i cnd valorile nu au o dispersie exagerat de mare. n cazul seriilor de valori distribuite foarte asimetric, tendina central nu mai este indicat de ctre medie, ci de ctre median. Modul, este un indicator al tendinei centrale, la seriile unimodale, adic atunci cnd n tabelul de frecvene exist un singur maxim. Dac avem o serie multimodal, modul i pierde calitatea de indicator al tendinei centrale. Indicatori ai mprtierii. Folosii mai des n practic, i deci mai importani, sunt dispersia, abaterea standard i coeficientul de variaie. Abaterea standard este indicatorul folosit cel mai des pentru aprecierea mprtierii, dar atunci cnd mediile difer mult, este mai util coeficientul de variaie. Dispersia este folosit ca msur a mprtierii n testele statistice (vezi capitolul dedicat testelor statistice). Indicatori ai asimetriei. Mediana, cuartilele i excentricitatea sunt cel mai mult folosite pentru aprecierea asimetriei valorilor dintr-o serie. De fapt, mediana se folosete n combinaie cu media pentru aprecierea asimetriei. O median mult diferit de medie indic asimetrie puternic, iar o median foarte apropiat de medie indic o tendin spre simetrie. Cuartilele, se folosesc n combinaie cu mediana i indicatorii minim i maxim, pentru aprecierea simetriei. Indicatorii statistici fundamentali. Sunt indicatorii care poart n ei cea mai mare cantitate de informaie din informaia coninut de seria de valori. La seriile de valori distribuite relativ simetric, indicatorii statistici fundamentali sunt media i deviaia standard. n capitolul dedicat repartiiilor, se va vedea c, dac o serie de valori are o repartiie normal i are suficient de multe valori, cei doi indicatori, poart n ei aproape toat informaia. Astfel, dac o serie de valori de acest tip are media X i deviaia standard , scrierea ncetenit este X La seriile distribuite asimetric, dei se consider ca indicatori fundamentali tot media i deviaia standard, sunt mai utile mediana i cuartilele. n acest caz, este ncetenit scrierea medianei M i a cuartilelor Q1 i Q3 n forma M [Q1; Q3]. De exemplu, dac o serie puternic asimetric are mediana 2,45, iar cuartilele sunt Q1=1,54 i Q3=6,23, acest fapt se precizeaz astfel: 2,45 [1,54; 6,23].

3. Chestiuni de examen:
1. Stadiul evolutiv al unei maladii maligne este indicat s fie nregistrat prin simbolurile 0, I, II, III, IV, adic scala folosit este: A. Alfanumeric B. Numeric C. Ordinal D. Nominal 2. Consistena ficatului este o caracteristic a organismului uman care se nregistreaz: A. Numeric, adic folosind numere B. Ordinal, adic folosind simboluri ce urmeaz o gravitate C. Nominal, adic folosind simboluri care nu au o ordine de gravitate D. Numeric, adic folosind simboluri ce urmeaz o gravitate
19

Biostatistic - Cursul I

3. Grupa sanguin este o caracteristic ce trebuie nregistrat: A. Alfanumeric B. Numeric C. Ordinal D. Nominal 4. Media unei serii de valori numerice este: A. Suma valorilor mprit la numrul lor B. Mai mare dect valoarea minim din serie C. Mai mic dect valoarea maxim din serie D. Un indicator al tendinei centrale a valorilor seriei 5. Media unei serii de valori numerice are urmtoarele proprieti: A. Este egal cu cea mai mic valoare din serie B. Dac schimbm o valoare din serie, mrind-o, media se schimb, mrindu-se C. Dac schimbm o valoare din serie, mrind-o, media se schimb, micorndu-se D. Dac tergem o valoare din serie, media rmne nemodificat 6. Media unei serii de valori numerice este un indicator al: A. Tendinei centrale a valorilor seriei B. mprtierii valorilor seriei C. Plaja de valori ntre care sunt cuprinse valorile seriei D. Media nu este indicator statistic 7. Dispersia unei serii de valori numerice este un indicator al: A. Tendinei centrale a valorilor seriei B. mprtierii valorilor seriei C. Plaja de valori ntre care sunt cuprinse valorile seriei D. Simetriei distribuiei valorilor seriei n jurul mediei 8. Dispersia unei serii de valori numerice are printre dezavantaje: A. Se msoar cu unitatea de msur a valorilor seriei, ridicat la ptrat B. Are valori prea mari, comparativ cu abaterile individuale de la medie C. Indic i tendina central a valorilor seriei D. Nu se poate calcula cu exactitate 9. Abaterea standard unei serii de valori numerice are printre avantaje: A. Se msoar cu unitatea de msur a valorilor seriei B. Are valori comparabile cu abaterile individuale de la medie C. Indic i tendina central a valorilor seriei D. Nu se poate calcula dac dispersia este negativ 10. Dac dou serii de valori au aproximativ aceeai medie, atunci: A. Este mai mprtiat cea cu dispersia mai mare B. Este mai mprtiat cea cu abaterea standard mai mic C. Sunt la fel de mprtiate D. Nu se pot compara mprtierile cu ajutorul dispersiei n acest caz 11. Dac dou serii de valori au medii foarte diferite, atunci: A. Este mai mprtiat cea cu dispersia mai mare B. Este mai mprtiat cea cu abaterea standard mai mare C. Nu se pot compara nici cu ajutorul dispersiei i nici cu ajutorul abaterii standard D. Au aceeai mprtiere
20

Biostatistic - Cursul I

12. Dac media unei serii de valori este 10 i dispersia 4, atunci coeficientul de variaie este: A. 40% B. 20% C. 80% D. 10% 13. Dac mediile a dou serii de valori sunt foarte diferite, iar abaterile standard sunt tot foarte diferite, atunci este mai mprtiat : A. Cea cu coeficientul de variaie mai mare B. Cea cu raportul dintre abaterea standard i medie mai mare C. Cea cu coeficientul de variaie mai mic D. mprtierile celor dou serii de valori nu se pot compara 14. Mediana unei serii de valori numerice este: A. Egal cu media B. Un grafic C. Un numr D. Un tabel de frecven 15. Mediana unei serii de valori numerice este: A. Valoarea pentru care jumtate din valorile seriei sunt mai mari i jumtate mai mici B. Valoarea situat la mijloc, ntre minimul seriei i maximul seriei C. Valoarea cea mai frecvent ntlnit printre valorile seriei D. Un indicator al excentricitii valorilor seriei 16. Dac o serie de valori are n componen 21 de numere, atunci, pentru aflarea medianei, se ordoneaz valorile cresctor i se ia: A. Valoarea a 11-a din irul ordonat B. Media ntre valorile a 10 i a 11-a C. Media ntre valorile a 11 i a 12-a D. Valoarea a 10-a din irul ordonat 17. Dac o serie de valori are n componen 24 de numere, atunci, pentru aflarea medianei, se ordoneaz valorile cresctor i se ia: A. Valoarea a 12-a din irul ordonat B. Media ntre valorile a 11-a i a 12-a C. Media ntre valorile a 12-a i a 13-a D. Valoarea a 13-a din irul ordonat 18. Cuartila nti a unei serii de valori este: A. Valoarea din seria ordonat situat la 25% din numrul de valori al seriei B. Valoarea din seria ordonat situat la 75% din numrul de valori al seriei C. Valoarea numeric pentru care un sfert din valorile seriei ordonate sunt mai mici D. Valoarea numeric pentru care un sfert din valorile seriei sunt mai mici 19. Cuartila a treia a unei serii de valori este: A. Valoarea din seria ordonat situat la 25% din numrul de valori al seriei B. Valoarea din seria ordonat situat la 75% din numrul de valori al seriei C. Valoarea numeric pentru care un sfert din valorile seriei ordonate sunt mai mici D. Valoarea numeric pentru care trei sferturi din valorile seriei ordonate sunt mai mari 20. Referitor la indicatorii decile, este adevrat: A. Avem exact nou decile
21

Biostatistic - Cursul I

B. Avem exact 99 de decile C. Decila 50 este mediana D. Decila a treia este mediana 21. Indicatorii statistici fundamentali sunt: A. Dispersia i media B. Media i abaterea standard C. Abaterea standard i mediana D. Mediana i cuartilele 22. Indicatorii de dispersie (sau de mprtiere) sunt: A. Amplitudinea, media, dispersia i mediana B. Abaterea standard, media, dispersia i mediana C. Amplitudinea, media, dispersia i abaterea standard D. Abaterea standard, dispersia i coeficientul de variaie 23. Care din urmtorii indicatori statistici ajut la aprecierea asimetriei: A. Mediana, media i excentricitatea B. Mediana, cuartilele i excentricitatea C. Mediana, cuartilele i media D. Mediana, dispersia i excentricitatea 24. Indicatorii statistici pentru tendina central a valorilor unei serii de valori sunt: A. Media, dispersia i mediana B. Media, abaterea standard i modul C. Media, dispersia i excentricitatea D. Media, mediana i modul 25. O populaie statistic poate fi alctuit din: A. Indivizi umani B. Evenimente C. Grupuri socio-umane D. Msurtori 26. Formula mediei 27. Formula dispersiei 28. Formula deviaiei standard 29. Formula coeficientului de variaie 30. Definiia mediei 31. Definiia medianei 32. Definiia cuartilei Q1 33 Definiia cuartilei Q3

22