Documente Academic
Documente Profesional
Documente Cultură
CURSUL I
1.Introducere
Statistica este asociată cu un anumit tip de prelucrare a informaţiilor din lumea înconjurătoare şi anume acel
tip de prelucrare care clasifică, centralizează informaţiile în tabele, şi grafice, grupează informaţiile,
descoperă legături între ele, descoperă eventuale cauzalităţi, analizează fenomene complexe. În plus,
statistica face şi generalizări ale unor ipoteze descoperite de obicei empiric. Chiar dacă nu avem o idee
precisă, cu toţii gândim despre această ştiinţă că nu operează cu informaţii referitoare la un pacient sau o
plantă sau un obiect sau la un număr foarte restrâns de astfel de entităţi. Ştim că statistica este ştiinţa care
prelucrează informaţii care se referă la un număr mare de entităţi cum ar fi pacienţi sau indivizi sănătoşi sau
sau plante sau obiecte de altă natură.
Utilitatea statisticii este pusă mai bine în evidenţă atunci când trebuie studiate fenomene complexe în care
intervin factori sau mărimi care se află în relaţii complexe ce nu pot fi descrise satisfăcător prin ecuaţii sau
formule, sau prin relaţii cantitative de dependenţă. De exemplu, în tehnică, dacă suntem la un moment dat
interesaţi de consumul de carburant al unui motor, există în mod sigur o determinare destul de exactă a
acestuia în funcţie de puterea motorului, tipul său, viteza de deplasare, şi alţi câţiva parametri. Cunoscând
parametrii de care depinde consumul, aplicăm o formulă şi obţinem consumul de carburant al acelui motor.
Ceea ce obţinem este valabil pentru orice motor de acelaşi tip şi care funcţionează în aceleaşi condiţii.
Atunci când vorbim de prelucrarea statistică a informaţiilor, folosim expresia “prelucrare a datelor”.
Informaţiile referitoare la un pacient sau la un individ normal sau la orice alt obiect le numim Date. Numele,
prenumele, vârsta, sexul, afecţiunea şi celelalte informaţii despre un anume pacient, mărimea sau greutatea
unui obiect, productivitatea unei plante, etc, le numim date despre acel pacient, acel obiect sau acea plantă.
Informaţiile referitoare la mai mulţi pacienţi sau indivizi sănătoşi, sau animale de experienţă, sau plante, sau
alte obiecte pe care le studiem, le vom numi tot date. Când ne referim la prelucrarea informaţiilor, ca scop
important al statisticii, vom spune prelucrarea datelor. Când vorbim despre înregistrarea pe calculator a
acestor informaţii vom spune înregistrarea datelor.
Astfel, statistica are ca unul din scopuri, înregistrarea şi prelucrarea datelor. Totuşi, nu orice tip de
înregistrare de date şi orice prelucrare, ţin de obiectul statisticii. Înregistrarea evenimentelor cosmice în
astronomie, înregistrarea facturilor în contabilitatea unei firme, înregistrarea poziţiei unui mobil în fizică, şi
alte înregistrări asemănătoare, nu sunt legate de statistică şi nu obligă la prelucraări de natură statistică.
Definiţie:
Statistica este ştiinţa care se ocupă cu descrierea şi analiza numerică a fenomenelor de masă,
dezvăluind particularităţile lor de volum, structură, dinamică, conexiune, precum şi
regularităţile sau legile care le guvernează.
Volumul unui fenomen de masă se referă la amploarea lui numerică, la numărul de indivizi cuprinşi sau
afectaţi de fenomenul repectiv. Astfel, o afecţiune foarte răspîndită ca HTA (Hipertensiunea Arterială
Esenţială), este un fenomen de un volum mai mare ca o afecţiune rară cum ar fi Sindromul Down.
Prin structură a unui fenomen de masă, înţelegem modul în care acesta afectează diferite categorii de
indivizi, cum ar fi în cazul studierii unei afecţiuni răspândite, structura afectării pe sexe, rase, religii, grupe
de vârstă, ocupaţie, zone geografice, etc. De asemeni, structura reflectă relaţiile de legătură între mărimile
prin care descriem fenomenul.
1
Biostatistică - Cursul I
De exemplu, în cazul studierii legăturii între starea socială şi intenţiile de vot, structura presupune şi
descrierea diferitelor categorii de indivizi pe sexe, rase, stări sociale, ocupaţie, etc, cât şi legăturile între
acestea şi intenţia de vot, exprimată numeric, în procente, etc.
Prin dinamică a unui fenomen de masă, înţelegem modul cum evoluează acesta în timp. Conexiunea
fenomenelor este indicată de relaţiile de legătură şi, eventual, de relaţiile de dependenţă între ele.
De exemplu, fenomene economice pot influenţa evoluţia incidenţei unor afecţiuni în cadrul unei populaţii.
Anumite tendinţe de evoluţie a incidenţei unei maladii, sau de modificare a valorilor normale la pacienţii cu
o anumită afecţiune, pot căpăta caracter de regularitate. Statistica este cea care pune în evidenţă aceste
regularităţi sau legi, care sunt valabile numai la modul general, ca tendinţă, nu neapărat la fiecare individ în
parte. Tot ca exemplu, dacă ştim că o anumită fracţiune leucocitară este crescută în alergii, nu înseamnă
neapărat că fiecare alergic are acea fracţiune leucocitară crescută, ci că există numai o tendinţă în acest sens.
Definiţie:
Biostatistica este ştiinţa care se ocupă cu aplicarea metodelor statisticii în ştiinţele vieţii.
Astfel, toate capitolele importante ale statisticii ca: statistica descriptivă, teoria sondajelor, teoria estimaţiei,
teoria corelaţiei, regresiile, capitole care vor fi studiate sumar şi în acest curs, au aplicabilitate şi în ştiinţele
vieţii ca: medicina, biologia, psihologia, sau discipline mai înguste ca biochimia, biofizica, stomatologia,
fizioterapia, farmacologia, etc. Metodele cu aplicabilitate în ştiinţele vieţii au fost impulsionate în
dezvoltarea lor chiar de domeniul lor de aplicare. Astfel, capitolul statisticii care se ocupă cu studiul şi
estimarea supravieţuirii, are o aplicabilitate largă în medicină şi biologie şi dezvoltarea lui a fost influenţată
pozitiv de acest fapt. Aceasta deoarece medicina a avut mereu nevoie de metode mai perfecţionate, pe care
statistica a fost nevoită să i le pună la dispoziţie.
În multe situaţii, apar confuzii între două cuvinte care exprimă discipline diferite, şi anume între biostatistică
şi statistica medicală. Aceasta din urmă, este un capitol al celei dintâi, şi anume:
Definiţii:
Statistica medicală este ştiinţa care se ocupă cu aplicarea metodelor statisticii în medicină.
Biostatistica este ştiinţa care se ocupă cu aplicarea metodelor statisticii în toate ştiinţele vieţii,
ca medicină, psihologie, farmacie, agricultură, horticultură, etc.
Medicina modernă este de neconceput fără cercetarea medicală, iar un segment din ce în ce mai consistent al
acestei cercetări are la bază statistica. Nu se mai poate face cercetare de laborator sau clinică, iar rezultatele
să fie raportate doar prin comparări puerile între numărul de cazuri sau procente sau medii. Fără asigurarea
statistică, nici o cercetare nu are valoare. Acele simple comparări între valorile mediilor pot duce la
concluzii total greşite. Nici o revistă ştiinţifică medicală serioasă, de 30-40 de ani nu mai publică rezultate
neprelucrate statistic, diferenţe de medii între loturi, fără deviaţii standard şi teste de semnificaţie (cel puţin,
vezi cursul al şaselea).
***
Introducem câteva noţiuni specifice cu care operează statistica şi cu care vom lucra în cursurile ce urmează.
Fiind o ştinţă care nu lucrează cu fenomene strict deterministe, toate afirmaţiile statisticii se referă nu la
evenimente sau obiecte singulare ci sunt deduse prin observarea unei mulţimi cât mai cuprinzătoare de
obiecte sau fenomene. Nu se pot face generalizări pripite din studierea unui caz sau a câtorva cazuri şi este
destul de clar pentru oricine că o generalizare este cu atât mai valoroasă cu cât au fost observate un număr
mai mare de cazuri. Aici însă apare problema de a face o apreciere corectă a numărului de observaţii efectiv
realizate, raportat la numărul posibil de observaţii.
Dacă ne propunem să facem un studiu asupra unei afecţiuni foarte răspândite, cum ar fi hipertensiunea
arterială esenţială (HTA), concluzii valabile nu se pot trage decât pe baza unui număr de cazuri de cel puţin
câteva mii sau zeci de mii, dar în cazul unei maladii rare cum sunt unele din anomaliile cromozomiale de
exemplu, un astfel de număr de cazuri pur şi simplu nu poate fi găsit în aria de cercetare considerată, uneori
nici pe întregul glob. Oricum, în general vorbind, este bine ca, în limita posibilităţilor, studiul să se facă pe
un număr cât mai mare de indivizi.
2
Biostatistică - Cursul I
1.1 Noţiunile de bază. Cea mai generală noţiune pe care trebuie să o discutăm este cea care se referă la
totalitatea cazurilor, elementelor, obiectelor care au în comun trăsătura sau proprietatea studiată de noi.
Definiţie:
Vom numi populaţie statistică o mulţime de elemente care au una sau mai multe însuşiri
comune şi care fac obiectul unei cercetări statistice.
De obicei, prin populaţie statistică, în mod empiric, înţelegem o mulţime de persoane umane:
• persoanele din judeţul Dolj care suferă de HTA, sau
• persoanele din judeţul Dolj de sex feminin care suferă de HTA, sau
• persoanele din România care suferă de cancer de colon şi care au fost operate, etc.
Cum de cele mai multe ori, loturile studiate trebuie comparate cu loturi de normali, ne vom mai referi şi la
populaţii ca:
• persoanele normale dintr-o arie geografică dată, sau
• persoanele de sex feminin din Dolj, sau
• copiii normali între 2 şi 14 ani, etc.
Exemplele de populaţii statistice de acest gen pot fi multiplicate practic nelimitat, de fapt fiind necesar să se
considere aproape pentru fiecare nou studiu statistic o populaţie specifică la care se referă, numită populaţie
ţintă.
Pe de altă parte, de obicei în statistică, o populaţie nu este o mulţime de persoane. De exemplu, în studiile
demografice se iau câteodată ca elemente fundamentale grupuri sociale ca: aşezări omeneşti sau instituţii,
intreprinderi, populaţia aşezărilor umane din România, populaţia şcolilor dintr-un judeţ, etc. Avem deci în
acest caz populaţii de grupuri socio-umane. Ele nu sunt alcătuite din indivizi umani ci din grupuri de indivizi
umani.
Mai mult, populaţiile pot să nu aibă o legătură directă cu indivizi umani ci mai degrabă indirectă, şi anume se
poate vorbi despre populaţii de evenimente (accidentele de circulaţie dintr-o arie geografică, accidentele
cardiace pe o perioadă anume de timp, etc) sau despre populaţii de măsurători (tensiunea arterială a unui
pacient considerată la intervale regulate de timp).
Vom avea deci ca tipuri mai importante de populaţii:
• Populaţii de indivizi umani (normali, afectaţi de o afecţiune, expuşi la un risc, etc)
• Populaţii de grupuri socio-umane (localităţi, şcoli, intreprinderi, spitale, etc)
• Populaţii de evenimente (la oameni, la animale de experienţă, la celule, etc)
• Populaţii de măsurători (la oameni, la animale, la plante, la alte obiecte, la celule, la gene, la
mitocondrii, etc).
Deci, când vorbim despre o populaţie, nu este vorba neapărat despre populaţia unei ţări sau oraş, adică
despre grupuri de oameni.
Indiferent despre ce tip de populaţie discutăm la un moment dat, unitatea fundamentală cu care avem de a
face este individul statistic.
Definiţie:
Vom numi individ statistic un element al unei populaţii statistice indiferent de natura acesteia.
Astfel noţiunile de individ uman şi de individ statistic nu se suprapun deoarece aşa cum rezultă din această
definiţie, individul statistic poate fi:
• persoană umană (individ sănătos, pacient),
• un grup socio-uman (o şcoală, o localitate, un spital, etc),
• un eveniment,
• o măsurătoare, etc.
Mai mult, nu orice individ uman poate fi şi individ statistic ci, pentru aceasta trebuie să fie cuprins într-o
populaţie statistică. Relativ la indivizii statistici, preocuparea fundamentală este studiul anumitor
3
Biostatistică - Cursul I
caracteristici ale acestora, anume acele caracteristici care au legătură cu cea avută în vedere atunci când am
considerat populaţia statistică.
1.2 Caracteristici, variabile, tipuri de date, scale. Organismul uman, cel mai complex sistem existent
în natură, nu poate fi descris exact nici prin tomuri întregi de descriere în cuvinte şi nici prin numre oricât de
multe am folosi. Omul este capabil să descrie numai anumite trăsături sau proprietăţi ale organismului său.
Trebuie să fim conştienţi că deşi numărul de trăsături ale organismului pe care le studiază anatomia,
biochimia, biofizica, fiziologia şi toate celelalte discipline este enorm, niciodată nu vom fi capabili să
descriem exact organismul uman, căci numărul de trăsături de care am avea nevoie este practic infinit.
Trăsăturile sau proprietăţile organismului uman sunt denumite în statistică caracteristici şi sunt cuprinse în
categoria generală de date, aşa cum sunt descrise mai sus.
Definiţie:
Numim caracteristică o proprietate comună tuturor indivizilor dintr-o populaţie statistică
dată.
Caracteristicile sunt ceea ce în limbajul obişnuit înţelegem prin atribut, calitate. Atribute ce caracterizează
organismul uman şi prezintă interes medical, sunt extrem de multe.
Cele mai simple sunt cele antropometrice, adică înălţime, greutate, circumferinţa toracelui, circumferinţa
craniului, culoarea părului, a ochilor, constituţia corporală, şi multe altele.
Altele, caracterizează starea organismului ca fiziologică sau patologică şi sunt de obicei obţinute cu ajutorul
instrumentelelor sau analizelor de laborator, însă pot fi aprecieri subiective: tensiunea arterială (presiunea
arterială, de fapt), frecvenţa cardiacă, ritmul respirator, glicemia, calcemia, hemoglobina, lipemia,
colesterolemia, bilirubina, fosfataza acidă, creatinina, antigenul HBS, prezenţa albuminei în urină, culoarea
urinei, consistenţa ficatului, etc.
Din punctul de vedere al statisticii medicale, caracteristicile sunt de două tipuri fundamentale: cantitative şi
calitative.
• Caracteristicile cantitative sunt acelea care prin natura lor sunt măsurabile, adică pentru care există
unităţi de măsură şi o convenţie de măsurare general acceptată. În această categorie intră toate
constantele fiziologice, biochimice, biofizice, unele anatomice, care în general pot fi determinate
prin măsurători uzuale sau de laborator: înălţime, greutate, vârstă, glicemie, calcemie, hemoglobină,
număr eritrocite, forţă musculară, viteză de reacţie, nivel de inteligenţă (QI), dar şi mărimile
referitoare la celule, organite, sinapse, vezicule, membrane, etc. Ele sunt totdeauna exprimate cifric
într-un mod precis, obiectiv.
• Caracteristicile calitative, sunt cele care nu pot fi măsurate prin metode obiective, cantitative, ci se
exprimă descriptiv prin termeni calitativi: culoare, formă, consistenţă, aspect, etc. Caracteristicile
calitative nu au o unitate de măsură general acceptată şi deci nu pot fi exprimate cifric, ca rezultat al
unor măsurători. Ele sunt adesea subiective şi de obicei exprimate analogic şi nu numeric.
Variabile. Deşi sunt unele aspecte care se menţin constante la o aceeaşi specie, şi în particular la om, unele
se schimbă de la individ la individ, adică sunt variabile. Aşadar, atunci când indivizii statistici sunt oameni,
caracteristicile care se studiază sunt de multe ori variabile.
Definiţie:
O caracteristică care se schimbă de la individ la individ sau la acelaşi individ în timp sau
ca răspuns la condiţiile de mediu, de boală de medicaţie, etc, se numeşte variabilă.
Un alt criteriu de clasificare, şi cel mai important se referă la simbolurile pe care le folosim pentru a
reprezenta datele experimentale pe care dorim să le înregistrăm şi care sunt dependente de natura intrinsecă a
datelor. Aceasta înseamnă că, pentru înregistrarea datelor putem folosi fie numai numere (spunem că
înregistrăm date numerice), fie numai simboluri consacrate pe plan internaţional sau naţional, ori simboluri
convenite local (spunem că înregistrăm date nominale, sau date ordinale), fie simboluri amestecate cu
numere (caz în care spunem că înregistrăm date alfanumerice). Datele înregistrate ca numere sau prin
simboluri consacrate sau convenite se numesc scalate, în timp ce restul le numim alfanumerice.
4
Biostatistică - Cursul I
Astfel, scala numerică va permite celui care înregistrează date să scrie numere reale sau întregi. Scala
ordinală şi cea nominală, scale asemănătoare, permit înregistrarea după coduri şi prescurtări. De exemplu,
grupa sanguină, stadiul evolutiv al unei afecţiuni maligne, tipul de afecţiune, tipul de tumoră, etc sunt de
obicei standardizate prin convenţii internaţionale la scară continentală sau mondială.
Scala numerică
Datele înregistrate pe scala numerică descriu acele caracteristici ale pacientului care sunt prin excelenţă
cantitative şi se exprimă prin numere întregi sau zecimale. De obicei este stabilită o margine superioară şi
inferioară pentru ele (nu putem spune că un pacient are temperatura mai mare ca 44 oC, de exemplu).
Măsurătorile pe scala numerică sunt de aşa natură încât o unitate pe scală are aceeaşi magnitudine pe întreaga
scală. De exemplu, înregistrarea greutăţii, presupune că o greutate de 40 kg, este de două ori mai mică decât
una de 80 kg, iar diferenţa de 1 kg este aceeaşi şi de la 40 kg la 41 kg, dar şi de la 80 kg la 81 kg.
Totuşi, scalele numerice nu permit totdeauna interpretări comparative. Astfel, este greşit să se spună că un
pacient cu hemoglobina Hb=8 este de două ori mai anemic decât unul cu Hb=16, bazându-ne pe faptul că
hemoglobina le cel de-al doilea are o valoare dublă. La fel cu glicemia, calcemia, tensiunea, colesterolemia şi
aproape toate celelalte analize de laborator exprimate numeric şi în general cu caracteristicile cantitative
exprimate pe această scală.
Pe scala numerică sunt reprezentate caracteristici cantitative continui şi caracteristici cantitative discrete. De
exemplu, numărul de naşteri sau numărul de avorturi la o pacientă se înregistrează numeric, discret, adică
din 1 în 1, neavând sens valori zecimale. Majoritatea analizelor de laborator însă, se înregistrează numeric,
prin numere zecimale, de obicei cu una sau două zecimale. În cazul înregistrării cu zecimale, se spune că se
foloseşte scala continuă.
Scala nominală
Datele înregistrate pe scala nominală descriu o caracteristică sau o variabilă pentru înregistrarea căreia se pot
folosi un număr finit de simboluri, alese la întâmplare sau prin convenţie, care reprezintă categoriile posibile,
exhaustiv şi mutual exclusiv. De exemplu, pentru grupa sanguină, simbolurile 0, A, B, AB sunt categorii
exhaustive (orice individ intră în exact una din ele) şi mutual exclusive (un individ nu poate intra în două
categorii în acelaşi timp) şi sunt date de tip nominal; Măsurătorile nominale constau în asignarea pacienţilor
la grupuri sau categorii. Nu este înregistrată nici o informaţie cantitativă şi nu există o ordine a categoriilor.
Pe scala nominală se înregistrează caracteristici calitative. Exemplu: preferinţe religioase, rasa, sexul, mod de
alimentaţie, tip de temperament, culoarea ochilor, a părului, etc.
Pe scala nominală, inndivizii sunt împărţiţi în câteva clase:
• Exhaustive (fiecare individ aparţine unei singure clase)
• Mutual exclusive (nici un individ nu poate aparţine la două clase, simultan)
• Numele claselor sunt simbolice şi de obicei sunt fixate de practica medicală sau de convenţii
internaţionale, naţionale, locale
• Doi ind ivizi din aceeaşi clasă sunt echivalenţi pe scala considerată (chia r dacă din alte puncte de
vedere sunt diferiţi)
• Nu are sens să or donăm clasele crescător sau descrescător după nici un criteriu
De e xemplu, tot pe o scală nominală este bine să se înregistreze ocupaţ ia, starea civilă, tipul de afecţiune,
tipul de educaţie primită, e tc. Pentru variabila ocupaţie, uneori este suficient să se aleagă n umai câteva clase,
care ar putea fi intitulate: muncitor, intelectu al, funcţionar, elev, student, pensionar, fără ocupaţie. Avem
astfel 7 clase. Trebuie să ne asigurăm că fiecare individ din cei pe car e îi studiem, aparţine la una din aceste
clase. Evident nici unul n u aparţine la două clase în acelaşi timp. În ce priveşte starea civ ilă, cel mai simplu
exemplu de alegere a claselor este să luăm două: căsătorit şi necăsătorit. Uneori, se iau patru clase,
căsătorit, necăsătorit, divorţat şi văduv. Se pot alege şi alte seturi de clase. Şi în acest caz, trebuie urmărit
ca fiecare individ să aparţină exact la una din clasele alese. Numele claselor este ales după dori nţă, numele
putând fi şi prescurtate pentru a economisi timp dacă t rebuie înregistraţi un număr foarte mare de pacienţi.
De exemplu, î n cazul ocupaţiilor, putem folosi prescurtările: munc, intel, func, elev, stud, pens, fără. În
toate cazurile însă trebuie avut în ved ere să nu apară situaţii în care se înregistrează odată cu nume complet al
clasei, altădată cu nume scurt, căci apar complicaţii.
5
Biostatistică - Cursul I
Scala ordinală
Descriu o caracteristică pentru înregistrarea căreia se folosesc tot simboluri ce definesc categorii exhaustive
şi mutual exclusive, dar care sunt ordonate gradat, de obicei crescător. De exemplu, stadiul evolutiv în
anumite afecţiuni ca cele maligne (stadiul 0, 1, 2, 3 şi 4). Deosebirea faţă de caracteristicile nominale, deşi
pare neimportantă, conduce la principii diferite de tratare statistică şi de aceea, este important de stabilit dacă
o caracteristică o înregistrăm ca nominală sau ordinală. Măsurătorile pe scala ordinală sunt ordonate. Totuşi,
intervalele între două clase consecutive nu sunt în mod necesar egale. De exemplu, dacă un pacient apreciază
starea de confort indusă de un medicament contra astmului pe o scală de la 0 la 3, diferenţa între 0 şi 1 nu
este neapărat egală cu diferenţa între 1 şi 2, sau între 2 şi 3. De altfel nici nu s-ar putea descrie cantitativ
aceste diferenţe, ele sunt subiective şi lăsate la latitudinea observatorului care în exemplul de mai sus este
chiar pacientul. Nivelul 0 este ales absolut arbitrar, la fel de bine scala putea fi de la 3 la 6 sau de la -1 la 2.
Totuşi, este mai intuitiv să se înceapă în aceste cazuri de la nivelul 0. Tot astfel, în cazul stadiilor evolutive în
afecţiunile maligne stadiile sunt din ce în ce mai grave, dar diferenţa de gravitate nu este aceeaşi când trecem
de la un stadiu la altul.
Pe scala ordinală, in
ndivizii sunt împărţiţi în câteva clase:
• Exhaustive (fiecare individ aparţine unei singure clase)
• Mutual exclusive (nici u n individ nu poate aparţine la două clase, simultan)
• Numele clase lor sunt simbolice şi de obicei sunt fixate de practica medicală sa u convenţii
internaţionale naţionale, locale
• Doi indivizi din aceeaşi clasă sunt e chivalenţi pe scala considerată (chiar dacă pot fi diferiţi din alt e
puncte de vedere)
• Clasele pot fi ordonate crescător sau descres cător, dar diferenţele între clase nu exprimă cantităţi, nu
conteaz ă decât ordinea lor
A se observa că primele patru puncte sunt identice la scala ordinală şi respectiv, nominală. Singura diferenţă
este dată de posibilitatea ordonării claselor, care la cele ordinale nu este posibilă, în timp ce la cele
ordinale este posibilă.
Există o legătură între scala de măsurare şi metodele statistice folosite. De exemplu, este absurd să calculăm
media datelor nominale. Folosirea mediei pentru datele ordinale este încă controversată. Pentru calculul
mediei sau a altei statistici ce impune calcule, trebuie să avem date numerice.
1.3 Tabele de frecvenţă. Datele culese şi înregistrate pot conţine informaţii despre diverşi parametri care au
fost urmărite fie din necesitatea de a face un studiu anume fie, pur şi simplu pentru că urmărirea lor are
importanţă pentru indivizii la care au fost măsurate sau pentru cel care face studiul, adică pentru medic.
Tabelele din care este alcătuită o bază de date conţin datele nesistematizate, ele urmează de obicei o ordine
aleatoare, sau sunt ordonate după un criteriu cum ar fi cel alfabetic, sau în ordinea codurilor. Un exemplu, la
care ne vom opri ceva mai mult este cel din tabelul 1.1. Este un exemplu de tabel, care pentru simplitate nu
are dacât câteva linii, adică înregistrări, şi câteva coloane, pe care le vom numi câmpuri, cum se mai spune
în limbajul uzual pentru programarea pe calculator.
Tabelul este o mică parte dintr-un tabel mare în care au fost înregistraţi un număr de peste 230 de pacienţi cu
afecţiuni hepatice grave (ciroză hepatică, cancer hepatic, etc), trataţi de-a lungul timpului în clinica de boli
interne a Spitalului de Urgenţă din Craiova.
Înţelesul câmpurilor este evident pentru aproape toate (FO=Numărul foii de observaţie, Nume, Prenume,
Vârsta, Sex, Mediu, Diagcod.= Cod diagnostic, HAV= Dacă pacientul a suferit în trecut de hepatită acută
virală). Pe coloana HAV se observă că au fost înregistrate doar două posibilităţi: da = “pacientul a suferit de
HAV în trecut" şi nu pentru ceilalţi. În multe programe de calculator este indicată folosirea lui “Y” şi”N” în
loc de “da” şi “nu” (Y=yes, N=no, din limba engleză), deoarece aceste câmpuri sunt considerate de unele
programe câmpuri speciale, pe care noi le vom numi câmpuri de tip logic, şi sunt tratate prin procedee
speciale. Deci, vom numi câmpuri de tip logic, acele coloane pe care este natural ca datele să fie introduse
folosind “Da” şi “Nu”.
6
Biostatistică - Cursul I
Tabelul 1.1. Modul de înregistrare a unor date despre pacienţi (nume fictive)
De multe ori, numărul de linii al unui tabel cu date brute, adică al unei baze de date, este atât de mare, de
ordinul sutelor sau miilor, încât înşiruirea elementelor unei serii de valori (de exemplu seria vârstelor), este
dificilă şi lipsită de semnificaţie.
Un mod util de clasificare a pacienţilor după vârste este clasificarea pe grupe de vârstă de 5 sau 10 ani şi
alcătuirea unui tabel în care în dreptul fiecărei grupe de vârstă să se înscrie numărul de pacienţi din grupa
respectivă, în acest fel obţinând de fapt o grupare mai sintetică a datelor. Iată cum arată distribuţia pe grupe
de vârstă a pacienţilor din baza de date de care am vorbit mai sus:
Tabelul 1.2 Tabelul de frecvenţă a vârstelor, pe grupe de vârstă de 10 ani,pentru 234 de pacienţi.
Nr. Frecvenţa
Frecvenţa, relativă,
Nr. pacienţi procentul
Clasa Fi fi Ficc Ficd ficc ficd
1 25 - 30 5 2.14% 5 234 2.14% 100.00%
7
Biostatistică - Cursul I
Este clar că prin adunarea frecvenţelor absolute, se obţine numărul total de indivizi din tabel, în cazul nostru
234:
F1 + F2 + ....... + Fm = 5 + 6 + 9 + ...... + 14 + 5 + 4 = 234 = N
De asemeni, prin adunarea frecvenţelor relative (sau valorilor lor exprimate în procente), se obţine 1 (sau
100%):
f1 + f 2 + ...... + f m = 2,14 + 2,56 + 3,85 + .... + 5,98 + 2,14 + 1,71 = 100
Pe coloana a cincia a tabelului de frecvenţe, apar aşa-numitele frecvenţe relative cumulate crescător (ficc).
Frecvenţa relativă cumulată crescător, de pe o anumită linie, este suma frecvenţelor relative din celulele din
coloana frecvenţelor relative, suma făcându-se de la începutul tabelului şi până la linia pe care se află
frecvenţa pe care o calculăm.
Astfel, vom avea pentru frecvenţe relative cumulate crescător, formulele:
⇒ f1cc=f1=2,14
⇒ f2cc=f1+f2=2,14+2,56=4,70
⇒ f3cc=f1+f2+f3=2,14+2,56+3,85=8,55, şi aşa mai departe.
Aceste formule ne ajută să găsim procentul de indivizi care au valoarea din serie sub o limită dată. De
exemplu, în tabelul 1.2, avem 32,48%% din indivizi sub 50 de ani, deoarece în dreptul valorii 50 pe coloana
Vârsta, avem ficc=32,48% care se obţine prin cumularea tuturor procentelor vârstelor sub 50 de ani, inclusiv
50.
Să urmărim şi celelalte coloane şi să încercăm să le subliniem la fiecare din ele utilitatea. Mai întâi să
amintim că Fi, reprezintă frecvenţele absolute, sau numărul de indivizi care au vârstele cuprinse în limitele
claselor respective. Ficc, sunt frecvenţele absolute, cumulate crescător, adică se obţin după formulele:
Ficc = F1 + F2 + .... + Fi
De exemplu, F4cc = F1 + F2 + F3 + F4 = 5+6+9+26=46, aşa cum se poate vedea în linia a patra a tabelului,
pe coloana a cincia. Să remarcăm că aceste frecvenţe cumulează frecvenţele tuturor claselor, până la clasa
curentă, şi deci ele răspund la întrebări de tipul : “câţi indivizi mai tineri decât 45 de ani sunt în seria de
vârste”? Răspunsul se caută în dreptul clasei 40-45 ani, adică în a patra clasă, pe coloana Ficc : 46.
Frecvenţele de tipul Ficd au o semnificaţie analogă, cu diferenţa că se cumulează descrescător, la fiecare nouă
clasă se scade frecvenţa absolută a clasei precedente, iniţial plecându-se de la numărul total de indivizi din
lot, în acest caz, 234.
Frecvenţele relative fi, sunt, aşa cum am mai precizat, procentele fiecărei clase, luând întregul lot ca 100%, şi
se obţin ca raportul între frecvenţele absolute şi numărul total de indivizi din lot, apoi fiind înmulţite cu 100
pentru a se obţine procente. Frecvenţele ficc şi ficd, sunt obţinute pe acelaşi principiu ca şi Ficc şi Ficd, cu
diferenţa că s-au cumulat crescător şi respectiv descrescător, frecvenţele relative şi nu cele absolute.
În sfârşit, câteva cuvinte despre intervalele care constituie clasele. După cum se observă, din cauza faptului
că nu s-au înregistrat vârste decât numere întregi, clasele au o lungime uşor de stabilit în mod natural: 25-30,
30-35, etc. Indivizii de 30 de ani se numără în clasa 30-35 şi nu se numără în clasa 25 – 30.
În cazul variabilelor la care înregistrarea se face cu una sau două zecimale, se obişnuieşte ca acest lucru să se
reflecte în modul de alcătuire a claselor prin faptul că se ia la dreapta intervalului una sau două zecimale
egale cu 9: [13 - 13,9]; [14 - 14,9]; etc pentru înregistrarea hemoglobinei, sau intervale care se termină în 99,
sau chiar 999 pentru alte variabile.
Strict matematic, acest mod de lucru nu este foarte corect, deşi este foarte practic. Poate să apară un caz în
care într-o bază de date s-au prevăzut intervalele [13 - 13,9] şi [14 - 14,9] şi după un timp ceva mai lung,
aparate mai specializate să dea un rezultat la o analiză de 13,92, care nu este încadrabil în nici una din clase.
Corect este ca, de exemplu, o clasă să fie reprezentată printr-un interval închis la stânga şi deschis la dreapta,
caz în care orice valoare ar apare ea este încadrabilă în exact una din clase.
De exemplu, dacă hemoglobina la o serie de valori este cuprinsă între 9,6 şi 15,9, clasele din 1 în 1 ar fi: [9 -
10), [10 - 11), [11 - 12), [12 - 13), [13 - 14), [14 - 15), [15 - 16). În acest fel, fiecare valoare din serie va intra
8
Biostatistică - Cursul I
exact în una din clase (intervale). Prima dintre clase, clasa [9 - 10), nu conţine şi valoarea 10, care este
conţinută de clasa următoare, şi tot aşa pentru fiecare clasă.
Intervalele trebuie să acopere complet plaja posibilă de valori ale variabilei şi trebuie alese de aşa manieră
încât numărul de clase care rezultă să nu fie nici prea mare nici prea mic, astfel ca aprecierea modului cum
sunt datele distribuite să fie cât mai uşoară. Este recomandabil ca numărul de intervale pentru un astfel de
tabel statistic să fie de la câteva, pentru loturi de câteva zeci de indivizi, până la câteva zeci, dacă lotul este
foarte mare, de mai multe sute sau mii de indivizi.
De obicei, programele de calculator realizează aceste tabele după ce utilizatorul a furnizat lungimea clasei.
Pentru a nu ajunge în situaţii când un astfel de tabel are un număr total neindicat de clase, de obicei se
calculează lungimea aproximativă a unei clase în aşa fel încât numărul de clase să fie cel dorit. Acest lucru se
poate realiza dacă se caută cea mai mică şi cea mai mare valoare din seria de date (notate mai jos cu min şi
max), şi se ia ca lungime a unei clase, aproximativ rezultatul următorului calcul:
max− min
L=
nr . clase
De exemplu, pentru tabelul de mai sus, cel mai tânăr pacient are 26 de ani, iar cel mai vârstnic are 78, deci
pentru a obţine 6 clase (număr de clase indicat pentru vârste de adulţi), avem L= (78 - 26) / 6 = 8,6. Deci este
indicat să se ia clase de 10 ani, prin rotunjire. Dacă însă se doresc mai multe clase, să zicem 10, atunci
obţinem: L = (78 - 26) / 10 = 5,2 şi este indicat să se ia clase din 5 în 5 ani. Prima clasă va fi [25,30), iar
următoarele: [30, 35), [35, 40),….[75, 80).
Numărul de clase nu este neapărat 10, el se alege de fapt de către cel care face calculul, astfel ca să se piardă
cât mai puţină informaţie, dar şi numărul de clase să nu fie prea mare căci atunci luăm în considerare aspecte
prea nesemnificative.
Ca regulă generală, este bine să se reţină că:
• Se pierde cu atât mai multă informaţie cu cât numărul de clase este mai mic. Nu se recomandă tabele
cu 2-4 clase
• Un număr prea mare de clase duce la o ascundere a esenţialului de către aspectele nesemnificative
Întrucât cei care nu au experienţă nu ştiu cum să aleagă numărul de clase, recomandăm:
• Pentru câteva zeci de valori, să se aleagă 4 - 6 clase
• Pentru câteva sute de valori, să se aleagă între 8 şi 12 clase
• Pentru câteva mii de valori, să se aleagă peste 15 clase
Nu se recomandă folosirea a mai mult de 20 – 30 de clase decât în cazuri speciale, în studii cu multe mii de
cazuri. Nici mai puţin de 4 – 6 clase nu este recomandat să se folosească. Nu se recomandă folosirea acestor
tabele dacă nu avem cel puţin câteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face un
tabel de frecvenţă.
Alte exemple:
Dacă avem de clasificat într-un tabel de frecvenţă valorile pentru hemoglobină, iar minimul este 8,13 iar
maximul este 16,23, atunci, pentru a obţine 10 clase, vom face calculul:
max − min 16,23 − 8,13 8,1
L= = = = 0,81
nr.clase 10 10
În acest caz, vom rotunji la 1 şi vom lua clasele din 1 în 1, începând de la 8: [8, 9), [9,10), [16,17).
În cazul Imunoglobulinei G, din cei 234 de pacienţi din acelaşi lot ca cel pentru vârste de mai sus, valoarea
minimă a fost 112, în timp ce maximul a fost 900. Dacă dorim tot 10 clase, atunci calculul este
max − min 900 − 112 888
L= = = = 88,8
nr.clase 10 10
Vom lua clasele din 100 în 100, începând de la 100: [100,200), [200,300) …. [800,900), [900-1000).
9
Biostatistică - Cursul I
Informaţia sintetizată într-un astfel de tabel este deosebit de utilă şi este de multe ori completată prin
reprezentarea grafică a ei care se face cu ajutorul histogramei. Se poate spune că sintetizarea informaţiei
conţinută de o serie de valori într-un tabel de frecvenţă, este primul pas în studiul datelor brute, adică aşa
cum au fost inregistrate.
2. Chestiuni de examen:
1. Stadiul evolutiv al unei maladii maligne este indicat să fie înregistrat prin simbolurile 0, I, II, III,
IV, adică scala folosită este:
A. Alfanumerică
B. Numerică
C. Ordinală
D. Nominală
10
Biostatistică – Cursul al II-lea
CURSUL AL II-LEA
2. Indicatori statistici
2.1. Serii de valori. Aşa cum s-a văzut în cursul anterior, uneori este necesar să urmărim mai întâi o singură
variabilă numerică din multitudinea de variabile înregistrate într-un tabel de date. În acest caz, datele
numerice pe care le avem la dispoziţie sunt un simplu şir de numere asociate, fiecare din ele, unui individ.
Aceste şiruri de numere rezultate din datele culese le vom numi serii statistice sau serii de date sau serii de
valori.
Ceea ce trebuie urmărit în primul rând la o serie de valori este modul în care valorile din serie sunt
distribuite în plaja de valori între un minim şi un maxim, cum se distribuie în jurul mediei, care este tendinţa
centrală a seriei, care sunt valorile cel mai des întâlnite, etc.
Caracterizarea sintetică a unei serii de valori este dată de aşa numiţii indicatori statistici, între care media,
deviaţia standard, mediana, etc, indicatori pe care îi vom descrie în continuare.
Definiţie: Indicatorii statistici sunt numere reale, care sintetizează o parte din
informaţia conţinută de o serie de valori, dând posibilitata aprecierii globale a întregii
serii, în loc să ţinem cont de fiecare valoare din şir.
Aşa cum se va vedea în acest curs, fiecare indicator urmăreşte să scoată în evidenţă proprietăţi diferite ale
şirului de valori.
Astfel, prin combinarea mai multor indicatori, obţinem informaţii relevante şi sintetice despre valorile
şirului. Dacă în locul şirului propriu-zis, folosim o serie de indicatori statistici, o parte din informaţie se
pierde. Totuşi, de obicei se pierde ceea ce este nesemnificativ, accidental, indicatorii statistici reţinând doar
esenţailul. De aici şi utilitatea şi importanţa lor în statistică.
În cele ce urmează, valorile din şirul de numere ce constituie o serie de valori le vom nota cu
X: x1, x2,....... xn, sau Y: y1,y2,…..yn
sau notaţii asemănătoare folosind alte litere ale alfabetului.
De exemplu, în loc să spunem că cele 10 valori ale glicemei la cei zece pacienţi dintr-un lot sunt: 88, 97, 103,
89, 93, 105, 98, 105, 88, 103, vom scrie în loc de Glicemie litera X, şi în locul fiecărui număr din cele zece,
simbolurile x1, x2,….x10. Deci, x1 ţine locul lui 88, x2 pe cel al lui 97, etc. Aceste notaţii le folosim pentru a
uşura înţelegerea formulelor de calcul pentru unii indicatori.
Valori extreme, amplitudine
Cel mai uşor de căutat şi de înţeles ca semnificaţie sunt indicatorii Minim şi Maxim care sunt cei ce ne
indică plaja de valori pe care se întinde seria de valori. Minim este cea mai mică valoare din serie, iar
Maxim este cea mai mare.
Amplitudinea absolută, este diferenţa dintre maximul şi minimul unei serii de valori şi ne dă informaţii
despre lărgimea plajei de valori pe care se întind datele din serie (vezi figura 1.1). O serie de valori cu o
amplitudine mare indică o plajă de valori întinsă datorată fie unei dispersii sau împrăştieri mari a datelor, fie
simplului fapt că sunt multe valori. Dacă două serii de valori au acelaşi număr de valori, dar una are o
amplitudine mai mare, atunci valorile ei sunt mai împrăştiate.
Figura 1.1. Indicatorii medie, minim, maxim, amplitudine absolută şi amplitudine relativă.
1
Biostatistică – Cursul al II-lea
De cele mai multe ori, valorile minimă şi maximă dintr-o serie nu se înscriu în limitele de normalitate, ceea
ce nu înseamnă neapărat că seria conţine valori anormale. Totuşi, de obicei, cele mai îndepărtate câteva
valori, atât cele mai mici cât şi cele mai mari trebuie verificate pentru a ne asigura că nu este vorba de date
eronate.
De exemplu, deşi se consideră că valorile normale pentru latenţa semnalului nervos pe nervul optic între
stimularea retinei şi răspunsul cortical sunt situate aproximativ între 90 ms şi 115 ms, un eşantion de indivizi
sănătoşi poate să producă o serie de valori care are şi una sau câteva excepţii. De aceea, din 20 sau 30 de
valori, una poate fi 88 ms iar alta 117 ms, majoritatea fiind însă între 90 şi 115 ms.
2.2. Valori medii. Media aritmetică a unei serii de valori. Este un indicator simplu şi în acelaşi timp foarte
sintetic, fiind un foarte bun indiciu al valorii în jurul căreia se grupează datele. Se notează cu litera m sau,
dacă seria de valori este notată cu o majusculă ca X sau Y, media se notează cu X sau Y . Formula este cea
cunoscută:
x1 + x2 +......... xn
X = =m (1.1)
n
Definiţie:
Media aritmetică unei serii de valori este raportul dintre suma valorilor seriei şi numărul lor.
Media este indicatorul care arată tendinţa centrală a seriei de valori, şi de obicei arată unde tind
datele să se aglomereze. De cele mai multe ori, valorile din serie sunt situate în majoritate în apropierea
mediei, iar o mai mică parte din ele sunt situate mult în stânga sau în dreapta mediei. O situare a valorilor din
serie faţă de medie se poate observa din aşa-numitul grafic punctual de dispersie, din care este dat un
exemplu în figura 1.2
Figura 1.2. Cele mai multe valori sunt de obicei mai apropiate de medie.
Dar nu totdeauna datele din seria de valori se situează preponderent în apropierea mediei. Mai rar, şi
oarecum mai forţat, ne putem întâlni şi cu situaţii în care datele din serie se situează preponderent în stânga şi
dreapta, departe de medie şi doar o mică parte dintre ele se situează aproape de medie, aşa cum se observă în
figura 1.3.
Figura 1.3. Uneori, cele mai multe valori sunt sub medie şi peste medie, destul de departe de aceasta. În
seriile de mai sus, avem aceeaşi medie, dar este evident că nu avem aceeaşi situaţie. Valorile din seria de jos
sunt mai împrăştiate.
Astfel, dacă în acelaşi lot sunt cuprinşi indivizi hipertiroidieni şi hipotiroidieni, şi se măsoară la fiecare
concentraţia hormonului tiroidian T4, vom observa că hipotiroidienii au preponderent valori în stânga mediei,
cei mai mulţi destul de departe de medie, iar hipertiroidienii au preponderent valori în dreapta, tot departe de
medie.
De fapt într-un asemenea caz, în zona centrală lipsesc exact ceea ce am spune că sunt normalii, adică indivizi
care au valori pentru T4 uşor peste medie şi uşor sub medie, şi care nu au fost incluşi într-un astfel de lot.
2
Biostatistică – Cursul al II-lea
Evident că un eşantion aşa de eterogen nu este folosit prea des în statistică pentru că, aşa cum vom vedea, în
acest caz este foarte indicat să se constituie două eşantioane distincte pentru cele două categorii de pacienţi.
Totuşi, asemenea situaţii, chiar dacă de obicei nu sunt indicate şi sunt puţin artificiale, există. Situaţia de mai
sus este ilustrată în figura 1.3.
O formulă simplificată pentru media aritmetică este dată de:
x1 ⋅ F1 + x2 ⋅ F2 + ............ + xn ⋅ Fn
X =
F1 + F2 + ........... + Fn
unde cu n am notat numărul de valori diferite din seria de valori, iar F1, F2, ...,Fn sunt frecvenţele de apariţie
în serie ale valorilor x1, x2, ...,xn.
Această formulă se spune că este formula pentru media ponderată. Nu trebuie să credem că media
ponderată calculată cu formula de mai sus şi media aritmetică calculată cu formula (1.1), sunt indicatori
diferiţi. Ambele medii sunt în realitate identice. Media ponderată se calculează de obicei mai simplu şi deci
nu reprezintă decât o formă mai simplă de calcul al mediei aritmetice.
Prin faptul că este un indicator extrem de fidel al tendinţei centrale al unei serii statistice, media este un
indicator extrem de mult utilizat în statistică. Media aritmetică are dezavantajul că este sensibilă la valori
extreme fie foarte mici, fie foarte mari. Adăugarea unei singure valori (sau a câtorva) mult mai mari decât
celelalte, modifică sensibil media aritmetică.
De asemenea, dacă datele sunt distribuite în jurul mediei puternic asimetric, media îşi pierde din puterea de a
evoca tendinţa centrală, în aceste cazuri fiind mult mai utilă mediana (vezi mai jos).
2.3. Împrăştiere. Valorile dintr-o serie de valori pot fi mai aglomerate în jurul mediei sau mai dispersate,
adică la distanţe mari de medie. Un mod de a măsura aceste abateri de la medie este să se facă diferenţa între
toate aceste valori şi media lor. Unele abateri vor fi pozitive, altele negative. Ele nu pot fi adunate, deoarece,
prin adunare dau suma 0.
Dispersia. Un mod de a ocoli faptul că suma abaterilor absolute este 0, este ridicarea la pătrat a acestora
înainte de a fi adunate, pentru a face să dispară semnele negative la unele şi pozitive la altele.
Suma obţinută, ar trebui împărţită la numărul de abateri pentru a se obţine o medie. În realitate, din motive
teoretice foarte bine întemeiate, dar mai greu de explicat în cuvinte simple, împărţirea se face la n-1 şi nu la
n. Motivul pentru care se face acest lucru va fi înţeles mai bine în contextul unor noţiuni enunţate la cursul
despre teoria estimaţiei. Valoarea care se obţine astfel se numeşte dispersie şi este un indicator al gradului de
împrăştiere al seriei. Dispersia se notează cu D şi are formula:
( x1 − X ) 2 + ( x2 − X ) 2 + ....... + ( xn − X ) 2
D=
n −1
După cum se observă, numărătorul fracţiei din definiţia dispersiei este cu atât mai mare cu cât abaterile
individuale de la medie sunt mai mari şi deci este natural să considerăm că o valoare mare a dispersiei arată o
împrăştiere mare a valorilor din serie.
De fapt, este bine de reţinut că:
• La medii aproximativ egale, este mai împrăştiată seria cu dispersia mai mare.
• La dispersii aproximativ egale, este mai împrăştiată seria cu media mai mică.
Dispersia are dezavantajul că se exprimă cu unităţile de măsură ale valorilor din serie, ridicate la pătrat, şi are
în general valori foarte mari comparativ cu abaterea medie. De exemplu, dacă valorile din serie se măsoară în
mg/l, atunci dispersia se măsoară în mg2/l2, ceea ce este în mod evident extrem de nenatural.
În plus, dacă abaterile absolute au o medie, de exemplu în jurul lui 10, dispersia va avea o valoare în jurul lui
100, adică exagerat de mare în comparaţie cu abaterile absolute. De aceea se mai foloseşte un alt indicator,
numit abatere standard care este radicalul dispersiei.
Abaterea standard. Se notează cu σ şi are formula:
( x1 − X ) 2 + ( x2 − X ) 2 + ....... + ( xn − X ) 2
σ= D sau σ =
n −1
3
Biostatistică – Cursul al II-lea
Acest indicator se exprimă cu aceeaşi unitate de măsură ca şi valorile din seria considerată şi este un
indicator foarte fidel al împrăştierii seriei. Abaterea standard, nu are dezavantajele dispersiei, adică unitatea
de măsură este aceeaşi cu a valorilor din serie, şi, are o valoare comparabilă cu abaterile individuale de la
medie.
Exemplu de calcul:
Să presupunem că am măsurat zilnic tensiunea arterială sistolică la doi pacienţi timp de 10 zile, obţinând
pentru fiecare următoarele valori:
• 170, 180, 160, 180, 190, 190, 180, 190, 170, 190, pentru primul pacient şi
• 160, 170, 190, 160, 190, 190, 200, 180, 180, 180, pentru al doilea.
Lăsând la o parte studiul modului cum evoluează de la zi la zi tensiunea pacienţilor, care este bineînţeles
importantă, să ne propunem să determinăm care are tensiunea cu valori mai împrăştiate, indiferent de
evoluţia în timp.
Notând prima serie cu X iar pe a doua cu Y se constată uşor că ambele au media 180 (datele nu sunt reale, au
fost deliberat alese ca să simplifice calculele). Atunci, vom avea pentru abaterile de la medie şi pentru
pătratele lor următoarele valori:
σx = Dx = 111,1 = 10,5
σy = Dy = 177,7 = 13,3
calculele fiind făcute cu aproximaţie. Deci, este ceva mai împrăştiată seria Y.
De fapt, este bine de reţinut că:
• La medii aproximativ egale, este mai împrăştiată seria cu deviaţia standard mai mare.
• La deviaţii standard aproximativ egale, este mai împrăştiată seria cu media mai mică.
Ce se întămplă însă dacă mediile şi deviaţiile sunt foarte diferite? Atunci o bună apreciere se obţine dacă se
foloseşte raportul deviaţiei standard faţă de medie, exprimat în procente, acest raport fiind un alt indicator al
împrăştierii valorilor dintr-o serie. Acest indicator se numeşte coeficient de variaţie.
Coeficientul de variaţie. Este raportul dintre deviaţia standard şi medie, atunci când media este diferită de 0
şi se exprimă în procente:
σ
C.V . =
X
Pentru seriile de mai sus, coeficientul de variaţie este mai mare pentru cea mai împrăştiată, adică pentru cea
cu deviaţia standard mai mare:
• C.V.x= 10,5 / 180 = 0,058 = 5,8 %.
• C.V.y = 13,3 / 180 = 0,073 = 7,3%.
4
Biostatistică – Cursul al II-lea
Totuşi, seriile de mai sus sunt comparabile cu ajutorul abaterilor standard, deoarece au aceeaşi medie, şi, aşa
cum s-a văzut, la medii egale sau aproximativ egale, are valorile mai împrăştiate seria cu abaterea standard
mai mare.
Aprecierea cu ajutorul coeficientului de variaţie se face mai ales atunci când două serii de valori au medii
mult diferite şi deviaţiile standard pot să nu ne dea o indicaţie suficient de utilă. De exemplu, măsurând
latenţa şi amplitudinea semnalului electric pe nervul optic la 120 de pacienţi cu scleroză multiplă, s-au
obţinut următoarele rezultate:
• Latenţa medie: 113,6
• Abaterea standard a latenţei: 14,7
• Amplitudinea medie: 2,68
• Abaterea standard a amplitudinii: 2,03
Dacă dorim să apreciem împrăştierea valorilor din cele două serii, abaterile standard nu ne sunt de ajutor.
Într-adevăr, latenţa are o abatere standard mult mai mare decât amplitudinea, dar şi media latenţei este cu
mult mai mare decât aceea a amplitudinii. De aceea, în acest caz, doar coeficientul de variaţie ne permite o
apreciere corectă a împrăştierilor, în vederea comparării lor:
14,7
• Pentru latenţă: C.V .latenţa = = 0,129 = 12,9%
113,6
2,03
• Pentru amplitudine: C.V .amplitudine = = 0,757 = 75,7%
2,68
Se observă că valorile amplitudinii sunt cu mult mai împrăştiate decât cele ale latenţei. Acest fapt se
datorează atât unei variabilităţi biologice mai mari la amplitudine decât la latenţă, cât şi unei variabilităţi
datorate aparatelor de măsură, care măsoară latenţa cu mai multă precizie, în timp ce la măsurarea
amplitudinii, erorile de măsurare sunt mai mari.
Coeficientul de variaţie este cel mai fidel indicator al împrăştierii unei serii statistice, dar are şi el un
inconvenient, este cu atât mai fidel cu cât mediile sunt mai depărtate de 0.
La medii foarte apropiate de 0 îşi pierde din fidelitate şi nu este indicat să fie folosit. Acest lucru se întâmplă
mai ales atunci când valorile din serie sunt şi negative şi pozitive, şi când, din acest motiv, media poate fi
aproape de 0.
2.4. Indicatori de asimetrie. Atunci când valorile unei serii sunt distribuite nesimetric în jurul mediei, acest
fapt este imposibil de surprins cu ajutorul indicatorilor de dispersie. De aceea, s-au introdus indicatori care să
pună în evidenţă şi acest aspect al seriilor de valori: excentricitatea, sau asimetria. Va trebui să ţinem cont
atât de numărul de valori care sunt în stânga şi în dreapta mediei, cât şi depărtarea lor faţă de medie.
Mediana. Este un indicator al tendinţei centrale, şi anume este valoarea de mijloc, într-o serie de valori.
Definiţie:
Mediana este acea valoare dintr-o serie de valori, pentru care exact jumătate din ele sunt mai
mici decât ea, iar jumătate mai mari.
Altfel spus, este valoarea măsurată pentru individul din mijloc, dacă indivizii pe care s-au făcut măsurătorile
ar fi ordonaţi creascător. Pentru o înţelegere mai uşoară, să luăm un exemplu cu numai 10 înregistrări:
tensiunea arterială maximă la un bolnav în 10 zile:
150, 160, 160, 170, 160, 170, 150, 160, 170,160.
Dacă se aşază aceste valori într-un şir crescător, obţinem:
150, 150, 160, 160, 160, 160, 160, 170,170,170.
În acest caz, mediana se ia între a cincia şi a şasea valoare din acest şir ordonat, adică 160. Dacă aceste două
valori de mijloc diferă, se ia media lor aritmetică. Dacă numărul de măsurători este impar atunci madiana
este chiar valoarea de mijloc, care în acest caz este unică.
De fapt, mediana este importantă în primul rând la serii de valori cu foarte multe înregistrări, caz în care se
poate lucra direct pe tabelul de frecvenţă, sau chiar pe tabelul pe clase.
5
Biostatistică – Cursul al II-lea
Pentru a exemplifica modul cum se caută mediana pe tabelul de frecvenţă, vom lua tabelul 1.3, în care sunt
centralizate vârstele a 234 de pacienţi, fiecare valoare a vârstei având o anumită frecvenţă absolută Fi, o
frecvenţă relativă fi şi o frecvenţă relativă cumulată crescător, ficc (vezi mai sus, pentru amănunte).
Valoarea medianei se culege din coloana întâi, a vârstelor, dar pentru a şti care valoare trebuie aleasă, trebuie
să privim pe ultima coloană, a frecvenţelor cumulate, ficc, în dreptul frecvenţei cumulate de 50%.
Se observă că, pe coloana frecvenţelor cumulate, nu există frecvenţa de 50%, dar, există frecvenţa de 47,9%,
care este prea mică, şi frecvenţa de 53,8%, care este prea mare. În acest caz, mediana se citeşte din dreptul
primei frecvenţe cumulate crescător care depăşeşte 50%, în cazul nostru, în dreptul frecvenţei de 53,8%, şi
pe coloana Vârsta citim 55 ani. Deci, vârsta mediană este 55 ani.
Deci, vom spune că jumătate dintre pacienţi au vârstele cuprinse între 26 şi 55 ani şi jumătate au vârstele mai
mari decât 55 ani. Această alegere este permisă în cazul acesta al vârstelor care se înregistrează cu valori
întregi.
Mediana este un indicator al tendinţei centrale, ca şi media, dar oferă mai puţină informaţie decât aceasta din
urmă. La distribuţiile echilibrate, la care valorile din serie se dispun aproximativ simetric în stânga şi în
dreapta mediei, media şi mediana sunt foarte apropiate, deci folosirea medianei este superfluă. Dacă însă
mediana este mult în stânga sau în dreapta mediei, distribuţia se zice că este excentrică.
De exemplu, venitul median este mai informativ decât venitul mediu deoarece distribuţia veniturilor într-o
populaţie este foarte excentrică, fiind foarte mulţi indivzi cu salarii foarte mici şi foarte puţini indivizi cu
salarii foarte mari.
Cuartilele. În mod asemănător cu căutarea medianei, se poate pune problema căutării unor valori pentru care
să avem un sfert din valorile seriei mai mici şi respectiv, mai mari.
Definiţie:
Cuartila Q1 este acea valoare dintr-o serie de valori, pentru care 25% din valorile
seriei sunt sub Q1 şi 75%, peste.
Pentru tabelul de frecvenţe 1.3, cuartila Q1 se caută în dreptul frecvenţei relative cumulate crescător de 25%.
În tabel găsim procentul de 24,4% şi în dreptul lui vârsta de 47 de ani, precum şi frecvenţa de 29,9 şi în
dreptul ei vârsta de 48 de ani. Vom lua tot vârsta care corespunde primului procent peste 25%, adică 48 de
ani.
Definiţie:
Cuartila Q3 este acea valoare dintr-o serie de valori, pentru care 75% din valorile
seriei sunt sub Q3 şi 25%, peste.
Pentru tabelul 1.3, cuartila Q3 se ia din dreptul frecvenţei relative cumulate crescător de 75%. Poate fi luată
cu aproximaţie, 60 ani.
6
Biostatistică – Cursul al II-lea
Care este utilitatea medianei şi cuartilelor în aprecierea simetriei distribuţiei? Pentru a sublinia
utilitatea indicatorilor Q1 şi Q3, să considerăm şirul vârstelor:
• cel mai tânăr pacient,
• Q1,
• Vârsta mediană,
• Q3,
• cel mai în vârstă pacient.
Pentru tabelul 1.3, obţinem şirul: 26 ani, 48 ani, 55 ani, 60 ani, 69 ani.
• Se observă că sfertul (25%) pacienţilor cei mai tineri este situat în zona 26 - 48 de ani adică într-o
plajă de 22 de ani.
• Sfertul următor, este intre 48 şi 55 de ani, adică pe un interval de doar 7 ani.
• Al treilea sfert este situat între 55 şi 60 de ani, adică pe 5 ani,
• Cei mai în vărstă 25 % din pacienţi sunt între 60 şi 69 de ani, pe un interval de 9 ani.
Putem să spunem că vârstele pacienţilor se distribuie uşor asimetric, deoarece:
1. Sfertul cel mai tânăr se distribuie pe o plaja de 22 de ani, iar cel mai în vârstă pe o plajă de doar 9
ani.
2. Sfertul al doilea se distribuie pe 7 ani, iar al treilea doar pe 5 ani.
În cadrul laboratorului, alte exemple vor arăta utilitatea acestor indicatori.
Să mai observăm că mediana este într-un fel “cuartila de 50%”, adică Q2. Se spune că există trei cuartile: Q1,
mediana, Q3.
Decile Uneori, loturi mai mari de multe sute de indivizi trebuie urmărite foarte atent în ceea ce priveşte
modul cum sunt distribuite valorile şi de aceea s-au introdus indicatorii decile, care sunt de o acurateţe mai
bună decât cuartilele. Sunt 9 decile, fiecare corespunzând unui procent de 10%, 20%, ... 90% din lot,
asemănător cu cuartilele. Decila 5, sau de 50%, este de fapt mediana.
Centilele (percentilele) sunt mai rar folosite, în studii pe mii de cazuri, de obicei de un interes mai larg,
naţional, internaţional, în studii epidemiologice, şi sunt corespunzătoare procentelor de 1%, 2%,...99% din
lot. Centila de 25% este cuartila Q1, cea de 50% este mediana, iar cea de 75% este cuartila Q3. Centilele de
10%, 20%,….90%, sunt cele nouă decile. Centilele dau o imagine destul de exactă a distribuţiei valorilor
dintr-o serie de valori foarte mare. Nu are rost să calculăm centile pentru serii cu câteva sute de valori, pentru
că erorile sunt prea mari şi imaginea obţinută este deformată.
Modul. Dintre frecvenţele absolute apărute într-un tabel de frecvenţe, una este maximă. Clasa sau valoarea
corespunzătoare acestei frecvenţe maxime se numeşte mod. Modul este de obicei un indicator al tendinţei
centrale. În tabelul 1.2. modul este clasa de la 55 la 60 de ani, cu frecvenţa absolută 53. De obicei,
frecvenţele absolute au tendinţa de a creşte către mod, după care urmează o descreştere continuă. Modul este
deci o indicaţie relativă la maximul frecvenţelor absolute. Sunt însă distribuţii la care se înregistrează creşteri
şi descreşteri astfel încât pot apare două moduri sau chiar mai multe. Aceste distribuţii sunt mai rare şi au un
caracter cu totul special. Ele se numesc distribuţii bimodale sau multimodale, după caz.
Este un indicator care poartă în el puţină informaţie despre datele seriei. Modul este mult influenţat de
fluctuaţii aleatoare şi nu este prea recomandat pentru a aprecia tendinţa centrală a valorilor dintr-o serie. Mai
mult, unele distribuţii pot fi multimodale, caz în care modul nu mai indică prea mult despre tendinţa centrală.
Excentricitate. (Engl. Skew, Skweness). Este un indicator al asimetriei şi este luat de diverşi autori cu
diverse formule. Distribuţiile cu excentricitate pozitivă sunt mai des întâlnite decât cele cu excentricitate
negativă. În medicină, parametrii fiziologici sunt în majoritate modificaţi în diverse afecţiuni în sensul că au
valori peste normal. Astfel, tensiunea arterială o vom întâlni la valori normale, crescute sau scăzute. Cum
indivizi cu valori foarte mari, vom întâlni cu atât mai rar cu cât valoarea este mai mare, distribuţia va avea o
coadă spre dreapta. La fel la mulţi alţi parametric cum ar fi bilirubina, transaminazele, colesterolul, lipemia,
etc.
7
Biostatistică – Cursul al II-lea
Totuşi, vom întâlni şi parametri care se distribuie cu asimetrie stânga în patologii: hemoglobina, calcemia,
sodiul ionic, etc. Hemoglobina, de exemplu, se poate distribui cu frecvenţă mai mare la valori relativ
normale şi cu frecvenţe din ce în ce mai mici pe măsură ce coborâm la valori mai mici. Chiar dacă avem o
patologie de tip anemie, ne aşteptăm ca frecvenţa în jurul a 9-10 să fie mai mare decât frecvenţa în jurul a 7-
8, frecvenţă care ne aşteptăm să fie foarte mică.
Excentricitatea unei serii de valori x1, x2,…..xn, se calculează cu formula:
n
∑ (x i − X )3
sk = i =1
nσ 3
Cu cât o distribuţie este mai simetrică cu atât sk tinde la 0. Ca o regulă generală, la distribuţiile cu
excentricitate pozitivă, media este mai mare decât mediana. Evident, media este mai mică decât mediana
la distribuţiile cu excentricitate negativă. Există cazuri rare în care regula de mai sus nu este valabilă.
Sunt multe alte formule pentru alţi coeficienţi de excentricitate şi când vorbim despre excentriciatte, trebuie
să menţionăm la ce coeficient de excentricitate ne referim. Uneori se foloseşte un coeficient de asimetrie care
măsoară diferenţa dintre medie şi mediană, eventual raportată la abaterea standard sau la intervale
intercuartilice( Q3 - Q1). Indiferent ce formulă se foloseşte, o excentricitate egală cu zero, sau foarte apropiată
de zero, este un indiciu al simetriei repartiţiei valorilor din serie. Din contră, excentricităţi mult diferite de 0,
peste 0,15 -0,20, sau mai jos de -0,15 -0,20 sunt indicii ale asimetriei. Dăm mai jos, cu titlu facultativ, câteva
formule pentru coeficienţi de excentricitate.
sk1 =
X − Mo
sk2 =
3( X − Me)
sk3 =
2(Q3 + Q1 − 2 Me) (Q − Me) − (Me − Q1 )
sk 4 = 3
σ σ Q3 − Q1 (Q3 − Me) + (Me − Q1 )
Boltirea (facultativ). Boltirea este un indicator care se bazează pe lungimea cozilor unei distribuţii. Cele cu
cozi relativ mari se numesc leptocurtice iar cele cu cozi relativ mici se numesc platicurtice (vezi figura
1.4). Formula de calcul a boltirii este:
n
∑ (x i − X )4
k= i =1
−3
nσ 4
Aşa cum se va vedea în capitolul despre repartiţii, boltirea este un indicator util în aprecierea apropierii
repartiţiei de repartiţia normală. Distribuţiile din figura 1.4 au aceeaşi medie, aceeaşi dispersie, aproximativ
aceeaşi excentricitate dar diferă mult ca boltire.
8
Biostatistică – Cursul al II-lea
dintre indicatorii statistici. Uneori trebuie folosiţi unii dintre indicatori, fiind cei mai eficienţi, alteori trebuie
folosiţi alţii.
Pentru a avea o ideie despre modul cum trebuie folosiţi indicatorii statistici, ei sunt clasificaţi în câteva
categorii mai importante, categorii care vor fi exemplificate mai jos, insistând pe aceia care sunt cei mai
importanţi, restul fiind indicatori mai rar folosiţi, numai în cazuri speciale.
Indicatori ai tendinţei centrale. Cei mai importanţi indicatori ai tendinţei centrale sunt media, mediana şi
modul. Media indică tendinţa centrală atunci când seria de valori este repartizată simetric în jurul ei şi când
valorile nu au o dispersie exagerat de mare. În cazul seriilor de valori distribuite foarte asimetric, tendinţa
centrală nu mai este indicată de către medie, ci de către mediană.
Modul, este un indicator al tendinţei centrale, la seriile unimodale, adică atunci când în tabelul de frecvenţe
există un singur maxim. Dacă avem o serie multimodală, modul îşi pierde calitatea de indicator al tendinţei
centrale.
Indicatori ai împrăştierii. Folosiţi mai des în practică, şi deci mai importanţi, sunt dispersia, abaterea
standard şi coeficientul de variaţie.
Abaterea standard este indicatorul folosit cel mai des pentru aprecierea împrăştierii, dar atunci când mediile
diferă mult, este mai util coeficientul de variaţie. Dispersia este folosită ca măsură a împrăştierii în testele
statistice (vezi capitolul dedicat testelor statistice).
Indicatori ai asimetriei. Mediana şi cuartilele sunt cel mai mult folosite pentru aprecierea asimetriei
valorilor dintr-o serie. De fapt, mediana se foloseşte în combinaţie cu media pentru aprecierea asimetriei. O
mediană mult diferită de medie indică asimetrie puternică, iar o mediană foarte apropiată de medie indică o
tendinţă spre simetrie.
Cuartilele, se folosesc în combinaţie cu mediana şi indicatorii minim şi maxim, pentru aprecierea simetriei.
Indicatorii statistici fundamentali. Sunt indicatorii care poartă în ei cea mai mare cantitate de informaţie
din informaţia conţinută de seria de valori.
La seriile de valori distribuite relativ simetric, indicatorii statistici fundamentali sunt media şi deviaţia
standard. În capitolul dedicat repartiţiilor, se va vedea că, dacă o serie de valori are o repartiţie normală şi
are suficient de multe valori, cei doi indicatori, poartă în ei aproape toată informaţia. Astfel, dacă o serie de
valori de acest tip are media X şi deviaţia standard σ , scrierea încetăţenită este X ± σ
La seriile distribuite asimetric, deşi se consideră ca indicatori fundamentali tot media şi deviaţia standard,
sunt mai utile mediana şi cuartilele. În acest caz, este încetăţenită scrierea medianei M şi a cuartilelor Q1 şi
Q3 în forma M [Q1; Q3]. De exemplu, dacă o serie puternic asimetrică are mediana 2,45, iar cuartilele sunt
Q1=1,54 şi Q3=6,23, acest fapt se precizează astfel: 2,45 [1,54; 6,23].
3. Chestiuni de examen:
1. Definiţia si formula mediei
2. Formula deviaţiei standard si a coeficientului de variaţie
3. Definiţia medianei si a cuartilelor Q1, Q3
9
Biostatistică – Cursul al II-lea
6. Media unei serii de valori numerice este un indicator al:
A. Tendinţei centrale a valorilor seriei
B. Împrăştierii valorilor seriei
C. Plaja de valori între care sunt cuprinse valorile seriei
D. Media nu este indicator statistic
12. Dacă media unei serii de valori este 10 şi dispersia 4, atunci coeficientul de variaţie este:
A. 40%
B. 20%
C. 80%
D. 10%
13. Dacă mediile a două serii de valori sunt foarte diferite, iar abaterile standard sunt tot foarte diferite,
atunci este mai împrăştiată :
A. Cea cu coeficientul de variaţie mai mare
B. Cea cu raportul dintre abaterea standard şi medie mai mare
C. Cea cu coeficientul de variaţie mai mic
D. Împrăştierile celor două serii de valori nu se pot compara
16. Dacă o serie de valori are în componenţă 21 de numere, atunci, pentru aflarea medianei, se ordonează
valorile crescător şi se ia:
A. Valoarea a 11-a din şirul ordonat
B. Media între valorile a 10 şi a 11-a
C. Media între valorile a 11 şi a 12-a
D. Valoarea a 10-a din şirul ordonat
17. Dacă o serie de valori are în componenţă 24 de numere, atunci, pentru aflarea medianei, se ordonează
valorile crescător şi se ia:
A. Valoarea a 12-a din şirul ordonat
B. Media între valorile a 11-a şi a 12-a
C. Media între valorile a 12-a şi a 13-a
D. Valoarea a 13-a din şirul ordonat
24. Indicatorii statistici pentru tendinţa centrală a valorilor unei serii de valori sunt:
A. Media, dispersia şi mediana
B. Media, abaterea standard şi modul
C. Media, dispersia şi excentricitatea
D. Media, mediana şi modul
11
Biostatistică – Cursul al III-lea
CURSUL AL III-LEA
În tabelele cu date medicale, de cele mai multe ori, o înregistrare conţine datele referitoare la un
pacient. Acestea sunt listate pe o linie a tabelului. De aceea, uneori, în aceste tabele, este acelaşi
lucru să spunem “înregistrare”, “linie a tabelului”, sau “pacient”.
În orice tabel, este posibil să fie sortate înregistrările după coloanele existente în acel tabel. De
exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost prevăzută o
coloană pe care să fie înregistrate afecţiunile.
Tabelul de mai jos este o mică porţiune dintr-un tabel de date, din care au fost decupate numai
primele 8 coloane şi primele 16 linii.
Acest tabel, sortat după criteriul vârstei, adică după coloana „VIRSTA”, arată ca în figura de mai
jos. A fost efectuată sortarea ascendentă, adică înregistrările, sau pacienţii au fost aranjaţi după
vârstă în ordine crescătoare.
Biostatistică – Cursul al III-lea
Dacă însă, vom aranja înregstrările în ordine descrescătoare, tabelul va arăta în felul ca în tabelul de
mai jos.
Dacă vom sorta înregistrările după criteriul duratei de supravieţuire, adică după coloana
“DURSUP”, atunci tabelul va arăta în felul următor:
Sortare multicriterială
Este sortarea în care se ţine cont de două sau mai multe criterii
Exemplu: sortarea după nume şi prenume, sortarea după stadiul de evoluţie în cancer şi
durata supravieţuirii
Programul sortează după primul criteriu şi, NUMAI dacă apar şi valori egale, acele
înregistrări le sortează şi după al doilea criteriu, etc.
De exemplu, acelaşi tabel de mai sus, sortat după nume şi prenume, va arăta astfel:
Biostatistică – Cursul al III-lea
Principiul de bază al sortării multicriteriale se observă în tabelul de mai jos, unde înregistrările au
fost sortate după două criterii: stadiul de evoluţie, înregistrat pe coloana numită STEV şi drata de
supravieţuire, înregistrată pe coloana DURSUP.
Se observă că programul a ordonat înregistrările după prima coloană de sortare, STEV, şi la acele
înregsitrări la care a găsit acelaşi stadiu, sunt sortate după a doua coloană, DURSUP.
Acelaşi tabel, poate fi sortat şi după trei coloane. În figura de mai jos, înregistrările sunt sortate
după sex, mediu şi vârstă, în această ordine. Deci, programul a sortat iniţial după sex, punând întâi
bărbaţii (b) şi apoi femeile (f). Bărbaţii au foat apoi sortaţi după mediu, întâi cei din rural (r) şi apoi
cei din urban (u), iar la fiecare categorie, ordonarea se face după cel de-al treilea criteriu: vârsta. La
fel, femeile sunt listate întâi cele din rural, apoi cele din urban, în ordinea vârstei.
Biostatistică – Cursul al III-lea
Pentru realizarea tabelelor separate, se vor sorta înregstrările după terapie şi răspuns terapeutic,
rezultatul sortării find listat în tabelul de mai jos.
Biostatistică – Cursul al III-lea
Se observă că în cadrul terapiei CH (chemoterapie), sunt patru tipuri de răspuns terapeutic, şi anume
D – dispărut, RC-remisiune completă, RN-răspuns negativ şi RP-remisiune parţială. În cadrul celei
de-a doua terapii, sunt doar două tipuri de răspuns, RC şi RP.
Selectarea este operaţia prin care o parte a înregistrărilor unui tabel este temporar
îndepărtată, rămânând numai înregistrările care îndeplinesc un criteriu dat.
În tabelul de mai jos, este redată o mică parte a unui tabel foarte mare, din care au fost păstrate
primele 10 coloane şi primele 54 de linii (adică primii 54 de pacienţi, sau 54 de înregistrări).
Având doar aceste informaţii, vom face câteva exerciţii, fără a uita că, în practică avem de lucru cu
tabele mult mai lungi, de sute sau mii de pacienţi şi operaţiile pe care le vom face ca exerciţiu aici,
în practică vor arăta diferit.
Biostatistică – Cursul al III-lea
Una din cele mai simple operaţii de selectare este separarea bărbaţilor şi a femeilor în două tabele
diferite, mai mici.
Pentru a face o selectare, într-un tabel trebuie întâi introduse filtre de selectare, care arată ca în
figura de mai sus. Ele sunt reprezentate grafic în Excel prin mici pătrate pe prima linie a tabelului,
pe fiecare pătrat fiind aşezat câte un triunghi cu vârful în jos (veţi exersa la laborator).
Filtru unic de selectare. După cum se vede în figura de mai sus, pe coloana sex nu este înregistrat
decât fie litera b, pentru bărbaţi, fie f, pentru femei. Prin acţionarea filtrului de pe coloana SEX, veţi
alege fie una, fie cealaltă din cele două litere (la laborator). Efectul va fi cel din figura de mai jos,
unde se observă că au fost selectate femeile.
La fel, în figura de mai jos, se observă că au fost aleşi numai pacienţii din stadiul 3, care au fost
trataţi cu chemoterapie “CH”. Alegerea pacienţilor din stadiul 3 a fost făcută prin acţionarea
butonului de pe coloana STADIUEV, iar alegerea celor trataţi cu chemoterapie a fost făcută prin
acţionarea butonului de pe coloana TERAPIE.
Biostatistică – Cursul al III-lea
Mai jos, listăm câteva alte condiţii pe care le putem cere, pentru alegerea categoriilor respective de
pacienţi:
SEX=”f” – alege numai femeile
MEDIU=”r” – alege numai pacienţii din mediul rural
TERAPIE=”CH” – alege numai pacienţii trataţi cu chemoterapie
RASPTERAP=”RC” – alege numai pacienţii cu remisiune completă (RC)
NUME=”Streche” – alege pacientul cu numele Streche
NUME>”Fronie” – alege pacientul cu numele Fronie
Când punem condiţii în care trebuie să alegem valori numerice, folosirea ghilimelelor din exemplele
de mai sus nu mai este necesară. Programul Microsoft Excel nu foloseşte ghilimele nici când o
condiţie alege între litere sau texte. Veţi vedea când lucraţi cu EPI INFO 2000, că folosirea
ghilimelelor este obligatorie, însă numai la alegerea de litere, ca în exemplele de mai sus. Spre
deosebire, în exemplele de mai jos, în care trebuie alese sau se fac comparări cu numere, folosirea
ghilimelelor nu este necesară
STADIUEV=3 – alege pacienţii aflaţi în stadiul al treilea de boală
VIRSTA<30 – alege pacienţii sub 30 de ani, exclusiv 30
VIRSTA=50 – alege numai pacienţii cu vârsta de 30 de ani
VIRSTA>=60 – alege pacienţii cu vârsta peste 60 de ani, inclusiv 60
DURATASUP>=24 – alege pacienţii cu durata de supravieţuire de 24 de luni şi peste peste
24 de luni
DURATASUP<=36 – alege pacienţii cu durata de supravieţuire de 36 de luni şi sub 36 de
luni
Două sau mai multe astfel de condiţii simple pot fi unite şi formează o condiţie dublă, sau triplă
(după caz) de selectare, aşa cum sunt exemplele următoare. După exemple, sunt listate şi rezultatele
aplicării filtrului pe tabelul de mai sus.
1. SEX=”f” AND MEDIU =”u” – selectează pacientele femei din mediul urban
2. SEX=”b” AND RASPTERAP=”RC” – selectează bărbaţii care au ca şi răspuns terapeutic
remisiunea completă
Biostatistică – Cursul al III-lea
Condiţiile simple pot fi unite şi cu ajutorul conectorului OR (=SAU). O înregsitrare este păstrată în
tabel dacă îndeplineşte fie una din condiţii, fie cealaltă condiţie, fie pe amândouă. În aceste cazuri,
urmărirea rezultatului unei selecţii poate deveni mai greu de urmărit.
Exemple:
1. STADIUEV=4 OR DURATASUP>24 – selecteză pacienţii care, fie sunt în stadiul 4, fie au
supravieţuiri peste 24 de luni. Elimină acei pacienţi care nu îndeplinesc nici una din condiţii,
adică elimină pacienţii din stadiile 1, sau 2, sau 3, precum şi toţi pacienţii cu durate de
supravieţuire sub 24 de luni
2. STADIUEV=4 OR RASPTERAP=”RC” – selecteză pacienţii care, fie sunt în stadiul 4, fie
au răspunsul terapeutic remisiune completă. Elimină acei pacienţi care nu îndeplinesc nici
una din condiţii, adică elimină pacienţii din stadiile 1, sau 2, sau 3, precum şi toţi pacienţii
cu alte răspunsuri terapeutice
3. VIRSTA<35 OR DURATASUP<24 – selectează pacienţii care au fie vârsta sub 35 de ani,
fie durata de supravieţuire sub 24 de luni. Elimină pacienţii care au 35 de ani sau mai mult,
precum şi pacienţii care au supravieţuire de 24 de luni sau mai mare
Rezultatul obţinut prin aplicarea condiţiei 1 de mai sus, la tabelul din pagina 1
Biostatistică – Cursul al III-lea
Rezultatul obţinut prin aplicarea condiţiei 2 de mai sus, la tabelul din pagina 1
Rezultatul obţinut prin aplicarea condiţiei 3 de mai sus, la tabelul din pagina 1
Biostatistică – Cursul al III-lea
Uneori, putem pune condiţii care au ca rezultat un tabel fără pacienţi. Acest fapt se întâmplă ori de
câte ori, în tabelul în care facem selecţia, nu este nicio înregistare care să îndeplinească condiţiile
cerute. Ca exemplu, aţi văzut condiţia simplă nr.7, de mai sus, care a avut ca efect obţinerea unui
tabel cu nicio înregstrare.
Alteori, condiţiile pe care le punem sunt în contradicţie una cu alta şi în mod logic nicio înregistrare
nu le va îndeplini. Tabelul rezultat după selecţie va fi un tabel fără înregsitrări. De data aceasta însă,
nu din cauză că nu există înregsitrări care să îndeplinească condiţiile ci pentru că nici nu ar putea
exista înregsitrări care să le îndeplinească.
Exemple:
VIRSTA<30 AND VIRSTA>50 – niciun pacient nu pate avea şi vârsta sub 30 de ani ŞI
vârsta peste 50 de ani
SEX=”f” AND SEX=”b” – niciun pacient nu poate fi şi femeie şi bărbat
RASPTERAP=”RC” AND RASPTERAP=”RP” – niciun pacient nu poate avea şi remisiune
parţială şi remisiune completă.
3. Chestiuni de examen:
1. Ce este sortarea?
2. Ce este selectarea sau filtrarea?
Biostatistică - Cursul al IV-lea
CURSUL AL IV-LEA
2. Graficul histogramă
Ca şi concept, histograma este de fapt echivalentul grafic al tabelului de frecvenţe. Mai întâi să lucrăm pe un
exemplu concret şi apoi să urmărim problemele specifice care pot face din histogramă un instrument util de
lucru sau un balast.
Avem mai jos un tabel care sintetizează situaţia parametrului Greutate corporală la 1014 pacienţi cu
diferite afecţiuni:
Tabelul 1 Greutatea corporală a 1014 pacienţi cu diferite afecţiuni,
pe clase din 5kg în 5kg
Frecvenţa
Clasa Greutate(Kg) (Nr indivizi)
1 35..40 17
2 40..45 46
3 45..50 84
4 50..55 108
5 55..60 130
6 60..65 136
7 65..70 160
8 70..75 113
9 75..80 106
10 80..85 54
11 85..90 29
12 90..95 12
13 95..100 9
1
Biostatistică - Cursul al IV-lea
Acum să privim graficul din figura 1, care reprezintă situaţia din tabel:
2
Biostatistică - Cursul al IV-lea
În figura 2, este reprezentată histograma corespunzătoare pentru tabelul 2. Se observă că barele histogramei
au înălţimi descrescătoare întocmai ca şi frecvenţele absolute ale claselor.
3
Biostatistică - Cursul al IV-lea
Figura 5 Histograma taliei la 1042 pacienţi pe clase din 5cm în 5cm. Este un exemplu de distribuţie cu o
uşoară asimetrie spre stânga, mai rar întâlnită în practică.
Figura 6 Histograma vârstelor la 308 pacienţi cu afecţiuni hepatice. Se observă că graficul are două vârfuri. Se spune
despre acest tip de distribuţie a datelor că este bimodală. Este un lot neomogen, alcătuit din două subloturi, unul cu
maximul în jurul vârstei de 45 – 50 de ani şi celălalt în jurul vârstei de 65 – 70 de ani. În practică se întâlnesc rar
astfel de situaţii. În mod normal, într-un asemenea caz, se studiază fiecare sublot în parte.
4
Biostatistică - Cursul al IV-lea
Poligonul frecvenţelor
Este un grafic care reprezintă frecvenţele absolute dintr-un tabel de frecvenţă printr-o linie frântă. Clasele se
realizează ca şi la histogramă. Linia frântă, leagă puncte din plan care au ca ordonate frecvenţele de
reprezentat, iar ca abscise, mijloacele claselor. Graficul se poate realiza şi din histogramă, prin unirea
mijloacelor laturilor superioare ale barelor.
În figura 7 este reprezentat un exemplu de modul cum se obţine poligonul frecvenţelor din histogramă.
Figura 7 Poligonul frecvenţelor obţinut prin unirea mijloacelor laturilor superioare ale barelor unei histograme.
În figura 8 este reprezentat poligonul frecvenţelor pentru greutatea a 1042 de pacienţi cu diferite afecţiuni,
din 5 în 5 Kg.
Figura 8 Poligonul frecvenţelor pentru greutatea a 1042 de pacienţi cu diferite afecţiuni, cu clase din 5 în 5 Kg.
Deşi oferă o imagine vizuală foarte bună a modului cum sunt distribuite valorile din serie pe clase, poligonul
frecvenţelor este mai puţin folosit decât histograma, care oferă şi ea tot informaţia despre distribuţia valorilor din serie
pe clase. Aceasta deoarece histograma pare ochiului un grafic mai bogat. În realitate, între cele două grafice, nu există o
diferenţă calitativă. Ele oferă aceeaşi informaţie.
ATENŢIE! Graficul histogramă şi graficul poligonul frecvenţelor, conţin exact aceeaşi cantitate de
informaţie, dacă au la bază acelaşi tabel de frecvenţe.
5
Biostatistică - Cursul al IV-lea
În figura 9, este exemplificată influenţa lungimii claselor asupra aspectului unei histograme. La fiecare
histogramă, s-au folosit 738 de valori. Ceea ce se modifică de la histogramă la histogramă este
lungimea claselor şi, implicit numărul de clase. Se observă că lungimi prea mari (din 5 în 5, din 4 în 4,
din 3 în 3, din 2 în 2 şi din 1,5 în 1,5) dau histograme care ascund distribuţia. Lungimi prea mici ( din
0,5 în 0,5, din 0,25 în 0,25) dau prea multe detalii inutile. Cele mai potrivite lungimi în acest caz sunt
din 1 în 1 şi din 0,75 în 0,75.
Figura 9 Influenţa lungimii claselor asupra aspectului unei histograme. Lungimea corectă în acest caz
este din 1 în 1
Alegerea numărului de clase. De obicei, programele de calculator realizează histograme după ce
utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge în situaţii când un astfel de tabel are un număr total
neindicat de clase, de obicei se calculează lungimea aproximativă a unei clase în aşa fel încât numărul de
clase să fie cel dorit. Acest lucru se poate realiza dacă se caută cea mai mică şi cea mai mare valoare din
seria de date (notate mai jos cu min şi max), şi se ia ca lungime a unei clase, aproximativ rezultatul
următorului calcul:
max− min
L=
nr . clase
De exemplu, dacă în seria vârstelor unor pacienţi, cel mai tânăr pacient are 26 de ani, iar cel mai vârstnic are
78, pentru a obţine 6 clase (număr de clase indicat pentru vârste de adulţi), avem L= (78 - 26) / 6 = 8,6. Deci
este indicat să se ia clase de 10 ani, prin rotunjire. Dacă însă se doresc mai multe clase, să zicem 10, atunci
obţinem: L = (78 - 26) / 10 = 5,2 şi este indicat să se ia clase din 5 în 5 ani. Prima clasă va fi [25,30), iar
următoarele: [30, 35), [35, 40),….[75, 80).
Numărul de clase nu este neapărat 10, el se alege de fapt de către cel care face histograma, astfel ca să se
piardă cât mai puţină informaţie, dar şi numărul de clase să nu fie prea mare căci atunci luăm în considerare
aspecte prea nesemnificative.
Ca regulă generală, este bine să se reţină că:
• Se pierde cu atât mai multă informaţie cu cât numărul de clase este mai mic. Nu se recomandă
histograme cu 2-4 clase
• Un număr prea mare de clase duce la o ascundere a esenţialului de către aspectele nesemnificative
6
Biostatistică - Cursul al IV-lea
Întrucât cei care nu au experienţă nu ştiu cum să aleagă numărul de clase, recomandăm:
• Pentru câteva zeci de valori, să se aleagă maximum 6 – 8 clase
• Pentru câteva sute de valori, să se aleagă între 10 şi 15 clase
• Pentru câteva mii de valori, să se aleagă peste 15 clase
Nu se recomandă folosirea a mai mult de 20 – 30 de clase decât în cazuri speciale, în studii cu multe mii de
cazuri. Nici mai puţin de 4 – 6 clase nu este recomandat să se folosească. Nu se recomandă folosirea
histogramelor dacă nu avem cel puţin câteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se
face o histogramă.
Alte exemple: Dacă avem de reprezentat printr-o histogramă valorile pentru hemoglobină, iar minimul este
8,13 iar maximul este 16,23, atunci, pentru a obţine 10 clase, vom face calculul:
max − min 16,23 − 8,13 8,1
L= = = = 0,81
nr.clase 10 10
În acest caz, vom rotunji la 1 şi vom lua clasele din 1 în 1, începând de la 8: [8, 9), [9,10), [16,17).
În cazul Imunoglobulinei G, din cei 235 de pacienţi, valoarea minimă a fost 112, în timp ce maximul a fost
900. Dacă dorim tot 10 clase, atunci calculul este
max − min 900 − 112 888
L= = = = 88,8
nr.clase 10 10
Vom lua clasele din 100 în 100, începând de la 100: [100,200), [200,300) …. [800,900), [900-1000).
Figura 10 Folosind o serie de 10000 de valori, se pot face histograme din ce în ce mai fine, care trec de la aspectul de
″treaptă″, la acela de ″curbă″
7
Biostatistică - Cursul al IV-lea
Pe măsură ce histogramele devin din ce în ce mai fine, ele tind să se asemene cu o curbă. Dacă volumul
seriei ar fi mult mai mare, asemănarea cu o curbă ar fi atât de clară încât ochiul nu ar mai putea observa
aspectul de ″treaptă″. Acest proces este vizibil în special atunci când în locul histogramelor folosim
poligoane ale frecvenţelor. În figura 11, sunt reprezentate poligoanele frecvenţelor efectuate pe valorile din
seria folosită în figura 10. La fiecare grafic s-au folosit o parte din valorile seriei, anume: la primul grafic
1000 de valori, la al doilea grafic 2000 de valori, şi aşa mai departe până la ultimul grafic, care este executat
folosind toate cele 10000 de valori din serie.
8
Biostatistică - Cursul al IV-lea
În medicină şi biologie, ca şi în celelalte domenii de activitate, există o varietate largă de curbe ale densităţii
de probabilitate. În figura 12, sunt prezentate câteva forme de astfel de curbe, simetrice, asimetrice cu
asimetri stângă, cu asimetrie dreaptă, etc.
Figura 14. Dacă extragem aleator un individ dintr-o populaţie care are curba de repartiţie cunoscută, valoarea
măsurată la acel individ este cuprinsă între două numere reale a şi b cu o probabilitate egală cu aria cuprinsă
între curbă, axa orizontală şi cele două verticale în a şi b.
9
Biostatistică - Cursul al IV-lea
4. Densitatea Normală (Gauss)
Curba Gauss, sau clopotul lui Gauss a jucat în istoria ştinţei şi joacă şi acum un rol foarte important, iar în
medicină foarte mulţi parametri legaţi de organismul uman, de legile fundamentale ale viului, sunt repartizaţi
după această curbă. Ce este de fapt această curbă?
Formula curbei lui Gauss, este:
( x − m) 2
1 −
f ( x) = ⋅e s2
(facultativ!!!)
s 2π
Se observă că această curbă depinde de doi parametri, m şi s, şi ea este perfect determinată în momentul în
care se cunosc aceşti parametri. Deoarece curba descrie repartiţia unei populaţii, cei doi parametri reprezintă
media (m) şi abaterea standard (s) ale populaţiei respective.
Graficul din figura 15, care este graficul unei curbe Gauss, ne arată că, spre centru probabilităţile sunt cu atât
mai mari cu cât suntem mai aproape de medie, iar spre margini probabilităţile scad apropiindu-se de zero pe
măsură ce ne îndepărtăm din ce în ce mai mult de medie. Curba este simetrică, niciodată însă simetria nu este
perfectă pe o histograma particulară sau pe un poligon al frecevenţelor, dar curba ideală este perfect
simetrică. Subliniem că prin curbă ideală înţelegem curba către care se îndreaptă poligonul frecvenţelor
când numărul de cazuri tinde la infinit iar lungimea claselor se apropie de zero. Uneori, graficul funcţiei este
denumit “clopotul lui Gauss” datorită formei lui deosebite, asemănătoare unui clopot.
Figura 15 Curba repartiţiei normale, sau curba lui Gauss. Are un maxim în dreptul mediei, două puncte de
inflexiune (în dreptul valorilor m-s şi m+s), tinde la zero pe măsură ce ne îndepărtăm de medie la stânga şi la
dreapta.
***
(Facultativ). În analiza matematică se arată că graficul acestei funcţii, cel din figura 15, are un maxim pentru
x=m şi două puncte de inflexiune (în care devine din concavă, convexă), la m-s şi la m+s. Curba normală
mai este cunoscută sub denumirea de legea Gauss-Laplace sau legea normală şi apare pentru prima dată într-
o lucrare a matematicianului Moivre (1667 – 1754), apoi în lucrările lui Pierre Simon de Laplace (1749 –
1827). Celebră este făcută de lucrările matematicianului Gauss (1777 – 1855). Utilitatea acestei repartiţii se
datorează mai multor cauze, printre care:
• Multe fenomene aleatoare din natură se supun exact sau aproximativ acestei legi. Astfel, deviaţiile
stânga-dreapta de la medie ale erorilor de măsurare urmează această lege simetrică şi cu proprietatea
că, erori din ce în ce mai mari sunt din ce în ce mai rare.
10
Biostatistică - Cursul al IV-lea
• O teoremă foarte importantă, teorema limită centrală, asigură acestei repartiţii un rol privilegiat prin
faptul că suma unui număr mare de variabile aleatoare independente una de alta, dar identic
repartizate, este repartizată Gauss sau aproximativ Gauss. Această teoremă ne asigură de
exemplu, de faptul că, media calculată pe un lot are o repartiţie Gauss sau apropiată.
• S-a demonstrat că multe repartiţii empirice întâlnite în practică pot fi aduse la o repartiţie Gauss prin
transformări simple şi în felul acesta devin mai uşor de studiat.
***
Trebuie reţinut că repartiţia Gauss are următoarele proprietăţi importante:
• Este simetrică faţă de media m
• Are două puncte de inflexiune, la m-s şi m+s
• Are maximul pentru x = m
• Are două cozi spre + şi – infinit care se apropie din ce în ce mai mult de axa orizontală, fără să o
atingă
• Mediana şi modul, coincid cu media
• Deoarece mediana coincide cu media, jumătate din aria de sub curbă se află în stânga mediei şi
jumătate în dreapta. Deci, într-o populaţie repartizată Gauss, 50% din indivizi sunt sub medie şi 50%
peste medie
• Aria cuprinsă între curbă şi axa orizontală este 1 indiferent de medie şi de deviaţia standard.
• Aria cuprinsă între curbă, axa orizontală şi două verticale în dreptul numerelor a şi b, este
probabilitatea ca, extrăgând aleator un individ din populaţie şi făcând măsurătoarea pe acel individ,
valoarea obţinută x, să fie între a şi b (Vezi figura 16).
Figura 16 Aria cuprinsă între curbă, axa orizontală şi două verticale în dreptul numerelor a şi b, este
probabilitatea ca, extrăgând aleator un individ din populaţie şi făcând măsurătoarea pe acel individ, valoarea
obţinută x, să fie între a şi b
Repartiţia Gauss, este de fapt o famile de repartiţii ce depinde cei doi parametri: media şi deviaţia standard.
În figura 17, sunt desenate câteva curbe de repartiţie Gauss, mai mult sau mai puţin aplatizate, după cum
deviaţia standard este mai mică sau mai mare.
11
Biostatistică - Cursul al IV-lea
Figura 17 Diferite curbe Gauss mai mult sau mai puţin aplatizate, aplatizarea fiind dată de valoarea deviaţiei
standard, s. Cu cât valoarea lui s este mai mare, cu atât curba este mai aplatizată. Când s ia valori mici, curba
este mai înaltă.
Avem de asemenea, o infinitate de curbe Gauss care au aceeaşi deviaţie standard dar au medii diferite. Ele
sunt identice ca formă, doar sunt localizate diferit în plan şi pot fi suprapuse prin translaţii stânga-dreapta. În
figura 18, sunt desenate câteva curbe Gauss care diferă numai prin medie. Având toate aceeaşi deviaţie
standard, au aceeaşi aplatizare.
Figura 18. Curbe Gauss cu aceeaşi deviaţie standard. Ele sunt la fel de aplatizate şi pot fi suprapuse prin
translaţii stânga-dreapta.
Dacă fixăm media dar permitem orice deviaţie standard, există o infinitate de curbe Gauss care au aceeaşi
medie. Ele sunt localizate identic stânga-dreapta, dar diferă prin aplatizare mai mult sau mai puţin
accentuată. În figura 19, sunt desenate 3 curbe Gauss cu aceeaşi medie şi cu deviaţiile standard 1, 1.2 şi 1.5.
Figura 19. Trei curbe Gauss cu aceeaşi medie şi deviaţii standard diferite
***
(Facultativ). Aşa cum am arătat, repartiţia normală sau Gaussiană este des întâlnită în studiul fenomenelor
biologice şi are unele proprietăţi utile. În biologie, una din problemele importante care se pun în legătură cu
datele pe care le măsurăm este aceea dacă se încadrează sau nu în limitele de normalitate. Repartiţia
normală ne poate ajuta să dăm un răspuns acestei întrebări, cel puţin pentru acele date care sunt distribuite
normal. Dacă o variabilă are repartiţie Gauss, atunci se poate stabili cât de plauzibilă este media şi deviaţia
standard găsite prin măsurători pe un lot şi se pot face comparaţii cu mediile care ar trebui să fie obţinute şi
care sunt cunoscute din literatura de specialitate (vezi cursul despre eşantionare şi cel despre teste statistice
pentru amănunte).
Cunoscând despre o variabilă că are repartiţie Gauss, se pot deduce unele afirmaţii despre valorile pe care le
poate lua. Cum folosim această repartiţie pentru a deduce anumite concluzii despre variabila care ne
interesează? După cum am mai afirmat, pentru o variabilă repartizată normal, procentul din populaţie situat
între două limite date este aria cuprinsă între curba Gauss, axa orizontală şi cele două verticale la limitele
fixate. De obicei se consideră intervalele în jurul mediei, simetrice, cu limite situate la o distanţă de una sau
mai multe abateri standard de medie.
***
Sunt esenţiale următoarele proprietăţi ale curbei Gauss, proprietăţi care nu sunt valabile la alte tipuri de
distribuţii:
12
Biostatistică - Cursul al IV-lea
În intervalul [m-s, m+s] se află aproximativ 68% din indivizii unei populaţii repartizate normal (vezi figura
20). Aceasta însă nu este o majoritate suficient de mare pentru a fi aproape de siguranţă dacă ne întrebăm
între ce limite sunt situate valorile măsurate pentru indivizii din populaţie.
Figura 20. Între [m-s, m+s] se află aproximativ 68% din indivizii unei
populaţii repartizate normal
De aceea se ia cel mai adesea în considerare intervalul [m-2s, m+2s] în care se situează aproximativ 95% din
indivizii unei populaţiei repartizate normal. Acest interval este suficient de larg şi cuprinde o majoritate
zdrobitoare a populaţiei aşa că este cel mai indicat să fie folosit ca interval de normalitate.
Figura 21. Între [m-2s, m+2s] se află aproximativ 95% din indivizii unei
populaţii repartizate normal
Uneori, se iau intervale mai cuprinzătoare, ca [m-3s, m+3s], interval în care se situează peste 99% din
populaţia considerată (vezi figura 22).
Figura 22. Între [m-3s, m+3s] se află peste 99% din indivizii unei
populaţii repartizate normal
Chiar dacă se consideră de obicei că pentru variabilele folosite uzual în practica medicală valorile medii sunt
cunoscute şi se cunosc şi aşa-numitele intervale de normalitate, în realitate se cunosc doar foarte bune
aproximări ale lor obţinute pe baza unor studii foarte atente, pe loturi largi. Valorile reale ale mediei şi
deviaţiei standard pentru o populaţie distribuită normal, notate cu m şi s, sunt aproximate cu X şi σ care sunt
indicatorii medie şi abatere standard pentru un lot extras din populaţia respectivă.
Cum se stabileşte cât de bune sunt aceste aproximări, care se mai numesc estimări, se va vedea în cursul
despre estimaţii. Oricum, se folosesc din plin proprietăţile distribuţiei Gaussiene.
5 Graficul cu bare
Este graficul care reprezintă prin bare verticale, frecvenţele unui tabel de frecvenţe pentru variabile calitative (date
nominale) sau variabile ordinale. Deşi pare asemănător cu histograma, între cele două tipuri de grafice există diferenţe.
Ca aspect, histograma are barele lipite, în timp ce graficul cu bare lasă o oarecare distanţă între bare. Nu este
recomandată folosirea graficelor unul în locul celuilalt.
În figura 9 sunt reprezentate frecvenţele de apariţie a unor afecţiuni maligne, pe stadii.
13
Biostatistică - Cursul al IV-lea
6 6
5 5
4 4
Frecvenţa
Frecvenţa
3 3
2 2
1 1
0 0
1997 1998 1999 2000 2001 2002 2003 1997 1998 1999 2000 2002
Anul Anul
Informaţia conţinută de tabelele de incidenţă se reprezintă de obicei prin grafice cu bare pe perechi sau
triplete, în funcţie de tipul tabelului. Pentru tabelele 2x2, graficul are două perechi de bare (vezi graficul 11).
Figura 11. Repartiţia a 190 de pacienţi cu accidente vasculare cerebrale după sex şi după mediul de provenienţă
(rural, urban)
14
Biostatistică - Cursul al IV-lea
Uneori, graficul este reprezentat în spaţiul tridimensional, pe câteva rânduri, astfel încât ochiul are o vedere
comparativă a categoriilor pe care le reprezintă tabelul (vezi figura 12 şi figura 13).
Figura 12 Clasificarea după grupa de vârstă şi starea civilă a unui număr de pacienţi.
6 Graficul PIE
Este un grafic care reprezintă prin sectoare circulare frecvenţele dintr-un tabel de frecvenţă. Sectoarele sunt
proporţionale ca număr de grade cu frecvenţele absolute din tabel, sau cu frecvenţele relative. Pe grafic pot apare în
dreptul fiecărui sector, fie frecvenţa absolută, fie cea relativă, fie ambele. Ca formă, pot fi sectoare dintr-un cerc văzut
într-un plan, sau sectoare ale unui disc tridimensional (vezi figurile 14 – 17).
feminin
83 44%
masculin 107
56%
15
Biostatistică - Cursul al IV-lea
rural
39%
75
115
urban
61%
Masculin
Feminin
Masculin
97%
Urban
Rural
37%
Urban
Rural
63%
Figura 17 Repartiţia unui număr de pacienţi după mediul de provenienţă. Grafic tridimensional
Chestiuni de examen:
1. Histograma este un grafic ce reprezintă :
A. Frecvenţele absolute ale unui tabel de frecvenţă
B. Fiecare valoare în parte dintr-o serie de valori
C. Frecvenţa cu care valorile seriei sunt cuprinse în clasele stabilite la construcţia ei
D. Indicatorii tendinţei centrale a seriei
16
Biostatistică - Cursul al IV-lea
2. O histogramă reprezintă informaţia dintr-o serie de valori :
A. Fără pierdere de informaţie
B. Cu pierdere de informaţie
C. Se pierde cu atât mai multă informaţie cu cât sunt mai puţine clase
D. Se pierde cu atât mai multă informaţie cu cât clasele au lungimi mai mari
3. Valorile hemoglobinei la 250 de pacienţi sunt cuprinse între un minim de 7,9 şi un maxim de 15,95. Dacă
dorim să avem în jur de 9 clase şi deci, 9 bare, vom lua lungimea claselor :
A. Din 2 în 2
B. Din 3 în 3
C. Din 1 în 1
D. Din 0,5 în 0,5
4. Seria de valori ce conţine talia a 1132 de indivizi, are ca minim talia de 1,44m iar ca maxim, talia de
2,06m. Dorind să efectuăm o histogramă cu cel puţin 12 bare (deoarece numărul de indivizi este mare), vom
lua lungimea claselor :
A. Din 2 cm în 2 cm
B. Din 5 cm în 5 cm
C. Din 10 cm în 10 cm
D. Din 1 cm în 1 cm
5. Dacă la efectuarea unei histograme, am ales din greşală un număr de clase (şi deci de bare) prea mare,
efectul este:
A. Se pierde mai puţină informaţie
B. Se văd inclusiv aspecte nesemnificative
C. Se pierde prea multă informaţie
D. Se vor vedea doar aspectele esenţiale, eliminându-se aspectele nesemnificative
6. Poligonul frecvenţelor este:
A. Un indicator statistic care arată dispersia valorilor dintr-o serie de valori
B. Un grafic care reprezintă printr-o linie frântă frecvenţele claselor dintr-un tabel de frecvenţă
C. Un grafic care conţine exact aceeaşi informaţie ca şi histogram corespunzătoare
D. Un grafic care conţine mai puţină informaţie ca şi histograma corespunzătoare
7. Curba lui Gauss este o curbă care este:
A. Simetrică faţă de medie
B. Simetrică faţă de axa verticală
C. Are un maxim în dreptul mediei
D. Tinde asimptotic la 0 spre plus infinit şi spre minus infinit
8. În ce priveşte curba Gauss este adevărat că:
A. În intervalul [m − s, m + s ] se află aproximativ 68% din indivizii populaţiei
B. În intervalul [m − 2 s, m + 2 s ] se află aproximativ 95% din indivizii populaţiei
C. În intervalul [m − 3s, m + 3s ] se află aproximativ 99% din indivizii populaţiei
D. În intervalul [m − 2 s, m + 2 s ] se află aproximativ 90% din indivizii populaţiei
9. Dacă comparăm o histogramă şi poligonul frecvenţelor corespunzător, atunci:
A. Conţine mai multă informaţie histograma
B. Conţine mai multă informaţie poligonul frecvenţelor
C. Conţin amândouă aceeaşi cantitate de informaţie
17
Biostatistică - Cursul al V-lea
CURSUL AL V-LEA
1. Noţiunea de corelaţie
Funcţionarea organismul ca un tot unitar este condiţionată de conlucrarea într-o armonie perfectă a unei
miriade de factori, mulţi dintre ei încă necunoscuţi. Legăturile dintre ei sunt de o complexitate ce ne scapă
deocamdată în multe cazuri. Cunoaşterea umană, cu toate progresele făcute, a reuşit să dezvăluie ceea ce am
putea numi vălul exterior al proceselor complexe din organism. Rămân de studiat corelaţii pe care acum nici
nu le bănuim sau pe care le cunoaştem doar superficial şi trebuie să le aprofundăm.
Pentru a explica noţiunea de corelaţie, vom exemplifica câteva legături între parametri de macrosistem, adică
parametri ce caracterizează organismul în totalitatea lui sau sistemele mai importante din organism. Astfel,
ştim cu toţii că există o corelaţie între tensiunea arterială sistolică şi cea diastolică. Ce înseamnă acest fapt?
Înseamnă că tendinţa de creştere a tensiunii sistolice, este însoţită de o tendinţă de creştere şi a tensiunii
diastolice, iar tendinţa de scădere a primeia este însoţită de o tendinţă de scădere a celei de-a doua.
Tot astfel, alte perechi de parametri manifestă o comportare asemănătoare: greutatea şi înălţimea, numărul de
eritrocite şi hemoglobina, vitezele de sedimentare a hematiilor la o oră şi la două ore, colesterolemia şi
lipemia, etc. Trebuie subliniat că variaţia concomitentă a celor doi parametri se manifestă numai ca tendinţă,
nu este o regulă. Pot exista indivizi cu tensiunea sistolică foarte mare şi cea diastolică normală sau invers,
indivizi cu tensiunea sistolică normală şi cea diastolică scăzută. Totuşi, majoritatea indivizilor manifestă
tendinţa de a avea valori crescute sau scăzute, pentru ambele concomitent.
Definiţie:
Vom spune că doi parametri care au tendinţa de a creşte sau descreşte simultan sunt direct
corelaţi.
Aşa cum a fost dată mai sus, noţiunea de corelaţie se referă la tendinţa de creştere sau descreştere simultană a
doi parametri indiferent cît de puternică sau de slabă este această tendinţă. Vom vedea mai departe că este
nevoie de o cuantificare a tăriei corelaţiei între doi parametri, altfel discuţiile nu pot fi nuanţate şi corelaţia ar
fi o noţiune prea puţin utilă.
Pe de altă parte, există cazuri în care doi parametri se corelează prin creşterea unuia însoţită de o tendinţă de
descreştere a celuilalt. Astfel, creşterea concentraţiei hormonului tiroidian T4, este însoţită de o scădere a
frecvenţei cardiace. Aceşti doi parametri sunt un exemplu de corelaţie inversă.
Definiţie:
Vom spune că doi parametri sunt corelaţi invers dacă au tendinţa ca, odată cu creşterea sau
descreşterea unuia, celălalt să descrească sau să crească. (au tendinţă inversă de variaţie).
Trebuie făcute câteva observaţii care să clarifice cele introduse mai sus şi să evite o folosire abuzivă a
termenului de corelaţie:
• Corelaţiile le vom căuta pentru parametri care pot fi măsuraţi cantitativ şi deci sunt exprimaţi prin
numere.
• Nu vom căuta corelaţii, cel puţin nu în sensul definiţiei de mai sus între parametri calitativi care se
exprimă prin simboluri nenumerice, adică care produc date nominale sau ordinale.
Tendinţa de corelaţie o putem înţelege în mai multe sensuri dintre care două interesează mai mult domeniul
medicinii:
• Tendinţa unui parametru de a se schimba de la pacient la pacient poate fi însoşită de tendinţa altui
parametru de a se schimba în acelaşi sens sau invers
• Corelaţii în sensul că un parametru variază la acelaşi individ, de exemplu în timp, şi variaţia este
însoţită de o variaţie corepunzătoare a altui parametru, la acelaşi pacient
1
Biostatistică - Cursul al V-lea
2 Graficul Scatter (Graficul punctual, Graficul de corelaţie)
Este un grafic care:
• Reprezintă valorile a doi parametri măsuraţi la mai mulţi pacienţi
• Reprezintă fiecare pacient printr-un punct
• Pe abscisă (orizontală) este reprezentat unul din parametri
• Pe ordonată (verticală) este reprezentat celălalt parametru, la acelaşi pacient
Acest grafic este extrem de util în statistică, furnizând o informaţie bogată, deoarece nu pierde din
informaţie ca histograma. În figurile 1 – 4 sunt redate câteva grafice de acest tip întâlnite în practică.
Figura 1 Graficul de corelaţie între greutatea şi înălţimea a 1042 de pacienţi cu diferite afecţiuni
Figura 2 Graficul de corelaţie între tensiunea sistolică şi diastolică a 593 de pacienţi cu diferite afecţiuni
2
Biostatistică - Cursul al V-lea
Figura 3 Graficul de corelaţie între greutate şi bilirubina totală la 287 de pacienţi cu diferite afecţiuni
Figura 4 Graficul de corelaţie între IgA şi IgG la 605 de pacienţi cu diferite afecţiuni
Graficul Scatter (XY) se foloseste pentru a evalua, vizual, corelatia dintre doi parametri. Exemple de situaţii
în care avem corelaţie între doi parametri sunt redate în figurile 5, 6 şi 7.
În figura 5, sunt reprezentate valorile bilirubinei totale şi ale bilirubinei directe la 521 de pacienţi cu ciroze
hepatice şi cancer hepatic. Se observă o corelaţie extrem de puternică, din forma norului de puncte care este
extrem de alungit şi subţire.
3
Biostatistică - Cursul al V-lea
Figura 5 Valorile bilirubinei totale şi ale bilirubinei directe la 521 de pacienţi cu ciroze hepatice şi cancer hepatic. Se
observă o corelaţie extrem de puternică, din forma norului de puncte care este extrem de alungit şi subţire
În figura 6, sunt reprezentate valorile pentru hormonul tiroidian T4 şi cele ale hormonului T3, la 9
pacienţi cu hipertiroidie şi 9 pacienţi hipotiroidie. Valorile sunt puternic corelate, fapt care se observă
din forma norului dublu de puncte care se aliniază de-a lungul unei linii aproape drepte.
Faptul că norul este întrerupt nu are o relevanţă prea mare în acest caz, dar de multe ori are o
importanţă mare. La mijlocul norului de puncte lipsesc de fapt valorile normale. Pacienţii pentru care
s-au făcut măsurătorile, având diferite forme de tiroidii, valorile pentru cei doi hormoni sunt extreme.
350
300
Hormonul T3
250
200
150
100
50
0
0 5 10 15 20 25 30
Hormonul T4
Figura 6 Valorile pentru hormonul tiroidian T4 şi cele ale hormonului T3, la 9 pacienţi cu hipertiroidie şi 9 pacienţi
hipotiroidie. Valorile sunt puternic corelate, fapt care se observă din forma norului dublu de puncte care se aliniază
de-a lungul unei linii aproape drepte.
În figura 7 este dat un alt exemplu de pereche de parametri care se corelează puternic: VSH la o oră şi VSH
la două ore. Norul foarte alungit şi subţire, arată tendinţa de corelaţie. Cele câteva puncte care sunt mult în
afar norului, trădează erori de introducere a datelor. Acest exemplu ne spune şi că unele din valorile aberante
pot fi observate pe graficul de corelaţie.
4
Biostatistică - Cursul al V-lea
Figura 7 Graficul de corelaţie între viteza de sedimentare a hematiilor la o oră şi la două ore la 292 de
pacienţi cu diferite afecţiuni. Norul foarte alungit şi subţire, arată tendinţa de corelaţie
În figura 8 se observă că între valorile sodiului seric şi potasiului seric ale pacienţilor cu afecţiuni hepato-
renale nu există nici o corelaţie, deoarece datele sunt distribuite aproximativ întâmplător. Nu se poate
observa o tendinţă clară ca punctele graficului să fie aşezate într-un fel anume, în afară de tendinţa naturală
ca densitatea să fie mai mare în mijloc, tendinţă care se poate observa în general, la majoritatea datelor în
medicină şi biologie şi nu numai. Pe de altă parte, tendinţa punctelor de a se aşeza într-un singur nor, arată
omogenitatea seriei de valori.
5.0
4.5
K seric
4.0
3.5
3.0
120 125 130 135 140 145 150
Na seric
Figura 8 Valorile sodiului seric şi potasiului seric la 235 de pacienţi cu afecţiuni hepato-renale. Nu există corelaţie,
deoarece punctele norului sunt distribuite întâmplător.
În ce priveşte graficul punctual (SCATTER), se vor urmări totdeauna trei tipuri diferite de
informaţie pe care acesta ni le poate oferi:
dacă cele două serii de valori sunt corelate (Corelaţia).
dacă eşantionul pe care s-au făcut măsurătorile este omogen sau este eterogen (Omogenitatea).
anumite informaţii despre simetria distribuţiei celor două serii de valori (Simetria).
Exemple:
În graficul din figura 8 se observă că între valorile sodiului seric şi potasiului seric ale pacienţilor cu
afecţiuni hepato-renale nu există nici o corelaţie, deoarece datele sunt distribuite aproximativ întâmplător. Nu
se poate observa o tendinţă clară ca punctele graficului să fie aşezate într-un fel anume, în afară de tendinţa
naturală ca densitatea să fie mai mare în mijloc, tendinţă care se poate observa în general, la majoritatea
5
Biostatistică - Cursul al V-lea
datelor în medicină şi biologie şi nu numai. Pe de altă parte, tendinţa punctelor de a se aşeza într-un singur
nor, arată omogenitatea seriei de valori.
În graficul din figura 5, se observă că între valorile bilirubinei totale şi bilirubinei directe ale pacienţilor cu
ciroze şi cancere hepatice există o corelaţie puternică, deoarece datele sunt distribuite aproximativ de-a
lungul unei linii drepte. De asemeni, eşantionul este omogen, ca şi în cazul graficului 1, lucru care se observă
din faptul că norul de puncte nu are tendinţa de a se divide în doi nori diferiţi.
Pe de altă parte se vede că norul este mult mai dens în stânga jos. Deci, valorile din seria bilirubinei totale
(orizontală), sunt distribuite asimetric (valori mai multe în stânga = asimetrie dreapta). La fel, valorile din
seria bilirubinei directe (verticală), sunt mai dense jos, la valori mici, deci sunt distribuite tot asimetric
(asimetrie dreapta).
În figura 6, se observă că între valorile hormonilor tiroidieni T4 şi T3 ale pacienţilor cu diferite forme de
tiroidism există o corelaţie datele fiind distribuite tot de-a lungul unei linii, chiar dacă este discontinuă. De
asemeni, se observă că distribuţia lor este grupată: o grupă cu valori mici pentru cei doi hormoni indicând
hipotiroidienii şi o grupă cu valori mari pentru cei doi hormoni indicând hipertiroidienii, adică o tendinţă
clară de separare în doi nori diferiţi. Spunem în acest caz că eşantionul este eterogen sau neomogen.
La fiecare grafic de acest tip este bine să fie urmărite cele trei tipuri de informaţie pe care poate să ni le ofere
(Corelaţie, Omogenitate şi Simetrie). Unele ne dau o informaţie mai utilă privind corelaţia, altele ne
informează mai bine în ce priveşte omogenitatea sau simetria, deci nu totdeauna se pot obţine dintr-un singur
grafic toate cele trei tipuri de informaţie la fel de uşor. Aprecierile sunt totdeauna subiective şi depind de
deprinderile pe care utilizatorul şi le-a format lucrând cu cât mai muote şi mai variate exemple.
∑ (x − X )⋅ ( y i − Y )
n
i
r= i =1
∑ (x −X) ⋅ ∑ (y −Y )
n n
2 2
i i
i =1 i =1
Această formulă, care la prima vedere pare foarte complicată, ne oferă în realitate într-un mod relativ simplu,
o valoare numerică care, se va vedea mai jos, apreciază foarte obiectiv situaţia de fapt în ceea ce priveşte
corelaţia.
Pentru a înţelege cum funcţionează formula de mai sus să luăm un exemplu: tensiunile arteriale sistolică şi
diastolică măsurate la 10 pacienţi sunt următoarele:
• Tensiunea sistolică TMAX: 170, 160, 160, 150, 150, 170, 160, 180, 150, 150.
• Tensiunea diastolică TMIN: 85, 80, 80, 75, 80,, 85, 80, 85, 75, 75
Se observă că pentru calculul lui r avem nevoie de mediile celor două serii statistice, X şi Y , şi pentru
fiecare pacient în parte de diferenţele xi − X şi yi − Y , care pentru numărător trebuie înmulţite între ele, iar
pentru numitor trebuie ridicate la pătrat şi apoi sumate pentru toţi pacienţii. Deoarece valorile au fost alese
special ca să se uşureze calculele, se observă că mediile pentru TAMAX şi TAMIN sunt X =160 şi Y =80.
6
Biostatistică - Cursul al V-lea
Este bine ca toate calculele necesare pentru găsirea lui r să fie organizate într-un tabel aşa cum se vede în
tabelul 9.1:
Tabelul 9.1 Calculul coeficientului de corelaţie Pearson
170, 160, 160, 150, 150, 170, 160, 180, 150, 150 Valorile pentru TAMAX
xi
85, 80, 80, 75, 80,, 85, 80, 85, 75, 75 Valorile pentru TAMIN
yi
Diferenţele pentru TAMAX
xi − X ( X =160) 10 0 0 -10 -10 10 0 20 -10 -10
(x − X )⋅ (y − Y )
i i
50 0 0 50 0 50 0 100 50 50
∑ (x − X )⋅ (y
10
i i − Y ) =350
i =1
(x −X)
2 100 0 0 100 100 100 0 400 100 100 2
∑ (x −X)
10
i
i =1000
i =1
(y i −Y )
2 25 0 0 25 0 25 0 25 25 25
∑ (y
10
i −Y )
2
=150
i =1
Trecând peste faptul că de obicei calculele sunt puţin mai dificile din cauza unor zecimale care apar inerent
la calculul mediilor şi deci al diferenţelor, să căutăm să vedem ce se poate întâmpla în diverse situaţii ce pot
apare în legătură cu valorile luate de cei doi parametri. În primul rând să observăm că la numărător, în cazul
nostru, numărul 350 a fost obţinut prin adunarea unor numere pozitive şi anume 5x50+100. Dar observăm că
valoarea 50 obţinută pentru al patrulea pacient (ca şi la al nouălea şi al zecelea, de altfel) s-au înmulţit două
numere negative, pe când la celelalte valori diferite de 0, la pacienţii 1, 6 şi 8, numerele au fost obţinute prin
înmulţirea unor numere pozitive. Acest lucru nu este nici pe de parte lipsit de importanţă, ci din contră, este
ceea ce caracterizează situaţia prezentată în mod fundamental.
Să facem următoarele observaţii referitoare la cazul prezentat:
• Pacienţii 4,9 şi 10 au şi valori TAMAX şi TAMIN sub media celor 10 pacienţi. Deci diferenţele
xi − X şi yi − Y sunt ambele negative iar produsul lor, cel care se adună la numărător este pozitiv
• Pacienţii 1,6 şi 8 au şi valori TAMAX şi TAMIN peste media celor 10 pacienţi. Deci diferenţele
xi − X şi yi − Y sunt ambele pozitive iar produsul lor, cel care se adună la numărător este pozitiv
• Pacienţii 2, 3, 5 şi 7 au valori TAMAX sau TAMIN egale cu media celor 10 pacienţi. Deci, dintre
diferenţele xi − X şi yi − Y cel puţin una este 0 iar produsul lor, cel care se adună la numărător
este 0.
Ceea ce am precizat în rândurile de mai sus este caracteristic pentru situaţiile în care cei doi parametri se
corelează: cei doi parametri iau valori preponderent în acelaşi sens, adică ori ambii sub medie, ori ambii
peste medie.
Din cauza tendinţei a doi parametri care se corelează direct, ca atunci când unul este crescut, să fie şi celălalt
crescut, vom fi pentru majoritatea pacienţilor în situaţii ca mai sus şi produsele care se adună la numărător
sunt preponderent pozitive. În acest caz, suma de la numărător tinde să aibă valori pozitive crescute. Evident,
corelaţia dintre parametri este doar o tendinţă şi este probabil să întâlnim pacienţi care, deşi au unul din
parametri crescut, de exemplu peste medie, celălalt poate să nu fie crescut, chiar să fie sub medie, caz în care
7
Biostatistică - Cursul al V-lea
( )( )
produsul xi − X ⋅ yi − Y corespunzător lui va fi negativ. Dar acest fenomen nu este o tendinţă dacă
parametrii sunt corelaţi ci mai curând accident. Suma obţinută la numărător va avea tendinţa de a lua valori
mari şi pozitive în ciuda unor astfel de accidente.
Dacă cei doi parametri sunt corelaţi invers, adică tendinţa unuia de a avea valori crescute este însoţită de
tendinţa celuilalt de a avea valori scăzute, în acest caz, predominante vor fi situaţiile în care în produsul
( )( )
xi − X ⋅ yi − Y , ia des valori negative. Într-adevăr, dacă un parametru are valori sub medie şi celălalt
peste medie, o paranteză va fi pozitivă şi una negativă. Dacă acest fapt este o tendinţă, parantezele de la
numărător vor fi cele mai multe negative. Suma obţinută la numărător va avea tendinţa de a lua valori mari şi
negative.
Dacă cei doi parametri nu sunt corelaţi, parantezele de la numărător vor avea semne aleatorii, vor fi unele
( )( )
produse xi − X ⋅ yi − Y pozitive şi unele negative. Tendinţa va fi ca cele negative şi cele pozitive să se
anuleze unele pe altele. Suma obţinută la numărător va avea tendinţa de a lua valori mici, pozitive sau
negative.
Nu am discutat nimic despre numitorul coeficientului r, deoarece el are totdeauna semnul +, iar rolul lui este
numai de a face ca r să fie cuprins între -1 şi +1. Magnitudinea lui r, precum şi semnul său, sunt dictate de
suma de la numărător. Aşadar, orice valori ar lua cei doi parametri, prin calculul lui r, obţinem un număr real
cuprins în intervalul de numere reale [-1, 1].
Interpretarea coeficientului de corelaţie Pearson se face în termeni extrem de subiectivi şi imprecis astfel:
• Valori foarte apropiate de 1 arată o foarte puternică corelaţie directă
• Valori în jurul a 0,7 – 0,9 arată o corelaţie puternică
• Valori între 0,4 – 0,7 arată corelaţie
• Valori între 0,15 – 0,4 arată corelaţie slabă
• Valori sub 0,15 arată lipsă de corelaţie
La fel, pentru valori negative pentru anticorelaţie (corelaţie inversă).
Figura 6 Corelaţia valorilor latenţei undei P100 pentru ochiul drept (verticală) şi valorile latenţei undei P100 pentru
ochiul stâng (orizontală), la 913 de pacienţi, măsurate în milisecunde. Fiecare punct de pe grafic corespunde unui
pacient. Se observă o corelaţie puternică din aranjarea norului de puncte, care are o formă alungită.
8
Biostatistică - Cursul al V-lea
Aşa cum era de aşteptat valorile LD şi LS se corelează, în sensul că au tendinţa de a se aşeza într-un nor
alungit dinspre stânga jos spre dreapta sus pe grafic, cu unele excepţii, reprezentate de punctele care sunt
ieşite din nor. De fapt, se observă că majoritatea punctelor din grafic se aranjază într-o zonă ovală.
În cazurile ca cel din figura 6, se poate încerca găsirea unei drepte care să treacă cât mai aproape de punctele
graficului, dreaptă care să reprezinte o legătură între cei doi parametri. În figura 7 este reprezentată o astfel
de dreapta pentru graficul din figura 6. Această dreaptă există pentru nori de puncte foarte diverşi, şi se
numeşte dreaptă de regresie.
Figura 7 Dreapta de regresie pentru cazul latenţei semnalului nervos pe cei doi ochi, la apcienţi cu diverse afecţiuni.
Pe orizontală, valorile pentru ochiul stâng, iar pe verticală cele pentru ochiul drept.
Numim această dreaptă legătură între cei doi parametri în sensul următor: dacă se cunoaşte valoarea de pe
orizontală, se poate calcula cu oarecare aproximare valoarea de pe verticală, şi invers. În exemplul din figura
7, dacă ştim latenţa pentru ochiul stâng, putem calcula cu o anumită aproximaţie latenţa pentru ochiul drept,
şi invers. Acest fapt este sugerat în figura 8, de săgeţile care indică valoarea aproximativă de pe o axă,
corespunzătoare unei anumite valori de pe cealaltă axă.
Figura 8 Folosirea dreptei de regresie ca legătură între cei doi parametri care sunt puternic corelaţi.
Dreapta de regresie este de obicei căutată prin aşa-numita metodă a celor mai mici pătrate, expusă în
subcapitolul următor.
Vom căuta o dreaptă care să se apropie cât mai mult de punctele graficului, dreaptă care o vom numi dreptă
de regresie liniară. Pentru a ne da seama cum intrepretăm expresia “se apropie cât mai mult de punctele
graficului”, să luăm un exemplu simplu, ca cel din figura 9.
Figura 9 O dreapă de regresie se caută acea dreapta care este situată cât mai
aproape de punctele graficului. Distanţele de la punctele graficului la dreaptă se
măsoară pe verticală. În imagine, distanţele care trebuie să fie cât mai mici sunt
segmente verticale
9
Biostatistică - Cursul al V-lea
Vom spune că o dreaptă este dreaptă de regresie dacă suma distanţelor de la puncte la dreaptă, măsurate pe
verticală şi ridicate la pătrat, este minimă.
Dreapta pe care o căutăm are ecuaţia y = ax + b , şi vom înţelege prin aceasta că, odată cunoscută valoarea
parametrului de pe abscisă, x, putem calcula valoarea parametrului de pe ordonată, y, prin înmulţirea cu a şi
adunarea lui b. Aşadar, găsirea dreptei de regresie este echivelentă cu găsirea coeficienţilor a şi b. În figura
10 este prezentată o situaţie în care dreapta de regresie poate fi folositî pentru aproximarea unui efect Y (care
poate fi un rezultat al unei medicaţii) în funcţie de o cauză X (care poate fi medicația). Se observă că putem
găsi nivelul efectului după valoarea luată de factorul cauză. Pentru valoarea 10 a lui X, efectul Y are valoarea
aproximativă 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925.
Figura.10 Dreapta de regresie ca legătură între cauză şi efect. Se observă că putem găsi nivelul efectului după valoarea luată de
factorul cauză. Pentru valoarea 10 a lui X, efectul Y are valoarea aproximativă 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925
- facultativ-
Proprietatea de bază a dreptei de regresie, se scrie astfel:
n
S = ∑ ( yi − axi − b ) = min
2
i =1
ceea ce exprimă faptul că segmentele ce unesc fiecare punct cu punctele de pe dreaptă situate pe aceeaşi verticală,
trebuie să fie cât mai scurte posibil. Exprimarea aceasta nu este tocmai corectă, ci mai degrabă intuitivă, căci, a spune că
segmentele sunt cât mai scurte, nu precizează nimic când se referă la toate segmentele. Nu vom şti exact care dintre ele
trebuie să fie mai scurt şi care mai lung când suma pătratelor lor este minimă.
Vom interpreta expresia de mai sus ca o expresie ce conţine două necunoscute, şi anume a şi b, şi dorim aflarea lor
pentru a putea fi utilizate în ecuaţia y = ax + b , atunci când avem nevoie.
Minimul expresiei ce are ca variabile pe a şi pe b, se poate afla printr-un procedeu care este cunoscut din analiza
matematică, şi anume, minimul unei funcţii se realizează pentru acele valori ale necunoscutei care anulează derivata
întâi a funcţiei în raport cu variabila respectivă. În cazul în care avem o funcţie cu două variabile, ca cea de mai sus, va
trebui să anulăm derivatele ei în raport cu fiecare dintre cele două necunoscute. Vom scrie deci expresia S astfel ca
derivarea în raport cu a şi cu b să fie cât mai facilă.
Pentru aceasta, vom folosi formula
(a + b + c )2 = a 2 + b 2 + c 2 + 2ab + 2ac + 2bc ,
precum şi faptul că o sumă poate fi distribuită, adică este valabilă formula:
n n n n
( )
n n
S = ∑ ( yi − axi − b ) = ∑ yi2 + a 2 xi2 + b 2 − 2axi yi − 2byi + 2abxi
2
i =1 i =1
10
Biostatistică - Cursul al V-lea
n n n n n n
S = ∑ yi2 + ∑ a 2 xi2 + ∑ b 2 − ∑ 2axi yi − ∑ 2byi + ∑ 2abxi
i =1 i =1 i =1 i =1 i =1 i =1
Acum să nu uităm că xi şi yi sunt valorile măsurate ale celor doi parametri, care dau poziţiile punctelor de pe grafic, şi
deci, fiind cunoscute, sumele din expresia lui S sunt cunoscute. De fapt, se obişnuieşte ca aceste sume să fie notate cu
următoarele notaţii, mult folosite în analiza de regresie:
n n n n n
∑ xi2 = S x2 ,
i =1
∑ yi2 = S y2 ,
i =1
∑ xi yi = S xy ,
i =1
∑ xi = S x ,
i =1
∑y
i =1
i = Sy
2 2
Aşadar, S x , S y , S xy , S x , S y sunt numere cunoscute în momentul calculului de care ne ocupăm ceea ce face ca expresia
lui S să devină:
S = S y2 + a 2 S x2 + b 2 n − 2aS xy − 2bS y + 2abS x
Acum pentru a afla minimul lui S vom deriva odată în raport cu a şi vom egala cu 0 ceea ce am obţinut, apoi vom
deriva în raport cu b şi vom egala cu 0 ceea ce am obţinut. Nu trebuie uitat că, la derivarea în raport cu a, vom considera
că b este constantă şi invers. Vom obţine deci relaţiile:
Există cazuri când dependenţa între un efect şi o cauză, sau în general între doi parametri nu este liniară. De exemplu,
efectul poate să sufere un fenomen de quasi saturaţie şi la un moment dat, deşi doza creşte semnificativ, efectul are o
creştere aproape insesizabilă, sau invers, la creşteri limitate ale dozei, efectul tinde să crească foarte mult. În realitate se
11
Biostatistică - Cursul al V-lea
pot întâlni extrem de multe astfel de situaţii. În aceste cazuri, se caută nu drepte de regresie ci alte curbe, după caz,
logaritmice, exponenţiale, polinomiale, etc.
Cea mai simplă generalizare este cazul polinomului de gradul al doilea:
y = ax 2 + bx + c ,
caz în care, în mod evident trebuie găsiţi trei coeficienţi în loc de doi. Cantitatea de minimizat este
∑ (y − ax )
n
2
S= i
2
i − bxi − c = min .
i =1
În acest caz, cei trei coeficienţi sunt soluţiile unui sistem de trei ecuaţii cu trei necunoscute, obţinute din egalarea cu 0 a
celor trei derivate parţiale ale lui S în raport cu a, b şi respectiv c:
∂S ∂S ∂S
=0, =0, =0
∂a ∂b ∂c
Au fost folosite şi regresii cu polinoame de ordin mai mare, însă pentru a presupune că între doi parametri este o
legătură foarte complexă trebuie puternice dovezi teoretice, care de obicei nu ne stau la dispoziţie.
Există situaţii în care este util să considerăm dependenţa unui parametru de două sau chiar mai mulţi parametri
independenţi. Şi în acest caz, Metoda Celor Mai Mici Pătrate este de un preţios ajutor. În acest caz, se caută o
dependenţă de forma:
Y = a1 ⋅ X 1 + a2 ⋅ X 2 + .......... + an X m
unde Y este parametrul care depinde de ceilalţi, X1, X2,.............Xn sunt parametrii independenţi, iar m este numărul lor,
uzual având valoarea 2 sau 3, mai rar ajungând la 6 sau 8, foarte rar mai mare.
În acest caz, se pune problema găsirii coeficienţilor a1, a2,......an, astfel ca diferenţele dintre valorile măsurate
Y1,Y2,........Yn, să fie cât mai apropiate de valorile calculate cu expresia, a1 ⋅ X i1 + a 2 ⋅ X i2 + .......... + a n X im , unde
coeficienţii a1, a2,......an, îi considerăm necunoscute şi ne propunem să îi aflăm, iar indicele i ne indică măsurătoarea,
adică:
1 2 m
La măsurătoarea 1 se obţin valorile X 1 , X 1 ,....... X 1 , iar pentru Y valoarea Y1
1 2 m
La măsurătoarea 2 se obţin valorile X 2 , X 2 ,....... X 2 , iar pentru Y valoarea Y2
......................................................................................
∑ (y − a X )
n
2
S= i 1
1
i − a 2 X i2
i =1
Chestiuni de examen
1. Coeficientul de corelaţie măsoară:
1. tăria împrăştierii datelor unei serii statistice
2. tăria corelaţiei între medie şi mediană
3. tăria corelaţiei între doi parametri exprimaţi numeric
4. tendinţa de creştere sau descreştere simultană sau inversă a doi parametri.
2. Coeficientul de corelaţie calculat pentru doi parametri măsuraţi la 429 de pacienţi este 0,829. Aceasta înseamnă că:
1. cei doi parametri nu sunt corelaţi
2. cei doi parametri sunt slab corelaţi
3. cei doi parametri sunt puternic corelaţi
4. sunt prea puţine cazuri şi nu avem încredere în valoarea coeficientului
12
Biostatistică - Cursul al V-lea
3. Coeficientul de corelaţie calculat pentru doi parametri măsuraţi la 429 de pacienţi este -0,925. Aceasta înseamnă că:
1. cei doi parametri nu sunt corelaţi
2. cei doi parametri sunt anticorelaţi
3. cei doi parametri sunt slab corelaţi
4. sunt prea puţine cazuri şi nu avem încredere în valoarea coeficientului
4.Graficul Scatter ne dă informaţii despre:
1. Corelaţia celor doi parametri de pe orizontală şi verticală
2. Omogenitatea eşantionului
3. Simetria distribuţiilor fiecăruia din cei doi parametri
4. Corelaţia fiecărui parametru cu vârsta pacienţilor
5.Coeficientul de corelaţie calculat pentru doi parametri măsuraţi la 12 de pacienţi este 0,889. Aceasta înseamnă că:
1. Cei doi parametri nu sunt corelaţi
2. Cei doi parametri sunt slab corelaţi
3. Cei doi parametri sunt corelaţi
4. Sunt prea puţine cazuri şi nu avem încredere în valoarea coeficientului
6.Coeficientul de corelaţie calculat pentru doi parametri măsuraţi la 12 de pacienţi este -0,889. Aceasta înseamnă că:
1. Cei doi parametri nu sunt corelaţi
2. Cei doi parametri sunt anticorelaţi
3. Cei doi parametri sunt corelaţi
4. Sunt prea puţine cazuri şi nu avem încredere în valoarea coeficientului
7. O dreaptă de regresie este o dreaptă care:
A. Este situată cât mai aproape de punctele unui grafic Scatter
B. Trece prin toate punctele unui grafic Scatter
C. Aproximează un poligon al frecvenţelor
D. Este paralela cu una din axele de coordonate
8. O dreaptă de regresie ne oferă:
A. O relaţie aproximativă între valorile a doi parametri
B. O relaţie exactă între valorile a doi parametri
C. Traseul liniei frânte a poligonului frecvenţelor
D. Posibilitatea aproximării valorilor unui parametru dacă ştim valorile celuilalt
9. O dreaptă de regresie se calculează:
A. Folosind mediile de eşantionare
B. Folosind mediile şi deviaţiile standard
C. Folosind metoda celor mai mari pătrate
D. Folosind metoda celor mai mici pătrate
10. În ecuaţia unei drepte de regresie, valorile care o determină sunt:
A. Panta (slope) şi ordonata la origine (intercept)
B. Media şi deviaţia standard
C. Mediile de eşantionare
D. Panta (slope)
13
Biostatistică - Cursul al VI-lea
CURSUL AL VI-LEA
1. Introducere
S-a văzut că atunci când avem coloane cu date numerice, este foarte util să se calculeze indicatori statistici
care să ne ofere o imagine sintetică a valorilor care se află pe acele coloane. Dacă însă pe o coloană avem
înregistrate date ordinale sau nominale, nu mai este posibilă calcularea acestor indicatori. De fapt, ce se poate
sintetiza pe o coloană care are înregistrate date despre prezenţa unei afecţiuni, sau a unui simptom, sau
despre grupele sanguine, sau despre stadiul de evoluţie al unei afecţiuni maligne?
Răspunsul este simplu, nu putem decât număra la astfel de coloane, câţi pacienţi sunt din fiecare categorie.
Dacă este vorba de stadiul evolutiv al unei afecţiuni maligne, vom număra câţi pacienţi sunt în stadiul 0, câţi
sunt în stadiul I şi tot astfel pînă la stadiul IV. Putem eventual exprima aceste numere prin procente.
În figura de mai jos, este prezentat începutul unui tabel în care, pe primele coloane s-a înregistrat Numărul
curent, Numele, Vârsta, Sexul, Mediul de provenienţă, Stadiul clinic şi Durata supravieţuirii, măsurată
în luni. Tabelul conţine 650 de paciente cu cancer de sân, dintre care în figura de mai jos sunt listate primele
23 (nume fictive!).
În tabelul de mai jos, sunt centralizate rezultatele numărării pacientelor pe stadii ale bolii. Sunt listate
frecvenţele absolute (sau numărul de paciente) din fiecare stadiu în parte (stadializarea este 0, 1, IIA, IIB,
IIIA, IIIB şi IV). Pe coloana cea mai din dreapta sunt listate şi procentele sau frecvenţele relative.
Frecvenţa Procentul
Nr (numărul de (frecvenţa
Stadiul clinic paciente) relativă)
1 0 26 4.0%
2 I 46 7.1%
3 IIA 76 11.7%
4 IIB 102 15.7%
5 IIIA 108 16.6%
6 IIIB 195 30.0%
7 IV 97 14.9%
8 Total 650 100.0%
În cazul coloanelor pe care s-au înregistrat date de tipul DA-NU, Prezent-Absent, numărătoarea va stabili
numai câţi pacienţi au pe coloana respectivă „DA” şi câţi au „NU”. În plus, vor fi listate la fel, frecvenţele
procentuale.
1
Biostatistică - Cursul al VI-lea
2. Tabele de incidenţă, noţiuni introductive
Datele înregistrate pe două sau mai multe coloane şi care sunt de tip nominal sau ordinal, pot fi studiate prin
aşa-numitele tabele de incidenţă. De exemplu, dacă unul din criteriile după care au fost înregistraţi pacienţii
este stadiul evolutiv al unei afecţiuni maligne, iar celălalt este răspunsul terapeutic, fiecare din cele două
criterii de clasificare are în mod normal, un anumit număr de categorii (clase) în care trebuie clasificaţi
pacienţii.
Stadiul evolutiv ar avea cel puţin patru categorii (stadiul I, II, III şi IV), iar răspunsul terapeutic ar putea avea
categoriile RC (remisiune completă, tumora se remite), RP (remisiune parţială), RN (răspuns negativ) şi D
(dispărut). Un exemplu este furnizat de tabelul 1, care are 16 celule, corespunzător la 4x4 categorii (celulele
cu totaluri depind de celelalte şi ele nu sunt considerate în tabelele statistice ca aducătoare de informaţie
nouă).
Tabelul 1. Clasificarea a 84 de pacienţi după stadiu şi răspuns terapeutic
RASPUNS TERAPEUTIC
RC RP RN D Total
STADIU I 7 1 0 0 8
EVOLUTIV II 19 7 1 1 28
III 12 10 6 4 32
IV 10 2 3 1 16
Total 48 20 10 6 84
Alt exemplu. Într-un studiu în care 260 de pacienţi au fost clasificaţi după tipul de astm şi după stadiul
acestuia, tabelul care redă situaţia centralizată, arată astfel:
60
50
40
30
20
10
Alergic
I
Intrinsec
II
Tip astm Mixt III Stadiul
IV
Din reprezentarea grafică care se vede în figura de mai sus, se observă că astmul Alergic este mai frecvent la
stadiile incipiente (I, II şi III), în timp ce astmul Mixt este mai frecvent în stadiile III sau IV. Acest fapt poate
fi absolut întâmplător, dar poate avea şi o semnificaţie utilă medicului. O problemă a statisticii ar fi să
decidem dacă astfel de situaţii sunt întâmplătoare sau nu.
2
Biostatistică - Cursul al VI-lea
Mai jos, este redat un tabel mai complex, în care sunt centralizate vârstele la căsătorie ale soţiilor din
cuplurile din Dolj, căsătorite pe o anumită perioadă de timp, în funcţie de vârstele soţilor. De exemplu, se
observă că pentru soţi între 15 şi 19 ani, sunt 11 soţii sub 15 ani, 194 de soţii între 15 şi 19 ani, 43 între 20 şi
24 de ani şi un aîntre 25 şi 29 de ani. Aceste tabele, au uneori o formă accentuat “diagonală”, adică celulele
de pe diagonală şi apropiate de diagonală au înscrise în ele un număr mare de indivizi, iar celulele îndepărate
de diagonală au un număr mic de indivizi sau sunt vide. Se mai numesc, printr-un abuz de limbaj, tabele de
corelaţie.
Tabelul 3 Clasificarea cuplurilor din Dolj după grupa de vârstă ale soţilor (1996-2001)
15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 peste 50
sub 15 11 4 3
15 - 19 194 721 465 60 11
20 - 24 43 1098 1455 255 78 12
25 - 29 1 128 1089 457 139 27 5
30 - 34 3 65 138 115 41 5
35 - 39 1 1 6 14 65 50 10 2
40 - 44 1 2 7 14 14 7
45 - 49 2 1 1
Există tehnici statistice care încearcă să răspundă la întrebarea dacă există o tendinţă de legătură între cele
două criterii de clasificare dintr-un astfel de tabel. În general, aceste tehnici sunt destul de complicate şi deşi
siguranţa concluziilor care pot fi trase prin aplicarea lor este foarte bună, sunt mânuite în practică mai mult
de specialişti în statistică şi mai puţin de medici.
Testul Chi pătrat este un test statistic ce arata daca exista vreo legatura (influenta reciproca) intre doi factori.
El este folosit pentru a interpreta tabelele de incidenţă generate prin aplicarea încrucişata („cross tabulation”)
a perechilor de factori urmăriţi in acest studiu.
La testul chi patrat de testare a dependentei ( χ2 ) s-a calculat rezultatul testului pentru datele din tabelele
de incidenta, rezultat care a fost comparat cu valoarea prag care indica o dependenta semnificativa (prag de
95% sau 99%) sau o dependenta inalt semnificativa (prag de 99.9%) intre cei doi factori de clasificare.
Valoarea lui χ2 se calculeaza prin formula:
n
(| Oi − Ei |) 2
χ2 = ∑ ,
i =1 Ei
unde O - frecventa observata, E - frecventa teoretica
Ipotezele testate sunt:
H0 (ipoteza nula) – cei doi factori sunt independenti;
Ha (ipoteza alternativa) – exista o asociere (dependenta) intre cei doi factori.
Se foloseste următoarea interpretare a valorilor lui p, furnizate direct de programul cu care se realizează
prelucrarea statistica a datelor, prin aplicarea testului de mai sus:
• p < 0.05, rezultat semnificativ (S, încredere 95% că exista o asociere intre factori);
• p < 0.01, rezultat semnificativ (S, încredere 99% că exista o asociere intre factori);
• p < 0.001, rezultat înalt semnificativ (HS, încredere 99,9% că exista o asociere intre factori);
• p > 0.05, rezultat nesemnificativ (NS, încrederea de a considera ca exista o dependenta intre factorii
studiati este mai mica de 95%, deci eroarea de a respinge ipoteza ca factorii sunt independenti este mai mare
de 5%, prag considerat prea mare).
Testul Chi patrat este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate
frecventele probabile depășesc valoarea 1.
Condiția de validitate limitează semnificativ utilizarea testului Chi pătrat. In cazul in care o frecventa
probabila este sub valoarea 1, sau daca mai mult de 20% din frecventele probabile sunt sub valoarea 5, se
recomanda utilizarea testului exact al lui Fisher, atunci când este permisa aplicarea acestuia - loturi mici,
3
Biostatistică - Cursul al VI-lea
tabele de incidenta 2x2, 3x2, 3x3 sau 4x2. In situațiile menționate, am apelat la testul exact al lui Fisher,
pentru a avea o precizie mai mare a rezultatelor statistice.
Atenție: frecventele probabile sunt calculate in cadrul testului, nu trebuie confundate cu frecventele
observate (datele din tabel).
Testul exact al lui Fisher reprezintă deci o alternativa a testului Chi pătrat in examinarea asociațiilor in cadrul
unui tabel de contingenta 2 x 2 etc., atunci când frecventele probabile sunt mici. Condiția de aplicare a
acestui test este ca totalurile pe rânduri si pe coloane sa fie fixe, cunoscute dinainte. Testul exact al lui Fisher
se regăsește in majoritatea pachetelor statistice existente si returnează, ca si alte teste, o valoare a lui p.
4
Biostatistică - Cursul al VI-lea
două: cei care au retinopatie şi cei care nu au retinopatie. Acest lucru, poate fi simbolizat prin DA şi prin NU,
iar în cazul din tabel cu “+” şi “-“. Îl numim criteriu orizontal spre deosebire de Nefropatie care este numit
criteriu vertical, pentru uşurinţa expunerii. La fel, în al doilea tabel, Bolnavi şi Cartofi, simbolizează faptul
că indivizii cuprinşi în tabel sunt sau nu sunt bolnavi şi respectiv au consumat sau nu au consumat piuré de
cartofi.
Să încercăm acum să verificăm în ce măsură factorii de clasificare de pe orizontală şi de pe verticală depind
unul de altul.
La tabelul TOP, (factorii de pe orizontală şi verticală sunt îmbolnăvirile şi consumul de cartofi) întâmplarea
a făcut ca exact jumătate din cei înregistraţi au consumat mâncare de cartofi iar între cei bolnavi şi sănătoşi
tot jumătate au consumat acest fel de mâncare. La o examinare sumară a tabelului se poate deduce imediat că
nu acest fel de mâncare este vinovat de infestarea indivizilor bolnavi, fiind evident că jumătate din cei
bolnavi nu au consumat acest fel şi deci este clar că s-au îmbolnăvit de la altceva. Pe de altă parte, se vede că
şi 14 indivizi care au mâncat din acest fel de mâncare nu s-au îmbolnăvit. Concluzie: consumul de cartofi şi
îmbolnavirile nu sunt dependente.
Tabelul 6. Clasificarea a 75 de subiecţi după criteriul prezenţei sau absenţei bolii şi după criteriul consumului de
îngheţată de vanilie (Cazul Oswego, tabelul TOV)
Vanilla (Ingheţata de Vanilie)
DA NU Total
DA 43 3 46
Bolnavi NU 11 18 29
Total 54 21 75
În, tabelul TOV, se prezintă o situaţie diferită, căci se observă că din cei 46 de bolnavi 43 au consumat
îngheţată de vanilie iar marea majoritate a celor care sunt sănătoşi nu au consumat. Mai putem privi situaţia
şi astfel: din 54 indivizi care au consumat îngheţată, 43 s-au îmbolnăvit, iar din cei 21 care nu au consumat,
18 nu s-au îmbolnăvit.
Altfel spus,
• 43/54=0,796=79,6% este procentul îmbolnăvirilor la cei care au consumat şi
• 3/21=0,142=14,2%, procentul îmbolnăvirilor la cei care nu au consumat acest aliment.
Este destul de clar că între consumul de îngheţată de vanilie şi îmbolnăviri este o dependenţă.
Am ales aceste exemple tocmai pentru faptul că se vede fără dificultate care este situaţia şi în acest fel ne va
fi mai uşoară înţelegerea principiilor care stau la baza aprecierii acestui tip de dependenţe. Din examinarea
exemplelor de mai sus se vede că în fond se poate judeca fiecare situaţie care apare într-un mod asemănător,
judecând de la caz la caz dacă există sau nu o dependenţă între criteriile de clasificare pe orizontală şi pe
verticală.
Dacă am judeca mereu ca mai sus am fi puşi des în situaţia de a nu putea lua o decizie suficient de obiectivă.
Dacă de exemplu, la cei care au consumat alimentul proporţia îmbolnăvirilor este 79,6% (vezi tabelul 6), iar
la ceilalţi este doar de 14,2%, oricine va spune că îmbolnăvirile sunt într-o relaţie de dependenţă cu alimentul
consumat, iar dacă procentele ar fi, 79,6% şi respectiv 77,4%, oricine ar spune că mica diferenţă se datorează
întâmplării şi nu este nici o dependenţă între îmbolnăviri şi consumul alimentului.
Dar dacă cele două procente sunt 79,6% şi 62,4% ce concluzie tragem? Căci dacă am spune că avem o
dependenţă din cauza diferenţei dintre procente, oricine poate replica că această diferenţă este întâmplătoare,
mai ales dacă numărul de pacienţi pe care l-am luat în calcul a fost relativ mic. De aceea este nevoie de
criterii mai obiective de apreciere a situaţiilor cu care ne putem confrunta în astfel de studii.
Trebuie reţinut din cele discutate:
• Uneori se constată prin simplă inspecţie sau din calcule foarte simple o tendinţă de dependenţă între
factorul de clasificare pe orizontală şi cel de clasificare pe verticală.
5
Biostatistică - Cursul al VI-lea
• Decizia dacă există sau nu o dependenţă este de natură subiectivă, deoarece, pentru moment, nu
avem un criteriu clar prin care să putem decide aceasta.
În cele ce urmează, să încercăm să generalizăm situaţiile de mai sus, presupunând că, de obicei avem de a
face cu:
1). Un factor activ (consumul unui aliment, al unui medicament, aplicarea unui anumit tip de tratament, etc)
şi putem clasifica indivizii în două categorii din punctul de vedere al acestui factor (de obicei ele fiind
simbolizate prin Da/Nu, +/-, Yes/No)
2). Un factor pasiv (rezultat al celui activ) care clasifică indivizii tot în două categorii (Bolnav/Sănătos,
Da/Nu, +/-).
Să notăm cu
• Poz+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este pozitiv
• Neg+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este negativ
• Poz- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este pozitiv
• Neg- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este negativ
Această situaţie se poate centraliza într-un tabel ca tabelul 7, care este foarte asemănător cu cele care au fost
date ca exemplu mai sus:
Tabelul 7. Tabel general de incidenţă 2x2 (TG)
Factor Activ (Cauza)
Pozitiv Negativ Total
Factor Pozitiv Poz+ (a) Poz-(b) Poz
Pasiv
(Efect) Negativ Neg+ (c) Neg- (d) Neg
Total + - N
Să încercăm să sistematizăm observaţii mai generale care să ne ofere, pe cât posibil criterii mai obiective:
Dacă factorul pasiv are tendinţa de a apare în tandem cu cel activ, atunci ne putem aştepta, ca tendinţă
generală, ca cei mai mulţi indivizi să apară înscrişi în celulele Poz+ şi Neg-, iar celulele Poz- şi Neg+ să
rămână mai nepopulate. Este de uz comun etichetarea celulelor cu a, b, c, d, ca în tabelul TG şi deci vom
spune că în acest caz, majoritatea indivizilor sunt în celulele a, d, iar în celulele b, c avem mai puţini indivizi
(este cazul tabelului TOV). Ţinând cont de această observaţie, vom introduce câteva criterii de dependenţă
care ne permit o apreciere mai obiectivă a unei eventuale dependenţe.
4. Criterii de dependenţă
O modalitate de a aprecia tendinţa celor doi factori de a apare în tandem adică tendinţa lor de dependenţă,
este de a urmări care este raportul dintre numărul pacienţilor la care avem potrivire, adică ambii factori sunt
prezenţi sau ambii sunt absenţi, şi numărul pacienţilor la care nu avem potrivire, adică un factor este
prezent iar celălalt absent.
Se observă uşor că acest raport, pe care îl vom numi Criteriul Diagonal, este:
a+d
CD =
b+c
În tabelul TOV, avem CD = (43+18)/(3+11) = 61/14 = 4,35, adică sunt de 4,35 ori mai mulţi pacienţi la
care cei doi factori apar în tandem decât cei la care un factor este prezent şi celălalt absent. Tendinţa de
dependenţă este clară între consumul îngheţatei de vanilie şi îmbolnăviri.
Un alt criteriu este de a calcula raportul dintre numărul pacienţilor la care cei doi factori apar în tandem şi
numărul total de pacienţi(Criteriul Procentual). Este un criteriu mai natural căci calculează de fapt
procentul de pacienţi la care apar aceste potriviri. Deci:
6
Biostatistică - Cursul al VI-lea
a+d
CP =
a+b+c+d
În tabelul TOV, avem, CP = (43+18)/75 = 61/75 = 0,813, adică sunt 81,3% potriviri, ceea ce este o
majoritate care arată o tendinţă clară de dependenţă între consumul îngheţatei de vanilie şi îmbolnăviri.
5. Riscul relativ
Este o măsură a legăturii între o boală şi prezenţa unui factor de risc, presupus a influenţa apariţia bolii.
Deoarece se măsoară în funcţie de riscul la cei expuşi şi riscul la cei neexpuşi, trebuie ştiut ce înseamnă
aceste două riscuri.
Riscul la cei expuşi este probabilitatea ca un individ expus, sa facă boala (indiferent din ce motiv). Se
calculează pe un lot cum este cel din exemplul din tabel, ca raportul dintre numărul celor care au făcut boala
fiind expuşi (48), şi numărul tuturor celor expuşi (200). Deci, în tabelul de mai jos, riscul la cei expuşi este
de 48/200, adică de 0,24 sau 24%.
Riscul la cei neexpuşi este probabilitatea ca un individ neexpus, sa facă boala (indiferent din ce motiv). Se
calculează pe un lot cum este cel din exemplul din tabel, ca raportul dintre numărul celor care au făcut boala
fiind neexpuşi (36), şi numărul tuturor celor neexpuşi (2000). Deci, în tabelul de mai jos, riscul la cei
neexpuşi este de 36/2000, adică de 0,018 sau 1,8%.
Riscul Relativ, este raportul dintre riscul la cei expuşi, şi riscul la cei neexpuşi. În tabelul de mai jos, riscul
relativ este 24/1,8=13,3
Tabelul 8
Boala
Tabelul 9
Boala
Formulele sunt :
• Riscul la cei expuşi: Re = a/(a+b)
• Riscul la cei neexpuşi: Rn = c/(c+d)
a ⋅ (c + d )
• Riscul relativ RR=Re/Rn, sau RR =
c ⋅ (a + b )
7
Biostatistică - Cursul al VI-lea
Interpretare: Riscul relativ ne spune de câte ori este mai mare probabilitatea de a face boala când eşti expus
decât atunci când eşti neexpus. În tabelul de mai sus, riscul relativ fiind 13,3, înseamnă că cei expuşi au
probabilitatea de a face boala de 13,3 ori mai mare decât cei neexpuşi.
În general, valori ale riscului relativ apropiate de 1 arată aproximativ aceeaşi probabilitate de a face boala,
atât la expuşi, cât şi la neexpuşi, şi trebuie considerat că factorul de risc respectiv nu are o influenţă reală
asupra apariţiei bolii.
Dacă riscul relativ are valori mult mai mari ca 1, este o indicaţie că între factorul de risc şi boală este o
legătură de corelaţie care, de obicei este interpretată ca fiind CAUZALĂ, deşi nu este chiar obligatoriu ca
factorul de risc să fie CAUZĂ pentru apariţia bolii.
Există cazuri în care riscul relativ are valori subunitare (mai mici ca 1), caz în care este asimilat cu un factor
PROTECTOR. Aceasta deoarece, în aceste cazuri, este mai MIC riscul de a face boala la cei expuşi, decît la
cei neexpuşi.
În toate cazurile, valoarea obţinută este numai o aproximare a valorii reale care s-ar obţine dacă ar fi
consideraţi toţi indivizii populaţiei de referinţă (atât cei expuşi cât şi cei neexpuşi).
Riscul atribuabil este diferenţa dintre riscul la cei expuşi şi riscul la cei neexpuşi. Deşi pare la prima
vedere destul de util ca informaţie pe care o poartă, este mai puţin utilizat în practică. Are avantajul că se
exprimă în procente. De exemplu, pentru tabelul de mai sus, riscul atribuabil este 24%-1,8%, deci este de
22,2%.
Aceasta înseamnă că procentul de îmbolnăviri la cei expuşi este cu 22,25 puncte procentuale mai mare decît
procentul de îmbolnăviri la cei neexpuşi. Ca interpretare, se interpretează de la caz la caz, şi este mai
subiectiv decât riscul relativ, care are un grad de obiectivitate mai mare.
6. Odds Ratio
Nu are traducere consacrată în limba română. Se foloseşte termenul de “Raportul cotelor”, sau mai puţin
inspirat, “Raportul şanselor”.
Deoarece este raportul a două “cote”, trebuie întâi înţeles ce înseamnă cotă. În engleză, cotele se folosesc la
casele de pariuri. O cotă de 3 la 2 pentru un eveniment, înseamnă că la acea casă de pariuri se consideră că
sunt 3 şanse pentru şi 2 şanse contra ca evenimentul să se întâmpe.Sau, două şanse să nu se întâmple, şi trei
să se întâmple.
De exemplu, cota echipei României la CM de fotbal a fost într-un an de 1 la 32, adică o şansă pentru, şi 32
contra. Atenţie, nu e corect să se spună “o şansă din 32…..”. Corect este 1 pentru şi 32 contra.
În studiile clinice, în special în studiile Caz-Martor sau, mai rar, în studiile de cohortă, se foloseşte Odds
Ratio, ca raportul între cota de îmbolnăviri la cei expuşi şi cota de îmbolnăviri la cei neexpuşi.
• Cota de îmbolnăviri la cei expuşi este raportul dintre numărul celor expuşi la care boala este prezentă şi
numărul celor expuşi la care boala este absentă
• Cota de îmbolnăviri la cei neexpuşi este raportul dintre numărul celor neexpuşi la care boala este
prezentă şi numărul celor neexpuşi la care boala este absentă
Tabelul 10
Boala
8
Biostatistică - Cursul al VI-lea
În tabelul de mai sus, cotele de îmbolnăviri sunt: la cei expuşi 50/150, adică de 1 la 3, iar la neexpuşi de
40/1960, adică de 1 la 49.
Raportul celor două cote, adică Odds Ratio, este raportul dintre 1/3 şi 1/49, adică 49/3=16.3
Tabelul 11
Boala
Formulele sunt:
• Cota de îmbolnăviri la expuşi a/b
• Cota de îmbolnăviri la neexpuşi c/d
a⋅d
• Odds Ratio OR =
b⋅c
Ca şi interpretare, valori apropiate de 1, arată cote asemănătoare, cea ce înseamnă că expunerea nu
influenţrază prezenţa bolii. Valori mult peste 1, arată o tendinţă de corelaţie între prezenţa expunerii şi a bolii
la pacienţi, corelaţie care este considerată de obicei ca fiind CAUZALĂ, deşi nu totdeauna este cazul.
Va lori mult sub 1 arată tot o corelaţie, dar în acest caz, expunerea este considerată un factor de
PROTECŢIE.
9
Biostatistică - Cursul al VI-lea
• După criteriul bolii (sau al caracteristicii diagnosticate), sunt două categorii : Bolnavi (engl:
diseased) şi Sănătoşi (engl: diseased free). Faptul că un pacient este în una dintre cele două categorii
se stabileşte cu ajutorul aşa-numitului test sigur sau test de aur (engl: golden test). Acest test este
un test care a fost deja verificat ca fiind extrem de precis şi dă o rată de erori minimă.
• După criteriul testului clinic studiat sunt tot două categorii: Pozitivi şi Negativi.
Deci, fiecare din pacienţi, va aparţine uneia din următoarele patru clase, care rezultă în urma combinării în
toate modurile posibile a celor patru categorii de mai sus:
• Real Pozitivi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt Pozitivi.
• Fals Negativi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt Negativi. Constituie
erori pentru test.
• Fals Pozitivi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt Pozitivi. Constituie
celălalt tip de eroare a unui test.
• Real Negativi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt Negativi.
După ce se stabileşte la fiecare pacient cărei clase aparţine, din cele patru enumerate mai sus, se realizează un
tabel 2x2 ca în tabelul 1.8.
Tabelul 12. Clasificarea unor subiecţi după faptul că sunt sau că nu sunt bolnavi (testul sigur) şi după
rezultatul pe care îl obţin la un test de diagnosticare pe care dorim să îl evaluăm calitativ. (Tabelul TGT)
Testul sigur (Golden test)
Bolnavi Sănătoşi Total
Pozitivi Real Pozitivi Fals Pozitivi P
+ +
Testul (RP sau B ) (FP sau S )
propus
(Testul Negativi Fals Negativi Real Negativi N
- -
clinic) (FN sau B ) (RN sau S )
Total B S B+S=P+N
Aprecierea calităţii unui test propus trebuie evident să ţină seama de procentul de reuşite ale acestuia. Dar ce
înseamnă reuşite pentru un test clinic? Câteva propuneri ar fi:
• Ce procent din pacienţii bolnavi sunt diagnosticaţi de test ca pozitivi?
• Ce procent din pacienţii sănătoşi sunt diagnosticaţi de test ca negativi?
• Ce procent din pacienţii diagnosticaţi de test ca pozitivi sunt bolnavi?
• Ce procent din pacienţii diagnosticaţi de test ca negativi sunt sănătoşi?
Vom defini aceste rapoarte procentuale şi vom studia modul cum le folosim în aprecierea calităţii testului.
Aceste procente arată calitatea unui test clinic în sensul că testul este cu atât mai valoros cu cât ele au valori
mai mari, mai apropiate de 100%. În plus, vor fi definite mai jos şi două rapoarte procentuale care exprimă
erorile unui test. Este clar că procentele care exprimă erorile trebuie să fie cât mai mici pentru ca testul să fie
valoros.
• Sensibilitatea (Sn) unui test este raportul dintre numărul pacienţilor bolnavi, diagnosticaţi ca
pozitivi şi numărul total de bolnavi. Sn = B + / B
• Specificitatea (Sp) unui test este raportul dintre numărul pacienţilor sănătoşi, diagnosticaţi ca
negativi şi numărul total de sănătoşi. Sn = S − / S
• Valoarea predictivă pozitivă (VPP), este raportul dintre numărul pacienţilor disgnosticaţi corect ca
pozitivi şi numărul total al celor diagnosticaţi de test ca pozitivi. VPP = B + / P
• Valoarea predictivă negativă (VPN), este raportul dintre numărul pacienţilor disgnosticaţi corect
ca negativi şi numărul total al celor diagnosticaţi de test ca negativi. VPN = S − / N
• Rata fals pozitivă (RFP), este raportul dintre numărul pacienţilor sănătoşi diagnosticaţi greşit ca
pozitivi şi numărul pacienţilor sănătoşi. RFP = S + / S
10
Biostatistică - Cursul al VI-lea
• Rata fals negativă (RFN), este raportul dintre numărul pacienţilor bolnavi diagnosticaţi greşit ca
negativi şi numărul pacienţilor bolnavi. RFN = B − / B
Ca exemplu, să urmărim situaţia din tabelul 1.9.
Tabelul 13 Clasificarea a 109 femei după tipul de naştere (prematură sau normală) şi după
lungimea colului uterin ca test de decizie a riscului de naştere prematură. Se observă că din 41
de naşteri premature, 33 au colul sub 26mm iar din 68 de naşteri normale, 53 au colul peste
26, deci limita de 26mm a lungimii colului uterin este un criteriu de decizie al riscului de
naştere prematură.
Naştere
Prematură Normală Total
Lungime col <26 mm 33 15 48
>26mm 8 53 61
Total 41 68 109
În tabelul 1.9, valorile indicatorilor de mai sus sunt:
• Sn=33/41=0,804=80,4%, Sp=53/68=0,779=77,9%
• VPP=33/48=0,687=68,7%, VPN=53/61=0,868=86,8%
• RFP=15/68=0,221=22,1%, RFN=8/41=0,196=19,6%
După cum s-a precizat mai sus, un test este cu atât mai valoros cu cât primii patru din cei şase indicatori sunt
mai mari, iar ultimii doi mai mici. Ideal ar fi ca primii patru să fie apropiaţi de 100%, iar ultimii doi,
apropiaţi de 0%. În practică, se constată că este foarte greu să se atingă valori foarte mari pentru toţi cei patru
şi valori foarte mici pentru ultimii doi. De exemplu, testul studiat prin tabelul 13 este un test destul de
valoros.
Doar primii doi indicatori sunt consideraţi fundamentali, ei fiind cei care dau de fapt calitatea testului clinic
propus, în comparaţie cu testul considerat sigur (testul de aur), în cazul de mai sus testul sigur fiind naşterea
propriu-zisă.
Chestiuni de examen:
1.Criteriul procentual indică o tendinţă foarte puternică de dependenţă între cei doi factori de clasificare într-un tabel de
incidenţă dacă:
1. are valori mult mai mari ca 100%
2. are valori mult mai mici ca 50%
3. are valori foarte apropiate de 50%
4. are valori apropiate de 100%
2.Tabelele de incidenţă sunt:
1. tabele cu dublă intrare în care pacienţii sunt înregistraţi după două criterii
2. tabele de frecvenţă pe clase
3. tabele cu date brute
4. tabele folosite la teste statistice de compararea mediei
3.Sensibilitatea unui test clinic este Sn=0,862, iar specificitatea este Sp=0,893. Aceasta înseamnă că testul este:
1. un test valoros deoarece ambii indicatori sunt mult peste 50%
2. un test fără valoare doarece dă erori şi la bolnavi, şi la sănătoşi
3. un test fără valoare, deoarece specificitatea este mai mare ca sensibilitatea
4. un test perfect
4.Criteriul diagonal calculat pentru un tabel de incidenţă 2x2 care conţine în total 236 de pacienţi este 7,185. El indică
în acest caz:
1. corelaţie foarte slabă între cei doi factori de clasificare
2. lipsa unei corelaţii
3. corelaţie puternică între cei doi parametri
4. nu este un indicator al corelaţiei ci al împrăştierii datelor
11
Biostatistică - Cursul al VI-lea
5.Criteriul OR calculat pentru un tabel de incidenţă 2x2 care conţine în total 144 de pacienţi este 6,785. El indică în
acest caz:
1. corelaţie foarte slabă între cei doi factori de clasificare
2. lipsa unei corelaţii
3. corelaţie puternică între cei doi parametri
4. nu este un indicator al corelaţiei ci al împrăştierii datelor
6.Criteriul OR calculat pentru un tabel de incidenţă 2x2 care conţine în total 14 de pacienţi este 8,785. El indică în acest
caz:
1. corelaţie foarte slabă între cei doi factori.
2. lipsa unei corelaţii
3. corelaţie destul de puternică între cei doi factori
4. fiind prea puţini pacienţi, nu avem încredere în valoarea lui
7. Sensibilitatea unui test exploratoriu în clinică este Sn=0,862. Aceasta înseamnă că testul este:
1. un test valoros din punct de vedere clinic
2. este un test prost, deoarece doar 86,2% din bolnavii reali sunt pozitivi
3. depinde şi de specificitate, dacă este foarte mică, testul nu este un test bun
4. dacă şi specificitatea este mult mai mare ca 50%, testul este valoros
8.Sensibilitatea unui test este:
A. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor
bolnavi
B. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca pozitivi şi numărul total al pacienţilor bolnavi
C. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi
D. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca negativi şi numărul total al pacienţilor bolnavi
9.Specificitatea unui test este:
A. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi
B. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor
sănătoşi
C. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi
D. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor bolnavi
10.Un test clinic este cu atât mai valoros cu cât:
A. Sensibilitatea este mai mare şi specificitatea mai mică
B. Sensibilitatea este mai mică şi specificitatea mai mare
C. Sensibilitatea şi specificitatea sunt mai mari
D. Sensibilitatea şi specificitatea sunt mai mici
11.Un test clinic este cu atât mai valoros cu cât:
A. Sensibilitatea şi specificitatea sunt mai apropiate de 1
B. Sensibilitatea şi specificitatea sunt mai apropiate de 0
C. Sensibilitatea şi specificitatea sunt mai mari
D. Sensibilitatea şi specificitatea sunt mai mici
12.Rata fals pozitivă a unui test este:
A. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi
B. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor sănătoşi
C. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca pozitivi şi numărul total al pacienţilor
sănătoşi
D. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor bolnavi
13.Rata fals negativă a unui test este:
A. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi
B. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca negativi şi numărul total al pacienţilor sănătoşi
C. Raportul dintre numărul pacienţilor sănătoşi diagnosticaţi ca pozitivi şi numărul total al pacienţilor sănătoşi
D. Raportul dintre numărul pacienţilor bolnavi diagnosticaţi ca negativi şi numărul total al pacienţilor
bolnavi
14.Un test clinic este cu atât mai valoros cu cât:
A. Rata fals pozitivă este mai mare şi rata fals negativă mai mică
B. Rata fals pozitivă este mai mică şi rata fals negativă mai mare
C. Rata fals pozitivă şi rata fals negativă sunt mai mari
D. Rata fals pozitivă şi rata fals negativă sunt mai mici
12
Biostatistică - Cursul al VI-lea
15.Sensibilitatea unui test clinic este Sn=0,562, iar specificitatea este Sp=0,893. Aceasta înseamnă că testul este:
1. un test valoros deoarece ambii indicatori sunt mult peste 50%
2. un test fără valoare doarece dă erori şi la bolnavi, şi la sănătoşi
3. un test fără valoare, deoarece specificitatea este prea mică
4. un test perfect
16. Criteriul RR calculat pentru un tabel de incidenţă 2x2 care conţine în total 149 de pacienţi este 8,785. El indică în
acest caz:
1. corelaţie foarte slabă între cei doi factori.
2. lipsa unei corelaţii
3. corelaţie puternică între cei doi factori
4. fiind prea puţini pacienţi, nu avem încredere în valoarea lui
13
Biostatistică - Cursul al VII-lea
CURSUL AL VII-LEA
1. Eşantion
Indicatorii statistici calculaţi pentru un eşantion anume sunt simple aproximări pentru parametrii reali ai
populaţiei din care provine eşantionul. De exemplu, coeficientul mediu de inteligenţă calculat la un eşantion
de studenţi, este o aproximare foarte proastă a coeficientului mediu de inteligenţă al întregii populaţii,
deoarece un eşantion de studenţi nu este reprezentativ pentru întreaga populaţie. În schimb, coeficientul
mediu de inteligenţă calculat la un eşantion mare de indivizi aleşi la întâmplare din populaţie, va fi
probabil o aproximare mai bună a coeficientului mediu de inteligenţă al întregii populaţii.
Se pune în mod natural problema de a stabili câtă încredere se poate avea în aceste aproximări, sau cât de
precise sunt ele. Să încercăm să precizăm condiţiile pe care trebuie să le avem îndeplinite pentru ca gradul de
siguranţă în concluziile pe care le tragem despre o populaţie pe baza rezultatelor obţinute pe un eşantion, să
fie cât mai mare. Înainte de a preciza aceste condiţii, să stabilim de ce aprecierea acestei precizii de
aproximare este importantă.
Deci, să plecăm de la faptul că avem media şi deviaţia standard calculate pentru un anumit parametru pe un
eşantion. Dacă modul în care a fost ales eşantionul ne dă posibilitatea să afirmăm că acestea sunt bune
aproximări ale mediei şi deviaţiei standard pentru întreaga populaţie, atunci acesta este de fapt singurul lucru
pe care ne putem baza, în afara, eventual, a unor medii sau deviaţii date în literatura de specialiate. De
exemplu, dacă pe un eşantion bine ales, vom obţine coeficientul mediu de inteligenţă 101,5 şi o deviaţie
standard de 14,4, aceasta ne îndreptăţeşte să spunem că media populaţiei este aproximativ 101,5 , iar deviaţia
standard aproximativ 14,4. Media reală a întregii populaţii şi deviaţia standard a întregii populaţii ne sunt
chiar necunoscute de multe ori.
În acest curs ne vom pune problema de a stabili cât de bune sunt aproximaţiile de acest gen. Vom încerca să
stabilim cât de aproape de realitate este media aproximativă, obţinută luând în calcul doar indivizii
eşantionului ales.
Uneori, din surse bibliografice avem informaţii despre media unei întregi populaţii, dar în cazul în care nu
avem astfel de date din surse bibliografice, sau când datele din mai multe surse nu concordă, atunci media
întregii populaţii nu ne va fi de fapt cunoscută decât prin aproximările obţinute pe eşantioane. De fapt,
sursele bibliografice nu ne dau nici ele decât tot aproximări foarte bune ale adevăratei medii sau deviaţii
standard, obţinute tot pe nişte eşantioane extrase din populaţia respectivă.
Pentru o discuţie ceva mai exactă, să introducem câţiva termeni: vom numi eşantion sau lot, o submulţime a
unei populaţii statistice. Extrapolarea, sau generalizarea unor rezultate obţinute prin măsurători pe un
eşantion la întreaga populaţie o vom numi inferenţă. De exemplu, dacă coeficientul mediu de inteligenţă pe
un eşantion reprezentativ este 101,5, putem, în anumite condiţii foarte precise, să facem afirmaţia
generalizatoare, sau inferenţa, că media coeficientului de inteligenţă al populaţiei este de este 101,5.
2. Eşantionare
Şi acum să trecem la modalităţile prin care se realizează inferenţa statistică. De la început trebuie precizat că
un rol central îl joacă distribuţia Gauss care de fapt nu este o distribuţie ca oricare alta ci, datorită
proprietăţilor ei naturale, în special simetria, are un statut oarecum privilegiat. Pentru a ne da seama de acest
lucru, să presupunem că ne aflăm în faţa unei populaţii cu un număr foarte mare de indivizi, ceea ce, din
punct de vedere statistic se denumeşte ca “practic infinită”.
Să presupunem pentru simplitate că media populaţiei respective în ceea ce priveşte un anumit parametru este
m iar deviaţia standard este s, valori care sunt de obicei necunoscute, iar distribuţia variabilei respective este
1
Biostatistică - Cursul al VII-lea
normală. Să mai presupunem că, să aproximăm media m a populaţiei prin medii obţinute pe eşantioane de
volum n, adică eşantioane cu n indivizi.
Putem chiar să ne imaginăm ce se întâmplă dacă luăm foarte multe astfel de eşantioane, poate chiar pe toate.
Vom obţine foarte multe medii aproximative, aproximaţii care sunt, multe dintre ele mai departe de
adevărata medie, altele mai apropiate.
Vom numi aceste medii aproximative, medii de eşantionare de volum n. Se naşte astfel o serie statistică, a
acestor medii, care are o importanţă deosebită, deoarece are anumite proprietăţi pe care le vom descrie în
continuare, care ne vor ajuta în a estima cât de bune sunt aproximările prin medii de eşantionare.
Fie seria statistică Mn: m1, m2, m3.........., seria acestor medii de eşantionare de volum n. Se poate demonstra
că:
• media seriei statistice Mn este aceeaşi cu a populaţiei, adică m.
• deviaţia standard a seriei Mn este s n = s , adică mai mică decât a populaţiei, care este s.
n
• distribuţia seriei Mn este Gauss.
Afirmaţiile de mai sus s-ar traduce în termenii exemplului cu media coeficientului de inteligenţă aşa cum
este descris mai jos.
Media coeficientului de inteligenţă într-o populaţie este, sa zicem, 100, iar deviaţia standard 15, dar noi nu
ştim aceste valori. O serie de cercetători, dorind să o aproximeze, iau fiecare câte un eşantion, şi calculează
coeficientul de inteligenţă mediu, fiecare la eşantionul pe care şi l-a ales.
Să mai presupunem că toţi cercetătorii iau eşantioane de volum egal, adică cu acelaşi număr de indivizi, de
exemplu, 144. Ei vor obţine aproximaţii mai bune sau mai proaste, căci mai joacă şi întâmplarea rolul ei,
unele vor da o medie de eşantionare sub 100, altele peste 100, etc.
Dacă am lua TOATE eşantioanele de câte 144 de indivizi, fiecare eşantion ne dă câte o medie aproximativă a
coeficientului de inteligenţă de 100 al populaţiei. Media tuturor acestor aproximaţii va fi TOT 100!!! Cum
aceste aproximaţii sunt unele mai mici, unele mai mari, unele sub media reală, altele peste, ele au şi o
deviaţie standard.
Deviaţia standard va fi s144 = s = 15 =
15
= 1,25 , ceea ce ne spune că aproximaţiile ar fi destul de
n 144 12
bune, dacă se abat de la medie cu o deviaţie standard aşa de mică, de 1,25. În plus, aceste aproximaţii se
distribuie Gauss, ca şi coeficientul de inteligenţă, care se distribuie tot Gauss.
Pentru ce este bună o astfel de teorie? Ajută să ne dăm seama cât de bune sunt aproximaţiile. De exemplu,
aproximaţiile pe aşantioane de 144 de indivizi, sunt, cum se vede de mai sus, destul de bune. Pe eşantioane
de 400 de indivizi, aproximarea care se obţine are o deviaţie standard de s400 = s = 15 = 15 = 0,75 ,
n 400 20
deci aceste aproximaţii vor fi probabil mai bune.
În figura 1 sunt reprezentate histogramele corespunzătoare cazurilor când luăm foarte multe medii pe loturi
de câte 2 sau 3 sau 4, până la 100 (2, 3, 4, 9, 16, 25, 36, 100). Se observă toate cele trei afirmaţii punctate
mai sus.
2
Biostatistică - Cursul al VII-lea
Figura 1 Prima histogramă este executată pe seria statistică a mediilor pe loturi de câte doi indivizi extraşi dintr-o
populaţie de 10000 de indivizi. A doua histogramă pe seria mediilor pe loturi de câte 3, extrase din aceeaşi populaţie.
Apoi pe loturi de 4, 9, 16, 25, 36 şi 100 de indivizi. S-e observă tot mai accentuat tendinţa de scădere a dispersiei, pe
măsură ce creşte volumul loturilor.
Să observăm că deviaţia standard a distribuţiei mediilor de eşantionare, care se mai numeşte “eroare
standard”, este un indicator important care după cum se vede şi se va vedea mai jos este tocmai cel care ne
ajută să apreciem precizia sau siguranţa de calcul a mediei pe care o estimăm.
Eroarea standard este indicatorul care arată cât de precis aproximează media calculată din valorile unei
serii, media populaţiei din care a fost extras eşantionul sau lotul pe care s-au făcut măsurătorile.
Are formula:
σ
Err =
n
unde σ este deviaţia standard calculată folosind valorile seriei, iar n este numărul de valori din serie.
Se observă că este direct proporţională cu deviaţia standard a valorilor din serie şi deci, cu cât valorile din
serie sunt mai dispersate, cu atât valoarea indicatorului Err va fi mai mare. Proporţionalitatea este directă,
adică o creştere a deviaţiei standard, conduce la o creştere proporţională a lui Err.
Valoarea lui Err, este influenţată după cum se vede din formulă şi de numărul de valori din serie, în sensul
că, este cu atât mai mică cu cât sunt mai multe valori în serie, dacă deviaţia standard nu se schimbă. Err
scade în funcţie de numărul de valori din serie, nu însă proporţional.
3
Biostatistică - Cursul al VII-lea
De exemplu, dacă n creşte de 4 ori, Err scade de două ori: două serii de valori, X şi Y, au aceeaşi deviaţie
standard egală cu 2,3, iar numărul de valori în seria X este 25 iar cel al seriei Y este 100. Atunci erorile
standard pentru cele două serii sunt:
σ 2,3
ErrX = = = 0,46
25 5
σ 2,3
ErrY = = = 0,23
100 10
Deoarece este considerată a fi abaterea standard a mediei (calculată pe valorile măsurate pe un lot), faţă de
media întregii populaţii, i se mai spune uneori «abaterea standard a mediei de la medie», ceea ce este
bineînţeles un simplu joc de cuvinte şi nu trebuie luat în serios atunci când este întâlnit.
Bineînţeles că mediile obţinute pe eşantioane de volum n vor fi de obicei, cu atât mai aproape de realitate cu
cât n este mai mare. Acest aspect nu trebuie neapărat demonstrat căci are un suport intuitiv evident: o
aproximare a mediei unei populaţii este în principiu, cu atât mai bună cu cât eşantionul extras este
mai numeros.
Acest lucru ne spune că dacă reprezentăm curba Gauss a mediilor de eşantionare, ea va fi cu atât mai
“strânsă“ în jurul mediei reale, cu cât eşantioanele sunt de volum mai mare, deoarece este mai puţin probabil
să avem medii foarte îndepărtate de media reală.
Pe când folosirea de eşantioane restrânse ca acelea formate din doar doi sau trei indivizi poate duce la medii
foarte departe de cea reală, mediile obţinute pe eşantioane mai numeroase vor fi în general mult mai
apropiate de media reală.
s
De altfel, formula s n = , ne spune tocmai acest lucru, căci se vede că o creştere a lui n conduce la un
n
numitor mare şi deci la o eroare standard mică.
Această distribuţie, a mediilor de eşantionare, ne oferă posibilitatea de a estima siguranţa cu care este
aproximată media din chiar forma ei. O distribuţie a mediilor de eşantionare foarte strânsă arată în genereal
precizii bune. Dar o distribuţie “strânsă”, înseamnă o eroare standard mică.
Eşantionarea este un proces cu încărcătură pur statistică, el punând la încercare fondul de gândire
probabilistă pe care fiecare îl avem prin educaţie, fără să fi învăţat neapărat probabilităţi sau statistică.
Gândirea comună, sau uzuală, ne spune că este natural ca măsurători multe să ne conducă la o precizie
mai bună. Există totuşi multe limite ale gândirii comune care ne pot arunca în capcane greu de ocolit.
Judecăţile de mai sus sunt valabile ca afirmaţii statistice şi nu absolute. Am fi de exemplu tentaţi să afirmăm
că media de eşantionare obţinută pe un eşantion de volum mai mare este totdeauna mai precisă decât media
de eşantionare obţinută pe un eşantion de volum mai mic, ceea ce nu este adevărat. Adevărată este doar
afirmaţia:
Este mai probabil ca o medie de eşantionare pe un eşantion de volum mai mare să fie
mai precisă decât una obţinută pe un eşantion de volum mai mic.
Este posibil ca, prin jocul întâmplării, o medie obţinută pe un eşantion mai mare să fie mai departe de media
reală decât o medie obţinută pe un eşantion mai mic. Numai că această situaţie este mai puţin probabilă, cu
atât mai puţin probabilă cu cât diferenţa de volum între cele două eşantioane este mai mare.
3. Intervale de încredere
Definiţie. Estimarea unui parametru printr-o valoare numerică supusă unor erori inerente. Nu există metodă
perfectă de a măsura ceva şi ca urmare, orice înregistrare de date se face cu erori care se datorează în primul
rând procesului de măsurare. Iar în medicină, mai intervine şi variabilitatea naturală, un acelaşi parametru
fiind diferit de la individ la individ şi chiar, la un acelaşi individ, dacă măsurăm la două momente de timp
4
Biostatistică - Cursul al VII-lea
difeite. De aceea, o metodă comodă de a estima media unui parametru este aproximarea ei dacă este
posibil, printr-un interval în care se află adevărata medie a acelui parametru.
Din păcate, nu este posibil să găsim în general un interval finit în care să fim absolut siguri că se află
valoarea medie a parametrului de estimat. Acest lucru este posibil de exemplu atunci când avem informaţii
apriorice despre parametrul respectiv, de exemplu când este sigur că valoarea lui este în intervalul unitate,
sau, cum este cazul coeficientului de corelaţie (vezi cursul VII), valoarea lui este cuprinsă în intervalul [-1,
1].
Tot ceea ce se poate face este să găsim un interval în care valoarea medie a parametrului pe care îl estimăm
să se afle nu sigur, ci numai cu o probabilitate dinainte fixată. Dacă fixăm nivelul de siguranţă
(probabilitatea) la o valoare suficientă, de exemplu 95% sau 99%, ne putem declara mulţumiţi.
Pentru a înţelege mai bine cele expuse mai jos, este bine să gândim în termenii exemplului cu coeficientul de
inteligenţă: avem de estimat parametrul care se numeşte media coeficientului de inteligenţă al unei
populaţii şi avem la îndemână doar un eşantion, pe care am calculat numai o medie de eşantionare care o
aproximează pe cea reală, necunoscută.
DEFINIŢIE: Vom numi interval de încredere de siguranţă α% (95%, 99%, etc), un intreval de
numere în care suntem α% siguri că se află adevărata valoare a parametrului pe care îl estimăm.
Dacă un parametru este repartizat Gauss, cu media m şi abaterea standard s, atunci media de eşantionare X ,
obţinută pe un aşantion de n indivizi, respectă formula următoare:
s s
P X − 1,96 ⋅ < m < X + 1,96 ⋅ ≈ 0,95
n n
Această formulă se traduce astfel în limbajul obişnuit: Există o probabiltate de aproximativ 95% ca media
s s
reală (necunoscută) m să fie cuprinsă în intervalul de la X − 1,96 ⋅ la X + 1,96 ⋅ .
n n
Sau, altfel spus: adevărata medie m, necunoscută, se află cu o probabilitate de 95%, adică aproape
sigur, în intervalul format prin adunarea şi scăderea din media de eşantionare X , a unei valori egale
s
cu 1,96 . În practică, deoarece s este necunoscut, se pune în locul lui, deviaţia standard de eşanationare
n
adică cea calculată folosind eşantionul de n indivizi. Această deviaţie standard, care a fost notată în cursul
întâi cu σ, este doar o aproximare a deviaţiei standard a populaţiei, pe care am norat-o cu s. Se demonstrează
că în acest caz, trebuie să ne referim la repartiţia Student şi să luăm în locul a 1,96 erori standard stânga
n −1 n −1
dreapta, un număr de erori standard dat de t95 % , unde n este volumul lotului, iar t95% se ia din tabelele
distribuţiei Student (vezi laborator).
Formula de calcul pentru intervalul de încredere de 95% este deci:
n −1 σ n −1 σ
I 95% = X − t 95 % ⋅ , X + t 95 % ⋅
n n
În general, pentru calculul intervalului de încredere de siguranţă α%, formula este:
σ σ
I α % = X − tαn −%1 ⋅ , X + tαn −%1 ⋅
n n
Exemplu de calcul: Media de eşantionare pentru o serie statistică în care am măsurat latenţa semnalului pe
nervul optic, este 112,2 ms iar abaterea standard este 12,5 ms. Volumul eşantionului este de 156 de indivizi.
Să se calculeze intervalul de încredere de 95%.
Eroarea standard este Err = σ = 12,5 = 12,5 = 1
n 156 12,49
5
Biostatistică - Cursul al VII-lea
σ
Inf = X − t95
155
% ⋅ = 112,2 − 1,96 ⋅ 1 = 110,24
n
σ
Sup = X + t95% ⋅
155
= 112,2 − 1,96 ⋅ 1 = 114,16
n
TESTE STATISTICE
„este foarte improbabil ca cele două loturi să provină din populaţii cu medii egale”.
Totuşi, nu este exclusă posibilitatea ca cele două loturi chiar să provină din populaţii cu medii egale, şi nu
putem fi 100% siguri pe decizia luată. În statistică, nu are sens să se spună despre o astfel de ipoteză că este
adevărată sau falsă. Tot ce se poate aprecia este plauzibilitatea ei.
În statistică, orice afirmaţie este mai mult sau mai puţin plauzibilă, şi nu neapărat adevărată sau falsă.
În mod natural, atunci când constatăm diferenţe mari între mediile a două loturi, punem diferenţa pe seama
faptului că populaţiile din care provin loturile au medii diferite. Invers, când diferenţele între mediile celor
două loturi sunt mici, le punem pe seama întâmplării şi considerăm că loturile provin din populaţii cu medii
egale, sau, că provin din aceeaşi populaţie. Această problemă apare foarte des în practică pentru că foarte
des aplicăm tratamente la loturi care trebuie apoi comparate cu alte loturi la care nu se aplică tratamentul.
Una din problemele esenţiale ale statisticii este aceea de a decide asupra unor ipoteze care se nasc în mod
natural din examinarea datelor avute la dispozitie sau a indicatorilor statistici care le caracterizează.
6
Biostatistică - Cursul al VII-lea
Vom considera că normalii la care s-au facut măsuratori provin dintr-o populaţie, teoretic infinită, pe care o
vom denumi populaţia normală, iar ceilalţi provin in mod asemănător dintr-o populaţie pe care o vom
denumi populaţia afectată. Vom avea două cazuri posibile:
a) Media latenţei la cele două populaţii este in realitate aceeaşi (necunoscută) iar diferenţele constatate la
cele două loturi sunt datorate întâmplării. Dacă am continua măsuratorile, mărind cele două eşantioane,
mediile recalculate vor fi mai apropiate, iar in cele din urmă vor tinde să devină egale, rolul întâmplării
diminuându-se încet, încet.
b) Cele două populaţii au in realitate medii diferite, şi anume cea afectată are o medie a latenţei mai mare,
caz în care dacă am continua măsurătorile, mărind loturile, încet, încet, mediile tind să se stabilizeze, adică să
nu se mai modifice prea mult, dar, media la cei afectaţi tinde la o valoare diferită (şi anume mai mare) ca
media la sănătosi.
Înainte de a face măsurători efective, nimeni nu poate spune care este situaţia, adică nu poate decide între
cazurile a) si b). Din păcate, de obicei este greu să se ia o astfel de decizie chiar si după efectuarea de
măsuratori. In practică, diferenţe destul de mari între mediile de eşantionare pot apare la loturi extrase din
aceeasi populaţie dacă s-au măsurat puţini indivizi, mai ales dacă împrăştierea datelor este mare.
A trage concluzia că cele două loturi provin din populaţii cu medii diferite este, bineînţeles în acest caz nu
numai riscant ci de-a dreptul greşit. Invers, diferenţe între mediile de eşantionare care la prima vedere par
neînsemnate, pot să indice că cele două loturi provin din populatii diferite, dacă măsurătorile s-au facut pe
suficient de mulţi indivizi, mai ales când datele au împrăştieri mici.
De exemplu, la un lot de 122 de normali s-a măsurat latenţa semnalului nervos pe nervul optic şi s-a obţinut
o medie de 105,4 ms şi o deviaţie standard de 8,6 ms. Pacienţii cu o afecţiune au fost 87 şi s-a obţinut o
medie de 108,7 ms şi o deviaţie standard de 9,5 ms.
După cum se vede foarte uşor, diferenţa de medie pare mică şi suntem tentaţi să considerăm că suntem în
cazul a), adică diferenţa de 108,7 ms - 105,4 ms = 3,3 ms este întâmplătoare. În realitate testul Student,
despre care va fi vorba în acest curs arată că este aproape sigur (p=99,52%) că cele două eşantioane provin
din populaţii diferite sau că cele două populaţii din care provin (sanatoşi si afectaţi) au medii ale latenţei
diferite. Acest curs îşi propune printre altele să vă iniţieze în modul de a lua astfel de decizii.
Într-un alt caz, pe un lot de 35 de indivizi sănătoşi s-a obţinut media de 105,2 ms şi o deviaţie standard de
11,6 ms în timp ce la cei bolnavi (n=21), media a fost de 109,6 ms şi deviaţia standard 13,9 ms.
În ciuda faptului că diferenţa este acum ceva mai mare (4,4 ms), şi ar trebui deci să deducem că este cu atât
mai probabil ca cele două loturi să provină din populaţii diferite, din contră, testul Student arată că nu sunt
suficiente dovezi pentru această concluzie, ci, mai degrabă este corect să punem diferenţa constatată pe
seama intâmplării. Acest lucru se întâmplă din cauza datelor mai împrăştiate, lucru dovedit de deviaţiile
standard mai mari, precum şi din cauza numărului mai mic de măsurători în cele două loturi.
Vom conveni în continuare ca, dacă ne aflăm într-o situaţie asemănătoare cu cea de mai sus, să denumim
cele două situatii posibile (a si b) ca ipoteze fundamentale de lucru şi anume pe prima o vom numi ipoteza
de diferenta nulă, sau ipoteza de nul, iar pe cealaltă ca ipoteza alternativă.
• Ipoteza de nul (notaţie: H0 ): mediile populaţiilor din care provin loturile sunt egale.
• Ipoteza alternativă (notaţie: H1 ): mediile populaţiilor din care provin loturile diferă.
Uneori, ca alternative se pot alege două ipoteze sau chiar mai multe. De exemplu, în cazul de mai sus, putem
avea două ipoteze alternative la ipoteza de nul:
• Ipoteza alternativă H1 : media populaţiei de sănătoşi este mai mare ca cea a populaţiei de afectaţi.
• Ipoteza alternativă H2 : media populaţiei de sănătoşi este mai mică decât cea a populaţiei de
afectaţi.
Definiţie:
Vom numi test statistic, o metodă care ne ajută să decidem cu un grad de siguranţă ales, dacă
ipoteza de nul poate fi respinsă în favoarea ipotezei sau ipotezelor alternative sau dacă nu
sunt suficiente dovezi care să justifice respingerea ipotezei de nul.
7
Biostatistică - Cursul al VII-lea
Ipotezele pe care le putem supune deciziei unui test statistic sunt foarte variate. Din observarea datelor, se
pot naşte ipoteze dintre cele mai diverse. Categoriile principale de ipoteze sunt:
Fiecare dintre tipurile de ipoteze formulate mai sus, are una sau mai multe ipoteze alternative.
Se poate testa deci, dacă dispersiile unor populaţii sunt diferite, discuţia fiind în fond aceeaşi ca la cea pentru
medii. În plus, există teste care testează egalitatea a mai multor medii, adică având la dispoziţie mediile de
eşantionare a trei sau chiar mai multe loturi (cu deviaţiile lor standard), ne situăm în unul din cazurile:
• Ipoteza de nul H0 : Mediile m1, m2, m3 (etc), ale populaţiilor din care provin eşantioanele 1, 2, 3,
sunt egale.
• Ipoteza alternativă H1 : cel puţin două dintre mediile populaţiilor din care provin eşantioanele diferă.
Un test statistic va trebui în toate aceste cazuri, să ne ajute să decidem între a respinge sau nu ipoteza de nul
H0.
Testarea unor ipoteze statistice se poate face bazându-ne pe proprietăţile distribuţiei normale. De cele mai
multe ori insă, ipotezele statistice sunt de aşa natura că este nevoie de cunoaşterea proprietăţilor altor
distribuţii pentru a putea decide dacă sunt sau nu suficient de bine susţinute de datele pe care le avem la
dispoziţie.
A testa ipoteza de nul H0, contra unei ipoteze alternative H1, sau a
mai multor ipoteze alternative (H1, H2), înseamnă să acordăm lui H0
prezumţia de a fi adevărată, în afară de cazul că datele îi sunt
potrivnice într-un înalt grad, caz în care H0, trebuie respinsă în
favoarea ipotezei H1 sau în favoarea uneia dintre ipotezele H1, H2.
În continuare vom expune principalele categorii de teste folosite mai des în practica medicală.
X − X 0 , sau t = n ⋅ X − X0
tc = c
σ
σ
n
are o repartiţie Student cu n-1 grade de libertate. Decizia o vom lua stabilind care este plauzibilitatea ca t c să
aparţină repartiţiei Student cu n-1 grade de libertate. Vom căuta limitele dreapta-stânga între care avem
8
Biostatistică - Cursul al VII-lea
cuprinsă 95% sau 99% din aria de sub curba repartiţiei Student. Va fi deci suficient să căutăm valoarea lui
t95n−%1 , sau t99n−%1 , dată de tabelele statistice pentru t, şi să o comparăm cu valoarea lui tc .
O interpretare, a acestui test este deci următoarea:
n −1
• Dacă t c > t95 % , atunci există o diferenţă semnificativă între media de eşantionare X şi media
teoretică X 0
n −1
• Dacă t c < t95 % , atunci nu avem motive suficiente pentru a afirma că există o diferenţă
În figura 1, este arătat motivul pentru care comparăm t c cu limita de cuprindere a 95% (99%) din repartiţie.
Dacă t c este la dreapta acestei limite, este puţin probabil să aparţină repartiţiei respective şi ipoteza H0 va fi
respinsă ca falsă.
Figura 1 Pragul de 95% arată că valori mai mici decât acest prag sunt plauzibile, iar valori mai mari decât acest
prag sunt neplauzibile.
Exemplu practic:
• Media eşantionare X =14,5
• Media teoretică X 0 =18
• Deviaţia standard σ =12,5
n −1
• Pragul teoretic tt = t95 83
% = t 95% =1,998
• Volumul eşantionului n = 84
Deci, calculăm valoarea lui tc :
Deoarece tt < tc, luăm decizia că diferenţa între media de eşantionare şi media propusă de ipoteză este
semnificativă cu pragul de semnificaţie de 95%
Aşadar, avem două medii de eşantionare, X şi Y , două deviaţii standard de eşantionare σ 12 şi σ 22 , iar
ipotezele pe care le facem sunt:
9
Biostatistică - Cursul al VII-lea
• H0: m1=m2 (Mediile populaţiilor din care provin cele două eşantioane sunt aceleaşi).
• H1: m1 ≠ m2 (Mediile populaţiilor din care provin cele două eşantioane nu sunt aceleaşi).
Dacă populaţiile sunt de aceeaşi dispersie, atunci putem amesteca cele două eşantioane şi să estimăm s2 prin
dispersia de eşantionare calculată luând în considerare ambele eşantioane:
σ 12 (n1 − 1) + σ 22 (n2 − 1)
σ = 2
n1 + n2 − 2
Testul se bazează pe statistica
X −Y
tc = ,
1 1
σ +
n1 n2
care are o distribuţie Student cu n1+n2-2 grade de libertate.
Pentru a alege între ipotezele H0 şi H1, ne folosim de această statistică. Decizia este:
n −1
• Dacă t c > t95 % , diferenţa este semnificativă la pragul de semnificaţie de 95%.
n −1
• Dacă t c < t95 % , diferenţa este nesemnificativă la pragul de semnificaţie de 95%.
Să mai amintim că am folosit tacit ipoteza că măsuratorile efectuate pe indivizii din lot sunt independente,
adică nu depind unele de altele ceea ce de fapt se şi întâmplă în majoritatea cazurilor când este vorba de
eşantioane de pacienţi.
Astfel, testul Student pentru loturi mici poate fi aplicat dacă sunt îndeplinite următoarele condiţii, numite
condiţii de aplicare pentru teste parametrice, loturi mici:
• Repartiţiile populaţiilor din care provin loturile sunt normale
• Deviaţia standard este aceeaşi la cele două populaţii.
• Măsurătorile sunt independente.
Exemplu de calcul: Măsurând frecvenţa cardiacă la 9 pacienţi cu hipertiroidie şi la alţi 9 pacienţi cu
hipotiroidie, au fost obţinute valorile din tabelul 1. Primul pas este calculul mediilor, al deviaţiilor standard şi
al dispersiilor. Cum statistica testului foloseşte direct dispersiile, deviaţiile standard nu sunt absolut necesare.
Tabelul 1 Valorile frecvenţei cardiace la 9 pacienţi cu hipotiroidie şi 9 pacienţi cu hipertiroidie. Mediile, deviaţiile
standard şi dispersiile sunt calculate pe ultimele trei linii.
Nr Hipertiroidieni Hipotiroidieni
1 110 72
2 98 69
3 100 70
4 105 69
5 98 74
6 107 70
7 102 67
8 97 58
9 110 68
Media 103.000 68.556
St Dev 5.172 4.475
Dispersia 26.75 20.02777778
10
Biostatistică - Cursul al VII-lea
Valoarea prag a lui t95% din tabele statistice este 2,12. Cum statistica testului depăşeşte valoarea prag, ipoteza
de nul se respinge, diferenţa între cele două medii de eşantionare este semnificativă la pragul de semnificaţie
de 95%.
11
Biostatistică - Cursul al VII-lea
DZ: 111,11 105,93
Sănătosi: 107,44 70,61
Ipotezele:
1. H0: Mediile populaţiilor din care provin eşantioanele sunt egale
2. H1: Mediile populaţiilor din care provin eşantioanele diferă
Deoarece dispersiile sunt mult diferite, se aplică testul t pentru esantioane cu dispersie inegală. Mai jos,
este arătat rezultatul aplicării testului, folosind programul Microsoft Excel. Valoarea lui p este 20,4%, deci
ipoteza de nul nu se respinge, cele două medii de eşantionare nu diferă semnificativ.
După cum se observă, Excel calculează şi mediile şi dispersiile de eşantionare, precum şi alte valori care
prezintă o importanţă mai mică.
Condiţii de aplicare
Măsurătorile trebuie să fie independente (valabil la orice test statistic)
Dacă eşantioanele sunt relativ mici (sub 30 de indivizi), să se ştie că provin din populaţii cu
distribuţie Gauss
Pentru a decide dacă dispersiile seriilor de valori obţinute prin măsurători pe două loturi de pacienţi sau de
probe, diferă semnificativ, se poate folosi testul F, al lui Fisher, de comparare a dispersiilor.
12
Biostatistică - Cursul al VII-lea
În figura de mai sus, este arătat rezultatul aplicării testului, folosind programul Microsoft Excel. Valoarea lui
p este mult sub 0,01) este un număr cu foarte multe zerouri după punctul zecimal). Deci, ipoteza de nul se
respinge, cele două medii de eşantionare diferă înalt semnificativ.
La fel, se observă că Excel calculează şi mediile şi dispersiile de eşantionare, precum şi alte valori care
prezintă o importanţă mai mică.
Condiţii de aplicare
Măsurătorile trebuie să fie independente (valabil la orice test statistic)
Dacă eşantioanele sunt relativ mici (sub 30 de indivizi), să se ştie că provin din populaţii cu
distribuţie Gauss
Dispersiile de eşantionare să nu difere semnificativ
Dacă una sau mai multe din cele trei condiţii sunt încălcate, testul nu poate fi aplicat şi se caută un alt
test (vezi teste neparametrice, cursul următor)
***
Observaţie: Un test statistic poate eşua în tentativa de respingere a ipotezei de nul dacă:
• H0 este adevărată. Ea nu trebuie respinsă (mediile populaţiilor sunt egale)
• H0 este falsă. Ea ar trebui respinsă, dar datele pe care le avem la dispoziţie nu oferă suficientă
evidenţă împotriva ipotezei de nul
• Dacă ipoteza de nul este respinsă, aproape sigur mediile populaţiilor diferă
• Dacă ipoteza de nul nu este respinsă, nu se poate spune nimic.
o Ori, mediile, în realitate nu diferă
o Ori, ele diferă dar nu avem date suficiente care să pună în evidenţă acest adevăr
13
Biostatistică - Cursul al VII-lea
Dacă p>0,05 nu se respinge H0, diferenţa este nesemnificativă la pragul de semnificaţie de 95%
Dacă p<0,05 se respinge H0 cu pragul de semnificaţie de 95%. Cel puţin două medii diferă semnificativ
Dacă p<0,01 se respinge H0 cu pragul de semnificaţie de 99%. Diferenţa este înalt semnificativă
Testul nu îşi propune să compare loturile două câte două, deoarece răspunde la întrebarea dacă medile
eşantioanelor au o corelaţie cu criteriul de împărţire pe loturi. Veţi înţelege mai bine această afirmaţie dacă
urmăriţi exemplul de mai jos.
Exemplu: În trei comune ale judeţului Dolj au fost luate date despre obiceiurile alimentare şi legătura lor cu
obezitatea şi diabetul. Printre alte date s-au cules şi greutatea indivizilor precum şi date despre fumat.
Indivizii, indiferent de sex sau grupă de vârstă au fost împărţiţi în patru categorii: nefumători, foşti fumători,
uşor fumători (sub 10 ţigarete pe zi) şi fumători (peste 10 tigarete pe zi). O întrebare interesantă a fost aceea
dacă există o legătură între obiceiul fumatului şi greutatea corporală la aceşti indivizi. Ipotezele testului vor
fi:
H0: Indiferent dacă fumează sau nu, greutatea corporală este aceeaşi
H1: Cel puţin două categorii din cele 4 au greutăţi corporale diferite
Programul Microsoft Excel furnizează, cum se vede în imaginea de mai sus, numărul de indivizi din fiecare
lot (H5-H8), mediile de greutate la fiecare lot (J5-J8), dispersiile pentru fiecare lot (K5-K8), rezultatul p al
testului (L13), precum şi alte valori care sunt mai puţin importante pentru cel care doreşte să folosească
testul. Se observă că valoarea lui p, este 0,00176, adică 0,176%. Deci, fiind sub 0,01, vom spune că diferenţa
între mediile de greutate ale celor patru loturi este înalt semnificativă. Testul nu pune la dispoziţie o
comparare pe perechi, deci, concluzia este oarecum ambiguă, căci se poate naşte întrebarea: care din loturi
are o medie diferită semnificativ de a celorlalte? Oare lotul 4 are media semnificativ crescută faţă de celelalte
3, sau lotul 1 are media semnificativ scăzută faţă de ceelalte? Testul nu poate răspunde la astfel de întrebări.
De fapt, testul nu urmăreşte decât să stabilească eventuala legătură între greutatea corporală şi obiceiul
fumatului, fără să compare diferitele categorii de fumători/nefumători între ele.
Condiţii de aplicare
Măsurătorile trebuie să fie independente (valabil la orice test statistic)
Dacă eşantioanele sunt relativ mici (sub 30 de indivizi), să se ştie că provin din populaţii cu
distribuţie Gauss (Valabil şi la testul t – orice tip)
Dispersiile de eşantionare să nu difere semnificativ (Valabil şi la testul t – varianţe egale)
14
Biostatistică - Cursul al VII-lea
Dacă una sau mai multe din cele trei condiţii sunt încălcate, testul ANOVA nu poate fi aplicat şi se
caută un alt test (vezi teste neparametrice)
EXEMPLU: Testul ANOVA – conditii de aplicare
Dorim să comparăm nivelul bilirubinei totale la pacienţi cu ciroze şi cancere hepatice, în funcţie de prezenţa
sau absenţa ascitei
Se observă că programul a făcut trei clase: “da”, “Missing”, “nu’, şi deci va face o comparare între trei loturi.
Loturile “da” şi “nu”, sunt loturile cu ascită şi respectiv, fără ascită. Al treilea lot apare ca alcătuit din
pacienţii la care nu s-a specificat dacă au sau nu ascită, însă valoarea bilirubinei a fost înregistrată. Şi de data
aceasta vom verifica întâi dacă sunt îndeplinite condiţiile de aplicare a testuui ANOVA, şi dacă putem
interpreta valoarea lui p, care se vede că este 0,0838.
ANOVA- Verificarea conditiilor de aplicare – dispersii egale - testul Bartlett
Testul ANOVA face parte din categoria testelor parametrice, ca şi testul t-Student. Aceste teste cer ca
distribuţia valorilor să fie Gauss (cel puţin la loturi relativ mici).
15
Biostatistică - Cursul al VII-lea
7.Teste neparametrice
Atunci când nu este posibilă compararea mediilor a două sau mai multe loturi cu ajutorul testelor
parametrice, se pot folosi aşa-numitele teste neparametrice, care nu cer decât ca măsurătorile să fie
independente. Nu sunt cerute condiţii ca distribuţia măsurătorilor să fie Gauss, şi nici condiţii legate de
dispersia măsurătorilor. Deci, testele neparametrice:
Sunt teste care nu fac presupuneri legate de distribuţia datelor.
Se aplică în orice condiţii, dacă măsurătorile sunt independente
Se aplică atunci când nu putem aplica un test parametric
a. Testul Mann-Whitney-Wilcoxon de comparare a mediilor (se poate aplica şi la mai multe
eşantioane)
Două populaţii cu mediile m1, m2 şi abateri standard s1,s2.
Două eşantioane extrase din ele:
Valorile de eşantionare: , , , .
Ipotezele: H0 : m1 = m2 H1 : m1 ≠ m2
Rezultatul p se interpretează:
Dacă p>0,05 nu se respinge H0, diferenţa este nesemnificativă la pragul de semnificaţie de
95%
Dacă p<0,05 se respinge H0 cu pragul de semnificaţie de 95%. Diferenţa este semnificativă
Dacă p<0,01 se respinge H0 cu pragul de semnificaţie de 99%. Diferenţa este înalt
semnificativă
b. Testul Kruskal – Wallis/ Friedman de comparare a mediilor (se aplica la mai multe eşantioane)
4. Chestiuni de examen:
1. Pe un eşantion de 64 probe identice, un laborator a dat media concentraţiei compusului activ de 18mg/100ml, iar
deviaţia standard a valorilor din seria de 64 rezultate a fost de 2mg/100ml. Din tabele, t 95% = 2 . Intervalul de
63
16
Biostatistică - Cursul al VII-lea
2. Intervalul de încredere pentru media calculată pe o serie de valori are interpretarea:
A. Adevărata medie, cea care se aproximează, este aproape sigur în intervalul de încredere
B. Media de eşantionare, este aproape sigur în intervalul de încredere
C. Adevărata mediană, cea care se aproximează, este aproape sigur în intervalul de încredere
D. Este un interval în care de află aproape toate valorile din seria de valori
3. Intervalul de încredere de 95% pentru coeficientul de inteligenţă al unui lot selecţionat de 1000 de economişti este
[114,7 ; 129,7]. Aceasta înseamnă că:
A. Media coeficientului de inteligenţă al populaţiei economiştilor este aproape sigur în acest interval
B. Media de eşantionare este aproape sigur în acest interval
C. Media coeficientului de inteligenţă al populaţiei economiştilor este sigur în acest interval
D. Media de eşantionare este sigur în acest interval
4. Valoarea lui OR, calculat pentru un tabel de incidenţă 2x2, este 2,4, iar intervalul de încredere este de la 0,8 la 4,9. În
acest caz:
A. Valoarea lui OR este semnificativă
B. Valoarea lui OR este nesemnificativă
C. Nu putem decide dacă valoarea lui OR este sau nu semnificativă
5. Pentru a găsio aproximare a mediei de greutate la studenţii UMF, doi studenţi aleg câte un eşantion extras aleator de
40 şi respectiv 60 de subiecţi, şi calculează media de greutate, fiecare la eşantionul său. În acest caz:
A. Media pe lotul de 40 de subiecţi va fi sigur mai paroape de realitate
B. Media pe lotul de 60 de subiecţi va fi sigur mai paroape de realitate
C. Media pe lotul de 60 de subiecţi va fi probabil mai paroape de realitate
D. Oricare din cele două medii obţinute poate fi mai aproape de realitate
6. Pentru a estima greutatea medie a studenţilor UMF, un student alege ca eşantion primii 100 de studenţi ai UMF din
lista alfabetică.
A. Eşantionul este nereprezentativ, deoarece extragerea nu s-a făcut aleator
B. Eşantionul este reprezantativ, deoarece ordinea alfabetică este aleatorie din punctul de vedere al greutăţii
C. Eşantionul este prea mic
D. Eşantionul este prea mare
7. Următoaree condiţii sunt binevenite sau necesare pentru ca un eşantion să fie reprezentativ:
A. Să fie alcătuit din subiecţi aleşi aleator din populaţie
B. Să fie cât mai voluminos
C. Să fie reprezentativ
8. Media calculată pe un eşantion de 100 de subiecţi este totdeauna mai apropiată de media reală decât cea calculată pe
un eşantion de 60 de subiecţi, deoarece:
A. Eşantion mai mare, înseamnă totdeauna o precizie mai bună
B. Eşantion mai mic, înseamnă totdeauna o precizie mai slabă
C. Media pe eşantionul de 100, este mai probabil să fie mai apropiată de media reală
9. Dacă dintr-o populaţie extragem în mod repetat eşantioane foarte mari şi la fiecare eşantion calculăm media, mediile
astfel obţinute vor fi:
A. Distribuite apropiat de o distribuţie Gauss
B. Distribuite foarte diferit de o distribuţie Gauss
C. Distribuţie Gauss
10. Intervalul de încredere de 99% are ca diferenţe faţă de cel de 95%, următoarele:
A. Intervalul de 99% este mai larg decât cel de 95%
B. Intervalul de 95% este mai larg decât cel de 99%
C. Intervalul de 99% şi cel de 95% sunt la fel de largi
D. Nu putem şti dinainte care din cele două intervale este mai larg
11. Dacă două loturi sunt mici, atunci pentru aplicarea testului Student, trebuie îndeplinite condiţiile:
A. Repartiţiile populaţiilor din care provin loturile sunt normale
B. Deviaţia standard este aceeaşi la cele două populaţii
C. Măsurătorile sunt independente
D. Loturile să aibă medii egale
12. Care din următoarele teste sunt teste parametrice:
A. ANOVA
B. Student
C. Wilcoxon
D. Kruskal-Wallis
17
Biostatistică - Cursul al VII-lea
13. Rezultatul p al unui test statistic se interpretează astfel:
A. Se respinge ipoteza de nul dacă p<0,05
B. Se respinge ipoteza de nul dacă p>0,05
C. Se respinge ipoteza alternativă dacă p>0,05
D. Se acceptă ipoteza de nul dacă p<0,05
14. Pentru a putea aplica testul ANOVA, trebuie verificate următoarele condiţii
A. Măsurătorile să fie independente
B. Dispersiile să nu difere semnificativ
C. Distribuţiile populaţiilor din care provin eşantioanele să nu fie simetrice
D. Distribuţiile populaţiilor din care provin eşantioanele să fie Gauss
15. Testul ANOVA este un test:
A. Parametric
B. Neparametric
C. De comparare a mediilor
D. De compaarre a dispersiilor
16. Rezultatul p al unui test statistic are intrepretare diferită de la test la test
A. Da, la fiecare test avem o altă interpretare
B. Nu, totdeauna ne ajută să respingem sau nu ipoteza de nul
C. Rezultatul p nu se interpretează, el fiind un simplu număr
D. Avem o interpretare la testele parametrice şi o alta la cele neparametrice
17. Dacă în urma efectuării unui test Student de comparare a mediilor, obţinem p=0,78656, atunci:
A. Nu se respinge H0
B. Se acceptă H0
C. Se respinge H0
D. Nu putem decide
18. Dacă în urma efectuării unui test Student de comparare a mediilor, obţinem p=0,0256, atunci:
A. Se respinge H0
B. Se acceptă H0
C. Se respinge H1
D. Nu putem decide
19. Dacă în urma efectuării unui test Student de comparare a mediilor, obţinem p=0,0000000000000001, atunci:
A. Se respinge H0
B. Nu se respinge H0
C. Nu se respinge H1
D. Se acceptă H1
20. Dacă efectuăm testul t al lui Student, măsurători pereche:
A. Loturile pot fi diferite ca volum
B. Loturile trebuie să fie egale ca volum
C. Loturile trebuie să aibă aceeaşi medie
D. Trebuie să avem trei loturi
21. Respingerea ipotezei de nul când efectuăm un test de comparare a mediilor înseamnă:
A. Cele două medii de eşantionare diferă semnificativ
B. Cele două medii ale populaţiilor din care provin loturile diferă
C. Cele două medii de eşantionare nu diferă semnificativ
D. Cele două medii ale populaţiilor din care provin loturile nu diferă
22. Nerespingerea ipotezei de nul când efectuăm un test de comparare a mediilor înseamnă:
A. Cele două medii de eşantionare diferă semnificativ
B. Cele două medii ale populaţiilor din care provin loturile diferă semnificativ
C. Cele două medii de eşantionare nu diferă semnificativ
D. Cele două medii ale populaţiilor din care provin loturile nu diferă
23. Intervalul de încredere de 95% pentru coeficientul de inteligenţă al unui lot selecţionat de 1000 de economişti este
[114,7 ; 129,7]. Aceasta înseamnă că:
A. Media coeficientului de inteligenţă al populaţiei economiştilor este aproape sigur în acest interval
B. Media de eşantionare este aproape sigur în acest interval
C. Media coeficientului de inteligenţă al populaţiei economiştilor este sigur în acest interval
D. Media de eşantionare este sigur în acest interval
18