Sunteți pe pagina 1din 203

GHEORGHE-IOAN MIHALA

DIANA LUNGEANU

BIOSTATISTIC

I
Colecia
STUDII DOCTORALE

II
GHEORGHE-IOAN MIHALA

DIANA LUNGEANU

BIOSTATISTIC

2011

III
Editura VICTOR BABE
Piaa Eftimie Murgu 2, cam. 316, 300041 Timioara
Tel./ Fax 0256 495 210
e-mail: evb@umft.ro, calaevb@umft.ro
www.evb.umft.ro

Director general: Prof. univ. dr. tefan-Iosif Drgulescu


Coperta: Caius Fericean

Colecia: STUDII DOCTORALE


Coordonator colecie: Prof. univ. dr. Silvia Manca
Referent tiinific: Prof. univ. dr. Adrian Neagu

2011 Toate drepturile asupra acestei ediii sunt rezervate. Reproducerea


parial sau integral a textului sau imaginilor, pe orice suport, fr acordul
scris al autorilor, este interzis i se va sanciona conform legilor n vigoare.

Descrierea CIP a Bibliotecii Naionale a Romniei

MIHALA, GHEORGHE-IOAN
Biostatistic / Gheorghe Ioan Mihala, Diana Lungeanu. -
Timioara : Editura Victor Babe, 2011
ISBN 978-606-8054-35-3
I. Lungeanu, Diana
311:57

Tiprit la Tipografia Eurostampa


B-dul Revoluia din 1989 nr. 26, Timioara
Tel. 0256- 204 816, edituraeurostampa@gmail.com

IV
Prefa

O nou ediie sau carte pe aceeai tem ofer ntotdeauna autorilor prilejul de a-i
ajusta coninutul i mbunti prezentarea, n funcie de reaciile la ediia precedent
i noilor dezvoltri n domeniu. Acesta este i cazul noului nostru volum de
Biostatistic, adresat absolvenilor profilelor medicale ce i continu studiile la nivel
masteral sau doctoral.
Cursanii notri, chiar dac nu i manifest direct o aversiune fa de formalizrile
uzuale, care abund n majoritatea crilor de biostatistic, i-au exprimat direct
preferinele spre o abordare cu puternic tent aplicativ i cu exemple ct mai multe i
mai variate n care s-i gseasc eventuale analogii cu propriile preocupri. Prin
sondajele efectuate am constatat c majoritatea cursanilor aveau unele cunotine
elementare de calcul statistic, care erau ns nesistematizate i erau nsoite de un nivel
ridicat de incertitudine. Muli utilizaser deja aplicaii de prelucrri statistice, ns din
exemplele date a reieit c deseori nu tiau de ce folosiser anumite prelucrri, ei
orientndu-se, de regul, dup alte articole publicate n care erau relatate cercetri
asemntoare.
Este evident c un curs modern de biostatistic nu poate ignora aplicaiile software
actualmente accesibile, ci chiar trebuie s le utilizeze ca punct de pornire i de
exemplificare. n acelai timp, utilizarea inadecvat a unor prelucrri statistice, la fel
ca i interpretarea greit a rezultatelor prelucrrilor poate conduce la concluzii
greite, uneori aproape periculoase n domeniul medical. Pentru evitarea lor este
nevoie de nelegerea noiunilor fundamentale de biostatistic. Chiar i utilizatorii cu
mai puine cunotine de matematic i mai puin obinuii cu formule, cum sunt
doctoranzii absolveni ai facultilor de profil medical, pot fi utilizatori contieni i
competeni ai instrumentelor statistice. Pornind de la aceste considerente, un curs care
se adreseaz lor trebuie orientat n direcia combinrii exemplelor cu o formalizare
echilibrat. Se poate realiza aceasta fr matematic, sau fr formule? Este greu de
rspuns cu un DA hotrt, ns se poate realiza o reducere substanial a formalizrii
matematice n favoarea unor scheme, exemple i explicaii.
Sondajul de la sfritul cursului a artat c pot fi nelese i aplicate corect
elemente de mare complexitate statistic chiar fr ncrcarea tradiional cu formule.
Totodat, a fost recunoscut faptul c partea teoretic, explicativ pentru fiecare gen de
prelucrare este esenial. Nu este posibil utilizarea contient i corect a aplicaiilor
software fr nelegerea elementelor teoretice.
n forma tiprit, fiecare capitol din curs ncepe cu partea descriptiv, ideile
principale urmrind un fir logic simplu, nsoit de exemple, explicaii i comentarii. n
textul propriu-zis au fost reinute doar cteva formule simple, strict necesare pentru
nelegerea noiunilor respective. Dac s-ar rezuma la att, am putea numi acest curs:
Biostatistica fr formule - nivel avansat. Dup seciunea descriptiv a fiecrui
capitol sunt reluate toate noiunile n manier formalizat, abordare ce urmrete un
dublu scop: pe de o parte este completarea indispensabil a unui curs ce se adreseaz
studenilor din programul doctoral; pe de alt parte, nu toi doctoranzii i-au exprimat
aversiunea fa de formule, unii dintre ei avnd o baz adecvat de cunotine pentru
urmrirea abordrii teoretice. Mai mult dect att, unii dintre studenii notri au

V
realizat c prezentarea formalizat ofer o elegan i o concizie greu de egalat prin
alte mijloace, ea fiind totodat mult mai uor acceptat dup o bun nelegere a
prezentrii descriptive. Trebuie totui menionat faptul c partea formalizat din cadrul
fiecrui capitol poate fi srit fr a afecta nelegerea capitolelor ulterioare. n plus,
fiecare capitol se ncheie cu o reluare a principalelor idei sub form sintetic,
concentrnd n cteva definiii, observaii sau reguli elementele eseniale ce sunt utile
din punct de vedere practic.
Pentru ca legtura cu practica s nu rmn la nivel declarativ, cititorul este
ndrumat s efectueze o serie de aplicaii practice specifice fiecrui tip de aplicaie,
avnd la dispoziie protocoalele de lucru folosite n cadrul lucrrilor de
seminar/laborator. Fa de varianta precedent, partea a doua a manualului, cea
dedicat protocoalelor de lucru, a fost complet restructurat i extins, introducnd n
prezentare i unele amnunte (omise anterior), care permit i persoanelor cu mai
puin experien n utilizarea softului statistic s poat parcurge integral fiecare tem.
Ne-am orientat, pentru majoritatea prelucrrilor, spre cel mai simplu i mai
popular soft cu care se pot realiza prelucrri la un nivel satisfctor n cele mai multe
cazuri. Este vorba de Microsoft Excel pentru care sunt actualmente n uz curent dou
versiuni Excel 2003, respectiv Excel 2007 foarte asemntoare la nivel de
prelucrare, dar destul de diferite ca meniuri, deci cu diferene uneori sensibile - n
descrierea modului de lucru, ceea ce justific prezentrile separate pe care le-am
adoptat n manualul nostru. n plus, aa cum au sugerat mai muli cursani, am introdus
i dou anexe: una cu descrierea tabelelor de date utilizate, inclusiv prezentarea lor,
iar a doua cu prezentarea rezultatelor prelucrrilor, ca suport pentru validarea
procedurilor aplicate personal.
Ne-a bucurat mult aprecierea cvasiunanim a modului de prezentare folosit,
orientat spre gndirea statistic i modul de interpretare a rezultatelor, fr a apela la
formule sau fraze enigmatice. ntr-adevr, dac este bine prezentat, biostatistica nu
este nici greu de neles, nici greu de aplicat.
Le mulumim celor care i-au exprimat opiniile i, ntr-un fel, chiar ne-au ncurajat
s pregtim acest nou volum. Credem c, n aceast variant, cursul nostru va sta pe
masa celor care i pregtesc tezele sau alte lucrri tiinifice trimise spre publicare,
care necesit aplicarea metodelor statistice de prelucrare a datelor. Ateptm cu
interes opiniile cititorilor, pe care le tratm cu deosebit atenie, fapt vizibil prin nsi
publicarea acestui volum.

Autorii

VI
CUPRINS

Partea I
1. NOIUNI INTRODUCTIVE .................................................................................. 3
1.1. Termeni .............................................................................................................. 3
1.1.1. Populaie, individ ...................................................................................... 3
1.1.2. Variabile .................................................................................................... 3
1.1.3. Obiectul biostatisticii, metode, eantion .................................................... 4
1.1.4. Inferen statistic ....................................................................................... 4
1.1.5. Eantion reprezentativ ............................................................................... 5
1.2. Metode de selecie ............................................................................................. 5
1.2.1. Selecia simpl........................................................................................... 6
1.2.2. Selecia stratificat .................................................................................... 6
1.2.3. Selecia grupat ......................................................................................... 6
1.3. Tipuri de variabile .............................................................................................. 7
1.3.1. Variabile numerice .................................................................................... 7
1.3.2. Variabile ordinale ...................................................................................... 7
1.3.3. Variabile calitative .................................................................................... 8
1.3.4. Transformri .............................................................................................. 8
1.3.5. Acuratee i precizie .................................................................................. 9
1.3.6. Caracteristicile variabilelor ....................................................................... 9
1.4. Variabilitate ...................................................................................................... 10
1.4.1. Surse de variaie ....................................................................................... 10
1.4.2. Tipuri de variaii ....................................................................................... 10
1.5. Proiectarea unui studio ........................................................................................ 11
1.5.1. Stabilirea scopului studiului ..................................................................... 11
1.5.2. Colectarea datelor ..................................................................................... 11
1.5.3. Sinteza datelor: tabele i grafice ............................................................... 11
2. STATISTICA DESCRIPTIV .............................................................................. 13
2.1. Colectarea datelor ............................................................................................. 13
2.2. Statistici descriptive .......................................................................................... 16
2.3. Indicatori ai tendinei central ............................................................................ 16
2.3.1. Media aritmetic ....................................................................................... 16
2.3.2. Mediana .................................................................................................... 17
2.3.3. Moda ........................................................................................................ 17
2.4. Indicatori de dispersie pentru variabile numerice ............................................. 18
2.4.1. Domeniul de valori ................................................................................... 18
2.4.2. Deviaia standard ...................................................................................... 18
2.4.3. Observaii ................................................................................................. 21
2.5. Indicatori de dispersie pentru variabile ordinale ............................................... 21
2.6. Indicatori pentru variabile calitative ................................................................. 22

VII
2.6.1. Proporiile claselor ................................................................................... 23
2.6.2. Deviaia standard a proporiei .................................................................. 23
2.7. Asimetrie i exces ............................................................................................. 24
2.8. Fundamentare teoretic ..................................................................................... 25
2.8.1. Indicatorii tendinei centrale ..................................................................... 25
2.8.2. Limea claselor n histograme ................................................................. 27
2.8.3. Indicatori de dispersie pentru variabile numerice ..................................... 28
2.8.4. Indicatori de dispersie pentru variabile ordinale ....................................... 31
2.8.5. Indicatori pentru variabile nominale ......................................................... 32
2.8.6. Medii de puteri: momente. Momente centrate .......................................... 33
2.8.7. Asimetria .................................................................................................. 34
2.8.8. Excesul ..................................................................................................... 34
3. ESTIMAREA STATISTIC .................................................................................. 37
3.1. Media populaiei ............................................................................................... 37
3.2. Eroarea standard a mediei ................................................................................. 38
3.3. Estimare, estimatori .......................................................................................... 39
3.4. Estimarea mediei ............................................................................................... 41
3.4.1. Estimarea mediei populaiei pentru eantioane mari ( > 30) .................... 41
3.4.2. Estimarea mediei populaiei pentru eantioane mici ( < 30)..................... 42
3.5. Estimarea diferenelor ntre medii ..................................................................... 42
3.6. Estimarea proporiilor i a diferenelor ntre proporii ...................................... 42
3.7. Calculul dimensiunii eantionului ..................................................................... 43
3.7.1. Calculul lui n pentru variabile numerice .................................................. 44
3.7.2. Calculul lui n pentru variabile nominale .................................................. 44
3.8. Fundamentare teoretic formalizare ............................................................... 45
3.8.1. Distribuii ................................................................................................. 45
3.8.2. Estimare .................................................................................................... 47
3.8.3. Estimarea mediei ...................................................................................... 48
3.8.4. Estimarea proporiei ................................................................................. 51
3.8.5. Estimarea diferenelor .............................................................................. 52
3.8.6. Calculul dimensiunii eantionului ............................................................ 54
4. TESTE STATISTICE ............................................................................................. 55
4.1. Noiuni fundamentale ........................................................................................ 55
4.1.1. Diferene semnificative i nesemnificative ............................................... 55
4.1.2. Prag de semnificaie ................................................................................. 56
4.1.3. Ipoteze statistice ....................................................................................... 57
4.1.4. Interpretarea testelor ................................................................................. 58
4.1.5. Erori statistice ........................................................................................... 60
4.1.6. Caracteristicile testelor ............................................................................. 61
4.1.7. Clasificarea testelor .................................................................................. 61
4.2. Teste uzuale ...................................................................................................... 62
4.2.1. Teste pentru variabile numerice ............................................................... 62
4.2.2. Teste pentru variabile ordinale (rang)....................................................... 65

VIII
4.2.3. Teste pentru variabile nominale ............................................................... 65
4.2.4. Teste pentru indicatori de dispersie .......................................................... 66
4.2.5. Analiza varianei (ANOVA) .................................................................... 67
4.3. Fundamentare teoretic ..................................................................................... 70
4.3.1. Erori statistice ........................................................................................... 70
4.3.2. Regiunea critic ........................................................................................ 71
4.3.3. Teste pentru variabile numerice ............................................................... 72
4.3.4. Teste pentru variabile ordinale ................................................................. 76
4.3.5. Teste pentru proporii ............................................................................... 81
4.3.6. Teste pentru indicatori de dispersie .......................................................... 88
5. CORELAIA I REGRESIA ................................................................................ 99
5.1. Relaii ntre dou variabile cantitative ............................................................. 99
5.1.1. Relaia de dependen ............................................................................... 99
5.1.2. Corelaia liniar ....................................................................................... 101
5.1.3. Dreapta de regresie .................................................................................. 104
5.2. Corelaii neliniare ............................................................................................ 107
5.3. Relaia ntre analiza corelaiei i analiza varianei ........................................... 108
5.4. Fundamentare teoretic .................................................................................... 108
5.4.1. Corelaia liniar ....................................................................................... 108
5.4.2. Corelaii neliniare .................................................................................... 113
5.4.3. Relaii ntre dou variabile ordinale ........................................................ 116
5.4.4. Relaii ntre variabile nominale ............................................................... 118
5.4.5. Relaii ntre mai multe variabile cantitative ............................................ 119
6. EPIDEMIOLOGIE ANALIZA RISCULUI ........................................................ 121
6.1. Factori de risc. Noiuni generale ...................................................................... 121
6.2. Metode de studiu n epidemiologie .................................................................. 122
6.2.1. Studii experimentale ................................................................................ 123
6.2.2. Studii observaionale ............................................................................... 123
6.3. Indicatorii din analiza riscului.......................................................................... 124
6.3.1. Riscul Relativ .......................................................................................... 125
6.3.2. Odds Ratio ............................................................................................... 125
6.4. Fundamentare teoretic .................................................................................... 126
6.4.1. Indici n studii populaionale ................................................................... 126
6.4.2. Riscul Relativ .......................................................................................... 127
6.4.3. Odds Ratio ............................................................................................... 128
6.4.4. Ali indicatori din analiza riscului ........................................................... 129
6.4.5. Loturi pereche ......................................................................................... 129
6.4.6. Relaia ntre analiza riscului i testele statistice ...................................... 131
6.4.7. Analiza stratificat ................................................................................... 132
7. ANALIZA SUPRAVIEUIRII ............................................................................. 135
7.1. Caracteristicile studiilor de lung durat .......................................................... 135
7.2. Prezentarea i prelucrarea datelor. Noiuni generale ........................................ 136

IX
7.2.1. Tabele de via......................................................................................... 136
7.2.2. Metoda actuarial ...................................................................................... 138
7.2.3. Curbe Kaplan-Meier ................................................................................139
7.2.4. Aplicaii ...................................................................................................140
8. EVALUAREA CALITII TESTELOR DIAGNOSTICE ............................... 141
8.1. Termeni generali .............................................................................................. 141
8.2. Indicatori ai calitii unui clasificator ............................................................... 142
8.3. Fundamentare teoretic .................................................................................... 143
8.3.1. Curba ROC .............................................................................................. 143
8.3.2. Coeficientul c .......................................................................................... 144
8.3.3. Indicele Youden ...................................................................................... 144

Partea a II-a
Lucrri practice ..........................................................................................................149
1. Generaliti ..........................................................................................................149
2. Descrierea sumar a tabelelor de date .................................................................150
3. Descrierea lucrrilor practice pentru Excel 2007 ................................................152
Tema 1: Reprezentri grafice simple .................................................................152
Tema 2: Calcule simple n Excel .......................................................................154
Tema 3: Parametrii statistici ..............................................................................155
Tema 4: Histograme din fiiere de date brute .................................................... 156
Tema 5: Teste statistice ..................................................................................... 158
Tema 6: Analiza corelaiei.................................................................................160
Tema 7: Analiza riscului ...................................................................................161
Tema 8: Validarea testelor diagnostic ............................................................... 164
4. Descrierea lucrrilor practice pentru Excel 2003 ................................................165
Tema 1: Reprezentri grafice simple .................................................................165
Tema 2: Calcule simple n Excel .......................................................................166
Tema 3: Parametrii statistici ..............................................................................168
Tema 4: Histograme din fiiere de date brute .................................................... 169
Tema 5: Teste statistice ..................................................................................... 169
Anexa 1 Tabelele de Date ........................................................................................ 175
Anexa 2 Rezultate ....................................................................................................181
Tema 1: Reprezentri grafice simple .................................................................181
Tema 2: Calcule simple n Excel .......................................................................183
Tema 3: Parametrii statistici ..............................................................................184
Tema 4: Histograme din fiiere de date brute ...................................................185
Tema 5: Teste statistice ..................................................................................... 186
Tema 6: Analiza corelaiei.................................................................................187
Tema 7: Analiza riscului ...................................................................................189
Tema 8: Validarea testelor diagnostic ............................................................... 190
Bibliografie ................................................................................................................191

X
Gheorghe Ioan Mihala, Diana Lungeanu

Partea I

1
Biostatistica

2
Gheorghe Ioan Mihala, Diana Lungeanu

1. NOIUNI INTRODUCTIVE
Cuprins
A. Prezentare descriptiv
Termeni
Metode de selecie
Tipuri de variabile
Variabilitate
Proiectarea unui studiu
B. Sintez: Caseta 1. Definiii

1.1. Termeni

1.1.1. Populaie, individ


n general, studiile medicale se refer aproape ntotdeauna la determinarea
caracteristicilor (proprietilor) unui grup specific de persoane, care va reprezenta
populaia studiat. O persoan din acea populaie va fi numit individ.
Populaia, n sens statistic, nu se refer numai la persoane; putem, de exemplu, face
un studiu privind proprietile hematiilor, n care caz populaia va fi reprezentat de
totalitatea hematiilor unei persoane (sau categorii de persoane); un individ din
populaie va fi reprezentat de o hematie.
Toi indivizii unei populaii au o caracteristic comun care se utilizeaz chiar
pentru definirea populaiei. n prezentarea unui studiu populaia trebuie definit clar, n
aa fel nct s nu fie nici un dubiu dac un individ face parte din populaie, sau nu. De
asemenea, populaia trebuie localizat n timp i spaiu.
De exemplu, vom putea introduce populaia studiat astfel: S-a efectuat un studiu
privind dezvoltarea somatic a copiilor n vrst de 10 ani, din judeul Timi, n anul
2009.
Numrul de indivizi dintr-o populaie se numete volumul populaiei. Putem face
studii n care volumul populaiei este cunoscut exact sau cu o bun aproximaie (ex:
copiii de 10 ani din Timi n 2009), dar putem avea studii n care volumul populaiei
este neprecizat sau foarte greu de precizat (o populaie de hipertensivi).

1.1.2. Variabile
n cadrul studiului se msoar diferite caracteristici sau proprieti ale indivizilor. O
caracteristic msurat se numete variabil.

3
Biostatistica

De ex.: data naterii, greutatea, glicemia -jeun, grupa sanguina, prezena


proteinuriei etc.
Valorile pe care le iau variabilele pentru un individ se numesc date. Dintre
tipurile de date care se definesc din punct de vedere informaional (numerice, calitative,
grafice, imagini etc.), n biostatistic se utilizeaz numai cele calitative i numerice. Din
datele tip multimedia (semnale, imagini), se pot extrage parametrii care s fie utilizai
pentru prelucrri statistice, prin metode descrise n cursurile de informatic medical
[Lungeanu D., Mihala G.I. 2008]. O descriere a tipurilor de date va fi prezentat mai
jos.

1.1.3. Obiectul biostatisticii, metode, eantion


Acum, dup introducerea primelor noiuni, putem ncerca i definirea obiectului
biostatisticii. Obiectivele centrale ale biostatisticii sunt determinarea caracteristicilor
unei populaii i/sau compararea a dou sau mai multe populaii.
Cum putem determina caracteristicile unei populaii? Exist mai multe metode.
recensmnt - metod care presupune msurarea caracteristicilor studiate la toi
indivizii, n acelai moment (interval scurt). Este o metod de determinare exact a
caracteristicilor populaiei, ns este foarte laborioas i extrem de costisitoare; de aceea
este utilizat rar. n practic nu este necesar precizia oferit de recensmnt, fiind
suficiente date aproximative, cu precizie satisfctoare.
screening - metod aplicat pe loturi mari, de obicei pentru depistarea n cadrul
unei populaii a indivizilor avnd o abatere deosebit a unui parametru (depistarea
precoce a unor afeciuni grave sau cu consecine deosebite); nu este necesar localizarea
n timp cu stricteea recensmntului. Fiind o operaie destul de costisitoare, eficiena
crete prin alegerea unei selecii din populaie conform unor factori de risc; exist o
ntreag metodologie pentru optimizarea screeningurilor.
eantionare - metoda folosit uzual n studiile medicale, oferind rezultate cu
precizie satisfctoare pentru aplicaiile curente i un cost acceptabil. Din populaie se
selecteaz o submulime numit eantion (lot, grup), msurtorile se efectueaz numai
pe indivizii eantionului. Numrul de indivizi din eantion se mai numete volumul
eantionului, sau dimensiunea eantionului.
Vom efectua o prim serie de prelucrri statistice prin care vom obine un set de
parametri caracteristici eantionului. Aceste prelucrri sunt reunite ntr-un capitol numit
uzual Statistic descriptiv sau Parametrii statistici.

1.1.4. Inferen statistic


S nu uitm c inta noastr este s caracterizm populaia, iar valorile obinute sunt
caracteristice ale eantionului! Vom apela la o operaie care ocup o poziie central n
(gndirea) statistic, numit inferen statistic - este operaia de generalizare
(extindere) a concluziilor trase din studiul unui eantion la nivelul ntregii populaii din
care am extras eantionul.

4
Gheorghe Ioan Mihala, Diana Lungeanu

Inferena statistic este asemntoare cu inducia matematic, fiind vorba tot de o


trecere de la particular la general, invers deduciei care reprezint trecerea de la
general la particular (fig. 1.1).

Fig. 1.1. Inferena statistic

De ce este considerat inferena statistic drept operaiunea central a


(bio)statisticii? Pentru c de la ea pornesc toate principiile gndirii statistice. ntr-
adevr, dac am lucrat pe un eantion ce reprezint un mic procent din populaie (chiar
sub 1%), care vor fi avut poate i un grad destul de mare de variabilitate, nu putem s nu
ne ntrebm dac nu cumva rezultatele pe eantion nu sunt prea deprtate de cele ce
reprezint cu adevrat populaia!?
Biostatistica ne ofer tocmai instrumentele cu care s putem scpa de aceste
ndoieli, s apreciem ct de departe am putea fi fa de valorile adevrate i care ar fi
nivelul de ncredere n afirmaiile pe care le facem. S nu uitm c valorile adevrate ale
caracteristicilor populaiei rmn necunoscute atta timp ct noi am lucrat doar pe un
eantion, deci vedem doar o parte din adevr, poate mai bine zis l vedem cu anumit
aproximaie. Cu alte cuvinte, noi dorim s evitm msurarea pe ntreaga populaie dar
s obinem rezultate ct mai apropiate de valorile populaiei, pornind de la msurtorile
realizate pe un eantion. Capitolul destinat acestor raionamente se numete Estimare
statistic.

1.1.5. Eantion reprezentativ


Un prim lucru pe care l observm de la nceput c ar trebui respectat ar fi alegerea
indivizilor n eantion. Este evident c am dori ca eantionul pe care lucrm s aib
toate caracteristicile populaiei, adic s fie eantion reprezentativ. Pentru aceasta,
el ar trebui s conin n proporii potrivite toate substraturile posibile ale populaiei.
De ex.: pentru eantionul de copii de 10 ani, ar trebui s avem aceeai proporie
biei/fete sau urban/rural ca i populaia. Istoria statisticii a semnalat cazuri n care s-au
tras concluzii eronate din cauza nereprezentativitii eantionului ales. Ex.: sondajul
efectuat de revista Literary Digest din Chicago naintea alegerilor din Statele Unite n
1936.
S-au stabilit criteriile necesare pentru a realiza un eantion reprezentativ:
echiprobabilitate i independen (Definiii - n caseta 1).

5
Biostatistica

1.2. Metode de selecie


Dei definirea criteriilor pentru realizarea unui eantion reprezentativ este simpl,
realizarea practic este destul de dificil. Exist mai multe metode pentru obinerea unui
eantion reprezentativ.

1.2.1. Selecia simpl


Selecia simpl este i simpl i de foarte bun calitate, ns are o aplicabilitate
redus, n cazul populaiilor nu foarte mari. Se aplic n special pentru cercetarea de
laborator i n unele studii clinice, ns nu este potrivit pentru anchete de sntate
public, screening-uri sau studii populaionale epidemiologice.
Ca principiu:
Se asociaz fiecrui individ din populaie un numr
Se extrag numere ntmpltoare (fie folosind tabele de numere ntmpltoare, fie
programe de calculator, care au posibilitatea s genereze numere pseudo-aleatoare
Indivizii corespunztori numerelor extrase vor face parte din eantion.
Datorit caracterului aleator al seleciei, eantioanele reprezentative sunt adesea
numite i eantioane aleatoare (random samples).

1.2.2. Selecia stratificat


n cazul unor populaii heterogene, cu mai multe straturi (subpopulaii ce difer
prin unele caracteristici), dac eantionul extras nu este prea mare, pentru a asigura
reprezentativitatea proporional a fiecrui strat, se extrag separat n eantion indivizii
ce reprezint diferite straturi (de ex.: n sondajele pre-electorale).

1.2.3. Selecia grupat


Selecia grupat, sau pe clustere se prefer n cazurile n care distribuia
teritorial a populaiei este foarte larg (de ex.: n anchetele de sntate public). n
acest caz nu se selecteaz indivizi ci comuniti (localiti) tipice, din care se selecteaz
gospodrii (familii). Se obine o eficientizare a aciunii de colectare a datelor, fr o
afectare substanial a rezultatelor. (Obs.: nu este respectat aici criteriul de
independen).
Exist i alte metode de selecie, cu caracter hibrid, care pot fi preferate n anumite
situaii. Detalii suplimentare privind aceste metode pot fi gsite n tratatele menionate
n bibliografie.
n procesul de selecie este important s urmrim dac nu cumva exist factori, ce
ar putea trece neobservai, care s influeneze procesul de selecie (de ex.: prevalena
unor boli este diferit pe sexe, iar dac facem o selecie stratificat, omiterea acestui
element ar influena structura eantionului. Un factor care poate influena procesul de
selecie se numete bias. Eantioanele n care a acionat factorul de influen se
numesc biased samples.
Un eantion reprezentativ trebuie s fie neinfluenat (unbiased).

6
Gheorghe Ioan Mihala, Diana Lungeanu

1.3. Tipuri de variabile


Caracteristicile pe care le colectm n studii pot fi de diferite tipuri.

1.3.1. Variabile numerice


Variabilele numerice sunt variabile ale cror valori se exprim prin numere, fiind
rezultatul unor msurtori realizate cu un instrument de msur.
Variabilele numerice au urmtoarele proprieti:
Au uniti de msur (care trebuie precizate)
Rezultatul unei citiri se exprim prin numere ce ilustreaz precizia instrumentului
(cea mai mic diviziune pe scara instrumentului); nu se adaug zecimale, nu se omit
zecimale, uzual nu se solicit aprecieri de fraciuni n cazul n care acul instrumentului
se gsete undeva ntre dou diviziuni.
De ex., cu un cntar care are cel mai mic interval de 100 g, vom scrie 32,4 kg, nu
32,400 kg; de asemenea, dac acul indic exact 32 kg, vom scrie 32,0 kg, nu 32 kg,
pentru a ilustra precizia citirii.
Variabilele numerice pot fi:
Variabile discrete, adic pot lua numai anumite valori, cel mai adesea numere
ntregi; de ex numrul de pacieni dintr-o secie operai ntr-un interval de timp, numrul
de hematii/mmc de snge etc.
Variabile continue, cnd valoarea msurat este un numr real; ex: concentraia de
glucoz din snge. O variabil continu necesit, n general, un numr mare de zecimale
pentru a exprima valoarea adevrat i doar precizia limitat a instrumentelor
transform scara ntr-una discret.
Variabilele continue pot fi mprite la rndul lor n:
Variabile tip proporional (sau raport) - acestea sunt majoritatea variabilelor
numerice, pentru care valoarea 0 (zero) pe scar corespunde unui 0 matematic i fizic,
fiind zero indiferent de unitile de msur folosite
Variabile tip interval, n care valoarea zero a fost aleas arbitrar pe scar, pstrnd
ns toate celelalte proprieti ale variabilelor numerice (au uniti de msur, un
interval are aceeai valoare indiferent de regiunea n care este definit etc.). Un exemplu
tipic este temperatura (fie scara Celsius, fie Fahrenheit).

1.3.2. Variabile ordinale


Variabilele ordinale, sau rang, sunt exprimate tot prin numere, ns valorile
numerice sunt asociate dup diverse reguli sau criterii conform unei scri convenionale.
Unitatea de msur nu poate fi bine definit. De ex.: exprimarea gradului de oboseal,
scorurile obinute n teste psihologice, IQ sau notele folosite n diverse forme de
examinare etc.

7
Biostatistica

Variabilele ordinale exprim ntr-adevr nite ierarhii, nite relaii de ordine, ns


unitatea de msur sau lrgimea unui interval au semnificaii vagi. Avnd proprieti
att de diferite fa de variabilele numerice, variabilele ordinale necesit metode de
prelucrare diferite, specifice lor.

1.3.3. Variabile calitative


Variabilele calitative sau nominale au ca rezultat al msurrii o calitate. De ex.:
sexul persoanei, grupa sanguin, culoarea ochilor, prezena/absena proteinuriei etc.
Uzual asociem n studii fiecrei caliti o clas i exprimm rezultatele studiului
prin numrul indivizilor din fiecare clas; de aceea aceste variabile se mai numesc i
count data. Deseori, n loc de numr exprimm proporia sau procentul din fiecare
clas.
Variabilele nominale care au numai dou valori posibile se mai numesc variabile
dihotomice.

1.3.4. Transformri
n anumite situaii putem transforma tipul variabilei.
Variabile numerice n variabile calitative: cnd preferm mprirea n clase,
conform unor reguli convenionale. De ex.: dac tensiunea arterial sistolic este sub
110 mm Hg avem clasa hipotensivi, ntre 100 i 140 mm Hg normotensivi, iar
peste 140 hipertensivi.
n cazul n care mprim un lot n numai dou clase, operaiunea se numete
dihotomizare. De ex. n funcie de tensiunea arterial sistolic putem avea clasele
hipertensivi i ne-hipertensivi.
Variabile numerice n variabile rang: dac asociem numere convenionale pentru
diferite intervale de pe scar, obinem o variabil ordinal. De ex.: pentru valori ale
tensiunii sistolice sub 110 asociem valoarea 0, pentru valori ntre 110 i 140, valoarea
1, iar peste 140, valoarea 2 (fig. 1.2).
Variabile rang n variabile calitative: dac numrul claselor corespunztoare
rangurilor este redus, sau dac grupm diverse intervale de rang, putem crea cteva
clase pentru care se pot aplica (eventual) metode mai simple de prelucrare.

Fig. 1.2. Transformarea tipurilor de variabile

8
Gheorghe Ioan Mihala, Diana Lungeanu

1.3.5. Acuratee i precizie


Pentru determinarea unei valori numerice se efectueaz n mod uzual mai multe
msurtori. n funcie de distribuia rezultatelor acestor msurtori se definesc dou
caracteristici importante ale instrumentului folosit: acurateea i precizia.
Acurateea reprezint gradul de apropiere al valorilor msurrilor de valoarea real
(se apreciaz diferena D ntre media valorilor citite, m, i valoarea real, M; cu ct
diferena e mai mic cu att acurateea e mai mare). Deprtarea D de valoarea real se
mai numete bias. Cnd D este semnificativ diferit de zero, abaterile de la valoarea
real se numesc "abateri sistematice" i exist metode prin care acestea pot fi estimate i
eliminate.
Precizia reprezint gradul de reproductibilitate al msurrilor (se apreciaz gradul
de mprtiere s al rezultatelor msurrilor; cu ct s este mai mic, cu att precizia este
mai mare). mprtierea valorilor msurate are caracter aleator, se mai numete
chance, poate fi estimat prin metode numite calculul erorilor, ns nu poate fi
eliminat (fig. 1.3).

Fig. 1.3. Acuratee i precizie

1.3.6. Caracteristicile variabilelor


Valorile determinate pentru fiecare variabil studiat este definit pentru un
moment dat. Ansamblul valorilor corespunztoare variabilelor studiate determin
starea individului, de aceea aceste variabile se mai numesc variabile de stare. Prin
inferen statistic vom ajunge s caracterizm starea populaiei la momentul
respectiv.
n cazul n care urmrim i evoluia n timp a valorilor variabilei studiate obinem o
serie temporal care ne d o reprezentare dinamic, n timp, a mrimii studiate.
Modificrile n timp se apreciaz prin diferenele valorilor corespunztoare strilor
limit.
Pe lng studiile de dinamic, exist i studii de propensitate, n care se urmrete
repartiia n spaiu a valorilor individuale; n acest caz obinem o serie spaial.
Analiza seriilor temporale sau spaiale apeleaz la metode specifice de prelucrare
care nu vor fi tratate n prezentul manual.

9
Biostatistica

1.4. Variabilitate
Practica a demonstrat c rezultatele care se obin n urma determinrilor
experimentale prezint un grad ridicat de variabilitate. De ex. msurnd tensiunea
arterial la dou persoane diferite, obinem valori diferite, ns putem obine valori
diferite chiar la aceeai persoan n dou momente diferite.

1.4.1. Surse de variaie

1.4.1.1. Variabilitate biologic intrinsec


Una din proprietile fundamentale ale materiei vii o reprezint variabilitatea
biologic intrinsec. n condiii identice, sisteme diferite se comport diferit, arat
diferit, evolueaz diferit. Aceasta este variabilitatea pe care nu o putem elimina, fiind un
factor mereu prezent n studiile noastre.

1.4.1.2. Variabilitatea condiiilor de msurare


Chiar pentru acelai individ, obinem valori diferite n cazul n care se schimb
condiiile de msurare; obinem o valoare a tensiunii arteriale n diferite poziii
(ortostatism, clinostatism), sau n funcie de strile anterioare (repaus, efort) etc. De
aceea, n cazul studiilor se standardizeaz condiiile de msurare pentru a elimina (sau
reduce) aceast variabilitate.

1.4.1.3. Variabilitatea datorat operaiei de msurare


nsi aparatul de msur introduce o variabilitate; de obicei aceste variaii se
estimeaz pentru fiecare instrument n cursul operaiilor de etalonare i se mai numesc
erori. Exist dou mari clase de erori la msurare:
Erori sistematice (instrumentul introduce un bias, avnd acuratee sczut)
Erori ntmpltoare: instrument cu precizie sczut, operator neexperimentat etc.

1.4.2. Tipuri de variaii


Vom deosebi n continuare dou tipuri de variaii:
Variaii inter-individuale variaiile care apar la determinarea aceleeai variabile, n
aceleai condiii, la indivizi diferii;
Variaii intra-individuale variaiile observate ntre valorile obinute pe acelai
individ prin determinri succesive, fr modificarea condiiilor; deseori aceste
variaii sunt neglijabile (de ex.: determinarea greutii unei persoane), ns uneori
trebuie considerate separat (de ex.: valorile obinute prin citiri succesive, la intervale
de cteva minute, ale tensiunii arteriale).

10
Gheorghe Ioan Mihala, Diana Lungeanu

1.5. Proiectarea unui studiu


Nu ne propunem aici s prezentm n detaliu proiectarea unui studiu bio-medical, ci
ne vom limita la elementele de interes din punct de vedere statistic.

1.5.1. Stabilirea scopului studiului


n faza de pregtire a studiului se stabilesc: ipotezele de lucru, obiectivele, planul
studiului etc. ntre elementele care trebuie stabilite nc de la nceput se numr:
Selecia variabilelor, vom face o list a tuturor mrimilor care se msoar;
pentru fiecare mrime vom preciza:
unitatea de msur
aparatul cu care se efectueaz msurarea, inclusiv acurateea aparatului
i precizia de msurare; acestea dicteaz i numrul de zecimale cu care
se exprim rezultatul unei msurri
dimensiunea eantionului; dup cum vom vedea, exist metode prin care
putem calcula dimensiunea minim a eantionului, necesar pentru a
asigura o anumit precizie, cu un anumit nivel de ncredere (Cap. 3.7).
Metoda de prelucrare i limitele admise; tot n faza de proiectare se stabilesc
i metodele de prelucrare, inclusiv limitele intervalelor de ncredere admise.
Destul de frecvent, aceste limite sunt dependente i de resursele financiare i
umane disponibile pentru respectivul studiu. Alegerea metodelor de prelucrare
a datelor este un subiect asupra cruia ne vom concentra atenia n acest curs,
fiind esenial pentru o colaborare eficient cu un statistician.

1.5.2. Colectarea datelor


Pentru colectarea datelor se folosesc uzual tabele concepute specific pentru fiecare
tip de studiu. Organizarea bun a datelor brute uureaz foarte mult prelucrrile
ulterioare.

1.5.3. Sinteza datelor: tabele i grafice


ntr-o prim faz se reprezint sintetic datele culese sub form de tabele
centralizatoare i grafice (engl. data summary).
Structura unui tabel centralizator este flexibil, adaptat tipului de studiu.

11
Biostatistica

Caseta 1. Definiii
Populaie: totalitatea (mulimea) persoanelor la care se refer un studiu.
Individ: un element al populaiei studiate.
Variabil: o caracteristic msurabil a unui individ.
Biostatistic: disciplin care studiaz caracteristicile unei populaii i/sau
compararea unor populaii, pornind de la date culese pe eantioane.
Inferen statistic: operaia de generalizare, la nivelul ntregii populaii, a
caracteristicilor obinute pe un eantion.
Gndire statistic: mod de interpretare a rezultatelor (datelor) n cadrul unor
intervale, stabilite pentru un anumit nivel de ncredere.
Eantion (sample): o submulime a populaiei, ce cuprinde indivizii pe care se
efectueaz msurtorile.
Eantion reprezentativ (random sample): eantion care cuprinde toate
straturile populaiei n proporii similare i are toate caracteristicile populaiei.
Criterii pentru selecie n eantionul reprezentativ:
- echiprobabilitate: toi indivizii populaiei s aib aceeai probabilitate de a fi
selectai n eantion;
- independen: alegerea unui individ n eantion s fie independent de
alegerea altui individ.
Bias: orice condiie care influeneaz procesul de selecie (influeneaz
reprezentativitatea eantionului).
Variabil numeric: exprimat printr-un numr, valoare obinut prin
msurare cu un instrument; are uniti de msur.
Variabil ordinal / rang (rank variable): exprimat printr-un numr asociat
unei scri convenionale.
Variabil nominal / calitativ (count data): se definesc mai multe clase,
corespunztoare valorilor posibile ale calitilor i se exprim numere (proporii,
procente) corespunztoare fiecrei clase.
Variabil dihotomic: are numai dou valori posibile; rezultatul va fi
distribuia n cele dou clase.

12
Gheorghe Ioan Mihala, Diana Lungeanu

2. STATISTICA DESCRIPTIV
Cuprins
A. Descriere
Colectarea datelor: exemplu, tabele i grafice
Parametrii statistici din statistica descriptiv
Indicatori ai tendinei centrale
Indicatori de dispersie pentru variabile numerice
Indicatori de dispersie pentru variabile ordinale
Indicatori pentru variabile calitative
Asimetrie i exces
B. Formalizare
C. Sintez: Caseta 2. Definiii

2.1. Colectarea datelor


Nu ne propunem aici s prezentm n detaliu proiectarea unui studiu bio-medical, ci
ne vom limita la elementele de interes din punct de vedere statistic.
Vom apela n cele ce urmeaz la un exemplu.

Exemplu
Exemplul 2.1.a. Presupunem c ne-am propus un studiu privind dezvoltarea
somatic a copiilor din judeul Timi, n anul 2009. Vom urmri paii recomandai
pentru structurarea unui studiu, aa cum au fost prezentai n capitolul anterior.
a) Stabilirea variabilelor
Vom colecta urmtoarele variabile:
nlimea, msurat cu taliometrul (aparat disponibil n cabinetele medicale colare
avnd o tij metalic gradat, care are diviziuni n milimetri sau jumti de centimetru
Fig. 2.1. Vom exprima rezultatul n cm, fr zecimale, utiliznd rotunjirea astfel: de la
5 mm (inclusiv) rotunjim n sus (spre valoarea superioar), iar pn la 4 mm peste
diviziunile de cm, vom rotunji n jos.
Greutatea, msurat cu cntarul medical (disponibil n cabinetele medicale colare),
care are diviziuni de cte 100 g. Vom exprima rezultatul n kg, cu o zecimal.
b) Volumul eantionului: 400 copii, calculat conform procedurii (v. cap. 3.6).
c) Culegerea datelor
n cazul nostru ar trebui s avem, pentru culegerea datelor brute, un tabel cu
minimum trei coloane: nr. crt., nlimea (cm), greutatea (kg). Mai putem eventual
aduga date utile pentru validare - de ex. putem aduga o coloan cu iniialele (numele)
subiectului, putem aduga o coloan cu data naterii etc.

13
Biostatistica

Fig. 2.1. Dispozitivul de citire al taliometrului

Prelucrrile statistice pe care le vom exemplifica:


statistica descriptiv uzual de caracterizare a eantionului (media, deviaia
standard)
unii parametrii statistici folosii mai rar (asimetria, excesul)
estimarea caracteristicilor populaiei (n capitolul urmtor).

Sinteza datelor: tabele i grafice


Pentru colectarea datelor se folosesc uzual tabele concepute specific pentru fiecare
tip de studiu.
Tabelul 2.1.

nlimea nlimea Frecvena Frecvena Frecvena Frecvena


(mijl. clasei) (interval) absolut relativ rel. % cumulat %
126 125,5 126,4 1 0,0025 0,25 0,25
127 126,5 127,4 1 0,0025 0,25 0,50
128 127,5 128,4 6 0,0150 1,50 2,00
129 128,5 129,4 6 0,0150 1,50 3,50
130 129,5 130,4 10 0,0250 2,50 6,00
131 130,5 131,4 23 0,0575 5,75 11,75
132 131,5 132,4 17 0,0425 4,25 16,00
133 132,5 133,4 20 0,0500 5,00 21,00
134 133,5 134,4 30 0,0750 7,50 28,50
... ... ... ... ... ...
Tabelul 2.1, care conine datele din exemplul Ex.2.1, are 6 coloane:
primele dou coloane reprezint clasa; n prima coloan este reprezentat clasa prin
mijlocul unui interval, ns este mai bine s se reprezinte explicit intervalul de valori
considerat pentru ncadrarea individului n clasa respectiv, cum este prezentat n a
doua coloan
frecvena absolut a clasei (numrul de indivizi din eantion care au valoarea
msurat n acel interval); OBS.: un individ nu poate s aparin la dou clase!
frecvena relativ a clasei (raportul ntre numrul de indivizi din clas i numrul
total din eantion)
frecvena relativ a clasei exprimat n procente (%)

14
Gheorghe Ioan Mihala, Diana Lungeanu

frecvena relativ cumulat (raportul fa de total), n % (se adun i clasele


anterioare; semnificaia: numrul total de indivizi care au nlimea pn la valoarea
clasei, inclusiv)
ultimele dou coloane nu se folosesc prea frecvent, iar adesea se reprezint doar
una dintre coloanele cu frecvenele claselor - fie cele absolute, fie cele n procente;
avantajul exprimrii procentuale este posibilitatea comparrii unor rezultate obinute pe
eantioane de mrimi diferite.

Distribuia nlimii copiilor

50

40
Frecvena

30

20

10
5
5

5
5

5
5

5
5
5

5
5
5
5

0
137,5
139,5

141,5
143,5

145,5
147,5

149,5
123,5
125,5
127,5

129,5
131,5

133,5
135,5

nlimea (limitele claselor)

Fig. 2.2. Histograma valorilor experimentale


Reprezentarea grafic cea mai des folosit pentru studii de acest tip este histograma
(fig. 2.2); pentru fiecare clas se traseaz o coloan, nlimea coloanei fiind
proporional cu frecvena clasei (absolut sau relativ). Pe axa vertical trebuie sa
precizm o scar precum i frecvena reprezentat - absolut sau relativ.
Se mai folosesc frecvent i alte reprezentri grafice, care se aleg n funcie de tipul
mrimilor reprezentate. De exemplu, reprezentarea din fig. 2.6, numit adesea pie, sau
reprezentare pe sectoare, este preferabil cnd dorim s artm distribuia pe diferite
clase, cel mai adesea n procente (distribuia pe sexe, pe grupe de vrst, pe grupe
sanguine etc).
Mai exist o reprezentare, numit poligon, care este cea mai comun form de
grafic folosit n matematic, avnd dou axe: pe cea orizontal (Ox, abscis), se
reprezint o variabil (variabila independent, n cazul n care se poate defini
dependena), iar pe cea vertical (Oy, ordonat), se reprezint cealalt variabil
(dependent). OBS: timpul este ntotdeauna variabil independent. n fine, exist
reprezentri tip hart, utile n cazul studiului unor distribuii teritoriale a unui
parametru de interes etc.

15
Biostatistica

2.2. Statistici descriptive


Analiznd graficul din fig. 2.2, putem face urmtoarele observaii:
majoritatea valorilor se gsesc n regiunea central a graficului;
frecvena valorilor extreme este redus (adic este mic numrul copiilor foarte
scunzi sau foarte nali, din aceeai categorie de vrst).
Aceast concluzie se mai numete tendin central, iar pentru a caracteriza un
eantion vom avea nevoie de o "msur" a acestei tendine centrale. Msurile pe care
le utilizm n statistic pentru a reprezenta proprieti ale unei populaii (sau eantion)
se numesc indicatori. Aadar, vom avea nevoie de o prim clas de indicatori numii
indicatori ai tendinei centrale.
ntr-adevr, o valoare numeric reprezentativ pentru centru aduce o informaie
valoroas despre proprietile eantionului. ns indicatorii tendinei centrale nu ne dau
informaii i despre diversitatea valorilor, aceasta fiind de asemenea foarte important
ca proprietate a grupului. Ajungem astfel la o a doua clas de indicatori, numii
indicatori de dispersie.
Cel mai adesea ne mulumim cu aceti doi indicatori, care concentreaz informaiile
eseniale privind lotul studiat. Totui, exist proprieti care nu sunt acoperite de aceste
dou clase, fiind astfel definite nc dou clase - asimetria i excesul.
S lum pe rnd clasele de indicatori.

2.3. Indicatori ai tendinei centrale


Exist mai multe posibiliti de a defini centrul unei distribuii, care vor fi
prezentate mai jos.

2.3.1. Media aritmetic


Media aritmetic (engl. Mean, Average) este cel mai folosit indicator al tendinei
centrale. Dac avem un eantion format din N indivizi, media aritmetic se calculeaz
prin nsumarea tuturor valorilor i mprirea sumei la numrul lor. Se noteaz cu m
sau cu o bar pus deasupra simbolului variabilei studiate.
n funcie de modul n care sunt prezentate datele, putem aplica diferite formule de
calcul, care sunt prezentate n paragraful 2.8.1.1.
Din punct de vedere practic, majoritatea pachetelor de software statistic au comenzi
prin care se poate preciza un ir de valori pentru care s se calculeze un anumit indicator
statistic. Cel mai adesea vom face o analiz statistic a unui set de valori, obinnd un
tabel ce cuprinde aceti indicatori statistici (engl. data summary).
n tabelul 2.2 sunt trecute rezultatele prelucrrii datelor din exemplul 2.1 folosind
produsul Microsoft Office Excel, unul dintre cele mai populare produse, cu performane
satisfctoare pentru prelucrri statistice elementare. Valoarea medie n cazul nostru a
fost 136,7 cm.
Vom prezenta n detaliu structura acestor tabele i modul de lucru n capitolul
dedicat Aplicaiilor practice.

16
Gheorghe Ioan Mihala, Diana Lungeanu

Tabelul 2.2. Sumarul datelor statistice

Column1
Mean 136,7175
Standard Error 0,199075
Median 137
Mode 137
Standard Deviation 3,981498
Sample Variance 15,85232
Kurtosis -0,12883
Skewness -0,00429
Range 24
Minimum 126
Maximum 150
Sum 54687
Count 400
Confidence Level(95,0%) 0,391367

2.3.2. Mediana
Mediana (Me; engl. Median), este un alt indicator al tendinei centrale, reprezentat
de valoarea care mparte lotul n dou pri egale; 50% din indivizi au valori mai mici
dect mediana, 50% au valori mai mari dect mediana. Pentru loturi mici ea se poate
uor calcula astfel: se ordoneaz cresctor toate valorile, iar cea care corespunde
mijlocului va fi mediana. Dac eantionul are un numr par de indivizi, mediana se ia
uzual ca media celor doi indivizi din centru.
Mediana ar fi indicatorul cel mai potrivit pentru variabilele ordinale (de tip rang),
dei se accept n mod curent i media aritmetic.
Exist diveri algoritmi pentru calculul medianei, care sunt prezentai n 2.8.1.2.
Pentru datele din exemplul 2.1, conform tabelului 2.2, mediana este 137 cm.

2.3.3. Moda
Un alt indicator al tendinei centrale este moda (Mo) sau modul (engl. Mode), care
reprezint cea mai frecvent valoare. n cazul n care dispunem de o reprezentare
grafic, moda este imediat vizibil, corespunznd coloanei celei mai nalte. n ex. 2.1,
din fig.2.2 sau tabelul 2.2 reiese Mo = 137 cm.
n cazul variabilelor calitative (nominale), media aritmetic sau mediana nu au
sens; indicatorul tendinei centrale utilizabil se numete clas modal.
Pentru variabile numerice, dac obinem o curb de distribuie cu un singur maxim,
ea se numete unimodal; n cazul n care are dou maxime (chiar dac diferite),
distribuia se numete bimodal. Similar, pentru mai multe maxime putem ntlni
distribuii multimodale. n cazul populaiilor omogene ne ateptm doar la distribuii
unimodale.

17
Biostatistica

Depistarea unei distribuii bi sau multimodale este cel mai adesea un indiciu al unei
populaii neomogene din care s-a extras eantionul, fiind cel mai probabil o suprapunere
a dou populaii cu caracteristici diferite. Distribuiile bi sau multimodale merit un
studiu mai amnunit. Astfel, s-a identificat un pattern bimodal al curbelor de distribuie
de frecven a indicilor angiografici de restenoz dup plasarea unui stent coronarian,
indicnd dou populaii cu proprieti distincte de propensitate la restenoz.

Fig. 2.3. Moda, mediana i media aritmetic pentru distribuii asimetrice

Este important s menionm c, n funcie de limea claselor, uneori variaii de


eantionare pot crea impresia unei distribuii bi- sau multimodale. Vom discuta aici i
despre limea ideal (recomandabil) pentru clase n reprezentri grafice.
n cazul distribuiilor simetrice pentru variabilele numerice, media aritmetic,
mediana i moda coincid. Poziia relativ a modei, medianei i mediei aritmetice pentru
distribuii asimetrice este vizibil n fig. 2.3. Observm c media aritmetic este cea mai
sensibil la apariia asimetriilor, deplasndu-se imediat n direcia cozii distribuiei
asimetrice. Pe de alt parte, moda este cel mai robust indicator al tendinei centrale,
rmnnd insensibil la o serie de modificri ale distribuiei ctre vreuna din zonele
extreme.

2.4. Indicatori de dispersie pentru variabile numerice

2.4.1. Domeniul de valori


Este un indicator simplu, furniznd doar informaii asupra ordinului de mrime al
variabilitii. Se definete ca intervalul dintre valoarea minim i cea maxim din
eantion.
Se folosete mai rar, pentru a ilustra gradul de variabilitate ale unei mrimi care nu
joac un rol esenial n studiu i nu s-ar impune intrarea n alte detalii. De exemplu,
limitele vrstelor subiecilor dintr-un lot sunt adesea prezentate n acest mod.

2.4.2. Deviaia standard


Parametrul statistic cel mai utilizat ca indicator de dispersie este deviaia standard
notat cu s.

18
Gheorghe Ioan Mihala, Diana Lungeanu

Semnificaie
nainte de a defini deviaia standard, s introducem o nou noiune: abaterea
central a unui punct, care reprezint deprtarea fiecrei valori individuale fa de
valoarea medie. Deviaia standard este un fel de medie a acestor abateri centrale (este
media lor ptratic) i se poate calcula uor. Cu ct valorile individuale sunt mai
mprtiate (dispersate), cu att deviaia standard este mai mare, n timp ce o bun
grupare a valorilor (variabilitate mic) se va regsi n valori mici ale deviaiei standard.
Ptratul deviaiei standard se numete varian, iar raportul ntre deviaia
standard i valoarea medie se numete coeficient de variaie.

Proprieti
Care are o serie de proprieti convenabile pentru analiza statistic a datelor. Pentru
a nelege aceste proprieti vom trece pe scurt n revist cteva proprieti ale curbei
distribuiei normale.
S revedem histograma nlimii copiilor (fig. 2.2). Ne putem imagina c, dac am
lucra pe un eantion foarte mare, cu o precizie din ce n ce mai ridicat (limea claselor
ngustndu-se din ce n ce mai mult), la limit vom obine o curb de distribuie
continu. Aceasta ar avea forma unui clopot i se numete curba de distribuie normal,
sau clopotul lui Gauss (fig. 2.4).
Ea are urmtoarele proprieti:
este simetric
depinde numai de doi parametri: media i deviaia standard
maximul este atins n dreptul valorii medii (ilustrnd faptul c este indicator al
tendinei centrale)
limea curbei este dependent de valoarea deviaiei standard: cu ct deviaia
standard este mai mare cu att curba este mai larg.

Fig. 2.4. Curba distribuiei normale Gauss

19
Biostatistica

Putem astfel defini cteva intervale mai importante:


dac lum un interval simetric n jurul valorii medii, cuprins ntre m-s i m+s, pe
care l notm de obicei (m-s, m+s), n acest interval vom gsi cca 68% din totalul
valorilor
extinznd limitele intervalului cu nc o deviaie standard la stnga i una la
dreapta, adic lund intervalul (m-2s, m+2s), vom cuprinde acum peste 95% din aria de
sub curb (mai exact 95,4%)
n fine, lund intervalul (m-3s, m+3s), vom acoperi 99,7% din total; practic,
numrul valorilor n afara acestui interval este foarte redus. Aceast constatare faptul
c n acest interval, cu lime total de 6s, sunt cuprinse practic aproape toate valorile,
ne permite o aproximare a deviaiei standard, util n anumite situaii.
Intervalele prezentate mai sus au fost definite utiliznd multipli ntregi (1, 2 sau3)
ai deviaiei standard; putem ns la fel de bine s folosim multipli zecimali, astfel nct,
n principiu, putem calcula proporia din total ntre oricare dou valori, sau proporia
celor care au variabila msurat mai mare sau mai mic dect o anumit valoare.
Majoritatea pachetelor de prelucrri statistice ofer posibilitatea acestor calcule.

Exemplul 2.1.b
Relum exemplul anterior (2.1.a) privind studiul dezvoltrii somatice a copiilor,
ns, pentru urmrirea mai uoar a calculelor vom reduce volumul eantionului, deci
vom considera c lotul nostru a avut urmtoarele caracteristici:
volumul eantionului: 25 copii
media nlimii: 137 cm
deviaia standard: 5 cm.
Aplicnd cele prezentate mai sus vom putea afirma c:
un procent de 68% din copiii studiai au nlimea cuprins ntre (137-5, 137+5),
adic ntre 132 i 142 cm
cca 95% din copii au nlimea n intervalul (137 2 5, 137 + 2 5) adic ntre
127 i 147 cm
99,7% (aproape toi) au nlimea ntre 122 i 152 cm.
Putem rspunde i la ntrebri de genul: ci copii (n procente) au nlimea peste
142 cm? Observm c, dac 68% au avut nlimea ntre 132 i 142 cm, restul, adic
32% au nlimea fie sub 132 cm, fie peste 142 cm; distribuia fiind simetric vom
considera c jumtate dintre acetia vor ndeplini condiia noastr, adic rspunsul este
16%.

Interpretarea probabilist a proprietilor


Este convenabil n practic interpretarea procentelor prezentate mai sus, ca
probabiliti. ntr-adevr, dac spunem c 68% dintre copii au avut nlimea ntre 132
i 142 cm, atunci pentru un copil din aceeai populaie [adic un copil de 10 ani, din
Timioara etc.], avem probabilitatea de 68% ca el s aib nlimea cuprins ntre 132 i
142 cm. Cu alte cuvinte, putem spune c pentru orice interval putem calcula care este
probabilitatea ca o valoare individual s fie localizat acolo, la fel de simplu fiind i s
determinm intervalul n care ar putea fi situate valorile individuale, cu o anumit
probabilitate.

20
Gheorghe Ioan Mihala, Diana Lungeanu

2.4.3. Observaii

Exprimarea rezultatelor
Exist unele uzane privind modul de prezentare a rezultatelor, att cele brute
(provenite din experiment) ct i cele prelucrate.
Pentru valorile brute numrul zecimalelor este dictat de precizia instrumentului,
mai bine spus, de cea mai mic diviziune a instrumentului. Bunoar, dac msurm o
lungime cu un liniar care are diviziuni n mm, dac exprimm rezultatul n cm, l vom
scrie cu o zecimal (chiar i n cazul n care aceasta este zero); de ex.: vom scrie 9,4 cm
sau 11,0 cm, care are semnificaie diferit de 11 cm! n acest din urm caz vom nelege
c determinarea a fost fcut cu un instrument care are cea mai mic diviziune 1 cm!
Pentru indicatorii calculai se accept prezentarea cu un ordin de precizie superior,
adic o zecimal n plus fa de valorile brute. Lund cazul din exemplul cu nlimea
copiilor, dac valorile individuale erau exprimate n cm prin numere ntregi, pentru
medie i deviaie standard se accept utilizarea unei zecimale. Deci n exemplul 2.1.b ar
fi fost mai corect s scriem: m=137,0 cm, respectiv s=5,0 cm.
Cel mai adesea rezultatele se prezint n tabele, dar uneori ele pot fi prezentate
chiar n text. Se accept n aceste situaii prezentarea rezultatului sub forma media
deviaia standard. Ar fi deci acceptabil, chiar recomandabil o exprimare de forma:
Lucrnd pe un lot de 25 copii am obinut pentru nlime valoarea 137,0 5,0 cm.

Valori normale
n medicin este foarte important s depistm valorile corespunztoare strilor
patologice, valori care se deprteaz de cele normale. Dar ce reprezint valorile
normale? n mod frecvent, indiferent de variabila msurat, ne ntlnim cu un grad
ridicat de variabilitate inclusiv n loturile de indivizi sntoi. De aceea, pentru toate
mrimile de interes medical, s-au stabilit nite intervale considerate normale. Criteriul
dup care s-a definit normalitatea este gradul de reprezentativitate (sau generalitate):
vom spune c valorile normale sunt cele care se nregistreaz la majoritatea
indivizilor sntoi. Ct de mare este aceast majoritate? S analizm puin intervalele
definite anterior.
Observm c intervalul (m s) cuprinde cca dou treimi din valorile individuale,
deci exist o probabilitate destul de mare s ntlnim indivizi care au valorile n afara
acestui interval. Pe de alt parte, dac dorim s acoperim toat scara (lund intervalele
cu 3s, acestea devin foarte largi i vom accepta prea uor valori care ncep s se
deprteze de normal. Intervalul acceptat pentru reprezentarea normalului s-a stabilit
convenional la (m 2s), acoperind astfel peste 95% din cazurile normale. S nu uitm
ns c exist totui i indivizi normali cu valori n afara acestui interval, dei
probabilitatea de a-i ntlni este mai mic (sub 5%).

2.5. Indicatori de dispersie pentru variabile ordinale


Indicatorii de dispersie descrii anterior, deviaia standard i eroarea standard a
mediei sunt folosii n special pentru variabilele cantitative propriu-zise. In cazul
variabilelor ordinale, dei se poate folosi i deviaia standard (i eroarea standard a

21
Biostatistica

mediei), se recomand folosirea unor indicatori specifici. Pentru a nelege aceti


indicatori de dispersie vom introduce mai inti ali parametri:
Cuantile. Indicatorul tendinei centrale specifice variabilelor ordinale, mediana, era
definit ca valoarea care mparte lotul n dou pri egale. Putem, prin analogie, defini
diverse alte mrimi numite cuantile, ca fiind valorile care mpart lotul ntr-un numr de
k subclase echinumerice. Denumirile lor sunt prezentate n tabelul 2.3.
Tabelul 2.3. Cuantile uzuale

Nr. clase Simbolul valorilor Denumire Observaii


2 Me mediana
4 Q1, Q2, Q3, cuartile Q2 = Me
10 D1, D2, ..., D9 decile D5 = Me
100 C1,C2,... C99 percentile C50=Me, C10 = D1, etc.
1000 M1, M2, ..., M999 promile M10 = C1...
Iat un exemplu ilustrativ pentru poziionarea cuartilelor i decilelor n cazul unui
set de 20 de determinri, reprezentate pe ax prin x (fig. 2.5).

Figura 2.5. Mediana, Cuartile i Decile pentru n = 20

Similar cu cazul deviaiei standard, cu ct valorile vor fi mai strns grupate n jurul
indicatorului tendinei centrale, cu att variabilitatea este mai mic. Uzual se folosete
distana ntre cuartilele 1 i 3 pentru a exprima gradul de variabilitate n cazul
variabilelor ordinale. Aceast distan (de fapt jumtate din ea) se numete amplitudine
intercuartile i este indicatorul de dispersie preferat pentru variabilele rang.

2.6. Indicatori pentru variabile calitative

Exemplu
Exemplul 2.2. Studiem distribuia grupelor sanguine n Timioara, n anul 2009.
Lum un eantion de 400 persoane crora le determinm grupa sanguin rezultatele
le exprimm sub form de tabel (Tabelul 2.4) i grafic (Fig. 2.6).
Tabelul 2.4. Distribuia grupelor sanguine obinut pe un lot de 400 persoane

Grupa sanguin 0 (I) A (II) B (III) AB (IV) Total


Frecvena absolut 100 144 64 92 400
Frecvena relativ 0,25 0,36 16 0,23 1
Frecvena rel. (%) 25 36 16 23 100

22
Gheorghe Ioan Mihala, Diana Lungeanu

2.6.1. Proporiile claselor


n cazul variabilelor nominale (calitative), rezultatele brute se exprim prin
numrul de indivizi care aparine fiecrei clase (frecvena absolut a clasei), de aceea
aceste variabile se mai numesc i count data. Pentru a fi uor de comparat, prima
operaie care se efectueaz este calculul frecvenei relative, adic a raportului fa de
numrul total (suma tuturor claselor). Frecvenele relative ale claselor se pot exprima fie
ca proporii (cu valori ntre 0 i 1), fie ca procente (ntre 0 i 100).

Distributia pe grupe sanguine

AB; 92; 23% O; 100; 25%

AB

B; 64; 16%

A; 144; 36%

Fig. 2.6. Distribuia grupelor sanguine (n %)


La fel ca n cazul variabilelor numerice, proporia clasei o putem interpreta i ca
probabilitate ca un individ din populaia analizat s aparin clasei respective.
Indicatorul tendinei centrale folosit pentru variabilele nominale este clasa modal.
n cazul nostru (ex.: 2.2.) este grupa sanguin A, pentru care proporia este 0,36 (sau
36%).

2.6.2. Deviaia standard a proporiei


i n cazul variabilelor calitative, ndoielile specifice gndirii statistice se aplic la
fel. Ne vom pune deci ntrebarea: valorile obinute reprezint realitatea valabil pentru
ntreaga populaie (este grupa A mai rspndit dect celelalte?) sau variaiile observate
se datoresc n ntregime variabilitii de eantionare. Vom dori deci s apreciem gradul
de variabilitate, cu un nivel de ncredere acceptabil (l vom lua tot 95%, ca i n cazul
variabilelor numerice).
Va fi deci nevoie s introducem indicatori de dispersie vom folosi deviaia
standard a proporiei. Ea se calculeaz separat pentru fiecare clas. Cu ct aceast
deviaie standard este mai mare, cu att variabilitatea ateptat este mai mare, deci la
repetarea determinrilor vom putea obine valori destul de diferite fa de cele iniiale.

23
Biostatistica

Pachetele statistice uzuale afieaz n cazul variabilelor calitative proporiile i pot


calcula i deviaiile standard corespunztoare. Mai multe detalii vor fi prezentate n
cadrul lucrrilor de laborator.

2.7. Asimetrie i exces


n mod uzual, pentru caracterizarea statistic a unui eantion ne mulumim cu
principalii indicatori cei ai tendinei centrale, respectiv cei de dispersie. Acetia sunt
calculai cu presupunerea implicit c variabila studiat de noi are o distribuie normal.
Acest lucru este valabil n multe cazuri, dar exist totui numeroase situaii n care
aceast presupunere nu este adevrat. Deprtarea de la distribuia normal se poate
realiza n mai multe feluri fie printr-o distribuire asimetric a valorilor, fie printr-un
grad de variabilitate mult diferit fa de cel ateptat n cazul unei distribuii normale.
Pentru a depista aceast ndeprtare de la normalitatea distribuiei s-au introdus nc
dou categorii de indicatori: asimetria (engl. skewness), respectiv excesul (engl.
kurtosis), care vor fi prezentai sumar n cele ce urmeaz.

Asimetria
n cazul n care sunt mai mprtiate valorile mari vom obine n reprezentarea
grafic o curb alungit spre dreapta; aceast alungire se mai numete coad (tail) i
vom spune c avem o asimetrie la dreapta. Desigur, similar vom defini i asimetria la
stnga.
Gradul de asimetrie este exprimat numeric printr-un coeficient de asimetrie care
poate fi calculat prin mai multe metode. Cel mai frecvent utilizat este coeficientul de
asimetrie al lui Pearson, notat cu . Cnd este pozitiv asimetria este la dreapta, n
caz contrar la stnga (Fig. 2.3).

Excesul
Deprtarea de normalitate se poate manifesta i fr a se strica simetria. Putem
ntlni distribuii n care zona central este mai ngust dect cea corespunztoare
deviaiei standard, ns ambele cozi sunt mai groase o astfel de distribuie se
numete leptokurtic. Cealalt extrem ar fi reprezentat de distribuii cu zona
central mai lat dar aplatizat, cozile fiind slab reprezentate distribuie
platykurtic. Din acest punct de vedere, distribuia normal va fi numit
mezokurtic.
Gradul de boltire sau aplatizare este exprimat numeric printr-un coeficient numit
exces (kurtosis). O valoare negativ corespunde distribuiei leptokurtice, n timp ce
valorile pozitive celei platykurtice.
Pachetele statistice uzuale furnizeaz i acest coeficient, notat de obicei cu .

24
Gheorghe Ioan Mihala, Diana Lungeanu

2.8. Fundamentare teoretic


Considerm un eantion format din N indivizi i notm valorile variabilei studiate
cu Xi, i=1, ... , N (citim indicele i lund valori de la 1 la N). Vom defini parametrii
statistici caracteristici eantionului dup cum urmeaz.

2.8.1. Indicatorii tendinei centrale

2.8.1.1. Media aritmetic


Media aritmetic a variabilei X, notat cu X este dat de relaia:

X 1 X 2 ... X N
N

X
1
X i
N i 1
N
(2.1.a)

n cazul eantioanelor mai mari, anumite valori pot s apar de mai multe ori (ca de
ex. n tabelul 2.1); dac notm frecvena absolut de apariie a fiecrei valori xj cu nj,
atunci media aritmetic se mai numete medie ponderat i este dat de relaia:

n X
1
X j j
N j 1
(2.1.b)

unde K reprezint numrul de clase, iar frecvenele respect relaia:

K
N nj (2.1.c)
i 1

Observaie: n cazul n care o clas j nu conine numai indivizi care au exact


aceeai valoare Xj ci apar variaii (deci clasa reprezint de fapt un strat, atunci
definim mai nti media stratului j:

nj

X ij
1
Xj (2.1.d)
nj i 1

i media pe ntregul eantion va fi:

K nj

X
1
X ij (2.1.e)
N j 1 i 1

n cazul unei variabile numerice continue, n loc de frecvena clasei folosim


valoarea funciei de distribuie, deci media aritmetic va fi definit prin:

25
Biostatistica

X max
1
X
X max X min f ( x) dx
X min
(2.1.f)

2.8.1.2. Mediana
Definiie: Mediana este un indicator statistic al tendinei centrale care mparte lotul
n dou pri egale; 50% din indivizi au valori mai mici dect mediana, 50% au valori
mai mari.
Pentru calculul propriu zis al medianei se procedeaz astfel:
se formeaz un ir ordonat cresctor al tuturor celor N valori
dac N este impar (adic N=2p+1), atunci mediana
Me = Xp+1 (2.2.a)

Valoarea calculat cu (2.2.a) este considerat exact dac:

X p X p 1 X p 2 (2.2.a)

dac N este par (adic N = 2p), atunci mediana Me este aproximat de

X p X p 1
Me (2.2.b)
2

Valoarea dat de (2.2.b) este considerat exact dac:

X p 1 X p X p 1 X p 2 (2.2.b)

sau

X p 1 X p X p 1 X p 2 (2.2.b)

Dac nu sunt ndeplinite condiiile (2.2.a), (2.2.b) sau (2.2.b) atunci valoarea
care se repet de mai multe ori (de nim i) definete un interval median de lime him;
mai notm frecvena cumulat pn la intervalul median (pn la limita inferioar
inclusiv) cu fim; n acest caz mediana poate fi aproximativ cu relaia:

him N
M e X im f im (2.2.c)
nim 2
unde:

im 1
f im n
i 1
i (2.2.c)

26
Gheorghe Ioan Mihala, Diana Lungeanu

2.8.1.3. Moda
Definiie: Moda (Mo) reprezint cea mai frecvent valoare.
Mo = max (nj/N) (2.3.a)

2.8.1.4. Ali indicatori ai tendinei centrale


Mai rar este posibil a intlni i ali indicatori ai tendinei centrale:
media geometric:
1/ N
N

X g


i 1
X i

(2.3.b)

media armonic:

X
N 1
(2.3.c)
Xh i 1 i

2.8.2. Limea claselor n histograme


Putem observa c n cazul variabilelor numerice alura graficului de distribuie
depinde puternic de modul n care definesc clasele (limea intervalelor). Deseori autorii
sunt tentai a lua limea clasei egal cu precizia cu care s-a efectuat msurarea (de ex.
pentru nlimea copiilor din tabelul 2.1. precizia msurtorii a fost de 1 cm i de aceea
n figura 2.2. s-a reprezentat distribuia conform acestei precizii). n biostatistic se
recomand ca numrul de clase utilizat s nu fie prea mare (uzual 8 15), astfel nct
fiecare clas s fie destul de reprezentat. Dac se noteaz cu X m i X M valorile
extreme gsite (minim, respectiv maxim), si cu N numrul total de indivizi din
eantion, atunci limea unei clase pentru histogram poate fi aproximat prin relaia:

XM Xm
h (2.4)
1 3,322 lg N

Pentru datele din tabelul 2.1 obinem h 2,77 3 cm deci reprezentarea


recomandabil ar avea clasele de nlime ale copiilor de cte 3 cm, n total 9 clase n
loc de 25 (tabelul 2.5). Modul n care vom stabili intervalele va fi detaliat n orele
practice de laborator.
Tabelul 2.5. Clasele cu limea ajustat
nlimea (mijl. nlimea (interval) Frecvena Frecvena Frecvena
clasei) absolut rel. % cumulat %
125 123,5 126,4 1 0,25 0,25
128 126,5 129,4 13 3,25 3,50
131 129,5 132,4 50 12,50 16,00
134 132,5 135,4 80 20,00 36,00
137 135,5 138,4 127 31,75 67,75
140 138,5 141,4 85 21,25 89,00
143 141,5 144,4 34 8,50 97,75
146 144,5 147,4 9 2,25 99,75
149 147,5 150,4 1 0,25 100,00

27
Biostatistica

Vom observa c i reprezentarea grafic este mai uor de interpretat (fig. 2.7)

Distribuia nlimii copiilor - clase de 3 cm

140

120

100
Frecvena

80

60

40

20
0
132,5

135,5

138,5

141,5

144,5

147,5

150,5
123,5

126,5

129,5

More
Limitele claselor
(valoarea de sub coloan este limita din dreapta a clasei)

Fig. 2.7. Histograma n cazul claselor de lime standard

2.8.3. Indicatori de dispersie pentru variabile numerice

2.8.3.1. Domeniul de valori


Este un indicator simplu, furniznd doar informaii asupra ordinului de mrime al
variabilitii.

R = Xmax - Xmin (2.5.a)

unde Xmin i Xmax reprezint valoarea absolut minim, respectiv maxim ale variabilei
analizate.

2.8.3.2. Eroarea medie absolut


Definiie: Distana unei valori individuale fa de valoarea medie se numete
abatere central:

i Xi X (2.5.b)

Abaterile centrale pot fi pozitive sau negative. Ele au proprietatea evident c:

i 0 (2.5.b')

28
Gheorghe Ioan Mihala, Diana Lungeanu

De aceea, pentru a caracteriza gradul de variabilitate, se folosesc valorile absolute


ale abaterilor centrale. O mrime ce poate fi folosit ca msur a variabilitii este:

i Xi X
1 1
a m (2.5.c)
N N

i se numete eroare medie absolut.

2.8.3.3. Distribuia normal


Curba distribuiei normale, introdus cvasi-empiric prin extensia la limit a
histogramei obinute experimental (fig. 2.2 sau 2.8), numit i clopotul lui Gauss
corespunde unui numr mare de distribuii ntlnite n natur.
Ecuaia curbei lui Gauss este:

( x )2
1
f ( x) y e 2 2 (2.6.a)
2

Observm c n ecuaie apar 2 parametri: i .

este indicatorul tendinei centrale, reprezint media i este valoarea n jurul


creia curba este simetric;
este indicatorul de dispersie, se numete deviaie standard sau abatere
standard i arat gradul de mprtiere a curbei n jurul mediei.
Formal vom nota cu N(, 2) o populaie cu distribuie normal avnd media i
variana 2 (deviaia standard ).
Deviaia standard n curba lui Gauss permite urmrirea repartiiei valorilor
individuale n jurul valorii medii conform fig. 2.5.

Analiznd figura putem spune c valorile individuale Ki se vor gsi n intervalele:

X ( , ) n 68,3 % din cazuri

X ( 2 , 2 ) n 95,4 % din cazuri (2.6.b)

X ( 3 , 3 ) n 99,7 % din cazuri

2.8.3.4. Deviaia standard


n cazul lucrului pe un eantion, n loc de media populaiei se va folosi media
eantionului, m sau X , iar n loc de deviaia standard a populaiei se va folosi deviaia
standard a eantionului (abatere standard) care se calculeaz cu relaia:

S
i2

(X i X )2
(2.7.a)
n 1 n 1
29
Biostatistica

Intervalele pentru localizarea valorilor individuale se pot scrie acum prin nite
relaii care se pot aplica imediat:

Xi ( X S, X S ) cu p = 68,3%

X i ( X 2S , X 2S ) cu p = 95,4% (2.6.c)

X i ( X 3S , X 3S ) cu p = 99,7%

Definiie: putem acum defini deviaia standard: S reprezint gradul de variaie a


valorilor individuale n jurul mediei eantionului.

(X
1
Mrimea S 2 X )2 (2.7.b)
n 1
i

se numete dispersie, sau abatere ptratic sau varian.


Deseori se raporteaz indicatorul de dispersie la valoarea medie obinnd o nou
mrime numit coeficient de variaie.

C.V. S/ X (2.7.c)

Poate fi exprimat n procente prin:

C.V. (%) 100.S/X (2.7.d)

Fiind o mrime relativ, se pot compara cu ajutorul ei serii avnd valori cu ordine
de mrimi diferite.

2.8.3.5. Curba lui Gauss normalizat


Curba distribuiei normal, aa cum este descris de ecuaia (2.6.a) este centrat n
jurul valorii medii i are o mprtiere dictat de deviaia standard . Vom avea deci
curbe diferite pentru seturi de valori diferite, ceea ce ngreuneaz compararea.
ns aplicnd o schimbare de variabil, nlocuind x cu z dat de:

x
Z (2.6.d)

vom obine o form standard, numit curba lui Gauss normalizat

z2

f x yn
1 2
e (2.6.e)
2

care are media = 0 i deviaia standard = 1 (fig. 2.8), notat simbolic N(0,1).

30
Gheorghe Ioan Mihala, Diana Lungeanu

Valorile funciei normalizate yn pentru diverse valori ale argumentului z sunt


tabelate (funcia lui Gauss nu este integrabil, de aceea se folosesc tabele, care se gsesc
n toate crile de statistic). Sunt de asemenea tabelate i ariile de sub curb pentru
toate valorile lui z (sunt trecute numai valorile pentru z pozitiv; curba fiind simetric se
pot calcula imediat i valorile pentru cealalt jumtate). Programele de calculator
folosesc algoritmi dedicai cu care se calculeaz aceste valori.

2.8.3.6. Grade de libertate


Ne-am putea ntreba de ce n relaiile (2.7.a i b) apare la numitor n-1 i nu n.
Prelucrarea datelor a nceput de la n valori obinute experimental, valori care,
firete, sunt independente ntre ele. Prin calcularea valorii medii (2.1.a) se introduce o
prim relaie ntre ele, astfel c cele n abateri centrale (i) nu mai sunt toate
independente ntre ele.
Definiie: Numrul valorilor independente ntre ele poart numele de grade de
libertate i se noteaz cu (litera greceasc niu). Deci n cazul nostru vom avea:
=n1 (2.6.f)

Fig. 2.8. Distribuia Gauss normalizat (=0 i =1)

Pentru mediere n cazul varianei, respectiv a deviaiei standard, vom folosi deci
numrul gradelor de libertate. Totui, pentru loturi foarte mari, n formulele (2.7.a) i
(2.7.b) putem folosi n n loc de n-1.

2.8.4. Indicatori de dispersie pentru variabile ordinale


Considernd cunoscui termenii introdui n 2.5, putem defini indicatorii de
dispersie uzuali pentru variabilele ordinale.

31
Biostatistica

2.8.4.1. Amplitudinea intercuartile (variaie intercuatile)

Qed (Q3 Q1 ) / 2 (2.8.a)

este o msur a variabilitii, valorile mai mari exprimnd o variabilitate mai mare

2.8.4.2. Coeficientul de variaie intercuartile:

Qd Q3 Q1
C.Q. (2.8.b)
M e Q3 Q1

joac rolul coeficientului de variaie dat de (2.7.c) i are valori ntre -1 i +1.

2.8.5. Indicatori pentru variabile nominale


Pentru variabilele nominale indicatorul preferat al tendinei centrale este clasa
modal. Fiecare clas i din cele k clase, este caracterizat prin proporia (sau procentul)
din eantionul de volum n:

ni
pi (2.9.a)
n

unde ni este frecvena absolut a clasei i, cu proprietatea

k
n ni (2.9.a)
i 1

Dac exprimm pi n procente relaia (2.9.a) se scrie

pi % 100
ni
(2.9.a)
n

Ca i n cazul variabilelor numerice, putem nlocui proporiile prin probabiliti,


deci putem spune c pi reprezint probabilitatea ca un individ s aparin clasei i. Mai
notm cu qi probabilitatea ca individul s nu aparin clasei i.
Deviaia standard a procentului este dat de relaia:

pi .qi
Sp (2.9.b)
n

unde:

qi 1 pi (2.9.c)

32
Gheorghe Ioan Mihala, Diana Lungeanu

sau

qi % 100 pi (2.9.c)

n cazul unei populaii finite de volum N

pi qi N n
Sp * (2.9.d)
n N 1

Pentru eantioane suficient de mari, procentul n eantion are distribuie normal i


permite interpretri similare cu cele prezentate anterior.

2.8.6. Medii de puteri: momente. Momente centrate


Abordarea teoretic a parametrilor statistici caracteristici unui set de valori permite
generalizarea unor relaii. S ne oprim puin la definiia mediei aritmetice (2.1.a).

X
1
X i (2.1.a)
N

Aceast mrime se mai numete i moment de ordin 1, valorile individuale Xi


fiind ridicate la puterea 1 i apoi mediate.
Prin generalizare numim moment de ordin r mrimea:

X
r 1
X i
r
(2.10.a)
N

Pentru r = 2, X 2 este media ptratic, pentru r = 3, X 3 este media cubic,


pentru r = -1, X h este media armonic.

Dac n locul valorilor individuale folosim abaterile centrale, momentele obinute


se vor numi momente centrate, deci pentru momentul centrat de ordin r avem formula:

(X
1
mcr i X )r (2.10.b)
N

Observm c pentru r = 1 avem mc1 0, iar pentru r = 2 obinem mc2 S 2


(dispersia).
Din cele relatate pn aici putem sesiza c momentele de ordin 1 dau informaii
asupra indicatorilor tendinei centrale, iar cele de ordin 2, asupra indicatorilor de
dispersie. Celelalte momente ne dau de asemenea informaii utile; i le vom analiza n
paragrafele corespunztoare altor indicatori asimetria i excesul.

33
Biostatistica

2.8.7. Asimetria
Momentele de ordin 3 dau informaii asupra simetriei distribuiei.
a) Se definete un parametru numit indice de asimetrie (engl. skewness) prin
relaia:

X
1 3
mc 3 i X (2.11.a)
N
Pentru mc3 0 distribuia este simetric,

mc3 0 asimetrie la stnga (2.11.a)

mc3 0 asimetrie la dreapta (fig. 2.4)

Pentru aprecierea asimetriei s-au propus i alte relaii:

b) Coeficientul de asimetrie Pearson (uor de calculat i manual):

X M0
(2.11.b)
S

unde X = valoarea medie, M 0 = moda i S= deviaia standard

Dup distribuia este simetric sau asimetric la stnga/dreapta la fel ca dup mc3 .

c) Coeficientul de asimetrie intercuartile:

Q3 M e M e Q1 Q3 Q1 2M e

Q3 M e M e Q1
(2.11.c)
Q3 Q1

avnd valori ntre +1 i -1, cu 0 pentru distribuii simetrice.

d) Coeficientul bazat pe momentele centrate:

m c23
(2.11.d)
m c22
cu interpretri similare cu indicele de asimetrie.

2.8.8. Excesul
Excesul este un parametru ce d informaii asupra gradului de turtire/boltire (engl.
kurtosis). Se calculeaz cu relaia:
mc 4
3 (2.12.a)
m c22

34
Gheorghe Ioan Mihala, Diana Lungeanu

unde mc4 este momentul centrat de ordin 4 dat de:

X i X
1 4
mc 4 (2.12.b)
N
Pentru distribuia normal: = 0 (distribuie mezokurtic)
distribuii mai turtite: 0 (distribuie platykurtic)
distribuii mai boltite: 0 (distribuie leptokurtic).

Caseta 2. Definiii
Pentru caracterizarea unui eantion se calculeaz dou seturi de indicatori statistici:
Indicatori ai tendinei centrale cel mai des folosit este media aritmetic m.
Indicatori de dispersie cel mai des folosit este deviaia standard s i reprezint
gradul de mprtiere al valorilor individuale n jurul mediei eantionului.
Ali indicatori ai tendinei centrale:
mediana valoarea care mparte lotul de valori ordonate n dou subintervale
egale ca numr de valori;
moda cea mai frecvent valoare.
Ali indicatori de dispersie:
variana ptratul deviaiei standard;
coeficientul de variaie raportul ntre deviaia standard i media aritmetic.
Cea mai des ntlnit distribuie a valorilor de studiu este distribuia normal
(Gauss). Proprietile distribuiei normale:
este simetric fa de valoarea medie;
limea este dependent de deviaia standard;
intervalul de valori normale m 2s cuprinde cca 95% din totalul valorilor;
putem calcula probabilitatea ca variabil de studiu s ia valori n orice interval dat.
n cazul variabilelor ordinale (rang), folosim mediana ca indicator al tendinei
centrale i cuartilele (amplitudinea intercuartile) pentru dispersie.
n cazul variabilelor calitative, pentru fiecare clas se stabilete proporia clasei pi
i deviaia standard a proporiei sp.
Pentru a caracteriza distribuiile asimetrice se folosesc coeficienii de asimetrie i
exces.

35
Biostatistica

36
Gheorghe Ioan Mihala, Diana Lungeanu

3. ESTIMAREA STATISTIC
Cuprins:
A. Prezentare descriptiv
Media populaiei
Eroarea standard a mediei
Estimare statistic, estimatori
Estimarea mediilor
Estimarea diferenelor ntre medii
Estimarea proporiilor i a diferenelor ntre proporii
Calculul dimensiunii eantionului
B. Fundamentare teoretic
C. Sintez: Caseta 3. Definiii

3.1. Media populaiei


S revenim la exemplul nostru cu studiul privind dezvoltarea somatic a copiilor.
Scopul studiului a fost determinarea caracteristicilor populaiei definite de noi: copiii n
vrst de 10 ani din Timioara, n anul 2009. Noi am selectat un eantion reprezentativ
pe care am efectuat toate msurtorile propuse, iar capitolul precedent, statistica
descriptiv, a fost dedicat modului n care se prezint caracteristicile eantionului
(concentrndu-ne asupra celor mai importante dou statistici: media eantionului (m
sau X), respectiv deviaia standard (s).
Acum ne punem o ntrebare fireasc: putem oare considera c valorile obinute pe
eantionul studiat ar fi valabile pentru ntreaga populaie? Lund un nou eantion, la fel
de mare (25 copii n exemplul nostru), vom obine aceeai valoare medie a nlimii lor
(era 137 cm n primul eantion)? Cel mai probabil c nu! Variabilitatea de eantionare
se va manifesta prin fluctuaii ale valorilor medii ale eantioanelor extrase din aceeai
populaie.
Dac, mpini de curiozitate, am efectua msurtori pe multe eantioane, extrase
toate din aceeai populaie, analiznd valorile medii ale eantioanelor vom observa c
tendina central observat la distribuiile valorilor individuale, se manifest i n
cazul distribuiei mediilor eantioanelor. Iar dac numrul eantioanelor extrase este
suficient de mare (putem merge pn la limita n care ele acoper ntreaga populaie),
media acestor medii ale eantioanelor va coincide cu media populaiei.
OBS: Pentru a deosebi caracteristicile specifice ale unei populaii de cele ale unui
eantion, se folosesc att termeni diferii ct i notaii diferite. Caracteristicile unei
populaii se numesc parametri i sunt notai simbolic cu litere greceti (ex media ,
deviaia standard ), n timp ce caracteristicile unui eantion se numesc statistici i
sunt notai simbolic cu litere latine (ex.: media m, deviaia standard s). De asemenea se
consider c populaia are uzual un volum foarte mare (infinit). Totui, n anumite

37
Biostatistica

situaii trebuie s inem seama de volumul finit al populaiei. Vom nota n aceste cazuri
cu N volumul populaiei, spre deosebire de n volumul eantionului.

3.2. Eroarea standard a mediei


Prin analogie cu procedura aplicat n prelucrarea datelor pe un eantion, la fel cum
pentru distribuia valorilor individuale, pe lng indicatorii tendinei centrale am
introdus i indicatori de dispersie, vom avea i n cazul distribuiei mediilor
eantioanelor un indicator similar deviaiei standard. Acesta se numete eroarea
standard a mediei, se noteaz cu sx , Sx sau Sm i se poate calcula cu relaia

s
sx (3.1)
n

n fig. 3.1 este reprezentat curba de distribuie a mediilor eantioanelor (cu linie
ntrerupt), comparativ cu cea a distribuiei valorilor individuale (cu linie continu). Se
observ c distribuia mediilor eantioanelor este tot o distribuie normal, ns mai
ngust dect cea a valorilor individuale. ntr-adevr, mediile eantioanelor nu vor
fluctua la fel de mult ca valorile individuale; este mic probabilitatea de a avea ntr-un
eantion aleator numai copii nali sau numai scunzi! i, cu ct eantioanele sunt mai
mari, cu att curba este mai ngust.

Fig. 3.1. Distribuia mediilor eantioanelor i eroarea standard a mediei


Curba de distribuie a mediilor eantioanelor este simetric n jurul valorii mediei
populaiei. Trebuie menionat aici c distribuia mediilor eantioanelor (pentru
eantioane mari, n > 30) este o distribuie normal chiar dac valorile individuale nu
sunt distribuite normal!

38
Gheorghe Ioan Mihala, Diana Lungeanu

Intervalele importante scrise pentru distribuia mediilor eantioanelor vor fi


calculate analog cu cele definite anterior pentru valorile individuale. S nlocuim datele
din exemplul nostru, unde avem s = 5 cm, n = 25: S X 5 / 25 1 cm .

Pentru interpretare procedm similar cu interpretarea intervalelor definite cu


deviaia standard. n cazul nostru, putem deci afirma c 68% din mediile eantioanelor
de cte 25 copii vor avea media cuprins n intervalul (137 - 1, 137 + 1) adic ntre 136
i 138 cm, sau n alte cuvinte, probabilitatea ca media unui eantion oarecare s fie
cuprins ntre 136 - 138 cm este 68%. Evident, nu pretindem c tim cu exactitate
media populaiei, , dar avem deja o localizare satisfctoare a sa, avnd probabilitatea
de 68% de a fi ncadrat n intervalul 136 - 138 cm.
Nivelul de ncredere de 68% este cel mai adesea considerat insuficient, aa c
putem recalcula intervalul de localizare a mediei populaiei pentru nivele de ncredere
mai ridicate. Vom avea aadar intervalul (137 2 1), adic (135, 139) cm pentru un
nivel de ncredere de 95,4%, respectiv (137 3 1), adic (134, 140) cm pentru un
nivel de ncredere de 99,7%.
Iat c avem din nou, pentru p, dou interpretri posibile:
proporia mediilor eantioanelor cuprinse n intervalul respectiv, sau
probabilitatea de a gsi media populaiei n intervalul respectiv, probabilitate pe
care o vom numi i nivel de ncredere.

3.3. Estimare, estimatori


S ne oprim puin la interpretarea intervalelor calculate mai sus.
a) Suntem ispitii s credem c, dac media populaiei se gsete cu o anumit
probabilitate ntr-un interval, cea mai mare ans ar avea-o mijlocul intervalului! Nu
este adevrat! Media populaiei este bine definit, (putem spune fix n contextul
nostru), iar intervalele determinate de noi sunt fluctuante, depinznd de media
eantionului pe care l-am nimerit, ncadrnd mai bine sau mai puin bine, media
populaiei. Exist chiar posibilitatea ca adevrata medie a populaiei s fie n afara
intervalului nostru; putem chiar aprecia i care ar fi probabilitatea s se ntmple acest
lucru! Ar fi chiar restul pn la 100% din nivelul de ncredere (adic 5% ans de eroare
n cazul nivelului de ncredere de 95%).
b) Interesul nostru, exprimat nc de la nceput, este s apreciem parametrii
populaiei fr s msurm toi indivizii populaiei ci numai un eantion. Deci, am
lucrat numai pe un eantion, am calculat statisticile eantionului (m i s) i, pornind de
la ele, generalizm rezultatele la nivelul ntregii populaii. Aceast operaiune, cu rol
central n gndirea statistic, poart numele de inferen statistic. Este o operaiune
oarecum riscant, fiindc pornete de la particular spre general, similar cu inducia
matematic (fig. 1.1). Parametrii populaiei obinui astfel se numesc parametri
estimai, spre deosebire de cei ai eantionului, care sunt determinai. Asupra
parametrilor estimai plutete ntotdeauna un grad de incertitudine. Deci exprimarea
corect a unui rezultat privind media populaiei ar fi media estimat [a nlimii
copiilor de 10 ani din Timioara n 2009]. Cnd ne referim la estimarea unor valori ale
parametrilor, vom spune c am fcut o estimare punctual (engl.point estimate). De
fapt, tiind c valoarea estimat se poate gsi oriunde undeva ntr-un interval, cel mai
des se exprim ntregul interval, vorbind despre estimarea intervalului (engl. interval

39
Biostatistica

estimate). ns lrgimea intervalului depinde de nivelul de ncredere ales, aa c, n


exprimarea rezultatului vom da de obicei intervalul estimat, scris cel mai adesea ca
(medie precizie), nsoit de nivelul de ncredere fie prezentnd limitele intervalului
(min, max).
c) Aprecierea calitii estimrii este dat de limea intervalului: cu ct intervalul
este mai ngust, cu att localizarea mediei populaiei este mai bun; observm ns c
intervalelor mai nguste le corespunde o probabilitate mai mic de ncadrare, aa nct,
dac dorim o cretere a nivelului de ncredere, limea intervalului de localizare crete,
cu alte cuvinte, ntre precizia localizrii i nivelul de ncredere avem o relaie de
invers proporionalitate (asemntoare principiului nedeterminrii din fizica
cuantic). Suntem din nou n dilem (teoretic): ce nivel de ncredere s alegem? Aici
practica ne d o mn de ajutor. Convenional s-a considerat c nivelul de ncredere de
95% este suficient de ridicat, intervalul fiind satisfctor de ngust (n majoritatea
cazurilor). Dac este totui nesatisfctor, soluia const n creterea dimensiunii
eantionului! (Crescnd n, scade Sx, deci se ngusteaz intervalul i crete precizia
localizrii lui ). Vom putea, desigur, alege i alte nivele de ncredere, dac este cazul.
Intervalele, aa cum au fost ele prezentate mai sus au fost calculate lund mereu un
numr ntreg (1, 2 sau 3) de Sx de o parte i alta a mediei, preciznd n fiecare caz
probabilitatea de ncadrare a mediei populaiei n respectivul interval. Am putea ns s
folosim i numere fracionare s le notm cu Z. Pentru fiecare Z corespunde o anumit
probabilitate de ncadrare, deci o valoare bine definit a nivelului de ncredere
(confiden), de aceea o notaie mai potrivit ar fi Z/2. Cu alte cuvinte, limea
intervalului n care localizm media populaiei, care reprezint precizia cu care este
localizat, va fi dat de relaia:

L = Z Sx (3.2)

Acest L se ia o dat la stnga i o dat la dreapta fa de medie, deci limea


propriu-zis a intervalului este de fapt 2L (vezi i formula 3.3).
Putem proceda i invers: s alegem nivelul de ncredere, adic probabilitatea de
ncadrare a mediei populaiei ntr-un interval i s gsim valoarea lui Z potrivit cu care
s calculm limea intervalului. Este evident c n cazul distribuiei normale, relaia
ntre nivelul de ncredere i Z este bine cunoscut, tabelat i calculabil, fiindu-ne la
ndemn pentru exprimarea oricror concluzii statistice. n tabelul (3.1) prezentm
cteva valori uzuale; pentru detalii consultai Tabelele de distribuie statistice prevzute
n bibliografie. Relaia ntre pragul de semnificaie (notat cu ) i nivelul de ncredere
(notat cu 1 ) va fi discutat mai n detaliu n cap. 4.

Tabelul 3.1. Valorile scorului Z al distribuiei normale

Nivel incredere (1 - ) 0,68 0,90 0,95 0,954 0,98 0,99 0,997


Prag de semnificaie 0,32 0,10 0,05 0,046 0,02 0,01 0,003
z/ 2 1,00 1,65 1,96 2,00 2,33 2,58 3,00

n cele ce urmeaz vom prezenta cteva cazuri uzuale de aplicare a celor prezentate
mai sus.

40
Gheorghe Ioan Mihala, Diana Lungeanu

3.4. Estimarea mediei


Unul dintre principalele obiective n studiile statistice l reprezint estimarea mediei
populaiei, pornind de la studiul pe un eantion. Putem sumariza cele discutate mai sus
printr-o simpl formul de calcul a limitelor intervalului:

m L (3.3)

unde 2L este limea intervalului.


n funcie de modul n care se calculeaz L distingem mai multe cazuri.

3.4.1. Estimarea mediei populaiei pentru eantioane mari


( > 30)
n cazul eantioanelor mari, distribuia mediilor eantioanelor este o distribuie
normal i vom putea stabili limea intervalului de localizare a mediei populaiei
pentru un anumit nivel de ncredere cu formula (3.2).
Observm c, odat fiind ales nivelul de ncredere (prestabilit n marea majoritate a
cazurilor la 95%), valoarea lui Z este i ea stabilit (este 1,96; pentru calcule
aproximative o rotunjim la 2). Deci precizia estimrii (localizrii) mediei populaiei
este determinat doar de eroarea standard a mediei, Sx. Dar aceasta, la rndul ei depinde
de deviaia standard i de dimensiunea eantionului. Deviaia standard a populaiei, ,
este o caracteristic a populaiei; ea este deseori necunoscut, dar destul de bine
aproximat de deviaia standard a eantionului, mai ales n eantioanele mari. Ajungem
deci la concluzia c precizia estimrii mediei populaiei depinde n special de volumul
eantionului.
Exemplul 3.1. S ilustrm dependena preciziei estimrii de dimensiunea
eantionului. n exemplul prezentat mai sus am considerat c am lucrat pe un lot cu
volumul n = 25 copii, obinnd m = 137 cm i s = 5 cm, eroarea standard a mediei
calculat fiind sx = 1 cm. Pentru nivelul de ncredere de 95% putem lua z 2, deci
intervalul de localizare era 137 2 cm, adic (135, 139) cm. Dac am fi lucrat pe un lot
de 100 copii, este foarte posibil s fi obinut aceleai valori pentru medie i deviaie
standard; s presupunem c avem ntr-adevr aceleai valori pentru m i s. ns acum
eroarea standard a mediei va fi sx.= 5 / 100 = 0,5 cm, deci pe jumtate fa de cazul
anterior. Intervalul de localizare va fi acum 137 1 cm, adic (136, 138) cm pentru
acelai nivel de ncredere de 95%! Aceast precizie de ncadrare avea n exemplul cu 25
de copii un nivel de ncredere de numai 68%. Cu alte cuvinte, cu ct lucrm pe
eantioane mai mari, cu att avem ncredere mai mare c valorile obinute pe eantion
sunt bune aproximri ale parametrilor ntregii populaii.
Iat deci motivul pentru care dorim s efectum studii pe loturi ct mai mari. Dar,
s mai observm c am obinut dublarea preciziei cu preul creterii dimensiunii
eantionului de 4 ori! (de la 25 la 100). Acest lucru nseamn, implicit, creterea
preului studiului cam tot de attea ori. De aceea, n practic vom fi nevoii s alegem
un eantion cu un volum satisfctor pentru o precizie dorit. Putem, ntr-adevr, s
calculm dimensiunea eantionului care poate satisface o anumit precizie de ncadrare,
pentru un anumit nivel de ncredere. Vom discuta acest aspect n 3.7.

41
Biostatistica

3.4.2. Estimarea mediei populaiei pentru eantioane mici


( < 30)
Exist situaii n care nu putem atinge limita pentru un eantion mare; n acest caz,
n loc de distribuia normal, mediile eantioanelor vor avea mai curnd distribuia t,
o distribuie asemntoare cu distribuia normal (fig. 3.5) care mai depinde, n afar de
nivelul de ncredere 1-, i de n - dimensiunea eantionului.
Practic acest lucru se realizeaz nlocuind pe Z din formula (3.2) cu o valoare
corespunztoare distribuiei t (notat uzual t / 2, ca s arate dependena att de nivelul
de ncredere ct i de volumul eantionului.
Din fericire pentru noi, programele de calculator pot realiza acest lucru automat
pentru un nivel de ncredere dat. n cadrul orelor de laborator vom face comparaie ntre
estimrile obinute pe loturi mari i mici.

3.5. Estimarea diferenelor ntre medii


n practic ne ntlnim deseori cu situaii n care nu urmrim valorile propriu-zise
ale unor caracteristici msurabile, ci mai curnd diferenele sau variaiile acestora.
Studiile comparative ocup o poziie central n domeniul cercetrii medicale. De
exemplu, am dori s putem compara valorile nlimii bieilor i fetelor de aceeai
vrst, sau tensiunile arteriale ale unui grup de btrni fa de tineri, sau ale unui lot de
bolnavi hipertensivi dup un tratament, comparativ cu valorile nainte de tratament. n
astfel de situaii atenia noastr se ndreapt mai mult spre diferenele sau variaiile
observate dect asupra valorilor absolute.
Noi putem face analize statistice care s fie orientate chiar n aceast direcie. S
facem nti cteva precizri:
cnd comparm loturi formate din indivizi diferii, vom numi aceste eantioane
loturi nepereche, sau serii nepereche; pentru referirea la ele loturile vor avea
denumiri diferite sau se numeroteaz. Teoretic nu exist reguli pentru numerotare sau
denumire; totui exist uzana ca, n cazul n care un lot este luat ca referin, acesta s
fie numit martor sau control, fiind adesea asociat cu indicele 1, iar cellalt s fie
numit lot tratat i asociat cu indicele 2.

cnd studiul se efectueaz pe un singur lot urmrind caracteristicile n dou condiii


diferite, atunci seriile de valori asociate acestor condiii se vor numi serii pereche.
Diferenele studiate sunt de fapt variaii (din punct de vedere fizic); starea iniial este
de obicei starea de referin i i se asociaz indicele 1 iar cea final este de obicei
notat cu indicele 2. Din punct de vedere statistic spunem c studiem diferene n
ambele situaii.

3.6. Estimarea proporiilor i a diferenelor ntre


proporii
n capitolul precedent am vzut c, n cazul variabilelor calitative, asocierea
numeric se realizeaz prin exprimarea proporiilor (sau procentelor) diverselor clase.
42
Gheorghe Ioan Mihala, Diana Lungeanu

Pentru fiecare clas i se definete proporia sa, pi i se poate calcula i deviaia standard
a proporiei, sp. Aceste statistici calculate au provenit din valorile obinute pe un
eantion.
Ne punem acum problema la fel ca n cazul variabilelor numerice: n ce msur
putem extinde concluziile noastre (determinrile pe eantion) la nivelul ntregii
populaii?
Vom nota proporiile reale ale claselor i n ntreaga populaie cu i i vom ncerca
s estimm intervale n care putem ncadra cu un anumit nivel de ncredere aceste
proporii din populaie. Aceste intervale se calculeaz cu o relaie asemntoare cu
(3.3), avnd i n loc de i pi n loc de m. Pentru limea intervalului folosim o relaie
asemntoare cu (3.2), avnd ns deviaia standard a proporiei sp n loc de eroarea
standard a mediei sx (v. formula 2.9.b).
Exemplul 3.2. Relund datele din exemplul 2.2, n care am gsit 144 persoane cu
grupa sanguin A ntr-un lot de 400 persoane, proporia clasei reprezentat de grupa
sanguin A este:
pA = 144 / 400 = 0, 36 = 36%
iar deviaia standard a proporiei este:
sA = 0,36 (1 0,36) / 400 = 0,6 0,8 / 20 = 0, 024 = 2,4%
n cazul unui nivel de ncredere de 95% putem lua z /2 2, deci intervalul n care
localizm proporia grupei A n populaie va fi (0,36 2 0,024), sau n procente (36%
4,8%), adic (31,2%, 40,8%). Citim rezultatul astfel: proporia grupei sanguine A n
populaia studiat este situat ntre 31,2% i 40,8%, cu un nivel de ncredere de 95%,
adic ne ateptm ca, dac repetm studiul pe eantioane de cte 400 indivizi, n 95%
din cazuri vom gsi pentru grupa sanguin A un procent ntre 31,2% i 40,8%.
La fel ca i n cazul variabilelor numerice, o localizare mai bun se obine prin
creterea dimensiunii eantionului. De asemenea, putem i n cazul proporiilor s
urmrim diferenele ntre proporii, avnd formule potrivite pentru deviaia standard a
diferenei ntre proporii (3.12.b).

3.7. Calculul dimensiunii eantionului


Una dintre principalele ntrebri care apar la nceputul oricrui studiu statistic se
refer la dimensiunea eantionului; pn acum am urmrit cteva exemple fr a
justifica dimensiunea eantionului. ntr-adevr, cum stabilim dac eantionul nostru s
aib 10 sau 25, sau 100, sau 1000 indivizi? Nu numai costul ci i ntreaga metodologie
de lucru vor depinde de mrimea loturilor de lucru.
S ne punem n situaia celui care i propune s demareze un studiu populaional.
Are, desigur, un obiectiv s investigheze cutare aspect de sntate, prin analiza unor
asocieri sau diferene ntre nite variabile care pot fi msurate. Se vor respecta paii
prezentai n cap.1 privind definirea obiectivelor, a loturilor de studiu, a variabilelor
msurate etc.
Primul pas important este cel al stabilirii preciziei (L) cu care dorim s obinem
ncadrarea mediei populaiei din formula (3.3). Conform observaiilor de mai sus
(relaia 3.2), aceast precizie este dependent, la rndul ei, de nivelul de ncredere ales.
43
Biostatistica

Vom alege aadar, un nivel potrivit de ncredere, care nseamn, de fapt, o anumit
valoare a lui Z. Acum ne dm seama de importana stabilirii preciziei cu care dorim s
exprimm rezultatul adic erorile posibile s nu depeasc o anumit valoare.

3.7.1. Calculul lui n pentru variabile numerice


tim deja c orice valoare determinat poart o nencredere cu ea. Totui, cu un
anumit nivel de confiden, putem alege un interval de exprimare a preciziei rezultatului
estimat printr-un ceva (precizie, notat cu L in formulele 3.2 i 3.3). Cum, de
obicei (pentru 95% nivel de ncredere), acest ceva este L 2sm. 2sx, vom putea
calcula sx = L/2 i apoi s apelm la relaia (3.1), care mai poate fi scris ca: sx2 = s2/n.
Vom obine astfel relaia (pentru nivelul de ncredere de 95%):

2
S 4s 2
n
(3.4)
Sm L2

Cum precizia propus (L) este aleas de noi, rezult c pentru calculul lui n mai
avem nevoie doar de valoarea deviaiei standard s. Pentru s avem urmtoarele
variante:
este cunoscut din studii anterioare
se face un studiu preliminar pe un lot mic pentru estimarea lui s
metoda celor 6s: ntr-un lot mediu (aprox. 30) diferena ntre extreme (maxim i
minim) este de cca 6 deviaii standard
Avnd ambele valori (L i s), vom calcula n prin toate metodele i vom alege
valoarea maxim dintre ele.
Observaii
a. Valoarea lui n calculat aici reprezint volumul minim al eantionului pentru a
nu depi i limitele maxime de eroare. Practic se lucreaz pe eantioane cu 5 25%
mai mari dect valoarea calculat a lui n.
b. n formula (3.4) precizia L apare la ptrat, deci dublarea preciziei va determina
creterea eantionului de 4 ori!

3.7.2. Calculul lui n pentru variabile nominale.


Urmnd un raionament asemntor cu cel de mai sus, putem obine o relaie cu
care s calculm volumul minim al unui eantion pentru a estima procentul unei clase
pentru un nivel de ncredere dat i o precizie aleas L. Cum uzual nivelul de ncredere
este de 95% vom lua z = z. n plus, n cazul procentelor, nederminarea (incertitudinea,
variabilitatea) este maxim cnd probabilitatea unui individ de a aparine clasei este
egal cu cea de a nu aparine clasei, adic p = 0,5 = 50%. Se obine astfel o formul
foarte simpl:
n = 1/L2 = 10 000/L2(%) (3.5.)

44
Gheorghe Ioan Mihala, Diana Lungeanu

Valorile lui n pentru cteva valori uzuale ale lui L sunt date n tabelul 3.2. n cazul
n care proporiile claselor studiate sunt cunoscute i deprtate de 0,5 se obin pentru n
valori mai mici.

Tabelul 3.2. Dimensiunea minim a unui eantion pentru o precizie aleas (n %), n cazul variabilelor
calitative
L (%) 5 4 3 2.5 2 1.5 1
n 400 625 1100 1600 2500 4500 10 000

3.8. Fundamentare teoretic - formalizare

3.8.1. Distribuii
Am utilizat frecvent termenul de distribuie fr s ne ocupm detaliat de el.
ncercm n cele ce urmeaz s aducem cteva precizri.

3.8.1.1. Funcia de distribuie


Definiie: Dac x este o variabil independent, reprezentnd valorile posibile ale
unui parametru urmrit ntr-un studiu statistic atunci funcia
y = f (x), cu yi = p (x = xi) (3.1.a)

care ne arat probabilitatea de a ntlni valoarea x ntr-o populaie se numete funcie


de distribuie.
Observaii:
- uzual se folosete nu o funcie continu ci una discret, n care valoarea funciei
reprezint probabilitatea de a ntlni mrimea studiat ntr-un interval (xi , xi+1 )
- vom face distincie ntre distribuiile teoretice (n care calculm valorile funciei)
i cele experimentale (n care valorile funciei au rezultat n urma unor msurtori).

3.8.1.2. Funcii de distribuie uzuale


n cele ce urmeaz vom aminti doar 3 funcii de distribuie mai des ntlnite:
a. Distribuia uniform

f ( xi ) p( x xi ) k (3.1.b)

Experimental se obin diverse fluctuaii (fig. 3.2.a)


Exemplu: probabilitatea de a arunca cu zarul valorile 1-6 este 1/6 pentru fiecare
aruncare. Dup 100 de aruncri obinem o situaie ca n fig. 3.2.a.
b. Distribuia normal descris de formula (2.6.a) avnd forma unui clopot. Re-
prezentarea n fig. 3.2.b, cu detalii n fig. 2.5.
c. Distribuia binomial (util n studiul variabilelor calitative), fig. 3.2.c.

45
Biostatistica

Exemplu: probabilitatea de a extrage o bil alb dintr-o urn cu N bile dintre care A bile
albe i B bile negre (A+B=N) este: p = A / N. Dup extragere, bila se introduce napoi
n urn (Bernoulli).
Dac din urn se scot n bile atunci numrul x de bile albe extrase are o distribuie
binomial:

x n x
f ( x) Cnx p q x = 0,1, ....., n (3.1.c)

unde Cnx combinri de n luate cte x; p-probabilitatea de a extrage o bil alb; q=1-p,
probabilitatea de a extrage o bil neagr.

3.8.1.3. Funcia de repartiie


Uneori, n loc de funcia de distribuie, care ne d probabilitatea p 1 ca variabil
studiat x s aib o anumit valoare x1 (sau ncadrat ntr-un interval n jurul lui xi ), se
folosete o alt funcie numit funcie de repartiie:

y r p( x x i ) (3.1.d)

Figura 3.2. Distribuii: a: uniform, b: normal, c: binomial

n cazul funciilor experimentale discrete, funcia de repartiie ne d frecvenele


cumulate pentru toate clasele inferioare. Pentru distribuiile uniforma i normal,
funciile de repartiie sunt redate n fig. 3.3.
Obs. Este important de notat c dimensiunea calculat a eantionului nu depinde de
dimensiunea populaiei; deci, fie c sondm o populaie de un milion sau zece milioane,
eantionul trebuie s fie la fel de mare (pentru aceeai precizie).

46
Gheorghe Ioan Mihala, Diana Lungeanu

Figura 3.3. Funcia de repartiie pentru distribuia uniform (stanga) i normal (dreapta) funciile de
repartiie sunt redate cu linie intrerupt, iar cele de distribuie cu linie continu.

3.8.2. Estimare

3.8.2.1. Media populaiei


Presupunem c din populaia studiat facem msurtori pe toate eantioanele
posibile de aceeai dimensiune n, obinnd mediile X 1 , X 2 , ..., X j , ..., X T . Vom avea
evident media populaiei:

Xj
1
(3.6.a)
T j 1

Analiznd distribuia acestor medii ale eantioanelor s-a observat (fig. 3.1) c i ele
se aranjeaz aproximativ dup o curb Gauss, (dac eantioanele sunt destul de mari, n
30) avnd fa de curba din fig. 2.5. dou deosebiri:
variaiile mediilor eantioanelor se ntind pe un interval mult mai ngust dect
variaiile valorilor individuale;
valoarea n jurul creia sunt simetrice variaiile este media populaiei.

3.8.2.2. Eroarea standard a mediei


Distribuia mediilor eantioanelor este caracterizat prin parametrii = media
populaiei i X eroarea standard a mediei dat de formula:

X / N
(3.7.a)

47
Biostatistica

unde N = volumul populaiei i = deviaia standard.


S revenim la relaia (3.1.), scris acum cu indicii consacrai:

S
SX
n (3.7.b)

pentru populaie foarte mare (infinit), iar pentru populaii finite, mai mici:

S N n
SX .
n N 1 (3.7.c)

unde n = nr. indivizi din eantion, N = volumul populaiei;


Generaliznd, putem scrie:
( X SX , X SX ) cu p = 68,3%

( X 2S X , X 2S X ) cu p = 95,4% (3.8.a)

( X 3S X , X 3S X ) cu p = 99,7%

Definiie: Eroarea standard a mediei: Sx reprezint gradul de variaie a mediilor


eantioanelor n jurul mediei populaiei.

3.8.3. Estimarea mediei

3.8.3.1. Pentru eantioane mari


a) Distribuia mediilor eantioanelor
n exemplul cu studiul dezvoltrii copiilor, n care am fcut referiri la
nlimile copiilor dintr-un eantion, am afirmat c, dac reprezentm grafic mediile
eantioanelor extrase din aceeai populaie obinem o distribuie normal numai
pentru eantioane mari.
b) Formule
n acest caz, pentru = 5% (n.i. = 95%) avem:

X 1,96 Sx ; X 1,96 Sx (3.8.b.)

Valoarea 1,96 reprezint valoarea funciei Z (distribuia Gauss normalizat) pentru


a cuprinde n intervalul de mai sus 95% din arie (am vzut n cursul precedent c pentru
Z = 2 cuprindeam 95,4% din aria de sub curb) (fig. 3.4).

48
Gheorghe Ioan Mihala, Diana Lungeanu

Aceast valoare se mai noteaz Z2 indicele avnd aici semnificaia c aria rmas
neinclus este /2 = 2,5% (cte 2,5% n fiecare parte). Obs: n unele cri se noteaz
Z1-/2. Deci ntr-o form mai general putem scrie:

X Z / 2 S x ; X Z/ 2 S x (3.8.c)

iar pentru Z /2 vom lua o valoare din tabelul 3.1.

Figura 3.4. Relaia lui Z cu pragul de semnificaie i cu nivelul de ncredere 1 -

c) Exemplul 3.3.a.
Pe un eantion de 144 sportivi se gsete pentru VEMS (volumul expirator maxim
n 1 secund) valoarea medie X = 4,84 i deviaia standard S = 0,36. S estimm n ce
interval gsim media populaiei cu nivel de ncredere de 98%.

Avem: S x S / N 0,36 / 144 0,03 l

Pentru 1 - = 98% gsim Z = 2,33 (tabelul 3.1), deci:

X (4,84 0,03 2,33 ; 4,84 0,03 2,33),

X 4,84 0,07 ; 4,84 0,07, adic X (4,77 ; 4,91).

Cu alte cuvinte, avem ncredere de 98% c adevrata medie a VEMS pentru


sportivi s fie ntre 4,77 i 4,91, ceea ce nseamn ca probabilitatea ca media VEMS la
sportivi s fie n afara acestui interval este sub 2%.

3.8.3.2. Pentru eantioane mici


a) Distribuia mediilor eantioanelor

49
Biostatistica

Dup cum am mai specificat anterior, distribuia mediilor eantioanelor poate fi


considerat distribuie normal numai n cazul eantioanelor mari. n cazul
eantioanelor mici (considerate convenional mici dac N 30), mediile eantioanelor
au o distribuie t (sau distribuie normal, ns mai turtit - figura 3.5); curba este cu
att mai turtit (deci mai diferit de curba Gauss) cu ct eantionul este mai mic.

Figura 3.5. Distribuia t. Valorile lui t care las cte 2,5% arie n fiecare parte (deci n.i. = 95%) sunt cu
att mai mari cu ct eantionul este mai mic.

b) Formule
Curba de distribuie t depinde deci de mrimea eantionului care va fi
caracterizat printr-un parametru, notat cu , numit numr de grade de libertate
introdus n 2.8.2.6 i dat de relaia: (2.6.f)
Lrgimea intervalului n care localizm media populaiei va fi dat de relaia:

( X t/ 2,v S X ; X t/ 2, S X ) (3.8.d)

Relaia (3.8.d.) este foarte asemntoare cu (3.8.c)


Din tabelul 3.3. se poate observa apropierea lui t de z pe msur ce crete
dimensiunea eantionului.
c) Exemplul 3.3.b.
Considerm din nou exemplul anterior, cu valoare medie a VEMS pe un lot de
sportivi X = 4,84 l i deviaia standard S =0,36 l, dar s presupunem acum c am
efectuat determinrile pe un lot de numai N = 16 sportivi. S vedem n ce msur este
influenat intervalul n care putem localiza media populaiei cu precizie de 98%. n
primul rnd: S x S / N 0,36 / 16 0,09. Apoi pentru 1- = 98% i = 16 - 1 =
15 grade de libertate gsim n tabelul distribuiei t valoarea t / 2, 2,60 deci:

50
Gheorghe Ioan Mihala, Diana Lungeanu

X 4,84 0,09 2,60 ; 4,84 0,09 2,60 , de unde

X (4,60 ; 5,08).
Observm c pierderea de precizie n localizare este imens, intervalul fiind de
peste 3 ori mai larg comparativ cu localizarea obinut pe un eantion mare.
De aceea, dup cum vom vedea chiar n ncheierea acestui subiect, n biostatistic
putem calcula o dimensiune minim a eantionului pentru a putea obine localizri ale
mrimilor estimate n intervale suficient de nguste i cu nivel de ncredere satisfctor
de ridicat.
Tabelul 3.3. Valorile lui t pentru cteva nivele de ncredere (1-) i grade de libertate ()

1-
0.90 0.95 0.99

1 6,31 12,7 63,7
2 2,92 4,30 9,92
5 2,01 2,57 4,03
10 1,81 2,23 3,17
30 1,70 2,04 2,75
1,65 1,96 2,58

3.8.4. Estimarea proporiei


a) Distribuia procentului n eantion
n cazul variabilelor calitative (nominale), indivizii dintr-un eantion sunt grupai n
clase; distribuia de acest gen se numete distribuie binominal. n cazul unei populaii
avem deci cte un procent real i pentru fiecare clas i:
1 2 ... i ... k
1 2 ... i ... k (3.9.a)

La extragerea unui eantion din populaie vom obine procentele p1 , p2 ,...., pk , cu


deviaiile standard ale procentelor date de relaia:

p(1 p)
Sp (3.9.b)
N

Dac repetm extragerea eantionului, fiecare procent pi va prezenta variaii.


Pentru eantioane mari procentele prezint o repartiie normal (Pentru procente nici nu
se poate lucra pe eantioane mici!).
b) Formule
Vom putea deci aplica scorul Z, la fel ca n cazul mediilor, deci:


p i pi Z / 2 S pi ; pi Z / 2 S pi (3.9.c.)

51
Biostatistica

Un exemplu de estimare a proporiei a fost prezentat n 3.6 (exemplul 3.2).

3.8.5. Estimarea diferenelor


n numeroase studii urmrim nu att valorile absolute ale unor parametri, care au
mprtieri naturale destul de largi, ci n special variaiile mrimilor. Aceste variaii pot
fi urmrite att pentru valorile propri-zise (medii ale eantioanelor), ct i pentru
proporiile din eantioane ce aparin unei clase.

3.8.5.1. Diferene ntre medii


a) Pentru loturi diferite
Fie dou eantioane (loturi, grupuri), notate G1 i G2, simbolic:


G1 n1 , X 1 , S1
i G2 n 2 , X 2 , S 2 (3.10.a)

Diferena mediilor este dat de relaia:

d X X 2 X1 (3.10.b)

iar deviaia standard a diferenelor este:

S12 S 22
Sd (3.10.c)
n1 n 2

Stabilirea intervalelor pentru localizarea diferenelor se face similar cu localizarea


valorilor medii, avnd:
pentru loturi mari ( n1, 2 30) ncadrarea o vom face dup

d x x2 (d Z / 2 S d ; d Z / 2 S d ) (3.10.d)

pentru loturi mici ( n1, 2 30)

d x1 x2 (d t / 2, S d ; d t / 2, S d ) (3.10.e)

Exemplul 3.4: S estimm intervalul n care se gsete diferena ntre nlimea


bieilor i a fetelor din exemplul 3.1, cu un nivel de ncredere de 95% (Z 2). Avem:

d BF 137,0 138,5 1,5 cm

S d 5 2 / 25 5 2 / 25 2 1,4 cm

d 1,5 2 x 1,4;1,5 2 x 1,4 , avnd n final intervalul d 4,3; 1,3 .

52
Gheorghe Ioan Mihala, Diana Lungeanu

Observm c intervalul de ncredere obinut conine valoarea 0, fapt foarte


important pentru interpretarea testelor statistice (cap. 4); pentru cazul nostru vom spune
c diferenele sunt nesemnificative.
b) Pentru serii pereche
Considerm acum dou serii de valori obinute pe aceiai indivizi n dou condiii
diferite, 1 i 2. Putem aici defini cte o diferen pentru fiecare individ, reprezentnd
variaia variabilei X la trecerea din starea 1 n starea 2:

di X 2i X1i (3.11.a)

Notm cu d valoarea medie a acestor diferene:

d
1
d i
n (3.11.b)

iar eroarea standard a diferenelor este dat de relaia:

d d
2
i
Sd
nn 1
(3.11.c)

Estimarea diferenei pentru serii perechi va fi dat tot de relaiile (3.10.d) sau
(3.10.e).
Exemplele din aceast categorie sunt numeroase. Uzual, testarea efectelor unui
tratament (medicament etc.) se realizeaz prin msurarea efectelor asupra unei variabile
(de ex.: tensiunea arterial, colesterolul etc.) pe un lot de studiu, nainte i dup
tratament. Suntem astfel n situaia de a aprecia diferenele dintre dou serii pereche.
Vom reveni cu detalii n capitolul urmtor.

3.8.5.2. Diferene ntre procente


Asemntor cu raionamentele deja prezentate pn acum, putem ncadra i
estimarea diferenei a dou procente:
dp = p 2 - p 1 (3.12.a)

Pentru eroarea standard a diferenei a dou procente folosim formula:

p1(1 p1 ) p2 (1 p2 )
s pd (3.12.b)
n1 1 n2 1

atunci intervalul de ncredere al estimrii va fi:

d p (d Z / 2 S pd ; d Z / 2 S pd ) (3.12.c)

53
Biostatistica

3.8.6. Calculul dimensiunii eantionului


Cea mai important consecin a studiilor privind ncadrarea unui parametru ntr-un
interval este calculul mrimii eantionului. Am vzut c lrgimea intervalului n care
ncadrm estimaia depinde puternic de dimensiunea eantionului (n). Aceast
dependen ne poate folosi la evaluarea mrimii eantionului astfel nct s obinem
ncadrarea parametrului populaiei ntr-un interval rezonabil de ngust.
Am stabilit anterior relaiile (3.4) pentru variabile numerice i (3.5) pentru
proporii. S dm acum un exemplu.
Exemplul 3.5: Dorim s determinm nlimea medie a copiilor de 10 ani cu
precizie de L = 1 cm, avnd un nivel de ncredere de 95%. Ce dimensiune minim
trebuie s aib eantionul?
Am vzut c, pentru calculul lui n ar trebui cunoscut gradul de mprtiere a
valorilor nlimii pentru populaie, exprimat prin deviaia standard a populaiei ; de
obicei aceast mrime nu este cunoscut i n locul ei se folosete o estimare a deviaiei
standard S obinut ntr-un studiu pe un eantion. n cazul exemplului nostru,
considernd c ntr-un studiu anterior s-a gsit S = 5 cm, din relaia (3.4) obinem:

n = 4 52 / 12 = 100 copii.
Observm c, fa de exemplul n care pe 25 copii am obinut ncadrarea la nivel de
ncredere de 95% de 2 cm, dac dorim s dublm precizia, dimensiunea lotului a
crescut de 4 ori!
n mod similar se poate calcula n i pentru proporii.

Caseta 3. Definiii
Inferena statistic este operaia de generalizare la nivelul ntregii populaii a
rezultatelor obinute pe un eantion.
Eroarea standard a mediei arat gradul de mprtiere a mediilor eantioanelor n
jurul mediei populaiei. Mediile eantioanelor au o distribuie normal n jurul mediei
populaiei.
Eroarea standard a mediei scade cnd dimensiunea eantionului crete.
Parametrii populaiei nu vor fi determinai exact ci doar vor fi estimate intervale n
care pot fi localizai. Dorim ca aceste intervale (L) s fie ct mai nguste (precizie
ct mai mare de localizare estimare).
Limea intervalelor de estimare este cu att mai mic cu ct:
- eroarea standard a mediei este mai mic;
- nivelul de ncredere este mai mare (nivelul de ncredere uzual este 95%).
Dac alegem precizia localizrii i nivelul de ncredere, putem calcula dimensiunea
minim a eantionului pentru a obine rezultate relevante, dar ntotdeauna trebuie
cunoscut (aproximat) i deviaia standard.

54
Gheorghe Ioan Mihala, Diana Lungeanu

4. TESTE STATISTICE
Cuprins
A. Prezentare descriptiv
Noiuni generale
Diferene semnificative i nesemnificative
Prag de semnificaie
Ipoteze statistice
Interpretarea testelor
Erori statistice
Caracteristicile testelor
Clasificarea testelor statistice
Teste statistice uzuale
Teste pentru variabile numerice
Teste pentru variabile ordinale
Teste pentru variabile nominale
Teste pentru indicatori de dispersie
Analiza varianei
B. Fundamentare teoretic
C. Sintez: Caseta 4.1. Definiii.
Caseta 4.2. Teste statistice uzuale

4.1. Noiuni fundamentale

4.1.1. Diferene semnificative i nesemnificative


n exemplul nostru cu nlimea copiilor nu am fcut pn acum distincie ntre
biei i fete. Un studiu asupra dezvoltrii copiilor ar trebui s in cont de evoluia
hormonal diferit care va genera dezvoltarea somatic diferit. Vom dezvolta exemplul
nostru astfel:
Exemplul 4.1. Pe un lot de 25 de biei de 10 ani obinem pentru nlime media de
mB = 137,0 cm, cu deviaia standard sB = 5,0 cm, avnd deci eroarea standard a mediei
smB = 1,0 cm, iar pe un lot de fete similar obinem media mF = 138,5 cm, cu sF = 5,0 cm
i, s zicem, aceeai eroare standard a mediei, smF = 1 cm.
Dintr-o simpl inspecie vizual a rezultatelor, se pare c fetele ar fi mai nalte
dect bieii. Putem oare afirma c fetele de 10 ani din Timioara sunt mai nalte dect
bieii? Aparent rspunsul ar fi da, fiind vorba de o diferen ntre valori medii!
Totui, s nu pierdem din vedere faptul c, lucrnd pe un eantion, valorile obinute nu
reprezint realitatea (mediile populaiilor) ci surprind doar un crmpei din realitate.
Suntem adesea ispitii s considerm c media eantionului nostru ar fi media

55
Biostatistica

populaiei! n realitate, aa cum am artat n capitolul precedent, noi nu tim media


populaiei ci doar putem estima un interval n care ea ar putea fi localizat cu o anumit
probabilitate (nivel de ncredere). n cazul nostru, pentru un nivel de ncredere de 95%
am obine intervalul 137,0 2 cm. Ar fi poate mai bine s nici nu folosim valoarea
medie obinut, ci doar intervalul. Ne ateptm deci ca, repetnd determinrile pe un
nou eantion de 25 biei s obinem o medie situat ntre 135 si 139 cm. O valoare de
138,5 cm, cum este media gsit pe eantionul de fete, ar fi deci foarte probabil i
pentru biei, ncadrndu-se n intervalul ateptat de noi. Este evident c nu mai
susinem c fetele ar fi mai nalte dect bieii, acceptnd faptul c diferenele observate
se datoresc ntmplrii (variabilitate de eantionare). Aceste diferene, care au o
probabilitate mare s apar din ntmplare se numesc diferene nesemnificative.
Dar dac am fi obinut pe eantionul de fete media mF = 139,5 cm? De aceast dat
valoarea nu mai cade n intervalul (135, 139) n care fluctueaz mediile eantioanelor de
biei. Vom spune n acest caz c diferenele sunt semnificative, probabilitatea de a gsi
astfel de diferene fiind mic (sub 5%). Ele, neputnd fi atribuite (integral) variabilitii
de eantionare, vor fi atribuite altor cauze, ns studiul acestor cauze nu face obiectul
biostatisticii. Noi ne vom limita n a sesiza dac diferenele observate experimental sunt
semnificative sau nu.
Procedeele statistice prin care se analizeaz diferenele care apar ntre diferite serii
de valori poart numele de teste statistice. Prin teste statistice vom ncerca s stabilim,
cu un anumit nivel de ncredere, dac diferenele observate sunt semnificative sau nu.

4.1.2. Prag de semnificaie


n definirea diferenelor semnificative i nesemnificative am folosit sintagma
probabilitate mic sau mare ca diferenele s apar din ntmplare. Cnd putem spune
despre o probabilitate c este mare sau mic? Va fi o alegere a noastr, deci o
valoare convenional. Ea se numete prag de semnificaie i reprezint valoarea sub
care vom ncepe s considerm diferenele ca fiind semnificative. Valoarea pragului s-a
stabilit pornind de la considerente practice i este legat de nivelul de ncredere.
ntr-adevr, n exemplul nostru am apreciat diferenele ca semnificative sau
nesemnificative dup cum media nlimii fetelor se ncadra sau nu n intervalele
calculate cu nivel de ncredere de 95% pentru fluctuaiile mediilor eantioanelor de
biei. Deci, dac 95% este ansa de ncadrare n acest interval, restul de 5% este ansa
de a fi n afara acestui interval, cu alte cuvinte, pragul de semnificaie va fi 5%. Similar,
dac nivelul de ncredere ar fi de 99%, pragul de semnificaie corespunztor va fi 1%.
n mod uzual se lucreaz cu pragul de 5%, valoare considerat implicit dac nu este
specificat alt valoare.
S mai facem o observaie important: concluziile au un caracter pur probabilist;
chiar dac o valoare care ne duce la concluzia c fetele sunt mai nalte (de ex.: 139,5
cm), s nu uitm c exist o anumit probabilitate, chiar dac este mic (sub 5%) ca s
fi obinut asemenea valori din ntmplare, adic n realitate s nu avem diferene
semnificative. La fel, n cazul n care am obinut diferene nesemnificative (de ex.:
138,5 cm), asta nu nsemn c n realitate nu ar putea fi diferene semnificative, ci doar
faptul c, din msurtorile efectuate de noi, nu putem afirma c ar fi statistic
semnificative. De aceea, n analiza statistic pe care o efectum cnd aplicm testele

56
Gheorghe Ioan Mihala, Diana Lungeanu

statistice vom porni cu formularea unei ipoteze, pe care o vom accepta sau respinge cu o
anumit probabilitate.

4.1.3. Ipoteze statistice


Testele statistice prin care se realizeaz o comparaie ncep cu enunarea unei
ipoteze privind un rezultat posibil al comparaiei, numit ipotez statistic. Aceasta este
o propoziie coninnd o afirmaie sau negaie privind un parametru al unei populaii sau
o lege de distribuie.
Ipotezele au diferite variante de formulri, de aceea le vom defini la nceput n
cazuri nu foarte generale.

4.1.3.1. Ipoteza de zero


Ipoteza de zero face ntotdeauna afirmaia c ntre elementele pe care le comparam
nu exist diferene semnificative.
Ipoteza de zero se noteaz simbolic de obicei cu H0 i se mai numete ipotez de
zero sau ipotez de nul sau ipotez nul (impropriu).
Exemplu: In cazul n care comparm nlimea medie a bieilor i fetelor, ipoteza
de zero s-ar scrie simbolic

H0 : B=F (4.1)

i se citete: ntre nlimea bieilor i fetelor (din studiu) nu exist diferene


semnificative sau nlimea bieilor nu difer semnificativ de nlimea fetelor. Alte
enunuri echivalente: diferenele observate se datoresc numai ntmplrii sau nu
putem afirma c ntre cele dou valori medii (serii, distribuii) exist diferene
semnificative.
Semnul = din relaia (4.1) nu reprezint semnul egal din matematic. Tocmai
aici este una dintre deosebirile eseniale ntre gndirea statistic i cea matematic. n
raionamentele matematice rigurozitatea este mpins spre extrem: dou valori nu sunt
egale dect dac sunt perfect egale! (s nu difere nici la nu tiu a cta zecimal!). n
gndirea statistic nici nu folosim termenul de valori egale ci il vom nlocui cu valori
diferite nesemnificativ ntre ele. Conform exemplului discutat anterior, am acceptat c
137,0 i 138,5 (din studiul nostru) nu difer semnificativ, dei tim c, din punct de
vedere matematic, nici nu poate fi vorba de valori egale.
Prin ipoteza de zero putem compara:
o valoare medie (obinut pe un lot) cu valoare dat (numr, valoare teoretic)
dou valori medii (dou loturi) - cel mai adesea
o distribuie experimental cu una teoretic
dou distribuii experimentale
dou dispersii
mai multe valori medii
mai multe dispersii etc, etc.

57
Biostatistica

4.1.3.2 Ipoteze alternative


Propoziiile care sunt adevrate cnd/dac H0 nu este adevrat se numesc ipoteze
alternative i se noteaz cu Ha sau H1.
Ipotezele alternative se pot cel mai simplu exemplifica n cazul comparrii a dou
valori medii, mB i mF. Vom putea avea situaiile:
a) B F (nlimea bieilor este diferit de a fetelor)
b) B > F (bieii sunt mai nali dect fetele) (4.2)

c) B < F (fetele sunt mai nalte dect bieii).


Ipoteza alternativ (a) se numete bilateral, n timp ce variantele (b) i (c) se
numesc unilaterale. n practic se lucreaz mai mult cu ipotezele alternative bilaterale.

4.1.4. Interpretarea testelor


Dup ce am definit principalele mrimi folosite pentru aplicarea unui test statistic
putem sistematiza etapele de lucru:
a) Definirea mrimilor de comparat - evident, trebuie precizat la nceputul studiului
care vor fi mrimile asupra crora se ndreapt atenia i asupra crora se vor
aplica testele. n funcie de acestea vom alege diferite tipuri de teste.
b) Formularea ipotezei zero i a celei alternative - operaie primar, fiindc rezultatul
testului (decizia) se exprim n funcie de H0: se accept sau se respinge. Dac nu
se urmrete n mod special o ipotez alternativ H1B sau H1C, se accept ca
ipotez alternativ cea bilateral H1A.
c) Alegerea pragului de semnificaie al testului - n majoritatea cazurilor se ia =
0,05 care confer un nivel de ncredere de 95%.
d) Alegerea testului - este etapa esenial creia i vom dedica un subcapitol separat;
n funcie de tipul de variabile i modul de distribuie al valorilor se alege testul cel
mai potrivit n funcie de care se efectueaz calculele (etapele E i F).
e) Calculul limitelor intervalului, numite valori critice (de obicei cele relative) i
stabilirea regiunilor de acceptare / respingere a ipotezei zero. Calculul acestor
valori va fi prezentat n detaliu n 4.3. Pentru fiecare test exist formule specifice
cu care calculm aceste limite. nelegerea acestor calcule va permite o uoar
interpretare a oricror teste. n versiunea cea mai simpl, putem considera aceste
limite ca fiind chiar marginile intervalului n care am ncadrat estimatorul (formula
3.3). Din aceste limite exprimate n valori absolute se calculeaz nite limite
normalizate pentru a facilita i uniformiza interpretarea testelor.

58
Gheorghe Ioan Mihala, Diana Lungeanu

Figura 4.1. Regiunea de acceptare i H0 exprimat cu valori absolute ale seriilor i diferenelor i cu valori
relative, pe scara normalizat fa de S . n aceste exemple s-a utilizat pragul de semnificaie = 0,05
X

f) Calculul coeficientului p care reprezint probabilitatea ca:


ipoteza de zero s fie adevrat, sau
diferenele sa fie nesemnificative, sau
s ne ncadrm n regiunea de acceptare.
n situaiile n care dispunem de un software dedicat, adesea nici nu mai urmrim
valorile critice de la punctul E, ci interpretm direct valoarea lui p. Aceste situaii vor fi
prezentate n 4.2 (teste uzuale), iar restul cazurilor (cnd calculm valorile critice) vor
fi prezentate n 4.3 (fundamentare teoretic).
g) Formularea deciziei - etap final, n funcie de p:
dac p acceptm H0 i spunem c diferenele sunt nesemnificative;
dac p respingem H0 i spunem c diferenele sunt semnificative.
Pentru 0,05 regiunea de respingere se mparte la rndul ei n 3 subregiuni n
care se ncearc o gradare a diferenelor semnificative (fig. 4.2).
n toate cazurile n care diferenele sunt semnificative ipoteza de zero H0 se
respinge.
Observaie: Statistic semnificativ nu nseamn i important din punct de vedere
bio-medical.

59
Biostatistica

Figura 4.2. Formularea deciziei unui test statistic n funcie de valoarea lui p

4.1.5. Erori statistice


Este foarte important s nu pierdem din vedere faptul c decizia unui test statistic
are caracter probabilistic. Deci faptul c n cazul mB = 137,0 cm i mF = 138,5 cm am
obinut p0,05 i am acceptat H0 afirmnd c diferenele sunt nesemnificative nu
nseamn c n realitate nu avem diferene de nlime ntre biei i fete la 10 ani ci
doar faptul c, din studiul efectuat de noi, probabilitatea ca fetele i bieii s aib
aceeai nlime este mai mare dect 5%, ceea ce nu ne permite s afirmm c
diferenele sunt semnificative i deci le-am putea atribui ntmplrii (variabilitii de
eantionare). S-ar putea ca n realitate diferenele s fie semnificative, dar din diverse
motive (fie pur ntmplare, fie loturi prea mici - din care cauz se obine o valoare
mare pentru eroarea standard a mediei i intervalele devin largi) aceste diferene n-au
fost sesizate ca atare. Exist deci riscul de a avea erori n decizia noastr.
Erorile statistice posibile se mpart n dou clase:
a) erori de tip I: cnd respingeam H0 dei este adevrat;
b) erori de tip II: cnd acceptm H0 dei este fals.
Probabilitatea erorii de tip I se noteaz cu (este de fapt chiar legat de pragul de
semnificaie), iar cea a erorii de tip II cu .
Situaiile posibile de decizie sunt sintetizate n tabelul 4.1.
Tabelul 4.1. Situaii posibile n decizia testelor statistice

SITUAIA REAL
H0 = Adevrat H0 = Fals
Acceptm H0 Corect Eroare tip II
DECIZIE p=1- p=
Respingem H0 Eroare tip I Corect
p= p=1-

60
Gheorghe Ioan Mihala, Diana Lungeanu

Observaie: Denumirea de erori de tip I i II este din ce n ce mai des nlocuit cu


cea de risc de (eroare de ) tip I sau II; valorile i arat doar probabilitatea de a
le comite.
S mai remarcm faptul c pentru a sesiza c am comis o eroare este necesar ca noi
s cunoatem situaia real, pe care o folosim ca referin pentru concluziile noastre.
Deci n simpla interpretare a rezultatului unui test nici nu ne putem da seama dac am
comis sau nu vreo eroare. Aceasta se va evidenia cnd vom confrunta rezultatele
noastre cu altele (considerate acceptate sau reale).

4.1.6. Caracteristicile testelor


a) Nivelul de ncredere
Definiie: Mrimea 1- se numete nivel de ncredere sau nivel de confiden
(uneori simplu ncrederea sau confidena ) testului; reprezint pragul de
semnificaie, sau probabilitatea erorii de tip I. Nivelul de ncredere reprezint
capacitatea de a accepta o ipotez cnd aceasta este adevrat.
b) Puterea testului
Definiie: Mrimea 1- se numete puterea testului, unde reprezint
probabilitatea erorii de tip II. Puterea testului reprezint capacitatea de a respinge o
ipotez cnd aceasta este fals.
Cele doua caracteristici, nivelul de ncredere i puterea testului se afl n relaie de
invers proporionalitate.

4.1.7. Clasificarea testelor

4.1.7.1. Teste parametrice i neparametrice


Stabilirea regiunii de acceptare este evident dependent de tipul de distribuie a
valorilor (n exemplele discutate pn acum s-a considerat ca ndeplinit distribuia
normal). ns exist situaii n care nu cunoatem tipul de distribuie, astfel nct nu
mai putem calcula att de simplu regiunea de acceptare. n funcie de acest aspect
putem mpri testele n dou categorii:
a. teste parametrice - n care distribuia este cunoscut (cel mai adesea se
consider doar distribuia normal, pentru care se pot aplica aceste teste).
b. teste neparametrice - n care se consider necunoscut distribuia; testele
neparametrice sunt mai generale; dac distribuia este n realitate o distribuie normal
testele neparametrice dau - n majoritatea cazurilor - rezultate asemntoare cu cele
parametrice; de aceea, n ultimul timp, ele se folosesc din ce n ce mai mult.

4.1.7.2. Tipuri de teste


n funcie de mrimile comparate putem distinge mai multe clase de teste statistice:
a) Teste de semnificaie - prin care se verific egalitatea unui parametru estimat
(medie, procent etc.) cu o valoare dat.

61
Biostatistica

b) Teste de omogenitate - prin care se compar doi parametri (medii, procente,


dispersii etc.).
Observaie: n unele manuale sunt considerate teste de omogenitate numai cele de
comparaie a parametrilor de dispersie (deviaii standard etc.), iar pentru compararea
a dou medii sau proporii se utilizeaz termenul de teste de semnificaie.
c) Teste de concordan - prin care se compar o distribuie experimental cu una
teoretic sau se compar dou distribuii experimentale.
d) Teste de independen - prin care se verific independena unor serii de valori
experimentale (n special pentru tabele de contingen).
e) Teste pentru corelaii - prin care se evalueaz semnificaia parametrilor estimai n
analiza corelaiei.
Observaie: Unii autori includ aceste teste n categoria testelor de semnificaie.
Din punct de vedere teoretic se pot compara statistic i alte elemente, specifice unui
anumit domeniu (ex.: n analiza semnalelor biologice) pe care le vom prezenta n
contextul corespunztor.

4.2. Teste uzuale


Vom prezenta n continuare pe scurt, cele mai uzuale teste, fiecare cu cte un
exemplu. Ordinea n care am ales succesiunea prezentrii acestor teste a pornit de la
scopul urmrit: parametrii care se compar i condiiile de aplicabilitate.
Pentru alte detalii privind aceste teste, precum i alte teste, urmrii prezentarea din
capitolul 4.3.

4.2.1. Teste pentru variabile numerice


Aceste situaii sunt printre cele mai frecvente ntlnite n practic. Distingem mai
multe posibiliti de clasificare, obinnd n cele din urm o palet destul de larg de
teste.
n primul rnd vom avea o mprire n dou clase mari, dup cum caracteristica
studiat poate fi considerat avnd distribuie normal (teste parametrice) sau nu (teste
neparametrice).
n al doilea rnd, vom trata separat situaiile n care seriile de valori sunt
nepereche, adic provin din determinri pe indivizi diferii (se mai numesc i serii
independente), sau sunt serii pereche, adic provin din determinri pe aceiai
indivizi, n condiii diferite.
n fine, mai putem realiza o clasificare pornind de la nsi obiectivul comparaiei.
Astfel, putem compara media unui eantion cu o valoare dat spunem c testm o
serie experimental cu o valoare teoretic. Dar, la fel de bine putem compara ntre ele
dou valori medii adic dou serii experimentale. Acest din urm caz poate fi
generalizat pentru compararea ntre ele a mai mult de dou serii experimentale, situaie
care necesit o abordare mai complex numit analiza varianei i va fi tratat ntr-un
subcapitol separat.

62
Gheorghe Ioan Mihala, Diana Lungeanu

S lum pe rnd aceste cazuri.

4.2.1.1. Compararea unei valori medii cu o valoare dat


n principiu, compararea unei valori medii cu o valoare dat se impune cnd dorim
s comparm rezultatele noastre experimentale cu valori teoretice (recunoscute n
literatura de specialitate), pentru care nu avem alte caracteristici statistice (deviaie
standard etc.). Metoda uzual a fost, de fapt, prezentat n capitolul anterior, reducndu-
se la ncadrarea sau nu a valorii teoretice (media populaiei) n intervalul din jurul
mediei experimentale, interval calculat pentru un anumit nivel de ncredere, dup toate
regulile prezentate la estimare, intervale exprimate cu Z sau t, n funcie de dimensiunea
eantionului.
Vom reveni asupra acestei testri n subcapitolul de fundamentare teoretic.

4.2.1.2. Compararea a dou valori medii obinute pe serii


independente i variabile distribuite normal
Testul recomandat este testul t nepereche (unpaired, unmatched, pooled).
Ipoteza de zero formul:
H0: 1 = 2 (4.1.b)

care se enun: ntre cele dou valori medii nu sunt diferene semnificative.
Este unul dintre cele mai frecvent utilizate teste. Este aplicabil n cazul seriilor
omogene, (adic deviaiile standard sau varianele s nu difere semnificativ ntre
ele). De obicei programele de calculator ofer dou variante de calcul: pentru variane
egale (dac le testm cu un test de omogenitate sau le observm c sunt foarte
apropiate) sau variane diferite situaie pe care o vom alege n caz contrar.
Din tabelul de rezultate vom urmri n primul rnd valoarea lui p dup care vom
interpreta concluzia diferene semnificative sau nu. Exist programe de calculator care
afieaz dou valori pentru p: una pentru cazul ipotezei alternative bilaterale (two-
tailed) i una pentru cea unilateral (one-tailed). Valoarea uzual pe care o considerm
este cea pentru distribuia bilateral.
Un exemplu tipic este similar celui prezentat n Exemplul 4.1, n care doream s
comparm nlimea medie a unui grup de biei cu cea a unui grup de fete. Rezultatele,
aa cum sunt afiate de ctre pachetul Microsoft Excel este prezentat n tabelul 4.2.a.
Observm c valoarea lui p este 0,272, adic peste 0,05 i vom interpreta rezultatul
astfel: diferenele observate ntre nlimile bieilor i fetelor sun nesemnificative,
avnd o probabilitate de 27% (peste 5%) s apar din ntmplare, deci acceptm ipoteza
de zero.

63
Biostatistica

Tabelul 4.2.a. Aplicarea testului t nepereche

4.2.1.3. Compararea a dou valori medii obinute pe serii perechi


Testul recomandat este testul t pereche (matched, paired).
Ipoteza de zero se formuleaz la fel ca n cazul seriilor nepereche.
Este de asemenea unul dintre cele mai frecvent utilizate teste. Condiia de
omogenitate nu se mai impune, ea fiind ndeplinit.
Un exemplu tipic prezentm mai jos.
Exemplul 4.2. Studiem efectul unui tratament asupra tensiunii arteriale. Pentru
aceasta lum un lot de 36 bolnavi hipertensivi crora le msurm tensiunea arterial
nainte de tratament, valori pe care le vom trece ntr-o coloan, iar valorile dup
tratament ntr-o alt coloan, aranjnd pacienii n aceeai ordine. Deci pentru fiecare
pacient avem dou valori pereche: una nainte de tratament i una dup tratament.
Rezultatele, aa cum sunt afiate de ctre pachetul Microsoft Excel sunt prezentate n
tabelul 4.2.b. Observm c valoarea lui p este 0,0031, adic sub 0,05, deci vom putea
afirma c diferenele sunt semnificative, chiar foarte semnificative (p este mai mic i
dect 0,01), adic probabilitatea ca astfel de scderi s fi aprut din ntmplare este doar
0,31% (sub 5% ct am luat noi pragul de semnificaie) i vom respinge ipoteza de zero.
Tabelul 4.2.b. Aplicarea testului t pereche

64
Gheorghe Ioan Mihala, Diana Lungeanu

4.2.2. Teste pentru variabile ordinale (rang)


Testul recomandat pentru variabile ordinale este testul Wilcoxon.
Ca i la testul t, avem dou versiuni:
pentru serii nepereche (independente) Wilcoxon rank sum
pentru serii pereche - Wilcoxon signed rank (sau sign-rank)
Deoarece n cazul variabilelor ordinale indicatorul tendinei centrale cel mai des
folosit este mediana, vom mai spune c testul Wilcoxon permite compararea a dou
mediane.
Ipoteza de zero:
Ho: Me1 = Me2 (4.2)

Testul Wilcoxon este un test neparametric, fiind aplicabil i pentru variabile


numerice care nu au distribuie normal. Pentru aceste aplicaii mai poart numele de
testul U sau testul Mann-Whitney" (sunt cteva mici deosebiri).
n 4.3.2. vor fi prezentate dou exemple mpreun cu fundamentarea teoretic i
calculele aferente.

4.2.3. Teste pentru variabile nominale


n cazul variabilelor nominale (calitative), ca indicatori ai tendinei centrale se
folosesc proporiile claselor, pentru fiecare clas fiind calculat i o deviaie standard a
proporiei.
Dac avem o mprire n numai dou clase, distribuia se numete binomial, iar
dac avem mai multe clase avem o distribuie multinomial.
Exist mai multe teste care se pot aplica n cazul variabilelor nominale. Ne vom
referi aici doar la cazul general - compararea mai multor proporii (procente).

4.2.3.1. Compararea proporiilor


Testul recomandat testul 2 hi ptrat (engl chi-square) al lui Pearson.
n forma sa general, testul 2 este un test de concordan, adic este dedicat
comparrii unei distribuii experimentale cu o distribuie teoretic. Prin distribuie
experimental nelegem aici valorile observate (frecvenele absolute) n fiecare clas;
dac vom folosi indicele i pentru a desemna una dintre cele k clase, atunci vom nota
aceste valori observate cu Oi, totalul lor fiind N. Prin distribuie teoretic vom nelege
proporiile acestor clase, care pot fi proporii egale (distribuie uniform) sau inegale.
Vom putea astfel s stabilim, pentru fiecare clas, nite valori teoretice, numite i valori
ateptate (engl. expected values), notate Ei, al cror total trebuie s fie tot N.
Ipoteza de zero se va scrie:
H0 :Oi = Ei pentru toate clasele i. (4.3)

n cazul n care dorim s comparm dou distribuii experimentale, pentru o serie


vom introduce valori Oi, iar pentru cealalt valorile Ei.

65
Biostatistica

Exemplul 4.3. Revenim la distribuia grupelor sanguine prezentat n exemplul 2.2


din 2.6 ce coninea datele dintr-un studiu pe 400 persoane. n cazul n care am
presupune o distribuie uniform a grupelor sanguine, atunci datele din tabelul 2.4 se
vor completa cu nc o linie, cea a valorilor ateptate (E i). Efectund prelucrarea datelor
n Excel obinem rezultatele din tabelul 4.3.
Tabelul 4.3. Aplicarea testului 2.

Tabelul are dou pri: studiul 1 (pe 400 persoane) i studiul 2 (pe 50 persoane),
avnd aceleai proporii pentru grupele sanguine. Observm c, n primul caz,
diferenele ntre proporiile gsite experimental i cele teoretice (presupuse n cadrul
ipotezei distribuiei uniforme) sunt extrem de semnificative, obinnd pentru p o valoare
extrem de mic, de ordinul 10-7. n schimb, chiar dac am pstrat aceleai proporii, n al
doilea studiu diferenele apar ca nesemnificative (p = 0,23 > 0,05). Vedem, cu aceast
ocazie, importana dimensiunii eantionului pentru obinerea unor rezultate relevante.
ntradevr, variaiile datorate ntmplrii afecteaz mult interpretarea rezultatelor n
cazul loturilor mici!

4.2.4. Teste pentru indicatori de dispersie


O categorie aparte de teste o constituie testele pentru indicatori de dispersie.
Pentru compararea a dou valori medii se folosea diferena ntre ele, ns n cazul
dispersiilor se utilizeaz raportul lor. Cnd sunt cunoscute dispersiile (varianele) celor
dou populaii pe care le comparm vom utiliza raportul lor 12 / 22 , alegnd
numerotarea astfel nct variana primei serii s fie mai mare, adic raportul s fie
supraunitar. Cnd nu se cunosc varianele pentru populaii, se vor nlocui cu valorile
dispersiilor (deviaiilor standard) obinute pe cele dou eantioane.
Testul recomandat pentru compararea a dou dispersii este testul F (testul Fisher-
Snedecor, sau raportul F, sau testul exact al lui Fisher).
Ipoteza de zero:
1 = 2 (4.4)

Raportul F este definit prin relaia:


Fcalc = s12 / s22 (4.5)

Cnd varianele sunt apropiate, raportul F este aproape de 1. Pentru a aprecia ct de


aproape sau departe de 1 suntem, valoarea lui Fcalc se compar cu valorile din tabele Ftab.

66
Gheorghe Ioan Mihala, Diana Lungeanu

Valoarea din tabele depinde att de nivelul de ncredere ales ct i de volumele


(dimensiunile) celor dou eantioane.
Dac obinem Fcalc > Ftab atunci respingem ipoteza de zero i vom spune c
diferenele ntre dispersiile celor dou serii difer semnificativ (se mai folosete
expresia seriile sunt neomogene).
Exemplul 4.4. Relum datele din exemplul 4.1, prezentate i n tabelul 4.2.a. De
aceast dat vom compara ns dispersiile. n tabelul 4.4. sunt trecute rezultatele aa
cum sunt afiate de pachetul Microsoft Excel. Am luat cu indice 1 seria nlimilor
fetelor i cu indice 2 cea a bieilor. (Obs.: n Excel se pot lua i invers, valoarea lui p
va fi aceeai!). Din tabel observm c raportul F calculat este 1,53, fiind mai mic dect
cel din tabele (aici apare pe ultima linie, cu valoarea 1,98), deci diferenele vor fi
considerate nesemnificative; n tabel apare i valoarea lui p = 0,151, vizibil mai mare
dect 0,05.
Tabelul 4.4. Aplicarea testului F pentru dispersii

Raportul F joac un rol important att n interpretarea rezultatelor din testele


ANOVA ct i a celor din analiza corelaiei.

4.2.5. Analiza varianei (ANOVA)


ntr-o serie de situaii reale avem nevoie s comparm ntre ele mai mult de dou
serii. Am putea, desigur, s le lum dou cte dou i s le comparm cu testul t, ns
exist posibilitatea de a aplica un test care s ne furnizeze o imagine de ansamblu
asupra ntregului set de loturi. Pentru aplicarea acestor teste se efectueaz o serie de
calcule prin care se evideniaz separat variaiile din interiorul fiecrui eantion i
variaiile ntre ele, comparndu-le cu variaiile totale (calculate pe totalul indivizilor din
toate loturile). Se pot astfel analiza aceste variane, motiv pentru care ansamblul acestor
metode poart numele de Analiza Varianei sau ANOVA (ANalysis Of VAriance).
Testele din clasa ANOVA sunt teste neparametrice i pot fi aplicate pentru
variabile cu orice fel de distribuie, care pot fi att variabile numerice ct i variabile
ordinale.
Trebuie precizat c, n cazul aplicrii testului t separat pentru mai multe perechi de
serii, crete att probabilitatea erorii de tip I ct i cea a erorii de tip II, cci

67
Biostatistica

probabilitile de eroare apar pentru fiecare pereche de serii, astfel nct per ansamblu
ele se multiplic. De aceea este preferat un test ANOVA, care testeaz ntregul set.
Testele ANOVA vor avea i ele mai multe variante, dup cum seriile sunt
independente (formate din indivizi diferii) sau dependente. Vom avea chiar mai multe
situaii, pe care le vom analiza n detaliu n partea teoretic a cursului.

4.2.5.1. Compararea a n serii independente


Testul recomandat: ANOVA unifactorial; se mai folosete denumirea
Completely Random Design (CRD), sau testul Kruskal Wallis.
Considernd c avem k serii diferite, ipoteza de zero se scrie:
H0: 1 = 2 = 3 = ... = k (4.6)

i se enun astfel: Nu sunt diferene semnificative ntre mediile celor k serii. Ipoteza
alternativ presupune c Exist cel puin o serie (valoare medie) care difer
semnificativ fa de celelalte.
Se obinuiete ca seriile s se mai numeasc tratamente.
n cazul n care ipoteza de zero se respinge, vom accepta ipoteza alternativ, dar,
din simpla valoare a lui p, care are semnificaie global, nu putem ti care dintre serii
sunt diferite unele fa de altele. De aceea, n cazul respingerii ipotezei de zero,
programul trebuie s continue prin compararea seriilor (tratamentelor) dou cte dou,
n toate variantele posibile. Acest procedeu se numete rafinare i poate fi realizat
prin diferii algoritmi; unul din cele mai des utilizai algoritmi se numete rafinare
Bonferoni, care realizeaz de fapt un test t nepereche ntre toate tratamentele. Putem,
din valoarea lui p afiat pentru fiecare pereche, s distingem care serii difer
semnificativ ntre ele.
Pentru aplicarea testelor statistice n general, ANOVA n special, este de mare folos
o bun organizare a datelor n tabele. Vom urmri acest lucru n exemplul urmtor.
Exemplul 4.5. Urmrim efectul a trei tratamente, A, B i C asupra tensiunii
diastolice a unui grup de 15 pacieni, care vor fi alocai la ntmplare celor trei grupe
(randomizai). Rezultatele individuale sunt trecute n tabelul 4.5.a stnga, aa cum apar
n Excel.
Aplicnd testul ANOVA unifactorial obinem valorile din tabelul 4.5.a dreapta jos.
Observm c diferenele sunt semnificative, avnd p = 0,0274, ( sub 0,05). Aa cum am
accentuat mai sus, concluzia va fi c cel puin o serie difer semnificativ de celelalte.
Nu avem ns nici o indicaie privind care este seria care difer de celelalte (de
fapt pot fi diferene semnificative ntre mai multe perechi de serii). Pentru a le
identifica se aplic teste post-hoc (unul dintre cele mai utilizate este testul
Bonferonni).

68
Gheorghe Ioan Mihala, Diana Lungeanu

Tabelul 4.5.a. Rezultatele testului ANOVA

4.2.5.2. Compararea a n serii dependente


Testul recomandat: ANOVA bifactorial; se mai folosete denumirea Randomized
Complete Block (RCB) Design, sau testul Friedman. Ipoteza de zero se scrie i se
enun la fel ca i pentru ANOVA unifactorial (4.6). Deosebirea esenial ntre
ANOVA bifactorial i cea unifactorial const n faptul c, n analiza bifactorial,
pentru fiecare serie (tratament) se face o mprire a irului de valori n blocuri relativ
omogene. Aceast mprire se face dup o anumit caracteristic (variabil), de
exemplu grupe de vrst, grupe sanguine etc. Aceast caracteristic se va regsi n
fiecare din serii (tratamente). Putem considera fiecare bloc ca fiind reprezentat de un
individ. n acest caz vom regsi chiar cazul cutat a avea acelai lot n mai multe
condiii diferite, deci seriile (tratamentele) vor fi serii dependente.
S subliniem aici c nu este obligatoriu ca blocurile s fie reprezentate fiecare de
cte un individ, putnd alege orice alt criteriu. Rezult c analiza bifactorial este mai
general, cu aplicabilitate mai larg dect strict compararea a n serii dependente.
n cazul analizei bifactoriale aplicat pentru n serii dependente apare nc un
element nou: ordinea n care se aplic tratamentele. ntr-adevr, cnd avem mai mult de
dou tratamente, este natural s ne gndim dac nu cumva ordinea n care au fost
aplicate diferitele tratamente ar fi putut influena rezultatul. De aceea, lotul se mparte n
mai multe subloturi, avnd pentru fiecare o alt ordine n care sunt aplicate
tratamentele. Se folosete adesea o schem simplificat, care asigur mprirea ntr-un
numr minim de subloturi astfel nct s se asigure toate succesiunile posibile a dou
tratamente. Aceast schem se numete ptratul latin. Un exemplu de ptrat latin
pentru cazul a 4 tratamente (A; B; C i D) este prezentat n tabelul 4.5.c.
Tabelul 4.5.c. Ptratul latin pentru 4 tratamente

A B C D
C D A B
D C B A
B A D C
Un exemplu de aplicare a analizei bifactoriale va fi prezentat n partea de
fundamentare teoretic.

69
Biostatistica

4.3. Fundamentare teoretic


Nu relum aici elementele prezentate la nceputul capitolului privind diferenele
semnificative i nesemnificative, ipotezele statistice etc. ci vom dezvolta cteva idei
care nu au fost prezentate acolo sau au fost tratate sumar.

4.3.1. Erori statistice


n 4.1.4 am definit i clasificat erorile statistice i am menionat c ntre nivelul de
ncredere al testului i puterea testului exist o relaie de invers proporionalitate. S ne
oprim puin asupra acestei afirmaii.
ntr-adevr, dac am dori s cretem nivelul de ncredere al testului, 1 - , ar trebui
micorat pragul , de exemplu de la 5% la 1%, n acest caz intervalul n care vom
ncadra media unui eantion extras din aceeai populaie va fi mai larg (Z0,99 2,33
fa de Z0,95 1,96) deci suntem mai ncreztori c, dac este adevrat c cele dou
medii nu sunt semnificativ diferite (chiar dac din ntmplare a aprut o diferen puin
mai mare), acesta nu va afecta decizia. Deci scade probabilitatea erorii de tip I.
n schimb, dac n realitate diferenele sunt statistic semnificative, aceast lrgire a
intervalului ne poate conduce la concluzia fals c diferenele sunt ne-semnificative, n
timp ce ele n realitate sunt! Deci crete probabilitatea erorii de tip II.

Figura 4.3. Ilustrarea caracteristicilor unui test. n acest exemplu, valorile medii pentru populaii sunt
B =137 cm, F =139,5 cm. Lund referin lotul de biei, pentru = 5% intervalul de acceptare este
(135,139). Fa de limita 139 avem probabilitatea de cca 30% de a gsi X F 139 dar i p 2,5% pentru
a gsi X B 139
Relaia ntre nivelul de ncredere i puterea testului poate fi ilustrat ca n figura
4.3; construit pe baza datelor din exemplul folosit anterior.

70
Gheorghe Ioan Mihala, Diana Lungeanu

4.3.2. Regiunea critic


n 4.1.3, la punctul E ne-am referit la valorile critice care definesc un interval
numit regiune critic. Nu am insistat asupra modului de stabilire a acestei regiuni
avnd n vedere faptul c numeroase programe de calculator pentru aplicaii statistice
realizeaz o prelucrare complet, furniznd inclusiv valoarea lui p probabilitatea ca
diferenele observate s apar din ntmplare, iar pe baza acestui p puteam s
interpretm foarte simplu rezultatele. Exist ns destule situaii n care nu apare direct
valoarea lui p, fiind necesari mai muli pai pentru aplicarea testului. n aceste cazuri
primul pas concret este stabilirea regiunii critice.
S lum un caz simplu comparm o valoare medie m (determinat experimental
pe un eantion mare extras dintr-o populaie cu media ) cu o valoare teoretic 0 (de
ex.: media unei populaii similare prezentat n literatur).
Ipoteza de zero: = 0
Dar nu este cunoscut ci doar localizat, cu un anumit nivel de ncredere (exprimat
prin valoarea lui Z/2) ntr-un interval dat de (3.2) n jurul lui m, deci verificm dac:
0 m Z/2 Sx. (4.7.a)

Deci, a verifica ipoteza de zero definit mai sus este echivalent cu a verifica dac
diferena m - 0 se ncadreaz n limitele Z/2 Sx., adic dac
| m - 0 | Z/2 Sx. (4.7.b)

Am luat diferena n valoare absolut, exprimat prin modul. Dac inegalitatea este
adevrat, atunci acceptm ipoteza de zero, diferenele fiind mici, nesemnificative.
Putem normaliza relaia mprind cu Sx:
(m - 0 ) / Sx Z/2 (4.7.c)

Membrul din stnga, mrimea Ycalc = (m - 0 ) / Sx se numete statistic i se va


calcula dup nite relaii asemntoare cu (4.7.c) pentru fiecare tip de test.
n funcie de mrimile analizate, aceste statistici prezint diferite distribuii, cele
mai uzuale pentru testele statistice fiind:
distribuia normal standard M(0,1), notat i Z (Gauss)
distribuia t (Student)
distribuia 2 (Pearson)
distribuia F (Fisher Snedecor).
Membrul din dreapta este variabila normalizat ale crei valori vor fi valori de
referin. Crile de statistic au de obicei la sfrit nite anexe coninnd tabele cu
valorile funciilor corespunztoare pentru toate cele patru distribuii enumerate mai sus,
n funcie de nivelul de ncredere (deci depinde de ) i de numrul gradelor de libertate
(). Pachetele statistice uzuale permit de asemenea calculul acestor valori. S le notm
la modul general cu Ytab. Interpretarea testelor se face astfel:
dac avem -Ytab < Ycalc < +Ytab., atunci acceptm ipoteza de zero, iar
dac statistica | Ycalc | > Ytab., atunci respingem ipoteza de zero. (4.8)
Relaia (4.7.c) este punctul de plecare al unor generalizri pentru definirea
regiunilor critice.
71
Biostatistica

S abordm din nou testele uzuale, prin aceast prism.

4.3.3. Teste pentru variabile numerice

4.3.3.1. Compararea unei valori medii cu o valoare dat


Este chiar situaia care am luat-o ca exemplu mai sus pentru deducerea relaiilor
(4.7a, b i c). Testul care se recomand este:
testul z pentru loturi mari (n > 30)
testul t pentru loturi mici.
Cel mai adesea apelm la acest test dac dorim s comparm rezultatele obinute pe
un eantion cu date din literatur n care se raporteaz o medie a populaiei. Vom enuna
ipoteza de zero c diferenele ar fi nesemnificative.
Statistica Ycalc = | m - 0 | / Sx are o distribuie normal.
Observaie: Denumirea de testul Z nu este folosit prea des deoarece distribuia
normal Z este un caz limit al distribuiei t, cnd numrul gradelor de libertate este
foarte mare. Denumirea uzual pentru testul aplicat n aceste condiii va fi testul t
pentru o serie.
Dac m (eroarea standard a populaiei) este cunoscut, se folosete ea n calculul
intervalului de acceptare; dac nu este cunoscut, se folosete estimatorul ei, S X .

Exemplul 4.6.a. ntr-un raport se susine c nlimea medie a copiilor de 10 ani


este 138 cm. ntr-un studiu efectuat de noi pe un lot de 400 copii am obinut media m =
137 cm i deviaia standard s = 5 cm. Acceptm afirmaia din raport?
Ipoteza de zero: H0 : = 0 , m = 137, 0 = 138 cm
Ipoteza alternativ bilateral: Ha : 0 , m = 137, 0 = 138 cm
Alegem pragul de semnificaie = 5%; atunci Z / 2 = 1,96 2
Pentru lotul nostru Sx = 5 / 400 = 0,25 cm
Intervalul de acceptare este:
n valori absolute: (137 2 . 0,25) adic (137 0,5) sau (136,5 137,5); valoarea
X0 = 138 se gsete n afara acestui interval, deci respingem H0 i spunem c
diferenele observate (ntre media experimental 137 i valoarea ipotetic 138) sunt
semnificative.
n valori absolute ale diferenelor:
D X 0 X 138 - 137 = 1 cm (4.9.a)

intervalul fiind (-1,96 0,25 ; +1,96 0,25) adic (-0,49, +0,49)


Valoarea lui D de 1,7 este n afara acestui interval, deci respingem H0.
n valori relative:

Ycalc = d D / SX = 1 / 0,25 = 4 (4.9.b)

intervalul fiind (-Z, +Z), adic (-1,96; +1,96)

72
Gheorghe Ioan Mihala, Diana Lungeanu

Valoarea 4 fiind n afara acestui interval, respingem H0.


Exemplul 4.6.b. Relum acelai exemplu, dar considerm c rezultatele au fost
obinute pe un lot de 25 copii.
Pentru lotul nostru Sx = 5 / 25 = 1 cm
Intervalul de acceptare este:
n valori relative:

Ycalc = d D / SX = 1 / 1 = 1 (4.9.c)

intervalul fiind (-Z, +Z), adic (-1,96; +1,96)


Valoarea 1 fiind n interiorul acestui interval, acceptm H0 .
Cu aceast ocazie observm i c, dei ipoteza de zero ar fi fals (lucru demonstrat
pe un lot mare), lucrnd pe un lot prea mic nu am putut localiza suficient de ngust
intervalul de estimare a mediei i astfel nu am putut respinge ipoteza de zero. Prin
acceptarea ei am comis o eroare statistic de tip II (acest tip de eroare este destul de
frecvent dac loturile sunt prea mici).

4.3.3.2. Compararea a dou valori medii obinute pe dou loturi


independente (formate din indivizi diferii)
Ipoteza de zero: H 0 : X 1 X 2

Condiii : S1 = S2 ; se poate N 1 N 2
Grade de libertate: = N1 + N2 - 2
Test aplicat:
a) Parametric: testul t nepereche (testul Student)
b) Neparametric: testul Mann - Whitney
n continuare prezentm dou variante de raionament:
Exemplul 4.7. Un studiu susine c la sportivi capacitatea vital este superioar fa
de persoanele neantrenate. Astfel, se analizeaz capacitatea vital a unui grup de
sportivi comparativ cu un grup de control, obinnd:
Lot sportivi: N1 = 36, X 1 = 5,39 l , S1 0,60 l
Lot martor: N 2 50, X 2 = 4,83 l, S2 = 0,70 l
Ipoteza de zero: H0 : X 1 = X 2
Ipoteza alternativ unilateral dreapta: H a : X 1 > X 2
Alegem pragul de semnificaie: = 5%.
Numrul gradelor de libertate: = 36 + 50 - 2 = 84.
Din tabelul cu valorile distribuiei t, observm c pentru valori ntre 60 si 120 grade
de libertate, coeficientul de ncredere va fi acelai. Dac am fi aplicat un test bilateral
(two-tailed), am fi luat o valoare care s corespund distribuiei celor 5% simetric n

73
Biostatistica

ambele pri, cu alte cuvinte luam t 0,975;60 2.00 . Dar, n cazul unui test unilateral,
toat poriunea de 5% rmne distribuit pe o singur parte a curbei, deci vom lua t0,95;60
= 1.67. Fiind o valoare din tabel, o vom nota n continuare cu indicele t deci t t =
1.67.
Calculm eroarea standard pentru diferene:

S12 S 22
Sd (4.10.a)
n1 n 2

0.36 0.49
Sd 0.02 0,14
36 50

Deci vom accepta diferenele pentru care:

d (0,tt Sd ) , adic: (4.10.b)

d 1.67 * 0.14 sau d 0.2338


Diferena obinut este:

d X 1 X 2 = 0.56 (4.10.c)

Pentru interpretare v prezentm dou variante.


Varianta I
Vom ncerca s vedem cum este situat aceast diferen fa de intervalele
calculate; observm c este situat n afara regiunii de acceptare i noi vom respinge
H0, considernd adevrata ipotez alternativ i vom spune c diferenele sunt
semnificative.
Puteam s calculm i statistica
Ycalc = d / Sd = 0.56 / 0.14 = 4 (4.10.d)

i s comparm cu valoarea din tabel:

Ycalc (=4) > t t = (1.67) (4.10.e)

ajungnd la aceeai concluzie de respingere a ipotezei de zero.


Pentru a vedea eventual i ct de semnificative sunt aceste diferene, putem
calcula regiunile de acceptare pentru:
foarte semnificative: tt t0,99:60 2,39; trebuie ca

d = 0,56 > 2,39 . 0,14 = 0.3346


extrem de semnificative: tt t0,999:60 3,37 , cu

d = 0,56 > 3.37 . 0,14 = 0.4718


Observm c diferena d = 0,56 este mai mare dect ambele valori limit
probabilitile de 1% ct i 0,1% deci vom considera c diferenele sunt extrem de

74
Gheorghe Ioan Mihala, Diana Lungeanu

semnificative, probabilitatea ca din ntmplare s obinem din aceeai populaie dou


loturi att de diferite fiind sub 0,1%.
Varianta II
Raionamentul expus mai sus este uor de neles, fiind calculate intervalele de
acceptare pentru 3 probabiliti: 5%, 1% i 0,1% i urmrind ncadrarea diferenei
reale. n pachetele software de prelucrri statistice se procedeaz invers: se calculeaz
direct probabilitatea de a obine asemenea diferene din ntmplare.
Se calculeaz mai nti valoarea lui t care corespunde diferenei reale:

d X X2
tc 1 (4.10.f)
Sd Sd

adic:
0,56
tc 4.00
0,14
Din tabelul valorilor distribuiei t, pentru 60 grade libertate (urmrim linia lui 60),
vedem c tc t0,999; 60 ; programele statistice ne dau valoarea pentru care:

t c t p, (4.10.g)

i afieaz valoarea lui p, pe care o vom interpreta conform fig.4.2. n exemplul nostru
obinem p = 0,00087, deci avnd p0,001 vom spune c diferenele sunt extrem de
semnificative.
Testul Mann-Whitney este echivalentul neparametric al testului t nepereche. Ca
raionament este similar cu testul Wilcoxon i va fi exemplificat acolo. Pentru loturi mai
mari, rezultatul obinut este acelai ca n cazul aplicrii testului t. Pachetele software de
prelucrri statistice dau valoarea lui p (adic probabilitatea ca diferenele observate n
eantionul de valori s fi aprut din ntmplare, n condiiile n care indivizii observai
ar face parte dintr-o aceeai populaie statistic). Interpretarea o facem tot conform fig.
4.2.

4.3.3.3. Se compar dou valori medii, din dou serii obinute pe


aceiai indivizi, in dou condiii diferite
Ipoteza zero: H 0 : X1 X 2

Condiii: valori perechi - Xi1 , Xi2 reprezint valorile obinute pe individul i n


condiiile 1 respectiv 2.
ntotdeauna: N1 = N2 = N
Grade de libertate: = N - 1
Test aplicat: testul t pereche
Observaii: testul t pereche este de fapt un test t pentru o serie aplicat
diferenelor; acest lucru este vizibil dac sistematizm datele conform tabelului 4.7.

75
Biostatistica

Tabelul 4.7. Prezentarea datelor pentru testul t pereche.

Individ Valori experimentale Diferene


Condiia 1 Condiia 2 Di = X2i - X1i
1 X11 ...... X 12 D1
2 X 21 X 22 D2
...
i X i1 Xi2 Di
...
N XN1 XN2 DN
Medii X1 X2 D

Valorile di pot fi pozitive sau negative; dac ntre cele dou serii nu sunt diferene
vom avea D = 0. Ipoteza se zero de mai poate deci scrie:

H0 : = 0

Exemplul 4.8: Dorim s studiem efectul unui medicament asupra frecvenei


cardiace. Pe un lot de N = 9 indivizi obinem valorile din tabelul 4.8.
Tabelul 4.8. Frecvena cardiac nainte i dup tratament.

Subiect FC nainte FC dup Diferena


1 63 73 +10
2 67 67 0
3 79 76 -3
4 67 75 8
5 68 70 2
6 72 71 -1
7 73 80 7
8 69 76 7
9 70 75 5
Efectund calculele, obinem:
D 4 , S = 4,5 , Sx 1,5
Pentru = 8 i = 5%, tt 2,3 deci regiunea de acceptare va fi:
(- t t S d ,t t S d ) = (-2,3*1,5 + 2,3*1,5) = (-3,45 + 3,45)

deci valoarea obinut D se gsete n afara intervalului de acceptare i vom spune c


diferenele sunt semnificative, probabilitatea ca din ntmplare s obinem diferenele
din tabele fiind sub 5%.

4.3.4. Teste pentru variabile ordinale


Se compar dou mediane sau dou serii ordinale.
Ipoteza de zero se va referi la median ca indicator al tendinei centrale.
Test aplicat: testul Wilcoxon - aplicat n dou versiuni:

76
Gheorghe Ioan Mihala, Diana Lungeanu

pentru serii independente : testul suma rangurilor (rank-sum test)


pentru serii perechi: testul semnul rangurilor (signed-rank test).

4.3.4.1. Testul suma rangurilor


Condiii: variabile ordinale (ranguri) sau variabile numerice aduse sub form
de ranguri (n aceast situaie el este identic cu testul neparametric Mann -
Whitney);
Grade de libertate: valorile din tabel sunt dependente de ambele dimensiuni
N 1 i N 2 ; de aceea se accept s se ia convenional cea mai mic serie ca
fiind seria 1 ( N1 N 2 ).

Fie dou serii de valori ale unei variabile ordinale, obinut pe dou loturi 1 i 2 pe
care le ordonm astfel:
seria 1, cu N1 indivizi: X1 X2 . . . Xi . . . XN1
seria 2, cu N2 indivizi: Y1 Y2 . . . Yj . . . YN2
Seriile 1 i 2 le lum astfel nct N1 N 2 .

Se alctuiete lotul compus din amestecarea celor dou loturi, avnd N = N1 + N2


indivizi i se ordoneaz nct: Z1 Z2 ..... Zk .....Z N , unde Z este o valoare X sau
Y. Acestui ir i se asociaz un ir de ranguri rk cu valori ntre 1 i N; dac dou sau mai
multe valori succesive n irul Z sunt egale (de exemplu Z2 Z3 Z4 ), acestor ranguri
li se asociaz o valoare intermediar calculat ca medie ntre rangul maxim i cel minim
din acel grup de ranguri (n exemplul nostru r2 r3 r4 3. ) S notm deci rangurile
cu: r1 r2 .... rk .... rN i notm suma rangurilor ce corespund valorilor din primul
lot cu R1 , respectiv din al doilea lot cu R2 . Pentru aplicarea testului se calculeaz dou
statistici:

U1 N1 N 2 N1 ( N1 1) / 2 R1
(4.11.a)

U 2 N1N2 N2 ( N2 1) / 2 R2 (4.11.b)

i se ia U = min ( U1 ,U 2 ) . (4.11.c)

Dac N1 i N2 sunt mari ( 10), statistica U are o distribuie aproximativ normal


cu media:

U N1 N2 / 2 (4.12.a)

i deviaia standard:

u N1N 2 ( N1 N 2 1) / 12
(4.12.b)

77
Biostatistica

Pentru eantioane mai mici s-au realizat tabele speciale pentru testul Wilcoxon
rank-sum ce conin probabilitatea de a obine valori U n anumite intervale.
Cel mai des, din tabele se apreciaz intervalul ce cuprinde regiunea de acceptare a
ipotezei de zero cu o anumit probabilitate, adic regiunea de ncadrare a valorii R1 care
are o repartiie cu media:

R1 N1 ( N1 N 2 1) / 2 (4.12.c)

i deviaia standard

SU N1 N 2 ( N1 N 2 1) / 12 (4.12.d)

Pentru un test bilateral cu = 5%, se caut n tabele valorile pentru R1 (0,025) i


R2 (0,975).
Pachetele software de prelucrri statistice ne dau direct valoarea probabilitii p
interpretabil conform fig. 4.2.
Exemplu 4.9: Se analizeaz aprecierea subiectiv a gradului de adaptare la efort al
unui lot de sportivi comparativ cu un lot martor. Pentru aprecierea adaptrii se folosete
scara Borg a senzaiei subiective de efort, care asociaz valori de la 0 la 20, aproximativ
dup tabelul 4.9.a.
Tabelul 4.9.a: Scara Borg a senzaiei subiective la efort (sumar)

Valoare Aprecierea efortului


0 Extrem de uor
5 Relativ uor
10 Mediu
15 Destul de greu
20 Epuizant
Ambele loturi sunt supuse la un efort standard: 2 minute, 45 W efort triunghiular,
pe bicicleta ergometric. Un model de rezultate este prezentat n tabelul 4.9.b.
Tabelul 4.9.b. Senzaia subiectiv la efort standard pe dou loturi: lot 1 - sportivi (N1=6), lot 2 - martor (N2
=8); valorile sunt ordonate cresctor pentru fiecare lot.

Valori Ranguri
Sportivi Martor Sportivi Martor
2 6 1 5
5 6 2,5 5
5 9 2,5 8
6 11 5 10,5
8 11 7 10,5
10 12 9 12
14 13
15 14
R1 =27 R2 =78

78
Gheorghe Ioan Mihala, Diana Lungeanu

U1 = 6 8 + 6 7 / 2 - 27 = 42
U2 = 6 8 + 8 9 / 2 - 78 = 6
U = 6, u 24 , 2u 60

irul global 2 5 5 6 6 6 8 9 10 11 11 12 14 15
Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Ranguri 1 2.5 2.5 5 5 5 7 8 9 10.5 10.5 12 13 14
Lotul 1 1 1 (1) (2) (2) 1 2 1 2 2 2 2 2

Deoarece n cele dou loturi sunt prea puine valori pentru ca statistica U calculat
s urmeze o distribuie normal, vom determina nivelul de semnificaie utiliznd
tabelele speciale pentru eantioane mici.
Din tabelul pentru testul U se obine, pentru un test bilateral, cu prag de
semnificaie
=5% (/2 = 0,025 i 1-/2 = 0,975), intervalul de acceptare pentru R1: (29,61);
observm c valoarea noastr R1 = 27 este n afara intervalului de acceptare a ipotezei
zero, deci o respingem i vom considera c sportivii apreciaz acelai efort ca fiind mai
uor.

4.3.4.2. Testul semnul rangurilor


Condiii: serii perechi de variabile ordinale (ranguri) sau variabile numerice aduse
sub form de ranguri (echivalentul neparametric pentru testul t pereche).
Grade de libertate: N1 N 2 N ;

Fie dou serii de valori ale unei variabile ordinale, obinute pe un lot, de volum N,
n dou condiii, 1 i 2. Pentru fiecare individ i obinem diferena Di X 2i X 1i , care
poate fi pozitiv sau negativ. Se ignor diferenele nule.
ntr-o prim faz neglijm semnele i ordonm cresctor valorile absolute ale
diferenelor; apoi le acordm ranguri, ca n exemplul anterior. Reintroducem acum
pentru ranguri semnele pe care le-am avut la diferenele Di i calculm separat dou
totaluri: R (+) este suma rangurilor pozitive i R(-) este suma rangurilor negative.
Calculm acum statistica testului:
R=R(+) (4.13.a)

N N 1 1
T R N N 12 N 1 / 24 (4.13.b)
4 2

N reprezint numrul diferenelor Di care nu sunt zero.


Pentru eantioane mari (N 16) statistica T are o repartiie normal, cu media:

T N ( N 1) / 4 (4.13.c)

79
Biostatistica

i deviaia standard

T N ( N 1)( 2 N 1) / 24 (4.13.d)

Se caut din tabel valoarea T0.025;10 = Ttab pentru a accepta H0


Pentru situaii in care statistica T nu urmeaz o distribuie normala (numrul
diferenelor Di care nu sunt zero N < 16), exist tabele speciale care prezint pentru
testul Wilcoxon signed-rank. Se poate astfel evalua intervalul de acceptare a ipotezei
zero, pentru testele bilaterale respectiv limitele critice pentru testele unilaterale.
Pachetele software de prelucrri statistice ne dau valoarea probabilitii p de
acceptare a ipotezei zero, interpretabil conform fig. 4.2.
Exemplul 4.10. Aprecierea cunotinelor (aptitudinilor) prin note reprezint
variabile ordinale. Analizm eficiena unui curs dup punctajul obinut la un test de
cunotine aplicat att nainte ct i dup un curs auxiliar pe acelai grup de studeni.
Rezultatul la un astfel de chestionar se exprim printr-un punctaj cu valori ntre 0 i 40.
n tabelul 4.10; sunt prezentate rezultatele obinute pe un lot de 10 studeni.

Tabelul 4.10. Rezultatele la testul de biostatistic obinut pe un lot de 10 studeni, nainte i dup ce au urmat
un curs auxiliar de teoria probabilitilor

Student nainte Dup Diferena Rang


1 35 38 +3 +5,5
2 26 30 +4 +7,5
3 36 36 0
4 30 35 +5 +9
5 38 40 +2 +4
6 29 28 -1 -2
7 21 25 +4 +7,5
8 27 24 -3 -5,5
9 31 30 -1 -2
10 35 36 +1 +2

La stabilirea rangurilor se ignor diferenele cu valoare 0.


Sir diferene absolute 0 1 1 1 2 3 3 4 4 5
Nr. crt. 1 2 3 4 5 6 7 8 9
Rang 2 2 2 4 5,5 5,5 7,5 7,5 9

R(+)=35.5
R(-)=9.5
n acest exemplu nu vom putea utiliza distribuia normal (sunt prea puine valori),
ci tabelul special pentru testul Wilcoxon signed-rank. Putem alege un test unilateral,
adic ipoteza de zero s fie H 0 : 0 (n cuvinte: cursul nu a determinat
mbuntirea semnificativ a rezultatelor la test), avnd ca alternativ, n cazul
respingerii H0 ipoteza H 1 : 0 (adic rezultatele dup cursul auxiliar sunt

80
Gheorghe Ioan Mihala, Diana Lungeanu

semnificativ mai bune). Din tabel, pentru = 0,05 i N = 9 obinem valoarea critic
Rtab = 40. Pentru statistica T decizia se ia dup regula:
Dac Rcalc R tab , atunci respingem H0. n cazul nostru concret nu vom putea
respinge ipoteza de zero. Deci, n ciuda aparenelor (la 6 din cei 10 nota a crescut i a
sczut numai la 3, iar creterile sunt mai mari dect scderile), nu putem afirma c
diferenele sunt semnificative (probabilitatea s obinem diferene de acest gen din
ntmplare este destul de mare, peste 5%).
Acceptarea ipotezei de zero n acest caz nu nseamn neaprat cursul auxiliar nu a
determinat creteri semnificative ale rezultatelor, ci doar c din analiza rezultatelor a
10 studeni nu putem afirma existena unei creteri semnificative a rezultatelor la testul
de cunotine. Deseori, n asemenea situaii, cnd rezultatul unui test statistic este la
limit, este bine sa se extind studiul pe un lot mai mare pentru a se putea atinge
semnificaia statistic.
Observaie: Rezultatele obinute ar fi asemntoare i dac variabilele ar fi fost
considerate numerice n loc de ordinale i am fi aplicat testul t pereche pentru diferene
avnd valoarea D 1.4 i S d 0.83 pentru (N = 10); concluziile ar fi i n acest caz
la fel ca cele obinute cu testul Wilcoxon.

4.3.5. Teste pentru proporii


n cazul variabilelor nominale (calitative), indivizii din ntregul eantion sunt
grupai n diferite clase, fiecare clas avnd caracteristic o proporie (procent).
Dac mprirea se face n numai dou clase, distribuia se numete binominal,
dac se face n mai multe clase se numete multinomial.
Testele pentru variabilele nominale sunt numeroase, acoperind toate categoriile de
teste (semnificaie, omogenitate etc.), astfel nct n cadrul cursului vom prezenta doar
urmtoarele situaii, mai des ntlnite:
a) se compar o proporie experimental cu o valoare dat
b) se compar dou proporii experimentale
c) se compar o distribuie experimental cu una teoretic - test de concordan
d) test de omogenitate pe tabel de contingen
e) test de independen pe tabel de contingen.

4.3.5.1. Se compar o proporie experimental cu o valoare dat


Ipoteza de zero: H0: p = p0
Condiie: se lucreaz pe loturi mari, astfel nct s nu fie vreuna din clase cu
mai puin de 5 indivizi, deci N s fie altfel nct NP0 5 sau N 1 p0 5 .

81
Biostatistica

Statistica

p p0 Dp
Z (4.14.a)
p 0 (1 p 0 ) S p0
N

are o distribuie normal, deci intervalul de acceptare al ipotezei de zero va fi condiia:

Z (calc) (Z / 2 , Z / 2 ) (4.14.b)

adic pentru = 5% Z / 2 1,96.

Pachetele software de prelucrri statistice ne dau valoarea lui p (probabilitatea ca


ipoteza de zero s fie adevrat) interpretabil conform fig. 4.2.
Exemplul 4.11.a. S se verifice dac este adevrat afirmaia c 4% dintre brbai
sunt daltoniti.
Cum p0 0,04 i trebuie ca NP0 5 rezult N 125.

Vom lua un lot de 150 brbai pe care obinem N1 8 daltoniti si N2 142 cu


vedere colorat normal.
Avem deci N = 150, p 1 8 / 150 0,053; p 2 142 / 150 0,946

0.053 0.946
Sp 0.018
150

0,053 0,04
Z 0,833
0,01.6

Observm c Zcalc (1.96 ; 1.96) deci acceptm H0 .

4.3.5.2. Se compar dou proporii experimentale


Ipoteza de zero: H0: p1 p2

Condiie: se lucreaz pe loturi mari nct s nu fie vreuna din clase cu mai puin de
5 indivizi
Dp p1 p 2
Statistica Z (4.15.a)
S pd S pd

are o distribuie normal. Pentru eroarea standard a proporiilor folosim formula (4.14.)

82
Gheorghe Ioan Mihala, Diana Lungeanu

sau

1 1
S pd p 0 (1 p 0 )( ) (4.15.b)
N1 N 2

unde:

N1 p1 N 2 p2
p0 (4.15.c)
N1 N 2

Regiunea de acceptare este dat tot de (6.46.).


Exemplul 4.11.b. Verificm dac proporia de decese prin cancer de plmni este
aceeai la brbai i femei. ntr-un studiu efectuat pe dou loturi:

- lot 1: N1 180 certificate deces brbai nregistrate n 3 luni, din care

p1 14 / 180 0,0777 cu diagnosticul de mai sus

- lot 2: N 2 165 certificate deces femei, acelai interval, cu

p2 5 /165 0,030

0,077 0,9222 0,03 0,97


S pd 0,024
180 165

(0,0777 0,030) :100


Z 1,98
2,4

Observm c Z(calc) Z / 2 1,96 deci respingem H0 i vom considera c decesul


prin cancer de plmni apare semnificativ mai frecvent la brbai dect la femei.

4.3.5.3. Se compar o distribuie experimental de proporii cu o


distribuie teoretic
n cazul variabilelor nominale, dac avem n clase (distribuie multinominal),
rezultatele experimentale obinute prin analiza unui lot de N indivizi se exprim cu
ajutorul unui tabel de forma tabelului 4.2.
Ipoteza de zero: H0: O j E j j 1, ...,n adic valorile observate experimental
Oj difer semnificativ de cele ateptate E j (observed values), pentru toate clasele j.

83
Biostatistica

Tabelul 4.11. Prezentarea datelor pentru aplicarea testului de concordan la o distribuie multinominal.

Caracteristica Clasa 1 Clasa 2 ........ Clasa n Total


Valori experimentale O1 O2 ......... On N
Valori teoretice E1 E2 En N

Test aplicat : testul 2 al lui Pearson


Statistica

n
(Oi E i ) 2
2 Ei
(4.16.a)
j

are o repartiie 2. Pentru ca ipoteza de zero s poat fi respins:

2 (calc) 2 , (tab) (4.16.b)

Pachetele statistice dau valoarea lui p interpretabil conform fig. 4.2.


Observaie: Valorile teoretice trebuiesc calculate n funcie de specificul studiului;
ele pot fi i valori fracionare. Ele pot fi evaluate i pentru un total diferit i apoi
convertite pentru acelai total.
Exemplul 4.12: Dorim s studiem rspndirea grupelor sanguine i facem ipoteza
c sunt uniform rspndite. Rezultatele experimentale obinute pe un lot de 80 de
indivizi sunt prezentate n tabelul 4.12.a.

Tabelul 4.12.a. Repartiia grupelor sanguine ntr-un lot cu N = 80.

(Caracteristica)
O(I) A(II) B(III) AB (IV) Total
Grupa sanguin
Valori experimentale 22 33 14 11 80
Valori teoretice 20 20 20 20 80
Ipoteza de zero: grupele sanguine sunt uniform rspndite n populaia analizat.
Conform formulei (4.16.a) obinem:

2
22 202 33 202 14 202 11 202 14.5
20 20 20 20

Din tabel, pentru = 5% gsim x 02,05;3 7,815 deci

2 calc 2 tab i vom respinge H 0 afirmnd c din studiul efectuat rezult c


grupele sanguine nu au o rspndire uniform n populaia analizat.
Observaie: noi am efectuat calcule anterioare pentru ipoteza c grupele sanguine
ar fi uniform rspndite. Putem ns s verificm i alte ipoteze. De exemplu, un studiu
efectuat n America Latin afirm c acolo grupele sanguine ar avea rspndirea: 30%

84
Gheorghe Ioan Mihala, Diana Lungeanu

grupa 0, 15% grupa A, 40% grupa B i 15% grupa AB. n acest caz tabelul 4.12.a. ar
deveni:

Tabelul 4.12.b. Repartiia grupelor sanguine ntr-un lot cu N = 80.

(Caracteristica)
O(I) A(II) B(III) AB (IV) Total
Grupa sanguin
Valori experimentale 22 33 14 11 80
Valori teoretice 24 12 32 12 80

iar 2 15.9 deci i n aceast situaie ipoteza H0 este respins.

4.3.5.4. Test de omogenitate pentru tabele de contingen


S introducem mai nti noiunea de tabel de contingen. n cazul variabilelor
nominale (sau variabile numerice dar cu valori mprite pe intervale), dac urmrim
mprirea dup dou caracteristici (dou criterii de clasificare) obinem un tabel de
contingen.
Definiie. Tabelul de contingen reprezint o form de prezentare a datelor
variabilelor nominale (sau pe clase) dup dou caracteristici: una plasat pe linii i alta
plasat pe coloane.
Un exemplu de tabel de contingen este prezentat n tabelul 4.13.

Tabelul 4.13. - Model de tabel de contingen.

elev/student muncitor ran intelectual alte Total


Primul Urban
criteriu de
clasificare:
Mediul
Rural
Tabelul expus se numete tabel 2 5 artnd numrul de clase dup primul,
respectiv al doilea criteriu de clasificare.
Un test de omogenitate aplicat unui tabel de contingen are menirea de a
verifica dac proporiile diferitelor clase pe un rnd (coloan) sunt aproximativ aceleai
i pe celelalte rnduri (coloane).
Valorile experimentale ntr-un tabel de contingen le notm ca n tabelul 4.14.

Tabelul 4.14. Notaii n tabelul de contingen cu L linii i C coloane pentru un eantion de N indivizi.

Crit. 2 1 ...... j ........ C Total


Crit. 1
1 1 ..... 1j ...... 1C L1
.... ..... ..... ..... ...... ... ...
i i1 ..... ij ...... ic Li
.... ...... .... .... ...... ... ....
L L1 .... Lj ...... L* Li
Total N
C*1 .... C* j ..... C*c

85
Biostatistica

Pentru notaiile din tabelul 4.14 sunt adevrate relaiile de mai jos:

L
C* j ij (4.17.a)
i

C
Li ij (4.17.b)
j

C L L C
N C* j Li * ij (4.17.c)
j i i j

( L 1) (C -1) (4.17.d)

Valorile ateptate Eij se calculeaz pentru fiecare element al tabelului cu relaia:

Li* C* j
E ij (4.17.e)
N

astfel nct totalurile pe linii i coloane vor rmne nemodificate. De obicei se


construiete nc un tabel de forma tabelului II.7 cu deosebirea c, n loc de valorile
observate, n csue se trec valorile ateptate. Marginile vor rmne nemodificate.
Avnd ambele tabele putem trece la aplicarea testului.
Ipoteza de zero: H 0 : Oij Eij , pentru i, j

Test aplicat: testul 2 al lui Pearson.


Statistica

(Oij Eij ) 2
X
2
(4.18.a)
i j
Eij

are o distribuie 2 cu grade de libertate.

Pentru un prag de semnificaie ales, , se caut n tabel valoarea X 2 , i se


stabilete regiunea de acceptare cnd este ndeplinit condiia (6.50.).
Programele de calculator dau direct valoarea lui p.
Exemplul 4.13. Comparm dou tratamente A i B pe dou loturi avnd N1 100
respectiv N 2 50 pacieni. Rezultatele obinute sunt trecute n tabelul 4.16.a.

86
Gheorghe Ioan Mihala, Diana Lungeanu

Tabelul 4.16.a. Rezultatele obinute prin 2 tratamente

Ameliorat Neameliorat Total


Tratament. A 40 60 100
Tratament B 30 20 50
Total 70 80 150

Ipoteza de zero: H 0 : Oij Eij , pentru i, j cele dou tratamente dau rezultate
identice:
Calculm valorile ateptate conform (4.17.e) i obinem tabelul 4.16.b.
Tabelul 4.16.b. Rezultate ateptate n condiia respectrii ipotezei de zero.

Ameliorat Neameliorat Total


Tratament. A 46,6 53,3 100
Tratament B 23,3 26,6 50
Total 70 80 150

Cu formula (6.54) obinem: 2 5,61, n timp ce din tabel, pentru = 5% i = 1


grad de libertate (pentru un tabel 2 x 2, cu 2 linii i 2 coloane), avem x02, 05;1 3,84.

Observm c nu se respect condiia X 2 (calc) X 2 (tab), deci nu acceptm ipoteza


de zero i vom spune c tratamentele dau rezultate diferite.

4.3.5.5. Test de independen pentru tabele de contingen


Un test de independen are scopul de a stabili dac exist vreo relaie de
dependen ntre categoriile obinute prin dou clasificri diferite; de exemplu ntre
culoarea prului i sex, ntre nlime i greutate, ntre vrst i adaptarea la efort etc.
Ipoteza zero: cele dou criterii de clasificare sunt independente (din punct de
vedere probabilistic).
Test aplicat: testul 2 al lui Pearson
Abordarea este asemntoare cu cea prezentat la testul 2 ca test de omogenitate,
avnd i aceleai criterii de interpretare pentru regiunea de acceptare / respingere a H 0 .
Exemplul 4.14. Pentru a stabili dac ntre nlime i greutate exist vreo
dependen, n cea mai simpl variant putem alege o valoare care mparte, n dou
categorii aproximativ egale o populaie din care extragem un eantion. Rezultatele
culese sunt prezentate n tabelul II.18.a.
Tabelul 4.17.a. Clasificarea indivizilor unui lot dup nlime i greutate.
nlime sub 175 cm peste 175 cm Total
Greutate
sub 70 kg 40 16 56
peste 70 kg 8 36 44
Total 48 52 100
Ipoteza de zero: cele dou clasificri sunt independente.

87
Biostatistica

Conform ipotezei de zero putem calcula valorile ateptate cu formula (6.53) i


obinem tabelul 4.17.b.

Tabelul 4.17.b. Valorile ateptate la clasificarea indivizilor dup nlime i greutate dac cele dou
clasificri ar fi independente.

nlime sub 175 cm peste 175 cm Total


Greutate
sub 70 kg 26,88 29,12 56
peste 70 kg 21,12 22,88 44
Total 48 52 100

Cu formula (6.54.) obinem 2= 27,5, n timp ce din tabel, pentru = 5% i = 1


grad de libertate avem 20 ,05 ;1 3 ,84 ; mai mult, chiar pentru = 1% i = 1 avem
02,005;1 7,88 deci putem respinge H 0 i sa spunem c diferenele sunt foarte
semnificative. Respingerea lui H 0 n cazul nostru nseamn respingerea ipotezei c
cele dou criterii de clasificare sunt independente. O analiz mai detaliat a dependenei
ntre variabile se face prin metode adecvate ce vor fi prezentate n capitolul urmtor.
Observaie: n cazul tabelelor de contingen, dac vreuna din csue conine
valori ateptate ce reprezint mai puin de 5% din observaii, se aplic testul Fisher
exact. Sunt autori care prefer s aplice corecia de continuitate la formula 4.16.a
numit corecia Yates:

(/ Oi Ei / 0,5) 2
2 Ei
i (4.18.b)

4.3.6. Teste pentru indicatori de dispersie


Se compar dou sau n dispersii (deviaii standard).
Uneori este necesar n practic verificarea egalitii statistice a unor indicatori de
dispersie - de exemplu, testele de semnificaie aplicate pentru valori medii presupun o
egalitate statistic a despersiilor seriilor care trebuie testate nainte de aplicarea testului
pentru medii.
Dintre testele pentru compararea indicatorilor de dispersie vom prezenta cteva mai
des ntlnite:
pentru a compara dou deviaii standard
pentru a compara n deviaii standard obinute pe serii diferite
pentru a compara n deviaii standard obinute pe acelai lot.

4.3.6.1. Se compar dou deviaii standard


Ipoteza de zero: H 0 : 1 2

Test aplicat: testul (exact) F-Fisher-Snedecor

88
Gheorghe Ioan Mihala, Diana Lungeanu

Raportul a dou dispersii ale unor populaii cu distribuie normal prezint o


distribuie notat cu F, numit distribuia Fischer.

Fie dou serii experimentale, de volume N 1 i N 2 , avnd dispersiile S12 i


S22 ; le notm cu indicii 1 i 2 astfel nct S12 S22 adic S (1) max( S1 , S 2 ). Se
calculeaz raportul:

F S (21) / S (22) (4.19.a)

Se alege tabelul cu valorile lui F dup pragul de semnificaie dorit (0,05 sau 0,01) i
pentru cele dou valori ale gradelor de libertate:

1 N1 1;

2 N 2 1 (4.19.b)

Ipoteza de zero se accept dac indicele F respect relaia:

/2
Fcalc Ftab ( 1 , 2 ) (4.19.c)

Pachetele statistice dau de obicei valoarea lui p interpretabil conform fig. 4.2.
Exemplul 4.15. Considerm loturile 2 i 3 din tabelul 4.18.
1200
Pentru lotul 2: S22 150 S(21)
9 1
250
Similar: S 32 62,5 S (22)
5 1
150
Calculm: F = S (21) / S (22) 2,4 . Din tabel, pentru = 0,05
62,5
avem: F80,4,025 6,04

deci Fcalc Ftab i vom admite H0 dei diferenele dispersiilor preau destul de
mari.

4.3.6.2. Se compar n deviaii standard obinute pe serii diferite


Ipoteza de zero: H 0: 1 2 .... n

Test aplicat: testul lui Bartlett.

Pentru n serii experimentale de volume N j , medii X j i deviaii standard S j ,


notm:

89
Biostatistica

n
- grade de libertate: j N j 1; i i N n (4.20.a)
j 1

n
- numr total de indivizi: N N j (4.20.b)
j 1

j S 2j
1
- dispersie global: S 2 (4.20.c)
j

1 n
1
j
1
- coeficientul: C 1 (4.20.d)
3(n 1)
j
n


1
- statistica: X B2 ( ln S 2 j ln S 2j ) (4.20.e)
c j

este o variabilitate aleatoare cu distribuie 2 cu n - 1 grade de libertate.

- regiunea de acceptare a Ipotezei zero H0 este dat de condiia:

X B2 calc 2 ,n 1 (tab) (4.20.f)

i H 0 se respinge n caz contrar.

Pachetele software de prelucrri statistice ne dau direct valoarea lui p.


Exemplul 4.16. S comparm deviaiile standard ale celor 3 loturi prezentate n
tabelul 4.18.

- seria 1: N1 10, 1 9, S12 900 / 9

- seria 2: N 2 9, 2 8, S 22 1200 / 8

- seria 3: N 3 5, 3 4, S 32 250 / 4
- aplicm formulele (4.20.a) - (4.20.e)
. N = 24 , n = 3
1
. S2 (900 1200 250) 112
24 3

. C 1 1 1 1 1 1 15

3 2 9 8 4 9 8 4 14

. X B2 9,59

- din tabelul 2 pentru = 0,05 i n-1 = 2 grade de libertate avem:

90
Gheorghe Ioan Mihala, Diana Lungeanu

02,05;2 5,99

- observm c X B2 (calc) 02,05;2 , deci respingem H0 i vom considera c


dispersiile (derivaiile standard) difer semnificativ.

4.3.6.3. Se compar n deviaii standard obinute pe aceiai indivizi


Ipoteza de zero: H 0 : 1 2 ... n

Test aplicat: testul lui Cochran.


Pentru n serii de date experimentale obinute pe acelai lot de volum N, avnd
dispersiile S1 , S 2 ,....,S n , se alege:

Smax max(S1, S2 ,....,Sn ) (4.21.a)

i se calculeaz:

n
S2 S 2j (4.21.b)
j

Statistica

Q Smax
2
/ S2 (4.21.c)

este comparat cu valoarea lui Q din tabelul lui Cochran; tabelele pentru Q sunt
asemntoare cu cele pentru F: sunt realizate pentru dou valori ale lui (0,05 i 0,01)
i depind de 2 indici: n i N 1 (numrul de grade de libertate).
Regiunea de acceptare a ipotezei de zero se alege dac este satisfcut condiia:

Q(calc) Qn, (tab) (4.21.d)

Pachetele software de prelucrri statistice dau direct valoarea lui p pentru


interpretarea testului conform fig. 2.14

4.3.6.4. Analiza varianei compararea a n valori medii


Ipoteza de zero: H 0 : 1 2 .... n (4.22.a)

Test aplicat: ANOVA (ANalysis Of VAriance).


Testele de tip ANOVA formeaz o ntreag clas ce face obiectul de studiu al unui
ntreg capitol al (bio) statisticii numit analiza variantei. Elementul central n analiza
varianei este mprirea varianei valorilor individuale (formula 5.7.b) n funcie de
originea posibil (sursele) variaiei.

91
Biostatistica

Analiza varianei se aplic pentru testarea egalitii a n valori medii n dou


variante principale:
- Analiza unifactorial (one-way analysis) - pentru a compara n serii
independente, obinute pe loturi diferite.
- Analiza bifactorial (two-way analysis) - pentru a compara n serii
dependente, obinute pe acelai lot, n n condiii.

4.3.6.5. Analiza unifactorial


Analiza unifactorial este o analiz neparametric (testul Kruskal Wallis)
Fie n serii experimentale obinute pe loturi independente, un lot j avnd Nj indivizi.
Fiecare lot corespunde unei condiii pe care o vom numi tratament; avem deci n
tratamente; pentru tratamentul j analizm lotul corespunztor.
Xj1 , Xj2 , .....Xji , ...., XjNi , avnd:
Nj
- media Xj ( X ji ) / N j (4.22.b)
i

- variana S j2 SS j / ( N j 1) (4.22.c)

Nj
- suma ptratelor abaterilor: SS j ( X j X ji ) 2 (4.22.d)
i

Vom folosi prescurtarea SS = sum of squares.


Dac amestecm loturile obinem un grup mare avnd n total N indivizi, ale cror
valori le notm acum cu X i :

n
N Nj (4.23.a)
j

Pentru acest lot global avem o medie general:

N n
X
Xi / N
N jX j /n

(4.23.b)
i 1 j

i suma total a ptratelor (TSS = total sum of squares):

N
TSS (X X i )2 (4.23.c)
i 1

Esena n testele ANOVA este a diviza aceast varian total TSS (exprimat de
fapt aici prin suma total a abaterilor tuturor valorilor individuale X i fa de media
global X ) n variana datorat variaiilor valorilor individuale X ji din fiecare grup j

92
Gheorghe Ioan Mihala, Diana Lungeanu

fa de media grupului X j , numit variana rezidual (RSS, numit i varian


within VW) i variana datorit tratamentelor (TrSS - treatment variance, numit
i varian between - VB).
TSS =RSS + TrSS (4.24.a)

Suma ptratelor abaterilor pentru variana rezidual este:

n n Nj
RSS SS j ( ( X j X ji )2 ) (4.24.b)
j j i

Pentru cele n serii (tratamente), cuprinznd un total de N indivizi, toate cele N


valori sunt independente deci numrul gradelor de libertate (d.f. = degrees of freedom)
pentru TSS este N. Numrul gradelor de libertate pentru tratamente este:

dfTr n 1 (4.24.c)

iar pentru reziduale este:

2 dfR N (n 1). (4.24.d)

De fapt RSS i TrSS calculate cu (4.16.b) i (4.16.a) sunt sume de ptrate; pentru a
reprezenta variane cu adevrat ele trebuiesc divizate cu numrul corespunztor de
grade de libertate: (MS = mean square).
MSTr = (TSS - RSS) / 1 (4.25.a)

MSR = RSS / 2 (4.25.b)


Raportul a dou variane prezint o distribuie F cu (1;2) grade de libertate:

MSTr
Fcalc F (4.25.c)
MSR

Dac seriile nu difer semnificativ ntre ele, variana care rmne atribuit
tratamentelor MSTr este mic, variana total fiind explicat aproape integral de
rezidualele MSR (variaiile individuale din fiecare grup), deci Fcalc va avea valori mici.
ns dac seriile difer semnificativ, MSTr va reprezenta o poriune nsemnat din
variana total i F va fi mare.
Stabilind un prag de semnificaie (5% sau 1%) decizia testului se ia astfel:

- dac Fcalc F1 2 (tabel), atunci p , adic respingem H0

- dac Fcalc Ftab , atunci acceptm H 0 . (4.25.d)


Actualele pachete statistice prezint rezultatele n forma standard a tabelelor
ANOVA i calculeaz direct valoarea lui p interpretabila conform fig. 4.2.
Exemplul 4.17: Comparm 3 tratamente cu medicaii antihipertensive obinnd pe
trei loturi rezultatele din tabelul 4.18.a.

93
Biostatistica

Din tabelul distribuiei F avem:

F20,,22
05
3,44 i F20,,22
01
= 5,72

Tabelul 4.18.a. Scderile tensiunii sistolice dup patru zile de tratament, pe 3 loturi. Valorile negative indic
o cretere a tensiunii. n fiecare serie valorile au fost ordonate. Pentru seria global avem:

Tratament j 1 2 3
Individ i
1 20 30 30
2 15 25 25
3 15 15 20
4 10 10 15
5 5 10 10
6 5 5 -
7 0 5 -
8 -5 0 -
9 -5 -10 -
10 -10 - -
Nj 10 9 5 N = 24

Xj 5 10 20
X =10
SS j 900 1200 250 RSS =2350

( X X i )2 1150 1200 750 TSS = 3100

Cum Fcalc F20,,22


05
, rezult p 0,05 deci respingem ipoteza de zero H0 vom
considera c ntre cele 3 serii avem diferene semnificative.
n tabelul 4.18.b. sunt prezentate datele sintetice ale testului ANOVA.
Tabelul 4.18.b. Tabelul ANOVA cu datele brute din tabelul 4.18.a.

Sursa de Grade de Suma ptratelor Media ptratelor Raportul F


variaie libertate SS Ms F
Tratament 2 750 375 3,48
Reziduale 22 2350 106,8
Total 24 3100
Observaii:
Cel mai adesea, dup aplicarea unui test ANOVA pentru mai mult de 2 serii,
analiza poate continua prin compararea pe rnd a cte 2 serii prin testul t standard (sau
Mann-Whitney - Wilcoxon n caz neparametric) cu ajustarea corespunztoare a lui
funcie de numrul de teste.
Pentru numai dou serii rezultatul obinut prin ANOVA este identic cu cel obinut
prin testul t nepereche.

4.3.6.6. Analiza bifactorial


Analiza bifactorial este o analiz neparametric, iar aplicarea pentru n serii
dependente se mai numete testul Friedman.

94
Gheorghe Ioan Mihala, Diana Lungeanu

Fie n serii de valori experimentale obinute pe acelai lot, cu volumul de N indivizi,


n n condiii diferite. Fiecare serie de valori corespunde unei condiii pe care o vom
numi i aici tratament. Fiecare individ i este supus tuturor celor n tratamente. Spre
deosebire de cazul anterior, cnd luam n considerare un singur factor ce ar putea
influena variana - tratamentul, de aceast dat vom lua n considerare i al doilea
factor, de exemplu individul - fiecare individ are reacii particulare la fiecare tratament.
n general n ANOVA bifactorial gruparea dup primul factor se face n tratamente-
j, iar dup al doilea factor se face n blocuri- i.
S facem urmtoarele notaii:
X ji - o valoare individual pentru tratamentul j la blocul i (individul i)

N
Xj ( X ji)/ N
i - media unui tratament (4.26.a)

n
X i ( X ji)/ n - media unui bloc (4.26.b)
j

N n N n
X ( X ji ) /( Nn) ( X i ) / N ( X j ) / n -(media global) (4.26.c)
i j i j

Gradele de libertate sunt:


total: N* n (4.27.a)
pentru tratamente: 1 = n - 1 (4.27.b)
pentru blocuri: 1 = N - 1 (4.27.c)
pentru reziduale: 2 N n ( N 1) (n 1) (4.27.d)

Tabelul 4.19. Prezentarea tabelului ANOVA pentru analiza bifactoriala.

Grade de libertate Suma ptratelor Media ptratelor Raportul


Sursa variaiei
df SS ms F
Tratamente 1' n 1 TrSS M1' TrSS /1' M1' / M2 ( P ' )
Blocuri
1" N 1 BlSS M1" BlSS /1" M1" / M 2 ( P" )
(indivizi)
2 Nn ( N n 2) RSS M 2 RSS / 2
Reziduale

Total Nn TSS

Sumele ptratelor vor fi calculate cu:


N n N n

X ij2 Nn X
2
TSS = ( X X ij ) 2 (4.28.a)
i j i j

95
Biostatistica

N n
RSS = (( X j. X .i X ) X ij ) 2 (4.28.b)
i j

N n 2
TrSS = ( X j. X ij )2 N X 2j. Nn X (4.28.c)
i j j

N n N

X .2i Nn X
2
BlSS = ( X .i X ij ) 2 n (4.28.d)
i j i

Intre ele avem relaia:


TSS = RSS + TrSS + BlSS (4.29)

Tabelul ANOVA pentru prezentarea rezultatelor va fi de forma 4.19.


Pentru ca ordinea aplicrii tratamentelor s nu fie aceeai la toi indivizii (aceasta ar
putea influena efectele), se aloc tratamente n ordine ntmpltoare; uzual se folosete
ptratul latin, avnd pe linii sau coloane ordinea tratamentelor (v. tabelul 4.5.c).

Caseta 4.1. Definiii


Diferene nesemnificative diferenele care au probabilitate mare s apar din
ntmplare i se datoresc variabilitii de eantionare.
Diferene semnificative diferene care au probabilitate mic s apar din
ntmplare.
Def.: Teste statistice procedeu prin care se stabilete, cu un anumit nivel de
ncredere, dac diferenele sunt semnificative sau nu.
Prag de semnificaie : - valoarea convenional sub care ncepem s considerm
diferenele ca semnificative. Uzual = 5%
Ipoteza de zero: propoziie ce afirm c diferenele observate sunt nesemnificative:
H 0: 1 = 2
Ipoteza alternativ: ipotez care se accept n cazul respingerii ipotezei de zero
Ipoteza alternativ bilateral: H1 : 1 2
Ipoteza alternativ unilateral
dreapta H1 : 1 > 2,
respectiv stnga : Ha : 1 <2
Eroare statistic de tip I: cnd ipoteza de zero este adevrat, dar respins
Eroare statistic de tip II: cnd ipoteza de zero este fals, dar acceptat.
Valoarea p calculat prin teste: probabilitatea ca diferenele observate s apar
din ntmplare.

96
Gheorghe Ioan Mihala, Diana Lungeanu

Decizia testelor statistice:


- dac p > 0.05 diferene nesemnificative i acceptm H0
- dac p < 0.05 diferene semnificative i respingem H0
- dac p < 0.01 diferene foarte semnificative i respingem H0
- dac p < 0.001 diferene extrem de semnificative i respingem H0 .

Caseta 4.2. Teste statistice uzuale


A. Pentru variabile numerice
Pentru a compara o valoare medie cu o valoare dat:
- testul z dac n 30
- testul t dac n < 30.
Pentru a compara dou valori medii, obinute pe serii independente
(formate din indivizi diferii):
- testul t nepereche (pentru distribuii normale)
- testul Mann Whitney.
Pentru a compara dou medii, din dou serii de valori obinute pe
aceeai indivizi n dou condiii diferite:
- testul t pereche.
Pentru a compara n serii independente:
- ANOVA unifactorial (Kruskal Wallis).
Pentru a compara n serii dependente:
- ANOVA bifactorial (Friedman).
B. Pentru variabile ordinale (rang)
- Pentru a compara dou serii independente - Wilcoxon sum rank
- Pentru a compara dou serii dependente - Wilcoxon signed rank.
C. Pentru variabile nominale (proporii)
- pentru dou proporii - testul z
- pentru n proporii - testul 2 (chi-square, Pearson).
D. Pentru dispersii
- pentru dou dispersii - testul F (Fisher)
- pentru n dispersii, serii independente - testul Bartlett
- pentru n dispersii, serii dependente - testul Cochran.

97
Biostatistica

98
Gheorghe Ioan Mihala, Diana Lungeanu

5. CORELAIA I REGRESIA
Cuprins
A. Prezentare descriptiv
Relaii ntre dou variabile cantitative
Relaia de dependen
Corelaia liniar
Dreapta de regresie
Corelaii i regresii neliniare
Relaia ntre analiza corelaiei i analiza varianei
B. Fundamentare teoretic
C. Sintez. Caseta 5.a. Definiii
Caseta 5.b. Corelaii recomandate

Dup cum am sesizat nc din cursul precedent, mrimile pe care le analizm n


diferite studii pot fi fie independente ntre ele, fie legate prin diferite relaii.
Evidenierea unor relaii ntre mrimi poate sugera fie o fenomenologie cauzal, fie o
corelaie mai complex ce necesit studii aprofundate. Oricum, respingerea unei ipoteze
de zero ntr-un test de independen d n general de gndit cercettorilor, care pot
sesiza o serie de aspecte interesante din simpla analiz statistic a datelor. Deseori
analiza statistic a unor date sugereaz o serie de alte studii pentru precizarea
fenomenelor care genereaz anumite dependene.
Datorit faptului c analizele de acest tip urmresc comportarea a dou variabile ele
se numesc analize bivariate. Analizele care urmresc comportamentul mai multor
variabile se numesc analize multivariate sau multivariabile.

5.1. Relaii ntre dou variabile cantitative

5.1.1. Relaia de dependen


a. Variabile independente
Variabilele cantitative, fiind foarte des ntlnite n studiile biomedicale, permit cea
mai fin analiz a relaiei de dependen / independen. S ilustrm acestea prin cteva
exemple.
Exemplul 5.1. - ntr-un studiu pe un lot de 400 de indivizi am urmrit mai multe
variabile, cantitative i calitative. Dac alegem dou variabile (cantitative), de exemplu
nlimea h, respectiv concentraia hemoglobinei n snge, [Hb], ntr-o reprezentare
grafic n care lum pe axa Ox nlimea h i pe pe axa Oy concentraia hemoglobinei
[Hb], fiecare individ va fi reprezentat print-un punct. Un astfel de grafic se numete
grafic de mprtiere (scatter plot). Datele obinute sunt reprezentate n figura 5.1.
Repartiia simetric i fr vreo tendin a punctelor n graficul obinut sugereaz
absena vreunei legturi ntre cele dou mrimi; vom spune despre ele c sunt
independente.

99
Biostatistica

Figura 5.1. Relaia ntre nlimea unui individ, h, i concentraia de hemoglobin din snge, [Hb]. Repartiia
aproape simetric i uniform a punctelor sugereaz absena vreunei corelaii.

b. Variabile dependente
Dac reprezentm, relaia ntre presiunea parial a oxigenului din aerul respirat i
concentraia oxigenului dizolvat n snge am obine un grafic de forma celui din fig.
5.2.

Figura 5.2. Dependena concentraiei sanguine a oxigenului dizolvat de presiunea parial a oxigenului din
aerul respirat.
Legtura dintre cele dou mrimi este att de vizibil nct ne sugereaz nu numai
acceptarea unei relaii cauzale ci chiar gsirea unei formule pentru relaia dintre cele
dou mrimi; stabilirea unei astfel de formule (formalizarea matematic a
fenomenului) reprezint obiectul de studiu al unui capitol important al informaticii
medicale numit modelare i simulare. n partea de biostatistic ne intereseaz doar
faptul c cele dou mrimi nu par independente (la testul 2 de independen, mprind
pO2 i respectiv [O2] n cteva clase (chiar i cu numai dou clase), vom respinge

100
Gheorghe Ioan Mihala, Diana Lungeanu

ipoteza de zero referitoare la independen, iar acceptarea unei dependene ne impinge


spre cutarea unei formule care s exprime respectiva depende.
c. Variabile corelate
n exemplul prezentat anterior, relaia cauzal prea rezonabil: n condiiile unei
concentraii crescute a oxigenului atmosferic pare uor acceptabil (cauzal) o
concentraie mai mare a oxigenului dizolvat n snge. Exist ns situaii n care datele
experimentale sugereaz o relaie de dependen, dar mecanismele fiziologice, la nivelul
cunotinelor actuale, nu justific pe deplin o relaie cauzal direct, ns cel mai adesea
admite o cauz comun pentru variaiile observate ale celor dou mrimi; astfel de
variabile se numesc variabile corelate.
Un exemplu tipic l constituie corelaia ntre nlimea i greutatea indivizilor
(figura 5.3), n care nu putem preciza c una dintre variabile este cauza i cealalt este
efectul.

Figura 5.3. Corelaia nlime-greutate pe un lot de 480 brbai aduli.


Analiza corelaiei nlime-greutate, pe care o putem efectua cnd cunoatem
poziia fiecrui punct n graficul 5.3, este mult mai fin dect cea din testul de
independen din cursul precedent. Repartizarea punctelor n graficul din figur,
sugereaz o exprimare de forma cu ct individul este mai nalt, cu att greutatea sa ne
ateptm s fie mai mare.

5.1.2. Corelaia liniar

5.1.2.1. Coeficient de corelaie


0
i - Definiie
Putem spune c situaia variabilelor corelate este intermediar ntre cele dou
extreme din matematici variabile independente sau dependente. Vom introduce astfel
un parametru, notat cu r i numit coeficient de corelaie Pearson, care s caracterizeze

101
Biostatistica

intensitatea corelaiei, care va avea valori extreme pentru cele dou situaii: 0 pentru
variabile independente (necorelate) i 1 pentru cele dependente.
n cazul n care considerm c punctele dintr-o diagram de mprtiere se situeaz
pe o dreapt, corelaia se numete corelaie liniar.
0
ii - Proprieti
coeficientul de corelaie r are valori cuprinse ntre -1 i +1
valorile pozitive ale lui r indic o corelaie direct ntre x i y (creterea lui x este
nsoit de creterea lui y, figura 5.4.a), n timp ce valori negative indic o corelaie
invers (cnd x crete, y scade, figura 5.4.b).

Figura 5.4. Ilustrarea corelaiei liniare directe i inverse

Valorile absolute mari ale lui r (apropiate de +1, respectiv -1) indic o corelaie
puternic, n timp ce valorile mici (n jurul lui 0) indic o corelaie slab (sau absena
corelaiei) - figura 5.5.

Figura 5.5. Aprecierea intensitii corelaiei liniare dup valoarea lui r

102
Gheorghe Ioan Mihala, Diana Lungeanu

Observaie: Coeficientul de corelaie liniar arat numai n ce msur datele


experimentale se potrivesc unei reprezentri descrise de o dreapt; deci o valoare
sczut a lui r nu nseamn neaprat corelaie slab ci corelaie liniar slab, ns ar
putea fi puternic, dar de alt tip.

5.1.2.2. Semnificaia coeficientului de corelaie


Ca n orice interpretare statistic, ne punem i aici ntrebarea n ce msur
ntmplarea (variabilitatea de eantionare) poate afecta valorile calculate ale lui r. ntr-
adevr, valorile lui r depind att de gradul de mprtiere al valorilor experimentale ct
i de N - numrul de puncte. Uneori, cnd N este mic, putem obine din ntmplare
valori ridicate pentru r, conducndu-ne la concluzii hazardate cu privire la intensitatea
corelaiei. De aceea, se poate testa semnificaia coeficientului de corelaie liniar r.
Ipoteza de zero: H0 : = 0 ( am notat cu coeficientul de corelaie liniar
pentru ntreaga populaie iar r = coeficientul de corelaie obinut pe un
eantion).
Test aplicat: testul t.
Majoritatea programelor de calculator furnizeaz, odat cu valoarea lui r i valoarea
lui p pentru ipoteza de zero enunat mai sus, permind o interpretare facil, conform
celor prezentate n capitolul anterior (fig. 4.2). Mai mult dect att, se calculeaz i o
eroare standard a coeficientului de corelaie, cu ajutorul cruia se pot stabili intervale de
ncadrare a valorii coeficientului de corelaie r pentru un nivel de ncredere ales (uzual
95%) prin relaii similare cu (3.2). Vom putea avea situaii dintre cele mai diverse: s
avem o corelaie puternic (r mare) i semnificativ (p < 0,05) sau corelaie slab dar
semnificativ; ns putem avea i corelaii puternice (r mare), dar nesemnificative (p >
0,05). Este puternic ispita de a interpreta aceast corelaie, dei nu ar trebui! Cel mai
bine ar fi s ncercm s vedem dac nu cumva am avut un lot prea mic (adesea aceasta
poate fi o cauz).
n fig. 5.5 sunt trecute, n afar de valorile lui r, i valorile lui p, cu posibilitile
corespunztoare de interpretare. Dependena semnificaiei lui r de dimensiunea
eantionului este bine relevat n fig. 5.6. Observm c, pentru loturi mari, pot fi
semnificative i valori ale lui r sub 0,5! Aceste situaii au fost gsite n numeroase
cazuri reale exist n natur o mare variabilitate, ceea ce face ca, uneori, corelaia s
nu fie prea puternic, ns cnd ea apare sistematic, ea devine semnificativ. n schimb,
pentru loturi mici, ntmplarea poate juca un rol important i, uneori, s avem corelaii
ridicate, dar pur ntmpltoare! n toate manualele de statistic se atrage atenia asupra
acestui aspect.

Figura 5.6. Regiunile de acceptare / respingere a H0 pentru coeficientul de corelaie.


103
Biostatistica

Deci: din punct de vedere fenomenologic vom interpreta valoarea lui r, dar numai dup
ce ne asigurm c este semnificativ (din valoarea lui p).

5.1.3. Dreapta de regresie


Tendina de nirare a punctelor de-a lungul unei drepte este vizibil ntr-o serie de
cazuri, drept pentru care vom ncerca s analizm mai n detaliu acest aspect.
0
i - Definiie
n cazul unei corelaii liniare, dreapta care trece cel mai bine printre punctele
experimentale se numete dreapt de regresie.
0
ii - Ecuaia dreptei de regresie
Dac notm cu x variabila independent i cu y variabila dependent, atunci ecuaia
unei drepte are forma:
y = a + bx (5.1)

n care a se numete ordonat la origine (engl. intercept) iar b se numete panta


dreptei (engl. slope) - figura 5.7.
n cazul n care cele dou variabile analizate sunt nelegate direct funcional sau
cauzal, atribuirea lor pe axa x, respectiv y este indiferent. ns n cazul n care una din
variabile poate fi considerat cauz (direct sau indirect), se prefer ca ea s fie
aleas pe axa x (cu rol matematic de variabil independent), iar cealalt (efect
direct sau indirect) s fie plasat pe axa y (cu rol matematic de variabil dependent).
Timpul este ntotdeauna variabil independent (se ia pe Ox). De asemenea, factorii
externi sunt cel mai adesea considerai variabile independente.

Figura 5.7. Semnificaia parametrilor pentru dreapta de regresie liniar

104
Gheorghe Ioan Mihala, Diana Lungeanu

Exist diverse metode prin care se pot determina coeficienii a i b din ecuaia
dreptei. De obicei, softul care permite analiza corelaiei are posibilitatea s ne furnizeze
i valorile lui a i b, ba chiar adesea acetia sunt prezentai i cu intervalele lor de
ncredere. Pentru alte situaii precum i pentru fundamentarea teoretic a acestor
abordri, vom reveni n 5.4. Pot fi aplicate asupra acestor valori a i b i teste de
semnificaie.
Exemplul 5.2. Considerm un lot de 60 copii n vrst de 10 ani, crora le-am
determinat nlimea (n cm) i greutatea (n kg). Vom analiza corelaia ntre cele dou
variabile, folosind pachetul statistic Excel. Rezultatele sunt prezentate n tabelele 5.1.a,
5.1.b i figura 5.8.
Tabelul 5.1.a. Sumarul statistic al datelor din exemplul 5.2 nlimea i greutatea unui lot de 60 copii.

Tabelul 5.1.b. Prelucrarea statistic prin analiza corelaiei i regresiei

Regression Statistics
Multiple R 0.9197
R Square 0.8459
Adj R Sq 0.8433
Std Error 1.3321
Obs 60

ANOVA
df SS MS F Signif F
Regression 1 565.03 565.03 318.4319 3.15E-25
Residual 58 102.92 1.7744
Total 59 667.95

Standard Upper
Coeff Error t Stat P-value Lower 95% 95%
Intercept -54.51 4.8293 -11.29 2.89E-16 -64.1764 -44.84
X Variab 1 0.6294 0.0353 17.845 3.15E-25 0.558797 0.7

105
Biostatistica

Corelatia Inaltime - Greutate

45.0

40.0

35.0
Greutatea

30.0

25.0

20.0
120 125 130 135 140 145 150 155
Inaltimea

Fig. 5.8. Diagrama scatter i dreapta de regresie


n primul tabel este sumarul statistic al celor dou variabile - nlimea i greutatea.
n tabelul 5.2.b sunt trecute rezultatele care apar prin prelucrarea statistic. Observm
c avem o corelaie puternic (r = 0,919), fiind i extrem de semnificativ (p = 3,15
10+25). n partea de jos apar coeficienii de regresie: panta este b = 0,629 0,035 iar
ordonata la origine este a = -54,5 4,8, cu alte cuvinte vom putea calcula valorile y cu
relaia:
y (greutatea) = -54,5 + 0,629 x (nlimea)
relaia de mai sus fiind ecuaia dreptei de regresie din exemplul nostru.
Putem s obinem i o reprezentare grafic n care apar att cele 60 puncte ct i
dreapta de regresie calculat mai sus, dup cum se vede n fig. 5.8.
0
iii - Testarea liniaritii
Corelaia liniar este cea mai simpl i cea mai studiat, de aceea n analiza
corelaiei ea se efectueaz prima; deseori, obinerea unor rezultate ce indic o corelaie
liniar slab este interpretat - nejustificat - ca absen a unei corelaii. Acest lucru
poate fi adevrat ns exist dese situaii cnd variabilele sunt destul de puternic
corelate ns nu liniar (fig.5.9). Exist posibilitatea de a calcula chiar abaterile de la
liniaritate. Totui, este bine s facem i o inspecie vizual asupra diagramei, care ne-ar
putea conduce la concluzii interesante. Literatura de specialitate chiar menioneaz c
majoritatea fenomenelor din natur sunt neliniare. Ele pot fi, desigur, aproximate prin
corelaii liniare pentru anumite intervale de valori, ns, abordarea neliniar este strict
necesar pentru aprofundarea fenomenelor.

106
Gheorghe Ioan Mihala, Diana Lungeanu

Figura 5.9. Corelaii neliniare

5.2. Corelaii neliniare


Dei corelaia liniar este ntlnit destul de des, o serie de fenomene din materia
vie conduc la reprezentri destul de deprtate de o dreapt, astfel nct este mult mai
potrivit alegerea altei relaii pentru descrierea dependenei ntre variabile n cazurile
respective.
n cele ce urmeaz vom enumera cteva corelaii neliniare mai des ntlnite n
medicin i biologie. Ele vor fi reluate, mpreun cu ecuaiile lor n 5.4.2.
a. Corelaii exponeniale
Sunt foarte des ntlnite n descrierea fenomenelor naturale, de exemplu:
corelaii exponeniale cresctoare, de ex.: n fenomene de absorbie (intestinal etc.)
corelaii exponeniale descresctoare, de ex.: clearance - funcia de epurare (renal,
hepatic).
b. Corelaii logaritmice
De exemplu legea Weber - Fechner relaia ntre senzaie i intensitatea stimulului.
c. Corelaii hiperbolice
O serie de relaii s-au potrivit mai bine n varianta hiperbolic:
legea lui Hill - relaia ntre for i velocitate (viteza de contracie pentru
muchiul striat), sau
legea lui Abbey - relaia ntre intensitatea i durata unui stimul luminos foarte
scurt pentru determinarea pragului de sensibilitate.
d. Corelaii logistice
n numeroase situaii reale de ex: cinetica enzimatic Michaelis - Menten - relaia
ntre viteza reaciei enzimatice i concentraia de substrat, sau n farmacodinamie -
curbele doz-efect - relaia ntre doza unei substane medicamentoase i efectul dozei
respective asupra unui esut (Ariens).

107
Biostatistica

5.3. Relaia ntre analiza corelaiei i analiza varianei


Specific pentru analiza corelaiei este faptul c analizeaz gradul de asociere ntre
variabile (n special cele numerice), spre deosebire de testele statistice care urmresc
deosebirile (diferenele) ntre variabile. n funcie de modul n care este formulat o
problem, ea poate viza fie diferene, fie asocieri. ntre cele dou abordri se pot stabili
diverse relaii. Astfel, existena unei corelaii (asocieri), s zicem cea ntre nlime i
greutate (cei care sunt mai nali au, n general, i o greutate mai mare) ar putea fi
transpus i sub forma unor diferene ne vom atepta s gsim diferene semnificative
ntre greutile unui lot ce cuprinde indivizii mai scunzi i ale unui lot cu indivizii mai
nali.
S observm c aceast reformulare a problemei, care conduce la schimbarea
metodei de analiz, presupune o transformare de variabil. n exemplul nostru,
nlimea, o variabil tipic numeric (continu) o transformm n variabil ordinal sau
calitativ, mprind lotul iniial n cteva subloturi (scunzi i nali sau scunzi / medii /
nali etc). Cealalt variabil, greutatea, rmne ca variabil numeric. Obinem astfel
dou sau mai multe (sub)loturi pentru care putem aplica testele statistice de evaluare a
diferenelor semnificative sau nu. Cazul general fiind cel al mpririi n n loturi,
analiza statistic ce va fi utilizat va fi analiza varianei ANOVA. De obicei, dac ntre
cele dou variabile pe care le corelm putem alege (argumentat) una ca variabil
independent i una ca variabil dependent, atunci se prefer transformarea variabilei
independente n variabil calitativ (clase) sau ordinal (clase ordonate).
Putem acum s explicm i de ce n tabelul 5.1.b apare prezentat i tabelul
caracteristic pentru analiza varianei, semnificaia coeficientului de corelaie fiind de
fapt aceeai cu semnificaia coeficientului F din ANOVA.

5.4. Fundamentare teoretic

5.4.1. Corelaia liniar

5.4.1.1. Coeficient de corelaie liniar


Intensitatea corelaiei este apreciat prin parametrul numit coeficient de
corelaie liniar Pearson.
0
i - Formula coeficientului de corelaie este:

r rxy
s xy

( X i X ) (Yi Y )
S x S y2 ( X i X ) 2 (Yi Y ) 2 (5.2.a)

unde

S x2 si S 2y reprezint variana lui x, respectiv y:

108
Gheorghe Ioan Mihala, Diana Lungeanu

S x2
(X i X )2
, S 2y
(Yi Y ) 2
(5.2.b)
N N

iar S xy se numete covariana ntre x i y i este dat de:

S xy
( X i X ) (Yi Y ) (5.2.c)
N

0
ii - Proprieti
am vzut mai sus proprietatea lui r de a avea valori cuprinse ntre -1 i +1
r [-1, +1] (5.3.a)

valorile pozitive ale lui r indic o corelaie direct n timp ce valori negative indic
o corelaie invers (fig. 5.4.a i b).
b. Semnificaia coeficientului de corelaie
Valorile lui r depind att de gradul de mprtiere al valorilor experimentale ct i
de N - numrul de puncte. Uneori, cnd N este mic putem obine, din ntmplare, valori
ridicate pentru r, conducndu-ne la concluzii hazardate cu privire la intensitatea
corelaiei. De aceea, se poate testa semnificaia coeficientului de corelaie liniar r.
Ipoteza de zero: H0: 0 ( coeficientul de corelaie liniar pentru
ntreaga populaie, r = coeficientul de corelaie obinut pe un eantion)
Test aplicat: testul t (Student)
Fundamentare teoretic:
Se poate demonstra c raportul:

N 2
t t calc r (5.3.b)
1 r 2

are o repartiie Student cu N 2 grade libertate.


Pentru un prag de semnificaie gsim n tabel valoarea t / 2, . n caz c
t calc t tab vom accepta H 0 ; n caz contrar o respingem i vom spune c avem o
probabilitate ridicat de a avea ntr-adevr o corelaie liniar.
Eroarea standard a coeficientului de corelaie se calculeaz cu relaia:

1 r 2
Sr (5.3.c)
N 1

deci pentru pragul de semnificaie , putem localiza intervalul n care se gsete


coeficientul de corelaie al populaiei p prin relaia:

109
Biostatistica

r (r t / 2, S r ; r t / 2, S r ) (5.3.d)

Pe baza relaiei (5.3.d) se poate construi un tabel sau se poate ridica un grafic cu
regiunea de acceptare / respingere a ipotezei de zero (figura 5.6).

5.4.1.2. Dreapta de regresie


Am definit anterior dreapta de regresie ca fiind dreapta care trece cel mai bine
printre puncte, fiind descris de ecuaia (5.1), n care a este ordonata la origine iar b
este panta dreptei
a. Metoda celor mai mici ptrate
Gsirea celei mai bune drepte care trece printre puncte poate fi calculat prin
diverse metode. Cea mai des folosit este metoda celor mai mici ptrate
Pentru determinarea coeficienilor a i b din ecuaia dreptei vom considera c cea
mai bun dreapt care trece printre punctele experimentale este cea pentru care suma
ptratelor abaterilor, i este minim , adic:

SSE i2 min . (5.4.a)

b - Formule pentru coeficienii dreptei de regresie.


Observm c pentru un punct experimental P(X i , Yi ), gsim pe dreapta de regresie
punctul P , ( X i , Yi ) la distanta i Y i Yi unde Yi reprezint valoarea pe care ar avea-
o variabila Y pentru valoarea lui dac punctul s-ar gsi pe dreapt:

Yi a bxi (5.4.b)

Suma SSE depinde de coeficienii a i b:

SSE ( yi a bxi ) 2 min (5.4.c)

Valoarea minim se obine cnd derivatele n raport cu a i b se anuleaz:

SSE SSE
0, 0 (5.4.d)
a b

Se obine un sistem de dou ecuaii cu dou necunoscute, a i b, care prin rezolvare


ne d rezultatele:

b
S xy

( X i X )(Yi Y ) Yxy S y (5.5.a)
S x2 (X i X )2 Sx

a Y b X (5.5.b)

110
Gheorghe Ioan Mihala, Diana Lungeanu

c - Intervale de ncredere pentru a i b


Celor N perechi de valori reprezentnd cele N puncte li se asociaz N 2
grade de libertate, ele fiind legate i prin relaia dreptei de regresie. Dac notm
dispersia abaterilor cu S 2 :

S2
SSE

i

2
( yi y ) 2 (5.6.a)
N 2 N 2 N 2

atunci eroarea standard pentru pant este:

S2
Sb (5.6.b)
S x2

iar pentru ordonata la origine

1 X2
Sa S 2 (5.6.c)
N (X i X 2
Pentru un prag de semnificaie , intervalele de localizare ale parametrilor estimai,
a si b
vor fi date de:

b (b t / 2, S b , b t / 2, S b ) (5.5.c)

a (a t / 2, S a , a t / 2, S a ) (5.5.d)

d - Teste de semnificaie pentru a i b.


Avnd calculate intervalele de ncredere a estimatorilor, putem aplica teste de
semnificaie pentru cei doi coeficieni ai dreptei de regresie.
Pentru pant:
ipoteza de zero: H 0 : 0
test aplicat: testul t (Student); pentru un prag de semnificaie ales i pentru
N 2 grade de libertate, din tabel avem t / 2 , . Calculm:

b
t calc b / sb (5.7.a)

i dac t calc t tab se accept H 0 , n caz contrar se respinge.


Pentru ordonata de origine
ipoteza de zero : H0 : a 0

111
Biostatistica

test aplicat : testul t (Student); pentru un prag de semnificaie ales i pentru


N 2 grade de libertate, din tabel avem t / 2 , . Calculm:

a
t calc a / Sa (5.7.b)

i dac t calc t tab se accept H 0 , n caz contrar se respinge.

e - Originea denumirii dreptei de regresie


Numele de dreapt de regresie a fost introdus de W.Galton care a studiat relaia
ntre nlimea copiilor i nlimea prinilor. Dei per ansamblu copiii au avut o
nlime medie mai ridicat dect a prinilor, aceast cretere nu era uniform
repartizat, fiind mai accentuat pentru copiii avnd prini mai scunzi, n timp ce
nlimea copiilor provenind din prini nali era deseori mai mic dect a prinilor
(figura 5.10). Interpretarea de tendin ctre mediocritate dat acestor observaii
suscit nc i azi o serie de discuii.
f - Testarea liniaritii
Am precizat anterior (5.2) c exist dese situaii cnd variabilele sunt destul de
puternic corelate ns nu liniar (figura 5.9). S relum aceast idee.
Pentru a verifica liniaritatea se construiete o nou variabil:

Yi Yi i
Zi (5.8.a.)
S2 S2

Figura 5.10. Alura unei reprezentri ilustrnd termenul de regresie


Ipoteza de zero: H 0 : regresia este liniar
Test aplicat: testul Z al distribuiei normale, astfel:
alegem un nivel de semnificaie i lum din tabel Z
dac Z i Z i = 1...N (5.8.b)

atunci acceptm H 0 , n caz contrar o respingem.

112
Gheorghe Ioan Mihala, Diana Lungeanu

g - ncadrarea dreptei de regresie


Dreapta de regresie teoretic Y = + X poate lua valori n intervalul (aici =
ordonata la origine, = panta)

Y (Y - t s y , Y t S y ) (5.9.a)

unde t este valoarea din tabelul repartiiei Student pentru un prag de semnificaie
ales, iar eroarea standard a estimrii lui Y pentru fiecare x se calculeaz cu:

1 (X X )2
S y S 2 (5.9.b)
N ( X )2
X2 N

n felul acesta n reprezentarea grafic a diagramei se traseaz i limitele de


ncadrare a dreptei (figura 5.11).

Figura 5.11. ncadrarea dreptei de regresie n intervale de ncredere de 95% i 99%.

Observaie: Dreapta de regresie a variabilei Y fa de X este diferit de dreapta de


regresie X fa de Y (deci cea care s-ar obine dac am inversa axele pe care sunt plasate
cele dou variabile); de aceea, cnd ar exista pericol de confuzie, coeficienii dreptei y
= f(x) = a + bx se mai noteaz by/x i ay/x n timp ce pentru dreapta X = f(y) se noteaz
bx / y respectiv a x / y . Coeficientul de corelaie r are aceeai valoare pentru ambele
drepte.

5.4.2. Corelaii neliniare


Dei corelaia liniar este ntlnit destul de des, o serie de fenomene din materia
vie conduc la reprezentri destul de deprtate de o dreapt, astfel nct este mult mai

113
Biostatistica

potrivit alegerea altei relaii pentru descrierea dependenei ntre variabile n cazurile
respective.

5.4.2.1. Raport de corelaie


n cazul regresiei neliniare, n locul coeficientului de corelaie r se folosete un alt
parametru numit raport de corelaie, dat de formula:

xy 1
i2
i2 (5.10)
i2 i2
unde , i au semnificaia din figura 5.5., cu deosebirea c punctul P va fi
,

situat pe curba de regresie (deci nu dreapt). n aceast relaie y se va calcula


conform curbei care se presupune c descrie relaia dintre x i y. Dac avem o corelaie
liniar, raportul de corelaie va fi egal cu coeficientul de corelaie.
Intervalele de ncredere pentru rapoartele de regresie se calculeaz cu ajutorul
coeficienilor F din testul lui Fisher.
n cele ce urmeaz vom enumera cteva corelaii neliniare mai des ntlnite n
medicin i biologie.

5.4.2.2. Exemple de corelaii neliniare


a. Corelaii exponeniale
Sunt foarte des ntlnite n descrierea fenomenelor naturale.
- Ecuaia regresiei exponeniale (una dintre cele mai des ntlnite):

y a e bx
(5.11.a)

avnd coeficienii a i b.
- Exemple:
0
i - corelaii exponeniale cresctoare (b 0) - n fenomene de absorbie
(intestinal etc.); variabila independent este timpul.
0
ii - corelaii exponeniale descresctoare (b 0) curbele de clearance - pentru
caracterizarea funciei de epurare (renal, hepatic) - variabila independent este timpul.
b. Corelaii logaritmice
- Ecuaia regresiei logaritmice:
y=a+b log x (5.11.b)

- Exemple:
legea Weber - Fechner n care
x = intensitatea stimulului
y = senzaia perceput

114
Gheorghe Ioan Mihala, Diana Lungeanu

Prin aceast relaie logaritmic se explic performanele deosebite ale analizorului


auditiv (paleta de 12 uniti logaritmice, de la 0 la 120 dB pentru intensitate) i ale
analizorului vizual pentru perceperea intensitilor slabe.
c. Corelaii putere
- Ecuaia funciei putere:
b
y=a.x (5.11.c)

- Exemple:
legea lui Stevens din biofizic:
x = intensitatea stimulului
y = frecvena impulsurilor nervoase pe o fibr.
d. Corelaii hiperbolice
- Ecuaia funciei hiperbolice:
(x - a) (y - b) = k (5.11.d)

- Exemple:
legea lui Hill n care:
x = fora contracie (ncrcarea, sarcina)
y = velocitate, adic viteza de contracie pentru muchiul striat
legea lui Abbey, la determinarea pragului de sensibilitate vizual, n care:
x = intensitatea unui stimul luminos foarte scurt (flash)
y = durata flash-ului
e. Corelaii logistice
- Ecuaia funciei logistice:

ax
y
b x (5.11.e)

- Exemple:
cinetica Michaelis Menten, n care:
x - concentraia de substrat
y - viteza reaciei enzimatice
Curbele doz-efect din farmacodinamie, n care:
x = doza unei substane medicamentoase
y = efectul dozei respective asupra unui esut (Ariens).
Reprezentrile funciei logistice se fac de obicei n coordonate y = f (log x), funcia
avnd n acest caz o form sigmoidal i o serie de proprieti de simetrie.
f. Alte corelaii neliniare
Mai rar ntlnim i alte corelaii neliniare: parabolice, polinomiale etc.

115
Biostatistica

5.4.2.3. Metode de fitare


Definiie: Metodele folosite pentru a gsi cea mai bun dreapt, sau curb de un
anumit tip, care s treac printre punctele experimentale se numesc metode de fitare.
Cele mai des ntlnite metode de determinare a parametrilor curbei (dreptei) de regresie
sunt:
a. Metoda celor mai mici ptrate, pe care am descris-o anterior, bazat pe
minimizarea sumei abaterilor punctelor experimentale de la curba de regresie (formula
5.4.a).
b. Metoda transformrilor liniare, prin care se efectueaz n ecuaia curbei de
regresie o schimbare de variabil astfel nct, cu noile variabile reprezentarea s devin
o dreapt. Iat cteva exemple:
- pentru regresia exponenial
log y = z, log a = c ; z = c + b . x (5.11.a)

- pentru regresia logaritmic


log x = z ; y = a + b . z (5.11.b)

- pentru regresia putere


log y = z , log x = t, log a = c ; t = c + b . t (5.11.c)

- pentru regresia hiperbolic


1 / (x+a) = z ; y = -b + k . z (5.11.d)

- pentru corelaia logistic:


1 / y = z, 1 / x = t, 1 / a = c, b / a = d ; z = c + d . t (5.11.e)

(Observaie: aceast transformare liniar se mai numete transformarea Lineweaver


Burke sau transformare dublu reciproc i este mult utilizat n prelucrarea datelor de
cinetic enzimatic).
Trebuie menionat c metoda transformrilor liniare conduce la rezultate ce difer
de metoda celor mai mici ptrate aplicat direct la datele experimentale.
c. Metoda asemnrii maxime (engl. maximum likelihood) - se bazeaz pe
determinarea valorilor pentru care datele experimentale ar fi aprut aa cu cea mai mare
probabilitate. Rezultatele obinute sunt apropiate de cele din metoda celor mai mici
ptrate.

5.4.3. Relaii ntre dou variabile ordinale


n cazul variabilelor ordinale parametrii definii anterior nu se mai potrivesc i sunt
definite mrimi specifice pentru ranguri.

5.4.3.1. Coeficientul de corelaie a rangurilor - Spearman


Este un coeficient de corelaie liniar ntre rangurile acordate diferiilor indivizi
n clasificri diferite.

116
Gheorghe Ioan Mihala, Diana Lungeanu

a. Formula:

R 1
6 D:2 (5.12.a)
N ( N 2 1)

unde Di este diferena ntre rangurile individului (elementului) i n cele dou


clasificri. Coeficientul de corelaie Spearman are aceleai proprieti cu coeficientului
lui Pearson: valori ntre -1 i +1, pozitiv pentru corelaie direct, negativ pentru invers.
b. Semnificaia coeficientului Spearman se testeaz cu relaia:
tcalc = R (N-2) / (1-R2) (5.12.b)

care are o repartiie t (Student) cu n-2 grade de libertate.


c. Exemplul 5.3.a
Considerm rezultatele obinute prin testul psihologic Luscher de preferin a
culorilor pe dou loturi: un grup de aduli i un grup de copii (cu vrsta 5-15 ani) -
tabelul 5.2. Aici indivizii sunt culorile, care sunt clasificate n mod diferit de cele
dou grupe studiate, copiii i adulii.

Tabelul 5.2. Rangurile preferinei culorilor prin testul Luscher la dou loturi

Culoarea Rangul Preferinei 2 Rezultate:


D
Copii Aduli D
R=Rou 1 5,5 -4,5 20,25 N=6
G=Galben 2 5,5 -3,5 12,25
D 2 51,5
V=Verde 5 4 1 1,00 R = - 0,471
A=Albastru 3,5 1 2,5 6,25 tcalc = 1,069
W=Alb 3,5 2 -1,5 2,25 t0,05;4 = 2,13
N=Negru 6 3 3 9,00 Corelaie nesemnif.
S-a obinut o corelaie invers, medie (R = - 0,471), care nici nu este semnificativ,
prin aplicarea testului t obinnd valoarea calculat mai mic dect cea din tabel pentru
nivel de ncredere de 95% i 4 grade de libertate.

5.4.3.2. Coeficientul de corelaie Kendall


Este tot un coeficient de corelaie pentru ranguri.
a. Formula
2S
K (5.12.c)
N ( N 1)

unde S este suma scorurilor pozitive i negative ale rangurilor dintr-o clasificare
pentru toate cele N (N 1) combinaii posibile n raport cu cealalt clasificare. Se
noteaz scorul cu +1 ori de cte ori o combinaie este concordant (are acelai
clasament) i cu -1 ori de cte ori o combinaie este discordant (clasamentele difer).

117
Biostatistica

b. Exemplul 5.3.b
Rearanjm datele din tabelul 5.2 astfel nct o clasificare s fie ordonat (de ex. cea
pentru copii); datele apar acum ca n tabelul 5.3.

Tabelul 5.3. Rangurile preferinei culorilor - dou clasamente obinute pe dou loturi: copii i aduli -
rearanjarea datelor din tabelul 5.2.

Rangul Preferinei D(-) D(+)


Culoarea Copii Aduli Notaie ri rj, , j i ri rj , j i
Rou 1 5,5 r1 4(r3,r4,r5,r6) 0
Galben 2 5,5 r2 4(r3,r4,r5,r6) 0
............. ............. ............ ......... ......... ............
Albastru 3,5 1 r3 0 (r4,r5,r6)
Alb 3,5 2 r4 0 (r5,r6)
............. ............ ........... .......... ........... .............
Verde 5 4 r5 1( r6 ) 0
Negru 6 3 r6 -
-
-9 +5
Deci S = -9 + 5= -4 i nlocuind n (5.12.c) obinem K = - 0,266.
Exist tabele prin care se poate n continuare verifica i semnificaia acestui
coeficient de corelaie.

5.4.4. Relaii ntre variabile nominale


Corelaia ntre variabilele nominale nu se caracterizeaz prin coeficieni de
corelaie ci se efectueaz prin aplicarea unui test statistic care s indice prezena /
absena unor corelaii ntre clasificrile realizate dup mai multe criterii.

5.4.4.1. Testul de independen 2


Sub forma prezentat n capitolul 5 testul poate da informaii asupra corelaiei /
independenei ntre clasificrile n cte dou clase, dup dou criterii.
Testul poate fi generalizat pentru m clase i n criterii; n acest caz se utilizeaz mai
des un coeficient de contingen C:

2
C (5.13.a)
2 N

Coeficientul C = 0 implic indic independena ntre variabile; cu ct este mai


mare, cu att legtura este mai puternic (valoarea maxim C max 1 / 2 0,707 ).

118
Gheorghe Ioan Mihala, Diana Lungeanu

5.4.4.2. Ali indicatori


Pentru variabile nominale sau propus i ali indicatori care s ilustreze posibile
relaii ntre clase:
a. Indicatori de asociere
- folosit pentru tabele de contingen 2 2
- formula:

bc ad
(5.13.b)
L1 L2 C1C 2

L1 , L2 , C1 i C2 fiind totalurile pe linii, respectiv coloane.


- [-1, + 1] ; valori extreme indic asociere puternic, valori n jurul lui 0 indic
independen
- semnificaia statistic se determin cu ajutorul repartiiei i formula:

2 N 2 (5.13.c)

b. Indicatori de grupare
Prin diverse tipuri de analize se pot gsi criterii dup care indivizii unui lot se pot
grupa n mai multe clase astfel nct s se poat preciza asemnarea ntre indivizii unei
clase i deosebirea lor fa de indivizii altor clase.

5.4.5. Relaii ntre mai multe variabile cantitative


n cazul n care generalizm analiza bivariat, n care urmream relaia ntre
variabil (dependent) i o variabil independent, obinem o analiz multivariat, n
care avem o funcie de mai multe variabile:

y f ( x1 , x2 , ..., x n ) (5.14.a)

Cea mai simpl relaie este regresia liniar multipl, n care considerm
dependena de forma:

y b0 b1 x1 b2 x 2 .... bn x n (5.14.b)

Cea mai bun suprafa de regresie se obine cnd:

i2 ( y i y ) 2 min (5.14.c)

unde y i b0 b1 x1i b2 x 2i .... bn x ni (5.14.d)

119
Biostatistica

Pentru regresia multipl se definesc:


- coeficientul de corelaie global
- coeficienii de corelaie pariali (lund pe rnd fiecare pereche de variabile).

Caseta 5a. Definiii


Analiza corelaiei procedeu statistic de analiz a gradului de asociere ntre variabile
cantitative (numerice sau ordinale).
Coeficient de corelaie indicator al intensitii corelaiei ntre dou variabile.
Diagrame de corelaie reprezentri grafice avnd pe axe cele dou variabile;
1 individ = 1 punct (scatter diagram).
Dreapt de regresie cea mai bun dreapt care trece printre punctele diagramei de
corelaie.
Semnificaia coeficientului de corelaie se testeaz cu testul t i se interpreteaz ca
orice test (dac p > 0.05 corelaia nesemnificativ, dac p < 0.05 corelaie
semnificativ etc.).

Caseta 5b. Corelaii recomandate


Pentru corelaia ntre variabile numerice coeficientul de corelaie linear Pearson.
Pentru variabile ordinale/rang coeficientul de corelaie Spearman sau coeficientul
de corelaie Kendall.

120
Gheorghe Ioan Mihala, Diana Lungeanu

6. EPIDEMIOLOGIE ANALIZA
RISCULUI
Cuprins
A. Prezentare descriptiv
Analiza riscului
Factori de risc
Metode de studiu
Indicatori de risc
B. Fundamentare teoretic
C. Sintez: Caseta 6: Definiii

Epidemiologia este un domeniu medical pluridisciplinar avnd o zon de


intersecie mare cu biostatistica. n epidemiologia clinic se urmrete att determinarea
frecvenei de apariie a unei boli ct i definirea unor asocieri ntre boal i factori
cauzali sau favorizani. Cnd se suspecteaz vreo astfel de asociere, se ncearc la
nceput s se identifice condiiile care determin creterea riscului unei afeciuni, apoi
evidenierea unei relaii cauz-efect, avnd n final consecine n dezvoltarea unui
tratament adecvat i a unor strategii profilactice.
Studiile epidemiologice intr n categoria studiilor populaionale care cuprind dou
mari capitole:
analiza riscului (partea central a epidemiologiei)
analiza supravieuirii.

6.1. Factori de risc. Noiuni generale


a) Definiie: O cauz ipotetic (indiferent de natur - comportament, condiie,
caracteristic fizic sau de mediu etc.) ce determin creterea probabilitii ca un individ
sntos s dezvolte o anumit boal reprezint un factor de risc.
b) Clasificare:
factori de mediu: factori poluani, toxine, microorganisme infecioase etc.
factori comportamentali (obiceiuri): fumat, alcool, droguri, nerespectarea msurilor
de protecie a muncii, sedentarism etc.
factori sociali: evenimente familiare tragice, divor, pierderea serviciului etc.
factori genetici: hipercolesterolemie etc.

121
Biostatistica

c) Tipuri de expunere la aciunea factorului de risc:


expunere punctual - ex. accidente (la o ntreprindere chimic etc.)
expunere cronic - cea mai frecvent; se estimeaz n aceste condiii doza
curent, doza cumulat, durata expunerii etc.
d) Relaia factor risc / boal
factor cauzal - cnd putem atribui factorului o aciune direct
factor favorizant (marker) care crete probabilitatea, dar nu i se poate atribui o
aciune direct (ex.: factorii sociali - economici, educaionali etc.).
Prezentarea datelor
Uzual datele din analiza riscului se prezint sub forma unui tabel de contingen,
cel mai frecvent 2 2 (cu dou linii i dou coloane) n care ntregul lot de N indivizi
este mprit n grupul de indivizi expui (L1), respectiv neexpui (L2). Din fiecare grup,
o parte dezvolt boala, (N11 din L1, respectiv N21 din L2), o parte nu (N12 din L1,
respectiv N22 din L2) - tabelul 6.1.
Tabelul 6.1. Prezentarea schematic a datelor unui studiu epidemiologic:
E+ =expui, E- = neexpui la aciunea factorului de risc;
B+ = prezint boala, B- = nu prezint boala.

B+ B-
E+ N11 N12 L1
E- N21 N22 L2
C1 C2 N

6.2. Metode de studiu n epidemiologie


Culegerea datelor pentru completarea tabelului 6.1 se poate realiza prin mai multe
metode, care sunt prezentate sistematizat n fig. 6.1.

Figura 6.1. Metode de studii epidemiologice

122
Gheorghe Ioan Mihala, Diana Lungeanu

6.2.1. Studii experimentale


Din punct de vedere teoretic rezultatele cele mai de ncredere s-ar obine ntr-un
studiu experimental, n care investigatorul are controlul complet asupra factorului de
risc (ca variabil independent, cu rol cauzal) i urmrete efectul asupra grupelor
(variabile dependente). ns din considerente etice i deontologice aceste studii sunt
limitate doar la aciunea unor factori cu risc redus.

6.2.2. Studii observaionale


n marea majoritate a cazurilor studiile trebuie efectuate pe loturi n care expunerea
nu s-a ntmplat la dorina expres a investigatorului. Marile dezavantaje ale studiilor
observaionale sunt: precizia limitat a msurrii aciunii factorului de risc (intensitate,
durat) i stabilirea grupelor expui/neexpui ce vor fi comparate concret.
Recunoaterea i controlul unor eventuale surse de bias constituie unul din
elementele urmrite prioritar n aceste analize.
Studiile observaionale se mpart n studii transversale (desfurate la un moment
dat), sau longitudinale care acoper un interval larg de timp.
i - Studiul transversal (cross-sectional) se mai numete i studiu de prevalen.
Este cel mai simplu model, bazat pe fotografierea unei situaii la un moment dat,
culegnd date de tipul celor din tabelul 6.1, prin dou ntrebri, una care s permit
ncadrarea n E+ sau E -, iar cealalt pentru identificarea prezenei afeciunii (ncadrarea
n B+ sau B -).
Dintre dezavantajele mai des citate reinem:
estimarea prevalenei este influenat n cazul evoluiilor rapide (fie spre deces fie
spre recuperare);
incertitudinea anteceden - consecin.
ii Studiile longitudinale acoper un interval mare de timp, uzual de ordinul
anilor, chiar zeci de ani. Dup modul n care sunt selectate grupele de lucru, aceste
studii pot fi:
a) studii pe cohort n care definim dou grupe de lucru formate din persoane
care, n starea iniial nu prezint afeciunea urmrit. Un grup va cuprinde indivizii
care sunt expui la aciunea factorului de risc (lotul E+), iar cellalt cuprinde indivizi
ne-expui (lotul martor, sau control, notat E-). Loturile sunt urmrite n timp, pornind
din momentul definirii lor; se identific apariia afeciunii n ambele loturi. Studiile
tipice de tip cohort au un caracter prospectiv, fiind concepute pentru a culege
rezultatele ntr-un moment din viitor (Fig. 6.2.a). ns, deoarece aceste studii necesit
intervale ndelungate de timp, a fost propus o variant n care se mut formal
momentul de start al studiului undeva n trecut, urmrind a selecta n grupurile E+ i
E , pe baza datelor medicale disponibile, persoane care s-ar fi calificat la momentul
respectiv s aparin acestor loturi. Aceste studii se mai numesc cohort retrospective,
sau historical cohort. La fel ca n studiul prospectiv pe cohort evoluia se urmrete
n sensul natural al scurgerii timpului, pornind de la situaia unui grup iniial din care
o parte au fost expui i acum putem evalua la ci din fiecare grup, a aprut
afeciunea analizat (Fig. 6.2.b). Denumirea de cohort provine e la numele unei
uniti militare n epoca roman (cohorta), care oferea condiii asemntoare de lupt
pentru membrii ei.
123
Biostatistica

b) studii case-control, studii de tip retrospectiv clasic - n care grupul analizat


cuprinde cazurile n care a aprut boala i investigm n care din aceste cazuri a
existat o expunere la factorul de risc (deci urmrim n sens invers temporal) i
identificm apoi prezena/absena factorului de risc i pentru un grup martor (control)
- figura 6.2.c. Aceste studii case-control, dei mai comode pentru colectarea unor
date, au destule dezavantaje: grupul martor nu poate fi ntmpltor ci trebuie selectat
pe aceleai criterii ca i grupul de cazuri; de asemenea, dac grupul B+ este selectat
dintre cazurile spitalizate, el deja cuprinde un important bias: cazurile mai grave!
Datele culese n studiile case-control nu pot fi folosite pentru orice tip de prelucrri.
S nu uitm c noi am ales att grupul B+ ct i B -, deci propoia B+ n totalul
nostru NU reprezint prevalena!

Figura 6.2. Tipurile de studii epidemiologice - prezentarea schematic: (a i b) studii de tip cohort; (c) studii
de tip case-control.

iii - Compararea metodelor


O analiz a posibilelor surse de erori n diversele tipuri de studii ne permite o
ierarhizare a metodelor enumerate, cele mai bune rezultate fiind ateptate de la studiile
experimentale; prezentarea ierarhic a metodelor este schiat n tabelul 6.2.
Tabelul 6.2. Ierarhia metodelor de studiu n epidemiologie, funcie de puterea acestora

experimental cohort-prospectiv cohort-retrospectiv case-control cross-sectional

6.3. Indicatorii din analiza riscului


Dei introducem aceast prelucrare a datelor n contextul analizei riscului, metoda
are caracter mai general, fiind recomandat pentru a analiza gradul de asociere a dou
variabile nominale (calitative), aa cum prin analiza corelaiei urmream asocierea a
dou variabile numerice.

124
Gheorghe Ioan Mihala, Diana Lungeanu

n analiza riscului se definesc doi indicatori importani OR Odds Ratio i RR


Riscul Relativ. Vom prezenta sumar n aceast parte modul n care se definesc aceti
indicatori pentru studii transversale sau cohort pe loturi independente, acestea urmnd a
fi dezvoltate i adugate mai multe detalii n zona de fundamentare teoretic.

6.3.1. Riscul Relativ


ii RR - Riscul relativ reprezint probabilitatea de apariie a afeciunii la cei
expui fa de probabilitatea de apariie a afeciunii la cei neexpui la factorul de risc.

N11 / L1
RR (6.1.a)
N 21 / L2

6.3.2. Odds Ratio


i OR - Raportul odds (odds ratio) arat de cte ori este mai mare ansa de
mbolnvire n lotul expus fa de cel neexpus, avnd ca referin proporiile celor care
nu se mbolnvesc. Se exprim printr-o relaie simpl:

N11 N 22
OR (6.1.b)
N 21 N12

Raportul OR este folosit mai des n studiile de analiz a riscului att pentru faptul
c este mai sensibil (are valori mai mari n cazul unui risc real) ct i pentru c este mai
general; RR nu poate fi folosit n studiile case-control.
Dac riscul relativ are valoarea OR 1 (sau RR 1) putem spune c factorul
analizat nu reprezint un factor de risc, probabilitatea de apariie a afeciunii fiind la fel
de mare i la lotul neexpus factorului de risc. La modul general vom spune c asocierea
ntre cele dou variabile este statistic nesemnificativ. Valori OR 1 (sau RR 1) dau o
semnificaie aciunii factorului de risc. n schimb, valori subunitare ar sugera o aciune
contrar, deci factorul analizat ar putea fi considerat factor protector.
Pentru a estima intervalul de ncredere n care indicatorii OR i RR pot fluctua
ntmpltor se folosesc limitele Cornfield pentru p = 95% probabilitate ca ipoteza de
zero s fie adevrat. Programele de calculator afieaz de obicei att limita inferioar
ct i cea superioar (engl lower limit i upper limit). Dac valoarea 1 este inclus
n acest interval vom considera rezultatul nesemnificativ (adic astfel de valori pentru
OR sau RR aveau ans peste 5% s apar din ntmplare), iar dac i limita inferioar
este mai mare dect 1 atunci rezultatul este semnificativ vom spune ca factorul
analizat este ntr-adevr un factor de risc.
Exemplul 6.1. Un studiu privind efectele posibile ale lucrului ntr-un mediu cu nivel
relativ nalt de zgomot (peste 75 dB) a cuprins un lot de 80 muncitori care lucrau peste
6 ore pe zi n aceste condiii. Dup 2 ani de zile s-a constatat c 11 dintre ei prezentau o
scdere a sensibilitii acustice. Un lot de control, format din 108 persoane a fost
urmrit n paralel i dup 2 ani s-a constatat o scdere a sensibilitii acustice la 7
persoane. Putem spune c a petrece peste 6 ore pe zi n zgomot de peste 75 dB
reprezint un factor de risc pentru scderea sensibilitii acustice?

125
Biostatistica

Prezentm n fig. 6.3 rezultatele aa cum apar ele afiate prin prelucrri cu pachetul
Epi-Info, programul Statcalc.

Fig. 6.3. Rezultatele exemplului 6.1 prelucrate cu programul Statcalc din Epi-Info
Observm c, n ciuda valorii mari obinute pentru OR (2,30), respectiv RR (2,12),
asocierea este nesemnificativ, avnd p = 0,0940 > 0,05. Sunt vizibile i intervalele de
ncredere pentru OR (2,30 6,96), respectiv RR (0,86 5,23), valoarea 1 fiind n
interiorul acestor intervale.

6.4. Fundamentare teoretic

6.4.1. Indici n studii populaionale


i - Prevalena unei boli ntr-o populaie: este proporia din populaia respectiv
avnd boala (la un moment dat):

N B (t ) Nr. indivizi avnd boala B


Pr v (B,t) (6.2.a)
N nr. populaie

ii - Incidena unei boli: este numrul de cazuri ce apar ntr-un interval t (t1 ,t2)
ntr-o populaie cu risc. Ea poate fi exprimat prin:
. incidena cumulativ CI: proporia ntr-un grup fix predefinit (cohort) la care
apare boala n intervalul specificat.

N inc (t ) nr. cazuri noi in t


CI (B, (6.2.b)
N risc nr. populatie cu risc

. densitatea de inciden ID (numit i rata de inciden, rata de hazard sau fora


morbiditii/mortalitii): este dat de numrul de cazuri noi ce apar ntr-un interval t
(t1,t2) ntr-o populaie cu risc, studiat pe diverse perioade de timp. ntr-un studiu
practic, pe o perioad ndelungat, din lotul iniial (tip cohort) se pierd o serie de
persoane din diverse motive (se mut, mor din alte motive, nu continu tratamentul
etc.). De aceea, cei care nu au fost prezeni ntreaga perioad nu se scot din studiu ci vor
fi luai n considerare numai n msura n care situaia lor a fost cunoscut.

126
Gheorghe Ioan Mihala, Diana Lungeanu

N inc (t ) nr. cazuri noi in t


ID (B , *
(6.2.c)
N risc nr. mediu populatie cu risc pe interval

Dac loturile sunt omogene se poate folosi cu aproximaie relaia:

CI ID x t (6.2.d)

De asemenea, se poate aproxima o relaie ntre prevalen i inciden:

Prv ID x T (B) (6.2.e)

unde T (B) este durata medie a bolii.


iii - Rata de morbiditate (Mrb): este incidena unei boli ntr-o populaie, ntr-un
anumit interval de timp (adesea 1 an).
iv - Rata de mortalitate: enumer cazurile de deces dintr-o populaie, ntr-un
anumit interval de timp; se utilizeaz:
rata de mortalitate general: din orice cauz
rata de mortalitate specific pe cauze: separat, pe boli sau grup de boli - (de
exemplu: cardiovasculare etc.)
rata brut de mortalitate: fa de ntreaga populaie
rata de mortalitate specific pe categorii: separat, pe anumite subgrupe de
populaie
rata de mortalitate pe grupe de vrst
rata de mortalitate corectat, pe grupe de vrst - se fac corecii n funcie de
distribuia pe grupe de vrst.
v - Rata de fatalitate a bolii: rata de deces ntr-o populaie avnd boala, ntr-un
interval de timp
vi - Rata de atac: pentru boli cu durat scurt, cnd durata observaiei acoper
ntreaga epidemie: proporia celor ce dezvolt boala din populaia cu risc (= CI).

6.4.2. Riscul Relativ


S definim la nceput riscul absolut.
iii - Riscul absolut: reprezint probabilitatea (rata) de apariie a bolii. Vom avea,
pentru lotul de expui, respectiv pentru ne-expui rapoartele:
R (E+) = p (B+ / E+) = N11 / L1 (6.2.a)

R (E -) = p (B+ / E-) = N21 / L2 (6.2.b)

iv - Riscul relativ: este raportul ntre riscul absolut pentru lotul de expui, fa de
cel pentru lotul de ne-expui i reprezint probabilitatea de apariie a afeciunii la cei
expui fa de probabilitatea de apariie a afeciunii la cei neexpui la factorul de risc.
RR = R (E+) / R (E -) = (N11 L2) / (N21 L1) (6.2.c)

127
Biostatistica

Dac riscul relativ are valoarea RR 1 putem spune c factorul analizat nu


reprezint un factor de risc, probabilitatea de apariie a afeciunii fiind la fel de mare i
la lotul neexpus factorului de risc. Valori RR 1 dau o semnificaie aciunii factorului
de risc. Pentru a estima intervalul de ncredere n care parametrul RR poate fluctua
ntmpltor se folosesc limitele Cornfield pentru p = 95% probabilitate ca ipoteza de
zero s fie adevrat.

6.4.3. Odds Ratio

6.4.3.1. Indici odd


a) Definiie. Indicele odd exprim raportul succes / eec i poate fi definit cu
probabiliti astfel:
O = p(even.s apar) / p(even.s nu apar) (6.3.a)

Ca i probabilitile, indicii odd pot fi condiionai (cnd probabilitile la care ne


referim sunt condiionate) sau necondiionai n cellalt caz. Cnd aplicm indicii odd la
analiza riscului, vom lua sensul de eec sau succes privit din punct de vedere al
factorului de risc. (De ex. cei N11 mbolnvii din lotul celor L1 expui sunt luai ca
succes al factorului de risc).
b) Pentru studii transversale i cohort vom defini indicii odd astfel:
O (B+/E+) exprim probabilitatea de apariie a bolii la cei expui fa de
probabilitatea de a nu aprea boala la cei expui. Cu notaiile din tabelul 6.1 putem
scrie:
O (B+/E+) = p(B+ / E+) / p(B - / E+) = N11 / N12 (6.3.b)

O (B+/E -) = p(B+ / E -) / p(B - / E -) = N21 / N22 (6.3.c)

adic n cte cazuri prezena factorului de risc (E+ = subieci expui) are succes
n declanarea bolii (N11) fa de situaiile de eec (N12); similar raportul succes / eec
pentru condiia absenei factorului de risc (E - = neexpui).
c) Pentru studii case-control
Deoarece loturile case i control sunt alese de ctre investigator, valoarea
p(B+) dintr-un tabel de forma 6.1 nu va reflecta prevalena bolii, aa c nici
probabilitile condiionate p(B+/E+), p(B+/E -), p(B -/E+) i p(B -/E -) nu pot fi
calculate direct din datele culese.

6.4.3.2. OR - Raportul odds (odds ratio): este raportul indicelui


odd pentru grupul expus fa de cel neexpus la factorul de risc:
O( B / E ) N11 / N12 N11 N 22
OR (6.3.d)
O( B / E ) N 21 / N 22 N 21 N12

Limitele intervalului de ncredere se stabilesc cu relaia:

128
Gheorghe Ioan Mihala, Diana Lungeanu

lnUL & LL lnOR Z / 2


1 1 1 1
(6.3.e)
N11 N12 N 21 N 22

6.4.4. Ali indicatori din analiza riscului


i - Riscul atributabil (engl attributable risk): este diferena ntre probabilitatea
de apariie a bolii la cei expui i cea de apariie a bolii la cei neexpui; reprezint
excesul de risc datorat expunerii. Formula este:
AR = p(B+ / E+) p(B+ / E -) = N11 / L1 - N21 / L2 (6.4.a)

ii - Riscul atributabil populaiei (population attributable risk) se face corecia


pentru populaia expus (excesul de risc al bolii n populaie):
PAR = AR p(E+) (6.4.b)

iii Fraciunea atributabil (AR%) numit i fraciune etiologic:


AFE = AR / p(B+ / E+) = (RR 1) / RR (6.4.c)

iv - Fraciunea atributabil populaiei (PAR%), numit i fraciune etiologic


total:
AFT = PAR / p(B+) (6.4.d)

6.4.5. Loturi pereche


Studiile uzuale de analiza riscului se realizeaz pe loturi independente. n practic
este foarte dificil a avea loturile asemntoare, fiind foarte probabil i prezena altor
factori de difereniere ntre loturi, nu numai factorul de risc. De aceea, se prefer ca, ori
de cte ori este posibil, s se lucreze pe loturi perechi (engl. matched).
Pn acum am utilizat termenul de serii perechi numai pentru valorile colectate pe
aceiai indivizi n (dou) condiii diferite. De fapt termenul are un caracter mai general.
Vom folosi tot tehnicile statistice pentru serii pereche i n cazuri n care lucrm pe
indivizi diferii, dar asociai n perechi dup diverse criterii. Astfel, dac am lucra pe un
lot de gemeni din care unul satisface o condiie pe care nu o ntlnim i la cellalt, am
putea aplica pentru a studia diferenele testele statistice recomandate pentru serii
pereche.
n acelai mod se pot construi serii pereche pentru studii de analiz a riscului.

6.4.5.1. Pentru studii transversale i cohort


Exemplul 6.2.a. Efectum un studiu privind riscul de avort spontan produs de
expunerea la pesticide. Lum n eviden un numr de N femei din zone rurale n care
se folosesc pesticide (E+), care au rmas nsrcinate ntr-o perioad bine definit (cu 1
2 luni nainte de perioada mprtierii pesticidelor). Vom cuta apoi din evidenele
sarcinilor un numr similar de femei nsrcinate n aceeai perioad, dar care locuiau n
zone n care nu se folosesc pesticide (de ex.: zone urbane). Pentru fiecare femeie din
lotul expus vom alege o pereche din lotul ne-expus, n care s aib: vrst similar
(diferen maxim 1 an) i acelai istoric al avorturilor anterioare. Urmrim ambele loturi
pn la natere. Vom nota cu N11 numrul perechilor de femei care ambele avorteaz,
129
Biostatistica

N12 numrul perechilor n care femeia din lotul expus avorteaz n timp ce cea din lotul
neexpus nu, N21 situaia invers, n care femeia expus nu avorteaz iar cea ne-expus
avorteaz i N22 cnd ambele duc sarcina la sfrit. Rezultatele le trecem ntr-un tabel
de forma tabelului 6.3. S observm c valorile din tabel reprezint perechi de femei, n
studiu fiind implicate n total 2N femei.

Tabelul 6.3. Tabelul pentru studii cohort cu loturi pereche

E
Ne-expui Total
B+ B linii
(boala) (boala abs)
B+ N11 N12 L1
E+ (boala)
expui B N21 N22 L2
(boala abs)
Total C1 C2 N
coloane

Calculul lui OR se realizeaz dup relaia:


OR = O [(B+ / E+) & (B - / E -)] / O [(B - / E+) & (B+ / E - )] (6.5.a)

sau
OR = N12 / N21 (6.5.b)

6.4.5.2. Pentru studii case-control


Exemplul 6.2.b. Relum studiul anterior ns l vom transforma n studiu case-
control. Lum n eviden N femei care au prezentat avort spontan (B+) ntr-o perioad
bine definit din an (aleas nct avortul putea fi cauzat de expunerea la pesticide). n
paralel lum n eviden un numr egal de femei din aceeai zon) care au dus sarcina la
bun sfrit. Al doilea lot a fost alctuit alegnd pentru fiecare femeie din primul lot, care
a prezentat avort spontan, o pereche din lotul care a dus sarcina la sfrit, respectnd
pentru crearea perechilor nite criterii bine definite de potrivire de vrst i istoric al
avorturilor. Se investigheaz ambele loturi retrospectiv privind expunerea sau nu la
pesticide. Vom nota cu N11 numrul de perechi de femei n care ambele au fost expuse,
N12 numrul perechilor n care cele care au avortat au fost expuse iar perechile lor nu,
N21 numrul perechilor n care situaia a fost chiar invers, adic cele care au avortat nu
au fost expuse n timp ce cele care au dus sarcina la sfrit da, iar N22 cnd nu au fost
expuse nici cele care au avortat, nici cele care au dus sarcina la sfrit. Din nou, n tabel
au fost trecute perechile de femei (tabelul 6.4).
Tabelul 6.4. Tabelul de date pentru studii case-control cu loturi pereche

B
(boala abs) Total
E+ E- linii
expui Ne-expui
E+ N11 N12 L1
B+ expui
(boala) E N21 N22 L2
Ne-expui
Total C1 C2 N
coloane

130
Gheorghe Ioan Mihala, Diana Lungeanu

Calculul lui OR se face din nou dup relaii asemntoare:


OR = O [(E+ / B+) & (E - / B -)] / O [(E+ / B -) & (E - / B+)] (6.5.c)

Sau
OR = N12 / N21 (6.5.b)

Observm c, n final se obine acelai raport (6.5.b).

6.4.6. Relaia ntre analiza riscului i testele statistice

6.4.6.1. Serii independente


nc de la alctuirea primului tabelul 6.1 puteam remarca posibilitatea de a analiza
datele n maniera n care fceam comparaia variabilelor nominale.
S relum aceast idee. Distribuia din tabelul 6.1 o numim distribuie expe-
rimental, valorile Nij fiind valori observate. Construim acum o distribuie teoretic,
avnd n csue valorile teoretice T ij corespunztoare (valori ateptate, engl.
expected).

Tabelul 6.5. Distribuia teoretic echivalent distribuiei din tabelul 6.1.

B+ B-
E+ T11 T12 L1
E- T21 T22 L2
C1 C2 N
n distribuia teoretic (tabelul 6.5) vom avea aceleai totaluri pe linii i coloane, iar
valorile teoretice se calculeaz dup relaia:
Tij = Li Cj / N (6.6.a)

Comparm cele dou distribuii (cea experimental din tabelul 6.1 cu cea teoretic
din tabelul 6.5).
Ipoteza de zero: diferenele ntre distribuii sunt nesemnificative, adic
H0 : Nij = Tij pentru toi i,j (6.6.b)
2
Testul recomandat este testul . Se calculeaz statistica

2calc = (Nij Tij)2 / Tij (6.6.c)


i se compar cu valoarea din tabel pentru numrul corespunztor de grade de
libertate i un nivel de semnificaie ales. Pentru un tabel cu r linii i c coloane, numrul
gradelor de libertate este dat de relaia
= (r 1) (c 1) (6.6.d)

deci n cazul tabelelor 2 2 vom avea = 1 i pentru nivelul de ncredere de 95%


valoarea lui 2tab = 3,84.
Dac 2calc > 2tab diferenele vor fi semnificative i vom respinge H0.
ns, respingerea lui H0 datorit faptului c diferenele sunt semnificative nsemn,
de fapt, c cele dou variabile calitative prezena expunerii, respectiv prezena
131
Biostatistica

(apariia) bolii sunt asociate, lucru ce este demonstrat prin valoarea lui OR (inclusiv
intervalul su de ncredere).
Pentru tabelele de analiza riscului putem deci considera c se efectueaz testul 2
pentru ipoteza de zero:
pentru studii transversale sau cohort:
H0 : p(B+ / E+) = p(B+ / E -) (6.6.e)

pentru studii case-control:


H0 : p(E+ / B+) = p(E+ / B-) (6.6.f)

Programele de calculator care efectueaz analiza riscului, aplic i testul 2 .


Pentru exemplul 6.1, cu rezultatele prezentate n fig. 6.3, vedem afiat valoarea 2calc =
2,80, creia, pentru 1 grad de libertate i corespunde p = 0,094, deci diferenele nu sunt
semnificative, ceea ce este echivalent cu asocierea este nesemnificativ, p avnd
aceeai valoare i aceeai interpretare probabilitatea ca aceste diferene / asocieri s
apar din ntmplare.

6.4.6.2. Serii perechi


Am vzut c tabelele de contingen se construiesc diferit pantru serii pereche i
OR se calculeaz de asemenea diferit. n aceste situaii i testul care se recomand
pentru semnificaia diferenelor este testul McNemar o versiune a testului 2. Se
calculeaz statistica:
2calc = ( | N12 N21 | - 1)2 / (N12 + N21) (6.6.g)
Interpretarea se face similar cu orice test 2.

6.4.7. Analiza stratificat


Deseori indivizii unei populaii sunt supui la aciunea simultan a mai multor
factori de risc. Depistarea contribuiei fiecrui factor de risc la efectul final se realizeaz
prin analiza multistratificat. Se alctuiesc tabele de forma celui din tabelul 6.6.a.
Tabelul 6.6.a. Prezentarea datelor ntr-un studiu cu doi factori de risc (fumat, cafea)

Lot: boal coronarian + Lot: boal coronarian -


Subiect Fumat Cafea Subiect Fumat Cafea
(mg / zi) (mg / zi)
1 DA 1100 1 DA 1000
2 DA 800 2 NU 300
3 NU 200 3 NU 100
..... ..... ..... ..... ...... ......
12 8/4 m = 716 12 3/9 m = 400

O analiz superficial incomplet ne-ar putea induce ideea unui risc crescut al
consumului de cafea asupra declanrii afeciunilor coronariene, conform centralizrii
din tabelul 6.6.b.

132
Gheorghe Ioan Mihala, Diana Lungeanu

Tabelul 6.6.b. Influena consumului de cafea n bolile coronariene

Boal Consum zilnic mediu (mg)


B+ 716
B- 400

O stratificare nct s se includ i fumatul, va scoate n eviden rolul dominant al


acestuia (tabel 6.6.c).
Tabelul 6.6.c. Tabel stratificat: consumul mediu de cafea / zi la fumtori i nefumtori, respectiv coronarieni
(B+) i necoronarieni (B-).

Fumat B+ B- Medie
DA 950 (n = 8) 1000 (n = 3) 963 (n = 11)
NU 250 (n = 9) 200 (n = 9) 216 (n = 13)
Medie 716 (n = 12) 400 (n = 12) 558 (n = 24)

Analizele multistratificate sunt destul de dificile; uneori este greu a discerne ntre
factorul cauzal i ali factori asociai. Exist nite criterii definite de Hill care ar facilita
aceast operaiune.

Caseta 6. Definiii
Factor de risc o cauz ipotetic ce determin creterea probabilitii ca un individ s
dezvolte o anumit afeciune.
Studiu transversal (de prevalen) studiu epidemiologic desfurat ntr-un interval
foarte scurt de timp cu culegerea datelor de prezen/absen a factorului de risc,
respectiv a afeciunii.
Studiu longitudinal studiu desfurat pe o perioad ndelungat de timp.
Studiu pe cohort studiu n care se urmresc n paralel dou loturi, iniial identice
(persoane sntoase), unul expus la aciunea factorului de risc, cellalt (martor)
neexpus la aciunea factorului de risc.
Studiu case-control - studiu n care grupurile de studiu se definesc n funcie de
prezena/absena afeciunii urmrind (retrospectiv) prezena sau absena factorului
de risc pentru fiecare subiect.
Studiu prospectiv studiu n care se analizeaz rezultate ale unor evenimente ce vor
avea loc n viitor.
Studiu retrospectiv studiu n care se colecteaz date ale unor evenimente ce au avut
loc n trecut.
Indice odd raportul ntre probabilitatea ca un eveniment s aib loc i probabilitatea
ca evenimentul s nu aib loc.
Odds Ratio (OR) indicator de risc ce exprim raportul ntre probabilitile de
mbolnvire fa de probabilitile de a nu se mbolnvi pentru un lot expus la
aciunea unui factor de risc fa de un lot neexpus.
Relative Risc (RR) indicator de risc ce exprim raportul ntre probabilitile de
mbolnvire ntre dou loturi unul expus i unul neexpus.
Risc atributabil diferena ntre probabilitatea de mbolnvire la cei expui fa de cei
neexpui.

133
Biostatistica

134
Gheorghe Ioan Mihala, Diana Lungeanu

7. ANALIZA SUPRAVIETUIRII
Cuprins
A. Prezentare descriptiv
Analiza supravieuirii
Caracteristicile studiilor
Tabele de via
Metoda actuarial
Diagrame Kaplan-Meier
B. Fundamentare teoretic
C. Sintez: Caseta 7. Definiii

Un succes indiscutabil al medicinii moderne l prezint rezultatele tratamentelor n


cazurile cu diagnostice severe. Depistarea precoce a afeciunilor grave i lrgirea paletei
i eficienei tratamentelor au generat extinderea sensibil a speranei de via dup
diagnosticarea bolii. Estimarea eficienei unor terapii i compararea tratamentelor se
realizeaz prin studii epidemiologice. Dei pot fi retrospective, majoritatea studiilor sunt
n general prospective, o serie de date necesare pentru analiza statistic nefiind
disponibile pentru studiile retrospective. Capitolul referitor la aceste studii, numit
analiza supravieuirii i-a extins sfera de aplicabilitate i asupra altor tipuri de studii
n care se urmrete pe o durat mare de timp (luni, ani) rezultatul unei terapii.
Studiile de acest gen au fost iniial solicitate de companiile de asigurri, ulterior
devenind un capitol bine definit n studiile populaionale.

7.1. Caracteristicile studiilor de lung durat.


Metodologia acestor studii a fost standardizat, OMS publicnd n 1974
recomandrile UICC (Union Internationale Contre le Cancer): regulile TNM (tumori,
noduli, metastaze).
Studiile recomandate sunt de tip cohort prospectiv. Se culeg datele pacienilor din
momentul lurii n eviden pn la momentul raportrii. Schematic desfurarea n
timp a studiului poate fi reprezentat n forma din figura 7.1.
n cazul unor perioade ndelungate (5-20 ani) apar o serie de factori de care trebuie
s inem seama:
o serie de indivizi din lotul iniial pot fi pierdui din eviden (i mut domiciliul,
intervin alte tratamente etc.); aceste date lips pot s reprezinte uneori un procent
nsemnat din ansamblul de date; pentru prelucrri aceste cazuri nu se abandoneaz ci se
iau n considerare, dar numai pentru intervalul de timp pentru care situaia individului
este clar cunoscut;
persoanele din lot triesc n condiii diferite astfel nct aceast heterogenitate face
mai greu vizibil efectul datorat numai factorului de risc;

135
Biostatistica

foarte des din ansamblul condiiilor putem desprinde unele care pot fi deasemenea
considerate factor de risc, ce acioneaz sinergic sau competitiv cu factorul urmrit de
noi.

Figura 7.1. Cazuri de hepatit B ntr-un lot de 100 persoane

7.2. Prezentarea i prelucrarea datelor. Noiuni


generale

7.2.1. Tabele de via


Metodologia OMS sugereaz colectarea datelor pentru prelucrare sub forma unor
tabele de via (life tables):
Exemplul 7.1. Datele sunt redate n tabelul 7.1. Iat descrierea coloanelor:
1. Anul de observaie (i i+1): se calculeaz numrul de ani de la data nceperii
tratamentului; de ex: un pacient care a fost prima dat tratat n 7 aprilie 1947 i a
decedat n 24 noiembrie 1950 va fi considerat decedat n intervalul 3-4.
2. n via la nceputul intervalului (li ): primul numr (1000) indic numrul total de
pacieni studiai; nu nseamn c toi au nceput tratamentul n aceeai zi; ei sunt
luai n eviden pe msur ce sunt depistai i ncep tratamentul; n tabel intervalele
se msoar pentru oricare pacient pornind de la ziua primului tratament. Numrul
de indivizi cunoscui a fi n via la nceputul fiecrui interval (nceput de nou an de
la luarea n eviden) se calculeaz din precedentul scznd di , ui i wi , deci:
li+1 = li (di + ui + wi) (7.1.a)

3. Cei decedai (di) datorit bolii n intervalul i i + 1.


4. Pierdui din urmrire (ui): aici se includ cei a cror situaie, la data ncheierii
studiului (31 decembrie 1960) nu este cunoscut, ns pentru care este cunoscut
starea pn la un moment dat; de exemplu: un pacient care a nceput tratamentul n
20 Septembrie 1946 i era n via pe 6 iunie 1949, dup care nu se mai tie nimic,

136
Gheorghe Ioan Mihala, Diana Lungeanu

va fi considerat pierdut n intervalul 2-3. Aici sunt de obicei inclui i cei decedai
din alte cauze.
5. Scoi din urmrire fiind n via la sfritul perioadei analizate (wi). n exemplul
nostru perioada analizat se ncheia la 31 decembrie 1960; un pacient care a
nceput tratamentul n 5 Mai 1954 i este n via la 31 decembrie 1960 va fi scos
din calcul n intervalul 6-7 (a supravieuit 6 ani i n-a fost urmrit mai mult).
Aceste trei categorii majore: n via la momentul raportrii/decedai datorit bolii
studiate/scoi din eviden nainte de ncheierea studiului (datorit pierderii din
urmrire sau decesului din alte cauze) sunt ilustrate i n figura 7.2.
6. Numrul efectiv al celor expui la riscul de deces (ni). Pacienii pierdui din
urmrire (ui) i cei scoi din urmrire (wi) sunt considerai ca fiind distribuii
uniform de-a lungul ntregului an, deci pot fi considerai ca expui timp de jumtate
de interval; deci:
ni = li (i + wi) / 2 (7.1.b)

S-a presupus, deci, c probabilitatea de supravieuire pentru cei pierdui sau scoi
din urmrire este aceeai ca i pentru cei rmai n eviden.
Tabelul 7.1. Prezentarea datelor pentru prelucrarea prin metoda actuarial sub form de tabele de via.
Exemplul se refer la un studiu la pacieni care au nceput tratamentul ntre 1946-1955 i urmrii pn la 31
dec. 1960. (* din [UICC - TNM ]).

1 Anul de i- 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11
observaie i+i
2 n via la li 1000 816 642 558 504 460 382 308 259 212 165
nceputul
intervalului
3 Decedai n di 180 170 80 50 40 28 26 7 7 11
interval
4 Pierdui din ui 4 4 4 4 4 6 5 4 3 3
urmrire n
interval
5 n via la
sfritul
interv. i
wi - - - - - 44 43 38 37 33 165
scoi din
urmrire
6 Nr. efectiv de
expui la risc ni 998 814 640 536 502 435 358 287 239 194
de deces

7 Rata anual qi 0.18 0.20 0.12 0.09 0.010 0.06 0.07 0.02 0.02 0.05
de mortalitate 0 9 5 0 4 3 4 9 7
8 Rata anual pi= 0.82 0.79 0.87 0.91 0.920 0.93 0.92 0.97 0.97 0.94
de 1-qi 0 1 5 0 6 7 6 1 3
supravieuire
9 Rata Pi=
cumulativ de p1
supravieuire .p2 0.82 0.64 0.56 0.51 0.476 0.44 0.41 0.40 0.39 0.36
pn la
.pi 0 9 8 7 6 3 3 1 9
sfritul
intervalului

7. Rata anual de mortalitate (qi) reprezint proporia celor decedai n fiecare an


calculat ca probabilitate de deces:
qi = d i / n i (7.1.c)

137
Biostatistica

8. Rata anual de supravieuire (pi) reprezint probabilitatea de a supravieui n


intervalul i i+1 (calculat pentru cei n via la nceputul intervalului):
pi = 1 qi (7.1.d)

9. Rata cumulativ de supravieuire de la nceput pn la inclusiv intervalul i i + 1


se calculeaz cu:

i
p i p 1 p 2 ..... p i p j
(7.1.e)
j 1

Curbele de supravieuire se ridic pe baza acestor valori Pi .


Aranjarea datelor sub forma unui tabel de acest tip este foarte convenabil n
studiile de acest gen.

7.2.2. Metoda actuarial


Faptul ca practic nu dispunem de un lot pentru a ncepe un studiu de tip cohort-
prospectiv n analiza supravieuirii impune colectarea datelor pe msur ce apar noile
cazuri (vezi fig. 7.1 i 7.2). Pentru efectuarea calculelor vom considera o nou origine a
timpului - n exemplul anterior a fost data primului tratament; toate intervalele se
calculeaz n funcie de acest moment considerat 0 pentru fiecare individ. Metoda de
calcul n funcie de aceast origine se numete metod actuarial.

Figura 7.2. Studiu de urmrire a evoluiei unui lot cu risc de cancer

Pentru rata cumulativ a supravieuirii se poate calcula i eroarea standard conform


relaiei lui Greenwood:

n qi
Sp pn n p (7.2)
i 1 i i

De exemplu, pentru n = 10 ani de supravieuire

0,180 0,209 0,057


S p 0,369 ...... 0,017
998 0,820 814 0,791 194 0,943

138
Gheorghe Ioan Mihala, Diana Lungeanu

Deci cu nivel de ncredere de 95%, intervalul pentru probabilitatea de a supravieui


10 ani va fi:
p10 (0,369 2*0,017 ; 0,369 + 2*0,017) = (33,5% ; 40,3%)
Tabelele de via construite dup modelul tabelului 7.1 sunt adaptate pentru metoda
actuarial care este mai exact dect aa numita metod direct n care apar doar
rapoartele privind supravieuirea pe un interval larg (5 ani, 10 ani).
Corectarea ratelor de supravieuire
Concluziile pentru interpretarea ratelor de supravieuire se obin prin comparaie,
fie ntre diferite grupe de vrst, fie cu rata general de supravieuire. n calcule pentru
perioade ndelungate sau cuprinznd i pacieni mai n vrst este recomandabil a se
face corecii n raport cu rata general de supravieuire.
Dac notm cu P0 rata general de supravieuire n populaia general (grupele de
vrst din care este extras lotul studiat), calculat n funcie de decesele din toate
cauzele, atunci rata corectat (ntr-o prim aproximaie) pentru supravieuirea pe n ani
este:

pn* p n / p 0 (7.3)

Valoarea lui p0 se poate obine pentru orice ar din tabele generale de mortalitate.

7.2.3. Curbe Kaplan-Meier


Cea mai sugestiv form de prezentare a rezultatelor unui studiu de supravieuire l
constituie reprezentarea grafic, n funcie de timp a ratei cumulate de supravieuire pi =
f(i) sau a ratei cumulate de mortalitate qi = 1 - pi = g(i), cunoscute sub numele de curbe
Kaplan-Meier. n figura 7.3 sunt redate aceste curbe pentru exemplul din tabelul 7.1.

Figura 7.3. Curbele Kaplan-Mayer

139
Biostatistica

Pentru compararea a dou rate de supravieuire se pot folosi diverse teste statistice,
(fie cele corespunztoare comparrii proporiilor, fie testele t sau Wilcoxon).

7.2.4. Aplicaii
Analizele de tip actuarial, elaborate iniial pentru companiile de asigurri au fost
extinse pentru numeroase alte situaii ce implica urmrirea unei terapii: prelucrri
dentare, implant cardiac, transplant de rinichi, diverse alte tipuri de protezare etc.
n ultimul timp s-au elaborat i modele teoretice utilizate pentru simularea
fenomenelor reale, n aceast direcie fiind cunoscut modelul lui Cox care folosete o
funcie hazard pentru descrierea matematic a ratei de mortalitate, sau modelul
Kermack - McKendrick pentru rspndirea epidemiilor.

Caseta 7. Definiii
Metoda actuarial metod de studiu n care pentru fiecare pacient se ia ca origine a
timpului momentul lurii n eviden (echivalent cu debutul bolii).
Tabele de via tabele de format standard pentru evidena datelor din studiile de
supravieuire.
Semnificaia coloanelor din tabelele de via:
- anul de observaie
- numr iniial cei n via la nceputul intervalului
- decedai datorit bolii n intervalul dat
- pierdui din urmrire (plecai, decedai din alte cauze)
- n via la sfritul perioadei analizate (raport)
- numr expui la risc
- rata anual de mortalitate proporia celor decedai (probabilitatea de deces n
intervalul respectiv)
- rata anual de supravieuire probabilitatea de a supravieui n intervalul respectiv
- rata cumulativ de supravieuire.
Curbe Kaplan-Meier diagrame de reprezentare a supravieuirii (sau mortalitii).

140
Gheorghe Ioan Mihala, Diana Lungeanu

8. EVALUAREA CALITII
TESTELOR DIAGNOSTICE
Cuprins
A. Prezentare descriptiv
Studiile de calitate a testelor diagnostice
Termeni generali
Indicatori ai calitii unui clasificator
B. Fundamentare teoretic
C. Sintez: Caseta 8. Definiii
O serie de studii au ca obiectiv realizarea unor noi teste diagnostice. Aceste teste
diagnostice realizeaz, principial, o operaie de clasificare. Propunerea unor noi teste nu
este lipsit de riscul unor clasificri greite. De aceea, este important a avea criterii bine
definite de apreciere a calitii unui clasificator. (Menionm aici c aceste criterii au un
caracter general, nefiind restrnse ca aplicabilitate numai la testele diagnostice).

8.1. Termeni generali


Aprecierea pornete desigur de la confruntarea cu realitatea (Tabel 8.1). Se
obinuiete ca, n cazul n care testul vine n sensul confirmrii unui diagnostic el s se
numeasc pozitiv, iar n sensul infirmrii se va numi negativ (reprezentrile n tabel
s-au realizat prin coloanele T+ i T -. De asemenea, considerm c prezena sau absena
bolii este cunoscut i confirmat prin alte metode (numite uneori gold standard), n
tabel am notat liniile B+ i B -).
S considerm c dintr-un total de N indivizi, un numr L1 au afeciunea (B+) i
notm cu L2 restul indivizilor, care nu au afeciunea respectiv (atenie: nu impunem
alte condiii, deci nu nseamn c L2 sunt sntoi - ei pot avea alte afeciuni).
Testul diagnostic (clasificatorul) pe care dorim s-l analizm face o clasificare
corect a N11 indivizi dintre cei L1 care au boala; acetia se vor numi 'real pozitivi' (R+).
Restul subiecilor, pn la L1, (adic N12), au avut testul diagnostic negativ T acetia
se vor numi 'fals negativi' (F-). Dintre cei L2 care nu au boala, un numr N22 au fost
clasificai corect, (real negativi R -), dar N21 au fost clasificai greit dei nu au boala
(sunt B -), au avut testul pozitiv (T+) acetia sunt 'fals pozitivi' (F +).

Tabelul 8.1. Estimarea calitii clasificatorului

T+ T-
B+ N11 N12 L1
B- N21 N22 L2
C1 C2 N

141
Biostatistica

8.2. Indicatori ai calitii unui clasificator


Se folosesc uzual trei perechi de indicatori pentru a estima calitatea clasificrii.
a) Ratele de fali pozitivi i negativi
Valorile din tabel reprezint valori absolute pentru fiecare subclas. Dac le
raportm la totalul claselor reale, obinem ratele subclaselor. Vom avea astfel:
rata de fals pozitivi (engl. false positive)

FP = p (T - / B+) = N12 / L1 (8.1.a)

rata de fals negativi (engl. false negative)

FN = p (T+ / B -) = N21 / L2 (8.1.b)

b) Perechea sensibilitate (SN) specificitate (SP)


Sensibilitatea reprezint capacitatea clasificatorului de ncadrare corect a celor
pozitivi reprezint de fapt rata celor real pozitivi:

SN = p (T+ / B+) = N11 / L1 (8.2.a)

Specificitatea este capacitatea de rejecie corect a celor negativi (rata celor real
negativi):

SP = p (T - / B-) = N22 / L2 (8.2.b)

c) Valoarea predictiv pozitiv (VPP) i valoarea predictiv negativ (VPN)


Valoarea predictiv pozitiv (VPP) este definit prin proporia ncadrrii corecte a
celor declarai pozitivi iar valoarea predictiv negativ (VPN) prin rata ncadrrii
corecte a celor clasificai negativi:

VPP = p (B+ / T+) = N11 / C1 (8.3.a)

VPN = p (B - / T -) = N22 / C2 (8.3.b)

d) Indicatori globali acurateea i rata erorii de clasificare

AC = ( N11 + N22 ) / N (8.4.a)

RE = ( N12 + N21 ) / N (8.4.b)

Exemplul 8.1: Avem disponibile datele unui studiu ce a cuprins 4000 subieci
dintre care 100 au avut viroz. Presupunem c testul nostru diagnostic (o analiz de
laborator sau un program de calculator) a diagnosticat corect 90 dintre ei, ns a atribuit
acelai diagnostic (viroz) i la ali 50 de subieci. Evaluai calitatea testului diagnostic.
Datele din text sunt prezentate sintetic n tabelul 8.2.

142
Gheorghe Ioan Mihala, Diana Lungeanu

Tabelul 8.2. Exemplu pentru calculul parametrilor unui clasificator

T+ T-
B+ 90 10 100
B- 50 3850 3900
140 3860 4000

Identificm clasificrile pacienilor i calculm indicatorii specifici:


fals negativi F - = 10, cu rata FN = 10 / 100 = 10%
fals pozitivi F + = 50, cu rata FP = 50 / 3900 = 2,6%
sensibilitatea SN = 90 / 100 = 90%
specificitatea SP = 3850 / 3900 = 97,4%
acurateea AC = 3940 / 4000 = 98,5%
rata erorii RE = 60 / 4000 = 1,5%
indice Youden Y = 0,874

8.3. Fundamentare teoretic

8.3.1. Curba ROC


Clasificarea se face n funcie de o valoare de prag, care poate fi un parametru
complex determinat de algoritmul analizat. Indicatorii de estimare a calitii au valori
dependente de aceast valoare de prag: o valoare mai sczut dect media va fi mai
ngduitoare, acceptnd mai lejer includerea unui subiect n clasa celor pozitivi, caz in
care se produce o cretere a sensibilitii, reducndu-se numrul de fals negativi. Din
pcate, n acelai timp o parte din N22 trec n N21, crescnd numrul de fals pozitivi i
scznd pe aceast cale specificitatea. Aceast relaie, de invers proporionalitate ntre
sensibilitate i specificitate, impune o alegere optim a pragului, n funcie de
criteriile care sunt importante n anumite situaii concrete i modul cum se calculeaz
funcia de cost a unei clasificri greite. n funcie de scopul urmrit n studiu, vom
cuta o sensibilitate mai ridicat (chiar dac tim c va crete numrul de fals pozitivi),
iar n altele vom urmri o specificitate crescut.
Concluzii interesante se pot trage dac se urmrete grafic relaia ntre sensibilitate
i specificitate. Se reprezint de obicei
SN = f (1 SP) (8.5)

Graficul obinut se numete curba ROC (Receiver Operator Characteristic). Acest


grafic are cteva proprieti interesante:
dac folosim un criteriu de clasificare fr putere de discriminare (de ex.: un scor
calculat absolut arbitrar), atunci curba ROC ar coincide cu prima bisectoare a planului,
aria de sub curb reprezentnd 50% din total

143
Biostatistica

pe de alt parte, dac am avea un criteriu perfect (nici un fals pozitiv sau negativ,
indiferent de pragul P), atunci aria de sub curba ROC va fi 100%.

Figura 8.1. Curba ROC

uzual curba ROC arat ca n fig.8.1; aria de sub curba ROC este un indicator global
satisfctor pentru calitatea clasificatorului folosit i se numete coeficientul c.

8.3.2. Coeficientul c
Aria de sub curba ROC se mai numete si coeficientul c i reprezint cel mai
important indicator al acurateei prediciei (scorului).
Se accept urmtoarea scar n funcie de coeficientul c:
0,91 1,00 = excelent
0,81 0,90 = foarte bine
0,71 0,80 = bine
0,61 0,70 = satisfctor
sub 0,60 = slab.

8.3.3. Indicele Youden


O alt variant de a caracteriza global un test diagnostic a fost propus de Youden:
Y = SN + SP 1 (8.6.a)

Y = (N11 . N22 N12 . N21) / ((N11 + N12) (N21 + N22)) (8.6.b)

Indicele Youden are valori ntre - 1 i +1. Un test perfect ar avea un indice Youden
+1. De menionat c indicele Youden nu identific proporia ntre sensibilitate i
specificitate. Exist date n literatura de specialitate care arat posibilitatea de a folosi

144
Gheorghe Ioan Mihala, Diana Lungeanu

indicele Youden pentru identificarea pragului optim (engl. cutpoint) ntre clasele T+ i
T -.

Caseta 8. Definiii
Real pozitivi pacieni bolnavi, cu test pozitiv
Real negativi pacieni fr boala studiat, cu test negativ
Fals pozitivi pacieni fr boala studiat, cu test pozitiv
Fals negativi pacieni bolnavi, cu test negativ
Sensibilitatea testului proporia celor cu test pozitiv dintre cei bolnavi - descrie
capacitatea testului de a-i clasifica corect pe cei pozitivi
Specificitatea testului proporia celor negativi dintre cei fr boala studiat - descrie
capacitatea testului de a-i clasifica corect pe cei negativi
Valoare predictiv pozitiv proporia celor bolnavi dintre cei cu test pozitiv
Valoare predictiv negativ proporia celor fr boala studiat dintre cei negativi
Acurateea testului proporia celor clasificai corect
Rata erorii de clasificare proporia celor clasificai eronat
Curba ROC arat relaia de invers proporionalitate ntre sensibilitate i
specificitate.

145
Biostatistica

146
Gheorghe Ioan Mihala, Diana Lungeanu

Partea a II-a

147
Biostatistica

148
Gheorghe Ioan Mihala, Diana Lungeanu

Lucrri practice
1. Generaliti
Lucrrile practice prezentate aici vin s completeze cunotinele predate la
curs, accentund aspectele practice care implic prelucrarea propriu-zis a unor date
experimentale.
Toate datele utilizate au fost generate cu ajutorul unor programe de simulare,
pornind de la situaii reale prezentate n literatura de specialitate. Lucrrile practice au
fost orientate spre utilizarea celui mai accesibil software pentru prelucrri statistice mai
simple, i anume Microsoft Excel din pachetul Microsoft Office. Sunt trecute dou
variante de lucru: fie n Excel 2003, care este nc foarte rspndit, avnd meniul mai
simplu versiune pe care o utilizm i n laboratorul disciplinei de informatic
medical, fie n Excel 2007, variant solicitat de numeroi doctoranzi, care au la
dispoziie acest soft. Fiierul de date este acelai i este accesibil pe internet la adresa:
www.medinfo.umft.ro/dim/biostatistica/tabele-date.xls, de unde poate fi copiat pe
calculatorul personal. n prima parte sunt descrise tabelele cu urmeaz a fi folosite n
continuare; unele date sunt folosite n mai multe lucrri practice.
n cadrul lucrrilor de laborator se distribuie fiierul i ntr-o versiune care
conine rezultatele tuturor prelucrrilor expuse mai jos.
Lucrrile sunt descrise sumar, comentariile fiind reduse la strictul necesar. S-a
preferat stilul de redactare cu enumerarea pailor de parcurs.
Denumirile unor comenzi n limba englez au fost trecute n italice.
Nu s-au reluat noiunile fundamentale din Excel. Este recomandabil pentru
cei care nu au lucrat anterior cu acest soft, s-i sacrifice cteva ore pentru o iniiere n
elementele fundamentale privind calculul tabelar. n general, pentru parcurgerea
lucrrilor practice s-au considerat cunoscute urmtoarele operaiuni i noiuni:
- referirea unei celule (click cu mouse-ul pe celul, sau referirea coordonatelor
coloan i linie, de ex.: B3),
- copierea datelor i copierea formulelor, pe linii i pe coloane, inclusiv nelegerea
modificrilor automate ale referinelor din formule,
- coordonate ngheate (utilizarea $ pentru pstrarea coordonatelor din formule),
- selectare/deselectare celul, linie, coloan, arie,
- referirea unui interval n meniuri (pe o linie, pe o coloan, pe mai multe linii i
coloane),
- modificarea dimensiunilor coloanelor (cu mouse sau referire prin Page Layout),
- modificarea dimensiunilor unui Chart, completarea datelor din meniu etc.
Sunt utile i alte noiuni filtrarea, folosirea funciilor etc., dar pot fi parcurse n
paralel cu lucrrile practice.

149
Biostatistica

2. Descrierea sumar a tabelelor de date


Fiierul conine 7 seciuni (WS - worksheet), selectabile din bara inferioar,
prezentate n continuare. n Anexa 1 sunt trecute aceste tabele; coloanele foarte lungi au
fost convertite pe mai multe coloane n forma tiprit.

WS1: grafic
Descriere worksheet
Date din studiul distribuia grupelor sanguine. n tabel-1 sunt centralizate datele
obinute pe un lot de 400 persoane, 200 brbai i 200 femei. n tabel-2 sunt datele pe un
lot de 8 ori mai mic 50 persoane, cu aceleai proporii ale grupelor sanguine. Sunt
datele din exemplul 4.3 (cap. 4.2.3.1).
Structura:
- liniile 1, 2 labels (titlul i capul de tabel),
- linia 3 date brbai (M),
- linia 4 date femei (F),
- linia 5 total [necalculat va fi calculat n lucrrile practice],
- coloana 1 labels
- coloanele B E: date pe grupele 0, A, B, AB
- coloana F total [necalculat va fi calculat n lucrrile practice].

WS2: par-st
Descriere worksheet
Date din studiul dezvoltarea somatic a copiilor n vrst de 10 ani, pe un lot de 60
de copii.
Structura:
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:62 date,
- coloana A nr. crt. (1- 60),
- coloana B iniiale (2 litere) necompletat,
- coloana C sex (M sau F),
- coloana D nlimea n cm (cu 1 zecimal),
- coloana E greutatea n kg (cu 1 zecimal),
- coloana F indice de greutate corporal [necalculat va fi calculat n lucrrile
practice].

WS3: teste
Descriere worksheet
Date din studiul privind efectul unui tratament cu un antihipertensiv asupra
tensiunii arteriale, efectuat pe un lot de 60 subieci;

150
Gheorghe Ioan Mihala, Diana Lungeanu

Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:62 date,
- coloana A: sexul,
- coloana B: tensiunea sistolic nainte de tratament,
- coloana C: tensiune sistolic dup tratament,
- coloana D: tensiune diastolic nainte de tratament,
- coloana E: tensiunea diastolic dup tratament.

WS4: val-dg
Descriere worksheet
Date din studiul: evaluarea unui test de sarcin efectuat pe un lot de 120 femei.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:122 date,
- coloana A nr. crt.,
- coloana B rezultatul testului, notat cu + i - ,
- coloana C situaia real privind confirmarea sarcinii, notat la fel.

WS5: risc
Descriere worksheet
Date din studiul evaluarea riscului produs de fumat asupra tensiunii arteriale (risc
de hipertensiune). Date dintr-un studiu transversal pe 120 persoane.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:162 date,
- coloana A: tensiunea arterial sistolic,
- coloana B: fumtor DA / NU, notat cu 1/0 (1 = DA, 0 = NU).

WS6: chi-sq
Descriere worksheet
Date din studiul distribuia grupelor sanguine. n ex.1 sunt datele pe un lot de 240
persoane, iar n ex.2 pe un lot de 10 ori mai mic, cu exact aceleai proporii ale grupelor
sanguine.
Structura
- liniile 1, 2, 7 labels (titlul i capul de tabel),
- linia 3 i 8 date observate,
- linia 4 i 9 date ateptate (teoretice), [necalculate vor fi calculate n lucrrile
practice],
- coloana A i H labels,
- coloanele B E: date pe grupele 0, A, B, AB,
- coloana F total [necalculat va fi calculat n lucrrile practice],
- coloana I valoarea lui p din testul chi-square.

151
Biostatistica

WS7: regr
Descriere worksheet
Date din studiul dezvoltarea somatic a copiilor n vrst de 10 ani, pe un lot de 40
copii.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:42 date,
- coloana A nlimea n cm, fr zecimale,
- coloana B greutatea n kg, cu 1 zecimal.

3. Descrierea lucrrilor practice pentru Excel 2007

Tema 1: Reprezentri grafice simple


Obiectiv: reprezentarea grafic a datelor din tabele
Worksheet utilizat: grafic
Modul de lucru:
Tema are 5 pri practice independente:
Subtema 1a: histograma 1 variabil
- Procedeu
- se verific dac suntem n tab-ul Home al barei standard; dac nu, se face clic pe
Home
- se selecteaz din tabel-2 poriunea b8:e9 (2 linii x 4 coloane)
- din bara standard a meniului se alege tab-ul Insert, iar din grupul Charts se alege
icon-ul Column; apare o fereastr tip "pop-up window", cu icon-uri n mai multe
seciuni;
- alegem varianta dorit n exemplul nostru, din seciunea 2-D Column alegem
primul icon (pentru coloane separate pentru fiecare grup sanguin); apare o
fereastr a chart-ului n mijlocul ecranului i banda "ribbon" din meniu se modific;
- din grupul Chart Style alegem culorile din chart; de ex. style 2 (culori diferite pe
linii diferite n cazul nostru era o singur linie, deci toate coloanele vor aprea n
aceeai culoare);
- din grupul Chart Layout alegem o variant de reprezentare; de ex. layout 1 (conine
histograma, cu axa numerelor la stnga, precizarea claselor grupele sanguine
sub coloane, cu titlu i legend);
- pe chart, cu clic pe Chart Title se introduce noul titlu; de ex. "Distribuia grupelor
sanguine";
- din grupul Data selectm icon-ul Select Data; apare o fereastr intitulat Select
Data Source; (acum am putea schimba datele utilizate pentru reprezentare, dar
lsm nemodificat csua Chart data range, care conine "=grafic!$B$8:$E$9",
adic poriunea selectat de noi); noi dorim acum s modificm textul din legend,
aa c dm clic pe "Series1" din cadrul deschis, apoi activm Edit; apare o nou
fereastr n care, la Series name putem introduce textul dorit, de ex. "Lotul 2",
terminnd cu clic pe butonul OK; se nchide fereastra mic i mai dm OK i la
fereastra Select Data Source;

152
Gheorghe Ioan Mihala, Diana Lungeanu

- chart-ul este gata i poate fi mutat oriunde pe acelai worksheet, de ex. cu colul
stnga sus n H3 (sau se poate crea un alt worksheet un clic dreapta pe mouse va
deschide un pop-ul meniu din care selectm Move Chart, iar n noua fereastr
alegem butonul New sheet i i dm numele dorit).
- Interpretare: fiecare coloan reprezint nr persoanelor din grupa sanguin.
Subtema 1b: reprezentare sectorial
- Procedeu
- se verific dac suntem n tab-ul Home al barei standard
- se selecteaz din tabel-2 poriunea b8:e9 (2 linii x 4 coloane)
- din bara standard a meniului se alege tab-ul Insert, iar din grupul Charts se alege
icon-ul Pie; apare o fereastr tip "pop-up window", cu icon-uri n mai multe
seciuni;
- din seciunea 2-D Pie alegem primul icon; apare fereastra chart-ului;
- din grupul Chart Style alegem culorile din chart; de ex. style 3 (o culoare cu diverse
saturaii vom avea acum 4 nuane, pentru cele 4 grupe sanguine);
- din grupul Chart Layout alegem reprezentarea; de ex. layout 6;
- continum ca mai sus: pe chart, cu clic pe Chart Title se introduce noul titlu;
- chart-ul este gata i poate fi mutat oriunde.
- Interpretare: reprezentare sectorial cu grupele sanguine n %, avnd afiat i
procentul fiecare clas.
Subtema 1c: histograma 2 variabile varianta 1
- Procedeu
- se selecteaz din tabel-1 poriunea a2:e4 (2 linii x 4 coloane, cu grupele sanguine
pe sexe)
- din bara standard se alege tab Insert, grup Charts, icon Column; apare o fereastr
tip "pop-up window", cu icon-uri n mai multe seciuni;
- din seciunea 2-D Column alegem al doilea icon (coloane separate pe grupe
sanguine, dar suprapuse pentru sexe diferite);
- din grupul Chart Style alegem acum style 1 (nuane de gri, varianta potrivit pentru
pregtirea n vederea tipririi n cri)
- din grupul Chart Layout alegem layout 3; completm titlul; chartul este gata;
- Interpretare: fiecare coloan are numrul persoanelor din grupa sanguin;
coloanele au 2 segmente: brbai i femei.
Subtema 1d: histogram 2 variabile varianta 2
- Procedeu
- se selecteaz din tabel-1 din nou poriunea a2:e4
- din bara standard se alege tab Insert, grup Charts, icon Column;
- din seciunea 3-D Column alegem al treilea icon (100% Stacked Column, coloane
separate pe grupe sanguine, dar suprapuse pentru sexe diferite);
- din grupul Data selectm Switch Row/Column vom avea 2 coloane n loc de 4;
acum coloanele sunt pe sexe, iar poriunile din ele reprezint procentul
corespunztor fiecrei grupe sanguine;
- continum procedura standard: din grupul Chart Style alegem acum style 8, iar din
grupul Chart Layout alegem layout 4;
- Interpretare: 2 coloane brbai i femei, fiecare avnd n % grupele sanguine.
Subtema 1e: histogram 2 variabile varianta 3
- Procedeu
- se selecteaz din tabel-1 din nou poriunea a2:e4

153
Biostatistica

- din bara standard se alege tab Insert, grup Charts, icon Column;
- din seciunea 3-D Column alegem al patrulea icon (3-D Column, coloane
separate pe grupe sanguine i pe sexe);
- continum procedura standard: grup Chart Style - style 2, grup Chart Layout
layout 7;
- Interpretare: 2 serii (brbai i femei) a cte 4 coloane (grupele sanguine), pe
fiecare coloan este reprezentat numrul de subieci.

Tema 2: Calcule simple n Excel


Obiectiv: utilizarea operatorilor de calcul, introducerea formulelor
Worksheet utilizat: grafic i par-st
Modul de lucru:
Tema are dou pri independente:
Subtema 2a: calcul totaluri i procente
- Procedeu
- deschidem Worksheet grafic,
- calcul totaluri coloane:
selectm b5 (click),
din bara de comenzi selectm tab Formulas, grup AutoSum (); se
deschide un pop-up meniu din care selectm Sum; att n linia de comenzi
ct i n csua b5 apare = SUM (B3:B4); acceptm tastnd Enter;
pentru copierea formulei de sum n csuele din dreapta, selectm b5 i
Ctrl + C (Copy),
selectm c5:e5 i Ctrl + V (Paste);
- totaluri linii
procedm similar pentru total pe linii: select f3 / bara de comenzi tab
Formulas, grup AutoSum () / din pop-up selectm Sum; apare = SUM
(B3:E3) / acceptm (Enter); copiem apoi n csuele de dedesubt: f3
Copy / select f4:f5 / Paste)
- completm tabelul cu calcul procente
select a6 scriem %
introducem formula de calcul a procentelor fiecrei grupe sanguine (total
grup x 100 / total general, aflat n f5): select b6 / n linia de comenzi: "=
b5*100 / $f5 (la copiere n alte csue, coloana f la numitor va rmne
nemodificat)
copy din b6 n c6:f6
- Interpretare: tabelele sunt acum completate cu totaluri i procente.
Subtema 2b: calculul unor variabile intermediare sau finale
Vom calcula indicele de mas corporal BMI (Body Mass Index) conform relaiei
BMI = Greut (kg) / nlime2 (m)
- Procedeu
- deschidem worksheet par-st,
- introducem 2 noi coloane:
F va conine nlimea n m (n F2 notm h(m))
G va conine BMI (n G2 notm BMI)

154
Gheorghe Ioan Mihala, Diana Lungeanu

- selectm csua F3
- n bara de inserare comenzi introducem: = d3/100;
- copiem formula pe toat coloana F (de la f3:f62) (revedem comenzile Ctrl + C
pentru Copy i Ctrl + V pentru Paste)
- selectm G3
- introducem comanda: = e3 / (f3 * f3)
- copiem formula de la g4:g62
- dorim afiarea BMI cu dou zecimale: selectm coloana G (cu mouse), apoi din
bar, tab Home, grup Cells, apare pop-up i selectm Format Cells; apare o
fereastr, cu meniu cu 6 tab-uri; selectm Number, iar din pop-up-ul care se
deschide alegem Number, apoi la decimal places, din sgei alegem "2" i OK,
- dorim evidenierea copiilor subponderali, normali, supraponderali i obezi prin
culori diferite pe tabel. (Limitele ntre categoriile de mai sus sunt pentru copiii de
10 ani: 14.2, 19.4 i 22.1). Selectm prima celul din coloana BMI (adic g3), apoi,
n bar, la tab Home, grupul Styles, icon-ul Conditional Formatting apare un
meniu pop-up; selectm Highlight Cell Rules; lateral apare nc un meniu cu lista
de condiii: Greater than >, Less than <, Between, etc.; alegem nti "Greater than";
se deschide o fereastr n care putem completa o valoare vom pune limita
superioar 22.1, peste care interpretm obezitatea, apoi la condiie alegem "Light
Red Fill with Dark Red Text" / OK; rmnem selectai pe g3 i relum Conditional
Formatting / Highlight Cell Rules, acum lum "Between" i vom introduce limitele
19.4 i 22.1, cu "Light Yellow Fill with Dark Yellow Text" / OK; vom mai alege
"Green ..." pentru intervalul normal 14.2 19.4 i simplu "Red text" pentru
subponderali, adic sub 14.2. Valoarea noastr va ndeplini una din condiii; cnd
condiia este ndeplinit se va vedea culoarea n celul; dup introducerea tuturor
condiiilor, selectm din nou celula g3 i cu Copy (sau Ctrl+C) vom copia
condiiile pe toat coloana G n jos. Vom folosi copierea special din Home /
Clipboard / Paste / Paste Special / Formats, altfel copiaz i valorile. Vom vedea
culorile alese condiionat, n funcie de valori, n celulele corespunztoare.
- Interpretare: apare coloana ntreag BMI cu dou zecimale, colorat astfel nct ies
n eviden cele 4 clase n funcie de valoarea BMI.

Tema 3: Parametrii statistici


Obiectiv: determinarea parametrilor statistici ai unui eantion
Worksheet utilizat: par-st
Modul de lucru:
Tema are dou pri asemntoare:
Tema 3a: parametrii statistici pentru o variabil, pe un eantion ntreg pentru
nlimea grupului de copii
- Procedeu
- din bara de comenzi selectm tab Data, grupul Analysis; (dac nu exist acest grup,
el va putea fi introdus cu Add-Ins;
- selectm Data Analysis; se deschide o fereastr din care selectm linia
Descriptive Statistics / OK,
- n noua fereastr deschis selectm:
input range: d2:d62

155
Biostatistica

grouped by: Columns


bifm labels in first row (este vorba de d2)
decidem unde s se afieze rezultatele n seciunea Output Options
putem alege fie un nou worksheet, sau chiar alt fiier, sau putem plasa
tabelul n worksheet-ul nostru de lucru (par-st), bifnd output range;
n output range alegem o csu n dreapta, de ex. i3 (aici va fi colul din
stnga sus al tabelului cu rezultatele de statistic descriptiv), sau putem
plasa tabelul sub date, de ex. i64
bifm summary statistics
(opional putem bifa i confidence level for mean / ok).
- Interpretare: apare tabelul cu rezultatele statistice privind nlimea copiilor din
lot, care este comentat n curs, cap. 2.3.1 (tabelul 2.2).
Tema 3b: parametrii statistici pentru o variabil, pe un subgrup.
Vom obine parametrii statistici pentru nlimea fetelor din grupul de copii.
- Procedeu
- selectm coloana C (sex)
- din bara de comenzi, tab Data, grupul Sort & Filter, icon-ul Filter;
- n csua c1 apare un buton de selecie; la tastare pe el se deschide un pop-up
meniu, din care putem selecta F (numai fetele); dac este necesar debifm celelalte
opiuni; tabelul se comprim, liniile corespunztoare bieilor nu mai sunt vizibile;
- vom crea un tabel separat care s conin numai fetele; din coloana D selectm
nlimile celor 24 fete, pe care le copiem ntr-un nou Worksheet (din tab Home,
grup Cells, icon Insert / Worksheet), s zicem de la a1 n jos (clic pe a1, apoi CTRL
+ V)
- mai departe procedm ca mai sus: tab Data, grup Analysis, icon Data Analysis;
Descriptive Statistics etc. (atenie: datele sunt acum n a1:a24, fr labels in first
row, etc);
- putem da un nume acestui nou worksheet: n bara de jos, cu mouse-ul pe Sheet1
care este acum activ, clic dreapta se deschide un meniu din care selectm
Rename, apoi introducem noul nume, de ex. "par-st2".
- Interpretare: tabelul obinut conine acum rezultatele statistice privind nlimea
fetelor din lot.

Tema 4: Histograme din fiiere de date brute


Obiectiv: crearea limitelor intervalelor pentru histograme i ridicarea
histogramelor. Limitele claselor, ce poart denumirea de "bin", vor fi trecute ntr-o
coloan ce o vom crea alturi de tabelul de date. Este bine ca valorile pentru bin-uri s
se aleag nct s se intercaleze ntre valorile experimentale. Limitele se pot alege
arbitrar noi vom lucra n dou variante, cu clase late de 1 cm, respectiv cu limea
optim (rotunjit), dat de relaia (2.4), p.27, adic h = (XM Xm) / (1 + 3.322 lg N).
Worksheet utilizat: par-st
Modul de lucru
Tema are dou pri similare:
Subtema 4a: crearea limitelor pentru histograme cu limea clasei de 1 cm.

156
Gheorghe Ioan Mihala, Diana Lungeanu

- Procedeu
- avem pe coloanele I i J parametrii statistici calculai n Tema 3a.
- pe coloana L vom crea limitele pentru prima histogram
- selectm L2, introducem valoarea cu limea clasei (1 n cazul nostru)
- selectm L3, introducem o valoare pentru limita din dreapta a primei clase; dac
dorim s avem clasele centrate pe valori ntregi sau rotunde (n cm), vom lua pentru
limite jumti de unitate pentru noi, avnd Minimum 128.2 (din tabelul obinut
n subtema 3a) vom lua ca prim valoare 128.5;
- dorim s incrementm aceste limite bin cu limea clasei la fiecare pas, deci
completm coloana L n jos astfel:
L4 = L3 + L$2 (am fixat pasul de incrementare)
copiem L4 n jos nct s acoperim valoarea maxim (149.5 n cazul
nostru); putem s i depim valoarea, ns ulterior vom folosi doar
intervalul ce acoper datele reale;
- din bar tab Data / grup Analysis / icon Data Analysis / Histogram / OK,
- input range: D3:D62 (unde sunt datele de reprezentat),
- bin range: L3:L5 (unde am creat limitele),
- putem vizualiza graficul chiar n acest worksheet; lum output range "N2",
- bifm chart output, apoi OK;
- apare tabelul de valori n clase i histograma; graficul poate fi "mrit", prin "drag"
cu mouse-ul;
- pregtim n final histograma cu date suplimentare (titlu, axe etc).
- Interpretare: tabelul afiat n stnga histogramei conine numrul de copii din
fiecare clas de nlime cu limea de 1 cm. Prima clas are marginea superioar
valoarea din coloana bin, adic 128.5, deci cuprinde toate valorile pn la 128.5
inclusiv. Observm tendina central, ns histograma are "numeroi dini", datorit
claselor prea nguste. Vom putea compara acest grafic cu urmtorul, pe care l
realizm cu limea adecvat.
Subtema 4b: crearea histogramelor cu lime optim
- Procedeu
- calculul limii optime
- pregtim datele ntr-o zon convenabil, de ex sub tabelul creat n subtema 3a (n
cazul n care am ales pentru output range csua I3 i am salvat tabelul; n acest caz
avem valoarea maxim n J15, cea minim n J14 i N n J17; dac tabelul creat la
Descriptive Statistics nu a fost salvat, relum crearea lui:
- Data / Analysis / Data Analysis / Descriptive Statistics / OK,
- n fereastr selectm:
input range: d2:d62
grouped by: Columns
bifm labels
output range:i3
bifm summary statistics
- Dac tabelul creat la Descriptive Statistics a fost salvat n alt parte, trebuie
schimbate corespunztor referinele din relaiile de mai jos:
J30 = log10 (J17)
J31 = 1 + 3.322 * J30
J32 = (J15 J14) / J31

157
Biostatistica

- valoarea din J32 (3.083 n cazul nostru) se rotunjete (la 3 n cazul nostru) i se
introduce n L30 s reprezinte limea clasei,
- pe coloana L vor apare noile valori bin pentru clase de cte 3 cm. Dac dorim s
avem mijlocul clasei o valoare rotund, este cel mai bine s ne orientm dup o
valoare central; n cazul nostru avnd media la 139,3 cm (rotund 139), vom avea
centrale din 3 n 3 cm, n sus i n jos, deci 139; 136; 133; 130; 127 etc. Pentru
centru n 127 vom avea limita superioar la 128,5 cm, deci vom pune aceast
valoare n L31, apoi L32 = L31+L$30; obinem limitele dorite n coloana L31:L39
(pentru Bin Range n fereastra ce se deschide la Histogram);
- mai departe procedm ca la histograma precedent, alegnd la output range N30
(pentru alinierea datelor).
- Interpretare: tabelul afiat n stnga histogramei conine numrul de copii din
fiecare clas de nlime cu limea de 3 cm. Pe grafic se observ o ncadrare mult
mai bun i dispariia "dinilor".

Tema 5: Teste statistice


Obiectiv: compararea a dou serii numerice sau calitative.
Worksheet utilizat: teste i chi-sq
Modul de lucru
Tema are 3 pri distincte, asemntoare, una pentru testul t pereche i una pentru
testul t nepereche, ultima pentru testul chi-sq.
Subtema 5a: testul t pereche
Vom aplica testul t pereche pentru a compara diferenele ntre tensiunile sistolice
nainte i dup tratament.
- Procedeu
- deschidem worksheet-ul teste;
- din bar, tab Data / grup Analysis / icon Data Analysis / t Test: Paired Two
Samples for Means
- n fereastra deschis alegem:
variable 1 range: b2:b62 (coloana B tensiuni sistolice nainte de
tratament, coloana C tensiuni sistolice dup tratament)
variable 2 range: c2:c62
hypothesized mean / difference: 0 (sau lsm necompletat)
bifm labels (avem n b2 i c2)
lsm Alpha 0.05
selectm output range (de ex g2)
- apare tabelul de forma celui din cap. 4.2.1.3, tabelul 4.2.b
- Interpretare: n tabelul afiat apar multe date de interes: mediile celor dou serii,
varianele (variana este ptratul deviaiei standard), cea mai de interes valoare fiind
cea din csua "P(T<=t) two-tail", care este 0.0356 (sub 0.05), deci indic o
diferen semnificativ.
Subtema 5b: testul t nepereche
Vom aplica testul t nepereche pentru a compara tensiunea sistolic nainte de
tratament la brbai, comparativ cu femei.

158
Gheorghe Ioan Mihala, Diana Lungeanu

- Procedeu
- deschidem worksheet-ul teste;
- selectm coloana A (sex),
- cu Data / Sort & Filter / Filter, prelum pe rnd:
datele pentru brbai: selectm M (debifm celelalte) i copiem (Ctrl+C)
datele rmase vizibile din coloana Sys-1, datele selectate sunt acum n
memoria clipboard a calculatorului;
- crem un nou worksheet (Home / Cells / Insert / Insert Sheet) n care vom pune
datele brbailor n coloana A i ale femeilor n B:
n A1 scriem M, n B1 scriem F
copiem valorile din clipboard din A2 n jos (click pe A2, apoi Ctrl+V)
revenim n worksheet "teste"
n butonul de filtru debifm M i bifm F, apoi copiem valorile coloanei
Sys-1 n noul worksheet, din B2 n jos (coloanele pot avea lungimi
diferite!)
- din bar, tab Data / grup Analysis / icon Data Analysis / t Test: Two Sample
Assuming Unequal Variances (ulterior, dac vedem c varianele sunt apropiate,
putem relua pentru Equal Variances)
- coloanele sunt a1:a28 i b1:b34, cu Labels,
- lum output range d2
- din Tools / Data Analysis / t test: Two Sample Assuming Unequal Variances /
OK
- obinem un tabel similar cu tabelul 4.2.a din cap. 4.2.1.2,
- putem n final denumi noul worksheet "teste2".
- Interpretare: n tabelul afiat valoarea din csua "P(T<=t) two-tail", este acum
0.91, mult peste 0.05, deci diferenele sunt nesemnificative.
Subtema 5c:
- Procedeu
- Se deschide worksheet chi-sq
- Presupunem o distribuie uniform a persoanelor pe grupe sanguine, atunci valorile
ateptate (csuele b4 : e4) se pot calcula cu relaia = totalgeneral / 4 = $F$3 / 4
- Pentru calculul valorilor ateptate n tabelul "exp.1", facem nti totalul pentru linia
"observed":
- clic pe f3, apoi Formulas / Function Library / AutoSum / Sum / B3:E3 / Enter
- clic pe b4, apoi "= $f$3/4" i copiem formula din b4 n c4:e4.
- Pentru aplicarea testului
selectm csua de rezultat (i3)
selectm funcia fx; se deschide fereastra "Insert Function"
pe linia "Select a category" alegem "All" sau "Statistical", apoi din
fereastra mai larg de dedesubt alegem CHITEST /OK,
apare fereastra Function Arguments n care lum:
- actual_range (se refer la valori experimentale, adic b3:e3 // va fi b8:e8 n tabelul
exp.2)
- expected_range (se refer la valori teoretice; atunci lum b4:e4, respectiv b9:e9
pentru tabelul de jos)
- Interpretare: apare valoarea lui p (0,000828) < 0,001 deci vom avea diferene
extrem de semnificative ntre valorile experimentale i cele teoretice; deci vom
respinge ipoteza de zero H0.

159
Biostatistica

- Repetm toate operaiunile pentru un lot mult mai mic (tabelul exp.2), dar pstrnd
proporiile observm c, n cazul loturilor mici, diferenele nu mai sunt
semnificative (acum avem p = 0.644), dei proporiile claselor sunt aceleai.

Tema 6: Analiza corelaiei


Obiectiv: determinarea coeficientului de corelaie i trasarea dreptei de regresie
Worksheet utilizat: regr
Modul de lucru
Tema are dou pri complementare
Subtema 6a: comanda correlation
- Procedeu
- deschidem worksheet regr
- completm coloana C cu: indicele BMI (v. formula BMI din Tema 2b), dar l
calculm direct astfel: introducem n csua c3 o relaia direct de calcul pentru
BMI "= b3 * 10000 / (a3 * a3)"
- din Data / Analysis / Data Analysis / Correlation se completeaz n fereastra
deschis:
input range a2:c42 (Obs: variabilele de corelat trebuie s fie plasate n
dou coloane vecine n tabel); coloana A va fi pe Ox iar B pe Oy
grouped by columns
bifm labels (sunt a2, b2 i c2)
selectm ieirea (de ex e2)
- Interpretare: apare un tabel 3 x 3 cu coeficienii de corelaie separat pentru
corelaia nlime-greutate (0,751 n cazul nostru, deci avem o corelaie direct,
destul de puternic), corelaia nlime - bmi (-0,690 = invers, medie) i corelaia
greutate bmi (-0,043 = foarte slab, practic absent)
Subtema 6b: comanda regression
- Procedeu
- din Data / Analysis / Data Analysis / Regression completm:
input Y range: b2:b42 (greutatea),
input X range: a2:a42 (nlimea),
bifm labels (sunt a2 i b2),
nu bifm constant is zero (dac se bifeaz atunci se calculeaz dreapta de
regresie care trece prin origine),
nu bifm: Standardized residuals, Residual Plots, nici Normal Probability
Plots,
bifm Line Fit Plot pentru graficul dreptei de regresie,
- alegem output range (de ex e7),
- apar rezultatele (Summary Output) n 4 tabele i un grafic;
- este posibil s fie necesar prelucrarea graficului (dublu clic pe grafic):
i mrim dimensiunea cu mouse-ul pe un col,
din bar: Insert / Charts / Scatter / primul icon (numai puncte),
din bara nou (Chart Tools), tab-ul Design, grupul Chart Layouts,
selectm Layout 3 (al 3-lea icon), care are un grid, se vd punctele
experimentale i cele calculate "predicted",

160
Gheorghe Ioan Mihala, Diana Lungeanu

cu clic dreapta pe axa vertical apare o fereastr i selectm Format Axis,


n care putem lua pentru Minimum valoarea 25 n loc de 0 (punctele
noastre se gsesc toate n partea superioar)
- Interpretare: din primul tabel (Regression Statistics) urmrim Multiple R
coeficientul de corelaie (0,751 n cazul nostru)
- din al doilea tabel (ANOVA) urmrim Significance F (2.32 x 10 -8) ceea ce nseamn
c avem o probabilitate extrem de mic s obinem din ntmplare aa un coeficient
de corelaie (este echivalentul lui p)
- din al treilea tabel gsim:
ordonata la origine = Intercept (-2.89 4.99)
panta (slope) n csua sub valoare intercept (0,255 0.036)
pentru ambele sunt date limitele 95%
- al patrulea tabel arat valorile calculate pentru greutatea calculat (predicted)
corespunztoare nlimilor, conform:
greut. calc = intercept + panta * nlime, sau
greut. calc = -2,89 + 0,255 * nlimea
- urmtoarea coloan conine diferenele:
residual = greut (real) greut. calc
- n grafic mai facem urmtoarele operaii:
trasm dreapta de regresie: cu mouse, click dreapta pe un punct
experimental (bleumarin) se deschide un meniu mic i selectm Add
Trendline i selectm trend Linear (prima csu)
putem elimina valorile prezise cu un click dreapta pe un punct teoretic
(magenta), iar din fereastra mic selectm delete.

Tema 7: Analiza riscului


Obiectiv: realizarea tabelului de contingen pornind de la date brute i calculul
indicatorilor de risc.
Worksheet utilizat: risc
Modul de lucru
Tema are dou etape distincte.
Subtema 7a: realizarea tabelului de contingen
Varianta 1
- Procedura
- (a) Construim scheletul tabelului de contingen, fie sub date (sub linia 162) sau pe
un nou worksheet (alegem aceast variant), numit risc2
- Home / Cells / Insert / Insert Sheet // click dreapta pe nume / rename / risc2
- selectm regiunea a1:d4;
- din bar, tab Home, grup Font, icon de borders (ptrel), alegem varianta cu linii
pentru toate csuele; introducem notaiile clasice n A2:A4 (E+, E-, total),
respectiv n B1:D1 (B+, B-, total).
- Completm D4 cu valoarea numrului total (160 n cazul nostru).
- (b) Transformarea variabilei de expunere la risc
- revenim n worksheet risc

161
Biostatistica

- Vom transforma variabila numeric TA Sys n variabila calitativ Hipertens cu


convenia:
dac TA Sys 140 atunci Hipertens = 1 (= DA)
dac TA Sys < 140 atunci Hipertens = 0 (= NU)
- n C2 notm label Hipertens
- Selectm C3 i dm click pe fx; se deschide fereastra Insert function, n care
lum:
select category: All
baleiem toate funciile pn la IF, selectm IF, se deschide fereastra
Function Arguments, n care lum:
logical test: a3 = 140
value if true: 1
value if false: 0 / ok
n csua c3 apare 0 sau 1 (n cazul nostru 0)
- copiem formula din c3 n jos (c4:c162) (revedei funciile Ctrl + C i Ctrl + V)
- (c) Aflm totalurile E+ i B+ :
- selectm b163, apoi n bar: Formulas / Function Library / pe AutoSum i Sum
(apare propunerea SUM (B3:B162), o acceptm (enter); apare totalul pe coloana B
(fumat); copiem valoarea n sheet risc2, D2 (76 n cazul nostru) (Obs: se exerseaz
Copy din Sheet risc cu Paste n Sheet risc2 cu: Select D4, apoi =, trecere la Sheet
risc i click pe B163),
- similar cu c163 pe care o trecem n B4 (36 n cazul nostru),
- (d) Selectm coloana B i filtrm numai fumtorii (din bar Data / Sort & Filter /
Filter), apoi click pe butonul din coloana B i din micul meniu ce apare selectm 1;
dispar liniile ce aveau 0 n coloana B;
- selectm o csu pe coloana C jos, sub ultima linie scris (va fi C166 n cazul
nostru); introducem funcia SUBTOTAL (Formulas / Function Library / icon Math
& Trig / SUBTOTAL) cu proprietile:
function_num: lum 9 (se va face totalul ignornd valorile ascunse),
Ref 1: lum c3:c162 /OK (precizm toat coloana, tiind c valorile
ascunse vor fi ignorate);
- apare totalul pentru care aveam 1 i n coloana B i n coloana C, adic sunt i E+ i
B+; introducem aceast valoare (clic pe c166 si Ctrl+C) (32 n cazul nostru) n
tabelul din risc2, csua b2; Obs: preferm s folosim Paste Special / Value (prin
clic dreapta), altfel se dorete copierea formulei de subtotal!
- Restul tabelului se completeaz prin diferene:
- c2 = d2 b2; apoi copy c2 n c4,
- b3 = b4 b2; apoi copy b3 n c3 i d3.
Varianta 2 se modific doar punctul (d).
- Procedura
- (d) Introducem coloana D, numit e+ / b+ (scriem n d2)
- Selectm d3, apoi fx i alegem funcia AND, (dac nu se vede se selecteaz nti la
category "All") n care lum:
Logical 1: b3 = 1
Logical 2: c3 = 1 / ok
- apare TRUE sau FALSE (FALSE n cazul nostru)
- copiem formula AND din d3 (adic b3 = 1, c3 = 1) n csuele d4:d:162; vor fi
TRUE numai csuele pacienilor care au 1 i 1 (fumeaz i au hipertensiune)
- selectm d163 i introducem funcia COUNTIF; n fereastra ei introducem:

162
Gheorghe Ioan Mihala, Diana Lungeanu

Range: d3:d:162
Criteria: TRUE / ok
- apare valoarea corespunztoare (32 n cazul nostru)
Varianta 3
- Procedura
O metod care poate fi folosit n toate situaiile n care dorim construirea unui
tabel de contingen 2 x 2 pornind de la date dihotomice trecute n dou coloane const
n transformarea reprezentrii n cele dou coloane astfel:
- o coloan s conin numai valori 0 i 1 pentru NU (-) i DA (+)
- cealalt coloan s conin numai valori 0 i 2 pentru NU (-) i DA (+).
Astfel, prin suma pe linii obinem segregarea celor 4 variante:
NU & NU devine 0 + 0 = 0
DA & NU devine 1 + 0 = 1
NU & DA devine 0 + 2 = 2
DA & DA devine 1 + 2 = 3.
Deci, dac din coloana de sum (o vom numi Sum Ponderat) numrm ci de 0,
1, 2 sau 3 avem, obinem exact cele 4 csue din tabelul de contingen.
De fapt nici nu este nevoie s crem separat coloana a doua cu 0 i 2, ci o lsm tot
cu 0 i 1 iar n sum s lum valoarea din coloana a doua nmulit cu 2, adic vom
calcula:
suma = col.1 + 2 * col.2
Vom proceda astfel:
- prima coloan 0/1 este B i corespunde E+/E-
- a doua coloan 0/1 este C, creat n punctul (b) din Varianta 1 i corespunde B+/B-
- crem coloana E cu suma ponderat (SP) a valorilor din B i C
- astfel pentru E3 lum = B3 + 2 * C3
- copiem E3 n jos, de la E4:E162
n risc2 putem reconstrui tabelul de contingen n aria a6:d9, cu aceleai notaii.
Interpretare: Am obinut coloana E cu urmtoarele proprieti:
dac are valoarea 0, pacientul este e- i b- (csua c3 sau c8 din risc 2)
dac are valoarea 1, pacientul este e+ i b- (c2 / c7)
dac are valoarea 2, pacientul este e- i b+ (b3 / b8)
dac are valoarea 3, pacientul este e+ i b+ (b2 / b7).
- folosim funcia COUNTIF de 4 ori, de fiecare dat avnd Range risc!$E$3:$E$162,
direct n risc 2, preciznd c:
dac punem criteria = 0 obinem valoarea din c3 (sau c8) etc.
- completm tabelul cu totaluri.
Subtema 7b: calculul indicatorilor
- Procedura
- Folosim pachetul statistic Epi Info
- Din meniul principal selectm Utilities,
- Selectm Statcalc,
- Completm tabelul (n cazul nostru avem 32 i 44 respectiv 4 i 80)
163
Biostatistica

- Interpretare: Apare tabelul de rezultate, cu interpretare conform cap. 6.4.2, figura


6.3.

Tema 8: Validarea testelor diagnostice


Obiectiv: crearea tabelului de contingen i calcularea indicatorilor.
Worksheet utilizat: val-dg
Modul de lucru
Tema are dou pri succesive: crearea tabelului, respectiv calculul indicatorilor.
Subtema 8a: crearea tabelului de contingen.
- Procedura
Folosim notaiile din curs cap. 8.1, tabel 8.1
n worksheet am notat cu + sau testul pozitiv sau negativ, respectiv prezena sau
absena bolii.
Construim scheletul tabelului de contingen (similar temei 7a) cu urmtoarele
modificri:
- spaiul H1:K4 (nu crem acum un alt worksheet, ci alctuim tabelul n dreapta
datelor),
- notm h2 i h3 cu B+ i B-, iar i1 i j1 cu T+ i T-; adugm "total" n h4 i k1.
Folosim o procedur similar cu cea din varianta 3 a temei 7a:
- Vom crea coloana D, cu valori 0 i 1 corespunztoare lui T- i T+
- Coloana E, cu valori 0 i 1 corespunztoare lui B- i B+
- Coloana F pentru suma ponderat
n D3 introducem prin fx funcia IF cu:
= logical test: b3 = +
= Value if true: 1, value if false: 0
Copiem D3 n E3
clic pe f3, apoi "=d3+2*e3"
selectm d3:f3, apoi Ctrl+C
Copiem totul n D4:F122 (pe trei coloane deodat).
- n coloana F avem valori ntre 0 i 3, cu semnificaia:
b+ / t+ valoarea 3 (va fi n csua i2)
b+ / t- valoarea 2 (j2)
b- / t+ valoarea 1 (i3)
b- / t- valoarea 0 (j3).
Cu COUNTIF vom completa csuele din tabel:
i2 = Countif ($f$3:$f$122,3)
j2 = Countif ($f$3:$f$122,2)
i3 = Countif ($f$3:$f$122,1)
j3 = Countif ($f$3:$f$122,0).
Completm tabelul cu totaluri.

164
Gheorghe Ioan Mihala, Diana Lungeanu

Subtema 8b: calculul indicatorilor.


- Procedura
- numele lor simbolic n h8 : h16
- valorile n i8:i16
- vom folosi relaiile:
i8 FP (fals pozitivi) = i3 / k3
i9 FN (fals negativi) = j2 / k2
i10 SN (sensibilitate) = [i2=TP (real / true pozitivi)] = i2 / k2
i11 SP (specificitate) = [j3=TN (real / true negativi)] = j3 / k3
i12 VPP (valoarea predictiv pozitiv) = i2 / i4
i13 VPN (valoarea predictiv negativ) = j3 / j4
i14 AC (acurateea) = (i2 + j3) / k4
i15 RE (rata erorii de clasificare) = (i3 + j2) / k4
i16 Y (indice Youden) = i10 + i11 1.
Interpretarea rezultatelor se face conform celor prezentate n cap. 8.2 i cap. 8.3.

4. Descrierea lucrrilor practice pentru Excel 2003

Tema 1: Reprezentri grafice simple


Obiectiv: reprezentarea grafic a datelor din tabele
Worksheet utilizat: grafic
Modul de lucru:
Tema are 5 pri practice independente:
Subtema 1a: histograma 1 variabil
- Procedeu
- se selecteaz din tabel-2 poriunea b8: e9 (2 linii x 4 coloane)
- din bara standard se selecteaz Chart Wizzard;
- se va deschide o fereastr n care se lucreaz 4 pai:
se alege chart type column, sub-type1 clustered column (prima csu)
/ Next
data range: b8:e9; series in: Rows [apare graficul] / Next
se completeaz chart title (de ex: Repartiie grupe sanguine), category X
axis (Grupele), Value Y axis (numr) / Next
chart location fie new sheet, fie object in [grafic] / Finish
- Interpretare: fiecare coloan reprezint nr persoanelor din grupa sanguin.
Subtema 1b: reprezentare sectorial
- Procedeu
- folosim aceleai date din tabel-2
- selectm Chart Wizzard
chart type: pie, subtype 1 pie / Next
data range: b8:e9 series: Rows / Next
titlul; data labels: values i parcentage / Next
location / Finish

165
Biostatistica

- Interpretare: reprezentare sectorial cu grupele sanguine n %, avnd afiat i


procentul pentru fiecare clas.
Subtema 1c: histograma 2 variabile varianta 1
- Procedeu
- folosim aceleai date din tabel-1
- din bara standard se selecteaz din nou Chart Wizzard
chart type column, sub-type 5 Stacked Column / Next
data range: a2:e4, series in Rows / Next
se completeaz titlul i numele axelor / Next
se alege locaia / Finish
- Interpretare:fiecare coloan are numrul persoanelor din grupa sanguin;
coloanele au dou segmente: brbai i femei
Subtema 1d: histogram 2 variabile varianta 2
- Procedeu
- folosim aceleai date din tabel-1
- selectm Chart Wizzard
chat type column, subtype 3 100% Stacked Column with a 3-D visual
effect
data range: a2:e4, series in Columns / Next
se completeaz titlul i axele / Next
se alege locaia / Finish
- Interpretare: dou coloane - brbai i femei, fiecare avnd n % grupele sanguine
Subtema 1e: histogram dou variabile varianta 3
- Procedeu
- folosim aceleai date din tabel-1
- selectm Chart Wizzard
chat type column, subtype 6 "3-D Column"
data range: a2:e4, series in Rows / Next
se completeaz titlul i axele / Next
se alege locaia / Finish
- Interpretare: dou serii (brbai i femei) a cte 4 coloane (grupele sanguine), pe
fiecare coloan este reprezentat numrul de subieci.

Tema 2: Calcule simple n Excel


Obiectiv: utilizarea operatorilor de calcul, introducerea formulelor
Worksheet utilizat: grafic i par-st
Modul de lucru:
Tema are dou pri independente:
Subtema 2a: calcul totaluri i procente
- Procedeu
- deschidem Worksheet: grafic
- calcul totaluri coloane
selectm b5 (click)
selectm linia de comenzi
selectm ; apare = SUM (B3:B4); acceptm tastnd Enter

166
Gheorghe Ioan Mihala, Diana Lungeanu

selectm b5 i Ctrl + C (Copy)


selectm c5:e5 i Ctrl + V (Paste)
- totaluri linii
procedm similar pentru total pe linii (select f3 / linia comenzi / / f3
Copy / f4:f5 Paste)
- completm tabelul cu calcul procente
select a6 scriem %
select b6 / = b5 / $ f5 (explicaia n Excel pentru utilizarea $)
copy din b6 n c6:f6
- Interpretare: tabelele sunt acum completate cu totaluri i procente.
Subtema 2b: calculul unor variabile intermediare sau finale
Vom calcula indicele de mas corporal BMI (Body Mass Index) conform relaiei
BMI = Greutate (kg) / nlime2 (m)
- Procedeu
- deschidem Worksheet: par-st
- introducem dou noi coloane:
F va conine nlimea n m (n F2 notm h(m))
G va conine BMI (n G2 notm BMI)
- selectm csua F3
- n bara de inserare comenzi introducem: = d3/100;
- copiem formula pe toat coloana F (de la f3:f62) (revedem comenzile Ctrl + C
pentru Copy i Ctrl + V pentru Paste)
- selectm G3
- introducem comanda: = e3 / (f3 * f3)
- copiem formula de la g4:g62
- dorim afiarea BMI cu dou zecimale: selectm coloana G (cu mouse), apoi din
bar, Format / Conditional Formatting - apare o fereastr cu acelai nume, avnd 4
rubrici n seciunea Condition 1:
prima alegem / lsm Cell Value Is,
a doua putem selecta condiii: Greater than, Less than, Between etc.;
alegem nti greater than;
completm limita dorit, de ex. 22.1, peste care interpretm obezitatea
dm click pe butonul Format; se deschide o nou fereastr Format Cells
n care putem alege o variant de afiare dac este ndeplinit condiia:
font, culoarea textului, culoarea fondului etc.; de ex. alegem n Pattern o
culoare roie pentru fond, apoi OK, se revine n fereastra Conditional
Formatting
dm acum clic pe butonul Add; fereastra i adaug nc o seciune
Condition 2, n care repetm paii anteriori; se pot aplica maximum 3
condiii.
- s mai adugm condiiile:
fond galben pentru valori ntre 19.4 i 22.1 (supraponderali)
fond verde pentru valori ntre 14.2 i 19.4 (normali)
vor rmne nemodificate celulele cu valori sub 14.2 (subponderali).
- valoarea din celula noastr va ndeplini una din condiii; cnd condiia este
ndeplinit se va vedea culoarea n celul; dup introducerea tuturor condiiilor,
selectm din nou celula g3 i cu Copy (sau Ctrl+C) vom copia condiiile pe toat
coloana G n jos, cu Edit / Paste Special / Formats (altfel copiaz i valorile). Vom
vedea culorile alese condiionat, n funcie de valori, n celulele corespunztoare.

167
Biostatistica

- Interpretare: apare coloana ntreag BMI cu 2 zecimale, colorat astfel nct ies n
eviden cele 4 clase n funcie de valoarea BMI.

Tema 3: Parametrii statistici


Obiectiv: determinarea parametrilor statistici ai unui eantion
Worksheet utilizat: par-st
Modul de lucru:
Tema are dou pri asemntoare:
Tema 3a: parametrii statistici pentru 1 variabil, pe un eantion ntreg pentru
nlimea grupului de copii.
- Procedeu
- din bara de comenzi selectm Tools; apare un pop-up meniu,
- din meniu selectm Data Analysis (dac nu exist aceast comand, ea putea fi
introdus cu Add-Ins),
- apare un nou meniu selectm Descriptive Statistics
- n noua fereastr deschis selectm:
input range: d2:d62
grouped by: Columns
bifm labels in first row (este vorba de d2)
output range alegem o csu n dreapta, de ex g2
bifm summary statistics
(opional putem bifa i confidence level for mean) / ok.
- Interpretare: apare tabelul cu rezultate care este comentat n curs, cap. 2.3.1
(tabelul 2.2)
Tema 3b: parametrii statistici pentru 1 variabil, pe un subgrup.
Vom obine parametrii statistici pentru nlimea fetelor din grupul de copii.
- Procedeu
- selectm coloana C (sex)
- din bara de comenzi selectm Data; din submeniu selectm 2 Filter, apoi
Auto filter
- apare un buton cu care putem selecta F (numai fetele)
- din coloana D selectm nlimile celor 24 fete, pe care le copiem ntr-un nou
Worksheet (din Insert / Worksheet), s zicem de la a1 n jos (click pe a1, apoi
CTRL + V)
- mai departe procedm ca mai sus: Tools / Data Analysis Descriptive Statistics
etc. (atenie: datele sunt acum n a1:a24, fr labels in first row, etc);
- putem da un nume acestui nou worksheet: n bara de jos, cu mouse-ul pe Sheet1
care este acum activ, clic drapta se deschide un meniu din care selectm Rename,
apoi introducem noul nume, de ex. "par-st2".
- Interpretare: tabelul obinut conine acum rezultatele statistice privind nlimea
fetelor din lot.

168
Gheorghe Ioan Mihala, Diana Lungeanu

Tema 4: Histograme din fiiere de date brute


Obiectiv: crearea limitelor intervalelor pentru histograme i ridicarea
histogramelor. Limitele claselor, ce poart denumirea de "bin", vor fi trecute ntr-o
coloan ce o vom crea alturi de tabelul de date. Este bine ca valorile pentru bin-uri s
se aleag nct s se intercaleze ntre valorile experimentale. Limitele se pot alege
arbitrar noi vom lucra n dou variante, cu clase late de 1 cm, respectiv cu limea
optim (rotunjit), dat de relaia (2.4), p.27, adic h = (XM Xm) / (1 + 3.322 lg N).
Worksheet utilizat: par-st
Modul de lucru
Tema are dou pri similare:
Subtema 4a: crearea limitelor pentru histograme cu limea clasei de 1 cm.
- Procedeu
- avem pe coloanele G i H parametrii statistici calculai n Tema 3a.
- pe coloana L vom crea limitele pentru prima histogram
- selectm L2, introducem valoarea cu limea clasei (1 n cazul nostru)
- selectm L3, introducem o valoare pentru limita din dreapta a primei clase; dac
dorim s avem clasele centrate pe valori ntregi sau rotunde (n cm), vom lua pentru
limite jumti de unitate pentru noi, avnd Minimum 128.2 (din tabelul obinut
n subtema 3a) vom lua ca prim valoare 128.5;
- dorim s incrementm aceste limite bin cu limea clasei la fiecare pas, deci
completm coloana L n jos astfel:
L4 = L3 + L$2 (am fixat pasul de incrementare)
copiem L4 n jos nct s acoperim valoarea maxim (149.5 n cazul
nostru); putem s i depim valoarea, ns ulterior vom folosi doar
intervalul ce acoper datele reale;
- din Tools / Data Analysis / Histogram
- input range: D3:D62
- bin range: L3:L25
- chart output
- apare tabelul de valori n clase i histograma; graficul poate fi "mrit", prin "drag"
cu mouse-ul;
- pregtim n final histograma cu date suplimentare (titlu, axe etc).
- Interpretare: tabelul afiat n stnga histogramei conine numrul de copii din
fiecare clas de nlime cu limea de 1 cm. Prima clas are marginea superioar
valoarea din coloana bin, adic 128.5, deci cuprinde toate valorile pn la 128.5
inclusiv. Observm tendina central, ns histograma are "numeroi dini", datorit
claselor prea nguste. Vom putea compara acest grafic cu urmtorul, pe care l
realizm cu limea adecvat.
Subtema 4b: crearea histogramelor cu lime optim
Se procedeaz la fel ca n Excel 2007.

Tema 5: Teste statistice


Obiectiv: compararea a dou serii numerice sau calitative
Worksheet utilizat: teste i chi-sq
169
Biostatistica

Modul de lucru
Tema are 3 pri distincte, asemntoare, una pentru testul t pereche i una pentru
testul t nepereche, ultima pentru testul chi-sq.
Subtema 5a: testul t pereche
Vom aplica testul t pereche pentru a compara diferenele ntre tensiunile sistolice
nainte i dup tratament.
- Procedeu
- din Tools / Data Analysis / t Test: Paired Two Samples for Means
- n fereastra deschis alegem:
variable 1 range: b2:b62
variable 2 range: c2:c62
hypothesized mean difference: 0 (sau lsm necompletat)
bifm labels (avem n b2 i c2)
lsm Alpha 0.05
selectm output (de ex g2)
- apare tabelul de forma celui din cap. 4.2.1.3, tabelul 4.2.b
- Interpretare: n tabelul afiat apar multe date de interes: mediile celor dou serii,
varianele (variana este ptratul deviaiei standard), cea mai de interes valoare fiind
cea din csua "P(T<=t) two-tail", care este 0.0356 (sub 0.05), deci indic o
diferen semnificativ.
Subtema 5b: testul t nepereche
Vom aplica testul t nepereche pentru a compara tensiunea sistolic nainte de
tratament la brbai, comparativ cu femei.
- Procedeu
- deschidem worksheet teste
- selectm coloana A (sex)
- cu Data / Filter / Autofilter, prelum pe rnd:
datele pentru brbai, selectnd M i copiind din coloana S 7s-1 datele ntr-
un nou worksheet n coloana A de la A2 n jos; n A1 scriem M
datele pentru femei, similar n coloana B de la B2 n jos; n B1 scriem F.
- alegem Tools / Data Analysis / t test: Two Sample Assuming Unequal Variances
- obinem un tabel similar cu tabelul 4.2.a din cap. 4.2.1.2
- putem n final denumi noul worksheet "teste2".
- Interpretare: n tabelul afiat valoarea din csua "P(T<=t) two-tail", este acum
0.91, mult peste 0.05, deci diferenele sunt nesemnificative.
Subtema 5c: testul hi ptrat
- Procedeu
- Se deschide worksheet chi-sq
- Completm n tabele totalul;
- Pentru valorile ateptate (expected) presupunem o distribuie uniform a
persoanelor pe grupe sanguine, atunci valorile ateptate (csuele b4:e4) se pot
calcula cu relaia = total / 4; deci clic pe b4, apoi = $F$3 / 4 i copiere n celelalte.
- Pentru calculul testului:
selectm csua de rezultat (i3)

170
Gheorghe Ioan Mihala, Diana Lungeanu

selectm funcia fx i alegem CHITEST; se deschide fereastra


Function Arguments
- actual_range (se refer la valori experimentale, adic b3:e3 // va fi b8:e8 pentru
tabelul exp. 2)
- expected_range (se refer la valori teoretice; atunci lum b4 : e4 sau b9:c9)
- Interpretare: apare valoarea lui p (0,000828) < 0,001 deci avem diferene extrem
de semnificative ntre valorile experimentale i cele teoretice; vom respinge H 0.
- Repetm toate operaiunile pentru un lot mult mai mic (tabelul exp. 2), dar pstrnd
proporiile observm c, n cazul loturilor mici, diferenele nu mai sunt
semnificative (p = 0.644), dei proporiile claselor sunt aceleai.

Tema 6: Analiza corelaiei


Obiectiv: determinarea coeficientului de corelaie i trasarea dreptei de regresie
Worksheet utilizat: regr
Modul de lucru
Tema are 2 pri complementare
Subtema 6a: comanda correlation
- Procedeu
- completm coloana C cu: indicele BMI (v. formula BMI din Tema 2b), dar l
calculm direct astfel: introducem n csua c3 o relaia direct de calcul pentru
BMI "= b3 * 10000 / (a3 * a3)"
- din Tools / Data Analysis / Correlation se completeaz n fereastra deschis:
input range a2:c42 (Obs: variabilele de corelat trebuie s fie plasate n 2
coloane vecine n tabel); coloana A va fi pe Ox iar B pe Oy
grouped by columns
bifm labels (sunt a2, b2 i c2)
selectm ieirea (de ex e2)
- Interpretare: apare un tabel 3 x 3 cu coeficienii de corelaie separat pentru
corelaia nlime-greutate (0,75 n cazul nostru, deci avem o corelaie direct,
destul de puternic), corelaia nlime - bmi (-0,69 = invers, medie) i corelaia
greutate bmi (-0,04 = foarte slab)
Subtema 6b: comanda regression
- Procedeu
- din Tools / Data Analysis / Regression completm:
input Y range: b2:b42 (greutatea)
input X range: a2:a42 (nlimea)
bifm labels (sunt a2 i b2)
nu bifm constant is zero (dac se bifeaz atunci se calculeaz dreapta de
regresie care trece prin origine)
nu bifm: Standardized residuals, Residual Plots, nici Normal Probability
Plots
bifm Line Fit Plot pentru graficul dreptei de regresie
- alegem output range (de ex e7)
- Interpretare: apar rezultatele (Summary Output) n 4 tabele i un grafic

171
Biostatistica

- din primul tabel (Regression Statistics) urmrim Multiple R coeficientul de


corelaie (0,75 n cazul nostru)
- din al doilea tabel (ANOVA) urmrim Significance F (2.32 x 10 -8 ceea ce nseamn
c avem o probabilitate extrem de mic s obinem din ntmplare aa un coeficient
de corelaie (este echivalentul lui p)
- din al treilea tabel gsim:
ordonata la origine = Intercept (-2.89 4.99)
panta (slope) n csua sub valoare intercept (0,255 0.036)
pentru ambele sunt date limitele 95%
- al patrulea tabel arat valorile calculate pentru greutatea calculat (predicted)
corespunztoare nlimilor, conform:
greut. calc = intercept + panta * nlime, sau
greut. calc = -2,89 + 0,255 * nlimea
- urmtoarea coloan conine diferenele:
residual = greut (real) greut. calc
- In grafic facem urmtoarele operaii:
mrim graficul (tragem cu mouse-ul de coluri)
schimbm axa Oy: facem (dublu) clic pe ax; se deschide fereastra
Format Axis; selectm Scale i pentru Minimum introducem alt
valoare (de ex 27)
trasm dreapta de regresie: cu mouse, click dreapta pe un punct
experimental (bleumarin) se deschide un meniu mic i selectm Add
Trendline i selectm trend Linear (prima csu)
putem elimina valorile prezise cu un click dreapta pe un punct teoretic
(magenta), iar din fereastra mic selectm clear.

Tema 7: Analiza riscului


Obiectiv: realizarea tabelului de contingen pornind de la date brute i calculul
indicatorilor de risc.
Worksheet utilizat: risc
Modul de lucru
Tema are dou etape distincte
Subtema 7a: realizarea tabelului de contingen
Varianta 1
- (a) Construim scheletul tabelului de contingen, fie sub date (sub linia 162) sau
pe un nou worksheet (alegem aceast variant), numit risc2
- Insert / Worksheet // click dreapta pe nume / rename / risc2
- selectm regiunea a1 : d4; din bara de formatare alegem borders cu linii pentru
toate csuele; introducem notaiile clasice n A2 : A4 (E+, E-, total), respectiv n
B1 : D1 (B+, B-, total).
- Completm D4 cu valoarea numrului total (160 n cazul nostru)
- (b) Transformarea variabilei de expunere
- revenim n worksheet risc

172
Gheorghe Ioan Mihala, Diana Lungeanu

- Vom transforma variabila numeric TA Sys n variabila calitativ Hipertens cu


convenia:
dac TA Sys 140 atunci Hipertens = 1 (= DA)
dac TA Sys < 140 atunci Hipertens = 0 (= NU)
- n C2 notm label Hipertens
- Selectm C3 i dm click pe fx; se deschide fereastra Insert function, n care
lum:
select category: All
baleiem toate funciile pn la IF, selectm IF, se deschide fereastra
Function Arguments, n care lum:
logical test: a3 = 140
value if true: 1
value if false: 0 / ok
n csua c3 apare 0 sau 1 (n cazul nostru 0)
- copiem formula din c3 n jos (c4:c162) (revedei funciile Ctrl + C i Ctrl + V)
- (c) Aflm totalurile E+ i B+:
- selectm b163, apoi pe i Sum (apare propunerea SUM (B3:B162), o acceptm
(enter); apare totalul pe coloana B (fumat); copiem valoarea n sheet risc2, D2 (76
n cazul nostru) (Obs.: se exerseaz Copy din Sheet risc cu Paste n Sheet risc2 cu:
Select D4, apoi =, trecere la Sheet risc i click pe B163)
- similar cu c163 pe care o trecem n B4 (36 n cazul nostru)
- (d) Selectm coloanele B i C (ar fi suficient B) i filtrm numai fumtorii (Data /
Filter / Autofilter), apoi click pe butonul din coloana B i din micul meniu ce apare
selectm 1; dispar liniile ce aveau 0 n coloana B
- selectm o csu pe coloana C jos, sub ultima linie scris (va fi C164 n cazul
nostru); introducem funcia SUBTOTAL cu proprietile:
function_num: lum 9 (se va face totalul ignornd valorile ascunse),
Ref 1: lum c3:c162 /OK (precizm toat coloana, tiind c valorile
ascunse vor fi ignorate);
- apare totalul pentru care aveam 1 i n coloana B i n coloana C, adic sunt i E+ i
B+; introducem aceast valoare (clic pe c166 si Ctrl+C) (32 n cazul nostru) n
tabelul din risc2, csua b2; Obs: preferm s folosim Paste Special / Value (prin
clic dreapta), altfel se dorete copierea formulei de subtotal!
- Restul tabelului se completeaz prin diferene:
- c2 = d2 b2; apoi copy c2 n c4,
- b3 = b4 b2; apoi copy b3 n c3 i d3.
n continuare urmrii procedeul descris pentru lucrul n Excel 2007, pentru Varianta
2, Varianta 3 i Subtema 7b.

Tema 8: Validarea testelor diagnostice


Procedura este identic cu cea descris pentru Excel 2007.

173
Biostatistica

174
Gheorghe Ioan Mihala, Diana Lungeanu

Anexa 1: Tabelele de Date


WS1: grafic
Descriere worksheet
Date din studiul distribuia grupelor sanguine. n tabel-1 sunt centralizate datele
obinute pe un lot de 400 persoane, 200 brbai i 200 femei. n tabel-2 sunt datele pe un
lot de 8 ori mai mic 50 persoane, cu aceleai proporii ale grupelor sanguine. Sunt
datele din exemplul 4.3 (cap. 4.2.3.1)
Structura:
- liniile 1, 2 labels (titlul i capul de tabel),
- linia 3 date brbai (M),
- linia 4 date femei (F),
- linia 5 total [necalculat va fi calculat n lucrrile practice],
- coloana 1 labels,
- coloanele B E: date pe grupele 0, A, B, AB,
- coloana F total [necalculat va fi calculat n lucrrile practice].

Distribuia grupelor sanguine


tabel-1 O A B AB Total
M 47 77 32 44
F 53 67 32 48
Total

tabel-2 O A B AB Total
13 18 8 11

WS2: par-st
Descriere worksheet
Date din studiul dezvoltarea somatic a copiilor n vrst de 10 ani, pe un lot
de 60 de copii.

Structura:
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:62 date,
- coloana A nr. crt. (1- 60),
- coloana B iniiale (2 litere) necompletat,
- coloana C sex (M sau F),
- coloana D nlimea n cm (cu 1 zecimal),
- coloana E greutatea n kg (cu 1 zecimal),
- coloana F indice de greutate corporal [necalculat va fi calculat n lucrrile
practice].

175
Biostatistica

Dezv.copii 10 ani
nr init sex inalt greut nr init sex inalt greut
1 F 140.5 39.8 31 M 142.9 30.2
2 F 140.6 40.3 32 M 141.5 30.1
3 M 139.5 30.9 33 M 141.1 25.5
4 F 137.7 35.3 34 M 139.0 29.5
5 M 138.3 29.5 35 F 136.6 40.6
6 M 134.5 28.5 36 F 149.5 33.3
7 M 135.1 24.5 37 F 134.5 34.1
8 M 134.2 31.5 38 M 142.8 31.6
9 F 138.3 34.2 39 F 144.1 36.6
10 F 139.3 37.5 40 F 139.6 34.1
11 F 130.8 39.4 41 M 141.4 32.9
12 F 137.1 35.5 42 F 143.3 33.9
13 M 137.5 29.2 43 F 132.7 38.9
14 M 141.2 32.6 44 F 144.6 35.5
15 M 139.4 31.3 45 M 142.5 28.3
16 M 134.3 31.6 46 M 143.2 29.8
17 M 146.4 27.9 47 F 139.7 34.8
18 M 139.6 32.5 48 M 139.3 29.3
19 M 140.5 29.7 49 M 138.9 30.9
20 F 142.8 34.5 50 F 139.0 34.9
21 M 128.2 31.6 51 F 146.0 35.0
22 M 136.1 23.8 52 M 139.8 32.7
23 M 141.6 32.6 53 M 138.0 31.6
24 M 135.8 28.7 54 F 140.7 33.9
25 F 134.8 40.8 55 F 140.9 40.2
26 M 144.9 32.9 56 M 133.6 26.2
27 M 146.0 31.1 57 F 135.9 33.5
28 F 137.8 37.5 58 M 137.6 29.0
29 M 140.4 29.8 59 M 143.6 31.4
30 M 137.9 32.9 60 M 137.7 27.3

176
Gheorghe Ioan Mihala, Diana Lungeanu

WS3: teste
Descriere worksheet
Date din studiul privind efectul unui tratatament cu un antihipertensiv asupra
tensiunii arteriale, efectuat pe un lot de 60 subieci.
Structura
liniile 1, 2 labels (titlul i capul de tabel),
liniile 3:62 date,
coloana A: sexul,
coloanele B i C: tensiunea sistolic nainte i dup de tratament,
coloanele D i E: tensiunea diastolic nainte i dup de tratament.

Tensiune arteriala
sex Sys-1 sys-2 Dia-1 dia-2 sex Sys-1 sys-2 Dia-1 dia-2
M 150 158 83 89 F 130 148 66 70
F 176 146 113 108 F 164 139 105 98
F 156 125 89 90 F 119 181 58 59
F 164 174 98 96 M 152 149 84 89
M 158 159 97 99 F 134 153 72 68
F 162 148 101 99 M 149 157 87 83
M 150 138 89 86 M 168 142 99 102
F 173 136 110 112 F 154 151 89 90
F 153 162 88 86 M 145 145 84 80
F 180 140 112 119 M 176 142 112 114
F 154 170 85 91 F 168 153 101 105
F 167 136 101 99 F 159 158 95 93
F 169 130 102 109 M 178 134 116 111
F 136 164 77 67 F 166 161 103 97
M 177 174 115 117 F 193 153 130 126
F 166 157 98 98 F 165 137 98 105
M 145 149 79 79 F 159 156 98 98
M 153 163 87 93 F 160 142 94 97
F 131 131 72 68 M 188 158 126 124
M 145 148 76 81 M 157 159 93 89
M 180 164 119 115 M 183 127 122 122
M 157 153 90 93 M 160 166 100 95
M 171 159 104 104 M 155 143 94 88
M 136 156 71 75 F 204 131 140 136
M 139 152 74 80 M 127 178 67 63
F 128 163 64 60 F 157 134 88 94
F 186 146 120 126 F 132 139 70 66
F 166 175 98 98 M 147 153 84 88
F 159 161 91 96 F 142 162 81 80
M 172 142 108 111 M 149 156 87 88

177
Biostatistica

WS4: val-dg
Descriere worksheet
Evaluarea unui test de sarcin efectuat pe un lot de 120 femei.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:122 date,
- coloana A nr. crt,
- coloana B rezultatul testului, nott cu + i - ,
- coloana C situaia real privind confirmarea sarcinii, notat la fel.

Test sarcina
nr. Rz Cf nr. Rz Cf nr. Rz Cf nr. Rz Cf
1 - - 31 + + 61 + - 91 + -
2 + + 32 - + 62 - - 92 + -
3 + - 33 + + 63 - + 93 - +
4 - + 34 - - 64 + - 94 + +
5 + + 35 + - 65 + + 95 + +
6 + + 36 + - 66 + + 96 + +
7 + - 37 - - 67 + + 97 + -
8 - + 38 + + 68 + - 98 - -
9 + + 39 - + 69 + + 99 - +
10 + - 40 + + 70 + + 100 + +
11 + + 41 + + 71 + + 101 + +
12 + - 42 + + 72 + - 102 + +
13 - + 43 + + 73 + + 103 + +
14 + + 44 + + 74 + + 104 + +
15 + - 45 + + 75 + - 105 + -
16 - - 46 + + 76 + + 106 - -
17 + + 47 + + 77 + + 107 + +
18 + + 48 + + 78 + + 108 + +
19 + + 49 + + 79 + + 109 + +
20 + - 50 + + 80 + + 110 + -
21 - - 51 + + 81 + - 111 + +
22 + - 52 + + 82 + - 112 + -
23 + - 53 + + 83 - - 113 + +
24 - - 54 + - 84 - + 114 + +
25 - + 55 - + 85 + + 115 + -
26 + + 56 + - 86 + + 116 - +
27 + - 57 + - 87 + + 117 + +
28 - - 58 + + 88 + + 118 + +
29 + - 59 + - 89 + - 119 + +
30 - + 60 + - 90 - + 120 + +

178
Gheorghe Ioan Mihala, Diana Lungeanu

WS5: risc
Descriere worksheet
Date din studiul evaluarea riscului produs de fumat asupra tensiunii arteriale (risc
de hipertensiune); studiu transversal pe 120 persoane.
Structura
- liniile 1, 2 labels (titlul i capul de tabel), liniile 3:162 date,
- coloana A: tensiunea arterial sistolic,
- coloana B: fumtor DA / NU, notat cu 1/0 (1 = DA, 0 = NU).

Risc: OR, RR
TA Fm TA Fm TA Fm TA Fm TA Fm
123 0 148 1 146 1 141 1 121 0
133 1 123 0 115 1 141 1 127 0
124 0 145 1 111 0 119 0 139 0
128 1 134 1 131 0 112 0 115 0
138 1 122 0 135 0 164 0 124 0
134 1 153 1 129 0 131 0 128 0
123 0 112 1 118 1 149 1 126 1
97 0 125 1 115 0 139 0 139 0
132 0 135 0 128 1 116 1 117 0
159 1 117 1 107 0 122 0 114 0
118 0 142 1 141 1 117 1 132 0
139 0 134 0 127 0 120 0 152 1
107 1 112 1 165 1 143 1 122 0
123 0 118 0 132 0 120 1 123 1
120 0 120 1 116 0 126 0 120 1
146 1 131 0 146 1 148 1 154 1
135 1 127 0 114 1 145 1 143 1
166 1 126 1 130 0 125 0 129 0
127 1 146 0 137 0 116 0 109 1
126 0 121 0 113 0 124 1 106 0
129 0 132 0 114 0 128 0 118 0
122 0 136 1 148 1 142 1 120 1
160 1 129 0 153 1 111 1 135 0
112 0 93 0 129 1 130 0 125 1
148 1 129 0 171 1 139 0 107 1
119 0 132 1 109 0 121 0 116 1
119 0 130 1 113 0 149 1 162 1
140 0 134 0 134 1 137 0 131 1
123 0 124 0 122 0 133 1 124 1
147 1 95 0 127 1 111 1 91 1
151 0 134 1 121 0 123 0 156 1
138 1 164 1 142 1 122 0 91 0

179
Biostatistica

WS6: chi-sq
Descriere worksheet
Date din studiul distribuia grupelor sanguine. n exp.1 sunt datele pe un lot de 240
persoane, iar n exp.2 pe un lot de 10 ori mai mic, cu exact aceleai proporii ale
grupelor sanguine.
Structura
- liniile 1, 2, 7 labels (titlul i capul de tabel),
- linia 3 i 8 date observate,
- linia 4 i 9 date ateptate (teoretice), [necalculate vor fi calculate n lucrrile
practice],
- coloana A i H labels,
- coloanele B E: date pe grupele 0, A, B, AB,
- coloana F total [necalculat va fi calculat n lucrrile practice],
- coloana I valoarea lui p din testul chi-square.
Grupe sanguine
exp.1 0 A B AB
observed 50 80 40 70 p(chi-sq)
expected

exp.2 0 A B AB
observed 5 8 4 7 p(chi-sq)
expected

WS7: regr
Descriere worksheet
Date din studiul dezvoltarea somatic a copiilor n vrst de 10 ani, pe un lot de 40
copii.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:42 date,
- coloana A nlimea n cm, fr zecimale,
- coloana B greutatea n kg, cu 1 zecimal.
Date copii
inalt greut inalt greut inalt greut inalt greut
140 33.2 139 33.4 127 30.0 137 32.9
138 30.4 147 35.7 128 29.4 147 35.2
132 32.1 138 32.8 134 30.4 134 32.9
144 32.4 139 31.9 130 29.5 135 33.3
140 34.5 132 29.7 142 33.3 134 29.8
136 30.9 128 30.1 139 32.9 137 31.9
139 33.9 137 32.0 137 33.5 136 30.4
145 33.4 137 31.0 131 32.1 142 34.8
141 32.9 133 30.1 134 32.7 137 31.4
132 30.7 141 34.5 136 30.6 144 31.9

180
Gheorghe Ioan Mihala, Diana Lungeanu

Anexa 2 Rezultate
n aceast anex sunt prezentate rezultatele sub form de imagini (capturi de
ecran) obinute urmrind protocoalele de lucru ale lucrrilor practice. Cu mici excepii,
ele arat la fel, fie c s-a lucrat n Excel 2007 sau 2003.
Rezultatele nu sunt comentate aici. Pentru aceasta urmrii rubrica de Interpretare
din fiecare lucrare, la fiecare subtem.

Tema 1: Reprezentri grafice simple


Subtema 1a: histograma 1 variabil

Subtema 1b: reprezentare sectorial

181
Biostatistica

Subtema 1c: histograma 2 variabile varianta 1

Subtema 1d: histogram 2 variabile varianta 2

Subtema 1e: histogram 2 variabile varianta 3

182
Gheorghe Ioan Mihala, Diana Lungeanu

Tema 2: Calcule simple n Excel


Subtema 2a: calcul totaluri i procente

Subtema 2b: calculul unor variabile intermediare sau finale

183
Biostatistica

Tema 3: Parametrii statistici


Tema 3a: parametrii statistici pentru o variabil, pe un eantion ntreg pentru
nlimea grupului de copii
Tema 3b: parametrii statistici pentru o variabil, pe un subgrup: nlimea fetelor.

184
Gheorghe Ioan Mihala, Diana Lungeanu

Tema 4: Histograme din fiiere de date


brute
Subtema 4a: crearea limitelor pentru histograme cu limea clasei de 1 cm.

Subtema 4b: crearea histogramelor cu lime optim

185
Biostatistica

Tema 5: Teste statistice


Subtema 5a: testul t pereche

Subtema 5b: testul t nepereche

Subtema 5c: testul hi-ptrat

186
Gheorghe Ioan Mihala, Diana Lungeanu

Tema 6: Analiza corelaiei


Subtema 6a: comanda correlation

Subtema 6b: comanda regression

187
Biostatistica

188
Gheorghe Ioan Mihala, Diana Lungeanu

Tema 7: Analiza riscului


Subtema 7a: realizarea tabelului de contingen

Subtema 7b: calculul indicatorilor


- Folosim pachetul statistic Epi Info

189
Biostatistica

Tema 8: Validarea testelor diagnostice


Subtema 8a: crearea tabelului de contingen.
Subtema 8b: calculul indicatorilor.

190
Gheorghe Ioan Mihala, Diana Lungeanu

BIBLIOGRAFIE
Adkins DC. Statistics. An Introduction for Students in the Behavioral Sciences. Charles
E Merrill Books, Columbus Ohio, 1964
Altman DC. Practical statistics for medical research. Chapman&Hall/CRC, Boca
Raton, 1999
Armitage P., Berry G. Statistical methods in medical research (2nd Ed.). Blackwell
Scientific Publications, Oxford, 1987
Campbell MJ., Machin D. Medical Statistics. A Common Sense Approach. Chichester:
John Wiley & Sons, 1993
Colton T. Staistics in Medicine. Littele, Brown & Co, Boston Mass, 1974
Daniel WW. Biostatistics: a Foundation for Analysis in the Health Sciences.
Chichester: John Wiley & Sons, 1999
Glaser AN. High-Yield Biostatistics. Baltimore: Williams & Wilkins, 1995
Gordis L. Epidemiology (3rd ed). Philadelphia: Elsevier-Saunders, 2004
Ingelfinger JA., Mosteller F., Thibodeau LA., Ware JH. Biostatistics in Clinical
Medicine. MacMillan Publ Co,New York, 1983
Knapp RG., Clinton Miller M. Clinical epidemiology and biostatistics. Williams &
Wilkins, Baltimore, 1992
Lang TA., Secic M. How to Report Statistics in Medicine. Philadelphia: American
College of Physicians, 1997
Lindsay JK. Nonlinear Models in Medical Statistics. Oxford: Oxford University Press,
2001
Lungeanu D., Mihala GI. Informatic Medical i Biostatistic. Eurobit, Timioara,
2008
Michelson S., Schofield T. The Biostatistics Cookbook. Dordrecht NL: Kluwer Acad.
Publ., 1996
Milton JS. Statistical Methods in the Biological and Health Sciences. New York: Mc
Graw-Hill, 1992
Moon G., Myles G. Epidemiology: an Introduction. Buckingham: Open University
Press, 2000
Murphy E A. A Companion to Medical Statistics. Baltimore: Johns Hopkins Univ.
Press, 1985
Pagano M, Gauvreau K. Principles of Biostatistics. Belmont CA: Wadsworth Publ Co.,
1993
Parker RE. Introductory Statistics for Biology (2nd ed). Baltimore: University Park
Press, 1979
Quinn GP., Keough MJ. Experimental Design and Data Analysis for Biologists.
Cambridge: Cambridge Univ. Press, 2002
Sheskin DJ. Handbook of parametric and nonparametric statistical procedures (3rd
Ed.). Chapman & Hall/CRC, Boca Raton, 2004

191
Biostatistica

Spiegel MR. Statistics (2nd ed). McGraw-Hill, New York, 1995


Tabele de distribuii statistice: http://www.statsoft.com/textbook/sttable.html
Tanur JM. et al. Statistics: a Guide to the Biological and Health Sciences. San
Francisco: Holden-Day, 1977
Wassertheil-Smoller S. Biostatistics and Epidemiology. A Primer (3rd ed). New York:
Springer, 2004
Wikipedia. Teste statistice neparametrice (inclusiv tabele cu valorile critice):
http://en.wikipedia.org/wiki/Nonparametric_test
Zar JH. Biostatistical Analysis (4th ed). Upper Saddle River NJ: Prentice-Hall, 1999

192

S-ar putea să vă placă și