Documente Academic
Documente Profesional
Documente Cultură
DIANA LUNGEANU
BIOSTATISTIC
I
Colecia
STUDII DOCTORALE
II
GHEORGHE-IOAN MIHALA
DIANA LUNGEANU
BIOSTATISTIC
2011
III
Editura VICTOR BABE
Piaa Eftimie Murgu 2, cam. 316, 300041 Timioara
Tel./ Fax 0256 495 210
e-mail: evb@umft.ro, calaevb@umft.ro
www.evb.umft.ro
MIHALA, GHEORGHE-IOAN
Biostatistic / Gheorghe Ioan Mihala, Diana Lungeanu. -
Timioara : Editura Victor Babe, 2011
ISBN 978-606-8054-35-3
I. Lungeanu, Diana
311:57
IV
Prefa
O nou ediie sau carte pe aceeai tem ofer ntotdeauna autorilor prilejul de a-i
ajusta coninutul i mbunti prezentarea, n funcie de reaciile la ediia precedent
i noilor dezvoltri n domeniu. Acesta este i cazul noului nostru volum de
Biostatistic, adresat absolvenilor profilelor medicale ce i continu studiile la nivel
masteral sau doctoral.
Cursanii notri, chiar dac nu i manifest direct o aversiune fa de formalizrile
uzuale, care abund n majoritatea crilor de biostatistic, i-au exprimat direct
preferinele spre o abordare cu puternic tent aplicativ i cu exemple ct mai multe i
mai variate n care s-i gseasc eventuale analogii cu propriile preocupri. Prin
sondajele efectuate am constatat c majoritatea cursanilor aveau unele cunotine
elementare de calcul statistic, care erau ns nesistematizate i erau nsoite de un nivel
ridicat de incertitudine. Muli utilizaser deja aplicaii de prelucrri statistice, ns din
exemplele date a reieit c deseori nu tiau de ce folosiser anumite prelucrri, ei
orientndu-se, de regul, dup alte articole publicate n care erau relatate cercetri
asemntoare.
Este evident c un curs modern de biostatistic nu poate ignora aplicaiile software
actualmente accesibile, ci chiar trebuie s le utilizeze ca punct de pornire i de
exemplificare. n acelai timp, utilizarea inadecvat a unor prelucrri statistice, la fel
ca i interpretarea greit a rezultatelor prelucrrilor poate conduce la concluzii
greite, uneori aproape periculoase n domeniul medical. Pentru evitarea lor este
nevoie de nelegerea noiunilor fundamentale de biostatistic. Chiar i utilizatorii cu
mai puine cunotine de matematic i mai puin obinuii cu formule, cum sunt
doctoranzii absolveni ai facultilor de profil medical, pot fi utilizatori contieni i
competeni ai instrumentelor statistice. Pornind de la aceste considerente, un curs care
se adreseaz lor trebuie orientat n direcia combinrii exemplelor cu o formalizare
echilibrat. Se poate realiza aceasta fr matematic, sau fr formule? Este greu de
rspuns cu un DA hotrt, ns se poate realiza o reducere substanial a formalizrii
matematice n favoarea unor scheme, exemple i explicaii.
Sondajul de la sfritul cursului a artat c pot fi nelese i aplicate corect
elemente de mare complexitate statistic chiar fr ncrcarea tradiional cu formule.
Totodat, a fost recunoscut faptul c partea teoretic, explicativ pentru fiecare gen de
prelucrare este esenial. Nu este posibil utilizarea contient i corect a aplicaiilor
software fr nelegerea elementelor teoretice.
n forma tiprit, fiecare capitol din curs ncepe cu partea descriptiv, ideile
principale urmrind un fir logic simplu, nsoit de exemple, explicaii i comentarii. n
textul propriu-zis au fost reinute doar cteva formule simple, strict necesare pentru
nelegerea noiunilor respective. Dac s-ar rezuma la att, am putea numi acest curs:
Biostatistica fr formule - nivel avansat. Dup seciunea descriptiv a fiecrui
capitol sunt reluate toate noiunile n manier formalizat, abordare ce urmrete un
dublu scop: pe de o parte este completarea indispensabil a unui curs ce se adreseaz
studenilor din programul doctoral; pe de alt parte, nu toi doctoranzii i-au exprimat
aversiunea fa de formule, unii dintre ei avnd o baz adecvat de cunotine pentru
urmrirea abordrii teoretice. Mai mult dect att, unii dintre studenii notri au
V
realizat c prezentarea formalizat ofer o elegan i o concizie greu de egalat prin
alte mijloace, ea fiind totodat mult mai uor acceptat dup o bun nelegere a
prezentrii descriptive. Trebuie totui menionat faptul c partea formalizat din cadrul
fiecrui capitol poate fi srit fr a afecta nelegerea capitolelor ulterioare. n plus,
fiecare capitol se ncheie cu o reluare a principalelor idei sub form sintetic,
concentrnd n cteva definiii, observaii sau reguli elementele eseniale ce sunt utile
din punct de vedere practic.
Pentru ca legtura cu practica s nu rmn la nivel declarativ, cititorul este
ndrumat s efectueze o serie de aplicaii practice specifice fiecrui tip de aplicaie,
avnd la dispoziie protocoalele de lucru folosite n cadrul lucrrilor de
seminar/laborator. Fa de varianta precedent, partea a doua a manualului, cea
dedicat protocoalelor de lucru, a fost complet restructurat i extins, introducnd n
prezentare i unele amnunte (omise anterior), care permit i persoanelor cu mai
puin experien n utilizarea softului statistic s poat parcurge integral fiecare tem.
Ne-am orientat, pentru majoritatea prelucrrilor, spre cel mai simplu i mai
popular soft cu care se pot realiza prelucrri la un nivel satisfctor n cele mai multe
cazuri. Este vorba de Microsoft Excel pentru care sunt actualmente n uz curent dou
versiuni Excel 2003, respectiv Excel 2007 foarte asemntoare la nivel de
prelucrare, dar destul de diferite ca meniuri, deci cu diferene uneori sensibile - n
descrierea modului de lucru, ceea ce justific prezentrile separate pe care le-am
adoptat n manualul nostru. n plus, aa cum au sugerat mai muli cursani, am introdus
i dou anexe: una cu descrierea tabelelor de date utilizate, inclusiv prezentarea lor,
iar a doua cu prezentarea rezultatelor prelucrrilor, ca suport pentru validarea
procedurilor aplicate personal.
Ne-a bucurat mult aprecierea cvasiunanim a modului de prezentare folosit,
orientat spre gndirea statistic i modul de interpretare a rezultatelor, fr a apela la
formule sau fraze enigmatice. ntr-adevr, dac este bine prezentat, biostatistica nu
este nici greu de neles, nici greu de aplicat.
Le mulumim celor care i-au exprimat opiniile i, ntr-un fel, chiar ne-au ncurajat
s pregtim acest nou volum. Credem c, n aceast variant, cursul nostru va sta pe
masa celor care i pregtesc tezele sau alte lucrri tiinifice trimise spre publicare,
care necesit aplicarea metodelor statistice de prelucrare a datelor. Ateptm cu
interes opiniile cititorilor, pe care le tratm cu deosebit atenie, fapt vizibil prin nsi
publicarea acestui volum.
Autorii
VI
CUPRINS
Partea I
1. NOIUNI INTRODUCTIVE .................................................................................. 3
1.1. Termeni .............................................................................................................. 3
1.1.1. Populaie, individ ...................................................................................... 3
1.1.2. Variabile .................................................................................................... 3
1.1.3. Obiectul biostatisticii, metode, eantion .................................................... 4
1.1.4. Inferen statistic ....................................................................................... 4
1.1.5. Eantion reprezentativ ............................................................................... 5
1.2. Metode de selecie ............................................................................................. 5
1.2.1. Selecia simpl........................................................................................... 6
1.2.2. Selecia stratificat .................................................................................... 6
1.2.3. Selecia grupat ......................................................................................... 6
1.3. Tipuri de variabile .............................................................................................. 7
1.3.1. Variabile numerice .................................................................................... 7
1.3.2. Variabile ordinale ...................................................................................... 7
1.3.3. Variabile calitative .................................................................................... 8
1.3.4. Transformri .............................................................................................. 8
1.3.5. Acuratee i precizie .................................................................................. 9
1.3.6. Caracteristicile variabilelor ....................................................................... 9
1.4. Variabilitate ...................................................................................................... 10
1.4.1. Surse de variaie ....................................................................................... 10
1.4.2. Tipuri de variaii ....................................................................................... 10
1.5. Proiectarea unui studio ........................................................................................ 11
1.5.1. Stabilirea scopului studiului ..................................................................... 11
1.5.2. Colectarea datelor ..................................................................................... 11
1.5.3. Sinteza datelor: tabele i grafice ............................................................... 11
2. STATISTICA DESCRIPTIV .............................................................................. 13
2.1. Colectarea datelor ............................................................................................. 13
2.2. Statistici descriptive .......................................................................................... 16
2.3. Indicatori ai tendinei central ............................................................................ 16
2.3.1. Media aritmetic ....................................................................................... 16
2.3.2. Mediana .................................................................................................... 17
2.3.3. Moda ........................................................................................................ 17
2.4. Indicatori de dispersie pentru variabile numerice ............................................. 18
2.4.1. Domeniul de valori ................................................................................... 18
2.4.2. Deviaia standard ...................................................................................... 18
2.4.3. Observaii ................................................................................................. 21
2.5. Indicatori de dispersie pentru variabile ordinale ............................................... 21
2.6. Indicatori pentru variabile calitative ................................................................. 22
VII
2.6.1. Proporiile claselor ................................................................................... 23
2.6.2. Deviaia standard a proporiei .................................................................. 23
2.7. Asimetrie i exces ............................................................................................. 24
2.8. Fundamentare teoretic ..................................................................................... 25
2.8.1. Indicatorii tendinei centrale ..................................................................... 25
2.8.2. Limea claselor n histograme ................................................................. 27
2.8.3. Indicatori de dispersie pentru variabile numerice ..................................... 28
2.8.4. Indicatori de dispersie pentru variabile ordinale ....................................... 31
2.8.5. Indicatori pentru variabile nominale ......................................................... 32
2.8.6. Medii de puteri: momente. Momente centrate .......................................... 33
2.8.7. Asimetria .................................................................................................. 34
2.8.8. Excesul ..................................................................................................... 34
3. ESTIMAREA STATISTIC .................................................................................. 37
3.1. Media populaiei ............................................................................................... 37
3.2. Eroarea standard a mediei ................................................................................. 38
3.3. Estimare, estimatori .......................................................................................... 39
3.4. Estimarea mediei ............................................................................................... 41
3.4.1. Estimarea mediei populaiei pentru eantioane mari ( > 30) .................... 41
3.4.2. Estimarea mediei populaiei pentru eantioane mici ( < 30)..................... 42
3.5. Estimarea diferenelor ntre medii ..................................................................... 42
3.6. Estimarea proporiilor i a diferenelor ntre proporii ...................................... 42
3.7. Calculul dimensiunii eantionului ..................................................................... 43
3.7.1. Calculul lui n pentru variabile numerice .................................................. 44
3.7.2. Calculul lui n pentru variabile nominale .................................................. 44
3.8. Fundamentare teoretic formalizare ............................................................... 45
3.8.1. Distribuii ................................................................................................. 45
3.8.2. Estimare .................................................................................................... 47
3.8.3. Estimarea mediei ...................................................................................... 48
3.8.4. Estimarea proporiei ................................................................................. 51
3.8.5. Estimarea diferenelor .............................................................................. 52
3.8.6. Calculul dimensiunii eantionului ............................................................ 54
4. TESTE STATISTICE ............................................................................................. 55
4.1. Noiuni fundamentale ........................................................................................ 55
4.1.1. Diferene semnificative i nesemnificative ............................................... 55
4.1.2. Prag de semnificaie ................................................................................. 56
4.1.3. Ipoteze statistice ....................................................................................... 57
4.1.4. Interpretarea testelor ................................................................................. 58
4.1.5. Erori statistice ........................................................................................... 60
4.1.6. Caracteristicile testelor ............................................................................. 61
4.1.7. Clasificarea testelor .................................................................................. 61
4.2. Teste uzuale ...................................................................................................... 62
4.2.1. Teste pentru variabile numerice ............................................................... 62
4.2.2. Teste pentru variabile ordinale (rang)....................................................... 65
VIII
4.2.3. Teste pentru variabile nominale ............................................................... 65
4.2.4. Teste pentru indicatori de dispersie .......................................................... 66
4.2.5. Analiza varianei (ANOVA) .................................................................... 67
4.3. Fundamentare teoretic ..................................................................................... 70
4.3.1. Erori statistice ........................................................................................... 70
4.3.2. Regiunea critic ........................................................................................ 71
4.3.3. Teste pentru variabile numerice ............................................................... 72
4.3.4. Teste pentru variabile ordinale ................................................................. 76
4.3.5. Teste pentru proporii ............................................................................... 81
4.3.6. Teste pentru indicatori de dispersie .......................................................... 88
5. CORELAIA I REGRESIA ................................................................................ 99
5.1. Relaii ntre dou variabile cantitative ............................................................. 99
5.1.1. Relaia de dependen ............................................................................... 99
5.1.2. Corelaia liniar ....................................................................................... 101
5.1.3. Dreapta de regresie .................................................................................. 104
5.2. Corelaii neliniare ............................................................................................ 107
5.3. Relaia ntre analiza corelaiei i analiza varianei ........................................... 108
5.4. Fundamentare teoretic .................................................................................... 108
5.4.1. Corelaia liniar ....................................................................................... 108
5.4.2. Corelaii neliniare .................................................................................... 113
5.4.3. Relaii ntre dou variabile ordinale ........................................................ 116
5.4.4. Relaii ntre variabile nominale ............................................................... 118
5.4.5. Relaii ntre mai multe variabile cantitative ............................................ 119
6. EPIDEMIOLOGIE ANALIZA RISCULUI ........................................................ 121
6.1. Factori de risc. Noiuni generale ...................................................................... 121
6.2. Metode de studiu n epidemiologie .................................................................. 122
6.2.1. Studii experimentale ................................................................................ 123
6.2.2. Studii observaionale ............................................................................... 123
6.3. Indicatorii din analiza riscului.......................................................................... 124
6.3.1. Riscul Relativ .......................................................................................... 125
6.3.2. Odds Ratio ............................................................................................... 125
6.4. Fundamentare teoretic .................................................................................... 126
6.4.1. Indici n studii populaionale ................................................................... 126
6.4.2. Riscul Relativ .......................................................................................... 127
6.4.3. Odds Ratio ............................................................................................... 128
6.4.4. Ali indicatori din analiza riscului ........................................................... 129
6.4.5. Loturi pereche ......................................................................................... 129
6.4.6. Relaia ntre analiza riscului i testele statistice ...................................... 131
6.4.7. Analiza stratificat ................................................................................... 132
7. ANALIZA SUPRAVIEUIRII ............................................................................. 135
7.1. Caracteristicile studiilor de lung durat .......................................................... 135
7.2. Prezentarea i prelucrarea datelor. Noiuni generale ........................................ 136
IX
7.2.1. Tabele de via......................................................................................... 136
7.2.2. Metoda actuarial ...................................................................................... 138
7.2.3. Curbe Kaplan-Meier ................................................................................139
7.2.4. Aplicaii ...................................................................................................140
8. EVALUAREA CALITII TESTELOR DIAGNOSTICE ............................... 141
8.1. Termeni generali .............................................................................................. 141
8.2. Indicatori ai calitii unui clasificator ............................................................... 142
8.3. Fundamentare teoretic .................................................................................... 143
8.3.1. Curba ROC .............................................................................................. 143
8.3.2. Coeficientul c .......................................................................................... 144
8.3.3. Indicele Youden ...................................................................................... 144
Partea a II-a
Lucrri practice ..........................................................................................................149
1. Generaliti ..........................................................................................................149
2. Descrierea sumar a tabelelor de date .................................................................150
3. Descrierea lucrrilor practice pentru Excel 2007 ................................................152
Tema 1: Reprezentri grafice simple .................................................................152
Tema 2: Calcule simple n Excel .......................................................................154
Tema 3: Parametrii statistici ..............................................................................155
Tema 4: Histograme din fiiere de date brute .................................................... 156
Tema 5: Teste statistice ..................................................................................... 158
Tema 6: Analiza corelaiei.................................................................................160
Tema 7: Analiza riscului ...................................................................................161
Tema 8: Validarea testelor diagnostic ............................................................... 164
4. Descrierea lucrrilor practice pentru Excel 2003 ................................................165
Tema 1: Reprezentri grafice simple .................................................................165
Tema 2: Calcule simple n Excel .......................................................................166
Tema 3: Parametrii statistici ..............................................................................168
Tema 4: Histograme din fiiere de date brute .................................................... 169
Tema 5: Teste statistice ..................................................................................... 169
Anexa 1 Tabelele de Date ........................................................................................ 175
Anexa 2 Rezultate ....................................................................................................181
Tema 1: Reprezentri grafice simple .................................................................181
Tema 2: Calcule simple n Excel .......................................................................183
Tema 3: Parametrii statistici ..............................................................................184
Tema 4: Histograme din fiiere de date brute ...................................................185
Tema 5: Teste statistice ..................................................................................... 186
Tema 6: Analiza corelaiei.................................................................................187
Tema 7: Analiza riscului ...................................................................................189
Tema 8: Validarea testelor diagnostic ............................................................... 190
Bibliografie ................................................................................................................191
X
Gheorghe Ioan Mihala, Diana Lungeanu
Partea I
1
Biostatistica
2
Gheorghe Ioan Mihala, Diana Lungeanu
1. NOIUNI INTRODUCTIVE
Cuprins
A. Prezentare descriptiv
Termeni
Metode de selecie
Tipuri de variabile
Variabilitate
Proiectarea unui studiu
B. Sintez: Caseta 1. Definiii
1.1. Termeni
1.1.2. Variabile
n cadrul studiului se msoar diferite caracteristici sau proprieti ale indivizilor. O
caracteristic msurat se numete variabil.
3
Biostatistica
4
Gheorghe Ioan Mihala, Diana Lungeanu
5
Biostatistica
6
Gheorghe Ioan Mihala, Diana Lungeanu
7
Biostatistica
1.3.4. Transformri
n anumite situaii putem transforma tipul variabilei.
Variabile numerice n variabile calitative: cnd preferm mprirea n clase,
conform unor reguli convenionale. De ex.: dac tensiunea arterial sistolic este sub
110 mm Hg avem clasa hipotensivi, ntre 100 i 140 mm Hg normotensivi, iar
peste 140 hipertensivi.
n cazul n care mprim un lot n numai dou clase, operaiunea se numete
dihotomizare. De ex. n funcie de tensiunea arterial sistolic putem avea clasele
hipertensivi i ne-hipertensivi.
Variabile numerice n variabile rang: dac asociem numere convenionale pentru
diferite intervale de pe scar, obinem o variabil ordinal. De ex.: pentru valori ale
tensiunii sistolice sub 110 asociem valoarea 0, pentru valori ntre 110 i 140, valoarea
1, iar peste 140, valoarea 2 (fig. 1.2).
Variabile rang n variabile calitative: dac numrul claselor corespunztoare
rangurilor este redus, sau dac grupm diverse intervale de rang, putem crea cteva
clase pentru care se pot aplica (eventual) metode mai simple de prelucrare.
8
Gheorghe Ioan Mihala, Diana Lungeanu
9
Biostatistica
1.4. Variabilitate
Practica a demonstrat c rezultatele care se obin n urma determinrilor
experimentale prezint un grad ridicat de variabilitate. De ex. msurnd tensiunea
arterial la dou persoane diferite, obinem valori diferite, ns putem obine valori
diferite chiar la aceeai persoan n dou momente diferite.
10
Gheorghe Ioan Mihala, Diana Lungeanu
11
Biostatistica
Caseta 1. Definiii
Populaie: totalitatea (mulimea) persoanelor la care se refer un studiu.
Individ: un element al populaiei studiate.
Variabil: o caracteristic msurabil a unui individ.
Biostatistic: disciplin care studiaz caracteristicile unei populaii i/sau
compararea unor populaii, pornind de la date culese pe eantioane.
Inferen statistic: operaia de generalizare, la nivelul ntregii populaii, a
caracteristicilor obinute pe un eantion.
Gndire statistic: mod de interpretare a rezultatelor (datelor) n cadrul unor
intervale, stabilite pentru un anumit nivel de ncredere.
Eantion (sample): o submulime a populaiei, ce cuprinde indivizii pe care se
efectueaz msurtorile.
Eantion reprezentativ (random sample): eantion care cuprinde toate
straturile populaiei n proporii similare i are toate caracteristicile populaiei.
Criterii pentru selecie n eantionul reprezentativ:
- echiprobabilitate: toi indivizii populaiei s aib aceeai probabilitate de a fi
selectai n eantion;
- independen: alegerea unui individ n eantion s fie independent de
alegerea altui individ.
Bias: orice condiie care influeneaz procesul de selecie (influeneaz
reprezentativitatea eantionului).
Variabil numeric: exprimat printr-un numr, valoare obinut prin
msurare cu un instrument; are uniti de msur.
Variabil ordinal / rang (rank variable): exprimat printr-un numr asociat
unei scri convenionale.
Variabil nominal / calitativ (count data): se definesc mai multe clase,
corespunztoare valorilor posibile ale calitilor i se exprim numere (proporii,
procente) corespunztoare fiecrei clase.
Variabil dihotomic: are numai dou valori posibile; rezultatul va fi
distribuia n cele dou clase.
12
Gheorghe Ioan Mihala, Diana Lungeanu
2. STATISTICA DESCRIPTIV
Cuprins
A. Descriere
Colectarea datelor: exemplu, tabele i grafice
Parametrii statistici din statistica descriptiv
Indicatori ai tendinei centrale
Indicatori de dispersie pentru variabile numerice
Indicatori de dispersie pentru variabile ordinale
Indicatori pentru variabile calitative
Asimetrie i exces
B. Formalizare
C. Sintez: Caseta 2. Definiii
Exemplu
Exemplul 2.1.a. Presupunem c ne-am propus un studiu privind dezvoltarea
somatic a copiilor din judeul Timi, n anul 2009. Vom urmri paii recomandai
pentru structurarea unui studiu, aa cum au fost prezentai n capitolul anterior.
a) Stabilirea variabilelor
Vom colecta urmtoarele variabile:
nlimea, msurat cu taliometrul (aparat disponibil n cabinetele medicale colare
avnd o tij metalic gradat, care are diviziuni n milimetri sau jumti de centimetru
Fig. 2.1. Vom exprima rezultatul n cm, fr zecimale, utiliznd rotunjirea astfel: de la
5 mm (inclusiv) rotunjim n sus (spre valoarea superioar), iar pn la 4 mm peste
diviziunile de cm, vom rotunji n jos.
Greutatea, msurat cu cntarul medical (disponibil n cabinetele medicale colare),
care are diviziuni de cte 100 g. Vom exprima rezultatul n kg, cu o zecimal.
b) Volumul eantionului: 400 copii, calculat conform procedurii (v. cap. 3.6).
c) Culegerea datelor
n cazul nostru ar trebui s avem, pentru culegerea datelor brute, un tabel cu
minimum trei coloane: nr. crt., nlimea (cm), greutatea (kg). Mai putem eventual
aduga date utile pentru validare - de ex. putem aduga o coloan cu iniialele (numele)
subiectului, putem aduga o coloan cu data naterii etc.
13
Biostatistica
14
Gheorghe Ioan Mihala, Diana Lungeanu
50
40
Frecvena
30
20
10
5
5
5
5
5
5
5
5
5
5
5
5
5
0
137,5
139,5
141,5
143,5
145,5
147,5
149,5
123,5
125,5
127,5
129,5
131,5
133,5
135,5
15
Biostatistica
16
Gheorghe Ioan Mihala, Diana Lungeanu
Column1
Mean 136,7175
Standard Error 0,199075
Median 137
Mode 137
Standard Deviation 3,981498
Sample Variance 15,85232
Kurtosis -0,12883
Skewness -0,00429
Range 24
Minimum 126
Maximum 150
Sum 54687
Count 400
Confidence Level(95,0%) 0,391367
2.3.2. Mediana
Mediana (Me; engl. Median), este un alt indicator al tendinei centrale, reprezentat
de valoarea care mparte lotul n dou pri egale; 50% din indivizi au valori mai mici
dect mediana, 50% au valori mai mari dect mediana. Pentru loturi mici ea se poate
uor calcula astfel: se ordoneaz cresctor toate valorile, iar cea care corespunde
mijlocului va fi mediana. Dac eantionul are un numr par de indivizi, mediana se ia
uzual ca media celor doi indivizi din centru.
Mediana ar fi indicatorul cel mai potrivit pentru variabilele ordinale (de tip rang),
dei se accept n mod curent i media aritmetic.
Exist diveri algoritmi pentru calculul medianei, care sunt prezentai n 2.8.1.2.
Pentru datele din exemplul 2.1, conform tabelului 2.2, mediana este 137 cm.
2.3.3. Moda
Un alt indicator al tendinei centrale este moda (Mo) sau modul (engl. Mode), care
reprezint cea mai frecvent valoare. n cazul n care dispunem de o reprezentare
grafic, moda este imediat vizibil, corespunznd coloanei celei mai nalte. n ex. 2.1,
din fig.2.2 sau tabelul 2.2 reiese Mo = 137 cm.
n cazul variabilelor calitative (nominale), media aritmetic sau mediana nu au
sens; indicatorul tendinei centrale utilizabil se numete clas modal.
Pentru variabile numerice, dac obinem o curb de distribuie cu un singur maxim,
ea se numete unimodal; n cazul n care are dou maxime (chiar dac diferite),
distribuia se numete bimodal. Similar, pentru mai multe maxime putem ntlni
distribuii multimodale. n cazul populaiilor omogene ne ateptm doar la distribuii
unimodale.
17
Biostatistica
Depistarea unei distribuii bi sau multimodale este cel mai adesea un indiciu al unei
populaii neomogene din care s-a extras eantionul, fiind cel mai probabil o suprapunere
a dou populaii cu caracteristici diferite. Distribuiile bi sau multimodale merit un
studiu mai amnunit. Astfel, s-a identificat un pattern bimodal al curbelor de distribuie
de frecven a indicilor angiografici de restenoz dup plasarea unui stent coronarian,
indicnd dou populaii cu proprieti distincte de propensitate la restenoz.
18
Gheorghe Ioan Mihala, Diana Lungeanu
Semnificaie
nainte de a defini deviaia standard, s introducem o nou noiune: abaterea
central a unui punct, care reprezint deprtarea fiecrei valori individuale fa de
valoarea medie. Deviaia standard este un fel de medie a acestor abateri centrale (este
media lor ptratic) i se poate calcula uor. Cu ct valorile individuale sunt mai
mprtiate (dispersate), cu att deviaia standard este mai mare, n timp ce o bun
grupare a valorilor (variabilitate mic) se va regsi n valori mici ale deviaiei standard.
Ptratul deviaiei standard se numete varian, iar raportul ntre deviaia
standard i valoarea medie se numete coeficient de variaie.
Proprieti
Care are o serie de proprieti convenabile pentru analiza statistic a datelor. Pentru
a nelege aceste proprieti vom trece pe scurt n revist cteva proprieti ale curbei
distribuiei normale.
S revedem histograma nlimii copiilor (fig. 2.2). Ne putem imagina c, dac am
lucra pe un eantion foarte mare, cu o precizie din ce n ce mai ridicat (limea claselor
ngustndu-se din ce n ce mai mult), la limit vom obine o curb de distribuie
continu. Aceasta ar avea forma unui clopot i se numete curba de distribuie normal,
sau clopotul lui Gauss (fig. 2.4).
Ea are urmtoarele proprieti:
este simetric
depinde numai de doi parametri: media i deviaia standard
maximul este atins n dreptul valorii medii (ilustrnd faptul c este indicator al
tendinei centrale)
limea curbei este dependent de valoarea deviaiei standard: cu ct deviaia
standard este mai mare cu att curba este mai larg.
19
Biostatistica
Exemplul 2.1.b
Relum exemplul anterior (2.1.a) privind studiul dezvoltrii somatice a copiilor,
ns, pentru urmrirea mai uoar a calculelor vom reduce volumul eantionului, deci
vom considera c lotul nostru a avut urmtoarele caracteristici:
volumul eantionului: 25 copii
media nlimii: 137 cm
deviaia standard: 5 cm.
Aplicnd cele prezentate mai sus vom putea afirma c:
un procent de 68% din copiii studiai au nlimea cuprins ntre (137-5, 137+5),
adic ntre 132 i 142 cm
cca 95% din copii au nlimea n intervalul (137 2 5, 137 + 2 5) adic ntre
127 i 147 cm
99,7% (aproape toi) au nlimea ntre 122 i 152 cm.
Putem rspunde i la ntrebri de genul: ci copii (n procente) au nlimea peste
142 cm? Observm c, dac 68% au avut nlimea ntre 132 i 142 cm, restul, adic
32% au nlimea fie sub 132 cm, fie peste 142 cm; distribuia fiind simetric vom
considera c jumtate dintre acetia vor ndeplini condiia noastr, adic rspunsul este
16%.
20
Gheorghe Ioan Mihala, Diana Lungeanu
2.4.3. Observaii
Exprimarea rezultatelor
Exist unele uzane privind modul de prezentare a rezultatelor, att cele brute
(provenite din experiment) ct i cele prelucrate.
Pentru valorile brute numrul zecimalelor este dictat de precizia instrumentului,
mai bine spus, de cea mai mic diviziune a instrumentului. Bunoar, dac msurm o
lungime cu un liniar care are diviziuni n mm, dac exprimm rezultatul n cm, l vom
scrie cu o zecimal (chiar i n cazul n care aceasta este zero); de ex.: vom scrie 9,4 cm
sau 11,0 cm, care are semnificaie diferit de 11 cm! n acest din urm caz vom nelege
c determinarea a fost fcut cu un instrument care are cea mai mic diviziune 1 cm!
Pentru indicatorii calculai se accept prezentarea cu un ordin de precizie superior,
adic o zecimal n plus fa de valorile brute. Lund cazul din exemplul cu nlimea
copiilor, dac valorile individuale erau exprimate n cm prin numere ntregi, pentru
medie i deviaie standard se accept utilizarea unei zecimale. Deci n exemplul 2.1.b ar
fi fost mai corect s scriem: m=137,0 cm, respectiv s=5,0 cm.
Cel mai adesea rezultatele se prezint n tabele, dar uneori ele pot fi prezentate
chiar n text. Se accept n aceste situaii prezentarea rezultatului sub forma media
deviaia standard. Ar fi deci acceptabil, chiar recomandabil o exprimare de forma:
Lucrnd pe un lot de 25 copii am obinut pentru nlime valoarea 137,0 5,0 cm.
Valori normale
n medicin este foarte important s depistm valorile corespunztoare strilor
patologice, valori care se deprteaz de cele normale. Dar ce reprezint valorile
normale? n mod frecvent, indiferent de variabila msurat, ne ntlnim cu un grad
ridicat de variabilitate inclusiv n loturile de indivizi sntoi. De aceea, pentru toate
mrimile de interes medical, s-au stabilit nite intervale considerate normale. Criteriul
dup care s-a definit normalitatea este gradul de reprezentativitate (sau generalitate):
vom spune c valorile normale sunt cele care se nregistreaz la majoritatea
indivizilor sntoi. Ct de mare este aceast majoritate? S analizm puin intervalele
definite anterior.
Observm c intervalul (m s) cuprinde cca dou treimi din valorile individuale,
deci exist o probabilitate destul de mare s ntlnim indivizi care au valorile n afara
acestui interval. Pe de alt parte, dac dorim s acoperim toat scara (lund intervalele
cu 3s, acestea devin foarte largi i vom accepta prea uor valori care ncep s se
deprteze de normal. Intervalul acceptat pentru reprezentarea normalului s-a stabilit
convenional la (m 2s), acoperind astfel peste 95% din cazurile normale. S nu uitm
ns c exist totui i indivizi normali cu valori n afara acestui interval, dei
probabilitatea de a-i ntlni este mai mic (sub 5%).
21
Biostatistica
Similar cu cazul deviaiei standard, cu ct valorile vor fi mai strns grupate n jurul
indicatorului tendinei centrale, cu att variabilitatea este mai mic. Uzual se folosete
distana ntre cuartilele 1 i 3 pentru a exprima gradul de variabilitate n cazul
variabilelor ordinale. Aceast distan (de fapt jumtate din ea) se numete amplitudine
intercuartile i este indicatorul de dispersie preferat pentru variabilele rang.
Exemplu
Exemplul 2.2. Studiem distribuia grupelor sanguine n Timioara, n anul 2009.
Lum un eantion de 400 persoane crora le determinm grupa sanguin rezultatele
le exprimm sub form de tabel (Tabelul 2.4) i grafic (Fig. 2.6).
Tabelul 2.4. Distribuia grupelor sanguine obinut pe un lot de 400 persoane
22
Gheorghe Ioan Mihala, Diana Lungeanu
AB
B; 64; 16%
A; 144; 36%
23
Biostatistica
Asimetria
n cazul n care sunt mai mprtiate valorile mari vom obine n reprezentarea
grafic o curb alungit spre dreapta; aceast alungire se mai numete coad (tail) i
vom spune c avem o asimetrie la dreapta. Desigur, similar vom defini i asimetria la
stnga.
Gradul de asimetrie este exprimat numeric printr-un coeficient de asimetrie care
poate fi calculat prin mai multe metode. Cel mai frecvent utilizat este coeficientul de
asimetrie al lui Pearson, notat cu . Cnd este pozitiv asimetria este la dreapta, n
caz contrar la stnga (Fig. 2.3).
Excesul
Deprtarea de normalitate se poate manifesta i fr a se strica simetria. Putem
ntlni distribuii n care zona central este mai ngust dect cea corespunztoare
deviaiei standard, ns ambele cozi sunt mai groase o astfel de distribuie se
numete leptokurtic. Cealalt extrem ar fi reprezentat de distribuii cu zona
central mai lat dar aplatizat, cozile fiind slab reprezentate distribuie
platykurtic. Din acest punct de vedere, distribuia normal va fi numit
mezokurtic.
Gradul de boltire sau aplatizare este exprimat numeric printr-un coeficient numit
exces (kurtosis). O valoare negativ corespunde distribuiei leptokurtice, n timp ce
valorile pozitive celei platykurtice.
Pachetele statistice uzuale furnizeaz i acest coeficient, notat de obicei cu .
24
Gheorghe Ioan Mihala, Diana Lungeanu
X 1 X 2 ... X N
N
X
1
X i
N i 1
N
(2.1.a)
n cazul eantioanelor mai mari, anumite valori pot s apar de mai multe ori (ca de
ex. n tabelul 2.1); dac notm frecvena absolut de apariie a fiecrei valori xj cu nj,
atunci media aritmetic se mai numete medie ponderat i este dat de relaia:
n X
1
X j j
N j 1
(2.1.b)
K
N nj (2.1.c)
i 1
nj
X ij
1
Xj (2.1.d)
nj i 1
K nj
X
1
X ij (2.1.e)
N j 1 i 1
25
Biostatistica
X max
1
X
X max X min f ( x) dx
X min
(2.1.f)
2.8.1.2. Mediana
Definiie: Mediana este un indicator statistic al tendinei centrale care mparte lotul
n dou pri egale; 50% din indivizi au valori mai mici dect mediana, 50% au valori
mai mari.
Pentru calculul propriu zis al medianei se procedeaz astfel:
se formeaz un ir ordonat cresctor al tuturor celor N valori
dac N este impar (adic N=2p+1), atunci mediana
Me = Xp+1 (2.2.a)
X p X p 1 X p 2 (2.2.a)
X p X p 1
Me (2.2.b)
2
X p 1 X p X p 1 X p 2 (2.2.b)
sau
X p 1 X p X p 1 X p 2 (2.2.b)
Dac nu sunt ndeplinite condiiile (2.2.a), (2.2.b) sau (2.2.b) atunci valoarea
care se repet de mai multe ori (de nim i) definete un interval median de lime him;
mai notm frecvena cumulat pn la intervalul median (pn la limita inferioar
inclusiv) cu fim; n acest caz mediana poate fi aproximativ cu relaia:
him N
M e X im f im (2.2.c)
nim 2
unde:
im 1
f im n
i 1
i (2.2.c)
26
Gheorghe Ioan Mihala, Diana Lungeanu
2.8.1.3. Moda
Definiie: Moda (Mo) reprezint cea mai frecvent valoare.
Mo = max (nj/N) (2.3.a)
media armonic:
X
N 1
(2.3.c)
Xh i 1 i
XM Xm
h (2.4)
1 3,322 lg N
27
Biostatistica
Vom observa c i reprezentarea grafic este mai uor de interpretat (fig. 2.7)
140
120
100
Frecvena
80
60
40
20
0
132,5
135,5
138,5
141,5
144,5
147,5
150,5
123,5
126,5
129,5
More
Limitele claselor
(valoarea de sub coloan este limita din dreapta a clasei)
unde Xmin i Xmax reprezint valoarea absolut minim, respectiv maxim ale variabilei
analizate.
i Xi X (2.5.b)
i 0 (2.5.b')
28
Gheorghe Ioan Mihala, Diana Lungeanu
i Xi X
1 1
a m (2.5.c)
N N
( x )2
1
f ( x) y e 2 2 (2.6.a)
2
S
i2
(X i X )2
(2.7.a)
n 1 n 1
29
Biostatistica
Intervalele pentru localizarea valorilor individuale se pot scrie acum prin nite
relaii care se pot aplica imediat:
Xi ( X S, X S ) cu p = 68,3%
X i ( X 2S , X 2S ) cu p = 95,4% (2.6.c)
X i ( X 3S , X 3S ) cu p = 99,7%
(X
1
Mrimea S 2 X )2 (2.7.b)
n 1
i
C.V. S/ X (2.7.c)
Fiind o mrime relativ, se pot compara cu ajutorul ei serii avnd valori cu ordine
de mrimi diferite.
x
Z (2.6.d)
z2
f x yn
1 2
e (2.6.e)
2
care are media = 0 i deviaia standard = 1 (fig. 2.8), notat simbolic N(0,1).
30
Gheorghe Ioan Mihala, Diana Lungeanu
Pentru mediere n cazul varianei, respectiv a deviaiei standard, vom folosi deci
numrul gradelor de libertate. Totui, pentru loturi foarte mari, n formulele (2.7.a) i
(2.7.b) putem folosi n n loc de n-1.
31
Biostatistica
este o msur a variabilitii, valorile mai mari exprimnd o variabilitate mai mare
Qd Q3 Q1
C.Q. (2.8.b)
M e Q3 Q1
joac rolul coeficientului de variaie dat de (2.7.c) i are valori ntre -1 i +1.
ni
pi (2.9.a)
n
k
n ni (2.9.a)
i 1
pi % 100
ni
(2.9.a)
n
pi .qi
Sp (2.9.b)
n
unde:
qi 1 pi (2.9.c)
32
Gheorghe Ioan Mihala, Diana Lungeanu
sau
qi % 100 pi (2.9.c)
pi qi N n
Sp * (2.9.d)
n N 1
X
1
X i (2.1.a)
N
X
r 1
X i
r
(2.10.a)
N
(X
1
mcr i X )r (2.10.b)
N
33
Biostatistica
2.8.7. Asimetria
Momentele de ordin 3 dau informaii asupra simetriei distribuiei.
a) Se definete un parametru numit indice de asimetrie (engl. skewness) prin
relaia:
X
1 3
mc 3 i X (2.11.a)
N
Pentru mc3 0 distribuia este simetric,
X M0
(2.11.b)
S
Dup distribuia este simetric sau asimetric la stnga/dreapta la fel ca dup mc3 .
Q3 M e M e Q1 Q3 Q1 2M e
Q3 M e M e Q1
(2.11.c)
Q3 Q1
m c23
(2.11.d)
m c22
cu interpretri similare cu indicele de asimetrie.
2.8.8. Excesul
Excesul este un parametru ce d informaii asupra gradului de turtire/boltire (engl.
kurtosis). Se calculeaz cu relaia:
mc 4
3 (2.12.a)
m c22
34
Gheorghe Ioan Mihala, Diana Lungeanu
X i X
1 4
mc 4 (2.12.b)
N
Pentru distribuia normal: = 0 (distribuie mezokurtic)
distribuii mai turtite: 0 (distribuie platykurtic)
distribuii mai boltite: 0 (distribuie leptokurtic).
Caseta 2. Definiii
Pentru caracterizarea unui eantion se calculeaz dou seturi de indicatori statistici:
Indicatori ai tendinei centrale cel mai des folosit este media aritmetic m.
Indicatori de dispersie cel mai des folosit este deviaia standard s i reprezint
gradul de mprtiere al valorilor individuale n jurul mediei eantionului.
Ali indicatori ai tendinei centrale:
mediana valoarea care mparte lotul de valori ordonate n dou subintervale
egale ca numr de valori;
moda cea mai frecvent valoare.
Ali indicatori de dispersie:
variana ptratul deviaiei standard;
coeficientul de variaie raportul ntre deviaia standard i media aritmetic.
Cea mai des ntlnit distribuie a valorilor de studiu este distribuia normal
(Gauss). Proprietile distribuiei normale:
este simetric fa de valoarea medie;
limea este dependent de deviaia standard;
intervalul de valori normale m 2s cuprinde cca 95% din totalul valorilor;
putem calcula probabilitatea ca variabil de studiu s ia valori n orice interval dat.
n cazul variabilelor ordinale (rang), folosim mediana ca indicator al tendinei
centrale i cuartilele (amplitudinea intercuartile) pentru dispersie.
n cazul variabilelor calitative, pentru fiecare clas se stabilete proporia clasei pi
i deviaia standard a proporiei sp.
Pentru a caracteriza distribuiile asimetrice se folosesc coeficienii de asimetrie i
exces.
35
Biostatistica
36
Gheorghe Ioan Mihala, Diana Lungeanu
3. ESTIMAREA STATISTIC
Cuprins:
A. Prezentare descriptiv
Media populaiei
Eroarea standard a mediei
Estimare statistic, estimatori
Estimarea mediilor
Estimarea diferenelor ntre medii
Estimarea proporiilor i a diferenelor ntre proporii
Calculul dimensiunii eantionului
B. Fundamentare teoretic
C. Sintez: Caseta 3. Definiii
37
Biostatistica
situaii trebuie s inem seama de volumul finit al populaiei. Vom nota n aceste cazuri
cu N volumul populaiei, spre deosebire de n volumul eantionului.
s
sx (3.1)
n
n fig. 3.1 este reprezentat curba de distribuie a mediilor eantioanelor (cu linie
ntrerupt), comparativ cu cea a distribuiei valorilor individuale (cu linie continu). Se
observ c distribuia mediilor eantioanelor este tot o distribuie normal, ns mai
ngust dect cea a valorilor individuale. ntr-adevr, mediile eantioanelor nu vor
fluctua la fel de mult ca valorile individuale; este mic probabilitatea de a avea ntr-un
eantion aleator numai copii nali sau numai scunzi! i, cu ct eantioanele sunt mai
mari, cu att curba este mai ngust.
38
Gheorghe Ioan Mihala, Diana Lungeanu
39
Biostatistica
L = Z Sx (3.2)
n cele ce urmeaz vom prezenta cteva cazuri uzuale de aplicare a celor prezentate
mai sus.
40
Gheorghe Ioan Mihala, Diana Lungeanu
m L (3.3)
41
Biostatistica
Pentru fiecare clas i se definete proporia sa, pi i se poate calcula i deviaia standard
a proporiei, sp. Aceste statistici calculate au provenit din valorile obinute pe un
eantion.
Ne punem acum problema la fel ca n cazul variabilelor numerice: n ce msur
putem extinde concluziile noastre (determinrile pe eantion) la nivelul ntregii
populaii?
Vom nota proporiile reale ale claselor i n ntreaga populaie cu i i vom ncerca
s estimm intervale n care putem ncadra cu un anumit nivel de ncredere aceste
proporii din populaie. Aceste intervale se calculeaz cu o relaie asemntoare cu
(3.3), avnd i n loc de i pi n loc de m. Pentru limea intervalului folosim o relaie
asemntoare cu (3.2), avnd ns deviaia standard a proporiei sp n loc de eroarea
standard a mediei sx (v. formula 2.9.b).
Exemplul 3.2. Relund datele din exemplul 2.2, n care am gsit 144 persoane cu
grupa sanguin A ntr-un lot de 400 persoane, proporia clasei reprezentat de grupa
sanguin A este:
pA = 144 / 400 = 0, 36 = 36%
iar deviaia standard a proporiei este:
sA = 0,36 (1 0,36) / 400 = 0,6 0,8 / 20 = 0, 024 = 2,4%
n cazul unui nivel de ncredere de 95% putem lua z /2 2, deci intervalul n care
localizm proporia grupei A n populaie va fi (0,36 2 0,024), sau n procente (36%
4,8%), adic (31,2%, 40,8%). Citim rezultatul astfel: proporia grupei sanguine A n
populaia studiat este situat ntre 31,2% i 40,8%, cu un nivel de ncredere de 95%,
adic ne ateptm ca, dac repetm studiul pe eantioane de cte 400 indivizi, n 95%
din cazuri vom gsi pentru grupa sanguin A un procent ntre 31,2% i 40,8%.
La fel ca i n cazul variabilelor numerice, o localizare mai bun se obine prin
creterea dimensiunii eantionului. De asemenea, putem i n cazul proporiilor s
urmrim diferenele ntre proporii, avnd formule potrivite pentru deviaia standard a
diferenei ntre proporii (3.12.b).
Vom alege aadar, un nivel potrivit de ncredere, care nseamn, de fapt, o anumit
valoare a lui Z. Acum ne dm seama de importana stabilirii preciziei cu care dorim s
exprimm rezultatul adic erorile posibile s nu depeasc o anumit valoare.
2
S 4s 2
n
(3.4)
Sm L2
Cum precizia propus (L) este aleas de noi, rezult c pentru calculul lui n mai
avem nevoie doar de valoarea deviaiei standard s. Pentru s avem urmtoarele
variante:
este cunoscut din studii anterioare
se face un studiu preliminar pe un lot mic pentru estimarea lui s
metoda celor 6s: ntr-un lot mediu (aprox. 30) diferena ntre extreme (maxim i
minim) este de cca 6 deviaii standard
Avnd ambele valori (L i s), vom calcula n prin toate metodele i vom alege
valoarea maxim dintre ele.
Observaii
a. Valoarea lui n calculat aici reprezint volumul minim al eantionului pentru a
nu depi i limitele maxime de eroare. Practic se lucreaz pe eantioane cu 5 25%
mai mari dect valoarea calculat a lui n.
b. n formula (3.4) precizia L apare la ptrat, deci dublarea preciziei va determina
creterea eantionului de 4 ori!
44
Gheorghe Ioan Mihala, Diana Lungeanu
Valorile lui n pentru cteva valori uzuale ale lui L sunt date n tabelul 3.2. n cazul
n care proporiile claselor studiate sunt cunoscute i deprtate de 0,5 se obin pentru n
valori mai mici.
Tabelul 3.2. Dimensiunea minim a unui eantion pentru o precizie aleas (n %), n cazul variabilelor
calitative
L (%) 5 4 3 2.5 2 1.5 1
n 400 625 1100 1600 2500 4500 10 000
3.8.1. Distribuii
Am utilizat frecvent termenul de distribuie fr s ne ocupm detaliat de el.
ncercm n cele ce urmeaz s aducem cteva precizri.
f ( xi ) p( x xi ) k (3.1.b)
45
Biostatistica
Exemplu: probabilitatea de a extrage o bil alb dintr-o urn cu N bile dintre care A bile
albe i B bile negre (A+B=N) este: p = A / N. Dup extragere, bila se introduce napoi
n urn (Bernoulli).
Dac din urn se scot n bile atunci numrul x de bile albe extrase are o distribuie
binomial:
x n x
f ( x) Cnx p q x = 0,1, ....., n (3.1.c)
unde Cnx combinri de n luate cte x; p-probabilitatea de a extrage o bil alb; q=1-p,
probabilitatea de a extrage o bil neagr.
y r p( x x i ) (3.1.d)
46
Gheorghe Ioan Mihala, Diana Lungeanu
Figura 3.3. Funcia de repartiie pentru distribuia uniform (stanga) i normal (dreapta) funciile de
repartiie sunt redate cu linie intrerupt, iar cele de distribuie cu linie continu.
3.8.2. Estimare
Xj
1
(3.6.a)
T j 1
Analiznd distribuia acestor medii ale eantioanelor s-a observat (fig. 3.1) c i ele
se aranjeaz aproximativ dup o curb Gauss, (dac eantioanele sunt destul de mari, n
30) avnd fa de curba din fig. 2.5. dou deosebiri:
variaiile mediilor eantioanelor se ntind pe un interval mult mai ngust dect
variaiile valorilor individuale;
valoarea n jurul creia sunt simetrice variaiile este media populaiei.
X / N
(3.7.a)
47
Biostatistica
S
SX
n (3.7.b)
pentru populaie foarte mare (infinit), iar pentru populaii finite, mai mici:
S N n
SX .
n N 1 (3.7.c)
( X 2S X , X 2S X ) cu p = 95,4% (3.8.a)
( X 3S X , X 3S X ) cu p = 99,7%
48
Gheorghe Ioan Mihala, Diana Lungeanu
Aceast valoare se mai noteaz Z2 indicele avnd aici semnificaia c aria rmas
neinclus este /2 = 2,5% (cte 2,5% n fiecare parte). Obs: n unele cri se noteaz
Z1-/2. Deci ntr-o form mai general putem scrie:
X Z / 2 S x ; X Z/ 2 S x (3.8.c)
c) Exemplul 3.3.a.
Pe un eantion de 144 sportivi se gsete pentru VEMS (volumul expirator maxim
n 1 secund) valoarea medie X = 4,84 i deviaia standard S = 0,36. S estimm n ce
interval gsim media populaiei cu nivel de ncredere de 98%.
49
Biostatistica
Figura 3.5. Distribuia t. Valorile lui t care las cte 2,5% arie n fiecare parte (deci n.i. = 95%) sunt cu
att mai mari cu ct eantionul este mai mic.
b) Formule
Curba de distribuie t depinde deci de mrimea eantionului care va fi
caracterizat printr-un parametru, notat cu , numit numr de grade de libertate
introdus n 2.8.2.6 i dat de relaia: (2.6.f)
Lrgimea intervalului n care localizm media populaiei va fi dat de relaia:
( X t/ 2,v S X ; X t/ 2, S X ) (3.8.d)
50
Gheorghe Ioan Mihala, Diana Lungeanu
X (4,60 ; 5,08).
Observm c pierderea de precizie n localizare este imens, intervalul fiind de
peste 3 ori mai larg comparativ cu localizarea obinut pe un eantion mare.
De aceea, dup cum vom vedea chiar n ncheierea acestui subiect, n biostatistic
putem calcula o dimensiune minim a eantionului pentru a putea obine localizri ale
mrimilor estimate n intervale suficient de nguste i cu nivel de ncredere satisfctor
de ridicat.
Tabelul 3.3. Valorile lui t pentru cteva nivele de ncredere (1-) i grade de libertate ()
1-
0.90 0.95 0.99
1 6,31 12,7 63,7
2 2,92 4,30 9,92
5 2,01 2,57 4,03
10 1,81 2,23 3,17
30 1,70 2,04 2,75
1,65 1,96 2,58
p(1 p)
Sp (3.9.b)
N
p i pi Z / 2 S pi ; pi Z / 2 S pi (3.9.c.)
51
Biostatistica
G1 n1 , X 1 , S1
i G2 n 2 , X 2 , S 2 (3.10.a)
d X X 2 X1 (3.10.b)
S12 S 22
Sd (3.10.c)
n1 n 2
d x x2 (d Z / 2 S d ; d Z / 2 S d ) (3.10.d)
d x1 x2 (d t / 2, S d ; d t / 2, S d ) (3.10.e)
S d 5 2 / 25 5 2 / 25 2 1,4 cm
52
Gheorghe Ioan Mihala, Diana Lungeanu
di X 2i X1i (3.11.a)
d
1
d i
n (3.11.b)
d d
2
i
Sd
nn 1
(3.11.c)
Estimarea diferenei pentru serii perechi va fi dat tot de relaiile (3.10.d) sau
(3.10.e).
Exemplele din aceast categorie sunt numeroase. Uzual, testarea efectelor unui
tratament (medicament etc.) se realizeaz prin msurarea efectelor asupra unei variabile
(de ex.: tensiunea arterial, colesterolul etc.) pe un lot de studiu, nainte i dup
tratament. Suntem astfel n situaia de a aprecia diferenele dintre dou serii pereche.
Vom reveni cu detalii n capitolul urmtor.
p1(1 p1 ) p2 (1 p2 )
s pd (3.12.b)
n1 1 n2 1
d p (d Z / 2 S pd ; d Z / 2 S pd ) (3.12.c)
53
Biostatistica
n = 4 52 / 12 = 100 copii.
Observm c, fa de exemplul n care pe 25 copii am obinut ncadrarea la nivel de
ncredere de 95% de 2 cm, dac dorim s dublm precizia, dimensiunea lotului a
crescut de 4 ori!
n mod similar se poate calcula n i pentru proporii.
Caseta 3. Definiii
Inferena statistic este operaia de generalizare la nivelul ntregii populaii a
rezultatelor obinute pe un eantion.
Eroarea standard a mediei arat gradul de mprtiere a mediilor eantioanelor n
jurul mediei populaiei. Mediile eantioanelor au o distribuie normal n jurul mediei
populaiei.
Eroarea standard a mediei scade cnd dimensiunea eantionului crete.
Parametrii populaiei nu vor fi determinai exact ci doar vor fi estimate intervale n
care pot fi localizai. Dorim ca aceste intervale (L) s fie ct mai nguste (precizie
ct mai mare de localizare estimare).
Limea intervalelor de estimare este cu att mai mic cu ct:
- eroarea standard a mediei este mai mic;
- nivelul de ncredere este mai mare (nivelul de ncredere uzual este 95%).
Dac alegem precizia localizrii i nivelul de ncredere, putem calcula dimensiunea
minim a eantionului pentru a obine rezultate relevante, dar ntotdeauna trebuie
cunoscut (aproximat) i deviaia standard.
54
Gheorghe Ioan Mihala, Diana Lungeanu
4. TESTE STATISTICE
Cuprins
A. Prezentare descriptiv
Noiuni generale
Diferene semnificative i nesemnificative
Prag de semnificaie
Ipoteze statistice
Interpretarea testelor
Erori statistice
Caracteristicile testelor
Clasificarea testelor statistice
Teste statistice uzuale
Teste pentru variabile numerice
Teste pentru variabile ordinale
Teste pentru variabile nominale
Teste pentru indicatori de dispersie
Analiza varianei
B. Fundamentare teoretic
C. Sintez: Caseta 4.1. Definiii.
Caseta 4.2. Teste statistice uzuale
55
Biostatistica
56
Gheorghe Ioan Mihala, Diana Lungeanu
statistice vom porni cu formularea unei ipoteze, pe care o vom accepta sau respinge cu o
anumit probabilitate.
H0 : B=F (4.1)
57
Biostatistica
58
Gheorghe Ioan Mihala, Diana Lungeanu
Figura 4.1. Regiunea de acceptare i H0 exprimat cu valori absolute ale seriilor i diferenelor i cu valori
relative, pe scara normalizat fa de S . n aceste exemple s-a utilizat pragul de semnificaie = 0,05
X
59
Biostatistica
Figura 4.2. Formularea deciziei unui test statistic n funcie de valoarea lui p
SITUAIA REAL
H0 = Adevrat H0 = Fals
Acceptm H0 Corect Eroare tip II
DECIZIE p=1- p=
Respingem H0 Eroare tip I Corect
p= p=1-
60
Gheorghe Ioan Mihala, Diana Lungeanu
61
Biostatistica
62
Gheorghe Ioan Mihala, Diana Lungeanu
care se enun: ntre cele dou valori medii nu sunt diferene semnificative.
Este unul dintre cele mai frecvent utilizate teste. Este aplicabil n cazul seriilor
omogene, (adic deviaiile standard sau varianele s nu difere semnificativ ntre
ele). De obicei programele de calculator ofer dou variante de calcul: pentru variane
egale (dac le testm cu un test de omogenitate sau le observm c sunt foarte
apropiate) sau variane diferite situaie pe care o vom alege n caz contrar.
Din tabelul de rezultate vom urmri n primul rnd valoarea lui p dup care vom
interpreta concluzia diferene semnificative sau nu. Exist programe de calculator care
afieaz dou valori pentru p: una pentru cazul ipotezei alternative bilaterale (two-
tailed) i una pentru cea unilateral (one-tailed). Valoarea uzual pe care o considerm
este cea pentru distribuia bilateral.
Un exemplu tipic este similar celui prezentat n Exemplul 4.1, n care doream s
comparm nlimea medie a unui grup de biei cu cea a unui grup de fete. Rezultatele,
aa cum sunt afiate de ctre pachetul Microsoft Excel este prezentat n tabelul 4.2.a.
Observm c valoarea lui p este 0,272, adic peste 0,05 i vom interpreta rezultatul
astfel: diferenele observate ntre nlimile bieilor i fetelor sun nesemnificative,
avnd o probabilitate de 27% (peste 5%) s apar din ntmplare, deci acceptm ipoteza
de zero.
63
Biostatistica
64
Gheorghe Ioan Mihala, Diana Lungeanu
65
Biostatistica
Tabelul are dou pri: studiul 1 (pe 400 persoane) i studiul 2 (pe 50 persoane),
avnd aceleai proporii pentru grupele sanguine. Observm c, n primul caz,
diferenele ntre proporiile gsite experimental i cele teoretice (presupuse n cadrul
ipotezei distribuiei uniforme) sunt extrem de semnificative, obinnd pentru p o valoare
extrem de mic, de ordinul 10-7. n schimb, chiar dac am pstrat aceleai proporii, n al
doilea studiu diferenele apar ca nesemnificative (p = 0,23 > 0,05). Vedem, cu aceast
ocazie, importana dimensiunii eantionului pentru obinerea unor rezultate relevante.
ntradevr, variaiile datorate ntmplrii afecteaz mult interpretarea rezultatelor n
cazul loturilor mici!
66
Gheorghe Ioan Mihala, Diana Lungeanu
67
Biostatistica
probabilitile de eroare apar pentru fiecare pereche de serii, astfel nct per ansamblu
ele se multiplic. De aceea este preferat un test ANOVA, care testeaz ntregul set.
Testele ANOVA vor avea i ele mai multe variante, dup cum seriile sunt
independente (formate din indivizi diferii) sau dependente. Vom avea chiar mai multe
situaii, pe care le vom analiza n detaliu n partea teoretic a cursului.
i se enun astfel: Nu sunt diferene semnificative ntre mediile celor k serii. Ipoteza
alternativ presupune c Exist cel puin o serie (valoare medie) care difer
semnificativ fa de celelalte.
Se obinuiete ca seriile s se mai numeasc tratamente.
n cazul n care ipoteza de zero se respinge, vom accepta ipoteza alternativ, dar,
din simpla valoare a lui p, care are semnificaie global, nu putem ti care dintre serii
sunt diferite unele fa de altele. De aceea, n cazul respingerii ipotezei de zero,
programul trebuie s continue prin compararea seriilor (tratamentelor) dou cte dou,
n toate variantele posibile. Acest procedeu se numete rafinare i poate fi realizat
prin diferii algoritmi; unul din cele mai des utilizai algoritmi se numete rafinare
Bonferoni, care realizeaz de fapt un test t nepereche ntre toate tratamentele. Putem,
din valoarea lui p afiat pentru fiecare pereche, s distingem care serii difer
semnificativ ntre ele.
Pentru aplicarea testelor statistice n general, ANOVA n special, este de mare folos
o bun organizare a datelor n tabele. Vom urmri acest lucru n exemplul urmtor.
Exemplul 4.5. Urmrim efectul a trei tratamente, A, B i C asupra tensiunii
diastolice a unui grup de 15 pacieni, care vor fi alocai la ntmplare celor trei grupe
(randomizai). Rezultatele individuale sunt trecute n tabelul 4.5.a stnga, aa cum apar
n Excel.
Aplicnd testul ANOVA unifactorial obinem valorile din tabelul 4.5.a dreapta jos.
Observm c diferenele sunt semnificative, avnd p = 0,0274, ( sub 0,05). Aa cum am
accentuat mai sus, concluzia va fi c cel puin o serie difer semnificativ de celelalte.
Nu avem ns nici o indicaie privind care este seria care difer de celelalte (de
fapt pot fi diferene semnificative ntre mai multe perechi de serii). Pentru a le
identifica se aplic teste post-hoc (unul dintre cele mai utilizate este testul
Bonferonni).
68
Gheorghe Ioan Mihala, Diana Lungeanu
A B C D
C D A B
D C B A
B A D C
Un exemplu de aplicare a analizei bifactoriale va fi prezentat n partea de
fundamentare teoretic.
69
Biostatistica
Figura 4.3. Ilustrarea caracteristicilor unui test. n acest exemplu, valorile medii pentru populaii sunt
B =137 cm, F =139,5 cm. Lund referin lotul de biei, pentru = 5% intervalul de acceptare este
(135,139). Fa de limita 139 avem probabilitatea de cca 30% de a gsi X F 139 dar i p 2,5% pentru
a gsi X B 139
Relaia ntre nivelul de ncredere i puterea testului poate fi ilustrat ca n figura
4.3; construit pe baza datelor din exemplul folosit anterior.
70
Gheorghe Ioan Mihala, Diana Lungeanu
Deci, a verifica ipoteza de zero definit mai sus este echivalent cu a verifica dac
diferena m - 0 se ncadreaz n limitele Z/2 Sx., adic dac
| m - 0 | Z/2 Sx. (4.7.b)
Am luat diferena n valoare absolut, exprimat prin modul. Dac inegalitatea este
adevrat, atunci acceptm ipoteza de zero, diferenele fiind mici, nesemnificative.
Putem normaliza relaia mprind cu Sx:
(m - 0 ) / Sx Z/2 (4.7.c)
72
Gheorghe Ioan Mihala, Diana Lungeanu
Ycalc = d D / SX = 1 / 1 = 1 (4.9.c)
Condiii : S1 = S2 ; se poate N 1 N 2
Grade de libertate: = N1 + N2 - 2
Test aplicat:
a) Parametric: testul t nepereche (testul Student)
b) Neparametric: testul Mann - Whitney
n continuare prezentm dou variante de raionament:
Exemplul 4.7. Un studiu susine c la sportivi capacitatea vital este superioar fa
de persoanele neantrenate. Astfel, se analizeaz capacitatea vital a unui grup de
sportivi comparativ cu un grup de control, obinnd:
Lot sportivi: N1 = 36, X 1 = 5,39 l , S1 0,60 l
Lot martor: N 2 50, X 2 = 4,83 l, S2 = 0,70 l
Ipoteza de zero: H0 : X 1 = X 2
Ipoteza alternativ unilateral dreapta: H a : X 1 > X 2
Alegem pragul de semnificaie: = 5%.
Numrul gradelor de libertate: = 36 + 50 - 2 = 84.
Din tabelul cu valorile distribuiei t, observm c pentru valori ntre 60 si 120 grade
de libertate, coeficientul de ncredere va fi acelai. Dac am fi aplicat un test bilateral
(two-tailed), am fi luat o valoare care s corespund distribuiei celor 5% simetric n
73
Biostatistica
ambele pri, cu alte cuvinte luam t 0,975;60 2.00 . Dar, n cazul unui test unilateral,
toat poriunea de 5% rmne distribuit pe o singur parte a curbei, deci vom lua t0,95;60
= 1.67. Fiind o valoare din tabel, o vom nota n continuare cu indicele t deci t t =
1.67.
Calculm eroarea standard pentru diferene:
S12 S 22
Sd (4.10.a)
n1 n 2
0.36 0.49
Sd 0.02 0,14
36 50
d X 1 X 2 = 0.56 (4.10.c)
74
Gheorghe Ioan Mihala, Diana Lungeanu
d X X2
tc 1 (4.10.f)
Sd Sd
adic:
0,56
tc 4.00
0,14
Din tabelul valorilor distribuiei t, pentru 60 grade libertate (urmrim linia lui 60),
vedem c tc t0,999; 60 ; programele statistice ne dau valoarea pentru care:
t c t p, (4.10.g)
i afieaz valoarea lui p, pe care o vom interpreta conform fig.4.2. n exemplul nostru
obinem p = 0,00087, deci avnd p0,001 vom spune c diferenele sunt extrem de
semnificative.
Testul Mann-Whitney este echivalentul neparametric al testului t nepereche. Ca
raionament este similar cu testul Wilcoxon i va fi exemplificat acolo. Pentru loturi mai
mari, rezultatul obinut este acelai ca n cazul aplicrii testului t. Pachetele software de
prelucrri statistice dau valoarea lui p (adic probabilitatea ca diferenele observate n
eantionul de valori s fi aprut din ntmplare, n condiiile n care indivizii observai
ar face parte dintr-o aceeai populaie statistic). Interpretarea o facem tot conform fig.
4.2.
75
Biostatistica
Valorile di pot fi pozitive sau negative; dac ntre cele dou serii nu sunt diferene
vom avea D = 0. Ipoteza se zero de mai poate deci scrie:
H0 : = 0
76
Gheorghe Ioan Mihala, Diana Lungeanu
Fie dou serii de valori ale unei variabile ordinale, obinut pe dou loturi 1 i 2 pe
care le ordonm astfel:
seria 1, cu N1 indivizi: X1 X2 . . . Xi . . . XN1
seria 2, cu N2 indivizi: Y1 Y2 . . . Yj . . . YN2
Seriile 1 i 2 le lum astfel nct N1 N 2 .
U1 N1 N 2 N1 ( N1 1) / 2 R1
(4.11.a)
U 2 N1N2 N2 ( N2 1) / 2 R2 (4.11.b)
i se ia U = min ( U1 ,U 2 ) . (4.11.c)
U N1 N2 / 2 (4.12.a)
i deviaia standard:
u N1N 2 ( N1 N 2 1) / 12
(4.12.b)
77
Biostatistica
Pentru eantioane mai mici s-au realizat tabele speciale pentru testul Wilcoxon
rank-sum ce conin probabilitatea de a obine valori U n anumite intervale.
Cel mai des, din tabele se apreciaz intervalul ce cuprinde regiunea de acceptare a
ipotezei de zero cu o anumit probabilitate, adic regiunea de ncadrare a valorii R1 care
are o repartiie cu media:
R1 N1 ( N1 N 2 1) / 2 (4.12.c)
i deviaia standard
SU N1 N 2 ( N1 N 2 1) / 12 (4.12.d)
Valori Ranguri
Sportivi Martor Sportivi Martor
2 6 1 5
5 6 2,5 5
5 9 2,5 8
6 11 5 10,5
8 11 7 10,5
10 12 9 12
14 13
15 14
R1 =27 R2 =78
78
Gheorghe Ioan Mihala, Diana Lungeanu
U1 = 6 8 + 6 7 / 2 - 27 = 42
U2 = 6 8 + 8 9 / 2 - 78 = 6
U = 6, u 24 , 2u 60
irul global 2 5 5 6 6 6 8 9 10 11 11 12 14 15
Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Ranguri 1 2.5 2.5 5 5 5 7 8 9 10.5 10.5 12 13 14
Lotul 1 1 1 (1) (2) (2) 1 2 1 2 2 2 2 2
Deoarece n cele dou loturi sunt prea puine valori pentru ca statistica U calculat
s urmeze o distribuie normal, vom determina nivelul de semnificaie utiliznd
tabelele speciale pentru eantioane mici.
Din tabelul pentru testul U se obine, pentru un test bilateral, cu prag de
semnificaie
=5% (/2 = 0,025 i 1-/2 = 0,975), intervalul de acceptare pentru R1: (29,61);
observm c valoarea noastr R1 = 27 este n afara intervalului de acceptare a ipotezei
zero, deci o respingem i vom considera c sportivii apreciaz acelai efort ca fiind mai
uor.
Fie dou serii de valori ale unei variabile ordinale, obinute pe un lot, de volum N,
n dou condiii, 1 i 2. Pentru fiecare individ i obinem diferena Di X 2i X 1i , care
poate fi pozitiv sau negativ. Se ignor diferenele nule.
ntr-o prim faz neglijm semnele i ordonm cresctor valorile absolute ale
diferenelor; apoi le acordm ranguri, ca n exemplul anterior. Reintroducem acum
pentru ranguri semnele pe care le-am avut la diferenele Di i calculm separat dou
totaluri: R (+) este suma rangurilor pozitive i R(-) este suma rangurilor negative.
Calculm acum statistica testului:
R=R(+) (4.13.a)
N N 1 1
T R N N 12 N 1 / 24 (4.13.b)
4 2
T N ( N 1) / 4 (4.13.c)
79
Biostatistica
i deviaia standard
T N ( N 1)( 2 N 1) / 24 (4.13.d)
Tabelul 4.10. Rezultatele la testul de biostatistic obinut pe un lot de 10 studeni, nainte i dup ce au urmat
un curs auxiliar de teoria probabilitilor
R(+)=35.5
R(-)=9.5
n acest exemplu nu vom putea utiliza distribuia normal (sunt prea puine valori),
ci tabelul special pentru testul Wilcoxon signed-rank. Putem alege un test unilateral,
adic ipoteza de zero s fie H 0 : 0 (n cuvinte: cursul nu a determinat
mbuntirea semnificativ a rezultatelor la test), avnd ca alternativ, n cazul
respingerii H0 ipoteza H 1 : 0 (adic rezultatele dup cursul auxiliar sunt
80
Gheorghe Ioan Mihala, Diana Lungeanu
semnificativ mai bune). Din tabel, pentru = 0,05 i N = 9 obinem valoarea critic
Rtab = 40. Pentru statistica T decizia se ia dup regula:
Dac Rcalc R tab , atunci respingem H0. n cazul nostru concret nu vom putea
respinge ipoteza de zero. Deci, n ciuda aparenelor (la 6 din cei 10 nota a crescut i a
sczut numai la 3, iar creterile sunt mai mari dect scderile), nu putem afirma c
diferenele sunt semnificative (probabilitatea s obinem diferene de acest gen din
ntmplare este destul de mare, peste 5%).
Acceptarea ipotezei de zero n acest caz nu nseamn neaprat cursul auxiliar nu a
determinat creteri semnificative ale rezultatelor, ci doar c din analiza rezultatelor a
10 studeni nu putem afirma existena unei creteri semnificative a rezultatelor la testul
de cunotine. Deseori, n asemenea situaii, cnd rezultatul unui test statistic este la
limit, este bine sa se extind studiul pe un lot mai mare pentru a se putea atinge
semnificaia statistic.
Observaie: Rezultatele obinute ar fi asemntoare i dac variabilele ar fi fost
considerate numerice n loc de ordinale i am fi aplicat testul t pereche pentru diferene
avnd valoarea D 1.4 i S d 0.83 pentru (N = 10); concluziile ar fi i n acest caz
la fel ca cele obinute cu testul Wilcoxon.
81
Biostatistica
Statistica
p p0 Dp
Z (4.14.a)
p 0 (1 p 0 ) S p0
N
Z (calc) (Z / 2 , Z / 2 ) (4.14.b)
0.053 0.946
Sp 0.018
150
0,053 0,04
Z 0,833
0,01.6
Condiie: se lucreaz pe loturi mari nct s nu fie vreuna din clase cu mai puin de
5 indivizi
Dp p1 p 2
Statistica Z (4.15.a)
S pd S pd
are o distribuie normal. Pentru eroarea standard a proporiilor folosim formula (4.14.)
82
Gheorghe Ioan Mihala, Diana Lungeanu
sau
1 1
S pd p 0 (1 p 0 )( ) (4.15.b)
N1 N 2
unde:
N1 p1 N 2 p2
p0 (4.15.c)
N1 N 2
p2 5 /165 0,030
83
Biostatistica
Tabelul 4.11. Prezentarea datelor pentru aplicarea testului de concordan la o distribuie multinominal.
n
(Oi E i ) 2
2 Ei
(4.16.a)
j
(Caracteristica)
O(I) A(II) B(III) AB (IV) Total
Grupa sanguin
Valori experimentale 22 33 14 11 80
Valori teoretice 20 20 20 20 80
Ipoteza de zero: grupele sanguine sunt uniform rspndite n populaia analizat.
Conform formulei (4.16.a) obinem:
2
22 202 33 202 14 202 11 202 14.5
20 20 20 20
84
Gheorghe Ioan Mihala, Diana Lungeanu
grupa 0, 15% grupa A, 40% grupa B i 15% grupa AB. n acest caz tabelul 4.12.a. ar
deveni:
(Caracteristica)
O(I) A(II) B(III) AB (IV) Total
Grupa sanguin
Valori experimentale 22 33 14 11 80
Valori teoretice 24 12 32 12 80
Tabelul 4.14. Notaii n tabelul de contingen cu L linii i C coloane pentru un eantion de N indivizi.
85
Biostatistica
Pentru notaiile din tabelul 4.14 sunt adevrate relaiile de mai jos:
L
C* j ij (4.17.a)
i
C
Li ij (4.17.b)
j
C L L C
N C* j Li * ij (4.17.c)
j i i j
( L 1) (C -1) (4.17.d)
Li* C* j
E ij (4.17.e)
N
(Oij Eij ) 2
X
2
(4.18.a)
i j
Eij
86
Gheorghe Ioan Mihala, Diana Lungeanu
Ipoteza de zero: H 0 : Oij Eij , pentru i, j cele dou tratamente dau rezultate
identice:
Calculm valorile ateptate conform (4.17.e) i obinem tabelul 4.16.b.
Tabelul 4.16.b. Rezultate ateptate n condiia respectrii ipotezei de zero.
87
Biostatistica
Tabelul 4.17.b. Valorile ateptate la clasificarea indivizilor dup nlime i greutate dac cele dou
clasificri ar fi independente.
(/ Oi Ei / 0,5) 2
2 Ei
i (4.18.b)
88
Gheorghe Ioan Mihala, Diana Lungeanu
Se alege tabelul cu valorile lui F dup pragul de semnificaie dorit (0,05 sau 0,01) i
pentru cele dou valori ale gradelor de libertate:
1 N1 1;
2 N 2 1 (4.19.b)
/2
Fcalc Ftab ( 1 , 2 ) (4.19.c)
Pachetele statistice dau de obicei valoarea lui p interpretabil conform fig. 4.2.
Exemplul 4.15. Considerm loturile 2 i 3 din tabelul 4.18.
1200
Pentru lotul 2: S22 150 S(21)
9 1
250
Similar: S 32 62,5 S (22)
5 1
150
Calculm: F = S (21) / S (22) 2,4 . Din tabel, pentru = 0,05
62,5
avem: F80,4,025 6,04
deci Fcalc Ftab i vom admite H0 dei diferenele dispersiilor preau destul de
mari.
89
Biostatistica
n
- grade de libertate: j N j 1; i i N n (4.20.a)
j 1
n
- numr total de indivizi: N N j (4.20.b)
j 1
j S 2j
1
- dispersie global: S 2 (4.20.c)
j
1 n
1
j
1
- coeficientul: C 1 (4.20.d)
3(n 1)
j
n
1
- statistica: X B2 ( ln S 2 j ln S 2j ) (4.20.e)
c j
- seria 2: N 2 9, 2 8, S 22 1200 / 8
- seria 3: N 3 5, 3 4, S 32 250 / 4
- aplicm formulele (4.20.a) - (4.20.e)
. N = 24 , n = 3
1
. S2 (900 1200 250) 112
24 3
. C 1 1 1 1 1 1 15
3 2 9 8 4 9 8 4 14
. X B2 9,59
90
Gheorghe Ioan Mihala, Diana Lungeanu
02,05;2 5,99
i se calculeaz:
n
S2 S 2j (4.21.b)
j
Statistica
Q Smax
2
/ S2 (4.21.c)
este comparat cu valoarea lui Q din tabelul lui Cochran; tabelele pentru Q sunt
asemntoare cu cele pentru F: sunt realizate pentru dou valori ale lui (0,05 i 0,01)
i depind de 2 indici: n i N 1 (numrul de grade de libertate).
Regiunea de acceptare a ipotezei de zero se alege dac este satisfcut condiia:
91
Biostatistica
- variana S j2 SS j / ( N j 1) (4.22.c)
Nj
- suma ptratelor abaterilor: SS j ( X j X ji ) 2 (4.22.d)
i
n
N Nj (4.23.a)
j
N n
X
Xi / N
N jX j /n
(4.23.b)
i 1 j
N
TSS (X X i )2 (4.23.c)
i 1
Esena n testele ANOVA este a diviza aceast varian total TSS (exprimat de
fapt aici prin suma total a abaterilor tuturor valorilor individuale X i fa de media
global X ) n variana datorat variaiilor valorilor individuale X ji din fiecare grup j
92
Gheorghe Ioan Mihala, Diana Lungeanu
n n Nj
RSS SS j ( ( X j X ji )2 ) (4.24.b)
j j i
dfTr n 1 (4.24.c)
De fapt RSS i TrSS calculate cu (4.16.b) i (4.16.a) sunt sume de ptrate; pentru a
reprezenta variane cu adevrat ele trebuiesc divizate cu numrul corespunztor de
grade de libertate: (MS = mean square).
MSTr = (TSS - RSS) / 1 (4.25.a)
MSTr
Fcalc F (4.25.c)
MSR
Dac seriile nu difer semnificativ ntre ele, variana care rmne atribuit
tratamentelor MSTr este mic, variana total fiind explicat aproape integral de
rezidualele MSR (variaiile individuale din fiecare grup), deci Fcalc va avea valori mici.
ns dac seriile difer semnificativ, MSTr va reprezenta o poriune nsemnat din
variana total i F va fi mare.
Stabilind un prag de semnificaie (5% sau 1%) decizia testului se ia astfel:
93
Biostatistica
F20,,22
05
3,44 i F20,,22
01
= 5,72
Tabelul 4.18.a. Scderile tensiunii sistolice dup patru zile de tratament, pe 3 loturi. Valorile negative indic
o cretere a tensiunii. n fiecare serie valorile au fost ordonate. Pentru seria global avem:
Tratament j 1 2 3
Individ i
1 20 30 30
2 15 25 25
3 15 15 20
4 10 10 15
5 5 10 10
6 5 5 -
7 0 5 -
8 -5 0 -
9 -5 -10 -
10 -10 - -
Nj 10 9 5 N = 24
Xj 5 10 20
X =10
SS j 900 1200 250 RSS =2350
94
Gheorghe Ioan Mihala, Diana Lungeanu
N
Xj ( X ji)/ N
i - media unui tratament (4.26.a)
n
X i ( X ji)/ n - media unui bloc (4.26.b)
j
N n N n
X ( X ji ) /( Nn) ( X i ) / N ( X j ) / n -(media global) (4.26.c)
i j i j
Total Nn TSS
X ij2 Nn X
2
TSS = ( X X ij ) 2 (4.28.a)
i j i j
95
Biostatistica
N n
RSS = (( X j. X .i X ) X ij ) 2 (4.28.b)
i j
N n 2
TrSS = ( X j. X ij )2 N X 2j. Nn X (4.28.c)
i j j
N n N
X .2i Nn X
2
BlSS = ( X .i X ij ) 2 n (4.28.d)
i j i
96
Gheorghe Ioan Mihala, Diana Lungeanu
97
Biostatistica
98
Gheorghe Ioan Mihala, Diana Lungeanu
5. CORELAIA I REGRESIA
Cuprins
A. Prezentare descriptiv
Relaii ntre dou variabile cantitative
Relaia de dependen
Corelaia liniar
Dreapta de regresie
Corelaii i regresii neliniare
Relaia ntre analiza corelaiei i analiza varianei
B. Fundamentare teoretic
C. Sintez. Caseta 5.a. Definiii
Caseta 5.b. Corelaii recomandate
99
Biostatistica
Figura 5.1. Relaia ntre nlimea unui individ, h, i concentraia de hemoglobin din snge, [Hb]. Repartiia
aproape simetric i uniform a punctelor sugereaz absena vreunei corelaii.
b. Variabile dependente
Dac reprezentm, relaia ntre presiunea parial a oxigenului din aerul respirat i
concentraia oxigenului dizolvat n snge am obine un grafic de forma celui din fig.
5.2.
Figura 5.2. Dependena concentraiei sanguine a oxigenului dizolvat de presiunea parial a oxigenului din
aerul respirat.
Legtura dintre cele dou mrimi este att de vizibil nct ne sugereaz nu numai
acceptarea unei relaii cauzale ci chiar gsirea unei formule pentru relaia dintre cele
dou mrimi; stabilirea unei astfel de formule (formalizarea matematic a
fenomenului) reprezint obiectul de studiu al unui capitol important al informaticii
medicale numit modelare i simulare. n partea de biostatistic ne intereseaz doar
faptul c cele dou mrimi nu par independente (la testul 2 de independen, mprind
pO2 i respectiv [O2] n cteva clase (chiar i cu numai dou clase), vom respinge
100
Gheorghe Ioan Mihala, Diana Lungeanu
101
Biostatistica
intensitatea corelaiei, care va avea valori extreme pentru cele dou situaii: 0 pentru
variabile independente (necorelate) i 1 pentru cele dependente.
n cazul n care considerm c punctele dintr-o diagram de mprtiere se situeaz
pe o dreapt, corelaia se numete corelaie liniar.
0
ii - Proprieti
coeficientul de corelaie r are valori cuprinse ntre -1 i +1
valorile pozitive ale lui r indic o corelaie direct ntre x i y (creterea lui x este
nsoit de creterea lui y, figura 5.4.a), n timp ce valori negative indic o corelaie
invers (cnd x crete, y scade, figura 5.4.b).
Valorile absolute mari ale lui r (apropiate de +1, respectiv -1) indic o corelaie
puternic, n timp ce valorile mici (n jurul lui 0) indic o corelaie slab (sau absena
corelaiei) - figura 5.5.
102
Gheorghe Ioan Mihala, Diana Lungeanu
Deci: din punct de vedere fenomenologic vom interpreta valoarea lui r, dar numai dup
ce ne asigurm c este semnificativ (din valoarea lui p).
104
Gheorghe Ioan Mihala, Diana Lungeanu
Exist diverse metode prin care se pot determina coeficienii a i b din ecuaia
dreptei. De obicei, softul care permite analiza corelaiei are posibilitatea s ne furnizeze
i valorile lui a i b, ba chiar adesea acetia sunt prezentai i cu intervalele lor de
ncredere. Pentru alte situaii precum i pentru fundamentarea teoretic a acestor
abordri, vom reveni n 5.4. Pot fi aplicate asupra acestor valori a i b i teste de
semnificaie.
Exemplul 5.2. Considerm un lot de 60 copii n vrst de 10 ani, crora le-am
determinat nlimea (n cm) i greutatea (n kg). Vom analiza corelaia ntre cele dou
variabile, folosind pachetul statistic Excel. Rezultatele sunt prezentate n tabelele 5.1.a,
5.1.b i figura 5.8.
Tabelul 5.1.a. Sumarul statistic al datelor din exemplul 5.2 nlimea i greutatea unui lot de 60 copii.
Regression Statistics
Multiple R 0.9197
R Square 0.8459
Adj R Sq 0.8433
Std Error 1.3321
Obs 60
ANOVA
df SS MS F Signif F
Regression 1 565.03 565.03 318.4319 3.15E-25
Residual 58 102.92 1.7744
Total 59 667.95
Standard Upper
Coeff Error t Stat P-value Lower 95% 95%
Intercept -54.51 4.8293 -11.29 2.89E-16 -64.1764 -44.84
X Variab 1 0.6294 0.0353 17.845 3.15E-25 0.558797 0.7
105
Biostatistica
45.0
40.0
35.0
Greutatea
30.0
25.0
20.0
120 125 130 135 140 145 150 155
Inaltimea
106
Gheorghe Ioan Mihala, Diana Lungeanu
107
Biostatistica
r rxy
s xy
( X i X ) (Yi Y )
S x S y2 ( X i X ) 2 (Yi Y ) 2 (5.2.a)
unde
108
Gheorghe Ioan Mihala, Diana Lungeanu
S x2
(X i X )2
, S 2y
(Yi Y ) 2
(5.2.b)
N N
S xy
( X i X ) (Yi Y ) (5.2.c)
N
0
ii - Proprieti
am vzut mai sus proprietatea lui r de a avea valori cuprinse ntre -1 i +1
r [-1, +1] (5.3.a)
valorile pozitive ale lui r indic o corelaie direct n timp ce valori negative indic
o corelaie invers (fig. 5.4.a i b).
b. Semnificaia coeficientului de corelaie
Valorile lui r depind att de gradul de mprtiere al valorilor experimentale ct i
de N - numrul de puncte. Uneori, cnd N este mic putem obine, din ntmplare, valori
ridicate pentru r, conducndu-ne la concluzii hazardate cu privire la intensitatea
corelaiei. De aceea, se poate testa semnificaia coeficientului de corelaie liniar r.
Ipoteza de zero: H0: 0 ( coeficientul de corelaie liniar pentru
ntreaga populaie, r = coeficientul de corelaie obinut pe un eantion)
Test aplicat: testul t (Student)
Fundamentare teoretic:
Se poate demonstra c raportul:
N 2
t t calc r (5.3.b)
1 r 2
1 r 2
Sr (5.3.c)
N 1
109
Biostatistica
r (r t / 2, S r ; r t / 2, S r ) (5.3.d)
Pe baza relaiei (5.3.d) se poate construi un tabel sau se poate ridica un grafic cu
regiunea de acceptare / respingere a ipotezei de zero (figura 5.6).
Yi a bxi (5.4.b)
SSE SSE
0, 0 (5.4.d)
a b
b
S xy
( X i X )(Yi Y ) Yxy S y (5.5.a)
S x2 (X i X )2 Sx
a Y b X (5.5.b)
110
Gheorghe Ioan Mihala, Diana Lungeanu
S2
SSE
i
2
( yi y ) 2 (5.6.a)
N 2 N 2 N 2
S2
Sb (5.6.b)
S x2
1 X2
Sa S 2 (5.6.c)
N (X i X 2
Pentru un prag de semnificaie , intervalele de localizare ale parametrilor estimai,
a si b
vor fi date de:
b (b t / 2, S b , b t / 2, S b ) (5.5.c)
a (a t / 2, S a , a t / 2, S a ) (5.5.d)
b
t calc b / sb (5.7.a)
111
Biostatistica
a
t calc a / Sa (5.7.b)
Yi Yi i
Zi (5.8.a.)
S2 S2
112
Gheorghe Ioan Mihala, Diana Lungeanu
Y (Y - t s y , Y t S y ) (5.9.a)
unde t este valoarea din tabelul repartiiei Student pentru un prag de semnificaie
ales, iar eroarea standard a estimrii lui Y pentru fiecare x se calculeaz cu:
1 (X X )2
S y S 2 (5.9.b)
N ( X )2
X2 N
113
Biostatistica
potrivit alegerea altei relaii pentru descrierea dependenei ntre variabile n cazurile
respective.
xy 1
i2
i2 (5.10)
i2 i2
unde , i au semnificaia din figura 5.5., cu deosebirea c punctul P va fi
,
y a e bx
(5.11.a)
avnd coeficienii a i b.
- Exemple:
0
i - corelaii exponeniale cresctoare (b 0) - n fenomene de absorbie
(intestinal etc.); variabila independent este timpul.
0
ii - corelaii exponeniale descresctoare (b 0) curbele de clearance - pentru
caracterizarea funciei de epurare (renal, hepatic) - variabila independent este timpul.
b. Corelaii logaritmice
- Ecuaia regresiei logaritmice:
y=a+b log x (5.11.b)
- Exemple:
legea Weber - Fechner n care
x = intensitatea stimulului
y = senzaia perceput
114
Gheorghe Ioan Mihala, Diana Lungeanu
- Exemple:
legea lui Stevens din biofizic:
x = intensitatea stimulului
y = frecvena impulsurilor nervoase pe o fibr.
d. Corelaii hiperbolice
- Ecuaia funciei hiperbolice:
(x - a) (y - b) = k (5.11.d)
- Exemple:
legea lui Hill n care:
x = fora contracie (ncrcarea, sarcina)
y = velocitate, adic viteza de contracie pentru muchiul striat
legea lui Abbey, la determinarea pragului de sensibilitate vizual, n care:
x = intensitatea unui stimul luminos foarte scurt (flash)
y = durata flash-ului
e. Corelaii logistice
- Ecuaia funciei logistice:
ax
y
b x (5.11.e)
- Exemple:
cinetica Michaelis Menten, n care:
x - concentraia de substrat
y - viteza reaciei enzimatice
Curbele doz-efect din farmacodinamie, n care:
x = doza unei substane medicamentoase
y = efectul dozei respective asupra unui esut (Ariens).
Reprezentrile funciei logistice se fac de obicei n coordonate y = f (log x), funcia
avnd n acest caz o form sigmoidal i o serie de proprieti de simetrie.
f. Alte corelaii neliniare
Mai rar ntlnim i alte corelaii neliniare: parabolice, polinomiale etc.
115
Biostatistica
116
Gheorghe Ioan Mihala, Diana Lungeanu
a. Formula:
R 1
6 D:2 (5.12.a)
N ( N 2 1)
Tabelul 5.2. Rangurile preferinei culorilor prin testul Luscher la dou loturi
unde S este suma scorurilor pozitive i negative ale rangurilor dintr-o clasificare
pentru toate cele N (N 1) combinaii posibile n raport cu cealalt clasificare. Se
noteaz scorul cu +1 ori de cte ori o combinaie este concordant (are acelai
clasament) i cu -1 ori de cte ori o combinaie este discordant (clasamentele difer).
117
Biostatistica
b. Exemplul 5.3.b
Rearanjm datele din tabelul 5.2 astfel nct o clasificare s fie ordonat (de ex. cea
pentru copii); datele apar acum ca n tabelul 5.3.
Tabelul 5.3. Rangurile preferinei culorilor - dou clasamente obinute pe dou loturi: copii i aduli -
rearanjarea datelor din tabelul 5.2.
2
C (5.13.a)
2 N
118
Gheorghe Ioan Mihala, Diana Lungeanu
bc ad
(5.13.b)
L1 L2 C1C 2
2 N 2 (5.13.c)
b. Indicatori de grupare
Prin diverse tipuri de analize se pot gsi criterii dup care indivizii unui lot se pot
grupa n mai multe clase astfel nct s se poat preciza asemnarea ntre indivizii unei
clase i deosebirea lor fa de indivizii altor clase.
y f ( x1 , x2 , ..., x n ) (5.14.a)
Cea mai simpl relaie este regresia liniar multipl, n care considerm
dependena de forma:
y b0 b1 x1 b2 x 2 .... bn x n (5.14.b)
i2 ( y i y ) 2 min (5.14.c)
119
Biostatistica
120
Gheorghe Ioan Mihala, Diana Lungeanu
6. EPIDEMIOLOGIE ANALIZA
RISCULUI
Cuprins
A. Prezentare descriptiv
Analiza riscului
Factori de risc
Metode de studiu
Indicatori de risc
B. Fundamentare teoretic
C. Sintez: Caseta 6: Definiii
121
Biostatistica
B+ B-
E+ N11 N12 L1
E- N21 N22 L2
C1 C2 N
122
Gheorghe Ioan Mihala, Diana Lungeanu
Figura 6.2. Tipurile de studii epidemiologice - prezentarea schematic: (a i b) studii de tip cohort; (c) studii
de tip case-control.
124
Gheorghe Ioan Mihala, Diana Lungeanu
N11 / L1
RR (6.1.a)
N 21 / L2
N11 N 22
OR (6.1.b)
N 21 N12
Raportul OR este folosit mai des n studiile de analiz a riscului att pentru faptul
c este mai sensibil (are valori mai mari n cazul unui risc real) ct i pentru c este mai
general; RR nu poate fi folosit n studiile case-control.
Dac riscul relativ are valoarea OR 1 (sau RR 1) putem spune c factorul
analizat nu reprezint un factor de risc, probabilitatea de apariie a afeciunii fiind la fel
de mare i la lotul neexpus factorului de risc. La modul general vom spune c asocierea
ntre cele dou variabile este statistic nesemnificativ. Valori OR 1 (sau RR 1) dau o
semnificaie aciunii factorului de risc. n schimb, valori subunitare ar sugera o aciune
contrar, deci factorul analizat ar putea fi considerat factor protector.
Pentru a estima intervalul de ncredere n care indicatorii OR i RR pot fluctua
ntmpltor se folosesc limitele Cornfield pentru p = 95% probabilitate ca ipoteza de
zero s fie adevrat. Programele de calculator afieaz de obicei att limita inferioar
ct i cea superioar (engl lower limit i upper limit). Dac valoarea 1 este inclus
n acest interval vom considera rezultatul nesemnificativ (adic astfel de valori pentru
OR sau RR aveau ans peste 5% s apar din ntmplare), iar dac i limita inferioar
este mai mare dect 1 atunci rezultatul este semnificativ vom spune ca factorul
analizat este ntr-adevr un factor de risc.
Exemplul 6.1. Un studiu privind efectele posibile ale lucrului ntr-un mediu cu nivel
relativ nalt de zgomot (peste 75 dB) a cuprins un lot de 80 muncitori care lucrau peste
6 ore pe zi n aceste condiii. Dup 2 ani de zile s-a constatat c 11 dintre ei prezentau o
scdere a sensibilitii acustice. Un lot de control, format din 108 persoane a fost
urmrit n paralel i dup 2 ani s-a constatat o scdere a sensibilitii acustice la 7
persoane. Putem spune c a petrece peste 6 ore pe zi n zgomot de peste 75 dB
reprezint un factor de risc pentru scderea sensibilitii acustice?
125
Biostatistica
Prezentm n fig. 6.3 rezultatele aa cum apar ele afiate prin prelucrri cu pachetul
Epi-Info, programul Statcalc.
Fig. 6.3. Rezultatele exemplului 6.1 prelucrate cu programul Statcalc din Epi-Info
Observm c, n ciuda valorii mari obinute pentru OR (2,30), respectiv RR (2,12),
asocierea este nesemnificativ, avnd p = 0,0940 > 0,05. Sunt vizibile i intervalele de
ncredere pentru OR (2,30 6,96), respectiv RR (0,86 5,23), valoarea 1 fiind n
interiorul acestor intervale.
ii - Incidena unei boli: este numrul de cazuri ce apar ntr-un interval t (t1 ,t2)
ntr-o populaie cu risc. Ea poate fi exprimat prin:
. incidena cumulativ CI: proporia ntr-un grup fix predefinit (cohort) la care
apare boala n intervalul specificat.
126
Gheorghe Ioan Mihala, Diana Lungeanu
CI ID x t (6.2.d)
iv - Riscul relativ: este raportul ntre riscul absolut pentru lotul de expui, fa de
cel pentru lotul de ne-expui i reprezint probabilitatea de apariie a afeciunii la cei
expui fa de probabilitatea de apariie a afeciunii la cei neexpui la factorul de risc.
RR = R (E+) / R (E -) = (N11 L2) / (N21 L1) (6.2.c)
127
Biostatistica
adic n cte cazuri prezena factorului de risc (E+ = subieci expui) are succes
n declanarea bolii (N11) fa de situaiile de eec (N12); similar raportul succes / eec
pentru condiia absenei factorului de risc (E - = neexpui).
c) Pentru studii case-control
Deoarece loturile case i control sunt alese de ctre investigator, valoarea
p(B+) dintr-un tabel de forma 6.1 nu va reflecta prevalena bolii, aa c nici
probabilitile condiionate p(B+/E+), p(B+/E -), p(B -/E+) i p(B -/E -) nu pot fi
calculate direct din datele culese.
128
Gheorghe Ioan Mihala, Diana Lungeanu
N12 numrul perechilor n care femeia din lotul expus avorteaz n timp ce cea din lotul
neexpus nu, N21 situaia invers, n care femeia expus nu avorteaz iar cea ne-expus
avorteaz i N22 cnd ambele duc sarcina la sfrit. Rezultatele le trecem ntr-un tabel
de forma tabelului 6.3. S observm c valorile din tabel reprezint perechi de femei, n
studiu fiind implicate n total 2N femei.
E
Ne-expui Total
B+ B linii
(boala) (boala abs)
B+ N11 N12 L1
E+ (boala)
expui B N21 N22 L2
(boala abs)
Total C1 C2 N
coloane
sau
OR = N12 / N21 (6.5.b)
B
(boala abs) Total
E+ E- linii
expui Ne-expui
E+ N11 N12 L1
B+ expui
(boala) E N21 N22 L2
Ne-expui
Total C1 C2 N
coloane
130
Gheorghe Ioan Mihala, Diana Lungeanu
Sau
OR = N12 / N21 (6.5.b)
B+ B-
E+ T11 T12 L1
E- T21 T22 L2
C1 C2 N
n distribuia teoretic (tabelul 6.5) vom avea aceleai totaluri pe linii i coloane, iar
valorile teoretice se calculeaz dup relaia:
Tij = Li Cj / N (6.6.a)
Comparm cele dou distribuii (cea experimental din tabelul 6.1 cu cea teoretic
din tabelul 6.5).
Ipoteza de zero: diferenele ntre distribuii sunt nesemnificative, adic
H0 : Nij = Tij pentru toi i,j (6.6.b)
2
Testul recomandat este testul . Se calculeaz statistica
(apariia) bolii sunt asociate, lucru ce este demonstrat prin valoarea lui OR (inclusiv
intervalul su de ncredere).
Pentru tabelele de analiza riscului putem deci considera c se efectueaz testul 2
pentru ipoteza de zero:
pentru studii transversale sau cohort:
H0 : p(B+ / E+) = p(B+ / E -) (6.6.e)
O analiz superficial incomplet ne-ar putea induce ideea unui risc crescut al
consumului de cafea asupra declanrii afeciunilor coronariene, conform centralizrii
din tabelul 6.6.b.
132
Gheorghe Ioan Mihala, Diana Lungeanu
Fumat B+ B- Medie
DA 950 (n = 8) 1000 (n = 3) 963 (n = 11)
NU 250 (n = 9) 200 (n = 9) 216 (n = 13)
Medie 716 (n = 12) 400 (n = 12) 558 (n = 24)
Analizele multistratificate sunt destul de dificile; uneori este greu a discerne ntre
factorul cauzal i ali factori asociai. Exist nite criterii definite de Hill care ar facilita
aceast operaiune.
Caseta 6. Definiii
Factor de risc o cauz ipotetic ce determin creterea probabilitii ca un individ s
dezvolte o anumit afeciune.
Studiu transversal (de prevalen) studiu epidemiologic desfurat ntr-un interval
foarte scurt de timp cu culegerea datelor de prezen/absen a factorului de risc,
respectiv a afeciunii.
Studiu longitudinal studiu desfurat pe o perioad ndelungat de timp.
Studiu pe cohort studiu n care se urmresc n paralel dou loturi, iniial identice
(persoane sntoase), unul expus la aciunea factorului de risc, cellalt (martor)
neexpus la aciunea factorului de risc.
Studiu case-control - studiu n care grupurile de studiu se definesc n funcie de
prezena/absena afeciunii urmrind (retrospectiv) prezena sau absena factorului
de risc pentru fiecare subiect.
Studiu prospectiv studiu n care se analizeaz rezultate ale unor evenimente ce vor
avea loc n viitor.
Studiu retrospectiv studiu n care se colecteaz date ale unor evenimente ce au avut
loc n trecut.
Indice odd raportul ntre probabilitatea ca un eveniment s aib loc i probabilitatea
ca evenimentul s nu aib loc.
Odds Ratio (OR) indicator de risc ce exprim raportul ntre probabilitile de
mbolnvire fa de probabilitile de a nu se mbolnvi pentru un lot expus la
aciunea unui factor de risc fa de un lot neexpus.
Relative Risc (RR) indicator de risc ce exprim raportul ntre probabilitile de
mbolnvire ntre dou loturi unul expus i unul neexpus.
Risc atributabil diferena ntre probabilitatea de mbolnvire la cei expui fa de cei
neexpui.
133
Biostatistica
134
Gheorghe Ioan Mihala, Diana Lungeanu
7. ANALIZA SUPRAVIETUIRII
Cuprins
A. Prezentare descriptiv
Analiza supravieuirii
Caracteristicile studiilor
Tabele de via
Metoda actuarial
Diagrame Kaplan-Meier
B. Fundamentare teoretic
C. Sintez: Caseta 7. Definiii
135
Biostatistica
foarte des din ansamblul condiiilor putem desprinde unele care pot fi deasemenea
considerate factor de risc, ce acioneaz sinergic sau competitiv cu factorul urmrit de
noi.
136
Gheorghe Ioan Mihala, Diana Lungeanu
va fi considerat pierdut n intervalul 2-3. Aici sunt de obicei inclui i cei decedai
din alte cauze.
5. Scoi din urmrire fiind n via la sfritul perioadei analizate (wi). n exemplul
nostru perioada analizat se ncheia la 31 decembrie 1960; un pacient care a
nceput tratamentul n 5 Mai 1954 i este n via la 31 decembrie 1960 va fi scos
din calcul n intervalul 6-7 (a supravieuit 6 ani i n-a fost urmrit mai mult).
Aceste trei categorii majore: n via la momentul raportrii/decedai datorit bolii
studiate/scoi din eviden nainte de ncheierea studiului (datorit pierderii din
urmrire sau decesului din alte cauze) sunt ilustrate i n figura 7.2.
6. Numrul efectiv al celor expui la riscul de deces (ni). Pacienii pierdui din
urmrire (ui) i cei scoi din urmrire (wi) sunt considerai ca fiind distribuii
uniform de-a lungul ntregului an, deci pot fi considerai ca expui timp de jumtate
de interval; deci:
ni = li (i + wi) / 2 (7.1.b)
S-a presupus, deci, c probabilitatea de supravieuire pentru cei pierdui sau scoi
din urmrire este aceeai ca i pentru cei rmai n eviden.
Tabelul 7.1. Prezentarea datelor pentru prelucrarea prin metoda actuarial sub form de tabele de via.
Exemplul se refer la un studiu la pacieni care au nceput tratamentul ntre 1946-1955 i urmrii pn la 31
dec. 1960. (* din [UICC - TNM ]).
1 Anul de i- 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11
observaie i+i
2 n via la li 1000 816 642 558 504 460 382 308 259 212 165
nceputul
intervalului
3 Decedai n di 180 170 80 50 40 28 26 7 7 11
interval
4 Pierdui din ui 4 4 4 4 4 6 5 4 3 3
urmrire n
interval
5 n via la
sfritul
interv. i
wi - - - - - 44 43 38 37 33 165
scoi din
urmrire
6 Nr. efectiv de
expui la risc ni 998 814 640 536 502 435 358 287 239 194
de deces
7 Rata anual qi 0.18 0.20 0.12 0.09 0.010 0.06 0.07 0.02 0.02 0.05
de mortalitate 0 9 5 0 4 3 4 9 7
8 Rata anual pi= 0.82 0.79 0.87 0.91 0.920 0.93 0.92 0.97 0.97 0.94
de 1-qi 0 1 5 0 6 7 6 1 3
supravieuire
9 Rata Pi=
cumulativ de p1
supravieuire .p2 0.82 0.64 0.56 0.51 0.476 0.44 0.41 0.40 0.39 0.36
pn la
.pi 0 9 8 7 6 3 3 1 9
sfritul
intervalului
137
Biostatistica
i
p i p 1 p 2 ..... p i p j
(7.1.e)
j 1
n qi
Sp pn n p (7.2)
i 1 i i
138
Gheorghe Ioan Mihala, Diana Lungeanu
pn* p n / p 0 (7.3)
Valoarea lui p0 se poate obine pentru orice ar din tabele generale de mortalitate.
139
Biostatistica
Pentru compararea a dou rate de supravieuire se pot folosi diverse teste statistice,
(fie cele corespunztoare comparrii proporiilor, fie testele t sau Wilcoxon).
7.2.4. Aplicaii
Analizele de tip actuarial, elaborate iniial pentru companiile de asigurri au fost
extinse pentru numeroase alte situaii ce implica urmrirea unei terapii: prelucrri
dentare, implant cardiac, transplant de rinichi, diverse alte tipuri de protezare etc.
n ultimul timp s-au elaborat i modele teoretice utilizate pentru simularea
fenomenelor reale, n aceast direcie fiind cunoscut modelul lui Cox care folosete o
funcie hazard pentru descrierea matematic a ratei de mortalitate, sau modelul
Kermack - McKendrick pentru rspndirea epidemiilor.
Caseta 7. Definiii
Metoda actuarial metod de studiu n care pentru fiecare pacient se ia ca origine a
timpului momentul lurii n eviden (echivalent cu debutul bolii).
Tabele de via tabele de format standard pentru evidena datelor din studiile de
supravieuire.
Semnificaia coloanelor din tabelele de via:
- anul de observaie
- numr iniial cei n via la nceputul intervalului
- decedai datorit bolii n intervalul dat
- pierdui din urmrire (plecai, decedai din alte cauze)
- n via la sfritul perioadei analizate (raport)
- numr expui la risc
- rata anual de mortalitate proporia celor decedai (probabilitatea de deces n
intervalul respectiv)
- rata anual de supravieuire probabilitatea de a supravieui n intervalul respectiv
- rata cumulativ de supravieuire.
Curbe Kaplan-Meier diagrame de reprezentare a supravieuirii (sau mortalitii).
140
Gheorghe Ioan Mihala, Diana Lungeanu
8. EVALUAREA CALITII
TESTELOR DIAGNOSTICE
Cuprins
A. Prezentare descriptiv
Studiile de calitate a testelor diagnostice
Termeni generali
Indicatori ai calitii unui clasificator
B. Fundamentare teoretic
C. Sintez: Caseta 8. Definiii
O serie de studii au ca obiectiv realizarea unor noi teste diagnostice. Aceste teste
diagnostice realizeaz, principial, o operaie de clasificare. Propunerea unor noi teste nu
este lipsit de riscul unor clasificri greite. De aceea, este important a avea criterii bine
definite de apreciere a calitii unui clasificator. (Menionm aici c aceste criterii au un
caracter general, nefiind restrnse ca aplicabilitate numai la testele diagnostice).
T+ T-
B+ N11 N12 L1
B- N21 N22 L2
C1 C2 N
141
Biostatistica
Specificitatea este capacitatea de rejecie corect a celor negativi (rata celor real
negativi):
Exemplul 8.1: Avem disponibile datele unui studiu ce a cuprins 4000 subieci
dintre care 100 au avut viroz. Presupunem c testul nostru diagnostic (o analiz de
laborator sau un program de calculator) a diagnosticat corect 90 dintre ei, ns a atribuit
acelai diagnostic (viroz) i la ali 50 de subieci. Evaluai calitatea testului diagnostic.
Datele din text sunt prezentate sintetic n tabelul 8.2.
142
Gheorghe Ioan Mihala, Diana Lungeanu
T+ T-
B+ 90 10 100
B- 50 3850 3900
140 3860 4000
143
Biostatistica
pe de alt parte, dac am avea un criteriu perfect (nici un fals pozitiv sau negativ,
indiferent de pragul P), atunci aria de sub curba ROC va fi 100%.
uzual curba ROC arat ca n fig.8.1; aria de sub curba ROC este un indicator global
satisfctor pentru calitatea clasificatorului folosit i se numete coeficientul c.
8.3.2. Coeficientul c
Aria de sub curba ROC se mai numete si coeficientul c i reprezint cel mai
important indicator al acurateei prediciei (scorului).
Se accept urmtoarea scar n funcie de coeficientul c:
0,91 1,00 = excelent
0,81 0,90 = foarte bine
0,71 0,80 = bine
0,61 0,70 = satisfctor
sub 0,60 = slab.
Indicele Youden are valori ntre - 1 i +1. Un test perfect ar avea un indice Youden
+1. De menionat c indicele Youden nu identific proporia ntre sensibilitate i
specificitate. Exist date n literatura de specialitate care arat posibilitatea de a folosi
144
Gheorghe Ioan Mihala, Diana Lungeanu
indicele Youden pentru identificarea pragului optim (engl. cutpoint) ntre clasele T+ i
T -.
Caseta 8. Definiii
Real pozitivi pacieni bolnavi, cu test pozitiv
Real negativi pacieni fr boala studiat, cu test negativ
Fals pozitivi pacieni fr boala studiat, cu test pozitiv
Fals negativi pacieni bolnavi, cu test negativ
Sensibilitatea testului proporia celor cu test pozitiv dintre cei bolnavi - descrie
capacitatea testului de a-i clasifica corect pe cei pozitivi
Specificitatea testului proporia celor negativi dintre cei fr boala studiat - descrie
capacitatea testului de a-i clasifica corect pe cei negativi
Valoare predictiv pozitiv proporia celor bolnavi dintre cei cu test pozitiv
Valoare predictiv negativ proporia celor fr boala studiat dintre cei negativi
Acurateea testului proporia celor clasificai corect
Rata erorii de clasificare proporia celor clasificai eronat
Curba ROC arat relaia de invers proporionalitate ntre sensibilitate i
specificitate.
145
Biostatistica
146
Gheorghe Ioan Mihala, Diana Lungeanu
Partea a II-a
147
Biostatistica
148
Gheorghe Ioan Mihala, Diana Lungeanu
Lucrri practice
1. Generaliti
Lucrrile practice prezentate aici vin s completeze cunotinele predate la
curs, accentund aspectele practice care implic prelucrarea propriu-zis a unor date
experimentale.
Toate datele utilizate au fost generate cu ajutorul unor programe de simulare,
pornind de la situaii reale prezentate n literatura de specialitate. Lucrrile practice au
fost orientate spre utilizarea celui mai accesibil software pentru prelucrri statistice mai
simple, i anume Microsoft Excel din pachetul Microsoft Office. Sunt trecute dou
variante de lucru: fie n Excel 2003, care este nc foarte rspndit, avnd meniul mai
simplu versiune pe care o utilizm i n laboratorul disciplinei de informatic
medical, fie n Excel 2007, variant solicitat de numeroi doctoranzi, care au la
dispoziie acest soft. Fiierul de date este acelai i este accesibil pe internet la adresa:
www.medinfo.umft.ro/dim/biostatistica/tabele-date.xls, de unde poate fi copiat pe
calculatorul personal. n prima parte sunt descrise tabelele cu urmeaz a fi folosite n
continuare; unele date sunt folosite n mai multe lucrri practice.
n cadrul lucrrilor de laborator se distribuie fiierul i ntr-o versiune care
conine rezultatele tuturor prelucrrilor expuse mai jos.
Lucrrile sunt descrise sumar, comentariile fiind reduse la strictul necesar. S-a
preferat stilul de redactare cu enumerarea pailor de parcurs.
Denumirile unor comenzi n limba englez au fost trecute n italice.
Nu s-au reluat noiunile fundamentale din Excel. Este recomandabil pentru
cei care nu au lucrat anterior cu acest soft, s-i sacrifice cteva ore pentru o iniiere n
elementele fundamentale privind calculul tabelar. n general, pentru parcurgerea
lucrrilor practice s-au considerat cunoscute urmtoarele operaiuni i noiuni:
- referirea unei celule (click cu mouse-ul pe celul, sau referirea coordonatelor
coloan i linie, de ex.: B3),
- copierea datelor i copierea formulelor, pe linii i pe coloane, inclusiv nelegerea
modificrilor automate ale referinelor din formule,
- coordonate ngheate (utilizarea $ pentru pstrarea coordonatelor din formule),
- selectare/deselectare celul, linie, coloan, arie,
- referirea unui interval n meniuri (pe o linie, pe o coloan, pe mai multe linii i
coloane),
- modificarea dimensiunilor coloanelor (cu mouse sau referire prin Page Layout),
- modificarea dimensiunilor unui Chart, completarea datelor din meniu etc.
Sunt utile i alte noiuni filtrarea, folosirea funciilor etc., dar pot fi parcurse n
paralel cu lucrrile practice.
149
Biostatistica
WS1: grafic
Descriere worksheet
Date din studiul distribuia grupelor sanguine. n tabel-1 sunt centralizate datele
obinute pe un lot de 400 persoane, 200 brbai i 200 femei. n tabel-2 sunt datele pe un
lot de 8 ori mai mic 50 persoane, cu aceleai proporii ale grupelor sanguine. Sunt
datele din exemplul 4.3 (cap. 4.2.3.1).
Structura:
- liniile 1, 2 labels (titlul i capul de tabel),
- linia 3 date brbai (M),
- linia 4 date femei (F),
- linia 5 total [necalculat va fi calculat n lucrrile practice],
- coloana 1 labels
- coloanele B E: date pe grupele 0, A, B, AB
- coloana F total [necalculat va fi calculat n lucrrile practice].
WS2: par-st
Descriere worksheet
Date din studiul dezvoltarea somatic a copiilor n vrst de 10 ani, pe un lot de 60
de copii.
Structura:
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:62 date,
- coloana A nr. crt. (1- 60),
- coloana B iniiale (2 litere) necompletat,
- coloana C sex (M sau F),
- coloana D nlimea n cm (cu 1 zecimal),
- coloana E greutatea n kg (cu 1 zecimal),
- coloana F indice de greutate corporal [necalculat va fi calculat n lucrrile
practice].
WS3: teste
Descriere worksheet
Date din studiul privind efectul unui tratament cu un antihipertensiv asupra
tensiunii arteriale, efectuat pe un lot de 60 subieci;
150
Gheorghe Ioan Mihala, Diana Lungeanu
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:62 date,
- coloana A: sexul,
- coloana B: tensiunea sistolic nainte de tratament,
- coloana C: tensiune sistolic dup tratament,
- coloana D: tensiune diastolic nainte de tratament,
- coloana E: tensiunea diastolic dup tratament.
WS4: val-dg
Descriere worksheet
Date din studiul: evaluarea unui test de sarcin efectuat pe un lot de 120 femei.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:122 date,
- coloana A nr. crt.,
- coloana B rezultatul testului, notat cu + i - ,
- coloana C situaia real privind confirmarea sarcinii, notat la fel.
WS5: risc
Descriere worksheet
Date din studiul evaluarea riscului produs de fumat asupra tensiunii arteriale (risc
de hipertensiune). Date dintr-un studiu transversal pe 120 persoane.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:162 date,
- coloana A: tensiunea arterial sistolic,
- coloana B: fumtor DA / NU, notat cu 1/0 (1 = DA, 0 = NU).
WS6: chi-sq
Descriere worksheet
Date din studiul distribuia grupelor sanguine. n ex.1 sunt datele pe un lot de 240
persoane, iar n ex.2 pe un lot de 10 ori mai mic, cu exact aceleai proporii ale grupelor
sanguine.
Structura
- liniile 1, 2, 7 labels (titlul i capul de tabel),
- linia 3 i 8 date observate,
- linia 4 i 9 date ateptate (teoretice), [necalculate vor fi calculate n lucrrile
practice],
- coloana A i H labels,
- coloanele B E: date pe grupele 0, A, B, AB,
- coloana F total [necalculat va fi calculat n lucrrile practice],
- coloana I valoarea lui p din testul chi-square.
151
Biostatistica
WS7: regr
Descriere worksheet
Date din studiul dezvoltarea somatic a copiilor n vrst de 10 ani, pe un lot de 40
copii.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:42 date,
- coloana A nlimea n cm, fr zecimale,
- coloana B greutatea n kg, cu 1 zecimal.
152
Gheorghe Ioan Mihala, Diana Lungeanu
- chart-ul este gata i poate fi mutat oriunde pe acelai worksheet, de ex. cu colul
stnga sus n H3 (sau se poate crea un alt worksheet un clic dreapta pe mouse va
deschide un pop-ul meniu din care selectm Move Chart, iar n noua fereastr
alegem butonul New sheet i i dm numele dorit).
- Interpretare: fiecare coloan reprezint nr persoanelor din grupa sanguin.
Subtema 1b: reprezentare sectorial
- Procedeu
- se verific dac suntem n tab-ul Home al barei standard
- se selecteaz din tabel-2 poriunea b8:e9 (2 linii x 4 coloane)
- din bara standard a meniului se alege tab-ul Insert, iar din grupul Charts se alege
icon-ul Pie; apare o fereastr tip "pop-up window", cu icon-uri n mai multe
seciuni;
- din seciunea 2-D Pie alegem primul icon; apare fereastra chart-ului;
- din grupul Chart Style alegem culorile din chart; de ex. style 3 (o culoare cu diverse
saturaii vom avea acum 4 nuane, pentru cele 4 grupe sanguine);
- din grupul Chart Layout alegem reprezentarea; de ex. layout 6;
- continum ca mai sus: pe chart, cu clic pe Chart Title se introduce noul titlu;
- chart-ul este gata i poate fi mutat oriunde.
- Interpretare: reprezentare sectorial cu grupele sanguine n %, avnd afiat i
procentul fiecare clas.
Subtema 1c: histograma 2 variabile varianta 1
- Procedeu
- se selecteaz din tabel-1 poriunea a2:e4 (2 linii x 4 coloane, cu grupele sanguine
pe sexe)
- din bara standard se alege tab Insert, grup Charts, icon Column; apare o fereastr
tip "pop-up window", cu icon-uri n mai multe seciuni;
- din seciunea 2-D Column alegem al doilea icon (coloane separate pe grupe
sanguine, dar suprapuse pentru sexe diferite);
- din grupul Chart Style alegem acum style 1 (nuane de gri, varianta potrivit pentru
pregtirea n vederea tipririi n cri)
- din grupul Chart Layout alegem layout 3; completm titlul; chartul este gata;
- Interpretare: fiecare coloan are numrul persoanelor din grupa sanguin;
coloanele au 2 segmente: brbai i femei.
Subtema 1d: histogram 2 variabile varianta 2
- Procedeu
- se selecteaz din tabel-1 din nou poriunea a2:e4
- din bara standard se alege tab Insert, grup Charts, icon Column;
- din seciunea 3-D Column alegem al treilea icon (100% Stacked Column, coloane
separate pe grupe sanguine, dar suprapuse pentru sexe diferite);
- din grupul Data selectm Switch Row/Column vom avea 2 coloane n loc de 4;
acum coloanele sunt pe sexe, iar poriunile din ele reprezint procentul
corespunztor fiecrei grupe sanguine;
- continum procedura standard: din grupul Chart Style alegem acum style 8, iar din
grupul Chart Layout alegem layout 4;
- Interpretare: 2 coloane brbai i femei, fiecare avnd n % grupele sanguine.
Subtema 1e: histogram 2 variabile varianta 3
- Procedeu
- se selecteaz din tabel-1 din nou poriunea a2:e4
153
Biostatistica
- din bara standard se alege tab Insert, grup Charts, icon Column;
- din seciunea 3-D Column alegem al patrulea icon (3-D Column, coloane
separate pe grupe sanguine i pe sexe);
- continum procedura standard: grup Chart Style - style 2, grup Chart Layout
layout 7;
- Interpretare: 2 serii (brbai i femei) a cte 4 coloane (grupele sanguine), pe
fiecare coloan este reprezentat numrul de subieci.
154
Gheorghe Ioan Mihala, Diana Lungeanu
- selectm csua F3
- n bara de inserare comenzi introducem: = d3/100;
- copiem formula pe toat coloana F (de la f3:f62) (revedem comenzile Ctrl + C
pentru Copy i Ctrl + V pentru Paste)
- selectm G3
- introducem comanda: = e3 / (f3 * f3)
- copiem formula de la g4:g62
- dorim afiarea BMI cu dou zecimale: selectm coloana G (cu mouse), apoi din
bar, tab Home, grup Cells, apare pop-up i selectm Format Cells; apare o
fereastr, cu meniu cu 6 tab-uri; selectm Number, iar din pop-up-ul care se
deschide alegem Number, apoi la decimal places, din sgei alegem "2" i OK,
- dorim evidenierea copiilor subponderali, normali, supraponderali i obezi prin
culori diferite pe tabel. (Limitele ntre categoriile de mai sus sunt pentru copiii de
10 ani: 14.2, 19.4 i 22.1). Selectm prima celul din coloana BMI (adic g3), apoi,
n bar, la tab Home, grupul Styles, icon-ul Conditional Formatting apare un
meniu pop-up; selectm Highlight Cell Rules; lateral apare nc un meniu cu lista
de condiii: Greater than >, Less than <, Between, etc.; alegem nti "Greater than";
se deschide o fereastr n care putem completa o valoare vom pune limita
superioar 22.1, peste care interpretm obezitatea, apoi la condiie alegem "Light
Red Fill with Dark Red Text" / OK; rmnem selectai pe g3 i relum Conditional
Formatting / Highlight Cell Rules, acum lum "Between" i vom introduce limitele
19.4 i 22.1, cu "Light Yellow Fill with Dark Yellow Text" / OK; vom mai alege
"Green ..." pentru intervalul normal 14.2 19.4 i simplu "Red text" pentru
subponderali, adic sub 14.2. Valoarea noastr va ndeplini una din condiii; cnd
condiia este ndeplinit se va vedea culoarea n celul; dup introducerea tuturor
condiiilor, selectm din nou celula g3 i cu Copy (sau Ctrl+C) vom copia
condiiile pe toat coloana G n jos. Vom folosi copierea special din Home /
Clipboard / Paste / Paste Special / Formats, altfel copiaz i valorile. Vom vedea
culorile alese condiionat, n funcie de valori, n celulele corespunztoare.
- Interpretare: apare coloana ntreag BMI cu dou zecimale, colorat astfel nct ies
n eviden cele 4 clase n funcie de valoarea BMI.
155
Biostatistica
156
Gheorghe Ioan Mihala, Diana Lungeanu
- Procedeu
- avem pe coloanele I i J parametrii statistici calculai n Tema 3a.
- pe coloana L vom crea limitele pentru prima histogram
- selectm L2, introducem valoarea cu limea clasei (1 n cazul nostru)
- selectm L3, introducem o valoare pentru limita din dreapta a primei clase; dac
dorim s avem clasele centrate pe valori ntregi sau rotunde (n cm), vom lua pentru
limite jumti de unitate pentru noi, avnd Minimum 128.2 (din tabelul obinut
n subtema 3a) vom lua ca prim valoare 128.5;
- dorim s incrementm aceste limite bin cu limea clasei la fiecare pas, deci
completm coloana L n jos astfel:
L4 = L3 + L$2 (am fixat pasul de incrementare)
copiem L4 n jos nct s acoperim valoarea maxim (149.5 n cazul
nostru); putem s i depim valoarea, ns ulterior vom folosi doar
intervalul ce acoper datele reale;
- din bar tab Data / grup Analysis / icon Data Analysis / Histogram / OK,
- input range: D3:D62 (unde sunt datele de reprezentat),
- bin range: L3:L5 (unde am creat limitele),
- putem vizualiza graficul chiar n acest worksheet; lum output range "N2",
- bifm chart output, apoi OK;
- apare tabelul de valori n clase i histograma; graficul poate fi "mrit", prin "drag"
cu mouse-ul;
- pregtim n final histograma cu date suplimentare (titlu, axe etc).
- Interpretare: tabelul afiat n stnga histogramei conine numrul de copii din
fiecare clas de nlime cu limea de 1 cm. Prima clas are marginea superioar
valoarea din coloana bin, adic 128.5, deci cuprinde toate valorile pn la 128.5
inclusiv. Observm tendina central, ns histograma are "numeroi dini", datorit
claselor prea nguste. Vom putea compara acest grafic cu urmtorul, pe care l
realizm cu limea adecvat.
Subtema 4b: crearea histogramelor cu lime optim
- Procedeu
- calculul limii optime
- pregtim datele ntr-o zon convenabil, de ex sub tabelul creat n subtema 3a (n
cazul n care am ales pentru output range csua I3 i am salvat tabelul; n acest caz
avem valoarea maxim n J15, cea minim n J14 i N n J17; dac tabelul creat la
Descriptive Statistics nu a fost salvat, relum crearea lui:
- Data / Analysis / Data Analysis / Descriptive Statistics / OK,
- n fereastr selectm:
input range: d2:d62
grouped by: Columns
bifm labels
output range:i3
bifm summary statistics
- Dac tabelul creat la Descriptive Statistics a fost salvat n alt parte, trebuie
schimbate corespunztor referinele din relaiile de mai jos:
J30 = log10 (J17)
J31 = 1 + 3.322 * J30
J32 = (J15 J14) / J31
157
Biostatistica
- valoarea din J32 (3.083 n cazul nostru) se rotunjete (la 3 n cazul nostru) i se
introduce n L30 s reprezinte limea clasei,
- pe coloana L vor apare noile valori bin pentru clase de cte 3 cm. Dac dorim s
avem mijlocul clasei o valoare rotund, este cel mai bine s ne orientm dup o
valoare central; n cazul nostru avnd media la 139,3 cm (rotund 139), vom avea
centrale din 3 n 3 cm, n sus i n jos, deci 139; 136; 133; 130; 127 etc. Pentru
centru n 127 vom avea limita superioar la 128,5 cm, deci vom pune aceast
valoare n L31, apoi L32 = L31+L$30; obinem limitele dorite n coloana L31:L39
(pentru Bin Range n fereastra ce se deschide la Histogram);
- mai departe procedm ca la histograma precedent, alegnd la output range N30
(pentru alinierea datelor).
- Interpretare: tabelul afiat n stnga histogramei conine numrul de copii din
fiecare clas de nlime cu limea de 3 cm. Pe grafic se observ o ncadrare mult
mai bun i dispariia "dinilor".
158
Gheorghe Ioan Mihala, Diana Lungeanu
- Procedeu
- deschidem worksheet-ul teste;
- selectm coloana A (sex),
- cu Data / Sort & Filter / Filter, prelum pe rnd:
datele pentru brbai: selectm M (debifm celelalte) i copiem (Ctrl+C)
datele rmase vizibile din coloana Sys-1, datele selectate sunt acum n
memoria clipboard a calculatorului;
- crem un nou worksheet (Home / Cells / Insert / Insert Sheet) n care vom pune
datele brbailor n coloana A i ale femeilor n B:
n A1 scriem M, n B1 scriem F
copiem valorile din clipboard din A2 n jos (click pe A2, apoi Ctrl+V)
revenim n worksheet "teste"
n butonul de filtru debifm M i bifm F, apoi copiem valorile coloanei
Sys-1 n noul worksheet, din B2 n jos (coloanele pot avea lungimi
diferite!)
- din bar, tab Data / grup Analysis / icon Data Analysis / t Test: Two Sample
Assuming Unequal Variances (ulterior, dac vedem c varianele sunt apropiate,
putem relua pentru Equal Variances)
- coloanele sunt a1:a28 i b1:b34, cu Labels,
- lum output range d2
- din Tools / Data Analysis / t test: Two Sample Assuming Unequal Variances /
OK
- obinem un tabel similar cu tabelul 4.2.a din cap. 4.2.1.2,
- putem n final denumi noul worksheet "teste2".
- Interpretare: n tabelul afiat valoarea din csua "P(T<=t) two-tail", este acum
0.91, mult peste 0.05, deci diferenele sunt nesemnificative.
Subtema 5c:
- Procedeu
- Se deschide worksheet chi-sq
- Presupunem o distribuie uniform a persoanelor pe grupe sanguine, atunci valorile
ateptate (csuele b4 : e4) se pot calcula cu relaia = totalgeneral / 4 = $F$3 / 4
- Pentru calculul valorilor ateptate n tabelul "exp.1", facem nti totalul pentru linia
"observed":
- clic pe f3, apoi Formulas / Function Library / AutoSum / Sum / B3:E3 / Enter
- clic pe b4, apoi "= $f$3/4" i copiem formula din b4 n c4:e4.
- Pentru aplicarea testului
selectm csua de rezultat (i3)
selectm funcia fx; se deschide fereastra "Insert Function"
pe linia "Select a category" alegem "All" sau "Statistical", apoi din
fereastra mai larg de dedesubt alegem CHITEST /OK,
apare fereastra Function Arguments n care lum:
- actual_range (se refer la valori experimentale, adic b3:e3 // va fi b8:e8 n tabelul
exp.2)
- expected_range (se refer la valori teoretice; atunci lum b4:e4, respectiv b9:e9
pentru tabelul de jos)
- Interpretare: apare valoarea lui p (0,000828) < 0,001 deci vom avea diferene
extrem de semnificative ntre valorile experimentale i cele teoretice; deci vom
respinge ipoteza de zero H0.
159
Biostatistica
- Repetm toate operaiunile pentru un lot mult mai mic (tabelul exp.2), dar pstrnd
proporiile observm c, n cazul loturilor mici, diferenele nu mai sunt
semnificative (acum avem p = 0.644), dei proporiile claselor sunt aceleai.
160
Gheorghe Ioan Mihala, Diana Lungeanu
161
Biostatistica
162
Gheorghe Ioan Mihala, Diana Lungeanu
Range: d3:d:162
Criteria: TRUE / ok
- apare valoarea corespunztoare (32 n cazul nostru)
Varianta 3
- Procedura
O metod care poate fi folosit n toate situaiile n care dorim construirea unui
tabel de contingen 2 x 2 pornind de la date dihotomice trecute n dou coloane const
n transformarea reprezentrii n cele dou coloane astfel:
- o coloan s conin numai valori 0 i 1 pentru NU (-) i DA (+)
- cealalt coloan s conin numai valori 0 i 2 pentru NU (-) i DA (+).
Astfel, prin suma pe linii obinem segregarea celor 4 variante:
NU & NU devine 0 + 0 = 0
DA & NU devine 1 + 0 = 1
NU & DA devine 0 + 2 = 2
DA & DA devine 1 + 2 = 3.
Deci, dac din coloana de sum (o vom numi Sum Ponderat) numrm ci de 0,
1, 2 sau 3 avem, obinem exact cele 4 csue din tabelul de contingen.
De fapt nici nu este nevoie s crem separat coloana a doua cu 0 i 2, ci o lsm tot
cu 0 i 1 iar n sum s lum valoarea din coloana a doua nmulit cu 2, adic vom
calcula:
suma = col.1 + 2 * col.2
Vom proceda astfel:
- prima coloan 0/1 este B i corespunde E+/E-
- a doua coloan 0/1 este C, creat n punctul (b) din Varianta 1 i corespunde B+/B-
- crem coloana E cu suma ponderat (SP) a valorilor din B i C
- astfel pentru E3 lum = B3 + 2 * C3
- copiem E3 n jos, de la E4:E162
n risc2 putem reconstrui tabelul de contingen n aria a6:d9, cu aceleai notaii.
Interpretare: Am obinut coloana E cu urmtoarele proprieti:
dac are valoarea 0, pacientul este e- i b- (csua c3 sau c8 din risc 2)
dac are valoarea 1, pacientul este e+ i b- (c2 / c7)
dac are valoarea 2, pacientul este e- i b+ (b3 / b8)
dac are valoarea 3, pacientul este e+ i b+ (b2 / b7).
- folosim funcia COUNTIF de 4 ori, de fiecare dat avnd Range risc!$E$3:$E$162,
direct n risc 2, preciznd c:
dac punem criteria = 0 obinem valoarea din c3 (sau c8) etc.
- completm tabelul cu totaluri.
Subtema 7b: calculul indicatorilor
- Procedura
- Folosim pachetul statistic Epi Info
- Din meniul principal selectm Utilities,
- Selectm Statcalc,
- Completm tabelul (n cazul nostru avem 32 i 44 respectiv 4 i 80)
163
Biostatistica
164
Gheorghe Ioan Mihala, Diana Lungeanu
165
Biostatistica
166
Gheorghe Ioan Mihala, Diana Lungeanu
167
Biostatistica
- Interpretare: apare coloana ntreag BMI cu 2 zecimale, colorat astfel nct ies n
eviden cele 4 clase n funcie de valoarea BMI.
168
Gheorghe Ioan Mihala, Diana Lungeanu
Modul de lucru
Tema are 3 pri distincte, asemntoare, una pentru testul t pereche i una pentru
testul t nepereche, ultima pentru testul chi-sq.
Subtema 5a: testul t pereche
Vom aplica testul t pereche pentru a compara diferenele ntre tensiunile sistolice
nainte i dup tratament.
- Procedeu
- din Tools / Data Analysis / t Test: Paired Two Samples for Means
- n fereastra deschis alegem:
variable 1 range: b2:b62
variable 2 range: c2:c62
hypothesized mean difference: 0 (sau lsm necompletat)
bifm labels (avem n b2 i c2)
lsm Alpha 0.05
selectm output (de ex g2)
- apare tabelul de forma celui din cap. 4.2.1.3, tabelul 4.2.b
- Interpretare: n tabelul afiat apar multe date de interes: mediile celor dou serii,
varianele (variana este ptratul deviaiei standard), cea mai de interes valoare fiind
cea din csua "P(T<=t) two-tail", care este 0.0356 (sub 0.05), deci indic o
diferen semnificativ.
Subtema 5b: testul t nepereche
Vom aplica testul t nepereche pentru a compara tensiunea sistolic nainte de
tratament la brbai, comparativ cu femei.
- Procedeu
- deschidem worksheet teste
- selectm coloana A (sex)
- cu Data / Filter / Autofilter, prelum pe rnd:
datele pentru brbai, selectnd M i copiind din coloana S 7s-1 datele ntr-
un nou worksheet n coloana A de la A2 n jos; n A1 scriem M
datele pentru femei, similar n coloana B de la B2 n jos; n B1 scriem F.
- alegem Tools / Data Analysis / t test: Two Sample Assuming Unequal Variances
- obinem un tabel similar cu tabelul 4.2.a din cap. 4.2.1.2
- putem n final denumi noul worksheet "teste2".
- Interpretare: n tabelul afiat valoarea din csua "P(T<=t) two-tail", este acum
0.91, mult peste 0.05, deci diferenele sunt nesemnificative.
Subtema 5c: testul hi ptrat
- Procedeu
- Se deschide worksheet chi-sq
- Completm n tabele totalul;
- Pentru valorile ateptate (expected) presupunem o distribuie uniform a
persoanelor pe grupe sanguine, atunci valorile ateptate (csuele b4:e4) se pot
calcula cu relaia = total / 4; deci clic pe b4, apoi = $F$3 / 4 i copiere n celelalte.
- Pentru calculul testului:
selectm csua de rezultat (i3)
170
Gheorghe Ioan Mihala, Diana Lungeanu
171
Biostatistica
172
Gheorghe Ioan Mihala, Diana Lungeanu
173
Biostatistica
174
Gheorghe Ioan Mihala, Diana Lungeanu
tabel-2 O A B AB Total
13 18 8 11
WS2: par-st
Descriere worksheet
Date din studiul dezvoltarea somatic a copiilor n vrst de 10 ani, pe un lot
de 60 de copii.
Structura:
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:62 date,
- coloana A nr. crt. (1- 60),
- coloana B iniiale (2 litere) necompletat,
- coloana C sex (M sau F),
- coloana D nlimea n cm (cu 1 zecimal),
- coloana E greutatea n kg (cu 1 zecimal),
- coloana F indice de greutate corporal [necalculat va fi calculat n lucrrile
practice].
175
Biostatistica
Dezv.copii 10 ani
nr init sex inalt greut nr init sex inalt greut
1 F 140.5 39.8 31 M 142.9 30.2
2 F 140.6 40.3 32 M 141.5 30.1
3 M 139.5 30.9 33 M 141.1 25.5
4 F 137.7 35.3 34 M 139.0 29.5
5 M 138.3 29.5 35 F 136.6 40.6
6 M 134.5 28.5 36 F 149.5 33.3
7 M 135.1 24.5 37 F 134.5 34.1
8 M 134.2 31.5 38 M 142.8 31.6
9 F 138.3 34.2 39 F 144.1 36.6
10 F 139.3 37.5 40 F 139.6 34.1
11 F 130.8 39.4 41 M 141.4 32.9
12 F 137.1 35.5 42 F 143.3 33.9
13 M 137.5 29.2 43 F 132.7 38.9
14 M 141.2 32.6 44 F 144.6 35.5
15 M 139.4 31.3 45 M 142.5 28.3
16 M 134.3 31.6 46 M 143.2 29.8
17 M 146.4 27.9 47 F 139.7 34.8
18 M 139.6 32.5 48 M 139.3 29.3
19 M 140.5 29.7 49 M 138.9 30.9
20 F 142.8 34.5 50 F 139.0 34.9
21 M 128.2 31.6 51 F 146.0 35.0
22 M 136.1 23.8 52 M 139.8 32.7
23 M 141.6 32.6 53 M 138.0 31.6
24 M 135.8 28.7 54 F 140.7 33.9
25 F 134.8 40.8 55 F 140.9 40.2
26 M 144.9 32.9 56 M 133.6 26.2
27 M 146.0 31.1 57 F 135.9 33.5
28 F 137.8 37.5 58 M 137.6 29.0
29 M 140.4 29.8 59 M 143.6 31.4
30 M 137.9 32.9 60 M 137.7 27.3
176
Gheorghe Ioan Mihala, Diana Lungeanu
WS3: teste
Descriere worksheet
Date din studiul privind efectul unui tratatament cu un antihipertensiv asupra
tensiunii arteriale, efectuat pe un lot de 60 subieci.
Structura
liniile 1, 2 labels (titlul i capul de tabel),
liniile 3:62 date,
coloana A: sexul,
coloanele B i C: tensiunea sistolic nainte i dup de tratament,
coloanele D i E: tensiunea diastolic nainte i dup de tratament.
Tensiune arteriala
sex Sys-1 sys-2 Dia-1 dia-2 sex Sys-1 sys-2 Dia-1 dia-2
M 150 158 83 89 F 130 148 66 70
F 176 146 113 108 F 164 139 105 98
F 156 125 89 90 F 119 181 58 59
F 164 174 98 96 M 152 149 84 89
M 158 159 97 99 F 134 153 72 68
F 162 148 101 99 M 149 157 87 83
M 150 138 89 86 M 168 142 99 102
F 173 136 110 112 F 154 151 89 90
F 153 162 88 86 M 145 145 84 80
F 180 140 112 119 M 176 142 112 114
F 154 170 85 91 F 168 153 101 105
F 167 136 101 99 F 159 158 95 93
F 169 130 102 109 M 178 134 116 111
F 136 164 77 67 F 166 161 103 97
M 177 174 115 117 F 193 153 130 126
F 166 157 98 98 F 165 137 98 105
M 145 149 79 79 F 159 156 98 98
M 153 163 87 93 F 160 142 94 97
F 131 131 72 68 M 188 158 126 124
M 145 148 76 81 M 157 159 93 89
M 180 164 119 115 M 183 127 122 122
M 157 153 90 93 M 160 166 100 95
M 171 159 104 104 M 155 143 94 88
M 136 156 71 75 F 204 131 140 136
M 139 152 74 80 M 127 178 67 63
F 128 163 64 60 F 157 134 88 94
F 186 146 120 126 F 132 139 70 66
F 166 175 98 98 M 147 153 84 88
F 159 161 91 96 F 142 162 81 80
M 172 142 108 111 M 149 156 87 88
177
Biostatistica
WS4: val-dg
Descriere worksheet
Evaluarea unui test de sarcin efectuat pe un lot de 120 femei.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:122 date,
- coloana A nr. crt,
- coloana B rezultatul testului, nott cu + i - ,
- coloana C situaia real privind confirmarea sarcinii, notat la fel.
Test sarcina
nr. Rz Cf nr. Rz Cf nr. Rz Cf nr. Rz Cf
1 - - 31 + + 61 + - 91 + -
2 + + 32 - + 62 - - 92 + -
3 + - 33 + + 63 - + 93 - +
4 - + 34 - - 64 + - 94 + +
5 + + 35 + - 65 + + 95 + +
6 + + 36 + - 66 + + 96 + +
7 + - 37 - - 67 + + 97 + -
8 - + 38 + + 68 + - 98 - -
9 + + 39 - + 69 + + 99 - +
10 + - 40 + + 70 + + 100 + +
11 + + 41 + + 71 + + 101 + +
12 + - 42 + + 72 + - 102 + +
13 - + 43 + + 73 + + 103 + +
14 + + 44 + + 74 + + 104 + +
15 + - 45 + + 75 + - 105 + -
16 - - 46 + + 76 + + 106 - -
17 + + 47 + + 77 + + 107 + +
18 + + 48 + + 78 + + 108 + +
19 + + 49 + + 79 + + 109 + +
20 + - 50 + + 80 + + 110 + -
21 - - 51 + + 81 + - 111 + +
22 + - 52 + + 82 + - 112 + -
23 + - 53 + + 83 - - 113 + +
24 - - 54 + - 84 - + 114 + +
25 - + 55 - + 85 + + 115 + -
26 + + 56 + - 86 + + 116 - +
27 + - 57 + - 87 + + 117 + +
28 - - 58 + + 88 + + 118 + +
29 + - 59 + - 89 + - 119 + +
30 - + 60 + - 90 - + 120 + +
178
Gheorghe Ioan Mihala, Diana Lungeanu
WS5: risc
Descriere worksheet
Date din studiul evaluarea riscului produs de fumat asupra tensiunii arteriale (risc
de hipertensiune); studiu transversal pe 120 persoane.
Structura
- liniile 1, 2 labels (titlul i capul de tabel), liniile 3:162 date,
- coloana A: tensiunea arterial sistolic,
- coloana B: fumtor DA / NU, notat cu 1/0 (1 = DA, 0 = NU).
Risc: OR, RR
TA Fm TA Fm TA Fm TA Fm TA Fm
123 0 148 1 146 1 141 1 121 0
133 1 123 0 115 1 141 1 127 0
124 0 145 1 111 0 119 0 139 0
128 1 134 1 131 0 112 0 115 0
138 1 122 0 135 0 164 0 124 0
134 1 153 1 129 0 131 0 128 0
123 0 112 1 118 1 149 1 126 1
97 0 125 1 115 0 139 0 139 0
132 0 135 0 128 1 116 1 117 0
159 1 117 1 107 0 122 0 114 0
118 0 142 1 141 1 117 1 132 0
139 0 134 0 127 0 120 0 152 1
107 1 112 1 165 1 143 1 122 0
123 0 118 0 132 0 120 1 123 1
120 0 120 1 116 0 126 0 120 1
146 1 131 0 146 1 148 1 154 1
135 1 127 0 114 1 145 1 143 1
166 1 126 1 130 0 125 0 129 0
127 1 146 0 137 0 116 0 109 1
126 0 121 0 113 0 124 1 106 0
129 0 132 0 114 0 128 0 118 0
122 0 136 1 148 1 142 1 120 1
160 1 129 0 153 1 111 1 135 0
112 0 93 0 129 1 130 0 125 1
148 1 129 0 171 1 139 0 107 1
119 0 132 1 109 0 121 0 116 1
119 0 130 1 113 0 149 1 162 1
140 0 134 0 134 1 137 0 131 1
123 0 124 0 122 0 133 1 124 1
147 1 95 0 127 1 111 1 91 1
151 0 134 1 121 0 123 0 156 1
138 1 164 1 142 1 122 0 91 0
179
Biostatistica
WS6: chi-sq
Descriere worksheet
Date din studiul distribuia grupelor sanguine. n exp.1 sunt datele pe un lot de 240
persoane, iar n exp.2 pe un lot de 10 ori mai mic, cu exact aceleai proporii ale
grupelor sanguine.
Structura
- liniile 1, 2, 7 labels (titlul i capul de tabel),
- linia 3 i 8 date observate,
- linia 4 i 9 date ateptate (teoretice), [necalculate vor fi calculate n lucrrile
practice],
- coloana A i H labels,
- coloanele B E: date pe grupele 0, A, B, AB,
- coloana F total [necalculat va fi calculat n lucrrile practice],
- coloana I valoarea lui p din testul chi-square.
Grupe sanguine
exp.1 0 A B AB
observed 50 80 40 70 p(chi-sq)
expected
exp.2 0 A B AB
observed 5 8 4 7 p(chi-sq)
expected
WS7: regr
Descriere worksheet
Date din studiul dezvoltarea somatic a copiilor n vrst de 10 ani, pe un lot de 40
copii.
Structura
- liniile 1, 2 labels (titlul i capul de tabel),
- liniile 3:42 date,
- coloana A nlimea n cm, fr zecimale,
- coloana B greutatea n kg, cu 1 zecimal.
Date copii
inalt greut inalt greut inalt greut inalt greut
140 33.2 139 33.4 127 30.0 137 32.9
138 30.4 147 35.7 128 29.4 147 35.2
132 32.1 138 32.8 134 30.4 134 32.9
144 32.4 139 31.9 130 29.5 135 33.3
140 34.5 132 29.7 142 33.3 134 29.8
136 30.9 128 30.1 139 32.9 137 31.9
139 33.9 137 32.0 137 33.5 136 30.4
145 33.4 137 31.0 131 32.1 142 34.8
141 32.9 133 30.1 134 32.7 137 31.4
132 30.7 141 34.5 136 30.6 144 31.9
180
Gheorghe Ioan Mihala, Diana Lungeanu
Anexa 2 Rezultate
n aceast anex sunt prezentate rezultatele sub form de imagini (capturi de
ecran) obinute urmrind protocoalele de lucru ale lucrrilor practice. Cu mici excepii,
ele arat la fel, fie c s-a lucrat n Excel 2007 sau 2003.
Rezultatele nu sunt comentate aici. Pentru aceasta urmrii rubrica de Interpretare
din fiecare lucrare, la fiecare subtem.
181
Biostatistica
182
Gheorghe Ioan Mihala, Diana Lungeanu
183
Biostatistica
184
Gheorghe Ioan Mihala, Diana Lungeanu
185
Biostatistica
186
Gheorghe Ioan Mihala, Diana Lungeanu
187
Biostatistica
188
Gheorghe Ioan Mihala, Diana Lungeanu
189
Biostatistica
190
Gheorghe Ioan Mihala, Diana Lungeanu
BIBLIOGRAFIE
Adkins DC. Statistics. An Introduction for Students in the Behavioral Sciences. Charles
E Merrill Books, Columbus Ohio, 1964
Altman DC. Practical statistics for medical research. Chapman&Hall/CRC, Boca
Raton, 1999
Armitage P., Berry G. Statistical methods in medical research (2nd Ed.). Blackwell
Scientific Publications, Oxford, 1987
Campbell MJ., Machin D. Medical Statistics. A Common Sense Approach. Chichester:
John Wiley & Sons, 1993
Colton T. Staistics in Medicine. Littele, Brown & Co, Boston Mass, 1974
Daniel WW. Biostatistics: a Foundation for Analysis in the Health Sciences.
Chichester: John Wiley & Sons, 1999
Glaser AN. High-Yield Biostatistics. Baltimore: Williams & Wilkins, 1995
Gordis L. Epidemiology (3rd ed). Philadelphia: Elsevier-Saunders, 2004
Ingelfinger JA., Mosteller F., Thibodeau LA., Ware JH. Biostatistics in Clinical
Medicine. MacMillan Publ Co,New York, 1983
Knapp RG., Clinton Miller M. Clinical epidemiology and biostatistics. Williams &
Wilkins, Baltimore, 1992
Lang TA., Secic M. How to Report Statistics in Medicine. Philadelphia: American
College of Physicians, 1997
Lindsay JK. Nonlinear Models in Medical Statistics. Oxford: Oxford University Press,
2001
Lungeanu D., Mihala GI. Informatic Medical i Biostatistic. Eurobit, Timioara,
2008
Michelson S., Schofield T. The Biostatistics Cookbook. Dordrecht NL: Kluwer Acad.
Publ., 1996
Milton JS. Statistical Methods in the Biological and Health Sciences. New York: Mc
Graw-Hill, 1992
Moon G., Myles G. Epidemiology: an Introduction. Buckingham: Open University
Press, 2000
Murphy E A. A Companion to Medical Statistics. Baltimore: Johns Hopkins Univ.
Press, 1985
Pagano M, Gauvreau K. Principles of Biostatistics. Belmont CA: Wadsworth Publ Co.,
1993
Parker RE. Introductory Statistics for Biology (2nd ed). Baltimore: University Park
Press, 1979
Quinn GP., Keough MJ. Experimental Design and Data Analysis for Biologists.
Cambridge: Cambridge Univ. Press, 2002
Sheskin DJ. Handbook of parametric and nonparametric statistical procedures (3rd
Ed.). Chapman & Hall/CRC, Boca Raton, 2004
191
Biostatistica
192