Sunteți pe pagina 1din 8

MG - Lucrarea practic 7 2014/2015

UMF Carol Davila Informatic Medical i Biostatistic

Lucrarea practic 7
Indicaii generale:
Afirmaii de tipul fumatul este asociat cu decesul timpuriu, dup un prim atac de
cord, fcute n urma comparrii unor proporii calculate cu date obinute din eantioane
reprezentative, pot fi confirmate statistic prin teste hi ptrat (care n asemenea situaii
sunt considerate ca teste de semnificaie statistic, i nu ca teste de bonitate).
Aplicaiile statistice (SPSS, Epi Info, ) au evident implementate module pentru
efectuarea direct a calculelor necesare. Dar rezultatele pot fi obinute i cu ajutorul
aplicaiei Excel, controlnd n mod corespunztor desfurarea calculelor.
n aceast lucrare practic:
a) vei exersa modul de obinere a tabelelor de contingen din datele primare,
att n Excel, ct i n FoxPro;
b) vei aplica teste Z i hi ptrat pe tabele de contingen simple;
c) vei nva s lucrai cu comanda TABLES din acest modul, comand dedicat
obinerii tabelelor de contingen i a rezultatelor conexe.
d) vei exploata funcia RAND pentru a obine un eantion aleator,
e) vei folosi Excel pentru a obine o curb ROC.
Teme
32: tabele de contingen n Excel
33: testul hi ptrat n Excel
34: comanda TABLES n Epi Info
35: extragerea eantioanelor aleatoare
special: obinerea curbei ROC n Excel
Softul ce va fi utilizat n lucrarea practic:
Epi Info

116

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 7 2014/2015

Tema 32: tabele de contingen n Excel


Riscul apariiei unei maladii (sau riscul de deces) este raportul ntre numrul de
evenimente ce apar ntro perioad de timp specificat (de obicei un an) i numrul de
indivizi luai n considerare (respectiv aflai n via) la nceputul perioadei.
Tabelul urmtor, ntocmit pentru compararea riscurilor, conine date privind mortalitatea
la doi ani dup primul atac de cord suferit de fumtori. (Sursa: Daly, Bourke and McGilvray,
pag. 184.)
Supravieuirea la 2 ani
Total
decedai
n via
au continuat s fumeze
19
135
154
n-au mai fumat
15
199
214
Total
34
334
368
Acesta este un exemplu tipic de tabel de contingen (de tipul 2 2, adic dou linii, dou
coloane), bordat cu o linie i o coloan a totalurilor.
Datele primare nu se prezint ns n acest fel. Preluai fiierul LP07_1.xls pentru a vedea
cum sunt nregistrate datele primare. Dac deschidem fiierul cu Excel, atunci vom folosi de
patru ori (pe patru coloane) nsumarea rezultatelor date de funcia logic IF, condiiile
logice fiind de forma AND(C2=FALSE,D2=TRUE) i analoagele.
Preluai cele 368 de nregistrri pe o prim foaie de calcul a fiierului nume_CALCULE,
foaie pe care o vei denumi Primare.
Creai tabelul de mai sus pe a doua foaie de calcul, de exemplu n domeniul A1:D5
(avnd grij s denumii aceast foaie de calcul Conting)
Calculai n coloana E rata deceselor. (Astfel, pentru ntreg lotul de pacieni, n celula E5
vom plasa formula =B5/D5 i vom obine rata de 9.24%; pentru cei ce au continuat s
fumeze, n celula E3 vom plasa formula =B3/D3 i vom obine rata de 12.34%, iar pentru
cei ce n-au mai fumat, n celula E4 vom obine rata 7.01%. Evident, ar fi de dorit s plasai
n celula E2 un text explicativ, ca de exemplu Rata deceselor)
Se va observa o cretere a ratei deceselor n cazul celor ce au continuat s fumeze,
comparativ cu cazul celor care n-au mai fumat. Oare aceast cretere este semnificativ?
Pentru a rspunde la ntrebri de acest fel va fi obligatoriu s precizm nivelul de
semnificaie, altfel rspunsurile sunt lipsite de coninut.
S alegem nivelul de semnificaie uzual
0.05 . Afirmaia c fumatul este ASOCIAT
CU decesul timpuriu, dup un prim atac de cord poate fi confirmat (dar nu respins!) cu
ajutorul unui test de semnificaie bazat pe acest nivel de semnificaie i pe o anumit
distribuie hi-ptrat (anume cea cu un singur grad de libertate). Pragul ce trebuie depit
pentru a putea confirma afirmaia este obinut n Excel cu ajutorul formulei
=CHIINV(0.05, 1)
i va avea valoarea aproximativ 3.84. Oare este el depit?
Atenie, apelnd funcia CHIINV ni se ofer explicaii detaliate n caseta de folosire a
funciei. (ntrebare: este confirmat afirmaia?)
Afirmaia c fumatul este O CAUZ A decesului timpuriu, dup un prim atac de cord
poate fi confirmat cu ajutorul unui alt test de semnificaie bazat pe nivelul de semnificaie
ales i pe o anumit distribuie, normal standard de data aceasta. Pragul ce trebuie depit
pentru a putea confirma afirmaia este obinut n Excel cu ajutorul formulei
=NORMSINV(10.05)
i va avea valoarea aproximativ 1.64. Oare este el depit?

117

MG - Lucrarea practic 7 2014/2015

UMF Carol Davila Informatic Medical i Biostatistic

Vom ncerca s confirmm ultima afirmaie (este cauz) prin efectuarea unui test de
semnificaie. Compararea celor dou populaii, anume a celor care n-au mai fumat,
respectiv a celor care au continuat s fumeze se va face la nivelul proporiilor riscurilor de
deces.
Ipoteza nul, pe care ncercm s o respingem n urma efecturii testului de
semnificaie, este urmtoarea
1

i ea exprim faptul c cele dou proporii nu difer semnificativ una de alta. Ipoteza
alternativ, pe care o vom accepta dac vom reui respingerea ipotezei nule, este urmtoarea:
1
2.
Evident, ea exprim faptul c riscul de deces este mai mare pentru cei care continu s
fumeze.
Proporiile riscurilor de deces sunt estimate prin frecvenele relative observate,
p1 0.1234 , p2 0.0701, calculate pe baza datelor din eantioane. Ele sunt n concordan
cu ipoteza alternativ!
(Este important s facem aceast observaie! Cci n cazul n care frecvenele relative
observate nu erau n concordan cu ipoteza alternativ, am fi confirmat o alt afirmaie!)
Avem nevoie i de riscul de deces pentru ntreaga populaie, uor de calculat
p

n2

34
368

9.24% . De asemenea, trebuie s reinem i volumele eantioanelor, n1

154 ,

214 .
Statistica pe care o folosim este z

p2

p1

1
p(1 p)
n1

iar valoarea obinut o vom

1
n2

compara cu valoarea prag z corespunztoare nivelului de semnificaie


ales. Mai precis,
vom putea respinge ipoteza nul doar dac vom constata c z z .
S ne alegem un nivel de semnificaie
0.01. Valoarea prag z va fi obinut n Excel
prin formula
=NORMSINV(0.99)
plasat ntro celul oarecare. (Atenie, 0.99 este 1
.) Ar trebui s o gsim 2.326.
Copiai ntreaga foaie de calcul Conting ntro foaie nou, denumit ZTest. Plasai aici
n celula E2 inscripia Frecvene relative iar dedesubt afiai coninutul celulelor cu 4
zecimale (numeric, nu n procente).
Plasai n celula A7 inscripia Nivelul de semnificaie, iar n celula B7 numrul 0.01. n
continuare, plasai n celula C7 inscripia Valoarea prag, iar n celula D7 formula
=NORMSINV(1-B7)
De asemenea, plasai n celula E7 inscripia Valoarea statisticii, iar n celula F7
formula de calcul:
=(E3-E4)/SQRT(E5*(1-E5)*(1/D3+1/D4))
n sfrit, n celula A8 plasai, aliniat la stnga, formula logic:
=IF(F7>D7,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificai acum nivelul de semnificaie, n celula B7, la 0.05. Ce se ntmpl?
Ar trebui, cu nivelul de semnificaie de 5%, s tragei concluzia c fumatul n continuare
are efect negativ asupra ratei de supravieuire a pacienilor ce au suferit un atac de cord.

118

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 7 2014/2015

Totui, cu nivelul de semnificaie mai mic, de doar 1%, aceast concluzie nu mai este
susinut de datele din eantioane.
Putem afla oare nivelul de semnificaie limit pentru care concluzia este susinut de
datele din eantioane?
Plasai n celula A9 inscripia Valoarea p (riscul acceptrii ipotezei alternative), iar n
celula B9 formula
=1-NORMSDIST(F7)
Ar trebui s obinei 4.08%.
Copiai acum ntreg coninutul foii de calcul ZTest n alt foaie de calcul, pe care o vei
redenumi Gripa.
Modificai aici coninutul tabelului din A2:D5, aa nct s apar astfel:
S-au mbolnvit de grip
Nu s-au mbolnvit de grip
Total
Vaccinai
80
420
?
Nevaccinai
150
535
?
Total
?
?
?
Este vorba despre rezultatul unui studiu organizat de o companie farmaceutic, pentru a
testa eficacitatea unui vaccin nou mpotriva gripei. n acest studiu, au fost selectai n mod
aleatoriu o serie de locuitori ai unui ora mare (ci anume?), care au fost urmrii din
noiembrie pn n februarie. Dintre acetia, unii (ci anume?) au fost vaccinai, ceilali nu.
Se poate afirma c vaccinul este eficient n combaterea gripei? (Se va alege ca nivel de
semnificaie
0.05 .) Care este valoarea p a acestei afirmaii?
Tema 33: testul hi ptrat n Excel
S relum afirmaia fumatul este ASOCIAT CU decesul timpuriu, dup un prim atac de
cord. Ea poate fi confirmat cu ajutorul unui test hi-ptrat DE SEMNIFICAIE.
n Excel calculele necesare confirmrii vor exploata tabelul de contingen (din domeniul
B3:C4 (care, reamintim, conine datele observate). Acest tabel are dou rnduri i dou
coloane. Prin urmare, numrul gradelor de libertate este (21) (21) = 1.
Copiai tabelul de pe foaia ZTest pe o foaie nou, unica foaie de calcul din fiierul
nume_HIPATRAT.xls. Redenumii ChisqTest aceast foaie.
Preluai, de asemenea, o copie a rndurilor 7:8 de pe foaia ZTest pe foaia ChisqTest.
Aceste rnduri conin nivelul de semnificaie, valoarea prag, valoarea statisticii, precum i
formula de calcul a deciziei de a respinge sau nu ipoteza nul.
Formula de calcul a valorii prag, din celula B9, a fost pregtit pentru testul Z; ea trebuie
adaptat pentru testul hi ptrat. Aadar, o vei modifica n
=CHIINV(B7, 1)
Rmne doar s adaptm statistica pe care o folosim i care de data aceasta este cea a lui
Pearson X

2
r

Nr N

totalurile pe coloane, iar N


D i pe rndul 5.

N rc
c

Nr N
N

2
c

, unde N r sunt totalurile pe linii, N

sunt

este totalul general. Aceste totaluri au fost calculate pe coloana

119

MG - Lucrarea practic 7 2014/2015

UMF Carol Davila Informatic Medical i Biostatistic

Formula pe care ar trebui s o plasm n celula F9 este destul de complicat. Ar fi de


N N c
preferat calculul preliminar al expresiilor r
, pe care l-am putea efectua de exemplu n
N
domeniul F3:G4, prin formula
=$D3*B$5/$D$5
i analoagele ei.
Ar urma calculul preliminar al termenilor

Nr N
N

2
c

, pe care l-am putea


N rc
Nr N c
efectua de exemplu n domeniul I3:J4, prin formula
=1/F3*(B3-F3)^2
i analoagele ei.
Acestea fiind calculate, formula din celula B9 devine o simpl nsumare:
=SUM(I3:J4)
iar concluzia privind confirmarea afirmaiei (prin respingerea ipotezei nule) apare automat n
celula A8.
Ar fi interesant s plasai n celula A9 inscripia Valoarea p (riscul acceptrii ipotezei
alternative), iar n celula B9 formula de calcul, care n cazul acestui test hi ptrat devine
=CHITEST(B3:C4,F3:G4)
Ar trebui s obinei o valoare dubl fa de valoarea pe care ai obinut-o (pentru acelai
nivel de semnificaie ales), n celula A9 de pe foaia ZTest. Avei o explicaie pentru
aceast coinciden?
Tema 34: comanda TABLES n Epi Info
Vom folosi acum modulul Analyze Data al aplicaiei EpiInfo pentru a analiza datele
primare din fiierul LP07_1.xls.
nainte de toate este necesar s prelum acest fiier, care nu a fost creat cu aplicaia
EpiInfo! Pentru aceasta vom folosi comanda Read (Import) din gruparea de comenzi Data.
n caseta de dialog READ va trebui s alegem Excel 8.0 n lista Data Formats, apoi s
identificm fiierul n caseta Data Source.
Comenzile date, exprimate n limbajul aplicaiei, vor fi afiate n fereastra Program
Editor. Ele vor putea fi reluate (eventual dup modificri) cu butonul Run din aceast
fereastr.

120

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 7 2014/2015

Apelai comanda List pentru a vedea coninutul fiierului. Observai cum sunt
identificate datele, pe linii i pe coloane. (Este un exemplu simplificat de tabel coninnd
date primare.)
Apelai comanda Tables pentru a crea tabelul de contingen ntre variabilele Cont_smok
i Deceased. Alegei aceste variabile n casetele list Exposure Variable respectiv Outcome
Variable (ca n figura de mai sus).
Observai rezultatele afiate. n tabelul de contingen, pe lng numerele cu care ne-am
obinuit, sunt afiate i procentajele pe linii (Row%) i pe coloane (Col%). Pentru a scpa
de ele, reluai comanda, apsai butonul Settings (vezi figura) i renunai la Show Percents.
Observai restul rezultatelor afiate n special n ultima parte. Ce putei identifica?
STATISTICAL TESTS
Chi-square 1-tailed p
Chi square - uncorrected
3,0321
Chi square - Mantel-Haenszel
3,0238
Chi square - corrected (Yates)
2,4299
Mid-p exact
0,0441211064
Fisher exact
0,0603417435

2-tailed p
0,0816356755
0,0820513166
0,1190395582

Tema 35: extragerea eantioanelor aleatoare.


Teoria statisticii se bazeaz pe presupunerea c eantionul a fost ales aleator n populaie.
Vei exersa acum tehnica extragerii unui eantion aleator de pacieni.
S admitem c dorim extragerea unui numr determinat (prin calcule statistice anterioare)
de pacieni, n condiiile n care fiecrui pacient trebuie s i se acorde anse egale de a fi ales.
(Atenie, atunci cnd afirmm c extragem la ntmplare, de fapt subnelegem c ansa de
a fi ales este aceeai pentru fiecare candidat potenial.)
Probabil c dintre aplicaiile larg utilizate cea mai dotat pentru simulri aleatoare este
Excel. Ea dispune de funcia RAND, precum i de un modul de generare de numere
aleatoare distribuite Bernoulli, binomial, Poisson, normal etc. Cea mai adecvat scopului
nostru este funcia RAND, care returneaz UN numr distribuit uniform ntre 0 i 1 ceea ce
nseamn, n principiu, c orice numr dintre 0 i 1 are aceleai anse de a fi returnat de ctre
funcie. (Atenie, funcia RAND d un rezultat volatil, care se modific la orice schimbare
efectuat pe foaia de calcul!)
Soluia de alegere la ntmplare a unui numr de indivizi este bazat pe exploatarea
funciei RAND.
Pentru exemplificare, s folosim datele celor 368 pacieni stocate n foaia de calcul
LP07_2.xls, presupunnd c acetia au fost toi pacienii examinai de medicul A.B. n
decursul unui an. Vom selecta la ntmplare un eantion format din 20 de pacieni.
Observm c sunt ocupate doar coloanele A-E. Coloana A, sub titulatura id conine
coduri-numere de ordine. Atunci cnd efectuai selecii, asigurai-v c fiecare nregistrare
(pacient) are un identificator unic, de acest tip.
Vom efectua operaiunea de selecie exploatnd celulele din coloana F. Mai precis, n
celula F1 vom plasa textul selectia, iar n celula F2 vom plasa coninutul =RAND() (ar fi
de preferat s-o facei prin intermediul comenzii InserareFuncie.)
Odat plasat acest coninut, l vei extinde pe vertical prin tragere de mnerul celulei
la domeniul F2:F369.
(Ar trebui s observai c n urma extinderii coninutul din F2 se schimb; motivul este
volatilitatea funciei RAND.)

121

MG - Lucrarea practic 7 2014/2015

UMF Carol Davila Informatic Medical i Biostatistic

Selectai acum datele din celulele A-F (prin tragere deasupra butoanelor-indicator de
coloan). Sortai aceste date, dup valorile coloanei F. Folosii comanda DateSortare.
Acum, primele 21 de rnduri vor conine datele celor 20 de indivizi selectai n eantion.
Copiai aceste prime 21 rnduri ntro foaie nou, pe care o denumii Eantion1. Repetai
procedura de selecie prin sortarea dup datele din coloana F, prelund o copie a primelor 21
rnduri n alt foaie, pe care o denumii Eantion2. Redenumind Originale foaia iniial
a fiierului, salvai-l cu denumirea nume_SELECTII.xls (dar i ca pagin Web!).
Tema special: obinerea curbei ROC n Excel.
Vei efectua acum calculele necesare pentru a obine o curb ROC.
Curbele ROC (receiver-operating characteristic) sunt diagrame de evaluare a
performanelor realizate de un test (biologic) n clasificarea n dou clase (sntos/ bolnav).
Se construiesc prin reprezentarea grafic a senzitivitii n raport cu valoarea 1
specificitatea, pentru diverse praguri alese n domeniul valorilor testului.
Pentru a le defini, s facem urmtoarele precizri. S presupunem c valori mari la test
ne ndeamn s diagnosticm boala (dar nu cu certitudine absolut!). Subiecii pozitivi
sunt cei pentru care a fost certificat boala, ceilali sunt negativi. Odat fixat un prag ,
senzitivitatea asociat pragului este proporia subiecilor pozitivi pentru care valoarea la
test depete pragul . Specificitatea asociat pragului este proporia subiecilor negativi
(adic sntoi) pentru care valoarea la test nu depete pragul .
Concret, senzitivitatea se obine mprind numrul de subieci true positives la numrul
total de subieci pozitivi (bolnavi), iar specificitatea se obine mprind numrul de
subieci true negatives la numrul total de subieci negativi.
Preluai foaia de calcul din fiierul LP07_3.xls n foaia pe care o vei denumi Datele
din cartea de calcul pe care o vei denumi nume_ROC.xls. Vei gsi valorile testului pentru
32 de subieci, mpreun cu clasificarea lor, certificat clinic.
Un prim calcul ce trebuie realizat, dup sortarea nregistrrilor n ordinea cresctoare a
valorilor testului, este cel al valorilor extreme ale testului. Plasai n celula C1 textul
Extreme, apoi n celulele din domeniul C2:C3 inserai formulele de calcul
corespunztoare. (n C2 formula de obinere a valorii minime =MIN(A2:A33), iar n C3
formula pentru valoarea maxim =MAX(A2:A33).)
Inserai n cartea de calcul nume_ROC.xls o foaie nou, denumind-o Calcule. Vei
efectua aici urmtoarele operaiuni, n ordine:
a) preluai din foaia Datele coloanele A i B;
b) plasai n coloana C valorile-prag pentru care calculm senzitivitatea i specificitatea.
Plasai n celula C1 textul Praguri, n C2 formula primului prag (care este cu 1 mai mic
dect valoarea minim) =Datele!C21, iar n C3 formula primului prag intermediar (care
este media aritmetic a primelor dou valori) =(A3+A2)/2. Extindei formula din C3 la
domeniul C3:C33 iar dedesubt plasai formula ultimului prag =Datele!C3+1;
c) este obligatoriu s identificm pragurile intermediare care coincid cu valori ale testului,
pentru a fi eliminate. n acest scop vei compara coloana C cu coloana A a valorilor testului,
iar rezultatele comparrii le vei trece pe coloana D. Aadar, n celula D1 plasai textul
Elimin rndul?, iar n D2 formula =IF(C2=A2,da,nu) pe care o extindei la
domeniul D2:D34;
d) urmeaz stabilirea numrului de subieci true negatives, false negatives, true
positives i false positives pentru fiecare prag. Vei rezerva n acest scop coloanele E:H,
n care:

122

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 7 2014/2015

pe rndul 1 vei plasa texte de identificare, de exemplu True neg n celula E1, False
neg n celula F1, False pos n celula G1 i True pos n celula H1;
pe rndul 2 vei plasa valori de iniializare, de exemplu 0 n celulele E2 i F2, apoi
=COUNTIF($B$2:$B$33,"sanatos")E2 n celula G2, iar n celula H2 formula
=COUNTIF($B$2:$B$33,"bolnav")F2;
pe rndul 3 vei plasa alte valori de iniializare n celulele E3 i F3, apoi le vei extinde
pe rndurile urmtoare, pn la 34. Formulele sunt
=COUNTIF($B$2:$B3,"sanatos") resp. =COUNTIF(...,"bolnav")
(Ai identificat rolul acestor formule?)
e) n sfrit, coloanele I i J vor servi pentru calcularea senzitivitilor respectiv
specificitilor. Plasai n celula I1 textul 1 Specif iar n J1 textul Senzit, inserai
dedesubt formulele de calcul, =1E2/(E2+G2) n celula I2 i =F2/(F2+H2) n celula
J2 dup care extindei formulele la domeniul I2:J34.
Inserai n cartea de calcul nume_ROC.xls a treia foaie, denumind-o Grafica. Vei
aduce aici datele de care avem nevoie pentru a efectua reprezentarea grafic dorit. Mai
precis, preluai n domeniul A1:C34 prin Copiere/Lipire special (Valori), una dup alta,
coloanele identificate de textele Elimin rndul?, 1 Specif i Senzit din foaia
Calcule.
Selectai domeniul A1:C34 i sortai-l dup valorile din coloana Elimin rndul?. Dup
sortare eliminai toate rndurile care au valoarea da n aceast coloan.
Cu datele rmase n coloanele B i C vei construi reprezentarea grafic. Dup selectarea
lor inserai diagrama de tipul X-Y (cu marcatori
unii prin segmente). Introducei prin tastare
titlurile 1 Specificitatea pe axa X i
Senzitivitatea pe axa Y. Eliminai legenda i
toate liniile de ghidare.
Modificai scalarea pe ambele axe aa nct
valorile extreme s fie 0 1.
Folosind instrumentele de desenare, plasai pe
diagonal un segment de dreapt, iar apoi textul
aria = 0.675 ntro caset text.
Preluai diagrama obinut n documentul
nume_CURBA_ROC.doc
plasnd-o
ca
exemplu dup paragrafele pe fond gri anterioare.

123