Documente Academic
Documente Profesional
Documente Cultură
MG LP07 PDF
MG LP07 PDF
Lucrarea practică 7
Indicaţii generale:
Afirmaţii de tipul „fumatul este asociat cu decesul timpuriu, după un prim atac de
cord”, făcute în urma comparării unor proporţii calculate cu date obţinute din eşantioane
„reprezentative”, pot fi confirmate statistic prin teste hi pătrat (care în asemenea situaţii
sunt considerate ca teste de semnificaţie statistică, şi nu ca teste de bonitate).
Aplicaţiile statistice (SPSS, Epi Info, …) au evident implementate module pentru
efectuarea directă a calculelor necesare. Dar rezultatele pot fi obţinute şi cu ajutorul
aplicaţiei Excel, controlând în mod corespunzător desfăşurarea calculelor.
Teme
32: tabele de contingenţă în Excel
33: testul hi pătrat în Excel
34: comanda TABLES în Epi Info
35: extragerea eşantioanelor aleatoare
specială: obţinerea curbei ROC în Excel
116
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2014/2015
Riscul apariţiei unei maladii (sau riscul de deces) este raportul între numărul de
„evenimente” ce apar întro perioadă de timp specificată (de obicei un an) şi numărul de
indivizi luaţi în considerare (respectiv aflaţi în viaţă) la începutul perioadei.
Tabelul următor, întocmit pentru compararea riscurilor, conţine date privind mortalitatea
la doi ani după primul atac de cord suferit de fumători. (Sursa: Daly, Bourke and McGilvray,
pag. 184.)
Supravieţuirea la 2 ani Total
decedaţi în viaţă
au continuat să fumeze 19 135 154
n-au mai fumat 15 199 214
Total 34 334 368
Acesta este un exemplu tipic de tabel de contingenţă (de tipul 2 2, adică două linii, două
coloane), bordat cu o linie şi o coloană a totalurilor.
Datele primare nu se prezintă însă în acest fel. Preluaţi fişierul LP07_1.xls pentru a vedea
cum sunt înregistrate datele primare. Dacă deschidem fişierul cu Excel, atunci vom folosi de
patru ori (pe patru coloane) însumarea rezultatelor date de funcţia logică IF, condiţiile
logice fiind de forma AND(C2=FALSE,D2=TRUE) şi analoagele.
Preluaţi cele 368 de înregistrări pe o primă foaie de calcul a fişierului nume_CALCULE,
foaie pe care o veţi denumi „Primare”.
Creaţi tabelul de mai sus pe a doua foaie de calcul, de exemplu în domeniul A1:D5
(având grijă să denumiţi această foaie de calcul „Conting”)
Calculaţi în coloana E rata deceselor. (Astfel, pentru întreg lotul de pacienţi, în celula E5
vom plasa formula „=B5/D5” şi vom obţine rata de 9.24%; pentru cei ce au continuat să
fumeze, în celula E3 vom plasa formula „=B3/D3” şi vom obţine rata de 12.34%, iar pentru
cei ce n-au mai fumat, în celula E4 vom obţine rata 7.01%. Evident, ar fi de dorit să plasaţi
în celula E2 un text explicativ, ca de exemplu „Rata deceselor”)
Se va observa o creştere a ratei deceselor în cazul celor ce au continuat să fumeze,
comparativ cu cazul celor care n-au mai fumat. Oare această creştere este „semnificativă”?
Pentru a răspunde la întrebări de acest fel va fi obligatoriu să precizăm „nivelul de
semnificaţie”, altfel răspunsurile sunt lipsite de conţinut.
Să alegem nivelul de semnificaţie uzual 0.05 . Afirmaţia că „fumatul este ASOCIAT
CU decesul timpuriu, după un prim atac de cord” poate fi confirmată (dar nu respinsă!) cu
ajutorul unui test de semnificaţie bazat pe acest nivel de semnificaţie şi pe o anumită
distribuţie hi-pătrat (anume cea cu un singur grad de libertate). Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=CHIINV(0.05, 1)
şi va avea valoarea aproximativ 3.84. Oare este el depăşit?
Atenţie, apelând funcţia CHIINV ni se oferă explicaţii detaliate în caseta de folosire a
funcţiei. (Întrebare: este confirmată afirmaţia?)
Afirmaţia că „fumatul este O CAUZĂ A decesului timpuriu, după un prim atac de cord”
poate fi confirmată cu ajutorul unui alt test de semnificaţie bazat pe nivelul de semnificaţie
ales şi pe o anumită distribuţie, normală standard de data aceasta. Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=NORMSINV(1–0.05)
şi va avea valoarea aproximativ 1.64. Oare este el depăşit?
117
MG - Lucrarea practică 7 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Vom încerca să confirmăm ultima afirmaţie („este cauză”) prin efectuarea unui test de
semnificaţie. Compararea celor două populaţii, anume a celor care „n-au mai fumat”,
respectiv a celor care „au continuat să fumeze” se va face la nivelul proporţiilor riscurilor de
deces.
„Ipoteza nulă”, pe care încercăm să o „respingem” în urma efectuării testului de
semnificaţie, este următoarea
1 2
şi ea exprimă faptul că cele două proporţii „nu diferă semnificativ” una de alta. Ipoteza
alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule, este următoarea:
1 2.
Evident, ea exprimă faptul că riscul de deces este mai mare pentru cei care „continuă să
fumeze”.
Proporţiile riscurilor de deces sunt estimate prin frecvenţele relative observate,
p1 0.1234 , p2 0.0701, calculate pe baza datelor din eşantioane. Ele sunt în concordanţă
cu ipoteza alternativă!
(Este important să facem această observaţie! Căci în cazul în care frecvenţele relative
observate nu erau în concordanţă cu ipoteza alternativă, am fi confirmat o altă afirmaţie!)
Avem nevoie şi de riscul de deces pentru întreaga populaţie, uşor de calculat
34
p 9.24% . De asemenea, trebuie să reţinem şi „volumele eşantioanelor”, n1 154 ,
368
n2 214 .
p2 p1
Statistica pe care o folosim este z iar valoarea obţinută o vom
1 1
p(1 p)
n1 n2
compara cu valoarea prag z corespunzătoare nivelului de semnificaţie ales. Mai precis,
vom putea respinge ipoteza nulă doar dacă vom constata că z z .
Să ne alegem un nivel de semnificaţie 0.01. Valoarea prag z va fi obţinută în Excel
prin formula
=NORMSINV(0.99)
plasată întro celulă oarecare. (Atenţie, 0.99 este 1 .) Ar trebui să o găsim 2.326.
Copiaţi întreaga foaie de calcul „Conting” întro foaie nouă, denumită „ZTest”. Plasaţi aici
în celula E2 inscripţia „Frecvenţe relative” iar dedesubt afişaţi conţinutul celulelor cu 4
zecimale (numeric, nu în procente).
Plasaţi în celula A7 inscripţia „Nivelul de semnificaţie”, iar în celula B7 numărul 0.01. În
continuare, plasaţi în celula C7 inscripţia „Valoarea prag”, iar în celula D7 formula
=NORMSINV(1-B7)
De asemenea, plasaţi în celula E7 inscripţia „Valoarea statisticii”, iar în celula F7
formula de calcul:
=(E3-E4)/SQRT(E5*(1-E5)*(1/D3+1/D4))
În sfârşit, în celula A8 plasaţi, aliniată la stânga, formula logică:
=IF(F7>D7,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificaţi acum nivelul de semnificaţie, în celula B7, la 0.05. Ce se întâmplă?
Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că fumatul în continuare
are efect negativ asupra ratei de supravieţuire a pacienţilor ce au suferit un atac de cord.
118
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2014/2015
Totuşi, cu nivelul de semnificaţie mai mic, de doar 1%, această concluzie nu mai este
susţinută de datele din eşantioane.
Putem afla oare nivelul de semnificaţie „limită” pentru care concluzia este susţinută de
datele din eşantioane?
Plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei alternative)”, iar în
celula B9 formula
=1-NORMSDIST(F7)
Ar trebui să obţineţi 4.08%.
Copiaţi acum întreg conţinutul foii de calcul „ZTest” în altă foaie de calcul, pe care o veţi
redenumi „Gripa”.
Modificaţi aici conţinutul tabelului din A2:D5, aşa încât să apară astfel:
S-au îmbolnăvit de gripă Nu s-au îmbolnăvit de gripă Total
Vaccinaţi 80 420 ?
Nevaccinaţi 150 535 ?
Total ? ? ?
Este vorba despre rezultatul unui studiu organizat de o companie farmaceutică, pentru a
testa eficacitatea unui vaccin nou împotriva gripei. În acest studiu, au fost selectaţi în mod
aleatoriu o serie de locuitori ai unui oraş mare (câţi anume?), care au fost urmăriţi din
noiembrie până în februarie. Dintre aceştia, unii (câţi anume?) au fost vaccinaţi, ceilalţi nu.
Se poate afirma că vaccinul este eficient în combaterea gripei? (Se va alege ca nivel de
semnificaţie 0.05 .) Care este „valoarea p” a acestei afirmaţii?
Să reluăm afirmaţia „fumatul este ASOCIAT CU decesul timpuriu, după un prim atac de
cord”. Ea poate fi confirmată cu ajutorul unui test hi-pătrat DE SEMNIFICAŢIE.
În Excel calculele necesare confirmării vor exploata tabelul de contingenţă (din domeniul
B3:C4 (care, reamintim, conţine „datele observate”). Acest tabel are două rânduri şi două
coloane. Prin urmare, numărul gradelor de libertate este (2–1) (2–1) = 1.
Copiați tabelul de pe foaia „ZTest” pe o foaie nouă, unica foaie de calcul din fişierul
nume_HIPATRAT.xls. Redenumiți „ChisqTest” această foaie.
Preluaţi, de asemenea, o copie a rândurilor 7:8 de pe foaia „ZTest” pe foaia „ChisqTest”.
Aceste rânduri conţin nivelul de semnificaţie, valoarea prag, valoarea statisticii, precum şi
formula de „calcul” a deciziei de a respinge sau nu ipoteza nulă.
Formula de calcul a valorii prag, din celula B9, a fost pregătită pentru testul Z; ea trebuie
adaptată pentru testul hi pătrat. Aşadar, o veţi modifica în
=CHIINV(B7, 1)
Rămâne doar să adaptăm statistica pe care o folosim şi care de data aceasta este cea a lui
2
2 N Nr N c
Pearson X N rc , unde N r sunt totalurile pe linii, N c sunt
r c Nr N c N
totalurile pe coloane, iar N este totalul general. Aceste totaluri au fost calculate pe coloana
D şi pe rândul 5.
119
MG - Lucrarea practică 7 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Vom folosi acum modulul Analyze Data al aplicaţiei EpiInfo pentru a „analiza” datele
primare din fişierul LP07_1.xls.
Înainte de toate este necesar să preluăm acest fişier, care nu a fost creat cu aplicaţia
EpiInfo! Pentru aceasta vom folosi comanda Read (Import) din gruparea de comenzi Data.
În caseta de dialog READ va trebui să alegem „Excel 8.0” în lista Data Formats, apoi să
identificăm fişierul în caseta Data Source.
Comenzile date, exprimate în limbajul aplicaţiei, vor fi afişate în fereastra Program
Editor. Ele vor putea fi reluate (eventual după modificări) cu butonul Run din această
fereastră.
120
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2014/2015
Apelaţi comanda List pentru a „vedea” conţinutul fişierului. Observaţi cum sunt
identificate datele, pe linii şi pe coloane. (Este un exemplu simplificat de tabel conţinând
date primare.)
Apelaţi comanda Tables pentru a crea tabelul de contingenţă între variabilele Cont_smok
şi Deceased. Alegeţi aceste variabile în casetele listă Exposure Variable respectiv Outcome
Variable (ca în figura de mai sus).
Observaţi rezultatele afişate. În tabelul de contingenţă, pe lângă numerele cu care ne-am
obişnuit, sunt afişate şi procentajele pe linii (Row%) şi pe coloane (Col%). Pentru a „scăpa”
de ele, reluaţi comanda, apăsaţi butonul Settings (vezi figura) şi renunţaţi la Show Percents.
Observaţi restul rezultatelor afişate în special în ultima parte. Ce puteţi identifica?
STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p
Chi square - uncorrected 3,0321 0,0816356755
Chi square - Mantel-Haenszel 3,0238 0,0820513166
Chi square - corrected (Yates) 2,4299 0,1190395582
Mid-p exact 0,0441211064
Fisher exact 0,0603417435
121
MG - Lucrarea practică 7 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Selectaţi acum datele din celulele A-F (prin tragere deasupra butoanelor-indicator de
coloană). Sortaţi aceste date, după valorile coloanei F. Folosiţi comanda Date→Sortare.
Acum, primele 21 de rânduri vor conţine datele celor 20 de indivizi selectaţi în eşantion.
Copiaţi aceste prime 21 rânduri întro foaie nouă, pe care o denumiţi „Eşantion1”. Repetaţi
procedura de selecţie prin sortarea după datele din coloana F, preluând o copie a primelor 21
rânduri în altă foaie, pe care o denumiţi „Eşantion2”. Redenumind „Originale” foaia iniţială
a fişierului, salvaţi-l cu denumirea nume_SELECTII.xls (dar şi ca pagină Web!).
– pe rândul 1 veţi plasa texte de identificare, de exemplu „True neg” în celula E1, „False
neg” în celula F1, „False pos” în celula G1 şi „True pos” în celula H1;
– pe rândul 2 veţi plasa valori de iniţializare, de exemplu „0” în celulele E2 şi F2, apoi
=COUNTIF($B$2:$B$33,"sanatos")–E2 în celula G2, iar în celula H2 formula
=COUNTIF($B$2:$B$33,"bolnav")–F2;
– pe rândul 3 veţi plasa alte valori de iniţializare în celulele E3 şi F3, apoi le veţi extinde
pe rândurile următoare, până la 34. Formulele sunt
=COUNTIF($B$2:$B3,"sanatos") resp. =COUNTIF(...,"bolnav")
(Aţi identificat rolul acestor formule?)
e) în sfârşit, coloanele I şi J vor servi pentru calcularea senzitivităţilor respectiv
specificităţilor. Plasaţi în celula I1 textul „1 – Specif” iar în J1 textul „Senzit”, inseraţi
dedesubt formulele de calcul, =1–E2/(E2+G2) în celula I2 şi =F2/(F2+H2) în celula
J2 după care extindeţi formulele la domeniul I2:J34.
Inseraţi în cartea de calcul nume_ROC.xls a treia foaie, denumind-o „Grafica”. Veţi
aduce aici datele de care avem nevoie pentru a efectua reprezentarea grafică dorită. Mai
precis, preluaţi în domeniul A1:C34 prin Copiere/Lipire specială (Valori), una după alta,
coloanele identificate de textele „Elimin rândul?”, „1 – Specif” şi „Senzit” din foaia
„Calcule”.
Selectaţi domeniul A1:C34 şi sortaţi-l după valorile din coloana „Elimin rândul?”. După
sortare eliminaţi toate rândurile care au valoarea „da” în această coloană.
Cu datele rămase în coloanele B şi C veţi construi reprezentarea grafică. După selectarea
lor inseraţi diagrama de tipul X-Y (cu marcatori
uniţi prin segmente). Introduceţi prin tastare
titlurile „1 – Specificitatea” pe axa X şi
„Senzitivitatea” pe axa Y. Eliminaţi legenda şi
toate liniile de ghidare.
Modificaţi scalarea pe ambele axe aşa încât
valorile extreme să fie 0 ş 1.
Folosind instrumentele de desenare, plasaţi pe
diagonală un segment de dreaptă, iar apoi textul
„aria = 0.675” întro casetă text.
Preluaţi diagrama obţinută în documentul
nume_CURBA_ROC.doc plasând-o ca
exemplu după paragrafele pe fond gri anterioare.
123