Sunteți pe pagina 1din 11

MG - Lucrarea practic 9 2012/2013

UMF Carol Davila Informatic Medical i Biostatistic

Lucrarea practic 9
Indicaii generale: Testarea de semnificaie statistic este o metod, veche de circa 75 de ani, pentru confirmarea adevrurilor pe baza datelor obinute din eantioane. Ea const, aa cum a precizat creatorul ei, R. A. Fisher, n acceptarea adevrului afirmaiei dorite prin respingerea ca implauzibil a unei alte afirmaii, numite ipoteza nul. Este ns absolut necesar ca ipoteza nul s exprime o egalitate sau o coinciden! Avnd la dispoziie date provenite dintrun eantion, dispunem de dou metode de stabilire statistic a adevrului, anume testarea bonitii i testarea semnificaiei statistice. Ele se deosebesc prin specificul propoziiilor asupra crora pot fi aplicate: - testarea bonitii stabilete adevrul statistic al unor propoziii ce exprim o egalitate, o similaritate sau o coinciden, - testarea semnificaiei statistice (de semnificaie statistic) stabilete adevrul statistic al unor propoziii ce exprim o inegalitate, o disimilaritate sau o discrepan. Un caz particular, destul de des ntlnit, este cel al testului t (sau Student). Acest test se poate aplica, n studiile biologice, n dou situaii: 1) Pentru a confirma c o populaie se afl, dup un tratament, ntro stare mai bun dect naintea tratamentului; 2) Pentru a confirma c o populaie se afl ntro stare mai bun dect alt populaie. Condiia esenial de aplicare a acestui test este ca indivizii populaiilor s poat fi msurai, aadar s putem obine eantioane de numere reale. n aceast lucrare practic: a) vei nva s lucrai cu comanda MEANS rezolvnd probleme date ca exemplu, b) vei interpreta rezultatul testului (de bonitate) Bartlett; c) vei confirma, prin testare de semnificaie, propoziii care afirm c o medie este mai mare dect alta, d) vei exploata funcia RAND pentru a obine un eantion aleator, e) vei folosi Excel pentru a obine o curb ROC. Teme 40: comanda MEANS n Epi Info 41: afirmaii acceptate prin testare de semnificaie statistic 42: teste Student pereche 43: extragerea eantioanelor aleatoare special: obinerea curbei ROC n Excel Softul ce va fi utilizat n lucrarea practic: Epi Info

108

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 9 2012/2013

Tema 40: comanda MEANS n Epi Info S ne reamintim cum se creeaz un fiier chestionar (view) n EpiInfo. Pentru aceasta vom folosi modulul Make View, comanda FileNewFile name (numele bazei de date = nume_EPIINFO)OpenName the View (numele chestionarului = Primul) care conine urmtoarele cinci cmpuri: nrcrt. Dup InsertField vom introduce Question or Prompt = Nr.Crt., Type = Number, Pattern = ####, Field Name = NrCrt varsta. n Field Definition vom introduce Question or Prompt = Varsta, Type = Number, Pattern = ###, Field Name = Varsta sex, care va avea dou valori, F i M. Pentru aceasta n Field Definition vom introduce Question or Prompt = Sex, Type = Text, Legal ValueCreate New: M, FOK dom, care va avea dou valori, R (de la rural) i U (de la urban). Pentru aceasta n Field Definition vom introduce Question or Prompt = Domiciliu, Type = Text, Legal ValueCreate New: R, UOK h. n Field Definition vom introduce Question or Prompt = Inaltimea, Type = Number, Pattern = ###, Field Name = H Introducei acum, folosind modulul Enter Data, datele urmtoare. NrCrt Varsta Sex Dom H NrCrt Varsta Sex Dom H 1 59 F R 160 26 39 M U 173 2 48 F R 164 27 41 F U 156 3 59 F U 167 28 77 M R 172 4 19 F U 167 29 32 M U 183 5 60 F U 168 30 76 M U 172 6 58 F R 150 31 31 F U 155 7 51 F U 167 32 64 F U 156 8 36 F U 156 33 74 F U 164 9 41 F U 165 34 27 F R 162 10 50 F U 150 35 38 F U 167 11 21 F U 152 36 63 F U 156 12 19 F U 162 37 28 F R 163 13 35 F U 157 38 64 F U 155 14 43 F U 160 39 71 F U 168 15 27 F U 165 40 69 F U 158 16 31 F U 172 41 23 F U 163 17 15 F R 150 42 88 F U 160 18 33 F U 165 43 49 F U 157 19 69 F R 149 44 52 F U 155 20 63 F U 152 45 35 F U 160 21 24 F U 150 46 63 F U 162 22 66 F U 157 47 57 M R 163 23 82 F U 165 48 27 F U 160 24 54 F U 160 49 40 M R 167 25 54 F U 156 50 55 F U 166 plus o ultim nregistrare (a 51-a) care s conin datele d-voastr. S facem observaia c valorile variabilelor Varsta i H sunt numerice, iar cele ale variabilelor Sex i Dom sunt calitative. Tratamentul care se aplic variabilelor depinde de tipul lor. Pentru variabilele numerice se calculeaz de obicei media i variana (eventual abaterea standard). Pentru variabilele calitative se creaz de obicei diagrame de tip rozet.

109

MG - Lucrarea practic 9 2012/2013

UMF Carol Davila Informatic Medical i Biostatistic

Pentru a efectua calcule statistice vom folosi modulul Analyze Data. Mai nti vom prelua fiierul creat anterior. Pentru aceasta vom folosi comanda Read, indicnd n Data Source denumirea nume_EPIINFO.mdb. Pentru cele dou variabile calitative, Sex i Dom, am putea crea cu comanda Tables tabelul de contingen. Vom obine o serie de rezultate ale comenzii. Formal, am putea depista o eventual asociere ntre sexul masculin i domiciliul urban, de exemplu, asociere care poate prea ntmpltoare. Atragem atenia c metodele statisticii dau uneori rezultate care nu sunt justificate logic! Variabilelor numerice NU li se aplic deloc comanda Tables, ci comanda Means. Calculai media i variana variabilei Varsta. Folosii comanda MeansMeans of: Varsta. Media va fi valoarea afiat la Mean iar variana valoarea afiat la Variance. Ar trebui s obinei: Mean n jur de 48.0 i Variance aprox. 347.5. Calculai media i variana variabilei Varsta separat pentru persoanele de sex masculin i pentru persoanele de sex feminin: Folosii aceeai comand Means Means of: Varsta, dar de data aceasta Stratify by: Sex.

Reprezentai valorile variabilei Sex ntro diagram cu dreptunghiuri. Se folosete comanda Graph: Graph Type: Bar iar la X-Axis: Main_Variable(s): Sex. Titlul diagramei (1st Title) va fi Distribuia pacienilor pe sexe. Diagrama obinut va fi exportat (comanda FileExport...) n format JPG i va fi salvat cu numele nume_BARS alegnd aceasta la Export Destination: FileBrowse. Reamintim c pentru a importa un fiier din format Excel vom folosi modulul Analyze Data, mai precis, comanda Read. Exemplu: ReadData Formats: Excel 8.0, Data Source: LP09_1.xls, Worksheets: SmkChol Pentru acest fiier, reprezentai valorile variabilei Smk ntro diagram rozet. Pentru reprezentarea grafic se folosete comanda Graph: Graph Type: Pie iar la X-Axis: Main_Variable(s): Smk. Titlul diagramei (1st Title) va fi Fumtori vs. nefumtori. Diagrama obinut va fi exportat (FileExport...) n format JPG i va fi salvat cu numele nume_PIECHART. Observati: Comanda Means (din Epi Info) este folosit pentru a se obine statistici descriptive pentru variabile de tip continuu (ceea ce nu este cazul variabilei Sex de mai sus). De asemenea, sunt calculate i statistici care se refer la probabilitatea ca mediile pentru grupuri s fie egale. Comanda Means aplicat unei variabile categoriale (cu valorile yes/no) calculeaz proporia pentru valoarea yes.

110

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 9 2012/2013

Comanda Means are dou formate. Dac se utilizeaz numai pentru o singur variabil (Means of), ea genereaz un tabel identic cu cel al comenzii Frequencies, dar n plus sunt calculate i statisticile descriptive. n cazul n care comanda se utilizeaz pentru dou variabile, prima fiind o variabil numeric care conine datele care vor fi analizate (Means of) iar cea de-a doua o variabil de grupare (Cross-tabulate by Value of), se va obine un tabel mai amplu, cu urmtoarele statistici descriptive pentru fiecare valoare a variabilei de grupare: media (Mean), mediana (Median), cuartilele (25% i 75%), valoarea minim (Minimum) i maxim (Maximum), modul (Mode), variana (Variance) si deviaia standard (Std Dev). Tabelul se continu cu valorile pentru testele statistice Anova, t, Bartlett, Mann-Whitney/Wilcoxon sau KruskalWallis. Dac este specificat i variabila de grupare (Stratify by), se obin mai multe tabele, cte unul pentru fiecare valoare a variabilei de grupare. Concret, putei observa c comanda Means realizeaz urmtoarele teste statistice: 1. teste parametrice: ANOVA, Student (t-test), 2. teste neparametrice: Kruskal-Wallis, Mann-Whitney (U-test). n cazul n care variabila de grupare are numai dou valori (adic avem dou grupuri) este calculat testul t (Student) sau testul Mann-Whitney (Wilcoxon Rank Sum Test), iar n cazul n care variabila de grupare are mai mult de dou valori (sunt cel puin trei grupuri) este calculat testul F (ANOVA) sau testul Kruskal-Wallis. Alegerea ntre testul parametric respectiv cel neparametric se va face n funcie de rezultatul testului Bartlett (testul pentru verificarea omogeneitii varianelor). Atenie, testul Bartlett este un test de bonitate, iar toate celelalte sunt teste de semnificaie statistic. Ca exemplu, preluai datele dintrun fiier de nvare a softului, cu ajutorul comenzii ReadData Formats: Epi 2000, Data Source: sample.mdb, Views: viewSmoke. Folosii mai nti comanda List pentru a identifica denumirile variabilelor (cmpurilor). ncercai s identificai ce fel de date conine fiecare. (Valorile variabilei Sex sunt 1 i 2.) S verificm c exist o diferen semnificativ ntre media nlimi lor brbailor i media nlimilor femeilor. Pentru aceasta vom folosi comanda Means n care variabila numeric este Height iar variabila de grupare (Cross-tabulate by Value of) este Sex.

Vom lucra cu urmtoarele ipoteze: Ipoteza alternativ: Exist o diferen semnificativ ntre media nlimilor brbailor i media nlimilor femeilor. Ipoteza nul: Nu exist o diferen semnificativ ntre media nlimilor brbailor i media nlimilor femeilor.

111

MG - Lucrarea practic 9 2012/2013

UMF Carol Davila Informatic Medical i Biostatistic

Variabila Sex are, aa cum am observat, dou valori. Vom verifica mai nti dac dispersiile sunt omogene pentru cele dou grupuri: brbai (valoarea 1?) i femei (valoarea 2?), cu ajutorul testului Bartlett. Se va observa c varianele pentru nlimea brbailor (2481.7762) i pentru nlimea femeilor (2509.2829) nu difer foarte mult ntre ele. Valoarea p dat de testul Bartlett este 0.9455 (foarte apropiat de 1), ceea ce indic faptu l c cele dou variane sunt aproximativ egale, prin urmare putem s folosim rezultatele de la testele parametrice (fie ANOVA, fie t). n cazul nostru vom folosi rezultatul dat de testul t. Valoarea p dat de testul t (Student) este afiat ca 0.0000, deci este foarte mic. Se poate respinge deci ipoteza nul! Afirmaia conform creia exist o diferen semnificativ ntre nlimea medie a brbailor i nlimea medie a femeilor este confirmat de datele din eantionul folosit. Aceast diferen nu poate s fie atribuit ansei, ntmplrii sau erorii de eantionare! S verificm c exist o diferen semnificativ ntre greutile medii ale straturilor (persoanele au fost grupate n 3 straturi). Pentru aceasta vom folosi comanda Means n care variabila numeric este Weight iar variabila de grupare (Cross-tabulate by Value of) este Strata. Vom lucra cu urmtoarele ipoteze: Ipoteza nul: Greutatea medie a persoanelor din stratul 1 coincide cu greutatea medie a persoanelor din stratul 2 i cu greutatea medie a persoanelor din stratul 3. Ipoteza alternativ: Exist cel puin o diferen semnificativ ntre greutile medii corespunztoare celor 3 straturi. Rezultatele afiate de ctre EpiInfo vor arta n felul urmtor:
Descriptive Statistics for Each Value of Crosstab Variable Obs Total Mean Variance Std Dev 1 113 2 112 3 112 Minimum 1 104.0000 2 88.0000 3 99.0000 23747.0000 24359.0000 18840.0000 25% 130.0000 130.0000 130.0000 210.1504 217.4911 168.2143 Median 150.0000 154.5000 155.0000 40130.0575 43714.5044 7674.8366 75% 185.0000 187.0000 189.0000 200.3249 209.0801 87.6061 Mode 150.0000 140.0000 120.0000

Maximum 999.0000 999.0000 999.0000

ANOVA, a Parametric Test for Inequality of Population Means (For normally distributed data only) Variation SS df MS F statistic Between 158453.0891 2 79226.5446 2.5946 Within 10198783.2907 334 30535.2793 Total 10357236.3798 336 P-value = 0.0762 Bartlett's Test for Inequality of Population Variances Bartlett's chi square= 82.5247 df=2 P value=0.0000 A small p-value (e.g., less than 0.05 suggests that the variances are not homogeneous and that the ANOVA may not be appropriate. Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two groups) Kruskal-Wallis H (equivalent to Chi square) = .0853 Degrees of freedom = 2 P value = 0.9582

112

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 9 2012/2013

Observm c variabila Strata are trei valori (1, 2 i 3). Vom verifica mai nti omogeneitatea varianelor, pentru cele trei grupuri, cu ajutorul testului Bartlett. (Rezultate: 1: 40130.05; 2: 43714.50; 3: 7674.83). Observai ct de diferite sunt valorile varianelor n cele trei straturi. Valoarea p (de la testul Bartlett) este de data aceasta foarte mic (0.0000), ceea ce indic faptul c dispersiile sunt categoric neomogene. Prin urmare nu putem s folosim rezultatele de la testele parametrice (ANOVA sau t). Va trebui aadar s folosim rezultatele testelor neparametrice, i anume n cazul nostru rezultatul testului Kruskal-Wallis. Valoarea p este 0.9582, foarte mare, ar trebui s ne determine s acceptm ipoteza nul, conform creia nu exist diferene semnificative ntre greutile medii ale celor trei straturi (1: 210.15; 2: 217.49; 3: 168.21). n concluzie, nu exist, din punct de vedere statistic, diferene ntre greutile medii ale persoanelor din cele trei straturi, iar diferenele constatate pot s fie atribuite ansei (ntmplrii) sau erorii de eantionare. Exportai spre Excel datele pe care le folosii. Comanda utilizabil este Write(Export) Output Formats: Excel 4.0, File Name: nume_SMOKE. Vei exploata acest fiier n lucrarea practic urmtoare. Exerciiu a) Exist diferen semnificativ ntre mediile dozei de medicament (dose) la persoanele cu vrsturi (vomit = 1) i la persoanele fr vrsturi (vomit = 0)? Fiierul de date este LP09_2.xls. b) Exist diferen semnificativ ntre mediile dozei de medicament (dose) la persoanele din grupurile definite de cele trei metode (method = 1, 2, 3)? Fiierul de date este acelai. Considerai pe rnd ntrebrile de mai sus a) i b). Rezolvai problema ridicat cu ajutorul aplicaiei Epi Info. Completai documentul nume_MEANS cu urmtoarele precizri, pentru fiecare situaie n parte: - explicit, ipoteza nul i ipoteza alternativ luate n consideraie, - rezultatul testului Bartlett i interpretarea sa, - testul statistic corespunztor ce va fi ales, - rezultatul testului i interpretarea valorii p corespunztoare, - concluzia (recomandarea) final. De asemenea, salvai-l i ca document hipertext, pregtit pentru includerea n site-ul pe care vi l-ai creat. Tema 41: afirmaii acceptate prin testare de semnificaie statistic. La tema anterioar ai creat un fiier nume_SMOKE.xls. Conine date obinute de la 337 persoane, de ambele sexe, n cadrul unei cercetri efectuate n S.U.A. privind obiceiul de a fuma. Printre altele, pe coloana intitulat HEIGHT vom gsi nlimile persoanelor, msurate ns n oli (inches), nu n cm. De asemenea, pe coloana SEX se afl nregistrate valori 1 sau 2 (presupunem c nseamn feminin, resp. masculin) Vom folosi aceste date ca un eantion care s serveasc la confirmarea statistic a propoziiei considerat ca ipotez alternativ: nlimea medie a femeilor este mai mic dect nlimea medie a brbailor. (Aceasta este departe de a constitui o noutate tiinific! Dar scopul nostru, pur didactic, este de a arta cum confirmm o propoziie prin testare de semnificaie.) Ipoteza nul corespunztoare (care va fi respins) se exprim astfel: nlimea medie a femeilor coincide cu nlimea medie a brbailor.

113

MG - Lucrarea practic 9 2012/2013

UMF Carol Davila Informatic Medical i Biostatistic

Pentru a nu ne complica cu detalii inutile, s selectm coloanele HEIGHT i SEX i s le copiem n domeniul A:B al unei foi de calcul noi, pe care o vom redenumi TTest. S sortm domeniul A:B dup valorile coloanei SEX. Dup sortare, s identificm toate valorile din coloana HEIGHT care corespund valorii 2 din coloana SEX, ele ar trebui s ocupe celule contigue (s-ar putea s fie cele din domeniul A124:A338). S calculm, cu funcia AVERAGE, media nlimilor femeilor din eantion. Formula de calcul pe care o plasm ntro celul liber, de exemplu n celula C2 este urmtoarea: =AVERAGE(A2:A123) S calculm de asemenea media nlimilor brbailor din eantion. Formula de calcul pe care o plasm ntro alt celul liber, de exemplu n celula D2 este urmtoarea: =AVERAGE(A124:A338) (Este de dorit s plasm i texte explicative, de exemplu Media nlimilor femeilor n celula C1 i Media nlimilor brbailor n celula D1.) Dup obinerea celor dou medii, este obligatorie verificarea concordanei cu ipoteza alternativ. Dar, ntruct nalimile se afl n relaie de inegalitate neconcordant (549>507), utilizarea testului de semnificaie se oprete aici. Concluzia, pe hrtie, ar trebui s fie exprimat astfel: datele obinute din eantion nu numai c nu confirm adevrul propoziiei, dar mai degrab i confirm negaia. S admitem c am fcut o eroare de interpretare, n mod corect valorile 1 i 2 din coloana SEX nsemnnd, masculinresp. feminin. n aceast situaie mediile de eantion, calculate cu funcia AVERAGE, sunt concordante cu ipoteza alternativ. Putem trece la pasul urmtor, anume la evaluarea riscului pe care ni -l asumm acceptnd ca adevrat ipoteza alternativ (cnd, de fapt, nu este). Acest risc se evalueaz prin valoarea p, i se calculeaz cu ajutorul funciei TTEST. Mai precis, formula adecvat de calcul este =TTEST(A2:A123,A124:A338,1,3) Comparai riscul calculat (ar trebui s fie aproximativ 0.000000000000216) cu cel care a fost raportat de ctre Epi Info ca valoare p pentru testul t. Concluzia, pe hrtie, ar trebui s fie exprimat astfel: datele obinute din eantion confirm adevrul propoziiei (valoare p < 0.001). Tema 42: teste Student pereche. A fost efectuat un test clinic pentru a se determina eficacitatea unei substane X care, n opinia firmei productoare de medicamente, contribuie la creterea duratei de somn profund. Au fost testai 10 pacieni voluntari, pe durata a dou zile. Fiecruia i s-au oferit dou pastile aparent identice, cte una n fiecare zi. Una dintre pastile coninea substana activ, cealalt un placebo cu gust asemntor. Pacienii nu au avut cunotin despre coninutul real al pastilelor. n tabelul urmtor sunt nregistrate rezultatele testului clinic, constnd n duratele somnului n cele dou situaii. Pacientul 1 2 3 4 5 Medicament 6.1 7.0 8.2 7.6 6.5 Placebo 5.2 7.9 3.9 4.7 5.3 Pacientul 6 7 8 9 10 Medicament 8.4 6.9 6.7 7.4 5.8 Placebo 5.4 4.2 6.1 3.8 6.3

114

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 9 2012/2013

La o prim examinare, se poate observa c duratele din coloana Placebo sunt, cu doar dou excepii, mai mici dect cele din coloana Medicament. Aceasta este o indicaie pozitiv, dar confirmarea afirmaiei folosirea pilulei cu substana X conduce la o cretere a duratei de somn profund va trebui fcut altfel. Mai precis, confirmarea se va obine prin efectuarea unui test de semnificaie. De data aceasta vom efectua un test t pereche. Ipoteza nul, pe care ncercm s o respingem n urma efecturii testului de semnificaie, este urmtoarea medicament placebo i ea exprim faptul c cele dou durate medii de somn profund nu difer semnificativ una de alta. Ipoteza alternativ, pe care o vom accepta dac vom reui respingerea ipotezei nule, este urmtoarea: medicament placebo. Introducei datele din tabelul de mai sus, pe coloanele A-B-C, ntro foaie de calcul din fiierul nume_TESTE.xls, pe care o vei redenumi TTest. Prima operaiune care trebuie efectuat este calculul duratelor medii de somn profund, mmedicament pentru Medicament, respectiv m placebo pentru Placebo. Ar trebui s avem
mmedicament m placebo, n caz contrar testarea de semnificaie statistic trebuie oprit imediat (datele din eantion nu confirm ipoteza dorit!) Plasai n celula B12 formula de calcul a mediei =AVERAGE(B2:B11) i extindei-o la celula C12. Valorile obinute (7.26 i 5.28) sunt compatibile cu ipoteza alternativ. Este de dorit s plasm n celula A12 textul explicativ Medii. Continum cu calculul diferenelor ntre valorile obinute pentru fiecare pacient. Ele vor fi obinute prin plasarea n celula D2 a formulei de calcul =B2-C2, apoi prelungirea ei la domeniul D2:D11. Este de dorit s plasm n celula D1 textul explicativ Diferene. n celula D13 plasai formula de calcul a abaterii standard (a diferenelor) =STDEV(D2:D11) Se va obine (aproximativ) valoarea s 1.768 . Statistica pe care o folosim acum este m placebo mmedicament t iar valoarea obinut o vom compara cu valoarea prag t s/ n corespunztoare nivelului de semnificaie ales, pentru o distribuie t cu n 1 9 grade de libertate. Mai precis, vom putea respinge ipoteza nul doar dac vom constata c t t . Este de dorit s plasm n celula A13 textul explicativ Abateri standard. Plasai n celula A14 inscripia Nivelul de semnificaie, iar celula B14 numrul 0.01. n continuare, plasai n celula C14 inscripia Valoarea prag, iar n celula D14 formula =TINV(B14,9) De asemenea, plasai n celula E14 inscripia Valoarea statisticii, iar n celula F14 formula de calcul: =(B12-C12)/(D13/SQRT(10)) n sfrit, n celula A15 plasai formula logic: =IF(F14>D14,"respingem H0","nu putem respinge H0") Care este rezultatul? Modificai acum nivelul de semnificaie, n celula B14, la 0.05. Ce se ntmpl? Ar trebui, cu nivelul de semnificaie de 5%, s tragei concluzia c folosirea pilulelor cu substana X crete durata de somn profund.

115

MG - Lucrarea practic 9 2012/2013

UMF Carol Davila Informatic Medical i Biostatistic

Totui, cu nivelul de semnificaie de doar 1%, aceast concluzie nu mai este susinut de datele din eantion. Dar o simpl modificare, pentru pacientul nr. 2 a valorii 7.9 n 7.7 (pentru placebo), va determina schimbarea deciziei! Ar fi de dorit s evalum valoarea p asociat ipotezei alternative, adic a riscului de acceptare eronat a ipotezei alternative (bazndu-ne pe datele din eantionul ales). Este un calcul simplu, dac tim s folosim funcia TTEST. Plasai ntro celula liber formula =TTEST(B2:B11,C2:C11,1,1) i evaluai rezultatul, care este tocmai valoarea p dorit. Tema 43: extragerea eantioanelor aleatoare. Teoria statisticii se bazeaz pe presupunerea c eantionul a fost ales aleator n populaie. Vei exersa acum tehnica extragerii unui eantion aleator de pacieni. S admitem c dorim extragerea unui numr determinat (prin calcule statistice anterioare) de pacieni, n condiiile n care fiecrui pacient trebuie s i se acorde anse egale de a fi ales. (Atenie, atunci cnd afirmm c extragem la ntmplare, de fapt subnelegem c ansa de a fi ales este aceeai pentru fiecare candidat potenial.) Probabil c dintre aplicaiile larg utilizate cea mai dotat pentru simulri aleatoare este Excel. Ea dispune de funcia RAND, precum i de un modul de generare de numere aleatoare distribuite Bernoulli, binomial, Poisson, normal etc. Cea mai adecvat scopului nostru este funcia RAND, care returneaz UN numr distribuit uniform ntre 0 i 1 ceea ce nseamn, n principiu, c orice numr dintre 0 i 1 are aceleai anse de a fi returnat de ctre funcie. (Atenie, funcia RAND d un rezultat volatil, care se modific la orice schimbare efectuat pe foaia de calcul!) Soluia de alegere la ntmplare a unui numr de indivizi este bazat pe exploatarea funciei RAND. Pentru exemplificare, s folosim datele celor 368 pacieni stocate n foaia de calcul LP09_3.xls, presupunnd c acetia au fost toi pacienii examinai de medicul A.B. n decursul unui an. Vom selecta la ntmplare un eantion format din 20 de pacieni. Observm c sunt ocupate doar coloanele A-E. Coloana A, sub titulatura id conine coduri-numere de ordine. Atunci cnd efectuai selecii, asigurai-v c fiecare nregistrare (pacient) are un identificator unic, de acest tip. Vom efectua operaiunea de selecie exploatnd celulele din coloana F. Mai precis, n celula F1 vom plasa textul selectia, iar n celula F2 vom plasa coninutul =RAND() (ar fi de preferat s-o facei prin intermediul comenzii InserareFuncie.) Odat plasat acest coninut, l vei extinde pe vertical prin tragere de mnerul celulei la domeniul F2:F369. (Ar trebui s observai c n urma extinderii coninutul din F2 se schimb; motivul este volatilitatea funciei RAND.) Selectai acum datele din celulele A-F (prin tragere deasupra butoanelor-indicator de coloan). Sortai aceste date, dup valorile coloanei F. Folosii comanda DateSortare. Acum, primele 21 de rnduri vor conine datele celor 20 de indivizi selectai n eantion. Copiai aceste prime 21 rnduri ntro foaie nou, pe care o denumii Eantion1. Repetai procedura de selecie prin sortarea dup datele din coloana F, prelund o copie a primelor 21 rnduri n alt foaie, pe care o denumii Eantion2. Redenumind Originale foaia iniial a fiierului, salvai-l cu denumirea nume_SELECTII.xls (dar i ca pagin Web!).

116

UMF Carol Davila Informatic Medical i Biostatistic

MG - Lucrarea practic 9 2012/2013

Tema special: obinerea curbei ROC n Excel. Vei efectua acum calculele necesare pentru a obine o curb ROC. Curbele ROC (receiver-operating characteristic) sunt diagrame de evaluare a performanelor realizate de un test (biologic) n clasificarea n dou clase (sntos/ bolnav). Se construiesc prin reprezentarea grafic a senzitivitii n raport cu valoarea 1 specificitatea, pentru diverse praguri alese n domeniul valorilor testului. Pentru a le defini, s facem urmtoarele precizri. S presupunem c valori mari la test ne ndeamn s diagnosticm boala (dar nu cu certitudine absolut!). Subiecii pozitivi sunt cei pentru care a fost certificat boala, ceilali sunt negativi. Odat fixat un prag , senzitivitatea asociat pragului este proporia subiecilor pozitivi pentru care valoarea la test depete pragul . Specificitatea asociat pragului este proporia subiecilor negativi (adic sntoi) pentru care valoarea la test nu depete pragul . Concret, senzitivitatea se obine mprind numrul de subieci true positives la numrul total de subieci pozitivi (bolnavi), iar specificitatea se obine mprind numrul de subieci true negatives la numrul total de subieci negativi. Preluai foaia de calcul din fiierul LP09_4.xls n foaia pe care o vei denumi Datele din cartea de calcul pe care o vei denumi nume_ROC.xls. Vei gsi valorile testului pentru 32 de subieci, mpreun cu clasificarea lor, certificat clinic. Un prim calcul ce trebuie realizat, dup sortarea nregistrrilor n ordinea cresctoare a valorilor testului, este cel al valorilor extreme ale testului. Plasai n celula C1 textul Extreme, apoi n celulele din domeniul C2:C3 inserai formulele de calcul corespunztoare. (n C2 formula de obinere a valorii minime =MIN(A2:A33), iar n C3 formula pentru valoarea maxim =MAX(A2:A33).) Inserai n cartea de calcul nume_ROC.xls o foaie nou, denumind-o Calcule. Vei efectua aici urmtoarele operaiuni, n ordine: a) preluai din foaia Datele coloanele A i B; b) plasai n coloana C valorile-prag pentru care calculm senzitivitatea i specificitatea. Plasai n celula C1 textul Praguri, n C2 formula primului prag (care este cu 1 mai mic dect valoarea minim) =Datele!C21, iar n C3 formula primului prag intermediar (care este media aritmetic a primelor dou valori) =(A3+A2)/2. Extindei formula din C3 la domeniul C3:C33 iar dedesubt plasai formula ultimului prag =Datele!C3+1; c) este obligatoriu s identificm pragurile intermediare care coincid cu valori ale testului, pentru a fi eliminate. n acest scop vei compara coloana C cu coloana A a valorilor testului, iar rezultatele comparrii le vei trece pe coloana D. Aadar, n celula D1 plasai textul Elimin rndul?, iar n D2 formula =IF(C2=A2,da,nu) pe care o extindei la domeniul D2:D34; d) urmeaz stabilirea numrului de subieci true negatives, false negatives, true positives i false positives pentru fiecare prag. Vei rezerva n acest scop coloanele E:H, n care: pe rndul 1 vei plasa texte de identificare, de exemplu True neg n celula E1, False neg n celula F1, False pos n celula G1 i True pos n celula H1; pe rndul 2 vei plasa valori de iniializare, de exemplu 0 n celulele E2 i F2, apoi =COUNTIF($B$2:$B$33,"sanatos")E2 n celula G2, iar n celula H2 formula =COUNTIF($B$2:$B$33,"bolnav")F2; pe rndul 3 vei plasa alte valori de iniializare n celulele E3 i F3, apoi le vei extinde pe rndurile urmtoare, pn la 34. Formulele sunt

117

MG - Lucrarea practic 9 2012/2013

UMF Carol Davila Informatic Medical i Biostatistic

=COUNTIF($B$2:$B3,"sanatos") resp. =COUNTIF(...,"bolnav") (Ai identificat rolul acestor formule?) e) n sfrit, coloanele I i J vor servi pentru calcularea senzitivitilor respectiv specificitilor. Plasai n celula I1 textul 1 Specif iar n J1 textul Senzit, inserai dedesubt formulele de calcul, =1E2/(E2+G2) n celula I2 i =F2/(F2+H2) n celula J2 dup care extindei formulele la domeniul I2:J34. Inserai n cartea de calcul nume_ROC.xls a treia foaie, denumind-o Grafica. Vei aduce aici datele de care avem nevoie pentru a efectua reprezentarea grafic dorit. Mai precis, preluai n domeniul A1:C34 prin Copiere/Lipire special (Valori), una dup alta, coloanele identificate de textele Elimin rndul?, 1 Specif i Senzit din foaia Calcule. Selectai domeniul A1:C34 i sortai-l dup valorile din coloana Elimin rndul?. Dup sortare eliminai toate rndurile care au valoarea da n aceast coloan. Cu datele rmase n coloanele B i C vei construi reprezentarea grafic. Dup selectarea lor inserai diagrama de tipul X-Y (cu marcatori unii prin segmente). Introducei prin tastare titlurile 1 Specificitatea pe axa X i Senzitivitatea pe axa Y. Eliminai legenda i toate liniile de ghidare. Modificai scalarea pe ambele axe aa nct valorile extreme s fie 0 1. Folosind instrumentele de desenare, plasai pe diagonal un segment de dreapt, iar apoi textul aria = 0.675 ntro caset text. Preluai diagrama obinut n documentul nume_CURBA_ROC.doc plasnd-o ca exemplu dup paragrafele pe fond gri anterioare.

118