Sunteți pe pagina 1din 11

MG - Lucrarea practică 9 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Lucrarea practică 9
Indicaţii generale:
Testarea de semnificaţie statistică este o metodă, veche de circa 75 de ani, pentru
confirmarea „adevărurilor” pe baza datelor obţinute din eşantioane.
Ea constă, aşa cum a precizat creatorul ei, R. A. Fisher, în acceptarea „adevărului”
afirmaţiei dorite prin respingerea ca „implauzibilă” a unei alte afirmaţii, numite „ipoteza
nulă”. Este însă absolut necesar ca ipoteza nulă să exprime o egalitate sau o coincidenţă!
Având la dispoziţie date provenite dintrun eşantion, dispunem de două metode de
stabilire „statistică” a adevărului, anume testarea bonităţii şi testarea semnificaţiei
statistice. Ele se deosebesc prin specificul propoziţiilor asupra cărora pot fi aplicate:
- testarea bonităţii stabileşte adevărul „statistic” al unor propoziţii ce exprimă o
egalitate, o similaritate sau o coincidenţă,
- testarea semnificaţiei statistice (de semnificaţie statistică) stabileşte adevărul
„statistic” al unor propoziţii ce exprimă o inegalitate, o disimilaritate sau o
discrepanţă.
Un caz particular, destul de des întâlnit, este cel al testului t (sau Student). Acest
test se poate aplica, în studiile biologice, în două situaţii:
1) Pentru a confirma că o populaţie se află, după un tratament, întro stare mai
bună decât înaintea tratamentului;
2) Pentru a confirma că o populaţie se află întro stare mai bună decât altă
populaţie.
Condiţia esenţială de aplicare a acestui test este ca indivizii populaţiilor să poată fi
măsuraţi, aşadar să putem obţine eşantioane de numere reale.

În această lucrare practică:


a) veţi învăţa să lucraţi cu comanda MEANS rezolvând probleme date ca exemplu,
b) veţi interpreta rezultatul testului (de bonitate) Bartlett;
c) veţi confirma, prin testare de semnificaţie, propoziţii care afirmă că o medie este
mai mare decât alta,
d) veţi exploata funcţia RAND pentru a obţine un eşantion „aleator”,
e) veţi folosi Excel pentru a obţine o „curbă ROC”.

Teme
40: comanda MEANS în Epi Info
41: afirmaţii acceptate prin testare de semnificaţie statistică
42: teste Student pereche
43: extragerea eşantioanelor aleatoare
specială: obţinerea curbei ROC în Excel

Softul ce va fi utilizat în lucrarea practică:


Epi Info

108
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2011/2012

Tema 40: comanda MEANS în Epi Info


Să ne reamintim cum se creează un fişier chestionar (view) în EpiInfo. Pentru aceasta
vom folosi modulul Make View, comanda FileNewFile name (numele bazei de date =
nume_EPIINFO)OpenName the View (numele chestionarului = Primul) care conţine
următoarele cinci câmpuri:
– nrcrt. După InsertField vom introduce Question or Prompt = Nr.Crt., Type =
Number, Pattern = ####, Field Name = NrCrt
– varsta. În Field Definition vom introduce Question or Prompt = Varsta, Type = Number,
Pattern = ###, Field Name = Varsta
– sex, care va avea două valori, F şi M. Pentru aceasta în Field Definition vom introduce
Question or Prompt = Sex, Type = Text, Legal ValueCreate New: M, FOK
– dom, care va avea două valori, R (de la „rural”) şi U (de la „urban”). Pentru aceasta în
Field Definition vom introduce Question or Prompt = Domiciliu, Type = Text, Legal
ValueCreate New: R, UOK
– h. În Field Definition vom introduce Question or Prompt = Inaltimea, Type = Number,
Pattern = ###, Field Name = H
Introduceţi acum, folosind modulul Enter Data, datele următoare.
NrCrt Varsta Sex Dom H NrCrt Varsta Sex Dom H
1 59 F R 160 26 39 M U 173
2 48 F R 164 27 41 F U 156
3 59 F U 167 28 77 M R 172
4 19 F U 167 29 32 M U 183
5 60 F U 168 30 76 M U 172
6 58 F R 150 31 31 F U 155
7 51 F U 167 32 64 F U 156
8 36 F U 156 33 74 F U 164
9 41 F U 165 34 27 F R 162
10 50 F U 150 35 38 F U 167
11 21 F U 152 36 63 F U 156
12 19 F U 162 37 28 F R 163
13 35 F U 157 38 64 F U 155
14 43 F U 160 39 71 F U 168
15 27 F U 165 40 69 F U 158
16 31 F U 172 41 23 F U 163
17 15 F R 150 42 88 F U 160
18 33 F U 165 43 49 F U 157
19 69 F R 149 44 52 F U 155
20 63 F U 152 45 35 F U 160
21 24 F U 150 46 63 F U 162
22 66 F U 157 47 57 M R 163
23 82 F U 165 48 27 F U 160
24 54 F U 160 49 40 M R 167
25 54 F U 156 50 55 F U 166
plus o ultimă înregistrare (a 51-a) care să conţină datele d-voastră.
Să facem observaţia că valorile variabilelor Varsta şi H sunt numerice, iar cele ale
variabilelor Sex şi Dom sunt calitative. Tratamentul care se aplică variabilelor depinde de
tipul lor. Pentru variabilele numerice se calculează de obicei media şi varianţa (eventual
abaterea standard). Pentru variabilele calitative se crează de obicei diagrame de tip rozetă.

109
MG - Lucrarea practică 9 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Pentru a efectua calcule statistice vom folosi modulul Analyze Data. Mai întâi vom prelua
fişierul creat anterior. Pentru aceasta vom folosi comanda Read, indicând în Data Source
denumirea nume_EPIINFO.mdb.
Pentru cele două variabile calitative, Sex şi Dom, am putea crea – cu comanda Tables –
tabelul de contingenţă. Vom obţine o serie de rezultate ale comenzii. Formal, am putea
depista o eventuală asociere între sexul masculin şi domiciliul urban, de exemplu, asociere
care poate părea întâmplătoare. Atragem atenţia că metodele statisticii dau uneori rezultate
care nu sunt justificate logic!
Variabilelor numerice NU li se aplică deloc comanda Tables, ci comanda Means.
Calculaţi media şi varianţa variabilei Varsta. Folosiţi comanda MeansMeans of:
Varsta. Media va fi valoarea afişată la Mean iar varianţa valoarea afişată la Variance. Ar
trebui să obţineţi: Mean în jur de 48.0 şi Variance aprox. 347.5.
Calculaţi media şi varianţa variabilei Varsta separat pentru persoanele de sex masculin şi
pentru persoanele de sex feminin: Folosiţi aceeaşi comandă Means Means of: Varsta, dar
de data aceasta Stratify by: Sex.

Reprezentaţi valorile variabilei Sex întro diagramă cu dreptunghiuri. Se foloseşte


comanda Graph: Graph Type: Bar iar la X-Axis: Main_Variable(s): Sex. Titlul diagramei
(1st Title) va fi „Distribuţia pacienţilor pe sexe”. Diagrama obţinută va fi exportată
(comanda FileExport...) în format JPG şi va fi salvată cu numele nume_BARS alegând
aceasta la Export Destination: FileBrowse.
Reamintim că pentru a importa un fişier din format Excel vom folosi modulul Analyze
Data, mai precis, comanda Read. Exemplu:
ReadData Formats: Excel 8.0, Data Source: LP09_1.xls, Worksheets: SmkChol
Pentru acest fişier, reprezentaţi valorile variabilei Smk întro diagramă rozetă. Pentru
reprezentarea grafică se foloseşte comanda Graph: Graph Type: Pie iar la X-Axis:
Main_Variable(s): Smk. Titlul diagramei (1st Title) va fi „Fumători vs. nefumători”.
Diagrama obţinută va fi exportată (FileExport...) în format JPG şi va fi salvată cu numele
nume_PIECHART.
Observati:
Comanda Means (din Epi Info) este folosită pentru a se obţine statistici descriptive
pentru variabile de tip continuu (ceea ce nu este cazul variabilei Sex de mai sus). De
asemenea, sunt calculate şi statistici care se referă la probabilitatea ca mediile pentru
grupuri să fie egale. Comanda Means aplicată unei variabile categoriale (cu valorile
yes/no) calculează proporţia pentru valoarea yes.

110
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2011/2012

Comanda Means are două formate. Dacă se utilizează numai pentru o singură variabilă
(Means of), ea generează un tabel identic cu cel al comenzii Frequencies, dar în plus sunt
calculate şi statisticile descriptive.
În cazul în care comanda se utilizează pentru două variabile, prima fiind o variabilă
numerică care conţine datele care vor fi analizate (Means of) iar cea de-a doua o variabilă
de grupare (Cross-tabulate by Value of), se va obţine un tabel mai amplu, cu următoarele
statistici descriptive pentru fiecare valoare a variabilei de grupare: media (Mean), mediana
(Median), cuartilele (25% şi 75%), valoarea minimă (Minimum) şi maximă (Maximum),
modul (Mode), varianţa (Variance) si deviaţia standard (Std Dev). Tabelul se continuă cu
valorile pentru testele statistice Anova, t, Bartlett, Mann-Whitney/Wilcoxon sau Kruskal-
Wallis. Dacă este specificată şi variabila de grupare (Stratify by), se obţin mai multe
tabele, câte unul pentru fiecare valoare a variabilei de grupare.
Concret, puteţi observa că comanda Means realizează următoarele teste statistice:
1. teste parametrice: ANOVA, Student (t-test),
2. teste neparametrice: Kruskal-Wallis, Mann-Whitney (U-test).
În cazul în care variabila de grupare are numai două valori (adică avem două grupuri) este
calculat testul t (Student) sau testul Mann-Whitney (Wilcoxon Rank Sum Test), iar în cazul în
care variabila de grupare are mai mult de două valori (sunt cel puţin trei grupuri) este
calculat testul F (ANOVA) sau testul Kruskal-Wallis. Alegerea între testul parametric
respectiv cel neparametric se va face în funcţie de rezultatul testului Bartlett (testul pentru
verificarea omogeneităţii varianţelor).
Atenţie, testul Bartlett este un test de bonitate, iar toate celelalte sunt teste de semnificaţie
statistică.
Ca exemplu, preluaţi datele dintrun fişier de învăţare a softului, cu ajutorul comenzii
ReadData Formats: Epi 2000, Data Source: sample.mdb, Views: viewSmoke.
Folosiţi mai întâi comanda List pentru a identifica denumirile variabilelor (câmpurilor).
Încercaţi să identificaţi ce fel de date conţine fiecare. (Valorile variabilei Sex sunt 1 şi 2.)
Să verificăm că există o diferenţă semnificativă între media înălţimilor bărbaţilor şi media
înălţimilor femeilor. Pentru aceasta vom folosi comanda Means în care variabila numerică
este Height iar variabila de grupare (Cross-tabulate by Value of) este Sex.

Vom lucra cu următoarele ipoteze:


Ipoteza alternativă: Există o diferenţă semnificativă între media înălţimilor bărbaţilor şi
media înălţimilor femeilor.
Ipoteza nulă: Nu există o diferenţă semnificativă între media înălţimilor bărbaţilor şi
media înălţimilor femeilor.
111
MG - Lucrarea practică 9 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Variabila Sex are, aşa cum am observat, două valori. Vom verifica mai întâi dacă
dispersiile sunt omogene pentru cele două grupuri: bărbaţi (valoarea 1?) şi femei (valoarea
2?), cu ajutorul testului Bartlett. Se va observa că varianţele pentru înălţimea bărbaţilor
(2481.7762) şi pentru înălţimea femeilor (2509.2829) nu diferă foarte mult între ele.
Valoarea p dată de testul Bartlett este 0.9455 (foarte apropiată de 1), ceea ce indică faptul
că cele două varianţe sunt aproximativ egale, prin urmare putem să folosim rezultatele de la
testele parametrice (fie ANOVA, fie t). În cazul nostru vom folosi rezultatul dat de testul t.
Valoarea p dată de testul t (Student) este afişată ca 0.0000, deci este foarte mică. Se poate
respinge deci ipoteza nulă! Afirmaţia conform căreia există o diferenţă semnificativă între
înălţimea medie a bărbaţilor şi înălţimea medie a femeilor este confirmată de datele din
eşantionul folosit. Această diferenţă nu poate să fie atribuită şansei, întâmplării sau erorii de
eşantionare!
Să verificăm că există o diferenţă semnificativă între greutăţile medii ale straturilor
(persoanele au fost grupate în 3 straturi). Pentru aceasta vom folosi comanda Means în care
variabila numerică este Weight iar variabila de grupare (Cross-tabulate by Value of) este
Strata. Vom lucra cu următoarele ipoteze:
Ipoteza nulă: Greutatea medie a persoanelor din stratul 1 coincide cu greutatea medie a
persoanelor din stratul 2 şi cu greutatea medie a persoanelor din stratul 3.
Ipoteza alternativă: Există cel puţin o diferenţă „semnificativă” între greutăţile medii
corespunzătoare celor 3 straturi.
Rezultatele afişate de către EpiInfo vor arăta în felul următor:
Descriptive Statistics for Each Value of Crosstab Variable
Obs Total Mean Variance Std Dev
1 113 23747.0000 210.1504 40130.0575 200.3249
2 112 24359.0000 217.4911 43714.5044 209.0801
3 112 18840.0000 168.2143 7674.8366 87.6061

Minimum 25% Median 75% Maximum Mode


1 104.0000 130.0000 150.0000 185.0000 999.0000 150.0000
2 88.0000 130.0000 154.5000 187.0000 999.0000 140.0000
3 99.0000 130.0000 155.0000 189.0000 999.0000 120.0000

ANOVA, a Parametric Test for Inequality of Population Means


(For normally distributed data only)
Variation SS df MS F statistic
Between 158453.0891 2 79226.5446 2.5946
Within 10198783.2907 334 30535.2793
Total 10357236.3798 336
P-value = 0.0762
Bartlett's Test for Inequality of Population Variances
Bartlett's chi square= 82.5247 df=2 P value=0.0000
A small p-value (e.g., less than 0.05 suggests that the variances are not homogeneous and that the ANOVA
may not be appropriate.
Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two groups)
Kruskal-Wallis H (equivalent to Chi square) = .0853
Degrees of freedom = 2
P value = 0.9582

112
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2011/2012

Observăm că variabila Strata are trei valori (1, 2 şi 3). Vom verifica mai întâi
omogeneitatea varianţelor, pentru cele trei grupuri, cu ajutorul testului Bartlett. (Rezultate: 1:
40130.05; 2: 43714.50; 3: 7674.83). Observaţi cât de diferite sunt valorile varianţelor în cele
trei straturi.
Valoarea p (de la testul Bartlett) este de data aceasta foarte mică (0.0000), ceea ce indică
faptul că dispersiile sunt categoric neomogene. Prin urmare nu putem să folosim rezultatele
de la testele parametrice (ANOVA sau t). Va trebui aşadar să folosim rezultatele testelor
neparametrice, şi anume – în cazul nostru – rezultatul testului Kruskal-Wallis.
Valoarea p este 0.9582, foarte mare, ar trebui să ne determine să acceptăm ipoteza nulă,
conform căreia nu există diferenţe semnificative între greutăţile medii ale celor trei straturi
(1: 210.15; 2: 217.49; 3: 168.21).
În concluzie, nu există, din punct de vedere statistic, diferenţe între greutăţile medii ale
persoanelor din cele trei straturi, iar diferenţele constatate pot să fie atribuite şansei
(întâmplării) sau erorii de eşantionare.
Exportaţi spre Excel datele pe care le folosiţi. Comanda utilizabilă este Write(Export)
Output Formats: Excel 4.0, File Name: nume_SMOKE. Veţi exploata acest fişier în
lucrarea practică următoare.
Exerciţiu
a) Există diferenţă semnificativă între mediile dozei de medicament (dose) la persoanele
cu vărsături (vomit = 1) şi la persoanele fără vărsături (vomit = 0)? Fişierul de date este
LP09_2.xls.
b) Există diferenţă semnificativă între mediile dozei de medicament (dose) la persoanele
din grupurile definite de cele trei metode (method = 1, 2, 3)? Fişierul de date este acelaşi.
Consideraţi pe rând întrebările de mai sus a) şi b). Rezolvaţi problema ridicată cu ajutorul
aplicaţiei Epi Info. Completaţi documentul nume_MEANS cu următoarele precizări, pentru
fiecare situaţie în parte:
- explicit, ipoteza nulă şi ipoteza alternativă luate în consideraţie,
- rezultatul testului Bartlett şi interpretarea sa,
- testul statistic corespunzător ce va fi ales,
- rezultatul testului şi interpretarea valorii p corespunzătoare,
- concluzia (recomandarea) finală.
De asemenea, salvaţi-l şi ca document hipertext, pregătit pentru includerea în site-ul pe
care vi l-aţi creat.

Tema 41: afirmaţii acceptate prin testare de semnificaţie statistică.


La tema anterioară aţi creat un fişier nume_SMOKE.xls. Conţine date obţinute de la 337
persoane, de ambele sexe, în cadrul unei cercetări efectuate în S.U.A. privind obiceiul de a
fuma. Printre altele, pe coloana intitulată HEIGHT vom găsi înălţimile persoanelor, măsurate
însă în ţoli (inches), nu în cm. De asemenea, pe coloana SEX se află înregistrate valori 1 sau
2 (presupunem că înseamnă „feminin”, resp. „masculin”)
Vom folosi aceste date ca un eşantion care să servească la confirmarea „statistică” a
propoziţiei – considerată ca ipoteză alternativă:
Înălţimea medie a femeilor este mai mică decât înălţimea medie a bărbaţilor.
(Aceasta este departe de a constitui o „noutate ştiinţifică”! Dar scopul nostru, pur didactic,
este de a arăta cum confirmăm o propoziţie prin testare de semnificaţie.)
Ipoteza nulă corespunzătoare (care va fi „respinsă”) se exprimă astfel:
Înălţimea medie a femeilor coincide cu înălţimea medie a bărbaţilor.

113
MG - Lucrarea practică 9 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Pentru a nu ne complica cu detalii inutile, să selectăm coloanele HEIGHT şi SEX şi să le


copiem în domeniul A:B al unei foi de calcul noi, pe care o vom redenumi „TTest”.
Să sortăm domeniul A:B după valorile coloanei SEX. După sortare, să identificăm toate
valorile din coloana HEIGHT care corespund valorii 2 din coloana SEX, ele ar trebui să
ocupe celule contigue (s-ar putea să fie cele din domeniul A124:A338).
Să calculăm, cu funcţia AVERAGE, media înălţimilor femeilor din eşantion. Formula de
calcul – pe care o plasăm întro celulă liberă, de exemplu în celula C2 – este următoarea:
=AVERAGE(A2:A123)
Să calculăm de asemenea media înălţimilor bărbaţilor din eşantion. Formula de calcul –
pe care o plasăm întro altă celulă liberă, de exemplu în celula D2 – este următoarea:
=AVERAGE(A124:A338)
(Este de dorit să plasăm şi texte explicative, de exemplu „Media înălţimilor femeilor” în
celula C1 şi „Media înălţimilor bărbaţilor” în celula D1.)
După obţinerea celor două medii, este obligatorie verificarea concordanţei cu ipoteza
alternativă. Dar, întrucât înalţimile se află în relaţie de inegalitate neconcordantă (549>507),
utilizarea testului de semnificaţie se opreşte aici. Concluzia, pe hârtie, ar trebui să fie
exprimată astfel: „datele obţinute din eşantion nu numai că nu confirmă adevărul propoziţiei,
dar mai degrabă îi confirmă negaţia”.
Să admitem că am făcut o eroare de interpretare, în mod corect valorile 1 şi 2 din coloana
SEX însemnând, „masculin”resp. „feminin”.
În această situaţie mediile de eşantion, calculate cu funcţia AVERAGE, sunt concordante
cu ipoteza alternativă. Putem trece la pasul următor, anume la evaluarea riscului pe care ni-l
asumăm acceptând ca adevărată ipoteza alternativă (când, de fapt, nu este). Acest risc se
evaluează prin valoarea p, şi se calculează cu ajutorul funcţiei TTEST. Mai precis, formula
adecvată de calcul este
=TTEST(A2:A123,A124:338,1,3)
Comparaţi riscul calculat (ar trebui să fie aproximativ 0.000000000000216) cu cel care a
fost raportat de către Epi Info ca valoare p pentru testul t. Concluzia, pe hârtie, ar trebui să
fie exprimată astfel: „datele obţinute din eşantion confirmă adevărul propoziţiei (valoare p <
0.001)”.

Tema 42: teste Student pereche.


A fost efectuat un test clinic pentru a se determina eficacitatea unei substanţe X care, în
opinia firmei producătoare de medicamente, contribuie la creşterea duratei de somn profund.
Au fost testaţi 10 pacienţi voluntari, pe durata a două zile. Fiecăruia i s-au oferit două pastile
aparent identice, câte una în fiecare zi. Una dintre pastile conţinea substanţa „activă”,
cealaltă un placebo cu gust asemănător. Pacienţii nu au avut cunoştinţă despre conţinutul real
al pastilelor.
În tabelul următor sunt înregistrate rezultatele testului clinic, constând în duratele
somnului în cele două situaţii.
Pacientul Medicament Placebo Pacientul Medicament Placebo
1 6.1 5.2 6 8.4 5.4
2 7.0 7.9 7 6.9 4.2
3 8.2 3.9 8 6.7 6.1
4 7.6 4.7 9 7.4 3.8
5 6.5 5.3 10 5.8 6.3

114
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2011/2012

La o primă examinare, se poate observa că duratele din coloana „Placebo” sunt, cu doar
două excepţii, mai mici decât cele din coloana „Medicament”. Aceasta este o indicaţie
pozitivă, dar confirmarea afirmaţiei „folosirea pilulei cu substanţa X conduce la o creştere a
duratei de somn profund” va trebui făcută altfel. Mai precis, confirmarea se va obţine prin
efectuarea unui test de semnificaţie. De data aceasta vom efectua un „test t pereche”.
Ipoteza nulă, pe care încercăm să o „respingem” în urma efectuării testului de
semnificaţie, este următoarea
 medicament   placebo
şi ea exprimă faptul că cele două durate medii de somn profund „nu diferă semnificativ” una
de alta. Ipoteza alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule,
este următoarea:
 medicament   placebo.
Introduceţi datele din tabelul de mai sus, pe coloanele A-B-C, întro foaie de calcul din
fişierul nume_TESTE.xls, pe care o veţi redenumi „TTest”.
Prima operaţiune care trebuie efectuată este calculul duratelor medii de somn profund,
mmedicament pentru „Medicament”, respectiv m placebo pentru „Placebo”. Ar trebui să avem
mmedicament  m placebo, în caz contrar testarea de semnificaţie statistică trebuie oprită
imediat (datele din eşantion nu confirmă ipoteza dorită!)
Plasaţi în celula B12 formula de calcul a mediei
=AVERAGE(B2:B11)
şi extindeţi-o la celula C12.
Valorile obţinute (7.26 şi 5.28) sunt compatibile cu ipoteza alternativă.
Este de dorit să plasăm în celula A12 textul explicativ „Medii”.
Continuăm cu calculul diferenţelor între valorile obţinute pentru fiecare pacient. Ele vor fi
obţinute prin plasarea în celula D2 a formulei de calcul =B2-C2, apoi prelungirea ei la
domeniul D2:D11. Este de dorit să plasăm în celula D1 textul explicativ „Diferenţe”.
În celula D13 plasaţi formula de calcul a abaterii standard (a diferenţelor)
=STDEV(D2:D11)
Se va obţine (aproximativ) valoarea s  1.768 . Statistica pe care o folosim acum este
m placebo  mmedicament
t iar valoarea obţinută o vom compara cu valoarea prag t 
s/ n
corespunzătoare nivelului de semnificaţie  ales, pentru o distribuţie t cu n  1  9 grade de
libertate. Mai precis, vom putea respinge ipoteza nulă doar dacă vom constata că t  t  .
Este de dorit să plasăm în celula A13 textul explicativ „Abateri standard”.
Plasaţi în celula A14 inscripţia „Nivelul de semnificaţie”, iar celula B14 numărul 0.01. În
continuare, plasaţi în celula C14 inscripţia „Valoarea prag”, iar în celula D14 formula
=TINV(B14,9)
De asemenea, plasaţi în celula E14 inscripţia „Valoarea statisticii”, iar în celula F14
formula de calcul:
=(B12-C12)/(D13/SQRT(10))
În sfârşit, în celula A15 plasaţi formula logică:
=IF(F14>D14,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificaţi acum nivelul de semnificaţie, în celula B14, la 0.05. Ce se întâmplă?
Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că folosirea pilulelor cu
substanţa X creşte durata de somn profund.
115
MG - Lucrarea practică 9 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Totuşi, cu nivelul de semnificaţie de doar 1%, această concluzie nu mai este susţinută de
datele din eşantion. Dar o simplă modificare, pentru pacientul nr. 2 a valorii 7.9 în 7.7
(pentru placebo), va determina schimbarea deciziei!
Ar fi de dorit să evaluăm valoarea p asociată ipotezei alternative, adică a riscului de
acceptare eronată a ipotezei alternative (bazându-ne pe datele din eşantionul ales). Este un
calcul simplu, dacă ştim să folosim funcţia TTEST. Plasaţi întro celula liberă formula
=TTEST(B2:B11,C2:C11,1,1)
şi evaluaţi rezultatul, care este tocmai valoarea p dorită.

Tema 43: extragerea eşantioanelor aleatoare.

Teoria statisticii se bazează pe presupunerea că eşantionul a fost ales aleator în populaţie.


Veţi exersa acum tehnica extragerii unui eşantion aleator de pacienţi.
Să admitem că dorim extragerea unui număr determinat (prin calcule statistice anterioare)
de pacienţi, în condiţiile în care fiecărui pacient trebuie să i se acorde şanse egale de a fi ales.
(Atenţie, atunci când afirmăm că „extragem la întâmplare”, de fapt subînţelegem că şansa de
a fi ales este aceeaşi pentru fiecare candidat potenţial.)
Probabil că dintre aplicaţiile larg utilizate cea mai dotată pentru simulări „aleatoare” este
Excel. Ea dispune de funcţia RAND, precum şi de un modul de generare de numere
„aleatoare” distribuite Bernoulli, binomial, Poisson, normal etc. Cea mai adecvată scopului
nostru este funcţia RAND, care returnează UN număr distribuit uniform între 0 şi 1 – ceea ce
înseamnă, în principiu, că orice număr dintre 0 şi 1 are aceleaşi şanse de a fi returnat de către
funcţie. (Atenţie, funcţia RAND dă un rezultat volatil, care se modifică la orice schimbare
efectuată pe foaia de calcul!)
Soluţia de alegere „la întâmplare” a unui număr de indivizi este bazată pe exploatarea
funcţiei RAND.
Pentru exemplificare, să folosim datele celor 368 pacienţi stocate în foaia de calcul
LP09_3.xls, presupunând că aceştia au fost toţi pacienţii examinaţi de medicul A.B. în
decursul unui an. Vom selecta „la întâmplare” un eşantion format din 20 de pacienţi.
Observăm că sunt „ocupate” doar coloanele A-E. Coloana A, sub titulatura „id” conţine
coduri-numere de ordine. Atunci când efectuaţi selecţii, asiguraţi-vă că fiecare înregistrare
(pacient) are un identificator unic, de acest tip.
Vom efectua operaţiunea de selecţie exploatând celulele din coloana F. Mai precis, în
celula F1 vom plasa textul „selectia”, iar în celula F2 vom plasa conţinutul =RAND() (ar fi
de preferat s-o faceţi prin intermediul comenzii Inserare→Funcţie.)
Odată plasat acest conţinut, îl veţi extinde pe verticală – prin tragere de mânerul celulei –
la domeniul F2:F369.
(Ar trebui să observaţi că în urma extinderii conţinutul din F2 se schimbă; motivul este
volatilitatea funcţiei RAND.)
Selectaţi acum datele din celulele A-F (prin tragere deasupra butoanelor-indicator de
coloană). Sortaţi aceste date, după valorile coloanei F. Folosiţi comanda Date→Sortare.
Acum, primele 21 de rânduri vor conţine datele celor 20 de indivizi selectaţi în eşantion.
Copiaţi aceste prime 21 rânduri întro foaie nouă, pe care o denumiţi „Eşantion1”. Repetaţi
procedura de selecţie prin sortarea după datele din coloana F, preluând o copie a primelor 21
rânduri în altă foaie, pe care o denumiţi „Eşantion2”. Redenumind „Originale” foaia iniţială
a fişierului, salvaţi-l cu denumirea nume_SELECTII.xls (dar şi ca pagină Web!).

116
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2011/2012

Tema specială: obţinerea curbei ROC în Excel.

Veţi efectua acum calculele necesare pentru a obţine o curbă ROC.


Curbele ROC (receiver-operating characteristic) sunt diagrame de evaluare a
performanţelor realizate de un test (biologic) în clasificarea în două clase (sănătos/ bolnav).
Se construiesc prin reprezentarea grafică a senzitivităţii în raport cu valoarea 1–
specificitatea, pentru diverse praguri alese în domeniul valorilor testului.
Pentru a le defini, să facem următoarele precizări. Să presupunem că valori „mari” la test
ne îndeamnă să diagnosticăm boala (dar nu cu certitudine absolută!). Subiecţii „pozitivi”
sunt cei pentru care a fost certificată boala, ceilalţi sunt „negativi”. Odată fixat un prag ,
senzitivitatea asociată pragului este proporţia subiecţilor „pozitivi” pentru care valoarea la
test depăşeşte pragul . Specificitatea asociată pragului este proporţia subiecţilor „negativi”
(adică sănătoşi) pentru care valoarea la test nu depăşeşte pragul .
Concret, senzitivitatea se obţine împărţind numărul de subiecţi „true positives” la numărul
total de subiecţi „pozitivi” (bolnavi), iar specificitatea se obţine împărţind numărul de
subiecţi „true negatives” la numărul total de subiecţi „negativi”.
Preluaţi foaia de calcul din fişierul LP09_4.xls în foaia – pe care o veţi denumi „Datele” –
din cartea de calcul pe care o veţi denumi nume_ROC.xls. Veţi găsi valorile testului pentru
32 de subiecţi, împreună cu clasificarea lor, certificată clinic.
Un prim calcul ce trebuie realizat, după sortarea „înregistrărilor” în ordinea crescătoare a
valorilor testului, este cel al valorilor extreme ale testului. Plasaţi în celula C1 textul
„Extreme”, apoi în celulele din domeniul C2:C3 inseraţi formulele de calcul
corespunzătoare. (În C2 formula de obţinere a valorii minime =MIN(A2:A33), iar în C3
formula pentru valoarea maximă =MAX(A2:A33).)
Inseraţi în cartea de calcul nume_ROC.xls o foaie nouă, denumind-o „Calcule”. Veţi
efectua aici următoarele operaţiuni, în ordine:
a) preluaţi din foaia „Datele” coloanele A şi B;
b) plasaţi în coloana C valorile-prag pentru care calculăm senzitivitatea şi specificitatea.
Plasaţi în celula C1 textul „Praguri”, în C2 formula primului prag (care este cu 1 mai mic
decât valoarea minimă) =Datele!C2–1, iar în C3 formula primului prag intermediar (care
este media aritmetică a primelor două valori) =(A3+A2)/2. Extindeţi formula din C3 la
domeniul C3:C33 iar dedesubt plasaţi formula ultimului prag =Datele!C3+1;
c) este obligatoriu să identificăm pragurile intermediare care coincid cu valori ale testului,
pentru a fi eliminate. În acest scop veţi compara coloana C cu coloana A a valorilor testului,
iar rezultatele comparării le veţi trece pe coloana D. Aşadar, în celula D1 plasaţi textul
„Elimin rândul?”, iar în D2 formula =IF(C2=A2,”da”,”nu”) pe care o extindeţi la
domeniul D2:D34;
d) urmează stabilirea numărului de subiecţi „true negatives”, „false negatives”, „true
positives” şi „false positives” pentru fiecare prag. Veţi rezerva în acest scop coloanele E:H,
în care:
– pe rândul 1 veţi plasa texte de identificare, de exemplu „True neg” în celula E1, „False
neg” în celula F1, „False pos” în celula G1 şi „True pos” în celula H1;
– pe rândul 2 veţi plasa valori de iniţializare, de exemplu „0” în celulele E2 şi F2, apoi
=COUNTIF($B$2:$B$33,"sanatos")–E2 în celula G2, iar în celula H2 formula
=COUNTIF($B$2:$B$33,"bolnav")–F2;
– pe rândul 3 veţi plasa alte valori de iniţializare în celulele E3 şi F3, apoi le veţi extinde
pe rândurile următoare, până la 34. Formulele sunt

117
MG - Lucrarea practică 9 2011/2012 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

=COUNTIF($B$2:$B3,"sanatos") resp. =COUNTIF(...,"bolnav")


(Aţi identificat rolul acestor formule?)
e) în sfârşit, coloanele I şi J vor servi pentru calcularea senzitivităţilor respectiv
specificităţilor. Plasaţi în celula I1 textul „1 – Specif” iar în J1 textul „Senzit”, inseraţi
dedesubt formulele de calcul, =1–E2/(E2+G2) în celula I2 şi =F2/(F2+H2) în celula
J2 după care extindeţi formulele la domeniul I2:J34.
Inseraţi în cartea de calcul nume_ROC.xls a treia foaie, denumind-o „Grafica”. Veţi
aduce aici datele de care avem nevoie pentru a efectua reprezentarea grafică dorită. Mai
precis, preluaţi în domeniul A1:C34 prin Copiere/Lipire specială (Valori), una după alta,
coloanele identificate de textele „Elimin rândul?”, „1 – Specif” şi „Senzit” din foaia
„Calcule”.
Selectaţi domeniul A1:C34 şi sortaţi-l după valorile din coloana „Elimin rândul?”. După
sortare eliminaţi toate rândurile care au valoarea „da” în această coloană.
Cu datele rămase în coloanele B şi C veţi construi reprezentarea grafică. După selectarea
lor inseraţi diagrama de tipul X-Y (cu marcatori
uniţi prin segmente). Introduceţi prin tastare
titlurile „1 – Specificitatea” pe axa X şi
„Senzitivitatea” pe axa Y. Eliminaţi legenda şi
toate liniile de ghidare.
Modificaţi scalarea pe ambele axe aşa încât
valorile extreme să fie 0 ş 1.
Folosind instrumentele de desenare, plasaţi pe
diagonală un segment de dreaptă, iar apoi textul
„aria = 0.675” întro casetă text.
Preluaţi diagrama obţinută în documentul
nume_CURBA_ROC.doc plasând-o ca
exemplu după paragrafele pe fond gri anterioare.

118

S-ar putea să vă placă și