Documente Academic
Documente Profesional
Documente Cultură
MG LP06
MG LP06
Lucrarea practică 6
Indicaţii generale:
Testarea de semnificaţie statistică este o metodă, veche de circa 75 de ani, pentru
confirmarea „adevărurilor” pe baza datelor obţinute din eşantioane. Ea constă, aşa cum a
precizat creatorul ei, R. A. Fisher, în acceptarea „adevărului” afirmaţiei dorite prin
respingerea ca „implauzibilă” a unei alte afirmaţii, numite „ipoteza nulă”. Este însă absolut
necesar ca ipoteza nulă să exprime o egalitate sau o coincidenţă!
Având la dispoziţie date provenite dintrun eşantion, dispunem de două metode de
stabilire „statistică” a adevărului, anume testarea bonităţii şi testarea semnificaţiei
statistice. Ele se deosebesc prin specificul propoziţiilor asupra cărora pot fi aplicate:
- testarea bonităţii stabileşte adevărul „statistic” al unor propoziţii ce exprimă o
egalitate, o similaritate sau o coincidenţă,
- testarea semnificaţiei statistice (de semnificaţie statistică) stabileşte adevărul
„statistic” al unor propoziţii ce exprimă o inegalitate, o disimilaritate sau o
discrepanţă.
Un caz particular, destul de des întâlnit, este cel al testului t (sau Student). Acest
test se poate aplica, în studiile biologice, în două situaţii:
1) Pentru a confirma că o populaţie se află, după un tratament, întro stare mai
bună decât înaintea tratamentului;
2) Pentru a confirma că o populaţie se află întro stare mai bună decât altă
populaţie.
Condiţia esenţială de aplicare a acestui test este ca indivizii populaţiilor să poată fi
măsuraţi, aşadar să putem obţine eşantioane de numere reale.
Aplicaţiile de calcul tabelar sunt astăzi instrumente puternice la dispoziţia
cercetătorilor. Nu doar calcule care în trecut necesitau eforturi mari şi consum de timp, dar
şi reprezentări grafice elaborate, pot fi obţinute astăzi cu uşurinţă. Aceasta va fi
exemplificat prin obţinerea coeficientului de corelaţie între două seturi de date şi a dreptei
de regresie, de asemenea prin realizarea rapidă a unei diagrame de tip structură radială
specială.
În această lucrare practică:
a) veţi învăţa să lucraţi cu comanda MEANS rezolvând probleme date ca exemplu,
b) veţi interpreta rezultatul testului (de bonitate) Bartlett;
c) veţi confirma, prin testare de semnificaţie, propoziţii care afirmă că o medie este
mai mare decât alta,
d) vă veţi familiariza cu exploatarea simultană a datelor depuse pe mai multe foi de
calcul;
e) veţi învăţa să controlaţi diagrame de tipul structură radială din structură radială,
cel mai „complicat” tip realizat de către Excel.
Teme
27: comanda MEANS în Epi Info
28: afirmaţii acceptate prin testare de semnificaţie statistică
29: teste Student pereche
30: folosirea testului Student
31: structuri radiale în Excel
Pentru a efectua calcule statistice vom folosi modulul Analyze Data. Mai întâi vom prelua
fişierul creat anterior. Pentru aceasta vom folosi comanda Read, indicând în Data Source
denumirea nume_EPIINFO.mdb.
Pentru cele două variabile calitative, Sex şi Dom, am putea crea – cu comanda Tables –
tabelul de contingenţă. Vom obţine o serie de rezultate ale comenzii. Formal, am putea
depista o eventuală asociere între sexul masculin şi domiciliul urban, de exemplu, asociere
care poate părea întâmplătoare. Atragem atenţia că metodele statisticii dau uneori rezultate
care nu sunt justificate logic!
Variabilelor numerice NU li se aplică deloc comanda Tables, ci comanda Means.
Calculaţi media şi varianţa variabilei Varsta. Folosiţi comanda Means Means of:
Varsta. Media va fi valoarea afişată la Mean iar varianţa valoarea afişată la Variance. Ar
trebui să obţineţi: Mean în jur de 48.0 şi Variance aprox. 347.5.
Calculaţi media şi varianţa variabilei Varsta separat pentru persoanele de sex masculin şi
pentru persoanele de sex feminin: Folosiţi aceeaşi comandă Means Means of: Varsta, dar
de data aceasta Stratify by: Sex.
107
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Comanda Means are două formate. Dacă se utilizează numai pentru o singură variabilă
(Means of), ea generează un tabel identic cu cel al comenzii Frequencies, dar în plus sunt
calculate şi statisticile descriptive.
În cazul în care comanda se utilizează pentru două variabile, prima fiind o variabilă
numerică care conţine datele care vor fi analizate (Means of) iar cea de-a doua o variabilă
de grupare (Cross-tabulate by Value of), se va obţine un tabel mai amplu, cu următoarele
statistici descriptive pentru fiecare valoare a variabilei de grupare: media (Mean), mediana
(Median), cuartilele (25% şi 75%), valoarea minimă (Minimum) şi maximă (Maximum),
modul (Mode), varianţa (Variance) si deviaţia standard (Std Dev). Tabelul se continuă cu
valorile pentru testele statistice Anova, t, Bartlett, Mann-Whitney/Wilcoxon sau Kruskal-
Wallis. Dacă este specificată şi variabila de grupare (Stratify by), se obţin mai multe
tabele, câte unul pentru fiecare valoare a variabilei de grupare.
Concret, puteţi observa că comanda Means realizează următoarele teste statistice:
1. teste parametrice: ANOVA, Student (t-test),
2. teste neparametrice: Kruskal-Wallis, Mann-Whitney (U-test).
În cazul în care variabila de grupare are numai două valori (adică avem două grupuri) este
calculat testul t (Student) sau testul Mann-Whitney (Wilcoxon Rank Sum Test), iar în cazul în
care variabila de grupare are mai mult de două valori (sunt cel puţin trei grupuri) este
calculat testul F (ANOVA) sau testul Kruskal-Wallis. Alegerea între testul parametric
respectiv cel neparametric se va face în funcţie de rezultatul testului Bartlett (testul pentru
verificarea omogeneităţii varianţelor).
Atenţie, testul Bartlett este un test de bonitate, iar toate celelalte sunt teste de semnificaţie
statistică.
Ca exemplu, preluaţi datele dintrun fişier de învăţare a softului, cu ajutorul comenzii
Read Data Formats: Epi 2000, Data Source: sample.mdb, Views: viewSmoke.
Folosiţi mai întâi comanda List pentru a identifica denumirile variabilelor (câmpurilor).
Încercaţi să identificaţi ce fel de date conţine fiecare. (Valorile variabilei Sex sunt 1 şi 2.)
Să verificăm că există o diferenţă semnificativă între media înălţimilor bărbaţilor şi media
înălţimilor femeilor. Pentru aceasta vom folosi comanda Means în care variabila numerică
este Height iar variabila de grupare (Cross-tabulate by Value of) este Sex.
Variabila Sex are, aşa cum am observat, două valori. Vom verifica mai întâi dacă
dispersiile sunt omogene pentru cele două grupuri: bărbaţi (valoarea 1?) şi femei (valoarea
2?), cu ajutorul testului Bartlett. Se va observa că varianţele pentru înălţimea bărbaţilor
(2481.7762) şi pentru înălţimea femeilor (2509.2829) nu diferă foarte mult între ele.
Valoarea p dată de testul Bartlett este 0.9455 (foarte apropiată de 1), ceea ce indică faptul
că cele două varianţe sunt aproximativ egale, prin urmare putem să folosim rezultatele de la
testele parametrice (fie ANOVA, fie t). În cazul nostru vom folosi rezultatul dat de testul t.
Valoarea p dată de testul t (Student) este afişată ca 0.0000, deci este foarte mică. Se poate
respinge deci ipoteza nulă! Afirmaţia conform căreia există o diferenţă semnificativă între
înălţimea medie a bărbaţilor şi înălţimea medie a femeilor este confirmată de datele din
eşantionul folosit. Această diferenţă nu poate să fie atribuită şansei, întâmplării sau erorii de
eşantionare!
Să verificăm că există o diferenţă semnificativă între greutăţile medii ale straturilor
(persoanele au fost grupate în 3 straturi). Pentru aceasta vom folosi comanda Means în care
variabila numerică este Weight iar variabila de grupare (Cross-tabulate by Value of) este
Strata. Vom lucra cu următoarele ipoteze:
Ipoteza nulă: Greutatea medie a persoanelor din stratul 1 coincide cu greutatea medie a
persoanelor din stratul 2 şi cu greutatea medie a persoanelor din stratul 3.
Ipoteza alternativă: Există cel puţin o diferenţă „semnificativă” între greutăţile medii
corespunzătoare celor 3 straturi.
Rezultatele afişate de către EpiInfo vor arăta în felul următor:
Descriptive Statistics for Each Value of Crosstab Variable
Obs Total Mean Variance Std Dev
1 113 23747.0000 210.1504 40130.0575 200.3249
2 112 24359.0000 217.4911 43714.5044 209.0801
3 112 18840.0000 168.2143 7674.8366 87.6061
109
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Observăm că variabila Strata are trei valori (1, 2 şi 3). Vom verifica mai întâi
omogeneitatea varianţelor, pentru cele trei grupuri, cu ajutorul testului Bartlett. (Rezultate: 1:
40130.05; 2: 43714.50; 3: 7674.83). Observaţi cât de diferite sunt valorile varianţelor în cele
trei straturi.
Valoarea p (de la testul Bartlett) este de data aceasta foarte mică (0.0000), ceea ce indică
faptul că dispersiile sunt categoric neomogene. Prin urmare nu putem să folosim rezultatele
de la testele parametrice (ANOVA sau t). Va trebui aşadar să folosim rezultatele testelor
neparametrice, şi anume – în cazul nostru – rezultatul testului Kruskal-Wallis.
Valoarea p este 0.9582, foarte mare, ar trebui să ne determine să acceptăm ipoteza nulă,
conform căreia nu există diferenţe semnificative între greutăţile medii ale celor trei straturi
(1: 210.15; 2: 217.49; 3: 168.21).
În concluzie, nu există, din punct de vedere statistic, diferenţe între greutăţile medii ale
persoanelor din cele trei straturi, iar diferenţele constatate pot să fie atribuite şansei
(întâmplării) sau erorii de eşantionare.
Exportaţi spre Excel datele pe care le folosiţi. Comanda utilizabilă este Write(Export)
Output Formats: Excel 4.0, File Name: nume_SMOKE. Veţi exploata acest fişier în
lucrarea practică următoare.
Exerciţiu
a) Există diferenţă semnificativă între mediile dozei de medicament (dose) la persoanele
cu vărsături (vomit = 1) şi la persoanele fără vărsături (vomit = 0)? Fişierul de date este
LP06_2.xls.
b) Există diferenţă semnificativă între mediile dozei de medicament (dose) la persoanele
din grupurile definite de cele trei metode (method = 1, 2, 3)? Fişierul de date este acelaşi.
Consideraţi pe rând întrebările de mai sus a) şi b). Rezolvaţi problema ridicată cu ajutorul
aplicaţiei Epi Info. Completaţi documentul nume_MEANS cu următoarele precizări, pentru
fiecare situaţie în parte:
- explicit, ipoteza nulă şi ipoteza alternativă luate în consideraţie,
- rezultatul testului Bartlett şi interpretarea sa,
- testul statistic corespunzător ce va fi ales,
- rezultatul testului şi interpretarea valorii p corespunzătoare,
- concluzia (recomandarea) finală.
De asemenea, salvaţi-l şi ca document hipertext, pregătit pentru includerea în site-ul pe
care vi l-aţi creat.
110
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016
111
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
La o primă examinare, se poate observa că duratele din coloana „Placebo” sunt, cu doar
două excepţii, mai mici decât cele din coloana „Medicament”. Aceasta este o indicaţie
pozitivă, dar confirmarea afirmaţiei „folosirea pilulei cu substanţa X conduce la o creştere a
duratei de somn profund” va trebui făcută altfel. Mai precis, confirmarea se va obţine prin
efectuarea unui test de semnificaţie. De data aceasta vom efectua un „test t pereche”.
Ipoteza nulă, pe care încercăm să o „respingem” în urma efectuării testului de
semnificaţie, este următoarea
medicament placebo
şi ea exprimă faptul că cele două durate medii de somn profund „nu diferă semnificativ” una
de alta. Ipoteza alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule,
este următoarea:
medicament placebo.
Introduceţi datele din tabelul de mai sus, pe coloanele A-B-C, întro foaie de calcul din
fişierul nume_TESTE.xls, pe care o veţi redenumi „TTest”.
Prima operaţiune care trebuie efectuată este calculul duratelor medii de somn profund,
mmedicament pentru „Medicament”, respectiv m placebo pentru „Placebo”. Ar trebui să avem
mmedicament m placebo, în caz contrar testarea de semnificaţie statistică trebuie oprită
imediat (datele din eşantion nu confirmă ipoteza dorită!)
Plasaţi în celula B12 formula de calcul a mediei
=AVERAGE(B2:B11)
şi extindeţi-o la celula C12.
Valorile obţinute (7.26 şi 5.28) sunt compatibile cu ipoteza alternativă.
Este de dorit să plasăm în celula A12 textul explicativ „Medii”.
Continuăm cu calculul diferenţelor între valorile obţinute pentru fiecare pacient. Ele vor fi
obţinute prin plasarea în celula D2 a formulei de calcul =B2-C2, apoi prelungirea ei la
domeniul D2:D11. Este de dorit să plasăm în celula D1 textul explicativ „Diferenţe”.
În celula D13 plasaţi formula de calcul a abaterii standard (a diferenţelor)
=STDEV(D2:D11)
Se va obţine (aproximativ) valoarea s 1.768 . Statistica pe care o folosim acum este
m placebo mmedicament
t iar valoarea obţinută o vom compara cu valoarea prag t
s/ n
corespunzătoare nivelului de semnificaţie ales, pentru o distribuţie t cu n 1 9 grade de
libertate. Mai precis, vom putea respinge ipoteza nulă doar dacă vom constata că t t .
Este de dorit să plasăm în celula A13 textul explicativ „Abateri standard”.
Plasaţi în celula A14 inscripţia „Nivelul de semnificaţie”, iar celula B14 numărul 0.01. În
continuare, plasaţi în celula C14 inscripţia „Valoarea prag”, iar în celula D14 formula
=TINV(B14,9)
De asemenea, plasaţi în celula E14 inscripţia „Valoarea statisticii”, iar în celula F14
formula de calcul:
=(B12-C12)/(D13/SQRT(10))
În sfârşit, în celula A15 plasaţi formula logică:
=IF(F14>D14,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificaţi acum nivelul de semnificaţie, în celula B14, la 0.05. Ce se întâmplă?
Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că folosirea pilulelor cu
substanţa X creşte durata de somn profund.
112
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016
Totuşi, cu nivelul de semnificaţie de doar 1%, această concluzie nu mai este susţinută de
datele din eşantion. Dar o simplă modificare, pentru pacientul nr. 2 a valorii 7.9 în 7.7
(pentru placebo), va determina schimbarea deciziei!
Ar fi de dorit să evaluăm valoarea p asociată ipotezei alternative, adică a riscului de
acceptare eronată a ipotezei alternative (bazându-ne pe datele din eşantionul ales). Este un
calcul simplu, dacă ştim să folosim funcţia TTEST. Plasaţi întro celula liberă formula
=TTEST(B2:B11,C2:C11,1,1)
şi evaluaţi rezultatul, care este tocmai valoarea p dorită.
113
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
De asemenea, în tableta Etichete de date activaţi două dintre casetele de validare din
grupul Eticheta de date, şi anume „Afişare etichetă” şi „Afişare valoare”. Veţi observa că în
dreptul sectoarelor de cerc apar inscripţiile din domeniul A1:A4, cu excepţia inscripţiei
„None, 68”. Prin dublu-clic deasupra acesteia încercaţi să preluaţi controlul ei şi să eliminaţi
textul nedorit, rămânând numai „68”.
114
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016
Prin clic, clic-dreapta sau dublu-clic deasupra câte unui sector încercaţi să preluaţi
controlul colorării sectorului respectiv. Încercaţi să determinaţi aplicarea unor efecte de
umplere. (Ar trebui să acţionaţi în caseta de dialog Formatare puncte de date, tableta
Modele, grupul Suprafaţa, prin apăsarea butonului Efecte de umplere.) Atenţie, nu încercaţi
acest lucru în caseta de dialog Formatare serie de date, întrucât veţi determina
nediferenţierea sectoarelor. Nu uitaţi: în cazul unei erori sau obţinerii unui efect nedorit,
reveniţi la situaţia anterioară prin comanda Editare Revenire.
Plasaţi acum în celula D1 a foii „Frecvenţe” textul „Separatori”, iar în domeniul D2:D7
numerele 140, 150, 160, 170, 180, 190. În celula E1 plasaţi textul „Frecvenţe”, iar în celula
E2 formula
=FREQUENCY(Lombar!F2:F201,D2:D7)
Selectaţi acum domeniul E2:E8, plasaţi cu un clic un punct de inserare pe bara formulei,
apoi tastaţi [Ctrl]+[Shift]+[Enter]. În acest fel se obţin dintr-o singură mişcare toate
frecvenţele (absolute) ale înălţimilor indivizilor din eşantion, conform valorilor de separare
alese (din 10 în 10 centimetri).
Selectând acum domeniul D1:E8, încercaţi să realizaţi o diagramă a frecvenţelor. Care
este tipul adecvat şi ce titlu ar trebui să poarte diagrama?
Redenumiţi nume_SONDAJ.xls cartea de calcul conţinând cele două foi de calcul şi
două foi cu diagrame. Încercaţi salvarea sub formă de pagină web, pregătind-o pentru
inserare în site-ul d-voastră.
115