Sunteți pe pagina 1din 11

UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016

Lucrarea practică 6
Indicaţii generale:
Testarea de semnificaţie statistică este o metodă, veche de circa 75 de ani, pentru
confirmarea „adevărurilor” pe baza datelor obţinute din eşantioane. Ea constă, aşa cum a
precizat creatorul ei, R. A. Fisher, în acceptarea „adevărului” afirmaţiei dorite prin
respingerea ca „implauzibilă” a unei alte afirmaţii, numite „ipoteza nulă”. Este însă absolut
necesar ca ipoteza nulă să exprime o egalitate sau o coincidenţă!
Având la dispoziţie date provenite dintrun eşantion, dispunem de două metode de
stabilire „statistică” a adevărului, anume testarea bonităţii şi testarea semnificaţiei
statistice. Ele se deosebesc prin specificul propoziţiilor asupra cărora pot fi aplicate:
- testarea bonităţii stabileşte adevărul „statistic” al unor propoziţii ce exprimă o
egalitate, o similaritate sau o coincidenţă,
- testarea semnificaţiei statistice (de semnificaţie statistică) stabileşte adevărul
„statistic” al unor propoziţii ce exprimă o inegalitate, o disimilaritate sau o
discrepanţă.
Un caz particular, destul de des întâlnit, este cel al testului t (sau Student). Acest
test se poate aplica, în studiile biologice, în două situaţii:
1) Pentru a confirma că o populaţie se află, după un tratament, întro stare mai
bună decât înaintea tratamentului;
2) Pentru a confirma că o populaţie se află întro stare mai bună decât altă
populaţie.
Condiţia esenţială de aplicare a acestui test este ca indivizii populaţiilor să poată fi
măsuraţi, aşadar să putem obţine eşantioane de numere reale.
Aplicaţiile de calcul tabelar sunt astăzi instrumente puternice la dispoziţia
cercetătorilor. Nu doar calcule care în trecut necesitau eforturi mari şi consum de timp, dar
şi reprezentări grafice elaborate, pot fi obţinute astăzi cu uşurinţă. Aceasta va fi
exemplificat prin obţinerea coeficientului de corelaţie între două seturi de date şi a dreptei
de regresie, de asemenea prin realizarea rapidă a unei diagrame de tip structură radială
specială.
În această lucrare practică:
a) veţi învăţa să lucraţi cu comanda MEANS rezolvând probleme date ca exemplu,
b) veţi interpreta rezultatul testului (de bonitate) Bartlett;
c) veţi confirma, prin testare de semnificaţie, propoziţii care afirmă că o medie este
mai mare decât alta,
d) vă veţi familiariza cu exploatarea simultană a datelor depuse pe mai multe foi de
calcul;
e) veţi învăţa să controlaţi diagrame de tipul structură radială din structură radială,
cel mai „complicat” tip realizat de către Excel.

Teme
27: comanda MEANS în Epi Info
28: afirmaţii acceptate prin testare de semnificaţie statistică
29: teste Student pereche
30: folosirea testului Student
31: structuri radiale în Excel

Softul ce va fi utilizat în lucrarea practică:


Epi Info
105
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Tema 27: comanda MEANS în Epi Info


Să ne reamintim cum se creează un fişier chestionar (view) în EpiInfo. Pentru aceasta
vom folosi modulul Make View, comanda File New File name (numele bazei de date =
nume_EPIINFO) Open Name the View (numele chestionarului = Primul) care conţine
următoarele cinci câmpuri:
– nrcrt. După Insert Field vom introduce Question or Prompt = Nr.Crt., Type =
Number, Pattern = ####, Field Name = NrCrt
– varsta. În Field Definition vom introduce Question or Prompt = Varsta, Type = Number,
Pattern = ###, Field Name = Varsta
– sex, care va avea două valori, F şi M. Pentru aceasta în Field Definition vom introduce
Question or Prompt = Sex, Type = Text, Legal Value Create New: M, F OK
– dom, care va avea două valori, R (de la „rural”) şi U (de la „urban”). Pentru aceasta în
Field Definition vom introduce Question or Prompt = Domiciliu, Type = Text, Legal
Value Create New: R, U OK
– h. În Field Definition vom introduce Question or Prompt = Inaltimea, Type = Number,
Pattern = ###, Field Name = H
Introduceţi acum, folosind modulul Enter Data, datele următoare.
NrCrt Varsta Sex Dom H NrCrt Varsta Sex Dom H
1 59 F R 160 26 39 M U 173
2 48 F R 164 27 41 F U 156
3 59 F U 167 28 77 M R 172
4 19 F U 167 29 32 M U 183
5 60 F U 168 30 76 M U 172
6 58 F R 150 31 31 F U 155
7 51 F U 167 32 64 F U 156
8 36 F U 156 33 74 F U 164
9 41 F U 165 34 27 F R 162
10 50 F U 150 35 38 F U 167
11 21 F U 152 36 63 F U 156
12 19 F U 162 37 28 F R 163
13 35 F U 157 38 64 F U 155
14 43 F U 160 39 71 F U 168
15 27 F U 165 40 69 F U 158
16 31 F U 172 41 23 F U 163
17 15 F R 150 42 88 F U 160
18 33 F U 165 43 49 F U 157
19 69 F R 149 44 52 F U 155
20 63 F U 152 45 35 F U 160
21 24 F U 150 46 63 F U 162
22 66 F U 157 47 57 M R 163
23 82 F U 165 48 27 F U 160
24 54 F U 160 49 40 M R 167
25 54 F U 156 50 55 F U 166
plus o ultimă înregistrare (a 51-a) care să conţină datele d-voastră.
Să facem observaţia că valorile variabilelor Varsta şi H sunt numerice, iar cele ale
variabilelor Sex şi Dom sunt calitative. Tratamentul care se aplică variabilelor depinde de
tipul lor. Pentru variabilele numerice se calculează de obicei media şi varianţa (eventual
abaterea standard). Pentru variabilele calitative se crează de obicei diagrame de tip rozetă.
106
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016

Pentru a efectua calcule statistice vom folosi modulul Analyze Data. Mai întâi vom prelua
fişierul creat anterior. Pentru aceasta vom folosi comanda Read, indicând în Data Source
denumirea nume_EPIINFO.mdb.
Pentru cele două variabile calitative, Sex şi Dom, am putea crea – cu comanda Tables –
tabelul de contingenţă. Vom obţine o serie de rezultate ale comenzii. Formal, am putea
depista o eventuală asociere între sexul masculin şi domiciliul urban, de exemplu, asociere
care poate părea întâmplătoare. Atragem atenţia că metodele statisticii dau uneori rezultate
care nu sunt justificate logic!
Variabilelor numerice NU li se aplică deloc comanda Tables, ci comanda Means.
Calculaţi media şi varianţa variabilei Varsta. Folosiţi comanda Means Means of:
Varsta. Media va fi valoarea afişată la Mean iar varianţa valoarea afişată la Variance. Ar
trebui să obţineţi: Mean în jur de 48.0 şi Variance aprox. 347.5.
Calculaţi media şi varianţa variabilei Varsta separat pentru persoanele de sex masculin şi
pentru persoanele de sex feminin: Folosiţi aceeaşi comandă Means Means of: Varsta, dar
de data aceasta Stratify by: Sex.

Reprezentaţi valorile variabilei Sex întro diagramă cu dreptunghiuri. Se foloseşte


comanda Graph: Graph Type: Bar iar la X-Axis: Main_Variable(s): Sex. Titlul diagramei
(1st Title) va fi „Distribuţia pacienţilor pe sexe”. Diagrama obţinută va fi exportată
(comanda File Export...) în format JPG şi va fi salvată cu numele nume_BARS alegând
aceasta la Export Destination: File Browse.
Reamintim că pentru a importa un fişier din format Excel vom folosi modulul Analyze
Data, mai precis, comanda Read. Exemplu:
Read Data Formats: Excel 8.0, Data Source: LP06_1.xls, Worksheets: SmkChol
Pentru acest fişier, reprezentaţi valorile variabilei Smk întro diagramă rozetă. Pentru
reprezentarea grafică se foloseşte comanda Graph: Graph Type: Pie iar la X-Axis:
Main_Variable(s): Smk. Titlul diagramei (1st Title) va fi „Fumători vs. nefumători”.
Diagrama obţinută va fi exportată (File Export...) în format JPG şi va fi salvată cu numele
nume_PIECHART.
Observati:
Comanda Means (din Epi Info) este folosită pentru a se obţine statistici descriptive
pentru variabile de tip continuu (ceea ce nu este cazul variabilei Sex de mai sus). De
asemenea, sunt calculate şi statistici care se referă la probabilitatea ca mediile pentru
grupuri să fie egale. Comanda Means aplicată unei variabile categoriale (cu valorile
yes/no) calculează proporţia pentru valoarea yes.

107
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Comanda Means are două formate. Dacă se utilizează numai pentru o singură variabilă
(Means of), ea generează un tabel identic cu cel al comenzii Frequencies, dar în plus sunt
calculate şi statisticile descriptive.
În cazul în care comanda se utilizează pentru două variabile, prima fiind o variabilă
numerică care conţine datele care vor fi analizate (Means of) iar cea de-a doua o variabilă
de grupare (Cross-tabulate by Value of), se va obţine un tabel mai amplu, cu următoarele
statistici descriptive pentru fiecare valoare a variabilei de grupare: media (Mean), mediana
(Median), cuartilele (25% şi 75%), valoarea minimă (Minimum) şi maximă (Maximum),
modul (Mode), varianţa (Variance) si deviaţia standard (Std Dev). Tabelul se continuă cu
valorile pentru testele statistice Anova, t, Bartlett, Mann-Whitney/Wilcoxon sau Kruskal-
Wallis. Dacă este specificată şi variabila de grupare (Stratify by), se obţin mai multe
tabele, câte unul pentru fiecare valoare a variabilei de grupare.
Concret, puteţi observa că comanda Means realizează următoarele teste statistice:
1. teste parametrice: ANOVA, Student (t-test),
2. teste neparametrice: Kruskal-Wallis, Mann-Whitney (U-test).
În cazul în care variabila de grupare are numai două valori (adică avem două grupuri) este
calculat testul t (Student) sau testul Mann-Whitney (Wilcoxon Rank Sum Test), iar în cazul în
care variabila de grupare are mai mult de două valori (sunt cel puţin trei grupuri) este
calculat testul F (ANOVA) sau testul Kruskal-Wallis. Alegerea între testul parametric
respectiv cel neparametric se va face în funcţie de rezultatul testului Bartlett (testul pentru
verificarea omogeneităţii varianţelor).
Atenţie, testul Bartlett este un test de bonitate, iar toate celelalte sunt teste de semnificaţie
statistică.
Ca exemplu, preluaţi datele dintrun fişier de învăţare a softului, cu ajutorul comenzii
Read Data Formats: Epi 2000, Data Source: sample.mdb, Views: viewSmoke.
Folosiţi mai întâi comanda List pentru a identifica denumirile variabilelor (câmpurilor).
Încercaţi să identificaţi ce fel de date conţine fiecare. (Valorile variabilei Sex sunt 1 şi 2.)
Să verificăm că există o diferenţă semnificativă între media înălţimilor bărbaţilor şi media
înălţimilor femeilor. Pentru aceasta vom folosi comanda Means în care variabila numerică
este Height iar variabila de grupare (Cross-tabulate by Value of) este Sex.

Vom lucra cu următoarele ipoteze:


Ipoteza alternativă: Există o diferenţă semnificativă între media înălţimilor bărbaţilor şi
media înălţimilor femeilor.
Ipoteza nulă: Nu există o diferenţă semnificativă între media înălţimilor bărbaţilor şi
media înălţimilor femeilor.
108
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016

Variabila Sex are, aşa cum am observat, două valori. Vom verifica mai întâi dacă
dispersiile sunt omogene pentru cele două grupuri: bărbaţi (valoarea 1?) şi femei (valoarea
2?), cu ajutorul testului Bartlett. Se va observa că varianţele pentru înălţimea bărbaţilor
(2481.7762) şi pentru înălţimea femeilor (2509.2829) nu diferă foarte mult între ele.
Valoarea p dată de testul Bartlett este 0.9455 (foarte apropiată de 1), ceea ce indică faptul
că cele două varianţe sunt aproximativ egale, prin urmare putem să folosim rezultatele de la
testele parametrice (fie ANOVA, fie t). În cazul nostru vom folosi rezultatul dat de testul t.
Valoarea p dată de testul t (Student) este afişată ca 0.0000, deci este foarte mică. Se poate
respinge deci ipoteza nulă! Afirmaţia conform căreia există o diferenţă semnificativă între
înălţimea medie a bărbaţilor şi înălţimea medie a femeilor este confirmată de datele din
eşantionul folosit. Această diferenţă nu poate să fie atribuită şansei, întâmplării sau erorii de
eşantionare!
Să verificăm că există o diferenţă semnificativă între greutăţile medii ale straturilor
(persoanele au fost grupate în 3 straturi). Pentru aceasta vom folosi comanda Means în care
variabila numerică este Weight iar variabila de grupare (Cross-tabulate by Value of) este
Strata. Vom lucra cu următoarele ipoteze:
Ipoteza nulă: Greutatea medie a persoanelor din stratul 1 coincide cu greutatea medie a
persoanelor din stratul 2 şi cu greutatea medie a persoanelor din stratul 3.
Ipoteza alternativă: Există cel puţin o diferenţă „semnificativă” între greutăţile medii
corespunzătoare celor 3 straturi.
Rezultatele afişate de către EpiInfo vor arăta în felul următor:
Descriptive Statistics for Each Value of Crosstab Variable
Obs Total Mean Variance Std Dev
1 113 23747.0000 210.1504 40130.0575 200.3249
2 112 24359.0000 217.4911 43714.5044 209.0801
3 112 18840.0000 168.2143 7674.8366 87.6061

Minimum 25% Median 75% Maximum Mode


1 104.0000 130.0000 150.0000 185.0000 999.0000 150.0000
2 88.0000 130.0000 154.5000 187.0000 999.0000 140.0000
3 99.0000 130.0000 155.0000 189.0000 999.0000 120.0000

ANOVA, a Parametric Test for Inequality of Population Means


(For normally distributed data only)
Variation SS df MS F statistic
Between 158453.0891 2 79226.5446 2.5946
Within 10198783.2907 334 30535.2793
Total 10357236.3798 336
P-value = 0.0762
Bartlett's Test for Inequality of Population Variances
Bartlett's chi square= 82.5247 df=2 P value=0.0000
A small p-value (e.g., less than 0.05 suggests that the variances are not homogeneous and that the ANOVA
may not be appropriate.
Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two groups)
Kruskal-Wallis H (equivalent to Chi square) = .0853
Degrees of freedom = 2
P value = 0.9582

109
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Observăm că variabila Strata are trei valori (1, 2 şi 3). Vom verifica mai întâi
omogeneitatea varianţelor, pentru cele trei grupuri, cu ajutorul testului Bartlett. (Rezultate: 1:
40130.05; 2: 43714.50; 3: 7674.83). Observaţi cât de diferite sunt valorile varianţelor în cele
trei straturi.
Valoarea p (de la testul Bartlett) este de data aceasta foarte mică (0.0000), ceea ce indică
faptul că dispersiile sunt categoric neomogene. Prin urmare nu putem să folosim rezultatele
de la testele parametrice (ANOVA sau t). Va trebui aşadar să folosim rezultatele testelor
neparametrice, şi anume – în cazul nostru – rezultatul testului Kruskal-Wallis.
Valoarea p este 0.9582, foarte mare, ar trebui să ne determine să acceptăm ipoteza nulă,
conform căreia nu există diferenţe semnificative între greutăţile medii ale celor trei straturi
(1: 210.15; 2: 217.49; 3: 168.21).
În concluzie, nu există, din punct de vedere statistic, diferenţe între greutăţile medii ale
persoanelor din cele trei straturi, iar diferenţele constatate pot să fie atribuite şansei
(întâmplării) sau erorii de eşantionare.
Exportaţi spre Excel datele pe care le folosiţi. Comanda utilizabilă este Write(Export)
Output Formats: Excel 4.0, File Name: nume_SMOKE. Veţi exploata acest fişier în
lucrarea practică următoare.
Exerciţiu
a) Există diferenţă semnificativă între mediile dozei de medicament (dose) la persoanele
cu vărsături (vomit = 1) şi la persoanele fără vărsături (vomit = 0)? Fişierul de date este
LP06_2.xls.
b) Există diferenţă semnificativă între mediile dozei de medicament (dose) la persoanele
din grupurile definite de cele trei metode (method = 1, 2, 3)? Fişierul de date este acelaşi.
Consideraţi pe rând întrebările de mai sus a) şi b). Rezolvaţi problema ridicată cu ajutorul
aplicaţiei Epi Info. Completaţi documentul nume_MEANS cu următoarele precizări, pentru
fiecare situaţie în parte:
- explicit, ipoteza nulă şi ipoteza alternativă luate în consideraţie,
- rezultatul testului Bartlett şi interpretarea sa,
- testul statistic corespunzător ce va fi ales,
- rezultatul testului şi interpretarea valorii p corespunzătoare,
- concluzia (recomandarea) finală.
De asemenea, salvaţi-l şi ca document hipertext, pregătit pentru includerea în site-ul pe
care vi l-aţi creat.

Tema 28: afirmaţii acceptate prin testare de semnificaţie statistică.


La tema anterioară aţi creat un fişier nume_SMOKE.xls. Conţine date obţinute de la 337
persoane, de ambele sexe, în cadrul unei cercetări efectuate în S.U.A. privind obiceiul de a
fuma. Printre altele, pe coloana intitulată HEIGHT vom găsi înălţimile persoanelor, măsurate
însă în ţoli (inches), nu în cm. De asemenea, pe coloana SEX se află înregistrate valori 1 sau
2 (presupunem că înseamnă „feminin”, resp. „masculin”)
Vom folosi aceste date ca un eşantion care să servească la confirmarea „statistică” a
propoziţiei – considerată ca ipoteză alternativă:
Înălţimea medie a femeilor este mai mică decât înălţimea medie a bărbaţilor.
(Aceasta este departe de a constitui o „noutate ştiinţifică”! Dar scopul nostru, pur didactic,
este de a arăta cum confirmăm o propoziţie prin testare de semnificaţie.)
Ipoteza nulă corespunzătoare (care va fi „respinsă”) se exprimă astfel:
Înălţimea medie a femeilor coincide cu înălţimea medie a bărbaţilor.

110
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016

Pentru a nu ne complica cu detalii inutile, să selectăm coloanele HEIGHT şi SEX şi să le


copiem în domeniul A:B al unei foi de calcul noi, pe care o vom redenumi „TTest”.
Să sortăm domeniul A:B după valorile coloanei SEX. După sortare, să identificăm toate
valorile din coloana HEIGHT care corespund valorii 2 din coloana SEX, ele ar trebui să
ocupe celule contigue (s-ar putea să fie cele din domeniul A124:A338).
Să calculăm, cu funcţia AVERAGE, media înălţimilor femeilor din eşantion. Formula de
calcul – pe care o plasăm întro celulă liberă, de exemplu în celula C2 – este următoarea:
=AVERAGE(A2:A123)
Să calculăm de asemenea media înălţimilor bărbaţilor din eşantion. Formula de calcul –
pe care o plasăm întro altă celulă liberă, de exemplu în celula D2 – este următoarea:
=AVERAGE(A124:A338)
(Este de dorit să plasăm şi texte explicative, de exemplu „Media înălţimilor femeilor” în
celula C1 şi „Media înălţimilor bărbaţilor” în celula D1.)
După obţinerea celor două medii, este obligatorie verificarea concordanţei cu ipoteza
alternativă. Dar, întrucât înalţimile se află în relaţie de inegalitate neconcordantă (549>507),
utilizarea testului de semnificaţie se opreşte aici. Concluzia, pe hârtie, ar trebui să fie
exprimată astfel: „datele obţinute din eşantion nu numai că nu confirmă adevărul propoziţiei,
dar mai degrabă îi confirmă negaţia”.
Să admitem că am făcut o eroare de interpretare, în mod corect valorile 1 şi 2 din coloana
SEX însemnând, „masculin”resp. „feminin”.
În această situaţie mediile de eşantion, calculate cu funcţia AVERAGE, sunt concordante
cu ipoteza alternativă. Putem trece la pasul următor, anume la evaluarea riscului pe care ni-l
asumăm acceptând ca adevărată ipoteza alternativă (când, de fapt, nu este). Acest risc se
evaluează prin valoarea p, şi se calculează cu ajutorul funcţiei TTEST. Mai precis, formula
adecvată de calcul este
=TTEST(A2:A123,A124:A338,1,3)
Comparaţi riscul calculat (ar trebui să fie aproximativ 0.000000000000216) cu cel care a
fost raportat de către Epi Info ca valoare p pentru testul t. Concluzia, pe hârtie, ar trebui să
fie exprimată astfel: „datele obţinute din eşantion confirmă adevărul propoziţiei (valoare p <
0.001)”.

Tema 29: teste Student pereche.


A fost efectuat un test clinic pentru a se determina eficacitatea unei substanţe X care, în
opinia firmei producătoare de medicamente, contribuie la creşterea duratei de somn profund.
Au fost testaţi 10 pacienţi voluntari, pe durata a două zile. Fiecăruia i s-au oferit două pastile
aparent identice, câte una în fiecare zi. Una dintre pastile conţinea substanţa „activă”,
cealaltă un placebo cu gust asemănător. Pacienţii nu au avut cunoştinţă despre conţinutul real
al pastilelor.
În tabelul următor sunt înregistrate rezultatele testului clinic, constând în duratele
somnului în cele două situaţii.
Pacientul Medicament Placebo Pacientul Medicament Placebo
1 6.1 5.2 6 8.4 5.4
2 7.0 7.9 7 6.9 4.2
3 8.2 3.9 8 6.7 6.1
4 7.6 4.7 9 7.4 3.8
5 6.5 5.3 10 5.8 6.3

111
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

La o primă examinare, se poate observa că duratele din coloana „Placebo” sunt, cu doar
două excepţii, mai mici decât cele din coloana „Medicament”. Aceasta este o indicaţie
pozitivă, dar confirmarea afirmaţiei „folosirea pilulei cu substanţa X conduce la o creştere a
duratei de somn profund” va trebui făcută altfel. Mai precis, confirmarea se va obţine prin
efectuarea unui test de semnificaţie. De data aceasta vom efectua un „test t pereche”.
Ipoteza nulă, pe care încercăm să o „respingem” în urma efectuării testului de
semnificaţie, este următoarea
medicament placebo
şi ea exprimă faptul că cele două durate medii de somn profund „nu diferă semnificativ” una
de alta. Ipoteza alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule,
este următoarea:
medicament placebo.
Introduceţi datele din tabelul de mai sus, pe coloanele A-B-C, întro foaie de calcul din
fişierul nume_TESTE.xls, pe care o veţi redenumi „TTest”.
Prima operaţiune care trebuie efectuată este calculul duratelor medii de somn profund,
mmedicament pentru „Medicament”, respectiv m placebo pentru „Placebo”. Ar trebui să avem
mmedicament m placebo, în caz contrar testarea de semnificaţie statistică trebuie oprită
imediat (datele din eşantion nu confirmă ipoteza dorită!)
Plasaţi în celula B12 formula de calcul a mediei
=AVERAGE(B2:B11)
şi extindeţi-o la celula C12.
Valorile obţinute (7.26 şi 5.28) sunt compatibile cu ipoteza alternativă.
Este de dorit să plasăm în celula A12 textul explicativ „Medii”.
Continuăm cu calculul diferenţelor între valorile obţinute pentru fiecare pacient. Ele vor fi
obţinute prin plasarea în celula D2 a formulei de calcul =B2-C2, apoi prelungirea ei la
domeniul D2:D11. Este de dorit să plasăm în celula D1 textul explicativ „Diferenţe”.
În celula D13 plasaţi formula de calcul a abaterii standard (a diferenţelor)
=STDEV(D2:D11)
Se va obţine (aproximativ) valoarea s 1.768 . Statistica pe care o folosim acum este
m placebo mmedicament
t iar valoarea obţinută o vom compara cu valoarea prag t
s/ n
corespunzătoare nivelului de semnificaţie ales, pentru o distribuţie t cu n 1 9 grade de
libertate. Mai precis, vom putea respinge ipoteza nulă doar dacă vom constata că t t .
Este de dorit să plasăm în celula A13 textul explicativ „Abateri standard”.
Plasaţi în celula A14 inscripţia „Nivelul de semnificaţie”, iar celula B14 numărul 0.01. În
continuare, plasaţi în celula C14 inscripţia „Valoarea prag”, iar în celula D14 formula
=TINV(B14,9)
De asemenea, plasaţi în celula E14 inscripţia „Valoarea statisticii”, iar în celula F14
formula de calcul:
=(B12-C12)/(D13/SQRT(10))
În sfârşit, în celula A15 plasaţi formula logică:
=IF(F14>D14,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificaţi acum nivelul de semnificaţie, în celula B14, la 0.05. Ce se întâmplă?
Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că folosirea pilulelor cu
substanţa X creşte durata de somn profund.
112
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016

Totuşi, cu nivelul de semnificaţie de doar 1%, această concluzie nu mai este susţinută de
datele din eşantion. Dar o simplă modificare, pentru pacientul nr. 2 a valorii 7.9 în 7.7
(pentru placebo), va determina schimbarea deciziei!
Ar fi de dorit să evaluăm valoarea p asociată ipotezei alternative, adică a riscului de
acceptare eronată a ipotezei alternative (bazându-ne pe datele din eşantionul ales). Este un
calcul simplu, dacă ştim să folosim funcţia TTEST. Plasaţi întro celula liberă formula
=TTEST(B2:B11,C2:C11,1,1)
şi evaluaţi rezultatul, care este tocmai valoarea p dorită.

Tema 30: folosirea testului Student.

Creaţi documentul Word denumit nume_TESTULT, cu următorul conţinut:


Testul t (Student) este folosit de obicei în două situaţii:
(a) cele două grupuri de observaţii (ce trebuie comparate) sunt obţinute de la aceiaşi
indivizi, testaţi de două ori (de exemplu înainte şi după un tratament). Este evident că
datele obţinute sunt „în perechi”, prin urmare Type = 1. Se testează:
a1) în cazul unui test unilateral, afirmaţia „în urma tratamentului, situaţia
pacientului se îmbunătăţeşte”. Este evident că va trebui să controlăm, anterior efectuării
testului, dacă între mediile observaţiilor există relaţia corespunzătoare afirmaţiei (în caz
contrar testul nu-şi are rostul, el se aplică de fapt pentru afirmaţia „în urma tratamentului,
situaţia pacientului se înrăutăţeşte”); în acest caz Tails = 1;
a2) în cazul unui test bilateral, afirmaţia „în urma tratamentului, situaţia pacientului
se modifică”; în acest caz Tails = 2;
(b) cele două grupuri de observaţii sunt obţinute de la indivizi din grupuri net diferite
(de exemplu, un grup este format din pacienţii trataţi cu un medicament, celălalt grup, cel
de control, este format din pacienţii „trataţi” cu placebo). De data aceasta Type este 2 sau
3, în funcţie de situaţia varianţelor celor două grupuri. De regulă nu avem informaţi despre
varianţe, ceea ce ne obligă să acceptăm că ele ar fi diferite între ele (cazul
heteroscedastic), ceea ce înseamnă că Type = 3. Uni- sau bilateralitatea se tratează exact
ca în situaţia (a). Se testează de fapt afirmaţia „pacienţii trataţi medicamentos se comportă
mai bine (respectiv diferit) faţă de cei trataţi cu placebo”.
Testul t este un test parametric, comparaţia făcându-se la nivelul mediilor. Testul
neparametric corespunzător, aplicabil în cazul datelor ordinale, este testul Wilcoxon.

Tema 31: structuri radiale în Excel


În cadrul unei investigaţii mai largi au fost examinaţi un număr de 200 elevi (în vârstă de
10-18 ani), măsurându-li-se înălţimea (în cm), greutatea (în kg), circumferinţa bustului (în
cm). De asemenea, a fost înregistrată vârsta lor, sexul şi localizarea durerii lombare, în caz
că s-a constatat prezenţa acesteia.
Datele înregistrate pot fi găsite în fişierul LP06_3.xls. Ar trebui să identificaţi o singură
foaie denumită „Lombar” şi, în ea, următoarele coloane: Cod, Numpre, Varsta, Sex, Durere
lombara, Inaltime, Greutate, Bust.
Inseraţi (cu comanda Inserare Foaie de calcul) o nouă foaie, pe care o denumiţi
„Frecvenţe”. În ea, în celula A2 plasaţi textul „in punct fix”, în celula A3 plasaţi textul
„iradiata” iar în celula A4 textul „nesistematizata”. (NU TASTAŢI ACESTE TEXTE! Se
recomandă ca acestea să fie plasate prin copiere/lipire din celule ale foii iniţiale în care se
află asemenea texte.)

113
MG - Lucrarea practică 6 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Să ne amintim că am folosit funcţia COUNTIF care „numără” apariţiile aceleiaşi


secvenţe de caractere într-un domeniu. (Face parte din categoria funcţiilor statistice.)
Este foarte important să aflaţi despre posibilităţile de lucru cu datele aflate pe mai multe
foi de calcul. Identificatorul unei celule (sau al unui domeniu) care se află pe altă foaie se
crează din numele foii terminat cu caracterul „!” (semnul exclamării) urmat de identificatorul
celulei (domeniului). Introduceţi în celula B2 formula:
=COUNTIF(Lombar!E$2:E$201,A2)
Este clar că funcţia va număra apariţiile valorii celulei A2 (în cazul nostru secvenţa „in
punct fix”) în domeniul E2:E201 de pe foaia „Lombar”. Reamintim că „$” are rolul de a fixa
identificatorul de rând sau de coloană pe care-l precede. Acest lucru este extrem de util
atunci când facem extinderi sau copieri de formule.
Trăgând de mânerul celulei B2, vom putea extinde cu uşurinţă formula la domeniul
B2:B4.
Să plasăm în celula A1 textul „Fără”, iar în celula B1 formula
=COUNTA(Lombar!E$2:E$201)–SUM(B2:B4)
care permite calculul imediat al numărului de subiecţi la care nu s-a constatat durere
lombară.
Cu datele din domeniul A1:B4 să creăm o diagramă de tipul Structură radială din
structură radială. După selectarea domeniului apelăm comanda Inserare Diagramă şi ne
asigurăm că alegem tipul „Structură radială” subtipul „Structură radială din structură
radială”. Declaraţi ca titlu „Distribuţia durerii lombare în lotul studiat” şi plasaţi în final
diagrama pe o foaie separată (distinctă de foile de calcul!)
Veţi acţiona acum asupra componentelor grafice ale foii-diagramă.
Cu un clic-dreapta deasupra unui sector colorat puteţi intra în caseta de dialog Formatare
serie de date. Acţionaţi în tableta Opţiuni, alegând valoarea „3” pentru Supr. secundară
conţine ultimele ... valori. Încercaţi controlul mărimii rozetelor şi spaţiului dintre ele, prin
stabilirea la 120 a mărimii rozetei din dreapta (Dimensiunea secundară; cea din stânga are
mărimea standard de 100) şi la 75 a distanţei dintre rozete (Lăţime spaţiu liber).

De asemenea, în tableta Etichete de date activaţi două dintre casetele de validare din
grupul Eticheta de date, şi anume „Afişare etichetă” şi „Afişare valoare”. Veţi observa că în
dreptul sectoarelor de cerc apar inscripţiile din domeniul A1:A4, cu excepţia inscripţiei
„None, 68”. Prin dublu-clic deasupra acesteia încercaţi să preluaţi controlul ei şi să eliminaţi
textul nedorit, rămânând numai „68”.
114
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 6 2015/2016

Prin clic, clic-dreapta sau dublu-clic deasupra câte unui sector încercaţi să preluaţi
controlul colorării sectorului respectiv. Încercaţi să determinaţi aplicarea unor efecte de
umplere. (Ar trebui să acţionaţi în caseta de dialog Formatare puncte de date, tableta
Modele, grupul Suprafaţa, prin apăsarea butonului Efecte de umplere.) Atenţie, nu încercaţi
acest lucru în caseta de dialog Formatare serie de date, întrucât veţi determina
nediferenţierea sectoarelor. Nu uitaţi: în cazul unei erori sau obţinerii unui efect nedorit,
reveniţi la situaţia anterioară prin comanda Editare Revenire.
Plasaţi acum în celula D1 a foii „Frecvenţe” textul „Separatori”, iar în domeniul D2:D7
numerele 140, 150, 160, 170, 180, 190. În celula E1 plasaţi textul „Frecvenţe”, iar în celula
E2 formula
=FREQUENCY(Lombar!F2:F201,D2:D7)
Selectaţi acum domeniul E2:E8, plasaţi cu un clic un punct de inserare pe bara formulei,
apoi tastaţi [Ctrl]+[Shift]+[Enter]. În acest fel se obţin dintr-o singură mişcare toate
frecvenţele (absolute) ale înălţimilor indivizilor din eşantion, conform valorilor de separare
alese (din 10 în 10 centimetri).
Selectând acum domeniul D1:E8, încercaţi să realizaţi o diagramă a frecvenţelor. Care
este tipul adecvat şi ce titlu ar trebui să poarte diagrama?
Redenumiţi nume_SONDAJ.xls cartea de calcul conţinând cele două foi de calcul şi
două foi cu diagrame. Încercaţi salvarea sub formă de pagină web, pregătind-o pentru
inserare în site-ul d-voastră.

115