Sunteți pe pagina 1din 15

MG - Lucrarea practică 5 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Lucrarea practică 5
Indicaţii generale:
Un important scop al lucrării practice este crearea de fişiere de tip chestionar (sau
view-uri) pentru introducerea datelor în fişierele create în EpiInfo 2005. Acesta este un
soft specific unor prelucrări statistice de date, utilizat în special în epidemiologie.
Avantajul principal al acestui soft constă în faptul că nu impune cheltuieli majore,
în condiţiile în care, cu ajutorul său, se pot obţine majoritatea rezultatelor prelucrărilor de
date cu care ne întâlnim în cercetarea medicală.
Punctul său forte, pentru care este recomandată folosirea sa, este posibilitatea
creării unor chestionare care să nu permită, din start, introducerea de date eronate flagrant.
Punctul său slab îl constituie slaba calitate a diagramelor pe care le poate crea.

În această lucrare practică:


a) vă veţi reaminti principalele capabilităţi ale unei aplicaţii de calcul tabelar
(Microsoft Excel), şi anume cele de creare de diagrame şi cele de efectuare
rapidă de calcule statistice;
b) veţi aborda un prim exemplu de felul în care se formează opinii ştiinţifice,
bazate pe date puţine, şi de felul în care ele se pot valida „statistic”;
c) veţi crea fişiere de tip baze de date, chestionare în interiorul lor, apoi veţi
introduce înregistrări;
d) veţi începe să folosiţi modulul Analyze Data al aplicaţiei Epi Info;

Teme
22: controlul detaliat al diagramelor Excel
23: calculul intervalelor de încredere în Excel
24: crearea chestionarelor în Epi Info
25: introducerea datelor în Epi Info
26: analiza statistică primară a datelor din fişiere

Softul ce va fi utilizat în lucrarea practică:


EpiInfo 2005, Excel

58
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2015/2016

Tema 22: controlul detaliat al diagramelor Excel


Cercetătorii unei firme farmaceutice au imaginat un unguent (bazat pe un compus chimic
nou) despre care cred că ar trebui să vindece mai rapid arsurile pielii. Unguentul a fost testat
în laborator pe un număr de 7 şoareci aleşi aleator dintre cei 16 de care dispunea laboratorul
pentru aceste teste. (Tuturor celor 16 şoareci li s-au provocat arsuri de piele, de gravităţi
echivalente.)
Pentru grupul celor 7 „trataţi” au fost constatate următoarele durate de vindecare (în zile):
9 4 3 19 10 2 14
Pentru grupul „de control” al celor 9 „netrataţi” au fost constatate următoarele durate de
vindecare (în zile):
5 2 4 10 5 3 14 3 5
Se poate afirma că tratamentul cu noul unguent grăbeşte vindecarea arsurii?
Să utilizăm aplicaţia Excel pentru a-i explora posibilităţile de a ne ajuta în a da
răspunsuri justificate la întrebări de tipul celei anterioare.
Veţi crea un fişier-carte de calcul denumit nume_UNGUENT.xls cu cel puţin o foaie de
calcul. Se recomandă ca diagramele să NU fie plasate peste celulele foii de calcul, ci în foi
separate!
Redenumiţi prima foaie de calcul „Arsuri” şi, în domeniul B2:B17, plasaţi – una sub alta
– cele 16 durate de vindecare. În celula B1 veţi plasa textul „Durata de vindecare (în zile)”,
iar în celula C1 textul „Grupul”.
Alăturat duratelor de vindecare, în domeniul C2:C17, plasaţi textele „tratament” sau
„control”, după caz.
Coloana A o veţi folosi pentru identificarea (numerotarea) cazurilor. Mai precis, în A1
veţi plasa textul „Individul nr.”, iar dedesubt veţi plasa – unul sub altul – numerele 1, 2, ...,
16. (Reamintiţi-vă cum se poate extinde, prin tragere de mâner, o progresie aritmetică.)
Poate că o reprezentare grafică a
datelor ne va fi de ajutor. Cu Excel
obţinem repede o asemenea reprezentare;
este suficient să selectăm domeniul
A1:B17 şi să apelăm comanda
Inserare→Diagramă.
Probabil că diagrama cea mai potrivită
pentru această situaţie este cea „cu bare
orizontale”. În etapele de control va trebui
 să preluăm (în Clipboard) valorile
seriei „Individul nr.” – posibil prin
tastarea combinaţiei [Ctrl]+[C], apoi  s-
o eliminăm, iar în final  să plasăm acele
valori în caseta etichetelor axei X (prin
„lipire”) – a se vedea figura alăturată.
Recomandăm realizarea diagramei pe
o foaie separată, evitând amestecul între
grafică şi calcule pe aceeaşi foaie de
lucru. Denumiţi „16-1” foaia separată.

59
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Durata de vindecare (în zile)

16

15

14

13

12
control
11

10

2
tratament
1

0 2 4 6 8 10 12 14 16 18 20
(zie)

Încercaţi modificarea culorilor în care sunt afişate barele, de exemplu în roşu pentru
primele 7 bare (cele de jos) şi în albastru pentru celelalte. Plasaţi de asemenea textele
„tratament” şi „control” colorate corespunzător, ca în figură.
Duplicaţi foaia pe care aţi depus diagrama, denumind „1-16” copia. Încercaţi, pe foaia
„1-16”, schimbarea ordinii de afişare a duratelor de vindecare (astfel încât barele orizontale
„tratament” să apară deasupra celor „control”.

Tema 23: calculul intervalelor de încredere în Excel


Compararea grafică, pe diagrame, este utilă atunci când vrem să transmitem rapid
informaţie privitorului, sau – cazul nostru – atunci când avem de-a face cu secvenţe lungi
de numere, care se „citesc” cu dificultate. Din punct de vedere statistic, ar trebui să
începem studiul nostru cu compararea mediilor celor două grupuri. Mediile se obţin uşor,
cu ajutorul funcţiei AVERAGE.
Este însă de preferat să începem prin a organiza datele comparative pe foaia de calcul. De
exemplu, să plasăm în celula F1 textul „Tratament”, în celula G1 textul „Control”, în celula
E2 textul „Număr cazuri” iar în celula E3 textul „Medii”.
Chiar dacă numărul de cazuri ne este cunoscut, recomandăm obţinerea sa cu ajutorul
funcţiei COUNTIF. Activând celula F2, apelaţi (comanda Inserare→ Funcţie) această
funcţie din categoria celor statistice. Are două argumente: domeniul datelor – care ar trebui
să fie C2:C17 – şi criteriul de selecţie, care ar trebui să fie secvenţa de caractere „tratament”.
Întrucât această valoare se află în câteva celule, printre care şi C2, al doilea argument ar
putea fi chiar C2.
Analog, celula G2 ar trebui să aibă drept conţinut formula
=COUNTIF(C2:C17,C17)
Pentru calculul mediei vom face apel la funcţia AVERAGE, şi ea din categoria funcţiilor
statistice. În celula F3 plasăm formula (!)
=AVERAGE(B2:B8)

- 92 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015

iar în celula G3 formula analoagă.


După o formatare adecvată a acestor două celule, cerând afişarea cu 2 zecimale, ar trebui
să obţinem afişate valorile 8.71 respectiv 5.67.
Cercetătorii nu ar avea motive de optimism: în medie, durata de vindecare este mai mare
pentru indivizii trataţi cu unguent!
Situaţia de mai sus este excepţională, de regulă nu se întâmplă aşa, dar nu trebuie excluse
asemenea situaţii!
Copiaţi acum foaia „Arsuri” peste foaia a doua, pe care o veţi denumi „Corect”. Copierea
unei foi întregi se face de asemenea cu tehnica de copiere/lipire, iar selectarea prealabilă a
întregii foi se poate face prin „apăsarea” butonului de colţ (aflat în stânga butoanelor A, B,
C, ... care identifică coloanele şi deasupra butoanelor 1, 2, 3, ... care identifică rândurile).
Prin copiere/lipire au fost preluate toate formulele!
Înlocuiţi acum, în foaia „Corect”, datele din domeniul B2:B8 prin următoarele
5 4 3 5 8 2 6
De data aceasta durata medie de vindecare (pentru indivizii trataţi) este de 4.71 zile, iar
cercetătorii pot afirma că unguentul este eficace în vindecarea arsurilor.
Evident, această afirmaţie va fi făcută la modul general, dar ea este bazată pe doar câteva
cazuri constatate în laborator! Care sunt riscurile acceptării acestei afirmaţii ca fiind
„adevărată la modul general”?
Statistica ne învaţă să enunţăm afirmaţii de forma: „durata medie de vindecare la
indivizii trataţi este semnificativ mai mică decât la indivizii netrataţi”. Dar când oare
suntem îndreptăţiţi să facem asemenea afirmaţii?
Excel ne permite să calculăm rapid ingredientele necesare justificării unor asemenea
afirmaţii. Conform teoriei, ar trebui să obţinem erorile standard ale celor două medii, să
identificăm intervalele de încredere (95%) şi să constatăm că cele două intervale sunt
disjuncte.
Obţinerea erorii standard a unei medii necesită mai multe calcule. Eroarea standard nu
se obţine direct, ci prin intermediul abaterii standard, care în Excel este dată de funcţia
STDEV. Formula este simplă:
eroarea standard = abaterea standard / (numărul de indivizi)
Odată obţinută eroarea standard a mediei, intervalul de încredere 95% pentru medie va
fi:
media – eroarea standard * 1.96, media + eroarea standard * 1.96.
Aşadar, avem nevoie de medii (obţinute cu AVERAGE), de abateri standard (obţinute
cu STDEV), şi de numărul de indivizi (obţinut cu COUNTIF).
Să organizăm calculele în felul următor: în celula E4 să plasăm textul „Abateri standard”,
în celula E5 textul „Erori standard”, în E6 textul „Extr. stângă” iar în E7 textul „Extr.
dreaptă”.
Formulele de calcul pe care le vom introduce în coloana F vor fi, respectiv,
=STDEV(B2:B8)
=F4/SQRT(F2)
=F3–F5*1.96
=F3+F5*1.96
În coloana G vom introduce formulele corespunzătoare datelor „de control”, care au fost
plasate în domeniul B9:B17.

- 93 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Ar trebui să obţineţi intervalele de încredere [3.25, 6.18] respectiv [3.14, 8.20]. Ele nu
sunt disjuncte, astfel că statistica nu justifică deloc afirmaţia cercetătorilor!
Este momentul să atragem atenţia asupra unui aspect extrem de important: duratele de
vindecare nu ar trebui apreciate „în medie”, întrucât un singur caz „aberant de lung” ar
putea schimba în mod esenţial concluziile. Dimpotrivă, aprecierea ar trebui să fie făcută
după mediane!
Plasaţi în celula E8 textul „Mediane”, apoi în dreapta formulele de calcul, făcând apel la
funcţia MEDIAN. Ar trebui să obţineţi, pentru ambele grupuri, mediana 5. Aceasta ar trebui
să constituie un semnal de alarmă privind incorectitudinea afirmaţiei cercetătorilor!
Preluaţi în foaia a treia, prin copiere/lipire, conţinutul foii „Corect”. Redenumiţi foaia a
treia „Ultima” şi, pe ea, efectuaţi următoarele modificări. Schimbaţi conţinutul domeniului
B8:B17 în următorul:
5 7 6 11 6 9 14 6 10
Ar trebui să constataţi că mediile se modifică sensibil, şi că intervalele de încredere 95%
devin [3.25, 6.18] respectiv [6.27, 10.18].
Se observă că cele două intervale de încredere sunt disjuncte, prin urmare – pe aceste
date – putem accepta – cu încredere 95% – ca adevărată afirmaţia cercetătorilor (sau a firmei
de medicamente).
Constatăm şi că medianele diferă în mod esenţial şi, reamintim, acestea ar trebui să fie
luate în consideraţie în aprecierea validităţii afirmaţiei cercetătorilor. Ar fi de dorit să
dispunem de intervale de încredere 95% pentru cele două mediane. Din păcate, Excel nu
ne poate ajuta în obţinerea acestor intervale de încredere; este nevoie de soft statistic
specializat, care eventual să exploateze metode speciale cum ar fi tehnicile bootstrap.
Salvaţi în această formă cartea de calcul Excel, cu cele trei foi de calcul şi două
„grafice”.

Tema 24: crearea chestionarelor în Epi Info


Epi Info este un pachet de programe destinat prelucrării de date organizate sub formă de
chestionare şi sistematizării rezultatelor studiilor pentru a fi incluse în comunicări şi
rapoarte. Conceput în primul rând pentru aplicaţii în epidemiologie, Epi Info poate fi folosit
cu succes în prelucrarea datelor din domeniul medical şi din afara acestuia, pachetul
incluzând facilităţi de gestiune a datelor şi de statistică de tipul celor oferite de programele
SAS, SPSS, etc. facilităţi cuprinse întrun singur sistem al cărui avantaj principal este faptul
că este permisă copierea şi libera distribuire. La lansare, pagina de întâmpinare este
următoarea:
Principalele componente ale programului Epi Info sunt următoarele:
Make View, care este un editor de text folosit pentru a defini câmpurile utilizate în
introducerea datelor pe una sau mai multe pagini ale unui chestionar (View).
Enter Data, care afişează chestionarele construite cu Make View, controlează procesul
de introducere a datelor utilizând setările şi codurile specificate în Make View; are şi
posibilităţi de căutare a înregistrărilor.
Analyze Data, care este folosit pentru analizarea datelor înregistrate în fişierele create nu
numai cu Epi Info, dar şi cu dBase, FoxPro, Excel etc. Aceste fişiere pot conţine liste,
frecvenţe, tabele, diagrame, date specifice studiilor epidemiologice.
Create Maps, care este un instrument folosit pentru crearea hărţilor epidemiologice.

- 94 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015

Create Reports, care este folosit pentru generarea rapoartelor.

Alte componente sau utilitare ale softului, utile în diverse activităţi, sunt următoarele:
NutStat, care este folosit pentru înregistrarea şi evaluarea măsurătorilor referitoare la
înălţime, greutate, circumferinţa capului şi a toracelui pentru copii şi adolescenţi.
StatCalc, care este folosit pentru efectuarea de calcule statistice cu date plasate în tabele.
Data Compare, care este folosit pentru identificarea diferenţelor între două tabele.
Table to View, care se foloseşte pentru a genera un chestionar (view) pe baza unui tabel
de date existent.
VisData, utilizat pentru citirea fişierelor de date şi schimbarea proprietăţilor.
Epi Lock, care furnizează o criptare pentru a se proteja accesul la date şi pentru a facilita
atât transmisia dar şi crearea còpiilor de rezervă (backup).
Compact, care este folosit la compactarea bazelor de date de tip (MS)Access.
Aplicaţia Epi Info cuprinde şi
– un sistem de ajutorare a utilizatorului (help), care conţine informaţii despre
facilităţile oferite,
– un manual de utilizare, precum şi
– un program de îndrumare interactivă în crearea fişierelor folosite în epidemiologie.
Pentru crearea unui fişier-chestionar se va folosi modulul Make View, anume comanda:
File New File name (numele bazei de date: nume_EPI) Open Name the View
(„Chest1” ca nume dat chestionarului)
În pagina din partea stângă găsiţi trei opţiuni referitoare la gestiunea paginilor din
chestionar (Add Page – adăugarea unei noi pagini la sfârşitul celor deja existente, Insert

- 95 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Page – adăugarea unei pagini noi între două deja existente, Delete Page – eliminarea paginii
curente) precum şi comanda Program care face posibilă programarea anumitor operaţii de
verificare, ducând astfel la evitarea erorilor care pot apărea la introducerea datelor.

Introducerea de câmpuri în pagina curentă a chestionarului, conform indicaţiei afişate, se


efectuează cu un clic pe butonul din dreapta la mausului, în poziţia în care se doreşte apariţia
câmpului respectiv (pentru fixarea poziţiei este utilă grila). Ca urmare, va apărea caseta de
dialog Field Definition în care se vor introduce caracteristicile câmpului: numele, tipul,
dimensiunea, limitările valorilor, codificări, valorile legale etc.
Caseta de dialog Field Definition este prezentată în figura următoare. Se observă că tipul
câmpului este fixat implicit pe „Text”.

- 96 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015

Chestionarul va conţine următoarele 15 câmpuri:


1. Codul numeric personal. În caseta text Question or Prompt vom introduce textul
„Codul Numeric Personal:”, în grupul Field or Variable vom alege pentru Type valoarea
„Number”, iar pentru Pattern valoarea „#############” (adică 13 cifre); în sfârşit, în
caseta text Field Name vom introduce textul „CNP”.
(De menţionat că secvenţa de caractere „CNP” va servi drept nume al câmpului, iar
secvenţa mai lungă „Codul Numeric Personal:” va servi drept etichetă pentru explicaţii pe
ecran.)
2. Numele pacientului va fi de tip text şi va avea cel mult 30 de caractere. De data
aceasta în caseta text Question or Prompt vom introduce „Numele:”, pentru Type vom
alege valoarea „Text”, iar Size va fi stabilit la „30”. Numele câmpului poate fi lăsat cel
propus în caseta text Field Name.
3. Prenumele pacientului va fi tratat similar ca şi numele său.
4. Sexul pacientului va avea două valori posibile: F sau M. De data aceasta, în caseta
text Question or Prompt vom introduce „Sexul:”, pentru Type vom alege valoarea „Text”,
iar în grupul Code Tables vom apăsa butonul Legal Values, apoi butonul Create New, şi
vom tasta valorile legale „F”, apoi „M” (vezi figura următoare). Şi în acest caz numele
câmpului poate fi lăsat cel propus în caseta text Field Name.
5. Data naşterii pacientului va fi evident de tip dată calendaristică. Pentru a putea
preleva această dată, în caseta text Question or Prompt vom introduce „Data naşterii:”,
pentru Type vom alege valoarea „Date”, iar pentru Pattern valoarea aleasă va fi „DD-MM-
YYYY”. De data aceasta vom interveni în caseta text Field Name pentru a modifica numele
câmpului în „DataNast”.

6. Data internării pacientului va fi tratată similar ca şi data naşterii.


7. Edeme va fi o variabilă cu două valori posibile Yes/No. De data aceasta, în caseta text
Question or Prompt vom introduce „Edeme?”, pentru Type vom alege valoarea „Yes/No”.
În acest caz numele câmpului, în caseta text Field Name, va fi modificat în „Edeme”.
În mod asemănător se procedează pentru următoarele 3 câmpuri:
8. Pleurezie.
9. Palpitaţii (numele câmpului „Palpitatii”).

- 97 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

10. Tuse.
11. Temperatura va fi o variabilă de tip numeric şi va lua valori numai între 35 şi 43.
Pentru stabilirea valorilor limită se bifează caseta de validare Range şi se aleg pentru Lower
şi Upper valorile „35”, respectiv „43”.
Ultimele 5 câmpuri (Edeme, Pleurezie, Palpitatii, Tuse şi Temperatura) vor fi grupate
întrun grup numit Manifestari. Pentru crearea unui grup se procedează în felul următor: se
selectează câmpurile prin tragere cu mausul deasupra, apoi din meniul Insert se alege
comanda Group.
Pagina construită poate să aibă următoarea formă:

Cu ajutorul comenzii Add Page (din meniul din pagina din stânga) se va adăuga o nouă
pagină în care vor fi plasate ultimele trei câmpuri:
12. Salariat, de tipul Yes/No,
13. Numărul copiilor, de tip numeric cu valori între 0 şi 14,
14. Copii, o listă-tabel care va conţine numele şi vârsta copiilor. Pentru aceasta în caseta
text Question or Prompt vom introduce „Copii:”, iar în grupul Code Tables vom apăsa
butonul Grid. În caseta combinată Enter Column Name for Grid se va introduce textul
„Numele copilului”, după care se apasă butonul Save Column şi se procedează la fel pentru
„Vârsta copilului”.
15. Vârsta pacientului în momentul internării, de tip numeric.
Evident, odată ce cunoaştem data naşterii şi data internării, vârsta pacientului ar trebui să
fie calculată automat! Pentru asemenea operaţiuni se poate folosi comanda Program din
pagina din stânga!
Ca urmare a comenzii Program pe ecran va apărea o cu totul altă organizare: pagina din
stânga va fi intitulată Check, iar cea din dreapta Check Commands.
Veţi alege Varsta drept câmp în care se va calcula valoarea, apoi veţi comanda Assign,
încercând să introduceţi expresia de calcul
=YEARS(DataNast, DataIntern)
(ca în figura de mai jos).
Probabil că nu veţi reuşi. Motivul: câmpurile DataIntern şi DataNast sunt plasate pe
altă pagină decât Varsta şi valorile lor nu sunt disponibile pentru calcule! Încercaţi, ca
- 98 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015

soluţie extremă, mutarea câmpului Varsta de pe pagina 2 pe pagina 1. Evident, veţi face apel
la comenzile Cut/Paste din meniul Edit. După mutare nu ar mai trebui să întâmpinaţi
dificultăţi. (Atenţie, nu se recomandă tastarea expresiei, ci formarea ei din componente
selectate!)

Tema 25: introducerea datelor în Epi Info


Se poate realiza direct din meniul File, comandând Enter Data. Alte posibilităţi, după
părăsirea modulului Make View, din pagina principală Epi Info fie se alege direct modulul

- 99 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Enter Data, fie se comandă Enter Data din meniul Programs. În acest caz se deschide
chestionarul creat, alegându-se proiectul şi view-ul corespunzător.
Se vor introduce cel puţin 4 înregistrări (adică se completează câmpurile cu date pentru
cel puţin 4 persoane, pe ambele pagini!). După care salvaţi fişierul nume_EPI.mdb şi
transferaţi-l în căminul d-voastră.
În figura de mai jos este prezentat momentul completării datei internării, pe pagina 1
pentru înregistrarea a 3-a. De menţionat că pentru toate inscripţiile legate de valorile
câmpurilor a fost ales un font standard de afişare (MS Sans Serif) de mărime 14 p.t.
Se impune o observaţie. În datele pe care le introducem apar redundante sexul şi data
naşterii. Este posibil ca valoarea din câmpul DataNast să fie „calculată” automat odată ce a
fost introdus codul numeric personal, la fel valoarea din câmpul Sexul. Puteţi realiza
aceasta?

Tema 26: analiza statistică primară a datelor din fişiere


Pentru a efectua calcule statistice vom folosi modului Analyze Data. În cadrul acestui
modul vom folosi mai multe comenzi pe care le putem alege din fereastra de comenzi din
partea stângă. Rezultatele execuţiei comenzilor sunt afişate în fereastra din dreapta sus
(intitulată Analysis Output). În fereastra din dreapta jos (intitulată Program Editor) se vor
afişa comenzile/seturile de comenzi care au fost executate anterior; de asemenea, se pot
introduce noi comenzi, în regim de linie de comandă.
Comenzile pe care le putem alege sunt grupate, în fereastra din stânga, în câteva grupe.
Distingem astfel comenzile de lucru cu datele (grupate în „Data”), cele ce operează asupra
variabilelor (grupate evident în „Variables”), comenzile de selecţie (grupate în „Select/If”),
comenzile de analiză statistică primară (grupate în „Statistics”) etc.
Read (Import) este comanda utilizată la începutul oricărei sesiuni de lucru în modulul
Analysis. Este folosită pentru preluarea datelor dintr-un fişier, date ce vor fi folosite pentru
prelucrările ulterioare (până la o nouă comandă Read (Import).). Formatul implicit al
datelor este Epi 2000, dar acesta poate fi schimbat astfel încât este posibil să se preia date şi
din alte tipuri de fişiere (de exemplu diverse versiuni de Excel, diverse versiuni de Fox Pro,
Paradox sau chiar documente hipertext).
Softul Epi Info este însoţit de mai multe „proiecte” pentru exemplificare şi auto-învăţare,
dintre care cel mai simplu este Sample.mdb.
Lansaţi în execuţie comanda:
Read (Import) Data Formats: „Epi 2000”
Data Source: „Sample.mdb”
Show: Views
Views: „viewBabyBloodPressure”
Veţi constata că aceasta este de fapt comanda:
READ 'C:\...\Epi_Info\Sample.mdb':viewBabyBloodPressure
List, din grupul „Statistics”, este comanda de afişare sub formă tabelară (Grid sau HTML)
a valorilor unor variabile din fişierul activ de date. Implicit, pentru valoarea „*” în lista
Variables, vor fi afişate valorile pentru toate variabilele. Dacă însă vor fi selectate doar unele
variabile, afişarea valorilor se va efectua doar pentru aceste variabile. Această comandă
permite şi modificarea valorilor variabilelor din fişierul activ de date (Allow Updates).

- 100 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015

Ca exemplu, vom afişa doar valorile variabilelor (câmpurilor) Birthweight,


SystolicBlood, AgeInDays sub formă tabelară (Display Mode: „Grid”) după ce aceste
câmpuri au fost selectate din lista derulantă Variables.
Comanda efectivă este:
LIST Birthweight SystolicBlood AgeInDays GRIDTABLE

Frequencies, din grupul „Statistics”, este comanda cu care de obicei se începe analiza
unui nou set de date, pentru că înainte de a face prelucrări statistice mai complicate, vrem să
aflăm câteva informaţii de bază, legate de distribuiţia datelor. Comanda se poate folosi atât
pentru variabile calitative, cât şi pentru variabile cantitative, şi conduce la obţinerea unui
tabel-sinteză care conţine toate valorile variabilelor specificate în lista Frequency of:,
împreună cu frecvenţele absolute (numărul de apariţii), procentele şi procentele cumulate
pentru fiecare valoare a variabilei.
De asemenea, în tabel este trecută şi o schiţă de reprezentare grafică de tip „cu bare”.
În figura de mai jos este prezentat efectul comenzii
FREQ Birthweight
Birthweight in Oz (X1) Frequency Percent Cum Percent
90 1 6.3% 6.3%
95 1 6.3% 12.5%
100 1 6.3% 18.8%
105 2 12.5% 31.3%
120 4 25.0% 56.3%
125 3 18.8% 75.0%
130 1 6.3% 81.3%
135 1 6.3% 87.5%
150 1 6.3% 93.8%
160 1 6.3% 100.0%
Total 16 100.0% 100.0%

- 101 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

95% Conf Limits


90 0.2% 30.2%
95 0.2% 30.2%
100 0.2% 30.2%
105 1.6% 38.3%
120 7.3% 52.4%
125 4.0% 45.6%
130 0.2% 30.2%
135 0.2% 30.2%
150 0.2% 30.2%
160 0.2% 30.2%
Se observă că sunt afişate şi intervalele de încredere 95% (95% Confidence Limits)
pentru fiecare valoare a variabilei. Ele trebuie citite în felul următor: avem încredere 95% că
procentul celor care la naştere cântăresc 90 oz se situează undeva între 0.2% şi 30.2%. Acest
rezultat este bazat pe înregistrarea unui caz din 16! La cursurile de biostatistică din anul al II-
lea se va explica modul în care se obţin aceste evaluări.
În cazul în care se specifică o variabilă de stratificare, se obţin mai multe tabele de
frecvenţă, câte unul pentru fiecare valoare a variabilei de stratificare.
Comanda Means conduce, în plus faţă de datele pe care le-am obţinut deja cu comanda
Frequencies, la obţinerea unor indicatori statistici de centrare şi împrăştiere: media (Mean),
mediana (Median), cuartilele (de 25% şi de 75%), valoarea minimă (Minimum) şi maximă
(Maximum), modul = valoarea având frecvenţa maximă (Mode), varianţa (Variance) şi
abaterea standard (Std Dev). Evident, Obs este numărul total de valori ale variabilei, iar Total
este suma tuturor valorilor variabilei.
În figura de mai jos este prezentat efectul comenzii
MEANS AgeInDays
Age in Days(X2) Frequency Percent Cum Percent
2 3 18.8% 18.8%
3 7 43.8% 62.5%
4 4 25.0% 87.5%
5 2 12.5% 100.0%
Total 16 100.0% 100.0%

Obs Total Mean Variance Std Dev


16 53.0000 3.3125 .8958 .9465
Minimum 25% Median 75% Maximum Mode
2.0000 3.0000 3.0000 4.0000 5.0000 3.0000
Comanda Means poate fi folosită însă numai pentru variabile cantitative; pentru cele
calitative trebuie să ne mulţumim cu rezultatele comenzii Frequencies.
Comanda Select, din grupul „Select/If”, este folosită pentru selectarea unui grup de
înregistrări care îndeplinesc un anumit criteriu. După selectarea grupului de înregistrări, în

- 102 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015

prelucrare vor fi luate în calcul doar acestea. Comanda Select rămâne activă pâna la anularea
ei (Cancel select).
Ca exemplu, să selectăm noii născuţi cu vârsta (exprimată în zile) mai mare de 3. În
caseta Select Criteria: formaţi expresia „AgeInDays>3”. În urma unei comenzi List se va
obţine următorul rezultat:
Observation Birthweight in Age in Systolic Blood Pres-
UniqueKey RecStatus
Number Ounces (X1) Days(X2) sure (mm Hg)(Y)
2 120 4 90 2 1
5 130 4 92 5 1
6 125 5 98 6 1
9 120 5 96 9 1
10 90 4 95 10 1
14 150 4 97 14 1
Ultimele două coloane, intitulate „UniqueKey” şi „RecStatus”, sunt câmpuri speciale
pentru tabele create cu Epi Info. În câmpul RecStatus se păstrează starea înregistrării.
Anume, pentru înregistrările care au fost marcate pentru ştergere valoarea va fi 0, iar pentru
restul valoarea va fi 1. Câmpul UniqueKey este folosit pentru numărarea automată a
înregistrărilor din tabel.
Comanda Header, din grupul „Output”, poate fi folosită pentru a stabili un text ca titlu
pentru rezultate, de asemenea pot fi precizate caracteristicile de redare (fontul, mărimea,
etc.). Un exemplu:
HEADER 2 "Rezultate pentru nou nascuti" (BOLD) TEXTFONT +4
Comanda Type, din acelaşi grup „Output”, este analoagă celei anterioare; evident, este
folosită pentru inserarea unei secvenţe de caractere sau a conţinutului unui fişier-text în
fluxul de ieşire (fie cel implicit – monitorul –, sau cel specificat cu comanda RouteOut).
Comanda RouteOut redirectează ieşirea (fluxul de rezultate) către conţinutul unui fişier
cu numele specificat; acest proces va fi terminat prin comanda CloseOut. Rezultatele
obţinute în urma unor comenzi precum Frequencies, List etc. vor fi inserate în conţinutul
fişierului cu numele specificat prin RouteOut.
Deschideţi (din Sample.mdb) cu ajutorul comenzii Read (Import) tabelul
viewEstriolAndBirthweight. Folosiţi comanda RouteOut pentru a redirecţiona rezultatele
obţinute spre fişierul cu numele nume_EBW (evident, în folderul C:\Anul_2). Ce extensie
va avea acest fişier?
Introduceţi titlul „Estriolul şi greutatea la naştere” cu ajutorul comenzii Header bifând
opţiunile „Bold” şi „Italic” şi alegând mărimea fontului de „7”. Introduceţi apoi textul
„Conţinutul fişierului” cu ajutorul comenzii Type bifând şi acum opţiunile „Bold” şi „Italic”,
însă alegând mărimea fontului de 5. Folosiţi comanda List pentru a lista valorile celor două
variabile Birthweight şi Estriol, alegând modul de afişare „Web (HTML)”. Introduceţi un
nou text: „Prelucrări statistice” păstrând parametrii de la textul anterior. Cu ajutorul
comenzii Means calculaţi indicatorii statistici pentru variabila Birthweight, apoi pentru
Estriol. Închideţi fişierul de rezultate cu ajutorul comenzii CloseOut.
Probabil că suntem de acord cu toţii că informaţia prezentată grafic este mai uşor de
„înţeles”. Cele mai utilizate moduri de prezentare grafică sunt diagramele cu dreptunghiuri
- 103 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

(Bar sau Rotated Bar), diagramele de tip rozetă (Pie) şi histogramele (Histogram). Primele
două tipuri sunt potrivite pentru „afişarea” informaţiei despre variabilele care au un număr
„mic” de valori (în special variabile calitative). Ultimul tip este adecvat prezentării
sumarizate a variabilelor care au un număr mare de valori numerice (aşa cum este cazul
greutăţii exprimată în grame, sau a înălţimii exprimată în centimetri), bineînţeles după ce se
realizează gruparea valorilor în câteva intervale de valori.
Comanda Graph, din grupul „Statistics”, este folosită pentru a realiza reprezentări
grafice ale variabilelor din fişierul activ de date. Ca un exemplu, să deschidem (din „sursa”
Sample.mdb) cu ajutorul comenzii Read (Import) tabelul viewSmoke. Cu ajutorul
comenzii Graph vom prezenta valorile variabilei Sex întro diagramă cu bare
(dreptunghiuri). Pentru aceasta în fereastra obţinută prin lansarea comenzii, alegem „Bar” în
lista Graph Type: şi „Sex” în X-AXIS Main_Variable(s):. În Y-AXIS Show values of: va
fi păstrată valoarea implicită „Count”. Titlul diagramei va fi: „Repartitia pe sexe a
persoanelor fumatoare | creat de ... (numele d-voastră)”. După afişare, diagrama obţinută va
fi „exportată” (File Export...) în format jpg după care va fi redenumită nume_DISX.jpg
alegând şi calea de acces prin opţiunea Export Destination: File Browse.
În mod asemănător se procedează pentru variabila Race pentru care vom alege tipul de
diagramă „Rotated Bar”, apoi pentru variabila Marital pentru care alegem tipul de grafic
„Pie”. Salvaţi cele două diagrame, după ce aţi ales titluri adecvate, în fişiere cu denumirile
nume_DIRACE.jpg respectiv nume_DIMAR.jpg. Pentru variabila cantitativă Age tipul de
diagramă adecvat va fi „Histogram”, pentru care veţi stabili lungimea intervalului de grupare
la 10, iar prima valoare va fi 0. Diagrama obţinută va fi salvată în fişierul
nume_DIAGE.jpg. Ce titlu i-aţi stabili?
În continuare, dorim să reprezentăm grafic variabila Weight separat pentru fiecare
valoare a variabilei Sex. Pentru aceasta, alegem tipul de diagramă „Histogram”, variabila
principală Main_Variable(s): va fi aleasă „Weight”, lungimea intervalului de grupare va fi
15, titlul principal va fi: „Repartitia greutatii in functie de sex | creat de ... (numele d-
voastră)”, la opţiunea One Graph for Each Value of alegem variabila „Sex”, vom bifa
opţiunea Multiple Graph per Page şi vom introduce valorile 2 pentru No
Across/Horizontal respectiv 1 pentru No Down/Vertical. Vom salva diagramele obţinute
sub numele nume_DIAGESX1.jpg respectiv nume_DIAGESX2.jpg.
Ca un exerciţiu de control, deschideţi tabelul viewOswego din proiectul Sample.mdb.
Redirectaţi rezultatele prelucrărilor următoare spre fişierul nume_OSW. Fiecare comandă va
fi însoţită de un text explicativ, în care veţi specifica ce se obţine cu comanda respectivă.
Listaţi conţinutul fişierului. Pentru variabila Age veţi calcula media pentru persoanele
sănătoase (criteriul „ill=No”) şi separat pentru persoanele bolnave („ill=Yes”).
Reprezentaţi grafic adecvat variabilele Age, Sex, Ill, salvaţi diagramele obţinute în
format JPG şi inseraţi-le, însoţite de comentariile d-voastră referitoare la ceea ce doriţi să
prezentaţi în diagramele respective, într-un document denumit nume_DIOSWEGO.doc.

- 104 -