Documente Academic
Documente Profesional
Documente Cultură
MG LP05
MG LP05
Lucrarea practică 5
Indicaţii generale:
Un important scop al lucrării practice este crearea de fişiere de tip chestionar (sau
view-uri) pentru introducerea datelor în fişierele create în EpiInfo 2005. Acesta este un
soft specific unor prelucrări statistice de date, utilizat în special în epidemiologie.
Avantajul principal al acestui soft constă în faptul că nu impune cheltuieli majore,
în condiţiile în care, cu ajutorul său, se pot obţine majoritatea rezultatelor prelucrărilor de
date cu care ne întâlnim în cercetarea medicală.
Punctul său forte, pentru care este recomandată folosirea sa, este posibilitatea
creării unor chestionare care să nu permită, din start, introducerea de date eronate flagrant.
Punctul său slab îl constituie slaba calitate a diagramelor pe care le poate crea.
Teme
22: controlul detaliat al diagramelor Excel
23: calculul intervalelor de încredere în Excel
24: crearea chestionarelor în Epi Info
25: introducerea datelor în Epi Info
26: analiza statistică primară a datelor din fişiere
58
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2015/2016
59
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
16
15
14
13
12
control
11
10
2
tratament
1
0 2 4 6 8 10 12 14 16 18 20
(zie)
Încercaţi modificarea culorilor în care sunt afişate barele, de exemplu în roşu pentru
primele 7 bare (cele de jos) şi în albastru pentru celelalte. Plasaţi de asemenea textele
„tratament” şi „control” colorate corespunzător, ca în figură.
Duplicaţi foaia pe care aţi depus diagrama, denumind „1-16” copia. Încercaţi, pe foaia
„1-16”, schimbarea ordinii de afişare a duratelor de vindecare (astfel încât barele orizontale
„tratament” să apară deasupra celor „control”.
- 92 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015
- 93 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Ar trebui să obţineţi intervalele de încredere [3.25, 6.18] respectiv [3.14, 8.20]. Ele nu
sunt disjuncte, astfel că statistica nu justifică deloc afirmaţia cercetătorilor!
Este momentul să atragem atenţia asupra unui aspect extrem de important: duratele de
vindecare nu ar trebui apreciate „în medie”, întrucât un singur caz „aberant de lung” ar
putea schimba în mod esenţial concluziile. Dimpotrivă, aprecierea ar trebui să fie făcută
după mediane!
Plasaţi în celula E8 textul „Mediane”, apoi în dreapta formulele de calcul, făcând apel la
funcţia MEDIAN. Ar trebui să obţineţi, pentru ambele grupuri, mediana 5. Aceasta ar trebui
să constituie un semnal de alarmă privind incorectitudinea afirmaţiei cercetătorilor!
Preluaţi în foaia a treia, prin copiere/lipire, conţinutul foii „Corect”. Redenumiţi foaia a
treia „Ultima” şi, pe ea, efectuaţi următoarele modificări. Schimbaţi conţinutul domeniului
B8:B17 în următorul:
5 7 6 11 6 9 14 6 10
Ar trebui să constataţi că mediile se modifică sensibil, şi că intervalele de încredere 95%
devin [3.25, 6.18] respectiv [6.27, 10.18].
Se observă că cele două intervale de încredere sunt disjuncte, prin urmare – pe aceste
date – putem accepta – cu încredere 95% – ca adevărată afirmaţia cercetătorilor (sau a firmei
de medicamente).
Constatăm şi că medianele diferă în mod esenţial şi, reamintim, acestea ar trebui să fie
luate în consideraţie în aprecierea validităţii afirmaţiei cercetătorilor. Ar fi de dorit să
dispunem de intervale de încredere 95% pentru cele două mediane. Din păcate, Excel nu
ne poate ajuta în obţinerea acestor intervale de încredere; este nevoie de soft statistic
specializat, care eventual să exploateze metode speciale cum ar fi tehnicile bootstrap.
Salvaţi în această formă cartea de calcul Excel, cu cele trei foi de calcul şi două
„grafice”.
- 94 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015
Alte componente sau utilitare ale softului, utile în diverse activităţi, sunt următoarele:
NutStat, care este folosit pentru înregistrarea şi evaluarea măsurătorilor referitoare la
înălţime, greutate, circumferinţa capului şi a toracelui pentru copii şi adolescenţi.
StatCalc, care este folosit pentru efectuarea de calcule statistice cu date plasate în tabele.
Data Compare, care este folosit pentru identificarea diferenţelor între două tabele.
Table to View, care se foloseşte pentru a genera un chestionar (view) pe baza unui tabel
de date existent.
VisData, utilizat pentru citirea fişierelor de date şi schimbarea proprietăţilor.
Epi Lock, care furnizează o criptare pentru a se proteja accesul la date şi pentru a facilita
atât transmisia dar şi crearea còpiilor de rezervă (backup).
Compact, care este folosit la compactarea bazelor de date de tip (MS)Access.
Aplicaţia Epi Info cuprinde şi
– un sistem de ajutorare a utilizatorului (help), care conţine informaţii despre
facilităţile oferite,
– un manual de utilizare, precum şi
– un program de îndrumare interactivă în crearea fişierelor folosite în epidemiologie.
Pentru crearea unui fişier-chestionar se va folosi modulul Make View, anume comanda:
File New File name (numele bazei de date: nume_EPI) Open Name the View
(„Chest1” ca nume dat chestionarului)
În pagina din partea stângă găsiţi trei opţiuni referitoare la gestiunea paginilor din
chestionar (Add Page – adăugarea unei noi pagini la sfârşitul celor deja existente, Insert
- 95 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Page – adăugarea unei pagini noi între două deja existente, Delete Page – eliminarea paginii
curente) precum şi comanda Program care face posibilă programarea anumitor operaţii de
verificare, ducând astfel la evitarea erorilor care pot apărea la introducerea datelor.
- 96 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015
- 97 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
10. Tuse.
11. Temperatura va fi o variabilă de tip numeric şi va lua valori numai între 35 şi 43.
Pentru stabilirea valorilor limită se bifează caseta de validare Range şi se aleg pentru Lower
şi Upper valorile „35”, respectiv „43”.
Ultimele 5 câmpuri (Edeme, Pleurezie, Palpitatii, Tuse şi Temperatura) vor fi grupate
întrun grup numit Manifestari. Pentru crearea unui grup se procedează în felul următor: se
selectează câmpurile prin tragere cu mausul deasupra, apoi din meniul Insert se alege
comanda Group.
Pagina construită poate să aibă următoarea formă:
Cu ajutorul comenzii Add Page (din meniul din pagina din stânga) se va adăuga o nouă
pagină în care vor fi plasate ultimele trei câmpuri:
12. Salariat, de tipul Yes/No,
13. Numărul copiilor, de tip numeric cu valori între 0 şi 14,
14. Copii, o listă-tabel care va conţine numele şi vârsta copiilor. Pentru aceasta în caseta
text Question or Prompt vom introduce „Copii:”, iar în grupul Code Tables vom apăsa
butonul Grid. În caseta combinată Enter Column Name for Grid se va introduce textul
„Numele copilului”, după care se apasă butonul Save Column şi se procedează la fel pentru
„Vârsta copilului”.
15. Vârsta pacientului în momentul internării, de tip numeric.
Evident, odată ce cunoaştem data naşterii şi data internării, vârsta pacientului ar trebui să
fie calculată automat! Pentru asemenea operaţiuni se poate folosi comanda Program din
pagina din stânga!
Ca urmare a comenzii Program pe ecran va apărea o cu totul altă organizare: pagina din
stânga va fi intitulată Check, iar cea din dreapta Check Commands.
Veţi alege Varsta drept câmp în care se va calcula valoarea, apoi veţi comanda Assign,
încercând să introduceţi expresia de calcul
=YEARS(DataNast, DataIntern)
(ca în figura de mai jos).
Probabil că nu veţi reuşi. Motivul: câmpurile DataIntern şi DataNast sunt plasate pe
altă pagină decât Varsta şi valorile lor nu sunt disponibile pentru calcule! Încercaţi, ca
- 98 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015
soluţie extremă, mutarea câmpului Varsta de pe pagina 2 pe pagina 1. Evident, veţi face apel
la comenzile Cut/Paste din meniul Edit. După mutare nu ar mai trebui să întâmpinaţi
dificultăţi. (Atenţie, nu se recomandă tastarea expresiei, ci formarea ei din componente
selectate!)
- 99 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Enter Data, fie se comandă Enter Data din meniul Programs. În acest caz se deschide
chestionarul creat, alegându-se proiectul şi view-ul corespunzător.
Se vor introduce cel puţin 4 înregistrări (adică se completează câmpurile cu date pentru
cel puţin 4 persoane, pe ambele pagini!). După care salvaţi fişierul nume_EPI.mdb şi
transferaţi-l în căminul d-voastră.
În figura de mai jos este prezentat momentul completării datei internării, pe pagina 1
pentru înregistrarea a 3-a. De menţionat că pentru toate inscripţiile legate de valorile
câmpurilor a fost ales un font standard de afişare (MS Sans Serif) de mărime 14 p.t.
Se impune o observaţie. În datele pe care le introducem apar redundante sexul şi data
naşterii. Este posibil ca valoarea din câmpul DataNast să fie „calculată” automat odată ce a
fost introdus codul numeric personal, la fel valoarea din câmpul Sexul. Puteţi realiza
aceasta?
- 100 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015
Frequencies, din grupul „Statistics”, este comanda cu care de obicei se începe analiza
unui nou set de date, pentru că înainte de a face prelucrări statistice mai complicate, vrem să
aflăm câteva informaţii de bază, legate de distribuiţia datelor. Comanda se poate folosi atât
pentru variabile calitative, cât şi pentru variabile cantitative, şi conduce la obţinerea unui
tabel-sinteză care conţine toate valorile variabilelor specificate în lista Frequency of:,
împreună cu frecvenţele absolute (numărul de apariţii), procentele şi procentele cumulate
pentru fiecare valoare a variabilei.
De asemenea, în tabel este trecută şi o schiţă de reprezentare grafică de tip „cu bare”.
În figura de mai jos este prezentat efectul comenzii
FREQ Birthweight
Birthweight in Oz (X1) Frequency Percent Cum Percent
90 1 6.3% 6.3%
95 1 6.3% 12.5%
100 1 6.3% 18.8%
105 2 12.5% 31.3%
120 4 25.0% 56.3%
125 3 18.8% 75.0%
130 1 6.3% 81.3%
135 1 6.3% 87.5%
150 1 6.3% 93.8%
160 1 6.3% 100.0%
Total 16 100.0% 100.0%
- 101 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
- 102 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 5 2014/2015
prelucrare vor fi luate în calcul doar acestea. Comanda Select rămâne activă pâna la anularea
ei (Cancel select).
Ca exemplu, să selectăm noii născuţi cu vârsta (exprimată în zile) mai mare de 3. În
caseta Select Criteria: formaţi expresia „AgeInDays>3”. În urma unei comenzi List se va
obţine următorul rezultat:
Observation Birthweight in Age in Systolic Blood Pres-
UniqueKey RecStatus
Number Ounces (X1) Days(X2) sure (mm Hg)(Y)
2 120 4 90 2 1
5 130 4 92 5 1
6 125 5 98 6 1
9 120 5 96 9 1
10 90 4 95 10 1
14 150 4 97 14 1
Ultimele două coloane, intitulate „UniqueKey” şi „RecStatus”, sunt câmpuri speciale
pentru tabele create cu Epi Info. În câmpul RecStatus se păstrează starea înregistrării.
Anume, pentru înregistrările care au fost marcate pentru ştergere valoarea va fi 0, iar pentru
restul valoarea va fi 1. Câmpul UniqueKey este folosit pentru numărarea automată a
înregistrărilor din tabel.
Comanda Header, din grupul „Output”, poate fi folosită pentru a stabili un text ca titlu
pentru rezultate, de asemenea pot fi precizate caracteristicile de redare (fontul, mărimea,
etc.). Un exemplu:
HEADER 2 "Rezultate pentru nou nascuti" (BOLD) TEXTFONT +4
Comanda Type, din acelaşi grup „Output”, este analoagă celei anterioare; evident, este
folosită pentru inserarea unei secvenţe de caractere sau a conţinutului unui fişier-text în
fluxul de ieşire (fie cel implicit – monitorul –, sau cel specificat cu comanda RouteOut).
Comanda RouteOut redirectează ieşirea (fluxul de rezultate) către conţinutul unui fişier
cu numele specificat; acest proces va fi terminat prin comanda CloseOut. Rezultatele
obţinute în urma unor comenzi precum Frequencies, List etc. vor fi inserate în conţinutul
fişierului cu numele specificat prin RouteOut.
Deschideţi (din Sample.mdb) cu ajutorul comenzii Read (Import) tabelul
viewEstriolAndBirthweight. Folosiţi comanda RouteOut pentru a redirecţiona rezultatele
obţinute spre fişierul cu numele nume_EBW (evident, în folderul C:\Anul_2). Ce extensie
va avea acest fişier?
Introduceţi titlul „Estriolul şi greutatea la naştere” cu ajutorul comenzii Header bifând
opţiunile „Bold” şi „Italic” şi alegând mărimea fontului de „7”. Introduceţi apoi textul
„Conţinutul fişierului” cu ajutorul comenzii Type bifând şi acum opţiunile „Bold” şi „Italic”,
însă alegând mărimea fontului de 5. Folosiţi comanda List pentru a lista valorile celor două
variabile Birthweight şi Estriol, alegând modul de afişare „Web (HTML)”. Introduceţi un
nou text: „Prelucrări statistice” păstrând parametrii de la textul anterior. Cu ajutorul
comenzii Means calculaţi indicatorii statistici pentru variabila Birthweight, apoi pentru
Estriol. Închideţi fişierul de rezultate cu ajutorul comenzii CloseOut.
Probabil că suntem de acord cu toţii că informaţia prezentată grafic este mai uşor de
„înţeles”. Cele mai utilizate moduri de prezentare grafică sunt diagramele cu dreptunghiuri
- 103 -
MG - Lucrarea practică 5 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
(Bar sau Rotated Bar), diagramele de tip rozetă (Pie) şi histogramele (Histogram). Primele
două tipuri sunt potrivite pentru „afişarea” informaţiei despre variabilele care au un număr
„mic” de valori (în special variabile calitative). Ultimul tip este adecvat prezentării
sumarizate a variabilelor care au un număr mare de valori numerice (aşa cum este cazul
greutăţii exprimată în grame, sau a înălţimii exprimată în centimetri), bineînţeles după ce se
realizează gruparea valorilor în câteva intervale de valori.
Comanda Graph, din grupul „Statistics”, este folosită pentru a realiza reprezentări
grafice ale variabilelor din fişierul activ de date. Ca un exemplu, să deschidem (din „sursa”
Sample.mdb) cu ajutorul comenzii Read (Import) tabelul viewSmoke. Cu ajutorul
comenzii Graph vom prezenta valorile variabilei Sex întro diagramă cu bare
(dreptunghiuri). Pentru aceasta în fereastra obţinută prin lansarea comenzii, alegem „Bar” în
lista Graph Type: şi „Sex” în X-AXIS Main_Variable(s):. În Y-AXIS Show values of: va
fi păstrată valoarea implicită „Count”. Titlul diagramei va fi: „Repartitia pe sexe a
persoanelor fumatoare | creat de ... (numele d-voastră)”. După afişare, diagrama obţinută va
fi „exportată” (File Export...) în format jpg după care va fi redenumită nume_DISX.jpg
alegând şi calea de acces prin opţiunea Export Destination: File Browse.
În mod asemănător se procedează pentru variabila Race pentru care vom alege tipul de
diagramă „Rotated Bar”, apoi pentru variabila Marital pentru care alegem tipul de grafic
„Pie”. Salvaţi cele două diagrame, după ce aţi ales titluri adecvate, în fişiere cu denumirile
nume_DIRACE.jpg respectiv nume_DIMAR.jpg. Pentru variabila cantitativă Age tipul de
diagramă adecvat va fi „Histogram”, pentru care veţi stabili lungimea intervalului de grupare
la 10, iar prima valoare va fi 0. Diagrama obţinută va fi salvată în fişierul
nume_DIAGE.jpg. Ce titlu i-aţi stabili?
În continuare, dorim să reprezentăm grafic variabila Weight separat pentru fiecare
valoare a variabilei Sex. Pentru aceasta, alegem tipul de diagramă „Histogram”, variabila
principală Main_Variable(s): va fi aleasă „Weight”, lungimea intervalului de grupare va fi
15, titlul principal va fi: „Repartitia greutatii in functie de sex | creat de ... (numele d-
voastră)”, la opţiunea One Graph for Each Value of alegem variabila „Sex”, vom bifa
opţiunea Multiple Graph per Page şi vom introduce valorile 2 pentru No
Across/Horizontal respectiv 1 pentru No Down/Vertical. Vom salva diagramele obţinute
sub numele nume_DIAGESX1.jpg respectiv nume_DIAGESX2.jpg.
Ca un exerciţiu de control, deschideţi tabelul viewOswego din proiectul Sample.mdb.
Redirectaţi rezultatele prelucrărilor următoare spre fişierul nume_OSW. Fiecare comandă va
fi însoţită de un text explicativ, în care veţi specifica ce se obţine cu comanda respectivă.
Listaţi conţinutul fişierului. Pentru variabila Age veţi calcula media pentru persoanele
sănătoase (criteriul „ill=No”) şi separat pentru persoanele bolnave („ill=Yes”).
Reprezentaţi grafic adecvat variabilele Age, Sex, Ill, salvaţi diagramele obţinute în
format JPG şi inseraţi-le, însoţite de comentariile d-voastră referitoare la ceea ce doriţi să
prezentaţi în diagramele respective, într-un document denumit nume_DIOSWEGO.doc.
- 104 -