Sunteți pe pagina 1din 60

MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică

Lucrarea practică 2
Indicaţii generale:
Tradiţia activităţilor contabile cere ca datele privind veniturile şi cheltuielile unei
firme sau gospodării să fie aranjate sub forma unui tabel. Modul tabelar de aranjare a
datelor este adecvat şi pentru alte activităţi, în general tuturor activităţilor în care datele
„primare” urmează a fi prelucrate. Evident, şi în domeniul medical întâlnim deseori situaţii
în care aranjarea tabelară a datelor prezintă avantaje considerabile, şi aceasta nu doar în
gestiunea spitalului sau a cabinetului medical. Pentru asemenea activităţi pentru care
aplicaţia Word nu este adecvată, ne vom familiariza cu aplicaţia Excel.
Un prim scop al lucrării constă în exemplificarea obţinerii unor indicatori statistici
şi a efectuării calculelor simple în Excel. Apoi se explorează colaborarea între Word şi
Excel în domeniul conversiei tabelelor, foarte utilă pentru efectuarea unor operaţiuni de
separare; urmează explorarea în Excel a funcţiilor statistice şi a celor dedicate prelucrării
textelor, precum şi grafica în Excel.
Se va constata că există destule compatibilităţi între organizările tabelare în cele
două softuri; cu toate acestea, Excel este net superior în ceea ce priveşte calculele, dar mai
greoi în operaţiunile de aranjare „estetică”.
Alt scop al lucrării îl constituie repetarea felului în care se reprezintă diagramatic,
cu Excel, anumite date „de sinteză”.
În continuare se vor folosi unele funcţii implementate în Excel pentru a se efectua
diverse calcule statistice simple, dar nu numai.
În această lucrare practică:
a) Vă veţi familiariza cu calculul tabelar.
b) Veţi exersa obţinerea rapidă a indicatorilor statistici uzuali;
c) Veţi explora posibilităţile de „colaborare” între aplicaţii;
d) Vă veţi familiariza cu folosirea funcţiilor încastrate.

Teme:

5: aplicaţia Excel
6: frecvenţe, mediane şi cuartile în Excel
7: calcule simple în Excel
8: diagrame cu Excel

Softul ce va fi utilizat în lucrarea practică:


Word, Excel,

-4-
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020

Tema 5: aplicaţia Excel. Cu toate că oferă bune posibilităţi de tabelare a datelor,


aplicaţia Word a fost prevăzută doar cu dotări elementare în ceea ce priveşte prelucrarea
prin calcul a acestora.
Pe lângă rapiditatea cu care sunt executate calculele, în general aplicaţiile de calcul
tabelar (dintre care vom folosi Excel) prezintă şi alte avantaje:
recalculare automată (şi „instantanee”) a tuturor rezultatelor, imediat ce o valoare
oarecare a fost modificată;
posibilităţi multiple de formatare utile pentru prezentarea, pe ecran, a datelor;
posibilitatea reordonării rapide a liniilor, după diverse criterii;
existenţa unei varietăţi de funcţii „încastrate” de natură matematică, statistică,
financiară care, însoţite fiind de explicaţii detaliate privind modul de utilizare,
sunt utilizabile cu uşurinţă chiar de către nespecialişti;
posibilitatea realizării rapide a diagramelor şi graficelor statistice, de diverse
forme, pe baza datelor din tabele;
posibilitatea transferului rezultatelor spre şi dinspre documente.
În aplicaţiile de calcul tabelar a fost implementată organizarea datelor pe mai multe
foi de lucru (worksheets), presupuse situate ca într-o carte. Fiecare foaie de lucru are o
denumire ce o identifică; implicit, în Excel aceste denumiri sunt Sheet1, Sheet2, …
O foaie de lucru poate fi organizată ca tabel (spreadsheet).
Orice tabel este format din celule dispuse pe linii şi pe coloane. În fiecare celulă
putem plasa o valoare de un tip extrem de divers:
valoare numerică;
text (secvenţă de caractere);
dată calendaristică;
formulă de calcul cu date ce sunt plasate în alte celule.
Afişarea pe ecran a valorii unei celule poate fi efectuată în diverse moduri; de
regulă valoarea afişată diferă, uneori substanţial, de valoarea plasată în celulă!
Exprimarea formulelor respectă regulile clasice ale algebrei, semnele operaţiilor
aritmetice fiind +, -, * (pentru înmulţire) şi / (pentru împărţire). Pentru a fi deosebite de
textele ordinare, formulele sunt precedate de caracterul ‚=’.
Evident, o celulă este identificată prin precizarea liniei şi coloanei din care face
parte. De obicei identificarea coloanelor se face prin litere A, B, … iar după epuizarea
acestora prin secvenţe de două litere AA, AB, …, AZ, BA, BB, … Cât despre identificarea
liniei, aceasta este dată de numărul de ordine: 1, 2, 3, … Astfel, notaţia H21 identifică
aceeaşi celula din linia 21 şi coloana a 8-a.
Ca exemplu general, notaţia Sheet2!AB215 identifică celula aflată pe coloana a
28-a şi linia a 215-a de pe a 2-a foaie de lucru.
Pe o foaie de lucru organizată ca tabel pot exista cel mult 16.384 de coloane
(ceea ce înseamnă că ultimul identificator de coloană este XFD). Cât despre numărul
maxim de linii, acesta este în principiu 1.048.576.
Celulele pot fi grupate, după dorinţă, în domenii, iar pentru uşurinţă domeniile pot
fi denumite.
Un domeniu elementar este uşor de definit, ca grup dreptunghiular de celule
(contigue). Un asemenea grup este determinat evident de două celule extreme: cea de colţ
-5-
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică

din stânga-sus şi cea de colţ din dreapta-jos. Evident, o celulă poate fi considerată ca
formând, ea singură, un domeniu elementar „degenerat”. De asemenea, pot exista domenii
de tip coloană, pentru care „dreptunghiul” se reduce la celule contigue de pe aceeaşi
coloană; analog pentru linii.
Identificarea unui domeniu elementar (care nu este degenerat) poate fi făcută prin
specificarea identificatorilor celulelor de colţ, separându-i prin caracterul ‚:’. Astfel,
C1:E4 identifică un domeniu elementar având 12 celule (situate pe 4 linii şi 3 coloane),
iar A2:D2 identifică un domeniu tip coloană, având 4 celule.
În general, un domeniu este alcătuit din domenii elementare, prin operaţiuni de
reunire şi intersectare. Pentru simbolizarea reunirii se foloseşte caracterul ‚,’, iar pentru
simbolizarea intersectării se foloseşte caracterul ‚ ’ (blanc). Astfel, A3:B5,D3:E5
identifică un domeniu format din 12 celule, grupate în două domenii elementare separate;
ca un alt exemplu, B3:C6 A4:D5 identifică exact domeniul elementar B4:C5.
De obicei într-un domeniu sunt depuse date ce au o legătură logică între ele (dar nu
sunt neapărat de acelaşi tip). Astfel, în cazul reprezentării grafice a unor date numerice se
obişnuieşte să se completeze domeniul datelor cu o linie şi o coloană de „explicaţii”. Excel
„înţelege” rostul fiecărei date din domeniul extins!
Forma de cruce albă (Cross) a cursorului mausului este folosită
pentru selectarea unui domeniu. Domeniul elementar selectat va fi încadrat,
iar celulele sale vor avea fundalul colorat (cu excepţia celulei active,
plasată în colţ).
Forma asemănătoare literei I (I Beam)este folosită în activităţi de
editare.
Forma de săgeată albă, vârful înspre stânga (Left Arrow) este
folosită pentru mutarea domeniului selectat.

Forma de cruce neagră se foloseşte pentru activităţi de umplere


automată a conţinuturilor celulelor, prin „tragere” (drag and drop).

Forma de săgeată dublă este folosită pentru redimensionare (în


direcţiile arătate de săgeţi).

Aplicaţia Excel permite crearea rapidă de diagrame statistice. Urmăriţi figura de mai
jos şi completaţi domeniul A1:F4 cu datele pe care le vedeţi. (De exemplu, în celula A2
plasaţi textul „Mai puţin de o săptămână”.)

-6-
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020

Selectaţi domeniul A1:F4, apelaţi butonul Insert Column or Bar Chart al


grupului Charts din fila (tab-ul) Insert, alegeţi tipul „3-D Bar”, subtipul „3-D 100%
Stacked Bar”, adăugaţi legenda şi titlul folosind butonul Chart Elements situat în zona
diagramei colţul din dreapta-sus (de forma semnului „+”), în aşa fel încât să realizaţi
diagrama următoare. Adăugarea titlului se face prin clic pe eticheta Chart title, selectarea
şi apoi înlocuirea textului existent cu textul „Evoluţia proporţiilor deceselor infantile”.
Mutaţi diagrama pe o foaie nouă (New sheet) cu un clic pe butonul Move Chart din tab-ul
Design activat la crearea diagramei.

Adăugaţi săgeţile roşii, apelând la instrumentul „Segment” din grupul Insert


Shapes al tab-ului Format disponibil după selectarea diagramei. Încercaţi să afişati pe
bare valorile (procentuale) ale seriei „albastre”, apoi să schimbaţi culoarea albastră cu
culoarea verde, iar valorile cu culoare portocalie. Redenumiţi „Datele” foaia pe care aţi
depus datele şi „Diagrama” foaia pe care este diagrama creată. După ce aţi completat
proprietăţile fişierului (titlul, subiectul, autorul, ...) în zona Properties apelând comanda
Info din tab-ul File, salvaţi fişierul cu denumirea nume_INFANTIL.xlsx.
În noul fişier nume_INALTIMI.xlsx veţi introduce datele privind distribuţia
înălţimilor bărbaţilor la încorporare (18-22 ani), şi veţi crea diagrame de tip histogramă şi
rozetă care să prezinte aceste date. Datele se află în tabelul de mai jos care conţine o
coloană cu clase de înălţimi şi a doua coloană cu date numerice corespunzătoare claselor.
Cum putem pregăti „raţional” reprezentările grafice?
Astfel, în primul rând, pe coloana A (dar de la celula A2 în jos) vom plasa
separatorii 150, 152.5, 155 şi aşa mai departe. Nu este necesar să-i tastăm pe toţi; este
suficient să plasăm valoarea 150 în celula A2, valoarea 152.5 în celula A3, apoi să
selectăm domeniul A2:A3 şi să „tragem” în jos de mânerul de tragere (având forma de
cruce neagră a indicatorului mausului!) până la celula A16.
Folosind separatorii din coloana A, pe coloana B vom crea prin concatenare
denumirile claselor. Mai precis, în celula B1 vom plasa formula
=CONCATENATE(A1,” – ”,A2,” cm”)
pe care o vom extinde prin tragere la domeniul B1:B16. (Atenţie, formula nu se tastează,

-7-
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică

ci se completează caseta de dialog ce apare după apăsarea butonului Insert Function


CONCATENATE din tab-ulFormulas.)

Vom corecta conţinutul celulelor B1 şi B16 în aşa fel încât să devină „Sub 150
cm” respectiv „Peste 185 cm”. În coloana C vom introduce datele numerice din coloana a
doua a tabelului următor.

Clasa Numărul
Sub 150 cm 112
150 – 152.5 cm 523
152.5 – 155 cm 1715
155 – 157.5 cm 3371
157.5 – 160 cm 5906
160 – 162.5 cm 8655
162.5 – 165 cm 11214
165 – 167.5 cm 11628
167.5 – 170 cm 10338
170 – 172.5 cm 8228
172.5 – 175 cm 5789
175 – 177.5 cm 3356
177.5 – 180 cm 1828
180 – 182.5 cm 685
182.5 – 185 cm 224
Peste 185 cm 18

Înainte de a trece la reprezentările grafice propriu-zise, să ţinem seamă de


recomandarea ca domeniul datelor (adică C1:C16) să fie bordat cu o coloană de inscripţii în
stânga (coloana care conţine clasele de înălţimi), dar şi deasupra cu o linie de inscripţii.
Neexistând această linie, o vom introduce. Astfel, vom selecta una dintre celulele de pe
prima linie (de exemplu celula A1) şi vom comanda din tab-ul Home în grupul
CellsInsert Insert Cells Entire row. Constatăm că domeniul datelor devine acum
C2:C17. Să introducem în celula C1 textul de titlu „Repartiţia bărbaţilor incorporabili, după
înălţime”.
Să selectăm acum domeniul extins B1:C17, apoi să cerem reprezentarea
diagramatică a datelor din acest domeniu. O veţi face de două ori, odată alegând tipul „cu
coloane” (Insert Insert Column or Bar Chart 2-D Column Clustered Column), a
doua oară alegând tipul „rozetă” (Insert Insert Pie or Doughnut Chart 2-D

-8-
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020

Pie Pie).Veţi plasa de fiecare dată diagrama pe o foaie nouă, redenumind apoi foile prin
„histograma” respectiv „rozeta” (observaţi reprezentarea celor două diagrame pe pagina
următoare). Recomandăm ca foaia cu datele să fie redenumită „datele”.
Pentru prima diagramă nu aveţi nevoie de legendă, însă ar fi de dorit să introduceţi
valorile seriei ca „etichete” (Data labels Outside End). Dimpotrivă, pentru a doua
diagramă legenda este obligatorie, iar ca etichete ar fi recomandabil să introduceţi
„procentele” (Data labels Percentage). Reflectaţi asupra scopului reprezentărilor grafice
şi încercaţi să plasaţi pe diagrame informaţiile relevante.

Tema 6: frecvenţe, mediane şi cuartile în Excel.


Într-o cercetare având ca scop studierea obezităţii în raport cu vârsta şi factorii
geografici, a fost evaluat un lot de 251 elevi (de ambele sexe) în vârstă de 18 ani. Rezultatele
sunt prezentate sintetic în tabelul următor:
Categoria de 40-49 50-59 60-69 70-79 80-89 90-99 100 kg şi
greutate kg kg kg kg kg kg peste
băieţi 22 62 45 34 13 4 1
fete 16 20 21 9 4 0 0
Plasăm datele din tabelul de mai sus în domeniul A1:H3 dintr-o foaie de calcul – pe
care s-o numim „datele” – a fişierului nume_MEDIANE.xlsx.

-9-
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică

Totalurile se obţin simplu, introducând în celula B4 formula


=B2+B3
apoi extinzând-o „orizontal” la celulele B4:H4. Evident, în A4 vom plasa textul „Total”.
Cea mai rapidă metodă de a obţine mediana şi cele două cuartile este bazată pe calculul
frecvenţelor cumulate. Pentru a o aplica, vom calcula mai întâi, pe coloana I, totalurile
efectivelor. Astfel, în celula I1 vom plasa textul „Total”, iar In celulele I2, I3 şi I4 vom
plasa formule de însumare. Pentru celula I2
=SUM(B2:H2)
şi analoagele pentru celulele I3 şi I4
Frecvenţele cumulate vor fi plasate pe rândurile 6 (pentru băieţi), 7 (pentru fete) şi 8
(pentru întreg lotul).
Vom plasa pe coloana A texte adecvate: în celula A5 plasăm „Frecvenţe cumulate”, în
A6 „Băieţi”, în A7 „Fete” iar în A8 „Întreg lotul”.
Frecvenţele cumulate se calculează similar, de aceea este suficient să introducem o
singură formulă, pe care o vom extinde apoi şi pe orizontală, şi pe verticală.
Formula de calcul adecvată pentru celula B6 este următoarea (de ce?):
=SUM($B2:B2)/$I2
După ce o prelungiţi la domeniul B6:H8, încercaţi să afişaţi procentual – cu 2
zecimale – datele din acest domeniu.
Creaţi un document nume_QUARTILE.docx, care va conţine paragraful anterior
redat pe fond gri precum şi frecvenţele cumulate. De asemenea, acest document va conţine
paragrafele următoare pe fond gri şi diagrama ataşată.
S-ar impune o întrebare: diferă între ele distribuţiile greutăţilor pentru cele două sexe?
Un răspuns îl vom putea da după ce privim o reprezentare diagramatică a celor două seturi
de date ale frecvenţelor cumulate.
Selectaţi, (ajutându-vă eventual de tasta [Ctrl]) domeniile A1:H1 şi A6:H7. (Avem
nevoie şi de „capete de tabel” pentru cele două serii de date!) Inseraţi o diagramă cu linii –
dar fără marcatori – având grijă să alegeţi seriile pe rânduri şi nu pe coloane.

- 10 -
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020

Aparent, cele două distribuţii cumulate diferă între ele! Dar, pentru a răspunde
„statistic corect” la întrebare, va trebui să adoptăm un limbaj adecvat. Vom reveni.
În studiile privind obezitatea cercetătorii au opinii împărţite: cei americani consideră
importantă percentila a 95-a, iar cei francezi percentila a 97-a. Mai precis, aceste percentile
ar constitui „graniţa” între „supraponderal” şi „obez”.
Obţinerea medianei, cuartilelor şi percentilelor este mult uşurată în situaţiile în care
dispunem de datele primare şi nu de prezentări sintetice.
De exemplu, dispunem de datele primare din fişierul LP02_1.xlsx pe care îl preluaţi
prin copiere din folderul Anul2 în folderul vostru şi îl redenumiţi nume_GREUTATI.xlsx.
Pentru băieţi greutăţile sunt trecute aici, pe singura foaie „Greutati”, în domeniul A2:A98;
pentru fete găsim datele în domeniul B2:B151. Medianele respective vor putea fi obţinute
imediat, cu formulele
=MEDIAN(A2:A98)
=MEDIAN(B2:B151)
=MEDIAN(A2:A98,B2:B151)
Care vor fi plasate în celulele C2, C3, C4.
Informaţi-vă asupra utilizării funcţiilor QUARTILE() şi PERCENTILE() în Excel.
Tema 7: calcule simple în Excel. Riscul apariţiei unei forme oarecare de cancer la
fumători (sunt „fumători” cei care fumează pipă sau mai mult de o ţigară pe zi) a fost evaluat
la 0.085. În acelaşi studiu de tip caz-control au mai fost evaluate următoarele riscuri:
- Riscul apariţiei unei maladii cardiovasculare la fumători, la 0.143;
- Riscul apariţiei unei forme de cancer la nefumători, la 0.032;
- Riscul apariţiei unei maladii cardiovasculare la nefumători, la 0.048.
Pentru o evaluare comparativă se foloseşte noţiunea de risc relativ (RR). Astfel, pentru
formele de cancer
0.085
RR cancer 2.66
0.032
exprimă faptul că un fumător este de peste 2.6 ori mai expus apariţiei unei forme de cancer
decât un nefumător. Pentru maladiile cardiovasculare, calculăm şi interpretăm analog
0.143
RR cardiovascular 2.98 .
0.048
Asemenea calcule simple sunt uşor programabile în Excel. Creaţi o carte de calcul
nume_RISCURI.xlsx, cu o foaie denumită „Calcule”. Aici, în celula A2 introduceţi textul
„riscul pentru fumători”, iar în celula A3 textul „riscul pentru nefumători”. Cu condiţia
completării ulterioare a celulelor B2 şi B3, puteţi plasa în celula B4 formula
=B2/B3
(Expresia #DIV/0! n-ar trebui să ne surprindă. Celula B3 este „goală”, valoarea ei este
asimilată cu 0, aşadar formula ne indică o împărţire la 0.)
Să plasăm în celula B1 textul „cancer”, iar în celula C1 textul „maladii
cardiovasculare”. De îndată ce completăm celulele B2 şi B3 cu valorile 0.085 respectiv
0.032, vom observa apariţia valorii riscului relativ în celula B4. Dar după completarea
celulelor C2 şi C3 cu valorile 0.143 respectiv 0.048, riscul relativ pentru maladii

- 11 -
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică

cardiovasculare nu se completează automat! Va trebui să introducem formula de calcul şi în


celula C4!
Nu este nevoie de tastarea unei noi formule. Vom putea selecta celula B4 în care se
găseşte vechea formulă şi o vom putea extinde, prin tragere de mâner, spre dreapta!
Riscul pentru fumători este o ESTIMARE a probabilităţii ca unui fumător să-i apară o
formă oarecare de cancer, respectiv o maladie cardiovasculară. Aceste estimări sunt obţinute
în urma unor studii bine controlate.
O altă noţiune des întâlnită – în special în epidemiologie – este cea de cotă (odds în
engleză), provenită din limbajul pariorilor; ea exprimă raportul unor şanse.
În cazul formelor de cancer, cota pentru fumători se calculează astfel
0.085
Oddsf 0.093
1 0.085
iar pentru nefumători
0.032
Oddsnf 0.033
1 0.032
Raportul celor două cote este notat de obicei OR (iniţialele de la odds ratio.)
Pare simplu să programăm calculul unei cote. Să plasăm în celula A5 textul „cota
pentru fumători”, iar în celula A6 textul „cota pentru nefumători”.
Formula pe care o introducem în celula B5 este următoarea:
=B2/(1-B2)
Ea se poate extinde direct, prin tragere de mâner în jos, la celula B6. Încheiaţi lucrul în
foaia „Calcule” după ce aţi programat pe rândul 7 calculul lui odds ratio (şi aţi extins totul la
coloana C).

Tema 8: diagrame cu Excel. Creaţi cu Word un fişier-document nou, denumit


nume_JUDETEAN.docx, în care plasaţi textul (în stilul Titlu):
„Situaţia pacienţilor internaţi în Secţia I a Spitalului Judeţean, în luna martie”
apoi tabelul:

Diagnostice Număr pacienţi


stenoză mitrală 8
boală mitrală 24
insuficienţă mitrală 4
stenoză aortică 11
boală aortică 4
(Atenţie la tipurile de bordură! Controlul acestora îl obţineţi astfel: selectaţi celulele
pe care doriţi să le încadraţi, făcând apoi apel la comanda Borders Borders and
shading din tab-ul Design.)
Adăugaţi tabelului un rând suplimentar dedesubt şi o coloană suplimentară în
dreapta. Plasaţi textele „Total pacienţi” şi „Frecvenţa relativă” (tabelul următor!).
Calculul numărului total al pacienţilor este uşor de efectuat: plasând cursorul de
editare în celula corespunzătoare, apelaţi la comanda Formula din grupul Data al tab-ului
Layout. Aplicaţia Word este dotată cu un minim de „inteligenţă”, de fapt cu posibilităţi de
a propune utilizatorului acţiunile cele mai probabile în contextul în care se află. În situaţia
- 12 -
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020

noastră acţiunea propusă ca fiind „probabilă” este =SUM(ABOVE), ceea ce corespunde cu


intenţiile noastre.
Dacă însă dorim să calculăm frecvenţele relative (pe care le vom plasa pe coloana
din dreapta), constatăm că nu dispunem de o cale imediată, iar a le obţine cu ajutorul
accesoriului Calculator, cu toată precizia rezultatelor, este o soluţie primitivă.
Diagnostice Număr pacienţi Frecvenţa relativă
stenoză mitrală 8
boală mitrală 24
insuficienţă mitrală 4
stenoză aortică 11
boală aortică 4
Total pacienţi 51
Datele din primele două coloane sunt suficiente pentru a putea crea o diagramă de tip
histogramă, mult mai adecvată prezentării acestui tip de informaţie decât secvenţa de
numere din tabel. Obţinerea unei asemenea diagrame se face cu ajutorul butonului Chart
din grupul Illustrations al tab-ului Insert.
Acum vom încerca să exploatăm „colaborarea” între Word şi Excel care, după cum
ştim, fac parte din acelaşi pachet de aplicaţii (Microsoft Office). Minimizaţi fereastra
aplicaţiei Word.
Declanşaţi Excel şi salvaţi imediat cartea de calcul propusă (book1) în fişierul
denumit nume_JUDETEAN.xlsx.
Reluaţi activitatea în
Word. Selectaţi tabelul anterior
intoducând punctul de inserare
într-o celulă a tabelului şi
folosind comanda Select→
Select Table din tab-ul Layout).
Preluaţi în Clipboard tabelul, cu
comanda Copy din grupul
Clipboard al tab-ului Home.
Treceţi apoi în Excel, selectaţi
cu un clic celula de colţ A1 din
Sheet1, apoi comandaţi Paste
din grupul Clipboard al tab-ului
Home.
Rezultatul este clar: tabelul a fost preluat, celulă cu celulă, în foaia de calcul.
Avantajele sunt multiple. În primul rând, în Excel calculele sunt imediate. De exemplu, în
celula C2 putem plasa formula evidentă
=B2/B7
pentru calculul frecvenţei relative (vezi figura anterioară). Valoarea 0.1568… se obţine
imediat.
Nu este nevoie să plasăm individual câte o formulă, analoagă celei de mai sus, în
fiecare dintre celulele C3, …, C6. După ce vom fi informaţi despre cele patru referinţe
posibile la o celulă dată, despre felul în care se modifică ele în situaţia „tragerii de mâner”
(adică despre rolul caracterului ,$’), vom putea modifica formula de mai sus în următoarea

- 13 -
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică

=B2/B$7
apoi o vom extinde prin „tragere de mâner” la domeniul C2:C6. Domeniul se va umple
automat cu toate frecvenţele relative.
Să folosim Excel pentru a obţine diagrama datelor. Pentru aceasta vom selecta mai
întâi domeniul A1:B6, după care comandăm Insert Insert Column or Bar Chart şi
alegem subtipul bidimensional, vom modifica uşor titlul în „Numărul pacienţilor internaţi în
Secţia I”, apoi în Chart Elements (butonul din dreapta sus de forma semnului„+”) vom
renunţa la afişarea legendei, întrucât nu este necesară. Se va bifa Data Labels şi se va alege
opţiunea Outside End, iar opţiunea Gridlines va fi debifată; De asemenea vom avea grijă să
mutăm diagrama într-o nouă foaie acţionând butonul Move Chart şi alegând opţiunea New
sheet, în detrimentul opţiunii Object in. (A doua opţiune nu o recomandăm întrucât
componentele diagramei nu sunt facil controlabile atunci când pregătim imprimarea sa.)
Am obţinut astfel diagrama de tip histogramă pe foaia Diagrama1, bazată pe date
plasate în celulele din Sheet1. De menţionat că orice modificare a datelor va provoca
„instantaneu” redesenarea diagramei.
Reluaţi activitatea în Word, plasând sub tabel următorul text:
„Comparativ, situaţia este prezentată mai bine de diagrama următoare:”
şi în continuare „lipiţi” diagrama de pe foaia Diagrama1. Înainte de a proceda la lipire,
folosiţi butonul Text Box→Draw Text Box din grupul Text al tab-ului Insert pentru a
pregăti un chenar cu dimensiunile aproximative de 14 8 cm. Lipirea diagramei va fi făcută
în interiorul chenarului. (Observaţi ce se întâmplă în urma lipirii, dacă nu pregătim anterior
chenarul.) Controlul dimensiunii (Size) chenarului se poate face cu comanda More Layout
Options... care devine accesibilă prin apăsarea butonului din dreapta al mausului, având
vârful indicatorului undeva deasupra bordurii casetei text.
Dedesubtul diagramei plasaţi textul următor:
„Aceleaşi date pot fi prezentate şi sub formă de rozetă (structură radială):”
şi în continuare „lipiţi” o diagramă de acest tip, obţinut în Excel, pe baza aceloraşi date, dar
pe altă foaie Diagramă2. Plasaţi pe această diagramă legenda şi încercaţi să plasaţi şi
procentele corespunzătoare fiecărei „felii”.
Dedesubtul acestei rozete plasaţi textul:
„Prezentare întocmită astăzi (data curentă) de către (numele d-voastră).”
în care data curentă o veţi insera cu comanda Data&Time din grupul Text al tab-ului Insert,
apoi salvaţi cele două fişiere nume_JUDETEAN (documentul docx si fişierul xlsx).

De unde provin frecvenţele absolute din tabelul iniţial? Răspunsul este imediat: din
înregistrările primare.
Înregistrările primare au fost stocate în fişierul denumit LP02_2.xlsx. Preluaţi (prin
copiere/lipire) fişierul LP02_2.xlsx din dosarul Anul2 în dosarul vostru. Deschideţi
ACEST exemplar cu un dublu-clic.

- 14 -
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020

Veţi constata că registrul


are o singură foaie de calcul, pe
care sunt plasate câteva date
pentru 51 de pacienţi: numele şi
prenumele, sexul, vârsta şi
diagnosticul.
Fiecărui pacient îi este
rezervat un rând, începând cu
rândul nr. 2. Diagnosticului îi
este rezervată coloana F.
Putem obţine frecvenţele absolute ale celor cinci diagnostice printr-o simplă
operaţiune de sortare. Selectăm coloanele A-F (prin tragere cu mausul deasupra
„inscripţiilor”) după care comandăm Sort&Filter→Custom Sort... din grupul Editing
al tab-ului Home. Caseta de dialog Sort ne oferă posibilitatea de a descrie criteriul de
sortare ca o combinaţie de trei coloane (dar, atenţie, cu opţiunea My Data has headers
activată!).După sortare nu ne mai rămâne decât să numărăm rândurile pe care găsim
aceeaşi valoare a diagnosticului, să intoducem valorile obţinute în urma numărării în
domeniul G2:G6.
O altă posibilitate, mai inteligentă, constă în folosirea repetată a funcţiei predefinite
COUNTIF(). Selectând una dintre celulele libere, de exemplu celula H2, vom face apel
(comanda Insert Function din tab-ul Formulas.) la funcţia COUNTIF din categoria
celor statistice. Prin caseta de dialog alăturată folosirea acestei funcţii este controlată
destul de facil: trebuie precizat domeniul în care avem datele ce ne interesează (anume
domeniul F2:F52) apoi criteriul de selecţie pentru numărare (anume valoarea „stenoza
mitrală”). Rezultatul selecţiei este imediat.

După ce aţi obţinut si celelalte frecvenţe cu ajutorul funcţiei COUNTIF(), completând


domeniul de date H2:H6, salvaţi modificările în fişierul nume_SORTARE.xlsx.

- 15 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Lucrarea practică 3
Indicaţii generale:

Un prim scop al lucrării practice este explorarea în Excel a funcţiilor statistice şi a


celor dedicate prelucrării textelor, precum şi grafica în Excel.
În continuare se vor folosi unele funcţii implementate în Excel pentru a se efectua
diverse calcule statistice simple, dar nu numai.
Un al doilea scop al lucrării practice este explorarea posibilităţilor de obţinere de
diagrame de tip statistic – de evoluţie şi de comparaţie – cu Excel, inclusiv a celor de tip
Pareto.
Alt scop al lucrării îl constituie repetarea felului în care se reprezintă diagramatic,
cu Excel, anumite date „de sinteză”.

În această lucrare practică:


a) Veţi exersa obţinerea rapidă a indicatorilor statistici uzuali;
b) Veţi explora posibilităţile de „colaborare” între aplicaţii;
c) Vă veţi familiariza cu folosirea funcţiilor încastrate.
d) veţi crea diagrame de comparaţie de tipul Pareto, de asemenea diagrame de
evoluţie;

Teme
9: funcţii în Excel (COUNTIF, CONCATENATE, AVERAGE, STDEV)
10: diagrame cu coloane
11: diagrame Pareto
12: diagrame de evoluţie şi comparaţie
specială: ierarhizarea cauzelor de deces (diagramă Pareto)

Softul ce va fi utilizat în lucrarea practică:


Excel, Word

- 16 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020

Tema 9: funcţii în Excel (COUNTIF, CONCATENATE, AVERAGE, STDEV).


Folosiţi dosarul Anul2 şi identificaţi acum fişierul denumit LP03_1.xlsx, pe care îl veţi
transfera (Copy/Paste!) în dosarul vostru de lucru. Redenumiţi-l imediat
nume_PACIENTI.xlsx (şi dezactivaţi-i atributul Read only).
Veţi constata că este folosită o singură foaie de calcul, denumită Datele. În aceasta se află
plasate, pe coloanele B-F şi rândurile 2-26, date personale referitoare la 25 de pacienţi: numele
şi prenumele, sexul, vârsta (probabil în ani) şi diagnosticul (codificat). Observaţi că numele este
separat de prenume, iar valorile pentru sex sunt binare: 0, resp. 1.
Dorim să comasăm, într-o singură coloană intitulată Numepren, numele şi prenumele
pacienţilor. În acest scop veţi folosi funcţia predefinită CONCATENATE(), pe care o puteţi găsi
în categoria funcţiilor de prelucrare de text („Text”). Mai precis, plasaţi în celula G1 denumirea
„Numepren”, apoi selectaţi celula G2 şi apelaţi caseta de dialog Function Arguments (fie
apăsând butonul Insert Function de pe bara instrumentelor, fie apelând la comanda Insert
Function din tab-ul Formulas).
Pentru început plasaţi în casetele Text1 şi Text2 referinţele la celulele B2, resp. C2.
Observaţi efectul în partea de jos a casetei, în dreptul etichetei „Rezultatul formulei =”. Nu este
exact ceea ce dorim, întrucât din nume şi prenume a fost creat un singur cuvânt. Pentru a obţine
rezultatul dorit va fi necesar să efectuaţi o uşoară corecţie; anume, în caseta Text2 veţi plasa un
spaţiu alb, iar referinţa la celula C2 va fi plasată în caseta Text3. De data aceasta rezultatul este
corespunzător.
După ce apăsaţi butonul OK, veţi observa apariţia în celula G2 a acestui rezultat. (Atenţie
la conţinutul celulei, care nu este „Trofin Ionica”, ci este cel afişat pe bara formulei! Ar trebui să
fie =CONCATENATE(B2," ",C2).

Reţineţi că, prin convenţie, ghilimelele sunt folosite în programare pentru a indica
începutul şi sfârşitul unei secvenţe de caractere.
Extindeţi, prin „tragere de mâner”, formula din celula G2 la întreg domeniul G2:G26.
Veţi face o încercare de duplicare a valorilor din coloana G în coloana I. Selectaţi coloana
G (clic având indicatorul mausului în dreptul inscripţiei „G” de deasupra coloanei) apoi
comandaţi Copy. Selectaţi apoi celula I1 şi comandaţi simplu Paste. Ar trebui să constataţi că
efectul nu este cel dorit de noi! Dat fiind că în formula
=CONCATENATE(B2," ",C2)
referinţele sunt relative, prin copiere şi lipire ele vor fi modificate corespunzător!

- 17 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Există însă în butonul Paste


(din grupul Clipboard al tab-ului
Home) o comandă denumită Paste
Special care oferă posibilităţi de
manevră suplimentare faţă de
comanda Paste. Ea conduce la
caseta de dialog din figura de
alături. Alegerea în butonul radio
Paste a opţiunii Values, are efectul
dorit.
Observaţi că denumirea
„Numepren” a coloanei este pe fond
alb, spre deosebire de denumirile
celorlalte coloane. Pentru a unifica
stilurile, folosiţi tehnica de
Copy/PasteSpecial preluând din
celula B1 formatul în celula G1.
Veţi încerca acum să efectuaţi operaţiunea inversă, anume descompunerea datelor din
coloana „Numepren” în „Nume” şi „Prenume”. Aparent există destul de multe funcţii de
prelucrare de text; cu toate acestea operaţiunea dorită nu poate fi realizată direct, cu ajutorul
unei asemenea funcţii. Evident, există posibilitatea întocmirii unui program, bazat în special pe
folosirea funcţiei logice IF(), dar aceasta este o soluţie complicată.
O soluţie mult mai simplă necesită doar folosirea aplicaţiei Word şi exploatarea
comenzilor de lucru cu tabele.
Concret, selectaţi domeniul G2:G26, apoi comandaţi Copy. Reamintiţi-vă că obiectul
selectat este „copiat” în Clipboard, unde va rămâne până la următoarea comandă de copiere (sau
decupare), indiferent în care aplicaţie o veţi da.
Declanşaţi aplicaţia Word, urmând a crea documentul
nume_PROVIZORIU.docx. Apelând la comanda Paste din
grupul Clipboard al aplicaţiei Word, veţi constata apariţia în
document a unui tabel (în care e posibil să nu fie vizibile
bordurile) cu 25 de rânduri, dar o singură coloană.
În continuare veţi apela comenzi din tab-ul Layout. Mai
întâi veţi selecta tabelul, plasând cursorul de editare undeva în
interiorul său şi apoi apelând Select►Select Table din grupul
Table. Odată selectat, veţi face apel la comanda Convert to Text
din grupul Data în caseta de dialog veţi alege ca separator în
paragrafe sfârşitul de paragraf.
Rezultatul este simplu: înlocuirea tabelului cu o listă de 25 de
componente. Această listă fiind selectată (dacă nu, selectaţi-o!), veţi
comanda acum Table►Convert text to Table din grupul Tables al
tab-ului Insert. De această dată, în caseta de dialog veţi alege blancul
ca separator al textului în coloane. Rămâne acum doar să selectaţi
cele două coloane (care conţin numele şi prenumele), să le copiaţi,
apoi să le lipiţi începând cu celula J2 a foii de calcul Excel.
Valorile din coloana D sunt binare (0, respectiv 1). Ne dăm
seama că valoarea 0 reprezintă sexul masculin (şi nu invers). Pentru a

- 18 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020

nu da posibilitatea unei interpretări greşite, ar fi bine să înlocuim prin


valorile 0/1 masculin/ feminin/

În acest scop, în celula J2 veţi plasa (prin Insert Function) funcţia IF(). Cele trei
argumente ale acestei funcţii sunt clare:
a) testul logic, ca expresie logică de referinţe la celule sau domenii; în cazul nostru se
referă doar la conţinutul celulei D2;
b) valoarea funcţiei pentru cazul în care expresia logică test este adevărată (1);
c) valoarea funcţiei pentru cazul în care dacă expresia logică test este falsă (0).
Preluaţi (prin Copy/Paste special) valorile din coloana J în coloana K. Modificarea
valorilor text poate fi făcută prin intermediul funcţiilor de prelucrare de text, cum sunt
PROPER(), UPPER(), LOWER(), SUBSTITUTE() etc. Verificaţi modul de acţiune al fiecăreia
după cum urmează: introduceţi textele „Lower“, „Upper“, „Proper“, „Substitute“ în domeniul
L1:O1, iar apoi corespunzător în domeniul L2:O2 formulele (folosiţi comanda Insert
Function). Astfel în celula L2 veţi plasa formula:
=LOWER(I2)
În celula M2
=UPPER(I2)
iar în celulele N2 şi O2 formulele
=PROPER(L2) respectiv =SUBSTITUTE(L2,” “,”_”)
Prin tragere de mâner în jos a celulelor L2, M2, N2, O2 pe fiecare coloană obţineţi efectul
fiecărei formule corespunzător funcţiei text utilizate.
Valorile coloanei E reprezintă vârstele, exprimate în ani. Veţi calcula vârsta medie,
precum şi abaterea standard (deviaţia standard) a vârstelor pacienţilor de la medie. în acest scop
se pot folosi funcţiile statistice AVERAGE(), respectiv STDEV().
Plasaţi în celula E27 (prin tastare sau apelând la Insert Function; dacă tastaţi, nu uitaţi
caracterul „=” înaintea formulelor!) formula
=AVERAGE(E2:E26)
iar în celula E28 formula
=STDEV(E2:E26)
Ar trebui să obţineţi rezultatele 48.68, respectiv 10.40. Folosiţi caseta de dialog
FormatCells făcând clic pe lansatorul casetei de dialog de lângă Number (situat în colţul din
dreapta jos) din grupul Number al tab-ului Home pentru a stabili ca în afişarea rezultatelor să
se folosească numai două cifre zecimale. În articolele medicale aceste informaţii sunt prezentate

- 19 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

astfel:
Vârsta medie a pacienţilor 48.7 (10.4) ani.
(Atunci când valorile au o anumită precizie, media lor va fi prezentată cu o zecimală în
plus. La fel abaterea standard.)
Preluaţi (prin Copy/Paste) tabelul iniţial cupris în domeniul A1:F26 pe o nouă foaie de
calcul a registrului de calcul Excel şi denumiţi această foaie „Frecvente“.
Valorile coloanei F reprezintă cinci diagnostice posibile, codificate prin 111, 222, 333,
444 şi 555. Veţi întocmi histograma valorilor, pe o altă foaie (separată) în cadrul cărţii de calcul
(registrului). În acest scop va fi folosită funcţia statistică FREQUENCY().
Dar, mai întâi, vor fi pregătite informaţiile explicative ce vor fi plasate în graficul-
histogramă: în celula L1 veţi plasa textul „Coduri”, în celula M1 veţi plasa „Frecvenţe”, iar în
domeniul L2:L6 veţi plasa – unul sub altul – codurile 111, 222, 333, 444 şi 555.
Selectaţi acum domeniul M2:M6 (chiar dacă momentan nu conţine nimic). Este esenţial
să cunoaşteţi faptul că acest domeniu va fi umplut cu valorile-frecvenţe (absolute) printr-un
singur apel la funcţia FREQUENCY(). Atenţie însă la felul în care procedaţi: va trebui să daţi o
comandă suplimentară după „apăsarea” butonului OK în caseta de dialog a acestei funcţii!
Concret, având selectat domeniul M2:M6, efectuaţi următorii paşi:
a) faceţi apel (prin simplă tastare sau apelând la Insert Function) la funcţia statistică
FREQUENCY();
b) completaţi caseta text Data_array (prin tastare sau tragere cu mausul) cu domeniul
F2:F26;
c) completaţi caseta text Bins_array (prin tastare sau tragere cu mausul) cu domeniul
L2:L6;
d) apăsaţi butonul OK, ceea ce va duce la închiderea casetei de dialog;
e) plasaţi printr-un clic cursorul de editare pe bara formulei, deasupra formulei
=FREQUENCY(F2:F26;L2:L6), apoi tastaţi combinaţia Ctrl+Shift+Enter.
Observaţi că formula a fost
încadrată de acolade,
{=FREQUENCY(F2:F26;L2:L6)},
ceea ce înseamnă că ea va umple un
domeniu şi nu doar o singură celulă!
Dispuneţi acum de toate datele
necesare creării histogramei.
Selectaţi domeniul L1:M6 (ataşând
datelor „capul de tabel”), apoi
aplelaţi comandaţi Insert Column
or Bar Chart2-D Column din
tab-ul Insert.
După realizarea diagramei va fi obligatoriu să eliminaţi seria
„Coduri” apelând la butonul Select Data din grupul Data al tab-
ului Design devenit activ prin crearea diagramei. În caseta de
dialog Select Data Source selectaţi seria „Coduri” şi apoi faceţi
clic pe butonul Remove (vezi figura de mai sus). În secţiunea
Horizontal (Category) Axis label introducem facând clic pe
butonul Edit domeniul care conţine codurile (vezi figura
alăturată).
- 20 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020

Titlul diagramei va fi „Repartiţia pacienţilor pe maladii”, pe axa X veţi plasa „Coduri”, iar pe
axa Y „Număr pacienţi”. Renunţaţi la folosirea legendei, întrucât nu este necesară atunci când se
reprezintă grafic doar o singură serie de date. Plasaţi ca etichete valorile frecvenţelor deasupra
coloanelor; Plasaţi desenul ca foaie nouă a registrului, cu denumirea „diagrama frecvenţelor”
(Probabil că vă veţi da seama de ce nu puteţi acorda denumiri „lungi” foilor registrului!
Recomandăm să alegeţi denumiri scurte dar sugestive.)
Codificarea maladiilor prin codurile numerice 111, 222, 333, 444, 555 este complet artificială. În
crearea codurilor se obişnuieşte combinarea cifrelor cu litere. Modificaţi aceste coduri (ar fi de preferat
s-o faceţi pe o copie a foii de calcul, fie aceasta Coduri) prin A1, A2, B1, C1, C2. Pentru modificarea
codurilor puteţi folosi butonul Find&Select al grupului Editing din tab-ul Home apelând opţiunea
Replace. Puteţi observa că funcţia FREQUENCY() nu mai dă rezultatele dorite!
Aceste rezultate pot fi obţinute însă cu COUNTIF(). După ce aţi şters valorile obţinute cu
funcţia FREQUENCY din domeniul M2:M6, plasaţi în celula M2 formula
=COUNTIF(F$2:F$26,L2)
apoi extindeţi-o la toate cele cinci celule ale domeniului M2:M6. Repetaţi crearea diagramei
cu coloane; ar trebui să observaţi că Excel o creează automat, fără a mai fi nevoie de eliminarea de
serii!
Ar fi de dorit ca să plasaţi valorile seriei de date deasupra coloanelor, eventual evidenţiate
prin „bolduire” şi mărime 18.

Tema 10: diagrame cu coloane. Datele din tabelul următor sunt preluate din Anuarul
Statistic al Populaţiei (2005). În tabel se prezintă numărul de familii cu N copii.
Nr. copii în Numărul de
familie familii
0 11204
1 114992
2 67712
3 19609
4 8369
5 4284
6 2329
7 1478
>7 2247
De la un eşantion investigat de 46 de familii s-au obţinut următoarele rezultate:
Nr. copii în Numărul de
familie familii
0 3
1 20
2 15
3 5
4 3
>4 0

- 21 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Reprezentarea diagramatică ne permite o percepere mai rapidă a seturilor de date


(comparativ cu citirea numerelor din tabele).
Vom întocmi în Excel o diagramă cu coloane, după ce vom plasa datele în domeniul
A1:C10 pe o foaie de calcul (denumită, ca de obicei, „Datele”) a fişierului
nume_ANUAR.xlsx. Să introducem apoi textele „Anuar“ în celula D1, „Eşantion“ în celula
E1 şi să calculăm frecvenţele relative ale celor două loturi pe domeniile D2:D10 şi E2:E10.
Selectând domeniileA1:A10 şi D1:E10 (ajutându-vă de tasta [Ctrl]) şi folosind lansatorul
casetei de dialog Charts (situat în colţul din dreapta jos al grupului Charts) alegeţi tipul de
diagrama Clustered Column.
În final diagrama ar trebui să arate ca în figura următoare.
Putem afirma că
eşantionul nostru este Eșantion vs. Anuarul statistic
„reprezentativ”? 60.00%
Aparent da, dacă 50.00%
40.00%
„reprezentativitatea” 30.00%
este considerată relativ 20.00% Anuar
la numărul de copii. 10.00%
0.00% Esantion
Totuşi, afirmaţia
0 1 2 3 4 5 6 7 >7
ar trebui să se bazeze pe
ceva „obiectiv”, nu doar (număr copii în familie)
pe o examinare vizuală a
diagramei!
De exemplu, s-ar putea baza pe faptul că „distanţa” dintre setul de date din eşantion şi
setul de date din Anuarul Statistic este mică, mai mică decât un prag de separare între
distanţele „mici” şi distanţele „mari”.
(Un asemenea prag „obiectiv” se stabileşte de obicei exploatându-se o anumită distribuţie
χ2. Vom reveni.) Creaţi documentul nume_ANUAR.docx conţinând cele două tabele şi
diagrama de mai sus, cu explicaţiile necesare.

Tema 11: diagrame Pareto. În aprecierile făcute asupra calităţii funcţionării unui sistem
(mecanic, social, biologic …) se studiază cu atenţie cauzele funcţionării defectuoase. Aceste cauze
se sortează apoi, în ordine descrescătoare după frecvenţele relative. Pentru prezentarea lor vizuală
se întocmeşte o diagramă de tip Pareto.
Se ştie că unul dintre motivele întârzierilor în stabilirea diagnosticului unui pacient îl
constituie slaba calitate a dosarului său (fişei medicale). Să luăm, ca exemplu fictiv, o analiză a
calităţii dosarelor medicale întocmite într-un spital în anul 2007. Au fost descoperite diverse
nereguli, conform tabelului următor, în dosarele celor 614 pacienţi care au fost „trase la sorţi” ca
eşantion:

Cauza Număr cazuri


Dosarul medical pierdut 2
Lipsa unei adeverinţe la dosar 79
Existenţa unei hârtii nesemnate la dosar 185
Existenţa unei hârtii fără identificarea pacientului 15
Datele nu permit identificarea tratamentului urmat 22

- 22 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020

Introducem în Excel, pe foaia „Datele” din fişierul nume_PARETO.xlsx, în domeniul


A1:B6, conţinutul tabelului anterior. Pe coloana C calculăm frecvenţele relative. Anume:
- în celula C1 introducem textul „Frecvenţa relativă”,
- în celula B7 calculăm totalul neregulilor, cu formula
=SUM(B2:B6)
- în celula C2 calculăm (atenţie la fixarea prin caracterul ‚$’)
=B2/$B$7
- extindem prin tragere de mâner conţinutul celulei C2 la domeniul C2:C7 (includem şi
celula C7 pentru control),
- selectăm coloana C şi comandăm afişarea procentelor, cu 2 zecimale (Home
CellsFormatFormat CellsNumberPercentage…)
După ce am calculat frecvenţele relative, vom sorta cauzele în ordine descrescătoare a
frecvenţelor. Astfel, selectăm domeniul A1:C6, apoi comandăm HomeEditing
Sort&FilterCustom Sort (Largest to Smallest) după (Frecvenţa relativă), cu My data has
headers activat.
Calculăm acum pe coloana D frecvenţele cumulate:
- introducem în celula D1 textul „Frecvenţe cumulate”,
- introducem în celula D2 formula (atenţie la caracterul ‚$’)
=SUM(C$2:C2)
- extindem formula la domeniul D2:D6.
Încercăm reprezentarea grafică a rezultatelor obţinute, într-o diagramă de tipul Pareto, cu
comanda InsertChartsInsert Combo Chart Clustered Column-Line (linie-coloană).
Pentru „Axa valorii” intraţi în meniul de context (clic dreapta dupa selectarea axei), alegeţi
comanda Format axis, apoi în panoul din dreapta fixaţi la Axis options: Bounds – Maximum = 1
iar la Number: Category – Percentage, Decimal places= 0.
Diagrama, cu titlu şi legendă, salvată într-o foaie separată denumită „Pareto”, ar trebui să
arate ca în figura următoare.
(Notă. Nu trebuie confundate diagramele Pareto cu diagramele în care se prezintă simultan
distribuţia şi distribuţia cumulată a unei variabile aleatoare!)

Cauzele lipsei calității în dosarele


medicale
100%
80%
60%
40%
20% Frecvența relativă
0%
Frecvențe cumulate

- 23 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Repetaţi procedura anterioară, realizând în final o diagramă Pareto, pentru cauzele de deces în
anul 2005 (conform Anuarului Statistic), prezentate în tabelul următor:

Cauze de deces în anul 2005 M F


Boli infecţioase şi parazitare (incl. Tb) 18.3 6.0
Tumori 249.4 168.0
Boli endocrine, de nutriţie şi metabolism (incl. DZ) 9.7 11.1
Tulburări mentale şi de comportament 5.2 1.3
Boli ale sistemului nervos 10.0 8.2
Boli ale aparatului circulator 732.4 774.2
Boli ale aparatului respirator 78.8 45.5
Boli ale aparatului digestiv 86.0 50.9
Boli ale aparatului genito-urinar 12.9 9.1
Sarcină, naştere şi lăuzie 16.6
Unele afecţiuni a căror origine se situează în perioada perinatală 7.2 4.4
Malformaţii congenitale, deformaţii şi anomalii cromozomiale 5.2 4.1
Leziuni traumatice, otrăviri şi alte consecinţe ale cauzelor externe 93.1 29.1
Alte cauze 5.1 3.6

Introduceţi acest tabel într-o foaie de calcul nouă din fişierul nume_PARETO.xlsx, în
domeniul A1:C15. Puteţi prelua datele, prin copy/paste, din foaia „Anuar” a fişierului
LP03_2.xlsx. Completaţi coloana D cu totalurile, apoi folosiţi datele din această coloană.
Recomandăm să creaţi o coloană cu denumiri prescurtate, pe care s-o utilizaţi în locul coloanei A.

Tema 12: diagrame de evoluţie şi comparaţie. Tabelul următor – plasat pe o foaie de calcul
Excel în domeniul A1:E11, conţine date privind rata incidenţei cancerului pulmonar la bărbaţi, pe
categorii de vârstă.

Perioada
Vârsta 1973-76 1980-82 1983-87 1988-92
30-34 4.1 4.3 3.7 3.1
35-39 15.1 9.6 11 7.1
40-44 29.9 29.2 26.4 21.9
45-49 73.4 73.4 69.5 59.7
50-54 143.9 140.4 143.3 146.5
55-59 245.1 257.2 265.4 268.8
60-64 372.4 407.1 410.4 417.7
65-69 448.3 556.8 589.3 611.2
70-74 407.4 621.8 743.5 782.6

Să reprezentăm grafic datele din acest tabel. De la bun început să precizăm faptul că putem
considera seriile de date fie pe coloane, fie pe rânduri. Recomandăm crearea diagramelor folosind
lansatorul casetei de dialog Charts care deschide caseta de dialog Insert Charts.Vom utiliza
tableta All Charts pentru a selecta tipul de diagramă dorit.
- 24 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020

Dacă rândurile tabelului (anume acelea formate din numere) vor constitui seriile de date,
atunci avem de-a face cu evoluţii ale ratelor de incidenţă, aşadar tipul de diagramă va fi cel „cu
linii” (Line), iar titlul adecvat al diagramei va fi „Evoluţia ratei de incidenţă a cancerului pulmonar
la bărbaţi, pe categorii de vârstă”. Se impune afişarea legendei. (Se recomandă ca, înainte de a trece
la reprezentarea diagramatică, să se selecteze domeniul extins A2:E11.)

Discrepanţa mare între valorile de la categoria de vârstă „30-34” şi valorile de la categoria de


vârstă „70-74” face ca să preferăm alegerea unei scale logaritmice (ceea ce ar trebui indicat în clar, pe
axa ordonatelor). Alegerea scalei logaritmice se poate face după un dublu clic pe axa cotelor (axa
verticală), prin „bifarea” opţiunii respective Logarithmic scale în secţiunea Axis Options a panoului
Format Axis care se deschide în dreapta. Diagrama ar trebui să arate ca în figura de mai sus.
Dacă seriile de date sunt considerate nu pe rânduri, ci pe coloane (Column3D Column),
atunci accentul principal se pune pe compararea ratelor de incidenţă pentru diversele categorii de
vârstă. De data aceasta, tipul adecvat de diagramă este „Comparaţie între ratele de incidenţă ale
cancerului pulmonar la bărbaţi, pe categorii de vârstă”. Poate este utilă adoptarea scalei logaritmice.
Diagrama arată că în figura următoare.

- 25 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Ar putea fi ales şi tipul de diagramă cu grupe de coloane (ColumnClustered


Column), însă în această situaţie seriile de date vor fi iarăşi considerate pe rânduri, iar
legenda devine obligatorie.

Înregistraţi cele trei foi-diagramă, alături de foaia de calcul, în fişierul pe care-l veţi
denumi nume_PULMONAR.xlsx.
Preluaţi prin copiere din dosarul Anul2 fişierul-carte de calcul LP03_3.xlsx (Nu
lucraţi direct cu fişierul din dosarul Anul2) şi lipiţi-l în folderul vostru de lucru.
Fişierul are o singură „foaie de calcul” pe care găsiţi nişte date. Cu aceste date veţi
crea o diagramă. Salvaţi în final – după ce aţi schimbat autorul – fişierul (cu cele două foi)
dându-i numele nume_ECORADIO.xlsx. (Atenţie la tipul de fişier pe care-l obţineţi!)
Înainte de a salva fişierul, efectuaţi următoarele operaţiuni:
– completaţi coloana D cu diferenţele între valorile „măsurate” la ecograf şi cele
obţinute radiologic. Formula din celula D2 va fi următoarea
=B2-C2
(Se ştie că există o tendinţă de a exagera la ecograf dimensiunile calculilor
renali. Oare această tendinţă se manifestă şi faţă de aprecierile făcute pe
radiografii?)
– calculaţi în celula B107 media datelor de pe coloana B (utilizaţi funcţia statistică
AVERAGE);
– calculaţi analog mediile datelor de pe coloanele C şi D;
(Ar trebui ca media diferenţelor să coincidă cu diferenţa între media valorilor
„măsurate” la ecograf şi media celor obţinute radiologic. Verificaţi că este aşa.)
– cu datele din coloanele B şi C creaţi o diagramă de tipul XY (prin puncte -
Scatter) pe care adăugaţi linia de tendinţă şi optaţi pentru afişarea „ecuaţiei”. Pe
diagramă afişaţi şi liniile de grilă majore, pentru ambele axe;

- 26 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020

Tema specială: ierarhizarea cauzelor de deces (diagrame 100% Stacked bar


şi Pareto). Datele statistice oficiale înregistrate în Franţa arată următoareadistribuţie a
cauzelor majore de deces pentru anul 2004:

Cauze majore de deces Bărbaţi Femei


Tumori 90686 62020
Maladii cardiovasculare 69337 77986
Violenţa 22481 14947
Alte … 80564 91385

Prezentaţi datele din tabelul de contingenţă anterior printr-o diagramă adecvată.


De asemenea,
a) Prezentaţi diagramatic situaţia cauzelor de deces pentru întreaga populaţie a
Franţei, în 2004 (tipul adecvat poate fi rozeta);
b) Reprezentaţi prin diagrame Pareto datele din tabelul următor:
c)
Cauze detaliate de deces Bărbaţi Femei
Accident de circulaţie 4035 1354
Accident vascular cerebral 13985 19502
Cancer intestinal 8817 7641
Cancer mamar - 11199
Cancer pancreas 4021 3727
Cancer prostată 9138 -
Cancer pulmonar 22773 5619
Diabet 5135 5756
Infarct miocardic 23122 17564
(Notă: folosiţi foile unui fişier nume_CAUZE.xlsx.)

- 27 -
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Lucrarea practică 4
Indicaţii generale:

Un prim scop al lucrării practice este aprofundarea modalităţilor de calcul aritmetic


cu Excel, prin efectuarea de medii ponderate.
Un al doilea scop al lucrării practice este explorarea posibilităţilor de a efectua
operaţiuni specifice bazelor de date cu Excel, prin intermediul funcţiei VLOOKUP.
Evident, nefiind un soft specific unor asemenea operaţiuni, ele vor fi efectuate ceva mai
dificil.
Un alt scop este controlul detaliat al diagramelor realizate în Excel şi calculul
intervalelor de încredere.
Aplicaţiile de calcul tabelar sunt astăzi instrumente puternice la dispoziţia
cercetătorilor. Nu doar calcule care în trecut necesitau eforturi mari şi consum de timp, dar
şi reprezentări grafice elaborate, pot fi obţinute astăzi cu uşurinţă. Aceasta va fi
exemplificat prin realizarea rapidă a unei diagrame de tip structură radială specială.

În această lucrare practică:


a) veţi explora posibilităţile de a calcula medii ponderate;
b) veţi învăţa să utilizaţi funcţia VLOOKUP;
c) veţi învăţa să controlaţi diagrame de tipul structură radială din structură
radială, cel mai „complicat” tip realizat de către Excel;
d) vă veţi reaminti principalele capabilităţi ale unei aplicaţii de calcul tabelar
(Microsoft Excel), şi anume cele de creare de diagrame şi cele de efectuare
rapidă de calcule statistice;
e) veţi aborda un prim exemplu de felul în care se formează opinii ştiinţifice,
bazate pe date puţine, şi de felul în care ele se pot valida „statistic”;
Teme

13: calculul mediei ponderate


14: funcţia VLOOKUP
15: structuri radiale în Excel
16: controlul detaliat al diagramelor Excel
17: calculul intervalelor de încredere în Excel

Softul ce va fi utilizat în lucrarea practică:


Word,Excel

28
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021

Tema 13: calculul mediei ponderate. Aplicaţia Excel nu dispune de o funcţie


pentru calculul mediilor ponderate. Alte aplicaţii, cum ar fi Statistica sau SPSS, dispun şi
ele de asemenea funcţii, ceea ce permite obţinerea directă a rezultatului. Excel permite
însă, într-un mod indirect, să obţinem medii ponderate.
Costul spitalizării unui pacient, pentru patru tipuri de tratament, precum şi numărul
cazurilor înregistrate anul trecut în spital, sunt trecute în tabelul următor:
Tipul de tratament Costul spitalizării (lei) Numărul de cazuri
Apendicită (KA=) 80 (NA=) 422
Rezecţie Péan (KR= 200 (NR=) 180
By-pass coronarian (KB=) 1200 (NB=) 41
Fractură femurală (KF=) 100 (NF=) 515
Introduceţi, într-un document Word denumit nume_POND.docx, datele din acest
tabel. Veţi începe prin a cere inserarea unui tabel cu 5 coloane şi 5 rânduri. Pe primul rând,
după ce veţi introduce în prima coloană textul „Tipul de tratament”, veţi comasa celulele
din a doua şi a treia coloană (după ce le-aţi selectat), folosind comanda Merge Cells din
grupul Merge al tab-ului Layout. La fel veţi proceda şi cu celulele din a patra şi a cincea
coloană de pe primul rând. Pe rândurile următoare veţi introduce textele şi numerele, având
grijă să aliniaţi numerele la dreapta (folosind lansatorul casetei de dialog Paragraph -
colţul din dreapta jos al grupului Paragraph din tab-ul Home, opţiuni de aliniere la
dreapta, indentare la dreapta 1 cm) iar indicii (KA, NA etc.) să-i obţineţi cu ajutorul opţiunii
Subscript prin lansatorul casetei de dialog Font al tab-ului Home. Cât priveşte bordurile
diferite, care este calea cea mai rapidă de a le obţine?
Aspectele formale (tipul de linie folosit în chenare, alinierile) sunt şi ele importante,
dar mai importantă este aprecierea („estimarea”) costului mediu al spitalizării unui pacient.
Costul mediu al spitalizării unui pacient se poate obţine ca medie ponderată a
costurilor, fiecare pondere fiind dată exact de numărul de cazuri. Formula este:
K  NA  KR  NR  KB  NB  KF  NF
K mediu  A .
NA  NR  NB  NF
Nu există posibilitatea de a efectua calculele cu Word. Pentru a calcula costul mediu
veţi folosi aplicaţia Excel. Veţi plasa datele din tabelul de mai sus pe o foaie de calcul – pe
care o veţi redenumi în final „CMP”, iniţialele de la „costul mediu ponderat” – din fişierul
nume_PONDERATE.xlsx.
Nu este necesar să tastaţi încă odată datele. Puteţi selecta în Word tabelul (având
cursorul în interiorul tabelului utilizaţi comanda Select→Select Table din tab-ul Layout),
apoi cu tehnica de copiere/lipire (copy/paste) îl puteţi „lipi” pe foaia de calcul.
Veţi plasa datele din tabel în domeniul A1:E5. Avem nevoie însă şi de produsele
KN (ce reprezintă costurile totale de spitalizare corespunzătoare tipurilor de tratament),
care vor fi plasate de exemplu pe coloana F. Mai precis, în celula F2 veţi plasa formula de
calcul
=C2*E2
pe care o veţi extinde – prin tragere de mâner – la celulele domeniului F2:F5. Urmează să
calculaţi cele două sume, cea de la numitorul formulei şi cea de la numărătorul formulei.
Veţi face apel la funcţia SUM(), prin intermediul opţiunii Insert Functions,atât în celula

29
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

E6 cât şi în celula F6.


Pentru a încheia calculele cu ultima împărţire, veţi tasta în celula B6 textul „Costul
mediu” iar în celula C6 formula de calcul
=F6/E6
Rezultatul a fost obţinut aşadar în celula C6. Dispunem în Excel şi de alternativa
utilizării funcţiei SUMPRODUCT() de calcul a sumelor de produse. Este o funcţie care
poate fi găsită în lista celor matematice şi trigonometrice. Introduceţi în celula F7 formula
(vezi figura de mai jos):
=SUMPRODUCT(C2:C5,E2:E5)
Ar trebui să constataţi că rezultatul este exact acelaşi cu cel din celula F6.

Tema 14: funcţia VLOOKUP. Funcţiile de căutare au ca scop înlocuirea unor valori
cu altele, conform unor tabele de asociere. Utilitatea lor este necontestată în situaţiile în
care trebuie să introducem, în mod repetat, „expresii” identice. În lucrul la calculator este
clar ce înseamnă „secvenţe de caractere identice”. Nu este vorba deloc despre felul în care
sunt ele afişate pe ecran; prin comparare vizuală am putea fi induşi în eroare cu destul de
multă uşurinţă!
Dacă am introduce expresiile prin tastare, ar fi mari şanse ca erori mici să producă
secvenţe de caractere care să nu fie „identice”. De aceea se recomandă ca o „expresie” care
a fost introdusă anterior prin tastare să nu mai fie tastată a doua oară; dimpotrivă,
introducerea următoarelor „exemplare” să fie făcută prin copierea primului.
Să considerăm un exemplu simplu, cel al unei liste de persoane, în care numele şi
prenumele fiecărei persoane este însoţit de profesia sa, astfel:
Ionescu Ion medic

30
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021

Popescu Ioana asistent medical


Teodorescu Petre laborant
Constantinescu Jan asistent medical

Deja a apărut o repetare a profesiei. În cazul în care lista este lungă, tastarea textului
„asistent medical” ar putea fi făcută cu uşoare variaţii. Aceste variaţii, datorate oboselii,
vitezei sau altor cauze, vor provoca probleme serioase atunci când vom selecta din listă
asistenţii medicali, sau atunci când vom ordona alfabetic sublista asistenţilor medicali.
O cale de evitare a posibilelor nereguli o constituie folosirea funcţiei predefinite
VLOOKUP. Ea a fost creată pentru a căuta o anumită secvenţă (valoare) în cadrul unei
coloane a tabelului şi a returna valoarea corespunzătoare (de pe acelaşi rând) din altă
coloană, conform sintaxei
=VLOOKUP(valoare căutată, nume tabel, deplasare)
Efectul utilizării funcţiei este următorul: atunci când funcţia găseşte secvenţa
(valoarea) căutată într-o celulă din coloana de căutare, se va reţine poziţia rândului, apoi se
efectuează deplasarea indicată pe acel rând, returnând în final conţinutul noii celule.
Pentru un exemplu concret, să creăm un fişier nou nume_LOOKUP.xlsx, şi să
plasăm în domeniul A1:B3 (de pe prima foaie de calcul) valorile
A B
1 1 asistent medical
2 2 laborant
3 3 medic
iar în domeniul A4:B5 valorile
A B
4 1 feminin
5 2 masculin
Să redenumim cele două domenii (după selectarea fiecăruia folosim comanda
Define Name→Name din grupul Defined Names al tab-ului Formulas) PROFESIA,
respectiv SEXUL. Să completăm acum, începând cu celula D1, următoarele date:
D E F G H
1 Numele şi prenumele Profesia Sexul Profesia Sexul
2 Ionescu Ion 3 2
3 Popescu Ioana 1 1
4 Teodorescu Petre 2 1
Celulele de pe coloanele G şi H vor fi completate automat. De exemplu, în celula
G2 se va introduce formula
=VLOOKUP(E2,PROFESIA,2)
iar în H1 formula
=VLOOKUP(F2,SEXUL,2)
Completaţi tabelul cu încă cel puţin patru înregistrări (rânduri) pe coloanele D-F,
după care extindeţi formulele pe coloanele G şi H. (Evident, corectaţi erorile!)

31
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Amestecarea, pe aceeaşi foaie de calcul, a mai multor tabele nu este o idee prea
bună Recomandăm mutarea tabelului cu datele persoanelor pe o altă foaie de calcul,
începând cu celula A1. Aici coloanele G şi H vor deveni coloanele C şi D. Recomandăm şi
separarea celor două domenii care au fost denumite PROFESIA respectiv SEXUL, pe două
foi de calcul separate denumite corespunzător.

Tema 15: structuri radiale în Excel


În cadrul unei investigaţii mai largi au fost examinaţi un număr de 200 elevi (în vârstă de
10-18 ani), măsurându-li-se înălţimea (în cm), greutatea (în kg), circumferinţa bustului (în
cm). De asemenea, a fost înregistrată vârsta lor, sexul şi localizarea durerii lombare, în caz
că s-a constatat prezenţa acesteia.
Datele înregistrate pot fi găsite în fişierul LP04_1.xlsx. Ar trebui să identificaţi o singură
foaie denumită „Lombar” şi, în ea, următoarele coloane: Cod, Numpre, Varsta, Sex, Durere
lombara, Inaltime, Greutate, Bust.
Inseraţi (cu comandaInsertInsert Sheet din grupul Cells al tab-ului Home) o nouă
foaie, pe care o denumiţi „Frecvenţe”. În ea, în celula A2 plasaţi textul „in punct fix”, în
celula A3 plasaţi textul „iradiata” iar în celula A4 textul „nesistematizata”. (NU TASTAŢI
ACESTE TEXTE! Se recomandă ca acestea să fie plasate prin copiere/lipire din celule ale
foii iniţiale în care se află asemenea texte.)
Să ne amintim că am folosit funcţia COUNTIF care „numără” apariţiile aceleiaşi
secvenţe de caractere într-un domeniu. (Face parte din categoria funcţiilor statistice.)
Este foarte important să aflaţi despre posibilităţile de lucru cu datele aflate pe mai multe
foi de calcul. Identificatorul unei celule (sau al unui domeniu) care se află pe altă foaie se
crează din numele foii terminat cu caracterul „!” (semnul exclamării) urmat de identificatorul
celulei (domeniului). Introduceţi în celula B2 formula:
=COUNTIF(Lombar!E$2:E$201,A2)
Este clar că funcţia va număra apariţiile valorii celulei A2 (în cazul nostru secvenţa „in
punct fix”) în domeniul E2:E201de pe foaia „Lombar”. Reamintim că „$” are rolul de a fixa
identificatorul de rând sau de coloană pe care-l precede. Acest lucru este extrem de util
atunci când facem extinderi sau copieri de formule.
Trăgând de mânerul celulei B2, vom putea extinde cu uşurinţă formula la domeniul
B2:B4.
Să plasăm în celula A1 textul „Fără”, iar în celula B1 formula
=COUNTA(Lombar!E$2:E$201)–SUM(B2:B4)
care permite calculul imediat al numărului de subiecţi la care nu s-a constatat durere
lombară.
Cu datele din domeniul A1:B4 să creăm o diagramă de tipul Structură radială din
structură radială. După selectarea domeniului apelăm comanda Insert Pie or Doughnut
Chart din grupul Chart al tab-ului Insert şi ne asigurăm că alegem tipul „2D Pie” subtipul
„Pie of Pie”. Declaraţi ca titlu „Distribuţia durerii lombare în lotul studiat” şi plasaţi în final
diagrama pe o foaie separată (distinctă de foile de calcul!)
Veţi acţiona acum asupra componentelor grafice ale foii-diagramă.
Cu un clic-dreapta deasupra unui sector colorat puteţi intra în panoul din dreapta Format
Data Series. Acţionaţi butonul Series Options, alegând valoarea „3” pentru Values in second
plot. Încercaţi controlul mărimii rozetelor şi spaţiului dintre ele, prin stabilirea la 120% a
mărimii rozetei din dreapta (Second Plot Size; cea din stânga are mărimea standard de 100)
şi la 75% a distanţei dintre rozete (Gap Width).
32
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021

De asemenea, în panoul Format Data Labels activaţi două dintre casetele de validare prin
butonul Label Options, şi anume „Category Name” şi „Value”, apoi alegeţi „Outside End” în
zona Label Position. Veţi observa că în dreptul sectoarelor de cerc apar inscripţiile din
domeniul A1:A4, cu excepţia inscripţiei „Other, 68”. Prin dublu-clic deasupra acesteia
încercaţi să preluaţi controlul ei şi să eliminaţi textul nedorit, rămânând numai „68”.
Prin clic, clic-dreapta sau dublu-clic deasupra câte unui sector încercaţi să preluaţi
controlul colorării sectorului respectiv. Încercaţi să determinaţi aplicarea unor efecte de
umplere. (Ar trebui să acţionaţi în panoul Format Data Point, prin apăsarea butonului Fill şi
alegerea efectului de umplere dorit: Gradient fill, Picture or texture fill, Pattern fill.) Atenţie,
nu încercaţi acest lucru în panoul Format Data Series, întrucât veţi determina nediferenţierea
sectoarelor. Nu uitaţi: în cazul unei erori sau obţinerii unui efect nedorit, reveniţi la situaţia
anterioară prin butonul Undo Format Object (Ctrl+Z).
Plasaţi acum în celula D1 a foii „Frecvenţe” textul „Separatori”, iar în domeniul D2:D7
numerele 140, 150, 160, 170, 180, 190. În celula E1 plasaţi textul „Frecvenţe”, iar în celula
E2 formula
=FREQUENCY(Lombar!F2:F201,D2:D7)
Selectaţi acum domeniul E2:E8, plasaţi cu un clic un punct de inserare pe bara formulei,
apoi tastaţi [Ctrl]+[Shift]+[Enter]. În acest fel se obţin dintr-o singură mişcare toate
frecvenţele (absolute) ale înălţimilor indivizilor din eşantion, conform valorilor de separare
alese (din 10 în 10 centimetri).
Selectând acum domeniul D1:E8, încercaţi să realizaţi o diagramă a frecvenţelor. Care
este tipul adecvat şi ce titlu ar trebui să poarte diagrama?
Redenumiţi nume_SONDAJ.xlsx cartea de calcul conţinând cele două foi de calcul şi
două foi cu diagrame. Încercaţi salvarea sub formă de pagină web cu denumirea
nume_SONDAJ.htm.

Tema 16: controlul detaliat al diagramelor Excel


Cercetătorii unei firme farmaceutice au imaginat un unguent (bazat pe un compus chimic
nou) despre care cred că ar trebui să vindece mai rapid arsurile pielii. Unguentul a fost testat
în laborator pe un număr de 7 şoareci aleşi aleator dintre cei 16 de care dispunea laboratorul

33
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

pentru aceste teste. (Tuturor celor 16 şoareci li s-au provocat arsuri de piele, de gravităţi
echivalente.)
Pentru grupul celor 7 „trataţi” au fost constatate următoarele durate de vindecare (în zile):
9 4 3 19 10 2 14
Pentru grupul „de control” al celor 9 „netrataţi” au fost constatate următoarele durate de
vindecare (în zile):
5 2 4 10 5 3 14 3 5
Se poate afirma că tratamentul cu noul unguent grăbeşte vindecarea arsurii?
Să utilizăm aplicaţia Excel pentru a-i explora posibilităţile de a ne ajuta în a da
răspunsuri justificate la întrebări de tipul celei anterioare.
Veţi crea un fişier-carte de calcul denumit nume_UNGUENT.xlsx cu cel puţin o foaie
de calcul. Se recomandă ca diagramele să NU fie plasate peste celulele foii de calcul, ci în
foi separate!
Redenumiţi prima foaie de calcul „Arsuri” şi, în domeniul B2:B17, plasaţi – una sub alta
– cele 16 durate de vindecare. În celula B1 veţi plasa textul „Durata de vindecare (în zile)”,
iar în celula C1 textul „Grupul”.
Alăturat duratelor de vindecare, în domeniul C2:C17, plasaţi textele „tratament” sau
„control”, după caz.
Coloana A o veţi folosi pentru identificarea (numerotarea) cazurilor. Mai precis, în A1
veţi plasa textul „Individul nr.”, iar dedesubt veţi plasa – unul sub altul – numerele 1, 2, ...,
16. (Reamintiţi-vă cum se poate extinde, prin tragere de mâner, o progresie aritmetică.)
Poate că o reprezentare grafică a
datelor ne va fi de ajutor. Cu Excel
obţinem repede o asemenea
reprezentare; este suficient să
selectăm domeniul A1:B17 şi să
apelăm comanda Insert→Insert
Column or Bar Chart→2-D
Bar→Clustered Bar, probabil
diagrama cea mai potrivită pentru
această situaţie fiind cea „cu bare
orizontale”. În etapa de eliminare a
seriei „Individul nr.” putem apela la
butonul Select Data din tab-ul Recomandăm realizarea diagramei pe o foaie
Design şi după selecţia seriei separată, evitând amestecul între grafică şi calcule
„Individul nr.” folosim butonul pe aceeaşi foaie de lucru. Denumiţi „16-1” foaia
Remove– a se vedea figura separată
alăturată.

34
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021

Încercaţi modificarea culorilor în care sunt afişate barele, de exemplu în roşu pentru
primele 7 bare (cele de jos) şi în albastru pentru celelalte. Plasaţi de asemenea textele
„tratament” şi „control” colorate corespunzător, ca în figură.
Duplicaţi foaia pe care aţi depus diagrama, denumind „1-16” copia. Încercaţi, pe foaia
„1-16”, schimbarea ordinii de afişare a duratelor de vindecare (astfel încât barele orizontale
„tratament” să apară deasupra celor „control”).

Tema 17: calculul intervalelor de încredere în Excel


Compararea grafică, pe diagrame, este utilă atunci când vrem să transmitem rapid
informaţie privitorului, sau – cazul nostru – atunci când avem de-a face cu secvenţe lungi de
numere, care se „citesc” cu dificultate. Din punct de vedere statistic, ar trebui să începem
studiul nostru cu compararea mediilor celor două grupuri. Mediile se obţin uşor, cu ajutorul
funcţiei AVERAGE.
Este însă de preferat să începem prin a organiza datele comparative pe foaia de calcul. De
exemplu, să plasăm în celula F1 textul „Tratament”, în celula G1 textul „Control”, în celula
E2 textul „Număr cazuri” iar în celula E3 textul „Medii”.
Chiar dacă numărul de cazuri ne este cunoscut, recomandăm obţinerea sa cu ajutorul
funcţiei COUNTIF. Activând celula F2, apelaţi (comanda Insert Function) această funcţie
din categoria celor statistice. Are două argumente: domeniul datelor – care ar trebui să fie
C2:C17 – şi criteriul de selecţie, care ar trebui să fie secvenţa de caractere „tratament”.
Întrucât această valoare se află în câteva celule, printre care şi C2, al doilea argument ar
putea fi chiar C2.
Analog, celula G2 ar trebui să aibă drept conţinut formula
=COUNTIF(C2:C17,C17)
Pentru calculul mediei vom face apel la funcţia AVERAGE, şi ea din categoria funcţiilor
statistice. În celula F3 plasăm formula (!)
=AVERAGE(B2:B8)
35
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

iar în celula G3 formula analoagă.


După o formatare adecvată a acestor două celule, cerând afişarea cu 2 zecimale, ar trebui
să obţinem afişate valorile 8.71 respectiv 5.67.
Cercetătorii nu ar avea motive de optimism: în medie, durata de vindecare este mai mare
pentru indivizii trataţi cu unguent!
Situaţia de mai sus este excepţională, de regulă nu se întâmplă aşa, dar nu trebuie excluse
asemenea situaţii!
Copiaţi acum foaia „Arsuri” peste foaia a doua, pe care o veţi denumi „Corect”. Copierea
unei foi întregi se face de asemenea cu tehnica de copiere/lipire (copy/paste), iar selectarea
prealabilă a întregii foi se poate face prin „apăsarea” butonului de colţ (aflat în stânga
butoanelor A, B, C, ... care identifică coloanele şi deasupra butoanelor 1, 2, 3, ... care
identifică rândurile). Prin copiere/lipire au fost preluate toate formulele!
Înlocuiţi acum, în foaia „Corect”, datele din domeniul B2:B8 prin următoarele
5 4 3 5 8 2 6
De data aceasta durata medie de vindecare (pentru indivizii trataţi) este de 4.71 zile, iar
cercetătorii pot afirma că unguentul este eficace în vindecarea arsurilor.
Evident, această afirmaţie va fi făcută la modul general, dar ea este bazată pe doar câteva
cazuri constatate în laborator! Care sunt riscurile acceptării acestei afirmaţii ca fiind
„adevărată la modul general”?
Statistica ne învaţă să enunţăm afirmaţii de forma: „durata medie de vindecare la
indivizii trataţi este semnificativ mai mică decât la indivizii netrataţi”. Dar când oare
suntem îndreptăţiţi să facem asemenea afirmaţii?
Excel ne permite să calculăm rapid ingredientele necesare justificării unor asemenea
afirmaţii. Conform teoriei, ar trebui să obţinem erorile standard ale celor două medii, să
identificăm intervalele de încredere (95%) şi să constatăm că cele două intervale sunt
disjuncte.
Obţinerea erorii standard a unei medii necesită mai multe calcule. Eroarea standard nu
se obţine direct, ci prin intermediul abaterii standard, care în Exceleste dată de funcţia
STDEV. Formula este simplă:
eroarea standard = abaterea standard / (numărul de indivizi)
Odată obţinută eroarea standard a mediei, intervalul de încredere 95% pentru medie va
fi:
media – eroarea standard * 1.96, media + eroarea standard * 1.96.
Aşadar, avem nevoie de medii (obţinute cu AVERAGE), de abateri standard (obţinute
cu STDEV), şi de numărul de indivizi (obţinut cu COUNTIF).
Să organizăm calculele în felul următor: în celula E4 să plasăm textul „Abateri standard”,
în celula E5 textul „Erori standard”, în E6 textul „Extr. stângă” iar în E7 textul „Extr.
dreaptă”.
Formulele de calcul pe care le vom introduce în coloana F vor fi, respectiv,
=STDEV(B2:B8)
=F4/SQRT(F2)
=F3–F5*1.96
=F3+F5*1.96

36
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021

În coloana G vom introduce formulele corespunzătoare datelor „de control”, care au fost
plasate în domeniul B9:B17.
Ar trebui să obţineţi intervalele de încredere [3.25, 6.18] respectiv [3.14, 8.20]. Ele nu
sunt disjuncte, astfel că statistica nu justifică deloc afirmaţia cercetătorilor!
Este momentul să atragem atenţia asupra unui aspect extrem de important: duratele de
vindecare nu ar trebui apreciate „în medie”, întrucât un singur caz „aberant de lung” ar
putea schimba în mod esenţial concluziile. Dimpotrivă, aprecierea ar trebui să fie făcută
după mediane!
Plasaţi în celula E8 textul „Mediane”, apoi în dreapta formulele de calcul, făcând apel la
funcţia MEDIAN. Ar trebui să obţineţi, pentru ambele grupuri, mediana 5. Aceasta ar trebui
să constituie un semnal de alarmă privind incorectitudinea afirmaţiei cercetătorilor!
Preluaţi în foaia a treia, prin copiere/lipire, conţinutul foii „Corect”. Redenumiţi foaia a
treia „Ultima” şi, pe ea, efectuaţi următoarele modificări. Schimbaţi conţinutul domeniului
B9:B17 în următorul:
5 7 6 11 6 9 14 6 10
Ar trebui să constataţi că mediile se modifică sensibil, şi că intervalele de încredere 95%
devin [3.25, 6.18] respectiv [6.27, 10.18].
Se observă că cele două intervale de încredere sunt disjuncte, prin urmare – pe aceste
date – putem accepta – cu încredere 95% – ca adevărată afirmaţia cercetătorilor (sau a firmei
de medicamente).
Constatăm şi că medianele diferă în mod esenţial şi, reamintim, acestea ar trebui să fie
luate în consideraţie în aprecierea validităţii afirmaţiei cercetătorilor. Ar fi de dorit să
dispunem de intervale de încredere 95% pentru cele două mediane. Din păcate, Excel nu
ne poate ajuta în obţinerea acestor intervale de încredere; este nevoie de soft statistic
specializat, care eventual să exploateze metode speciale cum ar fi tehnicile bootstrap.
Salvaţi în această formă cartea de calcul Excel, cu cele trei foi de calcul şi două
„grafice”.

37
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

Lucrarea practică 7
Indicaţii generale:
Afirmaţii de tipul „fumatul este asociat cu decesul timpuriu, după un prim atac de
cord”, făcute în urma comparării unor proporţii calculate cu date obţinute din eşantioane
„reprezentative”, pot fi confirmate statistic prin teste hi pătrat (care în asemenea situaţii
sunt considerate ca teste de semnificaţie statistică, şi nu ca teste de bonitate).
Aplicaţiile statistice (SPSS, Epi Info, …) au evident implementate module pentru
efectuarea directă a calculelor necesare. Dar rezultatele pot fi obţinute şi cu ajutorul
aplicaţiei Excel, controlând în mod corespunzător desfăşurarea calculelor.

În această lucrare practică:


a) veţi exersa modul de obţinere a tabelelor de contingenţă din datele primare,
atât în Excel, cât şi în SPSS;
b) veţi aplica teste Z şi hi pătrat pe tabele de contingenţă simple în Excel;
c) veţi învăţa să lucraţi cu opţiunea Crosstabs din SPSS, opţiune dedicată
obţinerii tabelelor de contingenţă şi a rezultatelor conexe.

Teme
24: tabele de contingenţă în Excel
25: testul hi pătrat în Excel
26: testul hi-pătrat şi Fisher exact în SPSS

Softul ce va fi utilizat în lucrarea practică:


Excel, SPSS

72
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Tema 24: tabele de contingenţă în Excel

Riscul apariţiei unei maladii (sau riscul de deces) este raportul între numărul de
„evenimente” ce apar întro perioadă de timp specificată (de obicei un an) şi numărul de
indivizi luaţi în considerare (respectiv aflaţi în viaţă) la începutul perioadei.
Tabelul următor, întocmit pentru compararea riscurilor, conţine date privind mortalitatea
la doi ani după primul atac de cord suferit de fumători. (Sursa: Daly, Bourke and McGilvray,
pag. 184.)
Supravieţuirea la 2 ani Total
Decedaţi În viaţă
au continuat să fumeze 19 135 154
n-au mai fumat 15 199 214
Total 34 334 368
Acesta este un exemplu tipic de tabel de contingenţă (de tipul 2 2, adică două linii, două
coloane), bordat cu o linie şi o coloană a totalurilor.
Datele primare nu se prezintă însă în acest fel. Preluaţi fişierul LP07_1.xls pentru a vedea
cum sunt înregistrate datele primare. Dacă deschidem fişierul cu Excel, atunci vom folosi de
patru ori (pe patru coloane) însumarea rezultatelor date de funcţia logică IF, condiţiile
logice fiind de forma AND(C2=FALSE,D2=TRUE) şi analoagele.
Preluaţi cele 368 de înregistrări pe o primă foaie de calcul a fişierului nume_CALCULE,
foaie pe care o veţi denumi „Primare”.
Creaţi tabelul de mai sus pe a doua foaie de calcul, de exemplu în domeniul A1:D5
(având grijă să denumiţi această foaie de calcul „Conting”)
Calculaţi în coloana E rata deceselor. (Astfel, pentru întreg lotul de pacienţi, în celula E5
vom plasa formula „=B5/D5” şi vom obţine rata de 9.24%; pentru cei ce au continuat să
fumeze, în celula E3 vom plasa formula „=B3/D3” şi vom obţine rata de 12.34%, iar pentru
cei ce n-au mai fumat, în celula E4 vom obţine rata 7.01%. Evident, ar fi de dorit să plasaţi
în celula E2 un text explicativ, ca de exemplu „Rata deceselor”)
Se va observa o creştere a ratei deceselor în cazul celor ce au continuat să fumeze,
comparativ cu cazul celor care n-au mai fumat. Oare această creştere este „semnificativă”?
Pentru a răspunde la întrebări de acest fel va fi obligatoriu să precizăm „nivelul de
semnificaţie”, altfel răspunsurile sunt lipsite de conţinut.
Să alegem nivelul de semnificaţie uzual 0.05 . Afirmaţia că „fumatul este ASOCIAT
CU decesul timpuriu, după un prim atac de cord” poate fi confirmată (dar nu respinsă!) cu
ajutorul unui test de semnificaţie bazat pe acest nivel de semnificaţie şi pe o anumită
distribuţie hi-pătrat (anume cea cu un singur grad de libertate). Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=CHIINV(0.05, 1)
şi va avea valoarea aproximativ 3.84. Oare este el depăşit?
Atenţie, apelând funcţia CHIINV ni se oferă explicaţii detaliate în caseta de folosire a
funcţiei. (Întrebare: este confirmată afirmaţia?)
Afirmaţia că „fumatul este O CAUZĂ A decesului timpuriu, după un prim atac de cord”
poate fi confirmată cu ajutorul unui alt test de semnificaţie bazat pe nivelul de semnificaţie
ales şi pe o anumită distribuţie, normală standard de data aceasta. Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=NORMSINV(1–0.05)
şi va avea valoarea aproximativ 1.64. Oare este el depăşit?

73
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

Vom încerca să confirmăm ultima afirmaţie („este cauză”) prin efectuarea unui test de
semnificaţie. Compararea celor două populaţii, anume a celor care „n-au mai fumat”,
respectiv a celor care „au continuat să fumeze” se va face la nivelul proporţiilor riscurilor de
deces.
„Ipoteza nulă”, pe care încercăm să o „respingem” în urma efectuării testului de
semnificaţie, este următoarea
1 2
şi ea exprimă faptul că cele două proporţii „nu diferă semnificativ” una de alta. Ipoteza
alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule, este următoarea:
1 2.
Evident, ea exprimă faptul că riscul de deces este mai mare pentru cei care „continuă să
fumeze”.
Proporţiile riscurilor de deces sunt estimate prin frecvenţele relative observate,
p1 0.1234 , p2 0.0701, calculate pe baza datelor din eşantioane. Ele sunt în concordanţă
cu ipoteza alternativă!
(Este important să facem această observaţie! Căci în cazul în care frecvenţele relative
observate nu erau în concordanţă cu ipoteza alternativă, am fi confirmat o altă afirmaţie!)
Avem nevoie şi de riscul de deces pentru întreaga populaţie, uşor de calculat
34
p 9.24% . De asemenea, trebuie să reţinem şi „volumele eşantioanelor”, n1 154 ,
368
n2 214 .
p2 p1
Statistica pe care o folosim este z iar valoarea obţinută o vom
1 1
p(1 p)
n1 n2
compara cu valoarea prag z corespunzătoare nivelului de semnificaţie ales. Mai precis,
vom putea respinge ipoteza nulă doar dacă vom constata că z z .
Să ne alegem un nivel de semnificaţie 0.01 . Valoarea prag z va fi obţinută în Excel
prin formula
=NORMSINV(0.99)
plasată întro celulă oarecare. (Atenţie, 0.99 este 1 .) Ar trebui să o găsim 2.326.
Copiaţi întreaga foaie de calcul „Conting” întro foaie nouă, denumită „ZTest”. Plasaţi aici
în celula E2 inscripţia „Frecvenţe relative” iar dedesubt afişaţi conţinutul celulelor cu 4
zecimale (numeric, nu în procente).
Plasaţi în celula A7 inscripţia „Nivelul de semnificaţie”, iar în celula B7 numărul 0.01. În
continuare, plasaţi în celula C7 inscripţia „Valoarea prag”, iar în celula D7 formula
=NORMSINV(1-B7)
De asemenea, plasaţi în celula E7 inscripţia „Valoarea statisticii”, iar în celula F7
formula de calcul:
=(E3-E4)/SQRT(E5*(1-E5)*(1/D3+1/D4))
În sfârşit, în celula A8 plasaţi, aliniată la stânga, formula logică:
=IF(F7>D7,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificaţi acum nivelul de semnificaţie, în celula B7, la 0.05. Ce se întâmplă?
Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că fumatul în continuare
are efect negativ asupra ratei de supravieţuire a pacienţilor ce au suferit un atac de cord.

74
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Totuşi, cu nivelul de semnificaţie mai mic, de doar 1%, această concluzie nu mai este
susţinută de datele din eşantioane.
Putem afla oare nivelul de semnificaţie „limită” pentru care concluzia este susţinută de
datele din eşantioane?
Plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei alternative)”, iar în
celula B9 formula
=1-NORMSDIST(F7)
Ar trebui să obţineţi 4.08%.
Copiaţi acum întreg conţinutul foii de calcul „ZTest” în altă foaie de calcul, pe care o veţi
redenumi „Catecolamina”.
Modificaţi aici conţinutul tabelului din A2:D5, aşa încât să apară astfel:
Afectiuni cardice Afectiuni cardice Total
prezente absente
Nivel de catecolamină crescut 24 90 ?
Nivel de catecolamină scăzut 41 416 ?
Total ? ? ?
Este vorba despre rezultatul unui studiu referitor la testarea relaţiei existente între nivelul
de catecolamină crescut şi existenţa afecţiunilor cardiace. Se poate afirma că un nivel de
catecolamină crescut poate fi asociat bolilor cardiovasculare? (Se va alege ca nivel de
semnificaţie 0.05 .) Care este „valoarea p” a acestei afirmaţii?

Tema 25: testul hi pătrat în Excel

Să reluăm afirmaţia „fumatul este ASOCIAT CU decesul timpuriu, după un prim atac de
cord”. Ea poate fi confirmată cu ajutorul unui test hi-pătrat DE SEMNIFICAŢIE.
În Excel calculele necesare confirmării vor exploata tabelul de contingenţă (din domeniul
B3:C4 (care, reamintim, conţine „datele observate”). Acest tabel are două rânduri şi două
coloane. Prin urmare, numărul gradelor de libertate este (2–1) (2–1) = 1.
Copiați tabelul de pe foaia „ZTest” pe o foaie nouă, unica foaie de calcul din fişierul
nume_HIPATRAT.xls. Redenumiți „ChisqTest” această foaie.
Preluaţi, de asemenea, o copie a rândurilor 7:8 de pe foaia „ZTest” pe foaia „ChisqTest”.
Aceste rânduri conţin nivelul de semnificaţie, valoarea prag, valoarea statisticii, precum şi
formula de „calcul” a deciziei de a respinge sau nu ipoteza nulă.
Formula de calcul a valorii prag, din celula B9, a fost pregătită pentru testul Z; ea trebuie
adaptată pentru testul hi pătrat. Aşadar, o veţi modifica în
=CHIINV(B7, 1)
Rămâne doar să adaptăm statistica pe care o folosim şi care de data aceasta este cea a lui
2
2 N Nr N c
Pearson X N rc , unde N r sunt totalurile pe linii, N c sunt
r c Nr N c N
totalurile pe coloane, iar N este totalul general. Aceste totaluri au fost calculate pe coloana
D şi pe rândul 5.
Formula pe care ar trebui să o plasăm în celula F9 este destul de complicată. Ar fi de
N N c
preferat calculul preliminar al expresiilor r , pe care l-am putea efectua de exemplu în
N
domeniul F3:G4, prin formula
75
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

=$D3*B$5/$D$5
şi analoagele ei.
2
N Nr N c
Ar urma calculul preliminar al termenilor N rc , pe care l-am putea
Nr N c N
efectua de exemplu în domeniul I3:J4, prin formula
=1/F3*(B3-F3)^2
şi analoagele ei.
Acestea fiind calculate, formula din celula B9 devine o simplă însumare:
=SUM(I3:J4)
iar concluzia privind confirmarea afirmaţiei (prin respingerea ipotezei nule) apare automat în
celula A8.
Ar fi interesant să plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei
alternative)”, iar în celula B9 formula de calcul, care în cazul acestui test hi pătrat devine
=CHITEST(B3:C4,F3:G4)
Ar trebui să obţineţi o valoare dublă faţă de valoarea pe care aţi obţinut-o (pentru acelaşi
nivel de semnificaţie ales), în celula A9 de pe foaia „ZTest”. Aveţi o explicaţie pentru
această „coincidenţă”?

Tema 26: testul hi-pătrat şi Fisher exact în SPSS

Testul hi-patrat (chi-square) este folosit pentru verificarea existenţei unei asocieri statistice
între 2 variabile de tip calitativ sau categorial (Nominal şi Ordinal).

Revenim la exemplu cu catecolamina. Se doreşte verificarea faptului că variabilele Cat


(nivelul de catecolamină) şi Chd (persoanele cu afecţiuni cardiace) se pot asocia din punct de
vedere statistic.
Ipoteza nulă: Nu există asociere între Cat şi Chd (Distribuţia nivelului de catecolamină
este aceeaşi atât pentru persoanele cu afecţiuni cardiace: Chd =1 cât şi pentru persoanele
fără afecţiuni cardiace: Chd =0).
Ipoteza alternativă: Există asociere între Cat şi Chd.
Vom folosi testul hi-pătrat (chi-square) pentru verificarea existenţei acestei asocieri statistice.
Pentru ca acest test să fie valid trebuie îndeplinite anumite condiţii. Criteriul convenţional
pentru ca testul să fie valid este următorul: cel puţin 80% din frecvenţele estimate trebuie să
depăşească valoarea 5 şi toate frecvenţele estimate trebuie să depăşeasca valoarea 1. În cazul
în care nu sunt îndeplinite aceste condiţii există variante alternative. Una dintre acestea este
testul exact al lui Fisher.
Testul Fisher Exact este folosit în loc de hi-square atunci când există mai puţin de 5 observaţii
în oricare dintre cele patru celule ale tabelului 2x2 sau când dimensiunile eşantioanelor sunt
mai mici de 20 de participanţi (n = 20).

Pentru deschiderea fişierului care conţine datele reamintim:


File Open Data… …. selectarea folderului unde se află datele şi a fişierului
Date_spss.xls în caseta “Look in” şi a tipului Excel (*.xls, *xlsx, *.xlsm) în caseta “Files of
type” din fereastra “Open Data”… Open. Se va alege fişierul “Date_spss.xls”. În caseta
“Opening Excel Data Source” trebuie să fie bifat “Read variable names from first row of
data”, Worksheet: chd… OK.

76
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Pentru verificarea asocierii variabilelor Cat (nivelul de catecolamină) şi Chd (persoanele cu


afecţiuni cardiace) se foloseşte secvenţa de comenzi Analyze Descriptive Statistics
Crosstabs… selectând în fereastra “Crosstabs” la Row(s): Cat şi la Column(s): Chd. În
această fereastră la butonul “Statistics…” se bifează “Chi-square” şi “Risk” iar la butonul
“Cells…” se bifează în secţiunea “Counts” opţiunea “Observed” iar în secţiunea
“Percentages” opţiunea “Column“.

77
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

Rezultatele sunt următoarele:


CROSSTABS
/TABLES=cat BY chd
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ RISK
/CELLS=COUNT COLUMN
/COUNT ROUND CELL.

Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
cat * 571 100.0% 0 .0% 571 100.0%
chd

cat * chd Crosstabulation


chd
0 1 Total
cat 0 Count 416 41 457
% within chd 82.2% 63.1% 80.0%
1 Count 90 24 114
% within chd 17.8% 36.9% 20.0%
Total Count 506 65 571
% within chd 100.0% 100.0% 100.0%

Chi-Square Tests
Exact
Sig.
(2- Exact Sig.
Value df Asymp. Sig. (2-sided) sided) (1-sided)
a
Pearson Chi- 13.201 1 .000
Square
Continuity 12.030 1 .001
b
Correction
Likelihood Ratio 11.535 1 .001
Fisher's Exact .001 .001
Test
Linear-by-Linear 13.178 1 .000
Association
N of Valid Cases 571
a. 0 cells (.0%) have expected count less than 5. The minimum expected count
is 12.98.
b. Computed only for a 2x2 table

Risk Estimate
95% Confidence Interval
Value Lower Upper
Odds Ratio for 2.706 1.557 4.703
cat (0 / 1)
For cohort chd = 1.153 1.044 1.273
0
For cohort chd = .426 .269 .675
1
N of Valid Cases 571

Pentru interpretarea rezultatelor vom folosi rezultatele din tabelul „Chi-Square Tests”. În
acest tabel sunt date valorile statisticilor testelor (Value), gradele de libertate asociate (df) şi
valorile p sau p_value (Asymp. Sig. (2-sided), Exact Sig. (2-sided), Exact Sig. (1-sided))
78
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Din acest tabel ne interesează să citim şi să interpretăm doar valoarea probabilităţii de apariţie
a datelor observate sau p_value pentru testul pe care decidem să-l folosim.
Se poate observa că sunt îndeplinite condiţiile testului hi-pătrat obişnuit (Pearson Chi-
Square): „0 cells (.0%) have expected count less than 5. The minimum expected count is
12.98.” la subsolul tabelului „Chi-Square Tests”.
P_value este în acest caz 0.000 deci concluzia este că putem să asociem variabilele cat şi chd
(există o puternică evidenţă pentru asociere - deci respingem ipoteza nulă.
O problema în interpretarea restului de rezultate (Risk Estimate) afişat în fereastra de ieşire
ar fi faptul că cele 2 variabile care construiesc tabelul de contingenţă (cat * chd
Crosstabulation) au valorile 0 şi respectiv 1 ceea ce conduce la construcţia tabelului cu
prima coloana chd=0 şi prima linie cat=0.
Este nevoie să recodificăm cele două variabile astfel încât tabelul de contingenţă să aibă pe
prima coloană chd=1 şi prima linie cat=1 (prima coloană în tabelul de contingenţă reprezintă
prezenţa bolii şi prima linie reprezintă prezenţa expunerii.)
Pentru recodificarea variabielei “Cat” vom folosi recodificarea automată care se poate face
folosind secvenţa de comenzi Transform Automatic Recode…
În fereastra “Automatic Recode” vom selecta variabila “Cat” în secţiunea “Variable->New
Name” şi la “New Name” vom introduce noul nume pentru variabila recodificată, aici
“Cat12” după care cu ajutorul butonului “Add New Name” aceasta va fi adăugată în
secţiunea “Variable->New Name”. Înainte de a finaliza recodificarea va trebui să alegem în
secţiunea “Recode Starting from” opţiunea “Highest value”.

Rezultatul va fi următorul:
AUTORECODE VARIABLES=cat
/INTO cat12
/DESCENDING
/PRINT.
cat into cat12
Old Value New Value Value Label

1 1 1
0 2 0

79
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

ceea ce semnifică faptul că valorile variabilei “Cat” 1 şi 0 au fost înlocuite cu valorile 1 şi


respectiv 2 pentru noua variabilă “Cat12” adăugându-se acestora ca etichete valorile iniţiale.
În mod asemănator se poate face şi recodificarea variabilei “Chd” în variabila “Chd12”.
Vom relua secvenţa de comenzi Analyze Descriptive Statistics Crosstabs… selectând
în fereastra “Crosstabs” la Row(s): Cat12 şi la Column(s): Chd12.
Rezultatele sunt următoarele:
CROSSTABS
/TABLES=cat12 BY chd12
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ RISK
/CELLS=COUNT COLUMN
/COUNT ROUND CELL.

Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
cat12 * 571 100.0% 0 .0% 571 100.0%
chd12

cat12 * chd12 Crosstabulation


chd12
1 0 Total
cat12 1 Count 24 90 114
% within chd12 36.9% 17.8% 20.0%
0 Count 41 416 457
% within chd12 63.1% 82.2% 80.0%
Total Count 65 506 571
% within chd12 100.0% 100.0% 100.0%

Chi-Square Tests
Asymp. Sig. Exact Sig. (2- Exact Sig. (1-
Value df (2-sided) sided) sided)
a
Pearson Chi-Square 13.201 1 .000
b
Continuity Correction 12.030 1 .001
Likelihood Ratio 11.535 1 .001
Fisher's Exact Test .001 .001
Linear-by-Linear Association 13.178 1 .000
N of Valid Cases 571
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.98.
b. Computed only for a 2x2 table

Risk Estimate
95% Confidence
Interval
Value Lower Upper
Odds Ratio for cat12 (1 / 0) 2.706 1.557 4.703
For cohort chd12 =1 2.347 1.481 3.717
For cohort chd12 =0 .867 .785 .958
N of Valid Cases 571

Din tabelul (Risk Estimate) ne interesează să citim şi să interpretăm doar pentru “Odds Ratio
for cat12 (1 / 0)” sau OR şi “For cohort chd12 =1” sau RR.

80
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Intervalele de încredere pentru OR şi RR sunt calculate pentru estimarea acestor valori în


populaţia din care a fost extras eşantionul şi nu conţin în interior valoarea 1. Deci, la nivelul
populaţiei având valori în interval mai mari decât 1 pentru OR (respectiv RR) putem să
tragem concluzia că avem factor de risc. Deci expunerea (cat=1 nivelul de catecolamină
ridicat) este un factor de risc pentru persoanele cu afecţiuni cardiace (chd=1).
Pentru studiul prospectiv RR=2.347 riscul ca persoanele cu nivel de catecolamină crescut (cat
=1) să aibă chd este de 2.347 ori mai mare decât la cele cu nivelul de catecolamină scăzut
(cat=0). Pentru studiul retrospectiv OR=2.706 şansele ca persoanele cu nivel de catecolamină
crescut să aibă chd este de 2.706 ori mai mare decât la cele cu nivelul de catecolamină scăzut.
P_value de 0.000 din tabelul “Chi-Square Tests” reamintim că înseamnă că putem să asociem
variabilele cat şi chd adica %pacienti cu cat=1 diferă semnificativ între persoanele cu chd=1
(36.9% în tabelul Chi-Square Tests) şi cele cu chd=0 (17.8% în tabelul Chi-Square Tests).

Testul exact Fisher este analog testului hi-pătrat şi este de asemenea folosit pentru
verificarea existenţei unei asocieri statistice între 2 variabile de tip calitativ sau categorial
(Nominal şi Ordinal).
Testul exact Fisher se poate folosi în situaţiile în care testul hi-pătrat nu poate fi aplicat adică
pentru eşantioane mici sub 20 de participanţi (n < 20). Deşi se poate folosi pentru orice
eşantion se preferă utilizarea sa doar pentru cazul eşantioanelor mici.
Vom deschide fişierul care conţine datele pentru testul Fisher: File Open Data… ….
selectarea folderului unde se află datele şi a fişierului Date_spss.xls în caseta “Look in” şi a
tipului Excel (*.xls, *xlsx, *.xlsm) în caseta “Files of type” din fereastra “Open Data”…
Open. Se va alege fişierul “Date_spss.xls”. În caseta “Opening Excel Data Source” trebuie
să fie bifat “Read variable names from first row of data”, Worksheet: malnutritie…
OK.
Pentru verificarea asocierii variabilelor malnutritie şi anemie se foloseşte secvenţa de comenzi
Analyze Descriptive Statistics Crosstabs… selectând în fereastra “Crosstabs” la
Row(s): malnutritie şi la Column(s): anemie. În această fereastră la butonul “Statistics…” se
bifează “Chi-square” şi “Risk” iar la butonul “Cells…” se bifează în secţiunea “Counts”
opţiunea “Observed” iar în sectiunea “Percentages” opţiunea “Column“.
Ipoteza nulă: Nu există asociere între malnutritie şi anemie (Procentul de persoane cu
malnutriţie este acelaşi atât pentru persoanele cu anemie: anemie =Da cât şi pentru
persoanele fără anemie: anemie=Nu).
Ipoteza alternativă: Există asociere între malnutritie şi anemie.
Rezultatele sunt următoarele:
CROSSTABS
/TABLES=Malnutritie BY Anemie
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ RISK
/CELLS=COUNT COLUMN
/COUNT ROUND CELL.

Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Malnutritie * Anemie 32 100.0% 0 .0% 32 100.0%

Malnutritie * Anemie Crosstabulation

81
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

Anemie
Da Nu Total
Malnutritie Da Count 6 2 8
% within Anemie 40.0% 11.8% 25.0%
Nu Count 9 15 24
% within Anemie 60.0% 88.2% 75.0%
Total Count 15 17 32
% within Anemie 100.0% 100.0% 100.0%

Chi-Square Tests
Value df Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided)
a
Pearson Chi-Square 3.388 1 .066
b
Continuity Correction 2.050 1 .152
Likelihood Ratio 3.484 1 .062
Fisher's Exact Test .106 .076
N of Valid Cases 32
a. 2 cells (50.0%) have expected count less than 5. The minimum expected count is 3.75.
b. Computed only for a 2x2 table

Risk Estimate
95% Confidence Interval
Value Lower Upper
Odds Ratio for Malnutritie (Da / Nu) 5.000 .826 30.281
For cohort Anemie = Da 2.000 1.041 3.844
For cohort Anemie = Nu .400 .116 1.382
N of Valid Cases 32

Din tabelul (Chi-Square Tests) ne interesează să citim şi să interpretăm doar valoarea probabilităţii
de apariţie a datelor observate sau p_value pentru testul pe care decidem sa îl folosim.
Se poate observa că NU sunt îndeplinite condiţiile testului hi-pătrat obişnuit (Pearson Chi-
Square): „2 cells (50.0%) have expected count less than 5. The minimum expected count
is 3.75” la subsolul tabelului „Chi-Square Tests”. Vom folosi valoarea p sau p-value de la
testul exact Fisher bilateral.
P_value este în acest caz 0.106 deci concluzia este că nu putem să asociem variabilele
malnutritie şi anemie (nu există o evidenţă pentru asociere - deci acceptăm ipoteza nulă)
adică %pacienţi cu malnutritie=Da nu diferă semnificativ între persoanele cu anemie=Da
(40.0% în tabelul Chi-Square Tests) şi cele cu anemie=0 (11.8% în tabelul Chi-Square
Tests).
În tabelul (Risk Estimate) ne interesează să citim şi să interpretăm doar pentru “Odds Ratio
for Malnutritie (Da / Nu)” sau OR şi “For cohort Anemie = Da” sau RR.
Intervalele de încredere pentru OR şi RR sunt calculate pentru estimarea acestor valori în
populaţia din care a fost extras eşantionul şi conţin în interior valoarea 1. Deci, la nivelul
populaţiei având valori în interval mai mari decât 1 pentru OR (respectiv RR) dar şi mai mici
decât 1 putem să tragem concluzia că avem factor indiferent. Deci expunerea (malnutritie
=Da) este un factor indiferent pentru persoanele cu anemie (anemie=Da).
Salvaţi datele în fişierul nume_26.spv

82
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Lucrarea practică 8
Indicaţii generale:
Regresia liniară simplă şi multiplă este o metodă de analiză statistică care
construieşte o relaţie între una sau mai multe variabile predictor şi o variabilă rezultat de
tip continuu. Predictorii sau variabilele independente pot fi orice variabile de tip continuu
sau calitativ. Rezultatul este o variabila de tip continuu.
În metoda regresiei se presupune că variabilele predictor (demografice, clinice şi de
confuzie) sunt asociate (în relaţie) cu rezultatul. O condiţie esenţială în regresie este ca
rezultatul să fie distribuit în mod normal. Variabilele predictor (demografice, clinice şi de
confuzie) pot fi introduse într-un model simultan (toate împreună în acelaşi timp), pas cu
pas (se alege cel mai bun grup de variabile care sunt în relaţie cu rezultatul) , sau ierarhic
(se alege ordinea de intrare în model). Prin regresie se obţine algoritm (formula) prin care
poate prezice un rezultat de tip continuu.
Corelaţia Pearson R este o metodă de analiză statistică care măsoară asocierea sau
puterea unei relaţii între 2 variabile cantitative. Este cea mai populară metoda de corelare.
Coeficientul de corelaţie Pearson's nu este indicat să se calculeze pe date care care conţin
valori aberante. Înainte de a calcula acest coeficient, trebuie verificată normalitatea
variabilelor continue folosind statistici referitoare la skewness şi kurtosis. Valorile
aberante (outliers) pot influenţa semnificativ coeficientul de corelaţie Pearson. Coeficientul
de determinare este calculat ca o măsură a mărimii efectului (arată procentul în care
modelul liniar explică din datele observate) şi este pur şi simplu valoarea coeficientului de
corelaţie ridicată la pătrat. Coeficientul de corelaţie însoţeşte adesea ecuaţiile de regresie.

În această lucrare practică veţi exemplifica diverse situaţii în care s-ar putea obţine
modele de regresie încercând validarea lor pentru a fi folosite în prognoze.

Teme
specială: coeficienţi de corelaţie în Excel
27: linii de tendinţă în Excel
28: regresia liniară cu SPSS
29: corelaţie cu SPSS

Softul ce va fi utilizat în lucrarea practică:


Excel, SPSS

83
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020

Tema specială: coeficienţi de corelaţie în Excel


În cadrul unei investigaţii mai largi au fost examinaţi un număr de 200 elevi (în vârstă de
10-18 ani), măsurându-li-se înălţimea (în cm), greutatea (în kg), circumferinţa bustului (în
cm). De asemenea, a fost înregistrată vârsta lor, sexul şi localizarea durerii lombare, în caz
că s-a constatat prezenţa acesteia.
Datele înregistrate pot fi găsite în fişierul LP08_1.xlsx. Preluaţi acest fişier din
C:/Anul2/LP.
Dorim să aflăm dacă pe datele eşantionului de 200 de subiecţi se confirmă legătura (de
dependenţă liniară) între înălţime şi bust. Pentru aceasta avem două căi:
a) Interpretarea coeficientului de corelaţie între seria de date „Inaltime” şi seria de date
„Bust”. Pe această cale vom calcula, de exemplu în celula I1, coeficientul de corelaţie prin
formula:
=CORREL(F2:F201,H2:H201)

Valoarea pe care o obţinem, de aproximativ 0.73, se situează la limita între „corelare” şi


„necorelare”. Nu putem afirma că înălţimea subiecţilor (şi, prin extensie, a tinerilor în
ansamblu) este corelată cu circumferinţa bustului.
b) Întocmirea unei diagrame de tipul X-Y (Prin puncte) Aspect 9 şi plasarea pe ea a liniei
de tendinţă liniară şi a ecuaţiei dreptei de regresie, împreună cu coeficientul de determinaţie.
Adoptând această cale, vom selecta domeniul F1:F201;H1:H201 (selectarea trebuie făcută
cu atenţie, folosind tasta [Ctrl]), după care vom efectua reprezentarea grafică a datelor –
evident, pe o foaie separată. Apelând apoi comanda Diagramă-Click DreaptaAdăugare
linie de tendinţă vom fi atenţi la „bifarea” opţiunilor Afişare ecuaţie în diagramă şi Afişare
abatere medie pătratică în diagramă. (Atenţie, ultima opţiune are o denumire total greşită.
Veţi învăţa că denumirea corectă a lui R2 este „coeficientul de determinaţie”.)
Evident, a doua cale este de preferat, întrucât putem evalua mult mai bine datele de care
dispunem. Astfel, pe diagrama X-Y se identifică cu uşurinţă un „punct aberant” (outlier) – a
se vedea figura. Este posibil ca acesta să apară dintr-o eroare de introducere de date, dar este
posibil ca el să corespundă unui individ „excepţional”. În ultima situaţie, se recomandă ca
acest individ să fie identificat şi studiat în mod special. Prin sortare descrescătoare (comanda
DateSortare), după coloana „Bust”, a datelor foii de calcul se identifică acest individ: este
vorba despre codul 65, vârsta 13 ani, sexul feminin şi iniţialele „VOBI”. Dacă datele sale –
84
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

ce nu par credibile prin comparaţie cu celelalte – nu pot fi confirmate, atunci această


înregistrare va trebui eliminată!
Să presupunem că o eliminăm, rămânând în foaia de calcul „Corelatii” doar 199 de
înregistrări. Coeficientul de corelaţie se va modifica în aproximativ 0.87, ceea ce ne va
permite să afirmăm că datele eşantionului confirmă o oarecare corelaţie (liniară) – dar nu
puternică – între înălţime şi circumferinţa bustului la adolescenţi. În diagramă vom obţine
coeficientul de determinaţie R2 aproximativ 0.76, ceea ce conduce la aceeaşi concluzie.
(Care este legătura dintre cei doi coeficienţi?)
Calculaţi, în celula J1, coeficientul de corelaţie între înălţimea şi greutatea indivizilor
eşantionului. Efectuaţi şi reprezentarea grafică a dependenţei X-Y între aceste două seturi de
valori, împreună cu afişarea ecuaţiei liniei de tendinţă (adică a dreptei de regresie). De
asemenea, în urma unei sortări după coloana „Sex”, alăturaţi înregistrările ce corespund
băieţilor respectiv fetelor şi calculaţi ambii coeficienţi de corelaţie între înălţime şi
circumferinţa bustului. Care dintre sexe prezintă variabilitatea mai mare?

Pentru a obţine diagrame mai interesante, cu afişarea simultană a liniilor de tendinţă


pentru cele două sexe, efectuaţi următoarele operaţiuni:
a) copierea foii de calcul „Lombar” într-o carte de calcul nouă, denumită nume_CORR;
b) sortarea datelor de pe noua foaie „Lombar” după valorile coloanei „SEX”;
c) inserarea unei coloane noi între coloanele G („GREUTATE”) şi H („BUST”) şi
plasarea în celula H1 a textului „GREUTATE F”;
d) modificarea textului din celula G1 în „GREUTATE M”;
e) mutarea datelor de pe coloana G corespunzătoare sexului feminin pe coloana H
(posibila mutare a domeniului G104:G201 în H104:H201);
f) selectarea coloanelor F, G şi H;
g) inserarea unei diagrame de tipul X-Y pe o foaie nouă şi redenumirea foii în „separat”;
h) inserarea în diagramă a liniilor de tendinţă.
Încercaţi obţinerea şi a diagramei corespunzătoare variabilelor „INALTIME” şi „BUST”,
înainte de a salva definitiv fişierul nume_CORR. Ce comentarii aţi putea face?
(Notă. Pentru explicaţii şi comentarii în documente este nevoie şi de calculul
coeficienţilor de determinaţie şi de obţinerea ecuaţiilor de regresie.)

85
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020

Tema 27: linii de tendinţă în Excel.


Tabelul următor prezintă vârsta şi nivelul steroizilor în plasmă pentru câteva persoane
de sex feminin.
vârsta 8 9 10 10 11 12 13 14 15 16 18 18 20 20 23 23 25
nivelul 4 6 8 11 11 15 20 22 22 25 23 25 24 22 18 20 15
Ce sugerează aceste date?
Chiar dacă răspunsul pare evident (deoarece datele au fost ordonate crescător după
vârstă): nivelul steroizilor creşte odată cu vârsta, până la circa 20 ani, apoi scade, este
recomandată întocmirea unei diagrame de tipul X-Y şi aplicarea metodei regresiei (dar nu
liniare!)
Plasând datele întro foaie de calcul a fişierului Excel denumit nume_STEROIZI
(recomandăm plasarea datelor pe două coloane şi redenumirea foii ca „Datele”!), putem
crea imediat diagrama (ca foaie separată, denumită „Diagrama”):
Nivelul steroizilor y = -0.212x2 + 7.7085x - 45.845
R2 = 0.961
30

25

20

15

10

0
0 5 10 15 20 25 30
Vârsta (ani)

Inseraţi pe diagramă dreapta de tendinţă liniară (se mai numeşte şi dreapta de regresie).
Este vizibil că dreapta de tendinţă liniară nu ajustează bine datele. În schimb, o curbă
parabolică (tendinţă polinomială de gradul 2) are un coeficient de determinaţie foarte bun
(0.961) şi poate fi folosită pentru a efectua „prognoze”. Curba ne sugerează inversarea la
vârsta de 18 ani a tendinţei de creştere a nivelului steroizilor.
Ce nivel al steroizilor ne aşteptăm să găsim la persoanele în vârstă de 21 şi 24 ani? Este
utilă curba pentru a prognoza nivelul steroizilor la persoanele în vârstă de 40 ani?
Părerea nutriţioniştilor este că masa musculară, la persoanele de sex feminin şi vârstă
înaintată, descreşte odată cu vârsta. Datele de care dispunem, măsurate de un nutriţionist
pentru 16 persoane de sex feminin, sunt următoarele.
vârsta 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78
masa musc. 41 45 50 34 43 36 39 40 32 42 58 38 48 50 52 38
Putem estima masa musculară medie pentru o femeie de 60 de ani? Putem accepta
părerea nutriţioniştilor?
Adăugaţi masa musculară evaluată de d-voastră pentru alte două persoane, şi încercaţi
să interpretaţi datele obţinute prin regresie liniară simplă şi prin regresie neliniară. Plasaţi
datele din cele două tabele anterioare, explicaţiile despre ele şi diagramele obţinute întrun
document denumit nume_REGRESII.docx.

Tema 28: regresia liniară cu SPSS.


Regresia liniară simplă este o metodă de analiză statistică care construieşte o relaţie
între o variabilă predictor şi o variabilă rezultat de tip continuu.
Vom deschide fişierul care conţine date despre greutatea creierului (brainweight), vârstă
(age), sex (gender) şi valori masurate pentru cutia craniană (headsize): File  Open 
86
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Data…  …. selectarea folderului unde se află datele şi a fişierului Date_spss.xls în caseta


“Look in” şi a tipului Excel (*.xls, *xlsx, *.xlsm) în caseta “Files of type” din fereastra
“Open Data”… Open. Se va alege fişierul “Date_spss.xls”. În caseta “Opening Excel
Data Source” trebuie să fie bifat “Read variable names from first row of data”,
Worksheet: brain … OK.
Să verificăm dacă variabilele brainweight şi headsize se pot asocia din punct de vedere
statistic. Pentru aceasta vom folosi secvenţa de comenzi Analyze  Regression  Linear…
selectând în fereastra “Linear Regression” la Dependent: brainweight şi la
Independent(s): headsize.

87
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020

În această fereastră (“Linear Regression”):


- la butonul “Statistics…” se bifează în secţiunea “Regression Coefficients” opţiunile
“Estimates” şi “Confidence intervals”, în dreapta ferestrei opţiunile “Model Fit”,
“Descriptives” şi “Collinearity disgnostics” iar la secţiunea “Residuals” opţiunile “Durbin-
Watson” şi “Casewise diagnostics” cu 2 standard deviation pentru “Outliers outside:”.
- butonul “Plots…” se alege în secţiunea “Y:” varianta “*ZREZID” iar în secţiunea “X:”
varianta “*ZPRED“ din lista situată în partea stângă a ferestrei, bifând în secţiunea
“Standardized Residual Plots” cele 2 opţiuni “Histogram” şi “Normality plot”.
- butonul “Save…” se alege în secţiunea “Distances:” opţiunea “Cook’s”.
Rezultatele sunt următoarele:
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Brainweight
/METHOD=ENTER Headsize
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS DURBIN HISTOGRAM(ZRESID) NORMPROB(ZRESID)
/CASEWISE PLOT(ZRESID) OUTLIERS(2)
/SAVE COOK.

Regression
[DataSet1]
Descriptive Statistics
Mean Std. Deviation N
Brain weight 1282.87 120.340 237
Head size 3633.99 365.261 237
Correlations
Brain weight Head size
Pearson Correlation Brain weight 1.000 .800
Head size .800 1.000
Sig. (1-tailed) Brain weight . .000
Head size .000 .
N Brain weight 237 237
Head size 237 237

88
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

b
Variables Entered/Removed
Model Variables Entered Variables Removed Method
a
1 Head size . Enter
a. All requested variables entered.
b. Dependent Variable: Brain weight

b
Model Summary
Durbin-
Model R R Square Adjusted R Square Std. Error of the Estimate Watson
a
1 .800 .639 .638 72.427 1.843
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight

b
ANOVA
Sum of
Model Squares df Mean Square F Sig.
a
1 Regression 2184982.188 1 2184982.188 416.532 .000
Residual 1232728.015 235 5245.651
Total 3417710.203 236
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight

a
Coefficients
95.0%
Unstandardized Standardized Confidence Collinearity
Coefficients Coefficients Interval for B Statistics
Std. Lower Upper
Model B Error Beta t Sig. Bound Bound Tolerance VIF
1 (Constant) 325.573 47.141 6.906 .000 232.701 418.446
Head size .263 .013 .800 20.409 .000 .238 .289 1.000 1.000
a. Dependent Variable: Brain weight

a
Collinearity Diagnostics
Variance Proportions
Model Dimension Eigenvalue Condition Index (Constant) Head size
1 1 1.995 1.000 .00 .00
2 .005 19.990 1.00 1.00
a. Dependent Variable: Brain weight

a
Casewise Diagnostics
Case Number Std. Residual Brain weight Predicted Value Residual
5 2.265 1590 1425.92 164.082
19 2.749 1340 1140.89 199.113
44 3.346 1570 1327.66 242.341
63 -2.288 1330 1495.73 -165.727
65 2.245 1470 1307.37 162.625
96 -2.155 1165 1321.07 -156.073
103 3.333 1588 1346.63 241.374
122 -2.430 1256 1431.98 -175.977
162 2.747 1520 1321.07 198.927
163 2.758 1460 1260.22 199.779
a. Dependent Variable: Brain weight

89
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020

a
Residuals Statistics
Minimum Maximum Mean Std. Deviation N
Predicted Value 1042.10 1576.07 1282.87 96.221 237
Std. Predicted Value -2.502 3.047 .000 1.000 237
Standard Error of Predicted Value 4.705 15.117 6.382 1.885 237
Adjusted Predicted Value 1044.86 1573.39 1282.91 96.199 237
Residual -175.977 242.341 .000 72.273 237
Std. Residual -2.430 3.346 .000 .998 237
Stud. Residual -2.447 3.355 .000 1.002 237
Deleted Residual -178.547 243.593 -.034 72.908 237
Stud. Deleted Residual -2.474 3.431 .001 1.008 237
Mahal. Distance .000 9.285 .996 1.362 237
Cook's Distance .000 .069 .004 .008 237
Centered Leverage Value .000 .039 .004 .006 237
a. Dependent Variable: Brain weight

Charts

Este necesară testarea unor condiţii înainte de aplicarea metodei regresiei liniare! Din
rezultatele obţinute de programul SPSS vom sublinia tabelele şi părţi de tabele care ne ajută să
verificăm aceste condiţii.
C1: Relaţia dintre predictori şi rezultat este liniară.
C2: Nu există multicoliniaritate în date (Predictorii nu sunt puternic corelaţi unul cu celalalt!)
Pentru a verifica această condiţie vom verifica în tabelul „Correlations” corelaţiile dintre
predictori. Corelaţiile mai mari de 0.8 pot fi problematice. Dacă apar se impune eliminarea
acelui predictor! În cazul nostru avem un singur predictor şi anume headsize, deci nu se
pune problema neîndeplinirii condiţiei.

90
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Correlations
Brain weight Head size
Pearson Correlation Brain weight 1.000 .800
Head size .800 1.000
Sig. (1-tailed) Brain weight . .000
Head size .000 .
N Brain weight 237 237
Head size 237 237

De asemenea, pentru ca această condiţie să fie îndeplinită trebuie ca scorurile VIF să fie sub
10, iar scorurile de toleranţă (Tolerance) să fie peste 0.2 din tabelul „Coefficients”:
a
Coefficients
Unstandardized Standardized 95.0% Confidence Collinearity
Coefficients Coefficients Interval for B Statistics
Lower Upper
Model B Std. Error Beta t Sig. Bound Bound Tolerance VIF
1 (Constant) 325.573 47.141 6.906 .000 232.701 418.446
Head size .263 .013 .800 20.409 .000 .238 .289 1.000 1.000
a. Dependent Variable: Brain weight

Condiţiile multicoliniarităţii se pot verifica şi în tabelul “Collinearity Diagnostics” unde


valorile vectorilor proprii (Eigenvalue) trebuie să nu fie apropiate de 0 şi “Condition Index”
trebuie să fie mai mic decât 15, valori peste 30 indicând probleme serioase.
a
Collinearity Diagnostics
Variance Proportions
Model Dimension Eigenvalue Condition Index (Constant) Head size
1 1 1.995 1.000 .00 .00
2 .005 19.990 1.00 1.00
a. Dependent Variable: Brain weight

C3: Reziduurile sunt independente.


Reziduurile sunt diferenţele între ceea ce se observă în realitate şi ce se calculează cu ajutorul
modelului! Observaţiile sunt independente între ele (necorelate)!
Se foloseşte indicatorul Durbin-Watson care ia valori de la 0 la 4. Condiţia este îndeplinită
dacă această valoare trebuie să fie apropiată de 2. Dacă au valorile sub 1 sau peste 3 analiza
poate fi nevalidă!
b
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson
a
1 .800 .639 .638 72.427 1.843
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight

C4: Varianţa reziduurilor este constantă.


Condiţia este îndeplinită dacă variaţia reziduurilor este aproximativ similară (graficul pare a fi
format din puncte aleatoare) şi nu este îndeplinită dacă acest grafic arată ca o palnie!

91
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020

C5: Valorile reziduurilor sunt în mod normal distribuite.

C6: Nu există valori aberante care să influenţeze modelul.


Se calculează distanţa Cook pentru fiecare punct. Valorile peste 1 sunt susceptibile de a fi
valori aberante! În tabelul „Residuals Statistics” se verifică pe linia corespunzatoare „Cook's
Distance” dacă valoarea maximă (Maximum) este peste 1.
a
Residuals Statistics
Minimum Maximum Mean Std. Deviation N
Predicted Value 1042.10 1576.07 1282.87 96.221 237
Std. Predicted Value -2.502 3.047 .000 1.000 237
Standard Error of Predicted Value 4.705 15.117 6.382 1.885 237
Adjusted Predicted Value 1044.86 1573.39 1282.91 96.199 237
Residual -175.977 242.341 .000 72.273 237
Std. Residual -2.430 3.346 .000 .998 237
Stud. Residual -2.447 3.355 .000 1.002 237
Deleted Residual -178.547 243.593 -.034 72.908 237
Stud. Deleted Residual -2.474 3.431 .001 1.008 237
Mahal. Distance .000 9.285 .996 1.362 237
Cook's Distance .000 .069 .004 .008 237
Centered Leverage Value .000 .039 .004 .006 237
a. Dependent Variable: Brain weight

Tabelul “Casewise Diagnostics” conţine valorile observate pentru rezultat (Brain weight),
valorile prezise de model (Predicted Value), diferenţa dintre acestea sau reziduurile
(Residual) şi rezidurile standardizate (Std. Residual). Sunt listate doar cazurile (Case
Number) care au valorile residuurilor standardizate peste valoarea 2 sau sub valoarea -2.

92
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Numărul acestora ar trebui să fie în jur de 5% din date. Avem un eşantion de 237 de cazuri iar
în tabelul “Casewise Diagnostics” avem 10 cazuri ceea ce înseamnă aproximativ 4.2%.
a
Casewise Diagnostics
Case Number Std. Residual Brain weight Predicted Value Residual
5 2.265 1590 1425.92 164.082
19 2.749 1340 1140.89 199.113
44 3.346 1570 1327.66 242.341
63 -2.288 1330 1495.73 -165.727
65 2.245 1470 1307.37 162.625
96 -2.155 1165 1321.07 -156.073
103 3.333 1588 1346.63 241.374
122 -2.430 1256 1431.98 -175.977
162 2.747 1520 1321.07 198.927
163 2.758 1460 1260.22 199.779
a. Dependent Variable: Brain weight

Pentru interpretarea rezultatelor vom folosi rezultatele din tabelele „Model Summary”,
„ANOVA” şi „Coefficients”.
În tabelul „Model Summary” sunt date valorile coeficientului de corelaţie (R), coeficientul
de determinare sau pătratul coeficientului de corelaţie (R Square), o valoare ajustată în
funcţie de numărul de variabile din model a coeficientului de determinare (Adjusted R
Square) şi eroarea standard pentru estimaţia valorii ajustate a coeficientului de determinare
(Std. Error of the Estimate) şi statistica Durbin-Watson folosită la testarea condiţiilor
modelului.
Din acest tabel ne interesează să citim şi să interpretăm valoarea coeficientului de corelaţie
care indică cât de bun este modelul (o valoare peste 0.8 indicând un model foarte bun),
coeficientul de determinare care arată procentul în care modelul explică datele observate
(aproximativ 64% în cazul nostru), valoarea ajustată în funcţie de numărul de variabile din
model a coeficientului de determinare (în cazul nostru coincid).
b
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson
a
1 .800 .639 .638 72.427 1.843
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight

Din tabelul „ANOVA” ne interesează să citim şi să interpretăm valoarea p sau p-value (Sig.).
Testul din tabelul „ANOVA” este un test general pentru toate variabilele predictor şi verifică
dacă există (per ansamblu) variabile predictor care influenţează rezultatul. O valoare p (Sig.)
mai mare decât 0.05 înseamnă că modelul nu este semnificativ şi nici una din variabile
predictor nu influenţează rezultatul.
b
ANOVA
Model Sum of Squares df Mean Square F Sig.
a
1 Regression 2184982.188 1 2184982.188 416.532 0.000
Residual 1232728.015 235 5245.651
Total 3417710.203 236
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight

În tabelul „Coefficients” sunt date valorile nestandardizate (Unstandardized Coefficients)


ale coeficientilor (B) şi erorile lor standard (Std. Error), valorile standardizate
(Standardized Coefficients) ale coeficientilor (Beta), valorile statisticilor testului de
egalitate a coeficientilor cu 0 sau testul lui Wald (t) şi valorile p asociate (Sig.), intervalele
de 95% încredere pentru coeficienţi (95.0% Confidence interval for B) şi statistici pentru
verificarea coliniarităţii (Tolerance şi VIF).
93
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020

a
Coefficients
Unstandardized Standardized 95.0% Confidence Collinearity
Coefficients Coefficients Interval for B Statistics
Lower Upper
Model B Std. Error Beta t Sig. Bound Bound Tolerance VIF
1 (Constant) 325.573 47.141 6.906 .000 232.701 418.446
Head size .263 .013 .800 20.409 .000 .238 .289 1.000 1.000
a. Dependent Variable: Brain weight

Din acest tabel ne interesează să citim şi să interpretăm valorile nestandardizate ale


coeficienţilor, intervalele de 95% încredere pentru coeficienţi, valorile p asociate statisticilor
testului de egalitate a coeficientilor cu 0.
P-value<0.05 şi magnitudinea coeficientului indică importanţa predictorului!
Coeficientul unui predictor arată cu cât se modifică în medie rezultatul când predictorul
respectiv creşte cu o unitate iar restul predictorilor rămân constanţi!
Ecuaţia pentru dreapta de regresie va fi:
Y=A+BX sau brainweight =325.573+0.263headsize
În condiţiile în care headsize creşte cu o unitate, brainweight creşte în medie cu 0.263
unităţi.
P_value pentru headsize este 0.000<0.05 şi pentru constanta (dar aceasta nu prezintă interes
practic) deci respingem ipoteza nulă referitoare la egalitatea coeficientului cu 0. În concluzie
headsize are influienţă asupra lui brainweight (Există suficientă evidenţă statistică pentru a
concluziona că headsize conţine informaţie utilă pentru prezicerea brainweight).
Reprezentarea grafică de tip diagramă de corelaţie pentru cele 2 variabile (brainweight şi
headsize) şi a dreptei de regresie se poate face folosind secvenţa de comenzi Graphs 
Legacy Dialogs  Scatter/Dot….
În fereastra “Scatter/Dot” se alege “Simple Scatter”. Pentru construcţia diagramei se va
folosi brainweight pe “Y Axis:” şi headsize pe “X Axis:” apoi OK.
Rezultatul este de forma:

GRAPH
/SCATTERPLOT(BIVAR)=Headsize WITH Brainweight
/MISSING=LISTWISE.
Graph

Pentru afişarea ecuaţiei de regresie şi a liniei de regresie pe graficul obţinut se foloseşte dublu
click. Rezultatul este apariţia unei ferestrei de dialog “Chart Editor” în meniul căreia la
“Elements” se alege opţiunea “Fit Line at Total”.
94
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

În urma acestor selecţii rezultatul va fi apariţia ecuaţiei de regresie şi a liniei de regresie pe


graficul obţinut şi a unei ferestre “Properties” unde se pot modifica proprietăţile dreptei de
regresie.

Rezultatul final este graficul:

95
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020

Salvaţi datele în fişierul nume_28.spv

Tema 29: corelaţia cu SPSS.


Pentru calculul simplu al unui coeficient de corelaţie între două sau mai multe variabile care
ne interesează, fără a obţine însă şi dreapta de regresie, se poate folosi secvenţa de comenzi
Analyze  Corellate  Bivariate… selectând în fereastra “Bivariate Corellations” la
Variables: variabilele care ne interesează (variabile de tip cantitativ continuu - Scale pentru
“Corellation Coeficients”: Pearson şi variabile de tip cantitativ discret - Ordinal pentru
“Corellation Coeficients”: Kendall’s tau-b sau Spearman).
Se doreşte verificarea existenţei unei corelaţii (cât de puternică este) între hemoglobina (hb),
hematocrit (ht), nr de leucocite (leuc), nr de limfocite (limf) şi VSH (vsh).

Vom deschide fişierul urimf: File  Open  Data…  …. selectarea folderului unde se
află datele şi a fişierului Date_spss.xls în caseta “Look in” şi a tipului Excel (*.xls, *xlsx,
*.xlsm) în caseta “Files of type” din fereastra “Open Data”… Open. Se va alege fişierul

96
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

“Date_spss.xls”. în caseta “Opening Excel Data Source” trebuie să fie bifat “Read variable
names from first row of data”, Worksheet: urimf4… OK.
Pentru obţinerea coeficienţilor de corelaţie folosim Analyze  Corellate  Bivariate…
selectând în fereastra “Bivariate Corellations” la Variables: hb, ht, leuc, limf, vsh,
coeficientul de corelaţie care ne interesează aici fiind Pearson - “Corellation Coeficients”:
Pearson.
Rezultatele sunt următoarele:

CORRELATIONS
/VARIABLES=HB HT LEUC LIMF VSH
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.

Correlations

[DataSet1]

Correlations
HB HT LEUC LIMF VSH
** ** ** **
HB Pearson Correlation 1 .959 -.146 .212 -.510
Sig. (2-tailed) .000 .000 .000 .000
N 1402 1397 1396 1371 1390
** ** ** **
HT Pearson Correlation .959 1 -.128 .199 -.506
Sig. (2-tailed) .000 .000 .000 .000
N 1397 1397 1391 1366 1385
** ** ** **
LEUC Pearson Correlation -.146 -.128 1 -.349 .253
Sig. (2-tailed) .000 .000 .000 .000
N 1396 1391 1399 1371 1388
** ** ** **
LIMF Pearson Correlation .212 .199 -.349 1 -.275
Sig. (2-tailed) .000 .000 .000 .000
N 1371 1366 1371 1373 1362
** ** ** **
VSH Pearson Correlation -.510 -.506 .253 -.275 1
Sig. (2-tailed) .000 .000 .000 .000
N 1390 1385 1388 1362 1393
**. Correlation is significant at the 0.01 level (2-tailed).

Tabelul „Correlations” este de fapt o matrice a corelaţiilor între variabilele selectate, partea
de deasupra diagonalei principale fiind simetrică părţii de sub această diagonală. În acest tabel
se indică pentru fiecare pereche de variabile coeficientul de corelaţie Pearson (Pearson
Correlation), valoarea p sau p-value pentru testul de egalitate al acestui coeficient cu 0 (Sig.
(2-tailed)) şi numărul de cazuri pentru care am avut valori pentru ambele variabile sau
numărul de valori folosite în calculul acestui coeficient de corelatie (N).
Pentru hb şi ht coeficientul de corelaţie Pearson este 0.959, o valoare pozitivă (indicând
corelaţie pozitivă – când una din variabile creşte ca valoare şi cealaltă creşte ca valoare),
apropiată de 1 (corelaţie foarte bună sau înaltă), semnificativă statistic (Sig. (2-tailed)=0.000),
calculată pentru 1397 cazuri.
Pentru ht şi leuc coeficientul de corelaţie Pearson este -0.128, o valoare negativă (indicând
corelaţie negativă – când una din variabile creşte ca valoare şi cealaltă scade ca valoare),
apropiată mai mult de 0 (corelaţie foarte slabă), semnificativă statistic (Sig. (2-tailed)=0.000),
calculată pentru 1391 cazuri.
Salvaţi datele în fişierul nume_29.spv

97

S-ar putea să vă placă și