Documente Academic
Documente Profesional
Documente Cultură
Lucrarea practică 2
Indicaţii generale:
Tradiţia activităţilor contabile cere ca datele privind veniturile şi cheltuielile unei
firme sau gospodării să fie aranjate sub forma unui tabel. Modul tabelar de aranjare a
datelor este adecvat şi pentru alte activităţi, în general tuturor activităţilor în care datele
„primare” urmează a fi prelucrate. Evident, şi în domeniul medical întâlnim deseori situaţii
în care aranjarea tabelară a datelor prezintă avantaje considerabile, şi aceasta nu doar în
gestiunea spitalului sau a cabinetului medical. Pentru asemenea activităţi pentru care
aplicaţia Word nu este adecvată, ne vom familiariza cu aplicaţia Excel.
Un prim scop al lucrării constă în exemplificarea obţinerii unor indicatori statistici
şi a efectuării calculelor simple în Excel. Apoi se explorează colaborarea între Word şi
Excel în domeniul conversiei tabelelor, foarte utilă pentru efectuarea unor operaţiuni de
separare; urmează explorarea în Excel a funcţiilor statistice şi a celor dedicate prelucrării
textelor, precum şi grafica în Excel.
Se va constata că există destule compatibilităţi între organizările tabelare în cele
două softuri; cu toate acestea, Excel este net superior în ceea ce priveşte calculele, dar mai
greoi în operaţiunile de aranjare „estetică”.
Alt scop al lucrării îl constituie repetarea felului în care se reprezintă diagramatic,
cu Excel, anumite date „de sinteză”.
În continuare se vor folosi unele funcţii implementate în Excel pentru a se efectua
diverse calcule statistice simple, dar nu numai.
În această lucrare practică:
a) Vă veţi familiariza cu calculul tabelar.
b) Veţi exersa obţinerea rapidă a indicatorilor statistici uzuali;
c) Veţi explora posibilităţile de „colaborare” între aplicaţii;
d) Vă veţi familiariza cu folosirea funcţiilor încastrate.
Teme:
5: aplicaţia Excel
6: frecvenţe, mediane şi cuartile în Excel
7: calcule simple în Excel
8: diagrame cu Excel
-4-
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020
din stânga-sus şi cea de colţ din dreapta-jos. Evident, o celulă poate fi considerată ca
formând, ea singură, un domeniu elementar „degenerat”. De asemenea, pot exista domenii
de tip coloană, pentru care „dreptunghiul” se reduce la celule contigue de pe aceeaşi
coloană; analog pentru linii.
Identificarea unui domeniu elementar (care nu este degenerat) poate fi făcută prin
specificarea identificatorilor celulelor de colţ, separându-i prin caracterul ‚:’. Astfel,
C1:E4 identifică un domeniu elementar având 12 celule (situate pe 4 linii şi 3 coloane),
iar A2:D2 identifică un domeniu tip coloană, având 4 celule.
În general, un domeniu este alcătuit din domenii elementare, prin operaţiuni de
reunire şi intersectare. Pentru simbolizarea reunirii se foloseşte caracterul ‚,’, iar pentru
simbolizarea intersectării se foloseşte caracterul ‚ ’ (blanc). Astfel, A3:B5,D3:E5
identifică un domeniu format din 12 celule, grupate în două domenii elementare separate;
ca un alt exemplu, B3:C6 A4:D5 identifică exact domeniul elementar B4:C5.
De obicei într-un domeniu sunt depuse date ce au o legătură logică între ele (dar nu
sunt neapărat de acelaşi tip). Astfel, în cazul reprezentării grafice a unor date numerice se
obişnuieşte să se completeze domeniul datelor cu o linie şi o coloană de „explicaţii”. Excel
„înţelege” rostul fiecărei date din domeniul extins!
Forma de cruce albă (Cross) a cursorului mausului este folosită
pentru selectarea unui domeniu. Domeniul elementar selectat va fi încadrat,
iar celulele sale vor avea fundalul colorat (cu excepţia celulei active,
plasată în colţ).
Forma asemănătoare literei I (I Beam)este folosită în activităţi de
editare.
Forma de săgeată albă, vârful înspre stânga (Left Arrow) este
folosită pentru mutarea domeniului selectat.
Aplicaţia Excel permite crearea rapidă de diagrame statistice. Urmăriţi figura de mai
jos şi completaţi domeniul A1:F4 cu datele pe care le vedeţi. (De exemplu, în celula A2
plasaţi textul „Mai puţin de o săptămână”.)
-6-
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020
-7-
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică
Vom corecta conţinutul celulelor B1 şi B16 în aşa fel încât să devină „Sub 150
cm” respectiv „Peste 185 cm”. În coloana C vom introduce datele numerice din coloana a
doua a tabelului următor.
Clasa Numărul
Sub 150 cm 112
150 – 152.5 cm 523
152.5 – 155 cm 1715
155 – 157.5 cm 3371
157.5 – 160 cm 5906
160 – 162.5 cm 8655
162.5 – 165 cm 11214
165 – 167.5 cm 11628
167.5 – 170 cm 10338
170 – 172.5 cm 8228
172.5 – 175 cm 5789
175 – 177.5 cm 3356
177.5 – 180 cm 1828
180 – 182.5 cm 685
182.5 – 185 cm 224
Peste 185 cm 18
-8-
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020
Pie Pie).Veţi plasa de fiecare dată diagrama pe o foaie nouă, redenumind apoi foile prin
„histograma” respectiv „rozeta” (observaţi reprezentarea celor două diagrame pe pagina
următoare). Recomandăm ca foaia cu datele să fie redenumită „datele”.
Pentru prima diagramă nu aveţi nevoie de legendă, însă ar fi de dorit să introduceţi
valorile seriei ca „etichete” (Data labels Outside End). Dimpotrivă, pentru a doua
diagramă legenda este obligatorie, iar ca etichete ar fi recomandabil să introduceţi
„procentele” (Data labels Percentage). Reflectaţi asupra scopului reprezentărilor grafice
şi încercaţi să plasaţi pe diagrame informaţiile relevante.
-9-
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică
- 10 -
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020
Aparent, cele două distribuţii cumulate diferă între ele! Dar, pentru a răspunde
„statistic corect” la întrebare, va trebui să adoptăm un limbaj adecvat. Vom reveni.
În studiile privind obezitatea cercetătorii au opinii împărţite: cei americani consideră
importantă percentila a 95-a, iar cei francezi percentila a 97-a. Mai precis, aceste percentile
ar constitui „graniţa” între „supraponderal” şi „obez”.
Obţinerea medianei, cuartilelor şi percentilelor este mult uşurată în situaţiile în care
dispunem de datele primare şi nu de prezentări sintetice.
De exemplu, dispunem de datele primare din fişierul LP02_1.xlsx pe care îl preluaţi
prin copiere din folderul Anul2 în folderul vostru şi îl redenumiţi nume_GREUTATI.xlsx.
Pentru băieţi greutăţile sunt trecute aici, pe singura foaie „Greutati”, în domeniul A2:A98;
pentru fete găsim datele în domeniul B2:B151. Medianele respective vor putea fi obţinute
imediat, cu formulele
=MEDIAN(A2:A98)
=MEDIAN(B2:B151)
=MEDIAN(A2:A98,B2:B151)
Care vor fi plasate în celulele C2, C3, C4.
Informaţi-vă asupra utilizării funcţiilor QUARTILE() şi PERCENTILE() în Excel.
Tema 7: calcule simple în Excel. Riscul apariţiei unei forme oarecare de cancer la
fumători (sunt „fumători” cei care fumează pipă sau mai mult de o ţigară pe zi) a fost evaluat
la 0.085. În acelaşi studiu de tip caz-control au mai fost evaluate următoarele riscuri:
- Riscul apariţiei unei maladii cardiovasculare la fumători, la 0.143;
- Riscul apariţiei unei forme de cancer la nefumători, la 0.032;
- Riscul apariţiei unei maladii cardiovasculare la nefumători, la 0.048.
Pentru o evaluare comparativă se foloseşte noţiunea de risc relativ (RR). Astfel, pentru
formele de cancer
0.085
RR cancer 2.66
0.032
exprimă faptul că un fumător este de peste 2.6 ori mai expus apariţiei unei forme de cancer
decât un nefumător. Pentru maladiile cardiovasculare, calculăm şi interpretăm analog
0.143
RR cardiovascular 2.98 .
0.048
Asemenea calcule simple sunt uşor programabile în Excel. Creaţi o carte de calcul
nume_RISCURI.xlsx, cu o foaie denumită „Calcule”. Aici, în celula A2 introduceţi textul
„riscul pentru fumători”, iar în celula A3 textul „riscul pentru nefumători”. Cu condiţia
completării ulterioare a celulelor B2 şi B3, puteţi plasa în celula B4 formula
=B2/B3
(Expresia #DIV/0! n-ar trebui să ne surprindă. Celula B3 este „goală”, valoarea ei este
asimilată cu 0, aşadar formula ne indică o împărţire la 0.)
Să plasăm în celula B1 textul „cancer”, iar în celula C1 textul „maladii
cardiovasculare”. De îndată ce completăm celulele B2 şi B3 cu valorile 0.085 respectiv
0.032, vom observa apariţia valorii riscului relativ în celula B4. Dar după completarea
celulelor C2 şi C3 cu valorile 0.143 respectiv 0.048, riscul relativ pentru maladii
- 11 -
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică
- 13 -
MG – Lucrarea practică 2 2019/2020 UMF „Carol Davila” – Informatică Medicală şi Biostatistică
=B2/B$7
apoi o vom extinde prin „tragere de mâner” la domeniul C2:C6. Domeniul se va umple
automat cu toate frecvenţele relative.
Să folosim Excel pentru a obţine diagrama datelor. Pentru aceasta vom selecta mai
întâi domeniul A1:B6, după care comandăm Insert Insert Column or Bar Chart şi
alegem subtipul bidimensional, vom modifica uşor titlul în „Numărul pacienţilor internaţi în
Secţia I”, apoi în Chart Elements (butonul din dreapta sus de forma semnului„+”) vom
renunţa la afişarea legendei, întrucât nu este necesară. Se va bifa Data Labels şi se va alege
opţiunea Outside End, iar opţiunea Gridlines va fi debifată; De asemenea vom avea grijă să
mutăm diagrama într-o nouă foaie acţionând butonul Move Chart şi alegând opţiunea New
sheet, în detrimentul opţiunii Object in. (A doua opţiune nu o recomandăm întrucât
componentele diagramei nu sunt facil controlabile atunci când pregătim imprimarea sa.)
Am obţinut astfel diagrama de tip histogramă pe foaia Diagrama1, bazată pe date
plasate în celulele din Sheet1. De menţionat că orice modificare a datelor va provoca
„instantaneu” redesenarea diagramei.
Reluaţi activitatea în Word, plasând sub tabel următorul text:
„Comparativ, situaţia este prezentată mai bine de diagrama următoare:”
şi în continuare „lipiţi” diagrama de pe foaia Diagrama1. Înainte de a proceda la lipire,
folosiţi butonul Text Box→Draw Text Box din grupul Text al tab-ului Insert pentru a
pregăti un chenar cu dimensiunile aproximative de 14 8 cm. Lipirea diagramei va fi făcută
în interiorul chenarului. (Observaţi ce se întâmplă în urma lipirii, dacă nu pregătim anterior
chenarul.) Controlul dimensiunii (Size) chenarului se poate face cu comanda More Layout
Options... care devine accesibilă prin apăsarea butonului din dreapta al mausului, având
vârful indicatorului undeva deasupra bordurii casetei text.
Dedesubtul diagramei plasaţi textul următor:
„Aceleaşi date pot fi prezentate şi sub formă de rozetă (structură radială):”
şi în continuare „lipiţi” o diagramă de acest tip, obţinut în Excel, pe baza aceloraşi date, dar
pe altă foaie Diagramă2. Plasaţi pe această diagramă legenda şi încercaţi să plasaţi şi
procentele corespunzătoare fiecărei „felii”.
Dedesubtul acestei rozete plasaţi textul:
„Prezentare întocmită astăzi (data curentă) de către (numele d-voastră).”
în care data curentă o veţi insera cu comanda Data&Time din grupul Text al tab-ului Insert,
apoi salvaţi cele două fişiere nume_JUDETEAN (documentul docx si fişierul xlsx).
De unde provin frecvenţele absolute din tabelul iniţial? Răspunsul este imediat: din
înregistrările primare.
Înregistrările primare au fost stocate în fişierul denumit LP02_2.xlsx. Preluaţi (prin
copiere/lipire) fişierul LP02_2.xlsx din dosarul Anul2 în dosarul vostru. Deschideţi
ACEST exemplar cu un dublu-clic.
- 14 -
UMF „Carol Davila” – InformaticăMedicală şi Biostatistică MG – Lucrarea practică 2 2019/2020
- 15 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Lucrarea practică 3
Indicaţii generale:
Teme
9: funcţii în Excel (COUNTIF, CONCATENATE, AVERAGE, STDEV)
10: diagrame cu coloane
11: diagrame Pareto
12: diagrame de evoluţie şi comparaţie
specială: ierarhizarea cauzelor de deces (diagramă Pareto)
- 16 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020
Reţineţi că, prin convenţie, ghilimelele sunt folosite în programare pentru a indica
începutul şi sfârşitul unei secvenţe de caractere.
Extindeţi, prin „tragere de mâner”, formula din celula G2 la întreg domeniul G2:G26.
Veţi face o încercare de duplicare a valorilor din coloana G în coloana I. Selectaţi coloana
G (clic având indicatorul mausului în dreptul inscripţiei „G” de deasupra coloanei) apoi
comandaţi Copy. Selectaţi apoi celula I1 şi comandaţi simplu Paste. Ar trebui să constataţi că
efectul nu este cel dorit de noi! Dat fiind că în formula
=CONCATENATE(B2," ",C2)
referinţele sunt relative, prin copiere şi lipire ele vor fi modificate corespunzător!
- 17 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
- 18 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020
În acest scop, în celula J2 veţi plasa (prin Insert Function) funcţia IF(). Cele trei
argumente ale acestei funcţii sunt clare:
a) testul logic, ca expresie logică de referinţe la celule sau domenii; în cazul nostru se
referă doar la conţinutul celulei D2;
b) valoarea funcţiei pentru cazul în care expresia logică test este adevărată (1);
c) valoarea funcţiei pentru cazul în care dacă expresia logică test este falsă (0).
Preluaţi (prin Copy/Paste special) valorile din coloana J în coloana K. Modificarea
valorilor text poate fi făcută prin intermediul funcţiilor de prelucrare de text, cum sunt
PROPER(), UPPER(), LOWER(), SUBSTITUTE() etc. Verificaţi modul de acţiune al fiecăreia
după cum urmează: introduceţi textele „Lower“, „Upper“, „Proper“, „Substitute“ în domeniul
L1:O1, iar apoi corespunzător în domeniul L2:O2 formulele (folosiţi comanda Insert
Function). Astfel în celula L2 veţi plasa formula:
=LOWER(I2)
În celula M2
=UPPER(I2)
iar în celulele N2 şi O2 formulele
=PROPER(L2) respectiv =SUBSTITUTE(L2,” “,”_”)
Prin tragere de mâner în jos a celulelor L2, M2, N2, O2 pe fiecare coloană obţineţi efectul
fiecărei formule corespunzător funcţiei text utilizate.
Valorile coloanei E reprezintă vârstele, exprimate în ani. Veţi calcula vârsta medie,
precum şi abaterea standard (deviaţia standard) a vârstelor pacienţilor de la medie. în acest scop
se pot folosi funcţiile statistice AVERAGE(), respectiv STDEV().
Plasaţi în celula E27 (prin tastare sau apelând la Insert Function; dacă tastaţi, nu uitaţi
caracterul „=” înaintea formulelor!) formula
=AVERAGE(E2:E26)
iar în celula E28 formula
=STDEV(E2:E26)
Ar trebui să obţineţi rezultatele 48.68, respectiv 10.40. Folosiţi caseta de dialog
FormatCells făcând clic pe lansatorul casetei de dialog de lângă Number (situat în colţul din
dreapta jos) din grupul Number al tab-ului Home pentru a stabili ca în afişarea rezultatelor să
se folosească numai două cifre zecimale. În articolele medicale aceste informaţii sunt prezentate
- 19 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
astfel:
Vârsta medie a pacienţilor 48.7 (10.4) ani.
(Atunci când valorile au o anumită precizie, media lor va fi prezentată cu o zecimală în
plus. La fel abaterea standard.)
Preluaţi (prin Copy/Paste) tabelul iniţial cupris în domeniul A1:F26 pe o nouă foaie de
calcul a registrului de calcul Excel şi denumiţi această foaie „Frecvente“.
Valorile coloanei F reprezintă cinci diagnostice posibile, codificate prin 111, 222, 333,
444 şi 555. Veţi întocmi histograma valorilor, pe o altă foaie (separată) în cadrul cărţii de calcul
(registrului). În acest scop va fi folosită funcţia statistică FREQUENCY().
Dar, mai întâi, vor fi pregătite informaţiile explicative ce vor fi plasate în graficul-
histogramă: în celula L1 veţi plasa textul „Coduri”, în celula M1 veţi plasa „Frecvenţe”, iar în
domeniul L2:L6 veţi plasa – unul sub altul – codurile 111, 222, 333, 444 şi 555.
Selectaţi acum domeniul M2:M6 (chiar dacă momentan nu conţine nimic). Este esenţial
să cunoaşteţi faptul că acest domeniu va fi umplut cu valorile-frecvenţe (absolute) printr-un
singur apel la funcţia FREQUENCY(). Atenţie însă la felul în care procedaţi: va trebui să daţi o
comandă suplimentară după „apăsarea” butonului OK în caseta de dialog a acestei funcţii!
Concret, având selectat domeniul M2:M6, efectuaţi următorii paşi:
a) faceţi apel (prin simplă tastare sau apelând la Insert Function) la funcţia statistică
FREQUENCY();
b) completaţi caseta text Data_array (prin tastare sau tragere cu mausul) cu domeniul
F2:F26;
c) completaţi caseta text Bins_array (prin tastare sau tragere cu mausul) cu domeniul
L2:L6;
d) apăsaţi butonul OK, ceea ce va duce la închiderea casetei de dialog;
e) plasaţi printr-un clic cursorul de editare pe bara formulei, deasupra formulei
=FREQUENCY(F2:F26;L2:L6), apoi tastaţi combinaţia Ctrl+Shift+Enter.
Observaţi că formula a fost
încadrată de acolade,
{=FREQUENCY(F2:F26;L2:L6)},
ceea ce înseamnă că ea va umple un
domeniu şi nu doar o singură celulă!
Dispuneţi acum de toate datele
necesare creării histogramei.
Selectaţi domeniul L1:M6 (ataşând
datelor „capul de tabel”), apoi
aplelaţi comandaţi Insert Column
or Bar Chart2-D Column din
tab-ul Insert.
După realizarea diagramei va fi obligatoriu să eliminaţi seria
„Coduri” apelând la butonul Select Data din grupul Data al tab-
ului Design devenit activ prin crearea diagramei. În caseta de
dialog Select Data Source selectaţi seria „Coduri” şi apoi faceţi
clic pe butonul Remove (vezi figura de mai sus). În secţiunea
Horizontal (Category) Axis label introducem facând clic pe
butonul Edit domeniul care conţine codurile (vezi figura
alăturată).
- 20 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020
Titlul diagramei va fi „Repartiţia pacienţilor pe maladii”, pe axa X veţi plasa „Coduri”, iar pe
axa Y „Număr pacienţi”. Renunţaţi la folosirea legendei, întrucât nu este necesară atunci când se
reprezintă grafic doar o singură serie de date. Plasaţi ca etichete valorile frecvenţelor deasupra
coloanelor; Plasaţi desenul ca foaie nouă a registrului, cu denumirea „diagrama frecvenţelor”
(Probabil că vă veţi da seama de ce nu puteţi acorda denumiri „lungi” foilor registrului!
Recomandăm să alegeţi denumiri scurte dar sugestive.)
Codificarea maladiilor prin codurile numerice 111, 222, 333, 444, 555 este complet artificială. În
crearea codurilor se obişnuieşte combinarea cifrelor cu litere. Modificaţi aceste coduri (ar fi de preferat
s-o faceţi pe o copie a foii de calcul, fie aceasta Coduri) prin A1, A2, B1, C1, C2. Pentru modificarea
codurilor puteţi folosi butonul Find&Select al grupului Editing din tab-ul Home apelând opţiunea
Replace. Puteţi observa că funcţia FREQUENCY() nu mai dă rezultatele dorite!
Aceste rezultate pot fi obţinute însă cu COUNTIF(). După ce aţi şters valorile obţinute cu
funcţia FREQUENCY din domeniul M2:M6, plasaţi în celula M2 formula
=COUNTIF(F$2:F$26,L2)
apoi extindeţi-o la toate cele cinci celule ale domeniului M2:M6. Repetaţi crearea diagramei
cu coloane; ar trebui să observaţi că Excel o creează automat, fără a mai fi nevoie de eliminarea de
serii!
Ar fi de dorit ca să plasaţi valorile seriei de date deasupra coloanelor, eventual evidenţiate
prin „bolduire” şi mărime 18.
Tema 10: diagrame cu coloane. Datele din tabelul următor sunt preluate din Anuarul
Statistic al Populaţiei (2005). În tabel se prezintă numărul de familii cu N copii.
Nr. copii în Numărul de
familie familii
0 11204
1 114992
2 67712
3 19609
4 8369
5 4284
6 2329
7 1478
>7 2247
De la un eşantion investigat de 46 de familii s-au obţinut următoarele rezultate:
Nr. copii în Numărul de
familie familii
0 3
1 20
2 15
3 5
4 3
>4 0
- 21 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Tema 11: diagrame Pareto. În aprecierile făcute asupra calităţii funcţionării unui sistem
(mecanic, social, biologic …) se studiază cu atenţie cauzele funcţionării defectuoase. Aceste cauze
se sortează apoi, în ordine descrescătoare după frecvenţele relative. Pentru prezentarea lor vizuală
se întocmeşte o diagramă de tip Pareto.
Se ştie că unul dintre motivele întârzierilor în stabilirea diagnosticului unui pacient îl
constituie slaba calitate a dosarului său (fişei medicale). Să luăm, ca exemplu fictiv, o analiză a
calităţii dosarelor medicale întocmite într-un spital în anul 2007. Au fost descoperite diverse
nereguli, conform tabelului următor, în dosarele celor 614 pacienţi care au fost „trase la sorţi” ca
eşantion:
- 22 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020
- 23 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Repetaţi procedura anterioară, realizând în final o diagramă Pareto, pentru cauzele de deces în
anul 2005 (conform Anuarului Statistic), prezentate în tabelul următor:
Introduceţi acest tabel într-o foaie de calcul nouă din fişierul nume_PARETO.xlsx, în
domeniul A1:C15. Puteţi prelua datele, prin copy/paste, din foaia „Anuar” a fişierului
LP03_2.xlsx. Completaţi coloana D cu totalurile, apoi folosiţi datele din această coloană.
Recomandăm să creaţi o coloană cu denumiri prescurtate, pe care s-o utilizaţi în locul coloanei A.
Tema 12: diagrame de evoluţie şi comparaţie. Tabelul următor – plasat pe o foaie de calcul
Excel în domeniul A1:E11, conţine date privind rata incidenţei cancerului pulmonar la bărbaţi, pe
categorii de vârstă.
Perioada
Vârsta 1973-76 1980-82 1983-87 1988-92
30-34 4.1 4.3 3.7 3.1
35-39 15.1 9.6 11 7.1
40-44 29.9 29.2 26.4 21.9
45-49 73.4 73.4 69.5 59.7
50-54 143.9 140.4 143.3 146.5
55-59 245.1 257.2 265.4 268.8
60-64 372.4 407.1 410.4 417.7
65-69 448.3 556.8 589.3 611.2
70-74 407.4 621.8 743.5 782.6
Să reprezentăm grafic datele din acest tabel. De la bun început să precizăm faptul că putem
considera seriile de date fie pe coloane, fie pe rânduri. Recomandăm crearea diagramelor folosind
lansatorul casetei de dialog Charts care deschide caseta de dialog Insert Charts.Vom utiliza
tableta All Charts pentru a selecta tipul de diagramă dorit.
- 24 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020
Dacă rândurile tabelului (anume acelea formate din numere) vor constitui seriile de date,
atunci avem de-a face cu evoluţii ale ratelor de incidenţă, aşadar tipul de diagramă va fi cel „cu
linii” (Line), iar titlul adecvat al diagramei va fi „Evoluţia ratei de incidenţă a cancerului pulmonar
la bărbaţi, pe categorii de vârstă”. Se impune afişarea legendei. (Se recomandă ca, înainte de a trece
la reprezentarea diagramatică, să se selecteze domeniul extins A2:E11.)
- 25 -
MG – Lucrarea practică3 2019/2020 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Înregistraţi cele trei foi-diagramă, alături de foaia de calcul, în fişierul pe care-l veţi
denumi nume_PULMONAR.xlsx.
Preluaţi prin copiere din dosarul Anul2 fişierul-carte de calcul LP03_3.xlsx (Nu
lucraţi direct cu fişierul din dosarul Anul2) şi lipiţi-l în folderul vostru de lucru.
Fişierul are o singură „foaie de calcul” pe care găsiţi nişte date. Cu aceste date veţi
crea o diagramă. Salvaţi în final – după ce aţi schimbat autorul – fişierul (cu cele două foi)
dându-i numele nume_ECORADIO.xlsx. (Atenţie la tipul de fişier pe care-l obţineţi!)
Înainte de a salva fişierul, efectuaţi următoarele operaţiuni:
– completaţi coloana D cu diferenţele între valorile „măsurate” la ecograf şi cele
obţinute radiologic. Formula din celula D2 va fi următoarea
=B2-C2
(Se ştie că există o tendinţă de a exagera la ecograf dimensiunile calculilor
renali. Oare această tendinţă se manifestă şi faţă de aprecierile făcute pe
radiografii?)
– calculaţi în celula B107 media datelor de pe coloana B (utilizaţi funcţia statistică
AVERAGE);
– calculaţi analog mediile datelor de pe coloanele C şi D;
(Ar trebui ca media diferenţelor să coincidă cu diferenţa între media valorilor
„măsurate” la ecograf şi media celor obţinute radiologic. Verificaţi că este aşa.)
– cu datele din coloanele B şi C creaţi o diagramă de tipul XY (prin puncte -
Scatter) pe care adăugaţi linia de tendinţă şi optaţi pentru afişarea „ecuaţiei”. Pe
diagramă afişaţi şi liniile de grilă majore, pentru ambele axe;
- 26 -
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 3 2019/2020
- 27 -
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Lucrarea practică 4
Indicaţii generale:
28
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021
29
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Tema 14: funcţia VLOOKUP. Funcţiile de căutare au ca scop înlocuirea unor valori
cu altele, conform unor tabele de asociere. Utilitatea lor este necontestată în situaţiile în
care trebuie să introducem, în mod repetat, „expresii” identice. În lucrul la calculator este
clar ce înseamnă „secvenţe de caractere identice”. Nu este vorba deloc despre felul în care
sunt ele afişate pe ecran; prin comparare vizuală am putea fi induşi în eroare cu destul de
multă uşurinţă!
Dacă am introduce expresiile prin tastare, ar fi mari şanse ca erori mici să producă
secvenţe de caractere care să nu fie „identice”. De aceea se recomandă ca o „expresie” care
a fost introdusă anterior prin tastare să nu mai fie tastată a doua oară; dimpotrivă,
introducerea următoarelor „exemplare” să fie făcută prin copierea primului.
Să considerăm un exemplu simplu, cel al unei liste de persoane, în care numele şi
prenumele fiecărei persoane este însoţit de profesia sa, astfel:
Ionescu Ion medic
30
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021
31
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Amestecarea, pe aceeaşi foaie de calcul, a mai multor tabele nu este o idee prea
bună Recomandăm mutarea tabelului cu datele persoanelor pe o altă foaie de calcul,
începând cu celula A1. Aici coloanele G şi H vor deveni coloanele C şi D. Recomandăm şi
separarea celor două domenii care au fost denumite PROFESIA respectiv SEXUL, pe două
foi de calcul separate denumite corespunzător.
De asemenea, în panoul Format Data Labels activaţi două dintre casetele de validare prin
butonul Label Options, şi anume „Category Name” şi „Value”, apoi alegeţi „Outside End” în
zona Label Position. Veţi observa că în dreptul sectoarelor de cerc apar inscripţiile din
domeniul A1:A4, cu excepţia inscripţiei „Other, 68”. Prin dublu-clic deasupra acesteia
încercaţi să preluaţi controlul ei şi să eliminaţi textul nedorit, rămânând numai „68”.
Prin clic, clic-dreapta sau dublu-clic deasupra câte unui sector încercaţi să preluaţi
controlul colorării sectorului respectiv. Încercaţi să determinaţi aplicarea unor efecte de
umplere. (Ar trebui să acţionaţi în panoul Format Data Point, prin apăsarea butonului Fill şi
alegerea efectului de umplere dorit: Gradient fill, Picture or texture fill, Pattern fill.) Atenţie,
nu încercaţi acest lucru în panoul Format Data Series, întrucât veţi determina nediferenţierea
sectoarelor. Nu uitaţi: în cazul unei erori sau obţinerii unui efect nedorit, reveniţi la situaţia
anterioară prin butonul Undo Format Object (Ctrl+Z).
Plasaţi acum în celula D1 a foii „Frecvenţe” textul „Separatori”, iar în domeniul D2:D7
numerele 140, 150, 160, 170, 180, 190. În celula E1 plasaţi textul „Frecvenţe”, iar în celula
E2 formula
=FREQUENCY(Lombar!F2:F201,D2:D7)
Selectaţi acum domeniul E2:E8, plasaţi cu un clic un punct de inserare pe bara formulei,
apoi tastaţi [Ctrl]+[Shift]+[Enter]. În acest fel se obţin dintr-o singură mişcare toate
frecvenţele (absolute) ale înălţimilor indivizilor din eşantion, conform valorilor de separare
alese (din 10 în 10 centimetri).
Selectând acum domeniul D1:E8, încercaţi să realizaţi o diagramă a frecvenţelor. Care
este tipul adecvat şi ce titlu ar trebui să poarte diagrama?
Redenumiţi nume_SONDAJ.xlsx cartea de calcul conţinând cele două foi de calcul şi
două foi cu diagrame. Încercaţi salvarea sub formă de pagină web cu denumirea
nume_SONDAJ.htm.
33
MG – Lucrarea practică 4 2020/2021 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
pentru aceste teste. (Tuturor celor 16 şoareci li s-au provocat arsuri de piele, de gravităţi
echivalente.)
Pentru grupul celor 7 „trataţi” au fost constatate următoarele durate de vindecare (în zile):
9 4 3 19 10 2 14
Pentru grupul „de control” al celor 9 „netrataţi” au fost constatate următoarele durate de
vindecare (în zile):
5 2 4 10 5 3 14 3 5
Se poate afirma că tratamentul cu noul unguent grăbeşte vindecarea arsurii?
Să utilizăm aplicaţia Excel pentru a-i explora posibilităţile de a ne ajuta în a da
răspunsuri justificate la întrebări de tipul celei anterioare.
Veţi crea un fişier-carte de calcul denumit nume_UNGUENT.xlsx cu cel puţin o foaie
de calcul. Se recomandă ca diagramele să NU fie plasate peste celulele foii de calcul, ci în
foi separate!
Redenumiţi prima foaie de calcul „Arsuri” şi, în domeniul B2:B17, plasaţi – una sub alta
– cele 16 durate de vindecare. În celula B1 veţi plasa textul „Durata de vindecare (în zile)”,
iar în celula C1 textul „Grupul”.
Alăturat duratelor de vindecare, în domeniul C2:C17, plasaţi textele „tratament” sau
„control”, după caz.
Coloana A o veţi folosi pentru identificarea (numerotarea) cazurilor. Mai precis, în A1
veţi plasa textul „Individul nr.”, iar dedesubt veţi plasa – unul sub altul – numerele 1, 2, ...,
16. (Reamintiţi-vă cum se poate extinde, prin tragere de mâner, o progresie aritmetică.)
Poate că o reprezentare grafică a
datelor ne va fi de ajutor. Cu Excel
obţinem repede o asemenea
reprezentare; este suficient să
selectăm domeniul A1:B17 şi să
apelăm comanda Insert→Insert
Column or Bar Chart→2-D
Bar→Clustered Bar, probabil
diagrama cea mai potrivită pentru
această situaţie fiind cea „cu bare
orizontale”. În etapa de eliminare a
seriei „Individul nr.” putem apela la
butonul Select Data din tab-ul Recomandăm realizarea diagramei pe o foaie
Design şi după selecţia seriei separată, evitând amestecul între grafică şi calcule
„Individul nr.” folosim butonul pe aceeaşi foaie de lucru. Denumiţi „16-1” foaia
Remove– a se vedea figura separată
alăturată.
34
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021
Încercaţi modificarea culorilor în care sunt afişate barele, de exemplu în roşu pentru
primele 7 bare (cele de jos) şi în albastru pentru celelalte. Plasaţi de asemenea textele
„tratament” şi „control” colorate corespunzător, ca în figură.
Duplicaţi foaia pe care aţi depus diagrama, denumind „1-16” copia. Încercaţi, pe foaia
„1-16”, schimbarea ordinii de afişare a duratelor de vindecare (astfel încât barele orizontale
„tratament” să apară deasupra celor „control”).
36
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG – Lucrarea practică 4 2020/2021
În coloana G vom introduce formulele corespunzătoare datelor „de control”, care au fost
plasate în domeniul B9:B17.
Ar trebui să obţineţi intervalele de încredere [3.25, 6.18] respectiv [3.14, 8.20]. Ele nu
sunt disjuncte, astfel că statistica nu justifică deloc afirmaţia cercetătorilor!
Este momentul să atragem atenţia asupra unui aspect extrem de important: duratele de
vindecare nu ar trebui apreciate „în medie”, întrucât un singur caz „aberant de lung” ar
putea schimba în mod esenţial concluziile. Dimpotrivă, aprecierea ar trebui să fie făcută
după mediane!
Plasaţi în celula E8 textul „Mediane”, apoi în dreapta formulele de calcul, făcând apel la
funcţia MEDIAN. Ar trebui să obţineţi, pentru ambele grupuri, mediana 5. Aceasta ar trebui
să constituie un semnal de alarmă privind incorectitudinea afirmaţiei cercetătorilor!
Preluaţi în foaia a treia, prin copiere/lipire, conţinutul foii „Corect”. Redenumiţi foaia a
treia „Ultima” şi, pe ea, efectuaţi următoarele modificări. Schimbaţi conţinutul domeniului
B9:B17 în următorul:
5 7 6 11 6 9 14 6 10
Ar trebui să constataţi că mediile se modifică sensibil, şi că intervalele de încredere 95%
devin [3.25, 6.18] respectiv [6.27, 10.18].
Se observă că cele două intervale de încredere sunt disjuncte, prin urmare – pe aceste
date – putem accepta – cu încredere 95% – ca adevărată afirmaţia cercetătorilor (sau a firmei
de medicamente).
Constatăm şi că medianele diferă în mod esenţial şi, reamintim, acestea ar trebui să fie
luate în consideraţie în aprecierea validităţii afirmaţiei cercetătorilor. Ar fi de dorit să
dispunem de intervale de încredere 95% pentru cele două mediane. Din păcate, Excel nu
ne poate ajuta în obţinerea acestor intervale de încredere; este nevoie de soft statistic
specializat, care eventual să exploateze metode speciale cum ar fi tehnicile bootstrap.
Salvaţi în această formă cartea de calcul Excel, cu cele trei foi de calcul şi două
„grafice”.
37
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Lucrarea practică 7
Indicaţii generale:
Afirmaţii de tipul „fumatul este asociat cu decesul timpuriu, după un prim atac de
cord”, făcute în urma comparării unor proporţii calculate cu date obţinute din eşantioane
„reprezentative”, pot fi confirmate statistic prin teste hi pătrat (care în asemenea situaţii
sunt considerate ca teste de semnificaţie statistică, şi nu ca teste de bonitate).
Aplicaţiile statistice (SPSS, Epi Info, …) au evident implementate module pentru
efectuarea directă a calculelor necesare. Dar rezultatele pot fi obţinute şi cu ajutorul
aplicaţiei Excel, controlând în mod corespunzător desfăşurarea calculelor.
Teme
24: tabele de contingenţă în Excel
25: testul hi pătrat în Excel
26: testul hi-pătrat şi Fisher exact în SPSS
72
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
Riscul apariţiei unei maladii (sau riscul de deces) este raportul între numărul de
„evenimente” ce apar întro perioadă de timp specificată (de obicei un an) şi numărul de
indivizi luaţi în considerare (respectiv aflaţi în viaţă) la începutul perioadei.
Tabelul următor, întocmit pentru compararea riscurilor, conţine date privind mortalitatea
la doi ani după primul atac de cord suferit de fumători. (Sursa: Daly, Bourke and McGilvray,
pag. 184.)
Supravieţuirea la 2 ani Total
Decedaţi În viaţă
au continuat să fumeze 19 135 154
n-au mai fumat 15 199 214
Total 34 334 368
Acesta este un exemplu tipic de tabel de contingenţă (de tipul 2 2, adică două linii, două
coloane), bordat cu o linie şi o coloană a totalurilor.
Datele primare nu se prezintă însă în acest fel. Preluaţi fişierul LP07_1.xls pentru a vedea
cum sunt înregistrate datele primare. Dacă deschidem fişierul cu Excel, atunci vom folosi de
patru ori (pe patru coloane) însumarea rezultatelor date de funcţia logică IF, condiţiile
logice fiind de forma AND(C2=FALSE,D2=TRUE) şi analoagele.
Preluaţi cele 368 de înregistrări pe o primă foaie de calcul a fişierului nume_CALCULE,
foaie pe care o veţi denumi „Primare”.
Creaţi tabelul de mai sus pe a doua foaie de calcul, de exemplu în domeniul A1:D5
(având grijă să denumiţi această foaie de calcul „Conting”)
Calculaţi în coloana E rata deceselor. (Astfel, pentru întreg lotul de pacienţi, în celula E5
vom plasa formula „=B5/D5” şi vom obţine rata de 9.24%; pentru cei ce au continuat să
fumeze, în celula E3 vom plasa formula „=B3/D3” şi vom obţine rata de 12.34%, iar pentru
cei ce n-au mai fumat, în celula E4 vom obţine rata 7.01%. Evident, ar fi de dorit să plasaţi
în celula E2 un text explicativ, ca de exemplu „Rata deceselor”)
Se va observa o creştere a ratei deceselor în cazul celor ce au continuat să fumeze,
comparativ cu cazul celor care n-au mai fumat. Oare această creştere este „semnificativă”?
Pentru a răspunde la întrebări de acest fel va fi obligatoriu să precizăm „nivelul de
semnificaţie”, altfel răspunsurile sunt lipsite de conţinut.
Să alegem nivelul de semnificaţie uzual 0.05 . Afirmaţia că „fumatul este ASOCIAT
CU decesul timpuriu, după un prim atac de cord” poate fi confirmată (dar nu respinsă!) cu
ajutorul unui test de semnificaţie bazat pe acest nivel de semnificaţie şi pe o anumită
distribuţie hi-pătrat (anume cea cu un singur grad de libertate). Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=CHIINV(0.05, 1)
şi va avea valoarea aproximativ 3.84. Oare este el depăşit?
Atenţie, apelând funcţia CHIINV ni se oferă explicaţii detaliate în caseta de folosire a
funcţiei. (Întrebare: este confirmată afirmaţia?)
Afirmaţia că „fumatul este O CAUZĂ A decesului timpuriu, după un prim atac de cord”
poate fi confirmată cu ajutorul unui alt test de semnificaţie bazat pe nivelul de semnificaţie
ales şi pe o anumită distribuţie, normală standard de data aceasta. Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=NORMSINV(1–0.05)
şi va avea valoarea aproximativ 1.64. Oare este el depăşit?
73
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Vom încerca să confirmăm ultima afirmaţie („este cauză”) prin efectuarea unui test de
semnificaţie. Compararea celor două populaţii, anume a celor care „n-au mai fumat”,
respectiv a celor care „au continuat să fumeze” se va face la nivelul proporţiilor riscurilor de
deces.
„Ipoteza nulă”, pe care încercăm să o „respingem” în urma efectuării testului de
semnificaţie, este următoarea
1 2
şi ea exprimă faptul că cele două proporţii „nu diferă semnificativ” una de alta. Ipoteza
alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule, este următoarea:
1 2.
Evident, ea exprimă faptul că riscul de deces este mai mare pentru cei care „continuă să
fumeze”.
Proporţiile riscurilor de deces sunt estimate prin frecvenţele relative observate,
p1 0.1234 , p2 0.0701, calculate pe baza datelor din eşantioane. Ele sunt în concordanţă
cu ipoteza alternativă!
(Este important să facem această observaţie! Căci în cazul în care frecvenţele relative
observate nu erau în concordanţă cu ipoteza alternativă, am fi confirmat o altă afirmaţie!)
Avem nevoie şi de riscul de deces pentru întreaga populaţie, uşor de calculat
34
p 9.24% . De asemenea, trebuie să reţinem şi „volumele eşantioanelor”, n1 154 ,
368
n2 214 .
p2 p1
Statistica pe care o folosim este z iar valoarea obţinută o vom
1 1
p(1 p)
n1 n2
compara cu valoarea prag z corespunzătoare nivelului de semnificaţie ales. Mai precis,
vom putea respinge ipoteza nulă doar dacă vom constata că z z .
Să ne alegem un nivel de semnificaţie 0.01 . Valoarea prag z va fi obţinută în Excel
prin formula
=NORMSINV(0.99)
plasată întro celulă oarecare. (Atenţie, 0.99 este 1 .) Ar trebui să o găsim 2.326.
Copiaţi întreaga foaie de calcul „Conting” întro foaie nouă, denumită „ZTest”. Plasaţi aici
în celula E2 inscripţia „Frecvenţe relative” iar dedesubt afişaţi conţinutul celulelor cu 4
zecimale (numeric, nu în procente).
Plasaţi în celula A7 inscripţia „Nivelul de semnificaţie”, iar în celula B7 numărul 0.01. În
continuare, plasaţi în celula C7 inscripţia „Valoarea prag”, iar în celula D7 formula
=NORMSINV(1-B7)
De asemenea, plasaţi în celula E7 inscripţia „Valoarea statisticii”, iar în celula F7
formula de calcul:
=(E3-E4)/SQRT(E5*(1-E5)*(1/D3+1/D4))
În sfârşit, în celula A8 plasaţi, aliniată la stânga, formula logică:
=IF(F7>D7,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificaţi acum nivelul de semnificaţie, în celula B7, la 0.05. Ce se întâmplă?
Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că fumatul în continuare
are efect negativ asupra ratei de supravieţuire a pacienţilor ce au suferit un atac de cord.
74
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
Totuşi, cu nivelul de semnificaţie mai mic, de doar 1%, această concluzie nu mai este
susţinută de datele din eşantioane.
Putem afla oare nivelul de semnificaţie „limită” pentru care concluzia este susţinută de
datele din eşantioane?
Plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei alternative)”, iar în
celula B9 formula
=1-NORMSDIST(F7)
Ar trebui să obţineţi 4.08%.
Copiaţi acum întreg conţinutul foii de calcul „ZTest” în altă foaie de calcul, pe care o veţi
redenumi „Catecolamina”.
Modificaţi aici conţinutul tabelului din A2:D5, aşa încât să apară astfel:
Afectiuni cardice Afectiuni cardice Total
prezente absente
Nivel de catecolamină crescut 24 90 ?
Nivel de catecolamină scăzut 41 416 ?
Total ? ? ?
Este vorba despre rezultatul unui studiu referitor la testarea relaţiei existente între nivelul
de catecolamină crescut şi existenţa afecţiunilor cardiace. Se poate afirma că un nivel de
catecolamină crescut poate fi asociat bolilor cardiovasculare? (Se va alege ca nivel de
semnificaţie 0.05 .) Care este „valoarea p” a acestei afirmaţii?
Să reluăm afirmaţia „fumatul este ASOCIAT CU decesul timpuriu, după un prim atac de
cord”. Ea poate fi confirmată cu ajutorul unui test hi-pătrat DE SEMNIFICAŢIE.
În Excel calculele necesare confirmării vor exploata tabelul de contingenţă (din domeniul
B3:C4 (care, reamintim, conţine „datele observate”). Acest tabel are două rânduri şi două
coloane. Prin urmare, numărul gradelor de libertate este (2–1) (2–1) = 1.
Copiați tabelul de pe foaia „ZTest” pe o foaie nouă, unica foaie de calcul din fişierul
nume_HIPATRAT.xls. Redenumiți „ChisqTest” această foaie.
Preluaţi, de asemenea, o copie a rândurilor 7:8 de pe foaia „ZTest” pe foaia „ChisqTest”.
Aceste rânduri conţin nivelul de semnificaţie, valoarea prag, valoarea statisticii, precum şi
formula de „calcul” a deciziei de a respinge sau nu ipoteza nulă.
Formula de calcul a valorii prag, din celula B9, a fost pregătită pentru testul Z; ea trebuie
adaptată pentru testul hi pătrat. Aşadar, o veţi modifica în
=CHIINV(B7, 1)
Rămâne doar să adaptăm statistica pe care o folosim şi care de data aceasta este cea a lui
2
2 N Nr N c
Pearson X N rc , unde N r sunt totalurile pe linii, N c sunt
r c Nr N c N
totalurile pe coloane, iar N este totalul general. Aceste totaluri au fost calculate pe coloana
D şi pe rândul 5.
Formula pe care ar trebui să o plasăm în celula F9 este destul de complicată. Ar fi de
N N c
preferat calculul preliminar al expresiilor r , pe care l-am putea efectua de exemplu în
N
domeniul F3:G4, prin formula
75
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
=$D3*B$5/$D$5
şi analoagele ei.
2
N Nr N c
Ar urma calculul preliminar al termenilor N rc , pe care l-am putea
Nr N c N
efectua de exemplu în domeniul I3:J4, prin formula
=1/F3*(B3-F3)^2
şi analoagele ei.
Acestea fiind calculate, formula din celula B9 devine o simplă însumare:
=SUM(I3:J4)
iar concluzia privind confirmarea afirmaţiei (prin respingerea ipotezei nule) apare automat în
celula A8.
Ar fi interesant să plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei
alternative)”, iar în celula B9 formula de calcul, care în cazul acestui test hi pătrat devine
=CHITEST(B3:C4,F3:G4)
Ar trebui să obţineţi o valoare dublă faţă de valoarea pe care aţi obţinut-o (pentru acelaşi
nivel de semnificaţie ales), în celula A9 de pe foaia „ZTest”. Aveţi o explicaţie pentru
această „coincidenţă”?
Testul hi-patrat (chi-square) este folosit pentru verificarea existenţei unei asocieri statistice
între 2 variabile de tip calitativ sau categorial (Nominal şi Ordinal).
76
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
77
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
cat * 571 100.0% 0 .0% 571 100.0%
chd
Chi-Square Tests
Exact
Sig.
(2- Exact Sig.
Value df Asymp. Sig. (2-sided) sided) (1-sided)
a
Pearson Chi- 13.201 1 .000
Square
Continuity 12.030 1 .001
b
Correction
Likelihood Ratio 11.535 1 .001
Fisher's Exact .001 .001
Test
Linear-by-Linear 13.178 1 .000
Association
N of Valid Cases 571
a. 0 cells (.0%) have expected count less than 5. The minimum expected count
is 12.98.
b. Computed only for a 2x2 table
Risk Estimate
95% Confidence Interval
Value Lower Upper
Odds Ratio for 2.706 1.557 4.703
cat (0 / 1)
For cohort chd = 1.153 1.044 1.273
0
For cohort chd = .426 .269 .675
1
N of Valid Cases 571
Pentru interpretarea rezultatelor vom folosi rezultatele din tabelul „Chi-Square Tests”. În
acest tabel sunt date valorile statisticilor testelor (Value), gradele de libertate asociate (df) şi
valorile p sau p_value (Asymp. Sig. (2-sided), Exact Sig. (2-sided), Exact Sig. (1-sided))
78
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
Din acest tabel ne interesează să citim şi să interpretăm doar valoarea probabilităţii de apariţie
a datelor observate sau p_value pentru testul pe care decidem să-l folosim.
Se poate observa că sunt îndeplinite condiţiile testului hi-pătrat obişnuit (Pearson Chi-
Square): „0 cells (.0%) have expected count less than 5. The minimum expected count is
12.98.” la subsolul tabelului „Chi-Square Tests”.
P_value este în acest caz 0.000 deci concluzia este că putem să asociem variabilele cat şi chd
(există o puternică evidenţă pentru asociere - deci respingem ipoteza nulă.
O problema în interpretarea restului de rezultate (Risk Estimate) afişat în fereastra de ieşire
ar fi faptul că cele 2 variabile care construiesc tabelul de contingenţă (cat * chd
Crosstabulation) au valorile 0 şi respectiv 1 ceea ce conduce la construcţia tabelului cu
prima coloana chd=0 şi prima linie cat=0.
Este nevoie să recodificăm cele două variabile astfel încât tabelul de contingenţă să aibă pe
prima coloană chd=1 şi prima linie cat=1 (prima coloană în tabelul de contingenţă reprezintă
prezenţa bolii şi prima linie reprezintă prezenţa expunerii.)
Pentru recodificarea variabielei “Cat” vom folosi recodificarea automată care se poate face
folosind secvenţa de comenzi Transform Automatic Recode…
În fereastra “Automatic Recode” vom selecta variabila “Cat” în secţiunea “Variable->New
Name” şi la “New Name” vom introduce noul nume pentru variabila recodificată, aici
“Cat12” după care cu ajutorul butonului “Add New Name” aceasta va fi adăugată în
secţiunea “Variable->New Name”. Înainte de a finaliza recodificarea va trebui să alegem în
secţiunea “Recode Starting from” opţiunea “Highest value”.
Rezultatul va fi următorul:
AUTORECODE VARIABLES=cat
/INTO cat12
/DESCENDING
/PRINT.
cat into cat12
Old Value New Value Value Label
1 1 1
0 2 0
79
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
cat12 * 571 100.0% 0 .0% 571 100.0%
chd12
Chi-Square Tests
Asymp. Sig. Exact Sig. (2- Exact Sig. (1-
Value df (2-sided) sided) sided)
a
Pearson Chi-Square 13.201 1 .000
b
Continuity Correction 12.030 1 .001
Likelihood Ratio 11.535 1 .001
Fisher's Exact Test .001 .001
Linear-by-Linear Association 13.178 1 .000
N of Valid Cases 571
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.98.
b. Computed only for a 2x2 table
Risk Estimate
95% Confidence
Interval
Value Lower Upper
Odds Ratio for cat12 (1 / 0) 2.706 1.557 4.703
For cohort chd12 =1 2.347 1.481 3.717
For cohort chd12 =0 .867 .785 .958
N of Valid Cases 571
Din tabelul (Risk Estimate) ne interesează să citim şi să interpretăm doar pentru “Odds Ratio
for cat12 (1 / 0)” sau OR şi “For cohort chd12 =1” sau RR.
80
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
Testul exact Fisher este analog testului hi-pătrat şi este de asemenea folosit pentru
verificarea existenţei unei asocieri statistice între 2 variabile de tip calitativ sau categorial
(Nominal şi Ordinal).
Testul exact Fisher se poate folosi în situaţiile în care testul hi-pătrat nu poate fi aplicat adică
pentru eşantioane mici sub 20 de participanţi (n < 20). Deşi se poate folosi pentru orice
eşantion se preferă utilizarea sa doar pentru cazul eşantioanelor mici.
Vom deschide fişierul care conţine datele pentru testul Fisher: File Open Data… ….
selectarea folderului unde se află datele şi a fişierului Date_spss.xls în caseta “Look in” şi a
tipului Excel (*.xls, *xlsx, *.xlsm) în caseta “Files of type” din fereastra “Open Data”…
Open. Se va alege fişierul “Date_spss.xls”. În caseta “Opening Excel Data Source” trebuie
să fie bifat “Read variable names from first row of data”, Worksheet: malnutritie…
OK.
Pentru verificarea asocierii variabilelor malnutritie şi anemie se foloseşte secvenţa de comenzi
Analyze Descriptive Statistics Crosstabs… selectând în fereastra “Crosstabs” la
Row(s): malnutritie şi la Column(s): anemie. În această fereastră la butonul “Statistics…” se
bifează “Chi-square” şi “Risk” iar la butonul “Cells…” se bifează în secţiunea “Counts”
opţiunea “Observed” iar în sectiunea “Percentages” opţiunea “Column“.
Ipoteza nulă: Nu există asociere între malnutritie şi anemie (Procentul de persoane cu
malnutriţie este acelaşi atât pentru persoanele cu anemie: anemie =Da cât şi pentru
persoanele fără anemie: anemie=Nu).
Ipoteza alternativă: Există asociere între malnutritie şi anemie.
Rezultatele sunt următoarele:
CROSSTABS
/TABLES=Malnutritie BY Anemie
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ RISK
/CELLS=COUNT COLUMN
/COUNT ROUND CELL.
Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Malnutritie * Anemie 32 100.0% 0 .0% 32 100.0%
81
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Anemie
Da Nu Total
Malnutritie Da Count 6 2 8
% within Anemie 40.0% 11.8% 25.0%
Nu Count 9 15 24
% within Anemie 60.0% 88.2% 75.0%
Total Count 15 17 32
% within Anemie 100.0% 100.0% 100.0%
Chi-Square Tests
Value df Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided)
a
Pearson Chi-Square 3.388 1 .066
b
Continuity Correction 2.050 1 .152
Likelihood Ratio 3.484 1 .062
Fisher's Exact Test .106 .076
N of Valid Cases 32
a. 2 cells (50.0%) have expected count less than 5. The minimum expected count is 3.75.
b. Computed only for a 2x2 table
Risk Estimate
95% Confidence Interval
Value Lower Upper
Odds Ratio for Malnutritie (Da / Nu) 5.000 .826 30.281
For cohort Anemie = Da 2.000 1.041 3.844
For cohort Anemie = Nu .400 .116 1.382
N of Valid Cases 32
Din tabelul (Chi-Square Tests) ne interesează să citim şi să interpretăm doar valoarea probabilităţii
de apariţie a datelor observate sau p_value pentru testul pe care decidem sa îl folosim.
Se poate observa că NU sunt îndeplinite condiţiile testului hi-pătrat obişnuit (Pearson Chi-
Square): „2 cells (50.0%) have expected count less than 5. The minimum expected count
is 3.75” la subsolul tabelului „Chi-Square Tests”. Vom folosi valoarea p sau p-value de la
testul exact Fisher bilateral.
P_value este în acest caz 0.106 deci concluzia este că nu putem să asociem variabilele
malnutritie şi anemie (nu există o evidenţă pentru asociere - deci acceptăm ipoteza nulă)
adică %pacienţi cu malnutritie=Da nu diferă semnificativ între persoanele cu anemie=Da
(40.0% în tabelul Chi-Square Tests) şi cele cu anemie=0 (11.8% în tabelul Chi-Square
Tests).
În tabelul (Risk Estimate) ne interesează să citim şi să interpretăm doar pentru “Odds Ratio
for Malnutritie (Da / Nu)” sau OR şi “For cohort Anemie = Da” sau RR.
Intervalele de încredere pentru OR şi RR sunt calculate pentru estimarea acestor valori în
populaţia din care a fost extras eşantionul şi conţin în interior valoarea 1. Deci, la nivelul
populaţiei având valori în interval mai mari decât 1 pentru OR (respectiv RR) dar şi mai mici
decât 1 putem să tragem concluzia că avem factor indiferent. Deci expunerea (malnutritie
=Da) este un factor indiferent pentru persoanele cu anemie (anemie=Da).
Salvaţi datele în fişierul nume_26.spv
82
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Lucrarea practică 8
Indicaţii generale:
Regresia liniară simplă şi multiplă este o metodă de analiză statistică care
construieşte o relaţie între una sau mai multe variabile predictor şi o variabilă rezultat de
tip continuu. Predictorii sau variabilele independente pot fi orice variabile de tip continuu
sau calitativ. Rezultatul este o variabila de tip continuu.
În metoda regresiei se presupune că variabilele predictor (demografice, clinice şi de
confuzie) sunt asociate (în relaţie) cu rezultatul. O condiţie esenţială în regresie este ca
rezultatul să fie distribuit în mod normal. Variabilele predictor (demografice, clinice şi de
confuzie) pot fi introduse într-un model simultan (toate împreună în acelaşi timp), pas cu
pas (se alege cel mai bun grup de variabile care sunt în relaţie cu rezultatul) , sau ierarhic
(se alege ordinea de intrare în model). Prin regresie se obţine algoritm (formula) prin care
poate prezice un rezultat de tip continuu.
Corelaţia Pearson R este o metodă de analiză statistică care măsoară asocierea sau
puterea unei relaţii între 2 variabile cantitative. Este cea mai populară metoda de corelare.
Coeficientul de corelaţie Pearson's nu este indicat să se calculeze pe date care care conţin
valori aberante. Înainte de a calcula acest coeficient, trebuie verificată normalitatea
variabilelor continue folosind statistici referitoare la skewness şi kurtosis. Valorile
aberante (outliers) pot influenţa semnificativ coeficientul de corelaţie Pearson. Coeficientul
de determinare este calculat ca o măsură a mărimii efectului (arată procentul în care
modelul liniar explică din datele observate) şi este pur şi simplu valoarea coeficientului de
corelaţie ridicată la pătrat. Coeficientul de corelaţie însoţeşte adesea ecuaţiile de regresie.
În această lucrare practică veţi exemplifica diverse situaţii în care s-ar putea obţine
modele de regresie încercând validarea lor pentru a fi folosite în prognoze.
Teme
specială: coeficienţi de corelaţie în Excel
27: linii de tendinţă în Excel
28: regresia liniară cu SPSS
29: corelaţie cu SPSS
83
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020
85
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020
25
20
15
10
0
0 5 10 15 20 25 30
Vârsta (ani)
Inseraţi pe diagramă dreapta de tendinţă liniară (se mai numeşte şi dreapta de regresie).
Este vizibil că dreapta de tendinţă liniară nu ajustează bine datele. În schimb, o curbă
parabolică (tendinţă polinomială de gradul 2) are un coeficient de determinaţie foarte bun
(0.961) şi poate fi folosită pentru a efectua „prognoze”. Curba ne sugerează inversarea la
vârsta de 18 ani a tendinţei de creştere a nivelului steroizilor.
Ce nivel al steroizilor ne aşteptăm să găsim la persoanele în vârstă de 21 şi 24 ani? Este
utilă curba pentru a prognoza nivelul steroizilor la persoanele în vârstă de 40 ani?
Părerea nutriţioniştilor este că masa musculară, la persoanele de sex feminin şi vârstă
înaintată, descreşte odată cu vârsta. Datele de care dispunem, măsurate de un nutriţionist
pentru 16 persoane de sex feminin, sunt următoarele.
vârsta 71 64 43 67 56 73 68 56 76 65 45 58 45 53 49 78
masa musc. 41 45 50 34 43 36 39 40 32 42 58 38 48 50 52 38
Putem estima masa musculară medie pentru o femeie de 60 de ani? Putem accepta
părerea nutriţioniştilor?
Adăugaţi masa musculară evaluată de d-voastră pentru alte două persoane, şi încercaţi
să interpretaţi datele obţinute prin regresie liniară simplă şi prin regresie neliniară. Plasaţi
datele din cele două tabele anterioare, explicaţiile despre ele şi diagramele obţinute întrun
document denumit nume_REGRESII.docx.
87
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020
Regression
[DataSet1]
Descriptive Statistics
Mean Std. Deviation N
Brain weight 1282.87 120.340 237
Head size 3633.99 365.261 237
Correlations
Brain weight Head size
Pearson Correlation Brain weight 1.000 .800
Head size .800 1.000
Sig. (1-tailed) Brain weight . .000
Head size .000 .
N Brain weight 237 237
Head size 237 237
88
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
b
Variables Entered/Removed
Model Variables Entered Variables Removed Method
a
1 Head size . Enter
a. All requested variables entered.
b. Dependent Variable: Brain weight
b
Model Summary
Durbin-
Model R R Square Adjusted R Square Std. Error of the Estimate Watson
a
1 .800 .639 .638 72.427 1.843
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight
b
ANOVA
Sum of
Model Squares df Mean Square F Sig.
a
1 Regression 2184982.188 1 2184982.188 416.532 .000
Residual 1232728.015 235 5245.651
Total 3417710.203 236
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight
a
Coefficients
95.0%
Unstandardized Standardized Confidence Collinearity
Coefficients Coefficients Interval for B Statistics
Std. Lower Upper
Model B Error Beta t Sig. Bound Bound Tolerance VIF
1 (Constant) 325.573 47.141 6.906 .000 232.701 418.446
Head size .263 .013 .800 20.409 .000 .238 .289 1.000 1.000
a. Dependent Variable: Brain weight
a
Collinearity Diagnostics
Variance Proportions
Model Dimension Eigenvalue Condition Index (Constant) Head size
1 1 1.995 1.000 .00 .00
2 .005 19.990 1.00 1.00
a. Dependent Variable: Brain weight
a
Casewise Diagnostics
Case Number Std. Residual Brain weight Predicted Value Residual
5 2.265 1590 1425.92 164.082
19 2.749 1340 1140.89 199.113
44 3.346 1570 1327.66 242.341
63 -2.288 1330 1495.73 -165.727
65 2.245 1470 1307.37 162.625
96 -2.155 1165 1321.07 -156.073
103 3.333 1588 1346.63 241.374
122 -2.430 1256 1431.98 -175.977
162 2.747 1520 1321.07 198.927
163 2.758 1460 1260.22 199.779
a. Dependent Variable: Brain weight
89
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020
a
Residuals Statistics
Minimum Maximum Mean Std. Deviation N
Predicted Value 1042.10 1576.07 1282.87 96.221 237
Std. Predicted Value -2.502 3.047 .000 1.000 237
Standard Error of Predicted Value 4.705 15.117 6.382 1.885 237
Adjusted Predicted Value 1044.86 1573.39 1282.91 96.199 237
Residual -175.977 242.341 .000 72.273 237
Std. Residual -2.430 3.346 .000 .998 237
Stud. Residual -2.447 3.355 .000 1.002 237
Deleted Residual -178.547 243.593 -.034 72.908 237
Stud. Deleted Residual -2.474 3.431 .001 1.008 237
Mahal. Distance .000 9.285 .996 1.362 237
Cook's Distance .000 .069 .004 .008 237
Centered Leverage Value .000 .039 .004 .006 237
a. Dependent Variable: Brain weight
Charts
Este necesară testarea unor condiţii înainte de aplicarea metodei regresiei liniare! Din
rezultatele obţinute de programul SPSS vom sublinia tabelele şi părţi de tabele care ne ajută să
verificăm aceste condiţii.
C1: Relaţia dintre predictori şi rezultat este liniară.
C2: Nu există multicoliniaritate în date (Predictorii nu sunt puternic corelaţi unul cu celalalt!)
Pentru a verifica această condiţie vom verifica în tabelul „Correlations” corelaţiile dintre
predictori. Corelaţiile mai mari de 0.8 pot fi problematice. Dacă apar se impune eliminarea
acelui predictor! În cazul nostru avem un singur predictor şi anume headsize, deci nu se
pune problema neîndeplinirii condiţiei.
90
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Correlations
Brain weight Head size
Pearson Correlation Brain weight 1.000 .800
Head size .800 1.000
Sig. (1-tailed) Brain weight . .000
Head size .000 .
N Brain weight 237 237
Head size 237 237
De asemenea, pentru ca această condiţie să fie îndeplinită trebuie ca scorurile VIF să fie sub
10, iar scorurile de toleranţă (Tolerance) să fie peste 0.2 din tabelul „Coefficients”:
a
Coefficients
Unstandardized Standardized 95.0% Confidence Collinearity
Coefficients Coefficients Interval for B Statistics
Lower Upper
Model B Std. Error Beta t Sig. Bound Bound Tolerance VIF
1 (Constant) 325.573 47.141 6.906 .000 232.701 418.446
Head size .263 .013 .800 20.409 .000 .238 .289 1.000 1.000
a. Dependent Variable: Brain weight
91
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020
Tabelul “Casewise Diagnostics” conţine valorile observate pentru rezultat (Brain weight),
valorile prezise de model (Predicted Value), diferenţa dintre acestea sau reziduurile
(Residual) şi rezidurile standardizate (Std. Residual). Sunt listate doar cazurile (Case
Number) care au valorile residuurilor standardizate peste valoarea 2 sau sub valoarea -2.
92
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
Numărul acestora ar trebui să fie în jur de 5% din date. Avem un eşantion de 237 de cazuri iar
în tabelul “Casewise Diagnostics” avem 10 cazuri ceea ce înseamnă aproximativ 4.2%.
a
Casewise Diagnostics
Case Number Std. Residual Brain weight Predicted Value Residual
5 2.265 1590 1425.92 164.082
19 2.749 1340 1140.89 199.113
44 3.346 1570 1327.66 242.341
63 -2.288 1330 1495.73 -165.727
65 2.245 1470 1307.37 162.625
96 -2.155 1165 1321.07 -156.073
103 3.333 1588 1346.63 241.374
122 -2.430 1256 1431.98 -175.977
162 2.747 1520 1321.07 198.927
163 2.758 1460 1260.22 199.779
a. Dependent Variable: Brain weight
Pentru interpretarea rezultatelor vom folosi rezultatele din tabelele „Model Summary”,
„ANOVA” şi „Coefficients”.
În tabelul „Model Summary” sunt date valorile coeficientului de corelaţie (R), coeficientul
de determinare sau pătratul coeficientului de corelaţie (R Square), o valoare ajustată în
funcţie de numărul de variabile din model a coeficientului de determinare (Adjusted R
Square) şi eroarea standard pentru estimaţia valorii ajustate a coeficientului de determinare
(Std. Error of the Estimate) şi statistica Durbin-Watson folosită la testarea condiţiilor
modelului.
Din acest tabel ne interesează să citim şi să interpretăm valoarea coeficientului de corelaţie
care indică cât de bun este modelul (o valoare peste 0.8 indicând un model foarte bun),
coeficientul de determinare care arată procentul în care modelul explică datele observate
(aproximativ 64% în cazul nostru), valoarea ajustată în funcţie de numărul de variabile din
model a coeficientului de determinare (în cazul nostru coincid).
b
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson
a
1 .800 .639 .638 72.427 1.843
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight
Din tabelul „ANOVA” ne interesează să citim şi să interpretăm valoarea p sau p-value (Sig.).
Testul din tabelul „ANOVA” este un test general pentru toate variabilele predictor şi verifică
dacă există (per ansamblu) variabile predictor care influenţează rezultatul. O valoare p (Sig.)
mai mare decât 0.05 înseamnă că modelul nu este semnificativ şi nici una din variabile
predictor nu influenţează rezultatul.
b
ANOVA
Model Sum of Squares df Mean Square F Sig.
a
1 Regression 2184982.188 1 2184982.188 416.532 0.000
Residual 1232728.015 235 5245.651
Total 3417710.203 236
a. Predictors: (Constant), Head size
b. Dependent Variable: Brain weight
a
Coefficients
Unstandardized Standardized 95.0% Confidence Collinearity
Coefficients Coefficients Interval for B Statistics
Lower Upper
Model B Std. Error Beta t Sig. Bound Bound Tolerance VIF
1 (Constant) 325.573 47.141 6.906 .000 232.701 418.446
Head size .263 .013 .800 20.409 .000 .238 .289 1.000 1.000
a. Dependent Variable: Brain weight
GRAPH
/SCATTERPLOT(BIVAR)=Headsize WITH Brainweight
/MISSING=LISTWISE.
Graph
Pentru afişarea ecuaţiei de regresie şi a liniei de regresie pe graficul obţinut se foloseşte dublu
click. Rezultatul este apariţia unei ferestrei de dialog “Chart Editor” în meniul căreia la
“Elements” se alege opţiunea “Fit Line at Total”.
94
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
95
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 8 2019/2020
Vom deschide fişierul urimf: File Open Data… …. selectarea folderului unde se
află datele şi a fişierului Date_spss.xls în caseta “Look in” şi a tipului Excel (*.xls, *xlsx,
*.xlsm) în caseta “Files of type” din fereastra “Open Data”… Open. Se va alege fişierul
96
MG - Lucrarea practică 8 2014/2015 UMF “Carol Davila” – Informatică Medicală şi Biostatistică
“Date_spss.xls”. în caseta “Opening Excel Data Source” trebuie să fie bifat “Read variable
names from first row of data”, Worksheet: urimf4… OK.
Pentru obţinerea coeficienţilor de corelaţie folosim Analyze Corellate Bivariate…
selectând în fereastra “Bivariate Corellations” la Variables: hb, ht, leuc, limf, vsh,
coeficientul de corelaţie care ne interesează aici fiind Pearson - “Corellation Coeficients”:
Pearson.
Rezultatele sunt următoarele:
CORRELATIONS
/VARIABLES=HB HT LEUC LIMF VSH
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
Correlations
[DataSet1]
Correlations
HB HT LEUC LIMF VSH
** ** ** **
HB Pearson Correlation 1 .959 -.146 .212 -.510
Sig. (2-tailed) .000 .000 .000 .000
N 1402 1397 1396 1371 1390
** ** ** **
HT Pearson Correlation .959 1 -.128 .199 -.506
Sig. (2-tailed) .000 .000 .000 .000
N 1397 1397 1391 1366 1385
** ** ** **
LEUC Pearson Correlation -.146 -.128 1 -.349 .253
Sig. (2-tailed) .000 .000 .000 .000
N 1396 1391 1399 1371 1388
** ** ** **
LIMF Pearson Correlation .212 .199 -.349 1 -.275
Sig. (2-tailed) .000 .000 .000 .000
N 1371 1366 1371 1373 1362
** ** ** **
VSH Pearson Correlation -.510 -.506 .253 -.275 1
Sig. (2-tailed) .000 .000 .000 .000
N 1390 1385 1388 1362 1393
**. Correlation is significant at the 0.01 level (2-tailed).
Tabelul „Correlations” este de fapt o matrice a corelaţiilor între variabilele selectate, partea
de deasupra diagonalei principale fiind simetrică părţii de sub această diagonală. În acest tabel
se indică pentru fiecare pereche de variabile coeficientul de corelaţie Pearson (Pearson
Correlation), valoarea p sau p-value pentru testul de egalitate al acestui coeficient cu 0 (Sig.
(2-tailed)) şi numărul de cazuri pentru care am avut valori pentru ambele variabile sau
numărul de valori folosite în calculul acestui coeficient de corelatie (N).
Pentru hb şi ht coeficientul de corelaţie Pearson este 0.959, o valoare pozitivă (indicând
corelaţie pozitivă – când una din variabile creşte ca valoare şi cealaltă creşte ca valoare),
apropiată de 1 (corelaţie foarte bună sau înaltă), semnificativă statistic (Sig. (2-tailed)=0.000),
calculată pentru 1397 cazuri.
Pentru ht şi leuc coeficientul de corelaţie Pearson este -0.128, o valoare negativă (indicând
corelaţie negativă – când una din variabile creşte ca valoare şi cealaltă scade ca valoare),
apropiată mai mult de 0 (corelaţie foarte slabă), semnificativă statistic (Sig. (2-tailed)=0.000),
calculată pentru 1391 cazuri.
Salvaţi datele în fişierul nume_29.spv
97