Sunteți pe pagina 1din 11

UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

Lucrarea practică 7
Indicaţii generale:
Afirmaţii de tipul „fumatul este asociat cu decesul timpuriu, după un prim atac de
cord”, făcute în urma comparării unor proporţii calculate cu date obţinute din eşantioane
„reprezentative”, pot fi confirmate statistic prin teste hi pătrat (care în asemenea situaţii
sunt considerate ca teste de semnificaţie statistică, şi nu ca teste de bonitate).
Aplicaţiile statistice (SPSS, Epi Info, …) au evident implementate module pentru
efectuarea directă a calculelor necesare. Dar rezultatele pot fi obţinute şi cu ajutorul
aplicaţiei Excel, controlând în mod corespunzător desfăşurarea calculelor.

În această lucrare practică:


a) veţi exersa modul de obţinere a tabelelor de contingenţă din datele primare,
atât în Excel, cât şi în SPSS;
b) veţi aplica teste Z şi hi pătrat pe tabele de contingenţă simple în Excel;
c) veţi învăţa să lucraţi cu opţiunea Crosstabs din SPSS, opţiune dedicată
obţinerii tabelelor de contingenţă şi a rezultatelor conexe.

Teme
24: tabele de contingenţă în Excel
25: testul hi pătrat în Excel
26: testul hi-pătrat şi Fisher exact în SPSS

Softul ce va fi utilizat în lucrarea practică:


Excel, SPSS

72
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Tema 24: tabele de contingenţă în Excel

Riscul apariţiei unei maladii (sau riscul de deces) este raportul între numărul de
„evenimente” ce apar întro perioadă de timp specificată (de obicei un an) şi numărul de
indivizi luaţi în considerare (respectiv aflaţi în viaţă) la începutul perioadei.
Tabelul următor, întocmit pentru compararea riscurilor, conţine date privind mortalitatea
la doi ani după primul atac de cord suferit de fumători. (Sursa: Daly, Bourke and McGilvray,
pag. 184.)
Supravieţuirea la 2 ani Total
Decedaţi În viaţă
au continuat să fumeze 19 135 154
n-au mai fumat 15 199 214
Total 34 334 368
Acesta este un exemplu tipic de tabel de contingenţă (de tipul 2 2, adică două linii, două
coloane), bordat cu o linie şi o coloană a totalurilor.
Datele primare nu se prezintă însă în acest fel. Preluaţi fişierul LP07_1.xls pentru a vedea
cum sunt înregistrate datele primare. Dacă deschidem fişierul cu Excel, atunci vom folosi de
patru ori (pe patru coloane) însumarea rezultatelor date de funcţia logică IF, condiţiile
logice fiind de forma AND(C2=FALSE,D2=TRUE) şi analoagele.
Preluaţi cele 368 de înregistrări pe o primă foaie de calcul a fişierului nume_CALCULE,
foaie pe care o veţi denumi „Primare”.
Creaţi tabelul de mai sus pe a doua foaie de calcul, de exemplu în domeniul A1:D5
(având grijă să denumiţi această foaie de calcul „Conting”)
Calculaţi în coloana E rata deceselor. (Astfel, pentru întreg lotul de pacienţi, în celula E5
vom plasa formula „=B5/D5” şi vom obţine rata de 9.24%; pentru cei ce au continuat să
fumeze, în celula E3 vom plasa formula „=B3/D3” şi vom obţine rata de 12.34%, iar pentru
cei ce n-au mai fumat, în celula E4 vom obţine rata 7.01%. Evident, ar fi de dorit să plasaţi
în celula E2 un text explicativ, ca de exemplu „Rata deceselor”)
Se va observa o creştere a ratei deceselor în cazul celor ce au continuat să fumeze,
comparativ cu cazul celor care n-au mai fumat. Oare această creştere este „semnificativă”?
Pentru a răspunde la întrebări de acest fel va fi obligatoriu să precizăm „nivelul de
semnificaţie”, altfel răspunsurile sunt lipsite de conţinut.
Să alegem nivelul de semnificaţie uzual 0.05 . Afirmaţia că „fumatul este ASOCIAT
CU decesul timpuriu, după un prim atac de cord” poate fi confirmată (dar nu respinsă!) cu
ajutorul unui test de semnificaţie bazat pe acest nivel de semnificaţie şi pe o anumită
distribuţie hi-pătrat (anume cea cu un singur grad de libertate). Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=CHIINV(0.05, 1)
şi va avea valoarea aproximativ 3.84. Oare este el depăşit?
Atenţie, apelând funcţia CHIINV ni se oferă explicaţii detaliate în caseta de folosire a
funcţiei. (Întrebare: este confirmată afirmaţia?)
Afirmaţia că „fumatul este O CAUZĂ A decesului timpuriu, după un prim atac de cord”
poate fi confirmată cu ajutorul unui alt test de semnificaţie bazat pe nivelul de semnificaţie
ales şi pe o anumită distribuţie, normală standard de data aceasta. Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=NORMSINV(1–0.05)
şi va avea valoarea aproximativ 1.64. Oare este el depăşit?

73
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

Vom încerca să confirmăm ultima afirmaţie („este cauză”) prin efectuarea unui test de
semnificaţie. Compararea celor două populaţii, anume a celor care „n-au mai fumat”,
respectiv a celor care „au continuat să fumeze” se va face la nivelul proporţiilor riscurilor de
deces.
„Ipoteza nulă”, pe care încercăm să o „respingem” în urma efectuării testului de
semnificaţie, este următoarea
1 2
şi ea exprimă faptul că cele două proporţii „nu diferă semnificativ” una de alta. Ipoteza
alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule, este următoarea:
1 2.
Evident, ea exprimă faptul că riscul de deces este mai mare pentru cei care „continuă să
fumeze”.
Proporţiile riscurilor de deces sunt estimate prin frecvenţele relative observate,
p1 0.1234 , p2 0.0701, calculate pe baza datelor din eşantioane. Ele sunt în concordanţă
cu ipoteza alternativă!
(Este important să facem această observaţie! Căci în cazul în care frecvenţele relative
observate nu erau în concordanţă cu ipoteza alternativă, am fi confirmat o altă afirmaţie!)
Avem nevoie şi de riscul de deces pentru întreaga populaţie, uşor de calculat
34
p 9.24% . De asemenea, trebuie să reţinem şi „volumele eşantioanelor”, n1 154 ,
368
n2 214 .
p2 p1
Statistica pe care o folosim este z iar valoarea obţinută o vom
1 1
p(1 p)
n1 n2
compara cu valoarea prag z corespunzătoare nivelului de semnificaţie ales. Mai precis,
vom putea respinge ipoteza nulă doar dacă vom constata că z z .
Să ne alegem un nivel de semnificaţie 0.01 . Valoarea prag z va fi obţinută în Excel
prin formula
=NORMSINV(0.99)
plasată întro celulă oarecare. (Atenţie, 0.99 este 1 .) Ar trebui să o găsim 2.326.
Copiaţi întreaga foaie de calcul „Conting” întro foaie nouă, denumită „ZTest”. Plasaţi aici
în celula E2 inscripţia „Frecvenţe relative” iar dedesubt afişaţi conţinutul celulelor cu 4
zecimale (numeric, nu în procente).
Plasaţi în celula A7 inscripţia „Nivelul de semnificaţie”, iar în celula B7 numărul 0.01. În
continuare, plasaţi în celula C7 inscripţia „Valoarea prag”, iar în celula D7 formula
=NORMSINV(1-B7)
De asemenea, plasaţi în celula E7 inscripţia „Valoarea statisticii”, iar în celula F7
formula de calcul:
=(E3-E4)/SQRT(E5*(1-E5)*(1/D3+1/D4))
În sfârşit, în celula A8 plasaţi, aliniată la stânga, formula logică:
=IF(F7>D7,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificaţi acum nivelul de semnificaţie, în celula B7, la 0.05. Ce se întâmplă?
Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că fumatul în continuare
are efect negativ asupra ratei de supravieţuire a pacienţilor ce au suferit un atac de cord.

74
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Totuşi, cu nivelul de semnificaţie mai mic, de doar 1%, această concluzie nu mai este
susţinută de datele din eşantioane.
Putem afla oare nivelul de semnificaţie „limită” pentru care concluzia este susţinută de
datele din eşantioane?
Plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei alternative)”, iar în
celula B9 formula
=1-NORMSDIST(F7)
Ar trebui să obţineţi 4.08%.
Copiaţi acum întreg conţinutul foii de calcul „ZTest” în altă foaie de calcul, pe care o veţi
redenumi „Catecolamina”.
Modificaţi aici conţinutul tabelului din A2:D5, aşa încât să apară astfel:
Afectiuni cardice Afectiuni cardice Total
prezente absente
Nivel de catecolamină crescut 24 90 ?
Nivel de catecolamină scăzut 41 416 ?
Total ? ? ?
Este vorba despre rezultatul unui studiu referitor la testarea relaţiei existente între nivelul
de catecolamină crescut şi existenţa afecţiunilor cardiace. Se poate afirma că un nivel de
catecolamină crescut poate fi asociat bolilor cardiovasculare? (Se va alege ca nivel de
semnificaţie 0.05 .) Care este „valoarea p” a acestei afirmaţii?

Tema 25: testul hi pătrat în Excel

Să reluăm afirmaţia „fumatul este ASOCIAT CU decesul timpuriu, după un prim atac de
cord”. Ea poate fi confirmată cu ajutorul unui test hi-pătrat DE SEMNIFICAŢIE.
În Excel calculele necesare confirmării vor exploata tabelul de contingenţă (din domeniul
B3:C4 (care, reamintim, conţine „datele observate”). Acest tabel are două rânduri şi două
coloane. Prin urmare, numărul gradelor de libertate este (2–1) (2–1) = 1.
Copiați tabelul de pe foaia „ZTest” pe o foaie nouă, unica foaie de calcul din fişierul
nume_HIPATRAT.xls. Redenumiți „ChisqTest” această foaie.
Preluaţi, de asemenea, o copie a rândurilor 7:8 de pe foaia „ZTest” pe foaia „ChisqTest”.
Aceste rânduri conţin nivelul de semnificaţie, valoarea prag, valoarea statisticii, precum şi
formula de „calcul” a deciziei de a respinge sau nu ipoteza nulă.
Formula de calcul a valorii prag, din celula B9, a fost pregătită pentru testul Z; ea trebuie
adaptată pentru testul hi pătrat. Aşadar, o veţi modifica în
=CHIINV(B7, 1)
Rămâne doar să adaptăm statistica pe care o folosim şi care de data aceasta este cea a lui
2
2 N Nr N c
Pearson X N rc , unde N r sunt totalurile pe linii, N c sunt
r c Nr N c N
totalurile pe coloane, iar N este totalul general. Aceste totaluri au fost calculate pe coloana
D şi pe rândul 5.
Formula pe care ar trebui să o plasăm în celula F9 este destul de complicată. Ar fi de
N N c
preferat calculul preliminar al expresiilor r , pe care l-am putea efectua de exemplu în
N
domeniul F3:G4, prin formula
75
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

=$D3*B$5/$D$5
şi analoagele ei.
2
N Nr N c
Ar urma calculul preliminar al termenilor N rc , pe care l-am putea
Nr N c N
efectua de exemplu în domeniul I3:J4, prin formula
=1/F3*(B3-F3)^2
şi analoagele ei.
Acestea fiind calculate, formula din celula B9 devine o simplă însumare:
=SUM(I3:J4)
iar concluzia privind confirmarea afirmaţiei (prin respingerea ipotezei nule) apare automat în
celula A8.
Ar fi interesant să plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei
alternative)”, iar în celula B9 formula de calcul, care în cazul acestui test hi pătrat devine
=CHITEST(B3:C4,F3:G4)
Ar trebui să obţineţi o valoare dublă faţă de valoarea pe care aţi obţinut-o (pentru acelaşi
nivel de semnificaţie ales), în celula A9 de pe foaia „ZTest”. Aveţi o explicaţie pentru
această „coincidenţă”?

Tema 26: testul hi-pătrat şi Fisher exact în SPSS

Testul hi-patrat (chi-square) este folosit pentru verificarea existenţei unei asocieri statistice
între 2 variabile de tip calitativ sau categorial (Nominal şi Ordinal).

Revenim la exemplu cu catecolamina. Se doreşte verificarea faptului că variabilele Cat


(nivelul de catecolamină) şi Chd (persoanele cu afecţiuni cardiace) se pot asocia din punct de
vedere statistic.
Ipoteza nulă: Nu există asociere între Cat şi Chd (Distribuţia nivelului de catecolamină
este aceeaşi atât pentru persoanele cu afecţiuni cardiace: Chd =1 cât şi pentru persoanele
fără afecţiuni cardiace: Chd =0).
Ipoteza alternativă: Există asociere între Cat şi Chd.
Vom folosi testul hi-pătrat (chi-square) pentru verificarea existenţei acestei asocieri statistice.
Pentru ca acest test să fie valid trebuie îndeplinite anumite condiţii. Criteriul convenţional
pentru ca testul să fie valid este următorul: cel puţin 80% din frecvenţele estimate trebuie să
depăşească valoarea 5 şi toate frecvenţele estimate trebuie să depăşeasca valoarea 1. În cazul
în care nu sunt îndeplinite aceste condiţii există variante alternative. Una dintre acestea este
testul exact al lui Fisher.
Testul Fisher Exact este folosit în loc de hi-square atunci când există mai puţin de 5 observaţii
în oricare dintre cele patru celule ale tabelului 2x2 sau când dimensiunile eşantioanelor sunt
mai mici de 20 de participanţi (n = 20).

Pentru deschiderea fişierului care conţine datele reamintim:


File Open Data… …. selectarea folderului unde se află datele şi a fişierului
Date_spss.xls în caseta “Look in” şi a tipului Excel (*.xls, *xlsx, *.xlsm) în caseta “Files of
type” din fereastra “Open Data”… Open. Se va alege fişierul “Date_spss.xls”. În caseta
“Opening Excel Data Source” trebuie să fie bifat “Read variable names from first row of
data”, Worksheet: chd… OK.

76
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Pentru verificarea asocierii variabilelor Cat (nivelul de catecolamină) şi Chd (persoanele cu


afecţiuni cardiace) se foloseşte secvenţa de comenzi Analyze Descriptive Statistics
Crosstabs… selectând în fereastra “Crosstabs” la Row(s): Cat şi la Column(s): Chd. În
această fereastră la butonul “Statistics…” se bifează “Chi-square” şi “Risk” iar la butonul
“Cells…” se bifează în secţiunea “Counts” opţiunea “Observed” iar în secţiunea
“Percentages” opţiunea “Column“.

77
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

Rezultatele sunt următoarele:


CROSSTABS
/TABLES=cat BY chd
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ RISK
/CELLS=COUNT COLUMN
/COUNT ROUND CELL.

Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
cat * 571 100.0% 0 .0% 571 100.0%
chd

cat * chd Crosstabulation


chd
0 1 Total
cat 0 Count 416 41 457
% within chd 82.2% 63.1% 80.0%
1 Count 90 24 114
% within chd 17.8% 36.9% 20.0%
Total Count 506 65 571
% within chd 100.0% 100.0% 100.0%

Chi-Square Tests
Exact
Sig.
(2- Exact Sig.
Value df Asymp. Sig. (2-sided) sided) (1-sided)
a
Pearson Chi- 13.201 1 .000
Square
Continuity 12.030 1 .001
b
Correction
Likelihood Ratio 11.535 1 .001
Fisher's Exact .001 .001
Test
Linear-by-Linear 13.178 1 .000
Association
N of Valid Cases 571
a. 0 cells (.0%) have expected count less than 5. The minimum expected count
is 12.98.
b. Computed only for a 2x2 table

Risk Estimate
95% Confidence Interval
Value Lower Upper
Odds Ratio for 2.706 1.557 4.703
cat (0 / 1)
For cohort chd = 1.153 1.044 1.273
0
For cohort chd = .426 .269 .675
1
N of Valid Cases 571

Pentru interpretarea rezultatelor vom folosi rezultatele din tabelul „Chi-Square Tests”. În
acest tabel sunt date valorile statisticilor testelor (Value), gradele de libertate asociate (df) şi
valorile p sau p_value (Asymp. Sig. (2-sided), Exact Sig. (2-sided), Exact Sig. (1-sided))
78
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Din acest tabel ne interesează să citim şi să interpretăm doar valoarea probabilităţii de apariţie
a datelor observate sau p_value pentru testul pe care decidem să-l folosim.
Se poate observa că sunt îndeplinite condiţiile testului hi-pătrat obişnuit (Pearson Chi-
Square): „0 cells (.0%) have expected count less than 5. The minimum expected count is
12.98.” la subsolul tabelului „Chi-Square Tests”.
P_value este în acest caz 0.000 deci concluzia este că putem să asociem variabilele cat şi chd
(există o puternică evidenţă pentru asociere - deci respingem ipoteza nulă.
O problema în interpretarea restului de rezultate (Risk Estimate) afişat în fereastra de ieşire
ar fi faptul că cele 2 variabile care construiesc tabelul de contingenţă (cat * chd
Crosstabulation) au valorile 0 şi respectiv 1 ceea ce conduce la construcţia tabelului cu
prima coloana chd=0 şi prima linie cat=0.
Este nevoie să recodificăm cele două variabile astfel încât tabelul de contingenţă să aibă pe
prima coloană chd=1 şi prima linie cat=1 (prima coloană în tabelul de contingenţă reprezintă
prezenţa bolii şi prima linie reprezintă prezenţa expunerii.)
Pentru recodificarea variabielei “Cat” vom folosi recodificarea automată care se poate face
folosind secvenţa de comenzi Transform Automatic Recode…
În fereastra “Automatic Recode” vom selecta variabila “Cat” în secţiunea “Variable->New
Name” şi la “New Name” vom introduce noul nume pentru variabila recodificată, aici
“Cat12” după care cu ajutorul butonului “Add New Name” aceasta va fi adăugată în
secţiunea “Variable->New Name”. Înainte de a finaliza recodificarea va trebui să alegem în
secţiunea “Recode Starting from” opţiunea “Highest value”.

Rezultatul va fi următorul:
AUTORECODE VARIABLES=cat
/INTO cat12
/DESCENDING
/PRINT.
cat into cat12
Old Value New Value Value Label

1 1 1
0 2 0

79
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

ceea ce semnifică faptul că valorile variabilei “Cat” 1 şi 0 au fost înlocuite cu valorile 1 şi


respectiv 2 pentru noua variabilă “Cat12” adăugându-se acestora ca etichete valorile iniţiale.
În mod asemănator se poate face şi recodificarea variabilei “Chd” în variabila “Chd12”.
Vom relua secvenţa de comenzi Analyze Descriptive Statistics Crosstabs… selectând
în fereastra “Crosstabs” la Row(s): Cat12 şi la Column(s): Chd12.
Rezultatele sunt următoarele:
CROSSTABS
/TABLES=cat12 BY chd12
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ RISK
/CELLS=COUNT COLUMN
/COUNT ROUND CELL.

Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
cat12 * 571 100.0% 0 .0% 571 100.0%
chd12

cat12 * chd12 Crosstabulation


chd12
1 0 Total
cat12 1 Count 24 90 114
% within chd12 36.9% 17.8% 20.0%
0 Count 41 416 457
% within chd12 63.1% 82.2% 80.0%
Total Count 65 506 571
% within chd12 100.0% 100.0% 100.0%

Chi-Square Tests
Asymp. Sig. Exact Sig. (2- Exact Sig. (1-
Value df (2-sided) sided) sided)
a
Pearson Chi-Square 13.201 1 .000
b
Continuity Correction 12.030 1 .001
Likelihood Ratio 11.535 1 .001
Fisher's Exact Test .001 .001
Linear-by-Linear Association 13.178 1 .000
N of Valid Cases 571
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.98.
b. Computed only for a 2x2 table

Risk Estimate
95% Confidence
Interval
Value Lower Upper
Odds Ratio for cat12 (1 / 0) 2.706 1.557 4.703
For cohort chd12 =1 2.347 1.481 3.717
For cohort chd12 =0 .867 .785 .958
N of Valid Cases 571

Din tabelul (Risk Estimate) ne interesează să citim şi să interpretăm doar pentru “Odds Ratio
for cat12 (1 / 0)” sau OR şi “For cohort chd12 =1” sau RR.

80
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013

Intervalele de încredere pentru OR şi RR sunt calculate pentru estimarea acestor valori în


populaţia din care a fost extras eşantionul şi nu conţin în interior valoarea 1. Deci, la nivelul
populaţiei având valori în interval mai mari decât 1 pentru OR (respectiv RR) putem să
tragem concluzia că avem factor de risc. Deci expunerea (cat=1 nivelul de catecolamină
ridicat) este un factor de risc pentru persoanele cu afecţiuni cardiace (chd=1).
Pentru studiul prospectiv RR=2.347 riscul ca persoanele cu nivel de catecolamină crescut (cat
=1) să aibă chd este de 2.347 ori mai mare decât la cele cu nivelul de catecolamină scăzut
(cat=0). Pentru studiul retrospectiv OR=2.706 şansele ca persoanele cu nivel de catecolamină
crescut să aibă chd este de 2.706 ori mai mare decât la cele cu nivelul de catecolamină scăzut.
P_value de 0.000 din tabelul “Chi-Square Tests” reamintim că înseamnă că putem să asociem
variabilele cat şi chd adica %pacienti cu cat=1 diferă semnificativ între persoanele cu chd=1
(36.9% în tabelul Chi-Square Tests) şi cele cu chd=0 (17.8% în tabelul Chi-Square Tests).

Testul exact Fisher este analog testului hi-pătrat şi este de asemenea folosit pentru
verificarea existenţei unei asocieri statistice între 2 variabile de tip calitativ sau categorial
(Nominal şi Ordinal).
Testul exact Fisher se poate folosi în situaţiile în care testul hi-pătrat nu poate fi aplicat adică
pentru eşantioane mici sub 20 de participanţi (n < 20). Deşi se poate folosi pentru orice
eşantion se preferă utilizarea sa doar pentru cazul eşantioanelor mici.
Vom deschide fişierul care conţine datele pentru testul Fisher: File Open Data… ….
selectarea folderului unde se află datele şi a fişierului Date_spss.xls în caseta “Look in” şi a
tipului Excel (*.xls, *xlsx, *.xlsm) în caseta “Files of type” din fereastra “Open Data”…
Open. Se va alege fişierul “Date_spss.xls”. În caseta “Opening Excel Data Source” trebuie
să fie bifat “Read variable names from first row of data”, Worksheet: malnutritie…
OK.
Pentru verificarea asocierii variabilelor malnutritie şi anemie se foloseşte secvenţa de comenzi
Analyze Descriptive Statistics Crosstabs… selectând în fereastra “Crosstabs” la
Row(s): malnutritie şi la Column(s): anemie. În această fereastră la butonul “Statistics…” se
bifează “Chi-square” şi “Risk” iar la butonul “Cells…” se bifează în secţiunea “Counts”
opţiunea “Observed” iar în sectiunea “Percentages” opţiunea “Column“.
Ipoteza nulă: Nu există asociere între malnutritie şi anemie (Procentul de persoane cu
malnutriţie este acelaşi atât pentru persoanele cu anemie: anemie =Da cât şi pentru
persoanele fără anemie: anemie=Nu).
Ipoteza alternativă: Există asociere între malnutritie şi anemie.
Rezultatele sunt următoarele:
CROSSTABS
/TABLES=Malnutritie BY Anemie
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ RISK
/CELLS=COUNT COLUMN
/COUNT ROUND CELL.

Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Malnutritie * Anemie 32 100.0% 0 .0% 32 100.0%

Malnutritie * Anemie Crosstabulation

81
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020

Anemie
Da Nu Total
Malnutritie Da Count 6 2 8
% within Anemie 40.0% 11.8% 25.0%
Nu Count 9 15 24
% within Anemie 60.0% 88.2% 75.0%
Total Count 15 17 32
% within Anemie 100.0% 100.0% 100.0%

Chi-Square Tests
Value df Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided)
a
Pearson Chi-Square 3.388 1 .066
b
Continuity Correction 2.050 1 .152
Likelihood Ratio 3.484 1 .062
Fisher's Exact Test .106 .076
N of Valid Cases 32
a. 2 cells (50.0%) have expected count less than 5. The minimum expected count is 3.75.
b. Computed only for a 2x2 table

Risk Estimate
95% Confidence Interval
Value Lower Upper
Odds Ratio for Malnutritie (Da / Nu) 5.000 .826 30.281
For cohort Anemie = Da 2.000 1.041 3.844
For cohort Anemie = Nu .400 .116 1.382
N of Valid Cases 32

Din tabelul (Chi-Square Tests) ne interesează să citim şi să interpretăm doar valoarea probabilităţii
de apariţie a datelor observate sau p_value pentru testul pe care decidem sa îl folosim.
Se poate observa că NU sunt îndeplinite condiţiile testului hi-pătrat obişnuit (Pearson Chi-
Square): „2 cells (50.0%) have expected count less than 5. The minimum expected count
is 3.75” la subsolul tabelului „Chi-Square Tests”. Vom folosi valoarea p sau p-value de la
testul exact Fisher bilateral.
P_value este în acest caz 0.106 deci concluzia este că nu putem să asociem variabilele
malnutritie şi anemie (nu există o evidenţă pentru asociere - deci acceptăm ipoteza nulă)
adică %pacienţi cu malnutritie=Da nu diferă semnificativ între persoanele cu anemie=Da
(40.0% în tabelul Chi-Square Tests) şi cele cu anemie=0 (11.8% în tabelul Chi-Square
Tests).
În tabelul (Risk Estimate) ne interesează să citim şi să interpretăm doar pentru “Odds Ratio
for Malnutritie (Da / Nu)” sau OR şi “For cohort Anemie = Da” sau RR.
Intervalele de încredere pentru OR şi RR sunt calculate pentru estimarea acestor valori în
populaţia din care a fost extras eşantionul şi conţin în interior valoarea 1. Deci, la nivelul
populaţiei având valori în interval mai mari decât 1 pentru OR (respectiv RR) dar şi mai mici
decât 1 putem să tragem concluzia că avem factor indiferent. Deci expunerea (malnutritie
=Da) este un factor indiferent pentru persoanele cu anemie (anemie=Da).
Salvaţi datele în fişierul nume_26.spv

82

S-ar putea să vă placă și