Documente Academic
Documente Profesional
Documente Cultură
Lucrarea practică 7
Indicaţii generale:
Afirmaţii de tipul „fumatul este asociat cu decesul timpuriu, după un prim atac de
cord”, făcute în urma comparării unor proporţii calculate cu date obţinute din eşantioane
„reprezentative”, pot fi confirmate statistic prin teste hi pătrat (care în asemenea situaţii
sunt considerate ca teste de semnificaţie statistică, şi nu ca teste de bonitate).
Aplicaţiile statistice (SPSS, Epi Info, …) au evident implementate module pentru
efectuarea directă a calculelor necesare. Dar rezultatele pot fi obţinute şi cu ajutorul
aplicaţiei Excel, controlând în mod corespunzător desfăşurarea calculelor.
Teme
24: tabele de contingenţă în Excel
25: testul hi pătrat în Excel
26: testul hi-pătrat şi Fisher exact în SPSS
72
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
Riscul apariţiei unei maladii (sau riscul de deces) este raportul între numărul de
„evenimente” ce apar întro perioadă de timp specificată (de obicei un an) şi numărul de
indivizi luaţi în considerare (respectiv aflaţi în viaţă) la începutul perioadei.
Tabelul următor, întocmit pentru compararea riscurilor, conţine date privind mortalitatea
la doi ani după primul atac de cord suferit de fumători. (Sursa: Daly, Bourke and McGilvray,
pag. 184.)
Supravieţuirea la 2 ani Total
Decedaţi În viaţă
au continuat să fumeze 19 135 154
n-au mai fumat 15 199 214
Total 34 334 368
Acesta este un exemplu tipic de tabel de contingenţă (de tipul 2 2, adică două linii, două
coloane), bordat cu o linie şi o coloană a totalurilor.
Datele primare nu se prezintă însă în acest fel. Preluaţi fişierul LP07_1.xls pentru a vedea
cum sunt înregistrate datele primare. Dacă deschidem fişierul cu Excel, atunci vom folosi de
patru ori (pe patru coloane) însumarea rezultatelor date de funcţia logică IF, condiţiile
logice fiind de forma AND(C2=FALSE,D2=TRUE) şi analoagele.
Preluaţi cele 368 de înregistrări pe o primă foaie de calcul a fişierului nume_CALCULE,
foaie pe care o veţi denumi „Primare”.
Creaţi tabelul de mai sus pe a doua foaie de calcul, de exemplu în domeniul A1:D5
(având grijă să denumiţi această foaie de calcul „Conting”)
Calculaţi în coloana E rata deceselor. (Astfel, pentru întreg lotul de pacienţi, în celula E5
vom plasa formula „=B5/D5” şi vom obţine rata de 9.24%; pentru cei ce au continuat să
fumeze, în celula E3 vom plasa formula „=B3/D3” şi vom obţine rata de 12.34%, iar pentru
cei ce n-au mai fumat, în celula E4 vom obţine rata 7.01%. Evident, ar fi de dorit să plasaţi
în celula E2 un text explicativ, ca de exemplu „Rata deceselor”)
Se va observa o creştere a ratei deceselor în cazul celor ce au continuat să fumeze,
comparativ cu cazul celor care n-au mai fumat. Oare această creştere este „semnificativă”?
Pentru a răspunde la întrebări de acest fel va fi obligatoriu să precizăm „nivelul de
semnificaţie”, altfel răspunsurile sunt lipsite de conţinut.
Să alegem nivelul de semnificaţie uzual 0.05 . Afirmaţia că „fumatul este ASOCIAT
CU decesul timpuriu, după un prim atac de cord” poate fi confirmată (dar nu respinsă!) cu
ajutorul unui test de semnificaţie bazat pe acest nivel de semnificaţie şi pe o anumită
distribuţie hi-pătrat (anume cea cu un singur grad de libertate). Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=CHIINV(0.05, 1)
şi va avea valoarea aproximativ 3.84. Oare este el depăşit?
Atenţie, apelând funcţia CHIINV ni se oferă explicaţii detaliate în caseta de folosire a
funcţiei. (Întrebare: este confirmată afirmaţia?)
Afirmaţia că „fumatul este O CAUZĂ A decesului timpuriu, după un prim atac de cord”
poate fi confirmată cu ajutorul unui alt test de semnificaţie bazat pe nivelul de semnificaţie
ales şi pe o anumită distribuţie, normală standard de data aceasta. Pragul ce trebuie depăşit
pentru a putea confirma afirmaţia este obţinut în Excel cu ajutorul formulei
=NORMSINV(1–0.05)
şi va avea valoarea aproximativ 1.64. Oare este el depăşit?
73
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Vom încerca să confirmăm ultima afirmaţie („este cauză”) prin efectuarea unui test de
semnificaţie. Compararea celor două populaţii, anume a celor care „n-au mai fumat”,
respectiv a celor care „au continuat să fumeze” se va face la nivelul proporţiilor riscurilor de
deces.
„Ipoteza nulă”, pe care încercăm să o „respingem” în urma efectuării testului de
semnificaţie, este următoarea
1 2
şi ea exprimă faptul că cele două proporţii „nu diferă semnificativ” una de alta. Ipoteza
alternativă, pe care o vom accepta dacă vom reuşi respingerea ipotezei nule, este următoarea:
1 2.
Evident, ea exprimă faptul că riscul de deces este mai mare pentru cei care „continuă să
fumeze”.
Proporţiile riscurilor de deces sunt estimate prin frecvenţele relative observate,
p1 0.1234 , p2 0.0701, calculate pe baza datelor din eşantioane. Ele sunt în concordanţă
cu ipoteza alternativă!
(Este important să facem această observaţie! Căci în cazul în care frecvenţele relative
observate nu erau în concordanţă cu ipoteza alternativă, am fi confirmat o altă afirmaţie!)
Avem nevoie şi de riscul de deces pentru întreaga populaţie, uşor de calculat
34
p 9.24% . De asemenea, trebuie să reţinem şi „volumele eşantioanelor”, n1 154 ,
368
n2 214 .
p2 p1
Statistica pe care o folosim este z iar valoarea obţinută o vom
1 1
p(1 p)
n1 n2
compara cu valoarea prag z corespunzătoare nivelului de semnificaţie ales. Mai precis,
vom putea respinge ipoteza nulă doar dacă vom constata că z z .
Să ne alegem un nivel de semnificaţie 0.01 . Valoarea prag z va fi obţinută în Excel
prin formula
=NORMSINV(0.99)
plasată întro celulă oarecare. (Atenţie, 0.99 este 1 .) Ar trebui să o găsim 2.326.
Copiaţi întreaga foaie de calcul „Conting” întro foaie nouă, denumită „ZTest”. Plasaţi aici
în celula E2 inscripţia „Frecvenţe relative” iar dedesubt afişaţi conţinutul celulelor cu 4
zecimale (numeric, nu în procente).
Plasaţi în celula A7 inscripţia „Nivelul de semnificaţie”, iar în celula B7 numărul 0.01. În
continuare, plasaţi în celula C7 inscripţia „Valoarea prag”, iar în celula D7 formula
=NORMSINV(1-B7)
De asemenea, plasaţi în celula E7 inscripţia „Valoarea statisticii”, iar în celula F7
formula de calcul:
=(E3-E4)/SQRT(E5*(1-E5)*(1/D3+1/D4))
În sfârşit, în celula A8 plasaţi, aliniată la stânga, formula logică:
=IF(F7>D7,"respingem H0","nu putem respinge H0")
Care este rezultatul?
Modificaţi acum nivelul de semnificaţie, în celula B7, la 0.05. Ce se întâmplă?
Ar trebui, cu nivelul de semnificaţie de 5%, să trageţi concluzia că fumatul în continuare
are efect negativ asupra ratei de supravieţuire a pacienţilor ce au suferit un atac de cord.
74
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
Totuşi, cu nivelul de semnificaţie mai mic, de doar 1%, această concluzie nu mai este
susţinută de datele din eşantioane.
Putem afla oare nivelul de semnificaţie „limită” pentru care concluzia este susţinută de
datele din eşantioane?
Plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei alternative)”, iar în
celula B9 formula
=1-NORMSDIST(F7)
Ar trebui să obţineţi 4.08%.
Copiaţi acum întreg conţinutul foii de calcul „ZTest” în altă foaie de calcul, pe care o veţi
redenumi „Catecolamina”.
Modificaţi aici conţinutul tabelului din A2:D5, aşa încât să apară astfel:
Afectiuni cardice Afectiuni cardice Total
prezente absente
Nivel de catecolamină crescut 24 90 ?
Nivel de catecolamină scăzut 41 416 ?
Total ? ? ?
Este vorba despre rezultatul unui studiu referitor la testarea relaţiei existente între nivelul
de catecolamină crescut şi existenţa afecţiunilor cardiace. Se poate afirma că un nivel de
catecolamină crescut poate fi asociat bolilor cardiovasculare? (Se va alege ca nivel de
semnificaţie 0.05 .) Care este „valoarea p” a acestei afirmaţii?
Să reluăm afirmaţia „fumatul este ASOCIAT CU decesul timpuriu, după un prim atac de
cord”. Ea poate fi confirmată cu ajutorul unui test hi-pătrat DE SEMNIFICAŢIE.
În Excel calculele necesare confirmării vor exploata tabelul de contingenţă (din domeniul
B3:C4 (care, reamintim, conţine „datele observate”). Acest tabel are două rânduri şi două
coloane. Prin urmare, numărul gradelor de libertate este (2–1) (2–1) = 1.
Copiați tabelul de pe foaia „ZTest” pe o foaie nouă, unica foaie de calcul din fişierul
nume_HIPATRAT.xls. Redenumiți „ChisqTest” această foaie.
Preluaţi, de asemenea, o copie a rândurilor 7:8 de pe foaia „ZTest” pe foaia „ChisqTest”.
Aceste rânduri conţin nivelul de semnificaţie, valoarea prag, valoarea statisticii, precum şi
formula de „calcul” a deciziei de a respinge sau nu ipoteza nulă.
Formula de calcul a valorii prag, din celula B9, a fost pregătită pentru testul Z; ea trebuie
adaptată pentru testul hi pătrat. Aşadar, o veţi modifica în
=CHIINV(B7, 1)
Rămâne doar să adaptăm statistica pe care o folosim şi care de data aceasta este cea a lui
2
2 N Nr N c
Pearson X N rc , unde N r sunt totalurile pe linii, N c sunt
r c Nr N c N
totalurile pe coloane, iar N este totalul general. Aceste totaluri au fost calculate pe coloana
D şi pe rândul 5.
Formula pe care ar trebui să o plasăm în celula F9 este destul de complicată. Ar fi de
N N c
preferat calculul preliminar al expresiilor r , pe care l-am putea efectua de exemplu în
N
domeniul F3:G4, prin formula
75
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
=$D3*B$5/$D$5
şi analoagele ei.
2
N Nr N c
Ar urma calculul preliminar al termenilor N rc , pe care l-am putea
Nr N c N
efectua de exemplu în domeniul I3:J4, prin formula
=1/F3*(B3-F3)^2
şi analoagele ei.
Acestea fiind calculate, formula din celula B9 devine o simplă însumare:
=SUM(I3:J4)
iar concluzia privind confirmarea afirmaţiei (prin respingerea ipotezei nule) apare automat în
celula A8.
Ar fi interesant să plasaţi în celula A9 inscripţia „Valoarea p (riscul acceptării ipotezei
alternative)”, iar în celula B9 formula de calcul, care în cazul acestui test hi pătrat devine
=CHITEST(B3:C4,F3:G4)
Ar trebui să obţineţi o valoare dublă faţă de valoarea pe care aţi obţinut-o (pentru acelaşi
nivel de semnificaţie ales), în celula A9 de pe foaia „ZTest”. Aveţi o explicaţie pentru
această „coincidenţă”?
Testul hi-patrat (chi-square) este folosit pentru verificarea existenţei unei asocieri statistice
între 2 variabile de tip calitativ sau categorial (Nominal şi Ordinal).
76
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
77
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
cat * 571 100.0% 0 .0% 571 100.0%
chd
Chi-Square Tests
Exact
Sig.
(2- Exact Sig.
Value df Asymp. Sig. (2-sided) sided) (1-sided)
a
Pearson Chi- 13.201 1 .000
Square
Continuity 12.030 1 .001
b
Correction
Likelihood Ratio 11.535 1 .001
Fisher's Exact .001 .001
Test
Linear-by-Linear 13.178 1 .000
Association
N of Valid Cases 571
a. 0 cells (.0%) have expected count less than 5. The minimum expected count
is 12.98.
b. Computed only for a 2x2 table
Risk Estimate
95% Confidence Interval
Value Lower Upper
Odds Ratio for 2.706 1.557 4.703
cat (0 / 1)
For cohort chd = 1.153 1.044 1.273
0
For cohort chd = .426 .269 .675
1
N of Valid Cases 571
Pentru interpretarea rezultatelor vom folosi rezultatele din tabelul „Chi-Square Tests”. În
acest tabel sunt date valorile statisticilor testelor (Value), gradele de libertate asociate (df) şi
valorile p sau p_value (Asymp. Sig. (2-sided), Exact Sig. (2-sided), Exact Sig. (1-sided))
78
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
Din acest tabel ne interesează să citim şi să interpretăm doar valoarea probabilităţii de apariţie
a datelor observate sau p_value pentru testul pe care decidem să-l folosim.
Se poate observa că sunt îndeplinite condiţiile testului hi-pătrat obişnuit (Pearson Chi-
Square): „0 cells (.0%) have expected count less than 5. The minimum expected count is
12.98.” la subsolul tabelului „Chi-Square Tests”.
P_value este în acest caz 0.000 deci concluzia este că putem să asociem variabilele cat şi chd
(există o puternică evidenţă pentru asociere - deci respingem ipoteza nulă.
O problema în interpretarea restului de rezultate (Risk Estimate) afişat în fereastra de ieşire
ar fi faptul că cele 2 variabile care construiesc tabelul de contingenţă (cat * chd
Crosstabulation) au valorile 0 şi respectiv 1 ceea ce conduce la construcţia tabelului cu
prima coloana chd=0 şi prima linie cat=0.
Este nevoie să recodificăm cele două variabile astfel încât tabelul de contingenţă să aibă pe
prima coloană chd=1 şi prima linie cat=1 (prima coloană în tabelul de contingenţă reprezintă
prezenţa bolii şi prima linie reprezintă prezenţa expunerii.)
Pentru recodificarea variabielei “Cat” vom folosi recodificarea automată care se poate face
folosind secvenţa de comenzi Transform Automatic Recode…
În fereastra “Automatic Recode” vom selecta variabila “Cat” în secţiunea “Variable->New
Name” şi la “New Name” vom introduce noul nume pentru variabila recodificată, aici
“Cat12” după care cu ajutorul butonului “Add New Name” aceasta va fi adăugată în
secţiunea “Variable->New Name”. Înainte de a finaliza recodificarea va trebui să alegem în
secţiunea “Recode Starting from” opţiunea “Highest value”.
Rezultatul va fi următorul:
AUTORECODE VARIABLES=cat
/INTO cat12
/DESCENDING
/PRINT.
cat into cat12
Old Value New Value Value Label
1 1 1
0 2 0
79
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
cat12 * 571 100.0% 0 .0% 571 100.0%
chd12
Chi-Square Tests
Asymp. Sig. Exact Sig. (2- Exact Sig. (1-
Value df (2-sided) sided) sided)
a
Pearson Chi-Square 13.201 1 .000
b
Continuity Correction 12.030 1 .001
Likelihood Ratio 11.535 1 .001
Fisher's Exact Test .001 .001
Linear-by-Linear Association 13.178 1 .000
N of Valid Cases 571
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.98.
b. Computed only for a 2x2 table
Risk Estimate
95% Confidence
Interval
Value Lower Upper
Odds Ratio for cat12 (1 / 0) 2.706 1.557 4.703
For cohort chd12 =1 2.347 1.481 3.717
For cohort chd12 =0 .867 .785 .958
N of Valid Cases 571
Din tabelul (Risk Estimate) ne interesează să citim şi să interpretăm doar pentru “Odds Ratio
for cat12 (1 / 0)” sau OR şi “For cohort chd12 =1” sau RR.
80
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 9 2012/2013
Testul exact Fisher este analog testului hi-pătrat şi este de asemenea folosit pentru
verificarea existenţei unei asocieri statistice între 2 variabile de tip calitativ sau categorial
(Nominal şi Ordinal).
Testul exact Fisher se poate folosi în situaţiile în care testul hi-pătrat nu poate fi aplicat adică
pentru eşantioane mici sub 20 de participanţi (n < 20). Deşi se poate folosi pentru orice
eşantion se preferă utilizarea sa doar pentru cazul eşantioanelor mici.
Vom deschide fişierul care conţine datele pentru testul Fisher: File Open Data… ….
selectarea folderului unde se află datele şi a fişierului Date_spss.xls în caseta “Look in” şi a
tipului Excel (*.xls, *xlsx, *.xlsm) în caseta “Files of type” din fereastra “Open Data”…
Open. Se va alege fişierul “Date_spss.xls”. În caseta “Opening Excel Data Source” trebuie
să fie bifat “Read variable names from first row of data”, Worksheet: malnutritie…
OK.
Pentru verificarea asocierii variabilelor malnutritie şi anemie se foloseşte secvenţa de comenzi
Analyze Descriptive Statistics Crosstabs… selectând în fereastra “Crosstabs” la
Row(s): malnutritie şi la Column(s): anemie. În această fereastră la butonul “Statistics…” se
bifează “Chi-square” şi “Risk” iar la butonul “Cells…” se bifează în secţiunea “Counts”
opţiunea “Observed” iar în sectiunea “Percentages” opţiunea “Column“.
Ipoteza nulă: Nu există asociere între malnutritie şi anemie (Procentul de persoane cu
malnutriţie este acelaşi atât pentru persoanele cu anemie: anemie =Da cât şi pentru
persoanele fără anemie: anemie=Nu).
Ipoteza alternativă: Există asociere între malnutritie şi anemie.
Rezultatele sunt următoarele:
CROSSTABS
/TABLES=Malnutritie BY Anemie
/FORMAT=AVALUE TABLES
/STATISTICS=CHISQ RISK
/CELLS=COUNT COLUMN
/COUNT ROUND CELL.
Crosstabs
[DataSet1]
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Malnutritie * Anemie 32 100.0% 0 .0% 32 100.0%
81
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 7 2019/2020
Anemie
Da Nu Total
Malnutritie Da Count 6 2 8
% within Anemie 40.0% 11.8% 25.0%
Nu Count 9 15 24
% within Anemie 60.0% 88.2% 75.0%
Total Count 15 17 32
% within Anemie 100.0% 100.0% 100.0%
Chi-Square Tests
Value df Asymp. Sig. (2-sided) Exact Sig. (2-sided) Exact Sig. (1-sided)
a
Pearson Chi-Square 3.388 1 .066
b
Continuity Correction 2.050 1 .152
Likelihood Ratio 3.484 1 .062
Fisher's Exact Test .106 .076
N of Valid Cases 32
a. 2 cells (50.0%) have expected count less than 5. The minimum expected count is 3.75.
b. Computed only for a 2x2 table
Risk Estimate
95% Confidence Interval
Value Lower Upper
Odds Ratio for Malnutritie (Da / Nu) 5.000 .826 30.281
For cohort Anemie = Da 2.000 1.041 3.844
For cohort Anemie = Nu .400 .116 1.382
N of Valid Cases 32
Din tabelul (Chi-Square Tests) ne interesează să citim şi să interpretăm doar valoarea probabilităţii
de apariţie a datelor observate sau p_value pentru testul pe care decidem sa îl folosim.
Se poate observa că NU sunt îndeplinite condiţiile testului hi-pătrat obişnuit (Pearson Chi-
Square): „2 cells (50.0%) have expected count less than 5. The minimum expected count
is 3.75” la subsolul tabelului „Chi-Square Tests”. Vom folosi valoarea p sau p-value de la
testul exact Fisher bilateral.
P_value este în acest caz 0.106 deci concluzia este că nu putem să asociem variabilele
malnutritie şi anemie (nu există o evidenţă pentru asociere - deci acceptăm ipoteza nulă)
adică %pacienţi cu malnutritie=Da nu diferă semnificativ între persoanele cu anemie=Da
(40.0% în tabelul Chi-Square Tests) şi cele cu anemie=0 (11.8% în tabelul Chi-Square
Tests).
În tabelul (Risk Estimate) ne interesează să citim şi să interpretăm doar pentru “Odds Ratio
for Malnutritie (Da / Nu)” sau OR şi “For cohort Anemie = Da” sau RR.
Intervalele de încredere pentru OR şi RR sunt calculate pentru estimarea acestor valori în
populaţia din care a fost extras eşantionul şi conţin în interior valoarea 1. Deci, la nivelul
populaţiei având valori în interval mai mari decât 1 pentru OR (respectiv RR) dar şi mai mici
decât 1 putem să tragem concluzia că avem factor indiferent. Deci expunerea (malnutritie
=Da) este un factor indiferent pentru persoanele cu anemie (anemie=Da).
Salvaţi datele în fişierul nume_26.spv
82