Documente Academic
Documente Profesional
Documente Cultură
Modul VII SD Curs2
Modul VII SD Curs2
TABELE DE CONTINGENȚĂ
Estimarea efectului:
RR – Risc Relativ sau Raportul Riscurilor(Risk Ratio)
OR – Raportul Cotelor (Odd Ratio)
Compararea frecvențelor:
Testul Chi pătrat (Chi Square test)
Testul Fisher (Fisher test)
- În cadrul afecțiunilor pulmonare se pune problema detectării factorilor de risc: fumat, consum alcool,
mediu toxic de muncă, etc.
- În cadrul apariției alergiilor la copii, se pune problema posibilei cauze datorate părinților alergici, sau
influența posibilă a părinților ce fumează sau chiar combinația ambelor cauze.
La modul general – Observăm că există un factor de influență (fumatul, consumul de alcool, alergia
părinților, tratamentul cu un anumit tip de antibiotic, etc.) și prezența sau absența afecțiunii de studiu.
Putem crea un tabel cu frecvențele de apariție ale evenimentelor pentru cele 4 cazuri posibile definite de
prezența/absența factorului respectiv prezența/absența afecțiunii.
Tabelul de contingență - cuprinde frecvențele absolute ale evenimentelor
FACTOR
prezintă atât afecțiunea cât și factorul studiat.
- c d c+d
Factorul poate avea efect pozitiv, negativ sau poate să nu
aibă efect. Total a+c b+d a+b+c+d=n
+ a b a+b
rânduri a datelor din tabel.
- c d c+d Din grupul Factor prezent (+) calculăm riscul de a avea
afecțiunea: R a
a+c b+d a+b+c+d=n
F ( a b)
Total
Daca valorile riscurilor sunt aproape egale RF RF implica RR ≈ 1 atunci factorul nu are influență
asupra afecțiunii !
- Cum validăm existența unei influențe (efect) cauzată de prezența factorului studiat?
- Cât de aproape de 1 trebuie să fie valoarea RR astfel încât să putem considera nulă influența factorului studiat
?
- Dacă răspundem la cele 2 întrebări, verificarea sensului în efect al factorul (este de risc sau preventiv) devine
ușor de realizat ?
Răspunsul este evident prin analiza statistică –
Observație 1– la volume mari ale eșantionului precizia poate deveni atât de bună încât putem avea erori f.
mici în estimarea valorii RR de exemplu. Astfel o valoare RR=1.001 poate avea semnificație statistică față de
1 adică risc confirmat. Utilitatea medicală a rezultatului nu poate fi acceptată decât prin decizia unui specialist
în domeniu !
Observație 2 – pentru calculul intervalului de confidență se folosește distribuția standard Gauss Laplace –
aceasta este o distribuție simetrică.
Problema constă în faptul că distribuția RR nu respectă o curbă Gauss-Laplace. Pentru a respecta o astfel de
distribuție valorile RR trebuie logaritmate – cu alte cuvinte se lucrează în spațiul logaritmic unde se calculează
intervalul de confidență (ce este simetric) apoi se aplică funcția inversă deci se exponențiază și se ajunge în
spațiul normal RR.
Concluzie – intervalul de confidență al RR este simetric în forma logaritmică dar în forma normală este
asimetric – caracteristică importantă !
Intervalul de confidență pentru Riscul Relativ (Raportul Riscurilor RR)
b d
RR(limita inf.) este: exp LN ( RR ) z1 / 2 a (a b) c (c d )
b d
RR(limita sup.) este: exp LN ( RR) z1 / 2
a (a b) c (c d )
Încrederea în estimare este standard 95% sau 0.95. Astfel α = 0.05 sau 5%.
Z(1-α/2) este abscisa corespunzătoare densității de probabilitate Gauss-Laplace pentru o încredere simetrică
de 1-α. Pentru 95% încredere Z(1-α/2)=1.96.
b d
Valoarea : z 1 / 2 se numește precizie.
a ( a b ) c (c d )
Se notează: LL OR (0.95%) – Lower Limit ; UL OR (0.95%) – Upper Limit
FACTOR
bc
- c d c+d
Ca și în cazul riscului și a raportului riscurilor , putem calcula intervalul de confidență al OR. Este de
asemenea nesimetric deoarece se logaritmează valorile punctuale pentru a respecta o distribuție simetrică de tip
Gauss-Laplace.
Prezentăm mai jos formulele de calcul :
1 1 1 1
OR(limita inf.) este: LL(OR) exp LN (OR) z1 / 2
a b c d
1 1 1 1
OR(limita sup.) este: UL(OR) exp LN (OR) z1 / 2
a b c d
Intervalul de confidență atât pentru RR cât și pentru OR este simetric în forma logaritmică !
În forma normală acest interval nu este simetric.
Punctul critic pentru un raport este 1. Această valoare arată că numitorul și numărătorul sunt egali. În cazul
analizei de risc valoarea RR=1 sau OR=1, arată lipsa influenței factorului studiat asupra afecțiunii. Valori exact 1
sunt foarte greu de obținut !
Dacă intervalul de confidență (standard 95% încredere) pentru RR sau OR cuprinde valoarea 1 înseamnă că
nu există asociere între cele două variabile (afecțiune și factor), deci nu vom avea semnificație.
Dacă limita inferioară a RR sau OR pentru interval de confidență (cu 0.95 încredere) este mai mare ca 1
atunci efectul expunerii este negativ ducând la o creștere a probabilității de îmbolnăvire (avem factor de risc),
deci avem și semnificație statistică.
Dacă limita superioară a RR sau OR pentru interval de confidență (cu 0.95 încredere) este mai mică ca 1
atunci efectul expunerii este pozitiv (benefic) ducând la o scădere a probabilității de îmbolnăvire (avem factor de
prevenție), deci vom avea și semnificație.
În cadrul studiului riscului se mai definesc următorii indicatori
statistici:
FACTOR
+ a b a+b
FACTOR
+ a b a+b
FACTOR
+ a b a+b
Cu cât NNH este mai mare cu atât este mai bine.
- c d c+d
Metodă de lucru
• Se calculează statistica Chi pătrat conform formulei (folosind ambele tabelul de date);
• Se calculează corespunzător statisticii Chi și a gradelor de libertate (k=(nr. rânduri-1)*(nr. col-1)))
semnificația notată p. Aceasta este particulară tabelului de date – caracterizează datele noastre.
• Dacă valoarea semnificației p ≤ 0.05 (atenție – în unele cărți se prezintă valoarea prag a semnificației pentru
acest tip de test p ≤ 0.10; noi vom utiliza standardul de 0.05) atunci avem semnificație deci există o influență
a factorului asupra afecțiunii. În continuare pentru a avea o măsură a efectului se va calcula RR sau OR
funcție de tipul de studiu folosit.
• Dacă valoarea p > 0.05 nu avem semnificație deci factorul nu are influență asupra afecțiunii.
Observație
Consistența datelor (cantitatea de informație) este definită de volumul eșantioanelor de lucru. Este de așteptat
ca odată cu creșterea volumului eșantionului deci a informației culese să avem încredere mai mare în rezultatele
obținute. Devine evidentă întrebarea : care este minimul de date sub care nu mai avem încredere în test ?
Astfel consistența unui test de tip Chi pătrat este definită de procentul de frecvențe așteptate ce se află sub
pragul de 5.
Dacă procentul de frecvențe așteptate de valoare sub 5 este mai mare ca 20% atunci nu putem
accepta rezultatul testului Chi pătrat – cu alte cuvinte avem erori prea mari prin acest calcul.
Iată în cadrul valorilor așteptate avem valoarea 3.6 mai mică ca 5; practic 25% din date sunt mai mici ca 5 –
avem inconsistență în aplicarea testului Chi pătrat. Ca urmare testul exact Fisher trebuie aplicat.
Rezultate obținute
Valoare Valoare
semnificativă ! nesemnificativă !
Observații
- Testele gen Chi pătrat și Fisher verifică existența asocierii dintre date – ne spun dacă frecvențele diferă sau
nu, dar nu cuantifică diferența.
- Magnitudinea efectului este măsurată prin RR sau OR – avem o imagine mai clară: RR=2 înseamnă că este
de două ori mai riscant în prezența factorului să ne îmbolnăvim.
- Dacă obținem semnificație prin Chi pătrat ne așteptăm ca în intervalul de confidență (95% încredere) pentru
RR sau OR să nu avem valoarea 1.
Sumar al ideilor principale
- În cadrul tabelelor de contingență compararea frecvențelor se face folosind testul Chi pătrat sau Fisher;
- Condiția de consistență pentru testul Chi pătrat: Mai puțin de 20% din frecvențele așteptate să fie mai mici ca 5;
- Formula de calcul a statisticii Chi pătrat (tabel de contingență): nr . de ev .
Oi Ei 2
Notație: O=valori observate, E=valori așteptate.
calculat
2
i 1 Ei
- Testul Chi pătrat este neparametric;
- Dacă valorile așteptate mai mici ca 5 sunt în procent mai mare de 20% atunci testul Chi pătrat este înlocuit de testul
Fisher;
- Formula de calcul a RR este (conform tabelelor 2x2 prezentate): RR=(a/(a+b))/(c/(c+d));
- Formula de calcul a OR este (conform tabelelor 2x2 prezentate): : OR=(a*d)/(b*c);
- Calculul cotei pentru un eveniment A este (P reprezintă probabilitatea): P( A) P( A )
- Pentru calculul intervalului de confidență al RR dar și al OR se aplică o transformare logaritmică pentru a avea
distribuții normale;
- Pentru a avea semnificație statistică, punctul critic care nu trebuie să fie cuprins în intervalul de confidență al RR
dar și al OR este 1;
- Intervalul de confidență al RR dar și al OR este asimetric față de valoarea punctuală calculată.
Întrebări / Discuții pe aceste teme / Exemple practice
Spor la învățat !
VĂ MULȚUMIM !
BIOSTATISTICA
REGRESIE LOGISTICĂ
Exemple:
Observație: variabila de răspuns (y) are doar două valori, este dicotomică.
Regresia logistică seamănă cu regresia liniară dar este dezvoltată pentru variabila de răspuns (y) de tip
dicotomic.
Dacă avem variabila dependentă de tip dicotomic, înseamnă că aceasta poate lua doar două valori de
obicei codificate cu 1 (de exemplu: afecțiune prezentă, deces, eveniment studiat realizat) respectiv 0
(afecțiune absentă, supraviețuire, eveniment studiat nerealizat).
Iată grafic cum ar arăta valorile determinate experimental (valori practice) pentru o astfel de situație:
Y
Regresia liniară nu este utilă deoarece ar
produce ușor valori peste 1 sau mai mici ca 0,
(0,1) chiar dacă am lua în calcul probabilitatea
evenimentului (s-ar obține erori mari).
(0,0)
X
Se pune problema determinării unei funcții notate cu g, care să aproximeze graficul alăturat, de forma:
g(𝑦) = 𝑓 𝑥𝑖 = 𝑎0 + 𝑎1 ∙ 𝑥1 + 𝑎2 ∙ 𝑥2 + … . +𝑎𝑛 ∙ 𝑥𝑛
Astfel se va lucra cu probabilitatea de realizare a evenimentului dar într-o formă ce să acopere domeniul
utilizat la maxim deci -∞ la +∞.
p
Aceasta este funcția logit definită: logit p =ln 1−p , p reprezintă probabilitatea realizării evenimentului
y. Probabilitatea variază de la [0,1] ceea ce rezultă că logit(p) variază de la -∞ la +∞ așa cum am dorit.
p 𝑛
Avem astfel: logit p =ln
1−p = 𝑎0 + 𝑎1 ∙ 𝑥1 + 𝑎2 ∙ 𝑥2 + … . +𝑎𝑛 ∙ 𝑥𝑛 = 𝑖=0 𝑎𝑖 ∙ 𝑥𝑖
Coeficientul a0 reprezintă intersecția funcției cu axa YY’. Se obține pentru x1=x2= … =xn=0
p
Raportul 1−p este tocmai cota – realizăm astfel că va exista o legătură între coeficienții ai (forma
exponențială) și cotă.
𝑛
𝑒𝑥𝑝 𝑖=0 𝑎𝑖 ∙𝑥𝑖
Dacă scoatem probabilitatea din funcția anterioară avem: p= 𝑛 𝑎 ∙𝑥 , aceasta este funcția
1+𝑒𝑥𝑝 𝑖=0 𝑖 𝑖
logistică.
Iată grafic funcția logistică care aproximează probabilitatea evenimentului studiat funcție de
covariabilele xi.
Prob(Y=1|x) - reprezintă probabilitatea ca Y=1 (amintim Y este codificat cu 1 sau 0), condiționată de
valorile variabilelor explicative x.
Prob(Y=1|x)
p=1
p=0
X
𝒏
𝒆𝒙𝒑 𝒊=𝟎 𝒂𝒊 ∙ 𝒙𝒊 𝟏
Funcția logistică : p Y=1|𝒙𝒊 = 𝒏
= 𝒏
𝟏 + 𝒆𝒙𝒑 𝒊=𝟎 𝒂𝒊 ∙ 𝒙𝒊 𝟏 + 𝒆𝒙𝒑 − 𝒊=𝟎 𝒂𝒊 ∙ 𝒙𝒊
Interpretarea coeficienților în cadrul regresiei logistice.
p
În forma inițială : logit p =ln 1−p = 𝑎0 + 𝑎1 ∙ 𝑥1 + 𝑎2 ∙ 𝑥2 + … . +𝑎𝑛 ∙ 𝑥𝑛 , coeficienții sunt greu de
interpretat – aceasta deoarece logaritmul natural din cotă este mai greu de înțeles.
Facem următorul calcul: mai întâi creștem doar o covariabilă cu Δx, apoi scădem cele două funcții logit.
Alegem de exemplu variabila x1 , aceasta nu va bloca generalizarea rezultatului.
p′
Avem astfel: logit p′ =ln = 𝑎0 + 𝑎1 ∙ (𝑥1 +∆𝑥) + 𝑎2 ∙ 𝑥2 + … . +𝑎𝑛 ∙ 𝑥𝑛
1−p′
p′ p
Scădem funcțiile: logit p′ − logit p = 𝑎1 ∙ ∆𝑥 avem apoi ln -ln 1−p = ln 𝐶𝑜𝑡𝑎1 − ln 𝐶𝑜𝑡𝑎2
1−p′
Cota1
Și obținem: ln Cota2 = ln 𝑂𝑅 = 𝑎1 ∙ ∆𝑥 , unde OR este raportul cotelor (Odd Ratio).
Prin exponențiere scoatem OR = exp(a1·Δx).
Interpretarea devine lesne de înțeles: exponențiala din coeficientul unei covariabile, reprezintă
raportul cotelor (OR) deci de câte ori este mai riscant de a avea afecțiunea sau evenimentul studiat
pentru creșterea covariabilei respective cu un punct și menținerea constantă a celorlalte covariabile.
Dacă avem doar o covariabilă și aceasta este de tip dicotomic atunci OR calculat prin regresie logistică
coincide cu OR calculat din tabelul de contingență și se numește valoare neajustată.
Dacă avem mai mult de o covariabilă, atunci se ține cont prin regresie de toate efectele variabilelor
explicative și valorile OR se numesc ajustate – acestea sunt de interes deoarece se pot elimina factorii de
confuzie.
Coeficientul a0 reprezintă valoarea de referință a modelului, deci pentru toate covariabilele xi egale cu 0.
Dacă variabila xi este de tip numeric referința este clar punctul 0 al acesteia. Dacă variabila este
categorială cu mai mult de două variante atunci punctul de referință este greu de ales. O metodă ar consta
în alegerea categoriei ce are cele mai puține valori – pentru a permite o putere statistică bună.
De obicei programele de statistică prezintă atât coeficienții ai cât și exp(ai ) și intervalele de confidență.
Atenție: Exp(a0) nu reprezintă OR, reprezintă doar cota în punctul de referință.
Testul Hosmer - Lemeshow
Este utilizat în regresia logistică pentru a verifica dacă modelul este util (cât de bine se potrivește datelor
practice) deci poate fi utilizat statistic.
Funcția discriminantă respectă o distribuție de tip Chi pătrat și verifică diferențele dintre frecvențele
observate și cele așteptate.
Dacă frecvențele observate și cele așteptate (deci deduse din model) sunt apropiate atunci nu avem
semnificație și modelul este util reușind să prezică corect.
În caz contrar, cu alte cuvinte dacă frecvențele observate diferă de cele așteptate și ca urmare avem
semnificație deducem că modelul nu este util, și practic erorile sunt mari.
H0: Nu există diferență între frecvențele observate și cele așteptate, deci modelul prezice corect
H1: Avem diferență între cele două tipuri de frecvențe ceea ce înseamnă că modelul prezice cu erori.
Dezavantaj – testul este criticat deoarece are putere statistică relativ mică și de asemenea depinde de
definirea grupurilor în calculul cuantilelor (depinde de volumul eșantionului).
Testul Omnibus
Crearea modelului pentru mai multe variabile de intrare se poate face pas cu pas prin introducerea a câte o
covariabilă și apoi verificarea utilității acesteia. Există și metoda inversă – se pleacă cu toate covariabilele și
se elimină pe rând cele nesemnificative.
Acest test verifică diferența dintre modelul la pasul anterior și modelul la pasul actual. Dacă se obține
diferență semnificativă statistic rezultă că ultima variabilă este utilă (sau ultima modificare este utilă).
Se poate să se impună introducerea tuturor covariabilelor odată. Astfel testul omnibus va verifica modelul
de la momentul 0 (adică cel doar cu coeficientul a0, deci termenul liber) cu modelul format din toate variabilele
explicative – este evident că dorim să obținem semnificație.
Acest test ar fi o variantă mai bună comparativ cu verificarea prin metoda Hosmer-Lemeshow.
Tabelul de clasificare
Avem două tabele de clasificare – înainte de a introduce covariabilele, deci modelul doar cu termenul a0 și
modelul cu toate covariabilele alese introduse.
Se verifică prin aceasta ca procentul total de clasificare să fie crescut pentru modelul logistic cu variabilele
explicative introduse.
Pseudo coeficientul R2
Metoda de calcul a coeficienților în cadrul regresiei logistice (maximizarea funcției de verosimilitate) este
total diferită de metoda de minimizare a sumei erorilor pătratice folosită la regresia liniară. Astfel interpretarea
pseudo coeficienților R2 în regresia logistică este diferită.
Un pseudo coeficient R2 normalizat în domeniul [0,1] este cel propos de Nagelkerke / Cragg & Uhler’s.
Acesta măsoară îmbunătățirea față de modelul nul, adusă de modelul cu variabile explicative. Acest
modelul nul este cel în care covariabilele sunt egale cu 0 – deci ar rezulta o medie simplă a variabilei
dependente pentru predicție.
Acești pseudo coeficienți pot fi folosiți pentru comparație doar utilizând aceeași bază de date – forma
matematică nu permite altfel de comparații. Astfel putem verifica dacă introducerea sau eliminarea unei
variabile explicative are efect asupra performanței modelului.
Dimensiunea eșantionului în cadrul regresiei logistice
Volumul eșantionului are un rol foarte important în precizia de măsurare dar și în puterea testului, deci
șansa de a găsi semnificație statistică. Mai simplu prezentat, cu cât avem mai multă informație cu atât avem
încredere mai mare în rezultate.
Există mai multe metode de determinare a dimensiunii eșantionului.
Vom prezenta în continuarea ”regula celor zece evenimente” – o regulă des întâlnită.
Aceasta spune că trebuie să existe 10 evenimente studiate realizate, pentru fiecare covariabilă introdusă în
model.
Presupunem că avem m variabile explicative, iar probabilitatea cea mai mică (din aceste variabile) de
apariție a evenimentului studiat este pmin. Atunci volumul (n) minim al eșantionului devine: n=10/pmin·m.
Dorim să vedem în ce măsură părinții alergici atât mama cât și tata pot influența probabilitatea de apariție a
alergiei la copil. Apoi vom trece la o problemă mai complexă introducând în model și informația cu privire la
fumat.
Conform codificărilor standard am notat cu 1 prezența alergiei respectiv a fumatului iar cu 0 lipsa acestora.
Iată variabilele de interes sunt prezentate în tabelul de mai jos (folosim aplicația SPSS):
Alegem în continuare din meniul SPSS: Analyze + Regression + Binary Logistic
Classification Tablea,b
Predicted
La pasul inițial (Step 0) avem o clasificare corectă
allergy child (conform tabelului) în procent de 69.3%. Aceasta
Observed Absent Prezent Percentage Correct rezultă din: 819/1182=69.2%
Step 0 allergy Absent 819 0 100.0 Inițial avem doar constanta în ecuație, deci cele
child Prezent 363 0 .0
p
două covariabile sunt 0: logit p =ln
1−p = 𝑎0 .
Overall Percentage 69.3
a. Constant is included in the model.
b. The cut value is .500 p=363/1182=0.3071 deci p/(1-p)=0.443=exp(a0)
Variables in the Equation
B S.E. Wald df Sig. Exp(B) Astfel a0=ln(p/(1-p))=ln(0.443)=-0.814
Step 0 Constant -.814 .063 166.526 1 .000 .443
Classification Tablea,b
Clasificarea finală (Step 1) nu aduce îmbunătățiri. Predicted
allergy child
Cu toate că am adăugat două covariabile în model, Observed Absent Prezent Percentage Correct
acesta nu reușește să îmbunătățească predicția. Step 1 allergy Absent 819 0 100.0
child Prezent 363 0 .0
Overall Percentage 69.3
a. Constant is included in the model.
b. The cut value is .500
Variables not in the Equation
Score df Sig.
Step 0 Variables allergy mother 4.541 1 .033 Variabilele care nu sunt în model prezintă semnificație –
allergy father 8.213 1 .004
Overall Statistics 11.280 2 .004
deci trebuie verificat și introduse în calcul.
Model Summary
Cox & Snell Nagelkerke R
Step -2 Log likelihood R Square Square Pseudocoeficientul de determinare (puterea
a
1 1446.848 .009 .013
a. Estimation terminated at iteration number 4 because parameter
predictivă), prezintă mai multe forme.
estimates changed by less than .001. Nagelkerke R Square variază în domeniul [0,1] și
este preferat.
Valoare foarte mică arată că modelul nu satisface
cerințele de predicție.
Iată următoarele rezultate obținute
Conform testului Hosmer-Lemeshow nu avem semnificație – deci acceptăm ipoteza nulă, nu există
diferență semnificativă între frecvențe.
În următorul tabel avem informații despre coeficienții regresiei logistice (notați cu B). Obținem semnificație
doar pentru prezența alergiei la tată – iar aceasta arată un risc în spațiul OR de valoare 1.401 (OR=1.401).
Deci pentru copil este de 1.4 ori mai riscant să prezinte alergie dacă tatăl la rândul lui este alergic comparativ
cu un tată nealergic.
Prezența semnificației este marcată și în intervalul de confidență (nu cuprinde valoarea 1).
În primul rând observăm că toți coeficienții au semnificație – deci toate covariabilele au efect. Valorile OR
sunt prezentate în coloana Exp(B) , coeficienții sunt notați cu B.
Testul Hosmer-Lemeshow nu este semnificativ deci modelul este util – confirmat statistic.
Citim apoi valoarea exp(B) ce reprezintă OR (Odd Ratio deci Raportul Cotelor). Obținem OR=4.189.
Astfel prin trecerea de la 0 la 1 adică de la sub 65 ani la 65 sau peste această vârstă, riscul de a te
îmbolnăvi de CDI crește de 4.189 ori.
Vârsta este o covariabilă ce prezintă semnificație p=0.021 deci are influență asupra infecției cu CDI.
Interpretarea coeficientului în forma exponențială: OR=1.042 ceea ce arată o influență negativă. Mai clar, la
creșterea cu un an în vârstă riscul persoanei de a avea CDI crește în spațiul OR la 1.042 adică de 1.042 ori
mai riscant.
Același rezultat se obține dacă folosim vârsta din an în an, avem coeficientul B=0.041 (din tabelul
precedent) îl înmulțim cu 10 (deci o creștere cu 10 ani) și apoi exponențiăm:
Orcreștere cu 10 ani = exp(0.041·10) = exp(0.41) = 1.504 (diferența apare deoarece am folosit doar 3 zecimale).
Variables in the Equation
95% C.I.for EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
a
Step 1 Varsta (10 ani) .414 .179 5.330 1 .021 1.513 1.065 2.150
Constant -4.617 1.169 15.600 1 .000 .010
a. Variable(s) entered on step 1: Varsta (10 ani).
VĂ MULȚUMESC !