Sunteți pe pagina 1din 61

Concordancia y Kappa

Ejemplos

Clase de MD, MSc Andrés Carnero, adaptado por JAZ.


Agenda
• Concordancia: ¿Por qué?

• Medidas de concordancia

• Concordancia para datos dicotómicos

• Concordancia para datos politómicos

• Tópicos avanzados
Concordancia: ¿Por qué?
• Evalúa cuánto dos (o más) medidas son similares
entre sí
– Es decir, si los criterios de medición son equivalentes

• Brinda información sobre la confiabilidad de una


prueba o criterio de medición
– Idealmente, dos mediciones realizadas en el mismo
contexto deben resultar en el mismo resultado

• Permite evaluar la utilidad de una prueba si no


existe un estándar de oro (o su uso no es factible)
Concordancia: ¿Por qué?
• Varios tipos de concordancia y fuentes de
variabilidad a evaluar:

1. Intraindividuo: Variación dentro de cada sujeto

2. Intraobservador: Variación dentro de cada


observador

3. Interobservador: Variación entre observadores


Medidas de concordancia
• Los métodos para evaluar confiabilidad
dependen del varios factores:
– Tipo de variable de interés
– Número de evaluadores
– Medidas repetidas

• En esta clase discutiremos cómo evaluar la


confiabilidad para un outcome categórico
entre 2 o más evaluadores
Medidas de concordancia
Nivel de medición Medidas de confiabilidad de mediciones
Nominal Proporción de acuerdo global y específico
Estadístico kappa
Ordinal Kappa ponderado
Matriz de estadísticos kappa
Correlación intraclase por rangos
Continua Coeficiente de correlación intraclase
Correlación de concordancia
Proporción de acuerdo global y específico (categorizado)
Coeficiente de variación
Error estándar de medidas
Gráfico de Bland-Altman y límites de acuerdo

Adaptado de: Kottner J, et al. J Clin Epidemiol. 2011; 64: 96e106


Proporción de acuerdo global
• Proporción de observaciones en las que
ambos criterios de clasificación coinciden

Criterio 1
Anormal Normal
Anormal a b a+b
Criterio 2
Normal c d c+d
a+c b+d N

𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑎+𝑑
𝑝𝑜 = =
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 + 𝑑𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑁
Proporción de acuerdo global: Ejemplo

• Detección de ARDS según dos definiciones


(NAECC vs. LISS)
Criterio LISS
Presente Ausente
Criterio Presente 59 7 66
NAECC Ausente 14 38 52
73 45 118

𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑎+𝑑 59 + 38
𝑝𝑜 = = 𝑝𝑜 = = 0.82
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 + 𝑑𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑁 118

Meade MO, et al. Am J Respir Crit Care Med. 2001; 163: 490-3
Proporción de acuerdo global
• Es simple de calcular

• Su interpretación es directa: representa el grado


de acuerdo total

• No toma en cuenta el grado de acuerdo que


podría producirse por azar
– Tiende a sobrestimar la concordancia, especialmente
para medidas frecuentes o poco frecuentes
Concordancia esperada por azar
• Se puede calcular el acuerdo esperado por azar si se
asume que ambos criterios son independientes
P(A∩B)= P(A) × P(B)

Criterio 1
Anormal Normal 𝑎+𝑏 𝑎+𝑐
𝐸 𝑎 =
Anormal a b a+b 𝑁
Criterio 2
Normal c d c+d 𝑏+𝑑 𝑐+𝑑
𝐸 𝑑 =
a+c b+d N 𝑁

𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝐸 𝑎 + 𝐸(𝑑)


𝑝𝑒 = =
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 + 𝑑𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝑁
Concordancia esperada por azar
Criterio LISS
Presente Ausente
Criterio Presente 59 7 66
NAECC Ausente 14 38 52
73 45 118

𝑎+𝑏 𝑎+𝑐 73 × 66 𝑏+𝑑 𝑐+𝑑 45 × 52


𝐸 𝑎 = = = 40.8 𝐸 𝑑 = = = 19.8
𝑁 118 𝑁 118

𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝐸 𝑎 + 𝐸(𝑑)


𝑝𝑒 = =
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 + 𝑑𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝑁

40.8 + 19.8
𝑝𝑒 = = 0.51
118
Estadístico Kappa (de Cohen)
• Mide la concordancia entre dos criterios
corrigiendo el acuerdo esperado por azar

• Valores entre -1 y +1 (0=Ausencia de acuerdo)

𝑝𝑜 − 𝑝𝑒
κ=
1 − 𝑝𝑒
0% 𝑝𝑒 𝑝𝑜 100%
Acuerdo
Acuerdo posible por
Acuerdo esperado por azar encima del azar

Acuerdo observado

B
B Kappa =
A

Acuerdo observado por


encima del azar
Estadístico Kappa
• Supuestos clave:
– Elementos evaluados son independientes entre sí.
– La clasificación de un evaluador se hace en forma
independiente a la del otro evaluador.
– La clasificación es hecha por los mismos dos
evaluadores.
– Las categorías son independientes.
Estadístico Kappa
Valor de
Landis y Koch Ciccetti y Sparrow Fleiss
Kappa
<0.00 Pobre Pobre Pobre
0.00-0.20 Ligera
0.21-0.40 Aceptable
0.41-0.60 Moderada Aceptable Aceptable a buena
0.61-0.74 Considerable Excelente
0.75-0.80 Excelente
0.81-1.00 Casi perfecta

Landis JR, et al. Biometrics. 1977: 159-74


Cicchetti DV, et al. American Journal of Mental Deficiency. 1981; 86: 127-37
Fleiss JL, et al. Statistical methods for rates and proportions. 3rd ed. John Wiley & Sons. New Jersey:
2013.
Estadístico Kappa: Ejemplo
• Concordancia en la clasificación histológica de
carcinoma adenoescamoso de pulmón

Patólogo A
Grado II Grado III
Grado II 41 3 44
Patólogo B
Grado III 4 27 31
45 30 75

𝑎 + 𝑑 41 + 27
𝑝𝑜 = = = 0.91
𝑁 75

Ghandur-Mnaymneh L, et al. Cancer Invest. 1993;11(6):641-51


Estadístico Kappa: Ejemplo
• Concordancia en la clasificación histológica de
carcinoma adenoescamoso de pulmón
Patólogo A
Grado II Grado III 45 × 44
𝐸 𝑎 = = 26.4
75
Grado II 41 3 44
Patólogo B
Grado III 4 27 31
4 × 30
45 30 75 𝐸 𝑑 = = 12.4
75

𝐸(𝑎) + 𝐸(𝑑) 26.4 + 12.4


𝑝𝑒 = = = 0.52
𝑁 75

Ghandur-Mnaymneh L, et al. Cancer Invest. 1993;11(6):641-51


Estadístico Kappa: Ejemplo
• Concordancia en la clasificación histológica de
carcinoma adenoescamoso de pulmón
Patólogo A
Grado II Grado III
𝑝𝑜 = 0.92
Grado II 41 3 44
Patólogo B
Grado III 4 27 31 𝑝𝑒 = 0.52
45 30 75

𝑝𝑜 − 𝑝𝑒 0.92 − 0.52
κ= = = 0.81
1 − 𝑝𝑒 1 − 0.52

Ghandur-Mnaymneh L, et al. Cancer Invest. 1993;11(6):641-51


• Kappa depende de la prevalencia del outcome
– Debe reportarse la prevalencia del outcome junto al
estadístico kappa
– Prevalencias muy altas o bajas resultan en un kappa
bajo.

• Kappa depende del número de categorías de


clasificación usada
– A mayor número de categorías, kappa suele disminuir
Práctica
• Evaluación del uso actual de terapia hormonal
según un diario personal de 7 días o un
cuestionario auto-administrado

• Base de datos: hormone.dta

• Variables:
– Uso según diario (diary)
– Uso según cuestionario (question)

Merlo J, et al. Am J Epidemiol. 2000;152:788–92


Práctica
. tab diary question, exp cel nokey
Porcentaje de acuerdo
question
global
diary No Yes Total

No 14,696 231 14,927


13,811.7 1,115.3 14,927.0
91.51 1.44 92.95 . di (14696+969)/16060
.97540473
Yes 164 969 1,133
1,048.3 84.7 1,133.0
1.02 6.03 7.05

Total 14,860 1,200 16,060


14,860.0 1,200.0 16,060.0
92.53 7.47 100.00

𝑎+𝑑 𝑎 𝑑
𝑝𝑜 = = + 𝑝𝑜 = 0.0603 + 0.9151 = 0.9754
𝑁 𝑁 𝑁
Práctica
. tab diary question, exp cel nokey
Porcentaje de acuerdo
question
esperado por azar
diary No Yes Total

No 14,696 231 14,927


13,811.7 1,115.3 14,927.0
91.51 1.44 92.95
. di (13811.7+84.7)/16060
.8652802
Yes 164 969 1,133
1,048.3 84.7 1,133.0
1.02 6.03 7.05

Total 14,860 1,200 16,060


14,860.0 1,200.0 16,060.0
92.53 7.47 100.00

𝐸(𝑎) + 𝐸(𝑑) 13811.7 + 84.7


𝑝𝑒 = = = 0.8653
𝑁 16060
Práctica
. tab diary question, exp cel nokey
Estadístico kappa
question
diary No Yes Total

No 14,696 231 14,927


13,811.7 1,115.3 14,927.0
91.51 1.44 92.95
𝑝𝑜 = 0.9754
Yes 164 969 1,133
1,048.3 84.7 1,133.0 𝑝𝑒 = 0.8653
1.02 6.03 7.05

Total 14,860 1,200 16,060


14,860.0 1,200.0 16,060.0
92.53 7.47 100.00

𝑝𝑜 − 𝑝𝑒 0.9754 − 0.8653
κ= = = 0.8174
1 − 𝑝𝑒 1 − 0.8653
Práctica
Estadístico kappa en Stata:
Opción para mostrar
la tabla de clasificación

kap criterio1 criterio2, tab

Criterios de medición
a comparar
Práctica
Intervalos de confianza para kappa en Stata:

(Descargar el .ado con “findit kapci”)

Opción para mostrar


la tabla de clasificación
kapci criterio1 criterio2, tab

Criterios de medición
a comparar
Práctica
. kap question diary, tab

diary
question No Yes Total

No 14,696 164 14,860


Yes 231 969 1,200

Total 14,927 1,133 16,060

Expected
Agreement Agreement Kappa Std. Err. Z Prob>Z

97.54% 86.53% 0.8174 0.0079 103.64 0.0000

𝐻0 : κ = 0 Prueba requiere
𝐻1 : κ ≠ 0 N grande
Práctica
• Prueba z de que kappa es igual a cero

– Decisión:
• Rechazamos la hipótesis nula de que la concordancia de
los métodos se debe sólo al azar

– Conclusión:
• Se concluye que los métodos tienen una concordancia
casi perfecta para determinar el uso de terapia
hormonal
Práctica

. kapci question diary, tab

diary
question No Yes Total

No 14,696 164 14,860


Yes 231 969 1,200

Total 14,927 1,133 16,060

N=16060

Kappa (95% CI) = 0.817 (0.800 - 0.835) (A)

A = analytical
Extendiendo la concordancia para
datos politómicos

• Para outcomes politómicos, se pueden aplicar


los mismos métodos para evaluar
concordancia, aunque con algunas
modificaciones
Proporción de acuerdo global: Ejemplo
Observador 2
Observador 1 0 1 2 3 4 5 Total
0 5 6
1 6 2 8
2 1 4 13 5 2 25
3 6 9 4 19
4 2 8 1 11
5 8 24 32
Total 6 10 21 16 22 25 100

𝐴𝑐𝑢𝑒𝑟𝑑𝑜𝑠 5 + 6 + 13 + 9 + 8 + 24
𝑝𝑜 = = = 0.65
𝐴𝑐𝑢𝑒𝑟𝑑𝑜𝑠 + 𝐷𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 100

van Swieten, et al. Stroke 1988;19:604-607


Kappa ponderada
• Para outcomes politómicos, nos interesa tanto la
concordancia perfecta como la parcial
– Ejemplo: lesión sospechosa vs. cáncer vs. normal
– La concordancia perfecta será menos frecuente con
más resultados posibles

• Kappa ponderada permite dar crédito a la


concordancia parcial
– Se dan pesos altos a las observaciones cercanas
– El peso asignado es arbitrario (0 a 1)
Kappa ponderada
• Arbitrariedad de pesos es una limitación

• Pesos recomendados por Fleiss et al.:

2 w: Peso Se aproxima al
𝑖−𝑗 i: Fila Coeficiente de
𝑤𝑖𝑗 = 1 − 2
𝑘−1 j: Columna Correlación
k: # categorías Intraclase

• Evaluar críticamente el esquema de pesos a


usar
Fleiss JL. Educ Psychol Meas. 1973; 33: 613-9
Kappa ponderada
• Ejemplo de esquema de pesos:

Observador 1
Observador 2 Ausente Mínima Moderada Severa
Ausente 1.00 0.89 0.56 0.00
Mínima 1.00 0.89 0.56
Moderada 1.00 0.89
Severa 1.00

𝑖−𝑗 2
𝑤𝑖𝑗 = 1 −
𝑘−1 2
Kappa ponderada
• Similar al estadístico kappa, aunque incluye
los pesos para observaciones similares:

𝑝𝑜 𝑤 − 𝑝𝑒 𝑤
κ 𝑤 =
1 − 𝑝𝑒 𝑤

σ 𝑛𝑖𝑗 × 𝑤𝑖𝑗 σ 𝐸(𝑛𝑖𝑗 ) × 𝑤𝑖𝑗


𝑝𝑜 𝑤 = 𝑝𝑒 𝑤 =
𝑁 𝑁
Kappa ponderada: Ejemplo
Tabla observada

Observador 1
Observador Ausente Mínima Modera Severa Total
2 da
Ausente 34 10 2 0 46
Mínima 6 8 8 2 24
Moderada 2 5 4 12 23
Severa 0 1 2 14 17
Total 42 24 16 28 110

Ausente Mínima Moderada Severa


Ausente 1.00 0.89 0.56 0.00
Mínima 1.00 0.89 0.56
Moderada 1.00 0.89
Severa 1.00
Kappa ponderada: Ejemplo
σ 𝑛𝑖𝑗 × 𝑤𝑖𝑗
𝑝𝑜 𝑤 =
𝑁

𝑎 ∙ 𝑤𝑎 + 𝑏 ∙ 𝑤𝑏 + 𝑐 ∙ 𝑤𝑏 + ⋯ + 𝑝 ∙ 𝑤𝑝
𝑝𝑜 𝑤 =
𝑁

34 × 1.00 + 10 × 0.89 + 2 × 0.56 + ⋯ + 14 × 1.00


𝑝𝑜 𝑤 =
110

102.11
𝑝𝑜 𝑤 = = 0.9283
110
Kappa ponderada: Ejemplo
Tabla esperada

Observador 1
Observador Ausente Mínima Modera Severa Total
2 da
Ausente 17.56 10.04 6.69 11.71 46
Mínima 9.16 5.24 3.49 6.11 24
Moderada 8.78 5.02 3.35 5.85 23
Severa 6.49 3.71 2.47 4.33 17
Total 42 24 16 28 110

Ausente Mínima Moderada Severa


Ausente 1.00 0.89 0.56 0.00
Mínima 1.00 0.89 0.56
Moderada 1.00 0.89
Severa 1.00
Kappa ponderada: Ejemplo
σ 𝐸(𝑛𝑖𝑗 ) × 𝑤𝑖𝑗
𝑝𝑒 𝑤 =
𝑁

𝐸(𝑎) ∙ 𝑤𝑎 + 𝐸(𝑏) ∙ 𝑤𝑏 + 𝐸(𝑐) ∙ 𝑤𝑏 + ⋯ + 𝐸(𝑝) ∙ 𝑤𝑝


𝑝𝑒 𝑤 =
𝑁

17.56 × 1.00 + 10.04 × 0.89 + 6.69 × 0.56 + ⋯ + 4.33 × 1.00


𝑝𝑒 𝑤 =
110

76.56
𝑝𝑒 𝑤 = = 0.6960
110
Kappa ponderada: Ejemplo
𝑝𝑜 𝑤 = 0.9283

𝑝𝑒 𝑤 = 0.6960

𝑝𝑜 𝑤 − 𝑝𝑒 𝑤
κ 𝑤 =
1 − 𝑝𝑒 𝑤

0.9283 − 0.6960
κ 𝑤 = = 0.7641
1 − 0.6960
Práctica
• Resultados de mamografías evaluadas por dos
radiólogos

• Base de datos: rate2.dta

• Variables:
– Evaluación por radiólogo A (rada)
– Evaluación por radiólogo B (radb)

• Outcome politómico:
– Normal, Benigno, Sospechoso, Cáncer

Boyd NF, et al. J Natl Cancer Inst. 1982; 68: 357-63


. tab rada radb, exp cel nokey

Radiologis
t A's Radiologist B's assessment
assessment Normal benign suspect cancer Total

Normal 21 12 0 0 33
10.9 14.8 6.2 1.2 33.0
24.71 14.12 0.00 0.00 38.82

benign 4 17 1 0 22
7.2 9.8 4.1 0.8 22.0
4.71 20.00 1.18 0.00 25.88

suspect 3 9 15 2 29
9.6 13.0 5.5 1.0 29.0
3.53 10.59 17.65 2.35 34.12

cancer 0 0 0 1 1
0.3 0.4 0.2 0.0 1.0
0.00 0.00 0.00 1.18 1.18

Total 28 38 16 3 85
28.0 38.0 16.0 3.0 85.0
32.94 44.71 18.82 3.53 100.00
Sólo considera
Porcentaje de di 0.2471 + 0.2000 + 0.1765 + 0.0118 el acuerdo
acuerdo global .6354 perfecto
. tab rada radb, exp cel nokey

Radiologis
t A's Radiologist B's assessment
assessment Normal benign suspect cancer Total

Normal 21 12 0 0 33
10.9 14.8 6.2 1.2 33.0
24.71 14.12 0.00 0.00 38.82

benign 4 17 1 0 22
7.2 9.8 4.1 0.8 22.0
4.71 20.00 1.18 0.00 25.88

suspect 3 9 15 2 29
9.6 13.0 5.5 1.0 29.0
3.53 10.59 17.65 2.35 34.12

cancer 0 0 0 1 1
0.3 0.4 0.2 0.0 1.0
0.00 0.00 0.00 1.18 1.18

Total 28 38 16 3 85
28.0 38.0 16.0 3.0 85.0
32.94 44.71 18.82 3.53 100.00

Sólo considera
Porcentaje de di (10.9 + 9.8 + 5.5 + 0.0)/85 el acuerdo
acuerdo esperado .3082 perfecto
Práctica
Estadístico kappa

𝑝𝑜 = 0.6353 𝑝𝑜 − 𝑝𝑒
κ= 0.6353 − 0.3082
1 − 𝑝𝑒 = = 0.4728
𝑝𝑒 = 0.3082 1 − 0.3082

. kap rada radb

Expected
Agreement Agreement Kappa Std. Err. Z Prob>Z

63.53% 30.82% 0.4728 0.0694 6.81 0.0000


Práctica
Kappa ponderada en Stata: Opción para mostrar
la tabla de clasificación

kap criterio1 criterio2, wgt(w2) tab

Criterios de medición
a comparar Esquema de pesos a usar.
“w2” corresponde a pesos
sugeridos por Fleiss
Práctica
. kap rada radb, wgt(w2) tab

Radiologis
t A's Radiologist B's assessment
assessment Normal benign suspect cancer Total

Normal 21 12 0 0 33
benign 4 17 1 0 22
suspect 3 9 15 2 29
cancer 0 0 0 1 1

Total 28 38 16 3 85

Ratings weighted by:


1.0000 0.8889 0.5556 0.0000
0.8889 1.0000 0.8889 0.5556
0.5556 0.8889 1.0000 0.8889
0.0000 0.5556 0.8889 1.0000

Expected
Agreement Agreement Kappa Std. Err. Z Prob>Z

94.77% 84.09% 0.6714 0.1079 6.22 0.0000


Práctica
. kapci rada radb, wgt(w2) tab reps(1000)

Radiologis
t A's Radiologist B's assessment
assessment Normal benign suspect cancer Total

Normal 21 12 0 0 33
benign 4 17 1 0 22
suspect 3 9 15 2 29
cancer 0 0 0 1 1

Total 28 38 16 3 85

This may take quite a long time. Please wait ...

B=1000 N=85

Kappa (95% CI) = 0.671 (0.533 - 0.789) (BC)

BC = bias corrected
Práctica
Generando ponderaciones para Kappa en Stata:

kapwgt nombre w11 \ w21 w22 \ w31 w32 w33 \ ...

Pesos:
Nombre del esquema Valor entre 0 y 1
de pesos Rellenar la tabla bajo la diagonal
. kapwgt pond 1 \ 0.5 1 \ 0.25 0.5 1 \ 0 0.25 0.5 1

. kap rada radb, wgt(pond) tab

Radiologis
t A's Radiologist B's assessment
assessment Normal benign suspect cancer Total

Normal 21 12 0 0 33
benign 4 17 1 0 22
suspect 3 9 15 2 29
cancer 0 0 0 1 1

Total 28 38 16 3 85

Ratings weighted by:


1.0000 0.5000 0.2500 0.0000
0.5000 1.0000 0.5000 0.2500
0.2500 0.5000 1.0000 0.5000
0.0000 0.2500 0.5000 1.0000

Expected
Agreement Agreement Kappa Std. Err. Z Prob>Z

80.88% 59.54% 0.5275 0.0722 7.31 0.0000


. kapci rada radb, wgt(pond) tab reps(1000)

Radiologis
t A's Radiologist B's assessment
assessment Normal benign suspect cancer Total

Normal 21 12 0 0 33
benign 4 17 1 0 22
suspect 3 9 15 2 29
cancer 0 0 0 1 1

Total 28 38 16 3 85

This may take quite a long time. Please wait ...

B=951 N=85

Kappa (95% CI) = 0.528 (0.403 - 0.648) (BC)

BC = bias corrected

.
Kappa para >2 evaluadores
• Múltiples versiones
– Depende si los evaluadores son únicos y si el
número de evaluadores es constante

• La versión más útil es aquella para un número


constante de evaluadores de Fleiss et al.

• Está implementada en Stata

Fleiss JL, et al. Statistical Methods for Rates and Proportions. 3rd ed. New York: Wiley, 2003
Kappa para >2 evaluadores
. use http://www.stata-press.com/data/r13/p615b

. list

subject rater1 rater2 rater3 rater4 rater5

1. 1 1 2 2 2 2
2. 2 1 1 3 3 3
3. 3 3 3 3 3 3
4. 4 1 1 1 1 3
5. 5 1 1 1 3 3

6. 6 1 2 2 2 2
7. 7 1 1 1 1 1
8. 8 2 2 2 2 3
9. 9 1 3 3 3 3
10. 10 1 1 1 3 3

Fleiss JL, et al. Statistical Methods for Rates and Proportions. 3rd ed. New York: Wiley, 2003
Kappa para >2 evaluadores

. kap rater1 rater2 rater3 rater4 rater5

There are 5 raters per subject:

Outcome Kappa Z Prob>Z

1 0.2917 2.92 0.0018


2 0.6711 6.71 0.0000
3 0.3490 3.49 0.0002

combined 0.4179 5.83 0.0000


Estadístico kappa: Limitaciones
• Es afectado por la prevalencia del desenlace
– Si la prevalencia es muy alta o baja, el acuerdo
esperado por azar aumentará, y kappa disminuirá

↑𝑃 𝑝𝑜 − 𝑝𝑒
↑ 𝑝𝑒 ↓κ κ=
1 − 𝑝𝑒
↓𝑃

– Índice de prevalencia ayuda a evaluar este efecto


(rango: 0-1)
𝑎−𝑑
PI =
𝑁
Estadístico kappa: Limitaciones

Criterio 1
𝑝𝑜 = 0.80
Anormal Normal
Anormal 40 10 50 κ = 0.60
Criterio 2
Normal 10 40 50 𝐼𝑆 = 0.00
50 50 100 𝐼𝑃 = 0.00

Criterio 1
Anormal Normal 𝑝𝑜 = 0.80
Anormal 70 10 80 κ = 0.38
Criterio 2
Normal 10 10 20 𝐼𝑆 = 0.00
80 20 100 𝐼𝑃 = 0.60
Estadístico kappa: Limitaciones
• Es afectado por el sesgo entre evaluadores
– Sesgo: Diferencia en la proporción de positivos y negativos
entre evaluadores (probabilidades marginales distintas)
– Sesgo disminuye el acuerdo esperado por azar, y aumenta
kappa
𝑝𝑜 − 𝑝𝑒
S𝑒𝑠𝑔𝑜 ↓ 𝑝𝑒 ↑κ κ=
1 − 𝑝𝑒

– Índice de sesgo ayuda a evaluar dicho efecto (0-1)

𝑏−𝑐
BI =
𝑁
Estadístico kappa: Limitaciones

Criterio 1
𝑝𝑜 = 0.60
Anormal Normal
Anormal 40 20 60 κ = 0.17
Criterio 2
Normal 20 20 40 𝐼𝑆 = 0.00
60 40 100 𝐼𝑃 = 0.20

Criterio 1
Anormal Normal 𝑝𝑜 = 0.60
Anormal 40 35 75 κ = 0.24
Criterio 2
Normal 5 20 25 𝐼𝑆 = 0.30
45 55 100 𝐼𝑃 = 0.20
Kappa ajustado
• Existe un kappa ajustado por prevalencia y
sesgo (PABAK)
– No es interpretable, pero permite evaluar el
efecto de prevalencia y sesgo sobre kappa
𝑃𝐴𝐵𝐴𝐾 = 2𝑝𝑜 − 1

• Kappa depende del PI y BI


𝑃𝐴𝐵𝐴𝐾 − 𝑃𝐼 2 + 𝐵𝐼 2
– Aumenta con el BI κ=
1 − 𝑃𝐼 2 + 𝐵𝐼 2
– Disminuye con el PI
𝑃𝐴𝐵𝐴𝐾 − 𝑃𝐼 2 + 𝐵𝐼 2
κ=
1 − 𝑃𝐼 2 + 𝐵𝐼 2
Kappa ajustado: Ejemplo
• Detección de ARDS según dos definiciones
(NAECC vs. LISS)
Criterio LISS
Presente Ausente
Criterio Presente 59 7 66
NAECC Ausente 14 38 52
73 45 118

𝑝𝑜 = 0.8220 κ = 0.6338

𝑃𝐴𝐵𝐴𝐾 = 2𝑝𝑜 − 1 = 2 0.8220 − 1 = 0.64


Reflexiones
• Ningún estadístico puede mostrar todos los aspectos
del acuerdo interevaluador

• Es recomendable calcular varios estadísticos


complementarios

• Si se calcula kappa, considerar:


– Sesgo
– Prevalencia
– Número de categorías
– Esquema de pesos más apropiado
Gracias por su atención.

S-ar putea să vă placă și