Concordancia y Kappa PDF

Concordancia y Kappa
Ejemplos
Clase de MD, MSc Andrés Carnero, adaptado por JAZ.

Agenda
• Concordancia: ¿Por qué?
• Medidas de concordancia
• Concordancia para datos dicotómicos
• Concordancia para datos politómicos
• Tópicos avanzados
Concordancia: ¿Por qué?
• Evalúa cuánto dos (o más) medidas son similares
entre sí
– Es decir, si los criterios de medición son equivalentes
• Brinda información sobre la confiabilidad de una

prueba o criterio de medición
– Idealmente, dos mediciones realizadas en el mismo
contexto deben resultar en el mismo resultado
• Permite evaluar la utilidad de una prueba si no

existe un estándar de oro (o su uso no es factible)
Concordancia: ¿Por qué?
• Varios tipos de concordancia y fuentes de
variabilidad a evaluar:
1. Intraindividuo: Variación dentro de cada sujeto
2. Intraobservador: Variación dentro de cada

observador
3. Interobservador: Variación entre observadores

Medidas de concordancia
• Los métodos para evaluar confiabilidad
dependen del varios factores:
– Tipo de variable de interés
– Número de evaluadores
– Medidas repetidas
• En esta clase discutiremos cómo evaluar la

confiabilidad para un outcome categórico
entre 2 o más evaluadores
Medidas de concordancia
Nivel de medición Medidas de confiabilidad de mediciones
Nominal Proporción de acuerdo global y específico
Estadístico kappa
Ordinal Kappa ponderado
Matriz de estadísticos kappa
Correlación intraclase por rangos
Continua Coeficiente de correlación intraclase
Correlación de concordancia
Proporción de acuerdo global y específico (categorizado)
Coeficiente de variación
Error estándar de medidas
Gráfico de Bland-Altman y límites de acuerdo
Adaptado de: Kottner J, et al. J Clin Epidemiol. 2011; 64: 96e106

Proporción de acuerdo global
• Proporción de observaciones en las que
ambos criterios de clasificación coinciden
Criterio 1
Anormal Normal
Anormal a b a+b
Criterio 2
Normal c d c+d
a+c b+d N
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑎+𝑑
𝑝𝑜 = =
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 + 𝑑𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑁
Proporción de acuerdo global: Ejemplo
• Detección de ARDS según dos definiciones

(NAECC vs. LISS)
Criterio LISS
Presente Ausente
Criterio Presente 59 7 66
NAECC Ausente 14 38 52
73 45 118
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑎+𝑑 59 + 38
𝑝𝑜 = = 𝑝𝑜 = = 0.82
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 + 𝑑𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑁 118
Meade MO, et al. Am J Respir Crit Care Med. 2001; 163: 490-3
Proporción de acuerdo global
• Es simple de calcular
• Su interpretación es directa: representa el grado

de acuerdo total
• No toma en cuenta el grado de acuerdo que

podría producirse por azar
– Tiende a sobrestimar la concordancia, especialmente
para medidas frecuentes o poco frecuentes
Concordancia esperada por azar
• Se puede calcular el acuerdo esperado por azar si se
asume que ambos criterios son independientes
P(A∩B)= P(A) × P(B)
Criterio 1
Anormal Normal 𝑎+𝑏 𝑎+𝑐
𝐸 𝑎 =
Anormal a b a+b 𝑁
Criterio 2
Normal c d c+d 𝑏+𝑑 𝑐+𝑑
𝐸 𝑑 =
a+c b+d N 𝑁
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝐸 𝑎 + 𝐸(𝑑)

𝑝𝑒 = =
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 + 𝑑𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝑁
Concordancia esperada por azar
Criterio LISS
Presente Ausente
73 45 118
𝑎+𝑏 𝑎+𝑐 73 × 66 𝑏+𝑑 𝑐+𝑑 45 × 52

𝐸 𝑎 = = = 40.8 𝐸 𝑑 = = = 19.8
𝑁 118 𝑁 118
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝐸 𝑎 + 𝐸(𝑑)

𝑝𝑒 = =
𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 + 𝑑𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝑁
40.8 + 19.8
𝑝𝑒 = = 0.51
118
Estadístico Kappa (de Cohen)
• Mide la concordancia entre dos criterios
corrigiendo el acuerdo esperado por azar
• Valores entre -1 y +1 (0=Ausencia de acuerdo)
𝑝𝑜 − 𝑝𝑒
κ=
1 − 𝑝𝑒
0% 𝑝𝑒 𝑝𝑜 100%
Acuerdo
Acuerdo posible por
Acuerdo esperado por azar encima del azar
Acuerdo observado
B
B Kappa =
A
Acuerdo observado por

encima del azar
Estadístico Kappa
• Supuestos clave:
– Elementos evaluados son independientes entre sí.
– La clasificación de un evaluador se hace en forma
independiente a la del otro evaluador.
– La clasificación es hecha por los mismos dos
evaluadores.
– Las categorías son independientes.
Estadístico Kappa
Valor de
Landis y Koch Ciccetti y Sparrow Fleiss
Kappa
<0.00 Pobre Pobre Pobre
0.00-0.20 Ligera
0.21-0.40 Aceptable
0.41-0.60 Moderada Aceptable Aceptable a buena
0.61-0.74 Considerable Excelente
0.75-0.80 Excelente
0.81-1.00 Casi perfecta
Landis JR, et al. Biometrics. 1977: 159-74

Cicchetti DV, et al. American Journal of Mental Deficiency. 1981; 86: 127-37
Fleiss JL, et al. Statistical methods for rates and proportions. 3rd ed. John Wiley & Sons. New Jersey:
2013.
Estadístico Kappa: Ejemplo
• Concordancia en la clasificación histológica de
carcinoma adenoescamoso de pulmón
Patólogo A
Grado II Grado III
Grado II 41 3 44
Patólogo B
Grado III 4 27 31
45 30 75
𝑎 + 𝑑 41 + 27
𝑝𝑜 = = = 0.91
𝑁 75
Ghandur-Mnaymneh L, et al. Cancer Invest. 1993;11(6):641-51

Patólogo A
Grado II Grado III 45 × 44
𝐸 𝑎 = = 26.4
75
Grado II 41 3 44
Patólogo B
Grado III 4 27 31
4 × 30
45 30 75 𝐸 𝑑 = = 12.4
75
𝐸(𝑎) + 𝐸(𝑑) 26.4 + 12.4

𝑝𝑒 = = = 0.52
𝑁 75

Patólogo A
Grado II Grado III
𝑝𝑜 = 0.92
Grado II 41 3 44
Patólogo B
Grado III 4 27 31 𝑝𝑒 = 0.52
45 30 75
𝑝𝑜 − 𝑝𝑒 0.92 − 0.52
κ= = = 0.81
1 − 𝑝𝑒 1 − 0.52

• Kappa depende de la prevalencia del outcome
– Debe reportarse la prevalencia del outcome junto al
estadístico kappa
– Prevalencias muy altas o bajas resultan en un kappa
bajo.
• Kappa depende del número de categorías de

clasificación usada
– A mayor número de categorías, kappa suele disminuir
Práctica
• Evaluación del uso actual de terapia hormonal
según un diario personal de 7 días o un
cuestionario auto-administrado
• Base de datos: hormone.dta
• Variables:
– Uso según diario (diary)
– Uso según cuestionario (question)
Merlo J, et al. Am J Epidemiol. 2000;152:788–92

Práctica
. tab diary question, exp cel nokey
Porcentaje de acuerdo
question
global
diary No Yes Total
No 14,696 231 14,927

13,811.7 1,115.3 14,927.0
91.51 1.44 92.95 . di (14696+969)/16060
.97540473
Yes 164 969 1,133
1,048.3 84.7 1,133.0
1.02 6.03 7.05
Total 14,860 1,200 16,060

14,860.0 1,200.0 16,060.0
92.53 7.47 100.00
𝑎+𝑑 𝑎 𝑑
𝑝𝑜 = = + 𝑝𝑜 = 0.0603 + 0.9151 = 0.9754
𝑁 𝑁 𝑁
Práctica
Porcentaje de acuerdo
question
esperado por azar
diary No Yes Total
No 14,696 231 14,927

13,811.7 1,115.3 14,927.0
91.51 1.44 92.95
. di (13811.7+84.7)/16060
.8652802
Yes 164 969 1,133
1,048.3 84.7 1,133.0
1.02 6.03 7.05
Total 14,860 1,200 16,060

14,860.0 1,200.0 16,060.0
92.53 7.47 100.00
𝐸(𝑎) + 𝐸(𝑑) 13811.7 + 84.7

𝑝𝑒 = = = 0.8653
𝑁 16060
Práctica
Estadístico kappa
question
diary No Yes Total
No 14,696 231 14,927

13,811.7 1,115.3 14,927.0
91.51 1.44 92.95
𝑝𝑜 = 0.9754
Yes 164 969 1,133
1,048.3 84.7 1,133.0 𝑝𝑒 = 0.8653
1.02 6.03 7.05
Total 14,860 1,200 16,060

14,860.0 1,200.0 16,060.0
92.53 7.47 100.00
𝑝𝑜 − 𝑝𝑒 0.9754 − 0.8653
κ= = = 0.8174
1 − 𝑝𝑒 1 − 0.8653
Práctica
Estadístico kappa en Stata:
Opción para mostrar
la tabla de clasificación
kap criterio1 criterio2, tab
Criterios de medición
a comparar
Práctica
Intervalos de confianza para kappa en Stata:
(Descargar el .ado con “findit kapci”)
Opción para mostrar

kapci criterio1 criterio2, tab
a comparar
Práctica
. kap question diary, tab
diary
question No Yes Total
No 14,696 164 14,860

Yes 231 969 1,200
Total 14,927 1,133 16,060
Expected
Agreement Agreement Kappa Std. Err. Z Prob>Z
97.54% 86.53% 0.8174 0.0079 103.64 0.0000
𝐻0 : κ = 0 Prueba requiere
𝐻1 : κ ≠ 0 N grande
Práctica
• Prueba z de que kappa es igual a cero
– Decisión:
• Rechazamos la hipótesis nula de que la concordancia de
los métodos se debe sólo al azar
– Conclusión:
• Se concluye que los métodos tienen una concordancia
casi perfecta para determinar el uso de terapia
hormonal
Práctica
. kapci question diary, tab
diary
question No Yes Total
No 14,696 164 14,860

Yes 231 969 1,200
Total 14,927 1,133 16,060
N=16060
Kappa (95% CI) = 0.817 (0.800 - 0.835) (A)
A = analytical
Extendiendo la concordancia para
datos politómicos
• Para outcomes politómicos, se pueden aplicar

los mismos métodos para evaluar
concordancia, aunque con algunas
modificaciones
Proporción de acuerdo global: Ejemplo
Observador 2
Observador 1 0 1 2 3 4 5 Total
0 5 6
1 6 2 8
2 1 4 13 5 2 25
3 6 9 4 19
4 2 8 1 11
5 8 24 32
Total 6 10 21 16 22 25 100
𝐴𝑐𝑢𝑒𝑟𝑑𝑜𝑠 5 + 6 + 13 + 9 + 8 + 24
𝑝𝑜 = = = 0.65
𝐴𝑐𝑢𝑒𝑟𝑑𝑜𝑠 + 𝐷𝑒𝑠𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 100
van Swieten, et al. Stroke 1988;19:604-607

Kappa ponderada
• Para outcomes politómicos, nos interesa tanto la
concordancia perfecta como la parcial
– Ejemplo: lesión sospechosa vs. cáncer vs. normal
– La concordancia perfecta será menos frecuente con
más resultados posibles
• Kappa ponderada permite dar crédito a la

concordancia parcial
– Se dan pesos altos a las observaciones cercanas
– El peso asignado es arbitrario (0 a 1)
Kappa ponderada
• Arbitrariedad de pesos es una limitación
• Pesos recomendados por Fleiss et al.:
2 w: Peso Se aproxima al
𝑖−𝑗 i: Fila Coeficiente de
𝑤𝑖𝑗 = 1 − 2
𝑘−1 j: Columna Correlación
k: # categorías Intraclase
• Evaluar críticamente el esquema de pesos a

usar
Fleiss JL. Educ Psychol Meas. 1973; 33: 613-9
Kappa ponderada
• Ejemplo de esquema de pesos:
Observador 1
Observador 2 Ausente Mínima Moderada Severa
Ausente 1.00 0.89 0.56 0.00
Mínima 1.00 0.89 0.56
Moderada 1.00 0.89
Severa 1.00
𝑖−𝑗 2
𝑤𝑖𝑗 = 1 −
𝑘−1 2
Kappa ponderada
• Similar al estadístico kappa, aunque incluye
los pesos para observaciones similares:
𝑝𝑜 𝑤 − 𝑝𝑒 𝑤
κ 𝑤 =
1 − 𝑝𝑒 𝑤
σ 𝑛𝑖𝑗 × 𝑤𝑖𝑗 σ 𝐸(𝑛𝑖𝑗 ) × 𝑤𝑖𝑗

𝑝𝑜 𝑤 = 𝑝𝑒 𝑤 =
𝑁 𝑁
Kappa ponderada: Ejemplo
Tabla observada
Observador 1
Observador Ausente Mínima Modera Severa Total
2 da
Ausente 34 10 2 0 46
Mínima 6 8 8 2 24
Moderada 2 5 4 12 23
Severa 0 1 2 14 17
Total 42 24 16 28 110
Ausente Mínima Moderada Severa

Ausente 1.00 0.89 0.56 0.00
Mínima 1.00 0.89 0.56
Moderada 1.00 0.89
Severa 1.00
σ 𝑛𝑖𝑗 × 𝑤𝑖𝑗
𝑝𝑜 𝑤 =
𝑁
𝑎 ∙ 𝑤𝑎 + 𝑏 ∙ 𝑤𝑏 + 𝑐 ∙ 𝑤𝑏 + ⋯ + 𝑝 ∙ 𝑤𝑝
𝑝𝑜 𝑤 =
𝑁
34 × 1.00 + 10 × 0.89 + 2 × 0.56 + ⋯ + 14 × 1.00

𝑝𝑜 𝑤 =
110
102.11
𝑝𝑜 𝑤 = = 0.9283
110
Tabla esperada
Observador 1
Observador Ausente Mínima Modera Severa Total
2 da
Ausente 17.56 10.04 6.69 11.71 46
Mínima 9.16 5.24 3.49 6.11 24
Moderada 8.78 5.02 3.35 5.85 23
Severa 6.49 3.71 2.47 4.33 17
Total 42 24 16 28 110
Ausente Mínima Moderada Severa

Ausente 1.00 0.89 0.56 0.00
Mínima 1.00 0.89 0.56
Moderada 1.00 0.89
Severa 1.00
σ 𝐸(𝑛𝑖𝑗 ) × 𝑤𝑖𝑗
𝑝𝑒 𝑤 =
𝑁
𝐸(𝑎) ∙ 𝑤𝑎 + 𝐸(𝑏) ∙ 𝑤𝑏 + 𝐸(𝑐) ∙ 𝑤𝑏 + ⋯ + 𝐸(𝑝) ∙ 𝑤𝑝

𝑝𝑒 𝑤 =
𝑁
17.56 × 1.00 + 10.04 × 0.89 + 6.69 × 0.56 + ⋯ + 4.33 × 1.00

𝑝𝑒 𝑤 =
110
76.56
𝑝𝑒 𝑤 = = 0.6960
110
𝑝𝑜 𝑤 = 0.9283
𝑝𝑒 𝑤 = 0.6960
𝑝𝑜 𝑤 − 𝑝𝑒 𝑤
κ 𝑤 =
1 − 𝑝𝑒 𝑤
0.9283 − 0.6960
κ 𝑤 = = 0.7641
1 − 0.6960
Práctica
• Resultados de mamografías evaluadas por dos
radiólogos
• Base de datos: rate2.dta
• Variables:
– Evaluación por radiólogo A (rada)
– Evaluación por radiólogo B (radb)
• Outcome politómico:
– Normal, Benigno, Sospechoso, Cáncer
Boyd NF, et al. J Natl Cancer Inst. 1982; 68: 357-63

. tab rada radb, exp cel nokey
Radiologis
t A's Radiologist B's assessment
assessment Normal benign suspect cancer Total
Normal 21 12 0 0 33
10.9 14.8 6.2 1.2 33.0
24.71 14.12 0.00 0.00 38.82
benign 4 17 1 0 22
7.2 9.8 4.1 0.8 22.0
4.71 20.00 1.18 0.00 25.88
suspect 3 9 15 2 29
9.6 13.0 5.5 1.0 29.0
3.53 10.59 17.65 2.35 34.12
cancer 0 0 0 1 1
0.3 0.4 0.2 0.0 1.0
0.00 0.00 0.00 1.18 1.18
Total 28 38 16 3 85
28.0 38.0 16.0 3.0 85.0
32.94 44.71 18.82 3.53 100.00
Sólo considera
Porcentaje de di 0.2471 + 0.2000 + 0.1765 + 0.0118 el acuerdo
acuerdo global .6354 perfecto
. tab rada radb, exp cel nokey
Radiologis
Normal 21 12 0 0 33
10.9 14.8 6.2 1.2 33.0
24.71 14.12 0.00 0.00 38.82
benign 4 17 1 0 22
7.2 9.8 4.1 0.8 22.0
4.71 20.00 1.18 0.00 25.88
suspect 3 9 15 2 29
9.6 13.0 5.5 1.0 29.0
3.53 10.59 17.65 2.35 34.12
cancer 0 0 0 1 1
0.3 0.4 0.2 0.0 1.0
0.00 0.00 0.00 1.18 1.18
Total 28 38 16 3 85
28.0 38.0 16.0 3.0 85.0
32.94 44.71 18.82 3.53 100.00
Sólo considera
Porcentaje de di (10.9 + 9.8 + 5.5 + 0.0)/85 el acuerdo
acuerdo esperado .3082 perfecto
Práctica
Estadístico kappa
𝑝𝑜 = 0.6353 𝑝𝑜 − 𝑝𝑒
κ= 0.6353 − 0.3082
1 − 𝑝𝑒 = = 0.4728
𝑝𝑒 = 0.3082 1 − 0.3082
. kap rada radb
Expected
63.53% 30.82% 0.4728 0.0694 6.81 0.0000

Práctica
Kappa ponderada en Stata: Opción para mostrar
kap criterio1 criterio2, wgt(w2) tab
a comparar Esquema de pesos a usar.
“w2” corresponde a pesos
sugeridos por Fleiss
Práctica
. kap rada radb, wgt(w2) tab
Radiologis
Normal 21 12 0 0 33
benign 4 17 1 0 22
suspect 3 9 15 2 29
cancer 0 0 0 1 1
Total 28 38 16 3 85
Ratings weighted by:

1.0000 0.8889 0.5556 0.0000
0.8889 1.0000 0.8889 0.5556
0.5556 0.8889 1.0000 0.8889
0.0000 0.5556 0.8889 1.0000
Expected
94.77% 84.09% 0.6714 0.1079 6.22 0.0000

Práctica
. kapci rada radb, wgt(w2) tab reps(1000)
Radiologis
Normal 21 12 0 0 33
benign 4 17 1 0 22
suspect 3 9 15 2 29
cancer 0 0 0 1 1
Total 28 38 16 3 85
This may take quite a long time. Please wait ...
B=1000 N=85
Kappa (95% CI) = 0.671 (0.533 - 0.789) (BC)
BC = bias corrected
Práctica
Generando ponderaciones para Kappa en Stata:
kapwgt nombre w11 \ w21 w22 \ w31 w32 w33 \ ...
Pesos:
Nombre del esquema Valor entre 0 y 1
de pesos Rellenar la tabla bajo la diagonal
. kapwgt pond 1 \ 0.5 1 \ 0.25 0.5 1 \ 0 0.25 0.5 1
. kap rada radb, wgt(pond) tab
Radiologis
Normal 21 12 0 0 33
benign 4 17 1 0 22
suspect 3 9 15 2 29
cancer 0 0 0 1 1
Total 28 38 16 3 85
Ratings weighted by:

1.0000 0.5000 0.2500 0.0000
0.5000 1.0000 0.5000 0.2500
0.2500 0.5000 1.0000 0.5000
0.0000 0.2500 0.5000 1.0000
Expected
80.88% 59.54% 0.5275 0.0722 7.31 0.0000

. kapci rada radb, wgt(pond) tab reps(1000)
Radiologis
Normal 21 12 0 0 33
benign 4 17 1 0 22
suspect 3 9 15 2 29
cancer 0 0 0 1 1
Total 28 38 16 3 85
This may take quite a long time. Please wait ...
B=951 N=85
Kappa (95% CI) = 0.528 (0.403 - 0.648) (BC)
BC = bias corrected
.
Kappa para >2 evaluadores
• Múltiples versiones
– Depende si los evaluadores son únicos y si el
número de evaluadores es constante
• La versión más útil es aquella para un número

constante de evaluadores de Fleiss et al.
• Está implementada en Stata
Fleiss JL, et al. Statistical Methods for Rates and Proportions. 3rd ed. New York: Wiley, 2003
. use http://www.stata-press.com/data/r13/p615b
. list
subject rater1 rater2 rater3 rater4 rater5
1. 1 1 2 2 2 2
2. 2 1 1 3 3 3
3. 3 3 3 3 3 3
4. 4 1 1 1 1 3
5. 5 1 1 1 3 3
6. 6 1 2 2 2 2
7. 7 1 1 1 1 1
8. 8 2 2 2 2 3
9. 9 1 3 3 3 3
10. 10 1 1 1 3 3
Fleiss JL, et al. Statistical Methods for Rates and Proportions. 3rd ed. New York: Wiley, 2003
. kap rater1 rater2 rater3 rater4 rater5
There are 5 raters per subject:
Outcome Kappa Z Prob>Z
1 0.2917 2.92 0.0018

2 0.6711 6.71 0.0000
3 0.3490 3.49 0.0002
combined 0.4179 5.83 0.0000

Estadístico kappa: Limitaciones
• Es afectado por la prevalencia del desenlace
– Si la prevalencia es muy alta o baja, el acuerdo
esperado por azar aumentará, y kappa disminuirá
↑𝑃 𝑝𝑜 − 𝑝𝑒
↑ 𝑝𝑒 ↓κ κ=
1 − 𝑝𝑒
↓𝑃
– Índice de prevalencia ayuda a evaluar este efecto

(rango: 0-1)
𝑎−𝑑
PI =
𝑁
Criterio 1
𝑝𝑜 = 0.80
Anormal Normal
Anormal 40 10 50 κ = 0.60
Criterio 2
Normal 10 40 50 𝐼𝑆 = 0.00
50 50 100 𝐼𝑃 = 0.00
Criterio 1
Anormal Normal 𝑝𝑜 = 0.80
Anormal 70 10 80 κ = 0.38
Criterio 2
Normal 10 10 20 𝐼𝑆 = 0.00
80 20 100 𝐼𝑃 = 0.60
• Es afectado por el sesgo entre evaluadores
– Sesgo: Diferencia en la proporción de positivos y negativos
entre evaluadores (probabilidades marginales distintas)
– Sesgo disminuye el acuerdo esperado por azar, y aumenta
kappa
𝑝𝑜 − 𝑝𝑒
S𝑒𝑠𝑔𝑜 ↓ 𝑝𝑒 ↑κ κ=
1 − 𝑝𝑒
– Índice de sesgo ayuda a evaluar dicho efecto (0-1)
𝑏−𝑐
BI =
𝑁
Criterio 1
𝑝𝑜 = 0.60
Anormal Normal
Anormal 40 20 60 κ = 0.17
Criterio 2
Normal 20 20 40 𝐼𝑆 = 0.00
60 40 100 𝐼𝑃 = 0.20
Criterio 1
Anormal Normal 𝑝𝑜 = 0.60
Anormal 40 35 75 κ = 0.24
Criterio 2
Normal 5 20 25 𝐼𝑆 = 0.30
45 55 100 𝐼𝑃 = 0.20
Kappa ajustado
• Existe un kappa ajustado por prevalencia y
sesgo (PABAK)
– No es interpretable, pero permite evaluar el
efecto de prevalencia y sesgo sobre kappa
𝑃𝐴𝐵𝐴𝐾 = 2𝑝𝑜 − 1
• Kappa depende del PI y BI

𝑃𝐴𝐵𝐴𝐾 − 𝑃𝐼 2 + 𝐵𝐼 2
– Aumenta con el BI κ=
1 − 𝑃𝐼 2 + 𝐵𝐼 2
– Disminuye con el PI
𝑃𝐴𝐵𝐴𝐾 − 𝑃𝐼 2 + 𝐵𝐼 2
κ=
1 − 𝑃𝐼 2 + 𝐵𝐼 2
Kappa ajustado: Ejemplo
• Detección de ARDS según dos definiciones
(NAECC vs. LISS)
Criterio LISS
Presente Ausente
73 45 118
𝑝𝑜 = 0.8220 κ = 0.6338
𝑃𝐴𝐵𝐴𝐾 = 2𝑝𝑜 − 1 = 2 0.8220 − 1 = 0.64

Reflexiones
• Ningún estadístico puede mostrar todos los aspectos
del acuerdo interevaluador
• Es recomendable calcular varios estadísticos

complementarios
• Si se calcula kappa, considerar:

– Sesgo
– Prevalencia
– Número de categorías
– Esquema de pesos más apropiado
Gracias por su atención.

Concordancia y Kappa PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Concordancia y Kappa PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Concordancia y Kappa

Clase de MD, MSc Andrés Carnero, adaptado por JAZ.

• Concordancia para datos dicotómicos

• Concordancia para datos politómicos

• Brinda información sobre la confiabilidad de una

• Permite evaluar la utilidad de una prueba si no

1. Intraindividuo: Variación dentro de cada sujeto

2. Intraobservador: Variación dentro de cada

3. Interobservador: Variación entre observadores

• En esta clase discutiremos cómo evaluar la

Adaptado de: Kottner J, et al. J Clin Epidemiol. 2011; 64: 96e106

• Detección de ARDS según dos definiciones

• Su interpretación es directa: representa el grado

• No toma en cuenta el grado de acuerdo que

𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝐸 𝑎 + 𝐸(𝑑)

𝑎+𝑏 𝑎+𝑐 73 × 66 𝑏+𝑑 𝑐+𝑑 45 × 52

𝑎𝑐𝑢𝑒𝑟𝑑𝑜𝑠 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜𝑠 𝐸 𝑎 + 𝐸(𝑑)

• Valores entre -1 y +1 (0=Ausencia de acuerdo)

Acuerdo observado por

Landis JR, et al. Biometrics. 1977: 159-74

Ghandur-Mnaymneh L, et al. Cancer Invest. 1993;11(6):641-51

𝐸(𝑎) + 𝐸(𝑑) 26.4 + 12.4

Ghandur-Mnaymneh L, et al. Cancer Invest. 1993;11(6):641-51

Ghandur-Mnaymneh L, et al. Cancer Invest. 1993;11(6):641-51

• Kappa depende del número de categorías de

• Base de datos: hormone.dta

Merlo J, et al. Am J Epidemiol. 2000;152:788–92

No 14,696 231 14,927

Total 14,860 1,200 16,060

No 14,696 231 14,927

Total 14,860 1,200 16,060

𝐸(𝑎) + 𝐸(𝑑) 13811.7 + 84.7

No 14,696 231 14,927

Total 14,860 1,200 16,060

kap criterio1 criterio2, tab

(Descargar el .ado con “findit kapci”)

Opción para mostrar

No 14,696 164 14,860

Total 14,927 1,133 16,060

97.54% 86.53% 0.8174 0.0079 103.64 0.0000

. kapci question diary, tab

No 14,696 164 14,860

Total 14,927 1,133 16,060

Kappa (95% CI) = 0.817 (0.800 - 0.835) (A)

• Para outcomes politómicos, se pueden aplicar

van Swieten, et al. Stroke 1988;19:604-607

• Kappa ponderada permite dar crédito a la

• Pesos recomendados por Fleiss et al.:

• Evaluar críticamente el esquema de pesos a

σ 𝑛𝑖𝑗 × 𝑤𝑖𝑗 σ 𝐸(𝑛𝑖𝑗 ) × 𝑤𝑖𝑗

Ausente Mínima Moderada Severa

34 × 1.00 + 10 × 0.89 + 2 × 0.56 + ⋯ + 14 × 1.00

Ausente Mínima Moderada Severa

𝐸(𝑎) ∙ 𝑤𝑎 + 𝐸(𝑏) ∙ 𝑤𝑏 + 𝐸(𝑐) ∙ 𝑤𝑏 + ⋯ + 𝐸(𝑝) ∙ 𝑤𝑝

17.56 × 1.00 + 10.04 × 0.89 + 6.69 × 0.56 + ⋯ + 4.33 × 1.00

• Base de datos: rate2.dta

Boyd NF, et al. J Natl Cancer Inst. 1982; 68: 357-63

. kap rada radb

63.53% 30.82% 0.4728 0.0694 6.81 0.0000

kap criterio1 criterio2, wgt(w2) tab

Ratings weighted by:

94.77% 84.09% 0.6714 0.1079 6.22 0.0000

This may take quite a long time. Please wait ...