Sunteți pe pagina 1din 3

notas estadsticas

El ndice kappa
V. Abraira
Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Madrid.

La medicin es una actividad omnipresente tanto en la prctica como en la investigacin clnica. Como ejemplos se pueden citar desde actividades relativamente simples, como registrar la presin arterial mediante un esfigmomanmetro, hasta actividades ms complejas, como determinar la carga viral mediante una sofisticada tcnica de laboratorio, pasando por la evaluacin de la calidad de vida mediante un cuestionario diseado al efecto. Estos procesos de medicin estn siempre amenazados por diversos errores que condicionan la calidad tanto de la investigacin como de las decisiones clnicas que se apoyan en dichas mediciones1. Por ello es aconsejable que el clnico conozca algunos fundamentos de la teora de la medida, en particular los ndices usados en la evaluacin de los errores de medicin2. Bsicamente hay que considerar dos tipos de errores: el error debido a la precisin limitada del instrumento, que atenta a la reproducibilidad de la medicin introduciendo un error aleatorio, y el debido a la validez, tambin limitada, que introduce un error sistemtico. De modo esquemtico se puede decir que la validez tiene que ver con la cuestin de si el instrumento mide lo que debe medir, mientras que la precisin tiene que ver con cunto se aproxima la medida al valor real de la magnitud. En ambos casos es siempre una cuestin de grado, pues no existen instrumentos infinitamente precisos y vlidos: hay slo instrumentos ms precisos y/o vlidos que otros. En cuanto a la reproducibilidad, llamada tambin concordancia, se distingue entre la reproducibilidad del mismo instrumento en dos instantes de tiempo diferentes y se habla de concordancia o consistencia interna o intraobservador (p. ej., un radilogo clasifica igual la misma radiografa estudiada hoy y 2 meses despus?), y la reproducibilidad del mismo instrumento usado en diferentes condiciones (p. ej., dos radilogos diferentes clasifican del mismo modo la misma radiografa?), se habla entonces de concordancia o consistencia externa o interobservador. Este ejemplo es til tambin para

Tabla 1.
Radilogo A Radilogo B Neumona No neumona Total

Neumona

4 a c b d

r=a+b

10

No Total

10 14 t = a + c

80 u = b + d 86

s = c+ d 90 N = a + b + c + d 100

Correspondencia: Dr. V. Abraira. Unidad de Bioestadstica Clnica. Hospital Ramn y Cajal. Ctra. Colmenar, km 9,100. 28034 Madrid. Correo electrnico: victor.abraira@hrc.es SEMERGEN: 2000; 27: 247-249.

resaltar que en clnica el trmino instrumento de medida se suele usar en sentido amplio; aqu no es slo el aparato de rayos usado para obtener la imagen, sino el conjunto formado por el aparato y el observador que la interpreta. El procedimiento para evaluar la reproducibilidad de un instrumento consiste en comparar entre s distintas medidas de un mismo objeto y evaluar su grado de acuerdo (cuanto ms se parezcan estas medidas entre s, ms preciso es el instrumento). En el ejemplo anterior habra que comparar los resultados de la evaluacin de una serie de radiografas por el mismo radilogo en dos instantes de tiempo (concordancia interna) o por dos radilogos diferentes (concordancia externa). La manera de expresar los resultados de esta comparacin depende del tipo de variable implicada; en el caso de una variable binaria (tipo s o no; p. ej., enfermo o no enfermo) el ndice ms sencillo es la proporcin de acuerdos observados. Supongamos que en un estudio para evaluar la concordancia entre dos radilogos que interpretan radiografas de trax, clasificando cada una como neumona s o no, ofrece los resultados de la tabla 1. La proporcin de acuerdo observado es Po = (80 + 4)/100 = 0,84. Este ndice es muy intuitivo y fcilmente interpretable: tomar valores entre 0 (total desacuerdo) y 1 (mximo acuerdo). Sin embargo, como indicador de reproducibilidad tiene el inconveniente de que, aun en el caso de que los dos observadores clasifiquen con criterios independientes (p. ej., un radilogo con todo su leal saber y entender y el otro tirando un dado al aire), se producira un cierto grado de acuerdo por azar. Puede haber coincidencia en el resultado sin que exista nada ms que el puro azar, no el mismo criterio en la decisin. Es deseable que un ndice de concordancia tenga en cuenta este hecho y que, de algn modo, indique el grado de
SEMERGEN 247

Volumen 27, Nmero 5, Mayo 2001

Puntos clave
El ndice kappa () se usa para evaluar la concordancia o reproducibilidad de instrumentos de medida cuyo resultado es categrico (2 o ms categoras). El ndice kappa () representa la proporcin de acuerdos observados ms all del azar respecto del mximo acuerdo posible ms all del azar. En la interpretacin del ndice kappa () hay que tener en cuenta que el ndice depende del acuerdo observado, pero tambin de la prevalencia del carcter estudiado y de la simetra de los totales marginales.

Pe

Po

Concordancia por azar

Concordancia ms all del azar

O Figura 1. Representacin grfica del ndice kappa.

acuerdo que existe por encima del esperado por azar. En este sentido Cohen3 propuso el denominado ndice kappa (), que defini como: = PoPe 1Pe

siendo Po la proporcin de acuerdos observados y Pe la proporcin de acuerdos esperados en la hiptesis de independencia entre los observadores, es decir, de acuerdos por azar. A partir de la tabla 1, Po = (a + d)/N y Pe = (rt + su)/N2. La interpretacin de este ndice se facilita mediante su representacin grfica4. En la figura 1 se observa que el ndice representa la proporcin de concordancia observada ms all del azar, respecto de la mxima concordancia posible ms all del azar. En el ejemplo: Pe = y por lo tanto = 0,84 0,788 1 0,788 = 0,245 14 10 + 86 90 = 0,788 1002

es decir, el grado de acuerdo, una vez corregido el debido al azar, es mucho ms modesto (24,5%) que lo que indicaba el 84% de acuerdo crudo. Landis y Koch5 propusieron, y desde entonces ha sido ampliamente usada, la escala de valoracin del ndice que figura en la tabla 2.
*En la pgina 270 de este nmero, el autor del artculo al que se hace referencia contesta en una Carta al director a los comentarios del Dr. Abraira. Asimismo, en la pgina 272 la Dra. Prez analiza la situacin desde la seccin El rincn del autor y del lector.
248 SEMERGEN

Desde la propuesta inicial de Cohen3 el ndice ha sido progresivamente generalizado a clasificaciones multinomiales (con ms de dos categoras), ordinales, a ms de dos observadores, a diseos incompletos y a todas estas situaciones combinadas6, generalizaciones que suponen una mayor complejidad en el clculo pero que mantienen la misma interpretacin. Esta interpretacin est dificultada por algunos efectos poco intuitivos. En primer lugar, el ndice depende de la prevalencia del carcter observado7: cuanto ms cerca est de 0 o de 1, menor es el ndice para igual proporcin de acuerdos observados. En segundo lugar, depende de la simetra de los totales marginales7: en igualdad de acuerdos observados, cuanto menor sea la diferencia entre las prevalencias observadas por cada observador, menor es el ndice . El pequeo valor de para los datos de la tabla 1 se matiza a la luz de estos efectos: estamos en la peor de las situaciones posibles: baja prevalencia y similar para ambos observadores (0,14 para el radilogo A y 0,10 para el B). En un interesante artculo* recientemente publicado en esta Revista8, se estudia la concordancia en el diagnstico de nevus melanocticos entre atencin primaria (AP) y atencin especializada (AE), y se encuentra un ndice muy bajo, inferior al hallado en estudios similares, segn los propios autores comentan. Aunque no se dan detalles de cmo se ha calculado el ndice, la distribucin de los diagnsticos alternativos (hay 25 juicios clnicos distintos en AP y 12 en AE) indica que en este estudio estn presentes tanto el primer efecto comentado antes (prevalencias cercanas a 0, o incluso 0 si se han considerado todos los juicios clnicos para estimar el ndice ) como el segundo (prevalencias similares); en consecuencia, el ndice estar fuertemente penalizado y podra ser sta la causa de su bajo valor.
Tabla 2.
Kappa () Grado de acuerdo

< 0,00 0,00-0,20 0,21-0,40 0,41-0,60 0,61-0,80 0,81-1,00

Sin acuerdo Insignificante Mediano Moderado Sustancial Casi perfecto

V. Abraira. El ndice kappa

BIBLIOGRAFA
1. Sackett DL. A primer on the precision and accuracy of the clinical examination. JAMA 1992; 267: 2638-2644. 2. Abraira V. Errores en las mediciones y clasificaciones clnicas: precisin y validez. URL: http://www.hrc.es/bioest/Intro_errores.html [ltimo acceso: 29 de enero de 2001]. 3. Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas 1960; 20: 37-46. 4. Sackett DL, Hayes RJ, Guyatt G, Tugwell P. Epidemiologa clnica. Ciencia bsica para la medicina clnica (2. ed.). Buenos Aires: Editorial Mdica Panamericana, 1994.

5. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33: 159-174. 6. Abraira V, Prez de Vargas A. Generalization of the kappa coefficient for ordinal categorical data, multiple observers and incomplete designs. Qestii 1999; 23: 561-571. 7. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes. J Clin Epidemiol. 1990; 43: 543-549. 8. Rodrguez Caravaca G, Villar del Campo C, Gonzlez Mosquera M, car Corral E, Gonzlez Pieiro B, Lpez Bran E. Concordancia diagnstica entre atencin primaria y atencin especializada al evaluar nevus melanocticos. SEMERGEN 2000; 26: 428-431.

SEMERGEN 249

S-ar putea să vă placă și