Sunteți pe pagina 1din 9

Concordancia intra- e interevaluadores

Adalberto Campo-Arias1
Edwin Herazo2

Resumen

Introducción: En psiquiatría, los estudios de concordancia intra e interevaluador son im-


portantes para medir la confiabilidad o reproducibilidad de las evaluaciones (entrevistas o
escalas heteroaplicadas). Objetivo: Presentar algunos principios sobre el proceso de valida-
ción de entrevistas diagnósticas o escalas heteroaplicadas y el manejo y comprensión de las
pruebas estadísticas más útiles para estos fines. Método: Revisión de literatura. Resultados:
Se entiende por concordancia el grado de acuerdo o de desacuerdo entre las evaluaciones
hechas a un mismo sujeto de forma sucesiva por parte de un evaluador o entre dos o más
entrevistadores. Este proceso es de la validación de instrumentos, ya sea para identificar
posibles casos o confirmar la presencia de un trastorno mental. En la concordancia in-
terevaluador, dos o más psiquiatras realizan una entrevista de manera independiente y
casi simultánea a una persona y así se puede estimar el grado de acuerdo, convergencia
o concordancia (o lo contrario) entre las evaluaciones y los consiguientes diagnósticos. La
concordancia intraevaluador es el grado de acuerdo en el diagnóstico que tiene en el tiempo
un mismo evaluador. La prueba kappa de Cohen se usa para estimar la concordancia y se
esperan, por lo general, valores superiores a 0,50; pero es necesario conocer la prevalencia
esperada del trastorno mental, el número de evaluadores o evaluaciones y el número de
categorías o casillas diagnósticas posibles.

Palabras clave: psicometría, escalas, reproducibilidad de resultados, estudios de validación,


revisión.

Title: Intra- and Inter-Rater Concordance

Abstract

Introduction: Intra- and inter-rater concordance studies are important in order to measure
the reliability or the reproducibility of evaluations (interviews or scales applied by a rater) in
psychiatry. Objective: To present some principles regarding the validation process of diagnostic
interviews or scales applied by a rater, and regarding the handling and comprehension of
more useful statistical tests. Method: Review of literature. Results: Concordance is understood
as the grade of agreement or disagreement among evaluations made to the same subject
successively by an evaluator or among two or more interviewers. This process is part of the

1
Médico psiquiatra. MSc (c). Grupo de Investigación del Comportamiento Humano,
Instituto de Investigación del Comportamiento Humano. Bogotá, Colombia.
2
Médico psiquiatra. Grupo de Investigación del Comportamiento Humano, Instituto de
Investigación del Comportamiento Humano, Bogotá, Colombia.

424 Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010


Concordancia intra- e interevaluadores

validation of instruments, scale reliability, in cación por personas sin formación


order to identify possible cases or to confirm técnica o profesional en salud mental
the presence of a mental disorder. Inter-rater
o por personas con entrenamiento y
concordance refers to the case when two or
more psychiatrists realize an interview inde- experiencia clínica formal (4).
pendently and almost simultaneously to a No obstante, las discusiones
person; this can help to estimate the grade académicas iniciales sobre el posible
of agreement, convergence or concordance impacto negativo de este abordaje
(and disagree, divergence or discordance)
de los síntomas de las personas que
among the evaluations and the consequent
diagnostics. Intra-rater concordance is the consultan por trastornos mentales
grade of agreement on the diagnosis made (1), la revisión cuidadosa de las mani-
by the same rater in different times. Cohen’s festaciones clínicas y la presentación
kappa is used to estimate concordance, and de un diagnóstico, provisional o uno
values higher than 0.50 are expected in ge-
más revisado, demanda profesionales
neral. To reliably estimate Cohen’s kappa is
necessary to know previously the expected en salud mental bien entrenados y
prevalence of mental disorder, the number estudiosos y, en particular, psiquia-
of evaluations or raters, and the number of tras, que en última instancia son los
possible diagnosis categories. profesionales llamados a dirimir las
controversias diagnósticas en salud
Key words: Psychometrics, scales, repro-
ducibility of results, validation studies, mental. El diagnóstico en casi todos
review. los contextos de la medicina, y en
especial de la psiquiatría, exige un
Introducción juicio clínico cuidadoso para dar
a los síntomas una connotación
El desarrollo de la psiquiatría no adaptativa o disfuncional, es
en las últimas décadas guarda una decir, importancia o relevancia clí-
estrecha relación con la implemen- nica (5).
tación sistemática de criterios diag- La concordancia se entiende como
nósticos para el uso de los provee- el grado de acuerdo, o desacuerdo,
dores de servicios en salud mental, entre las evaluaciones que una per-
a pesar de las limitaciones de estos sona realiza en forma sucesiva a otra
criterios (1,2). persona o entre dos o más entrevis-
La estandarización de los crite- tadores que hacen una evaluación a
rios diagnósticos se complementó un mismo sujeto (6,7). Este proceso
con el diseño y validación de entre- hace parte de la validación de instru-
vistas diagnósticas, con el propósito mentos, de comprobar la confiabili-
de estandarizar la mayor parte del dad, ya sea para identificar posibles
proceso de evaluación de las per- casos o confirmar la presencia de un
sonas en la práctica clínica y en trastorno mental (6).
investigación epidemiológica (3). Se El objetivo de esta revisión es
diseñaron entrevistas estructuradas presentar algunos principios por con-
o semiestructuradas para la apli- siderar en el proceso de validación

Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010

425
Campo-Arias A., Herazo E.

de entrevistas diagnósticas o escalas nes diagnósticas no estructuradas


heteroaplicadas, y el manejo y com- o estandarizadas, cambios en los
prensión de las pruebas estadísticas criterios diagnósticos o la misma
más útiles para estos fines. historia natural de los trastornos
mentales que se evalúan; es decir, la
Principios inestabilidad o cambios que muestra
el conjunto de síntomas en el tiempo
El objetivo central de una entre- (15,16).
vista diagnóstica es definir qué perso- Otro punto que se debe tener
na reúne criterios para un trastorno presente es que si dos o más profe-
mental y cuál es el trastorno mental sionales realizan una entrevista a la
específico, independientemente de misma persona en forma indepen-
quién lleve a cabo la entrevista (8). diente o el mismo evaluador hace dos
La determinación de la concordan- o más entrevistas en un periodo, se
cia en el caso de las escalas auto- o debe tomar uno de los evaluadores o
heteroaplicadas, que habitualmente una de las evaluaciones como criterio
dan puntuaciones, se realiza median- de referencia (gold standard) (17).
te el procedimiento que se conoce Los criterios de referencia perfectos
como prueba-reprueba (test-retest, son excepcionales en medicina, más
en inglés) (9). Este proceso se vale aún en psiquiatría (18). Sin embargo,
de pruebas estadísticas, como la se parte del supuesto de que este
correlación de Pearson (10,11), el criterio que se considera punto de
coeficiente de correlación intraclase comparación hace una clasifica-
(12), el coeficiente de concordancia ción perfecta de los diagnósticos,
de Lin (13) o el coeficiente de concor- sin errores; es decir, con 100% de
dancia de Altman y Bland (14). sensibilidad y 100% de especificidad
Tanto en la validación de escalas (17-20). Esta comparación con un
como en la validación de entrevistas, criterio de referencia hace parte,
la segunda evaluación se realiza igualmente, de la validación criterio
con un periodo definido, según el (concurrente) de cualquier escala o
trastorno que se evalúe. Se supo- instrumento (21,22).
ne que durante éste los síntomas
se mantienen estables, con pocas Concordancia intra- e
o pequeñas variaciones, y que las interevaluadores u observadores
condiciones de medición o entrevista
son similares (15). Si dos o más psiquiatras reali-
Es importante tener presente zan una entrevista de manera inde-
que en psiquiatría el cambio de pendiente y casi simultánea a una
diagnóstico con el paso del tiempo es persona se puede estimar el grado de
un fenómeno frecuente. Este hecho acuerdo, convergencia o concordan-
se puede relacionar con evaluacio- cia (y de desacuerdo, divergencia o

426 Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010


Concordancia intra- e interevaluadores

discordancia) entre las evaluaciones un evaluador con la de otro evalua-


y los consiguientes diagnósticos, si dor que se toma como criterio de
se toma uno de los evaluadores como referencia y sólo son posibles dos
criterio de referencia. Se parte del diagnósticos, es decir K=2 y M=2,
hecho de que ambos profesionales se puede construir una tabla de
tienen el mismo entrenamiento; a contingencia de 2×2, con un míni-
esta estimación se le llama concor- mo de cuatro casillas (tetracórica),
dancia interevaluadores o interob- para observar la concordancia entre
servadores (6,23,24). evaluadores (24,27-29).
Por otra parte, si un psiquiatra A continuación un ejemplo de
realiza dos o más evaluaciones a una un estudio que investigaba la con-
misma persona con el propósito de cordancia interevaluador. En una
conocer o confirmar un diagnóstico investigación que se realizó en Nava-
con el uso de una técnica idéntica, se rra, España, Landa y colaboradores
puede establecer la concordancia en cuantificaron la concordancia en la
el diagnóstico que tiene en el tiempo identificación de un trastorno mental
el mismo evaluador. A este cálculo entre pediatras y los profesionales de
se le conoce como concordancia salud mental. En la investigación se
intraevaluador o intraobservador incluyeron 207 niños o adolescentes,
(7,25). Sin duda, la concordancia menores de 16 años; hallaron una
intraevaluador tiene el sesgo que concordancia observada (Po) para la
induce la memoria del evaluador presencia de un trastorno mental del
que puede recordar detalles de la 64,3% y un valor de kappa media
evaluación precedente que él mismo de Cohen de 0,58, con un intervalo
realizó (26). de confianza del 95% entre 0,51 y
0,66 (30).
Pruebas estadísticas para Pocos estudios se realizan para
concordancia inter- o explorar la concordancia intraeva-
intraevaluador con resultados luador. Por ejemplo, Conradsson
cualitativos y colaboradores evaluaron en 45
adultos mayores en Umea, Suecia, las
El diagnóstico en psiquiatría es, puntuaciones que dio el mismo eva-
por lo general, cualitativo o categóri- luador en una escala para cuantificar
co, o sea que se llega a la conclusión equilibrio, de uno a tres días después
de que la persona reúne criterios o de la primera aplicación. Este instru-
no para un trastorno mental al mo- mento consta de 14 preguntas, con
mento de la evaluación o en algún un patrón de respuesta politómico
momento de la vida (5). El número (Likert), con cinco opciones que se
de categorías diagnósticas posibles califican de cero a cuatro. Informa-
es K y el número de evaluadores es ron la concordancia intraevalua-
M. Si se compara la evaluación de dor para cada pregunta mediante el

Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010

427
Campo-Arias A., Herazo E.

coeficiente de K ponderada e intervalo depresivo menor, síntomas depre-


de confianza del 95%. Los valores de sivos subsindrómicos y ausencia
K (kappa) ponderada se encontraron de trastorno depresivo), entre las
entre 0,55 y 0,83 (31). aplicaciones que se realizaron cada
De la misma forma, es posible dos semanas (dos, cuatro o más
diseñar una tabla de contingencia semanas) e informaron los valores
más compleja, en la que se compara, de K ponderada: 0,80, 0,42 y 0,51,
por ejemplo, la concordancia en el a la segunda semana, a la cuarta
diagnóstico específico entre un gru- semana y más semanas, respecti-
po de pacientes que reúne criterios vamente (32).
para varias categorías posibles (K>2), La concordancia entre dos eva-
por ejemplo, un trastorno depresivo luadores o entre dos o más observa-
(trastorno depresivo mayor, trastorno ciones del mismo evaluador puede
distímico, trastorno depresivo debido ser real o producto o resultado del
a una condición médica, trastorno azar. Por ello, además, de la con-
depresivo debido al uso de sustancia cordancia observada, es necesario
o medicamento, o trastorno depresivo estimar hasta qué grado de acuerdo
no especificado). Y a la vez partici- lo media el azar o la probabilidad
pan dos evaluadores o se realizan (33,34). La prueba estadística que se
evaluaciones separadas en el tiempo usa para este propósito es la prueba
(M=2). Para esta situación, la tabla de K de Cohen (35). Cuando se calcula
contingencia K×M será de 5×2 (25). a partir de dos categorías posibles y
A manera de ejemplo de un es- dos evaluadores únicamente, K=2 y
tudio de concordancia de más de dos M=2, de una tabla de contingencia
categorías diagnóstica, Lin y colabo- 2×2, se llama K media de Cohen o,
radores observaron la concordancia simplemente, K. Sin embargo, en los
en 579 adultos, tras responder una casos en los que se calcula con K>2
escala disponible en Internet para (o con un resultado ordinal) o M>2
identificar trastornos depresivos se estima un valor de K ponderada
(trastorno depresivo mayor, trastorno (24,27,36) (véase Tabla 1).

Tabla 1. Tabla para el cálculo de K cuando con hay más de dos posibilidades de
diagnóstico (K>2)

Clasificación evaluador 1*
Clasificación
evaluador 2 Diagnóstico 1 Diagnóstico 2 Diagnóstico 3 Totales
Diagnóstico 1
Diagnóstico 2
Diagnóstico 3
Totales

* Se toma como criterio de referencia.

428 Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010


Concordancia intra- e interevaluadores

La K media de Cohen se puede Fórmula 1


calcular con la Fórmula 1. No obs-
tante, los programas estadísticos K = Po – Pe/1 - Pe
más usados en el mundo, como La Po = a + d/n (véase Tabla 3)
Epi-Info (37), PASW (anteriormen- La Pe = a + b/n [(a + c)/n + (b
te, SPSS) (38), SAS (39) o STATA + d)/n + (c + d)/n]
(40), lo estiman más rápidamente e Po = Frecuencia o prevalencia
informan el intervalo de confianza observada
del 95%, como una medida de pre- Pe = Frecuencia o prevalencia
cisión de la estimación (41-43). Los esperada
valores de K pueden encontrarse
entre cero y uno, a mayor cercanía Consideración importante
con el uno mayor concordancia en
las mediciones que se realizaron Al igual que la sensibilidad, la
por el mismo evaluador o diferen- especificidad y los valores predicti-
tes evaluadores. La forma como se vos que se calculan con los datos de
interpreta de manera racional este una tabla de contingencia de 2×2, la
coeficiente se presenta en la Tabla prueba K es directamente propor-
2 (44,45). La interpretación de la cional a la frecuencia o prevalencia
prueba estadística debe considerar del trastorno mental que se estudia
la utilidad clínica de las mediciones (47,48). En consecuencia, la K puede
en estudio (46). ser baja, no obstante el alto valor para
la concordancia observada (Po) (49).
Tabla 2. Interpretación cualitativa de los La K suele ser más robusta cuando
valores de K
la prevalencia del trastorno que se
Valores de K Interpretación investiga es alta y debilitarse cuando
Entre 0 y 0,20 Deficiente la prevalencia es baja (50,51).
Entre 0,21 y 0,40 Pobre
Tamaño de la muestra
Entre 0,41 y 0,60 Aceptable
Entre 0,61 y 0,80 Buena El tamaño de la muestra se
Entre 0,81 y 1,00 Excelente ignora con frecuencia en los estu-

Tabla 3. Tabla de contingencia de 2×2

Clasificación Clasificación evaluador 1*


evaluador 2 Presente Ausente Totales
Presente A B a+b
Ausente C D c+d
Totales a+c b+d a + b + c + d (n)
* Se toma como criterio de referencia.

Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010

429
Campo-Arias A., Herazo E.

dios de validación u observación del tamaño de muestra razonable para


desempeño psicométrico de los ins- contar un valor de K lo suficiente-
trumentos en salud (18). El cálculo mente preciso.
de la muestra para un estudio de
concordancia y el cálculo de un valor Referencias
K debe considerar varios puntos: el
número de evaluadores o evaluacio- 1. Acton SG, Zodda JJ. Classification of
psychopathology. Goals and methods
nes (52) y el número de categorías o in an empirical approach. Theory Psy-
casillas diagnósticas posibles (53). chol. 2005;15(3):373-99.
De la misma forma, se debe ponderar 2. Rogler LH. Making sense of historical
changes in the diagnostic and statisti-
la prevalencia esperada o estimada cal manual of mental disorders: five
del trastorno mental, como si se propositions. J Health Soc Behav.
fuera a estimar la sensibilidad o la 1997;38(1):9-20.
3. Páez F, Nicolini H. Las entrevistas para
especificidad, y se parte de una tabla el diagnóstico clínico en psiquiatría.
de contingencia 2×2 (54). Tener muy Salud Mental. 1996;19(Supl 2):19-25.
presente este punto permite contar 4. Calinou I, McClellan J. Diagnos-
tic interviews. Cur Psychiatry Rep.
con un número suficiente de parti- 2004;6(2):88-95.
cipantes en cada casilla de la tabla 5. Eaton WW, Hall AL, MacDonald R,
por construir (48,50-52,55). Con esto McKibben J. Case identification in psy-
chiatric epidemiology: a review. Int Rev
se logra un mejor grado de precisión, Psychiatry. 2007;19(5):497-507.
con un intervalo de confianza más 6. Carrasco JL, Jover L. Métodos estadís-
estrecho (42-44,56). ticos para evaluar la concordancia. Med
Clin (Barc). 2004;122(Supl 1):28-34.
7. Alarcón AM, Muñoz S. Medición
Conclusiones en salud: Algunas consideracio-
nes metodológicas. Rev Med Chile.
Los estudios de concordancia 2008;136(1):125-30.
8. Othmer E, Othmer SC. DSM-IV-TR. La
inter- e intraevaluador son impor- entrevista clínica. Fundamentos. Tomo
tantes para medir la confiabilidad o I. Madrid: Masson; 2001.
reproducibilidad de las evaluaciones 9. Sánchez R, Echeverry J. Validación
de escalas de medición en salud. Rev
(entrevistas o escalas) en psiquiatría. Salud Pública. 2004;6(3):302-18.
Para las evaluaciones con resultados 10. Pearson K. Determination of the
categóricos (cualitativos), la concor- coefficient of correlation. Science.
1909;30(757):23-5.
dancia más allá del azar se estima 11. Spearman C. Correlation calcula-
con el coeficiente de K de Cohen ted from faulty data. Br J Psychol.
(media o ponderada). El coeficiente 1910;3:271-95.
12. Shrout PE, Fleiss JL. Intraclass correla-
de K se puede encontrar entre cero y tions: uses in assessing rater reliability.
uno, y por lo general se espera entre Psychol Bull. 1979;86(2):420-8.
0,41 y 0,60 o más. La prevalencia 13. Lin L. A concordance correlation
coefficient to evaluate reproducibility.
del trastorno o trastornos que se Biometrics. 1989;45(1):255-68.
investigan puede afectar la estima- 14. Bland JM, Altman DG. Statistical meth-
ción del coeficiente. Es necesario un ods for assessing agreement between

430 Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010


Concordancia intra- e interevaluadores

two methods of clinical measurement. medicine: 3. Measures of observer


Lancet. 1986;1(8476):307-10. variability (kappa statistic). CMAJ.
15. Lecrubier Y. Refinement of diagnosis 2004;171(11):1369-73.
and disease classification in psychia- 28. Álvarez-Martínez HE, Pérez-Campos
try. Eur Arch Psychiatry Clin Neurosci. E. Utilidad clínica de la tabla 2x2. Rev
2008;258 Suppl 1:6-11. Eviden Invest Clin. 2009;2(1):22-7.
16. Neighbors HW, Trieweiler SJ, Ford BC, 29. Colimon K-M. Programa de estudio
Muroff JR. Racial differences in DSM y programa de control. En: Colimon
diagnosis using a semi-structured KM. Fundamentos de epidemiología.
instrument: The importance of clinical 3ª edición. Medellín: Corporación para
judgment in the diagnosis of Afri- Investigaciones Biológicas; 2010. p.
can Americans. J Health Soc Behav. 123-124.
2003;44(3):237-56. 30. Landa N, Goñi A, García de Jalón E, Ló-
17. Rielgelman RK, Hirsch RP. Definición de pez-Goñi JJ. Concordancia en el diag-
enfermedad: la prueba de oro. Bol Of nóstico entre pediatra y salud mental.
Sanit Panam. 1991;111(6):534-38. An Sist Sanit Navar. 2009;32(2):161-8.
18. Knottnerus JA, van Weel C, Muris JWM. 31. Conradsson M, Lundin-Olsson L,
Evaluation of diagnostic procedures. Lindelöf N, Littbrand H, Malmqvist L,
BMJ. 2002;324(7335):477-80. Gustafson Y, et al. Berg Balance Scale:
19. López-Jiménez F, Rohde LEF, Luna- Intrarater test-retest reliability among
Jiménez MA. Problemas y soluciones en older people dependent in activities
la interpretación de pruebas diagnósti- of daily living and living in residential
cas. Rev Invest Clin. 1998;50(1):65-72. care facilities. Phys Ther. 2007;87(9):
20. Castro-Jiménez MA, Cabrera-Rodrí- 1155-63.
guez D, Castro-Jiménez MI. Evaluación 32. Lin CC, Bai YM, Liu CY, Hsiao MC,
de tecnologías diagnósticas: concep- Chen JY, Tsai SJ, et al. Web-based tools
tos básicos en un estudio con mues- can be used reliably to detect patients
treo transversal. Rev Colomb Obstet with major depressive disorder and
Ginecol. 2007;58(1):45-52. subsyndromal depressive symptoms.
21. Morgan GA, Gliner JA, Harmon RJ. Mea- BMC Psychiatry. 2007;7:12.
surement validity. J Am Acad Child Ado- 33. Schuster C. Kappa as a parameter of a
lesc Psychiatry. 2001;40(6):729-31. symmetry model for rater agreement. J
22. B l a n d J M , A l t m a n D G . Va l i - Educ Behav Stat. 2001;26(3):331-42.
dating scales and indexes. BMJ. 34. Barnhart HX, Song J, Haber MJ. As-
2002;324(7337):606-7. sessing intra, inter and total agreement
23. Ludbrook J. Statistical techniques with replicated readings. Stat Med.
for comparing measurers and me- 2005;24(9):1371-84.
thods of measurements: a critical 35. Cohen J. A coefficient of agreement for
review. Clin Exp Pharmacol Physiol. nominal scales. Educ Psychol Meas.
2002;29(7):527-36. 1960;20(3):37-46.
24. Watkins MW, Pacheco M. Interobserver 36. Cohen J. Weighted kappa: nominal
agreement in behavioral research: scale agreement with provision for
importance and calculation. J Behav scaled disagreement or partial credit.
Educ. 2000;10(4):205-12. Psychol Bull. 1968;70(4):213-20.
25. Kramer HC, Periyakoil VS, Noda A. 37. Epi-Info 3.5.1. Atlanta: Centers for Di-
Kappa coefficients in medical research. sease Control and Prevention (CDC);
Stat Med. 2002;21(14):2109-29. 2008.
26. Ibáñez C, Maganto C. El proceso 38. PAWS 18.0. Chicago: SPSS. Inc;
de evaluación clínica: cogniciones 2009.
del evaluador. Summa Psicol UST. 39. SAS 9. SAS Institute Inc.; 2009.
2009;6(1):81-99. 40. STATA 11 for windows. College Station:
27. McGinn T, Wyer PC, Newmann TB, StataCorp LP; 2009.
Keitz S, Leipzig R, For GG, et al. 41. Herrera AN, Quintero C, Sanchez R.
Tips for learners for evidence-based Algunas estadísticas de uso frecuente

Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010

431
Campo-Arias A., Herazo E.

en investigación en salud (1ª parte). 49. Cicchetti DV, Feinstein AR. High agre-
Rev Colomb Anest. 1998;26:225-32. ement but low kappa: II. Resolving
42. Montori VM, Kleinbart J, Newman TB, the paradoxes. J Clin Epidemiol.
Keitz S, Wyer PC, Moyer V, et al. Mea- 1990;43(6):551-8.
sures of precision (confidence inter- 50. Streiner DL. Learning how to di-
vals). CMAJ. 2004;171(6):611-5. ffer: agreement and reliability statis-
43. Cepeda-Cuervo E, Aguilar W, Cervan- tics in psychiatry. J Can Psychiatry.
tes V, Corrales M, Díaz I, Rodríguez D. 1995;40(2):60-6.
Intervalos de confianza e intervalos de 51. Guggenmoos-Holzmann I. The me-
credibilidad para una proporción. Rev aning of kappa: Probabilistic concepts
Colomb Estat. 2008;31(2):211-28. of reliability and validity revisited. J Clin
44. Abraira V. El índice kappa. Semergen. Epidemiol. 1996;49(7):775-82.
2000;27(5):247-9. 52. Cantor AB. Sample-size calculations
45. McGinn T, Wyer PC, Newmann TB, for Cohen’s Kappa. Psychol Methods.
Keitz S, Leipzig R, Guyatt G, et al. 1996;1(2):150-3.
Understanding and calculating kappa. 53. Streiner DL. Diagnosing tests: Using and
CMAJ [Internet]. 2004 [citado 2010 Ene misusing diagnostic and screening tests.
26];171(11):1-9. Disponible en: www. J Pers Assess. 2003;81(3):209-19.
cmaj.ca/cgi/data/171/11/1369/DC1/1. 54. Flahault A, Cadilhac M, Thomas G.
46. Cepeda MS, Pérez A. Estudios de Sample size calculation should be
concordancia. En: Ruiz A, Gómez C, performed for design accuracy in diag-
Londoño D. Investigación clínica: epi- nostic test studies. J Clin Epidemiol.
demiología clínica aplicada: Bogotá: 2005;58(8):859-62.
Centro Editorial Javeriano, CEJA; 2001. 55. Kramer HC, Bloch DA. A note on case-
p. 287-301. control sampling to estimate kappa co-
47. Feinstein AR, Cicchetti DV. High agree- efficients. Biometrics. 1990;46(1):49-59.
ment but low kappa: I. The problems 56. Scotto MG, Garcés AT. Interpretando
of two paradoxes. J Clin Epidemiol. correctamente en salud pública esti-
1990;43(6):543-9. maciones puntuales, intervalos de con-
48. Byrt T, Bishop J, Carlin JB. Bias, pre- fianza y contrates de hipótesis. Salud
valence and kappa. J Clin Epidemiol. Publica Mex. 2003;45(6): 505-11.
1993;46(5):422-9.

Conflicto de interés: los autores manifiestan que no tienen ningún


conflicto de interés en este artículo.

Recibido para evaluación: 28 de enero del 2010


Aceptado para publicación: 27 de abril del 2010

Correspondencia
Adalberto Campo-Arias
Grupo de Investigación del Comportamiento Humano
Instituto de Investigación del Comportamiento Humano
Calle 58 No. 5-24, oficina 202
Bogotá, Colombia
campoarias@comportamientohumano.org

432 Rev. Colomb. Psiquiat., vol. 39 / No. 2 / 2010

S-ar putea să vă placă și