Documente Academic
Documente Profesional
Documente Cultură
2008
Resumen
El presente artculo se centra en la validez de contenido, especficamente, en la utilizacin del juicio de
expertos como parte del proceso para su estimacin. Se presenta una conceptualizacin de la validez de
contenido, seguida de la definicin y caracterizacin del juicio de expertos. Finalmente se propone una gua
para la realizacin del juicio que incluye una planilla de calificacin con indicadores y la aplicacin e
interpretacin de los estadsticos Kappa y Kendall como ndices de concordancia.
Palabras clave: Juicio de expertos, validez de contenido, estadstica Kappa, Coeficiente de Kendall.
Abstract
This paper focuses on the content validity, specifically, on the use of experts judgments as part of the process
to estimate it. First, a content validity conceptualization is introduced, followed by the definition and
characterization of the experts judgment. Finally, a guide to carry out the judgment is proposed including a
grade chart with indicators and the application and interpretation of the Kappa and Kendall statistics as
concordance indexes.
Key words: Experts judgment, content validity, Kappas statistics Kendalls coefficient.
Introduccin
Una pregunta que surge cuando se intenta medir el comportamiento es qu tan vlida y confiable es la
medicin. El presente escrito se centra en la validez de contenido, especficamente, en la utilizacin del
juicio de expertos como parte del proceso para su estimacin. Esta tcnica debe realizarse de manera
adecuada, ya que muchas veces constituye el nico indicador de la validez de contenido. Actualmente el
juicio de expertos es una prctica generalizada que requiere interpretar y aplicar sus resultados de manera
acertada, eficiente y con toda la rigurosidad metodolgica y estadstica, para permitir que la evaluacin
basada en la informacin obtenida de la prueba pueda ser utilizada con los propsitos para la cual fue
diseada.
La validez de contenido se establece en diferentes situaciones, siendo dos de las ms frecuentes: (a) el
diseo de una prueba, y (b) la validacin de un instrumento que fue construido para una poblacin
diferente, pero que se adapt mediante un procedimiento de traduccin (equivalencia semntica). Hyrks,
Appelqvist--Schmidlechner y Oksa (2003) plantean que es muy frecuente que instrumentos que ya han
sido estandarizados en pases de habla inglesa sean utilizados en pases de habla no inglesa, por lo cual se
debe realizar el proceso de traduccin, adaptacin y estandarizacin del instrumento para dichos pases.
Estos procesos presentan dificultades importantes, ya que la sola adaptacin del instrumento no
necesariamente genera una equivalencia cultural debido a las barreras del idioma, a significados culturales
*
Facultad de Psicologa Universidad El Bosque, Bogot-Colombia. E-mail: escobarjazmine@unbosque.edu.co
*
* Facultad de Psicologa Institucin Universitaria Iberoamericana, Bogot-Colombia. E-mail: cuervomla@hotmail.com
28 Escobar-Prez & Cuervo-Martnez
Validez de contenido
La validez de contenido consiste en qu tan adecuado es el muestreo que hace una prueba del universo
de posibles conductas, de acuerdo con lo que se pretende medir (Cohen & Swerdik, 2001); los miembros
de dicho universo U pueden denominarse reactivos o tems. Para autores como Ding y Hershberger
(2002), la validez de contenido es un componente importante de la estimacin de la validez de inferencias
derivadas de los puntajes de las pruebas, ya que brinda evidencia acerca de la validez de constructo y
provee una base para la construccin de formas paralelas de una prueba en la evaluacin a gran escala.
Para establecer un posible universo de reactivos se requiere tener una adecuada conceptualizacin y
operacionalizacin del constructo, es decir, el investigador debe especificar previamente las dimensiones a
medir y sus indicadores, a partir de los cuales se realizarn los tems. Los tems deben capturar las
dimensiones que la prueba pretende medir, por ejemplo, en la prueba de procesos lectores (PROLEC) de
Cuetos, Rodrguez y Ruano (2001) el constructo procesos lectores est evaluado en las dimensiones de
procesos sintcticos, semnticos y pragmticos. Los tems seleccionados deben por tanto medir las
dimensiones del constructo: Un error de validez de contenido sera que la dimensin semntica no tuviera
ningn tem que la evaluara, o que los tems de la dimensin sintctica slo evaluaran una parte de sta, al
contrastar con lo que se pretende evaluar en dicha dimensin.
El constructo medido por el instrumento y el uso que se les dar a las puntuaciones obtenidas son
aspectos fundamentales tanto para la estimacin como para la conceptualizacin de la validez de
contenido. En efecto, en la evaluacin de un instrumento debe tenerse en cuenta su funcin, es decir, si
ser utilizado para el diagnstico, la medicin de habilidades o la medicin de desempeo, entre otros; los
ndices de validez para una funcin de un instrumento no son necesariamente generalizables a otras
funciones del mismo instrumento (Ding & Hershberger, 2002). A su vez, la validez de contenido no slo
puede variar de acuerdo con las poblaciones en las cuales ser utilizado el instrumento, sino que puede
estar condicionada por un dominio particular del constructo; diferentes autores pueden asignarle el mismo
nombre a un constructo, pero poseer diferentes dimensiones y conceptualizaciones, por lo tanto, un
instrumento puede tener una validez de contenido satisfactoria para una definicin de un constructo pero
no para otras. En sntesis, el concepto esencial de validez de contenido es que los tems de un instrumento
de medicin deben ser relevantes y representativos del constructo para un propsito evaluativo particular
(Mitchell, 1986, citado en Ding & Hershberger, 2002)
Juicio de expertos
Varios autores como Skjong y Wentworht (2000), y de Arquer (1995) han propuesto diversos pasos
para la realizacin del juicio de expertos: (a) Preparar instrucciones y planillas, (b) seleccionar los
expertos y entrenarlos, (c) explicar el contexto, (d) posibilitar la discusin, y (e) establecer el acuerdo
entre los expertos por medio del clculo de consistencia. Adems de estos pasos comunes a los diferentes
autores, se debe instruir claramente al juez en la dimensin y el indicador que mide cada tem o un grupo
de ellos. Es de especial relevancia brindar informacin sobre el uso que tendrn los resultados de la
prueba, ya que como se mencion en un apartado anterior, estos estn estrechamente relacionados con la
validez de contenido. En efecto, utilizaciones diferentes de las puntuaciones harn que vare la pertinencia
y suficiencia de los tems.
Si tomamos el caso de una prueba de autoestima para deportistas de alto rendimiento, por ejemplo, es
diferente el valor que se le atribuye a los tems si la prueba se va a usar para seleccionar a los deportistas
que asistirn a competencias de alta exigencia por primera vez, que si se van a usar para describir un perfil
de los diferentes aspectos psicolgicos que pueden tener efecto en el desempeo del deportista. En el
primer caso los tems de autoeficacia (una dimensin de la autoestima) deben tener una ponderacin ms
30 Escobar-Prez & Cuervo-Martnez
alta o ser mayor en nmero frente a otras dimensiones como el autoconcepto y la autoimagen; en el
segundo caso, la prueba de autoestima debe medir equilibradamente todas las dimensiones.
Existen varios mtodos para la obtencin de juicios de expertos, que pueden clasificarse segn si la
evaluacin se realiza de manera individual o grupal. En el primer grupo se encuentran algunos como el
mtodo de agregados individuales y el mtodo Delphi, en ambos mtodos cada juez realiza la evaluacin
individualmente, pero en el Delphi, luego de analizar las respuestas se le enva a cada juez la mediana
obtenida y se le pide que reconsidere su juicio hasta que se logre un consenso (de Arquer, 1995). Segn
Van Der Fels-Klerx, Gossens, Saaticamp y Horst (2002) esta tcnica ofrece un alto nivel de interaccin
entre los expertos, evitando las desventajas de la dinmica grupal.
Entre las tcnicas grupales se encuentra la nominal y el consenso, en ambas se requiere reunir a los
expertos, pero en la ltima se exige mayor nivel de acuerdo. Estas tcnicas pueden tener problemas si se
generan discusiones tensas o si existen variables individuales como la personalidad y las habilidades
sociales de los jueces que generen sesgos. Otro procedimiento utilizado para el juicio de expertos se basa
en el emparejamiento de los tems con el dominio. En este caso se entrega a los jueces una lista de
objetivos (categoras) y se les presenta cada tem en una ficha separada. El juez compara cada tem con la
lista y registra el resultado en una hoja de respuestas, indicando al lado de cada tem el nmero del
objetivo. (Martnez, 1995). La precisin de los juicios segn Stewart, Roebber y Bosart, (1997) depende
tanto de las caractersticas de los jueces y de su experiencia, como de las caractersticas de la tarea. Dentro
de esta ltima, la teora cognitiva sugiere tres categoras importantes: (a) La complejidad de la estructura
de la tarea, (b) la ambigedad en el contenido de la tarea, y (c) la forma de la presentacin de la tarea.
Gua para la realizacin de un juicio de expertos
de sta. Esto aumenta la contextualizacin del juez respecto a la prueba, incrementando a su vez el nivel
de especificidad de la evaluacin; ya que la validez de los tems est directamente relacionada con su
utilizacin, por ejemplo, para hacer un diagnstico o un tamizaje, o evaluar desempeo, entre otros.
5. Establecer los pesos diferenciales de las dimensiones de la prueba. Esto slo se hace cuando
algunas de las dimensiones tienen pesos diferentes. Por ejemplo, si una prueba va a ser utilizada para el
diagnstico y asignacin a un programa de rehabilitacin de una adiccin, se debe dar mayor peso a las
dimensiones que midan la calidad de vida que a las que evalen personalidad adictiva.
6. Diseo de planillas. La planilla se debe disear de acuerdo con los objetivos de la evaluacin. No
obstante, en el Anexo 1 proponemos una planilla que puede ser utilizada en la gran mayora de juicios de
expertos, con sus respectivos indicadores para la calificacin.
7. Calcular la concordancia entre jueces. Para esto se utilizan los estadsticos Kappa y Kendall que se
describirn a continuacin. La informacin sobre cada estadstico, las hiptesis de trabajo y los criterios de
interpretacin, se muestran en la tabla 1.
8. Elaboracin de las conclusiones del juicio que sern utilizadas para la descripcin psicomtrica de la
prueba.
Estadsticos para anlisis
Para estimar la confiabilidad de un juicio de expertos, es necesario conocer el grado de acuerdo entre
ellos, ya que un juicio incluye elementos subjetivos (Aiken, 2003). Cuando la medida de acuerdo obtenida
es alta indica que hay consenso en el proceso de clasificacin o asignacin de puntajes entre los
evaluadores, igualmente da cuenta de la intercambiabilidad de los instrumentos de medicin y
reproducibilidad de la medida. (Ato, Benavente & Lpez, 2006).
Para determinar el grado de acuerdo entre los jueces se han utilizado diferentes procedimientos, una
aproximacin inicial fue calcular el porcentaje de acuerdo, medida que resulta insuficiente ya que no
incluye el acuerdo esperado por el azar (Jakobsson & Westergren, 2005). Luego se incluyeron medidas de
correlacin que eran interpretadas como ndices de acuerdo; sin embargo un alto ndice de correlacin no
necesariamente implica que el acuerdo sea alto tambin. Artstein y Poesio (2005) adaptaron un ejemplo de
Barko y Carpenter (1976) (citados en Artstein & Poesio, 2005) que refleja esta situacin: En dos
evaluaciones, dos codificadores asignaban a cada tem una puntuacin entre uno y diez, en la primera
evaluacin los codificadores A y B estn completamente de acuerdo; en la segunda evaluacin los
codificadores C y D estn en desacuerdo en todos los tems, pero les asignan valores que estn linealmente
correlacionados. En los dos casos se obtiene el mismo ndice, con lo que queda claramente expresada la
inconveniencia de medidas nicamente de correlacin para la estimacin del acuerdo.
Posteriormente se propuso el coeficiente Kappa, que se convirti rpidamente en el ndice de acuerdo
ms utilizado en ciencias biolgicas y sociales. Inicialmente el coeficiente se utilizaba nicamente en
datos nominales, despus se hizo una generalizacin para incluir datos ordinales a este nuevo coeficiente
al que se le denomin weighted k-coefficient. Kendall tambin propuso un coeficiente de acuerdo para
datos ordinales, basado en el grado de varianza de la suma de los rangos obtenidos de los diferentes
jueces. Actualmente se vienen investigando otros procedimientos para estimar el acuerdo, se estn
aplicando los modelos log-lineales y los mixtos (mezcla de distribuciones). En el primero se analizan tanto
la estructura del acuerdo como la del desacuerdo que se presentan en los datos, con este enfoque se puede
conocer el ajuste del modelo y se puede aplicar a datos ordinales; mientras que en el segundo se incluyen
variables latentes (Ato et al., 2006).
32 Escobar-Prez & Cuervo-Martnez
Estadstico Kappa. Este estadstico genera una medida de acuerdo entre evaluadores y se utiliza
cuando las variables estn dadas en una escala nominal, es decir nicamente clasifican. Por ejemplo, un
juez clasifica los tems de una prueba de conocimientos en contestables o no contestables por una persona
que tenga un nivel adecuado de conocimiento en el rea, o el caso de psiclogos clnicos que tienen que
clasificar a pacientes entre los que requieren seguimiento permanente y los que no.
El estadstico tiene un rango entre -1 y 1, pero generalmente se ubica entre 0 y 1. Si el coeficiente es 1
indica acuerdo perfecto entre los evaluadores, si es 0 indica que el acuerdo no es mayor que el esperado
por el azar, y si el valor del coeficiente es negativo el nivel se acuerdo es inferior al esperado por el azar
(Sim & Wright, 2005). No obstante, obtener estos valores extremos es improbable, lo comn es obtener un
amplio espectro de valores intermedios que se interpretan teniendo como referencia la complejidad de la
evaluacin y el nmero de categoras a evaluar, es decir, la interpretacin es relativa al fenmeno medido.
En el caso de los psiclogos que deciden cules pacientes requieren supervisin y cules no, como la
complejidad de la evaluacin es moderada (con slo dos categoras de clasificacin), se espera un alto
acuerdo entre ellos. Un acuerdo de 0.55 sera considerado bajo, y se podra inferir que hay dificultad en la
clasificacin, o que incluso, pueden tener ambigedad en los indicadores que les permiten decidir en uno u
otro sentido. En otro caso, si en un colegio el objetivo es clasificar los alumnos con trastornos de
aprendizaje y discapacidad, para identificar el nmero de casos de dislexia, discalculia, disgrafa,
discapacidad cognoscitiva, y discapacidad sensorial; obtener 0.55 se interpretara como un ndice de
acuerdo moderado, atendiendo a la mayor complejidad de la evaluacin. Sin embargo si dicha
clasificacin se va a realizar con el objetivo de enviarlos a terapia o a aulas de apoyo se requiere un
acuerdo mayor, al igual que si se trata de tems para validacin de una prueba.
El coeficiente de Kappa tiene como ventaja que corrige el porcentaje de acuerdo debido al azar y es
muy sencillo de calcular. Sin embargo, se han realizado varias crticas principalmente relacionadas con
que el ndice de acuerdo se ve afectado por el nmero de categoras y por la forma en la que estn
distribuidas las observaciones.
Coeficiente de concordancia W de Kendall: Este coeficiente se utiliza cuando se quiere conocer el
grado de asociacin entre k conjuntos de rangos (Siegel & Castellan, 1995), por lo cual es particularmente
til cuando se les solicita a los expertos asignarle rangos a los tems, por ejemplo de 1 a 4. El mnimo
valor asumido por el coeficiente es 0 y el mximo 1, y su interpretacin es la misma que para el
coeficiente de Kappa. Sin embargo, hay que hacer la salvedad que hay que revisar la calificacin dada a
cada tem, ya que puede haber una alta concordancia en los aspectos, un ejemplo de ello es que el tem no
sea adecuado. Obviamente en este caso se debe eliminar o modificar el tem completamente hasta que
ajuste a los objetivos de la medicin de forma acertada.
Segn Siegel y Castellan (1995), un valor alto de la w puede interpretarse como un reflejo de que los k
observadores o jueces estn aplicando los mismos estndares al asignar rangos a los tems. Esto no
garantiza que los ordenamientos observados sean correctos, ya que todos los jueces pueden concordar si
todos estn utilizando un criterio incorrecto para clasificar. Es debido a esto ltimo que el criterio de
seleccin de jueces cobra especial relevancia al igual que la independencia entre los mismos.
Para estimar en SPSS 14 el coeficiente de Kappa siga estos pasos: a) Haga clic en Analizar y
seleccione Estadsticos descriptivos, b) Haga clic en Tablas de contingencia, all encontrar un cuadro de
dilogo y c) Haga clic en Estadsticos y seleccione Kappa.
Para estimar en SPSS 14 el coeficiente de Kendall siga estos pasos: a) Haga clic en Analizar y
seleccione Pruebas no paramtricas, b) Haga clic en k muestras relacionadas y seleccione W de Kendall y
c) seleccione Kendal (ver tabla 1).
Validez de contenido y juicio de expertos 33
Tabla 1.
Resumen de estadsiticos para el anlisis de los datos
COEFICIENTES ESCALA INFORMACIN HIPTESIS RECHAZO DE H0 E
DE LOS QUE PROVEE INTERPRETACIN
DATOS
El grado de H0: Los rangos son Se rechaza H0 cuando el valor
Escala concordancia entre independientes, no observado excede al valor crtico
Coeficiente de ordinal. varios rangos de n concuerdan. (con un de 0.05). El SPSS
concordancia W de objetos o individuos. H1: Hay concordancia indica el nivel de significancia, y
Kendall Aplicable a estudios significativa entre cuando es inferior al 0.05, se
interjuicio o los rangos. rechaza la H0 y se concluye que
confiabilidad hay concordancia significativa
interprueba. entre los rangos asignados por los
jueces. Adems se interpreta la
fuerza de la concordancia, que
aumenta cuando W se acerca a 1.
H0: El grado de Al igual que en el caso anterior se
acuerdo es 0, es rechaza H0 cuando el valor
Estadstico Kappa Escala El grado de acuerdo decir no hay observado excede al valor crtico
(K) para datos en nominal entre evaluadores acuerdo. (con un de 0.05). El SPSS
escalas nominales. indica el nivel de significancia, y
H1: Existe un cuando es inferior al 0.05, se
acuerdo significativo rechaza la H0 y se concluye que
entre evaluadores, es hay acuerdo entre los
decir K >0 evaluadores, el valor de k brinda
la proporcin de acuerdo
quitndole el acuerdo que puede
darse por azar.
Recomendaciones finales
Hay aspectos dentro del juicio de expertos que no pueden ser controlados por el investigador, como por
ejemplo la complejidad o el nivel de dificultad de la tarea; sin embargo, los factores de ambigedad del
contenido de la tarea y su forma de presentacin deben manejarse en el procedimiento de juicio de
expertos de manera que no aumenten el error ni disminuyan la confiabilidad. Otro aspecto a considerar es
que el investigador debe propiciar el contexto adecuado para obtener la mayor cantidad de informacin
posible de los jueces expertos y solicitar opiniones adicionales sobre la prueba que pueden dar
informacin sobre aspectos que no se evaluaron en el juicio. Finalmente, se debe recordar que aunque una
prueba obtenga una muy buena evaluacin de los jueces y un alto ndice de concordancia, debe estar en
continua revisin y mejoramiento.
Referencias
Aiken, Lewis (2003). Test psicolgicos y evaluacin. Mxico: Pearson Education.
Artstein, R. & Poesio, M. (2005). Kappa3 = Alpha (or Beta). (Technical Report CSM-437). Department of
Computer Science: University of Essex.
Ato, M., Benavente, A., & Lpez, J. J. (2006). Anlisis comparativo de tres enfoques para evaluar el acuerdo entre
observadores. Psicothema, 18(3), 638 645.
Cohen, R. & Swerdlik, M. (2001). Pruebas y evaluacin psicolgicas: Introduccin a las pruebas y a la medicin. (4
ed.). Mxico: Mc Graw Hill.
Cuetos, F., Rodrguez, B & Ruano, E (2001). PROLEC, Batera de evaluacin de los procesos lectores de los nios
de educacin primaria. Madrid: TEA Ediciones.
34 Escobar-Prez & Cuervo-Martnez
de Arquer, M. (1995). Fiabilidad Humana: mtodos de cuantificacin, juicio de expertos. Centro Nacional de
Condiciones de Trabajo. Recuperado el 3 de Junio de 2006, de http://www.mtas.es/insht/ntp/ntp_401.htm
Ding, C. & Hershberger, S. (2002). Assessing content validity and content equivalence using structural equation
modeling. Structural Equation Modeling: A Multidisciplinary Journal, 9 (2), 283-297.
Hyrks, K., Appelqvist-Schmidlechner, K & Oksa, L. (2003). Validating an instrument for clinical supervision using
an expert panel. International Journal of nursing studies, 40 (6), 619 -625.
Jakobsson, U. &y Westergren, A. (2005). Statistical methods for assessing agreement for ordinal data. Scandinavian
Journal of sCaring Science, 19(4), 427-431.
Kitamura, T. & Kitamura, F. (2000). Reliability of clinical judgment of patients competency to give informed
consent: A case vignette study. Psychiatry and Clinical Neurosciences, 54(2), 245-247.
Lobo, E. Bellido, M. Campos, R., Saz, P., Huyse, F., De Jonge, P. & Lobo, A. (2003). Primera validacin en
espaol del mtodo INTERMED: Un sistema de temprana deteccin de problemas biopsicosociales y de
consumo de servicios en pacientes mdico-quirrgicos. Cuadernos de Medicina Psicosomtica y Psiquiatra de
Enlace, 67/68, 89- 97.
Martnez, R. (1995). Psicometra: teora de los test psicolgicos y educativos. Madrid: Editorial Sntesis.
McGartland, D. Berg, M., Tebb, S. S., Lee, E. S. & Rauch, S. (2003). Objectifying content validity: Conducting a
content validity study in social work research. Social Work Research, 27 (2), 94-104.
Olea, J, Abad, F. J. & Ponsoda, V. (2002). Elaboracin de un banco de tems, prediccin de la dificultad y diseo de
anclaje. Metodologa de las ciencias del comportamiento, Vol. Especial, 427-430.
Siegel, S. & Castellan, N. J. (1995) Estadstica no paramtrica aplicada a las ciencias de la conducta. Mxico: Trillas.
Sim, J. & Wright, C. (2005) The Kappa statistic in reliability studies: Use, interpretation, and sample size
requirements. Physical Therapy, 85 (3), 257-268.
Skjong, R. & Wentworth, B. (2000). Expert Judgement and risk perception. Recuperado el 15 de Enero de 2006, de
http://research.dnv.com/skj/Papers/SkjWen.pdf
Stewart, T., Roebber, P. & Bosart, L. (1997). The importance of the task in analyzing expert judgment.
Organizational Behavior and Human Decision processes, 69 (3), 205-219.
Summers, B., Williamson, T. & Read, D. (2004). Does method of acquisition affect the quality of expert judgment?
A comparison of education with on-the-job learning. Journal of Occupational and Organizational Psychology.
77(2), 237-258.
Utkin, L. V. (2006). A method for processing the unreliable expert judgments about parameters of probability
distributions. [Versin Electrnica]. European Journal of Operational Research. 175(1), 385-398.
Van Der Fels-Klerx, I. Gossens, L. Saaticamp, H & Horst, S. (2002). Elicitation of quantitative data from a
heterogeneous Expert Panel: Formal process and application in animal health. Risk Analisis, 22 (1), 67-81.
De acuerdo con los siguientes indicadores califique cada uno de los tems segn corresponda.
CATEGORIA CALIFICACIN INDICADOR
SUFICIENCIA 1 No cumple con el criterio Los tems no son suficientes para medir la dimensin
2. Bajo Nivel Los tems miden algn aspecto de la dimensin pero no
Los tems que pertenecen a corresponden con la dimensin total
una misma dimensin 3. Moderado nivel Se deben incrementar algunos tems para poder evaluar la
bastan para obtener la dimensin completamente.
medicin de sta. 4. Alto nivel Los tems son suficientes
X1
X2
X3
Hay alguna dimensin que hace parte del constructo y no fue evaluada? Cul?____________________________
____________________________________________________________________________________________
*Para los casos de equivalencia semntica se deja una casilla por tem, ya que se evaluar si la traduccin o el
cambio en vocabulario son suficientes.