Sunteți pe pagina 1din 4

CONFIABILIDAD Y VALIDEZ

Antes de que una prueba pueda utilizarse con cierta seguridad, debe obtenerse informacin
acerca de su confiabilidad y validez por lo que a sus propsitos especficos concierne.

CONFIABILIDAD
Ningn instrumento psicomtrico puede considerarse de valor a menos que sea una medida
consistente, o confiable. En consecuencia, una de las primeras cosas que ser necesario
determinar acerca de una prueba de elaboracin reciente es si resulta lo suficientemente
confiable como para medir 10 que fue diseada para medir. Si, en ausencia de cualquier cambio
permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o
lesin, las puntuaciones en una prueba varan con la ocasin o la situacin, es probable que la
prueba no sea lo suficientemente confiable como para ser usada en describir y evaluar a la gente y
hacer predicciones sobre su conducta. Hablando en trminos estrictos, ms que ser una
caracterstica de una prueba, la confiabilidad es una propiedad de las puntuaciones obtenidas
cuando se administra la prueba a un grupo particular de personas en una ocasin particular y bajo
condiciones especficas (Thompson, 1994).
En la teora clsica de los tests se supone que la calificacin observada de una persona en una
prueba est compuesta por una puntuacin "real" ms algn error no sistemtico de medicin. La
puntuacin real de una persona en una prueba particular se define como el promedio de las
puntuaciones que obtendra si presentara la prueba un nmero infinito de veces. Es obvio que la
puntuacin real de una persona nunca puede medirse de manera exacta; tiene que ser estimada a
partir de su puntuacin observada en la prueba. Tambin se asume en la teora clsica de los tests
que la varianza de las puntuaciones observadas de un grupo de personas es igual a la varianza de
sus puntuaciones reales ms la varianza debida a los errores no sistemticos de medicin.

VALIDEZ
De manera tradicional, la valide: se ha definido como el grado en que una prueba mide lo que
est diseada para medir. Una desventaja de esta definicin es la implicacin de que una prueba
slo tiene una validez, la cual supuestamente es establecida por un solo estudio para determinar
si la prueba mide lo que se supone debe medir. En realidad, una prueba puede tener muchas
clases de validez, dependiendo de los propsitos especficos para los cuales fue diseada, la
poblacin objetivo, las condiciones en que se aplica y el mtodo para determinar la validez. Los
mtodos por los cuales puede determinarse la validez incluyen analizar el contenido de la
prueba, calcular la correlacin entre las calificaciones en la prueba y las calificaciones en el
criterio de inters e investigar/las caractersticas psicolgicas particulares o constructos
medidos por la prueba. Todos esos procedimientos son tiles en la medida que mejoran la
comprensin de 10 que mide una prueba y proporcionan informacin para tomar decisiones
sobre la gente. Tambin puede ser de inters evaluar la validez creciente de una prueba, es decir,
qu tanto aade la prueba a la prediccin y comprensin de los criterios que ya son anticipados
por otras medidas.

A diferencia de la confiabilidad, la cual es influida slo por los errores no sistemticos de
medicin, la validez de una prueba es afectada tanto por los errores no sistemticos como por los
sistemticos (constantes). Por esta razn, una prueba puede ser confiable sin ser vlida, pero no
puede ser vlida sin ser confiable. La confiabilidad es una condicin necesaria, pero no
suficiente, para la validez.

Tipos de validez.

-Validez de contenido
La apariencia fsica de una prueba con respecto a sus propsitos particulares (volideede facie) es
ciertamente una consideracin importante a tener en cuenta al comercializarla. No obstante, el
concepto de validez de contenido se refiere a algo ms que a la apariencia. La validez de
contenido atae a si ste produce un rango de respuestas que son representativas del dominio
entero o universo de habilidades, entendimientos y otras conductas que supuestamente debe
medir la prueba. Se supone que las respuestas a la muestra de reactivos de una prueba bien
diseada son indicativas de lo que seran las respuestas al universo entero de conductas de
inters.
Un anlisis de la validez de contenido ocurre ms a menudo en conexin con las pruebas de
aprovechamiento, para las cuales por lo general no existe un criterio externo especificado. La
validez de contenido tambin es de inters en las medidas de aptitud, inters y personalidad,
aunque quiz menos que la validez de constructo o la relacionada con un criterio. En una prueba
de aprovechamiento se evala la validez de contenido analizando la composicin de la prueba
para determinar el grado en que representa los objetivos de la enseanza. Una forma de lograr
esto es comparar el contenido de la prueba con un bosquejo o tabla de especificaciones
concernientes a la materia que va a ser cubierta por la prueba. Si expertos en la materia coinciden
en que una prueba parece y acta como un instrumento diseado para medir lo que se supone
debe medir, entonces se dice que posee validez de contenido. Dichos juicios involucran no slo la
apariencia de los reactivos de la prueba, sino tambin los procesos cognitivos implicados al
responderlos. Es obvio que el proceso de evaluar la validez de contenido no debera esperar
hasta que se haya elaborado la prueba. El juicio de los expertos en 10 que se refiere a qu
reactivos incluir es necesario desde el principio del proceso de elaboracin de la prueba. Al
definir el universo del contenido de la prueba y la muestra de ese universo que se va a incluir, los
diseadores establecen las condiciones indispensables para lograr construir un instrumento con
validez de contenido.




-Validez con relacin a criterio.
La validacin de cualquier prueba de habilidad consiste en relacionar las calificaciones en la
prueba con el desempeo en medidas o estndares de criterio con los cuales pueden
compararse las calificaciones. Sin embargo, de manera tradicional, el trmino validez con relacin
a criterio hace referencia a procedimientos en los cuales las calificaciones en la prueba de un
grupo de personas se comparan con las puntuaciones, clasificaciones u otras medidas de
desempeo. Algunos ejemplos de criterios contra los cuales se validan las pruebas son las notas
escolares, calificaciones de un supervisor y nmero o cantidad de dlares en ventas. Siempre que
se dispone de una medida de criterio en el momento de la prueba puede determinarse la validez
concurrente del instrumento. Cuando las calificaciones en el criterio no estn disponibles sino
hasta cierto tiempo despus de que se aplic la prueba, se enfatiza la validez predictiva de la
prueba.

-Validez concurrente.
Los procedimientos de validacin concurrente se emplean siempre que una prueba se aplica a
personas clasificadas en varias categoras, como grupos de diagnstico clnico o niveles
socioeconmicos, con el propsito de determinar si las puntuaciones en la prueba de las
personas ubicadas en una categora son significativamente diferentes de las de los individuos
que se hallan en otras categoras. Si la calificacin promedio vara de modo sustancial de una
categora a otra, entonces la prueba puede usarse como otra forma, quiz ms eficiente, de
asignar a la gente a esas categoras. Por ejemplo, las puntuaciones en el Inventario Multifactico
de Personalidad de Minnesota (MMPD han sido tiles en la identificacin de trastornos
mentales especficos, porque se ha encontrado que los pacientes a quienes los psiquiatras
diagnostican trastornos particulares tienden a diferir del resto de la poblacin en las
puntuaciones que obtienen en ciertos grupos de reactivos (escalas).

-Validez predictiva.
La validez predictiva atae a la precisin con que las puntuaciones de una prueba predicen
puntuaciones de criterio, segn lo indica la correlacin entre la prueba (predictor) y un criterio del
desempeo futuro. La validez predictiva es de inters sobre todo para las pruebas de aptitud o
de inteligencia, ya que las puntuaciones en esos tipos de instrumentos a menudo se
correlacionan con las puntuaciones, notas de cursos, calificaciones de pruebas de
aprovechamiento y otros criterios de desempeo.
La magnitud de un coeficiente de validez predictiva est limitada por la confiabilidad de las
variables de prediccin y de criterio; no puede ser mayor que la raz cuadrada del producto de esas
dos confiabilidades. Por sta y por otras razones, la correlacin entre un predictor y una variable
de criterio, calculada mediante procedimientos descritos en el apndice A, vara con el criterio
especfico, pero rara vez es mayor a .60. Como la proporcin de la varianza en la variable de
criterio que puede ser explicada por la variacin en la variable predictora es igual al cuadrado de la
correlacin entre las variables predictora y de criterio, por lo general no puede predecirse ms de
36% de la variacin en las puntuaciones de criterio a partir de las puntuaciones obtenidas en una
prueba u otro instrumento psicomtrico. Esto deja sin explicar o predecir 64% de la varianza de
criterio. Considerando que la validez predictiva de la mayora de las pruebas es menor de .60, es
comprensible por qu deben hacerse con cuidado las afirmaciones concernientes a la posibilidad
de predecir los criterios de desempeo a partir de las puntuaciones obtenidas en las pruebas
psicolgicas.

S-ar putea să vă placă și