Sunteți pe pagina 1din 9

Confiabilidad: Se refiere al grado en que la aplicacin repetida, de un instrumento de

medicin, al mismo sujeto u objeto produce resultados iguales, consistentes,


coherentes. Si hacemos un test hoy a un grupo de personas y nos da ciertos resultados, si
se aplica dentro de un mes y los resultados varan, tal prueba no sera confiable.

Factores que determinan la falta de confiabilidad: Existen mltiples motivos por los
cuales los puntajes obtenidos mediante la aplicacin de un test determinado pueden no
ser confiables. Se explicaran estos en los distintos momentos del proceso de evaluacin.

A) Se construye la prueba:
En todos los test objetivos la mayor fuente de medicin lo constituye el
muestreo de contenido. Tanto si el muestreo es tendencioso, como si no
es lo suficientemente extenso, los puntajes resultantes no poseern una
elevada confiabilidad.
Muchos tems de test no requieren que la persona formule una respuesta
sino que reconozca la respuesta correcta. Estos ltimos reciben el
nombre de tems de reconocimiento y su ejemplo ms sencillo lo
constituyen los reactivos verdadero-falso. Siempre que el tem suponga
reconocimiento de una o ms respuestas correctas la posibilidad de
adivinacin desempea un papel en los puntajes obtenidos en el test. Para
contrarrestar la adivinacin y aumentar la confiabilidad lo mejor es
aumentar el nmero de respuestas alternativas.
Otra fuente de no-confiabilidad son los errores debidos a la inestabilidad
de los puntajes. En muchas situaciones de aplicacin de tests, se espera
que el puntaje de un individuo represente no solo su posicin inmediata,
sino tambin la que ocupara durante un cierto tiempo. Por el contrario,
tenemos la expectativa de que otro tipo de medidas psicolgicas varen
en periodos relativamente corto. Siempre que los individuos participan
en un experimento, de modificacin de actitudes por ejemplo, es
esperable que se produzcan cambios de algn tipo y que las medidas
reflejen tales cambios en el comportamiento.
B) Se administra la prueba
Se debe tratar de examinar a todos los participantes en condiciones
uniformes. As, deben intentar reducirse las diferencias generales en el
ambiente en que se administran los tests. Ej. Iluminacin del lugar, nivel
de ruido o confort del lugar.
Es deseable que las instrucciones del test sean lo suficientemente
estandarizadas como para que todos los evaluadores las impartan de la
misma manera y presente los materiales en idntico orden y forma a
todos los examinados. Si bien la estandarizacin debe estar prevista
claramente en el material del test, y correspondera a la instancia de
construccin del mismo, puede presentar variaciones en el momento de
la administracin.
Parte del error de medicin se origina en las fluctuaciones azarosas en la
persona examinada, que aumentan o disminuyen su puntaje.
Distracciones momentneas, preocupaciones de ndole personal y otros
acontecimientos semejantes pueden influir en los puntajes de tests.
C) Se evala la prueba
Al evaluar, otros factores que afectan la confiabilidad. En los tests de
opcin mltiple, los errores que se comenten al evaluarlos, son
puramente mecnicos, Ej. Calificar de forma errnea una respuesta. En
los tests evaluados por PC se elimina esa posibilidad. En los tests de
composicin o ensayo una de las fuentes principales de no-confiabilidad
es que los diferentes profesores utilicen criterios de calificacin distintos.
El error tambin puede originarse por como el docente modifica su
criterio mientras corrige las pruebas y este se va a ver afectado
dependiendo de la posicin casual que ocupa el alumno en el grupo.
si distintos evaluadores deben dar su punto de vista sobre algo es
probable que no coincidan entre s en algunas de las evaluaciones. Ya que
Cuando en el proceso de evaluacin de un individuo interviene de
manera importante el criterio del evaluador se presentan variaciones que
disminuyan la confiabilidad.

Dimensiones de la confiabilidad

El concepto de confiabilidad se utiliza para abarcar varios aspectos o


dimensiones, cada uno de los cuales se relaciona con distintas fuentes de errores de
medicin y distintos procedimientos para evaluarlos.

Todo factor que incida en el puntaje de un sujeto y que no est relacionado con
lo que el instrumento intenta medir, representa una fuente de error; de manera que
debera haber tantas variedades de confiabilidad de tests, como condiciones que
afectasen las puntuaciones de los mismos. Sin embargo, ninguno de estos aspectos
es universalmente preferible a otro, la eleccin depende del uso a que se destinen las
puntuaciones del test. As es que:

a) Si se pretende evaluar en qu grado el puntaje de un sujeto en un test est


libre de errores de medicin causados por fluctuaciones temporales azarosas,
se hace referencia a la estabilidad. Esta dimensin de la confiabilidad est
ntimamente relacionada con las caractersticas de la variable que se desea
medir. Si lo que se evala son rasgos que tienen cierta estabilidad en los
sujetos (Personalidad) es esperable que los instrumentos de medicin sean
confiables en este sentido. Si, en cambio, se evalan estados de nimo, no
resulta relevante atender a la estabilidad temporal de la prueba, ya que
tericamente se espera una modificacin de los resultados del test aplicado
en distintas ocasiones. Los procedimientos indicados para evaluar la
estabilidad temporal de una prueba son: El mtodo Test-Retest y el mtodo
de Formas Equivalentes
b) Si se intenta conocer en qu medida la eleccin de la muestra de elementos
que componen la prueba resulta una fuente de error en la medicin, se hace
referencia a la consistencia interna. Generalmente se define este aspecto
como el grado en que distintas partes o elementos del test miden la misma
variable. Los procedimientos para evaluar la consistencia interna de un test
son: El mtodo de Formas Equivalentes, la particin en mitades, y el mtodo
de anlisis de Varianza de tems.
c) Si se desea evaluar el grado en que la medicin de un rasgo a travs de un
instrumento es independiente de la subjetividad del evaluador se hacer
referencia a la confiablidad inter-examinadores. Este tipo de confiabilidad
alude a la univocidad de los datos proporcionados por una tcnica de
evaluacin, vale decir que los sujetos examinados por un test obtengan
puntuaciones idnticas en sus ejecuciones independientemente de quien sea
su examinador. Tanto la delimitacin de la respuesta de un sujeto ante la
prueba, como su codificacin e interpretacin deben partir de normas claras
y precisas que permitan disminuir el componente subjetivo presente en toda
evaluacin. El procedimiento indicado para evaluar el acuerdo entre
examinadores es: El mtodo de acuerdo entre jueces.
Tcnicas para medir la confiabilidad de un test.

En los procedimientos para evaluar la confiabilidad de un instrumento de


medicin se pueden distinguir dos momentos:

1- Planteo experimental
2- Tratamiento estadstico de los datos

Por una parte es necesario aplicar el instrumento a un grupo definido de casos


segn un plan experimental especifico y manteniendo las condiciones particulares
de tipo experimental. Por la otra, los puntajes que resultan de tal aplicacin deben
ser analizados mediante procedimientos apropiados para producir un estadstico que
represente la confiabilidad caracterstica del test.

a) Mtodo de test Retest: El aspecto de la confiabilidad evaluado por este


medio es la estabilidad temporal de las puntuaciones. El procedimiento
consiste en aplicar una prueba dos oportunidades a la misma muestra de
sujetos, con un lapso de tiempo intermedio, y calcular la correlacin entre los
puntajes obtenidos en la primera y segunda administracin del test. La
tcnica es sencilla y econmica, pero su aplicacin presenta algunas
desventajas que se exponen seguidamente.
Si el intervalo de tiempo entre las 2 aplicaciones es muy corto, en
pruebas que miden habilidades puede presentar problemas relacionados con
el efecto de la prctica y la memoria de los sujetos evaluados, obtenindose
una correlacin falsamente alta entre las 2 aplicaciones. Si, en cambio, el
lapso de tiempo es muy largo, se corre el riesgo de que las diferencias entre
las puntuaciones se deban a cambios reales de los sujetos examinados en la
variable que est en estudio, ms que a deficiencias en la confiabilidad de
instrumentos.
b) Mtodo de formas equivalentes
Evala tanto la consistencia interna como la estabilidad temporal de un
conjunto de puntuaciones.
Se aplican dos formas equivalentes de la prueba a un mismo grupo de
sujetos con un intervalo de tiempo, los resultados obtenidos en ambas se
correlacionan. Si bien esta es la manera ms completa de evaluar la
confiabilidad de una prueba, puesto que se supone controla la mayor
cantidad posible de fuentes de error debidos al azar. Su aplicacin presenta
algunos inconvenientes.
El principal inconveniente es que previamente debe comprobarse que las
dos pruebas que se utilizaran en el estudio de confiablidad son efectivamente
paralelas o equivalentes. Para ser consideradas equivalentes, dos pruebas
reunir ciertos requisitos: tener las mismas categoras formales y estadsticas,
haber sido construidas con las mismas tablas de especificaciones, tener
medias y desviaciones semejantes, tener coeficientes de correlacin elevados
entre ambas formas, y que cada una de las formas incluya una muestra
representativa de tems que mida la misma variable.
c) Mtodo de particin en mitades
A travs de este mtodo se verifica la consistencia interna de una prueba,
es decir el grado en que diferentes partes del test miden la misma variable.
Se aplica el test en una sola ocasin a un grupo de sujetos, se divide la
prueba en dos mitades comparables, obteniendo dos tipos de puntuaciones
para cada sujeto, y se las correlaciona por medio de un coeficiente
La dificultad inicial de este procedimiento es lograr que las mitades
obtenidas sean realmente comparables.
Otra de las dificultades que se plantean en este mtodo es que el
coeficiente de correlacin obtenido expresa la confiabilidad de una sola de
las mitades, por lo que calcular la confiabilidad de la prueba completa
requiere del uso de un estadstico adicional: la frmula de correccin de
Spearman- Brown.
d) Mtodo de anlisis de varianza de tems
Este mtodo permite, por un lado, evaluar la consistencia interna del
instrumento, y, adems, se basa en el anlisis interno de una sola aplicacin
de la prueba. Este mtodo utiliza como estadstico el Alfa de Cronbatch.

Validez
Se refiere al grado en que un instrumento realmente mide la variable que
pretende medir.
Fuentes de evidencia
Evidencia relacionada con el contenido: Se refiere al grado en que
un instrumento refleja un dominio especfico de contenido de lo que
se mide.
Evidencia relacionada con el criterio: Se establece al validar un
instrumento de medicin al compararlo con algn criterio externo
que pretende medir lo mismo.
Evidencia relacionada con el constructo: Le concierne en
particular el significado del instrumento, esto es, qu est midiendo y
como opera para medirlo. Integra la evidencia que soporta la
interpretacin del sentido que poseen las puntuaciones del
instrumento. Resumiendo: debe explicar el modelo terico emprico
que subyace a la variable de inters.
Validez total: Esta se evala sobre la base de todos los tipos de
evidencia. Cuanto mayor la evidencia de validez de contenido, de
validez de criterio y de validez de constructo tenga un instrumento de
medicin, ste se acercara ms a representar la(s) variable(s) que
pretende medir.
VALIDEZ TOTAL= Validez de contenido + Validez de criterio +
Validez de constructo
Evidencia basada en la estructura interna del test: Indica si las
relaciones entre tems y dimensiones permite confirmar la existencia
de los que permite medir.
Evidencia basada en el proceso de respuesta: Interaccin entre lo
cognitivo y psicometra donde el anlisis de los proceso cognitivos
comprometidos con un proceso de respuesta adquieren importancia
Externos:
Evidencia de las consecuencias de la aplicacin: Las
consecuencias de aplicacin solo es vlido cuando se relaciona con
fuentes de invalidez.
Evidencia convergente o discriminante: Se debe comparar puntajes
obtenidos tanto con otros tests para medir el mismo atributo.
Evidencia de las relaciones entre puntuaciones y criterios
externos:
Correlacin bivariada: Correlacin entre puntuacin obtenida y
puntuacin de algn criterio externo.
Correlacin mltiple: Ponderar la contribucin independiente
realizada por cada variable predictora para la explicacin de un
criterio determinado, as como estimar la contribucin conjunta de
un conjunto de predictores a la explicacin del criterio.

Hay diversos factores que pueden afectar la confiabilidad y la validez de


los instrumentos de medicin.

El primero de ellos es la improvisacin. Algunas personas creen


que elegir un instrumento de medicin o desarrollar uno es algo que
puede tomarse a la ligera. Incluso algunos profesores piden a los
alumnos que construyan instrumentos de medicin de un da para
otro, o lo que es casi lo mismo, de una semana a otra. Lo cual habla
del poco o nulo conocimiento del proceso de elaboracin de
instrumentos de medicin. Esta improvisacin genera casi siempre
instrumentos poco vlidos o confiables y no debe existir en la
investigacin social (menos an en ambientes acadmicos). Aun a los
investigadores experimentados les toma tiempo desarrollar un
instrumento de medicin. Es por ello que los construyen con cuidado
y frecuentemente estn desarrollndolos, para que cuando los
necesiten con premura se encuentren preparados para aplicarlos, pero
no los improvisan. Adems, para poder construir un instrumento de
medicin se requiere conocer muy bien a la variable que se pretende
medir y la teora que la sustenta. Por ejemplo, generar o
simplemente seleccionar un instrumento que mida la inteligencia,
la personalidad o los usos y gratificaciones de la televisin para el
nio, requiere amplios conocimientos en la materia, estar
actualizados al respecto y revisar cuidadosamente la literatura
correspondiente.

El segundo factor es que a veces se utilizan instrumentos


desarrollados en el extranjero que no han sido validados a nuestro
contexto: cultura y tiempo. Traducir un instrumento aun cuando
adaptemos los trminos a nuestro lenguaje y los contextualicemos
no es de ninguna manera (ni remotamente) validarlo. Es un primer y
necesario paso, pero slo es el principio. Por otra parte, hay
instrumentos que fueron validados en nuestro contexto pero hace
mucho tiempo. Hay instrumentos que hasta el lenguaje nos suena
arcaico. Las culturas, los grupos y las personas cambian; y esto
debemos tomarlo en cuenta al elegir o desarrollar un instrumento de
medicin.

Un tercer factor es que en ocasiones el instrumento resulta


inadecuado para las personas a las que se les aplica: no es emptico.
Utilizar un lenguaje muy elevado para el respondiente, no tomar en
cuenta diferencias en cuanto a sexo, edad, conocimientos, capacidad
de respuesta, memoria, nivel ocupacional y educativo, motivacin
para responder y otras diferencias en los respondientes; son errores
que pueden afectar la validez y confiabilidad del instrumento de
medicin.

Un cuarto factor que puede influir est constituido por las


condiciones en las que se aplica el instrumento de medicin. Si hay
ruido, hace mucho fro (por ejemplo en una encuesta de casa en
casa), el instrumento es demasiado largo o tedioso, son cuestiones
que pueden afectar negativamente la validez y la confiabilidad.
Normalmente en los experimentos se puede contar con instrumentos
de medicin ms largos y complejos que en los diseos no
experimentales. Por ejemplo, en una encuesta pblica sera muy
difcil poder aplicar una prueba larga o compleja.

Por otra parte, aspectos mecnicos tales como que si el instrumento


es escrito, no se lean bien las instrucciones, falten pginas, no haya
espacio adecuado para contestar, no se comprendan las instrucciones,
tambin pueden influir de manera negativa.

Utilidad prctica de los tests en situaciones de clasificacin


El coeficiente de la utilidad predictiva de un test en relacin con un
criterio es un estadstico adecuado pero insuficiente cuando se trata de
determinar el valor prctico de una prueba como herramienta para la toma de
decisiones en seleccin de personas. Los test pueden usarse con propsitos
de
1. Clasificacin
2. Autoconocimiento
3. Evaluacin de programas
4. Investigacin cientfica

El primer propsito tiene que ver con decisiones que afectan a las
personas a las que se les aplica el test. El autoconocimiento facilitado por
tests sirve a la persona, en primer lugar y, solo marginalmente, a las
instituciones. La clasificacin sirve, primordialmente a las instituciones y se
produce cuando cualquier persona es asignada a una categora clasificatoria
y no a otra. En las situaciones de clasificacin la evidencia de las relaciones
test-criterio debe corroborarse con procedimientos especficos.

Cuando un instrumento tiene por finalidad selecciona un grupo de


personas con algn criterio de prediccin se debe probar en trmino, que esta
prueba cumpla con ese objetivo.

Anlisis factorial: Es una tcnica estadstica de reduccin de datos usada


para explicar las correlaciones entre las variables observadas en trminos de
un nmero menor de variables no observadas llamadas factores.

El test de las habilidades, actitudes e inteligencia: Le exige al sujeto un


mximo rendimientos en las respuestas a sus reactivos.

Test de comportamiento tpico: Exige espontaneidad y honestidad a la hora


de dar sus respuestas.

Alfa de Cronbatch: Mide la confiabilidad. Sirve para saber si las preguntas


estn apuntadas a una variable, midiendo entre 2 variables 0 y 1. Mientras
ms se acerque al 1 el resultado es ms confiable. Entre 0,7 y 0,9 son
parmetros aceptables para la psicologa.

Si hay alfa de 0,9 o ms, su fiabilidad es excelente para usar en


investigaciones aplicadas. (experimentales)
Si hay un alfa entre 0,8 y 0,9 va a ser bueno para investigaciones
bsicas (Inv. Correlacinales o descriptivas)
Si hay un alfa entre 0,7 y 0,8 es aceptable, no tanto porque una
correlacin (investigacin exploratoria)
Si hay un alfa entre 0,6 y 0,7 es un alfa dudable.
De 0,6 hacia abajo no se puede confiar en esos datos para ninguna
investigacin.

S-ar putea să vă placă și