Documente Academic
Documente Profesional
Documente Cultură
Definición
Mariano Yela (Citado por Arévalo, 2012) hace mención que la elaboración de
un test es un proceso científico de diagnóstico o medida, consta de dos partes:
una de ellas, el test propiamente dicho y la otra el manual del test; en el cual se
expone en qué consiste el test, como se aplica y valora, y para qué sirve.
Por otra parte debemos señalar que una prueba psicométrica no puede
administrarse de cualquier manera o como se le ocurra al usuario; además un
instrumento no puede ser aplicado a cualquier tipo de población. Todas las
condiciones, reglas y pautas deben estar expuestas, explicadas y justificadas
en el manual, de lo contrario no podríamos dar el nombre de test al instrumento
creado. (Arévalo, 2012).
CARATULA
1. Fundamentación
2. Descripción de la prueba
Nombre de la prueba
Autor(es)
Procedencia u origen (Lugar donde se construye la prueba)
Año de publicación
Ámbito de aplicación
Propósito de la prueba
Tipos de normas que ofrece
3. Normas de aplicación
Se consigna los pasos que debe darse para la aplicación del instrumento. Dentro de ello
se debe considerar: El entrenamiento que se requiere, condiciones del ambiente,
procedimiento a seguir y finalmente las instrucciones generales, así como las
específicas.
4. Normas de calificación
1. Población y muestra
V. Normas de interpretación
VI. Bibliografía
ANEXOS
Finalmente debe señalar que el formato del trabajo se presentara de la siguiente forma:
Falta de confiabilidad
Carencia de validez
Con frecuencia se pasa por alto una causa igualmente importante de errores de
interpretación, que quizá sea todavía peor que la falta de confiabilidad. Corno se indicó
anteriormente, sin evidencias de validez, los datos normativos no indican más que la
clasificación relativa del individuo dentro del grupo normativo. No obstante, el hecho
mismo de que se dispone de datos normativos (con o sin datos de validez) proporciona a
menudo la tentación sutil de interpretar las calificaciones de la prueba como si se
dispusiera de datos de validez. Si se marca una prueba como medida de las aptitudes
matemáticas y si se dispone de datos normativos, será muy sencillo interpretar las
calificaciones de la prueba como si predijeran el éxito en actividades que requieren
capacidades para las matemáticas. O bien, si se da una prueba como medida de la
introversión y se dispone de datos normativos, será fácil considerar que una persona que
obtenga calificaciones elevadas en la prueba será introvertida. Es probable que no haya
otro error más frecuente en la interpretación de datos de pruebas psicológicas que el
inferir, el significado de las calificaciones a partir del título de la prueba y los datos
normativos, desdeñando el hecho de que los datos de validez que respalden la
interpretación no existan o sean fragmentarios. En resumen, lo que resulta ahora obvio:
los datos normativos no son suficientes para la interpretación precisa de una prueba; se
necesitan también datos de validez.
Capacidad de generalización
Los usuarios de pruebas se encuentran a veces en una situación similar a la que sigue:
Un alumno de secundaria, Juan López, solicita su ingreso a la Universidad. Corno parte
del procedimiento de ingreso, pasa la prueba de aptitudes universitarias XYZ. También
presenta sus calificaciones obtenidas en la prueba XYZ a la Universidad.
Lamentablemente, esta Universidad requiere la prueba de aptitudes universitarias ABC
y le pide a Juan que presente las calificaciones en la ABC. Juan se preguntará por qué
no se pueden sustituir las calificaciones de la prueba ABC con los de la XYZ, puesto
que se supone que las dos pruebas miden las aptitudes universitarias. El problema
básico en esta situación es el de equiparar las calificaciones de las pruebas; o sea, de
poner los dos resultados de ambas en una escala común.
Una de las distinciones fundamentales que se deben hacer es la de si las pruebas son
equivalentes o sólo comparables (Wesman, 1958 citado por Brown en 1980). Las
calificaciones en las dos pruebas se pueden considerar comparables si representan la
misma posición relativa en la misma población. No obstante, para que se consideren
equivalentes, las preguntas de la prueba deben representar el mismo universo o dominio
de contenido; ósea que las pruebas tienen que ser intercambiables en lo que se refiere al
contenido. Es en este punto donde fallan la mayoría de los intentos hechos para igualar
las calificaciones de las pruebas, puesto que es raro que dos pruebas midan universos
idénticos o que utilicen los mismos grupos normativos.
Métodos de equivalencia
Sin embargo, supongamos tole dos pruebas muestren el mismo universo como se
pueden equiparar los resultados en las pruebas? Un procedimiento común se denomina
método de equipercentiles. En esta técnica. Las dos pruebas se administran a la misma
muestra y las calificaciones brutas (con ambas pruebas) se traducen a rangos percentiles
luego, utilizando los rangos percentiles como puntos de pivote, se puede preparar un
cuadro de calificaciones brutas equivalentes. Esto quiere decir si una calificación bruta
de 55 en la prueba ABC
La mayor parte de nuestro análisis ha estado relacionado con una sola calificación. Sin
embargo, hay por lo menos dos situaciones comunes en las que se deben tomar en
consideración más de una calificación. Una de ellas es cuando nos interesan las
mediciones repetidas a través del tiempo, (fluctuación de las calificaciones). La otra es
cuando se desean comparar .las calificaciones en dos o más pruebas, escalas o
subpruebas. Esas dos situaciones tienen relación con la fluctuación de las calificaciones.
En sentido amplio, todo lo que hemos visto hasta ahora se ha referido a la interpretación
de las calificaciones de pruebas. Por esto se entiende que no es posible interpretar
adecuadamente las calificaciones de las pruebas. A menos que entienda tanto el modo
en que se construyen y validar, las pruebas, como los conceptos relacionados más
directamente con las calificaciones y las normas. Sin embargo, estos conocimientos sólo
aseguran que podamos describir la ejecución en la prueba de un individuo. A menudo,
nos interesamos más por los factores de desarrollo y situaciones que provocaron la
ejecución de la persona o cómo reaccionará y utilizará la información acerca de su
ejecución. Estas son preguntas del mayor interés para los maestros y los consejeros.
Hay un punto que merece una atención especial, puesto que conduce a menudo a
interpretaciones inadecuadas. Es fácil pensar en factores, ya sea en los antecedentes del
sujeto o en los aspectos de la situación de prueba, que pueden influir en la ejecución de
un individuo. Por lo común, es más fácil identificar los factores que pueden interferir en
la ejecución, produciendo más bajas calificaciones, que los factores que producirán una
mejor ejecución. Esto, combinado con nuestra tendencia, aparentemente natural, a decir
cosas buenas sobre las personas y evitar las malas, puede dar como resultado una
tendencia a dar justificaciones a una ejecución baja o sea pensar en razones por las que
una persona haya podido obtener una baja calificación. En otras palabras, es posible
que, en algunas ocasiones, hagamos demasiado hincapié en las razones posibles de un
mal rendimiento. Esto no implica que no existan. Las hay, lo Importante es que esas
razones se deben colocar en una perspectiva apropiada, para no presentar un cuadro
demasiado rosa o quienes se someten a las pruebas.
E. Algunas indicaciones
Asegurarse de que el cliente sepa lo que mide o predice la prueba. Este es el tema de la
validez, también en este caso, no necesitaremos una explicación técnica detallada, sino
las implicaciones principales. Por ejemplo, no necesitamos darle a un cliente un curso
breve sobre la construcción del inventario de intereses Vocacionales de Strong; pero
debe saber que las Escalas Ocupacionales comparan sus intereses a los de personas de
esa ocupación y que las calificaciones eludidas indican que la persona permanecerá
probablemente en la ocupación de que se trate, si ingresa a ella. Otro aspecto se puede
denominar el problema de los membretes. Probablemente no bastará con decirle a un
cliente que una escala mide, por ejemplo, la dominancia. Es muy posible que tengamos
que explicarle lo que considera como dominancia el constructor de la prueba. Esto
resulta particularmente importante en las dimensiones de la personalidad cargadas de
emocionalidad, tales como la heterosexualidad o la masculinidad y la femineidad.
Asegurarse de que el cliente sepa cómo se utilizarán sus calificaciones. Esto resulta
particularmente importante cuando esas calificaciones se utilicen para la colocación o la
selección. Nos interesa el papel que desempeñarán las calificaciones de la prueba en el
proceso de toma de decisiones. ¿Serán un factor importante o se utilizarán sólo en los
casos limítrofes? ¿Hay calificaciones de corte mínimo o es el proceso compensatorio?
Con frecuencia, esta información no se encuentra- disponible, sobre todo en las
situaciones de asesoramiento. No obstante, es frecuente que tengamos informaciones
que pueden resultar útiles. Por ejemplo, supongamos que un alumno piense solicitar un
trabajo de graduado en psicología en la OID IVY y que sepamos que el promedio de
calificaciones GRE-Verbal en esta prueba sea de 700. Si Juan López obtiene una
calificación de sólo 500 en la GRE-V podremos deducir probablemente con bastante
seguridad que sus probabilidades de aceptación serán bajas, aunque no sepamos la
importancia que da el comité de admisiones a esas calificaciones.
6.1.1. Normas
Arévalo y otros autores refieren que la norma es la medida expresada en puntajes para
un grupo específico y frecuentemente puede ser usada como un punto promedio de
comparación en un sujeto. Con ello nos permite situar a las personas sobre una medida
específica o por debajo de ella. En conclusión las normas nos indica cómo realmente
actúan las personas y no cómo deberían hacerlo.
A. Grupos normativos
Desde el punto de vista de quien desarrolla la prueba, la pregunta es: ¿En qué
poblaciones se utilizará la prueba? Los grupos normativos se deben elegir para
representar esas poblaciones. Si la prueba está diseñada para evaluar las aptitudes de los
alumnos de la preparatoria, para realizar las labores correspondientes en la universidad,
el grupo normativo deberá consistir en graduados de preparatorias que piensen asistir en
la universidad. Si las pruebas se diseñan para medir las características de la personalidad
de los adolescentes, el grupo normativo consistirá en una sección de corte transversal
de adolescentes. Si la prueba se diseña para medir la disposición para la lectura de los
alumnos de jardines de niños, el grupo normativo debe consistir en alumnos de kinder
que no hayan comenzado a recibir todavía instrucción de lectura. Puesto que la mayoría
de las pruebas se diseñan para utilizarse con varios grupos, se necesitará por lo común
más de un grupo normativo.
Los usuarios de las pruebas observan las normas desde diferentes puntos de vista, según
las ventajas que ellos consideran. Su pregunta primordial es: ¿Cuál de los grupos
normativos disponibles es más apropiado? Una vez más, pueden ser pertinentes varios
grupos normativos. Por ejemplo, al aconsejar a un alumno de preparatoria que piense
estudiar ingeniería en Ia universidad, un asesor académico puede comparar las
calificaciones del estudiante en una prueba de actitudes escolares con las de otros
graduados de preparatoria que piensan asistir a a la universidad con las de quienes
ingresan a las universidades a las que piensan asistir el alumnos y con los de los
estudiantes de primer año de ingeniería en esas mismas universidades.
Tanto para quien desarrolla la prueba como para el usuario, la consideración principal es
la composición de los grupos normativos. Para las pruebas de aptitudes y rendimiento,
el grupo normativo apropiado consiste, generalmente, en los competidores existentes y
potenciales. Para las pruebas de capacidades generales o características de la
personalidad, los grupos normativos se Componen habitualmente de personas de la
misma edad o el mismo nivel educativo. Por supuesto, en cualquier situación dada, se
puede usar una gran variedad de dimensiones para definir el grupo normativo tales
como el sexo, la edad, el grado o el nivel educativo, la ocupación, la zona geográfica, la
posición socioeconómica.
El grupo normativo está formado por todos los alumnos de primer año,
hombres y mujeres inscritos a cursos de artes liberales en universidades
fundadas por concesión de tierras.
Con frecuencia, varios grupos distintos de una población tiene una ejecución
diferente en una prueba. Si los subgrupos tienen diferentes rangos o niveles de
ejecución, se deberán construir normas separadas para cada subgrupo. Por
ejemplo, los hombres suelen tener en general una mejor ejecución que las
mujeres en pruebas de aptitudes mecánicas, mientras que, a la inversa, las
mujeres obtienen calificaciones más altas que los hombres en pruebas de
aptitudes secretariales; por esto, se suelen proporcionar datos normativos
separados para hombres y mujeres en esas pruebas. Las variables que se
relacionan con frecuencia con la ejecución en la prueba y que, por lo tanto,
pueden constituir la base para grupos normativos separados incluyen el sexo,
la edad, la educación, la posición socioeconómica, la inteligencia, la ocupación,
la región geográfica, la raza y la cantidad de adiestramiento especial.
Otra consideración final es la de los recientes que sean las normas. Con los
cambios rápidos en la educación y los requisitos para los empleos, las normas
desarrolladas hace cierto número de años pueden no ser apropiadas ahora.
Puesto que se presentan en la actualidad ciertos conceptos a niveles de
graduación más bajos, los alumnos actuales se han expuesto a materiales más
numerosos y diferentes que sus equivalentes de los años anteriores. Algunos
requisitos de trabajo han cambiado radicalmente, igual que las capacidades de
los trabajadores. Las normas se deben actualizar periódicamente y se deben
abordar las normas antiguas con el escepticismo apropiado.
C. Normas locales
en la actualidad, se trata de
una tarea sencilla, incluso cuando se incluye gran cantidad de personas; si se
hace a mano, la tarea no es tampoco abrumadora. Por supuesto, la ventaja
principal de las normas locales es que permiten las comparaciones entre una
persona y sus asociados inmediatos. Puesto que cada clase, compañía o
escuela es única en algunos aspectos, sus miembros serán distintos de los
grupos normativos incluidos en el manual. Ya que la ejecución en la prueba del
grupo local puede ser diferente de la de los grupos normativos nacionales la
dendencia de los últimos puede conducir a inferencias inadecuadas, al
interpretar las calificaciones. Por ejemplo, los alumnos de cualquier clase o
escuela dada no tendrán las mismas experiencias educativas que los
estudiantes de un grupo normativo nacional. También es probable que los
estudiantes locales difieran del grupo normativo nacional en factores
relacionados con el rendimiento en la escuda, tales como el de las capacidades
o el nivel socioeconómico. Cuando esas diferencias se producen entre grupos
normativos locales y nacionales, un grupo normativo local puede representar
una mejor norma de comparación. Por supuesto, el usuario de una prueba
puede utilizar tanto normas locales como nacionales y extraer la cantidad
máxima de información de las calificaciones de las pruebas.
Nuestra exposición sobre las normas se puede resumir mejor citando varios
principios generales formulados por Seashore y Ricks (1950). Sugieren que se
debe: (1) utilizar grupos normativos bien definidos y evitar las normas poco
definidas de los individuos en general; (2) usar normas de subgrupos
separados, cuando las poblaciones sean diferentes y mezclar grupos sólo
cuando su combinación tenga sentido; (3) señalar todos los datos normativos
útiles (o sea, proporcionar normas sobre varios grupos); (4) desarrollar y
emplear grupos normativos locales y especiales; (5) poner todos los datos
normativos a disposición de otros usuarios de las pruebas y (6) utilizar los
datos normativos disponibles al interpretar las calificaciones.
6.1.2. Baremación
Los baremos son considerados por muchos autores como una tabla de
referencia producto de un proceso de normalización. Estos se obtienen
después de un proceso matemático que permite obtener puntajes normalizados
para el instrumento que se está creando.
Abad en el 2006 señala que los baremos pueden ser de dos tipos:
A. Cronológicos: Son muy útiles para rasgos psicológicos que evolucionan con
la edad, tiene sentido comparar la puntuación de un sujeto con las que
obtienen los de su misma edad y los de edades diferentes. Dentro de ellos se
puede realizar mediante dos tipos diferentes de baremos cronológicos: las
Edades Mentales (EM) y los Cocientes Intelectuales (CI).
Por ejemplo Abad nos refiere en cuanto a la Edad Mental (EM), si aplicamos un
test de Inteligencia de dificultad progresiva a diferentes grupos de edad (niños
entre 5 y 14 años), y que obtenemos las puntuaciones medias de cada grupo
de edad en la prueba, siendo las que siguen:
Edad: 5 6 7 8 9 10 11 12 13 14
Media: 6 8 9 11 14 15 18 22 24 27
Por otra parte el mismo autor señala también al cociente intelectual como un
baremo de tipo cronológico, el cual se denomina así (y no coeficiente, como es
usualmente se suele escuchar) porque es el resultado de dividir la edad mental
(EM) entre la edad cronológica (EC) del sujeto; para evitar decimales y el
resultado se multiplica por 100, de tal manera que se puede obtener a partir de la
fórmula:
En el siguiente ejemplo mostrado por Abad (2006), si un niño de 10 años obtiene una
puntuación directa de 18 puntos, diremos que su EM es de 11 años y su CI es:
Fa = Frecuencia acumulada
Fapm = Frecuencia acumulada al punto medio, es decir la distancia intermedia entre dos
frecuencias acumuladas.
Para empezar crear nuestro percentil lo que tendremos como datos para iniciar son los
puntajes brutos obtenidos (abarcan de 149 a 163). Posteriormente tendremos la
frecuencia, es decir, el número de incidencia en que un puntaje bruto se repite; por
ejemplo en la tabla anterior el puntaje 149 se repite 2 veces, ya que dos sujetos de los
113, obtuvieron 149 puntos. A partir de esos dos datos obtenidos podemos hallar los
siguientes.
Luego de ello nos toca hallar la Frecuencia Acumulada (FA), la cual es la suma en
escalera de la frecuencia, por ejemplo 2+3 = 5, el siguiente 5+5 = 10, 10+6 = 16, etc.
Ahora lo único que tienes que realizar es redondear el %PA para tener el PC o RP, por
ejemplo tomando el dato anterior 3.097 (%PA), mi rango percentil será 3.
Dónde:
Z= Puntuación Z
Para representar lo mencionado anteriormente veamos este ejemplo: “Doris tuvo una
puntuación correcta de 30 frente a su evaluación. Su rendimiento se desea comparar con
otros compañeros del mismo grupo examinado; el cual presenta una media de 50 y una
desviación estándar de 5. La puntuación Z respectiva se hallará así:
Tomando el mismo caso anteriormente mencionado Doris obtuvo una puntuación Z fue
de –4; por tanto su puntuación T la podremos hallar de la siguiente manera:
Dicha puntuación T obtenida tiene la ventaja de no presentar valores decimales ni
negativos; sin embargo, lamentablemente se pueden confundir con ciertos tipos de
puntuaciones.
Por otra parte aquellos test que emplean un enfoque de clase o categoría para la
calificación, es decir la persona que responde la prueba obtiene crédito hacia la
colocación en una clase o categoría particular (Abad, 2006).
Después de administrar una prueba, las respuestas de un individuo se comparan con una
clave para obtener su calificación en la prueba. En las pruebas de capacidades y
rendimiento, las respuestas que figuran en la clave son las correctas En los inventarios
de intereses y personalidad, las respuestas incluidas en la clave suelen ser las opciones
predominantes de un grupo particular de criterio. También se pueden utilizar corno
calificaciones otras medidas de ejecución por ejemplo, el número de errores, la suma de
puntos en varios reactives o problemas, el tiempo necesario para completar la prueba o
la clasificación. Cualquiera de esas calificaciones, obtenidas directamente a partir de la
prueba, se denomina calificaciones brutas u originales.
Es raro que las calificaciones brutas sean significativas por sí mismas. Sólo cuando una
prueba cubre un universo definido explícitamente tendrá sentido una calificación bruta.
De otro modo, tendrá, que compararse con las calificaciones obtenidas por individuos
comparables o con algún estándar definido, o bien, expresado en términos de alguna
consecuencia o criterio. Todos esos métodos requieren que se transformen las
calificaciones brutas a alguna escala diferente. Puesto que la nueva escala se deriva de
las calificaciones brutas mediante una transformación estadística se dice que son
calificaciones transformadas o derivadas.
El uso de calificaciones relaciona con las normas hace hincapié en que las mediciones
psicológicas son más bien relativas, que absolutas. Como se mencionó antes, en las
mediciones educativas y psicológicas, es raro que se disponga de normas o escalas
absolutas. Así mismo, en la mayoría de las situaciones, las diferencias entre individuos
son más importantes o al menos más interesantes que las similitudes. Estos dos factores
argumentan la expresión de la ejecución en términos comparativos; o sea, en escalas
relacionadas con normas.
Aunque las mediciones psicológicas y educativas suelen estar relacionadas con las
normas, es frecuente que este método no proporcione la información deseada.
Consideremos a un padre que habla con el maestro de su hijo que cursa el tercer grado
de primaria. El profesor señala que las habilidades de Juan para la aritmética lo colocan
entre 10% superior de su grupo escolar. Se trata de una interpretación relacionada con
las normas y le proporciona al padre información valiosa. Sin embargo, el padre pudiera
preguntar: "¿Qué habilidades aritméticas ha llegado a dominar Juan?". En este caso, el
padre solicita una descripción de la ejecución del niño en función del contenido que ha
llegado a dominar y no en función de su ejecución en relación a sus compañeros de
clase.
Las calificaciones relacionadas con las consecuencias tienen una ventaja importante
sobre otros tipos de calificaciones: incluyen datos de validez en la interpretación de la
prueba. O sea que la interpretación es esencialmente una predicción de la conducta
futura. Para poder hacer esta predicción, necesitamos datos de validez que indiquen qué
conductas se pueden predecir a partir de las calificaciones de las pruebas. Por supuesto,
suelen ser datos de validez relacionados con el criterio. Aunque este método requiere
más trabajo, puesto que se deben realizar estudios de validez e incluir sus resultados en
el procedimiento de interpretación de las calificaciones, da casi siempre interpretaciones
más significativas.