Trabajo

7.1.1.
Definición
Mariano Yela (Citado por Arévalo, 2012) hace mención que la elaboración de
un test es un proceso científico de diagnóstico o medida, consta de dos partes:
una de ellas, el test propiamente dicho y la otra el manual del test; en el cual se
expone en qué consiste el test, como se aplica y valora, y para qué sirve.
Por otra parte debemos señalar que una prueba psicométrica no puede
administrarse de cualquier manera o como se le ocurra al usuario; además un
instrumento no puede ser aplicado a cualquier tipo de población. Todas las
condiciones, reglas y pautas deben estar expuestas, explicadas y justificadas
en el manual, de lo contrario no podríamos dar el nombre de test al instrumento
creado. (Arévalo, 2012).
7.1.2. Criterios para la elaboración del

manual
Las normas que te brindaremos durante esta semana son sencillas y prácticas, se ha
tratado de consolidar la mayor información posible, sin embargo el éxito en la
elaboración del instrumento dependerá del constructor, de su minuciosidad y
perseverancia en el proceso.
En el manual de la prueba se debe consignar toda la información posible acerca de

nuestro instrumento, varios autores refieren tres aspectos básicos dentro del manual de
una prueba psicométrica:
a. Especificación.- este aspecto hace referencia a los datos de la denominación y

clasificación del test, es decir nos referimos a lo que comúnmente conocemos como
“Ficha técnica”.
b. Descripción.- dentro de ello se registrara todo lo referente acerca de los fines,
naturaleza y explicación del instrumento, en esta parte el constructor debe explicar
detalladamente las partes mencionadas anteriormente, sumado a ello se debe
considerar todas las condiciones necesarias para el empleo del instrumento.
c. Justificación.- finalmente en esta parte se debe consignar los datos estadísticos que
justifican el uso y la valoración científica del instrumento. Es decir nos referimos a la
confiabilidad, validez y tipificación del test.
7.1.3. Modelo para la elaboración de un

manual de una prueba psicológica.
Edmundo Arévalo (2012)

propone el siguiente esquema:
CARATULA
I. INTRODUCCIÓN Y/O PRESENTACIÓN
 Se debe consolidar un análisis breve de la situación de la variable de estudio y

como se encuentra en nuestra realidad.
 Otro aspecto debe consignarse la motivación del o los constructores para la
creación del instrumento.
 Presentar un resumen breve del trabajo realizado por capítulos, títulos y anexos.
 Debe tener un máximo de 02 hojas.
II. INDICE
 Tenga en cuenta los títulos o capítulos con sus páginas respectivas.
III. CONTENIDO DE LA PRUEBA
1. Fundamentación
 Debe realizarse una descripción y explicación breve del problema de estudio.

 Un análisis de los antecedentes vinculados a la variable. Junto con ello se debe
analizar las causas y las consecuencias del problema.
 Plantear de manera ordenada la importancia de la elaboración del instrumento.
 Señalar las limitaciones que puede tener el instrumento.
2. Descripción de la prueba
2.1. Ficha técnica
 Nombre de la prueba
 Autor(es)
 Procedencia u origen (Lugar donde se construye la prueba)
 Año de publicación
 Ámbito de aplicación
 Propósito de la prueba
 Tipos de normas que ofrece
2.2. Características generales
 Resumen breve de los objetivos y estructura del instrumento

 Definición de la variable de estudio
 Definición de los indicadores o áreas del instrumento
 Señalar la distribución de los ítems por cada indicador.
 Incluir el máximo y mínimo puntaje que puede alcanzar un sujeto.
 Debe tenerse en cuenta de 2 a 4 paginas
2.3. Marco referencial teórico
 Citar los antecedentes nacionales e internacionales.

 Incluir el fundamento teórico de manera sencilla, teniendo en cuenta los criterios
del APA.
 Puede incluir básicamente los diversos modelos y enfoques explicativos de la
variable.
2.4. Procedimiento de la construcción
 Se debe consignar en prosa o indicado paso por paso el procedimiento que se

llevó a cabo para la elaboración del instrumento.
3. Normas de aplicación
Se consigna los pasos que debe darse para la aplicación del instrumento. Dentro de ello
se debe considerar: El entrenamiento que se requiere, condiciones del ambiente,
procedimiento a seguir y finalmente las instrucciones generales, así como las
específicas.
4. Normas de calificación
 Detallar de manera pautada el procedimiento para la calificación del

instrumento.
 Verificar el tipo de calificación, el uso de plantillas (si es necesario) o
computarizado
 La conversión de los puntajes directos en puntuaciones normalizadas
 Registrar un caso hipotético en donde se utilice el instrumento.
VI. JUSTIFICACIÓN ESTADÍSTICA
1. Población y muestra
 Se consigna una descripción de la población en la que fue aplicada los estudios

de validez y confiabilidad.
 Establecer la muestra y el tipo de muestreo.
2. Validez y confiabilidad
 Detallar el procedimiento utilizado para determinar la validez y confiabilidad.

 El tipo de valides y confiabilidad usado en el proceso de construcción
 Describir las características de la población y muestra que se ha empleado en
dichos procesos.
 Presentar cuadros de los índices alcanzados (Tener en cuenta el formato de la
APA).
V. Normas de interpretación
 Se debe tener en cuenta los baremos

 Si la prueba necesita puede consignar tablas por niveles o categoría, para ayudar
la interpretación.
 Tener en cuenta las pautas de la APA
VI. Bibliografía
ANEXOS
 El cuestionario y la hoja de respuestas se anexaran al manual
Finalmente debe señalar que el formato del trabajo se presentara de la siguiente forma:
 Márgenes: 3.5 Derecha, 3 izquierda, 2.5 superior y 2.5 inferior.

 Tipo de letra: Arial 12 o Time New Roman
 Interlineado: Sencillo
 Tamaño de la hoja: A4
Recuerda: el procedimiento de validez, confiabilidad y la creación de los baremos de la

prueba debes agregarlos al manual, asimismo podrás encontrar un ejemplo de un
manual desarrollado en el campus virtual.
7.1.4. Nociones sobre la interpretación de

las calificaciones
A. Errores en las calificaciones
Brown menciona que las calificaciones en las pruebas psicológicas y educativas

contienen ciertos errores de medición. A continuación, vamos a indicar cómo pueden
afectar esos errores a las interpretaciones de las calificaciones Al hacerlo así, debemos
tomar en consideración tres fuentes de errores: les que se deben a la falta de
confiabilidad, los ocasionados por la carencia de validez y los atribuibles a una
generalización inadecuada.
Falta de confiabilidad
En un análisis que realiza Brown de las calificaciones derivadas, supuso que

una calificación bruta se podía transformar directamente en una derivada
equivalente. Es decir que las calificaciones de las pruebas fueron tratadas
corno predictores precisos. No obstante, señaló también que, puesto que las
pruebas no son perfectamente confiables en la práctica, las calificaciones de
las pruebas se tienen que considerar como rangos o como bandas en lugar de
puntos exactos. Esto quiere decir que se tiene que tomar siempre en
consideración el error -estándar de medición. Muchos editores de pruebas han
desarrollado perfiles o cuadros de conversión que utilizan el sistema de bandas
para la interpretación de las calificaciones. Esto es, que las calificaciones
derivadas se dan como rangos (bandas) y no como puntos exactos. Incluso si
el editor de una prueba no utiliza este método, el encargado de interpretar la
prueba debe dar su propia interpretación en bandas a las calificaciones. Si se
utilizan calificaciones exactas, esto se deberá hacer tomando en cuenta que
esas calificaciones no son indicadores precisos, sino, más bien, la mejor
estimación que podernos tener de la calificación "verdadera" de una persona.
En otras palabras, no se debe considerar una clasificación en el percentil 55
como la clasificación exacta de una persona; en lugar de ello, se debe tomar en
cuenta como la mejor estimación disponible de su clasificación.
Carencia de validez
Con frecuencia se pasa por alto una causa igualmente importante de errores de
interpretación, que quizá sea todavía peor que la falta de confiabilidad. Corno se indicó
anteriormente, sin evidencias de validez, los datos normativos no indican más que la
clasificación relativa del individuo dentro del grupo normativo. No obstante, el hecho
mismo de que se dispone de datos normativos (con o sin datos de validez) proporciona a
menudo la tentación sutil de interpretar las calificaciones de la prueba como si se
dispusiera de datos de validez. Si se marca una prueba como medida de las aptitudes
matemáticas y si se dispone de datos normativos, será muy sencillo interpretar las
calificaciones de la prueba como si predijeran el éxito en actividades que requieren
capacidades para las matemáticas. O bien, si se da una prueba como medida de la
introversión y se dispone de datos normativos, será fácil considerar que una persona que
obtenga calificaciones elevadas en la prueba será introvertida. Es probable que no haya
otro error más frecuente en la interpretación de datos de pruebas psicológicas que el
inferir, el significado de las calificaciones a partir del título de la prueba y los datos
normativos, desdeñando el hecho de que los datos de validez que respalden la
interpretación no existan o sean fragmentarios. En resumen, lo que resulta ahora obvio:
los datos normativos no son suficientes para la interpretación precisa de una prueba; se
necesitan también datos de validez.
Capacidad de generalización
Con frecuencia, ninguno de los grupos normativos disponibles es claramente apropiado

para un individuo cuyas calificaciones se estén interpretando. Hasta donde difiera un
individuo del grupo normativo, se pueden presentar errores de generalizaciones
defectuosas en la interpretación de las pruebas. A veces se puede superar este problema
mediante el desarrollo de normas locales; en otras ocasiones, como en muchos
ambientes de asesoramiento, ese procedimiento no es factible. Así pues, el usuario de
una prueba debe estar consciente en todo momento de la posibilidad de hacer
generalizaciones inapropiadas a partir de datos normativos inadecuados. Se presenta un
problema análogo en los datos de validez, sobre todo cuando deseamos predecir alguna
consecuencia posible. También en este caso, es posible que no se disponga de datos de
validez que correspondan a la situación particular de un individuo. Por ende, con
frecuencia tenemos que basarnos en los mejores datos disponibles o sea, datos
procedentes de .la situación más comparable. Puesto que cada situación (por ejemplo,
una escuela o una compañía) es única en muchos aspectos, siempre corremos el riesgo
en esas situaciones de efectuar generalizaciones inadecuadas. Como en el caso de los
datos normativos, una de las posibilidades es reunir nuevos datos de validez. Si este
procedimiento no es factible, sólo podremos interpretar las calificaciones con mucho
cuidado.
B. Equivalencia de las calificaciones
Los usuarios de pruebas se encuentran a veces en una situación similar a la que sigue:
Un alumno de secundaria, Juan López, solicita su ingreso a la Universidad. Corno parte
del procedimiento de ingreso, pasa la prueba de aptitudes universitarias XYZ. También
presenta sus calificaciones obtenidas en la prueba XYZ a la Universidad.
Lamentablemente, esta Universidad requiere la prueba de aptitudes universitarias ABC
y le pide a Juan que presente las calificaciones en la ABC. Juan se preguntará por qué
no se pueden sustituir las calificaciones de la prueba ABC con los de la XYZ, puesto
que se supone que las dos pruebas miden las aptitudes universitarias. El problema
básico en esta situación es el de equiparar las calificaciones de las pruebas; o sea, de
poner los dos resultados de ambas en una escala común.
Una de las distinciones fundamentales que se deben hacer es la de si las pruebas son
equivalentes o sólo comparables (Wesman, 1958 citado por Brown en 1980). Las
calificaciones en las dos pruebas se pueden considerar comparables si representan la
misma posición relativa en la misma población. No obstante, para que se consideren
equivalentes, las preguntas de la prueba deben representar el mismo universo o dominio
de contenido; ósea que las pruebas tienen que ser intercambiables en lo que se refiere al
contenido. Es en este punto donde fallan la mayoría de los intentos hechos para igualar
las calificaciones de las pruebas, puesto que es raro que dos pruebas midan universos
idénticos o que utilicen los mismos grupos normativos.
Métodos de equivalencia
Sin embargo, supongamos tole dos pruebas muestren el mismo universo como se
pueden equiparar los resultados en las pruebas? Un procedimiento común se denomina
método de equipercentiles. En esta técnica. Las dos pruebas se administran a la misma
muestra y las calificaciones brutas (con ambas pruebas) se traducen a rangos percentiles
luego, utilizando los rangos percentiles como puntos de pivote, se puede preparar un
cuadro de calificaciones brutas equivalentes. Esto quiere decir si una calificación bruta
de 55 en la prueba ABC
Está en el percentil 90 y otra calificación bruta de 36 en la prueba XYZ está también en

el percentil 90, las calificaciones de 55 en ABC y 36 en XYZ se podrán considerar
como equivalentes. Para volver a nuestro ejemplo, si Juan López presento una
calificación de 36 en la prueba XYZ a la Universidad, la oficina de admisiones podría
convertir esa calificación en 55 de la prueba ABC y, en esa forma, tener una base para
interpretar la calificación de Juan.
Otro procedimiento alternativo, que evita el problema de la equivalencia, sería el de

equiparar las pruebas en términos de alguna medida de ejecución. 0 sea que en lugar de
usar clasificaciones iguales en percentiles en el punto de pivote, se podrán utilizar
rendimientos iguales como bases para la ecuación (en el ejemplo, podríamos utilizar
promedios iguales de calificaciones universitarias). Este método, además de evitar el
problema de equivalencia del contenido, tiene la ventaja de incluir datos de validez en el
proceso de interpretación.
C. Fluctuación y cambios de las calificaciones
La mayor parte de nuestro análisis ha estado relacionado con una sola calificación. Sin
embargo, hay por lo menos dos situaciones comunes en las que se deben tomar en
consideración más de una calificación. Una de ellas es cuando nos interesan las
mediciones repetidas a través del tiempo, (fluctuación de las calificaciones). La otra es
cuando se desean comparar .las calificaciones en dos o más pruebas, escalas o
subpruebas. Esas dos situaciones tienen relación con la fluctuación de las calificaciones.
Al medir el cambio, obtenemos calificaciones en la misma medida en diversos

momentos a través del tiempo y luego calculamos un índice de cambio. Es posible que
la ilustración más común sea la medición del crecimiento académico a través del
tiempo. Por ejemplo, supongamos que una escuela administre cada mes de octubre una
prueba normalizada de comprensión de la lectura. Si la calificación escolar equivalente
de Miguel fuera de 5-4 un año y de 6-1 al siguiente, podríamos decir que tendría un
crecimiento de 7 meses. Ya que el crecimiento "normal" sería de 10 meses, llegaríamos
a la conclusión de que Miguel tendría un crecimiento: en habilidad para la lectura,
inferior a lo normal. Esa interpretación representa varios problemas (incluso olvidando
nuestro interés por las calificaciones equivalentes a grados escolares per se). Uno es el
gran error de medición que se debe a la falta de con fiabilidad de la fluctuación de las
calificaciones. El otro es que, por lo común, no se conoce la distribución de las
calificaciones de crecimiento. Aunque podemos inferir (a partir del procedimiento de la
calificación de desarrollo) que la cantidad promedio de desarrollo será de 10 meses, no
sabernos qué cantidad de estudiantes mejoran sólo en 7 meses. Esa información podría
ayudarnos en la interpretación.
La otra situación común incluye la interpretación de diferencias entre varias

calificaciones obtenidas al mismo tiempo. Por ejemplo, a un maestro le interesa saber si
la habilidad verbal de María es mejor que su habilidad numérica o si las habilidades de
David para el cálculo aritmético son mejores que su habilidad para la solución de
problemas. Una vez más, nos enfrentamos al mismo problema, la falta de confiabilidad
de la fluctuación de las calificaciones. Afortunadamente, es posible determinar si una
diferencia dada entre pares de calificaciones es significativa o no desde el punto de vista
estadístico. Algunos editores de pruebas incluyen esta información en su material de
interpretación, ya sea (1) señalando las calificaciones como bandas, de tal modo que las
bandas no superpuestas indiquen las diferencias significativas o (2) indicando que una
diferencia de cierto número de puntos es estadísticamente significativos. Esas prácticas
se tienen que comentar lo importante es que, a menos que tengamos evidencias de que
las diferencias observadas son verdaderas, no podremos afirmar que la persona tuvo
ejecuciones diferentes en las dos pruebas o en las dos ocasiones. Es decir, a menos que
sepamos que la habilidad verbal de Mary es significativamente más alta que su
habilidad numérica no podremos sacar conclusiones sobre sus habilidades verbales o
numéricas. Debido al van error de medición en la fluctuación de las calificaciones la
diferencia necesaria para la significancia suele ser mayor que lo que pudiera esperarse a
primera vista. Así, debemos tener siempre cuidado al interpretar las calificaciones
diferenciales, con el fin de no sacar conclusiones de diferencias aleatorias.
D. Comunicación de la información sobre las calificaciones de las pruebas
En sentido amplio, todo lo que hemos visto hasta ahora se ha referido a la interpretación
de las calificaciones de pruebas. Por esto se entiende que no es posible interpretar
adecuadamente las calificaciones de las pruebas. A menos que entienda tanto el modo
en que se construyen y validar, las pruebas, como los conceptos relacionados más
directamente con las calificaciones y las normas. Sin embargo, estos conocimientos sólo
aseguran que podamos describir la ejecución en la prueba de un individuo. A menudo,
nos interesamos más por los factores de desarrollo y situaciones que provocaron la
ejecución de la persona o cómo reaccionará y utilizará la información acerca de su
ejecución. Estas son preguntas del mayor interés para los maestros y los consejeros.
Hay un punto que merece una atención especial, puesto que conduce a menudo a
interpretaciones inadecuadas. Es fácil pensar en factores, ya sea en los antecedentes del
sujeto o en los aspectos de la situación de prueba, que pueden influir en la ejecución de
un individuo. Por lo común, es más fácil identificar los factores que pueden interferir en
la ejecución, produciendo más bajas calificaciones, que los factores que producirán una
mejor ejecución. Esto, combinado con nuestra tendencia, aparentemente natural, a decir
cosas buenas sobre las personas y evitar las malas, puede dar como resultado una
tendencia a dar justificaciones a una ejecución baja o sea pensar en razones por las que
una persona haya podido obtener una baja calificación. En otras palabras, es posible
que, en algunas ocasiones, hagamos demasiado hincapié en las razones posibles de un
mal rendimiento. Esto no implica que no existan. Las hay, lo Importante es que esas
razones se deben colocar en una perspectiva apropiada, para no presentar un cuadro
demasiado rosa o quienes se someten a las pruebas.
Un buen modo de evitar este problema es el de separar el nivel de ejecución de las

razones para esa ejecución; aunque sepamos que están relacionados. Veamos un
ejemplo. Muchos estudiantes provenientes de medios ambientes "pobres" al no haber
tenido las experiencias de los niños de la clase media, obtienen bajas calificaciones en
pruebas de rendimiento y habilidades. Al interpretar sus calificaciones, no podemos
pasar por alto ese hecho. No obstante, el nivel de ejecución de los alumnos puede
proporcionar informaciones valiosas, independientemente de la razón por la que se
obtuvo este resultado. Por ejemplo, si las habilidades de un estudiante en lectura son
bajas, tendrá probablemente dificultades en cualquier clase o cualquier situación que
requiera habilidades para la lectura. Esta es la interpretación que le damos a su nivel de
ejecución en la prueba de lectura. Sin embargo, al tomar en consideración cómo mejorar
las habilidades de lectura del estudiante, el conocimiento de los factores básicos medio
ambientales da un segmento importante de información.
E. Algunas indicaciones
Incluso si el examinador tiene las bases técnicas necesarias para interpretar la

calificación de una prueba, no hay ninguna garantía de que esta información se
comunique eficazmente al sujeto examinado. Así pues, en esta sección vamos a
recomendar varias guías apropiadas que nos ayuden a comunicar los resultados de tal
modo que el cliente entienda su significado. Estas recomendaciones no los convertirán
en expertos; pero esperamos que resulten adecuadas como punto de
partida.
Utilizar un lenguaje que entienda el cliente. La medición, como otros campos

especializados, tiene su propio vocabulario. El hecho simple de que nosotros
entendamos un término no implica que lo comprenda también el cliente. Por ejemplo,
sabemos lo que son desviaciones estándar y calificaciones estándar; no obstante, es
poco probable que lo sepa el cliente por ende, tendremos que explicar las calificaciones
estándar en términos no técnicos. En general, bastará utilizar una interpretación que
incluya la posición relativa (o sea, las clasificaciones en percentiles). Si se tienen dudas,
se le debe preguntar a: cliente si entiende. Mejor aún será que le pidamos que nos diga
lo que significa nuestra interpretación.
Asegurarse de que el cliente sepa lo que mide o predice la prueba. Este es el tema de la
validez, también en este caso, no necesitaremos una explicación técnica detallada, sino
las implicaciones principales. Por ejemplo, no necesitamos darle a un cliente un curso
breve sobre la construcción del inventario de intereses Vocacionales de Strong; pero
debe saber que las Escalas Ocupacionales comparan sus intereses a los de personas de
esa ocupación y que las calificaciones eludidas indican que la persona permanecerá
probablemente en la ocupación de que se trate, si ingresa a ella. Otro aspecto se puede
denominar el problema de los membretes. Probablemente no bastará con decirle a un
cliente que una escala mide, por ejemplo, la dominancia. Es muy posible que tengamos
que explicarle lo que considera como dominancia el constructor de la prueba. Esto
resulta particularmente importante en las dimensiones de la personalidad cargadas de
emocionalidad, tales como la heterosexualidad o la masculinidad y la femineidad.
Si las calificaciones están relacionadas con las normas, asegurémonos de que el

estudiante sepa con qué grupo se le está comparando. Por ejemplo, la clasificación de un
alumno en una prueba de aptitudes universitarias, como la ACT o la SAT, variará
mucho, dependiendo de si se le compara con una porción de corte transversal de
graduados de preparatoria, con los alumnos de una universidad local o con los de una
escuela muy selectiva. Asegurarse de que el estudiante reconozca que esas
calificaciones son sólo "las mejores estimaciones". Aquí, nos referimos tanto a la falta
de confiabilidad corno a los errores de predicción (falta de validez), así como también al
hecho de que la validez tiene datos que se basan en grupos y no en individuos. Lo
importante que se debe comunicar es que las calificaciones o las predicciones son "las
mejores estimaciones", y que también se incluirá cierto grado de errores al tomar en
consideración una calificación individual. Para hacer esto sin dar la impresión de que
esas calificaciones están tal llenas de errores que carecen de valor, implica, con
frecuencia, pisar la cuerda floja.
Asegurarse de que el cliente sepa cómo se utilizarán sus calificaciones. Esto resulta
particularmente importante cuando esas calificaciones se utilicen para la colocación o la
selección. Nos interesa el papel que desempeñarán las calificaciones de la prueba en el
proceso de toma de decisiones. ¿Serán un factor importante o se utilizarán sólo en los
casos limítrofes? ¿Hay calificaciones de corte mínimo o es el proceso compensatorio?
Con frecuencia, esta información no se encuentra- disponible, sobre todo en las
situaciones de asesoramiento. No obstante, es frecuente que tengamos informaciones
que pueden resultar útiles. Por ejemplo, supongamos que un alumno piense solicitar un
trabajo de graduado en psicología en la OID IVY y que sepamos que el promedio de
calificaciones GRE-Verbal en esta prueba sea de 700. Si Juan López obtiene una
calificación de sólo 500 en la GRE-V podremos deducir probablemente con bastante
seguridad que sus probabilidades de aceptación serán bajas, aunque no sepamos la
importancia que da el comité de admisiones a esas calificaciones.
Tomemos en consideración qué efectos tendrá sobre el cliente el conocer las

calificaciones que obtuvo en la prueba. Tomemos el ejemplo del párrafo anterior. ¿Se
sentiría desalentado Juan por el hecho de que sus calificaciones fueran bajas? ¿O le
confirmarán lo que ya sospecha sobre sus capacidades? ¿Hará que abandone planes
establecidos desde hace mucho tiempo? ¿O hará que trabaje más para demostrar que su
calificación no es una verdadera indicación de su capacidad? En resumen, ¿cómo
afectará nuestra interpretación al cliente? Además, ¿cómo manejarán su reacción?
Aunque con frecuencia pensamos en las posibles reacciones de desagrado cuando las
calificaciones son más bajas de lo que espera una persona, deberemos estar también
preparados para la situación opuesta. Si un alumno cree que tiene sólo una capacidad
promedio, ¿qué efectos tendrá el hecho de que descubra que, en realidad, sus
capacidades son muy elevadas? ¿Cómo reconciliará esto con su auto imagen anterior?
Estos son los tipos de pregunta; a los que tienen que estar preparado a enfrentarse un
intérprete de pruebas. En muchos de los lineamientos anteriores se encuentra nuestro,
punto final: dejemos que el cliente participe activamente en el proceso de interpretación
de la prueba. Después de todo, las calificaciones son suyas, no de uno, y las decisiones
que se deba: tomar afectarán su vida 'y no la nuestra. Por ende, en todas las etapas del
proceso debemos preguntarle por sus reacciones y animarlo a que haga preguntas y
ayudarle a reflexionar en las implicaciones de sus calificaciones. Aunque el resultado de
una prueba es sólo una porción limitada de información, el determinar Ia calificación
puede hacer-que se desencadene una serie de evento que cambie drásticamente la vida
de un individuo. Por ende, es preciso que nos aseguremos de que entienda bien los
significados y las implicaciones. A menos que el cliente participe activa mente en el
proceso, podemos no estar conscientes de hasta que punto comprende bien sus
calificaciones.
Conclusiones de la séptima semana
 La elaboración de un test es un proceso científico de diagnóstico o medida.

 Todas las condiciones, reglas y pautas deben estar expuestas, explicadas y
justificadas en el manual.
 El manual de una prueba psicométrica es indispensable e inseparable del proceso
de construcción.
 El manual de la prueba es un documento que debe contener aspectos básicos del
instrumento e indispensables para saber utilizarlo.
 La importancia del manual radica en que una prueba psicométrica no puede
administrarse de cualquier manera o como se le ocurra al usuario.
 La elaboración del manual debe realizarse minuciosamente y pacientemente;
culminando con la revisión de un lingüista.
 El éxito en la elaboración del manual e instrumento dependerá del constructor,
de su minuciosidad y perseverancia en el proceso.
6.1. Fundamentos de la estandarización
Cuando hablamos de estandarización, también involucramos a la tipificación ya que
juntos constituyen un proceso importante dentro del proceso de la construcción de un
instrumento psicométrico. Se dice que una prueba está estandarizada cuando tiene
procedimientos definidos en forma clara para su administración y calificación,
incluyendo datos normativos (Cohen 2006).
Otra forma de entender la definición de estandarización es como un

proceso dentro de la validez que permite normalizar la prueba en un determinado
contexto, incluso se plantea los criterios de evaluación, calificación e interpretación, es
decir a todos se mide por igual.
6.1.1. Normas
Arévalo y otros autores refieren que la norma es la medida expresada en puntajes para
un grupo específico y frecuentemente puede ser usada como un punto promedio de
comparación en un sujeto. Con ello nos permite situar a las personas sobre una medida
específica o por debajo de ella. En conclusión las normas nos indica cómo realmente
actúan las personas y no cómo deberían hacerlo.
A. Grupos normativos
Arévalo en el 2012 explica lo siguiente en cuanto a los grupos normativos diciendo:

“…Es seleccionado de la población de referencia y es el grupo histórico de sujetos sobre
los que se calculan las normas”.
La forma para determinar
un grupo normativo de una población, varía desde el muestreo aleatorio sencillo, hasta
estrategias de muestreo más complejo, como el muestreo aleatorio estratificado y el
muestreo de grupos. Sin embargo una forma más apropiada de seleccionar el grupo que
nos ayudara a estandarizar un instrumento es empezar a categorizar, o “estratificar”
(sexo, edad, nivel socio económico, región geográfica, entre otros) que se supone que
pueden relacionarse con las calificaciones que se obtienen en la prueba. Con el uso de
este procedimiento de muestreo estratificado, se reduce al mínimo, la probabilidad de
seleccionar una muestra no representativa o subjetiva (Arévalo, 2012).
En la mayoría de las pruebas, se interpretan las calificaciones comparando la ejecución

de un individuo con la de los otros del grupo normativo. El grupo normativo
proporciona una base de comparación que muestra las calificaciones de un grupo
estándar, definido, de referencia. Potencialmente, hay cierto número de posibles grupos
normativos para cualquier prueba. Puesto que la clasificación relativa de una persona
puede variar mucho, dependiendo del grupo normativo que se utilice para la
comparación, la composición del grupo normativo es un factor crucial para la
interpretación de las calificaciones relacionadas con las normas. Así pues, al desarrollar
normas, la primera pregunta que debemos hacernos es: ¿cuáles son los diversos grupos
normativos posibles?
Desde el punto de vista de quien desarrolla la prueba, la pregunta es: ¿En qué
poblaciones se utilizará la prueba? Los grupos normativos se deben elegir para
representar esas poblaciones. Si la prueba está diseñada para evaluar las aptitudes de los
alumnos de la preparatoria, para realizar las labores correspondientes en la universidad,
el grupo normativo deberá consistir en graduados de preparatorias que piensen asistir en
la universidad. Si las pruebas se diseñan para medir las características de la personalidad
de los adolescentes, el grupo normativo consistirá en una sección de corte transversal
de adolescentes. Si la prueba se diseña para medir la disposición para la lectura de los
alumnos de jardines de niños, el grupo normativo debe consistir en alumnos de kinder
que no hayan comenzado a recibir todavía instrucción de lectura. Puesto que la mayoría
de las pruebas se diseñan para utilizarse con varios grupos, se necesitará por lo común
más de un grupo normativo.
Los usuarios de las pruebas observan las normas desde diferentes puntos de vista, según
las ventajas que ellos consideran. Su pregunta primordial es: ¿Cuál de los grupos
normativos disponibles es más apropiado? Una vez más, pueden ser pertinentes varios
grupos normativos. Por ejemplo, al aconsejar a un alumno de preparatoria que piense
estudiar ingeniería en Ia universidad, un asesor académico puede comparar las
calificaciones del estudiante en una prueba de actitudes escolares con las de otros
graduados de preparatoria que piensan asistir a a la universidad con las de quienes
ingresan a las universidades a las que piensan asistir el alumnos y con los de los
estudiantes de primer año de ingeniería en esas mismas universidades.
Tanto para quien desarrolla la prueba como para el usuario, la consideración principal es
la composición de los grupos normativos. Para las pruebas de aptitudes y rendimiento,
el grupo normativo apropiado consiste, generalmente, en los competidores existentes y
potenciales. Para las pruebas de capacidades generales o características de la
personalidad, los grupos normativos se Componen habitualmente de personas de la
misma edad o el mismo nivel educativo. Por supuesto, en cualquier situación dada, se
puede usar una gran variedad de dimensiones para definir el grupo normativo tales
como el sexo, la edad, el grado o el nivel educativo, la ocupación, la zona geográfica, la
posición socioeconómica.
B. Requisitos de las normas de grupo
Quien desarrolla o utiliza una prueba debe tomar en consideración varios

factores al construir o evaluar grupos normativos. El primer
requisito es el de que la composición de las

normas de grupa se defina con claridad.
Aunque las especificaciones generales de los grupos normativos serán
determinadas por las finalidades y los usos de la prueba, dentro de esta gama
hay una gran variedad de grupos normativos potenciales. Por esto, es
necesaria una descripción concisa y clara de la naturaleza y las características
de cada grupo normativo. Es insuficiente una aseveración en el sentido de que
un grupo normativo se compone de "5,000 alumnos de primer año de
profesional". Incluso la declaración que sigue proporciona sólo una descripción
mínima:
El grupo normativo está formado por todos los alumnos de primer año,
hombres y mujeres inscritos a cursos de artes liberales en universidades
fundadas por concesión de tierras.
Algunas de las preguntas que podemos hacer son: ¿Qué es un "alumno de

primer año"? ¿Qué cursos se incluyen en "artes liberales"? ¿Qué son las
universidades "fundadas por concesión de tierras"?.
Si un grupo normativo se compone de personas de un empleo u una ocupación

especifica, se deberá dar el titulo del empleo junto con su código del (Dictionary
of Oceupational Titles) Diccionario de títulos de ocupaciones, se deberán
especificar los deberes del empleo y el tipo de empresa o industria, su
ubicación geográfica, los años de experiencia de los trabajadores y otras
informaciones pertinentes. Para las pruebas de ejecución, la información básica
debe incluir el nivel de estudios de los alumnos, la posición socioeconómica y
otros datos demográficos y la experiencia de los alumnos en el área académica
que se está examinando.
Con frecuencia, varios grupos distintos de una población tiene una ejecución
diferente en una prueba. Si los subgrupos tienen diferentes rangos o niveles de
ejecución, se deberán construir normas separadas para cada subgrupo. Por
ejemplo, los hombres suelen tener en general una mejor ejecución que las
mujeres en pruebas de aptitudes mecánicas, mientras que, a la inversa, las
mujeres obtienen calificaciones más altas que los hombres en pruebas de
aptitudes secretariales; por esto, se suelen proporcionar datos normativos
separados para hombres y mujeres en esas pruebas. Las variables que se
relacionan con frecuencia con la ejecución en la prueba y que, por lo tanto,
pueden constituir la base para grupos normativos separados incluyen el sexo,
la edad, la educación, la posición socioeconómica, la inteligencia, la ocupación,
la región geográfica, la raza y la cantidad de adiestramiento especial.
En la mayoría de los casos, un grupo normativo consiste en una muestra

tomada de la población de interés, y no de la población total. Así pues, un
segundo requisito es el de que el grupo normativo sea una muestra
representativa de la población designada. Por ejemplo, si se debe utilizar una
prueba en estudiantes de secundaria, se deben incluir números proporcionados
de alumnos de cada nivel de graduación, las zonas urbanas y rurales, las
diversas razas, las posiciones socioeconómicas altas y bajas, las diversas
regiones del país, etc. El no obtener una muestra representativa hará que se
desvíen los datos normativos, lo que complicará la interpretación de las
calificaciones. Puesto que los datos normativos son más fáciles de obtener
para cienos grupos (por ejemplo, es más fácil obtener datos de escuelas
suburbanas de alta posición socioeconómica que de escuelas de barriadas
bajas y mucho más sencillo el obtener datos de estudiantes universitarios que
de adolescentes de 18 años de edad y que trabajan), está siempre presente la
posibilidad de un muestreo desviado.
En el tercer párrafo va implícito un tercer requisito: el procedimiento de

muestreo se debe describir con claridad. Parar volver a nuestro ejemplo para
volver a nuestro ejemplo anterior, la descripción del maestreo y por ende, del
grupo normativo, podría ser:
El grupo normativo consistía en 5,000 alumnos de primer añoo a los que se

sometió a la prueba durante la primera semana de clases, en septiembre de
1975; 250 estudiantes (125 hombres y 125 mujeres) se escogieron al azar de
los alumnos inscritos en los cunas de artes liberales en 20 universidades
seleccionadas en forma aleatoria de entre todas las instituciones fundadas por
concesión de tierras.
Al igual que en el caso de la descripción de la población, cuanto más precisa y

completa sea la descripción, tanto mejor.
Un cuarto requisito es el de que los grupos normativos se basen en una

muestra de tamaño adecuado. No obstante, es muy difícil definir con precisión
lo que constituye un "tamaño adecuado". De todos modos, puesto que la
cantidad de error de muestreo varía en proporción inversa al tamaño de Ia
muestra, ésta última será mejor cuanto mayor sea su tamaño. Desde luego, no
es irrazonable esperar que las normas nacionales sobre pruebas normalizadas
incluyan varios centenares de casos en cada casilla de muestreo. Sin embargo,
la necesidad de muestras grandes, que proporciona estimaciones más
estables, se debe suavizar mediante el requisito de que las muestras sean
representativas. O sea que, en general, es más conveniente obtener
calificaciones de una muestra más representativa y de tamaño menor, que de
una muestra mayor, pero poco definida.
Otra consideración final es la de los recientes que sean las normas. Con los
cambios rápidos en la educación y los requisitos para los empleos, las normas
desarrolladas hace cierto número de años pueden no ser apropiadas ahora.
Puesto que se presentan en la actualidad ciertos conceptos a niveles de
graduación más bajos, los alumnos actuales se han expuesto a materiales más
numerosos y diferentes que sus equivalentes de los años anteriores. Algunos
requisitos de trabajo han cambiado radicalmente, igual que las capacidades de
los trabajadores. Las normas se deben actualizar periódicamente y se deben
abordar las normas antiguas con el escepticismo apropiado.
C. Normas locales
Un usuario de una prueba puede descubrir que ninguno de los grupos

normativos disponibles se ajusta a sus fines. O bien, puede desear utilizar un
grupo normativo más limitado que los presentados en el manual de la prueba,
que suele tener un alcance bastante amplio. Por ejemplo, un maestro de
escuela puede desear comparar la ejecución de sus alumnos con el de otros
estudiantes de su clase o del sistema educativo local. En esta situación, una de
las soluciones es la construcción de normas locales.
El desarrollo de normas locales es sencillo y directo (Ricks, 1971) Puesto que

los cuadros de normas son básicamente distribuciones de frecuencias, el
procedimiento implica la obtención de calificaciones para todas las personas
del grupo local (o una muestra de este grupo), el compilar una distribución de
frecuencias y calcular las calificaciones derivadas. Con los equipos de
procesamiento de datos que existen
en la actualidad, se trata de
una tarea sencilla, incluso cuando se incluye gran cantidad de personas; si se
hace a mano, la tarea no es tampoco abrumadora. Por supuesto, la ventaja
principal de las normas locales es que permiten las comparaciones entre una
persona y sus asociados inmediatos. Puesto que cada clase, compañía o
escuela es única en algunos aspectos, sus miembros serán distintos de los
grupos normativos incluidos en el manual. Ya que la ejecución en la prueba del
grupo local puede ser diferente de la de los grupos normativos nacionales la
dendencia de los últimos puede conducir a inferencias inadecuadas, al
interpretar las calificaciones. Por ejemplo, los alumnos de cualquier clase o
escuela dada no tendrán las mismas experiencias educativas que los
estudiantes de un grupo normativo nacional. También es probable que los
estudiantes locales difieran del grupo normativo nacional en factores
relacionados con el rendimiento en la escuda, tales como el de las capacidades
o el nivel socioeconómico. Cuando esas diferencias se producen entre grupos
normativos locales y nacionales, un grupo normativo local puede representar
una mejor norma de comparación. Por supuesto, el usuario de una prueba
puede utilizar tanto normas locales como nacionales y extraer la cantidad
máxima de información de las calificaciones de las pruebas.
La ventaja de las normas locales proporcionar un grupo de comparación más

próximo, es también su mayor debilidad. Aunque las normas locales
proporcionan información pertinente para las decisiones locales directas, no
permiten las interpretaciones en un contexto más amplio. Por ejemplo, los
datos de grupos locales pueden ser más valiosos para ayudar a los alumnos a
que tomen decisiones sobre si estudiar Geometría A o Geometría B; tendrán
poca utilidad para aconsejar a los alumnos sobre las posibilidades de que sigan
una carrera en matemáticas. En el último caso, las normas más amplias
proporcionarán una mejor información.
Nuestra exposición sobre las normas se puede resumir mejor citando varios
principios generales formulados por Seashore y Ricks (1950). Sugieren que se
debe: (1) utilizar grupos normativos bien definidos y evitar las normas poco
definidas de los individuos en general; (2) usar normas de subgrupos
separados, cuando las poblaciones sean diferentes y mezclar grupos sólo
cuando su combinación tenga sentido; (3) señalar todos los datos normativos
útiles (o sea, proporcionar normas sobre varios grupos); (4) desarrollar y
emplear grupos normativos locales y especiales; (5) poner todos los datos
normativos a disposición de otros usuarios de las pruebas y (6) utilizar los
datos normativos disponibles al interpretar las calificaciones.
6.1.2. Baremación
Los baremos son considerados por muchos autores como una tabla de
referencia producto de un proceso de normalización. Estos se obtienen
después de un proceso matemático que permite obtener puntajes normalizados
para el instrumento que se está creando.
Abad en el 2006 señala que los baremos pueden ser de dos tipos:
A. Cronológicos: Son muy útiles para rasgos psicológicos que evolucionan con
la edad, tiene sentido comparar la puntuación de un sujeto con las que
obtienen los de su misma edad y los de edades diferentes. Dentro de ellos se
puede realizar mediante dos tipos diferentes de baremos cronológicos: las
Edades Mentales (EM) y los Cocientes Intelectuales (CI).
Por ejemplo Abad nos refiere en cuanto a la Edad Mental (EM), si aplicamos un
test de Inteligencia de dificultad progresiva a diferentes grupos de edad (niños
entre 5 y 14 años), y que obtenemos las puntuaciones medias de cada grupo
de edad en la prueba, siendo las que siguen:
Edad: 5 6 7 8 9 10 11 12 13 14
Media: 6 8 9 11 14 15 18 22 24 27
Como observaron anteriormente hemos realizado una correspondencia entre

las edades y puntuaciones medias que nos va permitir obtener la EM (Edad
Mental) de cualquier niño al que apliquemos el test construido. Por ejemplo, si
una niña obtiene en el test una puntuación directa de 14 puntos, le asignamos
una EM de 9 años, independientemente de su edad cronológica real, ya que
esa puntuación es la media que obtienen los niños de 9 años (Abad, 2006).
Por otra parte el mismo autor señala también al cociente intelectual como un
baremo de tipo cronológico, el cual se denomina así (y no coeficiente, como es
usualmente se suele escuchar) porque es el resultado de dividir la edad mental
(EM) entre la edad cronológica (EC) del sujeto; para evitar decimales y el
resultado se multiplica por 100, de tal manera que se puede obtener a partir de la
fórmula:
En el siguiente ejemplo mostrado por Abad (2006), si un niño de 10 años obtiene una
puntuación directa de 18 puntos, diremos que su EM es de 11 años y su CI es:
De lo anterior podemos decir que si la EM de un sujeto coincide exactamente con su

EC, el CI es igual a 100, e indicará que este sujeto obtiene exactamente la puntuación
media de su grupo de edad. Además si el CI supera el valor de 100 significará que el
sujeto tiene una Inteligencia superior al promedio de su edad, mientras que si su CI es
inferior a 100, significa que el sujeto tiene una inteligencia inferior a la media de su
grupo de edad. Usualmente, Cocientes Intelectuales inferiores a 70 indican problemas
importantes (deficiencias) de tipo cognitivo, mientras que Cocientes Intelectuales
superiores a 140 indican excepcionalidad intelectual (Abad, 2006).
B. Percentiles: Al referirnos a los percentiles estamos hablando representaciones de las

medidas de posición en una distribución de frecuencias. Los baremos percentilares
consisten en asignar a cada posible puntuación directa un valor (en una escala de 1 al
99) que se denomina percentil y que indican el porcentaje de sujetos del grupo
normativo que obtienen puntuaciones iguales o inferiores a las correspondientes
directas. Por ejemplo si un sujeto obtiene en una escala de agresividad una puntuación
de 40 puntos, a simple vista poco sabemos sobre su nivel de agresividad, sin embargo,
si a esa puntuación le corresponde el percentil 90, ya nos indicaría que este individuo
supera en ese rasgo al 98% de los sujetos utilizados para baremar el test; si el grupo
normativo fuese una muestra representativa de la población general, podríamos deducir
que esta persona supera en agresividad al 90% de las personas, y que sólo un 10% de
personas tienen más agresividad que él (Abad, 2006).
Para calcular un baremo podemos utilizar el siguiente método sugerido por Arévalo
(2012):
Se aplicó un instrumento psicométrico a 113 sujetos y ahora se quiere construir un

baremo percentilar teniendo en cuenta lo siguiente:
X = Puntuaciones brutas obtenidas por los 113 sujetos
F = Frecuencia o número de veces en que se repite una puntuación bruta
Fa = Frecuencia acumulada
Fapm = Frecuencia acumulada al punto medio, es decir la distancia intermedia entre dos
frecuencias acumuladas.
%PA = Porcentaje acumulado
PC o RP = Percentil o Rango percentil
Para empezar crear nuestro percentil lo que tendremos como datos para iniciar son los
puntajes brutos obtenidos (abarcan de 149 a 163). Posteriormente tendremos la
frecuencia, es decir, el número de incidencia en que un puntaje bruto se repite; por
ejemplo en la tabla anterior el puntaje 149 se repite 2 veces, ya que dos sujetos de los
113, obtuvieron 149 puntos. A partir de esos dos datos obtenidos podemos hallar los
siguientes.
Luego de ello nos toca hallar la Frecuencia Acumulada (FA), la cual es la suma en
escalera de la frecuencia, por ejemplo 2+3 = 5, el siguiente 5+5 = 10, 10+6 = 16, etc.
La Frecuencia acumulada al punto medio (Fapm), la hallamos con la siguiente formula:
Nota: La FA tomada en cuenta no es la del puntaje, sino la del puntaje anterior.
Por ejemplo hallaremos la Fapm del puntaje 150, reemplazamos:
Finalmente solo queda hallar %PA (Porcentaje acumulado) a través de la siguiente

formula:
Donde N es el número de sujetos; ahora apliquémoslo al puntaje 150 de la tabla

anterior:
Ahora lo único que tienes que realizar es redondear el %PA para tener el PC o RP, por
ejemplo tomando el dato anterior 3.097 (%PA), mi rango percentil será 3.
El proceso de Baremación no solo abarca crear percentiles o tablas de baremos,

actualmente existen diversos tipos de puntuaciones normalizadas que representan y
sirven de estándares de referencias para la calificación de los instrumentos
psicométricos (Arévalo, 2012).
A. Puntuaciones Z: Son aquellas que permiten expresar en términos simples la
distancia entre la media de un grupo determinado y algún valor de puntuación bruta
específica. Se puede hallar con la siguiente formula:
Dónde:
Z= Puntuación Z
X1 y X2= Promedio de algún grupo
DS= Desviación estándar del mismo grupo X2.
Debemos señalar que la puntuación Z tiene un promedio de 0.00 y una Desviación

Estándar de 1.00, si bien el trabajo del cálculo es rápido y sencillo nos puede ocasionar
la desventaja de tener valores decimales y negativos (Arévalo, 2012).
Para representar lo mencionado anteriormente veamos este ejemplo: “Doris tuvo una
puntuación correcta de 30 frente a su evaluación. Su rendimiento se desea comparar con
otros compañeros del mismo grupo examinado; el cual presenta una media de 50 y una
desviación estándar de 5. La puntuación Z respectiva se hallará así:
De lo hallado podemos concluir que Doris se encuentra en – 4 de desviación estándar

inferior o por debajo al promedio de su grupo al cual se le compara.
B. Puntuaciones T: Es un tipo de puntuación que es una puntuación lineal y más

comunes. Su promedio es de 50 y su desviación estándar de 10. Se puede hallar
mediante la siguiente fórmula:
Tomando el mismo caso anteriormente mencionado Doris obtuvo una puntuación Z fue
de –4; por tanto su puntuación T la podremos hallar de la siguiente manera:
Dicha puntuación T obtenida tiene la ventaja de no presentar valores decimales ni
negativos; sin embargo, lamentablemente se pueden confundir con ciertos tipos de
puntuaciones.
6.2. Proceso de tipificación

La manera apropiada de calificar un test, determinara el valor de los resultados que un
sujeto intervengan, para esto es necesario establecer procedimientos o lineamientos para
aplicar y calificar los test psicológicos.
Durante la aplicación de las pruebas psicológicas, el procedimiento

que debe seguirse al administrarse un test depende de las clase de instrumento
(individual o de grupos, con límite de tiempo o sin éste, cognoscitivo o afectiva), así
también como de las características de las personas que van a someterse al test (edad
cronológica, educación, antecedentes culturales, condición física y mental).
Cualquier circunstancia de este tipo, puede afectar el desempeño de factores como el
grado de preparación para la prueba y su nivel de motivación, ansiedad, fatiga y salud
(Arévalo, 2012).
Teniendo en cuenta lo mencionado anteriormente, es conveniente que el constructor de

una prueba psicométrica, plantee con claridad las diversas normas que deben seguirse
para el empleo de la prueba construida. Estas características deben estar acordes a los
que establecen las normas para tal fin. A todo ese proceso de clarificar las pautas y
normas se le denomina tipificación o normalización, ya que en pocas palabras hacemos
referencia al establecimiento de “normas” para el instrumento (Arévalo, 2012).
Finalmente podemos concluir que tipificación abarca la elaboración de normas que se
aplican a nuestro instrumento construido, los cuales marcan el criterio de uso,
aplicación, calificación e interpretación.
Es importante a considerar dentro del proceso de tipificación es las normas de

calificación e interpretación, las que brindaran a los usuarios las pautas para poder
obtener los resultados reales del instrumento.
En la mayoría de instrumentos psicométricos es común encontrar el modelo

acumulativo para su calificación, ya que es una forma simple y rápida. Generalmente en
este tipo de pruebas se observa que entre mayor es la puntuación en la prueba, más alto
se encuentra quien la responde en capacidad, el rasgo o alguna otra característica que
pretende medir con dicho instrumento (Arévalo, 2012).
Por otra parte aquellos test que emplean un enfoque de clase o categoría para la
calificación, es decir la persona que responde la prueba obtiene crédito hacia la
colocación en una clase o categoría particular (Abad, 2006).
Finalmente Cohen en el 2006 menciona el modelo ipsativo para la calificación de un

instrumento, la cual consiste en la comparación de la puntuación de un sujeto que
responde la prueba en una escala dentro de una prueba con otra escala dentro de la
misma prueba.
A continuación revisaremos algunas consideraciones respecto a la calificación de los

test.
A. Calificaciones brutas, originales o directas
Después de administrar una prueba, las respuestas de un individuo se comparan con una
clave para obtener su calificación en la prueba. En las pruebas de capacidades y
rendimiento, las respuestas que figuran en la clave son las correctas En los inventarios
de intereses y personalidad, las respuestas incluidas en la clave suelen ser las opciones
predominantes de un grupo particular de criterio. También se pueden utilizar corno
calificaciones otras medidas de ejecución por ejemplo, el número de errores, la suma de
puntos en varios reactives o problemas, el tiempo necesario para completar la prueba o
la clasificación. Cualquiera de esas calificaciones, obtenidas directamente a partir de la
prueba, se denomina calificaciones brutas u originales.
Es raro que las calificaciones brutas sean significativas por sí mismas. Sólo cuando una
prueba cubre un universo definido explícitamente tendrá sentido una calificación bruta.
De otro modo, tendrá, que compararse con las calificaciones obtenidas por individuos
comparables o con algún estándar definido, o bien, expresado en términos de alguna
consecuencia o criterio. Todos esos métodos requieren que se transformen las
calificaciones brutas a alguna escala diferente. Puesto que la nueva escala se deriva de
las calificaciones brutas mediante una transformación estadística se dice que son
calificaciones transformadas o derivadas.
B. Calificaciones derivadas o transformadas

Hay diversas formas posibles de clasificaciones de las calificaciones derivadas. A
continuación se presenta tres clases: calificaciones relacionas con normas, calificaciones
con el contenido y calificaciones relacionadas con las consecuencias.
C. Calificaciones relacionadas con las normas.
Lo más frecuente es que la ejecución de un individuo se compare con las calificaciones

obtenidas por otras personas en un grupo de referencia pertinente, el grupo normativo.
Este último se compone de personas que comparten ciertas características con el
individuo. Por ejemplo, en un examen en clase, el grupo normativo incluirá a otras
personas que se sometan a la misma prueba; en una prueba de inteligencia, los niños de
la misma edad; en las pruebas de admisión a la universidad, los estudiantes que piensen
seguir estudios profesionales. Así, el desarrollo de las calificaciones relacionadas con
las normas implica: (1) identificar un grupo pertinente de comparación; (2) obtener las
calificaciones en la prueba de los miembros de este grupo y (3) convertir las
calificaciones brutas a una escala que exprese la ejecución como clasificación relativa
dentro de ese grupo normativo.
El uso de calificaciones relaciona con las normas hace hincapié en que las mediciones
psicológicas son más bien relativas, que absolutas. Como se mencionó antes, en las
mediciones educativas y psicológicas, es raro que se disponga de normas o escalas
absolutas. Así mismo, en la mayoría de las situaciones, las diferencias entre individuos
son más importantes o al menos más interesantes que las similitudes. Estos dos factores
argumentan la expresión de la ejecución en términos comparativos; o sea, en escalas
relacionadas con normas.
D. Calificaciones relacionadas con el contenido.
Aunque las mediciones psicológicas y educativas suelen estar relacionadas con las
normas, es frecuente que este método no proporcione la información deseada.
Consideremos a un padre que habla con el maestro de su hijo que cursa el tercer grado
de primaria. El profesor señala que las habilidades de Juan para la aritmética lo colocan
entre 10% superior de su grupo escolar. Se trata de una interpretación relacionada con
las normas y le proporciona al padre información valiosa. Sin embargo, el padre pudiera
preguntar: "¿Qué habilidades aritméticas ha llegado a dominar Juan?". En este caso, el
padre solicita una descripción de la ejecución del niño en función del contenido que ha
llegado a dominar y no en función de su ejecución en relación a sus compañeros de
clase.
Este ejemplo ilustra un segundo método de informar sobre la ejecución en términos de

destreza. Es obvio que estas calificaciones son valiosas sobre todo en los ambientes
educativos. Sin embargo, el desarrollo de calificaciones relacionadas con el contenido
se ha llevado a cabo con lentitud. Una de las razones para ello es que este método
requiere una especificación precisa del universo de contenido (y habilidades). Esta tarea
es difícil, excepto en áreas muy circunscritas. Por ejemplo, es relativamente fácil
delinear el dominio de "adición de números de dos dígitos"; pero resulta más difícil
circunscribir el universo de "capacidad para resolver ecuaciones algebráicas". El
segundo problema es el de definir un nivel aceptable de destreza. A primera vista, puede
parecer sencillo el especificar el nivel de destreza esperado en aritmética en un alumno
de tercer grado, dada una descripción del dominio. No obstante, una ligera reflexión
indicará que el único modo no arbitrario de hacerlo es en términos de las habilidades
ejercitadas que tienen típicamente los alumnos de tercer grado; por supuesto, se tratará
de un método normativo.
E. Calificaciones relacionadas con las consecuencias
Una tercera posibilidad es la de expresar la ejecución en función de una conducta o una

calificación pronosticada, O sea que, en lugar de interpretar la calificación de un
individuo en una prueba de admisión a la universidad, diciendo que obtuvo
calificaciones más altas que 78% de los candidatos al primer año profesional, podríamos
decir que puede esperar obtener calificaciones de “B”. O bien, al interpretar un
inventario de intereses, podríamos decir que los intereses de una persona fueron
similares a los de un médico. En ambos ejemplos, hemos interpretado las calificaciones
de las pruebas, no como clasificaciones relativas dentro de un grupo, sino en función de
alguna conducta de criterio o alguna consecuencia importante.
Las calificaciones relacionadas con las consecuencias tienen una ventaja importante
sobre otros tipos de calificaciones: incluyen datos de validez en la interpretación de la
prueba. O sea que la interpretación es esencialmente una predicción de la conducta
futura. Para poder hacer esta predicción, necesitamos datos de validez que indiquen qué
conductas se pueden predecir a partir de las calificaciones de las pruebas. Por supuesto,
suelen ser datos de validez relacionados con el criterio. Aunque este método requiere
más trabajo, puesto que se deben realizar estudios de validez e incluir sus resultados en
el procedimiento de interpretación de las calificaciones, da casi siempre interpretaciones
más significativas.
En resumen, las calificaciones relacionadas con las normas indican la ejecución en

función de la clasificación relativa del individuo de que se trate dentro de un grupo de
comparación, Las calificaciones relacionadas con el contenido reportan la ejecución en
términos del contenido o las habilidades adquiridas y las calificaciones relacionadas con
las consecuencias expresan la ejecución en función de una predicción de la conducta
futura. Tomando en cuenta estas distinciones, vamos a efectuar un análisis más
detallado de cada tipo de calificación. Puesto que las calificaciones relacionadas con las
normas se utilizan con mayor frecuencia nos ocuparemos primeramente de ellos. Y
puesto que la interpretación de las calificaciones relacionadas con normas se hace
siempre en relación a un grupo normativo, vamos a ocupar-nos del proceso de
elaboración de grupos normativos, antes de presentar los diversos tipos de calificaciones
relacionadas con las normas.
6.2.1. Deberes de los examinadores antes

de la aplicación del test
Como se mencionó anteriormente el proceso de tipificación consiste en brindar las
pautas para el uso correcto del instrumento, es por ello que necesitamos conocer cuáles
son las pautas para los examinadores, las cuales se tendrán en cuenta como previa
preparación para la aplicación del instrumento.
En el 2012 Edmundo Arévalo propone

ciertas pautas, las cuales coinciden con muchos de los autores que se especializan en
esta rama de la construcción de instrumentos. A continuación revisaremos algunas de
ellas:
o Programación de la Prueba: Es importante tomar en cuenta las actividades en las

que participan las personas en ese momento, y con ello se programa la
aplicación de la prueba.
o Consentimiento Informado: Respetando la ética profesional es necesario la
autorización para la aplicación de tests psicológicos y/u obtener información con
propósitos de evaluación o diagnóstico.
o Familiarizarse con el Instrumento: El examinador debe de conocer y capacitarse
sobre los procedimientos de la aplicación, corrección e interpretación de la
prueba en uso.
o Asegurar para la aplicación de la prueba: Debemos considerar la iluminación,
ventilación, temperatura, nivel de ruido, relativamente libre de distractores e
interrupciones, y otras condiciones físicas que sean apropiadas.
o Reducir los Engaños: Tratar en lo posible de reducir la posibilidad de copia, si es
necesario se trabaja con varios evaluadores o examinadores.
o El examinado durante la Prueba debe seguir las instrucciones tanto las descritas
en el test como las que se dan en forma oral, se leerán en forma clara con el fin
de informar a los sujetos sobre el propósito de ésta y cómo indicar sus
respuestas.
o Establecer el Rapport: Esta condición es importante debido a que el
comportamiento del evaluador tiene un efecto significativo en la motivación de
las personas.
o Estar Preparado para los Problemas Especiales: Por ejemplo si
la persona personas muy jóvenes o ancianos, con trastornos, retraso mental,
discapacitados o con desventajas culturales.
o La flexibilidad permite que las personas con problemas especiales
demuestren sus aptitudes, entre las que tenemos: 1. Proporcionar tiempo
necesario para que contesten a toda la prueba; 2. Permitir desarrollar los
reactivos de ejemplo; 3. Utilizar periodos de prueba relativamente breves; 4.
Observar e identificar la fatiga o ansiedad; 5.Motivar y reforzar en todo
momento y 6. No forzar a contestar a los sujetos, después de haberse negado
repetidamente.
6.2.2. Deberes del examinador después de

la prueba
o Luego de la aplicación del

instrumento el evaluador debe compendiar y guardar en lugar seguro todo el
material.
o Debe denotar y trasmitir seguridad a los evaluados con respecto a su desempeño.
o Siempre tener presente el apoyo de otros instrumentos para corroborar el

resultado de uno, especialmente aquellos de tipo clínico.
o Brindar la información futura sobre los resultados e interpretaciones

encontradas ya sea al evaluado o los referentes, también es necesario brindar
recomendaciones.

Trabajo

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Trabajo

Încărcat de

Drepturi de autor:

Formate disponibile

7.1.1.

7.1.2. Criterios para la elaboración del

En el manual de la prueba se debe consignar toda la información posible acerca de

a. Especificación.- este aspecto hace referencia a los datos de la denominación y

7.1.3. Modelo para la elaboración de un

Edmundo Arévalo (2012)

I. INTRODUCCIÓN Y/O PRESENTACIÓN

 Se debe consolidar un análisis breve de la situación de la variable de estudio y

 Tenga en cuenta los títulos o capítulos con sus páginas respectivas.

III. CONTENIDO DE LA PRUEBA

 Debe realizarse una descripción y explicación breve del problema de estudio.

2.1. Ficha técnica

2.2. Características generales

 Resumen breve de los objetivos y estructura del instrumento

 Citar los antecedentes nacionales e internacionales.

2.4. Procedimiento de la construcción

 Se debe consignar en prosa o indicado paso por paso el procedimiento que se

 Detallar de manera pautada el procedimiento para la calificación del

VI. JUSTIFICACIÓN ESTADÍSTICA

 Se consigna una descripción de la población en la que fue aplicada los estudios

 Detallar el procedimiento utilizado para determinar la validez y confiabilidad.

 Se debe tener en cuenta los baremos

 El cuestionario y la hoja de respuestas se anexaran al manual

 Márgenes: 3.5 Derecha, 3 izquierda, 2.5 superior y 2.5 inferior.

Recuerda: el procedimiento de validez, confiabilidad y la creación de los baremos de la

7.1.4. Nociones sobre la interpretación de

Brown menciona que las calificaciones en las pruebas psicológicas y educativas

En un análisis que realiza Brown de las calificaciones derivadas, supuso que

Con frecuencia, ninguno de los grupos normativos disponibles es claramente apropiado

B. Equivalencia de las calificaciones

Está en el percentil 90 y otra calificación bruta de 36 en la prueba XYZ está también en

Otro procedimiento alternativo, que evita el problema de la equivalencia, sería el de

C. Fluctuación y cambios de las calificaciones

Al medir el cambio, obtenemos calificaciones en la misma medida en diversos

La otra situación común incluye la interpretación de diferencias entre varias

D. Comunicación de la información sobre las calificaciones de las pruebas

Un buen modo de evitar este problema es el de separar el nivel de ejecución de las

Incluso si el examinador tiene las bases técnicas necesarias para interpretar la

Utilizar un lenguaje que entienda el cliente. La medición, como otros campos

Si las calificaciones están relacionadas con las normas, asegurémonos de que el

Tomemos en consideración qué efectos tendrá sobre el cliente el conocer las

Conclusiones de la séptima semana

 La elaboración de un test es un proceso científico de diagnóstico o medida.

Otra forma de entender la definición de estandarización es como un

Arévalo en el 2012 explica lo siguiente en cuanto a los grupos normativos diciendo:

En la mayoría de las pruebas, se interpretan las calificaciones comparando la ejecución

B. Requisitos de las normas de grupo

Quien desarrolla o utiliza una prueba debe tomar en consideración varios

requisito es el de que la composición de las

Algunas de las preguntas que podemos hacer son: ¿Qué es un "alumno de

Si un grupo normativo se compone de personas de un empleo u una ocupación

En la mayoría de los casos, un grupo normativo consiste en una muestra

En el tercer párrafo va implícito un tercer requisito: el procedimiento de

El grupo normativo consistía en 5,000 alumnos de primer añoo a los que se

Al igual que en el caso de la descripción de la población, cuanto más precisa y

Un cuarto requisito es el de que los grupos normativos se basen en una

Un usuario de una prueba puede descubrir que ninguno de los grupos

El desarrollo de normas locales es sencillo y directo (Ricks, 1971) Puesto que

La ventaja de las normas locales proporcionar un grupo de comparación más

Como observaron anteriormente hemos realizado una correspondencia entre

De lo anterior podemos decir que si la EM de un sujeto coincide exactamente con su

B. Percentiles: Al referirnos a los percentiles estamos hablando representaciones de las

Se aplicó un instrumento psicométrico a 113 sujetos y ahora se quiere construir un

X = Puntuaciones brutas obtenidas por los 113 sujetos