Sunteți pe pagina 1din 41

FACULTAD DE PSICOLOGÍA

Y TRABAJO SOCIAL

TEMA PASOS PARA LA ELABORACION DE


PRUEBAS PSICOMETRICAS

CURSO : DESARROLLO COGNITIVO

CATEDRÁTICO : FERNANDO A. MONTEJO


RODRIGUEZ

ALUMNO : ROXANA IRAIDA FRANCO


LUNA

CICLO : “II”

CÓDIGO : DGT04XV2099411020.rar

OPE : LOS OLIVOS

SEMESTRE : 2016 - II

LIMA – PERÚ
PASOS PARA LA ELABORACION DE
PRUEBAS PSICOMETRICAS

INTRODUCCIÓN

DEDICATORIA

Capítulo I:
 Especificación de la Finalidad del test
 Traducción de la finalidad en términos operacionales del
pre test
 Determinación del pretest
Capítulo II:
 Elaboración del Pre-test
Capítulo III:
 Análisis de Ítems Elaboración de los Factores Formato
definitivo del test
Capítulo IV:
 Elaboración de la validez del test Elaboración de la
confiabilidad del test Elaboración de las tablas
Normativas del test
Capítulo V
 Elaboración del Manual del Test
CONCLUSIONES
BIBLIOGRAFÍA

Roxana FRANCO LUNA.


INTRODUCCIÓN
En las ciencias fácticas se miden las características de los objetos que
estudian. La psicología es una ciencia fáctica y para medir los
atributos o características psicológicas del ser humano utiliza como
instrumentos a los tests. Estos pueden ser tests proyectivos o tests
psicométricos.

Los tests psicométricos son los que utilizan el concepto de medición y


tienen su fundamento en la psicometría. El primer test psicométrico
fue la Escala Métrica de la Inteligencia creada por los franceses Binet
y Simon (1905), con la que se introdujo en psicología el concepto de
edad mental. Uniendo este concepto con el de edad cronológica, el
psicólogo alemán William Stern (1912) creó el concepto de Cociente
Intelectual o CI. Por otro lado, el Cuestionario de Datos de
Personalidad de Robert S. Woodsworth (1916) es reconocido como el
primer test de personalidad.

Desde las primeras décadas del pasado siglo los tests psicométricos
han sido construidos siguiéndose el enfoque de la Teoría Clásica de
los Tests, creada por el psicólogo inglés Charles Spearman en la
segunda década del siglo XX; en las tres últimas décadas del mismo
siglo apareció otro enfoque para la construcción de tests que ha sido
llamado Teoría de Respuesta al Ítem (TRI), pero todavía hay pocos
tests basados en esta teoría.

Los tests psicométricos han tenido un gran avance relacionado con


los avances de la psicometría que es la rama de la psicología que se
ocupa de las mediciones mentales. Tests psicométricos son por
ejemplo la Escala de Inteligencia para Adultos de Wechsler (WAIS) y
su contraparte para niños (WISC), del mismo autor; otro test de
reconocido prestigio es el Test de Matrices Progresivas de Raven; por
otro lado, en personalidad, tests psicométricos son, por ejemplo, el
Inventario Multifásico de la Personalidad de Minnesotta (MMPI), el 86
Psicometría Cuestionario 16PF de Cattell y el Inventario de la
Personalidad de Eysenck (EPI).En el presente trabajo se presente el
desarrollo del test , en todas sus fases.
DEDICATORIA

A mis grandes amores, los


motores de vida, mis hijos y
mi tutor por las clases
impartidas dando a conocer
sus experiencias y
conocimientos en forma
didáctica y amena.

Roxana FRANCO LUNA.


CAPITULO I
1.1. ESPECIFICACIÓN DE LA FINALIDAD DEL TEST

El test psicométrico es un procedimiento estandarizado compuesto


por ítems seleccionados y organizados, concebidos para provocar en
el individuo ciertas reacciones registrables; reacciones de toda
naturaleza en cuanto a su complejidad, duración, forma, expresión y
significado.

Los exámenes o test psicométricos son una medida objetiva y


tipificada de una muestra de conducta que nos permiten hacer
descripciones y comparaciones de unas personas con otra y también
de una misma persona en diferentes momentos de su vida.

La Psicometría es la rama de la Psicología que se ocupa de


cuestiones relacionadas con la medición de aspectos psicológicos del
indiviuo.

Los exámenes o test psicométricos son los encargados de medir


cualidades psíquicas del individuo, las hay de varios tipos:
de medición de inteligencia (que tanto cotejan edad mental y edad
cronológica), rasgos de personalidad(como tiendes a
reaccionar), factores de personalidad (cotidianamente como te
comportas), proyectivas (que es lo que subconscientemente deseas)
y varios tipos mas. Son una herramienta tanto para conocer su vida,
estado emocional, intelectual e inclusive si existe alguna anomalía en
su funcionamiento cerebral o simplemente para ubicarnos en su forma
de pensar.

En el aspecto laboral, la finalidad de la pruebas psicométricas es


escoger de entre candidatos, a los más aptos para ocupar cargos
vacantes en las empresas, tratando de mantener o aumentar la
eficiencia y el desempeño del personal, así como la rentabilidad de la
organización.

Estos exámenes o test poseen validez y son de suma utilidad porque


perminten comprobar la capacidad, destreza y habilidades del
aspirante mediante pruebas prácticas y objetivas, también se utilizan
pruebas psicotécnicas para determinar vocaciones, inclinaciones,
aspiraciones del líder, etc.

Las técnicas de selección suelen dividirse en esto pasos: entrevista


de selección, pruebas de conocimiento o capacidad, test
psicométrico y técnicas de simulación aunque no siempre van en
este orden.

Los exámenes o test psicométricos permiten la evaluación psicológica


o psicométrica de los candidatos, evalúa las aptitudes de las personas
y que cuando son descubiertos pueden ser transformados en
habilidades o capacidades personales como habilidad numérica,
habilidad verbal, habilidad manual, etc.

Los resultados de estos exámenes y los datos obtenidos del


curriculum del candidato (a través de la entrevista) nos dan la
información sobre el perfil de cada uno de ellos.

En un proceso de selección de personal la pruebas psicológicas


usualmente evalúan cuatro aspectos: inteligencia, intereses
vocacionales, personalidad y habilidades específicas.

En las pruebas de personalidad el resultado que interesa es saber si


existen trastornos del comportamiento que afecten directamente su
desempeño en el trabajo, esquizofrenia, trastorno esquizotípico y
trastornos de ideas delirantes. El resto de los trastornos del
comportamiento no tendrían una afectación directa en el trabajo y
negarle el empleo a una persona por dicha condición probablemente
sería discriminación.

 La construcción de una escala de medición de algún aspecto del


comportamiento humano requiere previamente un exhaustivo análisis
conceptual del dominio o rasgo a medir.

 La construcción de un test parte de una visión individual o grupal


acerca de un determinado aspecto de la personalidad de las personas
que necesita ser medido objetivamente, y esto implica el conocimiento
de la existencia de otras pruebas, puesto que si existen deberá verse
la confiabilidad y validez de esos test ára medir dicho, constructo, en
caso de que no existan o que se hallen errores, se partirá a construir
un test que mida objetivamente una rasgo o conducta.
El propósito del test hace referencia a la elaboración del constructo,
aquello en lo que va estar sostenido nuestro test y lo que pretende
medir. Dentro de esto tenemos que definir también a que población
está dirigida la prueba así como el tipo de ítems que se va a utilizar.
Las pruebas cumplen funciones diferentes según sean sus propósitos
po lo que su elaboración varía de acuerdo a sus propósitos, pero en
forma ideal que una prueba empieza con la definición de las variables
o constructos que van a medirse y con el esbozo del contenido
propuesto.

1.2. TRADUCCIÓN DE LA FINALIDAD EN TÉRMINOS


OPERACIONALES DEL PRE TEST

Una vez determinado el propósito es necesario que se planee como


se va a construir el test, es a esto cuando nos referimos con términos
operacionales, las operaciones que se usaran para construir nuestro
test, se dividen en dos grandes áreas las que son el contenido y el
formato del test.
Hay dos grandes aproximaciones para hacer la definición de los
constructos. En función de la novedad o no del objetivo que nos
planteemos con la prueba y del tipo de test del que se trate se insistirá
más en un procedimiento u otro.
A. Aproximación inductiva o exploratoria:

El autor del test escribe un gran número de ítems que


supuestamente miden el constructo. A continuación, se
administran los ítems a un grupo grande de personas. Las
respuestas de las personas a los ítems son analizadas mediante
técnicas estadísticas para buscar patrones de relación entre los
ítems. El autor el test pone nombre a esos patrones de relación y
de esta forma define el constructo. La aproximación trabaja desde
las respuestas de las personas hacia la definición del constructo.
Ahora no se puede esperar construir un constructo valiéndose
únicamente de estas técnica, pues se pondría a merced de la
arbitrariedad y circunstancias externas, no se puede hacer esto sin
tener una idea más o menos clara de lo que se quiere medir.
B. Aproximación deductiva o confirmatoria.

El constructo no se mide en el vacío. Está insertado en una teoría


que dirige la propia definición del constructo indicando los
comportamientos que pueden considerarse indicadores del
constructo. La contrastación de las hipótesis estructurales que
pone de manifiesto la teoría determinará la validez del test. Esta
aproximación va desde la teoría hacia los hechos.

Estos dos métodos no son excluyentes pues nunca se parte de la


nada, todo lo contrario siempre se tiene una idea y conocimiento del
constructo que se quiere medir.
 Revisión bibliográfica. Tener presentes las conductas o
indicadores que hayan utilizado otros investigadores para medir
el mismo constructo y de los que podemos tener conocimiento
por sus publicaciones.
 Análisis de contenido. Este procedimiento consiste en hacer
preguntas abiertas relativas al constructo que nos interesa a
personas conocedoras del constructo o que son elementos de la
población objetivo y cuyas respuestas pueden indicar categorías
conductuales representativas del constructo.
 Juicio de expertos. Se trata de pedir a personas “expertas” a
través de entrevistas o cuestionarios que nos indiquen qué tener
en cuenta y, por lo tanto, medir en los sujetos por lo que
respecta al constructo.
 Identificación de incidentes críticos. La particularidad de este
procedimiento está en que pedimos a personas cercanas a
sujetos típicos de nuestra población objetivo, que nos
identifiquen comportamientos tipo de los distintos niveles del
constructo.
 Observación directa. El autor del test recoge la información
mediante observación directa de personas que manifiestan el
constructo. Los comportamientos de estos sujetos que el autor
considere relevantes serán propuestos como posibles
indicadores del constructo.

C. Formato del Test.-

Dentro de esto se considerara si el test se resolverá con lápiz o


papel o con la ayuda de un aparato, el tiempo para resolverlo, la
modalidad de aplicación (individual, grupal, o autoadministrado),
pero sobre todo la extensión de la prueba y el tipo de ítems.
Diseñar el test es preparar la información necesaria para elaborar
la población inicial de ítems. El autor del test en este paso como
en los anteriores debe asegurar que el test final aportará la
información necesaria para alcanzar el objetivo para el que van a
utilizarse las puntuaciones. Todas las decisiones que tome debe
someterlas al criterio siguiente: ¿contribuye a lograr el objetivo
para el que van a utilizarse las puntuaciones?
1.3. DETERMINACIÓN DEL PRE TEST.-

Es un test un poco más amplio, en promedio lleva 3 veces más ítems


que el test final, y es la manera de construir el test donde se irán
seleccionando los ítems más relevantes.
 Algunos puntos importantes a tomar en cuenta son:

- Tenga siempre presente cuáles son los contenidos a evaluar y


los objetivos que se persiguen; una vez que los tenga
claramente explicitados procure traducirlos a preguntas
concretas en la prueba de evaluación que elabore.
- Prevea una sola respuesta correcta de entre las alternativas
ofrecidas. Si hay más de una respuesta correcta, los
participantes se confunden, la puntuación es más difícil y la
prueba pierde validez
- Evitar los enunciados en forma negativa, son más difíciles de
procesar.
- Redactar frases cortas y evitar estructuras de frases
complicadas.
- Evitar o minimizar el uso de expresiones como “raras veces”, “a
menudo”, o “generalmente”.
- Asegurar la concordancia gramatical entre el enunciado general
y las alternativas.
- Asegurar la corrección semántica y ortográfica de todo el texto
contenido en las preguntas y sus opciones de respuestas
alternativas.
- Evitar alternativas o enunciados jocosos.
- Conseguir que la longitud de las distintas alternativas de
respuesta sea aproximadamente la misma.
- Evitar las reiteraciones de texto innecesario en todas las
alternativas
- Evitar el uso como última alternativa de “todas las anteriores
son correctas” o “ninguna de las anteriores es correcta”.
- Evitar respuestas que de una manera obvia resulten imposibles.
- No ofrecer información engañosa. Las preguntas capciosas
provocan respuestas equivocadas.
- Distribuir la posición de las respuestas correctas al azar para
evitar que los alumnos deduzcan una posible pauta de posición
de respuestas correctas.
- Procure que las respuestas múltiples no hagan referencia a las
respuestas de otras preguntas. Si las respuestas están
estrechamente relacionadas entre sí, la puntuación del
evaluado puede resultar gravemente afectada si contesta
incorrectamente una pregunta previa relacionada. Esta situación
puede afectar a los resultados y la validez de la prueba.
- Utilice diferentes niveles de dificultad en la prueba. Redacte
preguntas complicadas, medianamente difíciles y fáciles. En lo
posible redacte el doble de preguntas que compondrán la
prueba, para posteriormente seleccionar de entre ellas la mitad.
- Simplifique la mecánica de la prueba. Recuerde que su objetivo
es medir los conocimientos de los alumnos, no su habilidad
para comprender instrucciones complejas.
- Revise la prueba antes de realizarla. ¿Resulta adecuada?; y
sobre todo cuestiónese sí ¿Responde a los contenidos y
objetivos que se persiguen?
CAPÍTULO II
2.1. ELABORACIÓN DEL PRE-TEST:

Diseñar el test es preparar la información necesaria para elaborar la


población inicial de ítems. El autor del test en este paso como en los
anteriores debe asegurar que el test final aportará la información
necesaria para alcanzar el objetivo para el que van a utilizarse las
puntuaciones. Todas las decisiones que tome debe someterlas al
criterio siguiente: ¿contribuye lograr el objetivo para el que van a
utilizarse las puntuaciones?
El fin principal de planificar un test es elaborar un bosquejo detallado,
que sirva de guía para elaborar los reactivos con los que vamos a
evaluar ciertos procesos o fenómenos. Dentro de esto debemos tener
en cuenta dos puntos importantes.

A. Número de ítems: Es imposible fijar a priori el número de ítems


que debemos hacer para constituir la población inicial de ítems.
También es evidente que, como después someteremos los ítems de
esa población inicial a un proceso formal de revisión para conocer
su calidad, habrá que elaborar más ítems de los que en última
instancia formarán el test final.
Tampoco podemos olvidar que el modelo lineal aditivo de las
escalas tipo Likert y de la Teoría Clásica de los Test recomienda
elaborar test largos, para favorecer el que podamos obtener
mediciones fiables. El supuesto sobre el valor nulo del promedio de
los errores de medida de los items del test sólo se podrá alcanzar
cuando el número de ítems es suficientemente grande.
Teniendo en cuenta que una vez que sometamos a análisis
empíricos los ítems elaborados nos veremos obligados a eliminar
aquellos que no alcancen unos requisitos mínimos de calidad
psicométrica, se trata de elaborar un número suficientemente
amplio de ítems que garantice que dispondremos de un repertorio
con calidad suficiente para establecer el test definitivo. Para ello se
recomienda elaborar el doble o triple de ítems de los que
previamente se hayan considerado para constituir el test definitivo.
Aunque esto tambien dependerá de la dificultad para elaborar los
ítems.
B. Formato de respuesta: Viene determinado por el tipo de
constructo que se vaya a medir y por la finalidad de uso que se le
va a dar a la prueba. Por lo que respecta al formato de los ítems, la
primera decisión a tomar es si el sujeto debe construir la respuesta
(respuesta abierta) o si ha de seleccionarla de entre las propuestas.
Las primeras se adaptan mejor a los procesos cognitivos complejos
y en los que es primordial la actividad o producción del sujeto,
mientras que los segundos son últimamente preferidos por su
mayor precisión o fiabilidad, además de por su mayor rapidez de
corrección.
En los test de ejecución máxima los tipos de respuesta más
frecuentes son:
 Verdadero y Falso. Tienen el inconveniente de ser respuestas
excesivamente contundentes o extremas, y que de pocos
enunciados se pueden emitir sin crítica. Suele ocurrir que alumnos
de nivel alto en el constructo suelen equivocarse al responder por
encontrar pequeñas razones que irían en contra de la respuesta
correcta. Son ítems fáciles de construir, pero su respuesta está
muy afectada por el azar.

 Elección múltiple. Suelen tener entre tres y cinco alternativas de


respuesta, de entre las que el sujeto tiene que elegir cuál es la
correcta, o la más correcta si hubiera varias que pudieran ser
consideradas como correctas. No obstante, hay pruebas
psicométricas que ofrecen la posibilidad de elegir varias
alternativas como correctas, e incluso de ordenarlas en cuanto al
grado de corrección; pero crean algunos problemas de calibración
o de obtención de las puntuaciones en el atributo que se mide.

 Relacionar. En ítems de conocimientos e información suelen


ofrecerse dos columnas de elementos informativos y pedir al sujeto
relacione los elementos de la columna izquierda con los de la
derecha. Constituyen una forma rápida de preguntar y responder
sobre una gran cantidad de contenidos, pero no es adecuado para
evaluar sobre procesos cognitivos de mayor complejidad.

 Completar, sustituir o corregir algún o algunos elementos de


una frase o serie estimular. Este tipo de ítems evitan la influencia
del azar, pero al igual que en el caso anterior son excesivamente
memorísticos.

 Respuesta corta. Se pide la respuesta sin oferta de alternativas


de respuesta. Con ello se evita la influencia del azar. Pueden ser
adecuados para evaluar la claridad con la que se han asimilado
algunos conceptos simples. Como todas las respuestas abiertas,
éstas también pueden tener problemas de fiabilidad.
Ejemplo: ¿para que exige el estado el matrimonio civil?

 Ensayo. Ítems que requieren respuestas más largas y con


mayor tiempo que en el tipo anterior, e incluso en ellos se suele
permitir el uso de materiales complementarios.
Ejemplo: Explique usted la importancia de la psicología
organizacional en el mundo actual.

En los cuestionarios de personalidad o actitudes (tests de ejecución


típica) se suelen utilizar formatos del tipo SI/NO, SI/NO/A VECES, o
escalas tipo Likert, en las que la persona gradúa o pondera su
respuesta en escalas de 3 a 9 posibles valores.
En estas escalas de actitudes se suelen distinguir tres tipos de
alternativas de respuesta:
 Las alternativas de acuerdo con, piden a la persona que indique el
grado de acuerdo con la información presentada en el enunciado
del ítem. Habitualmente, son bipolares -registran el acuerdo y el
desacuerdo- y simétricas respecto a un punto neutro. A través de
las alternativas de respuesta, el sujeto indica si está fuertemente,
moderadamente o ligeramente de acuerdo o en desacuerdo con el
enunciado del ítem. Los modificadores (ejemplo muy, bastante,
etc...) deben ser los mismos para el acuerdo y el desacuerdo,
haciendo que las elecciones de respuesta sean simétricas. Para
alcanzar esta simetría, no es imprescindible incluir un punto
neutro. Las alternativas de acuerdo son las más populares y
versátiles, utilizándose para una gran variedad de variables.

Ejemplo: Un trabajo bien hecho es una buena medida de lo que


vale una persona
Muy en desacuerdo 1 2 3 4 5 Muy de acuerdo

 Las alternativas de evaluación, piden a la persona que haga un


juicio en una dimensión de bueno-malo o adecuado-inadecuado,
correcto-incorrecto, etc). Las alternativas suelen ir desde lo
positivo (excelente) a lo negativo (terrible). Pueden utilizarse para
medir actitudes o hacer juicios sobre la calidad de la ejecución en
diferentes dominios.
Ejemplo: Que es lo que más importante del matrimonio, el amor.
Nada importante 1 2 3 4 5 Muy importante
 Las alternativas de frecuencia, suelen preguntar a las personas
cuantas veces ocurre algo o debería ocurrir. Pueden utilizarse
alternativas numéricas o verbales (una vez por día, una vez a la
semana...).
Suelen extenderse desde nunca a Siempre. Pueden utilizarse para
medir variables de personalidad cuando se necesita que la
persona indique con qué frecuencia realiza determinados
comportamientos (o para describir el ambiente, indicando cuantas
veces ocurre algo).
Ejemplo: Se preocupa usted cuando falta de dinero en su hogar.
5 Siempre
4 La mayoría de las veces
3 Unas veces sí y otras no
2 Rara vez
1 Nunca

2.2. ELABORACIÓN DEL TIPO DE ÍTEMS:


Es el momento de pensarse cómo contribuirá cada ítem a la
puntuación total del test o puntuación en el constructo. En los tests de
ejecución máxima se suele valorar la respuesta a cada reactivo de
forma dicotómica : correcta = 1 punto e incorrecta 0 puntos. Así se
obtendría la puntuación total como la suma de unos, esto es, como la
suma de aciertos. Cuando se responde eligiendo una alternativa de
entre las posibles respuestas ofertadas se suele aconsejar corregir la
puntuación total con el número de errores. Guilford (1936) y Lord
(1952) afirman conseguir con esta corrección sobre las puntuaciones
del test una cierta mejoría en el coeficiente de validez de la prueba.
La lógica consiste en que si queremos que la puntuación directa
refleje lo que el sujeto sabe o posee del constructo, hay que restar al
número total de aciertos (AT), el número de veces que el sujeto ha
acertado por azar (AA):
La redacción de los ítems, tal y como hemos planteado el
procedimiento de construcción de una prueba, consiste en escribir los
enunciados y demás componentes de los ítems (el tipo de alternativa
de respuesta es elegido en el paso anterior). Al igual que ocurre con
otros pasos, en la elaboración del test no hay unas normas, criterios o
recomendaciones que garanticen totalmente la redacción de
enunciados de calidad. Escribir buenos enunciados para los ítems es
una habilidad que progresa con la práctica. Algo muy importante es la
precisión en el lenguaje. El ítem debe ser breve, no ambiguo, sin
palabras irrelevantes o tautológicas y sin términos polisémicos. Se
evitarán las palabras estereotipadas y las dotadas de prejuicios o
sesgos. No conviene intentar hacerse el simpático con la redacción de
los ítems, pues ello puede despertar en el sujeto que responde
actitudes insospechadas y que, casi seguro, no tendrán nada que ver
con el atributo que se pretende medir. Del cumplimiento de estas
consignas se debe derivar que entre el escritor de ítems y el que los
responde haya un total acuerdo en el significado de lo que se
pregunta.
En su formato más simple un ítem está constituido por un tronco,
enunciado o pregunta y, en el formato más frecuente, varias
alternativas de respuesta: una es la respuesta correcta (o en su caso
la más correcta) y los demás son los distractores. Frecuentemente
esta unidad básica va acompañada por el planteamiento de algo
(problema, texto, ilustración, diagrama.etc) que se utiliza como objeto
sobre el que referir la/las pregunta/s. Cuando esto es así, el ítem va
acompañado por una instrucción (en negrita) que dirige la actividad
del sujeto a leer el texto, ver el gráfico y responder al/los ítem/s.
Si esta referencia va acompañada por varios ítems que preguntan
sobre ella se suele hablar de súper ítem. Esta estructura de ítem/s
permite mayores posibilidades a la hora de preguntar sobre referentes
de una cierta complejidad y evaluar procesos cognitivos distintos.
Es recomendable evitar las frases incompletas como tronco del test y
sustituirlas por enunciados declarativos o interrogativos. Porque estos
son más consistentes con las alternativas, que además así estarán
expresadas de forma más completa. Con ello se ponen en
funcionamiento procesos cognitivos de nivel superior al de la simple
memoria de rellenar el hueco o completar la frase.
En los tests de ejecución máxima, se suelen utilizar alternativas de
una única respuesta correcta, o bien de las que una de ellas es la
mejor respuesta correcta o la más correcta. El primer tipo de
alternativas suele requerir del sujeto el recuerdo de hechos o
información, mientras que las del tipo de la mejor respuesta correcta
requieren de juicio y discriminación, consecuentemente son más
difíciles y pueden ser utilizadas para mayor variedad de propósitos de
medida.
Hay que tener cuidado con el uso de determinantes o cualificadores
en los ítems. No suelen ser recomendables por dotar de una cierta
indefinición o subjetividad al ítem. Además pueden dar pistas sobre la
respuesta correcta.
El tronco o enunciado del ítem, como su parte fundamental debe
contener la información necesaria y fundamental para comprender
perfectamente la situación que se plantea y el tipo de respuesta que
se pide. Para ello y como recurso práctico que facilite la congruencia
entre el objetivo operativo propio de cada una de las casillas del
cuadro de especificaciones del test; se suelen utilizar tablas que
clasifican los verbos de acción y los objetos directos de esa acción
que son pertinentes en función del nivel taxonómico cognitivo o
afectivo pertinente para cada objetivo operativo del cuadro de
especificaciones del test. Sin intentar ser exhaustivo, pero como
ayuda o recurso práctico a utilizar mientras facilite la tarea de redactar
ítems que respondan a la definición del contenido del dominio
psicológico que se pretende medir.

2.3. ELABORACIÓN DE LAS INSTRUCCIONES,


ELABORACIÓN DEL MATERIAL DEL PRE TEST Y
ELABORACIÓN DE LA CALIFICACIÓN:

Una vez que tenemos los ítems listos necesitamos organizar la forma
en que queremos que se haga el examen para cuidar al detalle los
posibles detalles que hagan poco confiable nuestro test, las
instrucciones deben ser claras y meditadas con cuidado pues afectan
el rendimiento del evaluado.

A. INSTRUCCIONES GENERALES

 Lea cuidadosamente toda la prueba, antes de responder.


 Dispone de (tiempo) para resolver la prueba.
 Cuando se equivoque, borre y escriba la nueva respuesta.
 No emplee bolígrafo para responder la prueba.
 Utilice un solo tipo de letra (cursiva o script). Escriba en forma
legible
 Durante el examen no se permite el uso del diccionario, material
de apoyo, consulta a los compañeros, ni celulares.

B. INTRUCCIONES ESPECIFICAS
Las instrucciones específicas están asociadas con el tipo de ítem de
que se trate, deben ser tan concretas que permitan al estudiante
responder sin dificultad.
Son ejemplos de instrucciones específicas las siguientes:
 Escriba una equis (X) dentro del paréntesis que posee la respuesta
correcta. Cada respuesta debe dársele una ponderación.
 En el espacio que se ofrece a la derecha, escriba la palabra que
completa el texto.

C. EL TIEMPO.
Si hay tiempo límite entonces surge la necesidad de distinguir entre
test de velocidad y de fondo o potencia, según que en los errores
cometidos -RR no correctas- prime la variabilidad en ítems a los que
no se les ha dado ningún tipo de R -velocidad pura- o cuando prima la
variabilidad en los ítems a los que se ha respondido y en cambio no
oscilan mucho las RR a los ítems no respondidos.
Hay que decidir si el factor tiempo es relevante al constructo que
deseamos medir. Cuando el interés primario estriba en el grado de
consistencia de la ejecución que podría haber sido observada si todos
los examinados hubiesen terminado el test.
D. EL MATERIAL

También debe ser elegido con criterio pues habrá algunos que nos
permitan medir con mejor eficacia una variable que otros, por ejemplo
si se quiere medir la capacidad geoespacial de un apersona,
necesitaremos de ciertos elementos adicionales al lápiz y papel, por
ejemplo figuras geométricas, reglas, etc.
El ensamblaje de la prueba. La prueba se organiza por partes, según
el tipo de ítems. Debe considerarse en este punto de estructuración
de la prueba, la complejidad de los ítems y de las labores que exigen
al estudiante. De modo que los ítems aparecen ordenados dentro del
examen de los más fáciles a los más difíciles.

E. LA CALIFICACIÓN:

Elegir el tipo de calificacipon a usar es un criterio que se debe ver


según las caracterisica de nuestro constructo, las pruebas de ensayo
pueden hacerse más efectivas al estructurar la tarea con claridad, de
modo que la interpretación de una pregunte no varíe de manera
significativa de un sujeto a otro. Es entonces que la calificación se
basa en la calidad de la respuesta, este proceso de calificación debe
ser lo más objetivo posible de forma que las calificaciones dependan
menos de factores ajenos al contenido o impresiones y más al nivel de
conocimiento y comprensión.
La cuantificación de las respuestas a ítems de pruebas de rendimiento
típico requiere ciertos matices. Dado un formato de respuesta
determinado (opción binaria, categorías ordenadas o adjetivos
bipolares) es necesario cuantificar las posibles respuestas a un ítem
teniendo en cuenta que la alternativa con mayor valor sea la que
indique mayor nivel de rasgo, aptitud y opinión.

2.4. APLICACIÓN AL GRUPO PILOTO.

El objetivo es evaluar la calidad psicométrica del test y así corregir


algunos detalles que no se habían visto antes, así como por medios
estadísticos seleccionar los ítems más válidos para medir un
determinado constructo.
Un ejemplo de aplicación a un grupo piloto fue el aplicado a doce
mujeres las cuales reunieron las mismas características de la
población en estudio, pero que no formaron parte de la muestra, con
el objetivo de verificar la confiabilidad del instrumento utilizado,
Cuando utilizamos un diseño experimental de comparación de grupos.
Incluye un mínimo de dos grupos, uno recibe tratamiento y el otro no.
Los sujetos se asignan aleatoriamente a las condiciones
experimentales y control, ya sea antes o después de la aplicación del
pre test. Ahora bien, lo peculiar del mismo es la evaluación que se
realiza antes y al final del tratamiento a los grupos experimental y
control. Esto nos permite averiguar el efecto de la intervención, que
viene dado por la cantidad de cambio que se ha producido desde la
evaluación pre tratamiento a la post tratamiento. Este tipo de diseño
se representará gráficamente de la siguiente forma: asignación
aleatoria de los sujetos (R), observación o evaluación (0) e
intervención experimental o tratamiento.
CAPÍTULO III
3.1. APLICACIÓN DEL ANÁLISIS DE ÍTEMS
Luego de seleccionar nuestra muestra y aplicarles el pre test
obtendremos puntuaciones, estas nos servirán para desarrollar el test
definitivo, pero para ellos debemos someter estas puntuaciones a un
análisis para seleccionar los ítems más válidos.
Puntuación de cada ítem: valor asignado a las respuestas de los
sujetos en función del formato de los ítems
Puntuación Total: En general la puntuación total será la suma de las
puntuaciones obtenidas por el sujeto en cada ítem.
La calidad métrica de los ítems se puede evaluar con el análisis de las
respuestas de los sujetos a dos elementos importantes del ítem: la
alternativa correcta y las alternativas incorrectas.
Las respuestas a la alternativa correcta son las que ofrecen mayor
información acerca de la calidad métrica del ítem.

A. 4 (cuatro) criterios a tomar en cuenta:

 La Dificultad: se establece a priori y está en función del


contenido y de la complejidad de las operaciones demandadas
al sujeto para responder correctamente.
 La Discriminación: un ítem presenta poder discriminativo cuando
es capaz de diferencias adecuadamente a los sujetos de
diferentes niveles de una variable criterio.
 La Fiabilidad y la Validez, estrechamente relacionadas con la
discriminación del ítem.
 El análisis de las respuestas a las alternativas incorrectas
(análisis de distractores), informa sobre la utilidad de cada
alternativa incorrecta en el ítem y de su contribución a la calidad
del mismo.
 Parámetros de los ítems
B. Dificultad del ítem
Se han propuesto varios estadísticos. El más utilizado y sencillo es
el estadístico “p” (proporción de sujetos que responden
correctamente al ítem).
Varía de 0 (ítem muy difícil) a 1 (ítem muy fácil).
Los ítems con valores extremos deben ser descartados.
Para ítems dicotómicos, el índice de dificultad coincide con la media
de los sujetos en el ítem.
Los ítems que mejor discriminan son aquellos que son respondidos
correctamente por la mitad de los sujetos.
El índice de dificultad depende de la muestra utilizada.
Corrección para ítems de elección múltiple.
Varianza de un ítem: pi.qi
Varianza del test: Sumatorio de p.q
Media del test: Sumatorio de p
C. Discriminación del ítem
El poder discriminativo del ítem se define como la capacidad del
ítem para distinguir a los sujetos de alta, media y baja puntuación
en un criterio.
El criterio puede ser:
 Interno (el test y el ítem miden el mismo constructo) (el índice de
discriminación se puede interpretar como Índice de
Homogeneidad).
 Externo (la puntuación en otro test) (el índice de discriminación es
una medida del grado de validez del ítem).
Dos son los tipos de medidas utilizados con más frecuencia:
 El Índice De Discriminación
Se basa en la información que proporciona la comparación del
rendimiento de dos grupos extremos (bajo y alto) en las
puntuaciones en el test.
Se toma el 27 % de los sujetos de más baja puntuación y el 27 % de
más alta puntuación en el test.
D = 0 refleja que el ítem no discrimina adecuadamente.
D > 0’40 refleja que el ítem tiene gran poder discriminativo.
Un valor negativo en D indicaría una disminución en la precisión del
instrumento de medida.

D. Fiabilidad y validez del ítem


Cuando el criterio es interno, el índice se denomina Indice de fiabilidad
del ítem, IF, y se considera una medida de la precisión con la que el
ítem mide el constructo o dominio de interés. La fiabilidad del test se
puede expresar en términos de los índices de fiabilidad de los ítems
que lo componen.
Cuando el criterio es externo, el índice recibe el nombre de Índice de
Validez del ítem, IV, según la naturaleza del criterio se debe utilizar un
coeficiente u otro (biserial-puntual, biserial, Pearson).
La validez del test se puede expresar a través de los IV de los ítems.
Comparación de las respuestas a los ítems
Se produce esta situación cuando interesa estudiar la similitud de las
respuestas dadas por un grupo de sujetos a dos ítems que presentan
características similares.
Dados dos ítems podemos plantearnos tres criterios:
- Si dos ítems miden lo mismo = su grado de homogeneidad
Se calcula el estadístico Chi-Cuadrado.
Se compara con el valor Chi-Cuadrado de con g.l. = (columnas-
1)(filas-1).
- Si el estadístico > valor de tabla, entonces el grado de
homogeneidad es significativo.
Analizar el grado de intensidad de dicha homogeneidad
Se calcula el estadístico “p”
Es sencillo e insesgado.
- Si el grado de dificultad es el mismo
Se calcula el estadístico Chi-Cuadrado.
Se compara con el valor de la tabla Chi-Cuadrado con g.l. =
(columnas-1)(filas-1).
- Si el estadístico > que el valor de tabla, entonces podemos concluir
que hay diferencias significativas entre la dificultad de ambos ítems.

E. Análisis de distractores
En ítems de elección múltiple, pueden aparecer ítems con poca
discriminación o con valores de dificultad extremos.
Si se comprueba que el contenido y la redacción son adecuados, el
paso siguiente es el análisis del funcionamiento de las alternativas
incorrectas como distractores, para identificar aquellos defectuosos y
eliminarlos.
Las alternativas incorrectas se consideran distractores eficaces si
cumplen las siguientes condiciones: ser elegidos por un mínimo de
sujetos, ser aproximadamente igual de atractivos para los sujetos, que
el rendimiento medio en el test de los sujetos en cada distractor sea
inferior al de los sujetos que han elegido la respuesta correcta y a la
media del test general de todos los sujetos, que discriminen entre los
sujetos de baja, media y alta puntuación en el test, pero en el sentido
contrario a como lo hace la alternativa correcta.
Funcionamiento diferencial del ítem
Cabe preguntarse si el test mide de la misma manera a todos los
grupos de sujetos a los que se les aplica. Lo que se conoce como el
problema del sesgo.
Las diferencias entre grupos ¿reflejan diferencias reales o están
causadas por fuentes sistemáticas de error?
Estas fuentes sistemáticas de variación afectan a la validez de
constructo.
El estudio del sesgo consiste en el análisis de las posibles fuentes de
variación sistemática.
Para ello hay que diferenciar entre impacto y funcionamiento
diferencial del ítem (fdi).
Un ítem presenta impacto cuando existen diferencias en la puntuación
media obtenida en ese ítem por dos grupos de sujetos con distinto
nivel en el rasgo o característica que mida el test.
Un ítem presenta FDI cuando existen diferencias en la puntuación
media obtenida en ese ítem por dos grupos distintos de sujetos pero
con el mismo nivel en el rasgo o característica evaluada en el test.

3.2. ELABORACIÓN DE LOS FACTORES Y FORMATO


DEFINITIVO DEL TEST
Para elaborar los factores del test se deberá primero terminar con la
elección de los ítems para así constituir el formato final de la prueba,
para esto se partirá de algunos criterios como, Seleccionar los ítems
del pre test por sus índices de homogeneidad estadísticamente
significativos, Se agrupará los ítems por sus valores “p” (el número de
ítems en porcentajes para cada franja de valores “p” aparece en la
tabla anterior).
Se reordenará los ítems de acuerdo a sus valores “p”, colocando en
primer lugar al del valor “p” más cercano a 1 y así sucesivamente en
forma descendente hasta el último, que será el valor “p” más cercano
a 0.
Siempre se debe hacer una última inspección para así detectar
algunos ítems que no tengan la suficiente consistencia.
Luego de tener una lista final de ítems se los distribuirá según los
factores que midan, estableciendo un orden de sucesión, para cuidar
de que dos ítems que se aproximan al mismo factor no estén juntos, y
así ganar confiabilidad en el examen.

Ejemplo: De un test de autoestima.


Factores que componen el constructo:
 Ideas cognitivas negativas de sí mismo: el sujeto tiene una imagen
negativa de sí mismo.
 Incapacidad: el sujeto no se cree capaz de realizar nada con éxito.
 Valor de sí mismo: hace referencia a ideas cognitivas relacionadas
del valor como persona, de su valía…es una idea en relación con
los demás.
 Ideas cognitivas sobre otros: hace evaluaciones negativas sobre
otros, se compara con ellos y tiene la tendencia a creer que
quieren hacerle daño.
 Ideas cognitivas negativas sobre el futuro: tiene la tendencia a
pensar que el futuro no le reportará nada, que no tiene valor para
él.
 Ideas cognitivas negativas sobre el mundo: en el mundo no hay
nada que valga la pena, todo lo que en él sucede es insoportable.
 Ideas sobre imagen corporal
 Percepción del aspecto físico y valoración
 Importancia que los demás le dan
 Aspecto físico como medio de relación
 Adolescencia:
 Carácter modificable del aspecto físico
CAPÍTULO IV
4.1. TIPIFICACIÓN DEL TEST, ELABORACIÓN DE LA
VALIDEZ DEL TEST Y ELABORACIÓN DE LA
CONFIABILIDAD DEL TEST.

A. Validez:

Es el grado de en la que una prueba mide lo que se trazó medir, si


realmente está midiendo la variable elegida. Por ejemplo si
queremos medir la percepción de las personas haremos que nos
describan una figura, en cambio no nos serviría medir su estatura.
La validez sirve para que las inferencias que sacamos de
resultado de un test tengan sustento, y existen varios
procedimientos de validación:
 Validez de Contenido:
Se refiere a la pertinencia y representatividad del contenido del
test con respecto a la definición de la variable que se va a
medir. La pertinencia se refiere a lo adecuado de los ítems
elegidos para el test, y la representatividad a la equidad y
adecuada cantidad de ítems para medir una variable.
La limitación indiscriminada de los indicadores de la variable
reduce la validez de la medición, además las definiciones de
las variables extremadamente amplias aumentan la dificultad
de seleccionar los indicadores de la variable, de ahí la
importancia de utilizar las definiciones operacionales.
Por ejemplo, cuanto más amplios son los objetivos
educacionales, mayor será el número de indicadores incluidos
en el test, de lo que se desprende que la pertinencia y
representatividad del contenido deberán estimarse sobre la
base de los objetivos educacionales.
Par su a análisis se necesita de un recurso de expertos, El
consenso entre los expertos en el contenido es un proceso
judicativo y no es un procedimiento experimental.
 Validez de constructo:

Por medio de los constructos se puede explicar diferentes


fenómenos psicológicos, un test trata de medir ese constructos
de manera objetiva, la validez de constructo trata de garantizar
la existencia de un constructo psicológico que subyaga y dé
sentido y significado a las puntuaciones del test. Entonces para
que un test sea válido debe medir en alto grado el constructo
con el que fue elaborado el test.
Por ejemplo, si queremos analizar si un programa educativo
aumenta la capacidad artística de los niños en edad preescolar.
La validez de constructo es una medida sobre si tu
investigación realmente mide la capacidad artística, una
calificación un poco abstracta.
La validez de constructo es valiosa en las ciencias sociales,
donde existe una gran cantidad de subjetividad de los
conceptos. A menudo, no hay ninguna unidad aceptada de
medición para los constructos e incluso los bien conocidos,
como el CI, están abiertos a debate.
Por lo tanto, con una buena definición de constructo, podemos
analizar la capacidad de constructo, una medida de qué tan
bien las pruebas miden el constructo. Es una herramienta que
permite a los investigadores realizar un análisis sistemático de
lo bien diseñada que está su investigación.
 Validez predictiva:

Toma como criterio externo una medida que se obtendrá en el


futuro y compara los resultados que un individuo obtiene en el
momento actual con los que obtiene después de cierto tiempo.
Esto se aplica tanto individualmente como colectivamente.
 Confiabilidad:
Es la estabilidad en los resultados que se obtengan de la
aplicación de un test en una persona, y que estos resultados
arrojen un valor que sea acorde con la situación real de la
persona a quién se lo aplica.
La confiabilidad de un instrumento se refiere al grado en que un
individuo obtiene un puntaje en una prueba que se apegue con
exactitud a la verdadera situación de la persona con respecto a
la variable que se mide y si la información que se proporciona
sobre esa situación es coherente.
Cuando se aplica una prueba los resultados pueden depender
de la posición de la persona con respecto a la variable que se
mide, pero pueden depender también de otras situaciones
ajenas a la variable. Por ejemplo el estado emotivo de la
persona o las condiciones del ambiente o las instrucciones
impartidas si se presentan una de ellas el test no sería
confiable ni útil.
Entonces un test es confiable cuando los resultados de un
individuo dependen de su posición con respecto a la variable
medida. La confiabilidad de una prueba puede obtenerse a
través de distintos procedimientos empíricos, por ejemplo:
 Comparar los puntajes de un sujeto en dos momentos
distintos.
 Comparar los puntajes en dos pruebas distintas pero
equivalentes.
 Comparando los resultados que en un estudiante obtiene en
la medida realizada por dos observadores independientes
pero que utilizan un mismo instrumento.
 Comparando los resultados obtenidos por un estudiante en
cada una de las dos mitades de una misma prueba.
Una buena prueba es confiable, es decir es consistente y es precisa.
pero muchas veces en aplicaciones sucesiva no se obtienen
resultados equivalentes, por la confiabilidad se da en grados, Las
diferencias en el desempeño de un sujeto en sucesivas ocasiones
pueden estar causadas por diversas razones: distinta motivación en
las diversas situaciones en que fue evaluado, distintos niveles de
cansancio o de ansiedad, estar más o menos familiarizado con el
contenido del test, etc. Por todo ello, los puntajes de una persona no
serán perfectamente consistentes de una ocasión a la siguiente y
decimos que la medición contiene cierta cantidad de error.
Este error de medición, aleatorio e impredecible, se distingue de los
errores sistemáticos que también afectan el desempeño de los
evaluados por un test, pero de una manera más consistente que
aleatoria.
Validez: Se refiere a lo que mide una prueba y no puede expresarse
en general sino que debe consignarse el uso particular para el que
se planea utilizar el instrumento.
Todos los procedimientos utilizados para determinar la validez se
interesan en las relaciones entre ejecución en las pruebas y otros
factores observados independientemente de las características de la
conducta considerada.

 Coeficiente de validez
El coeficiente de validez es la correlación entre la puntuación de la
prueba y la medida de criterio. Los datos empleados al calcular
cualquier coeficiente de validez también pueden expresarse como
tablas o gráficos de espectancias que muestran la probabilidad de
que un individuo que obtiene cierta puntuación en la prueba obtenga
un nivel especificado de desempeño en el de criterio.

Teoría de la decisión: Una característica de la teoría de la decisión


es que las pruebas se evalúan en términos de su eficacia en una
situación particular. La evaluación no solo toma en consideración la
validez de la prueba para predecir un criterio particular, sino también
otros parámetros como la tasa base y la razón de selección. Otro
parámetro importante es la relativa utilidad de los resultados
esperados.

4.2. ELABORACIÓN DE LAS TABLAS NORMATIVAS


DEL TEST Y DEL BAREMO DEL TEST
Para interpretar los resultados de la aplicación un test a una persona
realmente debemos compararlos con los resultados de un grupo
normativo. Los baremos consisten en asignar a cada posible
puntuación directa un valor numérico (en una determinada escala) que
informa sobre la posición que ocupa la puntuación directa (y por tanto
la persona que la obtiene) en relación con los que obtienen las
personas que integran el grupo normativo donde se bareman las
pruebas. Hay varias maneras de baremar las principales son:
 Centiles y percentiles
 Baremos cronológicos: Edad metal y Coeficiente intelectual.
 Puntuaciones Típicas, estándares, normalizadas, escalas T y D,
estaninos o eneatipos.
La puntuación directa que un sujeto obtiene en un test (Xi) no tiene
demasiado significado en sí misma al considerarla aisladamente. Para
que lo tenga, debemos conocer las medidas de tendencia central y de
variabilidad que definen la variable medida en el grupo de origen y/o
debemos compararla con las puntuaciones del resto de sujetos que
constituyen la muestra sobre la que se obtuvieron las mediciones; es
decir, hay que interpretar la puntuación directa de cada sujeto en
relación con la del grupo normativo al que pertenece. Para poder
hacer esto es necesario disponer de un baremo o escala normativa
que no es más que una tabla de conversión donde se refleja la
correspondencia entre las puntuaciones directas de los sujetos y las
puntuaciones “estandarizadas” adecuadas para cada grupo o tipo de
población (habitualmente definida en términos de sexo y edad).

A. Escalas típicas normalizadas


Están constituidas por las puntuaciones típicas (Zn) que les
corresponderían a las puntuaciones directas de los sujetos (X) si la
distribución de la variable analizada se ajustara (más o menos) a
una distribución normal. Para calcularlas basta con conocer la
media y la desviación típica de la variable en cuestión y aplicar la
fórmula indicada arriba. Además, si disponemos de la tabla de la
curva normal, podremos buscarlas en ella y descubrir así el
porcentaje de sujetos de la población que quedan por encima y por
debajo de ellas.

Los test nos permiten obtener datos cuantitativos y cualitativos,


arrojan resultados que en sí mismos (puntuaciones brutas) no dos
dicen mucho, pero obtener más información cuando la
comparamos con los resultados obtenidos por otros grupos, así
podemos interpretarla.
Existen dos formas para comparar los resultados, dependiendo de
la forma en que ha sido construido el test (por normas o por
criterios), son las siguientes:
 Normas. Se compara al sujeto con un grupo de referencia (otros
sujetos).
 Criterios. Se compara al sujeto con respecto a un objetivo a
lograr (lo puedo comparar consigo mismo), hasta que punto se
la logrado o no el objetivo propuesto (p.e. en lugar de comer una
tableta de chocolate comer solo dos onzas al día).
La mayor parte de los test están construidos en base a normas,
fundamentados en la teoría clásica de los test. Por lo tanto:
 Se posiciona al sujeto dentro de un colectivo, un grupo de
referencia en cuanto a una característica. Existen diferentes
formas de posicionar al sujeto, por medio de percentiles,
desviación típica...
 Los resultados obtenidos se comparan y el sujeto adquiere una
posición relativa a un grupo de referencia (grupo normativo).
Los test basados en criterios tienen las siguientes características:
 Se construyen y aplican con el fin de saber si un sujeto ha
conseguido el objetivo o no.
 Para diferenciar si un sujeto se puede catalogar como apto o no
para una tarea determinada.

 Clasifico en base a la puntuación obtenida por el sujeto (lo
comparo consigo mismo).
 Existen diferentes tipos de población por lo que se utilizan
puntos de corte, es decir, puntuaciones que diferencian, p.e. a
un depresivo de un no depresivo, es el punto donde se divide la
población (hasta aquí es normal...), diferencia la población
normal de la clínica.
También existen diferencias en cuanto a cómo se hace la
comparación y las inferencias:
 Normas. Juega un papel primordial la varianza, lo que se busca es
una diferenciación, hacer una discriminación entre sujetos del
mismo. Por ejemplo, cuando se utiliza la campana de Gauss para
obtener la nota de un examen, la puntuación se obtiene en base a
las notas del mismo grupo.
 Criterios. Se trata de que todos los sujetos puedan llegar al
objetivo, no importa la varianza.
En los tipos de test hay que encontrar la fiabilidad pero en:
 Los test basados en criterios, se hace énfasis en que la fiabilidad
se da en las clasificaciones que hago en base a los criterios.
 Los test basados en normas, la fiabilidad está en las medidas que
tomamos (un test es fiable si la medida es fiable).
Ambos tipos no son excluyentes, se pueden complementar.
¿Para qué sirven los test normalizados?
Para transformar las puntuaciones brutas en puntuaciones indirectas,
es decir, para comparar a un sujeto con el grupo.
Tipificar
Es el establecimiento de las normas que nos va a permitir comparar.
Las normas se extraen siempre del promedio de actuación de un
grupo de referencia (grupo normativo) al que tiene que pertenecer el
sujeto o en base a la muestra de normalización, pero debe ser
realmente representativa de su población de referencia.
Para tipificar un test se siguen los siguientes pasos:
 Acotar la población a la que va dirigida el test.
 Elegir una muestra normativa (parte representativa de la población)
para poder hacer inferencias a la población.
 Para elegir la muestra utilizamos un muestreo (proceso de elección
de muestra, extrayéndola de la población). Para hacer el muestreo
se utilizan diferentes métodos: probabilístico, intencional u
opinático, circunstancial o errático, etc.; y a su vez existen
diferentes técnicas para llevarlo a cabo: aleatorio simple, por
etapas, estratificado, etc.
 Establecer normas de comparación (edad, sexo, grado, nivel
socioeconómico, cultura)
 Aplicar el test.
 En base a las normas se analiza la forma de actuación del grupo
normativo y obtiene la media de actuación.

Los métodos más usados para describir la posición de un sujeto


respecto al grupo son:
a. Puntuación típica (z).
b. Rangos percentiles. Son más fáciles de usar e interpretar pero no
son exactos en la posición, conllevan más errores.
Puntuación típica (z), es el número de desviaciones típicas (relación
directa con las puntuaciones brutas) con respecto a la medida que
tiene un sujeto. Está puntuación típica (z) significa lo mismo en
cualquier distribución, también en diferentes grupos y variables. Se
puede comparar un test con otro y tenemos una posición exacta de la
persona (cuánto se dispersa su grupo). La media de una puntuación z
es igual a cero.
Baremos, tablas de comparación, de transformación de puntuaciones.
Están construidos en base a una o varias escalas normativas (se
aplican a un grupo o muestra y en base a ella luego se hacen
inferencias para la población). Existen diferentes tipos:
a. Cociente intelectual (CI). Se trata de comparar la edad
cronológica (EC) con la edad mental (EM). Es la media de actuación
de cada edad, punto de referencia. En base a ese promedio, por
ejemplo, sabemos que un niño de 6 años que ha obtenido 8 puntos
está en la media esperada para su edad, si saca 10 puntos está por
encima de la media de su edad y tiene una edad cronológica de
actuación de un niño de 8 años. CI = (EC/EM) x 100

Ventajas: el CI tiene un uso universal y una interpretación


generalizada.
Desventajas: el desarrollo es diferente según la edad y la
interpretación es diferente, el CI es dependiente de eso. Es difícil ver
las diferencias después de los 18 años.

b. Escalas centiles. Ordenan al grupo, respecto a la actuación que


todos los sujetos tienen. Pueden ser centiles o percentiles.
Los percentiles son bastante usados pero son poco estables. Son
porcentajes y no tienen equivalencia unos con otros, solo se pueden
comparar los que son de la misma distribución y variables. Por ello, se
utilizan las puntuaciones típicas z, pues son transformaciones lineales,
el sujeto mantiene la misma posición, nos da una idea exacta de la
puntuación del sujeto. Puede comparar entre grupos, dentro del
mismo grupo, con el propio sujeto, comparar una variable con otra, se
pueden hacer múltiples comparaciones.
La desventaja es que z tiene un valor de + 3, es un límite muy corto,
no son enteras las puntuaciones, se pueden tener puntuaciones
negativas y son más difíciles de interpretar por ello se utilizan menos.
c. Puntuaciones típicas normalizadas (Zn). Son puntuaciones
transformadas y normalizadas, se ajustan a la curva normal. Pueden
ser eneatipos o estaninos (media 5 y desviación típica 2),
puntuaciones de 0 a 9, y decatipos (media 6 y desviación típica 2),
puntuaciones de 1 a 10. Un decatipo se puede comparar con otro, es
más estable que el percentil. Son fáciles de interpretar y son positivas.

CAPÍTULO V
ELABORACIÓN DEL MANUAL
DEL TEST

Una vez que hemos acabado con todos los pasos debemos elaborar
un manual para que el test pueda ser aplicado por cualquier psicólogo
o profesional interesado pero preparado, en este debemos incluir las
instrucciones asi como la teoría en la que se apoya nuestro test,
también debemos incorporar datos como la confiabilidad y la validez
así como los baremos, en el debemos describir nuestro test, describir
los materiales que incluye, normas de aplicación y corrección, así
como las normas de interpretación, se deberá ser lo suficientemente
extenso para explicar todos estos aspectos, cuidando de ser
minucioso y claro.
CONCLUSIONES
 La psicometría es una disciplina de la psicología cuya finalidad
intrínseca es la de aportar soluciones al problema de la medida
en cualquier proceso de investigación psicológica; constituye,
por ello, un campo metodológico que incluye teorías, métodos y
usos de la medición psicológica, tanto a nivel teórico como a
nivel práctico.
 En psicología, medir es dar la magnitud de cierta propiedad o
atributo, por ejemplo, la inteligencia, la extraversión, el
razonamiento verbal, de una o más personas, con ayuda del
sistema numérico.
 El test psicométrico es un procedimiento estandarizado
compuesto por ítemes seleccionados y organizados,
concebidos para provocar en el individuo ciertas reacciones
registrables; reacciones de toda naturaleza en cuanto a su
complejidad, duración, forma, expresión y significado.
 Los requisitos de un test psicométrico son: Construcción del
test; la situación de aplicación del test; el registro del
comportamiento provocado en el sujeto examinado, que debe
ser preciso y objetivo; el comportamiento registrado evaluado
estadísticamente con respecto a un grupo de individuos
denominado grupo de referencia o grupo normativo;
clasificación de los sujetos examinados en función de normas
resultantes del examen previo del grupo de referencia o
normativo (baremo), lo que permite situar cada 106 Psicometría
una de las respuestas, en una distribución estadística
(contraste);.las respuestas a las cuestiones planteadas deben
dar una medida correcta del comportamiento al que el test
apunta (validez); y por último, la repetición del examen debe
conducir siempre al mismo resultado (fiabilidad).
 La estandarización es el proceso mediante el cual se
establecen procedimientos unívocos para la aplicación,
calificación e interpretación de un test psicométrico.
 La interpretación de los puntajes de un test psicométrico
estandarizado se refiere al significado que se les da a los
puntajes obtenidos por un grupo de sujetos, al compararlos con
una tabla de normas o baremo, estableciendo una clasificación
de acuerdo a la conversión de sus puntajes directos en puntajes
percentiles, eneatipos o decatipos.
 Los tests psicométricos se clasifican por lo siguiente: Por su
forma de dar las instrucciones; por su forma de administración;
por la forma o tipo de respuesta que exigen; por el material de
la prueba; por su forma de calificación; por sus edades límites
de aplicación; y por su libertad de ejecución. En los test
psicométricos utilizados en educación existe actualmente un
tipo de tests denominado test relacionado con el criterio.
 El test psicométrico es empleado como instrumento auxiliar
para una mejor toma de decisiones: En la selección,
clasificación, diagnóstico, investigación, y evaluación de un
determinado grupo de personas.
 Entre las limitaciones en el uso de un test psicométrico
tenemos: Una prueba o test sólo puede medir aquellos
aspectos para los que ha sido construido; las normas (baremo)
de una prueba no tienen validez universal; si las condiciones
que influyen sobre el individuo se modifican, existe la
posibilidad de que tales cambios durante la aplicación de la
prueba influyan en los puntajes resultantes del test; los
resultados de un test no deben emplearse para diagnosticar per
se estados patológicos;.y, finalmente, las categorías
descriptivas (inteligencia muy superior, superior, etc.) sólo
deben utilizarse para los tests cuyos puntajes le dieron origen.
 Un test psicométrico tiene generalmente las siguientes
secciones o partes: El test propiamente dicho, y el manual del
test.
 La validez científica de un test la da la validez de constructo. La
tendencia ya no es hablar de tipo de validez, sino de categorías
de validez en la que la validez de contenido, validez predictiva,
validez concurrente y validez de constructo reconstituyen en
estrategias de validación.

BIBLIOGRAFIA

 Adkins, D. (1994). Elaboración de tests. Desarrollo e interpretación


de los tests de aprovachamiento. México: Trillas.
 Cerdá, E. (1984). Psicometría general. Barcelona: Herder.
 Monroe Miller, D. (1974). Resultados de pruebas psicológicas.
Interpretación estadística. México: Limusa. Ebel, R. (1977).
Fundamentos de la medición educacional. Buenos Aires:
Guadalupe.
 Brown, G. F. (1980). Principios de la medición en psicología y
educación. México: El Manual Moderno.
 Cortada de Kohan, N. (1999). Teorías psicométricas y construcción
de tests. Buenos Aires: Lugar.
 Cronbach, L. J. (1972). Fundamentos de la exploración psicológica.
Madrid: Biblioteca Nueva

S-ar putea să vă placă și