Libro de Psicometria 2

PSICOLOGA INDUSTRIAL
PSICOMETRIA DOS
CARRERA DE PSICOLOGA
INDUSTRIAL
PSICOMETRIA DOS
PRESENTACION
El presente mdulo pretende que los estudiantes adquieran las

capacidades integradas de:
comprender su utilidad en el rea psicolgica y de determinar la
medicin psicolgica en el campo de la psicologa industrial, pasar
a conocer las caractersticas bsicas y la ficha tcnica de diferentes
instrumentos psicolgicos necesarios para la carrera y a realizar
auto-aplicaciones y coevaluaciones de los instrumentos estudiados
para poder conocerlos en forma prctica su manejo, aplicacin,
calificacin e interpretacin y as finalmente concluir con su
respectiva impresin diagnostica que permita tener una visin ms
clara y amplia en lo referente a la intervencin psicolgica para
intervenir en base a resultados.
La metodologa a utilizarse en el presente mdulo son el ABP,
ABPro y Aprender Haciendo, con el objetivo de presentar problemas
a ser resueltos en el transcurso del semestre con los estudiantes y
poder crear proyectos socio productivos innovadores.
La Psicometra II por tanto se convierte en la mejor aliada de la

Psicologa a fin de Objetivizar, plantear apreciaciones Diagnsticas,
Analizar, Problematizar, Establecer estrategias, Pronosticar,
Desarrollar y ejecutar las ms adecuadas tcnicas y estrategias
para dilucidar y comprobar los fenmenos psquicos que rigen los
comportamientos y que requieren medidas de solucin dentro del
mbito organizacional.
OBJETIVOS:
Identificar los test psicolgicos que sirven para
explorar la personalidad de acuerdo a las
necesidades profesionales
Procesar la informacin resultante de los Tests
para inferir la situacin actual de los
investigados
de
acuerdo
a
estndares
establecidos
Elaborar
informes
psicomtricos
para
describir las situacin de los investigados en
el contexto laboral de acuerdo a los
estndares establecidos.
NDICE
1.1 Las pruebas psicolgicas
1.1.2 Importancia
1.1.
3 Contextos.
1.1.4 Niveles
1.1.5 Factibilidad
2.1 La objetivacin psquica y conductual
ELEMENTO 1
Conceptualizar los fundamentos bsicos de la psicometra aplicada

a la psicologa industrial acorde a los estndares
1.1 Las pruebas psicolgicas
El avance en la difcil tarea de comprender la conducta de las personas de manera

integrada se nutre del esfuerzo que realiza la psicologa por articular los diferentes
fundamentos tericos con la diversidad de mbitos de aplicacin, a travs de la
evaluacin psicolgica. Para que el progreso cientfico de la Psicologa sea cada
vez ms una realidad, hemos de esforzarnos por armonizar la explicacin terica y
los procesos de observacin emprica, hasta lograr en muchos casos
compatibilizarlos. El proceso cientfico depende conjuntamente del modelo
explicativo y del metodolgico, y por ende del perfeccionamiento de los
instrumentos
que
permiten
la
objetivizacin
de
los
fenmenos,
del
perfeccionamiento de la interpretacin terica de dichos fenmenos, a travs del

contraste entre teora y observacin.
La Psicologa reconoce en la Psicometra esa rama que se ocupa de las
cuestiones relacionadas con la medicin, y si bien es cierto que las ciencias
atraviesan una poca de crisis de paradigmas y en especial las ciencias sociales y
conductuales, aun as podemos encontrar contenidos tradicionales en la
Psicometra que son punto de acuerdo entre la mayora de los autores e
investigadores de la Psicologa. Se podran sintetizar en tres ejes:
a) Los procesos operacionales de medicin en Psicologa asociados a las
escalas de medida: el objetivo de la Psicometra ser hallar la mejor
manera de observar, clasificar y transformar categoras manifiestas en
escalas cuantitativas partiendo de la aceptacin del isomorfismo entre
propiedades atribuidas a las categoras psicolgicas y las propiedades
atribuidas a los nmeros que las representan (Stevens, 1951)
b) Confiabilidad o precisin de los instrumentos de medida en Psicologa: es
uno de los tres problemas de medida asociados a las escalas de medida
que merecen atencin ya que si una prueba psicomtrica no es confiable
en su medicin, su inconsistencia repercutir negativamente no solo en la
validez del instrumento sino en todos los procesos relacionales que se
incluyan.
c) Validez de una prueba: es la propiedad fundamental en tanto permite decir
de una prueba que mide lo que pretende medir y es un valor social
sobresaliente que asume una funcin tanto cientfica como poltica
(Messick, 1995)
En la primer parte hemos de sentar pues las bases para una definicin de la
Psicologa como aquella disciplina que estudia la conducta de las personas en
interaccin con su contexto, a fin de poder con esta base construir el edificio del
diagnstico y la evaluacin psicolgica.
Postularemos a la evaluacin psicolgica como un proceso de toma de decisiones

cuyo objetivo es apuntar, con precisin y validez, a la tarea de psicologa aplicada
para
solucionar
problemas
individuales,
sociales
ambientales.
Luego,
explicitaremos un recorte que implica definirla como un proceso para verificar la

medida o grado en que se logran metas u objetivos propuestos a travs de la
categorizacin, comparacin, anlisis y contrastacin de datos cuanti-cualitativos
por medio de tcnicas objetivas y proyectivas. En este sentido su mxima
expresin es el Psicodiagnstico que utiliza el diseo del caso nico. Distintas
reas y campos de aplicacin de la Psicologa se ven beneficiados por los avances
constantes que produce la evaluacin y el diagnstico psicolgico, sin embargo,
existen an mltiples problemas metodolgicos y tericos como el que refleja el
tema que nos ocupa, que preocupan a los investigadores y especialistas en el rea
de la Psicometra.
En la segunda parte nos detendremos a considerar qu motiva la elaboracin de
pruebas nuevas? No hay un listado exhaustivo de motivaciones que lleven a la
construccin de nuevos tests, sin embargo, si analizamos las tcnicas existentes
encontraremos tres fuentes principales de trabajo de desarrollo de pruebas. La
primera seala que muchas de las pruebas de uso ms generalizado se originaron
en respuesta a cierta necesidad prctica. La prueba de inteligencia Binet se cre
para identificar a los nios de las escuelas de Pars que podan necesitar lo que
hoy se conoce como educacin especial. La Stanford Binet Intelligence Scale
(Escala de Inteligencia Stanford Binet) se origin en la idea de proporcionar una
escala tipo Binet que pudiera utilizarse con los estadounidenses, aunque las
revisiones llegaron ms all de la simple traduccin del francs al ingls. La
Wechsler-Bellevue Intelligence Scale (Escala Wechsler-Bellevue de Inteligencia)
que dio origen a la coleccin de escalas Wechsler, apareci con la intencin de
ofrecer una prueba de inteligencia ms adecuada que la Stanford-Binet. Las
pruebas Otis construidas para evaluar la enorme cantidad de reclutas durante la
Primera Guerra Mundial al igual que la Woodworth Personal Data Sheet (Hoja de
Datos Personales Woodworth), prototipo de muchas pruebas de personalidad
posteriores. El Inventario Multifactico de Personalidad de Minnesota (MMPI) se
elabor para ayudar en la clasificacin de los pacientes mentales en la prctica
clnica de los hospitales de la Universidad de Minnesota. Tambin la enorme
cantidad de pruebas de aprovechamiento para su uso en las escuelas y la industria
tiene una orientacin altamente prctica. Estos son solo algunos ejemplos del
hecho de que muchos tests se originan en respuesta a una necesidad muy
prctica.
Algunos tests se construyen a partir de un fundamento terico importante como las
Matrices Progresivas (Test de Raven) que se elaboraron basadas en la teora de
Spearman sobre inteligencia. Por ejemplo, la Primary Mental Habilities Test
(prueba de Capacidades Mentales Primarias) de Thurstone, prototipo de muchas
evaluaciones de inteligencia multifactoriales posteriores, se dise con la intencin
de sustentar la teora de Thurstone sobre las inteligencias mltiples. Estos son slo
algunos ejemplos de cmo las teoras pueden generar nuevas pruebas, que
primero se utilizarn tan solo para fines de investigacin, pero que despus se
emplean en contextos aplicados.
Finalmente, y este el caso que nos convoca, una gran de trabajo de elaboracin de
tests se dedica a adaptar o revisar los instrumentos ya existentes. Por ejemplo,
poco despus de que Alfred Binet introdujera las pruebas de inteligencia en
Francia, el Servicio de Salud Pblica de Estados Unidos comenz a usar dichas
pruebas para medir la inteligencia de personas que buscaban inmigrar a Estados
Unidos. Henry Goddard (1913) el investigador en jefe asignado al proyecta y un
especialista en retraso mental pronto plante lo significativas que son dichas
pruebas cuando se usan con personas de diversos antecedentes culturales y
lingsticos. Goddard us intrpretes en la administracin de las pruebas, emple a
un psiclogo bilinge y administr pruebas mentales a inmigrantes seleccionados
que les parecan retardados mentales a los observadores entrenados (Goddard,
1917). Por tanto, el impacto del lenguaje y la cultura en los resultados de las
calificaciones de las pruebas de capacidad mental fue reconocido por los
psiclogos ya desde principios del Siglo XX. Una forma para que los primeros
elaboradores de pruebas abordaran este hecho psicomtrico de la vida fue
elaborar pruebas especficas para una cultura. Es decir, la prueba sera diseada
para ser usada con personas de una cultura pero no de otra. Las primeras
versiones de algunas de las pruebas de inteligencia ms conocidas son
representativas de este enfoque de la elaboracin de pruebas. Por ejemplo, la
versin de 1937 de la Escala de Inteligencia Stanford-Binet, que disfrut de un uso
extendido hasta que fue revisada en 1960, no inclua nios de minoras en su
muestra de estandarizacin. Del mismo modo, la Escala de Inteligencia WechslerBellevue no contena a miembros de minoras en sus muestras de estandarizacin.
Ya David Wechsler en 1944 sealaba que una gran cantidad de negros haban
sido examinados durante los ensayos de estandarizacin pero esos datos los
omitimos debido a que no sentamos que las normas derivadas de mezclar las
poblaciones podran interpretarse sin salvedades especiales. De esta manera
Wechsler sostuvo que los baremos de sus pruebas cuando no incluan adultos o
nios de minoras en las muestras de estandarizacin, no podan usarse para las
poblaciones de color de Estados Unidos. Aun cuando muchas pruebas
publicadas eran especficas para una cultura, pronto se hizo evidente que se
administraban de manera inapropiada, a personas de culturas diferentes. No era
sorprendente encontrar que quienes, perteneciendo a culturas diferentes,
respondan a esas pruebas; obtenan puntajes inferiores como grupo que las
personas del grupo para el cual se elabor y estandariz el test.
Histricamente estos esfuerzos por revisar las pruebas existentes y adaptarlas;
conservando la estructura fundamental del instrumento, han logrado extender su
uso a poblaciones especiales. Ya sea por la diferencia de idioma o por la existencia
de una discapacidad auditiva, visual o motriz, la elaboracin o adaptacin de las
nuevas versiones de las ediciones existentes constituye una tercera fuente
importante de esfuerzos en la construccin de tests.
Primera Parte
2. LOS TESTS Y LA EVALUACION PSICOLOGICA
2.1 Tests, pruebas, diagnstico y evaluacin psicolgica
Las races de las pruebas y la evaluacin psicolgica contempornea pueden
encontrarse en Francia a principios del Siglo XX. En 1905 Alfred Binet y un colega
haban publicado una prueba que fue diseada para ayudar a colocar a los nios
parisienses en edad escolar en clases apropiadas. La prueba de Binet tuvo
consecuencias que superaron los lmites de Pars, en poco tiempo se prepar una
versin en ingls para usar en escuelas de Estados Unidos. En ese pas se estaba
estudiando el uso de pruebas psicolgicas por primera vez en el ejrcito. Tanto en
la primera como en la segunda guerra mundial, las pruebas cumplieron con el
objetivo de examinar con rapidez a grandes cantidades de reclutas en busca de
problemas intelectuales y emocionales. El apogeo de las pruebas psicolgicas se
dio en la dcada de 1950 y principios de la de 1960. Se administraban pruebas en
escuelas, en instituciones de salud mental, en dependencias gubernamentales,
etc.
Prueba era el trmino usado para referirse a todo, desde la administracin de una
prueba hasta la interpretacin de la evaluacin de la misma. Es en esta etapa
histrica en que la palabra prueba adquiere una posicin tan poderosa como la
que sustenta. Sin embargo, para la poca de la Segunda Guerra Mundial comenz
a surgir una distincin semntica entre prueba y otro trmino ms incluyente
evaluacin. Si bien es cierto que subsiste an hoy da la ambigedad en el uso
de dichos trminos, para nuestros objetivos definiremos evaluacin psicolgica
como la recopilacin e integracin de datos relacionados con la psicologa con el
propsito de hacer una valoracin psicolgica, lograda con el uso de herramientas
como pruebas, entrevistas, estudios de caso, observacin conductual y aparatos y
procedimientos de medicin diseados en forma especial (Cohen y Swerdlik,
2001). Definiremos prueba psicolgica como el proceso de medir variables
relacionadas con la psicologa por medio de dispositivos o procedimientos
diseados para obtener una muestra de comportamiento (Cohen y Swerdlik, 2001).
Por su parte entendemos que definir lo que entendemos por tests requerira un
extenso apartado, ya que histricamente se registran polmicas en torno a su
conceptualizacin.
Sin embargo,
siguiendo a Anastasi &
Urbina
(1998)
entendemos que un test es un instrumento de evaluacin cuantitativa de los

atributos psicolgicos de un individuo. La Asociacin de Psiclogos Americanos
(1999), propone una conceptualizacin abarcativa y exhaustiva al definir a un
Test como un procedimiento evaluativo por medio del cual una muestra de
comportamiento de un dominio especificado es obtenida y posteriormente
evaluada y puntuada empleando un proceso estandarizado.
Definiremos las situaciones de diagnstico como aquellas en las que se produce el
conocimiento mediato, no directo, sino a travs de indicadores que son
observables comportamentales y / o clnicos, de personas concretas, no de grupos
ni de colectividades (Pelechano Barber, 1988)
2.2. Siete supuestos en las pruebas y la evaluacin psicolgica

Existen una serie de suposiciones bsicas rescatadas por Cohen & Swerdlik
(2001) que resultan particularmente tiles para comprender una serie de
controversias y polarizaciones que se harn presentes al avanzar en el estudio de
los tests y la evaluacin psicolgica. A continuacin las detallamos sintticamente.
1. Los rasgos y estados psicolgicos existen: Un rasgo se ha definido como
cualquier forma distinguible, relativamente perdurable, en la que un
individuo vara de otro (Guilford, 1959). Los estados tambin distinguen a
una persona de otra pero son relativamente menos perdurables (Chaplin et
al., 1988) Aqu la situacin es importante puesto que un comportamiento
puede tomarse de una manera en un contexto (una persona que habla con
Dios en la iglesia) y de otra manera (desviado) si realiza el mismo
comportamiento en un contexto inadecuado (bao pblico). Tambin la
forma exacta en que se manifiesta un rasgo particular depende de la
situacin por ejemplo un delincuente puede comportarse de manera sumisa
ante un oficial y ms violenta ante un familiar.
2. Los rasgos y estados psicolgicos pueden cuantificarse y medirse: La
ponderacin del valor comparativo de los reactivos de una prueba ocurre
como resultado de una interaccin compleja entre muchos factores:
consideraciones tcnicas, en forma en que se ha definido un constructo
para los propsitos de la prueba y el valor que le da la sociedad a los
comportamientos que se estn evaluando.
3. Pueden ser tiles diversos enfoques para medir aspectos del mismo objeto
de estudio: Pueden existir varias pruebas y tcnicas de medicin diferentes
para medir el mismo constructo. Algunas pruebas son mejores que otras,
en general, deber demostrarse la utilidad de las pruebas para los
escenarios en los que debern ser aplicadas segn su diseo original y
luego demostrarse de nuevo para otros escenarios adicionales en los que
no se contemple su uso.
4. La evaluacin puede sealar fenmenos que requieren una mayor atencin
o estudio: una suposicin en la medicin es que las herramientas de
evaluacin pueden usarse con propsitos de diagnstico. Puede definirse
diagnstico en forma amplia como una conclusin alcanzada con base en
la evidencia y opinin por medio de un proceso de distincin de la
naturaleza de algo y descartar conclusiones alternativas. Diagnstico se
usa en un sentido amplio con la identificacin de fenmenos psicolgicos o
conductuales para un mayor estudio.
5. Diversas fuentes de informacin enriquecen y son parte del proceso de
evaluacin: Los datos de una prueba de inteligencia pueden ser tiles para
entender a un estudiante, un preso, un empleado o un paciente en terapia o
cualquier persona que demande una evaluacin pero para el proceso de
toma de decisiones se requerir informacin adicional como por ejemplo
sobre su historia familiar.
6. Diversas fuentes de error son parte del proceso de evaluacin: Error en el
contexto de las pruebas y la evaluacin se refiere a algo que se considera
un componente del proceso de medicin. En este contexto error se refiere
a la suposicin de que factores distintos al que pretende medir la prueba
influirn en el desempeo de sta. Debido a que el error es una variable en
cualquier proceso de evaluacin psicolgica, a menudo hablamos de
varianza de error. Por ejemplo, el puntaje que obtiene una persona en una
prueba de inteligencia puede estar sujeto a debate respecto al grado en
que la puntuacin obtenida refleja en verdad el CI del evaluado y el grado
en que refleja la varianza de error. Las fuentes potenciales de error son
muy variadas, como por ejemplo que el evaluado tenga gripe cuando
responde la prueba. Tanto el evaluado como el evaluador son fuentes de
varianza de error si tenemos en cuenta por ejemplo el grado de experticia
que demuestran en la administracin de una prueba. Tambin las pruebas
mismas son fuentes de varianza de error por ser unas mejores que otras
para medir lo que pretenden medir.
7. Las pruebas y otras tcnicas de medicin tienen ventajas y desventajas: Si
se quieren usar pruebas adecuadas se deber tener en cuenta: cmo se
elabor la prueba, las condiciones para su aplicacin, cmo y a quin se
debe administrar, cmo deberan interpretarse los resultados de la prueba y
a quienes, y cul es el significado de la puntuacin. Ello implica conocer las
limitaciones de las pruebas y compensarlas con datos de otras fuentes.
4. Quin, qu y por qu evaluar?

3.1.Quines son las partes?
1. El que construye la prueba

Quienes se dedican a elaborar pruebas, brindan una amplia variedad de
antecedentes y detalles respecto del proceso de elaboracin. Sin embargo, la APA
(American Psychological Association) estima que ms de 20.000 pruebas nuevas
se elaboran cada ao y abarcan pruebas elaboradas para un estudio de
investigacin especfico, revisiones de anteriores publicadas , etc. Reconociendo
que las pruebas y las decisiones tomadas como resultado de su administracin
pueden tener un impacto significativo en las vidas de las personas que responden
las pruebas, varias organizaciones publicaron normas de comportamiento tico
referidas a la elaboracin y uso responsable de pruebas. Las ms conocidas son
las Normas o Standards for Educational and Psychological Testing elaboradas por
la Asociacin
Estadounidense
de
Investigacin
Educativa,
la Asociacin
Psicolgica Estadounidense y el Consejo Nacional sobre Medicin en Educacin.

2. El que usa la prueba
Si bien las pruebas son usadas por una variedad de profesionales, todos debern
cumplir los principios ticos correspondientes. La prueba debe guardarse para que
su contenido especfico no sea dado a conocer con anticipacin. Descripciones
previas a la administracin de la prueba, de los materiales que contiene la misma,
en el caso de pruebas de inteligencia, no son aconsejables pues podran
comprometer los resultados. El que administra la prueba debe estar familiarizado
con los materiales y procedimientos de la prueba y tener todos los materiales
necesarios para administrarla en forma apropiada. Tambin debe asegurarse de
que el saln en el que se realice la prueba sea el adecuado, evitando condiciones
distractoras como ruido excesivo, calor, fro, interrupciones, luz solar deslumbrante,
hacinamiento, ventilacin inadecuada, etc. Es fundamental la empata entre el
evaluador y el evaluado. En el contexto de situacin de prueba, la empata puede
definirse como una relacin de trabajo entre evaluador-evaluado. Lograr la empata
con el evaluado no debe alterar las condiciones de administracin de la prueba.
Existen otros factores que pueden influir en el desempeo en pruebas de
inteligencia como por ejemplo que el evaluador sea familiar o no, que est
presente o ausente, y sus modales en general. Otro factor importante ha sido el
gnero.
3. El que responde la prueba:
Las personas evaluadas enfocan una situacin de evaluacin de diferentes formas
y los administradores deben ser sensibles a la diversidad de respuestas posibles
ante una situacin de prueba. El evaluado en situacin de diagnstico o evaluacin
puede variar en:
a) ansiedad experimentada y grado en que sta podra afectar los resultados
b) capacidad y disposicin para cooperar con el evaluador o comprender las
instrucciones escritas.
c) el dolor fsico o la angustia emocional que est sufriendo el evaluado.
d) malestar e incomodidad derivado de no haber comido suficiente o por otras
condiciones fsicas.
e) grado en que est alerta y despierto y no somnoliento
f)
grado en que estn predispuestos a estar de acuerdo o en desacuerdo

cuando se les presenten los reactivos
g) grado en que han recibido preparacin previa.

h) importancia que atribuyan a describirse a s mismos en forma buena o mala
i)
grado de suerte que tiene el evaluado al responder sin conocer de lo que

responde.
Tambin el evaluado tiene derechos en situaciones de evaluacin como por

ejemplo a dar su consentimiento para ser evaluado, a que los resultados sean
confidenciales y a ser informado de los resultados.
1.2.
En qu tipo de contextos se realizan evaluaciones?
1. Contexto clnico
Las pruebas y otros mtodos de evaluacin se usan en forma amplia en
escenarios como los hospitales pblicos, consultorios privados, clnicas privadas y
el sello de las pruebas en este contexto es que solo se usa con un individuo a la
vez, las pruebas colectivas solo se usan en el screening o rastrillaje de casos que
requieren una mayor evaluacin psicolgica.
2. Contexto educativo
A menudo se usan pruebas en escenarios educativos para diagnosticar problemas
de aprendizaje. Las medidas de inteligencia y logro aplicadas en forma individual
se usan con ms frecuencia con propsitos de diagnstico y por lo general son
administradas por profesionales con capacitacin. Existen otras pruebas que se
administran a los aspirantes a un nuevo ingreso, por ejemplo a las Universidades o
Posgrados. Tambin se usan las pruebas en un contexto de orientacin vocacional
o de counseling.
3. Contexto jurdico
Los tribunales se basan en datos de pruebas psicolgicas y testimonios de
expertos relacionados como una fuente de informacin para ayudar a responder si
la persona es competente para ser enjuiciada o para saber si un acusado
distingua el bien del mal en el momento de cometer el delito.
4. Contexto organizacional
En el mundo de los negocios, las pruebas se usan en particular en el rea de
recursos humanos. Los psiclogos usan pruebas y procedimientos de medicin
para evaluar cualquier conocimiento o habilidades en las que necesite ser
evaluado un empleado, un candidato a ser empleado, para tomar decisiones de
ascensos, transferencias, y elegibilidad para una mayor capacitacin.
5. Otros contextos
En el rea de psicologa del consumidor tambin se usan pruebas, al igual que
para evaluar a personas con discapacidad o con deficiencias neuropsicolgicas.
4. Evaluacin de la Calidad de las pruebas: Confiabilidad y Validez

Sabemos cules son las pruebas ms usadas pero adems necesitamos saber
cules son las mejores pruebas qu implica una buena prueba? Ms all de la
simple lgica existen criterios tcnicos que usan los profesionales al evaluar para
estimar la solidez psicomtrica de los instrumentos. La Psicometra como ciencia
de la medicin psicolgica estudia la confiabilidad y la validez de las pruebas.
4.1. Confiabilidad
Una buena prueba es confiable, es decir es consistente y es precisa. Las pruebas

psicolgicas son confiables en grados diversos. En el dominio de las mediciones
comportamentales, la variabilidad es mucho mayor dada las caractersticas del
objeto epistmico y de los instrumentos de medicin utilizados. Las diferencias en
el desempeo de un sujeto en sucesivas ocasiones pueden estar causadas por
diversas razones: distinta motivacin en las diversas situaciones en que fue
evaluado, distintos niveles de cansancio o de ansiedad, estar ms o menos
familiarizado con el contenido del test, etc. Por todo ello, los puntajes de una
persona no sern perfectamente consistentes de una ocasin a la siguiente y
decimos que la medicin contiene cierta cantidad de error. Es decir que el puntaje
que obtiene una persona en una prueba incluye el puntaje real de la persona y un
margen de error que puede aumentar o disminuir dicha puntuacin verdadera. Este
error de medicin, aleatorio e impredecible, se distingue de los errores sistemticos
que tambin afectan el desempeo de los evaluados por un test, pero de una
manera ms consistente que aleatoria.
Los errores sistemticos pueden a) afectar a todas las observaciones por igual y
ser un error constante, o b) afectar a cierto tipo de observaciones de manera
diferente que a otras y ser un sesgo. El error aleatorio, por su parte, es muy difcil
de predecir y controlar pues est relacionado con factores casuales que pueden
provenir tanto de aspectos tcnicos de la medicin psicolgica como de la
variacin natural de la conducta humana (Cortada de Kohan, 1999)
4.1.1
Factores que determinan la falta de confiabilidad
Si bien son mltiples las causas por las cuales los puntajes obtenidos por un
evaluado pueden no ser confiables, sintetizaremos solamente algunas fuentes de
error cuyo conocimiento ser til para comprender el proceso de adaptacin de los
tests.
a) Al construir o adaptar un test: se debe prestar atencin a la seleccin de
los tems y a la formulacin de las consignas, pero principalmente se debe
cuidar el muestreo del contenido para evitar que sea tendencioso o
insuficiente. Otra fuente importante de error son los efectos de la
adivinacin, es decir, los tests son ms confiables a medida que aumenta el
nmero de respuestas alternativas (Cortada de Kohan, 1999).
b) Al administrar un test: se debe evaluar a todos los sujetos en las mismas
condiciones, tratando de controlar posibles interferencias ambientales como
el ruido, la iluminacin o el confort del lugar. Las consignas deberan ser
estandarizadas desde la construccin del test hasta en su administracin,
especialmente en lo referido al control de los tiempos para la realizacin del
mismo. Otro punto a considerar son las influencias fortuitas que pueden
afectar la motivacin o la atencin del evaluado como por ejemplo
preocupaciones personales, afecciones fsicas transitorias, etc.
d) Al evaluar un test: se deben sostener los criterios de evaluacin, no es
posible cambiar los criterios de correccin por ejemplo luego de haber
calificado a una serie de evaluados, en funcin de un criterio subjetivo del
evaluador.
4.1.2. Tcnicas para medir la confiabilidad

Existen diversos tipos de procedimientos para evaluar la confiabilidad de un
instrumento que solamente sern mencionados, en este caso: test-retest o
examen-reexamen, formas alternas, paralelas o equivalentes, divisin por mitades,
consistencia interna (Kuder-Richardson y coeficiente alfa) y entre evaluadores
4. 2. Validez
Se refiere a lo que mide una prueba y no puede expresarse en general sino que
debe consignarse el uso particular para el que se planea utilizar el instrumento.
Todos los procedimientos utilizados para determinar la validez se interesan en las
relaciones entre ejecucin en las pruebas y otros factores observados
independientemente de las caractersticas de la conducta considerada.
Histricamente, uno de los primeros usos de las pruebas fue la evaluacin de lo
que los individuos haban aprendido en determinadas reas de contenido y por ello
se comparaba el contenido de esas categoras de pruebas con el del rea que
pretendan probar. Luego, el nfasis recay en la prediccin y actualmente existen
dos tendencias una hacia el fortalecimiento de la orientacin terica y la otra hacia
una estrecha vinculacin entre la teora y la verificacin psicolgicas mediante la
comprobacin emprica y experimental de las hiptesis.
4.21. Validez de Contenido
Los procedimientos de validacin por la descripcin del contenido comprenden el
examen sistemtico del contenido de la prueba para determinar si cubre una
muestra representativa del rea de conducta que debe medirse. El rea de
conducta por examinar debe analizarse sistemticamente para garantizar que los
reactivos cubran todos los aspectos importantes y en la proporcin correcta. Se
debe tener en cuenta no sobregeneralizar ni incluir factores irrelevantes en los
resultados. Bsicamente se deben contestar dos preguntas: a) cubre la prueba
una muestra representativa de las habilidades y conocimientos especificados? b)
el desempeo en la prueba est razonablemente libre de la influencia de
variables irrelevantes?
Validez de facie: la validez de contenido no debe confundirse con la validez
aparente que no es validez en el sentido tcnico porque no se refiere a lo que la
prueba verdaderamente mide sino a lo que parece medir. Aunque usar el trmino
validez puede resultar confuso, la validez de facie es en s misma un rasgo
deseable de los instrumentos, porque a lude a que la prueba parece vlida para
quien la administra, quien la responde y para otros observadores. Esta validez
puede mejorarse replanteando los reactivos para que parezcan relevantes y
plausibles en medio particular en que sern usados por ejemplo es posible
elaborar una prueba de aritmtica para personal naval en la terminologa nutica
sin alterar con ello las funciones medidas.
4.2.2.Validez en Relacin a un Criterio:

Los procedimientos de validacin de criterio-prediccin indican la efectividad de la
prueba para predecir el desempeo del individuo en actividades especficas. La
medida de criterio contra la que se validan los resultados del instrumento puede
obtenerse aproximadamente al mismo tiempo que los resultados de la prueba o
despus de un intervalo establecido. Las relaciones temporales entre el criterio y la
prueba permiten diferenciar la validacin concurrente y la predictiva. La validez
predictiva permite anticiparse sobre un intervalo y la informacin que proporciona
es muy pertinente para las pruebas usadas en seleccin y clasificacin de
personal, diagnstico de reincidencia en el rea forense, ingreso al secundario o a
la universidad de estudiantes. Otros ejemplos son el uso de las pruebas para
descartar sujetos que pueden desarrollar trastornos emocionales en ambientes de
tensin o extraos o para identificar personal militar para determinados programas
de capacitacin ocupacional.
Con la validacin concurrente, en cambio, la prueba se aplica a personas que ya
cuentan con datos de criterio, por ejemplo comparando los resultados obtenidos en
la prueba por aspirantes universitarios con los promedios acadmicos al momento
del examen. La distincin lgica entre la validez concurrente y la predictiva se basa
en los objetivos ms que en el tiempo. La validacin concurrente es adecuada para
las pruebas que se emplean para diagnosticar el estado actual ms que para
predecir los resultados futuros.
Se debe tener en cuenta la contaminacin del criterio como fuente de error en la
validacin de la prueba, es decir, una precaucin esencial es asegurar que los
propios resultados no influyan en la condicin del criterio de cualquier individuo. Es
por ello que los resultados deben mantenerse estrictamente confidenciales.
Medidas de criterio: Una prueba puede validarse si se la compara con tantos
criterios como usos especficos existan para ella, sin embargo, los criterios
empleados para encontrar las distintas clases de validez que se informan en los
manuales caen en determinadas categoras. Para las pruebas de inteligencia, por
ejemplo, el ndice de aprovechamiento acadmico, razn por la cual se describen
como medidas de aptitud acadmica. Los ndices especficos utilizados como
medidas de criterio son: las calificaciones escolares, los resultados de pruebas de
aprovechamiento, los registros de promocin y de graduacin, los honores y
reconocimientos especiales y las valoraciones de docentes e instructores sobre la
inteligencia de los individuos. Para los jvenes el promedio del primer ao d
estudio, para adultos los aos de escolaridad completa, como variante del criterio
de aprovechamiento acadmico ya que se espera que los individuos ms
inteligentes prolonguen su educacin por ms tiempo y que los otros abandonen
antes la educacin. Para muchos propsitos la medida de criterio ms satisfactoria
es la que se basa en registros de seguimiento del desempeo laboral real, criterio
empleado en la validacin de tests de inteligencia general. Es comn que se citen
las correlaciones entre una prueba nueva y pruebas validadas previamente como
evidencia de validez. Existen otros procedimientos de validacin que no
desarrollaremos como el mtodo de grupos contrastados o las valoraciones de
expertos como psiquiatras, maestros, supervisores laborales, etc.
Generalizacin de la validez: cuando en los estudios de validacin industrial se

correlacionaron las pruebas estandarizadas de aptitud con el desempeo en los
puestos supuestamente similares, se encontr una gran variabilidad de los
coeficientes de validez, esto gener pesimismo respecto de la posibilidad de
generalizar la validez de la prueba a situaciones distintas. Hasta mediados de los
setenta la especificidad situacional de los requisitos psicolgicos era considerada
una seria limitacin de la utilidad de las pruebas estandarizadas para la seleccin
de personal. Luego se demostr que el tamao pequeo de la muestra, la poca
confiabilidad del criterio y la restriccin del rango en las muestras seleccionadas
producan cierto engao estadstico. Al aplicar sus tcnicas de reciente desarrollo a
los datos de muchas muestras extradas de un gran nmero de especialidades
ocupacionales, Schmidt, Hunter y sus colaboradores pudieron demostrar que la
validez de las pruebas de aptitud verbal, numrica y de razonamiento pueden
generalizarse entre ocupaciones mucho ms de lo que se haba reconocido. Las
pruebas incluidas en esos estudios cubran principalmente la clase de contenido y
habilidades muestreadas en las pruebas tradicionales de inteligencia. El metaanlisis como procedimiento que permite integrar los resultados de investigaciones
realizadas en momentos o lugares diferentes y sopesarlos sobre la base de las
caractersticas sustantivas y metodolgicas relevantes de cada estudio. Este
procedimiento permite calcular los efectos del tamao, la magnitud o la medida.
4.2.3. Validez de Constructo:

Esta expresin se introduce por primera vez en 1954 en las Recomendaciones
tcnicas para las pruebas psicolgicas y las tcnicas de diagnstico (APA, 1954)
La validez de constructo ha centrado la atencin en la funcin que cumple la teora
psicolgica en la elaboracin de la prueba y en la necesidad de formular hiptesis
que puedan ser comprobadas o refutadas en el proceso de validacin. La validez
de constructo de un instrumento es el grado en el que puede afirmarse que mide
un constructo o rasgo terico. Requiere de la acumulacin gradual de diversas
fuentes de informacin.
Cambios en el desarrollo: la diferenciacin por edad es un importante criterio
utilizado en la validacin de una serie de pruebas tradicionales de inteligencia. Un
ejemplo es el Stanford-Binet en donde se espera que durante la niez las
habilidades aumenten con la edad, por lo tanto si la prueba es vlida sus
resultados deberan mostrar dicho incrementos pues se basa en el supuesto de
que la inteligencia aumenta con la edad al menos hasta la madurez. Una prueba
validada con el criterio evolutivo mide caractersticas conductuales que se
incrementan con la edad en las condiciones existente en el entorno en el que se
estandariz el instrumento. Como diferentes culturas pueden estimular y fomentar
el desarrollo de caractersticas conductuales dismiles, no puede suponerse que el
criterio de diferenciacin por edad sea universal. Como cualquier otro criterio est
circunscrito por el contexto cultural particular del que fue derivado.
Correlaciones con otras pruebas: se citan las correlaciones entre una prueba
nueva y otros instrumentos similares como evidencia de que la nueva mide
aproximadamente la misma rea de conducta que otras que llevan el mismo
nombre como pruebas de inteligencia.
Anlisis factorial: desarrollado como medio para identificar rasgos psicolgicos, es
relevante para los procedimientos de validacin de constructo. Es una refinada
tcnica estadstica para analizar las interrelaciones de los datos conductuales y
reducir el nmero de variables o categoras en cuyos trminos puede describirse el
desempeo de cada individuo a un nmero relativamente pequeo de factores o
rasgos comunes. Una vez que los factores se han identificado, sirven para
describir la composicin factorial de las pruebas. Cada instrumento puede
entonces caracterizarse en funcin de los factores principales que determinan sus
calificaciones, junto con el peso o carga de cada uno y la correlacin de la prueba
con cada factor, que suele expresarse como validez factorial de la prueba.
Consistencia interna: la caracterstica esencial de este mtodo es que el criterio no

es otro que la calificacin total del propio instrumento. En cada reactivo se
compara la ejecucin del grupo criterio superior con el desempeo del grupo
inferior. Los reactivos que no logran mostrar una proporcin significativamente
mayor de aciertos en el grupo superior que en el inferior se consideran invlidos y
se revisan o eliminan. Tambin se utilizan procedimientos de correlacin, como la
correlacin de las calificaciones de los subtests con el resultado total. Por ejemplo
muchas pruebas de inteligencia constan de subpruebas que se aplican por
separado (vocabulario, aritmtica, completamiento de figuras, etc.) y cuyos
resultados se combinan para encontrar el resultado total. En la elaboracin de
estas pruebas, a menudo se correlacionan las calificaciones de cada subtest con la
calificacin total y se elimina cualquier subtest cuya correlacin con sta sea
demasiado baja. El grado de homogeneidad de la prueba tiene relevancia para la
validez de constructo porque contribuye a caracterizar el rea de conducta o rasgo
que muestra.
Validez convergente y discriminante: En un minucioso anlisis de la validacin de
constructo, D. Campbell (1960) seal que para demostrar la validez de constructo
no basta con demostrar que una prueba tiene una correlacin elevada con otras
variables con las que en teora debe hacerlo, sino tambin que no tiene una
correlacin significativa con variables de las que se supone debe diferir. Estas son
la validez convergente y discriminante; ejemplo de la primera la correlacin de una
prueba de razonamiento cuantitativo con las calificaciones obtenidas luego en un
curso de matemticas; y de la segunda si la correlacin es baja e insignificante con
los resultados de una prueba de comprensin de lectura.
Intervenciones experimentales: experimentos sobre el efecto de variables
seleccionadas en los resultados de la prueba constituyen otra fuente de datos para
la validacin de constructo.
Modelamiento de ecuaciones estructurales: investigar cmo es que un constructo o
rasgo personal identificado conduce a un buen o mal desempeo contribuye
sustancialmente a la comprensin de por qu una prueba tiene una elevada o baja
validez en una situacin dada. Facilita dicho anlisis un procedimiento estadstico
conocido como modelamiento de ecuaciones estructurales que est relacionado
con el anlisis de paths. Este modelamiento utiliza ecuaciones de regresin para
predecir las variables dependientes a partir de las independientes en los diseos
de series de tiempos u otros modelos causales. Este procedimiento usa
correlaciones parciales para encontrar los coeficientes de regresin, lo que le
permite incorporar todas las correlaciones entre las variables y considera los
errores de medicin y de muestreo e incluye las previsiones para reconocer al
menos la posibilidad de otras variables causales no medidas. Se disea un modelo
de relaciones causales hipotticas que quieren probarse, tericamente racionales,
y el modelo calcula relaciones causales entre constructor ms que entre variables
aisladas. El uso de constructos proporciona estimaciones ms estables y
confiables que cancelan los errores y las varianzas especficas de los indicadores
separados.
Contribuciones de la Psicologa Cognitiva: la dcada del setenta plante un
acercamiento entre la Psicologa experimental y la Psicometra que as empieza a
hacer aportaciones importantes a la comprensin de los constructos evaluados por
las pruebas de inteligencia. Ya en los cincuenta los psiclogos cognitivos
empezaron a aplicar los conceptos del procesamiento de informacin al estudio de
la solucin de problemas en el ser humano. Entre las tareas investigadas con esos
mtodos se incluyen rompecabezas, problemas de lgica, lgebra y fsica. Las
variables identificadas por estas investigaciones abarcan procesos. Los modelos
cognitivos especifican los procesos intelectuales empleados para realizar la tarea,
la forma de organizacin de los procesos, el almacenamiento del conocimiento
relevante y la forma en que se representa en la memoria y se recupera cuando se
necesita. Tambin se est dando importancia a la metacognicin que se refiere al
control que el individuo ejerce sobre su eleccin de procesos, representaciones y
estrategias para realizar tareas. Ya en los setenta, psiclogos cognitivos
empezaron a aplicar ese anlisis de tareas y tcnicas de simulacin por
computadora a la exploracin de lo que miden las pruebas de inteligencia. La
investigacin ayuda al avance en la elaboracin y uso de las pruebas. El anlisis
de las tareas cognitivas incluidas en los reactivos de una prueba puede realizarse
por el anlisis del protocolo que pide a los individuos que piensen en voz alta
mientras realizan una tarea o resuelven un problema. Este procedimiento puede
llevar a encontrar que el mismo reactivo puede evocar procesos cognitivos
diferentes en examinados con experiencia y antecedentes distintos. El aporte
principal es haber focalizado la atencin en los procesos de respuesta en vez de
concentrarse en los productos finales del pensamiento. El anlisis de la ejecucin
en la prueba en trminos de los procesos cognitivos especficos, sin duda,
mejorar nuestra comprensin de lo que miden las pruebas. El analizar el
desempeo individual a nivel de los procesos elementales permitir identificar los
puntos fuertes y dbiles de cada persona y por ende aumentar el uso diagnstico
de las pruebas (Sternberg y Weil, 1980).
En resumen, la relacin entre psicometra y P. Cognitiva es complementaria desde
el punto de vista de la investigacin y prctica aplicada; y recproca desde el punto
de vista de la teora y la investigacin bsica. Cada una puede aclarar y enriquecer
a la otra y ambas aumentan la comprensin de la conducta inteligente.
4.2.4. Coeficiente de validez

El coeficiente de validez es la correlacin entre la puntuacin de la prueba y la
medida de criterio. Los datos empleados al calcular cualquier coeficiente de validez
tambin pueden expresarse como tablas o grficos de espectancias que muestran
la probabilidad de que un individuo que obtiene cierta puntuacin en la prueba
obtenga un nivel especificado de desempeo en el de criterio.
Condiciones que afectan a los coeficientes de validez: resulta esencial especificar
la naturaleza del grupo en el que se calcul el coeficiente de validez. La misma
prueba puede medir diferentes funciones cuando se aplica a individuos que difieren
en caractersticas importantes (edad, gnero, nivel educativo, ocupacin, etc.). Las
pruebas diseadas para emplearse con diversas poblaciones deben citar en los
manuales tcnicos los datos apropiados sobre la posibilidad de generalizar. Ms
an en una poblacin en la que haya grandes diferencias en las puntuaciones de la
prueba, el coeficiente de validez puede diferir de manera considerable en diversas
partes del rango de calificacin y debe supervisarse en los subgrupos apropiados
(Lee & Foley, 1986). Existen otros puntos a tener en cuenta tales como: la
heterogeneidad de la muestra, la preseleccin o intencionalidad de la muestra, la
diferente forma de relacin entre la prueba y el criterio, etc.
4.2.5.Validez de la prueba y teora de la decisin

Algunos de los conceptos bsicos de la teora de la decisin han demostrado su
utilidad para replantear y aclarar algunos interrogantes sobre las pruebas. Una
caracterstica de la teora de la decisin es que las pruebas se evalan en trminos
de su eficacia en una situacin particular. La evaluacin no solo toma en
consideracin la validez de la prueba para predecir un criterio particular, sino
tambin otros parmetros como la tasa base y la razn de seleccin. Otro
parmetro importante es la relativa utilidad de los resultados esperados. Por
ejemplo en las decisiones educativas se deben tener en cuenta las metas
institucionales, los valores sociales y otros factores relativamente intangibles. Las
decisiones individuales deben considerar las preferencias y el sistema de valores
del individuo. La teora de la decisin no introduce al proceso de decisin el
problema de los valores, solamente lo hace explcito. Los sistemas de valores
siempre han estado presentes en las decisiones. La teora de la decisin ha
permitido centrar la atencin en la complejidad de los factores que determinan la
contribucin de determinado instrumento a una situacin particular. El coeficiente
de validez por s mismo no puede indicar si se debe usar o no una prueba, ya que
es slo uno de los factores por ser considerados al evaluar el impacto de la prueba
sobre la eficacia del proceso total de la toma de decisiones.
Variables moderadoras: La validez de una prueba para determinado criterio puede
variar entre subgrupos que difieren en caractersticas personales. El modelo
psicomtrico clsico supone que los errores de prediccin son caractersticos de la
prueba ms que de la persona, que esos errores se distribuyen al azar entre los
individuos. La flexibilidad de la aproximacin introducida por la teora de la decisin
estimul la exploracin de los modelos predictivos que incluan la interaccin entre
personas y pruebas y que implica que la misma prueba puede ser un mejor
predictor para ciertas clases o subconjuntos de personas que para otras; por
ejemplo, cierta prueba puede ser un mejor predictor de criterio de desempeo de
hombres que de mujeres o bien un mejor predictor para personas de nivel
socioeconmico bajo que del nivel alto. En esos ejemplos, gnero y nivel
socioeconmico se conocen como variables moderadoras ya que moderan la
validez de la prueba (Saunders, 1956).Los intereses y la motivacin pueden
funcionar como variables moderadoras de modo que si una persona tiene poco
inters en un trabajo, su desempeo ser malo cualquiera sea la puntuacin que
haya obtenido en las pruebas de aptitudes. Un descubrimiento constante fue una
diferencia de gnero en la prediccin de grados acadmicos. Tanto en educacin
inicial como media y mucho ms en nivel universitario, existen correlaciones
mayores para las mujeres que para los hombres entre las puntuaciones de las
pruebas y el rendimiento acadmico.
4.2.6. Combinacin de informacin a partir de diferentes pruebas

Para la prediccin de criterios prcticos, a menudo se requieren varias pruebas.
Los criterios son, en su mayora, complejos y la medida de criterio depende de
varios rasgos diferentes. Si se diseara una prueba para medir este criterio tendra
que ser muy heterognea, pero es ms conveniente una prueba relativamente
homognea porque produce puntuaciones menos ambiguas. Por ende, a menudo
es preferible usar una combinacin de pruebas relativamente homogneas, cada
una de las cuales cubra un aspecto diferente del criterio, en lugar de aplicar una
sola con reactivos muy mezclados. A las pruebas que se emplean en una serie
especialmente seleccionadas para predecir un solo criterio se las conoce como
bateras de pruebas. El problema principal del uso de tales bateras tiene que ver
con la forma en que se combinan las puntuaciones de estos distintos instrumentos
para llegar a una decisin con respecto a cada individuo.
4.3. Validez y utilidad prctica de los Tests para decisiones de clasificacin

Las pruebas psicolgicas pueden usarse con propsitos de seleccin, colocacin o
clasificacin. En la seleccin cada individuo es aceptado o rechazado, en cambio
en la colocacin o clasificacin nadie es rechazado, todos los sujetos son
asignados. El diagnstico clnico es un problema de clasificacin ya que el
propsito principal consiste en tomar una decisin por ejemplo sobre la clase de
terapia ms apropiada.
Validez diferencial: En la evaluacin de una batera de clasificacin, la principal
consideracin es su validez diferencial comparada con criterios separados. El
objeto de la batera es predecir la diferencia en la ejecucin de cada persona en
dos o ms empleos, programas de capacitacin u otras situaciones de criterio. Las
pruebas que se eligen para integrar la batera producen coeficientes de validez
muy diferentes para los criterios separados, por ejemplo en un problema de
clasificacin de dos criterios la prueba ideal tendra una correlacin elevada con un
criterio y una correlacin cero o negativa con el otro. Las pruebas de inteligencia
general son relativamente pobres para los propsitos de clasificacin porque su
prediccin del xito en la mayor parte de las reas es ms o menos igual de
buena, por lo tanto sus correlaciones con los criterios que deben ser diferenciados
son demasiado similares. Un individuo que califique alto en una prueba de
inteligencia sera clasificado como exitoso en cualquier tarea, lo que vuelve
imposible predecir en cul hara mejor papel
CONSTRUCCIN Y ADAPTACIN DE LOS TESTS
1. Diseo y Elaboracin de los Tests
La elaboracin de las pruebas es un tema complejo que implica la aplicacin de
principios establecidos; la obtencin de una buena prueba no es una cuestin fortuita
sino la respuesta a diversos interrogantes como los que se describen a continuacin:
Qu es lo que la prueba medir segn su diseo?
Cul es el objetivo de la prueba?
Existe necesidad de esta prueba?
Quin usar esta prueba?
Qu contenido abarcar esta prueba?
Cmo se aplicar la prueba?
Cul es el formato ideal de la prueba?
Debera elaborarse ms de una forma de la prueba?
Qu capacitacin especial se requerir de los administradores de la prueba

para aplicarla o interpretarla?
Qu clases de respuestas se requerirn de quienes respondan la prueba?
Cmo se interpretarn los resultados de la prueba?
GRUPO 5
1.1.
Teoras de los Tests
Existen diversos paradigmas o modelos que permiten explicar el significado de las

puntuaciones obtenidas con los Tests. El anlisis o modelado de las matrices de datos
obtenidas da como resultado:
la estimacin del nivel en que poseen los sujetos la(s) caracterstica(s) que mide el
test (valores escalares de los sujetos)
la estimacin de los parmetros de los items (valores escalares de los items). El

problema central de la teora de los tests es la relacin que existe entre:
el nivel del sujeto en la variable inobservable que se desea estudiar y
su puntuacin observada en el test.
Es decir que el objetivo de cualquier teora de tests es realizar inferencias sobre el nivel
en que los sujetos poseen la caracterstica o rasgo inobservable que mide el test, a partir
de las respuestas que stos han dado a los elementos que forman el mismo. As para
medir o estimar las caractersticas latentes de los sujetos es necesario relacionar stas
con la actuacin observable en una prueba y esta relacin debe de ser adecuadamente
descrita por una funcin matemtica. Las distintas teoras de tests difieren justamente en
la funcin que utilizan para relacionar la actuacin observable en el test con el nivel del
sujeto en la variable inobservable. Y sirven para dar cuenta del error de medida inherente
a toda medicin psicolgica o estimacin del error; y proporcionar una estimacin del
rasgo o caracterstica evaluada (estimacin del rasgo)
a)Teora Clsica de los Tests

La Teora Clsica de los Tests, iniciada por Spearman, sostiene que la puntuacin
observable de una persona en un test es una funcin de dos componentes: su puntaje
verdadero (inobservable) y el error de medicin implcito en la prueba. El TCT (modelo
lineal de la teora clsica) es un modelo de puntuacin verdadera como valor esperado,
esperado como concepto matemtico, probabilstico. Es decir, el puntaje verdadero de un
sujeto en un test sera el promedio aritmtico de las puntuaciones empricas obtenidas en
infinitas aplicaciones (Muiz, 2001).
La Teora Clsica de los Tests (TCT) es, en sntesis, el conjunto de principios tericos y
mtodos cuantitativos derivados de ellos, que fundamentan la construccin, aplicacin,
validacin e interpretacin de distintos tipos de tests y que permiten derivar escalas
estandarizadas aplicables a una poblacin (Hambleton, 1994). Los principios en que se
basa son relativamente simples y se aplican tanto a las pruebas de desempeo, como a
las de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado
procedimientos de anlisis cuantitativo que han sido de gran utilidad, destacndose en lo
general, tres grandes etapas que se identifican por su objeto de inters primordial, as
como por los mtodos cuantitativos y tipos de anlisis tericos que utilizan.
La primera etapa que Cattell (1986) denomina itemetra, se caracteriza principalmente por
la construccin de pruebas conformadas por reactivos cuyas propiedades estadsticas
eran el centro de atencin principal. Los tests se consideraban como el producto de la
integracin de un conjunto de reactivos cuyas propiedades estadsticas tenan que ser
determinadas antes de que se les incluyera en esa prueba particular. Esto propici que el
concepto de confiabilidad adquiriera prominencia como la principal virtud de la escala y se
meda a partir de la correlacin entre los reactivos individuales y el instrumento en su
conjunto. Si la correlacin era alta, se deca que los reactivos eran los adecuados. Sin
embargo, con frecuencia resultaba que la correlacin no era tan buena, y el resultando
era que se obtenan reactivos deficientes y la prueba en su conjunto era de escaso valor.
El concepto mismo de confiabilidad implicaba al de error de la medida y tuvieron que
desarrollarse procedimientos distintos para determinar la confiabilidad del test de una
manera ms precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de
divisin por mitades.
La itemetra hizo contribuciones valiosas a la psicologa debido al nfasis que puso en el
anlisis del error. Entre sus contribuciones se encuentran varios conceptos sobre
precisin de la medida, las tcnicas para el tratamiento del error y el uso generalizado del
error estndar de la medida como la medida bsica del error. Adems, dio lugar a
contribuciones tales como las frmulas de Spearman-Brown (Spearman, 1904), KuderRichardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios
principios bsicos de escalamiento, as como al uso generalizado de la curva normal, el
uso de las correlaciones mltiples y la frmula de atenuacin, etc. La siguiente etapa es la
que Cattell (1986) denomina psicometra estructural y se caracteriza por el uso de las
nuevas herramientas estadsticas tales como el anlisis factorial con sus diversas
variantes tcnicas, como un medio para encontrar la "estructura natural" de las
habilidades en el contexto de los factores culturales, la dotacin gentica, la personalidad,
los rasgos, los motivos dinmicos y las dimensiones que dan lugar a la accin y al
comportamiento. Su objetivo primordial no era como tal, aplicar pruebas, sino determinar
la relacin que hay entre los conceptos clnicos sobre personalidad, y los fundamentos de
la investigacin experimental multivariada (cuantitativa por naturaleza), as como analizar
las interacciones dinmicas entre los rasgos y los estados de la personalidad. Los tests
se consideraban significativos en la medida que armonizaban con los constructos tericos
formulados conceptualmente.
La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las

aplicaciones inmediatas y simplistas que identificaban a las estadsticas con factores
conductuales,
profundiza
en
las
leyes
formulaciones
conceptuales
del
comportamiento: que relaciona rasgos, procesos y estados psicolgicos con las

mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, segn Cattell, se
refieren a las relaciones sistemticas y consistentes obtenidas de los estudios empricos
sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en forma
hereditaria, de los rasgos modificables por las experiencias y el aprendizaje y de la
modulacin de los estados psicolgicos producidos por las relaciones psicofisiolgicas.
En resumen, el desarrollo de la teora clsica de los tests ha procedido de etapas
orientadas en forma pragmtica para desarrollar tests y validar reactivos, (donde los
constructos psicolgicos tericos se definan operacionalmente como "aqullo que mide la
prueba x"); hacia etapas conceptualmente ms elaboradas en que los tests se derivan de
teoras del comportamiento ms articuladas y donde cada reactivo tiene un significado
conceptual definido en un contexto terico particular.
Limitaciones de la Teora Clsica de los Tests: De acuerdo a la Teora Clsica de los Tests
(TCT), la elaboracin de pruebas de desempeo mximo involucra la seleccin de
reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminacin. Los
reactivos ms deseables son los que poseen un nivel mayor de discriminacin. El nivel de
dificultad por su parte, se ajusta de acuerdo a: 1. El propsito de la prueba, y; 2. El criterio
preestablecido para el grupo al cual se aplicar la prueba. Los ndices estadsticos
empleados por la TCT no se mantienen constantes cuando se aplican a poblaciones que
difieren en habilidad respecto de la poblacin empleada para obtener las normas del test.
Por lo tanto, el xito de las tcnicas clsicas de seleccin de reactivos depende de qu
tan parecida es la poblacin con la cual se obtuvieron los ndices respecto de la poblacin
a la que se pretenden aplicar. Si la diferencia es grande, los ndices obtenidos de los
tems no sern apropiados para la poblacin objetivo. En otros trminos, la teora clsica
de los tests no puede predecir cmo responder un individuo a los tems a menos que
esos tems hayan sido previamente administrados a personas similares (Lord, 1980)
Durante el trabajo prctico de elaboracin de tests, normalmente el grupo a partir del cual
se obtienen los ndices y el grupo al cual el test va dirigido, difieren considerablemente.
Un caso especial en el cual los ndices clsicos de los reactivos se obtienen a partir de
grupos que difieren de la poblacin a la que van dirigidos, puede verse al estructurar
bancos de reactivos. Al elaborar un banco de reactivos, las caractersticas de los tems
que van a ser incluidos en el banco, deben ser determinadas. Los tems con frecuencia
denominados "experimentales", se incluyen en un test que es administrado a un grupo de
personas de tal manera que se obtienen como resultado, los ndices de esos reactivos.
Por supuesto, no todos los reactivos experimentales sern incluidos en un test particular.
Por lo tanto, se crean mltiples formas del test, cada uno de los cuales contiene diferentes
reactivos experimentales y las diferentes formas se aplican a grupos distintos de
examinados. Dado que generalmente no es posible asegurar que las diferentes formas
del examen sean administradas a grupos equivalentes, los ndices de los reactivos
experimentales que se aplicaron a grupos distintos no pueden ser equivalentes
(Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos fueron incluidos en el
examen bajo el supuesto de que sus ndices eran comparables, entonces cualquier test
construdo a partir de ese banco de reactivos no podr ser apropiado para ninguna de las
poblaciones que pudieran ser seleccionadas en un momento dado. Por otra parte, an
cuando un banco de reactivos se encuentre bien conformado, otro problema de la TCT es
la precisin de la medicin. Y es que en la teora clsica de los Tests, la contribucin de
un tem a la confiabilidad de la prueba no depende de las caractersticas del reactivo
slamente, sino que tambin depende de la relacin que hay entre el reactivo en cuestin
y los otros reactivos del test. Por lo tanto, no es posible aislar la contribucin de un tem a
la confiabilidad de la prueba y por lo consiguiente, tampoco su participacin al error
estndar de la medida (Hambleton, Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teora clsica de los tests lleg, con la
etapa funcional de los tests, a un punto en que la conceptualizacin de los resultados de
los tests, y consecuentemente su proceso de desarrollo, permitan mediante sofisticados
procedimientos estadsticos, sacar a los reactivos de los lmites impuestos por la prueba
en su conjunto, la limitacin terica an permaneca y se haca necesario un nuevo marco
conceptual para salvarlo. Este nuevo esquema para la conceptualizacin de los reactivos
como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con
la Teora de Respuesta al tem.
b) Teora de la Generalizabilidad
Cronbach y Glaser (1972) postularon la Teora de la Generalizabilidad (TG) que es una
extensin del modelo clsico en el que diversas mediciones del mismo individuo pueden
variar tanto por efecto de una variacin en lo que se mide como por el error de medicin
(Nunnally y Bernstein, 1995). En esta teora las decisiones sobre la bondad de un
instrumento se basan en estudiar las fuentes y tipos de error, utilizando el anlisis de
varianza. Cuando se mide una variable se trata de generalizar los resultados a un dominio
o universo confiable de observaciones. El puntaje del universo es semejante al puntaje
verdadero en el modelo clsico. La diferencia es que en la TCT se considera que la
varianza de error es de una sola clase y, en cambio, la TG reconoce que existen otros
universos de generalizacin y por lo tanto muchos puntajes de universo posibles. Solo
cuando el universo se ha definido podemos afirmar cules son las fuentes de variacin
que producen error. Las diferentes fuentes de error en esta teora se denominan facetas,
trmino que introdujo Cronbach para designar cada una de las caractersticas de la
situacin de medicin que pueden cambiar de un momento a otro y, por tanto, hacer variar
los resultados obtenidos.
Segn esta teora los puntajes observados solo poseen inters si son representativos de
todos los puntajes posibles de un mismo universo. Poblacin es el conjunto de personas
de las que se extrae una muestra; y Universo es el conjunto de todos los tems posibles
de un constructo; y Universo de Condiciones de Medicin al conjunto de todas las facetas
estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus
interacciones se estima que contribuyen a la varianza de error y disminuyen la
generalizabilidad de los puntajes observados en las personas evaluadas.
c)Teora de Respuesta al tem

La literatura sobre tests registra en los ltimos 30 aos un desplazamiento progresivo del
esquema proporcionado por la Teora Clsica de los Tests, hacia el contexto y los
procedimientos delineados por la Teora de Respuestas al tem (TRI) [Del ingls: tem
Response Theory - IRT]. Esta teora, fue desarrollada para resolver varios de los
problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no haban
sido resueltos de una manera satisfactoria. Algnos de esos problemas son:
(1) El uso de ndices de los reactivos cuyos valores dependen de la poblacin
particular de la cul fueron obtenidos, y
(2) La estimacin de la habilidad del examinado depende del conjunto especfico de
reactivos incluidos en la prueba.
Es decir, las caractersticas del examinado y las caractersticas de la prueba no pueden
separarse en un instrumento elaborado conforme a los principios de la Teora Clsica de
los Tests; y por el contrario, cada uno slo puede ser interpretado en trminos del otro.
Las caractersticas del examinado en las cuales la teora TRI est interesada, son la
"habilidad" que mide el test. Para la TCT, la nocin de habilidad se expresa por medio del
llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza
observada en la prueba en cuestin" (Hambleton, Swaminathan, y Rogers, 1991).La
habilidad del examinado se define slo en trminos de una prueba especfica. Si el test es
"difcil", el examinado parecer tener un nivel bajo de habilidad. Si el test es "fcil", el
examinado parecer tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba
se define como "la proporcin de examinados en el grupo de inters, que contest el
reactivo correctamente" (Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un
tem sea difcil o fcil depende de la habilidad de los examinados a quienes se aplic la
prueba y a su vez, la habilidad de los examinados depende del nivel de dificultad de la
prueba. De la misma forma, el nivel de discriminacin de los reactivos y los coeficientes
de validez y confiabilidad de la prueba se definen tambin en base a las caractersticas
del grupo particular de examinados. As, las caractersticas del test y de los reactivos
cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difcil
comparar examinados a quienes se aplican diferentes tests; o an, comparar tems cuyas
caractersticas se obtuvieron utilizando diferentes grupos de examinados. Esto significa
que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son
dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante
la TRI. Otro problema de la TCT es que es centrada-en-el-test, ms que centrada-en-elreactivo. No se toma en consideracin cmo responde el examinado a un reactivo dado, y
por lo tanto, no se tienen bases para determinar qu tan bien podra desempearse un
examinado particular ante un reactivo individual. Es decir, la TCT no permite hacer
predicciones acerca de cmo se comportar un individuo o grupo particular ante un
reactivo dado. Esta posibilidad de prediccin es importante en una gran variedad de
situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un
profesional ante diferentes tipos de situaciones prcticas.
De acuerdo a Hambleton, Swaminathan y Rogers (1991), las principales caractersticas
de la TRI como una alternativa a la teora clsica de los tests son:
1. Las caractersticas de los reactivos no dependen del grupo del cul fueron
obtenidos;
2. Los puntajes que describen la habilidad del examinado no dependen del test en su
conjunto;
3. El modelo se
4.
expresa a nivel del reactivo
Ms que a
nivel
del test;
El modelo no requiere de pruebas paralelas para determinar el ndice de
confiabilidad; y
5.
Provee una
medida
de
la
Los postulados bsicos de la TRI son:
precisin de
Cada ndice
de
habilidad.
1) El resultado de un evaluado en un tem puede ser explicado por un conjunto de
factores llamados rasgos latentes o aptitudes
2) La relacin entre la respuesta de un sujeto a un tem y el rasgo latente que
subyace puede describirse como una funcin monotnica creciente que se llama
funcin caracterstica del tem o curva caracterstica del tem (CCI) Esta funcin
especfica que a medida que la aptitud aumenta la probabilidad de una respuesta
correcta al tem tambin aumenta.
3) Las estimaciones de la aptitud obtenidas con distintos tems seran iguales
y las estimaciones de los parmetros de los tems obtenidos en distintas muestras de
examinados sern iguales. Es decir que en la TRI los parmetros de aptitud y de los tem
son invariantes.
La ejecucin de un examinado en una prueba puede ser predichos por un conjunto de
rasgos, rasgos latentes y habilidades; y (2) la relacin entre las respuestas de los
examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el
reactivo, pueden describirse por una funcin monotnicamente incrementada llamada
funcin caracterstica del reactivo o curva caracterstica del tem (CCI). Esta funcin
especfica que a medida que el nivel del rasgo incrementa, tambin incrementa la
probabilidad de una respuesta correcta ante ese reactivo." (p.7) Son supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estn
determinadas por una nica variable denominada Rasgo. Ej.: Un tem de un test
espacial medir solo habilidad espacial y no ninguna otra cosa (Ferreres Traver,
2005)
2. La independencia local: Las respuestas de un evaluado a cualquier par de tem
son independientes y la probabilidad de responder correctamente a un tem es
independiente de la probabilidad de responder correctamente cualquier otro tem
(Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los bsicos son:
-
Modelo Logstico de un parmetro o Modelo de Rasch que est medido en

la misma escala que el parmetro zeta que representa el nivel de habilidad,
el parmetro b representa la dificultad del tem. Cuanto mayor sea el valor
de b, ms difcil ser el tem ya que mayor ser el nivel de habilidad
necesario para tener una probabilidad de acertar de 0.5
-
Modelo Logstico de dos parmetros o Modelo de Birnbaum que indica en

qu medida el tem diferencia entre examinados con un nivel alto y bajo de
habilidad. Cuanto mayor sea el valor de a, mayor poder discriminativo del
tem, parmetro a que representa la discriminacin del tem.
Modelo Logstico de tres parmetros incorpora junto con el a y el b al c que

representa la probabilidad de acertar el tem que tienen las personas con
un nivel de habilidad muy bajo; o parmetro del pseudo
azar.
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un
banco de reactivos con parmetros estimados para cada tem, de acuerdo al modelo
seleccionado. El procedimiento recomendado por Lord (1977) consiste en los siguientes
cuatro pasos:
1. Decidir acerca de la forma deseada de la funcin de informacin de la prueba o

curva de informacin deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de informacin deseada cae bajo el
rea de la curva de informacin de la prueba, de tal manera que saturen el rea
bajo la curva de la funcin deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de informacin
de la prueba con los reactivos seleccionados hasta ese momento.
4. Continuar la seleccin de los reactivos hasta que la funcin de informacin de la
prueba se aproxime a la funcin de informacin deseada con un grado
satisfactorio." (p. 23)
Sin embargo, la TRI no se encuentra libre de problemas y su aplicacin contiene ciertos
puntos riesgosos debido a que el uso de criterios estadsticos para la seleccin de los
reactivos no asegura una prueba con contenidos completamente vlidos. Deficiencias en
los procedimientos de seleccin de los contenidos pueden generar una prueba con un
bajo nivel de validez de contenido (Hambleton, Swaminathan y Rogers;1991).
Otro problema de la TRI es que cuando se utilizan funciones de informacin de los
reactivos durante el desarrollo de una prueba, es probable que los valores sean
sobrevalorados y por lo tanto, la funcin de informacin podra sesgarse. Una prueba
construida con tems de valores elevados puede ser que no corresponda a los de la
prueba esperada. Como consecuencia, la funcin de informacin de la prueba ser
sobrevalorada y por lo tanto, habr que aadir varios reactivos adicionales para
compensar esta sobrevaloracin.
Sin embargo, una de las ventajas de la construccin de los tests de acuerdo a los
modelos de la TRI es que se pueden elaborar tests individualizados, es decir, a la
medida de los sujetos que permiten inferir en cada uno de los evaluados un verdadero
valor del rasgo de la manera ms precisa.
SEXTO 6
1.2. Definicin del Dominio del Test
Siguiendo a Tornimbeni et al. (2004) la construccin de una escala de medicin de algn
aspecto del comportamiento humano requiere previamente un exhaustivo anlisis
conceptual del dominio o rasgo a medir. Para estos autores se debe obtener definiciones
conceptuales ajustadas del rasgo en cuestin y decidir cul tipo de indicadores
operacionales son adecuados para describirlo. Todas las dimensiones importantes del
rasgo estudiado deben incluirse. Si se trata de una prueba para medir rendimiento, la
definicin del dominio puede realizarse delimitando el universo de situaciones a ser
evaluadas. As por ejemplo, en el caso de un examen de Estadstica, el universo
abarcara los objetivos y contenidos del programa de la asignatura. En la medicin del
rendimiento se pueden utilizar pruebas referidas a criterios o referidas a normas. Los
procedimientos de construccin de las pruebas referidas a criterios difieren de aquellos
usados tradicionalmente en las pruebas de rendimiento. Para la elaboracin de pruebas
por normas, se parte de la construccin de una tabla de especificaciones que es una tabla
de doble entrada por medio de la cual se relacionan los objetivos cuyo logro se desea
evaluar con los contenidos especficos correspondientes. A partir de esta tabla se
determina la cantidad de tems que conformar la prueba y se lleva a cabo su redaccin.
En la construccin de una prueba con referencia a criterios, en cambio, no se realiza una
tabla de especificaciones, sino que se define y delimita el dominio de conductas
correspondientes a cada objetivo. Siguiendo dicha definicin se elaboran los tems que
evaluarn ese dominio de conductas y todos los desempeos individuales sern referidos
a ese dominio. Tal como lo establece Pophan (1975) citado por Tornimbeni et al.(2004) por
dominio debe entenderse el conjunto de conductas que debera exhibir el alumno en
relacin con un objetivo dado, si ste ha sido alcanzado. Es decir, todas aquellas tareas
que el alumno debera poder realizar si el objetivo ha sido logrado. Para Hambleton y
Rogers (1991) citados por los mismos autores, el dominio puede ser de conductas,
objetivos, destrezas y competencias y la amplitud del dominio vara en funcin de la
finalidad del test. Si el dominio comprende ms de un objetivo pueden construirse
subtests para cada objetivo, y se evala el rendimiento de los sujetos en cada uno de
ellos. Para la especificacin del dominio de conductas o clase de tareas que el individuo
debe realizar, seguiremos el esquema propuesto por Tornimbeni et al (2004) que
proponen:
i.
Definicin del objetivo: Se establece cul o cules sern los objetivos que se
evaluarn a travs de la prueba, por ejemplo, la habilidad de comprensin, que
incluye aquellas conductas o respuestas que se refieren nicamente a una
comprensin de los mensajes literales contenidos en la comunicacin.
ii. Descripcin del objetivo: Se define en trminos de conductas
observables el o los objetivos a ser evaluados. En el ejemplo
anterior se especificara un objetivo de la habilidad de comprensin
tal como ser capaz de analizar el propsito del autor y su punto de
vista examinando una comunicacin escrita.
iii. Especificacin de las caractersticas de la situacin de evaluacin: se
especifican todos aquellos aspectos a tener en cuenta en la situacin de
evaluacin, por ejemplo, en un texto de divulgacin cientfica, seleccionar el
prrafo e identificar la oracin donde se expresa la intencin del autor.
iv. Caractersticas de la respuesta: Se especifica cul es la respuesta que se
espera del sujeto, en este caso, que seleccione de manera correcta el
prrafo y la oracin correspondiente.
1.3.
Seleccin y elaboracin de las Escalas
La medicin es la asignacin numrica de acuerdo con reglas y las escalas son las reglas
de medicin. La elaboracin de escalas puede definirse como el proceso de
establecimiento de reglas para la asignacin numrica en la medicin. O sea es el
proceso por el cual se disea y calibra un dispositivo de medicin y la forma en que se
asignan nmeros, valores de escala, a diferentes cantidades del rasgo o atributo que se
est midiendo. Al prolfico L. Thurstone se le acredita la adaptacin de los mtodos de
elaboracin de escalas psicofsicas al estudio de variables psicolgicas. Las escalas son
instrumentos usados para medir algo, ese algo en psicometra es un rasgo o atributo
psicolgico. Las escalas pueden clasificarse a lo largo de un continuo del nivel de
medicin y denominarse por sus naturalezas como nominales, ordinales, de intervalo o de
razn.
Quienes elaboran las pruebas disean un mtodo de medicin, es decir, hacen la escala
de una prueba, en la forma que creen que se adapta mejor a la manera en que han
conceptualizado la medicin del rasgo o rasgos que son su objetivo. No hay un nico
mtodo para la elaboracin de escalas, el que una escala sea de naturaleza nominal,
ordinal, de intervalo o de razn depender en parte de los objetivos de la escala y de la
legitimidad matemtica de las manipulaciones y transformaciones de los datos
resultantes.
Existen escalas de estimacin que son agrupamientos de palabras, afirmaciones o
smbolos en los que juicios relativos a la intensidad de un rasgo, actitud o emocin
particular es indicada por quien responde la prueba. Un tipo de escala de estimacin
sumatoria, la escala Likert se usa en forma extensa dentro de la psicologa, por lo
general en escala de actitudes. Las escalas Likert son relativamente fciles de elaborar,
cada reactivo presenta cinco respuestas alternativas, por lo general, en un tipo de
continuo entre acuerdo y desacuerdo o aprobacin y desaprobacin. Las escalas Likert
son confiables, lo cual puede explicar su popularidad. Otro mtodo de elaboracin de
escalas que produce datos ordinales es el mtodo de comparaciones apareadas. A
quienes responden la prueba se les presentan pares de estmulos y se les pide que los
comparen y seleccionen uno por medio de alguna regla. Otra forma de derivar informacin
ordinal por medio de un sistema de elaboracin de escalas implica tareas de clasificacin.
En estos enfoques se presentan tarjetas impresas, dibujos, fotografas, u otros estmulos
y se les pide a los evaluados que los clasifiquen desde las ms hasta las menos
justificables o que los jerarquicen. Todos los mtodos anteriores producen datos ordinales,
el mtodo de intervalos aparentemente iguales descripto por Thurstone es un mtodo de
elaboracin de escalas para obtener datos que se supone son de intervalo.
El mtodo de elaboracin de escalas particular empleado en la elaboracin de un test
depender de las variables que se van a medir, el grupo para el que se pretende la
prueba (por ejemplo los nios pueden requerir un mtodo de elaboracin de escalas
menos complicado que los adultos) y las preferencias del elaborador de la prueba.
1.4.
Redaccin de tems
Segn lo afirman Tornimbeni et al. (2004) existen pautas convencionales para la redaccin
de tems de prueba. Estas incluyen recomendaciones tales como: redactar tems
congruentes con el objetivo de medicin y evitar los tems demasiado largos (de ms de
20 vocablos), las oraciones complejas con ambigedades de sentido, las frases con
dobles negaciones, el uso de expresiones extremas (nunca, siempre, todos) y utilizar el
lenguaje ms apropiado al nivel de maduracin y educativo de la poblacin (Osterlind,
1990). Para Nunnally (1991) los dos errores ms comunes en la redaccin de tems son:
a) ambigedad (preguntas difusas que admiten varias respuestas) y b) trivialidad
(centrarse en aspectos poco importantes del rasgo o dominio en cuestin)
Existen formatos de seleccin de respuesta y de construccin de respuesta, los primeros
facilitan la calificacin automatizada y pueden aplicarse con facilidad a gran cantidad de
evaluados. El formato de seleccin de respuesta en presentar una eleccin de respuestas
y requerir la seleccin de una alternativa. Existen tres tipos: los tem de opcin mltiple,
los tem de relacin y los tem de verdadero/falso. Un reactivo de opcin mltiple consta
de tres elementos un enunciado o base del tem, una alternativa u opcin correcta o clave
y varias alternativas u opciones incorrectas llamadas distractores.
1.5.
Revisin del Test por Expertos
Tal como lo explican Tornimbeni et al. (2004), la mayora de los autores recomiendan que
los items preliminares de un test sean revisados por expertos en construccin de pruebas,
en el dominio o rasgo a medir y en el nivel de comprensin de la poblacin a la cual se
apunta con la prueba.
Las tres caractersticas que los expertos deben evaluar en cada tem son: a) claridad
semntica y correccin gramatical
b)adecuacin de su dificultad al nivel educativo y evolutivo de las personas c)
congruencia con el rasgo o dominio medido
Este ltimo tem es el principal parmetro y se refiere al grado de consistencia que debe
existir entre un tem particular y las metas esenciales de la prueba dado que esto ser un
factor posterior de confiabilidad y validez (Oesterlind, 1990). A los jueces se les pide que
evalen la calidad y consistencia de los items y se descartan aquellos con puntuaciones
medias ms bajas y con escaso grado de acuerdo, respectivamente. Se recomienda que
los tem seleccionados sean aquellos en que, al menos, un 60% de los jueces coinciden
(Herrera Rojas, 1993) Es til tambin incluir preguntas que demanden informacin
cualitativa sobre los tems lo que puede facilitar un mejoramiento en el fracaso de algunos
de ellos.
1.6.
Anlisis y Seleccin de tems
Siguiendo a Tornimbeni et al. (2004) podemos afirmar que existen varios procedimientos
de anlisis de los tems de una prueba preliminar. Todos ellos se ocupan esencialmente
de: a) la distribucin de los puntajes de cada tem y b) la relacin estadstica entre el tem
y la prueba total. Tal como lo plantean los autores mencionados, el primer paso para
obtener informacin psicomtrica sobre los items de pruebas homogneas consiste en
administrar los elementos preliminares a una muestra amplia (superior a 300 sujetos) que
sea representativa de la poblacin que se quiere evaluar en la prueba final. Para
descartar los tems que no funcionan bien debe contarse con una cantidad de sujetos por
lo menos cinco veces superior al nmero inicial de reactivos y aproximadamente el doble
de tem de los que aparecern en la versin definitiva de la medida. La determinacin del
numero muestral necesario para realizar anlisis de tem y los estudios de validez y
confiabilidad de un test es un punto conflictivo debido a las dificultades existentes para
seleccionar participantes en determinados contextos de aplicacin de la psicologa o con
determinadas poblaciones. El ideal, coincidiendo con los autores mencionados, ronda
entre los 300 a 400 sujetos para estudios correlacionales pero este nmero no es
condicin suficiente de buenos ndices psicomtricos (por ejemplo un alfa superior a .80).
Existen otros factores intervinientes como el entrenamiento de los evaluadores o la
heterogeneidad de la muestra que pueden incrementar los valores de confiabilidad y
validez y compensar tamaos maestrales inferiores al estndar mencionado (Pajares,
Hartley y Valiente, 2001).
El procedimiento ms empleado en el anlisis inicial de reactivos es la correlacin de
cada uno de ellos con el puntaje total de la prueba. Si el test consta de diversas
subescalas, cada tem debe correlacionarse con el puntaje total de esa parte, no con el
puntaje total de la prueba. El estadstico usual es el producto momento de Pearson ( r ) o
correlacin punto biserial si se trata de tem dicotmicos (si/no, verdadero/falso). Los tem
con correlaciones no significativas o bajas (inferiores a .30) se eliminan o se revisan y se
conservan los menos ambiguos, ni fciles ni dificultosos y ms relacionados con el
constructo (Nunnally y Bernstein, 1995). Cuando hay items con varias alternativas de
respuesta es aconsejable obtener las correlaciones de cada una de las alternativas con el
puntaje de la prueba total, sobre todo en aquellos de correlacin baja o negativa. Los
mejores distractores sern aquellos que obtengan correlaciones negativas con los
puntajes de la prueba, es decir, que sean seleccionados por quienes tienen puntajes bajos
en la prueba (Herrera Rojas, 1993).
En las pruebas de habilidades (tems dicotmicos) es importante conocer el ndice de
dificultad de cada tem, o sea el porcentaje de personas que responden acertadamente al
reactivo analizado. El ndice de dificultad de los reactivos tiene un rango de 0 a 1 y se
simboliza como p. Un reactivo cuyo p es 0 est indicando que ningn sujeto contest
correctamente y un reactivo con p igual a 1 es aquel que todos los sujetos respondieron
correctamente. El valor ptimo de p para un reactivo depende de varios factores, tales
como los objetivos de la prueba y la cantidad de alternativas de respuesta. Si el propsito
del test es identificar slo un porcentaje reducido de los mejores postulantes para un
empleo, por ejemplo, entonces los items de la prueba deberan ser lo suficientemente
difciles y tener un valor medio-bajo de p. Para pruebas convencionales de habilidades se
recomiendan valores p entre .20 y .80 (Aiken, 2003)
La proporcin de acierto de un tem es un estimador adecuado de la dificultad de un tem.
Sin embargo, esta informacin hay que complementarla con la distribucin de frecuencias
en todas las opciones de respuesta (en elecciones mltiples) y las estimaciones de
proporcin para diferentes rangos de puntuacin en la prueba total. En escalas con
formatos tipo Likert, los reactivos donde la mayora de los evaluados responde con las
mximas o mnimas categoras (p.ej. 1 o 10) indican que tales items carecen de suficiente
dificultad (atractivo) o son excesivamente difciles para los evaluados. Con la misma
lgica deben eliminarse los reactivos donde la mayora de los sujetos de la muestra
obtiene el mismo puntaje puesto que tales elementos de prueba no discriminan entre los
evaluados (Bandura, 2001)
Las pruebas referidas a criterios, como explica Martnez Arias (1995) se evalan y
seleccionan los items de una forma particular, diferente a las pruebas referidas a normas.
El anlisis se realiza comparando los resultados de un grupo antes de aplicar un
programa de aprendizaje y despus del mismo, o comparando dos grupos similares, uno
de ellos, que recibi capacitacin y el otro no. Al calcular el ndice de dificultad los
resultados esperados son, items con alta dificultad para los grupos que no han pasado por
el proceso de aprendizaje, y baja dificultad para los que han sido sometidos al proceso de
instruccin. En cuanto al ndice de discriminacin, obtenido por la comparacin entre
grupos, se espera mxima discriminacin entre los grupos y mnima entre los individuos
de un mismo grupo.
Una vez realizada la aplicacin de la prueba piloto y habiendo obtenido resultados
estadsticos sobre el comportamiento de cada tem se podrn tomar decisiones sobre
cules de ellos deben integrar la forma final del test y hacer estimaciones de su
confiabilidad y validez mediante algunos de los procedimientos ya conocidos.
La lgica de este proceso de anlisis es obtener pruebas lo ms homogneas posibles, es
decir, donde todos los reactivos se relacionen con un ncleo comn de medicin que es el
constructo o dominio, informacin que se obtiene aplicando a los reactivos de una escala
el coeficiente alfa de Cronbach, por ejemplo. El conjunto de tems seleccionados despus
de examinar la correlacin tem-total de cada uno, es analizado con este procedimiento de
homogeneidad (alfa o KR-20) y debemos asegurarnos valores de.80 o superiores. Los
tems con correlaciones bajas con el puntaje total se pueden remover para incrementar el
valor del alfa. Si bien un coeficiente alfa elevado es una condicin necesaria de
unidimensionalidad esta propiedad solo es garantizada por el anlisis factorial (Goldberg,
1999)
El paso decisivo para asegurar la unidimensionalidad de cualquier escala homognea y el
primer paso en un conjunto inicial de tem heterogneos (sin un explcito marco terico
previo) es el anlisis factorial (Martnez Arias, 1995). El anlisis factorial es esencialmente
un mtodo para agrupar las variables que se correlacionan fuertemente entre s y cuyas
correlaciones con las variables de otros agrupamientos es menor, 2003). Segn Klline
(2000) el anlisis factorial es un mtodo estadstico en el cual las variaciones en los
puntajes de un nmero de variables son explicadas por un nmero ms reducido de
dimensiones o constructor (factores). El anlisis factorial es una tcnica analtica que
permite reducir un nmero extenso de variables interrelacionadas a una cantidad pequea
de dimensiones latentes. (Glutting et al. 2002)
Una distincin inicial importante es la que debe realizarse entre anlisis factorial
exploratorio y confirmatorio. En el primero se extraen factores sin una estructura terica
previa conjeturada de modo explcito. En cambio el enfoque confirmatorio, los factores
son definidos a priori en base a un modelo terico y en este caso, el anlisis intenta
verificar qu tan bien se adaptan los datos observables a ese modelo.
Antes de realizar un anlisis factorial debe determinarse si los items estn suficientemente
interrelacionados. Existen algunas pruebas estadsticas que pueden emplearse con esa
finalidad. Unas de las ms empleadas son el test de esfericidad de Bartlett y la medida de
adecuacin del muestreo de Kaiser-Mayer-Olikin que se interpreta de manera semejante
al coeficiente de confiabilidad, es decir, con un rango de 0 a 1 y considerando los valores
superiores a .80 como muy adecuados. Si es as, se puede aplicar el anlisis factorial en
sus diferentes variantes.
Los principales mtodos exploratorios para extraer factores son: Anlisis de Componentes
Principales, Ejes Principales y el de Mxima Probabilidad. Este ltimo muy usado por
representar un enfoque estadstico inferencial en psicometra. El mtodo PC explica la
mayor cantidad de varianza posible en los datos observados y es por consiguiente un
mtodo ms descriptivo que inferencial. El mtodo de ejes principales es anlogo al
anterior para los mismos fines.
El anlisis factorial debe realizarse sobre muestras extensas no inferiores a 300 sujetos
para obtener datos tiles. Adems se debe contar idealmente con 10 veces el nmero de
sujetos por variable o al menos 5 veces ese nmero (Nunnally, 1991). La seleccin del
nmero correcto de factores es una de las decisiones ms dificultosas del anlisis
factorial. Luego de extraer los factores iniciales, se realiza un procedimiento de rotacin
que permite eliminar los pesos negativos importantes y reducir el nmero de cargas
factoriales de cada variable en los diversos factores (Anastasi, 1998). Las rotaciones
colocan a las variables ms cerca de los factores diseados para explicarlas, concentran
la varianza de las variables en menos factores y, en general, proporcionan un medio para
facilitar la interpretacin de la solucin factorial obtenida. Los factores rotados explican la
misma varianza que el conjunto de los factores (no rotados) pero la estructura de las
cargas factoriales se modifica y son ms simples de interpretar, debido al aumento de las
cargas positivas extremas (bajas y altas).
La tarea final del anlisis factorial es interpretar y nominar los factores. Esto se logra
inspeccionando el patrn de cargas factoriales bajas y altas de cada variable sobre los
distintos factores y mediante el conocimiento que se posea de las variables implicadas.
Cuando los factores obtenidos estn correlacionados es posible someter sus
correlaciones al mismo anlisis estadstico que utilizamos con las correlaciones entre
tems. Podemos realizar un anlisis factorial de los factores obtenidos por rotacin oblicua
y derivar factores de segundo orden o superior, es el caso del 16 PF donde los factores
iniciales son 16 pero un nuevo anlisis reduce el modelo a 5 factores de segundo orden
asimilables al modelo de cinco grandes factores del Inventario NEO-PIR.
En el enfoque psicomtrico actual, el anlisis factorial se utiliza ms como estrategia
confirmatoria de un modelo terico previo, en especial, dentro del marco metodolgico del
Modelo de Ecuaciones Estructurales. De modo contrario se corre el riesgo de obtener
estructuras puramente empricas dependientes de la muestra escogida y no replicables
con facilidad.
Estas estrategias analizadas son congruentes con la Teora Clsica de los Tests. El
anlisis desde el enfoque de la Teora de Respuesta al tem emplea estrategias tales
como: discriminar distintos niveles del rasgo medido, asegurar la homogeneidad mediante
los ndices de discriminacin o minimizar el funcionamiento diferencial de los tems de
prueba (Goldberg, 1999). En este momento se pueden complementar ambos criterios los
de la TCT y los de la TRI como etapa de transicin ante los nuevos desarrollos de esta
ltima.
peptimo
2. ADAPTACIN DE LOS TESTS
2.1.
Mtodos de Adaptacin de los Tests
Actualmente se reconoce que la adaptacin de un Test es un proceso mucho ms
complejo que la mera traduccin de ese test en un idioma diferente. Una adaptacin
implica considerar no slo las palabras utilizadas al traducir la prueba sino tambin las
variables culturales involucradas. La traduccin del ingls al espaol del siguiente tem del
NEO PIR I wouldnt enjoy vacationing in Las Vegas por No disfrutara tomando
vacaciones en Las Vegas es correcta. Sin embargo, este tem probablemente tenga un
significado distinto ara muchas personas en Argentina que para los estadounidenses y,
probablemente, el significado sea mucho ms diferente en culturas no occidentales. As
una correcta traduccin no asegura un significado unvoco. Van de Vijver y Leung (1997)
establecieron tres niveles de adaptacin de las pruebas psicolgicas. El primero
corresponde al de la aplicacin, este es, la simple y llana traduccin de un test de un
idioma a otro Este mtodo asume la equivalencia de constructo. Desafortunadamente, es
el mtodo ms comn y ms utilizado en todo el mundo. Como se indicara anteriormente
la sola traduccin de una prueba no nos indica ningn nivel de equivalencia entre ambas
versiones de la misma.
La segunda alternativa es la adaptacin. En este caso a la traduccin se agrega la
transformacin, adicin o substraccin de algunos tems de la escala original. Como se
explic, algunos tems pueden cambiar su significado a travs de las culturas y, por lo
tanto, necesitan modificaciones o ser eliminados. As mismo tems que no existen en la
versin original del test pueden representar mejor al constructo en la poblacin en la cual
se administrar la nueva versin. Baldo (2000) al realizar una baremizacin del WISC III
en Crdoba encontr que el nivel de dificultad original de los tems pertenecientes a los
subtests Comprensin, Vocabulario e Informacin no eran aplicables a la poblacin
Argentina, por lo que propuso un nuevo ordenamiento de los tems. Este es un ejemplo de
adaptacin sin adicin o substraccin de tems.
Finalmente, la opcin ensamble puede emerger al momento de adaptar un instrumento de
evaluacin psicolgica. En este caso el instrumento original ha sido modificado tan
profundamente que prcticamente se ha transformado en un nuevo instrumento original
con los nuevos elementos. Esto ocurre cuando muchos de los tems del test original son
evidentemente inadecuados para representar el constructo a medir. Esto sucede en tests
de denominacin confrontacional, utilizados en neuropsicologa, donde se utilizan lminas
con dibujos de objetos que el evaluado debe nombrar. Estos objetos tienen distinta
frecuencia de observacin en la vida diaria de un sujeto y por ello van a variar
considerablemente de una cultura a otra. Es el caso de la adaptacin Argentina del Test
de Denominacin de Boston (Allegri et. Al 1997). En la versin original la figura de una
bellota est ubicada en el lugar nmero 32 mientras que en la versin Argentina tal lmina
se encuentra sobre el final en el nmero 50. El ensamble tambin se da cuando el
constructo no est representado de forma adecuada por la versin original en la cultura a
la que se quiere adaptar la prueba. Los abordajes indigenistas de la medicin de la
personalidad, por ejemplo, han promovido el diseo de tests distintos para abarcar
aspectos de la personalidad no contemplados en las teoras occidentales. Tal es el caso
del Inventario Chino de Evaluacin de la Personalidad, que contiene dimensiones
indigenistas de la personalidad tales como armona
2.2.
Tcnicas de Traduccin
El proceso de traduccin es complejo e implica mas que la traduccin lineal de las

palabras escritas a un nuevo lenguaje. Existen dos mtodos comunes: la traduccin
directa o forward translation y la traduccin inversa o backward translation. En el mtodo
de traduccin directa un traductor, o preferentemente, un grupo de traductores, traducen
el test desde el idioma original al nuevo idioma. Luego, otro grupo de traductores, juzga la
equivalencia entre las dos versiones. De este modo pueden realizarse las correcciones
pertinentes en las dificultades o errores identificados por los traductores. En el caso de la
traduccin inversa, l mas utilizado de los mtodos, un grupo de traductores realiza una
traduccin desde el idioma original al nuevo idioma; luego un segundo grupo de
traductores toma el test traducido ( en el nuevo idioma) y vuelve a traducirlo al idioma
original. Seguidamente se realizan las comparaciones entre la versin original y la versin
retraducida al idioma original para determinar su equivalencia. Ambos mtodos poseen
diversas ventajas y desventajas, se ejemplifica la metodologa utilizada para la traduccin
de instrumentos con el caso de la prueba CPI- 434 que actualmente se encuentra en
desarrollo.
2.3.
Mtodos para establecer la Equivalencia entre Tests
Una vez que se ha traducido convenientemente una prueba es necesario realizar un
estudio para establecer si esta traduccin en la prueba es equivalente a la original. Para
ello habr de implementarse un diseo experimental y un anlisis de datos obtenidos a
travs de ese diseo. Hambleton ( 200) seala que existen bsicamente 3 mtodos.
1)Administracin de la prueba en el idioma original y de la prueba traducida a sujetos
bilinges: En este caso se le administrara ambas versiones de la prueba ( la original y su
traduccin al nuevo idioma) a sujetos que hablan ambos idiomas. Si por ejemplo,
deseamos traducir el test de Inteligencia de Wechsler para Adultos, Versin III desde el
ingles al Espaol, administraremos la versin en Ingles y la versin en Espaol a los
evaluados que hablen ambos idiomas. Este mtodo segn Hambleton, posee ventajas y
desventajas. Entre las primeras se pueden mencionar que pueden controlarse las
diferencias de las caractersticas de los participantes en el test ( por ejemplo su habilidad)
ya que ambas pruebas son administradas a la misma persona. Entre las desventajas, este
autor que este diseo esta basado en la premisa de que los sujetos son igualmente
competentes en ambos idiomas, lo cual es difcil de sostener. Es probable, entonces, que
puedan observarse diferencias entre ambas versiones debido a una menor capacidad de
algunas personas para entender los tems en alguno de los dos idiomas. La segunda gran
desventaja de este diseo es que no puede asegurarse que los bilinges posean el
mismo nivel de competencia que la poblacin general. Por el hecho de conocer otro
idioma es probable que se trate de personas con una mayor capacidad intelectual o mejor
educacin. Hambleton, tambin seala una variacin de este mtodo que conserva las
misma ventajas y desventajas pero que es ms fcil de implementar. La misma consiste
en administrar al azar una ( no ambas) de las versiones del test ( en espaol o en ingles)
a los participantes bilinges.
2)Administracin de la versin original y su traduccin inversa a monolinges en el idioma
original: Siguiendo nuestro ejemplo anterior, planteado por las autoras ( Tornimbeni et. Al.
2004) se le administrara la versin original del WAIS III y la versin obtenida de la
traduccin inversa a sujetos cuyo idioma natal es el ingles. La equivalencia de los tems
se determina comparando el desempeo de cada sujeto en cada tem de ambas
versiones. Nuevamente, la ventaja esta en el control de las diferencias en las
caractersticas de los participantes. La primer gran desventaja esta en que este diseo no
permite obtener datos con la versin en el idioma meta ( target) del test ( espaol en el
ejemplo). De esta manera no es posible obtener puntajes de sujetos que hablen el idioma
al que se intenta traducir el test. La segunda gran desventaja de este diseo reside en el
hecho de la posible falta de independencia entre los puntajes obtenidos ya que es
probable que exista un efecto de aprendizaje luego de la administracin de la primer
versin de la prueba, especialmente si la primera es la original. La administracin al azar
de una de las versiones en el primer lugar puede reducir la importancia del efecto de
aprendizaje.
3)Administracin de la versin original a monolinges que hablan el idioma original y de la
versin traducida a monolinges que hablan el idioma al que ha sido traducida la prueba:
Siguiendo con el ejemplo enunciado por Tornimbeni et. Al (2004), se administrara la
versin en ingles del WAIS III a evaluados cuyo idioma natal es el Espaol. Una posible
dificultad reside en asumir que los sujetos de ambas muestras poseen una habilidad
comparable. sin embargo, Hambleton sugiere que tal obstculo puede superarse si los
anlisis son desarrollados con la Teora De Respuesta al tem, en la cual se asume que
utilizando distintos conjuntos de tem pueden obtenerse las mismas estimaciones de
aptitud . Igualmente, administrando esos tem a distintas muestras de examinados las
estimaciones de parmetros obtenidas sern iguales.
Una vez obtenidos los datos por medio de los diseos revisados existen varias
posibilidades estadsticas para su anlisis. Bsicamente el anlisis estar destinado a
identificar la existencia de Funcionamiento Diferencial de items ( FDI) es decir, tem que
se comportan en forma diferente a travs de las diversas muestras transculturales. Por
ejemplo, en las investigaciones citada de Tanzer ( 1995) en donde el investigador le
administro dos cuestionarios sobre autoconcepto acadmico de lectura y matemticas. En
los resultados pudo observarse que a pesar de que la prueba mostraba la misma
estructura factorial para ambos grupos culturales, cuando las escalas de los tems de
competencia/ facilidad se trabajaban en forma individual podan observarse grandes
diferencias entre ambos grupos culturales. El autor especulo con que tal diferencia s
deba a un factor cultural de modestia, la cual es una virtud deseable dentro de la cultura
de Singapur, fuertemente influenciada por la cultura china. As, los singaporeanos eran
ms renuentes a mostrar una actitud autoelogio o jactancia. Esta investigacin adems,
de ser un ejemplo de FDI, muestra tambin la insuficiencia de comparar las estructuras
factoriales de las pruebas cuando son aplicadas transculturalmente. Como puede
observarse en estos resultados, es necesario siempre realizar un anlisis de (FDI) ya que
a pesar de conservar una misma estructura factorial un grupo puede mostrar valores
mucho ms bajos que otro en determinados tem.
Existen diversos mtodos en los que se puede analizar el comportamiento de los tems.
Algunos mtodos dentro de la TCT tales como los mtodos de suma de chi-cuadrado o el
de Mantel y Haenzel que fuera adaptado para el FDI por Holland y Thayer ( 1988) y que
es en la actualidad l mas utilizado a estos fines. El anlisis puede desarrollarse dentro de
la TRI en donde el mismo se centrara en las probabilidades que tiene una persona con un
determinado nivel de habilidad de contestar un tem en forma correcta. El modelo de
Rasch, de un solo parmetro es l ms popular.
2.4 Fuentes de Sesgo

Si deseamos usar las pruebas para predecir resultados en alguna situacin futura como
por ejemplo en el desempeo de un aspirante a la universidad, necesitamos instrumentos
con alta validez predictiva del criterio particular. Este requisito suele descuidarse en el
desarrollo de las llamadas pruebas libres de influencia cultural. En un esfuerzo por
incluir en esas pruebas solo las funciones comunes a diferentes culturas o subculturas,
puede elegirse un contenido que tenga poca relevancia para el criterio que se pretenda
predecir. Una mejor solucin es elegir un contenido relevante para el criterio e investigar
luego las posibles diferencias poblacionales de la efectividad de la prueba para el
propsito pretendido.
Desde mediados de la dcada de los setenta se ha observado una rpida acumulacin de
investigaciones sobre problemas de sesgo de la prueba. En este contexto, el termino
sesgo se emplea en su bien establecido sentido estadstico, para desganar un error
constante o sistemtico en contraste con uno que se debe al azar. Las principales
preguntas que se han planteado con respecto al sesgo de la prueba tiene que ver con el
coeficiente de validez ( sesgo de la pendiente) y la relacin entre las medias del grupo en
la prueba y en el criterio ( sesgo de interseccin). Si una prueba produce un coeficiente de
validez significativamente diferente en dos grupos, la diferencia se describe como sesgo
de la pendiente y esta clase de diferencia entre grupos se conoce como validez
diferencial. Una prueba exhibe sesgo de interseccin si sistemticamente subpredice o
sobrepredice una ejecucin del criterio para un grupo particular.
El problema del sesgo de la interseccin se relaciona mas con lo que ha sido llamado
equidad de la prueba. Aunque los trminos equidad y sesgo de la prueba a veces se
usan indistintamente para cubrir todos los aspectos del uso del instrumento con minoras
culturales.
Modelos de decisin para el uso justo de las pruebas:
Gradualmente empez a cambiar el inters de la investigacin en la evaluacin del sesgo
de las pruebas al diseo de estrategias de seleccin para su uso justo con minoras
culturales. Entre las metas por reconciliar estn las de proporcionar iguales oportunidades
a todos los individuos , elevar al mximo la tasa del xito y la productividad, incrementar la
mezcla demogrfica y la representatividad y extender el tratamiento preferencial a grupos
desfavorecidos por inequidades anteriores.
Van de Vijver y Tanzer ( 1997) identificaron diferentes fuentes de sesgo , que a
continuacin se explicitan:
a) Sesgo de constructo:
Este tipo de sesgo se da cuando el constructo medido no es idntico a travs de los
grupos culturales... ( p.p. 264, Van de Vijver y Tanzer, 1997). La importancia que cada
cultura otorga a ciertas conductas se encuentra en esta categora. Conductas de tica y
civismo que en algunas sociedades pueden ser normales en otras pueden constituir un
verdadero rasgo de rigidez y asemejarse a una conducta obsesivo compulsivo.
b) Sesgo metodolgico:
Este sesgo reconoce tres formas.
El sesgo de muestra: que se da cuando las muestras son incomparables entre si. La
cantidad de aos de escolaridad que poseen los sujetos de una muestra es una variable
determinante en el desempeo del mismo en un test determinado, especialmente si se
trata de un test de habilidad. El nivel sociocultural, la motivacin, la composicin por
gnero y edad de los sujetos son otras variables que pueden hacer incomparables a dos
muestras que pueden mostrar resultados muy diferentes en un test determinado.
El sesgo en el instrumento: que puede provenir de las caractersticas del instrumento. La
familiaridad que los sujetos tienen con los estmulos presentados tiene una gran
importancia. Algunos estmulos tales como objetos, dibujos, figuras u otros elementos
utilizados en algunas culturas no existen en otras o son irrelevantes. El tem de ejemplo
en el Sub. Test de Ordenamiento de lmina WISC III que muestra a una mujer frente a
una mquina expendedora de latas de gaseosa tiene muy poco valor en culturas rabes,
por ejemplo, o en zonas rurales de nuestro pas. El idioma es otra fuente de sesgo de
instrumento. La traduccin de un idioma a otro frecuentemente subestimada, es un
problema importante que requiere una metodologa especfica a seguir. Los problemas
son mayores cuanto ms diferencias hay entre idiomas como entre el ingls y el chino o el
rabe, idiomas cuya lectura se realiza de izquierda a derecha a diferencia del de derecha
a izquierda. Tambin la disposicin del texto tiene importancia en el completamiento de
frases o de interpretacin de textos, mayor es el problema cuando implican conectar letras
y nmeros siguiendo un orden alfabtico o numrico y los caracteres de idiomas como el
espaol, ruso, griego. rabe, hebreo o chino son tan diferentes. Tambin entre los idiomas
occidentales existen diferencias como que en ingles no existe la que el alfabeto sueco
contiene mas vocales, y en portugus existen distintos tipo de a. Los mtodos de
respuesta constituyen otra fuente de sesgo del instrumento. Las laminas de respuestas
del Test de Matrices Progresivas de Raven que implica completar una secuencia lgica
con una figura opcional, incluyen la figura faltante al final de la segunda fila, con lo que
asume una lectura de izquierda a derecha. Este hecho fue demostrado por Carpenter,
Just y Shell ( 1990) en un muy preciso estudio que implica una serie de desventajas para
los sujetos de las culturas rabes quienes involuntariamente van a intentar resolver la
prueba de derecha a izquierda, forma en que se lee su idioma.
El sesgo de administracin: incluye problemas tales como dificultades en la comunicacin,
es decir, dificultades para que el entrevistado entienda las instrucciones del entrevistador
ya sea por la dificultad de las palabras utilizadas, el modo de explicacin de las
instrucciones o un inadecuado manejo del idioma de alguna de las partes. Tambin se
incluyen las alteraciones en la manera de administrar las pruebas. Normalmente los
manuales incluyen instrucciones de administracin que en muchos casos no son
adecuadas para la poblacin a aplicar. Los administradores del Test entonces adaptan
esas instrucciones segn su criterio personal. Otro punto importante es el uso de
cronmetros que produce serias alteraciones en los resultados.
Sesgo de tem: Se produce cuando el mismo tiene diferentes significados en distintas
culturas. Ciertos grupos culturales pueden obtener puntajes significativamente distintos en
un tem determinado a pesar de obtener un puntaje total similar. La deseabilidad social o
la relevancia cultural, entre otros factores, pueden producir el sesgo de tem. Tanzer
( 1995) demostr que aunque la estructura factorial de un Test de autoconcepto
acadmico era similar cuando se lo aplico a estudiantes australianos y singaporeanos,
existan diferencias sustanciales entre estas muestras cuando se compararon algunos
tem especficamente. Este tipo de sesgos tambin acta en test neuropiscologicos.
Tercera Parte
ADAPTACIN DE TESTS DE UNA CULTURA A OTRA
Directrices para la traduccin Adaptacin de los Test
Adaptadas de la International Test Comisin (ITC)
1 .Contexto
C1. Los efectos de las diferencias culturales que no sean relevantes para los objetivos
centrales del estudio deberan minimizarse en la medida de lo posible.
C2. Debera de evaluarse la cuanta del solapamiento de los constructos en las
poblaciones de inters.
2. Adaptacin de los tests
D1. Los constructores/ editores de tests deberan de asegurarse que el proceso de
adaptacin tiene en cuenta las diferencias lingsticas y culturales entre las poblaciones a
las que se dirigen las versiones adaptadas de los tests.
D. 2. Los constructores / editores de los tests deberan de proporcionar datos que
garanticen que el lenguaje utilizado en las instrucciones, en los propios tem y en el
manual del tests, son apropiados para todas la poblaciones culturales e idiomticas a las
que va dirigido el tests.
D. 3. Los constructores / editores de tests deberan de aportar evidencia de que las
tcnicas de evaluacin elegidas, los formatos de los tems, las reglas de los tests y los
procedimientos son familiares a todas las poblaciones a las que van dirigidos.
D. 4. Los constructores / editores de tests deberan de facilitar evidencia de que el
contenido de los tems y los materiales de los estmulos son familiares a todas las
poblaciones a las que van dirigidos.
D. 5. Los constructores / editores de tests deberan
de aportar una justificacin
racional sistemtica, tanto lingstica como psicolgica, para mejorar la precisin del
proceso de adaptacin, as como reunir datos acerca de la equivalencia de todas las
versiones en los distintos idiomas.
D.6. Los constructores / editores de tests deberan de asegurarse que el diseo de
recogida de datos permite el uso de tcnicas estadsticas apropiadas para establecer la
equivalencia entre los tems correspondientes a las diferentes versiones idiomticas del
test.
D. 7. Los constructores / editores de tests deberan aplicar tcnicas estadsticas
apropiadas para 1) establecer la equivalencia entre las diferentes versiones de un test, y
2) identificar componentes problemticos o aspectos del test que puedan ser inadecuados
para alguna de las poblaciones a las que va destinado el test.
D. 8. Los constructores / editores de tests deberan de proporcional informacin sobre la

evaluacin de la validez en todas las poblaciones objetivo a las que va dirigido el test
adaptado.
D. 9. Los constructores / editores de tests deberan de aportar datos estadsticos sobre la
equivalencia de los tests para todas las poblaciones a las que van dirigidos. D. 10. No
deben utilizarse preguntas no equivalentes en todas las versiones dirigidas a diferentes
poblaciones cuando se prepara una escala comn, o cuando se comparan estas
poblaciones. Sin embargo, pueden ser tiles para reforzar la validez de contenido de las
puntuaciones de cada poblacin por separado.
3. Aplicacin
A.1 Los constructores y los aplicadores de los tests deberan tratar de prever los tipos de
problemas que cabe esperar, y tomar las medidas oportunas para evitarlos mediante la
preparacin de materiales e instrucciones adecuados.
A.2 Quienes aplican los tests deberan de ser sensibles a cierto numero de Editores
relacionados con los materiales utilizados para los estmulos, los procedimientos de
aplicacin, y las formas de respuesta, que pueden reducir la validez de las inferencias
extradas de las puntuaciones.
A.3 Aquellos aspectos del entorno que influyen en la paliacin del test deberan de
mantenerse lo mas parecidos posibles para todas las poblaciones a las que va dirigido el
test.
A.4 Las instrucciones para la aplicacin del test en el idioma fuente y en el objetivo deben
minimizar la influencia de variacin no deseada.
A.5 El manual del test debera de especificar todos los aspectos del test y de su aplicacin
que han de revisarse al utilizarlo en un nuevo contexto cultural.
A.6 El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los
examinados. Deben de seguirse al pie de la letra las reglas explicitas descritas en el
manual del test.
4. Interpretacin de las puntuaciones
1. 1 Cuando se adapta un test para utilizarlo en otra poblacin, debe de facilitarse la
documentacin sobre los cambios , as como los datos acerca de la equivalencia entre las
versiones.
1. 2. Las diferencias entre las puntuaciones obtenidas por las muestras a las que se aplic
el test no deben de tomarse sin ms directamente. El investigador tiene la responsabilidad
de sustanciar las diferencias con otros datos empricos.
1. 3. Las comparaciones entre poblaciones solo pueden hacerse al nivel de la invarianza
que se haya establecido para la escala en la que se expresan las puntuaciones.
1. 4. El constructor del test debera de proporcionar informacin especifica acerca de las
distintas formas en las que los contextos socioculturales y ecolgicos de las poblaciones
pueden afectar al rendimiento en el test , y debera sugerir procedimientos para tener en
cuenta estos efectos en la interpretacin de los resultados.
2. CONCLUSIONES
La utilizacin de los tests psicolgicos construidos en otros contextos culturales es una
practica frecuente no solo en nuestro medio sino en todo el mundo . El uso de un test en
un contexto cultural diferente, donde se usa un lenguaje distinto y se esta familiarizado
con estmulos muy diversos, produce dificultades traducibles como fuentes de sesgo. La
existencia de sesgo puede tener consecuencias iatrognicas al aplicar los tests y al
obtener resultados totalmente errneos. En un mbito clnico podemos asumir la
existencia de un rasgo de personalidad patolgico, cuando este rasgo puede ser normal s
esta dentro de un rango correctamente medido.
Adems de ser muy necesario contar con instrumentos adecuados para la practica
psicolgica y para la investigacin, la adaptacin de instrumentos responde a razones de
ndole cientfico y practico. Es importante reconocer que la mayora de las teoras
psicolgicas actuales se han desarrollado en contextos de cultura occidental y que la
validacin emprica de las mismas se ha realizado con muestras de jvenes universitarios
de raza blanca.
Ahora enfrentamos el desafi de demostrar la Universalidad de esas teoras si es que es
posible. Es por ello que para poder evaluar si un determinado rasgo psicolgico existe en
culturas diferentes es necesario contar con instrumentos equivalentes a travs de
diferentes culturas, es decir que midan lo mismo en ambas culturas en donde va a ser
aplicado. Para ello proponemos comenzar por desarrollar mayor cantidad de instrumentos
que cumplan con los requisitos necesarios para ser aplicados segn las teoras de los
tests que ltimamente han cobrado vigor y siguiendo parmetros internacionales como los
que se detallan a continuacin.

Libro de Psicometria 2

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Libro de Psicometria 2

Încărcat de

Drepturi de autor:

Formate disponibile

PSICOLOGA INDUSTRIAL

El presente mdulo pretende que los estudiantes adquieran las

La Psicometra II por tanto se convierte en la mejor aliada de la

Conceptualizar los fundamentos bsicos de la psicometra aplicada

1.1 Las pruebas psicolgicas

El avance en la difcil tarea de comprender la conducta de las personas de manera

perfeccionamiento de la interpretacin terica de dichos fenmenos, a travs del

Postularemos a la evaluacin psicolgica como un proceso de toma de decisiones

explicitaremos un recorte que implica definirla como un proceso para verificar la

siguiendo a Anastasi &

entendemos que un test es un instrumento de evaluacin cuantitativa de los

2.2. Siete supuestos en las pruebas y la evaluacin psicolgica

4. Quin, qu y por qu evaluar?

1. El que construye la prueba

Psicolgica Estadounidense y el Consejo Nacional sobre Medicin en Educacin.

grado en que estn predispuestos a estar de acuerdo o en desacuerdo

g) grado en que han recibido preparacin previa.

grado de suerte que tiene el evaluado al responder sin conocer de lo que

Tambin el evaluado tiene derechos en situaciones de evaluacin como por

En qu tipo de contextos se realizan evaluaciones?

4. Evaluacin de la Calidad de las pruebas: Confiabilidad y Validez

Una buena prueba es confiable, es decir es consistente y es precisa. Las pruebas

Factores que determinan la falta de confiabilidad

4.1.2. Tcnicas para medir la confiabilidad

4.21. Validez de Contenido

4.2.2.Validez en Relacin a un Criterio:

Generalizacin de la validez: cuando en los estudios de validacin industrial se

4.2.3. Validez de Constructo:

Consistencia interna: la caracterstica esencial de este mtodo es que el criterio no

4.2.4. Coeficiente de validez

4.2.5.Validez de la prueba y teora de la decisin

4.2.6. Combinacin de informacin a partir de diferentes pruebas

4.3. Validez y utilidad prctica de los Tests para decisiones de clasificacin

Qu es lo que la prueba medir segn su diseo?

Cul es el objetivo de la prueba?

Existe necesidad de esta prueba?

Quin usar esta prueba?

Qu contenido abarcar esta prueba?

Cmo se aplicar la prueba?

Cul es el formato ideal de la prueba?

Debera elaborarse ms de una forma de la prueba?

Qu capacitacin especial se requerir de los administradores de la prueba

Qu clases de respuestas se requerirn de quienes respondan la prueba?

Cmo se interpretarn los resultados de la prueba?

Teoras de los Tests

Existen diversos paradigmas o modelos que permiten explicar el significado de las

la estimacin de los parmetros de los items (valores escalares de los items). El

el nivel del sujeto en la variable inobservable que se desea estudiar y

su puntuacin observada en el test.

a)Teora Clsica de los Tests

La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las

comportamiento: que relaciona rasgos, procesos y estados psicolgicos con las

c)Teora de Respuesta al tem

expresa a nivel del reactivo

El modelo no requiere de pruebas paralelas para determinar el ndice de

Los postulados bsicos de la TRI son:

Modelo Logstico de un parmetro o Modelo de Rasch que est medido en

Modelo Logstico de dos parmetros o Modelo de Birnbaum que indica en

Modelo Logstico de tres parmetros incorpora junto con el a y el b al c que

1. Decidir acerca de la forma deseada de la funcin de informacin de la prueba o

Seleccin y elaboracin de las Escalas

Revisin del Test por Expertos

Anlisis y Seleccin de tems

Mtodos de Adaptacin de los Tests