Manual de Medicion Psicologica. 2011

PRIMERA UNIDAD
FUNDAMENTOS DE LA MEDICION PSICOLOGICA

LECCION 1
INTRODUCCION A LA MEDICION
1. INTRODUCCION
Hace algunos siglos, medir resultaba algo muy complicado. Como decamos, medir es
simplemente comparar, y cada persona, cada pueblo, cada pas comparaba las cosas
con lo que ms se le antojaba. Por ejemplo, usaban la medida mano para medir
distancias, y an hoy mucha gente, cuando no tiene una regla o una cinta mtrica, mide
la mesa con la mano o el largo del cuarto con pasos.
Desde la aparicin del ser humano sobre la tierra surgi la necesidad de contar y medir,
no es posible saber cuando surgen estas unidades para contar y medir, pero la
necesidad de hacerlo aporta ingredientes bsicos que requiere la metrologa como
mnimo, para desarrollar su actividad fundamental como ciencia que estudia los sistemas
de unidades, los mtodos, las normas y los instrumentos para medir.
Se ha dicho que todos los descubrimientos han tenido lugar gracias a las mediciones
precisas del tiempo, masa o longitud; de estas tres, la medicin exacta de la longitud es
la que ofrece ms dificultades y han adquirido mayor importancia, hasta el momento
presente en que sigue constituyendo uno de los mayores problemas con que deben
enfrentarse el mundo de la mecnica.
2. QU ES MEDIR?
La medicin es la determinacin de la proporcin entre la dimensin o suceso de un
objeto y una determinada unidad de medida. La dimensin del objeto y la unidad deben
ser de la misma magnitud. Una parte importante de la medicin es la estimacin de
error o anlisis de errores.
Para establecer medidas debemos partir de nuestra observacin del mundo real o
dominio.
Debemos identificar cules son las entidades que queremos medir (p.ej., tamao) y
definir qu atributo deseamos caracterizar (p.ej., estatura).
Medir: asignar nmeros a las cantidades e las propiedades de una persona de acuerdo
con reglas preestablecidas y que se puede comparar; Es decir, cuantificamos
cualidades.
En psicologa las caractersticas las inferimos por lo que es importante que los
instrumentos de medida constaten que esas inferencias son reales.
Los instrumentos son los test psicomtricos que pretenden ser una medida objetiva y
tipificada de pequeas muestras de conducta significativas del sujeto.
Para que un test tenga valor debe servir para:
a. diagnosticar y describir el estado actual del sujeto
b. predecir el comportamiento futuro
La medida en psicologa es algo concreto: Se miden caractersticas psicolgicas en
personas, por lo que son aspectos individuales y concretos.
3. CONCEPTO DE MEDICION
Medicin, refiere a la accin y resultado de medir; realizaron una medicin sobre la
vivienda para as poder tasarla y posteriormente venderla. En tanto, por medir, se indica
la accin de comparar una determinada cantidad con su unidad respectiva, con la clara
finalidad de conocer cuntas veces la segunda se encuentra contenida en la primera.
Entonces, ms concretamente, la medicin es la determinacin de la proporcin entre la
dimensin o suceso de un objeto y una determinada unidad de medida. Para poder llevar
a cabo la medicin de lo que sea, ser necesario que tanto la dimensin del objeto como
la unidad correspondan a la misma magnitud.
Cuando se encuentra midiendo cualquier cosa, deber serse lo ms cuidadoso que se
pueda para no alterar el sistema, si bien el margen de error siempre se considera
presente, ya sea por las imperfecciones que pueden presentar el medidor, el instrumental
o hasta de los errores experimentales, deber tratarse que el mismo sea el mnimo
posible.
El patrn que facilita llevar a cabo las mediciones se conoce como unidad de medida y
deber cumplir con tres condiciones bsicas: universalidad (utilizado en todos los pases
del mundo), inalterable (no podr presentar variacin en el tiempo ni por quien realice la
medicin), reproducible.
Para facilitar la cuestin, los cientficos, han reunido las unidades tipo patrn ms
conveniente y desarrollaron los sistemas de unidades, por ejemplo el Sistema
Internacional (S.I.), el mencionado fue acuado en el ao 1960 en la XI Conferencia
General de Pesos y Medidas, siendo las magnitudes fundamentales que se tomaron las
siguientes: longitud, masa, tiempo, temperatura termodinmica, cantidad de sustancia,
intensidad luminosa, ngulo plano, ngulo slido e intensidad de corriente elctrica.
El resultado de una medicin se conoce como medida.
Si la medicin es concretada a travs de un instrumento de medida creado para tal
menester se llamar a la misma medicin directa, en tanto, cuando esta condicin no se
cumpla porque no existe un instrumento adecuado que nos permita medir, por ejemplo,
en los casos en los que la cosa a medir es muy grande o mu pequea, la medicin
deber efectuarse a travs de una variable que permita calcular otra diferente y
entonces, la misma ser considerada como una medicin indirecta.
Stevens (1951), afirma que medir es asignar nmeros a objetos o datos de acuerdo
con ciertas reglas. Togerson (1958), crtica esta definicin sealando que, al medir no
se asignan nmeros a los objetos, por lo cual estar ms de acuerdo con la definicin
de Campbell (1938).
Campbell (1938), sostiene que medicin es la asignacin de nmeros para
representar las propiedades de los sistemas materiales en virtud de leyes que
gobiernan estas propiedades.
Lord y Novick (1968), definen medicin como un procedimiento para la asignacin de
nmeros a propiedades especficas de unidades experimentales de modo que las
caractersticas preserven las relaciones especificadas en el dominio comportamental.
Magnusson (1969), dice que medir es asignar nmeros a las cantidades de las
propiedades o atributos de los objetos, de acuerdo con ciertas reglas cuya validez
puede probarse.
Kerlinger (1973), dice que, en cierto sentido, la medicin es slo un juego y el objeto
de dicho juego es producir una correspondencia entre la medicin y la realidad; cuanto
mayor sea esa correspondencia, tanto mejor ser la medicin.
Bunge (1983), la medicin es la contrapartida emprica de la cuantificacin o
determinacin de la medida, y consiste en interpretar ciertas seales convencionales
(cifras, por ejemplo), como nmeros que suministran una imagen ms o menos fiable
de porciones o grados de esa propiedad.Adems, exige un cero absoluto y
unidades de medida que pertenezcan a un sistema de unidades coherentes
(tericamente fundado).
Herrera Rojas (1993), dice que la medicin comprende la definicin del atributo que se
quiere medir, el establecimiento de la unidad de medida a emplear, la operacin de
comparar el primero con la segunda y la asignacin de valores numricos como
resultado de esa comparacin siguiendo reglas convencionales
Nunally y Berstein (1995), es importante tener presente que no se miden las personas
sino atributos, es decir, caractersticas particulares de los objetos de medicin.
Ejemplo: en la prctica no medimos a un adolescente, sino algunos de sus atributos,
como: su inteligencia, su personalidad, sus preferencias vocacionales, sus hbitos de
estudio, etc.
4. SISTEMA NUMERICO
4.1 NUMERACIN
Sistema de smbolos o signos utilizados para expresar los nmeros.
Las primeras formas de notacin numrica consistan simplemente en lneas rectas,
verticales u horizontales; cada una de ellas representa el numero 1. Por lo que este
sistema era extremadamente engorroso para manejar grandes nmeros y para hacer
operaciones. Ya en el ao 3400 a.C. en Egipto y Mesopotamia se utilizaba un
smbolo especfico para representar el nmero 10.
En la notacin cuneiforme de babilonia el smbolo utilizado para el 1, era el mismo
para el 60 y sus potencias.; el valor del smbolo vena dado por su contexto.
a. Numeracin Griega
Coexistieron dos sistemas de numeracin paralelos. El primero de ellos estaba
basado en las iniciales de los nmeros, el nmero 5 se indicaba con (eta); el
(delta) el 100 con la letra (PI); el 10 con la letra la letra (mu). En el (chi) y el
1000 con la letra 1000 con la letra segundo sistema eran usadas todas las
letras del alfabeto griego ms otras tres tomadas del alfabeto fenicio como
guarismos. La ventaja de este sistema era que con poca cantidad de nmeros se
podan expresar grandes cifras; pero haba que saberse de memoria un total de
27 smbolos.
b. Numeracin Romana
Este sistema (tan bien conocido por nosotros) tuvo el mrito de ser capaz de
expresar los nmeros del 1 al 1.000.000 con solo siete smbolos: I para el 1, V
para el 5, X para el 10, L para el 50, C para el 100, D para el 500 y M para el
1000. Es importante acotar que una pequea lnea sobre el nmero multiplica su
valor por mil.
En la actualidad los nmeros romanos se usan para la historia y con fines
decorativos. La numeracin romana tiene el inconveniente de no ser prctica
para realizar clculos escritos con rapidez.
c. Numeracin Arbiga
El sistema corriente de notacin numrica que es utilizado hoy y en casi todo el
mundo es la numeracin arbiga. Este sistema fue desarrollado primero por los
hindes y luego por los rabes que introdujeron la innovacin de la notacin
posicional; en la que los nmeros cambian su valor segn su posicin. La
notacin posicional solo es posible si existe un nmero para el cero. El guarismo
0 permite distinguir entre 11, 101 y 1001 sin tener que agregar smbolos
adicionales. Adems todos los nmeros se pueden expresar con slo diez
guarismos, del 1 al 9 ms el 0. La notacin posicional ha facilitado muchsimo
todos los tipos de clculos numricos por escrito.
En matemticas, varios sistemas de notacin que se han usado o se usan para
representar cantidades abstractas denominadas nmeros. Un sistema numrico est
definido por la base que utiliza. La base de un sistema numrico es el nmero de
smbolos diferentes o guarismos, necesarios para representar un nmero cualquiera de
los infinitos posibles en el sistema.
A lo largo de la historia se han utilizado multitud de sistemas numricos diferentes.
a. Valores posicinales
La posicin de una cifra indica el valor de dicha cifra en funcin de los valores
exponenciales de la base. En el sistema decimal, la cantidad representada por uno
de los diez dgitos - 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9-depende de la posicin del nmero
completo.
Para convertir un nmero n dado en base 10 a un nmero en base b, se divide (en
el sistema decimal) n por b, el cociente se divide de nuevo por b, y as
sucesivamente hasta obtener un cociente cero.
b. Sistema binario
El sistema binario desempea un importante papel en la tecnologa de los
ordenadores. Los nmeros se pueden representar en el sistema binario como la
suma de varias potencias de dos.
Ya que slo se necesitan dos dgitos; el sistema binario se utiliza en ordenadores y
computadoras.
c. Nmeros
Palabra o smbolo utilizado para designar cantidades o entidades, que se
comporten como cantidades. Es la expresin de la relacin existente entre una
cantidad y otra magnitud que sirve de unidad. Se pueden considerar nmeros
todos aquellos conceptos matemticos para los cuales se definen dos operaciones,
de adicin y multiplicacin, cada una de las cuales obedece a las propiedades
conmutativa y asociativa.
c.1 Nmeros Naturales
Dicho en trminos muy simples, los nmeros naturales son los que sirven para
contar.
El conjunto de los nmeros naturales tiene las siguientes propiedades:
Al conjunto de los nmeros naturales pertenecen el 0 y el 1.
Si se suma a un natural el nmero 1 el resultado es otro nmero natural.
Por lo tanto el conjunto de los naturales es un conjunto infinito.
Las propiedades enunciadas anteriormente constituyen el Axioma de
Induccin Completa.
c.2 Nmeros Enteros
El conjunto de nmeros enteros, es tambin infinito.
Son parejas de nmeros naturales (x,y), cuya resta x-y define un nmero
entero. Por ejemplo: la pareja (7,3) define el entero positivo 4 ya que 7 - 3 = 4,
la pareja (2,4) define el entero negativo -2 ya que 2 - 4 = -2.
Existe un isomorfismo entre parte del conjunto de los nmeros enteros y el de
los nmeros naturales; ya que el conjunto de los naturales es el de los enteros
positivos.
Al conjunto de los enteros tambin pertenece el 0 que est definido por todas
aquellas parejas de naturales iguales (1,1); (56,56); etc.
c.3 Nmeros Racionales
El conjunto de nmeros racionales est integrado por parejas de nmeros
enteros cuyos elementos se dividen entre s.
A este conjunto tambin pertenece el 0, que est definido por todas aquellas
fracciones que tienen al 0 por numerador.
Los racionales sern positivos o negativos segn sea el signo de cada uno de
los integrantes de las parejas que los definen.
As ser que parejas de enteros de igual signo definirn un racional positivo; y
parejas de enteros de distinto signo definirn un racional negativo.
No existen racionales cuyo denominador sea 0.
c.4 Nmeros Reales
El campo de los nmeros reales es ms amplio que el de los racionales; ya
que incluye nmeros que no estn formados por parejas de enteros. Por
ejemplo la relacin que existe entre una circunferencia y su dimetro. Se trata
de un conjunto tambin infinito.
Siempre entre dos nmeros reales hay otro nmero real; de ah que se asocie
al conjunto de los nmeros reales con una recta. La recta est formada por
infinitos puntos y cada punto representara un nmero real.
5. PROPIEDADES LOGICAS
Para aplicar a las propiedades de la naturaleza un modelo matemtico hay que cumplir
ciertos requisitos, por lo tanto nos podemos preguntar cules son las caractersticas
de la serie real de los nmeros? Los nmeros reales del sistema numrico presentan
tres caractersticas fundamentales:
a. Orden,
Es decir que los nmeros estn ordenados de mayor a menor. Ejemplos: 1 menor
que 2; 2 menor que 3; 3 menor que 4, etc.
b. Distancia,
Significa que la diferencia entre dos nmeros o pares de nmeros puede ser de
tres tipos: mayor que; menor que e igual que. Ejemplos: 7 es mayor que
1; 7 es igual a siete y 7 es menor que 28. Tambin podemos decir: 9-7 es
menor que 9-6; o que 7-4 es mayor que 6-4, etc.
c. Origen,
Es decir, la serie numrica tiene un origen nico llamado cero y la diferencia
entre cualquier par de nmeros que tiene a O en un miembro es igual al nmero
del otro miembro. Ejemplo: 6 0 = 6
Los hechos o fenmenos no pueden satisfacer todas las propiedades de los nmeros,
no obstante, nos permiten hacer ciertas mediciones de los mismos. Campbell (1938),
sostiene que existen nueve postulados bsicos para la medicin:
a) Postulados bsicos de identidad o equivalencia:
Si a es igual a b; o bien a es diferente a b. Los nmeros son iguales o
diferentes.
Si a es igual a b, entonces b es igual a a. Es decir, la relacin de igualdad es
simtrica.
Si a es igual a b y b es igual a c, entonces a es igual a c. Es decir, dos cosas
iguales a una tercera son iguales entre si. Transitividad.
b) Postulados relativos al orden jerrquico:
Si a es mayor que b, luego b es menor que a. La relacin mayor que, es
asimtrica.
Si a es mayor que b, y b es mayor que c, entonces a es mayor que c.
Propiedad transitiva.
c) Postulados relativos a la aditividad:
Si a es igual a p, y b es mayor que cero, entonces a ms b es mayor que p.
Indica la posibilidad de sumar.
Si a ms b es igual a b mas a. El orden de los sumandos no afecta el
resultado.
Si a es igual a p, y b es igual a q, entonces a ms b es igual a p ms q. Es
decir, los objetos idnticos pueden ser sustitudos.
A pesar de que la medicin en psicologa ha sido difcil de aceptar bsicamente debido
por una parte a que no se comprenda cmo se podan medir fenmenos
cualitativamente diferentes y de otro lado a la gran cantidad de factores que interviene
en la aparicin de cualquier fenmeno psicolgico, que hacen difcil establecer los
controles adecuados, asunto que no ocurre en las ciencias naturales en un laboratorio.
Asimismo la influencia de algunos pensadores como Kant, que sostuvo que las
matemticas no pueden aplicarse a la psicologa, o de Bergson en contra del
positivismo, retardaron la aplicacin de la estadstica en psicologa; sin embargo, otros
estudiosos como cita Cortada de Kohan (1999), afirman que la medicin es posible
porque la estructura del pensamiento del hombre y la actividad psicolgica en general
poseen propiedades desde el punto de vista lgico que son suficientemente similares a
la estructura de las matemticas y por lo tanto se puede establecer un isomorfismo.
Lord y Novick (1968), definen la medicin como un procedimiento para la asignacin de
nmeros (puntajes o medidas), a propiedades especificadas de unidades
experimentales de modo que las caractericen y preserven, las relaciones especificadas
en el dominio comportamental. En esta definicin, el preservar las relaciones de Lord
y Novick suponen que para representar la propiedad debe existir un isomorfismo entre
las caractersticas del sistema numrico y las relaciones entre las diversas cantidades
de la propiedad medida.
6. ELEMENTOS ESENCIALES EN LA MEDICIN
En psicologa medimos para tener datos ms precisos y adems ahorra tiempo, esfuerzo
y dinero. Cuanto ms complejo es lo que se pretende analizar la medida simplifica la
realidad compleja.
Cada tem de un test es una pequea muestra de conducta.
Los elementos esenciales para medir en psicologa son:
a. sealar o definir la cualidad o atributo que queremos medir
b. operativizar el atributo en base a las manifestaciones del mismo
c. ver la relacin entre cualidades y cantidades.
d. Traducir e interpretar los datos cuantitativos para darles una cualidad. Es decir,
interpretar los datos cuantitativos en base a unas normas de interpretacin.
7. CLASES DE MEDICION
Segn Campbell (1959), la medicin en ciencia de mayor a menor precisin, responde
a la siguiente categorizacin:
a. La medicin fundamental o medicin de magnitudes A.
En este caso los nmeros se asignan segn leyes naturales que representan la
propiedad misma. Ejemplo: la longitud, el volumen, el peso, la altura, la
resistencia fsica, poseen significado constitutivo y no presuponen la medicin
de ninguna otra variable.
b. La medicin derivada o medicin de magnitudes B.
En este caso la caracterstica de una escala obtiene sentido mediante leyes
que relacionan una propiedad con otras propiedades. Ejemplo: la densidad de
una sustancia es la relacin entre su masa y su volumen. Esta relacin difiere
en las distintas sustancias y por lo tanto el valor de esta relacin puede medir
la densidad de la sustancia.
c. La medicin por fiat.
En esta categora el significado se debe a una definicin arbitraria que depende
de relaciones supuestas entre las observaciones y el concepto. En la prctica,
esto es lo comn en las ciencias sociales cuando usamos ndices como por
ejemplo, el nivel socioeconmico, o en psicologa el cociente intelectual o la
capacidad de aprendizaje de un animal por cantidad de ensayos que necesita
para solucionar un problema o recorrer un laberinto. El caso es que, los
ndices tienen slo un significado operacional ms no constitutivo.
8. FINALIDAD DE LA MEDICION PSICOLOGICA
Segn Levine y Feeman, 1975, la finalidad de la medicin es proporcionar una base
objetiva, exacta y comunicable para describir, diferenciar y clasificar las caractersticas y
conductas de las personas. Ejemplo: los puntajes correspondientes a eneatipos son
diferenciaciones cuantitativas que permiten clasificar a las personas en funcin a sus
recursos o potencialidades intelectuales; rasgos de temperamento; aptitudes especficas;
hbitos de estudio, segn los casos.
Para clasificar primero se debe diferenciar, por lo tanto la diferenciacin precede a la
clasificacin. En psicometra, para diferenciar a los sujetos sobre la base de una
determinada variable se deben cumplir dos requisitos:
1.Se debe dar una definicin de la variable, por ejemplo: inteligencia; aptitud;
hbitos; temperamento, etc.
2.Se debe dar una regla o un conjunto de ellas, por la cual se establezcan las
operaciones que permitirn diferenciar entre los sujetos.
La definicin de una variable es generalmente abstracta mientras que las reglas son
definidas operacionalmente. Tcnicamente, cuanto ms especfica es la regla ms
exacta es la medicin.
9. PROCESO DE EVALUACION
El concepto de evaluacin es mucho ms amplio que el de medicin. La medicin
implica tanto descripciones cuantitativas como cualitativas del comportamiento y
adems, y esto es lo ms importante, supone siempre un juicio de valor en relacin con
ese comportamiento.
Ejemplo: Cuando en la prctica decimos que un nio posee un CI de 85, slo hemos
medido algo. Para que esto constituya una evaluacin, debemos concluir que el
resultado obtenido por dicho nio es inferior al promedio de la poblacin escolar y que
es probable que el nio tenga dificultades de aprendizaje y que por lo tanto requiera
aprestamiento y nivelacin, etc.
En resumen, la evaluacin implica un proceso sistemtico destinado a obtener
informacin sobre ciertas caractersticas de los sujetos examinados que nos sirvan de
base para tomar decisiones. Asimismo, la evaluacin psicolgica se da en diferentes
mbitos especializados: clnico o de la salud; educacional; organizacional; social-
comunitaria; deportiva; penitenciaria, etc. Es evidente que la evaluacin no slo se
refiere a la aplicacin de tests, sino que implica la observacin conductual, la entrevista,
la observacin y las calificaciones, entre otros elementos, utilizados por el evaluador
para la toma de decisiones (Cohen y Serdilk, 2000).
La principal debilidad de la evaluacin es que permite la intervencin directa de las
personalidades del observador como del observado. En la actualidad, la evaluacin se
orienta hacia las tcnicas donde se puedan combinar las aproximaciones de la
psicometra y la observacin, utilizando esta ltima con sus diversos procedimientos:
registros, informes, tcnicas sociomtricas, etc., en el estudio de las situaciones o
escenarios donde se desenvuelven las personas.
Reconociendo la complejidad del estudio de la personalidad e involucrando en este
concepto a lo cognitivo, Catell (1982), propone para el estudio de la personalidad un
doble modelo: psicomtrico y econctico, ste ltimo se ocupara del estudio de las
situaciones o escenarios donde se da el comportamiento. Catell, Eysenck y Guilford
dedicaron toda su vida al desarrollo del primer modelo mencionado, en tanto que el
segundo recin empieza a evolucionar y probablemente va a constituir el objetivo de
otras generaciones de psiclogos investigadores (Catell y Kline, 1982).
10. VARIABLES DE LA MEDICION
a. Definicin de Variable
Variable es toda caracterstica o atributo susceptible de tomar un valor y ser
medido.
Una variable es cada una de las caractersticas o cualidades que poseen los
individuos de una poblacin.
Cuando hablemos de variable haremos referencia a un smbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad o categora (valor) de un conjunto determinado,
que llamaremos dominio de la variable o rango.
Al observar el mundo, la naturaleza, la realidad, nos llama la atencin la gran cantidad
de distinciones sensibles que podemos hacer en ella. Ejemplo: si nuestro inters se
orienta a estudiar un grupo de adolescentes universitarios, seleccionaremos una
muestra que podrn ser dos grupos de alumnos: uno de ellos pertenecientes a una
Universidad Privada y el otro a una Universidad Nacional. Sobre estos grupos,
elegiremos algunas caractersticas que nos interesen como por ejemplo: peso, talla,
capacidad intelectual, hbitos de estudio, enfermedades que han padecido, edad
cronolgica, lugar de procedencia, trabajo que realizan sus padres, su rendimiento en
lenguaje, etc.
Estas caractersticas o propiedades de los adolescentes universitarios se llaman
variables toda vez que varan de un alumno a otro y son precisamente sobre estas
variables que trabajar el estadstico. El trmino variable indica que un smbolo
representa diversos valores y dichos smbolos suelen ser las ltimas letras del
alfabeto: x, y, z.
A diferencia de una variable que puede tener valores diferentes, una constante puede
ser reemplazada slo y nicamente por un valor. Ejemplo, en la expresin C = 2phi r,
los smbolos C y r pueden ser reemplazados por un conjunto infinito de nmeros
positivos; sin embargo, el smbolo phi es una constante y slo puede ser reemplazado
por 3.1416.
Por otra parte, observamos tambin que en este caso C y r son variables que estn
funcionando relacionadas, es decir, el valor de C depende del valor de r. Del mismo
modo, las variables son muy diversas y por lo tanto conviene que las clasifiquemos ya
que no todos los clculos estadsticos se pueden hacer con todas las variables.
Para efectos de nuestra temtica, podemos dividir las variables en varios tipos:
1. Variables cualitativas o atributos.
El rasgo especfico que caracteriza estas variables es que pueden ser divididas
en clases separadas y mutuamente exclusivas. Ejemplo: el sexo, la raza, la
religin, el partido poltico, la ocupacin, la actitud hacia los maestros, el estado
civil, etc.
Asimismo, en el sexo tenemos hombre y mujer; en la raza tenemos: negros,
blancos, orientales, etc.; en la religin tenemos a catlicos, protestantes, judos,
budistas, musulmanes, etc.
En algunos casos, las variables cualitativas consideran una pauta de orden.
Ejemplo: el promedio de los exmenes calificado como: reprobado, aprobado,
bueno, distinguido y sobresaliente. Cuando se trata de medir actitudes hacia la
poltica en adolescentes universitarios podemos considerar los siguientes
niveles: muy favorables, favorables y desfavorables.
En resumen, las variables cualitativas son muy frecuentes en la psicologa y en
las ciencias sociales pero son las ms difciles de evaluar desde el punto de vista
estadstico.
2. Variables cuantitativas.
Se pueden clasificar a su vez en discretas y continuas.
Las variables cuantitativas discretas. Son aquellas que se tienen la propiedad de
poderse contar. Ejemplo: nmero de hijos de una familia; ingreso anual de la
familia; goles que haya hecho un equipo de ftbol. De esta manera, una familia
puede tener 1, 2, 3 o 4 hijos, pero no hay posibilidades de tener dos hijos y
medio, es decir, hay separacin total entre un valor y otro, pero siempre estn
ordenados y podemos contar sus elementos.
Las variables cuantitativas continuas. Estas variables se caracterizan porque no
se cuentan sino se miden y pueden tener cualquier valor en un mbito finito de
valores continuos. Ejemplo: edad cronolgica, talla, peso, temperatura, presin
arterial, altura de una montaa, cantidad de metros cbicos de agua de un lago,
etc. En tal sentido, un estudiante universitario al entrar a la Universidad hace un
ao tena 17 aos, 3 meses, 6 das, 2 horas y 5 minutos. Seis meses despus,
tendr valores diferentes a la medicin realizada al momento del ingreso. La
fineza con que midamos en este momento, establecer el lmite entre un valor y
otro, en donde desde luego existe una continuidad cuyo corte slo depende del
instrumento con que efectuamos la medicin. La mayora de las variables en las
ciencias fsicas y biolgicas son cuantitativas continas.
En conclusin: Las variables cualitativas son esencialmente variables para la
clasificacin de las entidades que en la psicologa son sujetos; las variables
cuantitativas discretas son variables en donde las entidades se cuentan y las
variables continuas son aquellas variables que se pueden medir.
LECCION 2
MEDICION PSICOLOGICA
1. INTRODUCCION
Primera vista parecera que el sistema de conocimientos psicolgicos y el matemtico no
tienen nada en comn. A pesar de esto los cientficos cada da utilizan ms modelos
matemticos en sus ciencias y no slo en las ciencias fsicas y naturales, sino tambin en
las ciencias sociales y del comportamiento. Esto ha dado lugar a la teora de la medicin
que trata precisamente de la posibilidad de usar los nmeros en los fenmenos naturales
y psicolgicos. Existe en la actualidad una importante rama de la psicologa que ubica a
la matemtica en el eje de su metodologa. La psicologa matemtica se caracteriza por
buscar representaciones o modelos matemticos del objeto de estudio, capaces de
recoger, predecir y explicar las propiedades de este tal como lo proponen entre otros
Luce, Bush y Galanter (1963).
La medicin en Psicologa ha sido difcil de aceptar en parte por la gran influencia de dos
grandes pensadores como Kant, que no crea que la psicologa como estudio de la
experiencia interna pudiera ser sometida a una comprobacin objetiva (Toloso Gil,1998)
y Bergson que haba insinuado que las matemticas no podan aplicarse a la psicologa.
Sin embargo, hoy se acepta la medicin en psicologa porque la estructura del
pensamiento del hombre y de la actividad psicolgica en general posee propiedades que
desde el punto de vista lgico son suficientemente similares a la estructura de las
matemticas. Es posible por lo tanto, establecer un isomorfismo. Por ejemplo Lord y
Novick (1968 p.17) definen la medicin como un procedimiento para la asignacin de
nmeros (puntajes o medidas) a propiedades especificadas de unidades experimentales
de tal modo que las caractericen y preserven las relaciones sealadas en el dominio
comportamental. Las reglas en el sentido de Stevens(1951) y el preservar las
relaciones de Lord y Novick suponen que para representar la propiedad debe existir un
isomorfismo entre las caractersticas del sistema numrico y las relaciones entre las
diversas cantidades de la propiedad medida.
El problema de la construccin de escalas ha recibido una gran atencin desde los
trabajos de Stevens siendo actualmente la Teora Representacional de la medicin la
posicin ms ortodoxa en cuanto a la conceptualizacin de la medida. Esta teora es
axiomtica y formalizada y trata el tema de la medicin articulndolo en tres grandes
reas: el problema de la representacin, el de la unicidad y el de la significacin. La
teora tiene su origen en los trabajos de Hlder y Russell alrededor de 1900, pero
quienes han dado las formulaciones ms completas son Luce, Krantz, Tversky y Suppes
(1979) y Mitchewll (1990). No podemos entrar en detalle en estas nuevas teora.
Digamos slo que desde el punto de vista de la representacin la medicin supone
encontrar un sistema relacional numrico con una estructura semejante al relacional
emprico que se pretende medir. Dada esta semejanza uno de los sistemas puede
utilizarse para representar al otro. El problema de la unicidad hace referencia a la
arbitrariedad de los nmeros elegidos segn la teora representacional. Una vez
establecidas las relaciones numricas es posible asignar distintos conjuntos de nmeros
a los elementos del sistema manteniendo el homomorfismo es decir pueden obtenerse
distintas escalas de nmeros para la misma variable o atributo. El problema de la
significacin se refiere a la validez de una conclusin numrica. Esta validez siempre es
relativa al tipo de escala en que se basan las inferencias. Stevens plantea la solucin en
trminos de los estadsticos admisibles para cada tipo de escala.
2. MEDICION PSICOLOGICA

Proceso de asignar nmeros u otros smbolos a los objetos de tal forma que las
propiedades de los nmeros o smbolos reflejan propiedades del atributo medido Se
aplica a las propiedades de los objetos ms que a los objetos mismos.
Es asignar un valor dentro a un continuo a las cualidades psicolgicas, es usada esta
funcin pues es ms fcil trabajar y comparar los atributos intra e interpersonales con
nmeros y/o datos objetivos.
As, se usa para medir diferentes aspectos psicolgicos de una persona, tales como
conocimiento, habilidades, capacidades, o personalidad
La medicin sirve para cuantificar y expresar en forma de nmeros las caractersticas de
los estmulos y de las personas, de forma que podamos utilizarlos como si fuese lo
representado
La medicin en psicologa establece las condiciones de representacin de constructos o
caractersticas latentes por indicadores empricos y los indicadores empricos por
nmeros.
Los instrumentos que se utilizan para llevar a cabo tal medicin se les denominan
Escalas de medicin.
Segn Cohen y Swerdilk (2000) citado en Delgado, Escurra y Torres (1996) la
medicin, es la asignacin de nmeros, smbolos o caractersticas de los objetos
(personas, eventos, fenmenos, etc.) de acuerdo a reglas, como lineamientos para
representar las caractersticas (y/o atributos) del objeto que se est midiendo.
Segn Stevens (1951, 1970b) citado en Alarcn (2008), considera a la medicin como
la asignacin de numerales a objetos o eventos de acuerdo a reglas.
La psicometra es el campo de la psicologa cuyo objeto es aportar soluciones al
problema de la medicin en cualquier proceso de la investigacin psicolgica (Aliaga,
2007).
La Psicometra es una disciplina cientfica encuadrada dentro del marco de la
Metodologa de las Ciencias del Comportamiento y directamente relacionada con el
campo de la medicin psicolgica.
A un nivel prctico, la psicometra hace uso intensivo sobre todo de clculos y anlisis
estadsticos para extraer informacin til a partir de la administracin repetida de un
mismo test a un grupo amplio de personas.
La Psicometra es una rama de la psicologa y es una ciencia cuyo objeto es medir los
aspectos psicolgicos de una persona (conducta humana).
Se le considera adems, un campo metodolgico que hace uso del lenguaje formal de
la ciencias matemticas, cuyos niveles de accin incluyen contribuciones tericas y
aplicativas a la medicin de los fenmenos psicolgicos
3. MTODOS DE MEDICIN:
a.Mtodo de prueba:
Analizar y controlar de forma estricta la situacin; Hay estandarizacin y la tarea es
predeterminada. Ej. Prueba objetiva
b.Mtodo observacional:
Trata de medir la conducta en situaciones naturales por lo que no hay
estandarizacin.
c.Mtodo mixto:
Observacin planificada: se estandariza la observacin y el modo de medicin pero
hay libertad en cuando a que se realiza en el medio natural. Permite cuantificar de
forma natural.
4. ESCALAS DE MEDICIN
Antes que una variable sea tratada estadsticamente debe ser observada / medida para
un conjunto de unidades observacionales, las unidades observacionales son aquellos
entidades que se observan, cuando las observaciones se cuantifican (es decir se
expresan numricamente) se dice que los nmeros son medibles, una medicin es una
observacin que se expresa fsicamente en forma numrica, es decir cuando se le
otorga un valor determinado segn su magnitud.
La medicin de las variables puede realizarse por medio de cuatro escalas de medicin.
Dos de las escalas miden variables categricas y las otras dos miden variables
numricas (Therese L. Baker, 1997). Los niveles de medicin son las escalas nominal,
ordinal, de intervalo y de razn. Se utilizan para ayudar en la clasificacin de las
variables, el diseo de las preguntas para medir variables, e incluso indican el tipo de
anlisis estadstico apropiado para el tratamiento de los datos.
Una caracterstica esencial de la medicin es la dependencia que tiene de la posibilidad
de variacin. La validez y la confiabilidad de la medicin de una variable depende de las
decisiones que se tomen para operacionalizarla y lograr una adecuada comprensin del
concepto evitando imprecisiones y ambigedad, por en caso contrario, la variable corre el
riesgo inherente de ser invalidada debido a que no produce informacin confiable.
A. Medicin Nominal o Clasificatoria:
Son variables numricas cuyos valores representan una categora o identifican un
grupo de pertenencia. Este tipo de variables slo nos permite establecer relaciones
de igualdad/desigualdad entre los elementos de la variable. La asignacin de los
valores se realiza en forma aleatoria por lo que NO cuenta con un orden lgico. Un
ejemplo de este tipo de variables es el Gnero ya que nosotros podemos asignarle
un valor a los hombres y otro diferente a las mujeres y por ms machistas o
feministas que seamos no podramos establecer que uno es mayor que el otro.
Una variable est medida en escala nominal cuando se utilizan nombres para
establecer categoras. Para distinguir los agrupamientos se emplean smbolos,
letras e incluso nmeros, aunque estos ltimos solo cumplen una funcin de
carcter simblico y no numrico. Los clculos matemticos con estos nmeros no
tendran sentido.
Constituye el nivel de medicin ms bajo de todos los mencionados. En este caso,
los objetos slo pueden ser nombrados y contados. Consiste simplemente en
clasificar observaciones dentro de ciertas categoras, las cuales deben ser
mutuamente excluyentes y colectivamente exhaustivas. Por lo tanto, no puede haber
ninguna observacin que no pueda ser asignada a una de las categoras; y, por otra
parte, una misma observacin no puede ser clasificada en dos categoras diferentes,
a la vez.
Por ejemplo, sexo es una variable nominal; en consecuencia, podramos clasificar a
todos los alumnos de una seccin de clase en las siguientes categoras: masculino o
femenino. En tal sentido, algunos sujetos sern clasificados como masculino;
mientras que otros sern ubicados en la categora femenino, pero ninguno de los
sujetos podr ser clasificado, al mismo tiempo, en ambas categoras.
B. Medicin ordinal o por Orden Jerrquico:
Son variables numricas cuyos valores representan una categora o identifican un
grupo de pertenencia contando con un orden lgico. Este tipo de variables nos
permite establecer relaciones de igualdad/desigualdad y a su vez, podemos
identificar si una categora es mayor o menor que otra. Un ejemplo de variable
ordinal es el nivel de educacin, ya que se puede establecer que una persona con
ttulo de Postgrado tiene un nivel de educacin superior al de una persona con ttulo
de bachiller. En las variables ordinales no se puede determinar la distancia entre sus
categoras, ya que no es cuantificable o medible.
En este nivel tambin se definen varias categoras, pero adems de mostrar un
ordenamiento existe una relacin de mayor o menor que entre ellas. Las etiquetas,
smbolos o nmeros asignados si indican jerarqua, aunque no es posible conocer la
magnitud de la diferencia entre cada una de las categoras.
Las observaciones, adems de poder ser clasificadas en categoras, tambin pueden
ser ordenadas por rango, de manera creciente o decreciente. En tal sentido, una
primera observacin puede ser mayor que una segunda, y sta, a su vez ser, mayor
que una tercera, y as sucesivamente. Sin embargo, ello no implica una secuencia de
intervalos iguales. As, por ejemplo, podemos ordenar a tres estudiantes de acuerdo
con su desempeo en una prueba de estadstica; sus puntuaciones fueron 20, 18 y
10; aqu se cumple la condicin de que 20 > 18 > 10, pero la distancia entre 20 y 18
no es la misma que la que existe entre 18 y 10.
C. Medicin de intervalo o de distancias iguales:
Son variables numricas cuyos valores representan magnitudes y la distancia entre
los nmeros de su escala es igual. Con este tipo de variables podemos realizar
comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores
y medir la distancia existente entre cada valor de la escala. Las variables de intervalo
carecen de un cero absoluto, por lo que operaciones como la multiplicacin y la
divisin no son realizables. Un ejemplo de este tipo de variables es la temperatura,
ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la
existente entre 15 y 17 grados. Lo que no podemos establecer es que una
temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.
Esta escala mide las variables de manera numrica. Los nmeros de esta escala
permiten establecer distancias entre dos individuos, y las operaciones aritmticas
de suma y resta son perfectamente realizables y significativas, no as la
multiplicacin y divisin.
Posee las caractersticas de los dos niveles de medicin ya mencionados (nominales
y ordinales), pero adems contiene distancias equivalentes, que representan
distancias iguales en la propiedad objeto de medicin. Por ejemplo, supongamos que
hemos medido cuatro objetos con una escala de intervalo y los resultados fueron 10,
8, 7 y 5. Entonces podemos decir legtimamente que la diferencia entre el primero y
el tercer objeto en la propiedad medida, 10 - 7 = 3, es equivalente a la diferencia
entre el segundo y el cuarto objeto, 8 - 5 = 3. Otra manera de expresar la idea de lo
que significan los intervalos iguales consiste en decir que los intervalos pueden ser
sumados y restados. Veamos el siguiente ejemplo de una escala de intervalo:
El intervalo incluido entre a y c es 3 - 1 = 2. El intervalo comprendido entre c y d es 4
- 3 = 1. Ahora observemos que el intervalo que va de a hasta d es 4 - 1 = 3.
Expresado en una ecuacin: (d-a) = (c-a) + (d-c). Si estos intervalos fueran las
medidas de aprovechamiento de cinco estudiantes en una prueba de rendimiento, la
diferencia entre el estudiante a y c y entre b y d deberan ser iguales; sin embargo,
no podramos decir que el rendimiento del estudiante d fue dos veces mayor que el
del estudiante b.
De la misma manera, sera incorrecto decir que una persona que tiene 40C de
temperatura tiene el doble que otra que slo tiene 20C, o que una persona que tiene
cero (0) temperatura no tiene ninguna temperatura. En este ltimo caso se trata de
que en este nivel de medicin no existe un cero absoluto, sino relativo. Por lo tanto,
la medicin cero no implica la ausencia de la caracterstica.
D. Medicin de razn:
Las variables de razn poseen las mismas caractersticas de las variables de
intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero
(0) representa la ausencia total de medida, por lo que se puede realizar cualquier
operacin Aritmtica (Suma, Resta, Multiplicacin y Divisin) y Lgica (Comparacin
y ordenamiento). Este tipo de variables permiten el nivel ms alto de medicin. Las
variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de
escala de medida.
Debido a la similitud existente entre las escalas de intervalo y de razn, SPSS las ha
reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala.
Las variables de escala son para SPSS todas aquellas variables cuyos valores
representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo
esto en cuenta discutiremos a continuacin los diferentes procedimientos estadsticos
que se pueden utilizar de acuerdo al tipo de medida de cada variable.
Es la escala ms fuerte, dado que usa un sistema numrico en el que el cero es un
valor que indica ausencia de la caracterstica que se est midiendo. Las
operaciones aritmticas de multiplicacin y divisin adquieren significacin. La
diferencia entre dos valores es importante y de magnitud definida. As por ejemplo,
el valor de cero quetzales en ingresos de una tienda, puede interpretarse de manera
lgica que no se han producido ventas.
Constituye el nivel ms alto de medicin. Posee las caractersticas de los niveles de
medicin sealados anteriormente, pero adems tiene un cero absoluto que tiene un
significado emprico. Si una medicin con una escala de razn es igual a cero, existe
razn para pensar que existen objetos que no poseen la propiedad que se pretende
medir. Ahora bien, puesto que existe la presencia de un cero natural o absoluto,
todas las operaciones aritmticas pueden ser ejecutadas (suma, resta, multiplicacin
y divisin). Los nmeros de escala indican el "quantun" de la propiedad que se
pretende medir. Si existiera una escala de razn para medir el rendimiento
acadmico, entonces s se podra decir que un estudiante que obtuvo 20 puntos en
una prueba sabe el doble de otro que slo obtuvo 10 puntos.
Cuadro 1: Pruebas estadsticas descriptivas ms frecuentes de acuerdo a la escala de
medicin de la variable en estudio.
Cuadro 2: Pruebas estadsticas inferenciales ms frecuentes de acuerdo la escala de
medicin de la variable en estudio.
Tipo de
descripcin
Escala de la variable o
asociacin
Mtodo o tcnica estadstica
Variables
individuales
Nominales
Prueba de Z para una proporcin poblacional
Prueba de X
2
para varias proporciones en un sola poblacin
Intervalos de confianza para proporciones
Variables
individuales
Ordinales
Prueba del signo o Binomial para la mediana poblacional
Intervalo de confianza para proporciones
Asociacin entre
variables
Muestras grandes con
distribucin normal
Prueba de t para un promedio poblacional
Intervalo de confianza para el promedio
Asociacin entre
variables
Muestras pequeas sin
distribucin normal
Prueba del signo o Binomial para la mediana poblacional
Intervalo de confianza para el promedio
Cuadro 3: Pruebas estadsticas para estudios comparativos ms frecuentes de acuerdo a
la escala de medicin de la variable en estudio.
Tipo de
descripcin
Escala de la variable o
asociacin
Variables
individuales
Categricas (nominal y ordinal)
Frecuencias, Proporciones o porcentajes representados
por grficos de barras, pastel o pictogramas.
Variables
individuales
Numricas (intervalo y razn)
Distribucin de frecuencias en clases
Frecuencias acumuladas
Percentiles
Medidas de tendencia centra, dispersin, curtosis y
oblicuidad
Asociacin entre
variables
Categricas con categricas
Tablas de contigencias
Grficos de barras
Pruebas de Kendall, de Kramer, de Spearman
Asociacin entre
variables
Categrica con numrica
Tablas con clasificacin categrica, con promedios y
desviaciones o error estndar en cada entrada
Asociacin entre
variables
Numrica con numrica
Grfico de puntos
Coeficiente de correlacin
Recta de regresin
Tipo de descripcin
Escala de
la variable
o
asociacin

Independientes (sin control de factores
de confusin)
Nominal
Prueba exacta de Fisher
Prueba de X
2
Clculo de riesgo relativo
Modelos logsticos y logartmico-lineales
Independientes (sin control de factores
de confusin)
Ordinal
Prueba U de Mann Whitney (dos poblaciones)
Prueba de Kruskall Wallis (dos o ms poblaciones)
Modelos logartmicos-lineales
Independientes Razn
Prueba de t (dos poblaciones)
Anlisis de varianza para la prueba de F (ms de dos
poblaciones) seguida de prueba de medias de Tukey,
Duncan, SNK, etc.
Prueba de Logrank para comparar sobreviva
Regresin mltiple
Dependientes con bloques o igualacin
de atributos (con control de factores de
confusin)
Nominal
Prueba de McNemar
Mtodo de Mantel Haenzel
Prueba Prueba de X
2
para cada nivel de confusin
Modelos logsticos Modelos logsticos y logartmico-
lineales
Dependientes con bloques o igualacin
de atributos (con control de factores de
confusin)
Ordinal
Prueba de Friedman
Prueba de Wilcoxon para rangos sealados
Modelos logartmico-lineales
Dependientes con bloques
o igualacin de atributos (con control de
factores de confusin)
Razn
Prueba de t apareada
Anlisis de varianza para prueba de F con dos criterios
de clasificacin con prueba de Tukey
Regresin mltiple
5. NORMAS DE MEDIDA Y ESCALAS NORMATIVAS:
Son necesarias porque lo que medimos no es obvio, medimos de forma indirecta los
atributos a travs de sus manifestaciones.
Las normas permiten saber como asignar los nmeros a las caractersticas con el
propsito de que representen el grado en que se manifiesta el atributo en cada sujeto. La
medicin concierne a un atributo particular. Debemos saber que lo que medimos son
manifestaciones de atributos y no personas.
Generalmente medimos para comparar y hay dos modos de comparar:
a. normas: para comparar grupos
b. criterios: para comparar individuos consigo mismos
Las normas deben estar especificadas de antemano y son de diferentes tipos
A travs de las reglas hacemos medidas significativas.
Las reglas son convenios que pueden ser cambiados si son incorrectos. Las normas
bsicas en psicologa son:
a. Normas de edad: se extraen eligiendo una muestra normativa a partir de la que
extraemos el promedio de actuacin tpico en las diferentes edades.
b. Normas de grado: se extraen de un grupo normativo, y en base al grado o nivel
se extrae un promedio de actuacin.
c. Normas de porcentaje: partimos de un grupo normativo en el que no se realizan
comparaciones externas sino solo internas, dentro del mismo grupo. Se extraen
los percentiles.
d. Normas estndar o tipificadas: siempre tienen el mismo significado. Permiten
comparar diferentes grupos y diferentes caractersticas.
Hay diferentes escalas normativas:
a. Coeficiente intelectual: pretenda dar idea de la inteligencia en funcin de la
comparacin entre la edad mental y la edad cronolgica.
b. Problemas: se extrae de un grupo normativo y si el sujeto no es del mismo grupo
no se har una comparacin adecuada.
Ventajas: se ha usado para seleccionar porque es fcil de calcular.
a. Centiles: son escalas ordinales. Se refiere al porcentaje de sujetos que queda
por debajo de una puntuacin determinada.
Ventaja: fcil de calcular y de interpretar.
a. Tpicas transformadas: transforman la puntuacin bruta en indirectas.
b. Tpicas normalizadas: puntuaciones tpicas no lineales, no hay una
transformacin lineal. Suponemos que se aproxima a la normal.
Tpicas normalizadas y transformadas:
a. Eneatipos: van de 1 a 9. Se basan en la z normalizada. Se parte de una media
de 5 y una desviacin tpica de 2. Muy fcil de interpretar, no hay puntuaciones
negativas, son equivalentes permitiendo todo tipo de comparaciones.
b. Decatipo: de 1 a 10. Media 6 y desviacin tpica de 3.
c. Coeficientes intelectuales tpicos: siempre se redondea. No hay limite superior.
Se puede aplicar a cualquier edad.
Tipos de comparaciones:
a. Intrasujeto: comparar a un sujeto consigo mismo en diferentes momentos.
b. Intersujeto: comparar a un sujeto con otro de su mismo grupo.
c. Intragrupo: comparar a un grupo consigo mismo en diferentes situaciones.
d. Intergrupo: comparar a un grupo con otro grupo; Diferencia de medias de dos
muestras.
6. FINALIDAD DE LA ESCALAS DE MEDICION
Ante la necesidad de medicin de aspectos cada vez ms complejos y de obtencin de
medidas cada vez ms precisas, nos lleva a la generacin de instrumentos de medida o
escalas.
a. Funciones
Medicin de aspectos complejos
Identificacin de intensidad
Identificacin de direccin o sentido de respuesta
Simplificacin de las preguntas para medir aspecto muy complejo
b. Aspectos principales
Condicionante del tipo de informacin a obtener y de su posterior tratamiento
Simplicidad aparente de formulacin
Necesidad de adecuacin entre escala y objetivo
Necesidad de comprobacin de validez y fiabilidad
7. EL PROBLEMA DE LA MEDICION EN PSICOLOGA:
Definir claramente la caracterstica a medir. Esto es un problema ya que en psicologa no
encontramos una nica definicin de un atributo.
Saber cual es la definicin mas til y cuales son los atributos que representan mejor as la
persona evaluada. Los datos obtenidos son relativos y son solo una parte de la persona
evaluada.
Las medidas pretenden llegar a atributos muy complejos e intangibles, por lo que hay una
gran diversidad de manifestaciones. Es necesario que los tems estn basados en
muestras muy amplias para que los datos sean significativos.
8. CRTICAS A LA MEDICIN EN PSICOLOGA Y A SUS INSTRUMENTOS
a. VENTAJAS:
Ahorro
Objetividad
Ayuda a pronosticar aunque con una posibilidad de error
Ayuda a la comunicacin entre profesionales de forma ms precisa y ms
significativa.
b. INCONVENIENTES:
No hay consenso, cada uno mide una cosa diferente dependiendo de su modelo de
partida.
El problema de s los tems son representativos o no
Critica social
Muchos test tienen una gran carga cultural y verbal
Hay que tener en cuenta las condiciones de los sujetos de la muestra para saber la
representatividad de los porcentajes
Critica tica: hasta que punto se entromete en la vida privada
Los test favorecen clasificar y etiquetar y esto en psicologa es un error.
LECCION 3
TEST PSICOMETRICOS
1. INTRODUCCION
Probablemente, la evaluacin es tan antigua como la humanidad. Desde tiempos antiguos
padres y maestros han contrastado el comportamiento de los nios para establecer juicios
de valor sobre la base de sus acciones. Estas comparaciones basadas generalmente en
impresiones subjetivas y en observaciones incidentales podan ser acertadas en casos
extremos de las diferencias individuales. Ejemplo: un profesor puede saber cul es el nio
ms estudioso de su clase; el ms indisciplinado; el ms ordenado; el ms tmido, etc.
Sin embargo, cuando las diferencias son menos evidentes, entonces se producen muchos
errores si la evaluacin no cuenta con algn instrumento de medicin objetiva. En tal
sentido, los errores en la evaluacin probablemente han sido fuente de muchas
frustraciones en la historia del ser humano ya que, adems de los de evaluacin en los
grados de una variable, tambin se producen errores de juicio al interpretar que se est
evaluando una determinada variable cuando en realidad la que esta operando es otra.
En los tiempos actuales, la evaluacin supone casi siempre la aplicacin de pruebas que
nos llevan a resultados numricos, pero tambin se complementa con la observacin
sistemtica de la conducta de los sujetos, con las tcnicas de entrevista individual o grupal,
con informacin oral o escrita propia de los sujetos que rodean el entorno del examinado:
padres, hermanos, maestros, jefes, etc., es decir, con infinidad de procedimientos que
expresan resultados verbales de tipo cualitativo.
No todas las medidas que se utilizan en psicologa son pruebas o tests. En el caso de la
psicologa por ejemplo: las medidas de los niveles de la audicin humana. Por otra parte,
no todas las pruebas o tests son, o arrojan medidas. Ejemplo en psicologa son las
llamadas tcnicas proyectivas como el Psicodiagnstico de Rorschach; el Test de la Figura
Humana de Machover; El Test de la Familia de Corman; etc., los cuales no arrojan medida
alguna.
A las pruebas o tests que emplean medidas se les denomina tests psicomtricos; algunos
especialistas los denominan tests objetivos.
Los tests psicomtricos tienen diversos usos y se clasifican de diversos modos. Una
clasificacin bastante utilizada es la de Crombach (1972), el cual divide a los tests en dos
grandes tipos: tests de respuesta mxima y tests de conducta tpica.
En los tests de respuesta mxima, quien se somete a ellos trata de obtener la mxima
calificacin posible, de tal modo que la meta es medir los lmites de sus capacidades. En
este tipo se encuentran las pruebas de rendimiento, aptitudes y habilidades.
Los tests de conducta tpica, intentan evaluar las reacciones y conductas habituales o
usuales de una persona, es decir, lo que el sujeto acostumbra hacer en una amplia gama
de circunstancias. En este caso, interesa conocer su comportamiento o reaccin habitual y
no lo que puede hacer o sabe. En este tipo se encuentran los cuestionarios de
personalidad, las escalas de actitudes, etc.
Los usos a los cuales estn destinados los tests psicolgicos influyen en su proceso de
construccin, pues delimitan sus caractersticas tcnicas deseables.
2. CLASIFICACIN DE LOS INSTRUMENTOS DE MEDICIN
Los instrumentos de medicin pueden ser agrupados atendiendo a diferentes criterios, as
tenemos:
a. De acuerdo con el proceso de elaboracin, pueden ser formales e informales.
Los instrumentos formales son aquellos que requieren de un alto refinamiento
tcnico, especialmente en lo que respecta al establecimiento de normas, validez,
confiabilidad y objetividad de la medida; por ejemplo, las pruebas o test, las escalas,
los inventarios y los cuestionarios. Los instrumentos informales, por su parte, son
aquellos cuya elaboracin no requiere de tanta meticulosidad como los instrumentos
formales; por ejemplo, listas de cotejo, guas de observacin, guiones de entrevista,
diarios de campo, entre otros.
b. De acuerdo con su propsito
Los instrumentos de medicin comprenden las pruebas o test, escalas, cuestionarios,
listas de cotejos o guas de observacin, guiones de entrevista y diario de campo.
Las pruebas tienen por objeto hacer una estimacin cuantitativa del comportamiento
de una persona con respecto a un rasgo, atributo o caracterstica, para lo cual los
sujetos son expuestos a determinadas tareas con el propsito de provocar en ellos
ciertas reacciones registrables; reacciones de toda naturaleza en cuanto a su
complejidad, duracin, forma, expresin y significado.
b.1 Las escalas
Permiten ubicar al sujeto en el valor escalar que mejor representa el "quantun"
del constructo objeto de medicin; por lo tanto, las respuestas en este tipo de
instrumento no son correctas ni incorrectas, sino que representan un valor en la
escala de medicin.
b.2 Los cuestionarios
Por su parte, son instrumentos conformados por un conjunto de preguntas de
naturaleza variada y expresadas en diferentes formatos a los fines de sus
respuestas.
b.3 Las listas de cotejo
Son instrumentos que constituyen una enumeracin de conductas o eventos a
ser observados en una situacin determinada que nos interesa investigar.
b.4 Los guiones de entrevista
Estn conformados por un conjunto de preguntas sobre diferentes aspectos en
relacin con un problema que nos interesa estudiar.
b.3 el diario de campo son los registros completos
Es preciso y detallado que hacen los investigadores, producto de sus
observaciones participantes, en el estudio de un problema, hecho o fenmeno.
c. De acuerdo con su campo de aplicacin
Los instrumentos pueden ser clasificados, a su vez, atendiendo a diferentes criterios;
por ejemplo, tomando en cuenta su campo de aplicacin, pueden ser psicomtricos
(pruebas de: inteligencia, personalidad, aptitudes), edumtricos (pruebas para la
evaluacin diagnstica, formativa y sumativa) y sociomtricos (pruebas de
interaccin social, liderazgo y cohesin del grupo).
d. Los instrumentos tambin pueden ser agrupadas de acuerdo con:
(a) La forma de proceder: de lpiz y papel, de manipulacin, de tipo oral; (b) el grado
de objetividad en la respuesta: objetivo, subjetivo; (c) los criterios utilizados para la
interpretacin de sus resultados: estandarizados, no-estandarizados; (d) la forma de
aplicacin: individual, colectivo; (e) el tiempo disponible para responder: test de
tiempo, test de poder.
3. TEST PSICOMETRICOS
La palabra test tiene una raz latina y proviene de testa, testis que en latn medieval
significaba la vasija de barro con la que los alquimistas probaban o examinaban la
autenticidad del oro. Fue usada por primera vez por el psiclogo norteamericano James
McKeen Cattell en un artculo publicado en 1890. Cattell, se haba formado en el
Laboratorio de Psicologa Experimental de Wundt en Leipzig en donde el inters se
centraba en el estudio de las percepciones visuales y auditivas. El caso es que Cattell
comprendi que en los experimentos sobre sensaciones y percepciones como la medicin
del tiempo de reaccin, resultaba indispensable un control riguroso de las observaciones y
precisar que las condiciones que rodeaban a los sujetos con los que se experimentaba
deban ser exactamente iguales, es decir, sistemticamente tipificadas o estandarizadas,
tal como se exige en los tests psicolgicos.
La influencia principal de Cattell en relacin a los tests fue Sir. Francis Galton, cientfico
ingls que a fines del siglo XIX haba introducido las estadsticas y las matemticas al
campo de la psicologa generando por primera vez la posibilidad de medicin cuantitativa
en las diferencias individuales. Cattell viaj a Cambridge en 1898 y su trabajo con Galton
reforz su inters por la temtica anteriormente mencionada. Los tests elegidos por Cattell
fueron: velocidad de movimiento, esfuerzo visual y auditivo, discriminacin de pesos,
tiempos de reaccin e ingenuamente, de acuerdo con los planteamientos de Galton,
pensaba que con dichos tests se poda obtener una medicin de las funciones mentales
ms elevadas.
H. Pieron (1952), define los tests de la siguiente manera: test es una prueba definida, que
fija una terea a realizar, idntica para todos los sujetos examinados Segn esta definicin,
debe disponer de una tcnica precisa que permita discriminar entre soluciones acertadas y
errneas o bien de un sistema numrico que permita puntuar el resultado. La tarea puede
consistir en poner de manifiesto conocimientos adquiridos (tests pedaggico) o bien
funciones sensorio-motoras o mentales (test psicolgico).
Esta definicin fue adoptada por la antigua Asociacin Internacional de Psicotecnia , hoy
Asociacin Internacional de Psicologa Aplicada que la formaliz de la siguiente manera:
test es una prueba definida, que implica una tarea que se ha de cumplir, idntica para
todos los sujetos examinados, con tcnica precisa para la apreciacin del xito o del
fracaso, o para la valoracin numrica del resultado logrado.
La definicin de Pieron adoptada por la Asociacin Internacional de Psicotecnia presentaba
la limitacin de que puede aplicarse solamente a los tests de inteligencia, aptitudes o
conocimientos.
Pichot (1954), propone una definicin ms amplia y general que sostiene que: test es una
situacin experimental estandarizada que sirve de estmulo a un comportamiento;
posteriormente Anastasi (1968), sostiene que un test es una medida objetiva y
estandarizada de una muestra de conducta. Cronbach (1973), dice que un test es una
tcnica sistemtica para comparar la conducta de dos o ms personas. Anstey (1976),
indica que un test es un instrumento de evaluacin cuantitativa de los atributos
psicolgicos de un sujeto. Segn Graham. y Lilly (1984), un test es una muestra
estandarizada de conductas de las que pueden inferirse o predecirse otras conductas
importantes. El psicometrista espaol Mariano Yela (1980), sostiene que un test es una
situacin problemtica previamente dispuesta y estudiada a la que el sujeto debe
responder siguiendo ciertas instrucciones y de cuyas respuestas se estima, por
comparacin con las de un grupo normativo (o un criterio u objetivo), la calidad, ndole o
grado de algn aspecto de la personalidad.
Anastasi y Urbina (1998), un test es un instrumento de evaluacin cuantitativa de los
atributos psicolgicos de un individuo. Cortada de Kohan (1999), afirma que los tests son
en ltima instancia un conjunto de tareas, preguntas, problemas, estmulos, situaciones,
etc., que intentan poner de relieve una muestra de los comportamientos del sujeto
representativa del atributo que se quiere evaluar.
La APA (1999), define tests como: un procedimiento evaluativo por medio del cual una
muestra de comportamiento de un dominio especificado es obtenida y posteriormente
evaluada y puntuada empleando un proceso estandarizado. Esta definicin abarca no
slo los tests de respuesta mxima sino las pruebas de conducta tpica.
Kline (2000), afirma que los tests psicolgicos son procedimientos valiosos por sus
contribuciones a la psicologa aplicada pero carecen de la exactitud de las verdaderas
medidas cientficas y es una tarea futura de la psicometra desarrollar genuinas medidas
cientficas, vale decir, con unidades de medicin significativas, cero absoluto e iguales
intervalos (caractersticas de una escala de razn, proporcin o cociente).
Finalmente, podemos indicar que una prueba o test psicolgico es un patrn de estmulos,
elementos, temes, reactivos, preguntas; seleccionados y organizados de tal manera que
permiten provocar respuestas (conductas), las cuales pueden revelar ciertas caractersticas
(rangos), de las personas que se someten a ellos.
En esta ltima definicin quedan comprendidas tanto las pruebas de respuesta mxima
como las de conducta tpica, a las cuales se agregan las llamadas tcnicas proyectivas.
4. OBJETIVOS DE LOS TEST PSICOMETRICOS
Las pruebas objetivas se caracterizan por contener un nmero elevado de preguntas,
involucrar reas ms amplias de conocimientos, exigir respuestas cortas, bien definidas en
su forma y contenido.
5. CARACTERSTICAS DE LAS PRUEBAS O TESTS PSICOMTRICOS
Una prueba psicomtrica es un procedimiento sistemtico destinado a medir una muestra
de conducta. Esta definicin presenta las siguientes caractersticas:
a. En primer lugar, la frase: procedimiento sistemtico, indica que una prueba se
construye, se administra y se califica segn reglas preestablecidas de antemano que
tienen como objetivo final establecer las comparaciones directas entre los sujetos.
b. El segundo trmino fundamental es el de conducta. En el sentido ms estricto, una
prueba mide slo la conducta registrada por la prueba, es decir, las respuestas dadas por
una persona a los temes de la prueba.
En buena cuenta, no medimos directamente a la persona sino que inferimos sus
caractersticas (rasgos), a partir de sus respuestas a los temes de la prueba. Si las
conductas que muestran los sujetos reflejan de modo adecuado el constructo que se
mide, por ejemplo: inteligencia, motivacin, hbitos, etc., la prueba proporcionar
informacin til. Caso contrario, si los comportamientos no reflejan adecuadamente la
caracterstica subyacente, entonces las inferencias que se hagan resultarn errneas.
c. En tercer lugar, una prueba contiene solamente una muestra de todos los temes
posibles. Ninguna prueba es tan completa como para incluir todos las preguntas posibles
que se pueden desarrollar con la finalidad de medir el dominio conductual.
Un dominio o campo conductual es la agrupacin hipottica de todos los temes o
preguntas posibles que pueden cubrir un rea particular. Al hablar de este conjunto de
elementos o reactivos posibles, se emplean los trminos de: dominio, universo o
poblacin como sinnimos. Ejemplo: un test de vocabulario debe ser una muestra
representativa del dominio o universo de temes posibles.
En la medida que una prueba contiene slo una muestra de todos los reactivos posibles,
se plantean dos problemas: 1) Asegurarnos de que los temes incluidos en el test sean
una muestra representativa de todos los posibles existentes; y 2) Debemos determinar,
si una persona obtendra la misma calificacin al responder a una muestra diferente de
temes extrada del mismo dominio o poblacin. Sobre el punto surge una pregunta
bsica: obtendra un sujeto la misma calificacin en una forma equivalente o paralela
del test?
El caso es que, el primer punto es un problema de validez y el segundo constituye un
problema de confiabilidad.
6. REQUISITOS DE UN TEST PSICOLGICO PARA SER CONSIDERADO
PSICOMTRICO
a. El contenido y la dificultad de los tems estn sistemticamente controlados
(construccin del test).
b. La situacin experimental debe estar perfectamente definida y debe ser reproducida
idnticamente para todos los sujetos. Este punto se refiere al ambiente en el cual se
aplica la prueba, el material del test, la administracin, etc.
c. El registro del comportamiento, provocado en el examinado debe ser tan preciso y
objetivo como resulte posible, por lo tanto, las condiciones del registro deben definirse
y observarse rigurosamente.
d. El comportamiento registrado, debe ser evaluado estadsticamente con respecto al de
un grupo de individuos llamado grupo de referencia o grupo normativo. (Pichot, 1963).
e. Las personas examinados son clasificadas en funcin de normas resultantes del
examen previo del grupo de referencia o normativo (baremo), lo que permite situar
cada una de las respuestas, totales o parciales, en una distribucin estadstica
(contraste).
f. Las respuestas a las cuestiones planteadas dan una medida correcta del
comportamiento al que el test apunta (validez).
g. Si las condiciones no cambian, la repeticin del examen debe conducir siempre al
mismo resultado, o a otro muy prximo (fiabilidad)
7. LIMITACIONES EN EL USO DE UN TEST PSICOMTRICO
a. Una prueba o test debe emplearse solamente para apreciar los aspectos para las
cuales se ha elaborado.
b. Las normas (baremo) de una prueba no tienen validez universal. Slo son vlidas si las
personas que toman el test poseen caractersticas similares a las de los sujetos que
formaron la muestra que sirvi para obtener dichas normas
c. Si esos grupos difieren de aquellos en los cuales se hicieron los baremos que aparecen
en el manual de la prueba.
d. Si las condiciones que influyen sobre el individuo se modifican, existe la posibilidad de
que tales cambios influyan en los puntajes resultantes del test.
e. Los resultados de un test no deben emplearse para diagnosticar por ser estados
patolgicos. Deben considerarse como elementos de informacin que juiciosamente
analizados e integrados con otros elementos de informacin ayudarn al diagnstico.
f. Slo deben utilizarse para los test cuyos puntajes le dieron origen. Por ejemplo, la tabla
de categoras del WAIS slo debe ser utilizada con este test y no con otro.
8. USOS DE LAS PRUEBAS PSICOLGICAS
En su sentido ms amplio, las pruebas psicolgicas miden la naturaleza y amplitud de las
diferencias individuales, de tal manera que podran darse varias situaciones: si se aplica
una prueba que mide un rasgo determinado a un grupo de sujetos, se puede inferir: cmo
se clasifica cada persona en esa caracterstica? De otro lado, si un sujeto se somete a
varias pruebas, entonces podemos describir su desempeo relativo en varias dimensiones.
Asimismo, al aplicar cierto nmero de pruebas (en una gran variedad de condiciones), a
muestras grandes de personas, tendremos los medios para estudiar la naturaleza y rango
de las habilidades humanas y tambin las caractersticas de la personalidad.
Se distinguen dos grandes grupos de usos de las pruebas:
a. Usos tericos vs. usos aplicados
b. Usos predictivos vs. usos descriptivos
En lo que se refiere a usos tericos vs. usos aplicados, debemos tener presente que las
pruebas se utilizan para proporcionar datos que ayuden a tomar decisiones prcticas. Por
ejemplo: seleccin, diagnstico, etc.
No obstante, es importante sealar que la informacin que proporciona una prueba es una
condicin necesaria, pero no suficiente para tomar buenas decisiones. Asimismo, las
pruebas pueden ayudar tambin a desarrollar teoras psicolgicas.
En lo que respecta a usos predictivos vs. usos descriptivos, en la mayora de situaciones
en la que utilizamos pruebas deseamos saber qu resultados se pueden predecir a partir
de las calificaciones obtenidas en las pruebas? En otras situaciones, se utilizan las
pruebas para proporcionar descripciones de un individuo, por ejemplo, durante un
asesoramiento psicolgico en donde proporcionamos al examinado una descripcin
objetiva de sus capacidades intelectuales, de los factores de su personalidad, de sus
hbitos de estudio, etc.

9. Los test como pruebas auxiliares
Existen varias clases de situaciones en las que se utilizan las pruebas como ayuda para la
toma de decisiones. Estas situaciones son las siguientes: seleccin, clasificacin,
diagnstico, investigacin (comprobacin y construccin de hiptesis), y evaluacin.
Todas estas situaciones se relacionan con tomar alguna decisin: En la seleccin, la
decisin consiste en aceptar o rechazar a un solicitante; en la clasificacin, la decisin
implica el curso alternativo de accin que se debe instigar; en el diagnstico, la decisin se
relaciona con el tratamiento de correccin; en la investigacin, la decisin guarda relacin
con dos aspectos: en la comprobacin de hiptesis, la exactitud de la formulacin terica y
en la construccin de hiptesis, las pruebas o las informaciones adicionales que se
requieran. Finalmente, en la evaluacin, la decisin se refiere a la calificacin que se le
dar al examinado o el punto hasta donde el procedimiento ser o no eficiente.
En todo caso, la pregunta ms importante en esta temtica no es analizar si las pruebas
son precisas o no, sino de que manera nos ayudan a tomar mejores decisiones sobre los
examinados. Al respecto, debemos tener en cuenta que las pruebas no son de ninguna
manera perfectas y ningn psiclogo que se respete pretender que lo sean, sin embargo,
en la prctica existen mltiples evidencias de los excelentes resultados obtenidos con las
pruebas frente a otros mtodos disponibles de evaluacin.
10. CLASIFICACIN DE LOS TEST
A. PRUEBAS DE RESPUESTA MXIMA
Las pruebas de respuesta mxima se clasifican en tres grandes tipos: rendimiento,
aptitudes y habilidades. Aunque estas tres categoras no se excluyen mutuamente y
aunque una prueba dada puede servir para medir ms de una de estas funciones,
existen suficientes diferencias para analizar por separado estas tres modalidades de
pruebas.
a. PRUEBAS DE RENDIMIENTO.
Se clasifica una prueba como de rendimiento, si mide el aprendizaje que se ha
producido: (a) como resultado de las experiencias en una situacin de aprendizaje
relativamente circunscrita como la que se produce en un programa de estudios o de
entrenamiento.
Ejemplo: curso de fsica, curso de construccin de pruebas, entrenamiento en
mecnica, etc.; y (b) cuando el marco de referencia est en el presente o en el
pasado, o sea, en lo que se ha aprendido.
Un ejemplo de prueba de rendimiento, son los exmenes que construyen los
profesores universitarios para evaluar el grado de aprendizaje en las asignaturas que
dictan; otro ejemplo podra ser los tests estandarizados de rendimiento, etc.
b. PRUEBAS DE APTITUDES.
Se considera una prueba como de aptitud, si: (a) mide los resultados de experiencias
de aprendizaje generales e incidentales; y (b) si su marco de referencia se enfoca en
el aprendizaje futuro. Tambin se puede decir que las pruebas de aptitudes abordan
los aprendizajes de toda la vida del individuo y que la finalidad de la prueba es predecir
lo que puede aprender en el futuro. La definicin de aptitudes comprende la capacidad
de aprender cierta variedad de conductas, de tal manera que el factor comn es la
capacidad para aprender y no el tipo de conductas aprendidas. Ejemplo: Los tests de
C.I.
c. PRUEBAS DE HABILIDADES.
La habilidad indica el poder para realizar una tarea. Situacin que implica un contraste
con las aptitudes que se refieren al poder para aprender a realizar una tarea. En otras
palabras, la habilidad se refiere a un estado actual y la aptitud a un estado futuro.
Desde esta perspectiva, la habilidad es similar al rendimiento; sin embargo, las
habilidades y el rendimiento difieren en el sentido que el segundo miden habitualmente
las consecuencias de experiencias especficas de aprendizaje en tanto que las
habilidades miden los resultados de experiencias de aprendizaje ms amplias y
generales.
B. PRUEBAS DE RESPUESTA TPICAS
Caractersticas
a. Evalan reacciones y conductas habituales de la persona, lo que la persona hace en
amplia gama de situaciones.
b. Interesa su reaccin habitual y no lo que puede hacer o sabe.
c. Pueden ser cuestionarios, inventarios de personalidad, escalas de actitud.
a. CUESTIONARIOS DE PERSONALIDAD
Caractersticas
a.Son test colectivos que suelen aplicarse a la vez a un nmero de variable de
personas.
b.Estn compuesto por un nmero de enunciados que tratan sobre nuestras
opiniones, actitudes sentimientos, etc.
c. La forma de respuesta es dicotmica: si no; verdadero falso.
d.Se clasifican en unidimensional o unifsicos que miden un solo rasgo de la
personalidad multidimensional o multifsicos que miden simultneamente varios
rasgos de personalidad.
e.Los reactivos no deben estar redactados en forma general, por ello debern ser
precisas y claras.
f. Disponen de un sistema para detectar mentiras, reactivos que no se pueden
falsear las respuestas.
b. INVENTARIO DE PERSONALIDAD
Caractersticas
a. Es una prueba que permite la evaluacin de la personalidad desde diferentes
ngulos, multidimensional o Multifsicos.
b. Evala caractersticas normales y anormales de la personalidad-
c. Consiste en una lista considerable de preguntas, proposiciones o afirmaciones
pertenecientes a distintos constructos (personalidad, intereses, valores) dentro de
la psicologa que se consideran importantes para motivar y dirigir la conducta de
los individuos. Puede ser respondido de forma afirmativa o negativa, algunos
utilizan el formato de seleccin o el formato de respuesta escalonada.
c. ESCALAS DE ACTITUD
Caractersticas
a. Son instrumentos de medicin que nos permite acercarnos a la variabilidad
afectiva de las personas.
b. Una actitud constituye una predisposicin organizada para responder de una
manera favorable o desfavorable ante un objeto.
11. MODELO PSICOMTRICO
Las pruebas psicolgicas psicomtricas se sustentan en el siguiente modelo terico
propuesto por Magnusson (1969):
a. Todos los temes del test miden exactamente el mismo rasgo y los temes a su vez
pueden tener diferentes grados de dificultad.
b. La medida de la capacidad que tiene cada individuo puede hacerse sin ningn error, es
decir, cada item puede diferenciar sin error en el continuo de dificultad del rasgo.
La suposicin (A), del modelo se refiere a la dimensionalidad del test. Es una cuestin de
suma importancia saber si los datos que obtenemos cuando aplicamos un test expresan las
posiciones de los individuos en uno o varios continuos o rasgos. En la fase de la
construccin de un test, es necesario establecer rpidamente la unidimensionalidad.
Resulta importante indicar que nunca podemos satisfacer exactamente esta suposicin.
La suposicin (B), se refiere a que las medidas psicolgicas siempre tienen errores y en la
mayora de los casos es de importancia decisiva para el empleo de los datos, precisar el
tamao del error, clculo que se efecta a travs del estudio de la confiabilidad del test
con sus diversos procedimientos.
La variable que indica la medida en que son satisfechas las condiciones de
unidimensionalidad y la independencia de error de medida se denomina homogeneidad.
La completa homogeneidad es algo puramente terico. Segn Magnusson (1969), en
situaciones prcticas tenemos varios grados de homogeneidad en las pruebas que
construimos y utilizamos.
Otros autores como Brown (1982), caracterizan la homogeneidad como la consistencia de
todos los reactivos de una prueba psicolgica (en una prueba homognea, el saber como
se desempea una persona en un tem nos permite predecir cmo lo har en otros?. A
pesar de que la homogeneidad no est claramente definida en la teora psicomtrica, sin
embargo, las pruebas homogneas son necesarias para poder desarrollar una teora
psicolgica adecuada. La homogeneidad es un aspecto crucial de la validez,
especialmente de la validez de constructo.
El modelo que hemos detallado se ha mostrado esencialmente correcto en psicometra,
aunque no sirve para la construccin de todos los tipos de tests psicomtricos y esto se
pone de manifiesto cuando la solucin de un tem queda determinada por la relacin entre
la posicin del individuo y la del tem sobre el continuo (rasgo).
Este modelo se complementa con otro: el modelo lineal. Si un test es dimensional y
homogneo, puede decirse que existe una relacin monotnica entre los puntajes de una
prueba que obtiene un individuo y su posicin en el continuo (rasgo) medido; es decir, a
ms puntaje, mayor cantidad del rasgo medido y viceversa. Luego, puede emplearse un
modelo lineal para obtener la puntuacin total del sujeto en el test.
El resultado final es el producto de la suma de los valores de los temes acertados o
correctamente contestados. En este punto cabe mencionar que los temes del test pueden
ser ponderados o no ponderados, por lo que pueden tener todos ellos signos positivo en la
combinacin o tener algunos de ellos signo negativo. Todas estas posibilidades estn
includas en el concepto de una combinacin lineal de temes del test. Aunque hay
modelos rivales para problemas especiales de medicin, hasta la actualidad se usa con
xito el modelo lineal (Nunally, 1968).
LECCION 4
PROCEDIMIENTOS PARA LA MEDICION PSICOLOGICA
1. INTRODUCCION
La construccin de pruebas psicolgicas es un proceso que tiene sus orgenes en la
concepcin de la teora de la medicin psicolgica (Nunally, 1987).
En trminos generales, la medicin psicolgica implica el uso de procedimientos u
operaciones, sujetas a determinadas reglas y que tienen como objetivo lograr un resultado
en el que se han asignado valores a una cualidad, rendimiento o caracterstica psicolgica
de un individuo.
Existen tres enfoques metodolgicos para la construccin de pruebas psicolgicas: el
enfoque centrado en el sujeto; el enfoque centrado en el estmulo o enfoque del juicio y el
enfoque centrado en la respuesta. En el campo de la psicometra, la mayor parte de la
medicin est basada en el enfoque centrado en el sujeto.
Si bien el proceso de construccin vara en razn del tipo de prueba psicolgica a
elaborarse, podemos establecer un esquema general con los pasos ms relevantes para
orientar y conducir el proceso de construccin. Este esquema presenta un conjunto de
pasos que pueden ser variados en cuanto al orden de presentacin e incluso algunos de
ellos se pueden llevar a cabo simultneamente. Asimismo, debe quedar claro que en este
esquema no se agotan todos los puntos a tomarse en cuenta en la elaboracin de pruebas.
El diseo y la construccin de un test psicomtrico es una tarea cualificada que requiere de
una notable fecundidad, creatividad, originalidad e imaginacin as como de ensayos
experimentales elaborados por el constructor o constructores.
Un test psicomtrico bien construdo y adecuadamente utilizado constituye un valioso
instrumento auxiliar o de ayuda para el trabajo profesional del psiclogo, que hace bien en
rechazar o dejar de lado pruebas que no han sido cuidadosamente elaboradas en base a
las normas o reglas pre-establecidas por la Psicometra.
En esta publicacin, nos ocuparemos de los criterios de construccin de los tests de
respuesta mxima: rendimiento, aptitudes y habilidades. El proceso de elaboracin de
estos tipos de pruebas si bien tiene mucho en comn, tambin tiene algunas variaciones o
diferencias que estn relacionadas con el uso principal del test. Ejemplo: si la meta es
construir una prueba de rendimiento en matemticas, el muestreo de los temes se
efectuar en el dominio o universo conductual de los problemas de matemticas, siendo
este muestreo la condicin principal para la seleccin de los temes. En otras palabras,
esta operacin hace alusin a la validez de contenido o validez curricular del test.
En otro ejemplo, si la meta es hacer un test que permita predecir algn criterio, entonces la
representatividad del muestreo de los temes se va a subordinar al poder predictivo de tales
temes como base para su seleccin. Esta operacin se refiere a la validez predictiva o
validez relacionada con el criterio, diferente a la del ejemplo anterior.
2. CARACTERIZACIN DEL PROCESO DE CONSTRUCCIN DE UNA PRUEBA
PSICOLGICA
El proceso de construccin de una prueba psicolgica es una ciencia y un arte. Utiliza
tanto el razonamiento estadstico como el razonamiento lgico y equilibra las
consideraciones prcticas con las tericas. Su meta es la de construir un instrumento
tcnicamente apropiado, dentro de las limitaciones prcticas (Brown, 1982).
3. CONSIDERACIONES PREVIAS AL PROCESO DE CONSTRUCCIN DE UNA PRUEBA
El psiclogo antes de iniciar el proceso de construccin de una prueba psicolgica debe
tener en cuenta dos puntos que se pasan por alto con demasiada frecuencia:
a. Debe considerar que, en muchas situaciones una prueba psicolgica es slo una de
entre varias tcnicas posibles de obtencin de la informacin que se desea. Ejemplo:
si deseamos medir los conocimientos en matemticas de un estudiante secundario: le
podemos tomar un examen; asimismo, podramos utilizar como referencia sus
calificaciones en los cursos de matemticas; del mismo modo, podemos solicitarle a los
maestros que califiquen sus conocimientos, es decir, si hay algn otro mtodo ms
preciso o prctico para obtener la informacin deseada se deber de utilizar de
preferencia a un test. En el caso de que lo mencionado anteriormente no exista,
recin se deber optar por construir una prueba.
b. Estimar que existen publicaciones disponibles e incluso pruebas listas para ser
utilizadas en la mayora de los campos de la actividad psicolgica. En tales casos, el
psiclogo puede utilizar una prueba existente en lugar de construir otra nueva; puede
tambin adaptar una prueba de acuerdo a sus necesidades. En ambos casos, ahorro
en tiempo, dinero, etc., es significativo. El mayor inconveniente que podra surgir es
que, no haya pruebas publicadas que sean ptimas para una determinada tarea -que
es la que le interesa a determinado psiclogo-, y que por lo tanto se vea en la
necesidad de elaborar una prueba. Frente a esta situacin, se infiere que el psiclogo
debe estar muy bien informado acerca de la bibliografa respectiva, sugirindose para
ello la lectura de los BUROS y de los catlogos y manuales de tests provenientes de
las diversas editoras tales como: TEA Ediciones S.A.; Paids; Manual Moderno; Distap,
etc.(espaol), as como de la: Psychological Corporation; California Test Boreu;
American Psychological Association, etc. (ingls).
4. ENFOQUES METODOLGICOS PARA LA CONSTRUCCIN DE TESTS
Un test pesenta al sujeto estmulos destinados a provocar respuestas en l. El caso es
que, los sujetos varan sus respuestas a un mismo estmulo, es decir, todos no responden
de la misma manera.
Precisamente, los enfoques metodolgicos principales para la construccin de tests se
deben fundamentalmente a las diferencias acerca de la atribucin de la variabilidad de las
respuestas de los sujetos a los estmulos.
Los datos primarios siempre consisten en una cantidad de respuestas a una serie de
estmulos o combinaciones de estmulos. Esto puede tomar la forma de: muchos sujetos
donde cada uno responde una vez; un sujeto que responde muchas veces y varios sujetos
que responde varias veces a cada uno de una serie de estmulos. Como consecuencia de
ello, tenemos:
a. El enfoque centrado en el sujeto. Aqu la variacin sistemtica en las reacciones
de los sujetos frente a los estmulos se atribuye a las diferencias individuales de los
sujetos. El propsito es escalonar a los sujetos, que son los nicos a los que se
asignan valores. Agregar o quitar al azar estmulos de la misma poblacin o dominio
conductual de preguntas, no afectara ms que en fluctuaciones muestrales. La
mayor parte del campo de la psicometra est basado en mediciones de este tipo. La
mayora de tests de rendimiento, aptitudes y habilidades, en los que el puntaje
compuesto de un individuo es la suma simple de la cantidad de temes contestados
constituyen ejemplos de este enfoque. En esta modalidad, el psiclogo elige las
preguntas y las posibilidades o alternativas de respuestas que tienden a destacar las
diferencias individuales entre los sujetos.
b. El enfoque centrado en el estmulo o enfoque del juicio. En este enfoque, la
variacin sistemtica en las respuestas de los sujetos frente a los estmulos se
atribuye a diferencias de los estmulos con respecto a un determinado atributo o
cualidad.
El propsito inmediato del experimento es escalonar los estmulos, que son los
nicos a los que se le asignan valores. Agregar o eliminar individuos elegidos al azar
de la misma poblacin no tendra otro efecto sobre los resultados que las
fluctuaciones muestrales comunes. Un ejemplo tpico de este enfoque es el mtodo
de las escalas de actitudes, tales como la de intervalos aparentemente iguales de
Thurstone, en la que la tarea de los sujetos, en este caso llamados jueces, es
disminuir las fuentes de variacin debida a su propia posicin respecto a una actitud
y se orienta a clasificar una cantidad de enunciados respecto de una actitud
subyacente sobre un determinado continuo de actitud, segn el grado de mayor o
menor saturacin con que dicha proposicin o enunciado refleja la actitud
subyacente.
c. El enfoque centrado en la respuesta. En este caso, la variabilidad de las
reacciones frente a los estmulos se atribuye a una combinacin de los dos enfoques
anteriores, es decir: a la de los individuos y a la de los estmulos. Un ejemplo de este
enfoque puede ser la tcnica de Gutman para la elaboracin y anlisis de las escalas
de actitudes, en donde si se intenta ordenar tanto a los sujetos como a los estmulos
con respecto al continuo subyacente de actitudes, a ambos componentes se le
pueden asignar valores.
En nuestro caso, para la construccin de pruebas, vamos a desarrollar el enfoque
centrado en el sujeto, anteriormente descrito.
5. LA PLANIFICACIN DEL TEST
La mayora de los tests psicolgicos siguen construyndose segn la teora clsica de la
medicin (TCT), en tal sentido, nuestro texto va a tener como base los mtodos propuestos
por ese paradigma de la medicin psicolgica. Sin embargo, no podemos desconocer que
en la actualidad, es creciente la influencia de la teora de la respuesta al tem (TRI), con
sus distintas variantes en la elaboracin de pruebas.
En general, existen varios criterios de planificacin de un test. En tal sentido, uno de los
procedimientos que se emplean actualmente para planificar la construccin de una prueba
psicomtrica comprende los siguientes pasos (Herrera Rojas, 1993):
a. Delimitacin del dominio del test, descripcin de las caractersticas de la poblacin a
la cual va dirigido y estructura formal del test: instrucciones, contenido y formato de
las respuestas a los temes.
b. Redaccin de los temes.
c. Revisin de los temes por expertos.
d. Anlisis de las propiedades psicomtricas de los temes y/o escalas del test.
e. Elaboracin de los materiales definitivos de prueba: manual, cuadernillo de temes y
protocolos u hojas de respuesta.
A continuacin ofrecemos una breve exposicin sobre los primeros tres pasos sealados
por (Herrera Rojas, 1993), toda vez que los puntos restantes se encuentran ubicados en
los diversos captulos del texto.
a. Definicin del dominio del test
La elaboracin de cualquier escala de medicin de algn aspecto del
comportamiento humano exige a priori un minucioso anlisis conceptual del dominio
o rasgo a medir; en tal sentido, se deben obtener definiciones conceptuales ad hoc
del rasgo en cuestin y luego decidir cual tipo de indicadores operacionales son
adecuados para describirlo.
Ejemplo: si queremos medir habilidades para el estudio, la prueba deber
comprender todas las sub-habilidades implcitas en ese rasgo, tales como: uso de
diccionarios y enciclopedias, subrayado de ideas principales, elaboracin de mapas
conceptuales, etc., entre otras competencias. Tornimbeni (2008), menciona un
ejemplo de Bandura (2001), sobre una prueba de autoeficacia para el manejo del
peso corporal. Ya que el peso depende de factores tales como los alimentos
ingeridos, el nivel de ejercicio para quemar caloras y factores genticos que regulan
los procesos metablicos, la conducta de que autocontrol del peso ser mejor
predicha por una escala que incluya temes que comprendan equitativamente los
factores causales y no se limite, por ejemplo, slo a los hbitos alimenticios. El
proyecto inicial de la prueba deber inclur tambin una estimacin de la longitud del
test, el tiempo y la forma de administracin y calificacin. Asimismo, dada la
mortandad de los temes que habitualmente se dan en el proceso de elaboracin,
resulta conveniente elaborar el doble o triple de lo que se requiere.
Si se trata de una prueba para medir rendimiento, la definicin del dominio puede
realizarse delimitando el universo de situaciones a ser evaluadas. Ejemplo: en el
caso de un examen de psicometra, el universo comprendera los objetivos y
contenidos del programa de la asignatura.
En el caso de una prueba de evaluacin de currculo correspondiente a un nivel
determinado del sistema educativo, por ejemplo nivel secundario, el dominio a ser
definido incluir los objetivos y contenidos correspondientes a ese nivel segn los
lineamientos explicitados por el Ministerio de Educacin.
Sobre el punto, es interesante tener en cuenta que en la medicin del rendimiento se
pueden utilizar tests referidos a normas o referidos a criterio, y los procedimientos de
elaboracin de pruebas utilizados para cada modalidad son diferentes. En la
construccin de pruebas referidas a normas se parte de la elaboracin de una tabla
de contenido como vamos a ver ms adelante, la cual consiste en una tabla de doble
entrada a travs de la cual se relacionan los objetivos cuyo logro se desea evaluar,
con los contenidos especficos correspondientes. En resumen, tomando dicha tabla
como marco de referencia se determina el nmero de temes que conformarn la
prueba y se procede a la redaccin de los mismos.
En el caso de las pruebas con referencia a criterio, en lugar de construir una tabla de
contenido, se define y delimita el dominio de comportamiento correspondientes a
cada objetivo. Al elaborar este tipo de pruebas, definir con claridad las habilidades o
conocimientos que se intenta evaluar, se convierte en un requisito fundamental de
este tipo de tests. Segn Hambleton y Rogers (1991), el dominio puede ser de
conductas, objetivos y competencias y su amplitud vara en relacin a la finalidad del
test. Si el dominio comprende ms de un objetivo, pueden elaborarse subtests para
cada objetivo y se evala el rendimiento de los sujetos en cada uno de ellos.
Existen varios procedimientos para evaluar la especificacin del dominio de
conductas o clases de tareas que el sujeto debe realizar:
1. Definicin del objetivo. En este caso se establece cul o cules sern los
objetivos que se evaluarn a travs de la prueba. Ejemplo: la habilidad para la
comprensin lectura, que incluye aquellas conductas o respuestas que se
refieren nicamente a la comprensin de los mensajes literales contenidos en
un texto determinado.
2. Indicadores operacionales del objetivo. Los cuales se describen en trminos
de conductas observables. Si tomamos como referencia el ejemplo anterior,
un indicador operacional de la habilidad de comprensin podra ser resumir
adecuadamente un testo breve.
3. Especificacin de las caractersticas de la situacin de evaluacin.
Ejemplo: en un texto de divulgacin cientfica, seleccionar las ideas principales
y parafrasear el contenido de las mismas.
4. Caractersticas de la respuesta. En este caso, se especifica cul es la
respuesta que se espera del sujeto evaluado. Ejemplo: que seleccione
correctamente las ideas principales.
Adems de definir el dominio es necesario delimitar aspectos complementarios del
test, tales como: la finalidad y la poblacin meta del test; el modo de aplicacin; el
formato de la respuesta y el tiempo de administracin, segn otras consideraciones
preliminares (Hogan, 2004). El plan inicial del test tambin debe considerar lo
referente a las instrucciones de administracin y el modo de calificacin e
interpretacin de las respuestas.
b. Redaccin de los temes
Existen normas convencionales para la redaccin de temes de tests, las cuales
incluyen sugerencias tales como:
-Redactar temes congruentes con los objetivos de medicin.
-Evitar los temes demasiado extensos, es decir, de ms de veinte vocablos.
-Evitar las oraciones complejas con ambigedades de sentido.
-Evitar las frases con doble negacin.
-Evitar el uso de expresiones extremas: nunca, siempre, todos.
-Utilizar el lenguaje ms apropiado con el grado de maduracin y el nivel educativo
de la poblacin (Oesterlind, 1990).
Para Nunally (1991), los dos errores ms frecuentes en la redaccin de los temes
son:
1. La ambigedad, con reactivos que admiten varias preguntas, por ejemplo:
Qu pas con la psicologa en el siglo XVII?, y 2) La trivialidad, al centrarse en
aspectos poco importantes del constructo o dominio conductual, por ejemplo,
requerir la memorizacin de fechas irrelevantes.
En la evaluacin educativa, merece un espacio diferenciado la elaboracin de
pruebas objetivas con preguntas cerradas en algunas de las modalidades de
temes tipo seleccin, ya sea del tipo disyuntivo verdadero/falso o de opcin
mltiple. Segn Bloom (1966), estas pruebas son tiles para la medicin de
algunos objetivos cognoscitivos a nivel bsico tales como:
- Recordar (por ejemplo, el creador del rayo laser o del telfono).
- Comprender (por ejemplo, el concepto de resiliencia, burnout o bulling).
- Aplicar un concepto general o utilizar informacin para resolver un problema
(por ejemplo, dada la media o promedio aritmtico y la desviacin estndar
del D48 de Pichot aplicado a una muestra representativa de estudiantes
secundarios, elaborar el baremo por eneatipos).
- Analizar, que se refiere al pensamiento crtico, es decir, a identificar causas y
realizar inferencias en base a informacin especfica (interpretar los bajos
valores obtenidos en el coeficiente Kuder-Richardson 21 en una prueba
factorial e indicar los factores que pueden haber afectado la confiabilidad del
test).
Para los objetivos cognoscitivos de nivel superior, tales como la evaluacin que
implica por ejemplo, juzgar el valor de materiales, tests o materiales; y la creatividad,
que infiere por ejemplo, disear una investigacin para verificar la estabilidad de un
test, se requiere otro tipo de pruebas, tales como las compuestas por temes de
suministro (abiertas o ensayo), as como reactivos que combinan la computacin con
el audio; el video y la realidad virtual en la formulacin de los temes y el formato de
la respuesta, dentro de lo que en la actualidad se denomina la evaluacin autntica
(Moreno, Martnez y Muiz, 2004). En todo este avance, es probable que la
evaluacin del futuro demandar instrumentos que permitan medir de modo ms
adecuado el pensamiento creativo (divergente), y la resolucin de problemas reales
de una disciplina (Woolfolk, 2006).
Los temes de opcin mltiple, son difciles de contrur adecuadamente, al extremo
que (Woolfolk, 2006), coment que muchos estudiantes denominan a estas pruebas
de adivinacin mltiple, por lo mal que frecuentemente se elaboran.
Estas pruebas comprenden un enunciado, pi, tronco o base, y una serie de
alternativas o respuestas posibles y en donde en razn a la modalidad de respuesta
correcta, las principales sugerencias en su construccin, teniendo en cuenta a
(Gronlund, 1974), son:
1. Elaborar cada tem para medir un resultado importante de la temtica elegida.
La situacin problema sobre la que se ha de contrur el tem debe estar
directamente relacionada con los objetivos del tema. Evite elaborar temes
sobre detalles sin importancia, trozos de informacin no relacionados, as como
de material no pertinente a los resultados deseados.
2. Presentar slo un problema, claramente formulado, en la base o pi del tem.
La tarea que se presente en el tronco o base del reactivo, deber ser tan clara
que se la pueda entender sin necesidad de leer las opciones u alternativas de
respuesta.
3. Enunciar la base o pi del tem en un lenguaje claro y sencillo. El problema
formulado en la base de un tem debe enunciarse tan precisamente como sea
posible y por lo tanto libre de palabras y fraseos innecesariamente complejos,
de tal modo que quienquiera que tenga el conocimiento medido por dicha
pregunta deber ser capaz de elegir la respuesta correcta.
4. Cuando resulte necesario, incluir tantas palabras como sea posible en la base o
pi del tem. En este caso, debe evitarse la repeticin del mismo material en
cada una de las alternativas u opciones de respuesta.
5. Enunciar la base o pi del tem en forma afirmativa siempre que sea posible.
Una pregunta enunciada afirmativamente tiende a medir resultados ms
importantes que un reactivo enunciado negativamente; esto se debe a que
conocer las cosas con el mejor mtodo o el argumento ms importante, tiene
por lo general una implicancia mayor que conocer el mtodo ms deficiente o
el argumento menos pertinente.
6. Hacer hincapi en la construccin negativa siempre que la utilice en la base o
pi del tem. Existen casos en que la redaccin negativa de la pregunta es
fundamental para medir un resultado importante del aprendizaje. Ejemplo:
saber que no se debe cruzar la calle durante la luz roja o que no se deben
mezclar ciertos elementos qumicos, son cosas tan importantes que se deben
ensear y probar directamente.
7. Asegurarse que la respuesta que se pretende es la correcta o, claramente la
mejor. Cuando utilizamos la forma de respuesta correcta o el tem de opcin
mltiple, debe haber solamente una respuesta correcta y sta debe ser sin
lugar a dudas correcta. Cuando se usa la forma de mejor respuesta, la
respuesta deseada debe ser tal que los responsables de la materia estn
seguros en que claramente es la mejor.
8. Hacer que todas las opciones u alternativas de respuesta sean gramaticalmente
consistentes con la base o pie del tem y que tengan formas paralelas a la de
ste. La redaccin de la respuesta correcta debe ser tan minuciosa, que debe
ser gramaticalmente consistente con la base o pi del tem. Es al enunciar los
distractores cuando existe la probabilidad de que el constructor del test incurra
en alguna inexactitud, de all que una medida general que se puede tomar para
prevenir la inconsistencia gramatical es evitar el uso de los artculos un o
uno al final de la base o tronco del reactivo.
9. Evite claves verbales que permitan a los estudiantes seleccionar la clave o
respuesta correcta o eliminar una opcin incorrecta. Aqu se pueden presentar
los siguientes casos:
a. La similitud de la redaccin de la base o pie del tem con la clave o
respuesta correcta.
b. Enunciar la clave o respuesta correcta en el lenguaje del libro de texto
o con una fraseologa estereotipada.
c. Enunciar la respuesta correcta ms detalladamente que las opciones
incorrectas.
d. Inclur trminos absolutos en las respuestas de distraccin, distractores
o distrayentes.
e. Utilizar dos respuestas que sean completamente inclusivas.
f. Inclur dos respuestas que tengan el mismo significado.
10. Hacer que las respuestas de distraccin, distractores o distrayentes aparezcan
como posibles y atractivas para el probando poco informado. En tal sentido,
debemos tener presente las siguientes estrategias:
a. Utilizar los conceptos equivocados de los probandos o sus errores
comunes.
b. Enunciar las opciones incorrectas en el lenguaje de los probandos.
c. Usar palabras que suenen bien, tanto en las respuestas de distraccin
o distractores como en la clave o respuesta correcta.
d. Elaborar los distractores o distrayentes con criterios afines a la clave o
respuesta n correcta, tanto en su extensin como en su complejidad
de redaccin.
e. Utilizar claves extraas en los distractores, pero sin exageracin en
su uso, y estar alerta contra las preguntas engaosas.
f. Estructurar de manera homognea las opciones incorrectas.
11. Hacer variar la longitud relativa de la respuesta correcta para eliminar la
longitud o extensin como una posible clave. Por la necesidad de elaborar
adecuadamente los enunciados para hacerlos inequvocamente correctos, la
clave tiende a ser ms extensa que los distractores. Frente a esta situacin, es
recomendable construir los distractores n aproximadamente con la misma
extensin en vez de ajustar la longitud de la clave o respuesta correcta.
12. Evitar cuidadosamente el uso de la opcin todas las anteriores y utilice con
extrema precaucin ninguna de las anteriores. Cuando el constructor de
pruebas tiene problemas para encontrar un nmero suficientes de distractores,
a menudo considera las alternativas todas las anteriores o ninguna de las
anteriores para utilizarlas como opcin final; el caso es que, dichas
alternativas rara vez se usan adecuadamente y por lo general terminan
haciendo al tem menos eficaz de lo que sera sin ellas.
13. Variar al azar la posicin de la respuesta correcta. La clave o respuesta
correcta debe aparecer en cada pregunta, pero sin seguir una pauta que pueda
resultar evidente para el probando que resuelve la prueba. En tal sentido se
pueden evitar tales indicadores colocando al azar la clave o respuesta correcta.
14. Controlar la dificultad del tem ya sea variando el problema en la base o pi o
cambiando las opciones. Generalmente, es preferible aumentar el grado o
ndice de dificultad del tem elevando el nivel de conocimiento requerido o
haciendo ms complejo el problema. Por otra parte, sin embargo, tambin es
posible aumentar la dificultad haciendo ms homogneas las opciones.
15. Asegurarse de que cada tem es independiente de los dems. Para ello,
debern evitarse la presencia de cadenas de temes interdependientes, es
decir, cada tem debe ser, una unidad calificable independientemente.
16. Usar un formato eficaz de tem. Las alternativas u opciones de respuestas
debern presentarse en forma de lista, en renglones diferentes, una bajo la
otra, lo cual facilitar la lectura y la comparacin de las opciones. Es
conveniente el uso de letras al inicio de las opciones, lo cual evita posibles
confusiones si se utilizaran respuestas numricas en un tem.
En cuanto al tem verdadero falso, este constituye una oracin expositiva que el
probando debe juzgar como verdadera o falsa; no obstante hay variaciones de esta
forma bsica en la que el sujeto debe responder s o no, acuerdo o desacuerdo, bien
o mal, hecho u opinin y otras respuestas afines. En cualquier caso, este tipo de
tem se caracteriza por el hecho de que slo son posibles dos alternativas de
respuesta y en donde el probando debe decidir por una de ellas.
Siguiendo a (Gronlund, 1974), podemos sealar las siguientes reglas para la
elaboracin de este tipo de temes:
1. Inclur en la base o pie del tem, slo una idea central significativa. La decisin de
verdadero-falso, no debe depender de un aspecto subordinado ni de un detalle
trivial, de provenir de algo esencial por lo que se deben evitar el uso de varias
ideas en cada enunciado.
2. Redactar el enunciado de manera que se le puede juzgar sin lugar a dudas como
verdadero o falso. Los enunciados verdaderos deben serlo en cualquier
circunstancia por lo que resulta importante usar palabras definidas y precisas y
evitar trminos ambiguos.
3. Los enunciados deben ser breves y de estructura sencilla. La base o pi del tem
simples y breves aumentarn la probabilidad de que la idea central del tem sea
clara y de que el acierto o el error est determinado por el conocimiento del
examinado; ms bien los enunciados extensos y complicados se orientan a medir
la comprensin de lectura, que constituye un objetivo diferente al tratado.
4. Usar muy limitadamente los enunciados negativos y evitar la doble negacin. Los
enunciados negativos se malinterpretan frecuentemente como afirmativos, esto es,
por lo sencillo que es pasar por alto la palabra no; asimismo, las negaciones
dobles son confusas y por lo general los enunciados que las contienen se pueden
volver a redactar afirmativamente.
5. Los enunciados de opinin se deben atribuir a alguna causa. Debemos tener
presente que los enunciados de opinin no son verdaderos o falsos por s mismos
y hacer que los probandos respondan a ellos como enunciados factuales
constituye una prctica deficiente, de tal manera que slo se podran usar sin
modificacin cuando se indique al examinado que distinga entre enunciados de
hechos y enunciados de opiniones.
6. Evtense claves ajenas a la respuesta. Existen algunos modificadores especficos
que proporcionan claves verbales de la verdad o falsedad de un tem. Los
enunciados que incluyen absolutos como siempre, nunca, todo, ninguno y
solamente, tienden a ser falsos y por el contrario, los enunciados con
modificadores como usualmente, acaso y a veces, tienden a ser verdaderos.
c. Revisin de Expertos
La mayora de especialistas en el tema sugiere que los temes preliminares sean
revisados por jueces expertos. Resulta conveniente que estos jueces tengan
experiencia en la construccin de pruebas, en el dominio del constructo a medir y en
la poblacin a la cual se dirige el test. Los aspectos esenciales (Tornimbeni, Prez y
Olaz, 2008), que los expertos deben evaluar en cada tem son:
1. Claridad semntica y correccin gramatical.
2. Adecuacin al nivel de comprensin de la poblacin meta.
3. Congruencia con el constructo o dominio medido.
El ltimo de los nombrados constituye el principal parmetro y hace referencia al
grado de consistencia que debe haber entre un tem particular y los constructos a
medir por el test. El respeto por dicha variable va a contribuir significativamente a la
confiabilidad y validez de las puntuaciones del test a contruir (Osterlind, 1990).
Tcnicamente, se recomienda que los temes seleccionados sean aquellos que, por
lo menos, un 60% de los jueces consideren meritorios (Herrera Rojas, 1998).
Resulta de gran utilidad la inclusin de preguntas adicionales sobre los temes, que
faciliten una redaccin ms adecuada de alguno de ellos. Finalmente, tal y como
sealan (Tornimbeni, Prez y Olaz, 2008), no deberamos confiar exclusivamente en
el juicio de los expertos y siempre es conveniente llevar a cabo una prueba piloto en
una muestra pequea, con la finalidad de demostrar empricamente que los temes
sean ms claros y comprensibles para la poblacin donde se desea generalizar los
resultados.
Existen otros esquemas de planificacin como el que indicamos a continuacin y que
podramos tener en cuenta en la tarea de construccin de una prueba. Dicho
esquema comprende los siguientes pasos:
6. ESQUEMA GENRICO DE CONSTRUCCION DE UN TEST PSICOMETRICO
A. Primer Paso: ESPECIFICACIN DE LA FINALIDAD DEL TEST
a. Eleccin del Constructo o variable de estudio
b. Elaboracin del propsito del test
c. Limitacin de las caractersticas de los sujetos a examinarse
B. Segundo Paso: TRADUCCION DE LA FINALIDAD EN TERMINOS
OPERACIONALES
a. Elaboracin del marco terico del constructo
b. Definicin terica del constructo
c. definicin operacional del constructo
C. Tercer Paso: DETERMINACION DE LAS CARACTERISTICAS PSICOMTRICAS
QUE DEBE TENER EL TEST
a. Pruebas de ejecucin mxima
a.1 Pruebas de aptitud
a.2 Pruebas de rendimiento
a.3 Pruebas de habilidad
b. Pruebas de ejecucin tpica
b.1 Inventario de Personalidad
b.2 Cuestionario de Personalidad
b.3 Escalas de actitudes
D. Cuarto Paso: ELABORACIN DEL ENSAYO O PRE-TEST
a. Construccin de los temes, reactivos, elementos o preguntas
b. Redaccin de instrucciones preliminares
c. Elaboracin del procedimiento preliminar de calificacin
d. Elaboracin del material del pre-test
e. Establecimiento de los tiempos de resolucin del pre-test
f. Revisiones de juicio de expertos
E. Quinto Paso: ANLISIS DE TEMES, REACTIVOS, ELEMENTOS O PREGUNTAS
a. Administracin del ensayo o pre-test a una muestra representativa de la poblacin a
la cual est destinado el test.
b. Obtencin de los ndices de dificultad, de discriminacin o poder discriminativo, de
homogeneidad, de validez, de confiabilidad, de asimetra, de curtosis, de cada uno
de los temes; as como el anlisis de los distractores, distrayentes u opciones
incorrectas.
c. Clculo de los coeficientes de correlacin item-item, item-test, varianza, co-varianza,
correlacin mxima, etc.
F. Sexto Paso: ELABORACIN DEL FORMATO FINAL DEL TEST
a. Seleccin de los temes que han superado el anlisis de reactivos
b. Ajuste de los tiempos y modalidades de administracin o aplicacin y cmputo o
calificacin.
c. Revisin
G. Sptimo Paso: CLCULO DE LA VALIDEZ Y CONFIABILIDAD DEL TEST
a. Administracin del test a una muestra representativa de sujetos de la poblacin a la
cual est destinada la prueba.
b. Obtencin de los ndices estimadores de la validez
c. Obtencin de los ndices estimadores de la confiabilidad
H. Octavo Paso: ESTABLECIMIENTO DE LAS NORMAS DEL TEST
a. Estudio de las distribuciones de puntajes
b. Obtencin de las normas en los puntajes derivados ms convenientes
c. Elaboracin de las tablas de normas o baremos
I. Noveno Paso: REDACCIN DEL MANUAL DEL TEST
a. Elaboracin de la ficha tcnica
b. Redaccin de documentos que sintetizen el proceso de construccin y comuniquen
los ndices estadsticos y normas que permitan al usuario evaluar el test.
J. Dcimo Paso: PUBLICACIN
SEGUNDA UNIDAD
DESARROLLO DE LOS TEST PSICOMETRICOS
LECCION 1
ORIGEN DE LOS TEST PSICOMETRICOS
1. INTRODUCCION
En los ltimos 30 aos, la metodologa y las tcnicas de elaboracin de tests han
manifestado un desplazamiento cada vez ms marcado de los sistemas tradicionales de
exmenes, fundamentados en la teora clsica de los tests, hacia los sistemas adaptativos
de evaluacin. Esta transicin ha sido propiciada por los desarrollos que han tenido lugar
en el contexto de la teora de los tests y, en particular, en la teora de respuestas por tem,
as como por el desarrollo alcanzado por la tecnologa computacional. El desarrollo de la
teora clsica de los tests ha evolucionado de una posicin pragmtica caracterizada por la
elaboracin de reactivos y pruebas, cuyo nico requisito era mantener cierta consistencia
entre s, hacia una fase en la cual las pruebas cuentan con un mayor sustento en
postulados tericos acerca de la personalidad, el aprendizaje, el comportamiento y los
principios que regulan la interaccin entre los factores estructurales hereditarios y los
factores ambientales. La elaboracin de tests de acuerdo a la teora clsica, conlleva
ciertas limitaciones debidas principalmente a la dependencia que hay entre cada reactivo y
la prueba de que forma parte, as como la que existe entre cada reactivo y la poblacin
utilizada para normar la prueba, lo que limita las posibilidades de predecir el
comportamiento ante reactivos especficos. Nuevas aproximaciones, como la teora de
respuestas por tem, han sido elaboradas para resolver las limitaciones planteadas por la
teora clsica de los tests y han presentado nuevas tcnicas para el desarrollo de estos
instrumentos de medida. Uno de los resultados de la teora de respuestas por tem es que
al permitir establecer estadsticos para cada reactivo individual y de manera independiente,
se proporciona un modelo terico excelente para la elaboracin de tests adaptativos
computarizados, caracterizados bsicamente por presentar reactivos diferentes a cada
examinado, dependiendo de sus respuestas a los reactivos anteriores. Otra de las
herramientas que han sido de considerable valor para los nuevos tests adaptativos
computarizados es el desarrollo de los sistemas de cmputo que permiten manejar grandes
bases de reactivos de una manera interactiva y con una gran velocidad de proceso.
2. HISTORIA Y ORIGEN DE LOS TEST
Para (Anastasi, 1977) los orgenes de los test se pierden en la antigedad, en el Imperio
Chino se utilizaba un sistema de exmenes para elegir a los administradores pblicos
durante 3000 aos, por su parte, el Imperio Griego realiz exmenes que constituan un
complemento integrado en el sistema educativo, para estimar el dominio de habilidades
fsicas e intelectuales. El mtodo socrtico de enseanza, de preguntas y respuestas, es
similar al utilizado en la Edad Media en las universidades europeas donde los exmenes
eran regulares.
En el siglo XIX se despert el inters por los retrasados mentales, y con ello, se encontr
que era necesario establecer criterios para la identificacin y clasificacin de estos casos,
entonces el mdico francs Esquirol en 1838 indic que existen muchos grados de retraso
mental, desde la normalidad hasta el grado mas agudo de la idiocia, y que la mejor forma
de saber el grado en el que se encuentra es mediante su lenguaje. De esta manera, en
1837 se estableci la primera escuela dedicada a la educacin de los nios mentalmente
deficientes.
Por su parte, los psiclogos experimentales formulaban descripciones generalizadas de la
conducta humana, donde las afinidades mas que las diferencias en la conducta, las que
constituan el foco de atencin, pero debido a la presencia de la variabilidad las
generalizaciones eran aproximadas.
a. Aportaciones de Francis Galton
El bilogo ingls Sir Francis Galton, considerado el padre de la psicologa diferencial,
tuvo como objetivo bsico la descripcin y medicin de las caractersticas humanas y
para ello cre un Laboratorio Antropomtrico en 1884 (Fernndez-Ballesteros, 1996).
Se interes por la herencia humana y para eso midi las caractersticas de las
personas emparentadas y no emparentadas, crea que no solo se heredaban rasgos
fsicos, sino tambin habilidades (Anastasi, 1977).
Nunnally (1970) menciona que Galton acu la expresin de test mental y comenz a
medir muchos atributos humanos diferentes, reconoci la necesidad de la
estandarizacin en el examen de sujetos, que se refiere, a la necesidad de
presentarles a todos ellos el mismo problema en condiciones uniformes. Afirmaba que
la persona que tuviera los sentidos mas agudos sera la mas dotada y la de mas
capacidad de conocimiento, por lo que, la mayora de sus test eran de discriminacin
sensorial.
Galton recurri a mtodos estadsticos y determin promedios y medidas de varianza, y
adems hizo los primeros intentos de establecer la estadstica de correlacin.
b. Los primeros test mentales
El psiclogo americano Cattell es un personaje destacado en el desarrollo de los test
psicolgicos, tuvo contacto con Galton y se interes por las diferencias individuales. En
1890 se emple por primera vez en la literatura psicolgica la expresin test mental.
Los test que se haban de aplicar individualmente incluan medidas de energa
muscular, velocidad de movimiento, sensibilidad al dolor, agudeza visual y auditiva,
discriminacin de pesos, tiempo de reaccin, memoria y otras, pero, la ejecucin del
individuo presentaba escasa correspondencia de un test a otro, Ohern en 1889, indag
sobre las mismas cuestiones (Anastasi, 1977).
El objetivo de los test de Cattell, segn Fernndez- Ballesteros (1996), los caracteriz
su determinacin del rango, exactitud y naturaleza de las facultades psicolgicas, as
como la posibilidad de reunir suficiente material como para hallar los factores que
regulan el desenvolvimiento de estas facultades, sus conexiones, as como sus
perturbaciones.
Ebbinhaus en 1897 aplic a escolares algunos test de clculo aritmtico, de memoria
inmediata y de completacin de frases.
Segn Nunnally (1970), se produjeron en Francia algunos acontecimientos de
importancia para la historia de la medicin psicolgica. Pinel, en un principio liber a los
locos de sus cadenas e insista en que se trataba de enfermos y no de posedos por el
demonio. Charcot, Janet y Ribot crearon el campo de la psiquiatra y elaboraron las
primeras teoras aceptables de la psicopatologa. Freud se apoy en los conocimientos
de estos hombres y avanz hasta fundar el psicoanlisis.
c. Test de inteligencia
Alfred Binet complet su primer test en 1905, donde estudiaba la capacidad del nio
para comprender y razonar acerca de los objetos de su ambiente cultural, los tems
incluan nombrar objetos, completar oraciones o comprender preguntas, en 1908 se
hizo una revisin del test y se graduaron los tems segn los niveles de edad, sobre la
base de tems caractersticos de la inteligencia promedio de cada edad (Nunnally,
1970).
Binet, segn Fernndez-Ballesteros (1996), planteaba tres tipos de requisitos: Que
estn formados por tareas sencillas, que en su aplicacin se invierta poco tiempo, que
sean independientes del examinador y que los resultados obtenidos puedan ser
contrastados por otros observadores.
Los resultados podan expresarse como una edad mental, es decir la edad de los
nios normales que su ejecucin se igualaba, segn Anastasi (1977), este concepto
contribuy a popularizar la aplicacin de los test de inteligencia, as como, los test
colectivos fueron creados para satisfacer una urgente necesidad prctica, los cuales
eran instrumentos para la prueba de masas que permitan el examen simultneo y
simplifican las instrucciones, adicionalmente, requeran un mnimo de formacin por
parte del examinador.
Se crearon exmenes orales, aunque algunos estudiosos se quejaron y objetaron que
los exmenes escritos colocaban a todos los estudiantes en las mismas circunstancias.
Se introdujeron test de personalidad donde se medan las cuestiones afectivas como la
adaptacin emocional, las relaciones sociales, la motivacin, los intereses y las
actitudes. Test de aptitudes especiales donde se evaluaba la orientacin profesional y
en la seleccin de personal industrial y militar.
3. TEORAS DE LOS TESTS
Existen diversos paradigmas o modelos que permiten explicar el significado de las
puntuaciones obtenidas con los Tests. El anlisis o modelado de las matrices de datos
obtenidas da como resultado:
la estimacin del nivel en que poseen los sujetos la(s) caracterstica(s) que mide el
test (valores escalares de los sujetos)
la estimacin de los parmetros de los items (valores escalares de los items).
El problema central de la teora de los tests es la relacin que existe entre:
el nivel del sujeto en la variable inobservable que se desea estudiar y
su puntuacin observada en el test.
Es decir que el objetivo de cualquier teora de tests es realizar inferencias sobre el nivel
en que los sujetos poseen la caracterstica o rasgo inobservable que mide el test, a partir
de las respuestas que stos han dado a los elementos que forman el mismo. As para
medir o estimar las caractersticas latentes de los sujetos es necesario relacionar stas
con la actuacin observable en una prueba y esta relacin debe de ser adecuadamente
descrita por una funcin matemtica. Las distintas teoras de tests difieren justamente en
la funcin que utilizan para relacionar la actuacin observable en el test con el nivel del
sujeto en la variable inobservable. Y sirven para dar cuenta del error de medida inherente
a toda medicin psicolgica o estimacin del error; y proporcionar una estimacin del
rasgo o caracterstica evaluada (estimacin del rasgo)
a. TEORA CLSICA DE LOS TESTS
La Teora Clsica de los Tests, iniciada por Spearman, sostiene que la puntuacin
observable de una persona en un test es una funcin de dos componentes: su
puntaje verdadero (inobservable) y el error de medicin implcito en la prueba. El TCT
(modelo lineal de la teora clsica) es un modelo de puntuacin verdadera como valor
esperado, esperado como concepto matemtico, probabilstico. Es decir, el puntaje
verdadero de un sujeto en un test sera el promedio aritmtico de las puntuaciones
empricas obtenidas en infinitas aplicaciones (Muiz, 2001).
La Teora Clsica de los Tests (TCT) es, en sntesis, el conjunto de principios
tericos y mtodos cuantitativos derivados de ellos, que fundamentan la
construccin, aplicacin, validacin e interpretacin de distintos tipos de tests y que
permiten derivar escalas estandarizadas aplicables a una poblacin (Hambleton,
1994). Los principios en que se basa son relativamente simples y se aplican tanto a
las pruebas de desempeo, como a las de aptitud. Durante sus diferentes fases de
desarrollo, se han elaborado procedimientos de anlisis cuantitativo que han sido de
gran utilidad, destacndose en lo general, tres grandes etapas que se identifican por
su objeto de inters primordial, as como por los mtodos cuantitativos y tipos de
anlisis tericos que utilizan.
La primera etapa que Cattell (1986) denomina itemetra, se caracteriza
principalmente por la construccin de pruebas conformadas por reactivos cuyas
propiedades estadsticas eran el centro de atencin principal. Los tests se
consideraban como el producto de la integracin de un conjunto de reactivos cuyas
propiedades estadsticas tenan que ser determinadas antes de que se les incluyera
en esa prueba particular. Esto propici que el concepto de confiabilidad adquiriera
prominencia como la principal virtud de la escala y se meda a partir de la correlacin
entre los reactivos individuales y el instrumento en su conjunto. Si la correlacin era
alta, se deca que los reactivos eran los adecuados. Sin embargo, con frecuencia
resultaba que la correlacin no era tan buena, y el resultando era que se obtenan
reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto
mismo de confiabilidad implicaba al de error de la medida y tuvieron que
desarrollarse procedimientos distintos para determinar la confiabilidad del test de una
manera ms precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de
divisin por mitades.
La itemetra hizo contribuciones valiosas a la psicologa debido al nfasis que puso
en el anlisis del error. Entre sus contribuciones se encuentran varios conceptos
sobre precisin de la medida, las tcnicas para el tratamiento del error y el uso
generalizado del error estndar de la medida como la medida bsica del error.
Adems, dio lugar a contribuciones tales como las frmulas de Spearman-Brown
(Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach
(Cronbach, 1951) y a varios principios bsicos de escalamiento, as como al uso
generalizado de la curva normal, el uso de las correlaciones mltiples y la frmula de
atenuacin, etc. La siguiente etapa es la que Cattell (1986) denomina psicometra
estructural y se caracteriza por el uso de las nuevas herramientas estadsticas tales
como el anlisis factorial con sus diversas variantes tcnicas, como un medio para
encontrar la "estructura natural" de las habilidades en el contexto de los factores
culturales, la dotacin gentica, la personalidad, los rasgos, los motivos dinmicos y
las dimensiones que dan lugar a la accin y al comportamiento. Su objetivo
primordial no era como tal, aplicar pruebas, sino determinar la relacin que hay entre
los conceptos clnicos sobre personalidad, y los fundamentos de la investigacin
experimental multivariada (cuantitativa por naturaleza), as como analizar las
interacciones dinmicas entre los rasgos y los estados de la personalidad. Los tests
se consideraban significativos en la medida que armonizaban con los constructos
tericos formulados conceptualmente.
La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las
aplicaciones inmediatas y simplistas que identificaban a las estadsticas con factores
conductuales, y profundiza en las leyes y formulaciones conceptuales del
comportamiento: que relaciona rasgos, procesos y estados psicolgicos con las
mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, segn
Cattell, se refieren a las relaciones sistemticas y consistentes obtenidas de los
estudios empricos sobre el desarrollo, en el conocimiento acerca de los rasgos
determinados en forma hereditaria, de los rasgos modificables por las experiencias y
el aprendizaje y de la modulacin de los estados psicolgicos producidos por las
relaciones psicofisiolgicas.
En resumen, el desarrollo de la teora clsica de los tests ha procedido de etapas
orientadas en forma pragmtica para desarrollar tests y validar reactivos, (donde los
constructos psicolgicos tericos se definan operacionalmente como "aqullo que
mide la prueba x"); hacia etapas conceptualmente ms elaboradas en que los tests
se derivan de teoras del comportamiento ms articuladas y donde cada reactivo
tiene un significado conceptual definido en un contexto terico particular.
Limitaciones de la Teora Clsica de los Tests: De acuerdo a la Teora Clsica de los
Tests (TCT), la elaboracin de pruebas de desempeo mximo involucra la seleccin
de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminacin.
Los reactivos ms deseables son los que poseen un nivel mayor de discriminacin.
El nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propsito de la
prueba, y; 2. El criterio preestablecido para el grupo al cual se aplicar la prueba. Los
ndices estadsticos empleados por la TCT no se mantienen constantes cuando se
aplican a poblaciones que difieren en habilidad respecto de la poblacin empleada
para obtener las normas del test. Por lo tanto, el xito de las tcnicas clsicas de
seleccin de reactivos depende de qu tan parecida es la poblacin con la cual se
obtuvieron los ndices respecto de la poblacin a la que se pretenden aplicar. Si la
diferencia es grande, los ndices obtenidos de los tems no sern apropiados para la
poblacin objetivo. En otros trminos, la teora clsica de los tests no puede predecir
cmo responder un individuo a los tems a menos que esos tems hayan sido
previamente administrados a personas similares (Lord, 1980) Durante el trabajo
prctico de elaboracin de tests, normalmente el grupo a partir del cual se obtienen
los ndices y el grupo al cual el test va dirigido, difieren considerablemente. Un caso
especial en el cual los ndices clsicos de los reactivos se obtienen a partir de grupos
que difieren de la poblacin a la que van dirigidos, puede verse al estructurar bancos
de reactivos. Al elaborar un banco de reactivos, las caractersticas de los tems que
van a ser incluidos en el banco, deben ser determinadas. Los tems con frecuencia
denominados "experimentales", se incluyen en un test que es administrado a un
grupo de personas de tal manera que se obtienen como resultado, los ndices de
esos reactivos. Por supuesto, no todos los reactivos experimentales sern incluidos
en un test particular. Por lo tanto, se crean mltiples formas del test, cada uno de los
cuales contiene diferentes reactivos experimentales y las diferentes formas se
aplican a grupos distintos de examinados. Dado que generalmente no es posible
asegurar que las diferentes formas del examen sean administradas a grupos
equivalentes, los ndices de los reactivos experimentales que se aplicaron a grupos
distintos no pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto,
si los reactivos fueron incluidos en el examen bajo el supuesto de que sus ndices
eran comparables, entonces cualquier test construdo a partir de ese banco de
reactivos no podr ser apropiado para ninguna de las poblaciones que pudieran ser
seleccionadas en un momento dado. Por otra parte, an cuando un banco de
reactivos se encuentre bien conformado, otro problema de la TCT es la precisin de
la medicin. Y es que en la teora clsica de los Tests, la contribucin de un tem a la
confiabilidad de la prueba no depende de las caractersticas del reactivo slamente,
sino que tambin depende de la relacin que hay entre el reactivo en cuestin y los
otros reactivos del test. Por lo tanto, no es posible aislar la contribucin de un tem a
la confiabilidad de la prueba y por lo consiguiente, tampoco su participacin al error
estndar de la medida (Hambleton, Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teora clsica de los tests lleg, con la
etapa funcional de los tests, a un punto en que la conceptualizacin de los resultados
de los tests, y consecuentemente su proceso de desarrollo, permitan mediante
sofisticados procedimientos estadsticos, sacar a los reactivos de los lmites
impuestos por la prueba en su conjunto, la limitacin terica an permaneca y se
haca necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para
la conceptualizacin de los reactivos como unidades independientes del test y del
grupo utilizado para normarlo, se obtuvo con la Teora de Respuesta al tem.
LECCION 2
TEORIA DE LA GENERALIZABILIDAD Y
DE RESPUESTA AL ITEM
1. INTRODUCCION
Las Teoras de Medicin sirven como marco terico para el diseo e implementacin de
instrumentos de medicin. Proporcionan mtodos o procedimientos para determinar las
caractersticas de los estmulos o preguntas que forman las pruebas.
A partir de las caractersticas obtenidas se derivan mtodos para efectuar otros anlisis
que sean de inters para los usuarios de las pruebas.
2. TEORA DE LA GENERALIZABILIDAD
Cronbach y Glaser (1972) postularon la Teora de la Generalizabilidad (TG) que es una
extensin del modelo clsico en el que diversas mediciones del mismo individuo pueden
variar tanto por efecto de una variacin en lo que se mide como por el error de medicin
(Nunnally y Bernstein, 1995). En esta teora las decisiones sobre la bondad de un
instrumento se basan en estudiar las fuentes y tipos de error, utilizando el anlisis de
varianza. Cuando se mide una variable se trata de generalizar los resultados a un dominio
o universo confiable de observaciones. El puntaje del universo es semejante al puntaje
verdadero en el modelo clsico. La diferencia es que en la TCT se considera que la
varianza de error es de una sola clase y, en cambio, la TG reconoce que existen otros
universos de generalizacin y por lo tanto muchos puntajes de universo posibles. Solo
cuando el universo se ha definido podemos afirmar cules son las fuentes de variacin que
producen error. Las diferentes fuentes de error en esta teora se denominan facetas,
trmino que introdujo Cronbach para designar cadauna de las caractersticas de la
situacin de medicin que pueden cambiar de un momento a otro y, por tanto, hacer variar
los resultados obtenidos.
Segn esta teora los puntajes observados solo poseen inters si son representativos de
todos los puntajes posibles de un mismo universo. Poblacin es el conjunto de personas de
las que se extrae una muestra; y Universo es el conjunto de todos los tems posibles de un
constructo; y Universo de Condiciones de Medicin al conjunto de todas las facetas
estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus
interacciones se estima que contribuyen a la varianza de error y disminuyen la
generalizabilidad de los puntajes observados en las personas evaluadas.
3. TEORA DE RESPUESTA AL TEM
La literatura sobre tests registra en los ltimos 30 aos un desplazamiento progresivo del
esquema proporcionado por la Teora Clsica de los Tests, hacia el contexto y los
procedimientos delineados por la Teora de Respuestas al tem (TRI) [Del ingls: tem
Response Theory - IRT]. Esta teora, fue desarrollada para resolver varios de los
problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no haban sido
resueltos de una manera satisfactoria. Algnos de esos problemas son: (1) El uso de
ndices de los reactivos cuyos valores dependen de la poblacin particular de la cul fueron
obtenidos, y (2) La estimacin de la habilidad del examinado depende del conjunto
especfico de reactivos incluidos en la prueba.
Es decir, las caractersticas del examinado y las caractersticas de la prueba no pueden
separarse en un instrumento elaborado conforme a los principios de la Teora Clsica de
los Tests; y por el contrario, cada uno slo puede ser interpretado en trminos del otro. Las
caractersticas del examinado en las cuales la teora TRI est interesada, son la "habilidad"
que mide el test. Para la TCT, la nocin de habilidad se expresa por medio del llamado
puntaje verdadero que se define como "el valor esperado a partir de la destreza observada
en la prueba en cuestin" (Hambleton, Swaminathan, y Rogers, 1991).La habilidad del
examinado se define slo en trminos de una prueba especfica. Si el test es "difcil", el
examinado parecer tener un nivel bajo de habilidad. Si el test es "fcil", el examinado
parecer tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba se define
como "la proporcin de examinados en el grupo de inters, que contest el reactivo
correctamente" (Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un tem sea
difcil o fcil depende de la habilidad de los examinados a quienes se aplic la prueba y a
su vez, la habilidad de los examinados depende del nivel de dificultad de la prueba. De la
misma forma, el nivel de discriminacin de los reactivos y los coeficientes de validez y
confiabilidad de la prueba se definen tambin en base a las caractersticas del grupo
particular de examinados. As, las caractersticas del test y de los reactivos cambian a
medida que cambia el contexto de la prueba. Por lo tanto, es muy difcil comparar
examinados a quienes se aplican diferentes tests; o an, comparar tems cuyas
caractersticas se obtuvieron utilizando diferentes grupos de examinados. Esto significa que
los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son
dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la
TRI. Otro problema de la TCT es que es centrada-en-el-test, ms que centrada-en-el-
reactivo. No se toma en consideracin cmo responde el examinado a un reactivo dado, y
por lo tanto, no se tienen bases para determinar qu tan bien podra desempearse un
examinado particular ante un reactivo individual. Es decir, la TCT no permite hacer
predicciones acerca de cmo se comportar un individuo o grupo particular ante un
reactivo dado. Esta posibilidad de prediccin es importante en una gran variedad de
situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un
profesional ante diferentes tipos de situaciones prcticas. De acuerdo a Hambleton,
Swaminathan y Rogers (1991), las principales caractersticas de la TRI como una
alternativa a la teora clsica de los tests son: 1. Las caractersticas de los reactivos no
dependen del grupo del cul fueron obtenidos; 2. Los puntajes que describen la habilidad
del examinado no dependen del test en su conjunto; 3. El modelo se expresa a nivel del
reactivo ms que a nivel del test; 4. El modelo no requiere de pruebas paralelas para
determinar el ndice de confiabilidad; y 5. Provee una medida de la precisin de cada ndice
de habilidad. Los postulados bsicos de la TRI son:
1) El resultado de un evaluado en un tem puede ser explicado por un conjunto de
factores llamados rasgos latentes o aptitudes
2) La relacin entre la respuesta de un sujeto a un tem y el rasgo latente que
subyace puede describirse como una funcin monotnica creciente que se llama
funcin caracterstica del tem o curva caracterstica del tem (CCI) Esta funcin
especfica que a medida que la aptitud aumenta la probabilidad de una respuesta
correcta al tem tambin aumenta.
3) Las estimaciones de la aptitud obtenidas con distintos tems seran iguales y las
estimaciones de los parmetros de los tems obtenidos en distintas muestras de
examinados sern iguales. Es decir que en la TRI los parmetros de aptitud y de
los tems son invariantes.
La ejecucin de un examinado en una prueba puede ser predichos por un conjunto
de rasgos, rasgos latentes y habilidades; y (2) la relacin entre las respuestas de
los examinados a los reactivos y el conjunto de rasgos que subyacen a la
respuesta ante el reactivo, pueden describirse por una funcin monotnicamente
incrementada llamada funcin caracterstica del reactivo o curva caracterstica del
tem (CCI). Esta funcin especifica que a medida que el nivel del rasgo incrementa,
tambin incrementa la probabilidad de una respuesta correcta ante ese reactivo."
Son supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado
estn determinadas por una nica variable denominada Rasgo. Ej.: Un tem
de un test espacial medir solo habilidad espacial y no ninguna otra cosa
(Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un evaluado a cualquier par de
tem son independientes y la probabilidad de responder correctamente a un
tem es independiente de la probabilidad de responder correctamente
cualquier otro tem (Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los bsicos son:
- Modelo Logstico de un parmetro o Modelo de Rasch que est medido en la
misma escala que el parmetro zeta que representa el nivel de habilidad, el
parmetro b representa la dificultad del tem. Cuanto mayor sea el valor de b,
ms difcil ser el tem ya que mayor ser el nivel de habilidad necesario para
tener una probabilidad de acertar de 0.5
- Modelo Logstico de dos parmetros o Modelo de Birnbaum que indica en qu
medida el tem diferencia entre examinados con un nivel alto y bajo de
habilidad. Cuanto mayor sea el valor de a, mayor poder discriminativo del tem,
parmetro a que representa la discriminacin del tem.
- Modelo Logstico de tres parmetros incorpora junto con el a y el b al c que
representa la probabilidad de acertar el tem que tienen las personas con un
nivel de habilidad muy bajo; o parmetro del pseudo azar.
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un
banco de reactivos con parmetros estimados para cada tem, de acuerdo almodelo
seleccionado. El procedimiento recomendado por Lord (1977) consiste en los siguientes
cuatro pasos:
1. Decidir acerca de la forma deseada de la funcin de informacin de la prueba
o curva de informacin deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de informacin deseada cae
bajo el rea de la curva de informacin de la prueba, de tal manera que
saturen el rea bajo la curva de la funcin deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de
informacin de la prueba con los reactivos seleccionados hasta ese
momento.
4. Continuar la seleccin de los reactivos hasta que la funcin de informacin de
la prueba se aproxime a la funcin de informacin deseada con un grado
satisfactorio."
Sin embargo, la TRI no se encuentra libre de problemas y su aplicacin contiene ciertos
puntos riesgosos debido a que el uso de criterios estadsticos para la seleccin de los
reactivos no asegura una prueba con contenidos completamente vlidos. Deficiencias en
los procedimientos de seleccin de los contenidos pueden generar una prueba con un bajo
nivel de validez de contenido (Hambleton, Swaminathan y Rogers;1991). Otro problema de
la TRI es que cuando se utilizan funciones de informacin de los reactivos durante el
desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo tanto,
la funcin de informacin podra sesgarse. Una prueba construida con tems de valores
elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia,
la funcin de informacin de la prueba ser sobrevalorada y por lo tanto, habr que aadir
varios reactivos adicionales para compensar esta sobrevaloracin.
Sin embargo, una de las ventajas de la construccin de los tests de acuerdo a los modelos
de la TRI es que se pueden elaborar tests individualizados, es decir, a la medida de los
sujetos que permiten inferir en cada uno de los evaluados un verdadero valor del rasgo de
la manera ms precisa.
LECCION 3
DEFINICION TEORICA Y OPERACIONAL
DE LOS CONSTRUCTOS
1. INTRODUCCION
Un constructo es algo de lo que se sabe que existe, pero cuya definicin es difcil o
controvertida. Son constructos la inteligencia, la personalidad y la creatividad, por ejemplo.
Los constructos no son empricos, es decir, no se pueden demostrar. Estos conceptos no
son directamente manipulables, igual que lo es algo fsico, pero s son observables a travs
de la conducta.
Los constructos no tienen referentes empricos inmediatos Nadie ha visto ni ha tocado la
inteligencia de alguien pero s la puede inferir de la manera en que una persona es capaz
de resolver ciertos problemas en relacin con la manera en que otros los resuelven. Los
constructos tienen como referentes relaciones lgicas entre conceptos. Por ejemplo, se
puede decir que la ansiedad se caracteriza por perodos alternativos de miedo y
esperanza.
Un constructo se refiere a las operaciones mediante las cuales un investigador determina la
presencia o ausencia (o la magnitud) de un fenmeno. Estas operaciones son mediciones
o registros numricos, por ejemplo: los puntajes de los tests para medir inteligencia y otras
aptitudes, la longitud del recorrido de un ratn en un laberinto, los tiempos de reaccin
frente a distintos estmulos, la cantidad de errores que se presentan en alguna actividad
motora, la cantidad de palabras memorizada, entre otras. De ah la ingerencia de las
tcnicas estadsticas en la investigacin psicolgica en donde siempre hay que
operacionalizar los constructos.
2. CONSTRUCTOS
Un constructo es una propiedad que se supone posee una persona, la cual permite explicar
su conducta en determinadas ocasiones. Como tal, el constructo es un concepto terico,
hipottico. Por ejemplo, la inteligencia, la motivacin, la creatividad, las actitudes, etc.
Los constructos se definen como propiedades subyacentes, que no pueden medirse en
forma directa, sino mediante manifestaciones externas de su existencia, es decir, mediante
indicadores. En otras palabras, los constructos son variables subyacentes, por lo cual,
habitualmente, caen en la denominacin comn de variables.
Por su lado, las variables son propiedades, caractersticas o atributos que se dan en
grados o modalidades diferentes en las personas y, por derivacin de ellas, en los grupos o
categoras sociales. As, son variables, la edad, el ingreso, la educacin, el sexo, la
ocupacin, etc., que, como se ve, corresponden a grados diferentes o iguales de darse una
cierta propiedad en las personas o de darse en modalidades diferentes.
La psicologa se caracteriza por el estudio de la conducta y de los atributos que subyacen a
la conducta del individuo. Estos atributos psicolgicos, como los procesos mentales, no
pueden medirse directamente como hacemos con rasgos fsicos tales como la altura o el
peso; son constructos o conceptos hipotticos que forman parte de las teoras que intentan
explicar la conducta humana.
Debido a que los constructos psicolgicos constituyen abstracciones de la realidad que
slo pueden ser evaluadas indirectamente, el desarrollo del proceso de medicin para este
tipo de variables presenta algunos problemas especficos.
No hay una nica aproximacin a la medida de cualquier constructo que sea
universalmente aceptada. Ya que las medidas de un constructo psicolgico son
siempre indirectas, basadas en conductas que se perciben como relevantes al
constructo, siempre existe la posibilidad de que dos teoras diferentes seleccionen
conductas diferentes para definir operacionalmente el constructo.
Las medidas psicolgicas generalmente se basan en muestras limitadas de conducta, lo
que plantea un importante problema a la hora de decidir qu muestras seran
adecuadas y cules insuficientes.
La medida obtenida siempre est sujeta a error. Las medidas en Ciencias del
Comportamiento, como consecuencia de tomar muestras limitadas de conducta y de
trabajar sobre personas, cambian por efecto de factores muy diversos como la fatiga, el
olvido, el aburrimiento, etc.
Escasez de unidades bien definidas en las escalas de medida a las que se ajustan las
variables psicolgicas.
Los constructos psicolgicos no pueden ser expresados exclusivamente en trminos de
definiciones operacionales sino que tambin deben haber demostrado relaciones con
otros constructos o fenmenos observables. Se hace necesario un segundo nivel en el
que los constructos sean definidos en trminos de sus relaciones, ya lgicas ya
matemticas, con otros constructos dentro de un sistema terico amplio.
El grado en el que un individuo posee uno de estos atributos, solamente puede inferirse a
partir de la observacin de su conducta. Este carcter no observable de la mayor parte de
las variables psicolgicas, hace especialmente difcil el diseo de tests o instrumentos para
su medida. Lo cual sucede por ejemplo con la inteligencia, la creatividad, la dependencia
de campo, etc.
De esta manera el constructo debe tener cierta correspondencia con las conductas que se
derivan de l y la manera ms objetiva de establecer este tipo de correspondencias una
vez que se han establecido los items es a travs de la validez de constructo: la
determinacin de que los tems estn referidos al constructo que se ha sealado, a su vez,
la correcta especificacin del constructo en trminos observables.
La validacin de constructo, entendida como las evidencias que apoyan que las conductas
observables del test son indicadores del constructo, es el aspecto esencial de la validez y
permite unificar las otras categoras.
El proceso de definicin de constructos ha sido uno de los principales aspectos que ms
controversias ha creado, ya que siempre en las investigaciones ha sido uno de los
aspectos ms olvidado, por considerarse algo privado-subjetivo, informal o indocumentado.
Estas conclusiones han sido avaladas por los estudios hechos al respecto sobre test de
logros, llevados a cabo por Cronbach (1970) o Roid y Haladyna (1980).
Este tipo de conclusiones nos lleva es a definir los constructos a partir de una serie de
comportamientos manifiestos, es decir, se piensa que un determinado constructo est
determinado de una manera y que a este constructo le corresponde una conducta, y se
afirma que despus de establecer una serie de tems con respecto a esta conducta, el
constructo est formulado y/o se corresponde con la realidad observada.
Los inconvenientes a este tipo de formulaciones o desarrollos, es que se pueden dejar
reas de conducta sin cubrir, as como incluir una serie de conductas que no pertenecen en
realidad al constructo de inters.
De esta manera las formas ms objetivas de desarrollar los constructos son las siguientes:
a) Anlisis de contenidos. Se plantean una serie de cuestiones abiertas a los participantes
sobre el constructo que se quiere evaluar, y sus respuestas se clasifican en tpicos o
temticas. Los tpicos predominantes se toman entonces como componentes mayores
del constructo y a su vez sern los que produzcan mayor proporcin de tems.
b) Revisin de las investigaciones publicadas. Se trata de realizar bsquedas bibliogrficas
relacionadas con el tipo de variables que se quieren medir y establecer
aproximaciones con los items deseables en funcin de lo ms representativo en la
literatura.
c) Incidentes crticos. Se trata de analizar los patrones caractersticos de los extremos del
continuo que se desea medir y en funcin de esto se redactan los tems que permitan
graduar a los sujetos en un atributo determinado.
d) Observacin natural. Observar las conductas relacionados con el constructo a medir en
situaciones naturales y usarlas para definir el constructo y las colaterales a la hora de
establecer los criterios de seleccin de items. Es anlogo al proceso de elaboracin y
construccin de categoras de observacin propio del esquema de investigacin
cualitativo-descriptivo.
e) Juicio de expertos. Recurrir a un experto personas que tienen experiencia de primera
mano con todo aquello que tiene que ver con el constructo- en el tema para que nos
defina el constructo mediante el uso de cuestionarios o entrevistas estandarizadas.
f) Objetivos instruccionales o de programas de intervencin. Es similar al anterior lo que lo
diferencia es la materia a la que va dirigida, en este caso se trata de materias
educativas y en concreto tests de instruccin y se recurre a juicios expertos para que
nos indiquen qu objetivos debe cubrir nuestra investigacin, qu preguntas debe
llevar el cuestionario. Un objetivo instruccional especifica conductas observables que
se deberan de cubrir si el evaluado ha alcanzado el objetivo y por lo tanto conductas
que los estudiantes deben de ser capaces de exhibir despus de haber completado un
curso de instruccin. Estos objetivos sirven para que la persona que construye el test
conozca los contenidos especficos en los que se focalizarn los tems as como la
naturaleza de las tareas que los examinados deberan de ser capaces de realizar.
Como sealan Crocker y Algina (1989) estos mtodos son algunos de los que
podemos usar para definir el dominio en el que estamos interesados, as como la
combinacin de ms de uno de ellos. No obstante hay que destacar que aunque
fundamentados en conceptos tericos, la mayora de estos procedimientos no se
aplican. Lo que puede deberse a cuestiones pragmticas, ya que en los casos en los
que nos sustenta una buena teora se tendrn menos costes y los beneficios sern
mayores, no obstante no hay que olvidar que la ciencia es ms confirmatoria que
exploratoria.
En la formulacin y plasmacin de nuestra teora adems de ayudarnos de nuestro criterio
lgico del tema, hemos recurrido en algn momento a estudiosos del tema, que nos han
sealado las fuentes tericas ms importantes.
Es importante determinar el constructo o atributo, para determinar a su vez el grado en el
que un individuo posee determinado atributo, o este sirve para predecir otro tipo de
constructos. En otras palabras, es preciso plantearse el constructo en su complejidad y
adoptar decisiones en torno a la representatividad de los tems de cara a muestrearlo
adecuadamente. Lo que requiere hacer una diferenciacin entre medidas referidas a la
norma o al criterio.
Medidas como inteligencia, creatividad o desarrollo moral son de inters primario en cuanto
al grado en el que los individuos difieren en la cantidad de atributo. El desarrollo de tests
para diferenciaciones tpicamente requiere:
Conceptualizacin de los componentes mayores que representan el constructo (recordar
el apartado precedente).
Produccin de tems en estas reas.
Seleccin de tems en los cuales se espera un cierto grado de variacin en funcin de la
ejecucin. Es decir, que efectivamente se discrimine a los examinados por el grado de
manifestacin del atributo/constructo. Uno de los anlisis ms importantes viene dado de
hecho por el ndice de discriminacin, tal y como se ver en temas posteriores.
En referencia al constructo, y a las conductas que son derivadas de l, y a partir de los
cuales se forman los items, se van a presentar una serie de items sobre los que se va a
producir al menos una mnima variacin. Puesto que en esta perspectiva la construccin
del test viene dada por la comparacin de la ejecucin diferencial de los diferentes
examinados, estos tests son denominados como referidos a la norma.
En contraposicin, en la medida en la que se establece como algo importante el logro del
propio sujeto con referencia a un objetivo externo, estamos imponiendo medidas con
respecto a criterios, es decir, test referidos al criterio. En estos casos la ejecucin se mide
en trminos ms absolutos de capacidad, por ejemplo para determinar si se ha alcanzado
un nivel de competencia mnima en un aspecto acadmico para evaluar en general la
efectividad de un programa instruccional.
En este nuevo tipo de test, los mtodos del apartado precedente son insuficientes para
definir adecuadamente el constructo. Ms bien se procede de la siguiente manera:
Se empieza fijando un conjunto de objetivos instruccionales.
Se define un dominio de actuacin, llamado domino del tem, ligado a cada objetivo a
partir del cual poder hacer inferencias correctas sobre la base de las puntuaciones en
el test.
Este dominio es su campo o esfera. Una poblacin bien definida de tems a partir de la
que se podra construir ms de una forma paralela- del test, por seleccin de una
muestra de tems a partir de la misma. Por ello tambin se denomina a esta
aproximacin como muestreo de un domino.
Se opta por producir un conjunto de especificaciones del dominio del tem ms que
crear todos los posibles tems uno por uno, de manera que sean tan estructurados que
al concretarlas en tems concretos, stos sean intercambiables.
As se establecen una serie de mtodos para describir los items referidos al dominio, pero
uno de los ms comentados es referido a la especificacin de los items. Este tipo de
procedimiento incluye:
Especificar las fuentes de contenido del tem.
Descripciones del problema o del estmulo.
Caractersticas de respuesta correcta.
Y en el caso de respuestas de eleccin mltiple, la respuesta incorrecta.
3. OPERACIONALIZACIN DE CONSTRUCTOS
La operacionalizacin de constructos es el proceso que va de la definicin de un concepto
al instrumento de medida.
Los constructos es una categora, una abstraccin que se define a travs de la alusin a
otros conceptos, un concepto se define a partir de otros conceptos.
El grado de precisin de la definicin de un constructo, va a depender de los conceptos que
se utilizan en su definicin. Como un concepto se define a partir de otros, segn las
relaciones que tengan entre ellos, de la teora de los otros conceptos, depender la
precisin de un concepto, por ello cuanto mayor es el desarrollo de la teora mayor ser la
precisin en los conceptos.
Los conceptos no se pueden medir directamente, se miden las definiciones operativas de
ese concepto, por ello los conceptos requieren operacionalizacin.
Los conceptos que se manejan en enfermera son vagamente definidos.
Constructo ---- Facetas ---- Dimensiones ---- Indicadores de definiciones operativas.
El Concepto se puede situar en una escala en arreglo a su complejidad y esto depende de
las facetas que contenga.
Facetas o factores de un concepto: son los diferentes aspectos que componen un
concepto, organizados y en estrecha relacin entre ellos. No todos contribuyen de la misma
forma ni en el mismo grado. Ejemplo: Satisfaccin - trato. Facetas que lo componen:
informacin, pericia, continuidad cuidados, organizacin de los cuidados, etc.
Dimensiones: miden los aspectos o facetas, es lo medible dentro del concepto. Ejemplo: se
mide la frecuencia, la intensidad, el ritmo, el ciclo, etc.
Indicadores: son las caractersticas observables. Es traducir un concepto en valoracin
numrica. Ejemplo: la risa, el llanto, la agitacin.
Los hay mejores y peores, para valorarlo hay que tener en cuenta ver un conjunto de
criterios:
Kerlinger (1988, 3 edic.) dice que los constructos pueden ser definidos usando otros
constructos Por ejemplo, al definir inteligencia como la aptitud para pensar en forma
abstracta o como agudez mental. Una definicin es constitutiva cuando define un
constructo por medio de otro constructo. Por ejemplo, definir ansiedad como miedo
subjetivo. Segn Torgerson (1958) todos los constructos para ser tiles cientficamente
deben poseer un significado constitutivo.
Existen otro tipo de definiciones que son las definiciones operacionales. Una definicin
operacional de un constructo se refiere a las operaciones mediante las cuales un
investigador determina la presencia o ausencia (o la magnitud) de un fenmeno. Estas
operaciones son mediciones o registros numricos, por ejemplo: los puntajes de los tests
para medir inteligencia y otras aptitudes, la longitud del recorrido de un ratn en un
laberinto, los tiempos de reaccin frente a distintos estmulos, la cantidad de errores que se
presentan en alguna actividad motora, la cantidad de palabras memorizada, entre otras. De
ah la ingerencia de las tcnicas estadsticas en la investigacin psicolgica en donde
siempre hay que operacionalizar los constructos para poder estudiarlos.
4. TABLA DE ESPECIFICACIONES
En definitiva, se construye una tabla de especificaciones cruzando contenidos y operaciones
y se detallan los tems para cada combinacin, indicando en los mrgenes la proporcin de
tems de cada categora o contenido cubierto.
"Una tabla de especificaciones sirve para relacionar los objetivos con la evaluacin.
Una tabla de especificaciones representa la forma en que la prueba ser diseada, es un plano
previo de ella o un esbozo del alcance y nfasis respecto de los contenidos y objetivos vistos
en clase y en un determinado perodo lectivo.
Es una modalidad de planificacin.
Permite orientar la confeccin de un instrumento evaluativo
Cautela una representatividad a un nivel muy especfico.
Considera como elementos centrales: las conductas y contenidos de los objetivos a evaluar, el
nmero de temes, el tipo, su puntuacin y el tiempo que involucra la respuesta de cada uno
de ellos.
a. CARACTERISTICAS DE LA TABLA DE ESPECIFICACIONES
a. Tener en cuenta los objetivos pretendidos
b. Tener presente la materia o contenidos
c. Determinar la importancia relativa de cada objetivo y rea para darles en el examen una
extensin proporcional a su importancia
d. Seleccionar el tipo de prueba ms adecuada a la situacin
e. Calcular el nmero de preguntas que corresponden a cada objetivo y rea
f. Determinar el grado de dificultad de las preguntas.
g. Hacer un esquema general del examen.
TABLA DE ESPECIFICACIONES
Variable a
medir
Definicin
Dimensiones
Operacionalizacin Indicadores temes
Se consigna
el constructo
Definicin del
constructo,
debe contener
categoras,
dimensiones o
captulos
Miden los
aspectos o
facetas, es lo
medible dentro
del concepto.
Ejemplo: se
mide la
frecuencia, la
intensidad, el
ritmo, el ciclo,
etc.
Se especifica el tipo
de respuesta que se
requiere adecuado al
objetivo que hace
referencia al proceso
subyacente:
Comprender,
analizar, deducir,
inferir
Explicitar el
producto
del contenido
requerido
Para pruebas
objetivas pueden
ser:
Completamiento
Jerarquizacin
Verdadero falso
Aparejamiento
Eleccin mltiple
Ejemplo de Variable: Paranoia
VARIABLE DEFINICION
TEORICA
DIMENSIONES INDICADORES ITEM
PARANOIA
Es una
psicosis
delirante
generalmente
crnicas,
cuya
gravedad
puede variar
segn sea la
estructura de
la
personalidad
que se ve
afectada y se
organizan
como
desarrollos
delirantes.
1. COGNITIVA
Desconfan de las
personas
Enunciados Afirmativos
Siempre sospecho si lo que me dicen no es
verdad.
_No confi fcilmente en mis amigos
_pienso que lo que realice yo siempre estar
bien.
Enunciados Negativos
_Siempre acepto invitaciones de personas
que me llamen la atencin.
_acepto los consejos de mis amigos porque
s que les intereso.
_no cuestiono las explicaciones que me dan
mis allegados.
Abusan del
razonamiento
deductivo que
parten de los
prejuicios
_.Pienso que las personas que usan armas
pueden lastimarme.
_creo que las personas que me miran mucho
estn tramando contra m.
Forman sus
propias
creencias
_Siempre debo fijarse que nadie me este
mirando mucho.
_ No debo sentarme cerca de otras personas
en el autobs.
_Si una persona saluda a mi enamorado(a)
antes que a m, es porque est interesado en
l (la)
Piensan que los
dems quieren
perjudicarlos
_No comparto mis ideas porque s que me
las podrian robar.
_Las personas que se me acercan sin que les
llame deben estar planeando algo contra m.
_siempre confi en los buenos deseos de los
dems
Tienen
pensamiento
obstinado
_Siempre debo hacer lo que pienso sin
importar lo que lo digan los dems
_ Aunque todo este en contra de lo que yo
quiero hacer igual lo hago.
_Siempre defiendo lo que pienso aunque mis
argumentos ya no sean validos para otros.
_ cuando me doy cuenta que mis ideas no
son lgicas desisto de ellas.
_me desagrada aferrarme a algo que me
causa malestar.
Tienen la idea
contante de que
algo malo les
podra suceder
_ S que en algn momento alguien me
querr lastimarme.
_ Debo cuidar mi salud siempre, porque
podra enfermar de algo grave.
_No exagero en mis cuidados personales.
_no me sugestiono con que algo malo me
suceder.
_realizo mis actividades diarias sin la
preocupacin de que una desgracia me
asecha.
Tienen
pensamiento
rgido
_Pienso que slo hay una manera de resolver
un problema.
_ Escucho los consejos de los dems pero
nunca les tomo inters.
_siempre busco diferentes alternativas para
resolver un problema.
Tienen
pensamiento
extremista.
_Si una persona no me apoya significa que no
me estima.
_Si una persona no es mi amiga entonces es
mi enemiga.
_si una persona piensa distinto de m no
significa necesariamente que este
equivocada.
Piensan que sus
ideas triviales
tienen una
verdadera lgica
_Creo que las cosas sin importancia nos
darn las respuestas que buscamos.
_Me preocupo mucho porque s que slo as
me respetaran.
Tienen ideas de
grandiosidad
_Los dems deberan imitar todas mis
actitudes.
_en una reunin social siempre soy el punto
de atencin.
_Las personas me tienen envidia porque
saben que soy la mejor.
_Pienso que todos tenemos algo especial
que demostrar.
Se preocupan
por encontrar
las claves que
revelan las
intenciones de
los dems
_Siempre estoy atenta de las acciones de
algunas personas que me pareciesen
sospechosas para desenmascararlos
_Utilizo artefactos como camaras, filmadoras,
grabadoras para vigilar a ciertos individuos
que no gozan de mi confianza.
_no me interesa observar demasiado a
alguien hasta que comenta un error.
Recuerdan
constantemente
sus malas
experiencias
_Recuerdo perfectamente un momento en mi
vida en el que me humillaron.
_No conservo aquellas experiencias que
fueron desagradables para m.
Piensan que los
dems tienen
sus mismos
prejuicios
_Siempre llevo una vestimenta elegante
porque sino las personas me criticaran.
_Mis amigos (as) no se acercan a las
personas de color porque saben que son de
mal vivir.
_ Al dialogar con alguien noto que esta
cuidando de no mencionarme detalles ntimos
de su vida.
_Las personas no dan datos importantes de
su vida
Por temor a que se aprovechen de ello.
Piensan que
razonan mejor
que los dems
_Nadie que conozco es tan analista como yo.
_Mis conclusiones siempre son las ms
acertadas.
_para realizar un trabajo pienso que dos
cerebros piensan mejor que uno
Creen que
merecen mayor
respeto que los
dems
_Siempre espero que me saluden primero
antes de hacerlo yo.
_No me agrada tener que esperar turno para
que se me atienda.
_pienso que todos tenemos los mismos
derechos.
Se preocupan
en exceso de la
fidelidad de
quienes los
rodea
_no me es suficiente las explicaciones de mi
pareja.
_Siempre exijo pruebas para poder creer en
lo que me dicen.
_vigilo a mi pareja para comprobar si lo que
me dice es cierto.
_no dudo de las explicaciones de mi pareja
_ no necesito seguir a alguien para creer en lo
que me dice.
Temen dar
informacin que
pueda ser
utilizada como
arma por sus
enemigos.
_temo que si comparto mis vivencias lo usen
para daarme.
_siento angustia cuando alguien quiere ser mi
amigo.
LECCION 4
ELABORACION DE LOS ITEMS
1. INTRODUCCION
Mientras que la mayora de los atributos fsicos (altura, peso, etc.) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser
conceptualizaciones tericas que no son accesibles a la medicin directa y para los que no
existen "metros" o "balanzas" diseados para medirlos de manera precisa. La actitud hacia
el aborto, el nivel de cohesin grupal, el grado de extroversin, el cociente intelectual, la
postura hacia el consumo de drogas, el grado de liderazgo, todos ellos son constructos que
deben medirse mediante instrumentos especficamente diseados: los tests, cuestionarios
o inventarios. Nadie dudara de que un metro bien diseado mide longitud y que lo hace de
manera precisa, pero la bondad y la precisin de un cuestionario no se puede presuponer;
ms bien son una cuestin de grado y siempre susceptibles de mejora.
En definitiva, un cuestionario est formado por una serie de elementos o tems (elementos,
reactivos, preguntas, cuestiones, situaciones anlogas) a los que cada individuo debe
responder. Despus de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuacin (a veces varias) a esa persona respecto
al constructo o atributo que se pretende medir con el cuestionario, una puntuacin que
debera indicar el grado en que la persona participa del atributo, constructo o rasgo a
evaluar.
Nos enfrentamos as a un proceso de medicin indirecta que incluye la misma construccin
del instrumento de medida, proceso que se inicia con la definicin clara del constructo a
evaluar.
2. ELABORACION DE ITEMS
Conjunto de enunciado, cuyo objetivo es medir las caractersticas de un constructo.
Es una unidad bsica de informacin de un instrumento de evaluacin y generalmente
consta de una jerarqua y de una respuesta cerrada o abierta.
La definicin de cada tem ha de ser exhaustiva y mutuamente excluyente. Por otro lado, al
formular la pregunta deben tenerse en cuenta factores como la comprensin, as como la
aceptabilidad para el paciente.
Se deben utilizar preguntas breves y fciles comprensin. No emplear palabras que
induzcan una reaccin estereotipada. No redactar preguntas en forma negativa. Evitar el
uso de las interrogaciones (por qu). No formular preguntas tan obvias. Evitar preguntas
que obliguen el uso de clculos o memoria. Los tems deben de ordenarse de acuerdo a su
complejidad.
Segn lo afirman Tornimbeni (2004) existen pautas convencionales para la redaccin de
tems de prueba. Estas incluyen recomendaciones tales como: redactar tems congruentes
con el objetivo de medicin y evitar los tems demasiado largos (de ms de 20 vocablos),
las oraciones complejas con ambigedades de sentido, las frases con dobles negaciones,
el uso de expresiones extremas (nunca, siempre, todos) y utilizar el lenguaje ms
apropiado al nivel de maduracin y educativo de la poblacin (Osterlind, 1990).
Para Nunnally (1991) los dos errores ms comunes en la redaccin de tems son: a)
ambigedad (preguntas difusas que admiten varias respuestas) y b) trivialidad (centrarse
en aspectos poco importantes del rasgo o dominio en cuestin).
Existen formatos de seleccin de respuesta y de construccin de respuesta, los primeros
facilitan la calificacin automatizada y pueden aplicarse con facilidad a gran cantidad de
evaluados. El formato de seleccin de respuesta en presentar una eleccin de respuestas y
requerir la seleccin de una alternativa. Existen tres tipos: los tems de opcin mltiple, los
tems de relacin y los tems de verdadero/falso. Un reactivo de opcin mltiple consta de
tres elementos un enunciado o base del tem, una alternativa u opcin correcta o clave y
varias alternativas u opciones incorrectas llamadas distractores.
3. REGLAS GENERALES
a. Verificar que el tem corresponda con los propsitos de la evaluacin, la estructura de
la prueba y con las dimensiones disciplinares Todas las preguntas de una prueba
deben ser independientes entre s.
b. La informacin de un tem no debe servir de pauta para contestar otra, ni la respuesta a
un tem debe depender de haber encontrado primero la de otra anterior.
c. Evitar los tems que pueden contestarse por sentido comn y aquellos cuya respuesta
dependa nicamente de recordar un trmino, un smbolo, un dato o la fecha en que
ocurri un evento.
d. Evitar expresiones rebuscadas que puedan confundir. Se recomienda emplear un
lenguaje directo, sencillo y comprensible.
e. Los tems no deben tener juicios de valores explcitos o implcitos.
4. REGLAS SOBRE LOS ENUNCIADOS
a. Los enunciados deben ser afirmativos, en caso de ser necesaria la negacin, se debe
resaltar para llamar la atencin hacia la formulacin negativa. La doble negacin afecta
la comprensin (No es cierto que no procedan los recursos).
b. Evitar enunciados demasiado extensos y poco atractivos ya que desmotivan la lectura,
disminuyen el tiempo de respuesta y fatigan.
c. Garantizar la coherencia interna del enunciado y de este con las opciones de
respuesta.
5. REGLAS SOBRE LAS OPCIONES
a. Las opciones de respuesta deben pertenecer al mismo campo semntico.
b. Las opciones de un tem no deben dar indicaciones sobre la clave por ofrecer un cierto
contraste evidente de:
o longitud precisin / imprecisin
o uso comn / tcnico
o generalizacin/particularizacin
c. No se deben repetir expresiones en las opciones de respuesta, si stas se pueden
incluir en el enunciado del tem. Repetir la misma palabra del enunciado en cualquiera
de las opciones lleva a que sea elegida como respuesta, sin serlo necesariamente.
d. Debe evitarse en las opciones las expresiones todas o ninguna de las anteriores, en
su lugar es necesario construir alternativas de respuesta plausibles para las personas
que no tengan el dominio conceptual que exige el tem.
e. Realizar una revisin gramatical y ortogrfica de cada uno de los tems.
6. REACTIVOS DE ENSAYO
a. Requieren menos tiempo para la elaboracin
b. Reducen la probabilidad de que los examinandos respondan en forma correcta a los
reactivos por simple adivinacin.
c. A veces son tan generales que pueden ser interpretadas de manera diferente por
diferentes personas.
d. El nmero de preguntas que pueden ser respondidas generalmente en una clase
puede ser insuficiente para determinar el conocimiento que tiene una persona de la
materia de la prueba.
e. Otra desventaja que presentan las pruebas de ensayo son la susceptibilidad al engao
por los individuos con facilidad de palabra que no cuentan con informacin
f. Su calificacin es subjetiva y lleva mucho tiempo.
g. Como regla general no debern usarse reactivos de ensayo cuando el mismo
conocimiento o habilidad puedan ser evaluados por reactivos objetivos.
h. Cuando se plantean preguntas de ensayo, la persona que redacta los objetivos debe
tener en cuenta una serie de indicaciones para tratar de hacer las preguntas de manera
tan objetiva como sea posible:
o Definir la tarea y redactar los reactivos de manera clara
o usar un nmero pequeo de reactivos que debern responder todos los
examinados
o estructurar la respuesta de los reactivos de forma que los expertos en la materia
estn de acuerdo que una respuesta es mejor que otra
o hacer que los examinandos respondan a cada reactivo en una hoja por separado
7. REACTIVOS DE RESPUESTA CORTA, DE VERDADERO Y FALSO Y DE
APAREJAMIENTO
a. Pueden calificarse de manera fcil e imparcial
b. Permiten un muestreo ms amplio del contenido que en las pruebas de ensayo.
c. Al preparar las pruebas objetivas debe tenerse cuidado de lograr que los reactivos
resulten claros, precisos y gramaticalmente correctos.
d. Las personas que redactan reactivos deben tener sumo cuidado de no incluir claves
para las respuestas correctas y evitar los reactivos interrelacionados o entrelazados.
o Dos reactivos estn interrelacionados cuando el planteamiento de uno proporciona
una seal para la respuesta del otro.
o Dos reactivos estn entrelazados cuando es necesario conocer la respuesta a uno
de ellos para llegar a la respuesta correcta del otro.
8. REACTIVOS DE RESPUESTA CORTA
a. Se encuentran a caballo entre los reactivos de ensayo y los reactivos de
reconocimiento.
b. Se plantea una tarea en la que se requiere que los examinados completen uno o ms
espacios en blanco de una afirmacin incompleta con las palabras o frases correctas, o
que den una respuesta breve a una pregunta.
c. Tienen serias limitaciones :
o Son inapropiados para medir objetivos instruccionales complejos
o Debido a que puede haber ms de una respuesta correcta, la calificacin no
siempre es por completo objetiva
d. Al elaborar reactivos de respuesta corta debern seguirse las siguientes directrices:
o Las preguntas directas son preferibles a las afirmaciones incompletas.
o Plantee los reactivos de forma que las respuestas sean breves y no ambiguas.
o Si se utiliza informacin incompleta, coloque el espacio en blanco al final de la
afirmacin.
o Haga que todos los espacios en blanco sean de la misma extensin.
o Evite usar mltiples espacios en blanco en el mismo reactivo, en especial si es
poco claro el significado de la tarea.
o Indique las unidades en que se deben expresar las respuestas numricas.
9. REACTIVOS DE VERDADERO Y FALSO
a. Es de los ms sencillo de elaborar
b. Permiten un amplio rastreo del contenido de la materia
c. Inconvenientes:
o Se interesan por informacin trivial o se elaboran copiando afirmaciones literales
de un texto.
o Fomentan la memorizacin
o Son de carcter ambiguo
o No pueden usarse para medir objetivos instruccionales ms complejos.
o Debido a que la calificacin total de una prueba de este tipo, puede estar afectada
por la tendencia del examinado a adivinar, la precisin de la calificacin puede ser
cuestionable.
d. Sirven para afirmar el grado de dominio que tienen los estudiantes en un rea particular
del conocimiento
e. Si los reactivos estn bien diseados, pueden medir ms que la simple memoria. Para
ello podemos preguntar si:
o un concepto, condicin o evento implica o es una consecuencia de otro evento
o un concepto, condicin o evento es un subconjunto, ejemplo o categora de otro
evento
o ambos conceptos, condiciones o eventos son verdaderos
f. A la hora de elaborar reactivos es recomendable que atendamos a las siguientes
sugerencias:
o Las afirmaciones plantean asuntos importantes, de un carcter que no es rival.
o Afirmaciones relativamente cortas, y verdaderas o falsas sin lugar a dudas.
o Evitar los reactivos planteados de forma negativa, especialmente los de doble
negacin.
o Evitar los reactivos ambiguos y capciosos.
o Evite los determinantes especficos del tipo nunca, siempre, a menudo, en
ocasionesE n caso de que se usen deben incluirse tanto en las afirmaciones
verdaderas como en las falsas.
o En las afirmaciones de opinin, cite la fuente.
o Las afirmaciones verdaderas y las falsas deben ser aproximadamente de la misma
longitud y el nmero de afirmaciones verdaderas debe ser similar al de las falsas.
o Las respuestas errneas debemos plantearlas de modo ms atractivo que las
falsas, de tal manera que los errores populares o los determinantes especficos
sugieran que las respuestas errneas son correctas.
10. REACTIVOS DE EMPAREJAMIENTO
a. Tanto los reactivos de verdadero y falso como los de opcin mltiple son en cierto
sentido, variedades de los reactivos de aparejamiento.
o La tarea del examinando en un reactivo de aparejamiento es acoplar las opciones
con la respuesta correcta.
o El aparejamiento normalmente es uno a uno, pero tambin puede ser de una
respuesta a varias premisas, de varias respuestas a una premisa o de varias
respuestas a varias premisas.
b. Lamentablemente los reactivos de aparejamiento se utilizan normalmente para la
memorizacin de acontecimientos.
c. Para la elaboracin de los reactivos de acontecimiento es preciso que tengamos en
cuenta una serie de consideraciones:
o Ordenar la premisa y las opciones de respuesta en un formato claro y lgico de
columnas.
o Usar entre seis y quince premisas, con dos o tres opciones de respuesta ms que
premisas.
o Numerar las premisas de manera sucesiva y colocar letras (a, b, etc.) antes de las
respuestas
o Especificar con claridad las bases para realizar el aparejamiento.
o Colocar todo el reactivo en una sola pgina.
d. Hay dos tipos especiales de reactivos de aparejamiento el reactivo de reordenamiento,
en el cual se requiere que los examinados clasifiquen un nmero fijo de categoras
predeterminadas. Tambin hay otro tipo de reactivos conocidos como reactivo de
rango, los individuos reordenan un conjunto de opciones en orden de la primera a la
ltima (de la ms alta a la ms baja).
11. SELECCIN MLTIPLE CON NICA RESPUESTA
Las partes bsicas de un tem de seleccin mltiple son el contexto, el enunciado y las
opciones de respuesta, como se muestra en el grfico.
a. CONTEXTO
Es la informacin que sita conceptualmente al evaluado. Provee elementos
necesarios y suficientes para focalizar la tarea de evaluacin. En un sentido amplio, el
contexto abarca todo el saber previo del evaluado sobre el objeto de evaluacin; no
obstante, en el proceso de elaboracin de un tem, es usual que el evaluador encuentre
pertinente y necesario presentar un texto u otro tipo de informacin que contribuya a
precisar las condiciones del problema, las variables que es prudente considerar, o para
ubicar en el tiempo y en el espacio la problemtica, etc. El contexto puede ser un texto
por ejemplo, en tems de comprensin de lectura-, una grfica, un dibujo, una tabla o
cualquier otra forma de presentacin de la informacin a partir de la cual se deriva el
enunciado. La seleccin o elaboracin del contexto es una labor exigente en cuanto su
propsito es justamente contextualizar y no confundir al evaluado; debe estar articulado
con la tarea de evaluacin y no debe convertirse en factor que disminuya del tiempo
disponible para responder; es decir, su extensin y complejidad deben considerarse,
tambin, a la luz de las condiciones logsticas de la evaluacin.
b. ENUNCIADO
Es el planteamiento, propiamente dicho, de la problemtica que se espera sea resuelta
por el evaluado. En el enunciado se hace explcita la tarea de evaluacin y, por tanto,
dirige el esfuerzo del evaluado para generar o seleccionar una respuesta, por lo cual es
fundamental que est escrito en lenguaje claro y preciso.
Tradicionalmente los enunciados de tems de seleccin mltiple se plantean en forma
de pregunta, o como una proposicin. En el primer caso, las opciones se redactan
como respuestas a la pregunta; en el segundo caso, el enunciado constituye la primera
parte de una proposicin y cada una de las opciones debe completar coherentemente
el enunciado.
La utilizacin de una u otra forma de plantear el enunciado es decisin del evaluador y
generalmente tiene que ver con la facilidad para redactar, tanto el enunciado como las
opciones. Conviene tener en cuenta, eso s, que la redaccin en forma de pregunta
resulta mucho ms clara para poblaciones infantiles; es decir, los nios parecen
responder mejor a la tarea de evaluacin cuando el enunciado es una pregunta que
cuando es una proposicin incompleta. Cualquiera sea la forma en que se redacte el
enunciado, es importante verificar su claridad, precisin y articulacin con las opciones
de respuesta.
c. OPCIONES DE RESPUESTA
Las opciones son posibles respuestas a la problemtica planteada en el enunciado. En
el formato de seleccin mltiple con nica respuesta, como su nombre lo indica, slo
una de estas opciones es verdaderamente pertinente y completa para solucionar el
problema tarea de evaluacin-; las dems opciones, aunque pueden ser vistas como
respuestas plausibles por los evaluados que no dominan la tarea de evaluacin, no
responden en forma completa o pertinente a la problemtica formulada.
Otros formatos de seleccin admiten ms de una opcin como respuesta vlida. En la
actualidad, cada vez con ms frecuencia, los instrumentos de evaluacin educativa
incorporan formatos de tems en los cuales cada opcin de respuesta es ponderada de
acuerdo con su grado de validez o pertinencia; es lo que se denomina tems de crdito
parcial, y su elaboracin supone que todas las opciones son respuestas vlidas,
aunque cada una en distinto grado, dependiendo de diferentes condiciones planteadas
o posibles de inferir del contexto y del enunciado. Se busca con este tipo de tems, ms
que valorar, en una categorizacin dicotmica, si el evaluado respondi o no respondi
a la tarea de evaluacin, que sea posible identificar perfiles o estilos de desempeo.
12. REGLAS PARA LA ELABORACIN DE TEMS DE SELECCIN MLTIPLE CON NICA
RESPUESTA
a. ASPECTOS GENERALES
No es recomendable trabajar contrarreloj cuando se busca tener un instrumento de
calidad. Haga una programacin juiciosa de todas las fases del diseo del
instrumento y, particularmente, de la fase de elaboracin de tems contemplando
tiempos de revisin, ajustes y edicin.
Conforme el equipo de trabajo con base en las competencias de cada miembro y en
su saber sobre el objeto de evaluacin; el dominio en la disciplina o campo que se
evaluar debe combinarse con el conocimiento en medicin y evaluacin. En lo
posible, cuente con el apoyo de alguien con experiencia en el tema.
Planee sesiones de induccin para quienes vayan a elaborar tems y asegrese de
que comprenden el propsito del instrumento y los dems planteamientos bsicos del
marco de fundamentacin y de las especificaciones de prueba. Si se trata de
personas sin experiencia, deben ser entrenados adems en las tcnicas de
elaboracin de tems.
Un buen tem, por lo general, ha experimentado toda una metamorfosis desde su
versin original. Durante la fase de elaboracin de los tems, realice sesiones de
socializacin o anlisis conjunto de los tems elaborados por cada miembro del
equipo, con el fin de que cada uno tenga oportunidad de hacer aportes a la
cualificacin de todos los tems (tanto en lo que refiere a la forma como al contenido).
Evite usar eufemismos y prefiera un lenguaje directo, sin sacrificar el nivel tcnico y
acadmico del proceso. La claridad y concrecin en el lenguaje debe ser una
consideracin permanente; utilice dibujos, grficos o tablas slo si estos en realidad
aportan a la comprensin de la tarea de evaluacin; tenga en cuenta el tiempo que el
evaluado debe emplear para leer instrucciones, contextos, enunciados y opciones, y
el tiempo total del cual dispone para responder.
Asegrese de que en ninguna parte del instrumento (portada, textos, instrucciones,
tems, etc.) haya errores de ortografa, de gramtica o de puntuacin, que no se
incluya incorrectamente abreviaciones, citas, nombres, cifras, fechas, etc.
13. REGLAS SOBRE EL CONTENIDO DE LOS TEMS
Evite elaborar tems que confunden al evaluado. Diferentes estudios han establecido
cules son algunas de las situaciones que llevan a percibir los tems como confusos;
entre stas estn:
a) Contenido trivial
b) Presencia de informacin irrelevante
c) Presentacin ambigua de las opciones de respuesta
d) Discriminacin muy fina difcil de percibir entre las opciones de respuesta
e) Presentacin de informacin en modo distinto a como ha sido aprendida por la
poblacin evaluada, dentro de su proceso educativo.
Cada tem debe corresponder a una tarea de evaluacin definida en la estructura de
prueba.
Evite evaluar el mismo aspecto especfico con varios tems. Aproveche cada tem
para hacer cada vez ms completa la evaluacin.
Plantee una sola problemtica en cada tem.
Evite tems que incluyan posiciones ideolgicas o prejuicios; tenga en cuenta que las
proposiciones prejuiciosas pueden resultar en una ofensa para cualquiera de los
evaluados. Se excepta esta recomendacin si justamente dichas posiciones son el
objeto de evaluacin; entonces ser obligatorio incluirlas.
El vocabulario utilizado debe ser adecuado para la poblacin objetivo.
Cada tem debe ser independiente y no proveer informacin para responder a otros.
No utilice tems que aparezcan en libros, revistas u otros documentos, como base
para sus tems. Elabore tems originales.
Evite tems en los cuales se indague la opinin (parecer no argumentado) del
evaluado (a menos que el instrumento justamente pretenda servir para un sondeo de
opinin).
Evite plantear tems cuya respuesta vlida se determine segn la opinin de quien la
elabora.
Balancee la complejidad de los tems para que el instrumento cubra los niveles de
habilidad de la poblacin objetivo, es decir, la prueba debe incluir tems de dificultad
alta, media y baja.
14. REGLAS SOBRE CONSTRUCCIN DEL ENUNCIADO
Si plantea el enunciado en forma de proposicin incompleta asegrese de usar
conjugaciones verbales, gnero y nmero adecuados para las opciones de respuesta
que plantear. Si lo escribe en forma de pregunta asegrese de usar adecuadamente
signos de interrogacin y la estructura gramatical de una pregunta.
Presente en el enunciado la tarea de evaluacin.
Escriba con claridad.
Evite texto excesivo.
Redacte el enunciado en forma positiva; es decir, evite negaciones.
15. REGLAS SOBRE CONSTRUCCIN DE OPCIONES DE RESPUESTA
Asegure la concordancia gramatical entre la proposicin del enunciado y cada opcin.
Organice las opciones en un orden lgico (alfabtico, longitud, etc.) o numrico.
Mantenga la independencia entre las opciones. stas no deben solaparse o
intersectarse y no deben ser sinnimas.
Refirase en todas las opciones al problema planteado en el enunciado. Evite opciones
fcilmente descartables.
Elabore opciones de respuesta de longitud similar.
Evite colocar como opcin:
- Todos los anteriores
- Ninguno de los anteriores
- A y B son correctas (o cualquier combinacin de opciones)
- No s
Redacte las opciones en forma positiva, es decir, evite negaciones. Si debe colocar una
negacin, resltela (use negrilla o maysculas sostenidas).
No repita en las opciones frases contenidas en el enunciado.
Elabore tems con 4 opciones de respuesta. Elaborar opciones plausibles es
dispendioso; seguramente ganar calidad en las que redacte si no son demasiadas.
Hay referencia de distintos estudios que analizaron la cantidad de opciones tiles para
los propsitos de evaluacin12 13 ; si bien no existe consenso alrededor de un nico
nmero de opciones, se encuentra a menudo conveniente, en cuanto a facilidad de
redaccin y capacidad de discriminacin, trabajar con 4 opciones; para poblaciones de
infantes puede ser conveniente usar 3 opciones.
Evite en las opciones el uso de adverbios como: Siempre Nunca Totalmente
Absolutamente Completamente
La posicin de la opcin vlida debe balancearse entre todos los tems del instrumento.
Es recomendable que aparezca proporcionalmente en cada posicin posible.
Evite que la opcin vlida pueda ser identificada fcilmente por contraste con las dems
opciones, por alguna de las siguientes situaciones:
- tener la mayor longitud
- ser la proposicin de mayor precisin o imprecisin
- estar redactada en un tipo lenguaje diferente (tcnico o comn)
- tener el mayor nivel de generalizacin o de particularidad
- tener las mismas palabras que el enunciado
- referirse a una problemtica o tema diferente
Justifique adecuadamente cada una de las opciones para garantizar que slo hay una
vlida y que las dems son plausibles para quienes no dominan completamente la
tarea de evaluacin
16. FORMACIN Y REPRODUCCIN DE UN TEST
Antes de formar un prueba deben tomarse decisiones finales sobre asuntos tales como si
la longitud de la prueba se ajusta para los lmites de tiempo, la agrupacin u ordenacin de
los reactivos en las pginas del cuadernillo de prueba, dnde se marcarn las respuestas,
la reproduccin del cuadernillo de la prueba y la hoja de respuestas, la informacin que
debe incluirse en las instrucciones de la prueba.
a. Extensin de la prueba
Hay que tener en cuenta los lmites de tiempo, el grado y nivel de lectura de los
examinados, la extensin y dificultad de los reactivos.
o La experiencia previa con reactivos del mismo tipo general que los incluidos
en una prueba es un indicio que nos ayuda a determinar si los lmites de
tiempo son apropiados.
o Responder a una pregunta de opcin mltiple lleva el mismo tiempo que
contestar a 2 de V F
o A menos que los reactivos sean muy largos o demasiado difciles la mayora de
los estudiantes terminarn la prueba en el tiempo asignada.
o Existen diferencias entre los estudiantes en cuanto al tiempo que requieren
para terminar una prueba.
Hay un conjunto de factores que interaccionan entre s (preparacin, personalidad,
estado emocional y fsico del estudiante, naturaleza, dificultad del material de la prueba
y del ambiente del examen) haciendo difcil predecir cunto tiempo le llevar a un
alumno terminar una determinada prueba.
b. Ordenamiento de los reactivos
o Es un indicio que tienen en consideracin los estudiantes cuando estn indecisos
de qu respuesta es ms probable. De hecho es ms posible que elijan las
opciones b y c que otras como a y d.
o Es aconsejable ordenar los reactivos de opcin mltiple y de verdadero y falso de
tal manera que no sigan un patrn, por ejemplo ordenarlos por orden alfabtico o
aleatorizando las opciones.
o En los reactivos de aparejamiento o reordenamiento, la tarea de los examinados no
es tan ardua para el examinado si colocamos todas las premisas y opciones de
respuesta en la misma pgina.
o Colocar los reactivos de respuesta corta en grupos de cinco o algo as tambin
puede reducir los errores al presentar y cualificar una prueba.
o Debe proporcionarse espacio suficiente para responder a los reactivos de
respuesta corta y a los de ensayo.
o Podemos suponer que la tarea de los examinados es ms sencilla cuando se
agrupan juntos reactivos del mismo tipo, pero la evidencia al respecto no es
concluyente.
o En aquellas pruebas que contienen reactivos objetivos y reactivos de ensayo, estos
ltimos suelen colocarse al final puesto que requieren ms tiempo y diferentes
procesos de pensamiento que los primeros.
o El principal objetivo de los diseadores debe ser preocuparse menos por el
ordenamiento de los reactivos e interesarse ms en asegurarse de que estn bien
escritos y que miden lo que se supone que deben medir.
c. Hoja de respuestas
o En la mayora de las pruebas que se administran en un aula, especialmente en los
primeros grados, es aconsejable que los estudiantes marquen o escriban sus
respuestas en el cuadernillo de la prueba ya que ello genera menos errores al
indicar la respuesta.
o En los reactivos objetivos tambin facilita la calificacin el hecho de que los
examinados escriban las letras o respuestas en los espacios marginales
situados a la izquierda de las preguntas.
o Las hojas de respuesta por separado, que son ms fciles de calificar, pueden
usarse a partir de los ltimos aos de la escuela elemental.
d. Instrucciones en los tests
o Es aconsejable escribir las instrucciones en negrita para evitar que los
examinados las salten
o En una prueba individual las instrucciones se dan de manera oral.
o Indiferentemente de si las instrucciones se dan de manera oral o escrita, en ellas
debe informarse a los examinados sobre cul es el propsito de la prueba, cmo
deben indicarse las respuestas, el tipo de ayuda que pueden esperar si no
entienden algo, tiempo que tienen para terminar la prueba, calificacin de las
respuesta, si es recomendable adivinar cuando se tenga duda y cmo corregir si
cometieron un error.
o Cuando las instrucciones se den de manera oral deben leerse de forma lenta, clara
y exactamente como aparecen impresas. Adems despus de haber ledo las
instrucciones debe permitirse a los examinados hacer preguntas.
o En las pruebas de respuesta mltiple hay una gran variedad de temas y/o
tipos de reactivos en los que es necesario dar instrucciones especficas de
cada parte. Las instrucciones que ataen a muchos de los mismos asuntos
pueden variar con el tipo de reactivos objetivos.
TERCERA UNIDAD
VALIDACION DE LOS TEST PSICOMETRICOS
LECCION 1
ANALISIS DE ITEMS
1. INTRODUCCION
Se aplica el pre-test, a una muestra representativa de la poblacin o universo a la cual est
destinada la prueba y con los resultados que se obtengan se efectuar el anlisis de
temes.
Los tests psicomtricos deben satisfacer ciertos requisitos inherentes a todo recurso
destinado a la medicin, con el objeto de que sus resultados presenten la mayor
correspondencia con la realidad. En tal sentido, los psiclogos tratan de demostrar que
sus pruebas miden realmente aquello para la cual fueron elaboradas; que dichas
mediciones contienen un margen de error estndar tolerable de medida y que los
resultados que nos ofrecen, permiten describir, clasificar y/o predecir algn aspecto del
comportamiento de los testados a los cuales se les ha aplicado dichos instrumentos.
Los procedimientos para satisfacer tales requisitos pueden diferir en mayor o menor grado,
pero todos suponen un anlisis estadstico de parmetros que la psicometra utiliza
comnmente. El anlisis de temes es uno de los recursos bsicos utilizados en la
construccin de instrumentos de medicin utilizables en psicologa, educacin y otros
campos relacionados (Tavella, 1978).
Para su realizacin, el anlisis de temes requiere de un psiclogo con conocimientos en
estadstica. Si bien existen en la actualidad programas para computadoras con los que se
realizan sofisticados anlisis de temes , cuyo paso superior es el anlisis factorial, es
conveniente que el profesional psiclogo tenga un conocimiento detallado de estos
procedimientos de anlisis para una mejor interpretacin y evaluacin de los resultados de
las pruebas.
2. ANALISIS DE ITEMS
Es el estudio de las propiedades de los elementos (preguntas) de un test directamente
relacionada con las propiedades de ste.
Es la capacidad que posee cada tem para discriminar entre aquellos sujetos que alcanzan
objetivos buscado, nos permite determinar fcilmente el grado con que esta propiedad se
cumple.
Es un conjunto de procedimientos estadsticos que tienen por objeto conocer el
comportamiento de cada una de las unidades bsicas del test (temes), y el de su conjunto.
El uso de recursos estadsticos y la interpretacin de esa informacin permite asegurar la
validez, confiabilidad, eficiencia predictiva, etc., del test en construccin (Tavella, 1978).
El anlisis de temes no implica un procedimiento mecnico, pero impone un riguroso
respeto a un conjunto de normas cuya violacin perjudica la validez de los de los
resultados obtenidos con el anlisis estadstico.
El anlisis de temes puede realizarse tambin en un test ya construido como es el caso de
pruebas extranjeras que son trados a nuestro pas. En este caso, dichos tests deben ser
adaptados y luego sometidos a un anlisis de temes para averiguar sus cualidades
psicomtricas en nuestras poblaciones. Para efectuar dicho anlisis, el psiclogo debe
obtener la informacin ms amplia posible acerca de la prueba (debe consultar artculos
cientficos, manuales, monografas, tcnicas, etc.), lo cual permitir orientar
productivamente la adaptacin y el anlisis.
Es determinar el funcionamiento real de cada uno de los tems o preguntas de un examen,
y la frecuencia con que cada una de las posibles respuestas fue elegida por los sujetos.
3. Etapas del anlisis de temes
a. El psiclogo debe seleccionar la muestra a la cual se aplicar el pretest para investigar
el comportamiento psicomtrico de la prueba en su conjunto, de sus subtests (si los
hubiera), y de cada uno de los temes que componen los subtests y la totalidad del test.
Es necesario que dicha muestra sea extrada al azar (mediante las tcnicas de
muestreo), de la poblacin a la cual est destinada la prueba; la muestra debe tener un
tamao suficiente (el psiclogo debe estudiar los tipos de muestreo probabilstica y los
procedimientos para estimar los tamaos de muestras necesarios).
b. El psiclogo debe tomar las medidas necesarias para asegurarse que el pretest sea
administrado de acuerdo con los requisitos que permitan el mximo aprovechamiento
de la informacin recogida durante la aplicacin. Entre las medidas ms importantes
tenemos:
b.1 Antes de la aplicacin, reunir y revisar los materiales: cuadernillos, protocolos u
hojas de respuesta, lpices, borrador, tajador, cronmetro, etc. El material debe
tener un nmero suficiente para los examinados y estar en estado impecable de
presentacin.
b.2 Decidir que harn los examinados que terminan antes del tiempo previsto,
abandonarn el aula? se les asignar una tarea adicional?, etc.
b.3 Organizar el lugar fsico de la aplicacin: ambiente adecuado, iluminacin, fro,
calor, ventilacin; prevenir interrupciones innecesarias; comprobar que todos los
examinados estn cmodamente sentados y separados suficientemente.
b.4 Distribuir los materiales a los testados (cuadernillos, etc.)
b.5 Pedir a los examinados que llenen toda la informacin solicitada en el protocolo u
hoja de respuestas.
b.6 Leer en voz alta las instrucciones de la prueba y la manera como los examinados
deben registrar sus respuestas (marcar un aspa, encerrar en un crculo, sombrear
espacios, etc.
b.7 Dar las instrucciones respecto de lo que deben de hacer los examinados que
terminan antes del tiempo previsto.
b.8 Comprobar durante la aplicacin si los testados estn registrando sus respuestas
adecuadamente o en la forma indicada.
b.9 Si surge un inconveniente con el contenido de alguna pregunta, la cual implique
una revisin rpida por parte de los examinadores, indicar al testado que, por el
momento pase al siguiente reactivo.
b.10 Es conveniente, por razones de seguridad y vigilancia, considerar un nmero
suficiente de ayudantes en la aplicacin de las pruebas, que eviten cualquier
posibilidad de copia u acto doloso.
b.11 Concluida la aplicacin, recoger ordenadamente los materiales empezando por los
protocolos u hojas de respuesta.
b.12 Luego, en un recinto cmodo, analizar cada hoja de respuesta minuciosamente y
observar:
Si hay reactivos a los que se les ha dado ms de una respuesta, tratar de
determinar si alguna de ellas es la que el probando considera vlida y si esto
no es posible, anular todas las alternativas que el testado ha marcado.
Sealar las respuestas omitidas o no contestadas tachando los espacios
vacios.
En la calificacin o cmputo, contabilizar las respuestas correctas y registrar el
puntaje directo, crudo o bruto en el espacio o recuadro correspondiente en el
protocolo u hoja de respuestas.
Siempre que sea posible, verificar el cmputo, haciendo que otra persona
califique nuevamente los protocolos u hojas de respuestas.
c. El psiclogo debe planificar el registro y el tratamiento de la informacin, de acuerdo
con los medios disponibles para el tratamiento estadstico de los datos, en virtud a los
siguientes pasos:
c.1 Ordenar los protocolos u hojas de respuesta en estricto orden de mritos, desde
el puntaje ms alto hasta el puntaje ms bajo.
c.2 Elaborar una matriz de puntajes de itemes binarios o dicotmicos (conjunto de
hileras o renglones y columnas ordenadas de manera horizontal y vertical,
respectivamente), en donde, los datos correspondientes a las hileras
corresponden a la performance de cada uno de los testados; en tanto que la
informacin proveniente de las columnas corresponde al funcionamiento de los
temes).
c.3 Computar los valores p de cada tem (proporcin de respuesta correcta que
alcanz cada reactivo), y q (proporcin de respuesta incorrecta que alcanz
cada item).
c.4Calcular la varianza de cada item, que implica multiplicar la proporcin de
respuesta correcta por la proporcin de respuesta incorrecta (pq), as como
tambin calcular la desviacin estndar del item que implica la raiz cuadrada de
la varianza.
c.5 Computar si la distribucin de puntajes sigue un patrn normal (campana o curva
de Gauss), a travs de las pruebas de Kolmogorov-Smirnov, Ji cuadrada o los
coeficientes de asimetra (alfa 3) y curtosis (alfa 4).
c.6 Calcular la media o promedio aritmtico, la varianza y la desviacin estndar de
las puntuaciones totales del item (y de las parciales en el caso de que hubiera
subtests).
c.7 Computar los coeficientes de consistencia interna del test ( o de los subtests en
caso los hubiere), a travs de los coeficientes Kuder Richardson (KR).
c.8 Calcular los ndices de homogeneidad (IH) de cada reactivo a travs de los
coeficientes de correlacin entre el tem y el test (representado por la columna de
puntaje directo o puntaje compuesto); en buena cuenta se trata de una
correlacin item-test (rit). En caso de haber subtests, se calcular la
correlacin tomando el valor del item del subtest con el puntaje total del subtest,
y luego la del item con el puntaje total del test.
c.9 Calcular la concomitancia entre el puntaje del subtest (si los hubiere), y el puntaje
total del test, a travs del coeficiente de correlacin de Pearson. El coeficiente
resultante debe ser corregido por la frmula de correccin, dado que cuando se
relaciona un subtest con el test, el coeficiente tiende a inflarse y arrojar valores
espreos ya que el puntaje del subtest tambin forma parte del puntaje del test.
c.10 Computar la intercorrelacin de puntajes de los subtests (si los hubiere), a
travs del coeficiente de correlacin de Pearson. El coeficiente resultante no
debe sobrepasar el valor de 0.40.
c.11 Calcular la correlacin entre los temes (correlacin item-item; rii ), a travs del
coeficiente de correlacin de Pearson. Tambin se puede utilizar la frmula
abreviada del coeficiente fi.
c.12 Cuando no se dispone de tiempo para realizar todo el proceso de anlisis de
temes, pueden efectuarse procedimientos simplificados utilizando o dividiendo a
la muestra en dos grupos: superior e inferior (sobre el punto, ver ms adelante la
tcnica simplificada de anlisis de temes).
c.13 Un anlisis de temes completo incluye representaciones grficas (polgonos de
frecuencias, histogramas, etc.), de la distribucin de frecuencias de los puntajes
totales (y de los subtests -si los hubiere-); asimismo, tabulacin de las
proporciones de respuestas correctas de cada tem, corregidas para el efecto del
azar y proporcin (o anlisis) de eleccin de cada uno de las opciones
incorrectas o distractores; tambin elaboracin de matrices de varianzas y
covarianzas para los subtests (si los hubiere) y de varianzas y covarianzas para
los temes.
c.14 Computar la correlacin mltiple entre el puntaje total del test y los puntajes de
los subtests (si los hubiere), con estimacin de los coeficientes de regresin
parcial, para la ponderacin de cada uno de los subtests.
c.15 Finalmente, es optativo la realizacin del anlisis factorial de la matriz de
intercorrelaciones de los temes para establecer factores comunes (Tavella,
1978).
Los tems o cuestiones se han formulado de manera lgica para que midan (y lo hagan
bien) el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien,
el grado en que cada tem es un "buen medidor" del rasgo de inters es algo que se puede
comprobar estadsticamente de manera sencilla si obtenemos tres indicadores para cada
tem:
a) El ndice de dificultad.
b) El ndice de homogeneidad.
c) El ndice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de
la poblacin a la que va dirigida la prueba (se aconseja entre 5 y 10 veces ms sujetos que
tems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de
datos de sujetos x tems:
a. NDICE DE DIFICULTAD DEL ITEM (ID)
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin, por
lo que slo tiene sentido calcularlo para tems de tests de rendimiento ptimo (con
respuestas correctas e incorrectas).
La dificultad de un tem se entiende como la proporcin de personas que responden
correctamente un reactivo de una prueba. Entre mayor sea esta proporcin, menor
ser su dificultad.
Lo que quiere decir que se trata de una relacin inversa: a mayor dificultad del tem,
menor ser su ndice (Wood, 1960).

Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin, por
lo que slo tiene sentido su clculo para tems de tests de rendimiento ptimo.
Para calcular la dificultad de un tem, se divide simplemente el nmero de personas
que contest correctamente el tem entre el nmero total de personas que contest el
tem (correcta o incorrectamente). Usualmente, a esta proporcin se le denota con una
p, e indica la dificultad del tem (Crocker & Algina, 1986). Se calcula con la siguiente
frmula:
Donde:
pi = Indice de dificultad del reactivo i
Ai = Nmero de aciertos en el reactivo i
Ni = Nmero de aciertos ms nmero de errores en el reactivo i
El nivel medio de dificultad del examen debe oscilar entre 0.5 y 0.6, distribuyndose los
valores de p de la manera siguiente: 5% de reactivos fciles, 20% medianamente
fciles, 50% con una dificultad media, 20% medianamente difciles y 5% difciles.
Indicadores:
Muy difciles : ID<0.25 (10%)
Difciles : ID >0.25 y <0.45 (20%)
Normales : ID >0.44 y <0.55 (40%)
Fciles : ID >0.54 y <0.75 (20%)
Muy fciles : ID >0.74 (10%)
El valor del ndice de dificultad esta directamente relacionado con la media del test: la
media del test es igual a la suma de los ndices de dificultad de los tems.
El nivel o grado de dificultad de un tem esta determinado por la proporcin de sujetos,
respecto al total, que responden en forma correcta una determinada pregunta.
Este ndice nos muestra que tan fcil (valores cercanos a 1) o difcil (valores cercanos
a 0) es la prueba.
En los tests de personalidad o actitudes no cabe hablar de ndice de dificultad, pero
todo lo que hemos dicho del I.D. cabe afirmarlo respecto de la proporcin de sujetos
que saturan con el atributo, esto es, que responden en el sentido de manifestar el
constructo que estamos midiendo.
Pero adems, el I.D. puede utilizarse tambin para ofrecer una idea aproximada del
poder discriminativo de un tem. Si la dificultad de un tem es nula (es decir, I.D.=1),
querr decir que esa cuestin es demasiado fcil y todos los sujetos la acertarn
independientemente de su nivel de conocimiento; es decir, ese tem no sirve para
distinguir (discriminar) a los sujetos que saben de los que no saben por lo que no
puede considerarse como un buen elemento evaluador. Exactamente lo mismo ocurrir
con un tem que tenga un ndice de dificultad de 0, es decir, tan difcil que no lo acierte
ningn sujeto de la muestra.
As pues, los tems idneos para incluir en una prueba de rendimiento ptimo sern
aquellos que tengan un I.D. prximo a 0.5 (dificultad media y discriminacin alta),
siendo adems aconsejable incluir siempre algn tem ms fcil (colocados al principio
por razones obvias de motivacin) y alguno ms difcil (al final del cuestionario) para
garantizar el poder discriminativo general del test.
Interpretacin: a medida que el ID aumenta, el tem es ms fcil (en propiedad habra
que llamarlo ndice de facilidad); adems, en muchos tests no tiene sentido de hablar
de ID, ej, los cuestionarios de personalidad, que no tienen respuestas acertadas o
errneas
Limitaciones: el ID no es una propiedad intrnseca del tem, su valor depende de la
muestra de sujetos a la que se aplique (la solucin la da la Teora de Respuesta a los
tems)
En tems de eleccin mltiple, para corregir los efectos del azar, se suele utilizar la
frmula:

N
K E A
ID
) 1 /(
Donde:
A: Nmero de sujetos que aciertan el tem
E: Nmero de sujetos que fallan el tem
K: Nmero de alternativas del tem
N: Nmero de sujetos que intentan resolver el tem
La varianza de un tem puede expresarse en trminos de su ID:
j
2
= P
j
Q
j
, donde P
j
sera la proporcin de sujetos que aciertan el tem (su ID) y Q
j
= (1 P
j
). (la dificultad
media de los tems maximiza su varianza)
b. INDICE DE HOMOGENEIDAD O DISCRIMINACION DEL ITEM (IH)
El ndice de homogeneidad de un tem nos informa del grado en que dicho tem est
midiendo lo mismo que la globalidad del test; es decir, del grado en que es consistente,
homogneo con el total de la prueba.
Dicho IH se define como la correlacin existente entre las puntuaciones obtenidas por
los sujetos en un determinado tem y la puntuacin total de esos mismos sujetos en el
test completo.
Dado que el ndice de homogeneidad de un tem es un indicador del grado en que ese
tem mide lo mismo que la prueba completa, es coherente con el total de la prueba,
habr que eliminarlo si su I.H. est muy prximo a 0 ya que esto indicar que tem y
prueba completa tienen muy poca relacin entre s; es decir, miden cosas
completamente diferentes. Por el contrario, los tems cuya correlacin con la
puntuacin total sea cercana a 1 sern muy homogneos, muy consistentes entre s y
medirn todos lo mismo (como en el caso de los tres tems utilizados en el ejemplo).
Si la prueba y un tem miden la misma habilidad o competencia, podemos esperar que
quien tuvo una puntuacin alta en todo el test deber tener altas probabilidades de
contestar correctamente el tem. Tambin debemos esperar lo contrario, es decir, que
quien tuvo bajas puntuaciones en el test, deber tener pocas probabilidades de
contestar correctamente el reactivo. As, un buen tem debe discriminar entre aquellos
que obtuvieron buenas calificaciones en la prueba y aquellos que obtuvieron bajas
calificaciones.
Usualmente, se utilizan dos formas para determinar el poder discriminativo de un tem:
el ndice de discriminacin y el coeficiente de discriminacin. Aunque hay varias
maneras equivalentes de calcular el ndice de discriminacin, en este trabajo
utilizaremos la siguiente frmula:
Donde:
Di = ndice de discriminacin del reactivo i
GA aciertos = Nmero de aciertos en el reactivo i del 27% de personas con las
puntuaciones ms altas en el test.
GB aciertos = Nmero de aciertos en el reactivo i del 27% de personas con las
puntuaciones ms bajas en el test.
N grupo mayor = Nmero de personas en el grupo ms numeroso (GA o GB).
Indicador:
D > 0.39 Conservar
D entre 0.30 y 0.39 Bueno Mejorar
D entre 0.20 - 0.29 Regular Revisar
D entre 0.00 - 0.20 Pobre Descartar
D < -0.01 Psima Descartar
Un tem tiene poder discriminativo si distingue entre los sujetos que puntan alto y los
que puntan bajo en el test (si permite distinguir entre sujetos eficaces frente a
ineficaces).
Indica la capacidad del tem para distinguir entre los sujetos de mayor conocimiento y
los de menor.
Este ndice mide qu tan capaz es un tem para medir las diferencias individuales;
desde el punto de vista de objetivo evaluado.
Proporciona un indicador bruto del desempeo en cada item por separado de los
respondientes competentes frente a los menos competentes

a. Correlacin biserial-puntual (
bp
) (aplicacin de la correlacin de Pearson entre
una variable dicotmica y otra cuantitativa; frmula:

q
p
x
x p
bp
2
Donde:
p
: media en el test de los sujetos que aciertan el tem
x
: media del test
x
: desviacin tpica del test
p: proporcin de sujetos que aciertan el tem
q : (1 p).
Al calcular el ndice de discriminacin, a la puntuacin total del test hay que descontarle
el tem cuyo ndice de discriminacin se pretende hallar (X j); en caso contrario, se
puede usar la siguiente correccin:

x j jx x j
j x jx
j x j

2
2 2
) (
+
Donde:
j(x-j)
: correlacin entre el tem j y el test tras descontar el tem (x j)
jx
: correlacin tem-test cuando el tem est incluido en el test
x
j
: desviacin tpica del tem
b. Correlacin biserial (b): se usa cuando una variable no dicotmica se dicotomiza
(se pierde informacin)

y
p
x
x p
b
Donde:
p
: media en el test de los sujetos que aciertan el tem
x
: media del test
x
p: proporcin de sujetos que aciertan el tem
y: ordenada correspondiente al valor de la puntuacin tpica en la curva normal
que deja por debajo un rea igual a p
Notas: es una estimacin de la correlacin de Pearson, y puede dar valores superiores
a 1 si alguna de las variables es platicrtica o bimodal.
La relacin entre
bp
y
b
viene dada por:
c. Coeficiente phi (): es la correlacin de Pearson para dos variables dicotmicas
d. Correlacin tetracrica: ambas variables dicotomizadas y se asumen distribuidas
normalmente
e. ndice basado en las proporciones de aciertos:
d = P
c
P
i
Donde:
P
c
: proporcin de sujetos competentes (puntan > Md) que aciertan el tem
P
i
: proporcin de sujetos incompetentes que tambin aciertan el tem
Relacin con algunos parmetros del test
a) Variabilidad: la desviacin tpica del test est estrechamente relacionada con el
ndice de discriminacin de los tems

n
j
j x j j x
1
) (

Donde:
X
j
: desviacin tpica del tem j
j(x-j)
: ndice de discriminacin del tem j
Si los tems son dicotmicos, su desviacin tpica vendr dada por:
) 1 (
j j j j j
P P Q P
sustituyendo:
n
j
j x j j j x
Q P
1
) (

Donde Pj es la proporcin de sujetos que aciertan el tem (su ID)
b) Fiabilidad: la fiabilidad de un test puede expresarse en:
( ) 1
1
]
1
2
) (
2
1
1
j x j j
j
n
n

O en el caso de que los tems sean dicotmicos:

[ ]

,
_
2
) 1 (
) 1 (
1
1
j j jX
j j
P P
P P
n
n
En suma, los parmetros de los tests, poder discriminativo (

x
) y fiabilidad ()
pueden expresarse en trminos del ndice de dificultad de los tems (P
j
) y de su
ndice de discriminacin (
jX
)
c. INDICE DE VALIDEZ DE UN ITEM (IV)
Pretende expresar el grado en que un tem es capaz de predecir (pronosticar) el
rendimiento de un sujeto medido a travs de una variable externa elegida como
indicadora del mismo; por lo tanto, el ndice de validez se calcular mediante la
correlacin entre las puntuaciones de un grupo de sujetos en ese tem y las
puntuaciones de esos mismos sujetos en la variable externa elegida como criterio de
validacin.
El ndice de validez de un tem refleja el grado en que el tem esta conectado con la
variable que el test intenta predecir (criterio).
La puntuacin de los N sujetos en un tem pueden correlacionarse tambin con las que
estos sujetos obtienen en un criterio de validacin externa del test, esta correlacin
define el ndice de validez del tem.
El criterio de validacin es una medida diferente del test para reflejar el mismo rasgo u
otro muy relacionado, de tal manera que si el test mide lo que se pretende, debera
correlacionar de forma elevada con el criterio.
La conexin entre el ndice de validez de los tems y el coeficiente de validez del test la
da:
n
j
jX j
n
j
jY j
xy
1
1

donde:
xy: coeficiente de validez del test
n: nmero de tems del test
j: desviacin tpica del tem j
jY: ndice de validez del tem j
jX: ndice de discriminacin del tem j
Si los tems son dicotmicos, entonces:
) 1 (
j j j j j
P P Q P
y por tanto:
n
j
j j jX
n
j
j j jY
xy
P P
P P
1
1
) 1 (
) 1 (
La frmula anterior es muy importante, pues expresa el coeficiente de validez del test
en funcin de tres parmetros de los tems: dificultad (P
j
), discriminacin (
jX
) y validez
(
jY
)
Una paradoja clsica: al maximizar la fiabilidad del test eligiendo tems con ndices de
discriminacin elevados se rebaja el coeficiente de validez del test (cuanto mayores
son los ndices de validez de los tems del test menores son sus ndices de
discriminacin)
Comentarios finales:
1) no confundir ndice de validez con la validez factorial de los tems
2) ponderacin de tems: puede ser interesante a veces ponderar tems: regresin
mltiple
3) en el proceso de seleccin de tems que van a constituir el test definitivo:
(i) se da mayor error si se eligen tems con ndices de discriminacin y validez
elevados
(ii) el ndice de discriminacin de un tem es la correlacin tem-test y depende
no slo del tem sino del resto de tems: seleccin de tems en pasos o
etapas
LECCION 2
VALIDEZ DEL TEST
1. INTRODUCCION
La validez es un aspecto crucial de la medicin psicolgica y se relaciona con la
investigacin del significado terico de las puntuaciones obtenidas por medio de un test
(Oliden, 2003).
Las puntuaciones evidencian propiedades de validez cuando se verifica que el test
realmente mide el constructo que pretende medir, justificando adecuadamente las
inferencias realizadas en funcin de sus resultados (Nunnally, 1991).
Cuando estimamos la validez de un test, necesitamos saber qu rasgo deseamos que
mida. Este rasgo se llama variable de criterio. Nos interesa saber qu tan bien
corresponden las posiciones de los sujetos en la distribucin de los puntajes obtenidos a
sus posiciones en el continuo que representa la variable de criterio (Magnusson, 1969).
La situacin ideal en lo concerniente a la validez es que una prueba represente
adecuadamente y mida la varianza relevante del constructo, o dicho de otra manera, que
las interpretaciones de los resultados de un test estn libres de sesgo de medicin (Prez y
Olaz, 2008). En tal sentido, la teora de la validez se relaciona con el concepto de sesgo,
definido como un error sistemtico que produce distorsin en las puntuaciones adulterando
su significado terico (Oliden, 2003). El hecho que las puntuaciones de un test sean
confiables es una condicin necesaria pero no suficiente para que sean validas (Muiz,
1998).
A pesar de su importancia, el concepto de validez es uno de los ms complejos y
controvertidos de la teora de los tests (Angoff, 1998; APA, 1999).
En la historia del concepto de validez pueden identificarse tres etapas principales (Prez y
Olaz, 2008). Segn estos autores, en la primera etapa llamada operacional predomina el
operacionalismo dominante de la epistemotologa de la primera mitad del siglo XX. Aqu, la
validez tratada desde una perspectiva meramente predictiva es sinnimo de la correlacin
entre las puntuaciones de un test y algn criterio que intenta predecir (Martnez Arias,
1995). Sin embargo, este tipo de validez no resultaba til para muchas pruebas en donde
ellas mismas constituyen su propio criterio como en el caso de los tests de rendimiento lo
cual llev a introducir el concepto de validez de contenido
La segunda etapa coincide con la publicacin del trabajo de Cronbach y Meehl (1955), los
cuales consideran por primera vez la llamada validez de constructo como aspecto esencial
e inclusivo de las restantes dimensiones de la validez (Martnez Arias, 1995).
En este perodo se distinguen tres tipos de validez: predictiva, de contenido y de
constructo. La ltima etapa guarda relacin con la versin de las Normas Tcnicas para
los Tests Psicolgicos y Educativos (APA, 1999), donde se define la validez como la
adecuacin, significacin y utilidad de las inferencias especficas hechas a partir de las
puntuaciones de los tests.
Asimismo, la APA (1999), propuso cinco tipos de evidencia de la validez, basadas en: el
contenido del test, la estructura interna del test, el proceso de respuestas al test, las
relaciones con otras variables externas al test y las consecuencias de su aplicacin.
Para verificar la validez de las inferencias realizadas a partir de las puntuaciones de un test
se usan procedimientos similares a los utilizados para contrastar cualquier hiptesis
cientfica, es decir, el acopio de evidencias que confirmen o refuten esas inferencias (Prez
y Olaz, 2008).
El producto final del proceso de validacin es la medicin de un constructo que: a)Est bien
definido en trminos de una variedad de observacin y eventualmente, b)Se correlacione
con otros constructos de inters.
Como podemos apreciar la validez, como la confiabilidad y la consistencia, es un trmino
genrico que se da a una clase de conceptos y procedimientos estrechamente
relacionados. Desde esta perspectiva y como ya hemos visto, la validez se puede definir
en varios niveles y de diversos modos. En el caso de la validez de las pruebas hay que
tener en cuenta (Brown, 1980): 1)Qu es lo que mide la prueba? y 2)Hasta qu punto
mide la prueba lo que dice medir?. Inclusive, el sentido del concepto se puede comunicar
mediante diversos tipos de interrogantes a los que intentan responder los anlisis de
validez (Brown, 1980): qu rasgos est midiendo la prueba?, mide la prueba el rasgo
para el que fue construida?, qu se puede predecir a partir de las calificaciones de la
prueba?, qu porcentaje de la varianza en las calificaciones de la prueba se puede atribuir
a la variable que mide?.
Debido a que la determinacin de la validez puede incluir varios procedimientos, la validez
como la confiabilidad es siempre especfica de las situaciones, es decir que, en
condiciones diferentes, al utilizar muestras distintas o mtodos diferentes de anlisis, se
obtendrn resultados diversos. As podemos hablar de la validez del test, en forma
legtima, slo en ciertas condiciones especficas.
En trminos estadsticos la validez se define como la proporcin de la varianza verdadera
que es relevante para los fines del examen. En este caso, relevante se refiere a lo que
atribuible a la variable que mide la prueba.
Esta ltima puede ser un rasgo o atributo, o bien, alguna medida observada
independientemente. Por lo tanto, la validez de una prueba se define ya sea por medio de
(1) la extensin con que la prueba mide un rasgo subyacente especfico hipottico o
construccin, o bien, (2) la relacin entre las calificaciones de la prueba y alguna medida de
criterio externo (al primer aspecto tambin se le denomina validez interna o funcional y al
segundo validez externa).
Definir la validez como la proporcin de la varianza relevante, implica que la varianza
verdadera se puede dividir en dos componentes: la varianza relevante y otra varianza
confiable, pero varianza irrelevante. En otras palabras, la variable estable (confiable o
verdadera) en las calificaciones de la prueba se compone de dos elementos: lo atribuible a
la variable que mide la prueba (varianza relevante o vlida) y lo atribuible a otras causas
(varianza confiable o irrelevante); o, dicho de otra manera, la variabilidad de un conjunto de
calificaciones se determina por medio de la varianza vlida, es decir, la atribuible a causas
confiables, pero irrelevantes (o sea los errores constantes), y la varianza de error de
medicin (errores al azar).
La distincin entre confiabilidad y validez implica que, a diferencia de la confiabilidad, que
est influenciada slo por los errores de medida no sistemticos, la validez de una prueba
se ve afectada tanto por los errores no sistemticos como por los sistemticos
(constantes). Por esta razn, una prueba puede ser confiable sin ser vlida, pero no puede
ser vlida si no es confiable. En resumen, la confiabilidad es una condicin necesaria, pero
no suficiente para la validez. Tcnicamente, la validez (relacionada con los criterios) de
una prueba, como lo indica la correlacin entre la prueba y una medida externa de criterio,
nunca podr ser mayor que la raz cuadrada del coeficiente de confiabilidad de las formas
paralelas (Aiken, 1996).
2. VALIDEZ
Validez es el grado en que una situacin o instrumento de medida, mide lo que realmente
pretende o quiere medir. A la validez en ocasiones se le denomina exactitud. Validez es el
criterio fundamental para valorar si el resultado obtenido en un estudio es el adecuado.
La validez puede introducir error sistemtico que afecta al tamao y direccin del efecto
encontrado. El error de medida se suma al error de muestreo disminuyendo la capacidad.
El error sistemtico se puede confundir con el efecto real que es el efecto sistemtico, el
hecho de que existan unos sistemas se puede confundir con el resultado final. Una
situacin de baja fiabilidad enmascara el efecto.
Cronbach en 1971 sealaba que la validacin es el proceso por medio del cual el
investigador que desarrolla cuestionarios obtiene evidencia para sustentar sus inferencias.
Este proceso de validacin requiere un estudio emprico dirigido a recolectar la evidencia
requerida.
La validez se ve como una evaluacin -ms que una caracterstica- de cun apropiadas y
adecuadas son las interpretaciones y los usos que se hacen de los resultados del
cuestionario.
En la evaluacin de la validez de un cuestionario se busca que las interpretaciones de los
resultados se basen en evidencia de que el cuestionario mide lo que realmente se quiere
que mida, que los resultados no se vean afectados por variables o factores irrelevantes a lo
que se quiere medir. En otras palabras, la evaluacin de la validez de un cuestionario
concierne los resultados y las consecuencias de las decisiones que se toman con esos
resultados.
Por otra parte, Trochim seala que el concepto de validez no debe limitarse solamente a la
validez del cuestionario, sino que debe poder hablarse de la validez de cualquier tipo de
operacionalizacin de un constructo.
La evidencia de validez es lo que permite al investigador estar relativamente seguro que no
ha errado en el proceso de traducir un constructo a una realidad operante. Segn Trochim,
esta visin permite hablar de validez tanto cuando se trata de cuestionarios, pruebas,
programas, tratamientos y hasta de muestreo (si se considera que la muestra no es otra
cosa que la operacionalizacin de un constructo llamado poblacin).
3. CARACTERSTICAS DE LA VALIDEZ
a. La validez se refiere a la adecuacidad
de la interpretacin de los resultados para un grupo determinado de individuos. La
validez no es una propiedad del cuestionario; aunque, por costumbre, se sigue
hablando de la validez del cuestionario.
b. La validez es una cuestin de grado.
No existe en trminos absolutos. No se puede decir que el cuestionario es vlido o
invlido. Aumenta o disminuye dependiendo de la calidad de la evidencia que la
sustenta. Nuevas evidencias pueden incrementarla o reducirla. Hoy da la validacin de
una inferencia se presenta como el proceso de determinar si la teora y las evidencias
empricas respaldan esta inferencia.
c. La validez se refiere siempre a un tipo
de uso o interpretacin especfico. No se puede hablar de la validez de un cuestionario
sea cual fuere su uso. A veces los usos son muy prximos, pero an as hay
diferencias.
d. La validez es un concepto unitario. No
se puede hablar de diferentes tipos de validez (contenido, constructo, criterio). Se habla
ms bien de un concepto validez- y de diversos tipos de evidencia.
e. Para hablar de validez se requiere un
juicio evaluativo comprensivo que dictamine si las interpretaciones y usos de los
resultados se justifican con la evidencia producida.
4. TIPOS DE VALIDEZ
a. VALIDEZ DE CONTENIDO
Responde a la pregunta los reactivos que constituyen la prueba son realmente una
muestra representativa del dominio de contenido (dominio conductual) que nos
interesa?. As pues la validacin de contenido consiste en determinar lo adecuado del
muestreo de reactivos del universo de reactivos potenciales y la validez de contenido
es una medida de lo adecuado del muestreo. Ponemos medida entre comillas,
debido a que, la validez de contenido consiste en una serie de estimaciones u
opiniones, que no proporcionan un ndice cuantitativo de la validez (no utiliza
procedimientos estadsticos).
El contenido significa los constituyentes sustantivos de la materia o tema, sus
componentes reales o informativos. Este tipo de validez se asocia por lo comn a las
pruebas de rendimiento, aunque no hay razn por la que no pueda aplicarse el
concepto en otros campos de las pruebas psicolgicas (pruebas de aptitud,
habilidades, etc.). En las pruebas psicolgicas de rendimiento, se har hincapi,
primordialmente, en el rea temtica que se cubre (por ejemplo: geometra, lenguaje,
etc.), y en los procesos utilizados para responder a los reactivos. El modo de la
respuesta tendr la menor importancia.
La validez de contenido alude a la necesidad de garantizar que el test constituye una
muestra adecuada y representativa de los contenidos que se pretende evaluar con l
(Muiz, 1994). Este tipo de validez surge a partir del anlisis del contenido de la
prueba (Aiken, 1996).
La validez de contenido es llamada algunas veces validez curricular y se refiere a la
adecuacin del muestreo de un determinado universo de contenido. Se determina
examinando el contenido mismo del test y juzgando el grado en que mide
verdaderamente los objetivos importantes de un curso o que constituyen una muestra
verdaderamente representativa de la materia de instruccin en sus aspectos esenciales
(Cortada de Kohan, 1999). La validez de contenido cuando se trata de los tests de
personalidad se llama validez aparente.
La validez de contenido est en funcin de lo adecuado del muestreo de reactivos y el
procedimiento por excelencia para establecer este tipo de validez es someter a la
prueba a una valoracin por jueces expertos, quienes evaluarn pregunta por pregunta
con respecto a los criterios de pertinencia, relevancia, claridad, redaccin y suficiencia
y, los resultados de esta evaluacin permitirn incluir, retirar o reestructurar los temes
(Medelln Lozano, 2001).
En la validez de contenido, los reactivos de la prueba deben ser una muestra
representativa del universo de las conductas o contenidos posibles. El muestreo
representativo implica la seleccin de reactivos en proporcin a su enfsis o
importancia.
En la construccin de pruebas, el proceso de muestreo de reactivos, tomados de un
banco de temes potenciales, implica, primeramente la divisin del dominio de
contenido en cierto nmero de categoras o subcategoras cada una de las cuales
representa un rea relevante de contenido. A continuacin se asigna un peso
proporcional a cada categora, y, finalmente, se muestrean al azar los reactivos de
cada categora, hasta alcanzar el nmero requerido.
En la prctica, el muestreo de la ltima etapa no es al azar. Una de las razones para
esto es que los reactivos seleccionados (despus del anlisis de temes), tienen que
satisfacer, en general, ciertos requisitos estadsticos como por ejemplo, tener una
dificultad apropiada. Otra razn, en los tests de rendimiento, es que se puede desear
un equilibrio de contenido dentro de cada categora. En tercer lugar, los reactivos se
escogen a veces para que desempeen funciones especficas, por ejemplo, para que
sirvan de calentamiento o para probar los lmites de los conocimientos de los mejores
alumnos.
Asimismo, no hay nada que exija que la prueba sea homognea. Puesto que, hasta
las unidades de instruccin (unidades de aprendizaje, lecciones, etc.), ms limitadas
suelen incluir una gran variedad de contenidos y capacidades, el exigir una elevada
homogeneidad sera indeseable y poco realista (Ebel, 1968).
Puede resultar conveniente un nivel elevado de homogeneidad dentro de las subreas
(si el test tiene varias reas); pero no es necesario que la prueba completa sea
homognea; sin embargo, si nos interesa la validez de contenido de una prueba
destinada a medir alguna construccin o rasgo psicolgico, ser conveniente una
elevada homogeneidad (como vemos, todas estas situaciones influirn en el proceso
de construccin de un test dependiendo si ste es de rendimiento o de aptitud).
La validez de contenido se determina mediante la comparacin sistemtica de los
reactivos de la prueba con el dominio conductual de contenido postulado. La clave
est en el muestreo. Generalmente para esta operacin se recurre a expertos.
Este procedimiento de validacin es lgico y racional y tiene algunas dificultades: no
hay ndices estadsticos, asimismo, los distintos jueces pueden no estar de acuerdo en
cuanto a la validez de contenido de una prueba; asimismo, la falta de claridad en la
especificidad del dominio har que resulten difciles los juicios de validez de contenido.
Existen varios procedimientos que hacen que el proceso sea ms objetivo, por ejemplo,
se debe lograr una definicin especfica del dominio del contenido, una descripcin que
delinear el universo, los conocimientos y las capacidades pertinentes y el origen de
los materiales utilizados (si se trata de un examen de rendimiento). Tambin se
podran definir subcategoras importantes y especificar su enfsis proporcional.
Adems, el constructor de la prueba podra especificar qu contenidos y qu
habilidades fueron medidas por cada reactivo. Actualmente, se utilizan algunos de
estos pasos. El universo de contenido se suele establecer en forma bastante detallada
y casi siempre se dispone de una clasificacin de reactivos por contenido y categora
de habilidades.
En cierto sentido, la validez de contenido es una propiedad general de la prueba; ms
bien que una situacin especfica. Si el constructor de la prueba define claramente el
universo de contenido y selecciona reactivos que lo representen, tendr o no tendr
xito (de manera ms precisa tendr xito en cierto grado), al alcanzar su meta.
An cuando podamos no estar de acuerdo con su definicin de dominio, debemos
evaluar la prueba en funcin de lo bien que alcance la meta especificada, hasta que
punto represente el dominio, tal y como lo defini su constructor (tambin se le
denomina validez curricular).
Validez de Facie. Se confunde fcilmente con la de contenido. Una prueba tiene
validez de facie cuando los reactivos parece que miden lo que se supone que tiene que
medir la prueba. La validez de facie se determina mediante un examen bastante
superficial de la prueba y considera solamente la relevancia obvia. Esta validez puede
ser una consideracin importante, si la relevancia aparente de los reactivos influye en
la motivacin del sujeto, por ejemplo, poner preguntas en lenguaje y contenido infantil
en una prueba destinada a adultos. En algunas situaciones, el sujeto puede no
sentirse motivado a obtener buenos resultados, al sentir que la prueba es poco
importante para la decisin que va a tomar.
LECCION 3
VALIDEZ DE CONCURRENTE Y PREDICTIVA
1. INTRODUCCION
La validez, en trminos generales, se refiere al grado en que un instrumento realmente
mide la variable que pretende medir. Por ejemplo, un instrumento para medir la inteligencia
vlida debe medir la inteligencia y no la memoria.
Una prueba sobre conocimientos de Historia debe medir esto y no conocimientos de
literatura histrica.
Aparentemente es sencillo lograr la validez. Despus de todo, como dijo un estudiante,
pensamos en la variable y vemos cmo hacer preguntas sobre esa variable. Esto seria
factible en unos cuantos casos (como lo sera el sexo de una persona).
Sin embargo, la situacin no es tan simple cuando se trata de variables como la
motivacin, la calidad de servicio a los clientes, la actitud hacia un candidato poltico y
menos aun con sentimientos y emociones, as como diversas variables con las que
trabajamos en ciencias sociales.
La validez es una cuestin ms compleja que debe alcanzarse en todo instrumento de
medicin que se aplica. Kerlinger (1979, p. 138) plantea la siguiente pregunta respecto a la
validez: Est usted midiendo lo que usted cree que est midiendo? Si es as, su medida
es vlida; si no, no lo es.
2. TIPOS DE VALIDEZ DE CRITERIO
La validez de criterio establece la validez de un instrumento de medicin comparndolo con
algn criterio externo.
En la validez de criterio deseamos saber hasta qu punto podemos generalizar (o predecir)
hacia el xito que habr de tener una persona en la ejecucin de una tarea diferente.
a. Validez concurrente. El criterio se fija en el presente. Los resultados del instrumento
se correlacionan con el criterio en el mismo momento del tiempo.
b. Validez predictiva. Los resultados del instrumento se correlacionan con un criterio
fijado en el futuro. Por ejemplo, una prueba de admisin a la universidad debe reflejar el
comportamiento del estudiante a lo largo de la carrera.
Caractersticas de la evaluacin de criterio
a.Debe ser relevante. Debe reflejar los aspectos ms relevantes del criterio conceptual.
b.Debe ser confiable. La confiabilidad del criterio afecta a la validez de criterio en la misma
medida que la confiabilidad del predictor.
3. VALIDEZ CONCURRENTE
La validez concurrente se da por medio de la comprobacin, mediante el uso de medidas
estadsticas de coeficiente de correlacin, con un coeficiente de validez, en que se juzga en
el sentido en que cuanto ms alto sea este coeficiente, mayor ser este tipo de validez.
El coeficiente se halla teniendo en cuenta un criterio de validacin que se da al mismo
tiempo que los datos del instrumento. Se emplea esta validez para saber el estado de una
persona en el momento actual, por ello es necesario que el criterio externo se d en el
momento presente. Relacionamos los datos del test con los datos externos que se estn
dando al mismo tiempo. Sirve para clasificar al sujeto en base a esa medida; Conlleva
diagnstico, clasificacin y descripcin. Incluye el error tpico de medida del test como el
error de criterio. Si el criterio no es objetivo o significativo el test no es confiable, la validez
concurrente no da datos significativos. Si mide lo que se quiere medir este coeficiente de
validez se acercar a 1 y significa que el test es vlido para hacer clasificaciones.
4. VALIDEZ PREDICTIVA
La palabra prediccin o predictivo normalmente se la asocia con visin o anticipacin de
futuro. En este sentido, cuando estudiamos la validez predictiva de un instrumento lo que
nos interesa es determinar hasta dnde podemos anticipar el desempeo futuro de una
persona en una actividad determinada, a partir de su ejecucin actual en dicho instrumento;
por ejemplo, se podra estudiar, hasta dnde la Prueba de Aptitud de Universidades
predice el xito acadmico de los estudiantes en los primeros semestres universitarios, o
anticipar el desempeo futuro de un vendedor a partir de su ejecucin en un test de
inteligencia social.
En consecuencia, la validez predictiva, tambin llamada validez de criterio externo o validez
emprica, se estudia comparando los puntajes de un instrumento (variable independiente)
con una o ms variables externas (variables dependientes) denominadas variables criterio.
Se asume que tales criterios, indicadores del desempeo futuro, estn terica y
lgicamente relacionados con el rasgo representado en el instrumento bajo estudio. Esta
comparacin entre los puntajes de la variable en estudio y los de la variable criterio se
expresa a travs de un coeficiente de correlacin, el cual se interpreta como un ndice de
validez. Entre ms alta sea la correlacin entre una medida o medidas de aptitud
acadmica y el promedio de notas, tomado como variable criterio, mejor ser la validez
predictiva de la prueba de aptitud acadmica.
Es importante destacar que la validez predictiva suele estar asociada con problemas y
resultados prcticos; es decir, el inters no es tanto en lo que est detrs del desempeo
en la prueba, sino ms bien en ayudar a resolver problemas prcticos y tomar decisiones.
Muchos de estos problemas y toma de decisiones estn relacionados con la evaluacin,
seleccin y asignacin de personas para diferentes actividades (estudio, trabajo, deporte,
arte, etc).
La validez de criterio establece la validez de un instrumento de medicin comparndola con
algn criterio externo. Este criterio es un estndar con el que se juzga la validez del
instrumento (Wiersma, 1986). Entre los resultados del instrumento de medicin se
relacionen ms al criterio, la validez del criterio ser mayor. Por ejemplo, un investigador
valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen
predice qu tan bien Un grupo de pilotos puede operar un aeroplano
Si el criterio se fija en el presente, se habla de validez concurrente (los resultados del
instrumento se correlacionan con el criterio en el mismo momento o punto del tiempo). Por
ejemplo, un cuestionario para detectar las preferencias del electorado por los distintos
partidos contendientes, puede validarse aplicndolo tres o cuatro das antes de la eleccin
y sus resultados compararlos con los resultados finales de la eleccin (si no hay
fraude,desde luego).
Si el criterio se fija en el futuro, se habla de validez predicativa. Por ejemplo, una prueba
para determinar la capacidad administrativa de altos ejecutivos se puede validar
comparando sus resultados con el futuro desempeo de los ejecutivos medidos.
La validez de criterio puede ser validez concurrente o validez predictiva. La validez concurrente
generalmente se alcanza fcilmente con estudios transversales pero la validez predictiva requiere
de un estudio longitudinal.
LECCION 4
VALIDEZ DE CONSTRUCTO
1. INTRODUCCION
La validez de constructo es la principal de los tipos de validez, en tanto que la validez de
constructo es el concepto unificador que integra las consideraciones de validez de
contenido y de criterio en un marco comn para probar hiptesis acerca de relaciones
tericamente relevantes (Messick, 1980; p.1015), en este mismo sentido (Cronbach,
1984; p.126) seala que la meta final de la validacin es la explicacin y comprensin y,
por tanto, esto nos lleva a considerar que toda validacin es validacin de constructo.
La gnesis de la validez de constructo como un concepto integrador de validez hay que
situarla en la primera versin de los Standards for Educational and Psychological Testing
(APA, 1954) y en la publicacin del influyente trabajo de Cronbach y Meehl (1955). Segn
estos autores, esta validez consiste en un anlisis de la significacin de las puntuaciones
de los instrumentos de medida expresada en trminos de los conceptos psicolgicos
asumidos en su medicin. Como seala Martnez Arias (1995), este nuevo concepto de
validez se empieza a percibir fundamental y bsico y, an ms importante, como
integrando a los anteriores enfoques de validez heredados de las tradiciones empirista
(validez criterial) y racionalista (validez de contenido), ponindose as los cimientos para
este enfoque globalizador que va a echar por tierra la concepcin tripartita de la validez y
va a defender una concepcin unificada de la misma, en la cual parece haber un consenso
emergente acerca del papel central desempeado por la validez de constructo (Moss,
1992).
Los trabajos de Cronbach (1980, 1982, 1988), Guion (1977, 1980), Loevinger (1957) y
Tenopyr (1977) destacan por su apoyo a esta perspectiva integradora, mas la figura clave
es la de Samuel Messick (1975, 1980, 1981, 1988, 1989, 1994, 1995). Messick (1995)
afirma que la validez unificada integra consideraciones de contenido, criterio y
consecuencias en un marco de referencia de constructo para la evaluacin emprica de
hiptesis racionales acerca del significado de las puntuaciones y de relaciones relevantes
desde el punto de vista terico, incluyendo las de naturaleza cientfica y aplicada.
2. VALIDEZ DE CONSTRUCTO
La validez de construccin es importante, siempre que se disee una prueba
psicolgica para medir algn atributo o alguna cualidad (construccin), que se
suponga, tengan las personas. Responde a la pregunta: cmo se puede explicar
psicolgicamente la puntuacin del test?, qu construccin psicolgica mide la
prueba?, hasta qu punto mide bien la prueba psicolgica esta construccin?, etc. En
este tipo de validez, se enfoca la atencin en la construccin (en el constructo) en la
caracterstica que se est midiendo.
La validez de constructo (Crombach y Meehl, 1955), se refiere a la recogida de
evidencia emprica que garantice la existencia de un constructo psicolgico en las
condiciones exigibles a cualquier otro modelo o teora cientfica.
Una prueba no es un conjunto de temes que se juntan al azar para predecir un criterio,
es ms bien una medida o ndice de un concepto, teora o constructo psicolgico, o de
otro tipo (Muiz, 1994).
Este tipo de validez se obtiene por medio de un estudio sistemtico de la eficacia de la
prueba como medida de un constructo psicolgico especfico (Aiken, 1996).
(Cortada de Kohan, 1999), nos dice que la validez de constructo se refiere a precisar
cules son las cualidades psicolgicas que un test mide, y se evala demostrando
que ciertos constructos explican en cierta medida el desempeo en el test.
(Medelln Lozano, 2001), nos dice que este tipo de validez se obtiene mediante la
acumulacin de evidencias respecto al rasgo que mide la prueba y est centrada en el
rasgo y se puede utilizar para el estudio de las diferencias individuales y para el
desarrollo de teoras psicolgicas.
En el mbito de la psicologa se han utilizado con mucha frecuencia dos
procedimientos metodolgicos, el anlisis factorial y la matriz multirrasgo-multimtodo,
para obtener datos acerca de la validez de constructos psicolgicos, denominndose,
respectivamente, validez factorial y validez convergente-discriminante (Muiz, 1994).
El proceso de la validacin de construccin, puede verse como la construccin de una
miniteora acerca de una prueba psicolgica. La lgica de la validez de constructo, en
muchos aspectos, as como en sus mtodos, son esencialmente los del mtodo
cientfico.
La construccin de la miniteora tiene tres pasos: (1) en base a la teora sostenida en
ese momento respecto a la prueba psicolgica, el investigador deduce ciertas hiptesis
sobre la conducta esperada de las personas que obtienen diferentes calificaciones en
ellas, (2) se rene datos que confirman o no esas hiptesis, y (3) en base a los datos
acumulados, toma la decisin relativa a si la teora, de hecho, explica adecuadamente
los datos. Si no es as, tiene que revisar su teora y repetir el proceso hasta lograr una
explicacin ms adecuada. En este sentido, el proceso de validacin es de continua
reformulacin y refinamiento.
Al determinar la validez de construccin, el propsito es identificar todos los factores
que influyen en la ejecucin del test y determinar el grado en que influyen cada uno de
ellos. Ejemplo: (Kline, 1985), sirvindose de un test hipottico sobre la ansiedad:
propuso una serie de hiptesis cuyos resultados globales nos pueden decir si el test
tiene validez de constructo:
a. Los que obtienen elevadas puntuaciones ser ms probable que acaben en
clnicas psiquitricas que aquellos con puntajes bajos.
b. Ser ms fcil que les receten drogas psicotrpicas a los que tienen altas
puntuaciones que a los de bajos puntajes.}
c. Los hijos de los de puntuaciones altas tendrn mayores probabilidades de tener
una puntuacin alta en test de ansiedad, que los hijos de quienes tuvieron bajas
puntuaciones.
d. El test de ansiedad se correlacionar alta y significativamente (ms all de 0.60),
con otros sobre dicha ansiedad caracterizada.
e. El test de ansiedad no se correlacionar con variables que no resulten conexas
con la misma.
f. Los grupos psiquitricos caracterizados como ansiosos alcanzarn en el test
unas puntuaciones ms altas que los de control.
g. En el test de ansiedad, los sujetos evaluados por supervisores y colegas como
ansiosos, lograrn mayores puntuaciones que quienes estn considerados como
no ansiosos.
Es necesario tener presente que los resultados de los estudios que hagamos realmente
no validan o prueban la teora completa, puesto que nunca se puede demostrar una
construccin en forma absoluta; solamente se puede aceptar como la mejor definicin
de trabajo.
Si los resultados son negativos, hay por lo menos tres interpretaciones posibles: la
prueba puede no medir la construccin, el marco terico puede ser errneo permitiendo
inferencias incorrectas o bien, quiz, el diseo del experimento no permite una prueba
apropiada de la hiptesis. La falla del diseo experimental suele ser la ms fcil de
detectar; pero no siempre se puede experimentar con claridad el lugar exacto de la
falla. Esta interpretacin ambigua de los resultados negativos es un inconveniente
evidente del procedimiento de validacin de los constructos.
En la prctica, (Cortada de Kohan 1999), habla de dos categoras fundamentales de la
validez: la validez directa o primaria y la validez secundaria o derivada. Una prueba
tiene validez directa en la medida en que las tareas incluidas en ella representan
verdaderamente y en la debida proporcin, las clases de tareas que dan lugar a una
definicin operacional para la variable o rasgo en cuestin; mientras que, un test posee
validez secundaria cuando los puntajes se correlacionan con otros puntajes de un
criterio que posee, a su vez, validez directa o primaria.
En tal sentido, perteneceran a la validez directa: la validez de contenido, la validez
curricular, la validez intrnseca, la validez aparente y la validez por definicin; y,
corresponderan a la validez secundaria: la validez emprica, la validez concurrente, la
validez predictiva, la validez factorial y la validez de constructo (Cortada de Kohan,
1999).
a. Mtodos para calcular la validez.
El mtodo ms simple para calcular la validez implica obtener el ndice de
correlacin de Pearson entre los puntajes del test y los puntajes del criterio externo
(Cortada de Kohan, 1999). Cuando por alguna razn este sistema no puede
utilizarse, ya que supone el mismo tipo de nivel de medicin y homocedasticidad
las variables, se puede utilizar otro tipo de coeficiente de validez como los
biseriales o el ndice de correlacin tetracrico cuando el criterio tiene una
clasificacin en dos categoras: si o no, o verdadero-falso. Algunas veces se utiliza
la correlacin mltiple.
Cuando la prueba se utiliza para pronosticar el desempeo en alguna situacin de
la vida cotidiana, la validez suele definirse como la correlacin entre la prueba y
alguna medida del desempeo en la situacin de la vida real. En este caso, la
correlacin debe ser explicada lgicamente y uno de los enfoques ms adecuados
es la teora factorial (Crombach, 1984).
b. Validez y anlisis factorial
Las evidencias relacionadas con la estructura interna de una prueba nos van a
indicar si las relaciones entre los reactivos y las dimensiones (factores, escalas),
permiten confirmar la existencia de los constructos que el test pretende medir. El
marco conceptual de una prueba puede proponer una dimensin unitaria de
comportamiento o varios factores ( Prez y Olaz, 2008).
Una encuesta podra construirse para medir salud orgnica y emocional. Ejemplo:
si las intercorrelaciones entre los reactivos confirman la presencia de esos dos
factores tericos, sta es una informacin relevante para la evidencia de validez
vinculada con la estructura interna del test (APA, 1999).
Resulta necesario comprobar estadsticamente que los reactivos se agrupen de la
manera que se ha realizado la propuesta terica, y para dicha finalidad el
procedimiento adecuado es el anlisis factorial (Carretero-Dios y Prez, 2005).
Debemos tener presente que el anlisis factorial es un mtodo estadstico utilizado
para analizar las intercorrelaciones entre datos observables (Martnez Arias, 1995).
Ejemplo: si se administran 90 reactivos o preguntas a 1,400 sujetos, el primer paso
implica calcular las correlaciones de cada elemento con los dems. Luego, al
observar la matriz de correlaciones obtenidas apreciaremos ciertas agrupaciones
entre los reactivos, lo cual va a revelar la presencia de rasgos o factores comunes.
En la prctica, cuando utilizamos el anlisis factorial por lo general se va a reducir
el nmero de variables inicialmente consideradas y el comportamiento de cada
sujeto puede describirse con referencia a un nmero relativamente pequeo de
factores o rasgos comunes (Anastasi y Urbina, 1998).
c. El meta-anlisis en la generalizacin de la validez
A lo largo del captulo hemos mencionado en repetidas oportunidades que la
validez de una prueba est relacionada con la muestra particular que se ha
utilizado en dicho proceso, lo cual implica la presencia de una limitacin que debe
ser tratada convenientemente con los procedimientos de generalizacin de la
validez.
En tal sentido, el mtodo ms utilizado en la actualidad es el meta-anlisis, el cual
permite integrar y combinar los hallazgos de diversas investigaciones empricas
mediante tcnicas especficas. En el caso de la utilizacin de este mtodo para el
tratamiento de la generalizacin de la validez, surgi como respuesta a los
coeficientes dbiles de correlacin obtenidos en muchos estudios relacionados con
la temtica test-criterio (Martnez Arias, 1995). Todo ello estaba vinculado con
resultados contradictorios obtenidos en estudios relacionados sobre una misma
temtica, los cuales eran resueltos por medio de revisiones narrativas o de
resmenes verbales que implicaban una metodologa subjetiva e informal, que sin
duda, fue sometida a todo tipo de crticas. Frente a esta situacin los especialistas
consideraron al meta-anlisis como la solucin ms atinada para enfrentar esta
problemtica.
Metodolgicamente, el meta-anlisis convierte los hallazgos estadsticos de
estudios empricos independientes a una mtrica comn, provee una estimacin
simple de la fortaleza de la relacin entre determinadas variables y permite
comprobar estadsticamente si una serie de investigaciones, conjuntamente
considerados, apoyan o refutan las hiptesis de investigacin (Multon, Brown y
Lent, 1991).
Operativamente, el meta-anlisis se inicia con la reunin, clasificacin y
codificacin de los estudios existentes sobre una temtica, lo cual infiere la
consideracin, clasificacin y codificacin de las caractersticas sustantivas y
metodolgicas de los estudios particulares (tales como tipo y duracin de una
intervencin o tratamiento experimental, tipo de muestra e instrumentos utilizados)
(Prez y Olaz, 2008).
En la medida que los hallazgos de los estudios a tener en cuenta podran ser
difciles de contrastar directamente, se les debe convertir a una medida comn.
Las dos medidas ms usadas para cuantificar e integrar los hallazgos de los
estudios independientes son los niveles de significacin y las medidas de tamao
del efecto. La primera informa los resultados obtenidos han ocurrido
probablemente al azar, mientras que la segunda nos indica la intensidad de la
relacin o el efecto de inters (Gmez Benito, 1987).
No obstante su importancia actual, el meta-anlisis no est exento de crticas y
entre las ms importantes tenemos:
a. El sesgo de publicacin o de seleccin editorial a favor de investigaciones
cuyos resultados favorecen las hiptesis de estudio. Sobre el punto, la
bibliografa especializada sugiere incluir en los meta-anlisis, investigaciones sin
publicar, lo cual permite que el investigador contraste los hallazgos de
investigaciones publicadas frente a las no-publicadas y de ese modo inferir la
probabilidad de sesgo en la publicacin.
b. La inclusin de investigaciones poco rigurosas conjuntamente con estudios
bien diseados, lo cual afecta la interpretacin que hace el meta-anlisis, ya que
esta situacin compromete la validez interna del procedimiento (Wolf, 1986).
c. La existencia en algunos casos del problema de las peras y las manzanas,
metfora referida a que las conclusiones producto del meta-anlisis son
inadecuadas toda vez que tienen como base la integracin de investigaciones
que incluyen diferentes definiciones de variables y tipos de muestras o
instrumentos.
d. Tcnicas de la validez de constructo
d.1 Tcnica de los grupos conocidos
Tenemos una opinin que hay que valorar y no tenemos criterio o
estndar, el procedimiento consiste en aplicar el instrumento a dos o ms
grupos y ver si discrimina.
Ejemplo: Un grupo de pacientes crnicos compuesto por un grupo de
pacientes hipertensos y otro grupo de pacientes con esclerosis mltiple. Si
mi instrumento de medida discrimina a ambos grupos (es decir me dice
que los hipertensos tienen mayor calidad de vida que los pacientes con
esclerosis mltiple) es que tiene validez.
d.2 Matriz multimtodo-multirrasgo
Es el ms sofisticado de todos aunque se utiliza poco, por ser complejo en
el sentido de que requiere utilizar muchas medidas diferentes. El
instrumento de medida introduce una fuente de variacin, es la
racionalidad.
Ejemplo: medir el grado de satisfaccin mediante un cuestionario, una
entrevista y la observacin y posteriormente se estudiar la convergencia
entre los tres resultados.
Que se debe esperar en las medidas, que haya convergencia (es decir
gran concordancia entre lo que miden los tres mtodos). El mtodo de
medida influye mucho en las puntuaciones como ocurre en el cuestionario,
hay que ver hasta que punto las mediciones son convergentes para una
misma medicin.
MTMM nos permite medir varios mtodos con varias variables.
d.3 Anlisis factorial
Para cada faceta o dimensin hay varios tems o indicadores, la validez
estructural o factorial intenta discernir el grado en que los indicadores de
un concepto reflejan dicho concepto, son parte de l o lo constituyen.
El anlisis factorial es una tcnica estadstica que examina la estructura
interna de la unidad de medida, mide si los indicadores tienen algo en
comn, es decir si tienen un comn denominador, mide las correlaciones
entre los indicadores e intenta descubrir si hay algo subyacente. Los tems
deben tener un comn denominador que debe aflorar estadsticamente. La
estructura subyacente o comn denominador se llama factor (faceta).
CUARTA UNIDAD
CONFIABILIDAD Y NORMATIVIDAD DE LOS TEST
LECCION 1
CONFIABILIDAD
1. INTRODUCCION
Al evaluar la utilidad de una prueba o test, a menudo hay dos preguntas que es necesario
formularse, las cuales aunque son diferentes, de alguna manera estn relacionadas. La
primera pregunta es: con cunta exactitud la muestra de temes o tareas representa al
universo de donde fueron seleccionados? La segunda pregunta es con qu fidelidad
corresponde este universo al atributo latente que se va a medir? La primera pregunta se
relaciona con lo que comnmente se denomina confiabilidad de la medida; mientras que la
segunda se refiere a su validez.
En este artculo nos referiremos, particularmente, a la primera de estas dos caractersticas
de las pruebas y escalas, por ser stos los instrumentos que plantean mayores exigencias
tcnicas en su proceso de desarrollo. Esta caracterstica es fundamental cuando se trata
de medir rasgos o atributos psicolgicos. De all que deban ser cuidadosamente
establecidas en las llamadas pruebas formales, como parte de lo que hemos denominado
el estudio tcnico del instrumento.
2. CONFIABILIDAD
La confiabilidad se refiere a la consistencia de los resultados. En el anlisis de la
confiabilidad se busca que los resultados de un cuestionario concuerden con los resultados
del mismo cuestionario en otra ocasin. Si esto ocurre se puede decir que hay un alto
grado de confiabilidad. Tambin se habla de confiabilidad cuando dos o ms evaluadores
evalan al mismo estudiante sobre el mismo material y se obtienen puntuaciones
semejantes.
La mayora de autores en psicometra define a la confiabilidad como el grado de precisin
o consistencia con el cual una prueba mide lo que mide (Tyler, 1972). Como quiera que
la confiabilidad se ve afectada por la naturaleza de la poblacin a la cual se aplica la
prueba, se produce una ampliacin de la primera definicin: la confiabilidad de un test es
la precisin con la que el test mide lo que mide, en una poblacin dada y en las
condiciones normales de aplicacin (Anstey, 1976).
La confiabilidad se refiere a la estabilidad de las mediciones cuando no existen razones
tericas ni empricas para suponer que la variable a medir haya sido modificada
diferencialmente para los sujetos, por lo que se asume su estabilidad, mientras no se
demuestre lo contrario (Muiz, 1994).
La confiabilidad significa la consistencia entre los puntajes de un test obtenidos por los
mismos individuos en distintas ocasiones o entre diferentes conjuntos de temes
equivalentes (APA, 1999).
La confiabilidad puede entenderse como la exactitud o precisin de una medicin, o el
grado en el cual las puntuaciones de un test estn libres de esos errores de medicin. Esta
exactitud o precisin de las puntuaciones permite que stas se mantengan constantes en
diferentes circunstancias ( Tornimbeni, Prez y Olaz, 2008).
La definicin estadstica de la confiabilidad en la teora clsica de los tests, se entiende
como la proporcin entre la varianza verdadera y la varianza total.
El coeficiente de confiabilidad para la relacin entre dos tests paralelos da el valor
numrico para la proporcin entre la varianza de la distribucin de los puntajes verdaderos
y la varianza de la distribucin de los puntajes obtenidos en los tests (Magnusson, 1969).
La confiabilidad de una prueba se expresa como un nmero decimal positivo que va desde
0.00 hasta 1.00. r11 = 1.00, indica la confiabilidad perfecta y r11 = 0.00, indica la total
falta de confiabilidad.
Tcnicamente, la confiabilidad se calcula al analizar los efectos de las variaciones en las
condiciones de administracin y el contenido de los tests en las calificaciones. Sobre el
particular, tenemos que tener en cuenta que la confiabilidad est influenciada slo por los
cambios no sistemticos que tienen efectos diferentes en las distintas personas e influyen
en la varianza de error del test y por tanto en su confiabilidad.
a. Tipos de Confiabilidad
a.1 Se pueden realizar varias estimaciones de la confiabilidad de una prueba
dependiendo de cules sern las fuentes de error que ms nos interesan. La
mayora de los ndices de confiabilidad se expresan como coeficientes de
correlacin y por tanto, se denominan coeficientes de confiabilidad cuyo valor
numrico va de 0 a +1.
a.2 El valor que se obtenga depender del grupo (muestra) de sujetos que ha sido
examinado y de los orgenes de error que influyen en las calificaciones. Por lo
tanto, no existe la confiabilidad de una prueba psicolgica y lo que existe son
muchos coeficientes de confiabilidad para cualquier prueba, tantos como hay
diferentes condiciones para la estimacin de la confiabilidad. Asimismo, un
coeficiente de confiabilidad es una medida de la cantidad de inconfiabilidad que no
indica las causas de esta falta de confiabilidad y ms bien indica lo mucho que
puede esperarse que varen las calificaciones y no las razones de su variacin.
a.3 La estabilidad.
Una medida de confiabilidad es la correlacin entre medidas repetidas (o sea
entre una prueba y una reaplicacin). Esta estimacin se denomina coeficiente
de estabilidad, el cual es la correlacin (obtenida a travs del coeficiente
producto de los momentos de Pearson), entre las calificaciones de dos
aplicaciones de la misma forma de la prueba psicolgica, separadas por un
perodo de tiempo.
Este coeficiente se utiliza en las pruebas que miden rasgos psicolgicos que se
supone que son relativamente estables a travs del tiempo (por ejemplo: la
mayor parte de las aptitudes y las capacidades y muchas caractersticas de la
personalidad). Adems, siempre que se utilizan las calificaciones de una
prueba en la toma de decisiones sobre planes a largo plazo (por ejemplo:
aptitudes e intereses), es esencial una medida de la estabilidad de las
calificaciones al paso del tiempo.
Incluso, para las caractersticas que varan con el tiempo, conviene, por lo
comn tener conocimientos sobre el grado de estabilidad de las calificaciones
de las pruebas en perodos cortos. Se parte de la suposicin de que la
caracterstica que mide la prueba es estable en el tiempo; asimismo, que no
existe ningn efecto diferencial del olvido (si el tiempo de reaplicacin es muy
posterior), o de la prctica (si la reaplicacin se produce en un lapso corto
respecto a la primera); y, por ltimo, que no debe producirse ningn
aprendizaje diferencial entre las dos aplicaciones.
Cualquier variable que influya en la ejecucin de una aplicacin, pero no en la
otra, reducir tambin la correlacin. El muestreo de los reactivos no afecta el
coeficiente de estabilidad, puesto que se utiliza la misma forma de la prueba en
las dos aplicaciones (o sea el mismo conjunto de reactivos). El coeficiente de
estabilidad se obtiene por el mtodo test-retest.
a.4 Equivalencia.
Se obtiene a travs del mtodo de las formas equivalentes. Puesto que
cualquier prueba contiene slo una muestra de todos los reactivos posibles, se
pueden construir varias formas paralelas de una prueba. Estas cubren el
mismo contenido, utilizan los mismos tipos de reactivos, tienen un grado de
dificultad igual e igual variabilidad (media aritmtica y varianza similares).
La suposicin primordial al calcular un coeficiente de equivalencia es la de que
las formas, de hecho, son equivalentes. Para determinar la confiabilidad se
aplicar primero una de ellas y a continuacin, con un perodo mnimo de
tiempo transcurrido, la segunda. La correlacin de los resultados (a travs del
coeficiente de Pearson), nos dar el coeficiente de equivalencia.
En este mtodo, las faltas de similaridad en las calificaciones se pueden
atribuir principalmente a diferencias en el muestreo de reactivos (o sea formas
de la prueba).
a.5 Estabilidad y equivalencia.
Si se dispone de formas alternativas de una prueba ser posible determinar la
confiabilidad mediante una combinacin de los dos mtodos anteriores.
El procedimiento consistir en aplicar una forma de prueba (forma A), dejar que
transcurra cierto perodo de tiempo y, a continuacin, administrar la otra forma
(forma B). El coeficiente de estabilidad y equivalencia ser la correlacin (a
travs del coeficiente de Pearson), entre los dos conjuntos de calificaciones y
proporcionar la prueba ms rigurosa y dar la estimacin ms baja de
confiabilidad.
a.6 Confiabilidad por mitades
Se obtiene con el mtodo de la divisin por mitades emparejadas o Split half
method, dado que en algunas situaciones no es posible utilizar el ndice de
confiabilidad de estabilidad o de formas equivalentes, siendo siempre
necesario estimar de alguna forma la confiabilidad.
Con el mtodo de mitades emparejadas, los temes de una sola aplicacin del
test se dividen en dos mitades (mitad A: temes pares; mitad B: temes
impares), y se califican en forma independiente. Los puntajes de las dos
mitades se correlacionan a travs del coeficiente de Pearson. Como el
resultado es de la mitad del test, es necesario corregirlo para estimar la
confiabilidad de todo el test.
Esta correccin se hace con la frmula Spearman Brown. Este mtodo supone
que las dos partes en que se divide el test son tests paralelos o equivalentes.
Se interpreta como un coeficiente de equivalencia. Puesto que las dos formas
(mitades), se aplican en esencia en forma simultnea, slo las fluctuaciones a
corto plazo podrn afectar la confiabilidad.
a.7 Finalmente, queda claro que el coeficiente de confiabilidad (obtenido por cualquiera
de los mtodos), es bsicamente un coeficiente de correlacin entre dos grupos de
puntajes e indica el grado con el cual los individuos mantienen sus posiciones
dentro de un grupo. Abarca valores desde 0 a +1 y no pueden ser negativos como
otros coeficientes de correlacin.
En trminos estadsticos, el valor numrico del coeficiente de confiabilidad de un
test corresponde exactamente a la proporcin de la varianza de los puntajes del
test que se debe a las diferencias verdaderas entre los individuos en el rasgo que
estudiamos mediante el test.
b. Evaluacin de la Confiabilidad
b.1 Segn Cortada de Kohan, 1999, la evaluacin de la confiabilidad de una prueba
implica dos tipos de operaciones: una experimental y otra estadstica. Mediante la
primera se aplica la prueba a un grupo definido de sujetos en razn a un plan
experimental especfico manteniendo las condiciones de control experimental.
En segundo lugar, los calificativos que constituyen el resultado de tal
administracin deben analizarse a travs de procedimientos adecuados para
producir un estadstico que represente la consistencia de la prueba. Estas dos
operaciones son algo independientes ya que los mismos procedimientos
estadsticos pueden usarse a datos logrados de maneras muy diversas.
b.2 Existen por los menos tres factores que influyen en la confiabilidad o la falta de
consistencia de una prueba (Cortada de Kohan, 1999):
a)La adecuacin de las tareas a los sujetos. Las tareas que son demasiado fciles
o que son suceptibles de distintas interpretaciones no generarn resultados
confiables.
b)La constancia o estabilidad de la aptitud del probando para realizar las tareas
que la prueba implica. Las personas varan hora a hora y da a da en su energa,
equilibrio emocional, cansancio, etc. Si estos factores afectan la realizacin de la
tarea del probando, la consistencia de la prueba se ver reducida
significativamente.
c)La coherencia y objetividad del sujeto que califica la prueba. En la medida que
los calificativos que se asignen dependan de elementos subjetivos del momento,
antes que de normas coherentes, aplicadas en forma objetiva a todos las pruebas,
entonces los puntajes carecern de confiabilidad. Esta situacin nos hace ver que
la confiabilidad no es una propiedad de la prueba en s misma, sino una propiedad
del test cuando se administra a una determinada muestra de sujetos.
c. Teora de la confiabilidad en el modelo clsico
c.1 En la teora clsica de los tests, el calificativo que obtiene un probando en un test
consta de una calificacin real ms algn error no sistemtico de medida.
La calificacin real se define como la media o promedio de los puntajes que se
obtendran si un sujeto respondiera el test una cantidad infinita de veces. Dicho
calificativo nunca puede medirse con exactitud sino que debe calcularse en base al
puntaje obtenido por el sujeto en el test.
c.2 En la teora clsica de los tests, la varianza de las calificaciones obtenida por un
grupo de sujetos ( S Obs), es igual a la varianza de sus puntuaciones reales
(SReal), ms la varianza de errores no sistemticos de medicin (SErr), tal y como
se indica a continuacin:
c.3 Por lo tanto, la confiabilidad de la prueba (r11), se define como la relacin entre la
varianza real con la varianza obtenida o la proporcin de la varianza obtenida que
se explica por la varianza real, tal y como se indica a continuacin:
c.4 La proporcin de la varianza obtenida que se explica por la varianza de error, o no
se explica por la varianza real, puede deducirse de las frmulas anteriores como:
d. Confiabilidad Absoluta. Error estndar de medida (ESm)
d.1 Hemos mencionado anteriormente que en la ecuacin clsica, la confiabilidad
implica que, el puntaje obtenido por un sujeto, ( tj ), es el producto de sumar un
puntaje verdadero (Tj), ms un puntaje de error (ej), respectivamente:
tj = Tj + ej
Los puntajes de error (ej), son debidos al azar y se producen por accin de factores
cuyo efecto vara de una ocasin a otra en que se aplique el test, es decir, por
factores diferentes a los que determinan los puntajes verdaderos (Tj), de los
sujetos. En la ecuacin indicada, no sabemos el valor de Tj ni de ej.
En relacin al error, es importante considerar los siguientes supuestos:
El puntaje verdadero de un probando en un test es el calificativo que tendra
si no existe error en la medicin y se puede definir como la media o promedio
de las puntuaciones alcanzadas por la misma persona en infinitas
aplicaciones del test.
Se asume que no hay correlacin entre los puntajes verdaderos y el error de
medicin.
Se asume que los errores en las pruebas diferentes no estn
correlacionados.
Estos tres supuestos no son comprobables directamente, slo se van a
justificar si las inferencias realizadas a partir de las predicciones del modelo
se confirman.
d.2 El objetivo fundamental de la confiabilidad es calcular el error existente en las
medidas, es decir, el valor del error.
Esta estimacin se expresa a travs del coeficiente de confiabilidad que es la
correlacin lineal entre administraciones de la misma prueba o de formas paralelas
o equivalentes en el mismo grupo de sujetos.
d.3 En el caso de que no existiesen errores entre las puntuaciones obtenidas en las
aplicaciones de los tests, la correlacin sera perfecta y tendra un valor de 1, en
cuyo caso el test sera confiable.
d.4 Un estadstico muy utilizado para describir fuentes de variabilidad en los
calificativos de un test, es la varianza.
e. Causas de errores de medicin
e.1 En la prctica, existen diversas causas que originan errores de medicin. En
nuestro caso estudiaremos tres causas de errores de medicin: los errores
inherentes a la prueba, sobre todo los que se deben al muestreo de reactivos; los
errores asociados a las condiciones de aplicacin de la prueba; los errores
relacionados con el examinador y los errores debidos a las fluctuaciones de las
caractersticas del examinado.
e.2 En la medida que cada causa de error tendr su mayor influencia en circunstancias
diferentes, sern posibles varios tipos de rangos que estimaciones de confiabilidad:
consistencia en el tiempo (el coeficiente de estabilidad); consistencia sobre las
formas de las pruebas (el coeficiente de equivalencia) y consistencia sobre el
tiempo y las formas de las pruebas, al mismo tiempo (el coeficiente de estabilidad y
equivalencia).
e.3 En cada caso, un ndice apropiado de confiabilidad, el coeficiente de confiabilidad,
es la correlacin entre las calificaciones de dos aplicaciones de la prueba.
Asimismo, existen procedimientos para determinar la confiabilidad cuando se
aplica slo una forma de la prueba, adems de un mtodo (el error estndar de
medida: ESm), para determinar la cantidad de error en las calificaciones obtenidas
por un sujeto y los factores que influyen en los coeficientes de confiabilidad.
e.4 Finalmente, hay que tener en cuenta la consistencia interna u homogeneidad de las
pruebas.
e.5 Las fuentes de varianza de error de medicin sealados por Ugarriza, 2004, son
los siguientes:
Factores inherentes a la prueba misma
Si los reactivos no son similares en contenido, en ndices de dificultad y
distribucin de sus puntuaciones en las pruebas equivalentes.
Tambin puede ocurrir en una sola prueba cuando los reactivos en su
mayora no miden un rasgo puro.
Reactivos muy difciles que hacen que el sujeto tenga que adivinar.
Ambigedad en la redaccin de los temes e instrucciones, lo que puede
originar respuestas inestables.
Lmites de tiempo restrictivo que fomentan el apresuramiento en la
lectura y en la respuesta.
Longitud de la prueba.
Errores en las condiciones de administracin y otras situaciones que pueden
producir distracciones
Errores al marcar las respuestas
Errores en el registro de tiempo y calificacin
Interrupciones inesperadas y otras situaciones que pueden producir
distracciones
Factores relacionados con el ambiente de la prueba: la temperatura del
saln, el nivel de iluminacin y la cantidad de ventilacin y ruido.
Variables relacionadas con el examinador
La subjetividad en la calificacin de ciertas pruebas de personalidad no
estructuradas o semiestructuradas y en ciertas pruebas acadmicas
(como los exmenes de ensayo) e incluso en la observacin conductual.
Errores inherentes al examinado
Entrenamiento especfico, ansiedad, estar enfermo, fallas de atencin o
el efecto de frmacos entre otros
f. Confiabilidad relativa. El coeficiente de confiabilidad
El coeficiente de confiabilidad es un coeficiente de correlacin entre un grupo de puntajes
e indica el grado con el cual los sujetos mantienen sus posiciones dentro de un grupo.
Comprende valores que oscilan de 0 a +1. Tcnicamente, cuanto ms se acerque el
coeficiente a 1 ms confiable ser la prueba (o el procedimiento de medicin), y
viceversa.
El coeficiente de confiabilidad seala la cuanta en que las medidas de las pruebas estn
libres de errores aleatorios. As por ejemplo: un coeficiente de 0.95 quiere decir que en
la muestra y condiciones establecidas (situacin experimental, instrucciones, etc.), el
95% de la varianza de los calificativos se deben a la autntica medida y slo el 5% a
errores aleatorios (Crombach, 1972).
f.1 Factores que influyen en los coeficientes de confiabilidad
Ya conocemos varias fuentes de error que influyen en la magnitud de la
correlacin obtenida; sabemos que el coeficiente de estabilidad equivalencia da
por lo comn la estimacin ms baja de confiabilidad debido a que hay ms
factores que tienen probabilidades de influir en las puntuaciones.
Contrariamente, la correlacin de mitades corregida produce por lo comn la
estimacin ms alta, puesto que tienen probabilidades de intervenir un nmero
menor de factores.
Sin embargo, hay otros factores que influyen tambin en el coeficiente de
confiabilidad y son los siguientes:
Rango de calificaciones (puntuaciones obtenidas). Todos los coeficientes
de correlacin se ven afectados por el rango de distribucin de las
calificaciones. Al disminuir la variabilidad (al hacerse ms pequea la
desviacin estndar), el coeficiente de correlacin disminuye y al aumentar
la variabilidad (al hacerse ms grande la desviacin estndar), el
coeficiente se incrementa.
Longitud de la prueba. Al agregar ms temes, asegurndonos que son
igualmente confiables, se incrementar la confiabilidad de la prueba.
Esto se produce porque el aumento de la longitud produce esencialmente
un rango ms amplio de calificaciones (mayor variabilidad y por lo tanto
una desviacin estndar ms grande). El efecto del aumento de longitud
de la prueba se puede determinar, en igualdad de otros factores mediante
la frmula de Spearman-Brown.
Dificultad de la prueba. Si una prueba es muy fcil o muy difcil para un
grupo, el rango de calificaciones (la variabilidad), se estrechar y se
reducir la confiabilidad. Esto implica que para elevar al mximo la
confiabilidad, el nivel de dificultad de una prueba debe ser tal que produzca
la distribucin ms amplia posible de puntuaciones (en el anlisis de los
temes la distribucin ms amplia de las calificaciones, en unin de otros
factores, se obtendr al utilizar reactivos con p = 0.50), es decir, cuando
la mitad del grupo responde al reactivo correctamente (o en la direccin
indicada).
Velocidad. La velocidad puede influir en la confiabilidad. De hecho, la
confiabilidad por mitades no se practica cuando la velocidad es uno de los
factores importantes en la ejecucin de la prueba. Los coeficientes de
confiabilidad obtenidos mediante la aplicacin de una prueba de alta
velocidad, son sobreestimaciones y se debern tomar con cuidado. En
este tipo de tests se deben utilizar los mtodos de estimacin de la
confiabilidad que se vean menos afectados por la velocidad.
g. Mtodos prcticos para obtener el coeficiente de confiabilidad
Existen varios mtodos prcticos para estimar el coeficiente de confiabilidad y cada
uno de ellos tiene sus propias ventajas y desventajas y controlan ms o menos fuentes
de error que vienen por ejemplo de factores personales: cansancio, motivacin,
fluctuacin de la atencin, etc., y factores ambientales: presencia de perturbaciones
externas que distraen al sujeto y otros factores ms.
h. Reglas para obtener una elevada confiabilidad
1. Cuanto mayor es el nmero de temes que constituyen la prueba (que midan la
misma dimensin o factor), ms elevada es la confiabilidad.
2. Cuanto ms extenso el tiempo empleado para la resolucin del test, mayor es la
confiabilidad.
3. Cuanto menor es la amplitud de dificultad de los temes, mayor ser la confiabilidad
del test.
4. Cuanto ms objetivo es el sistema de calificacin o cmputo, ms confiable ser el
test.
5. Cuanto ms alta la probabilidad de obtener una respuesta correcta por azar o
adivinacin, ms baja ser la confiabilidad.
6. Cuanto ms homogneo sea el contenido, ms confiable ser el test.
7. Cuanto ms acostumbrada est la muestra de sujetos a que se le administren
pruebas, ms alta ser la confiabilidad.
8. Los reactivos de contenido emocional (en un test de conocimiento o
aprovechamiento), tienden a disminuir la confiabilidad.
9. La disposicin mental de los examinados, la falta de motivacin, o la mala
interpretacin de las instrucciones del test, disminuyen la confiabilidad.
LECCION 2
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
Es importante tener en cuenta, que la confiabilidad se refiere, especficamente a los errores
aleatorios, tal cual menciona Martnez Arias (1996). Podemos hablar de dos tipos de
errores: los errores aleatorios que, como tales, no pueden ser controlados y no se pueden
predecir y los errores sistemticos que son controlables y pueden ser explicados por
alguna fuente de variacin sistemtica. De ambos errores los nicos que interesan a la
teora de la fiabilidad son los errores aleatorios.
2. METODO DEL TEST-RETEST
Este mtodo consiste en aplicar la misma prueba en dos oportunidades a la misma
muestra de sujetos, con un determinado intervalo entre las dos aplicaciones, para
finalmente calcular la correlacin entre los calificativos obtenidos en la primera y segunda
oportunidad. El coeficiente ms comnmente utilizado para calcular la confiabilidad con
este mtodo es el de la correlacin momento-producto de Pearson, aunque esto depende
del nivel o escala de medicin (nominal, ordinal o de intervalo), empleado por el test.
Cuando un coeficiente de correlacin es utilizado para estimar la estabilidad de los
calificativos de un test, tambin suele llamarse coeficiente de estabilidad.
Si bien su administracin es sencilla, sin embargo presenta algunos inconvenientes. En
algunos casos por ejemplo, puede presentarse incomodidad o malestar en los sujetos que
son sometidos a la misma prueba en dos oportunidades producindose una disposicin
desfavorable en la segunda aplicacin.
Esta situacin exige experiencia de parte del psiclogo para provocar una adecuada
motivacin en las personas examinadas. En tal sentido, si se ha considerado una entrega
de resultados a los sujetos, esta puede efectuarse despus de concluir la segunda
administracin y as garantizar la motivacin de los examinados.
En otros casos, si el intervalo de tiempo transcurrido entre las dos administraciones es muy
corto, en tests que miden habilidades, pueden obtenerse una correlacin falsamente alta.
Por el contrario, si el intervalo de tiempo entre las dos aplicaciones es muy prolongado, se
corre el riesgo de que las diferencias entre los calificativos se deban a cambios reales en
los sujetos examinados en la variable que est estudindose, ms que a una escasa
confiabilidad de la prueba.
Por lo anteriormente sealado, es conveniente que el tiempo transcurrido entre una y otra
aplicacin del test, debera delimitarse atendiendo a las caractersticas de la variable
medida y del universo meta de la prueba.
Consiste en correlacionar las puntuaciones obtenidas en dos ocasiones diferentes por los
mismos sujetos en el mismo test (y, por lo tanto, refleja el grado de estabilidad del test). El
principal problema de este mtodo es el de determinar la cantidad ptima de tiempo que
debe transcurrir entre la primera y la segunda aplicacin ya que si el perodo intermedio es
muy breve, las puntuaciones pueden variar por efecto del aprendizaje (recuerdo de las
respuestas a los tems) y/o de la fatiga de los sujetos, alterando con ello la fiabilidad real
del test. Por el contrario, si el perodo entre aplicaciones es muy largo, las puntuaciones
empricas pueden variar porque el rasgo que estamos midiendo no sea estable en el
tiempo, es decir, que evolucione, cambie, se modifique, por lo que este mtodo slo debe
emplearse con rasgos tericamente estables, es decir, que no varen con el paso del
tiempo como pueden ser el CI o la personalidad.
En este procedimiento un mismo instrumento de medicin (o tems o indicadores) es
aplicado dos o ms veces a un mismo grupo de personas, despus de un periodo de
tiempo. Si la correlacin entre los resultados de las diferentes aplicaciones es altamente
positiva, el instrumento se considera confiable. Se trata de una especie de diseo panel.
Desde luego, el periodo de tiempo entre las mediciones es un factor a considerar. Si el
periodo es largo y la variable susceptible de cambios, ello puede confundir la interpretacin
del coeficiente de confiabilidad obtenido por este procedimiento. Y si el periodo es corto las
personas pueden recordar cmo contestaron en la primera aplicacin del instrumento, para
aparecer como ms consistentes de lo que son en realidad (Bohrnstedt, 1976).
3. METODO DE FORMAS EQUIVALENTES O PARALELAS
Mediante este mtodo se puede examinar la consistencia interna pero tambin la
estabilidad temporal de un conjunto de puntajes. La mecnica consiste en aplicar dos
formas equivalentes o paralelas de un test a un mismo grupo de sujetos. Cuando el
mtodo se usa para verificar la estabilidad, la aplicacin de la segunda forma se hace
despus de transcurrido un tiempo prudencial y luego se correlacionan los resultados
obtenidos.
Si bien es cierto, este mtodo es ms completo que el anterior toda vez que permite
controlar algunas fuentes de error aleatorio como: diversos tipos de reactivos, diferentes
condiciones fsicas y mentales de los probandos, diferente situacin medio ambiental, etc.,
sin embargo, presenta algunos inconvenientes.
Para ser consideradas equivalentes, dos pruebas deben reunir ciertos requisitos tales
como: tener las mismas caractersticas formales (cantidad de temes, escala de respuesta,
etc.) y estadsticas (tener medias y desviaciones estndar semejantes, coeficientes de
correlacin elevados entre ambas formas, etc.) (APA, 1999).
Un ejemplo de este mtodo puede ser los resultados obtenidos de las correlaciones de las
formas S y T del APT (Test de Aptitudes Diferenciales de Bennett, Seashore y Wesman,
2,000).
Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que
los resultados empricos de ambas en una poblacin correlacionen de forma elevada. Si
esto es as, ambas formas manifiestan un elevado grado de precisin a la hora de reflejar
los diversos niveles de rasgo. Si ambas correlacionasen de forma mnima, no podemos
fiarnos de que reflejen fidedignamente los niveles de rasgo.
Pues bien, definimos inicialmente el coeficiente de fiabilidad como la correlacin entre los
resultados que proporcionan dos formas paralelas de un mismo test. Tericamente, este
mtodo consistira entonces en correlacionar las puntuaciones obtenidas por los sujetos en
dos formas paralelas de un mismo test (mide por tanto el grado de equivalencia entre
ellas). Aunque sta es la forma que se deriva directamente del modelo de la TCT (recordad
la importancia que se da a su definicin en esta teora) tiene el enorme inconveniente de
que exige el diseo de dos formas paralelas de un mismo instrumento; diseo que, al
margen de costoso en tiempo y esfuerzo, es muy difcil de conseguir.
Sin embargo, el desarrollo terico de este tercer mtodo de aproximacin al estudio de la
fiabilidad relativa de un test resulta muy til para comprender mejor el significado y modo
de interpretacin del coeficiente de fiabilidad de un test, as que vamos a verlo con
detenimiento.
En este procedimiento no se administra el mismo instrumento de medicin, sino dos o ms
versiones equivalentes de ste. Las versiones son similares en contenido, instrucciones,
duracin y otras caractersticas. Las versiones generalmente dos, son administradas a un
mismo grupo de personas dentro de un periodo de tiempo relativamente corto. El
instrumento es confiable si la correlacin entre los resultados de ambas administraciones
es significativamente positiva. Los patrones de respuesta deben variar poco entre las
aplicaciones
LECCION 3
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
El criterio de confiabilidad del instrumento, se determina en la presente investigacin, por el
coeficiente de Alfa Cronbach, desarrollado por J. L. Cronbach, requiere de una sola
administracin del instrumento de medicin y produce valores que oscilan entre cero y uno.
(Hernndez, y otros, ob. cit.). Es aplicable a escalas de varios valores posibles, por lo que
puede ser utilizado para determinar la confiabilidad en escalas cuyos tems tienen como
respuesta ms de dos alternativas. Su formula determina el grado de consistencia y
precisin; la escala de valores que determina la confiabilidad est dada por los siguientes
valores:
2. METODO DE DIVISION O MITADES EMPAREJADAS
Mediante este mtodo se verifica la consistencia interna de las puntuaciones de una
prueba, en otras palabras, el grado en que las diferentes partes de la prueba miden la
misma variable.
La mecnica a seguir es primero aplicar la prueba en una ocasin a una muestra de
sujetos y posteriormente se divide el test en dos mitades comparables, obtenindose de
este modo dos puntuaciones para cada sujeto de la muestra.
Finalmente, se correlacionan los calificativos correspondientes a ambas mitades de la
prueba por medio de un coeficiente de correlacin. Este mtodo fue muy utilizado antes de
que se dispusiera de computadoras personales en razn a que los estadsticos exigidos
son ms fciles de hallar manualmente que el coeficiente alfa.
Quizs el problema inicial de este mtodo sea lograr que las mitades obtenidas puedan ser
comparables. Por ejemplo, los temes de muchos tests tienen un arreglo en espiral y se
construyen con un nivel de dificultad creciente, de tal manera que si se divide el test en dos
mitades, sin lugar a dudas, no resultaran compatibles. En otros casos puede ocurrir que
los sujetos se vean ms afectados por el cansancio y la fatiga hacia el final del test
incidiendo en los calificativos de la segunda parte. Frente a esto, algunos especialistas
separan los reactivos en dos mitades, una de pares y otra de impares; y otros aparean los
reactivos con un criterio estadstico para luego asignarlos al azar a cada una de las
mitades.
Es el ms utilizado porque slo se necesita aplicar una vez el test y calcular la correlacin
obtenida por los sujetos en cada una de las dos mitades en que se puede dividir dicho test.
Como un test puede tener mltiples dos mitades, habitualmente escogeremos las
puntuaciones de los tems pares y las correlacionaremos con las de los tems impares (rPI).
Basta con hacer una pequea transformacin sobre esta correlacin (mediante la conocida
como frmula de Spearman-Brown para la longitud doble y que veremos con ms
detenimiento en prximos apartados) y tendremos el coeficiente de fiabilidad del test (que,
en este caso, es un indicador directo de la consistencia interna del test)
Los procedimientos anteriores (medida de estabilidad y mtodo de formas alternas),
requieren cuando menos dos administraciones de la medicin en el mismo grupo de
individuos. En cambio, el mtodo de mitades-partidas requiere slo una aplicacin de la
medicin. Especficamente, el conjunto total de tems (o componentes) es dividido en dos
mitades y las puntuaciones o resultados de ambas son comparados. Si el instrumento es
confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas.
Un individuo con baja puntuacin en una mitad, tender a tener tambin una baja
puntuacin en la otra mitad.
3. METODOS DE COEFICIENTE ALFA DE CRONBACH
Comparten con el anteriormente mencionado dos aspectos importantes: en primer lugar,
permiten comprobar la consistencia interna de los calificativos del test y en segundo
trmino, requieren una sola aplicacin del test (Thorndike, 1989).
El caso es que, a partir de una nica administracin de una prueba a una muestra de
sujetos, se logra una estimacin del grado de covarianza de los reactivos, usando como
estadstico el coeficiente alfa de Crombach o la frmula alternativa de Kuder-Richardson
(KR20), cuando los reactivos son dicotmicos o binarios y tienen diversos grados de
dificultad.
El coeficiente alfa puede considerarse como la media o promedio de todas las
correlaciones de particin por mitades posibles (Cohen y Swerdlik, 2000). Segn Muiz
(2001), el coeficiente alfa expresa el grado de covariacin de los temes de un test, o en
qu medida los diferentes temes de un test miden una misma variable.
Actualmente, es el estadstico ms utilizado para calcular la consistencia interna de una
prueba compuesta por temes politmicos, es decir, con varias alternativas y a cuya clave
o respuesta correcta puede puntuarse con diferentes valores.
Sobre el punto, existe otro estadstico llamado Kuder-Richardson 21, el cual es utilizado
cuando los reactivos tambin son binarios pero adems poseen el mismo grado de
dificultad. KR21, tiene dos versiones: KR21A y KR21B, las cuales deben arrojar el
mismo resultado.
El coeficiente KR21, en cualquiera de sus formulaciones, generalmente no arroja los
mismos resultados que KR20. KR20, es un coeficiente ms preciso y es el ms utilizado
por los constructores de pruebas.
Los elaboradores de tests consideran que KR21 tiende a subestimar el valor de KR20, por
ello en las aplicaciones de sus modalidades A y B se logran puntajes inferiores a los
obtenidos con KR20. En la aplicacin de la frmula KR21 de Gronlund inclusive, se
obtienen valores inferiores a KR21A y KR21B y que podra considerarse como el nivel
mnimo posible de hallar acerca de la consistencia interna (Thorndike y Hagen, 1973).
A estas alturas podemos indicar que tanto el mtodo de divisin o particin en mitades
como el coeficiente alfa, son inapropiados para verificar la confiabilidad de tests de
velocidad o tiempo limitado (Anastasi y Urbina, 1998). En estos casos deben utilizarse
mtodos alternativos, como el test-retest o el de formas equivalentes o paralelas
( Tornimbeni, Prez y Olaz, 2008).
Asimismo, cuando los temes de un test o escala son numerosos (superiores a 30), el
coeficiente alfa tiende a ser demasiado elevado (Cortina, 1993). En este caso se
recomienda el uso adicional del coeficiente de correlacin inter-tem, menos influido por el
nmero de temes de una escala. La magnitud recomendable del coeficiente de
correlacin inter-tem debe situarse entre 0.15 y 0.50 (Carretero-Dios y Prez, 2005).
En muchos tests psicomtricos, los indicadores de fiabilidad relativa no aparecen
expresados en funcin de sus coeficientes correspondientes sino en base a un potente
estimador de los mismos que se conoce como coeficiente de Cronbach.
Simplificando, podemos decir que el coeficiente alfa, propuesto por Cronbach (1951),
estudia la fiabilidad de un test entendindola como el grado en que todos los tems que lo
componen miden el mismo rasgo (unidimensionalidad del test) y, por supuesto, si lo miden
bien. Es, por lo tanto, una medida de la consistencia interna del test, de la coherencia
existente entre todos sus tems.
Su frmula puede verse expresada en trminos muy variados: varianzas, correlaciones e,
incluso, covarianza, por lo que existen mltiples alternativas para su clculo como, por
ejemplo, la planteada por Kuder y Richardson. De este modo, lo nico que nos va a
interesar a nosotros aqu es poder interpretarlo como medida de la fiabilidad de un test
cuando encontremos referencia a l al revisar las caractersticas psicomtricas de alguno
de ellos.
En estos trminos, debemos entender que es un estimador del coeficiente de fiabilidad de
un test, de tal manera que si el valor de es elevado, la fiabilidad del test tambin lo ser.
Este coeficiente de consistencia interna siempre tendr un valor menor o igual al de la
fiabilidad del test y slo coincidirn cuando todos los tems sean paralelos entre s; es decir,
cuando la consistencia interna entre ellos sea mxima y, por lo tanto, podamos afirmar que
estn midiendo la misma dimensin o rasgo psicolgico.
Este coeficiente desarrollado por J. L. Cronbach requiere una sola administracin del
instrumento de medicin y produce valores que oscilan entre O y 1. Su ventaja reside en
que no es necesario dividir en dos mitades a los tems del instrumento de medicin,
simplemente se aplica la medicin y se calcula el coeficiente.
LECCION 4
TRANSFORMACION DE PUNTAJES DIRECTOS
1. INTRODUCCION
Los puntajes directos, crudos o brutos de un test, sea ste los de una prueba
recientemente construda u otro test ya utilizado, no significan nada por s mismas a menos
que se les compare con algn patrn o tabla de medida.
Para comprender el significado de una puntuacin directa, cruda o bruta de un test
requerimos de una informacin complementaria. Para obtener dicha informacin existen
dos mtodos bsicos: referencia al criterio y referencia a la norma.
En este captulo nos centraremos fundamentalmente en la referencia a la norma por ser la
ms utilizada en nuestro medio. Dentro de esta perspectiva trataremos las puntuaciones
derivadas tales como los percentiles, las puntuaciones estndar o tpicas y las
estandarizadas.
2. Interpretacin de la puntuacin de un test con referencia a la norma
Un puntaje directo, crudo o bruto de una prueba se interpreta con referencia a la norma
cuando se convierte el puntaje del sujeto en una posicin con respecto al grupo que ha
sido examinado por el test y que se convierte en grupo normativo.
Ejemplo: Jaime resolvi los problemas de la escala avanzada de matrices progresivas de
Raven, mejor que el 85 por 100 de una muestra representativa de alumnos del quinto de
secundaria de Lima Metropolitana.
3. Estandarizacin o Tipificacin
El proceso de estandarizacin implica adaptar una prueba a una realidad diferente para la
que fue creada. Infiere establecer procedimientos unvocos para la aplicacin, calificacin
e interpretacin de un test. Por otra parte, la adaptacin muchas veces supone traducir el
test a un idioma diferente, por lo que los psiclogos especialistas deben manejar
correctamente lo concerniente a traduccin, diccin, vocabulario, ortografa, gramtica,
etc., a fin de poner el instrumento a punto.
Si las condiciones de administracin y cmputo estn perfectamente definidas y su
utilizacin es idntica para todos los sujetos a examinarse, es decir, se cumplen con todos
los requisitos de un test psicomtrico, entonces queda como aspecto ms importante la
interpretacin, la cual (con relacin a la norma), queda perfectamente definida con la
obtencin de normas o baremos.
Las normas obtenidas se sistematizan en una tabla de normas o baremo que sirve para
transformar los puntajes directos en puntajes derivados susceptibles de interpretacin
estadstica.
4. Normalizacin o Baremacin
Es un procedimiento que permite transformar los puntajes directos, crudos o brutos de
un test en puntajes equivalentes sobre la base de un criterio de baremacin y teniendo
como base la curva de distribucin normal.
La tabla de normas o baremo, permite comparar el puntaje directo obtenido por un sujeto
con la distribucin de los puntajes obtenidos en el test por el grupo normativo.
5. El grupo normativo y sus caractersticas
El grupo normativo es llamado tambin muestra de normalizacin, constituye el grupo
histrico de sujetos sobre los cuales se han calculado las normas.
Una norma es una afirmacin de cmo se han desempeado una poblacin o universo de
referencia en un test, basndose en los clculos hechos sobre el grupo normativo.
Una poblacin de referencia son los sujetos que comparten una o ms caractersticas tales
como edad cronolgica; sexo; nivel educativo; estado civil; ubicacin geogrfica; lugar de
residencia, etc.
Un grupo normativo comprende las siguientes caractersticas:
A. Definicin.
El grupo debe estar perfectamente definido. Esto se realiza sobre la base de las
variables de estudio. Ejemplo: estudiantes secundarios de ambos sexos comprendidos
entre los 11 y 17 aos de edad que cursan del 1 al 5 de secundaria diurna en
colegios nacionales de Lima Metropolitana. Las normas son vlidas solamente para los
examinados que tengan las mismas caractersticas que definen al grupo normativo.
B. Representatividad
Cuando las medidas estadsticas (media o promedio; desviacin estndar, etc.), que se
estimen van a ser generalizadas a la poblacin general, es necesario que el grupo
normativo sea representativo de tal universo para que las medidas tengan validez.
C. Tamao suficiente
El grupo normativo es una muestra para calcular los parmetros estadsticos de la
poblacin; por lo tanto, el tamao del grupo normativo viene dado en funcin de la
precisin con que se desee hacer dichas estimaciones.
6. Puntuaciones derivadas: Tipos
Los puntajes directos se transforman mediante procedimientos estadsticos en
puntuaciones derivadas, las cuales permiten una interpretacin psicolgica de los
calificativos obtenidos.
Las puntuaciones derivadas que ms se utilizan en psicologa son: percentiles;
puntuaciones estndar o tpicas y puntuaciones estndar o tpicas normalizadas.
A. PERCENTIL (Pc) (Sinonimia: rango percentil, rango decil).

Se define como puntos de una distribucin continua debajo de las cuales se
encuentran porcentajes dados de la muestra. El percentil obtenido por un sujeto nos
dice qu proporcin del grupo normativo ha alcanzado un rendimiento inferior a l.
El percentil representa un orden en la ejecucin expresada en porcentajes (constituye
una escala ordinal).
Ventajas
Es el puntaje derivado ms rpido de entender y el de ms fcil comunicacin al lego,
lo que lo hace muy satisfactorio para informar a las personas que carecen de una
formacin estadstica. Adems, se puede interpretar de una manera exacta, an,
cuando la distribucin de los puntajes del test no sean estrictamente normales
(campana de Gauss).
Desventajas.
Al no tener distancias iguales (por ser una escala ordinal y no de intervalo), tiende a
exagerar las pequeas diferencias hacia la zona media, diferencias que no son
importantes y reduce el tamao aparente de diferencias realmente importantes y
amplias en los extremos de la distribucin. Por otra parte, es poco adecuado para los
anlisis estadsticos (no se pueden emplear operaciones aritmticas entre ellos.
En el presente captulo vamos a desarrollar cuatro formas de obtencin de percentiles.
B. PUNTUACIONES ESTNDAR O TPICAS.
Son puntuaciones derivadas que se obtienen en base a la media o promedio aritmtico
y a la desviacin estndar o tpica de la distribucin de puntajes del test (distribucin
emprica de puntajes del test).
Ventajas.
Son tiles para los anlisis estadsticos (se asume que se dan en una escala de
intervalo).
Desventajas.
No pueden ser fcilmente interpretados cuando las distribuciones empricas de
puntajes del test se alejan del patron de la distribucin normal (campana de Gauss), lo
cual puede llevar a conclusiones errneas.
C. PUNTUACIONES ESTNDAR O TPICAS NORMALIZADAS.-
En este caso, la distribucin de puntajes empricos sigue estrictamente el patrn de la
distribucin normal (campana de Gauss). De esta manera, cada puntuacin adquiere
un significado estadstico preciso.
Cuando la distribucin emprica no sigue estrictamente el patrn de distribucin normal
se procede a la normalizacin de la curva. Esta consiste bsicamente en determinar
para distintas proporciones de la distribucin emprica qu valor z de la curva normal
les corresponde. En realidad lo que se est haciendo es ajustar la distribucin
emprica a una distribucin normal.
El caso es que, los puntajes estndar que obtenemos son normalizados. La nueva
distribucin ya no tiene la misma forma de la original (como s la tena los puntajes
estndar). Si se calcula, el promedio de esta distribucin es 0 y su DE es 1 (puntaje
estndar z).
La puntuacin normalizada tiene caractersticas importantes para la interpretacin de
las puntuaciones. Al estar basada en la curva normal, cada uno de los puntajes tiene
un significado estadstico conciso ya que el porcentaje de individuos que se encuentran
arriba y debajo de cada puntaje se conoce exactamente en una escala que tiene una
media y una desviacin conocidas. Esto es muy importante, por ejemplo, cuando los
resultados del test se utilizan en seleccin y consejo. En estos casos, se da
importancia no a la comparacin entre diferencias a distintos niveles de puntajes, sino
a la posicin relativa de un individuo en una distribucin cuyas propiedades son
conocidas.
La normalizacin puede necesitarse tambin para otros fines. As, cuando usamos
diferencias inter o intra individuales, necesitamos los puntajes de los individuos en una
escala de intervalo.
Por otra parte, como quiera que las puntuaciones normalizadas tienen unidades de
medida iguales y su amplitud es la misma en una u otra distribucin, se utilizan como
tcnica bsica para la interpretacin de los resultados de las pruebas psicolgicas y
pedaggicas.
Asimismo, las puntuaciones normalizadas adquieren mayor significado cuando
comprendemos su relacin con la distribucin o curva normal llamada tambin curva de
Gauss, la cual tiene las siguientes propiedades (Escotet, 1973):
a. La curva es simtrica. La media o promedio aritmtico, la mediana y el modo
coinciden en la mitad de la curva.
b. La curva es asinttica en relacin al eje de la abcisa. Esto nos indica que las colas
de la curva nunca llegan a tocar el eje horizontal y se extienden desde el infinito
negativo, hasta el infinito positivo.
c. La ordenada mxima de la curva se ubica en la media, donde la unidad de la curva
normal es igual a 0.3989 y z = 0.
d. A partir de los puntos donde se ubican ( + -), 1 desviaciones estndar (encima o
debajo de la media o promedio), la curva cambia en relacin al eje de las abcisas de
convexa a cncava.
e. Entre (+ - ) 1 desviacin estndar cubren el 68.26 por ciento del rea de la curva, tal
y como podemos apreciar en la tabla que se aprecia a continuacin:
La mayor ventaja de transformar puntajes brutos, directos o crudos a puntuaciones
normalizadas, es que con las primeras tendramos un nmero infinito de distribuciones
normales con diferentes medias o promedio aritmticos y desviaciones estndar, mientras
que con puntuaciones normalizadas podemos relacionar todas las distribuciones normales
a una distribucin de frecuencia relativa. De esta manera, cuando la curva normal es
utilizada como referencia, a travs de las puntuaciones normalizadas, recibe el nombre de
distribucin normal estndar, en donde el promedio de dicha distribucin es 0 y la
desviacin estndar es 1.
Escala X.-La escala X no es una escala normalizada, ya que viene dada por los puntajes
directos, crudos o brutos. En otras palabras, si un sujeto ha obtenido 80/100 puntos en
un examen, 80/100 es su puntuacin X. Por lo tanto, para elaborar una escala X,
solamente necesitamos conocer las puntuaciones directas y la media aritmtica de dichas
puntuaciones.
Escala Z.-Esta es una escala de puntuaciones estndar que comprende generalmente
cuatro unidades a cada lado de la media o promedio, la mitad positiva y la otra mitad
negativa. Asume como unidad de medida la desviacin tpica o estndar obtenida de las
puntuaciones directas, crudas o brutas. En razn a que una puntuacin normalizada
tiene como caractersticas que la desviacin estndar de una distribucin no se altera por
la sustraccin de una constante y que la variabilidad de un grupo de puntuaciones
determina la interpretacin de la posicin relativa.
Escala P (Percentil).-La escala percentil es una de las ms utilizadas por los psiclogos.
Constituye una escala ordinal sin suposiciones con respecto al cero arbitrario y las
unidades. Comprende desde 0 a 100 y se expresa en percentiles.
El percentil 30 (P30), es el punto de la escala por debajo del cual se encuentra el 30% de
los sujetos, o tambin el percentil 84 (P84), es el punto de la escala por debajo del cual se
encuentra el 84% de los sujetos.
Cuando hablamos de la desviacin o amplitud semiintercuartilar decimos que la mediana
es el punto de la distribucin de frecuencias debajo o encima de la cual se encuentra el
50% de los casos, y que el primer cuartil (Q1), marca el punto debajo del cual se encuentra
el 25% de los casos y el tercer cuartil (Q3), el 75% de los casos. Pues bien, en vez de
dividir nuestra muestra o colectivo en cuarteles (25%), la dividimos en cien partes iguales y
a los diversos puntos de la escala que separan las partes de porcentajes de 1 se les llama
percentiles o centiles. En la prctica tenemos 100 espacios y 99 puntos percentiles.
El mtodo para calcular y construir la escala percentilar es esencialmente igual al utilizado
en el clculo de la mediana.
Normas Locales (Baremos o Normas de Centro).
Para ser tiles, las normas o baremos deben permitir al profesional psiclogo comparar a
un sujeto, examinado o probando, con sus posibles compaeros y competidores. Muchas
veces, encontramos que las normas generales no son de gran utilidad toda vez que existen
mltiples diferencias entre las diversas regiones geogrficas, las profesiones, los colegios,
etc. Esta situacin se agudiza en pases como el nuestro donde los grupos humanos son
tan heterogneos, que resulta necesario elaborar normas locales o baremos de centro. Por
ejemplo: si el psiclogo trabaja en un centro educativo de nivel socio econmico muy alto,
debe elaborar tablas de normas o baremos para la poblacin en la cual desempea sus
funciones. Estas normas sern expresadas en los puntajes derivados que dicho
profesional estime conveniente de acuerdo al tipo de prueba, poblacin, confiabilidad,
validez, etc.
GLOSARIO
Actitud y Evaluacin de Actitudes. Se entiende por actitud una predisposicin organizada y
duradera con componentes cognoscitivos, afectivos y conductuales, que orienta a la persona a
pensar, sentir, percibir o a comportarse de una manera determinada hacia un referente u objeto
cognoscitivo. Se evalan usualmente mediante inventarios, es decir, listas de afirmaciones
asociadas con el objeto de la actitud, a las cuales el Sujeto responde, indicando en una escala
su disposicin positiva o negativa hacia esa afirmacin.
Anlisis de tems. Procedimiento cuantitativo mediante el cual se determina el funcionamiento
de los tems de una prueba o encuesta. Permite establecer el nmero y proporcin de sujetos
que responde la Clave y cada uno de los Distractores, as como la Correlacin Biserial de las
opciones con el puntaje total en la prueba o con un Criterio de Validacin externo.
Anlisis Factorial. Vase Factor
Anava de Hoyt. Procedimiento para al clculo de la Confiabilidad de Consistencia Interna de
una prueba, que establece la relacin entre la varianza debida a los sujetos, los tems y la
varianza total del test.
Aptitud y Pruebas de Aptitudes. Una aptitud es una combinacin de habilidades,
conocimientos y otras caractersticas, innatas o adquiridas, que indican el potencial de un
individuo para aprender a desarrollar un buen rendimiento en un rea particular si se le provee
de educacin y entrenamiento. Entre los tests aptitudinales se incluyen los que evalan la
habilidad acadmica general (llamados comnmente de habilidad mental o de inteligencia), los
de habilidades especiales tales como verbal, numrica, mecnica o musical; tests de apresto
para el aprendizaje; tests de pronstico que evalan tanto la habilidad como el aprendizaje
anterior y son usados para predecir el rendimiento futuro usualmente en un campo especfico,
como una lengua extranjera, taquigrafa, etc. Tambin se habla de aptitud en un sentido ms
amplio, por lo que la aptitud musical, por ejemplo, se referira a una combinacin de
caractersticas fsicas y mentales, y de aspectos motivacionales, intereses y otras
caractersticas, que conducen a lograr un buen rendimiento en msica.
Batera de Pruebas. Una Batera de Pruebas es un grupo de tests estandarizados sobre una
misma muestra de poblacin, de manera que los resultados en los diferentes tests son
comparables. Tambin se concibe como un conjunto de tests desarrollados para evaluar
habilidades interrelacionadas entre s tericamente y/o empricamente y asociadas con la
realizacin de una tarea o con los estudios acadmicos. Cuando se aplican todas las pruebas
como batera, es posible elaborar un Perfil Psicomtrico de la persona. Es usual que las
variables a explorar con los tests de una Batera se seleccionen de manera que tengan validez
factorial o que tengan altas correlaciones entre los tems de una prueba, pero bajas entre
pruebas. Un ejemplo de batera es el Test Diferencial de Aptitudes de Bennet y Seashore.
CEEB. Transformacin lineal derivada introducida por el College Entrance Examination Board
de USA, de Media 500 y Desviacin Tpica 100. Su gran amplitud permite la comparacin de
resultados de grandes grupos de sujetos, acumulados de ao en ao.
Clave de Correccin. Es el conjunto de respuestas correctas a las preguntas de una Prueba
Psicomtrica. La clave de correccin, tambin debe indicar la ponderacin dada a cada una de
las respuestas para el clculo del puntaje bruto total.
Cociente Intelectual (CI). Indicador del nivel de inteligencia utilizado en las primeras pruebas
psicomtricas y que se calculaba mediante la divisin de Edad Mental (calculada por el test) y
Edad Cronolgica (edad real del Sujeto) multiplicada por 100. Un valor de 100 (igual edad
mental y edad cronolgica) indica normalidad, mientras que por debajo indica retardo y por
encima aceleracin.
Cociente Intelectual de Desviacin (CI Desviacin). Sustituto del Cociente Intelectual
original se desarroll por las diferencias existentes en la varianza de las puntuaciones del
Cociente Intelectual en los diferentes niveles de edad, que dificultaban la interpretacin de los
resultados. Es en realidad una transformacin que tiene una media de 100 y una desviacin
tpica de 15.
Colectivas, Pruebas. Pruebas que se pueden aplicar a grupos de sujetos para su evaluacin.
Este concepto se contrapone al de Pruebas Individuales.
Coeficiente Alfa. Estimado de confiabilidad de consistencia interna propuesto por Cronbach.
Para tems binarios, da resultados iguales a la frmula Kuder Richardson 21 (KR21).
Coeficiente de Correlacin. Medida del grado de asociacin que existe entre dos conjuntos
de medidas realizadas en el mismo grupo de individuos. El ms conocido y utilizado con
Pruebas Psicomtricas es Producto Momento de Pearson, aunque existen otros como
correlacin por rangos, biserial, tetracrico, etc. Tiene un recorrido entre +1.00 y 1.00
(asociacin perfecta positiva o negativa), pasando por 0.00 (ausencia de relacin entre ambas
medidas). La correlacin indica solamente asociacin entre variables, no relaciones causales.
Confiabilidad. El grado en que un test es consistente al medir la variable que mide. Algunas
palabras asociadas con la Confiabilidad son estabilidad, exactitud, consistencia y precisin, as
como el Error Estndar de Medida. La Confiabilidad se expresa usualmente mediante
coeficientes de correlacin, obtenidos a partir de los puntajes en dos aplicaciones de la misma
prueba al mismo grupo de Sujetos o haciendo uso de pruebas paralelas aplicadas al mismo
grupo de sujetos. Tambin se define como Consistencia Interna, que se obtiene mediante la
determinacin de las intercorrelaciones o Covarianzas de los tems (vase KR21 y Coeficiente
Alfa).
Construccin de pruebas, fases de la. Las pruebas psicomtricas se construyen mediante un
cuidadoso proceso, que garantiza la calidad de las mismas. Tavella identifica varias fases: 1)
Preparatoria, en la que se define (terica y operacionalmente) la variable a explorar, se
establecen las especificaciones del instrumento, se elaboran los tems, se depuran
cualitativamente mediante el juicio de expertos, se elaboran instrucciones y se estructura el
instrumento. 2) Exploratoria, en la cual se aplica a una muestra informal de sujetos de la misma
poblacin a la cual va dirigida, se realiza anlisis de tems para determinar su calidad y se
depura el instrumento. 3) Experimental, en la cual se aplica el instrumento ya depurado en la
fase anterior a muestras formales de sujetos, hasta conocer mejor el instrumento, elaborar
estudios de validez y confiabilidad y normas. 4) Definitiva, en la cual ya se considera que el
instrumento est listo para su uso en grupos extensos de la poblacin, as como para la
realizacin de estudios normativos a gran escala.
Constructo. Las variables psicolgicas no son observables directamente, por lo que se infieren
a travs de la observacin de la conducta de las personas, y se plantean en trminos tericos.
Son inventados y adoptados en forma deliberada y consciente por la comunidad cientfica, es
decir, construidos por los investigadores y tericos de la psicologa.
Contaminacin del Criterio. Situacin en la cual, una persona que debe establecer un Criterio
de Validacin conoce de antemano las puntuaciones obtenidas por los sujetos en la prueba y
sesga su juicio por ese conocimiento. Por ejemplo, un maestro que debe indicar el nivel de
habilidad verbal de un grupo de alumnos, pero conoce con antelacin los resultados de la
prueba de razonamiento verbal que va a ser validada con su evaluacin.
Correccin (puntuacin) de Pruebas. Es la asignacin de puntajes a las respuestas dadas
por un sujeto a las preguntas de una prueba. La mayora de las veces se realiza mediante la
asignacin de un punto por cada respuesta correcta (tems binarios), es decir, que coincida con
la clave de respuestas (ver Clave de Correccin), aunque tambin son posibles otras formas de
correccin, como restar a las respuestas correctas una proporcin de las incorrectas. Consulte
tambin Puntaje Directo o Puntaje Bruto.
Correccin de Puntajes por Azar. Los tems de opciones mltiples permiten responder al azar
y alcanzar un cierto nmero de aciertos, es decir, permiten la adivinacin de las respuestas.
Por ejemplo, en una prueba de 40 tems de cuatro opciones, la probabilidad de marcar la
respuesta correcta por azar es de 25%, lo que permite establecer una media de puntajes por
azar de 10 puntos y una desviacin tpica de 2,73 (en una distribucin binomial, la media es
0,25x40= 8 puntos y la desviacin tpica raz de 0,25X0,75x40= 2,73). Por ello se han
propuesto formas de correccin por puntajes por azar. La ms comn es la siguiente, en donde
Xc es puntaje corregido, C es el nmero de respuestas correctas, I es el nmero de incorrectas
y k es el nmero de opciones. Estas frmulas asumen que toda respuesta incorrecta es una
respuesta al azar; lo usual es que se le recomiende al Sujeto, que se abstenga de dar
respuestas en las que no est completamente seguro y se le advierta sobre el uso de la
frmula de correccin. 1=kICXc
Correccin por atenuacin. La correlacin entre dos variables se modera en su magnitud, por
el nivel de confiabilidad de cada uno de las medidas. Esto hace que el resultado aparente ser
ms bajo, que la correlacin que se obtendra si se contase con medidas perfectamente
confiables. Para determinar el nivel de asociacin que se obtendra con medidas confiables, se
hace uso de la correccin por atenuacin, que se obtiene por la frmula siguiente, en donde
rTG es la correlacin entre los puntajes verdaderos, rtg es la correlacin obtenida entre las dos
variables, rtt es la confiabilidad de una de las medidas y rgg es la confiabilidad de la otra.
ttggTGrrrr.tg=
Correlacin Punto Biserial. Estimado de la correlacin Producto Momento de Pearson que se
calcula entre una variable continua y una variable dicotmica. Se aplica en el Anlisis de Items
para determinar la asociacin entre el puntaje total en el test y el puntaje obtenido en la Clave y
cada uno de los distractores. Se calcula mediante la frmula siguiente, en donde Mp es la
media obtenida por las personas que respondieron correctamente el tem, Mq la media de los
que respondieron de manera incorrecta, p es la probabilidad de respuesta correcta del tem, q
la probabilidad de respuestas incorrectas y Sx la desviacin tpica de la prueba.
pqSxMqMprpb=
Correlacin Mltiple. La correlacin que se establece entre una variable predicha y varias
variables predictoras en contraste con la Correlacin simple. Por ejemplo, el rendimiento
universitario (Criterio) que se predice haciendo uso de los resultados en varios tests (variables
predictoras). La Correlacin Mltiple tiene especial aplicacin en las Ecuaciones de Regresin
Mltiple, que permiten establecer una recta de regresin que incluye varias variables
predictoras de la forma siguiente (en donde K es una constante, nXn es la ponderacin que se
le da a cada una de las variables predictoras):
Y = K + 1X1 + 2X2 + 3X3
Correlacin Mltiple por Pasos. Correlacin Mltiple que se establece entre una variable
predicha y varias variables predictoras en forma progresiva. Para ello, se toma el coeficiente de
correlacin ms alto de todas las predictoras con la predicha, y se establece una recta de
regresin, que permite establecer la correlacin entre Y y Y. La siguiente variable predictora se
correlaciona con los residuos para establecer si correlaciona en forma significativa. Si es as, se
incorpora al clculo de la recta de regresin del siguiente nivel. Se deja de incorporar variables
cuando una variable predictora no correlaciona en forma significativa con los residuos.
Correlacin simple. Relacin que se establece entre una variable predictora (o independiente)
y una variable predicha (o Criterio). Es el modelo ms sencillo de correlacin. Vase
Correlacin Producto Momento de Pearson.
Correlacin producto momento de Pearson. Coeficiente de correlacin que permite
establecer el grado de asociacin entre dos variables continuas. Dado que se fundamenta en
los mnimos cuadrados, exige que las variables guarden una relacin lineal entre ambas y que
presenten homocedasticidad. Se calcula mediante la frmula: YXxySNSYYXXr=))((
Covarianza. Grado en que dos o ms variables varan unas con relacin a las otras. Pueden
ser variables continuas o dicotmicas, como en el caso de los tems. Se puede establecer
mediante ndices de covarianza, que en el caso de los tems se determina mediante la frmula
siguiente: cov. = pij pi.pj. En realidad, la covarianza es la correlacin entre dos variables
multiplicada por sus desviaciones tpicas.
Criterio de Validacin. Es un estndar mediante el cual se evala la validez de un test. Se
requiere que sean tambin una medida de algn tipo, es decir, que se expresen en una Escala
Cuantitativa. Pueden ser el rendimiento en otra variable como otro test, la apreciacin de un
supervisor en el trabajo, los juicios de un profesor, notas en un curso, etc. Usualmente se
establece una correlacin entre el rendimiento en el test y la puntuacin en el criterio para
decidir cul es el grado de asociacin entre el test y el criterio, lo que permite predecir el
rendimiento a futuro o determinar el nivel actual en el criterio.
Desviacin Tpica. Es una medida de la variabilidad o dispersin de una distribucin de
puntajes. Mientras menos dispersos estn las puntuaciones alrededor de la Media menor es la
desviacin tpica, mientras ms se dispersan, mayor es la Desviacin Tpica. Cuando se trata
de una Distribucin Normal, existen algunas relaciones importantes. Por ejemplo, a una
desviacin tpica por encima y por debajo de la Media se encuentra el 68,26% de la
distribucin. El clculo de la Desviacin Tpica se realiza mediante el clculo de la raz
cuadrada de la sumatoria de los desvos de los puntajes con respecto a la media elevados al
cuadrado. Es tambin la raz cuadrada de la Varianza.
Dificultad de los tems. El grado de dificultad de un tem se determina mediante la proporcin
de respuestas correctas (cociente entre respuestas correctas divididas entre el nmero de
respuestas totales). La proporcin que se obtiene se denomina a la media del tem, o la p del
tem y es un indicador directo de su facilidad, o inverso de la dificultad, ya que su valor,
comprendido entre 0 y 1, indica que mientras ms se acerca a 0 es ms difcil el tem (puesto
que fue respondido por un menor nmero de personas) y mientras ms se acerca a 1 es ms
fcil (respondido por un mayor nmero de personas).
Distribucin bivariada normal. Modelo matemtico que permite describir la distribucin de los
puntajes de un grupo en dos variables simultneamente. Para utilizar este modelo, es
importante que los datos que se describen con esta distribucin muestren normalidad en sus
distribuciones marginales, linearidad en su relacin e igualdad de varianza en todos los niveles
de ambas variables (homocedasticidad).
Distribucin Normal. Es una distribucin de puntajes que tienen en su representacin grfica,
la tpica forma de una campana. Es llamada tambin Campana de Gauss. En una distribucin
normal, los puntajes se distribuyen en forma simtrica alrededor de la media, con tantos casos
hacia arriba como hacia abajo para distancias iguales. Los casos se concentran cerca de la
media y disminuyen en frecuencia a medida que se alejan de la media, de acuerdo a una
ecuacin matemtica muy precisa. La Media, Mediana y Moda son idnticos en una
Distribucin Normal, ya que existe simetra. No toda distribucin simtrica es necesariamente
normal. Nada indica en realidad que los rasgos psicolgicos se distribuyan de manera normal
en la poblacin de manera independiente del test que los mide; sin embargo, asumir que se
distribuyen en forma normal en la poblacin o en muestras de la misma y hacer que las
puntuaciones en el test se distribuyan en forma normal, es til porque permite hacer uso de las
propiedades conocidas de la Curva Normal para obtener conclusiones y realizar predicciones.
Efecto Halo. Efecto subjetivo que ocurre cuando al evaluar a una persona la impresin que
causa una variable o aspecto del sujeto afecta la evaluacin en otras variables. Por ejemplo, la
buena presencia de una persona determina que se considere que su nivel de razonamiento
debe ser alto y se indica as en la evaluacin.
Error Estndar de Estimacin. Al aplicar rectas de regresin para estimar el rendimiento en
otra variable, como un Criterio, si la correlacin no es perfecta (rxy = 1.0) se comete un error de
estimacin del criterio. Se utiliza para establecer la posible magnitud del error presente en la
estimacin (Y) y para determinar Intervalos de Confianza. Se calcula mediante la frmula Se =
Sx1-rxy2 (en donde Se es el error estndar de estimacin, Sx es la desviacin tpica de la
variable a predecir, y rxy2 es la correlacin entre el predictor y la variable predicha elevada al
cuadrado.
Error Estndar de la Diferencia. Estadstico que permite establecer si las diferencias entre los
puntajes obtenidos por una persona en dos pruebas o por dos personas en la
misma prueba, son diferentes entre s en forma lo suficientemente significativa
como para afirmar que subyacen diferencias en los conocimientos o habilidades
que se estn midiendo. Se calcula mediante la frmula siguiente, en la que St es
la Desviacin Tpica de la escala de medicin y rxx es el Coeficiente de
Confiabilidad: xxrSSetd=1(2
Error Estndar de Medida Sem. Es un estadstico que estima la posible magnitud del error
presente en un puntaje individual. El Error Estndar de Medida indica la diferencia que puede
existir entre el Puntaje Obtenido y el Puntaje Real o Verdadero (T), que se supone que refleja la
verdadera posicin del individuo en un continuo subyacente; esa diferencia se debe a errores
de medida. Mientras mayor es el Error Estndar de Medida, menos confiable es la puntuacin
obtenida. El Error Estndar de Medida es una magnitud tal, que en aproximadamente dos
terceras partes de los casos, el puntaje obtenido no diferir ms de un Error Estndar por
encima o por debajo del Puntaje Real. En teora se puede decir, que en 2 de cada 3 casos, el
puntaje obtenido se encuentra en una banda que se extiende del Puntaje Real ms o menos un
Error Estndar de Medida; pero debido a que el Puntaje Real nunca se puede conocer, la
prctica establece que, para la interpretacin, se puede revertir la relacin Puntaje Verdadero
Puntaje Obtenido. Se calcula mediante la frmula siguiente, en la que St es la Desviacin
Tpica de la escala de medicin y rxx es el Coeficiente de Confiabilidad: xxtemrSS=1
Escala. La sucesin de nmeros en funcin de los cuales se realiza la medicin. Clsicamente
se distinguen cuatro niveles: Nominal, Ordinal, Intervalo, Razn. Tambin se entiende por
escalas, las transformaciones de puntajes que se realizan a escalas de propiedades conocidas,
tales como Estaninas Percentiles, puntaje Z, Puntaje H, etc.
Estadstica Descriptiva e Inferencial. La E. Descriptiva es una rama de la estadstica aplicada
que permite describir las caractersticas de las distribuciones en funcin de los datos obtenidos.
La E. Inferencial es una rama de la estadstica que permite realizar inferencias sobre el
comportamiento de los estadsticos en la poblacin o un segmento de ella. Ambas son
absolutamente necesarias en el trabajo estadstico de los datos psicomtricos.
Estanina. Escala de nueve puntos estandarizados. El nombre proviene del ingls Stanine
(standard nine), que tiene valores del 1 al 9, con una Media de 5 y una Desviacin Tpica de 2.
Cada Estanina, excepto la 1 y la 9, tiene media desviacin tpica de ancho, y la Estanina 5 tiene
un cuarto de desviacin tpica por encima y un cuarto por debajo de la media. Cada Estanina
contiene un determinado porcentaje de la distribucin, de acuerdo a la siguiente Tabla:
Evaluacin. Es la comparacin de una situacin actual con un estndar. En el caso de las
pruebas psicomtricas, los resultados cuantitativos (vase Medicin), se comparan con
estndares para establecer cmo rindi la persona, es decir, evaluar el resultado; la evaluacin
puede ser la comparacin con una Norma, o con un Perfil Psicomtrico. Usualmente la
evaluacin constituye un juicio de valor.
Factores. En medicin psicomtrica, factor es un rasgo hipottico que subyace a una variable y
que influye sistemticamente en el rendimiento en los tems de un test o los puntajes en dos o
ms tests y por lo tanto, hace que el rendimiento en diferentes tests est correlacionado. El
trmino factor se refiere estrictamente a la variable terica, que se deriva por un proceso de
anlisis factorial a partir de una matriz de intercorrelaciones entre tests. Sin embargo, tambin
se utiliza para denotar la interpretacin psicolgica que se le da a la variable, por ejemplo, el
rasgo mental que se asume que est representado por la variable, tales como habilidad verbal,
habilidad numrica, etc.
Frecuencia. Es el nmero de observaciones que corresponde a un determinado puntaje en
una escala. Usualmente las observaciones son los sujetos que obtuvieron ese puntaje.
Frecuencia Acumulada. Es el nmero de observaciones acumuladas hasta el lmite superior
de un determinado puntaje en una escala. Se acumula siempre desde las puntuaciones ms
bajas en la Escala hacia los ms altos.
H (Escala H). Escala a la que se transforman en forma lineal los puntajes con Media de 100 y
Desviacin Tpica 20.
Homogeneidad. Grado de similitud que existe entre los elementos de una Poblacin con
relacin a ciertos atributos; la Poblacin puede ser de Sujetos, Items, o de Contenidos o
Conceptos. Cuanto se trata de sujetos, la Homogeneidad se puede establecer en forma
comparativa mediante la Varianza de una distribucin de puntajes obtenidos por dos o ms
grupos de sujetos; el que tiene la menor Varianza es ms homogneo, en este caso hablamos
de Homogeneidad de la Muestra. Cuando se trata de los tems de una prueba, se establece
mediante H de Horst, KR21, el Coeficiente Alfa de Cronbach, que se fundamentan en la
covarianza entre los tems; en este caso hablamos de Homogeneidad de la Prueba.
Intervalo de Confianza. Recorrido que se establece alrededor de un estadstico (calculado en
una Muestra) para determinar la ubicacin de un parmetro (de la Poblacin) con un
determinado Nivel de Confianza. Se establece en funcin de los estadsticos de muestreo del
estadstico en cuestin, para lo que es usual utilizar las propiedades de la Distribucin Normal.
Por ejemplo, el Intervalo de Confianza de la Media permite estimar la Media de la Poblacin
(), haciendo uso del error estndar de la Media multiplicado por la z correspondiente al Nivel
de Confianza seleccionado.
Inventario de Personalidad. Es un tipo de Prueba Psicomtrica que consiste en un
cuestionario o lista de chequeo, usualmente autoadministrada, diseada para obtener
informacin de variables no intelectuales de un individuo. Los inventarios usualmente evalan
rasgos tales como intereses, actitudes, motivacin, etc. (vase Pruebas de Personalidad).
tems. Son los estmulos o reactivos que se presentan a los sujetos para que respondan y
pongan de manifiesto conductas asociadas con un atributo determinado. Dependiendo del tipo
de prueba, los tems varan sustancialmente. Un tipo comn de tem son los de opciones
mltiples, que presentan un problema en el pie y varias opciones de respuesta de las cuales
slo una es la correcta (la clave) y las otras son Distractores, que sirven para atraer la
respuesta de quienes no conocen realmente la respuesta correcta.
Items binarios. Son los tems que aceptan como puntuacin solamente 1 0. Por contraste,
los Items No Binarios aceptan puntuaciones de ms de 1, o con valores decimales. Los tems
binarios tiene aceptacin tanto por su facilidad de correccin, como porque han demostrado
gran estabilidad en las puntuaciones y en su nivel de dificultad en muestras sucesivas.
Items No binarios. Son tems que no se puntan slo como 1 0. Son usados
frecuentemente, pero no exclusivamente, en inventarios de personalidad o en la medicin de
Actitudes e Inventarios de Personalidad, en los que pueden haber escalas de aproximacin de
cada afirmacin a la forma usual de comportamiento del sujeto.
KR21. Estadstico que permite determinar la confiabilidad de consistencia interna de una
prueba. Deriva su nombre de las frmulas propuestas por Kuder y Richardson en
Psychometrika en los aos 30, de las cuales la nmero 21 fue particularmente exitosa. Tiene
estrecha relacin con Alfa de Cronchach. Se calcula con la frmula siguiente en donde KR21
es el coeficiente de consistencia interna, m es el nmero de tems de la prueba, S2j es la
varianza del tem y S2x es la varianza total del test: =222111SxSmmKRi
Media o Media Aritmtica. Es el promedio de las puntuaciones obtenidas por un grupo en un
test. Se obtiene mediante la suma de las puntuaciones y la divisin entre el nmero de ellas.
Medicin. Consiste en la asignacin de numerales a las propiedades de los objetos o eventos
de acuerdo a ciertas reglas (Stevens). En medicin psicolgica, los objetos son las
manifestaciones de los atributos psicolgicos o constructos. Se fundamenta en varios
supuestos: a) la asuncin de la existencia de un continuo subyacente con direccionalidad, b) la
existencia de un solo puntaje verdadero para cada sujeto, c) la variabilidad entre sujetos con
relacin al puntaje verdadero y d) la posibilidad de obtener manifestaciones asociadas con la
posicin que la persona ocupa en el continuo subyacente. De esta manera, se asignan
puntuaciones, de acuerdo a ciertas reglas, a las manifestaciones de conducta asociadas al
atributo psicolgico que se desea medir. Las puntuaciones se interpretan en funcin de la
teora psicomtrica y psicolgica, para inferir acerca de la conducta actual, de la futura o de las
potencialidades de la persona. La medicin usualmente implica la existencia de un propsito y
una decisin que debe tomarse con relacin a los Sujetos de la medicin o de los atributos
medidos.
Mediana. Es la puntuacin en una distribucin de puntajes por encima de la cual se encuentra
el cincuenta por ciento de las observaciones.
Medidas de Dispersin. Estadsticos que permiten establecer la variabilidad de un conjunto de
datos. Por ejemplo: la Varianza, y la Desviacin Tpica.
Medidas de Tendencia Central. Estadsticos que permiten conocer la ubicacin de la
distribucin en un continuo, por ejemplo: Media, Mediana y Moda,
Moda. Es la puntuacin que tiene la frecuencia ms alta en una distribucin. Algunas
distribuciones pueden ser bimodales o multimodales.
Muestra. Una parte de una Poblacin o universo; un subconjunto de observaciones de una
poblacin. Si la poblacin est compuesta de individuos, la Muestra constituye un grupo de
individuos provenientes de esa poblacin. Se desea que las Muestras sean representativas de
la poblacin para poder inferir los parmetros de la poblacin a partir de los estadsticos de la
Muestra. La representatividad se logra asegurando que todos los individuos de la poblacin
tienen la misma probabilidad de ser seleccionados para la Muestra, se habla as de muestreo
probabilstico. Esto se logra mediante esquemas de muestreos entre los que se incluyen como
sus elementos bsicos: Muestreo por Azar Simple, Muestreo por Azar Sistemtico, Muestreo
Estratificado, Muestreo por Conglomerado. Estos esquemas exigen contar con una descripcin
exhaustiva de los elementos de la poblacin a fin de identificar cada uno de ellos. Cuando no
se cuenta con esa descripcin se hace uso de muestreos por cuotas, en los cuales se definen
los atributos que influyen sobre la variable a evaluar y luego se completan cuotas de personas
en cada una de los niveles de esos atributos.
N. Nmero de sujetos incluidos en un grupo de sujetos o en un grupo normativo.
Normas. Es la expresin estadstica del rendimiento tpico de un grupo en una prueba.
Usualmente se expresa mediante valores estadsticos o mediante un conjunto de puntajes en
una escala de propiedades conocidas. Sirven como referencia para darle significado a los
puntajes brutos o puntajes directos, que se obtienen en las Pruebas Psicomtricas. Las normas
se basan en el rendimiento real de un grupo de personas en una prueba. Dicho grupo se
selecciona especialmente para que tenga el mayor grado de similitud, en variables importantes,
con los individuos que sern evaluados con la prueba. Debido a que se trata de rendimiento
promedio o tpico, las Normas no deben ser consideradas como estndares o niveles
deseables de rendimiento. Tambin es importante que al construir Normas se definan con
claridad las caractersticas de los sujetos del grupo, con relacin a variables importantes tales
como edad, nivel educativo, profesin. Los tipos ms comunes de Normas son expresadas en
escalas como las Percentiles, Estaninas, Puntaje Z y Puntaje H.
Piso de una Prueba. Es el nivel ms bajo que se puede medir con una prueba. Cuando un
individuo obtiene una puntaje que coincide o que est muy cerca del puntaje ms bajo posible,
se dice que la prueba tiene un piso muy alto para l y que se le debe administrar una prueba
ms fcil (vase Techo de una Prueba).
Poblacin. Grupo de elementos (que pueden ser personas, tems, conceptos, etc. ) que se
definen como pertenecientes a un todo y del cual se obtiene una Muestra. Tambin, una
coleccin de todas las observaciones que se pueden identificar de acuerdo a ciertas reglas.
Pruebas Aptitudinales. Son pruebas Psicomtricas que miden habilidades y otras
caractersticas, ya sean innatas o adquiridas, que indican la capacidad de un individuo para
aprender o desarrollarse en un rea particular acadmica o laboral, siempre y cuando se le
provea entrenamiento adecuado y oportunidades. Las Pruebas Aptitudinales incluyen
tantohabilidades acadmicas generales (llamadas comnmente habilidad mental o inteligencia),
como habilidades especiales como habilidad verbal, numrica, cuantitativa o musical. En
general se utilizan para predecir el rendimiento futuro, usualmente en un campo especfico,
como programas de entrenamiento o en el trabajo.
Pruebas Cognoscitivas. Son Pruebas Psicomtricas destinadas a medir aspectos
intelectuales de la estructura mental o psicolgica del individuo. Incluyen las Pruebas de
Conocimientos, las Pruebas Aptitudinales, Las Pruebas de Habilidades y las Pruebas de
Personalidad.
Pruebas de Conocimiento. Son pruebas Psicomtricas que permiten medir el dominio de
informacin en un campo determinado u rea del conocimiento. Por ejemplo, dominio de
informacin sobre tcnicas de contabilidad. Son llamadas tambin Pruebas de Rendimiento.
Pruebas de Diagnstico. Son tests utilizados para establecer reas especficas de fortalezas
y debilidades, y que se utilizan, en oportunidades, para determinar el origen causal de
debilidades y desarrollar programas de intervencin individual o grupal. Tales Pruebas permiten
establecer medidas de los componentes de habilidades o conocimientos ms complejos.
Pruebas de Habilidades. Son Pruebas Psicomtricas que miden rasgos cognoscitivos que se
han desarrollado a travs del entrenamiento, de las oportunidades laborales o de las
actividades en la vida cotidiana. Entre ellas se pueden contar las habilidades de lectura,
ortografa, redaccin. Al igual que en las aptitudes, una definicin ms amplia y comprensiva de
las habilidades probablemente deba incluir tambin factores asociados con la motivacin, los
intereses y oportunidades, que permiten que una persona desarrolle sus aptitudes. Tambin es
posible percibir las habilidades como la plataforma para el desarrollo en nuevos campos, por lo
cual tienen tambin un carcter de aptitudes.
Pruebas de Personalidad. Son Pruebas Psicomtricas destinadas a medir uno o ms
aspectos no intelectuales de la estructura mental o psicolgica del individuo. Permite obtener
informacin acerca de caractersticas afectivas del individuo (emocionales, motivacionales,
actitudinales, etc.) que se diferencian de sus habilidades o procesos intelectuales. Las Pruebas
de Personalidad incluyen: a) los llamados inventarios de personalidad y de ajuste, que intentan
medir la posicin de la persona en rasgos tales como dominancia, sociabilidad, introversin,
locus de control, autoestima, etc., mediante el uso de respuestas autodescriptivas a una serie
de preguntas o afirmaciones. b) Escalas de rating, que exigen que el sujeto se compare, o sea
comparado por otros, con respecto a ciertos rasgos. c) Inventarios de opinin o actitudes.
Algunos autores tambin incluyen los inventarios de intereses y creencias como pruebas de
personalidad.
Pruebas de Potencia. Son Pruebas diseadas para medir el nivel de rendimiento
independientemente de la velocidad de respuesta. Por ello, usualmente no tienen lmite de
tiempo o se otorga a los sujetos suficiente tiempo para que puedan terminar sin dificultad. Es
usual que los reactivos o tems se ordenen de manera creciente de acuerdo a su dificultad.
Pruebas de Velocidad. Son Pruebas diseadas para evaluar habilidades asociadas con la
velocidad de respuesta y establecen su varianza en funcin de la velocidad de respuesta.
Usualmente contienen muchos tems relativamente fciles, que si se contase con suficiente
tiempo seran respondidos por todos los sujetos, pero como deben ser respondidos bajo
condiciones de presin de tiempo, usualmente no se logran responder todos.
Pruebas Psicomtricas. Vase Tests Psicomtricos
Pruebas Referidas a Dominio. Son pruebas diseadas para proveer informacin sobre
conocimientos o habilidades especficas que posee el sujeto de manera directa con relacin al
dominio que evala el test. Tales tests cubren usualmente unidades de contenido y estn
estrechamente relacionadas con procesos de instruccin. Sus puntajes tienen significado en
funcin de lo que el estudiante sabe o puede hacer, ms que en relacin con los puntajes
obtenidos por un grupo de referencia o grupo normativo. Fueron propuestas inicialmente por
Glaser en 1963 y se comenzaron llamando Pruebas Referidas a Criterios, nombre que fue
abandonado debido al carcter polismico en Psicometra del trmino Criterio, que tambin
puede ser entendido como Criterio de Validacin y como Punto de Corte.
Psicometra. Medicin de los atributos psicolgicos. En general constituyen mtodos
experimentales que permiten poner de manifiesto conductas asociadas con los atributos
psicolgicos; a esas manifestaciones se les asignan numerales que permiten establecer el nivel
relativo en que se encuentra ubicada la persona con relacin al atributo. Los Test
Psicomtricos son uno de los mtodos de la Psicometra.
Puntaje Derivado. Son puntajes que se transforman a escalas de propiedades conocidas.
Estas escalas, de las cuales lasa ms conocidas con los Puntajes Z, C.I., Desviacin H, CEEB
y T, tienen una media y una desviacin tpica determinada lo que permite interpretar las
puntuaciones en funcin de dnde se ubican en la escala. Por ejemplo H tiene una Media de
100 puntos y una Desviacin Tpica de 20, lo que se representa como H(100,20). Algunos
puntajes Derivados son transformaciones lineales de los Puntajes Directos, mientras que otros
son transformaciones No Lineales, como el caso de las Estaninas o T.
Puntaje Directo o Puntaje Bruto. Son los puntajes que se obtienen directamente de la
asignacin de numerales a las respuestas a una Prueba Psicomtrica. Usualmente se obtienen
de asignar un punto por cada respuesta correcta. En los casos en que existe una correccin
por puntajes al azar, es usual que se calcule mediante la frmula X = C l/(k-1) En donde X es
el puntaje obtenido, C las preguntas respondidas correctamente, l las respondidas
incorrectamente y K el nmero de opciones de las preguntas de la Prueba Psicomtrica.
Punto de Corte o de aprobacin. Se refiere al puntaje por encima del cual se considera que
el sujeto cumple con ciertos requisitos de ingreso, aprobacin de una materia o de seleccin
para un empleo. Pueden ser establecidos fundamentados en estudios que demuestran que a
partir de ese punto existe mayor probabilidad de xito en el trabajo o en los estudios, o de
manera ms o menos arbitraria, para permitir el ingreso a un cierto nmero de personas a la
institucin, como cuando existe un cupo limitado. Tambin ha sido denominado Criterio, pero,
por el carcter polismico (muchos referentes o significados) de ste trmino, es conveniente
no utilizarlo en ste contexto.
Software Psicomtrico. Programas de computacin utilizados para la Correccin de Pruebas,
la administracin de pruebas por computadora o para el procesamiento de informacin. En
Venezuela se producen y comercializan dos programas: Microitem, que permite el anlisis de
tems, la correccin de pruebas de opciones mltiples con tems binarios y no binarios, y la
elaboracin de normas, producido por Massimo Di Salvatore de la Universidad Central de
Venezuela y PsicoMet, que permite la correccin de pruebas, la elaboracin de informes
psicomtricos grupales e individuales, la administracin de una base de datos de elegibles y la
elaboracin de normas internas, producido y distribuido por Psico Consult C.A. Ninguno de
estos programas permite la administracin de pruebas por computadora, pero tienen la ventaja
de que permiten el procesamiento de cualquier prueba binaria de opciones mltiples.
Spearman Brown, Frmula de Profeca. La confiabilidad de un test tiene una relacin directa
con el nmero de tems. Cuando se duplica el nmero de tems, la confiabilidad es mayor.
Cuando se calcula la confiabilidad por el mtodo de divisin por mitades, se obtiene la
confiabilidad de la mitad de la prueba, por lo que se hace necesario ajustar para la totalidad de
los tems.
Sujeto. Es una de las forma de referirse a las personas que presentan Pruebas Psicomtricas
o que participan en un experimento.
Tabla de Especificaciones. Son tablas que permiten definir el contenido de una prueba; son
particularmente tiles para la elaboracin de Pruebas de Conocimiento y para determinar su
validez. Usualmente se establecen como tablas de doble entrada (aunque pueden incluir ms
de dos dimensiones), una de las cuales indica el contenido del proceso de aprendizaje y la otra
alguna definicin de las habilidades que la persona logr durante ese proceso (es usual usar la
Taxonoma del Dominio Cognoscitivo de B. Bloom y otros).
Tablas de Expectacin. Son tablas que muestran la relacin entre los puntajes de un test
predictivo y el rendimiento en un criterio determinado. La relacin se puede expresar de
maneras diferentes tales como: a) El promedio de rendimiento en el criterio. b) El porcentaje de
casos en cada uno de los niveles sucesivos. c) La probabilidad de obtener una puntuacin en el
criterio, dada una puntuacin en la Prueba. Las Tablas de Expectacin son comunes para la
prediccin del xito acadmico o laboral, son de fcil elaboracin y comprensin. Se
diferencian las Tablas de Expectacin Individual de las Tablas de Expectacin Institucional ,ya
que en las primeras se indica la probabilidad de obtencin de un determinado resultado en el
Criterio, mientras que en las segundas se plantea solamente la probabilidad de xito o fracaso
en el mismo. El nivel ms avanzado incluye varias variables predictoras y se construyen a partir
de rectas de regresin mltiple.
Techo de una Prueba. Es el nivel ms alto de habilidad que se puede medir con un test.
Cuando un individuo logra un puntaje que coincide o que est cerca del puntaje ms alto
posible, se dice que el test tiene un techo, muy bajo para l y es necesario administrarle una
prueba que sea ms difcil (vase Piso de una Prueba).
Tendencia Central (medidas de). Las medidas de tendencia central proveen una
representacin del rendimiento de un grupo, indica la tendencia del grupo de medidas. Las ms
conocidas son la media, la mediana y el modo.
Tests Psicomtricos. Un test psicolgico constituye esencialmente una medida objetiva y
tipificada de una muestra de conducta Anastasi, Anne. Rodrguez y Feli lo definen como ...
un conjunto de estmulos seleccionados haciendo uso de una fundamentacin terica,
psicolgica y psicomtrica, en funcin de un propsito. Estos estmulos son presentados a
sujetos en condiciones controladas con el objeto de poner de manifiesto conductas relevantes
que debidamente interpretadas con base a normas y/o criterios permiten la toma de decisiones
respecto a un individuo, un grupo o un proceso.
Transcripcin de Resultados. Es la accin de registrar en un programa de computacin (por
ejemplo, el PsicoMet) las respuestas dadas por los sujetos a las preguntas de una Prueba
Psicomtrica.
Transformacin de puntajes. Los Puntajes Directos que se obtienen por la asignacin de
numerales a las respuestas de los sujetos, usualmente no tienen una significacin inmediata.
Por ello se realizan transformaciones a escalas de propiedades conocidas, que permiten contar
con un resultado ms fcilmente interpretable en funcin del rendimiento de grupos normativos.
Se reconocen al menos dos tipos de transformaciones: lineales y no lineales. Las lineales se
realizan mediante ecuaciones que utilizan estadsticos como la media y la desviacin tpica y
no modifican la forma de la distribucin (por ello existe una relacin rectilnea entre los puntajes
directos y sus puntajes transformados); las ms conocidas son z, Z, y H. Las no lineales hacen
uso de ciertas propiedades, como el nmero de casos acumulados en la distribucin y el
puntaje transformado (por ello existe una relacin no lineal entre los puntajes directos y sus
puntajes transformados); las ms conocidas son los Percentiles, Estaninas, Pentiles, zn y T.
Validacin Cruzada. Procedimiento mediante el cual la validez de una prueba establecida en
una muestra poblacional se verifica con otra muestra proveniente de la misma poblacin. Es
usual derivar rectas de regresin cuando se hacen estudios de validez; al realizar un estudio de
Validacin Cruzada, se utiliza esa recta para determinar los mejores valores predichos en otra
muestra de la poblacin, y luego se verifica qu tan cerca est la prediccin de los resultados
obtenidos en el Criterio de Validacin haciendo uso de mtodos correlacionales.
Validez. La medida en que el test mide lo que se pretende que mida, es decir, que sirva para lo
que se pretende utilizar. El trmino validez, por lo tanto, tiene connotaciones diferentes
dependiendo el uso para el cual se propone y para diferentes tipos de tests. Se habla as de
Validez Aparente, Validez de Constructo, Validez de Contenido, Validez Emprica o Criterial,
Validez Aparente. Es la medida en que el test aparenta ser un instrumento eficiente de
medicin. En realidad tiene ms que ver con lo que los Sujetos piensan del instrumento y la
situacin en que se aplica y la credibilidad que pueden tener en el proceso de evaluacin y la
atencin que prestarn a la misma.
Validez de Constructo. Pretende establecer hasta qu grado la varianza total observada se
puede explicar en funcin de variables (Constructos) derivados de una teora. Para realizar
estudios de validez de constructo, es necesario contar con una buena descripcin terica, que
permita derivar hiptesis y probarlas haciendo uso del instrumento. En la medida en que se
obtienen los resultados predichos por la teora, se dice que hay validez de constructo.
Validez de Contenido. Determinacin de si una prueba mide lo que se supone que debe medir
con relacin a la Tabla de Especificaciones que describe el universo de evaluacin (tpicos de
contenido, habilidades desarrolladas, etc.). Se establece cuando un grupo de expertos analiza
cualitativamente los tems y determina dnde se ubican con relacin a las celdas de la Tabla de
Especificaciones. Si existe coincidencia entre los juicios de los expertos y lo que se prev que
mida cada tem, se dice que hay validez de contenido. Es decir, se trata de determinar qu
grado de representatividad tiene la prueba con respecto a universo de conceptos que se
pretende medir. Se aplica de manera particular en las Pruebas de Rendimiento, que evalan un
contenido determinado.
Validez Emprica o Criterial. Establece la relacin entre el rendimiento en el test y las
puntuaciones obtenidas en una variable externa (criterio) que se supone mide el mismo atributo
que el test. Hace uso de mtodos correlacionales (vase Correlacin), que permiten establecer
el grado de asociacin entre ambas variables. La validacin emprica se fundamenta en
estudios que tienden a ser de carcter aplicado, puesto que a menudo interesa solamente la
capacidad predictiva de los resultados de la prueba con relacin al criterio. Cuando el criterio se
toma algn tiempo despus de la aplicacin de la prueba, se habla de validez predictiva, como
cuando se trata de predecir el rendimiento universitario a partir de una prueba de aptitud
acadmica. Cuando se toman la medida en el test y en el criterio en forma simultnea se habla
de validez concurrente, como cuando se trata de realizar un diagnstico de los conocimientos
de un grupo de personas.
Varianza. Medida de la dispersin de los puntajes en una distribucin. Se calcula mediante el
promedio de los desvos de cada puntaje con respecto a la Media elevados al cuadrado.
Varianza del tem. En tems binarios se determina mediante la multiplicacin de pxq, en donde
p es la proporcin de respuestas correctas y q la de respuestas incorrectas al tem. En este tipo
de tems, su valor est contenido entre 0 y 0,25. En tems no binarios, tanto para su clculo
como para establecer sus lmites, es necesario conocer el recorrido de la escala de los tems.
La raz cuadrada de la varianza del tem constituye la desviacin tpica del tem.
z o puntaje Estndar. Es un trmino general que se refiere a la transformacin de puntajes a
escalas de propiedades conocidas. En el caso de los puntajes z (minscula) es una
transformacin referida al nmero de desviaciones con respecto a la media a la que se
encuentra un determinado puntaje. Se calcula mediante la frmula siguiente (en donde X es un
puntaje determinado, X es la Media y D.T. es la Desviacin Tpica) z = (X X) / D.T.
Z (Escala Z). Transformacin lineal de Media de 50 puntos y Desviacin Tpica de 10 puntos.
zn (z normalizada). Transformacin a una escala de Media = 0 y Desviacin Tpica = 10,
fundamentada en las proporciones acumuladas hasta el punto medio de la clase haciendo uso
de la Tabla z de reas bajo la curva normal. Es una transformacin no lineal.
BIBLIOGRAFIA
1. Tovella, M. (1988). Anlisis de los temes e la construccin de instrumentos psicomtricos.
Mxico Trillas.
2. Bastin, G. (1968). Los Test Psicomtricos. Buenos Aires Kapelusz.
3. Adkins Wood, D. (1968). Elaboracin de test. Mxico Trillas.
4. Glass,G., Stanley,J. (1986). Mtodos estadsticos aplicados en las ciencias sociales.
Espaa Florento Hall Internacional.
5. Sieguel, Sidney. (1978). Estadstica no paramtrica aplicada a las ciencias de la conducta.
Mxico Trillas.
6. Cortada, N., Carr, J. (1979). Estadstica Aplicada. Buenos Aires. Ediciones Previas.
7. Numnaly Jun. (1979). Introduccin a la medicin Psicolgica. Buenos Aires Centro
Regional de Ayuda Tcnica.
8. Numnaly, Jun. (1991). Teora Psicomtrica. Mxico. Trillas.
9. Robert L. Thorndike. (1989). Psicometra Aplicada. Limusa. Mxico.
10. Manning, S., Rosentock, E. (1979). Elaboracin de escalas de actitudes y psicofsica
clsica. Mxico. Trillas.
11. Magnuson, D. (1986). Teora de los Test. Mxico Trillas.
12. Woolfolk, Anita . (1990). Psicologa Educativa. Tercera Edicin. P.H.H. Prentice Hall.
Mxico.
13. Escotet , Miguel. (1985). Estadstica Psicoeducativa Trillas Mxico.
14. Smith, Milton. (1971). Estadstica Simplificada para Psiclogos y Educadores. Manual
Moderno Mxico

Manual de Medicion Psicologica. 2011

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Manual de Medicion Psicologica. 2011

Încărcat de

Drepturi de autor:

Formate disponibile

PRIMERA UNIDAD

FUNDAMENTOS DE LA MEDICION PSICOLOGICA

O en el caso de que los tems sean dicotmicos:

En suma, los parmetros de los tests, poder discriminativo (

S-ar putea să vă placă și