Documente Academic
Documente Profesional
Documente Cultură
PRIMERA UNIDAD
FUNDAMENTOS DE LA MEDICION PSICOLOGICA
LECCION 1
INTRODUCCION A LA MEDICION
1. INTRODUCCION
Hace algunos siglos, medir resultaba algo muy complicado. Como decamos, medir es
simplemente comparar, y cada persona, cada pueblo, cada pas comparaba las cosas
con lo que ms se le antojaba. Por ejemplo, usaban la medida mano para medir
distancias, y an hoy mucha gente, cuando no tiene una regla o una cinta mtrica, mide
la mesa con la mano o el largo del cuarto con pasos.
Desde la aparicin del ser humano sobre la tierra surgi la necesidad de contar y medir,
no es posible saber cuando surgen estas unidades para contar y medir, pero la
necesidad de hacerlo aporta ingredientes bsicos que requiere la metrologa como
mnimo, para desarrollar su actividad fundamental como ciencia que estudia los sistemas
de unidades, los mtodos, las normas y los instrumentos para medir.
Se ha dicho que todos los descubrimientos han tenido lugar gracias a las mediciones
precisas del tiempo, masa o longitud; de estas tres, la medicin exacta de la longitud es
la que ofrece ms dificultades y han adquirido mayor importancia, hasta el momento
presente en que sigue constituyendo uno de los mayores problemas con que deben
enfrentarse el mundo de la mecnica.
2. QU ES MEDIR?
La medicin es la determinacin de la proporcin entre la dimensin o suceso de un
objeto y una determinada unidad de medida. La dimensin del objeto y la unidad deben
ser de la misma magnitud. Una parte importante de la medicin es la estimacin de
error o anlisis de errores.
Para establecer medidas debemos partir de nuestra observacin del mundo real o
dominio.
Debemos identificar cules son las entidades que queremos medir (p.ej., tamao) y
definir qu atributo deseamos caracterizar (p.ej., estatura).
Medir: asignar nmeros a las cantidades e las propiedades de una persona de acuerdo
con reglas preestablecidas y que se puede comparar; Es decir, cuantificamos
cualidades.
En psicologa las caractersticas las inferimos por lo que es importante que los
instrumentos de medida constaten que esas inferencias son reales.
Los instrumentos son los test psicomtricos que pretenden ser una medida objetiva y
tipificada de pequeas muestras de conducta significativas del sujeto.
Magnusson (1969), dice que medir es asignar nmeros a las cantidades de las
propiedades o atributos de los objetos, de acuerdo con ciertas reglas cuya validez
puede probarse.
Kerlinger (1973), dice que, en cierto sentido, la medicin es slo un juego y el objeto
de dicho juego es producir una correspondencia entre la medicin y la realidad; cuanto
mayor sea esa correspondencia, tanto mejor ser la medicin.
Bunge (1983), la medicin es la contrapartida emprica de la cuantificacin o
determinacin de la medida, y consiste en interpretar ciertas seales convencionales
(cifras, por ejemplo), como nmeros que suministran una imagen ms o menos fiable
de porciones o grados de esa propiedad.Adems, exige un cero absoluto y
unidades de
medida que pertenezcan a un sistema de unidades coherentes
(tericamente fundado).
Herrera Rojas (1993), dice que la medicin comprende la definicin del atributo que se
quiere medir, el establecimiento de la unidad de medida a emplear, la operacin de
comparar el primero con la segunda y la asignacin de valores numricos como
resultado de esa comparacin siguiendo reglas convencionales
Nunally y Berstein (1995), es importante tener presente que no se miden las personas
sino atributos, es decir, caractersticas particulares de los objetos de medicin.
Ejemplo: en la prctica no medimos a un adolescente, sino algunos de sus atributos,
como: su inteligencia, su personalidad, sus preferencias vocacionales, sus hbitos de
estudio, etc.
4. SISTEMA NUMERICO
4.1 NUMERACIN
Sistema de smbolos o signos utilizados para expresar los nmeros.
Las primeras formas de notacin numrica consistan simplemente en lneas rectas,
verticales u horizontales; cada una de ellas representa el numero 1. Por lo que este
sistema era extremadamente engorroso para manejar grandes nmeros y para hacer
operaciones. Ya en el ao 3400 a.C. en Egipto y Mesopotamia se utilizaba un
smbolo especfico para representar el nmero 10.
En la notacin cuneiforme de babilonia el smbolo utilizado para el 1, era el mismo
para el 60 y sus potencias.; el valor del smbolo vena dado por su contexto.
a. Numeracin Griega
Coexistieron dos sistemas de numeracin paralelos. El primero de ellos estaba
basado en las iniciales de los nmeros, el nmero 5 se indicaba con (eta); el
(delta) el 100 con la letra (PI); el 10 con la letra la letra (mu). En el (chi) y el
1000 con la letra 1000 con la letra segundo sistema eran usadas todas las
letras del alfabeto griego ms otras tres tomadas del alfabeto fenicio como
guarismos. La ventaja de este sistema era que con poca cantidad de nmeros se
podan expresar grandes cifras; pero haba que saberse de memoria un total de
27 smbolos.
b. Numeracin Romana
Este sistema (tan bien conocido por nosotros) tuvo el mrito de ser capaz de
expresar los nmeros del 1 al 1.000.000 con solo siete smbolos: I para el 1, V
para el 5, X para el 10, L para el 50, C para el 100, D para el 500 y M para el
1000. Es importante acotar que una pequea lnea sobre el nmero multiplica su
valor por mil.
En la actualidad los nmeros romanos se usan para la historia y con fines
decorativos. La numeracin romana tiene el inconveniente de no ser prctica
para realizar clculos escritos con rapidez.
c. Numeracin Arbiga
El sistema corriente de notacin numrica que es utilizado hoy y en casi todo el
mundo es la numeracin arbiga. Este sistema fue desarrollado primero por los
hindes y luego por los rabes que introdujeron la innovacin de la notacin
posicional; en la que los nmeros cambian su valor segn su posicin. La
notacin posicional solo es posible si existe un nmero para el cero. El guarismo
0 permite distinguir entre 11, 101 y 1001 sin tener que agregar smbolos
adicionales. Adems todos los nmeros se pueden expresar con slo diez
guarismos, del 1 al 9 ms el 0. La notacin posicional ha facilitado muchsimo
todos los tipos de clculos numricos por escrito.
En matemticas, varios sistemas de notacin que se han usado o se usan para
representar cantidades abstractas denominadas nmeros. Un sistema numrico est
definido por la base que utiliza. La base de un sistema numrico es el nmero de
smbolos diferentes o guarismos, necesarios para representar un nmero cualquiera de
los infinitos posibles en el sistema.
A lo largo de la historia se han utilizado multitud de sistemas numricos diferentes.
a. Valores posicinales
La posicin de una cifra indica el valor de dicha cifra en funcin de los valores
exponenciales de la base. En el sistema decimal, la cantidad representada por uno
de los diez dgitos - 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9-depende de la posicin del nmero
completo.
Para convertir un nmero n dado en base 10 a un nmero en base b, se divide (en
el sistema decimal) n por b, el cociente se divide de nuevo por b, y as
sucesivamente hasta obtener un cociente cero.
b. Sistema binario
El sistema binario desempea un importante papel en la tecnologa de los
ordenadores. Los nmeros se pueden representar en el sistema binario como la
suma de varias potencias de dos.
Ya que slo se necesitan dos dgitos; el sistema binario se utiliza en ordenadores y
computadoras.
c. Nmeros
Palabra o smbolo utilizado para designar cantidades o entidades, que se
comporten como cantidades. Es la expresin de la relacin existente entre una
cantidad y otra magnitud que sirve de unidad. Se pueden considerar nmeros
todos aquellos conceptos matemticos para los cuales se definen dos operaciones,
de adicin y multiplicacin, cada una de las cuales obedece a las propiedades
conmutativa y asociativa.
c.1 Nmeros Naturales
Dicho en trminos muy simples, los nmeros naturales son los que sirven para
contar.
El conjunto de los nmeros naturales tiene las siguientes propiedades:
Al conjunto de los nmeros naturales pertenecen el 0 y el 1.
Si se suma a un natural el nmero 1 el resultado es otro nmero natural.
Por lo tanto el conjunto de los naturales es un conjunto infinito.
Las propiedades enunciadas anteriormente constituyen el Axioma de
Induccin Completa.
7. CLASES DE MEDICION
Segn Campbell (1959), la medicin en ciencia de mayor a menor precisin, responde
a la siguiente categorizacin:
a. La medicin fundamental o medicin de magnitudes A.
En este caso los nmeros se asignan segn leyes naturales que representan la
propiedad misma. Ejemplo: la longitud, el volumen, el peso, la altura, la
resistencia fsica, poseen significado constitutivo y no presuponen la medicin
de ninguna otra variable.
b. La medicin derivada o medicin de magnitudes B.
En este caso la caracterstica de una escala obtiene sentido mediante leyes
que relacionan una propiedad con otras propiedades. Ejemplo: la densidad de
una sustancia es la relacin entre su masa y su volumen. Esta relacin difiere
en las distintas sustancias y por lo tanto el valor de esta relacin puede medir
la densidad de la sustancia.
c. La medicin por fiat.
En esta categora el significado se debe a una definicin arbitraria que depende
de relaciones supuestas entre las observaciones y el concepto. En la prctica,
esto es lo comn en las ciencias sociales cuando usamos ndices como por
ejemplo, el nivel socioeconmico, o en psicologa el cociente intelectual o la
capacidad de aprendizaje de un animal por cantidad de ensayos que necesita
para solucionar un problema o recorrer un laberinto. El caso es que, los
ndices tienen slo un significado operacional ms no constitutivo.
8. FINALIDAD DE LA MEDICION PSICOLOGICA
Segn Levine y Feeman, 1975, la finalidad de la medicin es proporcionar una base
objetiva, exacta y comunicable para describir, diferenciar y clasificar las caractersticas y
conductas de las personas. Ejemplo: los puntajes correspondientes a eneatipos son
diferenciaciones cuantitativas que permiten clasificar a las personas en funcin a sus
recursos o potencialidades intelectuales; rasgos de temperamento; aptitudes especficas;
hbitos de estudio, segn los casos.
Para clasificar primero se debe diferenciar, por lo tanto la diferenciacin precede a la
clasificacin. En psicometra, para diferenciar a los sujetos sobre la base de una
determinada variable se deben cumplir dos requisitos:
1.Se debe dar una definicin de la variable, por ejemplo: inteligencia; aptitud;
hbitos; temperamento, etc.
2.Se debe dar una regla o un conjunto de ellas, por la cual se establezcan las
operaciones que permitirn diferenciar entre los sujetos.
La definicin de una variable es generalmente abstracta mientras que las reglas son
definidas operacionalmente. Tcnicamente, cuanto ms especfica es la regla ms
exacta es la medicin.
9. PROCESO DE EVALUACION
El concepto de evaluacin es mucho ms amplio que el de medicin. La medicin
implica tanto descripciones cuantitativas como cualitativas del comportamiento y
adems, y esto es lo ms importante, supone siempre un juicio de valor en relacin con
ese comportamiento.
Ejemplo: Cuando en la prctica decimos que un nio posee un CI de 85, slo hemos
medido algo. Para que esto constituya una evaluacin, debemos concluir que el
resultado obtenido por dicho nio es inferior al promedio de la poblacin escolar y que
es probable que el nio tenga dificultades de aprendizaje y que por lo tanto requiera
aprestamiento y nivelacin, etc.
En resumen, la evaluacin implica un proceso sistemtico destinado a obtener
informacin sobre ciertas caractersticas de los sujetos examinados que nos sirvan de
base para tomar decisiones. Asimismo, la evaluacin psicolgica se da en diferentes
mbitos especializados: clnico o de la salud; educacional; organizacional; socialcomunitaria; deportiva; penitenciaria, etc. Es evidente que la evaluacin no slo se
refiere a la aplicacin de tests, sino que implica la observacin conductual, la entrevista,
la observacin y las calificaciones, entre otros elementos, utilizados por el evaluador
para la toma de decisiones (Cohen y Serdilk, 2000).
La principal debilidad de la evaluacin es que permite la intervencin directa de las
personalidades del observador como del observado. En la actualidad, la evaluacin se
orienta hacia las tcnicas donde se puedan combinar las aproximaciones de la
psicometra y la observacin, utilizando esta ltima con sus diversos procedimientos:
registros, informes, tcnicas sociomtricas, etc., en el estudio de las situaciones o
escenarios donde se desenvuelven las personas.
Reconociendo la complejidad del estudio de la personalidad e involucrando en este
concepto a lo cognitivo, Catell (1982), propone para el estudio de la personalidad un
doble modelo: psicomtrico y econctico, ste ltimo se ocupara del estudio de las
situaciones o escenarios donde se da el comportamiento. Catell, Eysenck y Guilford
dedicaron toda su vida al desarrollo del primer modelo mencionado, en tanto que el
segundo recin empieza a evolucionar y probablemente va a constituir el objetivo de
otras generaciones de psiclogos investigadores (Catell y Kline, 1982).
10. VARIABLES DE LA MEDICION
a. Definicin de Variable
Variable es toda caracterstica o atributo susceptible de tomar un valor y ser medido.
Una variable es cada una de las caractersticas o cualidades que poseen los
individuos de una poblacin.
Cuando hablemos de variable haremos referencia a un smbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad o categora (valor) de un conjunto determinado,
que llamaremos dominio de la variable o rango.
Al observar el mundo, la naturaleza, la realidad, nos llama la atencin la gran cantidad
de distinciones sensibles que podemos hacer en ella. Ejemplo: si nuestro inters se
orienta a estudiar un grupo de adolescentes universitarios, seleccionaremos una
muestra que podrn ser dos grupos de alumnos: uno de ellos pertenecientes a una
Universidad Privada y el otro a una Universidad Nacional.
Sobre estos grupos,
elegiremos algunas caractersticas que nos interesen como por ejemplo: peso, talla,
capacidad intelectual, hbitos de estudio, enfermedades que han padecido, edad
cronolgica, lugar de procedencia, trabajo que realizan sus padres, su rendimiento en
lenguaje, etc.
Estas caractersticas o propiedades de los adolescentes universitarios se llaman
variables toda vez que varan de un alumno a otro y son precisamente sobre estas
variables que trabajar el estadstico. El trmino variable indica que un smbolo
representa diversos valores y dichos smbolos suelen ser las ltimas letras del
alfabeto: x, y, z.
A diferencia de una variable que puede tener valores diferentes, una constante puede
ser reemplazada slo y nicamente por un valor. Ejemplo, en la expresin C = 2phi r,
los smbolos C y r pueden ser reemplazados por un conjunto infinito de nmeros
positivos; sin embargo, el smbolo phi es una constante y slo puede ser reemplazado
por 3.1416.
Por otra parte, observamos tambin que en este caso C y r son variables que estn
funcionando relacionadas, es decir, el valor de C depende del valor de r. Del mismo
modo, las variables son muy diversas y por lo tanto conviene que las clasifiquemos ya
que no todos los clculos estadsticos se pueden hacer con todas las variables.
Para efectos de nuestra temtica, podemos dividir las variables en varios tipos:
1.
2.
Variables cuantitativas.
Se pueden clasificar a su vez en discretas y continuas.
Las variables cuantitativas discretas. Son aquellas que se tienen la propiedad de
poderse contar. Ejemplo: nmero de hijos de una familia; ingreso anual de la
familia; goles que haya hecho un equipo de ftbol. De esta manera, una familia
puede tener 1, 2, 3 o 4 hijos, pero no hay posibilidades de tener dos hijos y
medio, es decir, hay separacin total entre un valor y otro, pero siempre estn
ordenados y podemos contar sus elementos.
Las variables cuantitativas continuas. Estas variables se caracterizan porque no
se cuentan sino se miden y pueden tener cualquier valor en un mbito finito de
valores continuos. Ejemplo: edad cronolgica, talla, peso, temperatura, presin
arterial, altura de una montaa, cantidad de metros cbicos de agua de un lago,
etc. En tal sentido, un estudiante universitario al entrar a la Universidad hace un
ao tena 17 aos, 3 meses, 6 das, 2 horas y 5 minutos. Seis meses despus,
tendr valores diferentes a la medicin realizada al momento del ingreso. La
fineza con que midamos en este momento, establecer el lmite entre un valor y
otro, en donde desde luego existe una continuidad cuyo corte slo depende del
instrumento con que efectuamos la medicin. La mayora de las variables en las
ciencias fsicas y biolgicas son cuantitativas continas.
En conclusin: Las variables cualitativas son esencialmente variables para la
clasificacin de las entidades que en la psicologa son sujetos; las variables
cuantitativas discretas son variables en donde las entidades se cuentan y las
variables continuas son aquellas variables que se pueden medir.
LECCION 2
MEDICION PSICOLOGICA
1. INTRODUCCION
Primera vista parecera que el sistema de conocimientos psicolgicos y el matemtico no
tienen nada en comn. A pesar de esto los cientficos cada da utilizan ms modelos
matemticos en sus ciencias y no slo en las ciencias fsicas y naturales, sino tambin en
las ciencias sociales y del comportamiento. Esto ha dado lugar a la teora de la medicin
que trata precisamente de la posibilidad de usar los nmeros en los fenmenos naturales
y psicolgicos. Existe en la actualidad una importante rama de la psicologa que ubica a
la matemtica en el eje de su metodologa. La psicologa matemtica se caracteriza por
buscar representaciones o modelos matemticos del objeto de estudio, capaces de
recoger, predecir y explicar las propiedades de este tal como lo proponen entre otros
Luce, Bush y Galanter (1963).
La medicin en Psicologa ha sido difcil de aceptar en parte por la gran influencia de dos
grandes pensadores como Kant, que no crea que la psicologa como estudio de la
experiencia interna pudiera ser sometida a una comprobacin objetiva (Toloso Gil,1998) y
Bergson que haba insinuado que las matemticas no podan aplicarse a la psicologa.
Sin embargo, hoy se acepta la medicin en psicologa porque la estructura del
pensamiento del hombre y de la actividad psicolgica en general posee propiedades que
desde el punto de vista lgico son suficientemente similares a la estructura de las
matemticas. Es posible por lo tanto, establecer un isomorfismo. Por ejemplo Lord y
Novick (1968 p.17) definen la medicin como un procedimiento para la asignacin de
nmeros (puntajes o medidas) a propiedades especificadas de unidades experimentales
de tal modo que las caractericen y preserven las relaciones sealadas en el dominio
comportamental. Las reglas en el sentido de Stevens(1951) y el preservar las
relaciones de Lord y Novick suponen que para representar la propiedad debe existir un
isomorfismo entre las caractersticas del sistema numrico y las relaciones entre las
diversas cantidades de la propiedad medida.
El problema de la construccin de escalas ha recibido una gran atencin desde los
trabajos de Stevens siendo actualmente la Teora Representacional de la medicin la
posicin ms ortodoxa en cuanto a la conceptualizacin de la medida. Esta teora es
axiomtica y formalizada y trata el tema de la medicin articulndolo en tres grandes
reas: el problema de la representacin, el de la unicidad y el de la significacin. La
teora tiene su origen en los trabajos de Hlder y Russell alrededor de 1900, pero
quienes han dado las formulaciones ms completas son Luce, Krantz, Tversky y Suppes
(1979) y Mitchewll (1990). No podemos entrar en detalle en estas nuevas teora.
Digamos slo que desde el punto de vista de la representacin la medicin supone
encontrar un sistema relacional numrico con una estructura semejante al relacional
emprico que se pretende medir. Dada esta semejanza uno de los sistemas puede
utilizarse para representar al otro. El problema de la unicidad hace referencia a la
arbitrariedad de los nmeros elegidos segn la teora representacional. Una vez
establecidas las relaciones numricas es posible asignar distintos conjuntos de nmeros
a los elementos del sistema manteniendo el homomorfismo es decir pueden obtenerse
distintas escalas de nmeros para la misma variable o atributo. El problema de la
significacin se refiere a la validez de una conclusin numrica. Esta validez siempre es
relativa al tipo de escala en que se basan las inferencias. Stevens plantea la solucin en
trminos de los estadsticos admisibles para cada tipo de escala.
2. MEDICION PSICOLOGICA
Proceso de asignar nmeros u otros smbolos a los objetos de tal forma que las
propiedades de los nmeros o smbolos reflejan propiedades del atributo medido Se
aplica a las propiedades de los objetos ms que a los objetos mismos.
Es asignar un valor dentro a un continuo a las cualidades psicolgicas, es usada esta
funcin pues es ms fcil trabajar y comparar los atributos intra e interpersonales con
nmeros y/o datos objetivos.
As, se usa para medir diferentes aspectos psicolgicos de una persona, tales como
conocimiento, habilidades, capacidades, o personalidad
La medicin sirve para cuantificar y expresar en forma de nmeros las caractersticas de
los estmulos y de las personas, de forma que podamos utilizarlos como si fuese lo
representado
La medicin en psicologa establece las condiciones de representacin de constructos o
caractersticas latentes por indicadores empricos y los indicadores empricos por
nmeros.
Los instrumentos que se utilizan para llevar a cabo tal medicin se les denominan
Escalas de medicin.
Segn Cohen y Swerdilk (2000) citado en Delgado, Escurra y Torres (1996) la
medicin, es la asignacin de nmeros, smbolos o caractersticas de los objetos
(personas, eventos, fenmenos, etc.) de acuerdo a reglas, como lineamientos para
representar las caractersticas (y/o atributos) del objeto que se est midiendo.
Segn Stevens (1951, 1970b) citado en Alarcn (2008), considera a la medicin como
la asignacin de numerales a objetos o eventos de acuerdo a reglas.
La psicometra es el campo de la psicologa cuyo objeto es aportar soluciones al
problema de la medicin en cualquier proceso de la investigacin psicolgica (Aliaga,
2007).
La Psicometra es una disciplina cientfica encuadrada dentro del marco de la
Metodologa de las Ciencias del Comportamiento y directamente relacionada con el
campo de la medicin psicolgica.
A un nivel prctico, la psicometra hace uso intensivo sobre todo de clculos y anlisis
estadsticos para extraer informacin til a partir de la administracin repetida de un
mismo test a un grupo amplio de personas.
La Psicometra es una rama de la psicologa y es una ciencia cuyo objeto es medir los
aspectos psicolgicos de una persona (conducta humana).
Se le considera adems, un campo metodolgico que hace uso del lenguaje formal de
la ciencias matemticas, cuyos niveles de accin incluyen contribuciones tericas y
aplicativas a la medicin de los fenmenos psicolgicos
3. MTODOS DE MEDICIN:
a.Mtodo de prueba:
Analizar y controlar de forma estricta la situacin; Hay estandarizacin y la tarea es
predeterminada. Ej. Prueba objetiva
b.Mtodo observacional:
Trata de medir la conducta en situaciones naturales por lo que no hay
estandarizacin.
c.Mtodo mixto:
Observacin planificada: se estandariza la observacin y el modo de medicin pero
hay libertad en cuando a que se realiza en el medio natural. Permite cuantificar de
forma natural.
4. ESCALAS DE MEDICIN
Antes que una variable sea tratada estadsticamente debe ser observada / medida para
un conjunto de unidades observacionales, las unidades observacionales son aquellos
entidades que se observan, cuando las observaciones se cuantifican (es decir se
expresan numricamente) se dice que los nmeros son medibles, una medicin es una
observacin que se expresa fsicamente en forma numrica, es decir cuando se le
otorga un valor determinado segn su magnitud.
La medicin de las variables puede realizarse por medio de cuatro escalas de medicin.
Dos de las escalas miden variables categricas y las otras dos miden variables
numricas (Therese L. Baker, 1997). Los niveles de medicin son las escalas nominal,
ordinal, de intervalo y de razn. Se utilizan para ayudar en la clasificacin de las
variables, el diseo de las preguntas para medir variables, e incluso indican el tipo de
anlisis estadstico apropiado para el tratamiento de los datos.
Una caracterstica esencial de la medicin es la dependencia que tiene de la posibilidad
de variacin. La validez y la confiabilidad de la medicin de una variable depende de las
decisiones que se tomen para operacionalizarla y lograr una adecuada comprensin del
concepto evitando imprecisiones y ambigedad, por en caso contrario, la variable corre el
riesgo inherente de ser invalidada debido a que no produce informacin confiable.
A. Medicin Nominal o Clasificatoria:
Son variables numricas cuyos valores representan una categora o identifican un
grupo de pertenencia. Este tipo de variables slo nos permite establecer relaciones
de igualdad/desigualdad entre los elementos de la variable. La asignacin de los
valores se realiza en forma aleatoria por lo que NO cuenta con un orden lgico. Un
ejemplo de este tipo de variables es el Gnero ya que nosotros podemos asignarle
un valor a los hombres y otro diferente a las mujeres y por ms machistas o
feministas que seamos no podramos establecer que uno es mayor que el otro.
Una variable est medida en escala nominal cuando se utilizan nombres para
establecer categoras. Para distinguir los agrupamientos se emplean smbolos,
letras e incluso nmeros, aunque estos ltimos solo cumplen una funcin de
carcter simblico y no numrico. Los clculos matemticos con estos nmeros no
tendran sentido.
Constituye el nivel de medicin ms bajo de todos los mencionados. En este caso,
los objetos slo pueden ser nombrados y contados. Consiste simplemente en
clasificar observaciones dentro de ciertas categoras, las cuales deben ser
mutuamente excluyentes y colectivamente exhaustivas. Por lo tanto, no puede haber
ninguna observacin que no pueda ser asignada a una de las categoras; y, por otra
parte, una misma observacin no puede ser clasificada en dos categoras diferentes,
a la vez.
Tipo de
descripcin
Variables
individuales
Escala de la variable o
asociacin
Variables
individuales
Asociacin entre
variables
Asociacin entre
variables
Asociacin entre
variables
Tipo de
descripcin
Variables
individuales
Variables
individuales
Asociacin entre
variables
Asociacin entre
variables
Escala de la variable o
asociacin
Nominales
Ordinales
Muestras grandes con
distribucin normal
Muestras pequeas sin
distribucin normal
Tipo de descripcin
Escala de
la variable
o
asociacin
Nominal
Ordinal
Independientes
Razn
Nominal
Ordinal
Las reglas son convenios que pueden ser cambiados si son incorrectos. Las normas
bsicas en psicologa son:
a. Normas de edad: se extraen eligiendo una muestra normativa a partir de la que
extraemos el promedio de actuacin tpico en las diferentes edades.
b. Normas de grado: se extraen de un grupo normativo, y en base al grado o nivel
se extrae un promedio de actuacin.
c. Normas de porcentaje: partimos de un grupo normativo en el que no se realizan
comparaciones externas sino solo internas, dentro del mismo grupo. Se extraen
los percentiles.
d. Normas estndar o tipificadas: siempre tienen el mismo significado. Permiten
comparar diferentes grupos y diferentes caractersticas.
Hay diferentes escalas normativas:
a. Coeficiente intelectual: pretenda dar idea de la inteligencia en funcin de la
comparacin entre la edad mental y la edad cronolgica.
b. Problemas: se extrae de un grupo normativo y si el sujeto no es del mismo grupo
no se har una comparacin adecuada.
Ventajas: se ha usado para seleccionar porque es fcil de calcular.
a. Centiles: son escalas ordinales. Se refiere al porcentaje de sujetos que queda
por debajo de una puntuacin determinada.
Ventaja: fcil de calcular y de interpretar.
a. Tpicas transformadas: transforman la puntuacin bruta en indirectas.
b. Tpicas normalizadas: puntuaciones tpicas no lineales, no hay una
transformacin lineal. Suponemos que se aproxima a la normal.
Tpicas normalizadas y transformadas:
a. Eneatipos: van de 1 a 9. Se basan en la z normalizada. Se parte de una media
de 5 y una desviacin tpica de 2. Muy fcil de interpretar, no hay puntuaciones
negativas, son equivalentes permitiendo todo tipo de comparaciones.
b. Decatipo: de 1 a 10. Media 6 y desviacin tpica de 3.
c. Coeficientes intelectuales tpicos: siempre se redondea. No hay limite superior.
Se puede aplicar a cualquier edad.
Tipos de comparaciones:
a. Intrasujeto: comparar a un sujeto consigo mismo en diferentes momentos.
b. Intersujeto: comparar a un sujeto con otro de su mismo grupo.
c. Intragrupo: comparar a un grupo consigo mismo en diferentes situaciones.
d. Intergrupo: comparar a un grupo con otro grupo; Diferencia de medias de dos
muestras.
6. FINALIDAD DE LA ESCALAS DE MEDICION
Ante la necesidad de medicin de aspectos cada vez ms complejos y de obtencin de
medidas cada vez ms precisas, nos lleva a la generacin de instrumentos de medida o
escalas.
a.Funciones
Medicin de aspectos complejos
Identificacin de intensidad
Identificacin de direccin o sentido de respuesta
Simplificacin de las preguntas para medir aspecto muy complejo
b. Aspectos principales
Condicionante del tipo de informacin a obtener y de su posterior tratamiento
Simplicidad aparente de formulacin
Necesidad de adecuacin entre escala y objetivo
Necesidad de comprobacin de validez y fiabilidad
7. EL PROBLEMA DE LA MEDICION EN PSICOLOGA:
LECCION 3
TEST PSICOMETRICOS
1. INTRODUCCION
Probablemente, la evaluacin es tan antigua como la humanidad. Desde tiempos antiguos
padres y maestros han contrastado el comportamiento de los nios para establecer juicios
de valor sobre la base de sus acciones. Estas comparaciones basadas generalmente en
impresiones subjetivas y en observaciones incidentales podan ser acertadas en casos
extremos de las diferencias individuales. Ejemplo: un profesor puede saber cul es el nio
ms estudioso de su clase; el ms indisciplinado; el ms ordenado; el ms tmido, etc.
Sin embargo, cuando las diferencias son menos evidentes, entonces se producen muchos
errores si la evaluacin no cuenta con algn instrumento de medicin objetiva. En tal
sentido, los errores en la evaluacin probablemente han sido fuente de muchas
frustraciones en la historia del ser humano ya que, adems de los de evaluacin en los
grados de una variable, tambin se producen errores de juicio al interpretar que se est
evaluando una determinada variable cuando en realidad la que esta operando es otra.
En los tiempos actuales, la evaluacin supone casi siempre la aplicacin de pruebas que
nos llevan a resultados numricos, pero tambin se complementa con la observacin
sistemtica de la conducta de los sujetos, con las tcnicas de entrevista individual o grupal,
con informacin oral o escrita propia de los sujetos que rodean el entorno del examinado:
padres, hermanos, maestros, jefes, etc., es decir, con infinidad de procedimientos que
expresan resultados verbales de tipo cualitativo.
No todas las medidas que se utilizan en psicologa son pruebas o tests. En el caso de la
psicologa por ejemplo: las medidas de los niveles de la audicin humana. Por otra parte,
no todas las pruebas o tests son, o arrojan medidas. Ejemplo en psicologa son las
llamadas tcnicas proyectivas como el Psicodiagnstico de Rorschach; el Test de la Figura
Humana de Machover; El Test de la Familia de Corman; etc., los cuales no arrojan medida
alguna.
A las pruebas o tests que emplean medidas se les denomina tests psicomtricos; algunos
especialistas los denominan tests objetivos.
Los tests psicomtricos tienen diversos usos y se clasifican de diversos modos. Una
clasificacin bastante utilizada es la de Crombach (1972), el cual divide a los tests en dos
grandes tipos: tests de respuesta mxima y tests de conducta tpica.
En los tests de respuesta mxima, quien se somete a ellos trata de obtener la mxima
calificacin posible, de tal modo que la meta es medir los lmites de sus capacidades. En
este tipo se encuentran las pruebas de rendimiento, aptitudes y habilidades.
Los tests de conducta tpica, intentan evaluar las reacciones y conductas habituales o
usuales de una persona, es decir, lo que el sujeto acostumbra hacer en una amplia gama
de circunstancias. En este caso, interesa conocer su comportamiento o reaccin habitual y
(a) La forma de proceder: de lpiz y papel, de manipulacin, de tipo oral; (b) el grado
de objetividad en la respuesta: objetivo, subjetivo; (c) los criterios utilizados para la
interpretacin de sus resultados: estandarizados, no-estandarizados; (d) la forma de
aplicacin: individual, colectivo; (e) el tiempo disponible para responder: test de
tiempo, test de poder.
3. TEST PSICOMETRICOS
La palabra test tiene una raz latina y proviene de testa, testis que en latn medieval
significaba la vasija de barro con la que los alquimistas probaban o examinaban la
autenticidad del oro. Fue usada por primera vez por el psiclogo norteamericano James
McKeen Cattell en un artculo publicado en 1890. Cattell, se haba formado en el
Laboratorio de Psicologa Experimental de Wundt en Leipzig en donde el inters se
centraba en el estudio de las percepciones visuales y auditivas. El caso es que Cattell
comprendi que en los experimentos sobre sensaciones y percepciones como la medicin
del tiempo de reaccin, resultaba indispensable un control riguroso de las observaciones y
precisar que las condiciones que rodeaban a los sujetos con los que se experimentaba
deban ser exactamente iguales, es decir, sistemticamente tipificadas o estandarizadas,
tal como se exige en los tests psicolgicos.
La influencia principal de Cattell en relacin a los tests fue Sir. Francis Galton, cientfico
ingls que a fines del siglo XIX haba introducido las estadsticas y las matemticas al
campo de la psicologa generando por primera vez la posibilidad de medicin cuantitativa
en las diferencias individuales. Cattell viaj a Cambridge en 1898 y su trabajo con Galton
reforz su inters por la temtica anteriormente mencionada. Los tests elegidos por Cattell
fueron: velocidad de movimiento, esfuerzo visual y auditivo, discriminacin de pesos,
tiempos de reaccin e ingenuamente, de acuerdo con los planteamientos de Galton,
pensaba que con dichos tests se poda obtener una medicin de las funciones mentales
ms elevadas.
H. Pieron (1952), define los tests de la siguiente manera: test es una prueba definida, que
fija una terea a realizar, idntica para todos los sujetos examinados Segn esta definicin,
debe disponer de una tcnica precisa que permita discriminar entre soluciones acertadas y
errneas o bien de un sistema numrico que permita puntuar el resultado. La tarea puede
consistir en poner de manifiesto conocimientos adquiridos (tests pedaggico) o bien
funciones sensorio-motoras o mentales (test psicolgico).
Esta definicin fue adoptada por la antigua Asociacin Internacional de Psicotecnia , hoy
Asociacin Internacional de Psicologa Aplicada que la formaliz de la siguiente manera:
test es una prueba definida, que implica una tarea que se ha de cumplir, idntica para
todos los sujetos examinados, con tcnica precisa para la apreciacin del xito o del
fracaso, o para la valoracin numrica del resultado logrado.
La definicin de Pieron adoptada por la Asociacin Internacional de Psicotecnia presentaba
la limitacin de que puede aplicarse solamente a los tests de inteligencia, aptitudes o
conocimientos.
Pichot (1954), propone una definicin ms amplia y general que sostiene que: test es una
situacin experimental estandarizada que sirve de estmulo a un comportamiento;
posteriormente Anastasi (1968), sostiene que un test es una medida objetiva y
estandarizada de una muestra de conducta. Cronbach (1973), dice que un test es una
tcnica sistemtica para comparar la conducta de dos o ms personas. Anstey (1976),
indica que un test es un instrumento de evaluacin cuantitativa de los atributos
psicolgicos de un sujeto. Segn Graham. y Lilly (1984), un test es una muestra
estandarizada de conductas de las que pueden inferirse o predecirse otras conductas
importantes. El psicometrista espaol Mariano Yela (1980), sostiene que un test es una
situacin problemtica previamente dispuesta y estudiada a la que el sujeto debe
responder siguiendo ciertas instrucciones y de cuyas respuestas se estima, por
comparacin con las de un grupo normativo (o un criterio u objetivo), la calidad, ndole o
grado de algn aspecto de la personalidad.
poblacin como sinnimos. Ejemplo: un test de vocabulario debe ser una muestra
representativa del dominio o universo de temes posibles.
En la medida que una prueba contiene slo una muestra de todos los reactivos posibles,
se plantean dos problemas: 1) Asegurarnos de que los temes incluidos en el test sean
una muestra representativa de todos los posibles existentes; y 2) Debemos determinar,
si una persona obtendra la misma calificacin al responder a una muestra diferente de
temes extrada del mismo dominio o poblacin. Sobre el punto surge una pregunta
bsica: obtendra un sujeto la misma calificacin en una forma equivalente o paralela
del test?
El caso es que, el primer punto es un problema de validez y el segundo constituye un
problema de confiabilidad.
6. REQUISITOS
DE
PSICOMTRICO
UN
TEST
PSICOLGICO
PARA
SER
CONSIDERADO
c. ESCALAS DE ACTITUD
Caractersticas
a. Son instrumentos de medicin que nos permite acercarnos a la variabilidad
afectiva de las personas.
b. Una actitud constituye una predisposicin organizada para responder de una
manera favorable o desfavorable ante un objeto.
modelos rivales para problemas especiales de medicin, hasta la actualidad se usa con
xito el modelo lineal (Nunally, 1968).
LECCION 4
PROCEDIMIENTOS PARA LA MEDICION PSICOLOGICA
1. INTRODUCCION
La construccin de pruebas psicolgicas es un proceso que tiene sus orgenes en la
concepcin de la teora de la medicin psicolgica (Nunally, 1987).
En trminos generales, la medicin psicolgica implica el uso de procedimientos u
operaciones, sujetas a determinadas reglas y que tienen como objetivo lograr un resultado
en el que se han asignado valores a una cualidad, rendimiento o caracterstica psicolgica
de un individuo.
Existen tres enfoques metodolgicos para la construccin de pruebas psicolgicas: el
enfoque centrado en el sujeto; el enfoque centrado en el estmulo o enfoque del juicio y el
enfoque centrado en la respuesta. En el campo de la psicometra, la mayor parte de la
medicin est basada en el enfoque centrado en el sujeto.
Si bien el proceso de construccin vara en razn del tipo de prueba psicolgica a
elaborarse, podemos establecer un esquema general con los pasos ms relevantes para
orientar y conducir el proceso de construccin. Este esquema presenta un conjunto de
pasos que pueden ser variados en cuanto al orden de presentacin e incluso algunos de
ellos se pueden llevar a cabo simultneamente. Asimismo, debe quedar claro que en este
esquema no se agotan todos los puntos a tomarse en cuenta en la elaboracin de pruebas.
El diseo y la construccin de un test psicomtrico es una tarea cualificada que requiere de
una notable fecundidad, creatividad, originalidad e imaginacin as como de ensayos
experimentales elaborados por el constructor o constructores.
Un test psicomtrico bien construdo y adecuadamente utilizado constituye un valioso
instrumento auxiliar o de ayuda para el trabajo profesional del psiclogo, que hace bien en
rechazar o dejar de lado pruebas que no han sido cuidadosamente elaboradas en base a
las normas o reglas pre-establecidas por la Psicometra.
En esta publicacin, nos ocuparemos de los criterios de construccin de los tests de
respuesta mxima: rendimiento, aptitudes y habilidades. El proceso de elaboracin de
estos tipos de pruebas si bien tiene mucho en comn, tambin tiene algunas variaciones o
diferencias que estn relacionadas con el uso principal del test.
Ejemplo: si la meta es
construir una prueba de rendimiento en matemticas, el muestreo de los temes se
efectuar en el dominio o universo conductual de los problemas de matemticas, siendo
este muestreo la condicin principal para la seleccin de los temes. En otras palabras,
esta operacin hace alusin a la validez de contenido o validez curricular del test.
En otro ejemplo, si la meta es hacer un test que permita predecir algn criterio, entonces la
representatividad del muestreo de los temes se va a subordinar al poder predictivo de tales
temes como base para su seleccin. Esta operacin se refiere a la validez predictiva o
validez relacionada con el criterio, diferente a la del ejemplo anterior.
Estimar que existen publicaciones disponibles e incluso pruebas listas para ser
utilizadas en la mayora de los campos de la actividad psicolgica. En tales casos, el
psiclogo puede utilizar una prueba existente en lugar de construir otra nueva; puede
tambin adaptar una prueba de acuerdo a sus necesidades. En ambos casos, ahorro
en tiempo, dinero, etc., es significativo. El mayor inconveniente que podra surgir es
que, no haya pruebas publicadas que sean ptimas para una determinada tarea -que
es la que le interesa a determinado psiclogo-, y que por lo tanto se vea en la
necesidad de elaborar una prueba. Frente a esta situacin, se infiere que el psiclogo
debe estar muy bien informado acerca de la bibliografa respectiva, sugirindose para
ello la lectura de los BUROS y de los catlogos y manuales de tests provenientes de
las diversas editoras tales como: TEA Ediciones S.A.; Paids; Manual Moderno; Distap,
etc.(espaol), as como de la: Psychological Corporation; California Test Boreu;
American Psychological Association, etc. (ingls).
A continuacin ofrecemos una breve exposicin sobre los primeros tres pasos sealados
por (Herrera Rojas, 1993), toda vez que los puntos restantes se encuentran ubicados en
los diversos captulos del texto.
a. Definicin del dominio del test
La elaboracin de cualquier escala de medicin de algn aspecto del
comportamiento humano exige a priori un minucioso anlisis conceptual del dominio
o rasgo a medir; en tal sentido, se deben obtener definiciones conceptuales ad hoc
del rasgo en cuestin y luego decidir cual tipo de indicadores operacionales son
adecuados para describirlo.
Ejemplo: si queremos medir habilidades para el estudio, la prueba deber
comprender todas las sub-habilidades implcitas en ese rasgo, tales como: uso de
diccionarios y enciclopedias, subrayado de ideas principales, elaboracin de mapas
conceptuales, etc., entre otras competencias. Tornimbeni (2008), menciona un
ejemplo de Bandura (2001), sobre una prueba de autoeficacia para el manejo del
peso corporal. Ya que el peso depende de factores tales como los alimentos
ingeridos, el nivel de ejercicio para quemar caloras y factores genticos que regulan
los procesos metablicos, la conducta de que autocontrol del peso ser mejor
predicha por una escala que incluya temes que comprendan equitativamente los
factores causales y no se limite, por ejemplo, slo a los hbitos alimenticios. El
proyecto inicial de la prueba deber inclur tambin una estimacin de la longitud del
test, el tiempo y la forma de administracin y calificacin. Asimismo, dada la
mortandad de los temes que habitualmente se dan en el proceso de elaboracin,
resulta conveniente elaborar el doble o triple de lo que se requiere.
Si se trata de una prueba para medir rendimiento, la definicin del dominio puede
realizarse delimitando el universo de situaciones a ser evaluadas. Ejemplo: en el
caso de un examen de psicometra, el universo comprendera los objetivos y
contenidos del programa de la asignatura.
En el caso de una prueba de evaluacin de currculo correspondiente a un nivel
determinado del sistema educativo, por ejemplo nivel secundario, el dominio a ser
definido incluir los objetivos y contenidos correspondientes a ese nivel segn los
lineamientos explicitados por el Ministerio de Educacin.
Sobre el punto, es interesante tener en cuenta que en la medicin del rendimiento se
pueden utilizar tests referidos a normas o referidos a criterio, y los procedimientos de
elaboracin de pruebas utilizados para cada modalidad son diferentes. En la
construccin de pruebas referidas a normas se parte de la elaboracin de una tabla
de contenido como vamos a ver ms adelante, la cual consiste en una tabla de doble
entrada a travs de la cual se relacionan los objetivos cuyo logro se desea evaluar,
con los contenidos especficos correspondientes. En resumen, tomando dicha tabla
como marco de referencia se determina el nmero de temes que conformarn la
prueba y se procede a la redaccin de los mismos.
En el caso de las pruebas con referencia a criterio, en lugar de construir una tabla de
contenido, se define y delimita el dominio de comportamiento correspondientes a
cada objetivo. Al elaborar este tipo de pruebas, definir con claridad las habilidades o
conocimientos que se intenta evaluar, se convierte en un requisito fundamental de
este tipo de tests. Segn Hambleton y Rogers (1991), el dominio puede ser de
conductas, objetivos y competencias y su amplitud vara en relacin a la finalidad del
test. Si el dominio comprende ms de un objetivo, pueden elaborarse subtests para
cada objetivo y se evala el rendimiento de los sujetos en cada uno de ellos.
Enunciar la base o pi del tem en forma afirmativa siempre que sea posible.
Una pregunta enunciada afirmativamente tiende a medir resultados ms
importantes que un reactivo enunciado negativamente; esto se debe a que
conocer las cosas con el mejor mtodo o el argumento ms importante, tiene
por lo general una implicancia mayor que conocer el mtodo ms deficiente o
el argumento menos pertinente.
mezclar ciertos elementos qumicos, son cosas tan importantes que se deben
ensear y probar directamente.
7. Asegurarse que la respuesta que se pretende es la correcta o, claramente la
mejor. Cuando utilizamos la forma de respuesta correcta o el tem de opcin
mltiple, debe haber solamente una respuesta correcta y sta debe ser sin
lugar a dudas correcta. Cuando se usa la forma de mejor respuesta, la
respuesta deseada debe ser tal que los responsables de la materia estn
seguros en que claramente es la mejor.
8. Hacer que todas las opciones u alternativas de respuesta sean gramaticalmente
consistentes con la base o pie del tem y que tengan formas paralelas a la de
ste. La redaccin de la respuesta correcta debe ser tan minuciosa, que debe
ser gramaticalmente consistente con la base o pi del tem. Es al enunciar los
distractores cuando existe la probabilidad de que el constructor del test incurra
en alguna inexactitud, de all que una medida general que se puede tomar para
prevenir la inconsistencia gramatical es evitar el uso de los artculos un o
uno al final de la base o tronco del reactivo.
9. Evite claves verbales que permitan a los estudiantes seleccionar la clave o
respuesta correcta o eliminar una opcin incorrecta. Aqu se pueden presentar
los siguientes casos:
a. La similitud de la redaccin de la base o pie del tem con la clave o
respuesta correcta.
b. Enunciar la clave o respuesta correcta en el lenguaje del libro de texto
o con una fraseologa estereotipada.
c. Enunciar la respuesta correcta ms detalladamente que las opciones
incorrectas.
d. Inclur trminos absolutos en las respuestas de distraccin, distractores
o distrayentes.
e. Utilizar dos respuestas que sean completamente inclusivas.
f. Inclur dos respuestas que tengan el mismo significado.
10. Hacer que las respuestas de distraccin, distractores o distrayentes aparezcan
como posibles y atractivas para el probando poco informado. En tal sentido,
debemos tener presente las siguientes estrategias:
a. Utilizar los conceptos equivocados de los probandos o sus errores
comunes.
b. Enunciar las opciones incorrectas en el lenguaje de los probandos.
c. Usar palabras que suenen bien, tanto en las respuestas de distraccin
o distractores como en la clave o respuesta correcta.
d. Elaborar los distractores o distrayentes con criterios afines a la clave o
respuesta n correcta, tanto en su extensin como en su complejidad
de redaccin.
e. Utilizar claves extraas en los distractores, pero sin exageracin en
su uso, y estar alerta contra las preguntas engaosas.
f. Estructurar de manera homognea las opciones incorrectas.
11. Hacer variar la longitud relativa de la respuesta correcta para eliminar la
longitud o extensin como una posible clave. Por la necesidad de elaborar
adecuadamente los enunciados para hacerlos inequvocamente correctos, la
clave tiende a ser ms extensa que los distractores. Frente a esta situacin, es
recomendable construir los distractores n aproximadamente con la misma
extensin en vez de ajustar la longitud de la clave o respuesta correcta.
12. Evitar cuidadosamente el uso de la opcin todas las anteriores y utilice con
extrema precaucin ninguna de las anteriores. Cuando el constructor de
pruebas tiene problemas para encontrar un nmero suficientes de distractores,
a menudo considera las alternativas todas las anteriores o ninguna de las
anteriores para utilizarlas como opcin final; el caso es que, dichas
FINALIDAD
EN
TERMINOS
SEGUNDA UNIDAD
DESARROLLO DE LOS TEST PSICOMETRICOS
LECCION 1
ORIGEN DE LOS TEST PSICOMETRICOS
1. INTRODUCCION
En los ltimos 30 aos, la metodologa y las tcnicas de elaboracin de tests han
manifestado un desplazamiento cada vez ms marcado de los sistemas tradicionales de
exmenes, fundamentados en la teora clsica de los tests, hacia los sistemas adaptativos
de evaluacin. Esta transicin ha sido propiciada por los desarrollos que han tenido lugar
en el contexto de la teora de los tests y, en particular, en la teora de respuestas por tem,
as como por el desarrollo alcanzado por la tecnologa computacional. El desarrollo de la
teora clsica de los tests ha evolucionado de una posicin pragmtica caracterizada por la
elaboracin de reactivos y pruebas, cuyo nico requisito era mantener cierta consistencia
entre s, hacia una fase en la cual las pruebas cuentan con un mayor sustento en
postulados tericos acerca de la personalidad, el aprendizaje, el comportamiento y los
principios que regulan la interaccin entre los factores estructurales hereditarios y los
factores ambientales. La elaboracin de tests de acuerdo a la teora clsica, conlleva
ciertas limitaciones debidas principalmente a la dependencia que hay entre cada reactivo y
la prueba de que forma parte, as como la que existe entre cada reactivo y la poblacin
utilizada para normar la prueba, lo que limita las posibilidades de predecir el
comportamiento ante reactivos especficos. Nuevas aproximaciones, como la teora de
respuestas por tem, han sido elaboradas para resolver las limitaciones planteadas por la
teora clsica de los tests y han presentado nuevas tcnicas para el desarrollo de estos
instrumentos de medida. Uno de los resultados de la teora de respuestas por tem es que
al permitir establecer estadsticos para cada reactivo individual y de manera independiente,
se proporciona un modelo terico excelente para la elaboracin de tests adaptativos
computarizados, caracterizados bsicamente por presentar reactivos diferentes a cada
examinado, dependiendo de sus respuestas a los reactivos anteriores. Otra de las
herramientas que han sido de considerable valor para los nuevos tests adaptativos
computarizados es el desarrollo de los sistemas de cmputo que permiten manejar grandes
bases de reactivos de una manera interactiva y con una gran velocidad de proceso.
a toda medicin psicolgica o estimacin del error; y proporcionar una estimacin del
rasgo o caracterstica evaluada (estimacin del rasgo)
a. TEORA CLSICA DE LOS TESTS
La Teora Clsica de los Tests, iniciada por Spearman, sostiene que la puntuacin
observable de una persona en un test es una funcin de dos componentes: su
puntaje verdadero (inobservable) y el error de medicin implcito en la prueba. El TCT
(modelo lineal de la teora clsica) es un modelo de puntuacin verdadera como valor
esperado, esperado como concepto matemtico, probabilstico. Es decir, el puntaje
verdadero de un sujeto en un test sera el promedio aritmtico de las puntuaciones
empricas obtenidas en infinitas aplicaciones (Muiz, 2001).
La Teora Clsica de los Tests (TCT) es, en sntesis, el conjunto de principios tericos
y mtodos cuantitativos derivados de ellos, que fundamentan la construccin,
aplicacin, validacin e interpretacin de distintos tipos de tests y que permiten
derivar escalas estandarizadas aplicables a una poblacin (Hambleton, 1994). Los
principios en que se basa son relativamente simples y se aplican tanto a las pruebas
de desempeo, como a las de aptitud. Durante sus diferentes fases de desarrollo, se
han elaborado procedimientos de anlisis cuantitativo que han sido de gran utilidad,
destacndose en lo general, tres grandes etapas que se identifican por su objeto de
inters primordial, as como por los mtodos cuantitativos y tipos de anlisis tericos
que utilizan.
La primera etapa que Cattell (1986) denomina itemetra, se caracteriza
principalmente por la construccin de pruebas conformadas por reactivos cuyas
propiedades estadsticas eran el centro de atencin principal. Los tests se
consideraban como el producto de la integracin de un conjunto de reactivos cuyas
propiedades estadsticas tenan que ser determinadas antes de que se les incluyera
en esa prueba particular. Esto propici que el concepto de confiabilidad adquiriera
prominencia como la principal virtud de la escala y se meda a partir de la correlacin
entre los reactivos individuales y el instrumento en su conjunto. Si la correlacin era
alta, se deca que los reactivos eran los adecuados. Sin embargo, con frecuencia
resultaba que la correlacin no era tan buena, y el resultando era que se obtenan
reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto
mismo de confiabilidad implicaba al de error de la medida y tuvieron que
desarrollarse procedimientos distintos para determinar la confiabilidad del test de una
manera ms precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de
divisin por mitades.
La itemetra hizo contribuciones valiosas a la psicologa debido al nfasis que puso
en el anlisis del error. Entre sus contribuciones se encuentran varios conceptos
sobre precisin de la medida, las tcnicas para el tratamiento del error y el uso
generalizado del error estndar de la medida como la medida bsica del error.
Adems, dio lugar a contribuciones tales como las frmulas de Spearman-Brown
(Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach
(Cronbach, 1951) y a varios principios bsicos de escalamiento, as como al uso
generalizado de la curva normal, el uso de las correlaciones mltiples y la frmula de
atenuacin, etc. La siguiente etapa es la que Cattell (1986) denomina psicometra
estructural y se caracteriza por el uso de las nuevas herramientas estadsticas tales
como el anlisis factorial con sus diversas variantes tcnicas, como un medio para
encontrar la "estructura natural" de las habilidades en el contexto de los factores
culturales, la dotacin gentica, la personalidad, los rasgos, los motivos dinmicos y
las dimensiones que dan lugar a la accin y al comportamiento. Su objetivo
primordial no era como tal, aplicar pruebas, sino determinar la relacin que hay entre
los conceptos clnicos sobre personalidad, y los fundamentos de la investigacin
experimental multivariada (cuantitativa por naturaleza), as como analizar las
interacciones dinmicas entre los rasgos y los estados de la personalidad. Los tests
se consideraban significativos en la medida que armonizaban con los constructos
tericos formulados conceptualmente.
Finalmente, no obstante que el desarrollo de la teora clsica de los tests lleg, con la
etapa funcional de los tests, a un punto en que la conceptualizacin de los resultados
de los tests, y consecuentemente su proceso de desarrollo, permitan mediante
sofisticados procedimientos estadsticos, sacar a los reactivos de los lmites
impuestos por la prueba en su conjunto, la limitacin terica an permaneca y se
haca necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para
la conceptualizacin de los reactivos como unidades independientes del test y del
grupo utilizado para normarlo, se obtuvo con la Teora de Respuesta al tem.
LECCION 2
TEORIA DE LA GENERALIZABILIDAD Y
DE RESPUESTA AL ITEM
1. INTRODUCCION
Las Teoras de Medicin sirven como marco terico para el diseo e implementacin de
instrumentos de medicin. Proporcionan mtodos o procedimientos para determinar las
caractersticas de los estmulos o preguntas que forman las pruebas.
A partir de las caractersticas obtenidas se derivan mtodos para efectuar otros anlisis que
sean de inters para los usuarios de las pruebas.
2. TEORA DE LA GENERALIZABILIDAD
Cronbach y Glaser (1972) postularon la Teora de la Generalizabilidad (TG) que es una
extensin del modelo clsico en el que diversas mediciones del mismo individuo pueden
variar tanto por efecto de una variacin en lo que se mide como por el error de medicin
(Nunnally y Bernstein, 1995). En esta teora las decisiones sobre la bondad de un
instrumento se basan en estudiar las fuentes y tipos de error, utilizando el anlisis de
varianza. Cuando se mide una variable se trata de generalizar los resultados a un dominio
o universo confiable de observaciones. El puntaje del universo es semejante al puntaje
verdadero en el modelo clsico. La diferencia es que en la TCT se considera que la
varianza de error es de una sola clase y, en cambio, la TG reconoce que existen otros
universos de generalizacin y por lo tanto muchos puntajes de universo posibles. Solo
cuando el universo se ha definido podemos afirmar cules son las fuentes de variacin que
producen error. Las diferentes fuentes de error en esta teora se denominan facetas,
trmino que introdujo Cronbach para designar cadauna de las caractersticas de la
situacin de medicin que pueden cambiar de un momento a otro y, por tanto, hacer variar
los resultados obtenidos.
Segn esta teora los puntajes observados solo poseen inters si son representativos de
todos los puntajes posibles de un mismo universo. Poblacin es el conjunto de personas de
las que se extrae una muestra; y Universo es el conjunto de todos los tems posibles de un
constructo; y Universo de Condiciones de Medicin al conjunto de todas las facetas
estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus
interacciones se estima que contribuyen a la varianza de error y disminuyen la
generalizabilidad de los puntajes observados en las personas evaluadas.
3) Las estimaciones de la aptitud obtenidas con distintos tems seran iguales y las
estimaciones de los parmetros de los tems obtenidos en distintas muestras de
examinados sern iguales. Es decir que en la TRI los parmetros de aptitud y de
los tems son invariantes.
La ejecucin de un examinado en una prueba puede ser predichos por un conjunto
de rasgos, rasgos latentes y habilidades; y (2) la relacin entre las respuestas de
los examinados a los reactivos y el conjunto de rasgos que subyacen a la
respuesta ante el reactivo, pueden describirse por una funcin monotnicamente
incrementada llamada funcin caracterstica del reactivo o curva caracterstica del
tem (CCI). Esta funcin especifica que a medida que el nivel del rasgo incrementa,
tambin incrementa la probabilidad de una respuesta correcta ante ese reactivo."
Son supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado
estn determinadas por una nica variable denominada Rasgo. Ej.: Un tem
de un test espacial medir solo habilidad espacial y no ninguna otra cosa
(Ferreres Traver, 2005)
2.
LECCION 3
DEFINICION TEORICA Y OPERACIONAL
DE LOS CONSTRUCTOS
1. INTRODUCCION
Un constructo es algo de lo que se sabe que existe, pero cuya definicin es difcil o
controvertida. Son constructos la inteligencia, la personalidad y la creatividad, por ejemplo.
Los constructos no son empricos, es decir, no se pueden demostrar. Estos conceptos no
son directamente manipulables, igual que lo es algo fsico, pero s son observables a travs
de la conducta.
Los constructos no tienen referentes empricos inmediatos Nadie ha visto ni ha tocado la
inteligencia de alguien pero s la puede inferir de la manera en que una persona es capaz
de resolver ciertos problemas en relacin con la manera en que otros los resuelven. Los
constructos tienen como referentes relaciones lgicas entre conceptos. Por ejemplo, se
puede decir que la ansiedad se caracteriza por perodos alternativos de miedo y
esperanza.
Un constructo se refiere a las operaciones mediante las cuales un investigador determina la
presencia o ausencia (o la magnitud) de un fenmeno. Estas operaciones son mediciones
o registros numricos, por ejemplo: los puntajes de los tests para medir inteligencia y otras
aptitudes, la longitud del recorrido de un ratn en un laberinto, los tiempos de reaccin
frente a distintos estmulos, la cantidad de errores que se presentan en alguna actividad
motora, la cantidad de palabras memorizada, entre otras. De ah la ingerencia de las
tcnicas estadsticas en la investigacin psicolgica en donde siempre hay que
operacionalizar los constructos.
2. CONSTRUCTOS
Un constructo es una propiedad que se supone posee una persona, la cual permite explicar
su conducta en determinadas ocasiones. Como tal, el constructo es un concepto terico,
hipottico. Por ejemplo, la inteligencia, la motivacin, la creatividad, las actitudes, etc.
As se establecen una serie de mtodos para describir los items referidos al dominio, pero
uno de los ms comentados es referido a la especificacin de los items. Este tipo de
procedimiento incluye:
Especificar las fuentes de contenido del tem.
Descripciones del problema o del estmulo.
Caractersticas de respuesta correcta.
Y en el caso de respuestas de eleccin mltiple, la respuesta incorrecta.
3. OPERACIONALIZACIN DE CONSTRUCTOS
La operacionalizacin de constructos es el proceso que va de la definicin de un concepto
al instrumento de medida.
Los constructos es una categora, una abstraccin que se define a travs de la alusin a
otros conceptos, un concepto se define a partir de otros conceptos.
El grado de precisin de la definicin de un constructo, va a depender de los conceptos que
se utilizan en su definicin. Como un concepto se define a partir de otros, segn las
relaciones que tengan entre ellos, de la teora de los otros conceptos, depender la
precisin de un concepto, por ello cuanto mayor es el desarrollo de la teora mayor ser la
precisin en los conceptos.
Los conceptos no se pueden medir directamente, se miden las definiciones operativas de
ese concepto, por ello los conceptos requieren operacionalizacin.
Los conceptos que se manejan en enfermera son vagamente definidos.
Constructo ---- Facetas ---- Dimensiones ---- Indicadores de definiciones operativas.
El Concepto se puede situar en una escala en arreglo a su complejidad y esto depende de
las facetas que contenga.
Facetas o factores de un concepto: son los diferentes aspectos que componen un
concepto, organizados y en estrecha relacin entre ellos. No todos contribuyen de la misma
forma ni en el mismo grado. Ejemplo: Satisfaccin - trato. Facetas que lo componen:
informacin, pericia, continuidad cuidados, organizacin de los cuidados, etc.
Dimensiones: miden los aspectos o facetas, es lo medible dentro del concepto. Ejemplo: se
mide la frecuencia, la intensidad, el ritmo, el ciclo, etc.
Indicadores: son las caractersticas observables. Es traducir un concepto en valoracin
numrica. Ejemplo: la risa, el llanto, la agitacin.
Los hay mejores y peores, para valorarlo hay que tener en cuenta ver un conjunto de
criterios:
Kerlinger (1988, 3 edic.) dice que los constructos pueden ser definidos usando otros
constructos Por ejemplo, al definir inteligencia como la aptitud para pensar en forma
abstracta o como agudez mental. Una definicin es constitutiva cuando define un
constructo por medio de otro constructo. Por ejemplo, definir ansiedad como miedo
subjetivo. Segn Torgerson (1958) todos los constructos para ser tiles cientficamente
deben poseer un significado constitutivo.
Existen otro tipo de definiciones que son las definiciones operacionales. Una definicin
operacional de un constructo se refiere a las operaciones mediante las cuales un
investigador determina la presencia o ausencia (o la magnitud) de un fenmeno. Estas
operaciones son mediciones o registros numricos, por ejemplo: los puntajes de los tests
para medir inteligencia y otras aptitudes, la longitud del recorrido de un ratn en un
laberinto, los tiempos de reaccin frente a distintos estmulos, la cantidad de errores que se
"Una tabla de especificaciones sirve para relacionar los objetivos con la evaluacin.
Una tabla de especificaciones representa la forma en que la prueba ser diseada, es un plano
previo de ella o un esbozo del alcance y nfasis respecto de los contenidos y objetivos vistos
en clase y en un determinado perodo lectivo.
Es una modalidad de planificacin.
Permite orientar la confeccin de un instrumento evaluativo
Cautela una representatividad a un nivel muy especfico.
Considera como elementos centrales: las conductas y contenidos de los objetivos a evaluar, el
nmero de temes, el tipo, su puntuacin y el tiempo que involucra la respuesta de cada uno
de ellos.
a. CARACTERISTICAS DE LA TABLA DE ESPECIFICACIONES
a. Tener en cuenta los objetivos pretendidos
b. Tener presente la materia o contenidos
c. Determinar la importancia relativa de cada objetivo y rea para darles en el examen una
extensin proporcional a su importancia
d. Seleccionar el tipo de prueba ms adecuada a la situacin
e. Calcular el nmero de preguntas que corresponden a cada objetivo y rea
f. Determinar el grado de dificultad de las preguntas.
g. Hacer un esquema general del examen.
TABLA DE ESPECIFICACIONES
Variable a
Definicin
medir
Se consigna Definicin del
el constructo constructo,
debe contener
categoras,
dimensiones o
captulos
Dimensiones
Miden
los
aspectos
o
facetas, es lo
medible dentro
del
concepto.
Ejemplo:
se
mide
la
frecuencia,
la
intensidad,
el
ritmo, el ciclo,
etc.
Operacionalizacin
Se especifica el tipo
de respuesta que se
requiere adecuado al
objetivo que hace
referencia al proceso
subyacente:
Comprender,
analizar,
deducir,
inferir
Indicadores
Explicitar el
producto
del contenido
requerido
temes
Para
pruebas
objetivas
pueden
ser:
Completamiento
Jerarquizacin
Verdadero falso
Aparejamiento
Eleccin mltiple
VARIABLE
DEFINICION
TEORICA
Es una
psicosis
delirante
generalmente
crnicas,
cuya
gravedad
puede variar
segn sea la
estructura de
la
personalidad
que se ve
afectada y se
organizan
como
desarrollos
delirantes.
DIMENSIONES
1. COGNITIVA
INDICADORES
ITEM
Desconfan de las
personas
Enunciados Afirmativos
Siempre sospecho si lo que me dicen no es
verdad.
_No confi fcilmente en mis amigos
_pienso que lo que realice yo siempre estar
bien.
Enunciados Negativos
_Siempre acepto invitaciones de personas
que me llamen la atencin.
_acepto los consejos de mis amigos porque
s que les intereso.
_no cuestiono las explicaciones que me dan
mis allegados.
Enunciados Afirmativos
_.Pienso que las personas que usan armas
pueden lastimarme.
_creo que las personas que me miran mucho
estn tramando contra m.
Enunciados Afirmativos
_Siempre debo fijarse que nadie me este
mirando mucho.
_ No debo sentarme cerca de otras personas
en el autobs.
_Si una persona saluda a mi enamorado(a)
antes que a m, es porque est interesado en
l (la)
Enunciados Afirmativos
_No comparto mis ideas porque s que me
las podrian robar.
_Las personas que se me acercan sin que les
llame deben estar planeando algo contra m.
Enunciados Negativos
_siempre confi en los buenos deseos de los
dems
Enunciados Afirmativos
_Siempre debo hacer lo que pienso sin
importar lo que lo digan los dems
_ Aunque todo este en contra de lo que yo
quiero hacer igual lo hago.
Abusan del
razonamiento
deductivo que
parten de los
prejuicios
Forman sus
propias
creencias
PARANOIA
Piensan que los
dems quieren
perjudicarlos
Tienen
pensamiento
obstinado
Tienen la idea
contante de que
algo malo les
podra suceder
Tienen
pensamiento
rgido
Tienen
pensamiento
extremista.
Se preocupan
por encontrar
las claves que
revelan las
intenciones de
los dems
Recuerdan
constantemente
sus malas
experiencias
Piensan que los
dems tienen
sus mismos
prejuicios
Piensan que
razonan mejor
que los dems
Creen que
merecen mayor
respeto que los
dems
Se preocupan
en exceso de la
fidelidad de
quienes los
rodea
Temen dar
informacin que
pueda ser
utilizada como
arma por sus
enemigos.
Enunciados Afirmativos
_Recuerdo perfectamente un momento en mi
vida en el que me humillaron.
Enunciados Negativos
_No conservo aquellas experiencias que
fueron desagradables para m.
Enunciados Afirmativos
_Siempre llevo una vestimenta elegante
porque sino las personas me criticaran.
_Mis amigos (as) no se acercan a las
personas de color porque saben que son de
mal vivir.
_ Al dialogar con alguien noto que esta
cuidando de no mencionarme detalles ntimos
de su vida.
_Las personas no dan datos importantes de
su vida
Por temor a que se aprovechen de ello.
Enunciados Afirmativos
_Nadie que conozco es tan analista como yo.
_Mis conclusiones siempre son las ms
acertadas.
Enunciados Negativos
_para realizar un trabajo pienso que dos
cerebros piensan mejor que uno
Enunciados Afirmativos
_Siempre espero que me saluden primero
antes de hacerlo yo.
_No me agrada tener que esperar turno para
que se me atienda.
Enunciados Negativos
_pienso que todos tenemos los mismos
derechos.
Enunciados Afirmativos
_no me es suficiente las explicaciones de mi
pareja.
_Siempre exijo pruebas para poder creer en
lo que me dicen.
_vigilo a mi pareja para comprobar si lo que
me dice es cierto.
Enunciados Negativos
_no dudo de las explicaciones de mi pareja
_ no necesito seguir a alguien para creer en lo
que me dice.
Enunciados Afirmativos
_temo que si comparto mis vivencias lo usen
para daarme.
_siento angustia cuando alguien quiere ser mi
amigo.
LECCION 4
ELABORACION DE LOS ITEMS
1. INTRODUCCION
Mientras que la mayora de los atributos fsicos (altura, peso, etc.) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser
conceptualizaciones tericas que no son accesibles a la medicin directa y para los que no
existen "metros" o "balanzas" diseados para medirlos de manera precisa. La actitud hacia
el aborto, el nivel de cohesin grupal, el grado de extroversin, el cociente intelectual, la
postura hacia el consumo de drogas, el grado de liderazgo, todos ellos son constructos que
deben medirse mediante instrumentos especficamente diseados: los tests, cuestionarios
o inventarios. Nadie dudara de que un metro bien diseado mide longitud y que lo hace de
manera precisa, pero la bondad y la precisin de un cuestionario no se puede presuponer;
ms bien son una cuestin de grado y siempre susceptibles de mejora.
En definitiva, un cuestionario est formado por una serie de elementos o tems (elementos,
reactivos, preguntas, cuestiones, situaciones anlogas) a los que cada individuo debe
responder. Despus de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuacin (a veces varias) a esa persona respecto
al constructo o atributo que se pretende medir con el cuestionario, una puntuacin que
debera indicar el grado en que la persona participa del atributo, constructo o rasgo a
evaluar.
Nos enfrentamos as a un proceso de medicin indirecta que incluye la misma construccin
del instrumento de medida, proceso que se inicia con la definicin clara del constructo a
evaluar.
2. ELABORACION DE ITEMS
Conjunto de enunciado, cuyo objetivo es medir las caractersticas de un constructo.
Es una unidad bsica de informacin de un instrumento de evaluacin y generalmente
consta de una jerarqua y de una respuesta cerrada o abierta.
La definicin de cada tem ha de ser exhaustiva y mutuamente excluyente. Por otro lado, al
formular la pregunta deben tenerse en cuenta factores como la comprensin, as como la
aceptabilidad para el paciente.
d. Debe evitarse en las opciones las expresiones todas o ninguna de las anteriores, en
su lugar es necesario construir alternativas de respuesta plausibles para las personas
que no tengan el dominio conceptual que exige el tem.
e. Realizar una revisin gramatical y ortogrfica de cada uno de los tems.
6. REACTIVOS DE ENSAYO
c. A veces son tan generales que pueden ser interpretadas de manera diferente por
d.
e.
f.
g.
h.
diferentes personas.
El nmero de preguntas que pueden ser respondidas generalmente en una clase
puede ser insuficiente para determinar el conocimiento que tiene una persona de la
materia de la prueba.
Otra desventaja que presentan las pruebas de ensayo son la susceptibilidad al engao
por los individuos con facilidad de palabra que no cuentan con informacin
Su calificacin es subjetiva y lleva mucho tiempo.
Como regla general no debern usarse reactivos de ensayo cuando el mismo
conocimiento o habilidad puedan ser evaluados por reactivos objetivos.
Cuando se plantean preguntas de ensayo, la persona que redacta los objetivos debe
tener en cuenta una serie de indicaciones para tratar de hacer las preguntas de manera
tan objetiva como sea posible:
o Definir la tarea y redactar los reactivos de manera clara
o usar un nmero pequeo de reactivos que debern responder todos los
examinados
o estructurar la respuesta de los reactivos de forma que los expertos en la materia
estn de acuerdo que una respuesta es mejor que otra
o hacer que los examinandos respondan a cada reactivo en una hoja por separado
d. Las personas que redactan reactivos deben tener sumo cuidado de no incluir claves
para las respuestas correctas y evitar los reactivos interrelacionados o entrelazados.
o Dos reactivos estn interrelacionados cuando el planteamiento de uno proporciona
una seal para la respuesta del otro.
o Dos reactivos estn entrelazados cuando es necesario conocer la respuesta a uno
de ellos para llegar a la respuesta correcta del otro.
8. REACTIVOS DE RESPUESTA CORTA
b. Se plantea una tarea en la que se requiere que los examinados completen uno o ms
c.
espacios en blanco de una afirmacin incompleta con las palabras o frases correctas, o
que den una respuesta breve a una pregunta.
Tienen serias limitaciones :
o Son inapropiados para medir objetivos instruccionales complejos
o Debido a que puede haber ms de una respuesta correcta, la calificacin no
siempre es por completo objetiva
o
o
o
o
d.
e.
f.
a.
Tanto los reactivos de verdadero y falso como los de opcin mltiple son en cierto
sentido, variedades de los reactivos de aparejamiento.
o La tarea del examinando en un reactivo de aparejamiento es acoplar las opciones
con la respuesta correcta.
Evite elaborar tems que confunden al evaluado. Diferentes estudios han establecido
cules son algunas de las situaciones que llevan a percibir los tems como confusos;
entre stas estn:
a) Contenido trivial
b) Presencia de informacin irrelevante
c) Presentacin ambigua de las opciones de respuesta
d) Discriminacin muy fina difcil de percibir entre las opciones de respuesta
e) Presentacin de informacin en modo distinto a como ha sido aprendida por la
poblacin evaluada, dentro de su proceso educativo.
Cada tem debe corresponder a una tarea de evaluacin definida en la estructura de
prueba.
Evite evaluar el mismo aspecto especfico con varios tems. Aproveche cada tem
para hacer cada vez ms completa la evaluacin.
Plantee una sola problemtica en cada tem.
Evite tems que incluyan posiciones ideolgicas o prejuicios; tenga en cuenta que las
proposiciones prejuiciosas pueden resultar en una ofensa para cualquiera de los
evaluados. Se excepta esta recomendacin si justamente dichas posiciones son el
objeto de evaluacin; entonces ser obligatorio incluirlas.
El vocabulario utilizado debe ser adecuado para la poblacin objetivo.
Cada tem debe ser independiente y no proveer informacin para responder a otros.
No utilice tems que aparezcan en libros, revistas u otros documentos, como base
para sus tems. Elabore tems originales.
Evite tems en los cuales se indague la opinin (parecer no argumentado) del
evaluado (a menos que el instrumento justamente pretenda servir para un sondeo de
opinin).
Evite plantear tems cuya respuesta vlida se determine segn la opinin de quien la
elabora.
Balancee la complejidad de los tems para que el instrumento cubra los niveles de
habilidad de la poblacin objetivo, es decir, la prueba debe incluir tems de dificultad
alta, media y baja.
14. REGLAS SOBRE CONSTRUCCIN DEL ENUNCIADO
Si plantea el enunciado en forma de proposicin incompleta asegrese de usar
conjugaciones verbales, gnero y nmero adecuados para las opciones de respuesta
que plantear. Si lo escribe en forma de pregunta asegrese de usar adecuadamente
signos de interrogacin y la estructura gramatical de una pregunta.
Presente en el enunciado la tarea de evaluacin.
Escriba con claridad.
Evite texto excesivo.
Redacte el enunciado en forma positiva; es decir, evite negaciones.
15. REGLAS SOBRE CONSTRUCCIN DE OPCIONES DE RESPUESTA
Asegure la concordancia gramatical entre la proposicin del enunciado y cada opcin.
Organice las opciones en un orden lgico (alfabtico, longitud, etc.) o numrico.
Mantenga la independencia entre las opciones. stas no deben solaparse o
intersectarse y no deben ser sinnimas.
Refirase en todas las opciones al problema planteado en el enunciado. Evite opciones
fcilmente descartables.
Elabore opciones de respuesta de longitud similar.
Evite colocar como opcin:
- Todos los anteriores
- Ninguno de los anteriores
- A y B son correctas (o cualquier combinacin de opciones)
- No s
Redacte las opciones en forma positiva, es decir, evite negaciones. Si debe colocar una
negacin, resltela (use negrilla o maysculas sostenidas).
No repita en las opciones frases contenidas en el enunciado.
Elabore tems con 4 opciones de respuesta. Elaborar opciones plausibles es
dispendioso; seguramente ganar calidad en las que redacte si no son demasiadas.
Hay referencia de distintos estudios que analizaron la cantidad de opciones tiles para
los propsitos de evaluacin12 13 ; si bien no existe consenso alrededor de un nico
nmero de opciones, se encuentra a menudo conveniente, en cuanto a facilidad de
redaccin y capacidad de discriminacin, trabajar con 4 opciones; para poblaciones de
infantes puede ser conveniente usar 3 opciones.
Evite en las opciones el uso de adverbios como: Siempre Nunca Totalmente
Absolutamente Completamente
La posicin de la opcin vlida debe balancearse entre todos los tems del instrumento.
Es recomendable que aparezca proporcionalmente en cada posicin posible.
Evite que la opcin vlida pueda ser identificada fcilmente por contraste con las dems
opciones, por alguna de las siguientes situaciones:
- tener la mayor longitud
- ser la proposicin de mayor precisin o imprecisin
- estar redactada en un tipo lenguaje diferente (tcnico o comn)
- tener el mayor nivel de generalizacin o de particularidad
- tener las mismas palabras que el enunciado
- referirse a una problemtica o tema diferente
Justifique adecuadamente cada una de las opciones para garantizar que slo hay una
vlida y que las dems son plausibles para quienes no dominan completamente la
tarea de evaluacin
c. Hoja de respuestas
o
o
o Es aconsejable escribir las instrucciones en negrita para evitar que los examinados
las salten
o
o
TERCERA UNIDAD
VALIDACION DE LOS TEST PSICOMETRICOS
LECCION 1
ANALISIS DE ITEMS
1. INTRODUCCION
Se aplica el pre-test, a una muestra representativa de la poblacin o universo a la cual est
destinada la prueba y con los resultados que se obtengan se efectuar el anlisis de
temes.
Los tests psicomtricos deben satisfacer ciertos requisitos inherentes a todo recurso
destinado a la medicin, con el objeto de que sus resultados presenten la mayor
correspondencia con la realidad. En tal sentido, los psiclogos tratan de demostrar que
sus pruebas miden realmente aquello para la cual fueron elaboradas; que dichas
mediciones contienen un margen de error estndar tolerable de medida y que los
resultados que nos ofrecen, permiten describir, clasificar y/o predecir algn aspecto del
comportamiento de los testados a los cuales se les ha aplicado dichos instrumentos.
Los procedimientos para satisfacer tales requisitos pueden diferir en mayor o menor grado,
pero todos suponen un anlisis estadstico de parmetros que la psicometra utiliza
comnmente. El anlisis de temes es uno de los recursos bsicos utilizados en la
b.2 Decidir que harn los examinados que terminan antes del tiempo previsto,
abandonarn el aula? se les asignar una tarea adicional?, etc.
b.3 Organizar el lugar fsico de la aplicacin: ambiente adecuado, iluminacin, fro,
calor, ventilacin; prevenir interrupciones innecesarias; comprobar que todos los
examinados estn cmodamente sentados y separados suficientemente.
b.4 Distribuir los materiales a los testados (cuadernillos, etc.)
b.5 Pedir a los examinados que llenen toda la informacin solicitada en el protocolo u
hoja de respuestas.
b.6 Leer en voz alta las instrucciones de la prueba y la manera como los examinados
deben registrar sus respuestas (marcar un aspa, encerrar en un crculo, sombrear
espacios, etc.
b.7 Dar las instrucciones respecto de lo que deben de hacer los examinados que
terminan antes del tiempo previsto.
b.8 Comprobar durante la aplicacin si los testados estn registrando sus respuestas
adecuadamente o en la forma indicada.
b.9 Si surge un inconveniente con el contenido de alguna pregunta, la cual implique
una revisin rpida por parte de los examinadores, indicar al testado que, por el
momento pase al siguiente reactivo.
b.10 Es conveniente, por razones de seguridad y vigilancia, considerar un nmero
suficiente de ayudantes en la aplicacin de las pruebas, que eviten cualquier
posibilidad de copia u acto doloso.
b.11 Concluida la aplicacin, recoger ordenadamente los materiales empezando por los
protocolos u hojas de respuesta.
b.12 Luego, en un recinto cmodo, analizar cada hoja de respuesta minuciosamente y
observar:
Si hay reactivos a los que se les ha dado ms de una respuesta, tratar de
determinar si alguna de ellas es la que el probando considera vlida y si esto
no es posible, anular todas las alternativas que el testado ha marcado.
Sealar las respuestas omitidas o no contestadas tachando los espacios
vacios.
En la calificacin o cmputo, contabilizar las respuestas correctas y registrar el
puntaje directo, crudo o bruto en el espacio o recuadro correspondiente en el
protocolo u hoja de respuestas.
Siempre que sea posible, verificar el cmputo, haciendo que otra persona
califique nuevamente los protocolos u hojas de respuestas.
c.
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin, por
lo que slo tiene sentido calcularlo para tems de tests de rendimiento ptimo (con
respuestas correctas e incorrectas).
La dificultad de un tem se entiende como la proporcin de personas que responden
correctamente un reactivo de una prueba. Entre mayor sea esta proporcin, menor
ser su dificultad.
Lo que quiere decir que se trata de una relacin inversa: a mayor dificultad del tem,
menor ser su ndice (Wood, 1960).
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin, por
lo que slo tiene sentido su clculo para tems de tests de rendimiento ptimo.
Para calcular la dificultad de un tem, se divide simplemente el nmero de personas
que contest correctamente el tem entre el nmero total de personas que contest el
tem (correcta o incorrectamente). Usualmente, a esta proporcin se le denota con una
p, e indica la dificultad del tem (Crocker & Algina, 1986). Se calcula con la siguiente
frmula:
Donde:
pi = Indice de dificultad del reactivo i
Ai = Nmero de aciertos en el reactivo i
Ni = Nmero de aciertos ms nmero de errores en el reactivo i
El nivel medio de dificultad del examen debe oscilar entre 0.5 y 0.6, distribuyndose los
valores de p de la manera siguiente: 5% de reactivos fciles, 20% medianamente
fciles, 50% con una dificultad media, 20% medianamente difciles y 5% difciles.
Indicadores:
Muy difciles
Difciles
Normales
Fciles
Muy fciles
:
:
:
:
:
ID<0.25
ID >0.25 y <0.45
ID >0.44 y <0.55
ID >0.54 y <0.75
ID >0.74
(10%)
(20%)
(40%)
(20%)
(10%)
El valor del ndice de dificultad esta directamente relacionado con la media del test: la
media del test es igual a la suma de los ndices de dificultad de los tems.
El nivel o grado de dificultad de un tem esta determinado por la proporcin de sujetos,
respecto al total, que responden en forma correcta una determinada pregunta.
Este ndice nos muestra que tan fcil (valores cercanos a 1) o difcil (valores cercanos
a 0) es la prueba.
En los tests de personalidad o actitudes no cabe hablar de ndice de dificultad, pero
todo lo que hemos dicho del I.D. cabe afirmarlo respecto de la proporcin de sujetos
que saturan con el atributo, esto es, que responden en el sentido de manifestar el
constructo que estamos midiendo.
Pero adems, el I.D. puede utilizarse tambin para ofrecer una idea aproximada del
poder discriminativo de un tem. Si la dificultad de un tem es nula (es decir, I.D.=1),
querr decir que esa cuestin es demasiado fcil y todos los sujetos la acertarn
independientemente de su nivel de conocimiento; es decir, ese tem no sirve para
distinguir (discriminar) a los sujetos que saben de los que no saben por lo que no
puede considerarse como un buen elemento evaluador. Exactamente lo mismo ocurrir
con un tem que tenga un ndice de dificultad de 0, es decir, tan difcil que no lo acierte
ningn sujeto de la muestra.
As pues, los tems idneos para incluir en una prueba de rendimiento ptimo sern
aquellos que tengan un I.D. prximo a 0.5 (dificultad media y discriminacin alta),
siendo adems aconsejable incluir siempre algn tem ms fcil (colocados al principio
por razones obvias de motivacin) y alguno ms difcil (al final del cuestionario) para
garantizar el poder discriminativo general del test.
Interpretacin: a medida que el ID aumenta, el tem es ms fcil (en propiedad habra
que llamarlo ndice de facilidad); adems, en muchos tests no tiene sentido de hablar
de ID, ej, los cuestionarios de personalidad, que no tienen respuestas acertadas o
errneas
Limitaciones: el ID no es una propiedad intrnseca del tem, su valor depende de la
muestra de sujetos a la que se aplique (la solucin la da la Teora de Respuesta a los
tems)
En tems de eleccin mltiple, para corregir los efectos del azar, se suele utilizar la
frmula:
ID
A E /( K 1)
N
Donde:
A: Nmero de sujetos que aciertan el tem
E: Nmero de sujetos que fallan el tem
K: Nmero de alternativas del tem
N: Nmero de sujetos que intentan resolver el tem
La varianza de un tem puede expresarse en trminos de su ID: j2 = PjQj, donde Pj
sera la proporcin de sujetos que aciertan el tem (su ID) y Qj = (1 Pj). (la dificultad
media de los tems maximiza su varianza)
b. INDICE DE HOMOGENEIDAD O DISCRIMINACION DEL ITEM (IH)
El ndice de homogeneidad de un tem nos informa del grado en que dicho tem est
midiendo lo mismo que la globalidad del test; es decir, del grado en que es consistente,
homogneo con el total de la prueba.
Dicho IH se define como la correlacin existente entre las puntuaciones obtenidas por
los sujetos en un determinado tem y la puntuacin total de esos mismos sujetos en el
test completo.
Dado que el ndice de homogeneidad de un tem es un indicador del grado en que ese
tem mide lo mismo que la prueba completa, es coherente con el total de la prueba,
habr que eliminarlo si su I.H. est muy prximo a 0 ya que esto indicar que tem y
prueba completa tienen muy poca relacin entre s; es decir, miden cosas
completamente diferentes. Por el contrario, los tems cuya correlacin con la
puntuacin total sea cercana a 1 sern muy homogneos, muy consistentes entre s y
medirn todos lo mismo (como en el caso de los tres tems utilizados en el ejemplo).
Si la prueba y un tem miden la misma habilidad o competencia, podemos esperar que
quien tuvo una puntuacin alta en todo el test deber tener altas probabilidades de
contestar correctamente el tem. Tambin debemos esperar lo contrario, es decir, que
Donde:
Di = ndice de discriminacin del reactivo i
GA aciertos = Nmero de aciertos en el reactivo i del 27% de personas con las
puntuaciones ms altas en el test.
GB aciertos = Nmero de aciertos en el reactivo i del 27% de personas con las
puntuaciones ms bajas en el test.
N grupo mayor = Nmero de personas en el grupo ms numeroso (GA o GB).
Indicador:
D
>
0.39
D entre 0.30
D entre 0.20
D entre 0.00
D <
-0.01
Conservar
Bueno Mejorar
Regular Revisar
Pobre Descartar
Psima Descartar
0.39
- 0.29
- 0.20
Un tem tiene poder discriminativo si distingue entre los sujetos que puntan alto y los
que puntan bajo en el test (si permite distinguir entre sujetos eficaces frente a
ineficaces).
Indica la capacidad del tem para distinguir entre los sujetos de mayor conocimiento y
los de menor.
Este ndice mide qu tan capaz es un tem para medir las diferencias individuales;
desde el punto de vista de objetivo evaluado.
Proporciona un indicador bruto del desempeo en cada item por separado de los
respondientes competentes frente a los menos competentes
a. Correlacin biserial-puntual (bp) (aplicacin de la correlacin de Pearson entre
una variable dicotmica y otra cuantitativa; frmula:
bp
p x
2
x
p
q
Donde:
Al calcular el ndice de discriminacin, a la puntuacin total del test hay que descontarle
el tem cuyo ndice de discriminacin se pretende hallar (X j); en caso contrario, se
puede usar la siguiente correccin:
jx x j
j ( x j )
x2 2 jx j x
2
j
Donde:
p x p
x
y
Donde:
d = Pc Pi
Donde:
Pc: proporcin de sujetos competentes (puntan > Md) que aciertan el tem
Pi: proporcin de sujetos incompetentes que tambin aciertan el tem
Relacin con algunos parmetros del test
a) Variabilidad: la desviacin tpica del test est estrechamente relacionada con el
ndice de discriminacin de los tems
n
x j j( x j)
j 1
Donde:
Pj Q j
Pj (1 Pj )
sustituyendo:
x Pj Q j j ( x j )
j 1
2j
n
1
2
n 1
j j ( x j )
n
1
n 1
P (1 P )
jX
Pj (1 Pj )
xy
j 1
jY
jX
j 1
donde:
xy: coeficiente de validez del test
n: nmero de tems del test
j: desviacin tpica del tem j
xy
j 1
jY
Pj (1 Pj )
jX
Pj (1 Pj )
j 1
Pj Q j
Pj (1 Pj )
y por tanto:
La frmula anterior es muy importante, pues expresa el coeficiente de validez del test
en funcin de tres parmetros de los tems: dificultad (Pj), discriminacin (jX) y validez
(jY)
Una paradoja clsica: al maximizar la fiabilidad del test eligiendo tems con ndices de
discriminacin elevados se rebaja el coeficiente de validez del test (cuanto mayores
son los ndices de validez de los tems del test menores son sus ndices de
discriminacin)
Comentarios finales:
1) no confundir ndice de validez con la validez factorial de los tems
2) ponderacin de tems: puede ser interesante a veces ponderar tems: regresin
mltiple
3) en el proceso de seleccin de tems que van a constituir el test definitivo:
(i) se da mayor error si se eligen tems con ndices de discriminacin y validez
elevados
(ii) el ndice de discriminacin de un tem es la correlacin tem-test y depende
no slo del tem sino del resto de tems: seleccin de tems en pasos o
etapas
LECCION 2
VALIDEZ DEL TEST
1. INTRODUCCION
La validez es un aspecto crucial de la medicin psicolgica y se relaciona con la
investigacin del significado terico de las puntuaciones obtenidas por medio de un test
(Oliden, 2003).
Las puntuaciones evidencian propiedades de validez cuando se verifica que el test
realmente mide el constructo que pretende medir, justificando adecuadamente las
inferencias realizadas en funcin de sus resultados (Nunnally, 1991).
Cuando estimamos la validez de un test, necesitamos saber qu rasgo deseamos que
mida. Este rasgo se llama variable de criterio. Nos interesa saber qu tan bien
corresponden las posiciones de los sujetos en la distribucin de los puntajes obtenidos a
sus posiciones en el continuo que representa la variable de criterio (Magnusson, 1969).
La situacin ideal en lo concerniente a la validez es que una prueba represente
adecuadamente y mida la varianza relevante del constructo, o dicho de otra manera, que
las interpretaciones de los resultados de un test estn libres de sesgo de medicin (Prez y
Olaz, 2008). En tal sentido, la teora de la validez se relaciona con el concepto de sesgo,
definido como un error sistemtico que produce distorsin en las puntuaciones adulterando
su significado terico (Oliden, 2003). El hecho que las puntuaciones de un test sean
confiables es una condicin necesaria pero no suficiente para que sean validas (Muiz,
1998).
A pesar de su importancia, el concepto de validez es uno de los ms complejos y
controvertidos de la teora de los tests (Angoff, 1998; APA, 1999).
En la historia del concepto de validez pueden identificarse tres etapas principales (Prez y
Olaz, 2008). Segn estos autores, en la primera etapa llamada operacional predomina el
operacionalismo dominante de la epistemotologa de la primera mitad del siglo XX. Aqu, la
validez tratada desde una perspectiva meramente predictiva es sinnimo de la correlacin
entre las puntuaciones de un test y algn criterio que intenta predecir (Martnez Arias,
1995). Sin embargo, este tipo de validez no resultaba til para muchas pruebas en donde
ellas mismas constituyen su propio criterio como en el caso de los tests de rendimiento lo
cual llev a introducir el concepto de validez de contenido
La segunda etapa coincide con la publicacin del trabajo de Cronbach y Meehl (1955), los
cuales consideran por primera vez la llamada validez de constructo como aspecto esencial
e inclusivo de las restantes dimensiones de la validez (Martnez Arias, 1995).
En este perodo se distinguen tres tipos de validez: predictiva, de contenido y de
constructo. La ltima etapa guarda relacin con la versin de las Normas Tcnicas para los
Tests Psicolgicos y Educativos (APA, 1999), donde se define la validez como la
adecuacin, significacin y utilidad de las inferencias especficas hechas a partir de las
puntuaciones de los tests.
Asimismo, la APA (1999), propuso cinco tipos de evidencia de la validez, basadas en: el
contenido del test, la estructura interna del test, el proceso de respuestas al test, las
relaciones con otras variables externas al test y las consecuencias de su aplicacin.
Para verificar la validez de las inferencias realizadas a partir de las puntuaciones de un test
se usan procedimientos similares a los utilizados para contrastar cualquier hiptesis
cientfica, es decir, el acopio de evidencias que confirmen o refuten esas inferencias (Prez
y Olaz, 2008).
El producto final del proceso de validacin es la medicin de un constructo que: a)Est bien
definido en trminos de una variedad de observacin y eventualmente, b)Se correlacione
con otros constructos de inters.
Como podemos apreciar la validez, como la confiabilidad y la consistencia, es un trmino
genrico que se da a una clase de conceptos y procedimientos estrechamente
relacionados. Desde esta perspectiva y como ya hemos visto, la validez se puede definir
en varios niveles y de diversos modos. En el caso de la validez de las pruebas hay que
tener en cuenta (Brown, 1980): 1)Qu es lo que mide la prueba? y 2)Hasta qu punto
mide la prueba lo que dice medir?. Inclusive, el sentido del concepto se puede comunicar
mediante diversos tipos de interrogantes a los que intentan responder los anlisis de
validez (Brown, 1980): qu rasgos est midiendo la prueba?, mide la prueba el rasgo
para el que fue construida?, qu se puede predecir a partir de las calificaciones de la
prueba?, qu porcentaje de la varianza en las calificaciones de la prueba se puede atribuir
a la variable que mide?.
Debido a que la determinacin de la validez puede incluir varios procedimientos, la validez
como la confiabilidad es siempre especfica de las situaciones, es decir que, en
condiciones diferentes, al utilizar muestras distintas o mtodos diferentes de anlisis, se
obtendrn resultados diversos. As podemos hablar de la validez del test, en forma
legtima, slo en ciertas condiciones especficas.
En trminos estadsticos la validez se define como la proporcin de la varianza verdadera
que es relevante para los fines del examen. En este caso, relevante se refiere a lo que
atribuible a la variable que mide la prueba.
Esta ltima puede ser un rasgo o atributo, o bien, alguna medida observada
independientemente. Por lo tanto, la validez de una prueba se define ya sea por medio de
(1) la extensin con que la prueba mide un rasgo subyacente especfico hipottico o
construccin, o bien, (2) la relacin entre las calificaciones de la prueba y alguna medida de
criterio externo (al primer aspecto tambin se le denomina validez interna o funcional y al
segundo validez externa).
Definir la validez como la proporcin de la varianza relevante, implica que la varianza
verdadera se puede dividir en dos componentes: la varianza relevante y otra varianza
confiable, pero varianza irrelevante. En otras palabras, la variable estable (confiable o
verdadera) en las calificaciones de la prueba se compone de dos elementos: lo atribuible a
la variable que mide la prueba (varianza relevante o vlida) y lo atribuible a otras causas
(varianza confiable o irrelevante); o, dicho de otra manera, la variabilidad de un conjunto de
calificaciones se determina por medio de la varianza vlida, es decir, la atribuible a causas
confiables, pero irrelevantes (o sea los errores constantes), y la varianza de error de
medicin (errores al azar).
La distincin entre confiabilidad y validez implica que, a diferencia de la confiabilidad, que
est influenciada slo por los errores de medida no sistemticos, la validez de una prueba
se ve afectada tanto por los errores no sistemticos como por los sistemticos
(constantes). Por esta razn, una prueba puede ser confiable sin ser vlida, pero no puede
ser vlida si no es confiable. En resumen, la confiabilidad es una condicin necesaria, pero
no suficiente para la validez. Tcnicamente, la validez (relacionada con los criterios) de
una prueba, como lo indica la correlacin entre la prueba y una medida externa de criterio,
nunca podr ser mayor que la raz cuadrada del coeficiente de confiabilidad de las formas
paralelas (Aiken, 1996).
2. VALIDEZ
Validez es el grado en que una situacin o instrumento de medida, mide lo que realmente
pretende o quiere medir. A la validez en ocasiones se le denomina exactitud. Validez es el
criterio fundamental para valorar si el resultado obtenido en un estudio es el adecuado.
La validez puede introducir error sistemtico que afecta al tamao y direccin del efecto
encontrado. El error de medida se suma al error de muestreo disminuyendo la capacidad.
El error sistemtico se puede confundir con el efecto real que es el efecto sistemtico, el
hecho de que existan unos sistemas se puede confundir con el resultado final. Una
situacin de baja fiabilidad enmascara el efecto.
Cronbach en 1971 sealaba que la validacin es el proceso por medio del cual el
investigador que desarrolla cuestionarios obtiene evidencia para sustentar sus inferencias.
Este proceso de validacin requiere un estudio emprico dirigido a recolectar la evidencia
requerida.
La validez se ve como una evaluacin -ms que una caracterstica- de cun apropiadas y
adecuadas son las interpretaciones y los usos que se hacen de los resultados del
cuestionario.
En la evaluacin de la validez de un cuestionario se busca que las interpretaciones de los
resultados se basen en evidencia de que el cuestionario mide lo que realmente se quiere
que mida, que los resultados no se vean afectados por variables o factores irrelevantes a lo
que se quiere medir. En otras palabras, la evaluacin de la validez de un cuestionario
concierne los resultados y las consecuencias de las decisiones que se toman con esos
resultados.
Por otra parte, Trochim seala que el concepto de validez no debe limitarse solamente a la
validez del cuestionario, sino que debe poder hablarse de la validez de cualquier tipo de
operacionalizacin de un constructo.
a.
b.
c.
d.
e.
4. TIPOS DE VALIDEZ
a. VALIDEZ DE CONTENIDO
Responde a la pregunta los reactivos que constituyen la prueba son realmente una
muestra representativa del dominio de contenido (dominio conductual) que nos
interesa?. As pues la validacin de contenido consiste en determinar lo adecuado del
muestreo de reactivos del universo de reactivos potenciales y la validez de contenido
es una medida de lo adecuado del muestreo. Ponemos medida entre comillas,
debido a que, la validez de contenido consiste en una serie de estimaciones u
opiniones, que no proporcionan un ndice cuantitativo de la validez (no utiliza
procedimientos estadsticos).
El contenido significa los constituyentes sustantivos de la materia o tema, sus
componentes reales o informativos. Este tipo de validez se asocia por lo comn a las
pruebas de rendimiento, aunque no hay razn por la que no pueda aplicarse el
concepto en otros campos de las pruebas psicolgicas (pruebas de aptitud,
habilidades, etc.). En las pruebas psicolgicas de rendimiento, se har hincapi,
primordialmente, en el rea temtica que se cubre (por ejemplo: geometra, lenguaje,
etc.), y en los procesos utilizados para responder a los reactivos. El modo de la
respuesta tendr la menor importancia.
La validez de contenido alude a la necesidad de garantizar que el test constituye una
muestra adecuada y representativa de los contenidos que se pretende evaluar con l
(Muiz, 1994). Este tipo de validez surge a partir del anlisis del contenido de la
prueba (Aiken, 1996).
La validez de contenido es llamada algunas veces validez curricular y se refiere a la
adecuacin del muestreo de un determinado universo de contenido. Se determina
LECCION 3
VALIDEZ DE CONCURRENTE Y PREDICTIVA
1. INTRODUCCION
La validez, en trminos generales, se refiere al grado en que un instrumento realmente
mide la variable que pretende medir. Por ejemplo, un instrumento para medir la inteligencia
vlida debe medir la inteligencia y no la memoria.
Una prueba sobre conocimientos de Historia debe medir esto y no conocimientos de
literatura histrica.
Aparentemente es sencillo lograr la validez. Despus de todo, como dijo un estudiante,
pensamos en la variable y vemos cmo hacer preguntas sobre esa variable. Esto seria
factible en unos cuantos casos (como lo sera el sexo de una persona).
Sin embargo, la situacin no es tan simple cuando se trata de variables como la
motivacin, la calidad de servicio a los clientes, la actitud hacia un candidato poltico y
menos aun con sentimientos y emociones, as como diversas variables con las que
trabajamos en ciencias sociales.
La validez es una cuestin ms compleja que debe alcanzarse en todo instrumento de
medicin que se aplica. Kerlinger (1979, p. 138) plantea la siguiente pregunta respecto a la
validez: Est usted midiendo lo que usted cree que est midiendo? Si es as, su medida
es vlida; si no, no lo es.
b.
Es importante destacar que la validez predictiva suele estar asociada con problemas y
resultados prcticos; es decir, el inters no es tanto en lo que est detrs del desempeo
en la prueba, sino ms bien en ayudar a resolver problemas prcticos y tomar decisiones.
Muchos de estos problemas y toma de decisiones estn relacionados con la evaluacin,
seleccin y asignacin de personas para diferentes actividades (estudio, trabajo, deporte,
arte, etc).
La validez de criterio establece la validez de un instrumento de medicin comparndola con
algn criterio externo. Este criterio es un estndar con el que se juzga la validez del
instrumento (Wiersma, 1986). Entre los resultados del instrumento de medicin se
relacionen ms al criterio, la validez del criterio ser mayor. Por ejemplo, un investigador
valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen
predice qu tan bien Un grupo de pilotos puede operar un aeroplano
Si el criterio se fija en el presente, se habla de validez concurrente (los resultados del
instrumento se correlacionan con el criterio en el mismo momento o punto del tiempo). Por
ejemplo, un cuestionario para detectar las preferencias del electorado por los distintos
partidos contendientes, puede validarse aplicndolo tres o cuatro das antes de la eleccin
y sus resultados compararlos con los resultados finales de la eleccin (si no hay
fraude,desde luego).
Si el criterio se fija en el futuro, se habla de validez predicativa. Por ejemplo, una prueba
para determinar la capacidad administrativa de altos ejecutivos se puede validar
comparando sus resultados con el futuro desempeo de los ejecutivos medidos.
La validez de criterio puede ser validez concurrente o validez predictiva. La validez concurrente
generalmente se alcanza fcilmente con estudios transversales pero la validez predictiva requiere
de un estudio longitudinal.
LECCION 4
VALIDEZ DE CONSTRUCTO
1. INTRODUCCION
La validez de constructo es la principal de los tipos de validez, en tanto que la validez de
constructo es el concepto unificador que integra las consideraciones de validez de
contenido y de criterio en un marco comn para probar hiptesis acerca de relaciones
tericamente relevantes (Messick, 1980; p.1015), en este mismo sentido (Cronbach,
1984; p.126) seala que la meta final de la validacin es la explicacin y comprensin y,
por tanto, esto nos lleva a considerar que toda validacin es validacin de constructo.
La gnesis de la validez de constructo como un concepto integrador de validez hay que
situarla en la primera versin de los Standards for Educational and Psychological Testing
(APA, 1954) y en la publicacin del influyente trabajo de Cronbach y Meehl (1955). Segn
estos autores, esta validez consiste en un anlisis de la significacin de las puntuaciones
de los instrumentos de medida expresada en trminos de los conceptos psicolgicos
asumidos en su medicin. Como seala Martnez Arias (1995), este nuevo concepto de
validez se empieza a percibir fundamental y bsico y, an ms importante, como integrando
a los anteriores enfoques de validez heredados de las tradiciones empirista (validez
criterial) y racionalista (validez de contenido), ponindose as los cimientos para este
enfoque globalizador que va a echar por tierra la concepcin tripartita de la validez y va a
defender una concepcin unificada de la misma, en la cual parece haber un consenso
emergente acerca del papel central desempeado por la validez de constructo (Moss,
1992).
Los trabajos de Cronbach (1980, 1982, 1988), Guion (1977, 1980), Loevinger (1957) y
Tenopyr (1977) destacan por su apoyo a esta perspectiva integradora, mas la figura clave
es la de Samuel Messick (1975, 1980, 1981, 1988, 1989, 1994, 1995). Messick (1995)
afirma que la validez unificada integra consideraciones de contenido, criterio y
consecuencias en un marco de referencia de constructo para la evaluacin emprica de
hiptesis racionales acerca del significado de las puntuaciones y de relaciones relevantes
desde el punto de vista terico, incluyendo las de naturaleza cientfica y aplicada.
2. VALIDEZ DE CONSTRUCTO
La validez de construccin es importante, siempre que se disee una prueba
psicolgica para medir algn atributo o alguna cualidad (construccin), que se
suponga, tengan las personas. Responde a la pregunta: cmo se puede explicar
psicolgicamente la puntuacin del test?, qu construccin psicolgica mide la
prueba?, hasta qu punto mide bien la prueba psicolgica esta construccin?, etc. En
este tipo de validez, se enfoca la atencin en la construccin (en el constructo) en la
caracterstica que se est midiendo.
La validez de constructo (Crombach y Meehl, 1955), se refiere a la recogida de
evidencia emprica que garantice la existencia de un constructo psicolgico en las
condiciones exigibles a cualquier otro modelo o teora cientfica.
Una prueba no es un conjunto de temes que se juntan al azar para predecir un criterio,
es ms bien una medida o ndice de un concepto, teora o constructo psicolgico, o de
otro tipo (Muiz, 1994).
Este tipo de validez se obtiene por medio de un estudio sistemtico de la eficacia de la
prueba como medida de un constructo psicolgico especfico (Aiken, 1996).
(Cortada de Kohan, 1999), nos dice que la validez de constructo se refiere a precisar
cules son las cualidades psicolgicas que un test mide, y se evala demostrando
que ciertos constructos explican en cierta medida el desempeo en el test.
(Medelln Lozano, 2001), nos dice que este tipo de validez se obtiene mediante la
acumulacin de evidencias respecto al rasgo que mide la prueba y est centrada en el
rasgo y se puede utilizar para el estudio de las diferencias individuales y para el
desarrollo de teoras psicolgicas.
En el mbito de la psicologa se han utilizado con mucha frecuencia dos
procedimientos metodolgicos, el anlisis factorial y la matriz multirrasgo-multimtodo,
para obtener datos acerca de la validez de constructos psicolgicos, denominndose,
respectivamente, validez factorial y validez convergente-discriminante (Muiz, 1994).
El proceso de la validacin de construccin, puede verse como la construccin de una
miniteora acerca de una prueba psicolgica. La lgica de la validez de constructo, en
muchos aspectos, as como en sus mtodos, son esencialmente los del mtodo
cientfico.
La construccin de la miniteora tiene tres pasos: (1) en base a la teora sostenida en
ese momento respecto a la prueba psicolgica, el investigador deduce ciertas hiptesis
sobre la conducta esperada de las personas que obtienen diferentes calificaciones en
ellas, (2) se rene datos que confirman o no esas hiptesis, y (3) en base a los datos
acumulados, toma la decisin relativa a si la teora, de hecho, explica adecuadamente
los datos. Si no es as, tiene que revisar su teora y repetir el proceso hasta lograr una
explicacin ms adecuada. En este sentido, el proceso de validacin es de continua
reformulacin y refinamiento.
Es necesario tener presente que los resultados de los estudios que hagamos realmente
no validan o prueban la teora completa, puesto que nunca se puede demostrar una
construccin en forma absoluta; solamente se puede aceptar como la mejor definicin
de trabajo.
Si los resultados son negativos, hay por lo menos tres interpretaciones posibles: la
prueba puede no medir la construccin, el marco terico puede ser errneo permitiendo
inferencias incorrectas o bien, quiz, el diseo del experimento no permite una prueba
apropiada de la hiptesis. La falla del diseo experimental suele ser la ms fcil de
detectar; pero no siempre se puede experimentar con claridad el lugar exacto de la
falla. Esta interpretacin ambigua de los resultados negativos es un inconveniente
evidente del procedimiento de validacin de los constructos.
En la prctica, (Cortada de Kohan 1999), habla de dos categoras fundamentales de la
validez: la validez directa o primaria y la validez secundaria o derivada. Una prueba
tiene validez directa en la medida en que las tareas incluidas en ella representan
verdaderamente y en la debida proporcin, las clases de tareas que dan lugar a una
definicin operacional para la variable o rasgo en cuestin; mientras que, un test posee
validez secundaria cuando los puntajes se correlacionan con otros puntajes de un
criterio que posee, a su vez, validez directa o primaria.
En tal sentido, perteneceran a la validez directa: la validez de contenido, la validez
curricular, la validez intrnseca, la validez aparente y la validez por definicin; y,
corresponderan a la validez secundaria: la validez emprica, la validez concurrente, la
validez predictiva, la validez factorial y la validez de constructo (Cortada de Kohan,
1999).
a. Mtodos para calcular la validez.
El mtodo ms simple para calcular la validez implica obtener el ndice de
correlacin de Pearson entre los puntajes del test y los puntajes del criterio externo
(Cortada de Kohan, 1999). Cuando por alguna razn este sistema no puede
utilizarse, ya que supone el mismo tipo de nivel de medicin y homocedasticidad
las variables, se puede utilizar otro tipo de coeficiente de validez como los
CUARTA UNIDAD
CONFIABILIDAD Y NORMATIVIDAD DE LOS TEST
LECCION 1
CONFIABILIDAD
1. INTRODUCCION
Al evaluar la utilidad de una prueba o test, a menudo hay dos preguntas que es necesario
formularse, las cuales aunque son diferentes, de alguna manera estn relacionadas. La
primera pregunta es: con cunta exactitud la muestra de temes o tareas representa al
universo de donde fueron seleccionados? La segunda pregunta es con qu fidelidad
corresponde este universo al atributo latente que se va a medir? La primera pregunta se
relaciona con lo que comnmente se denomina confiabilidad de la medida; mientras que la
segunda se refiere a su validez.
En este artculo nos referiremos, particularmente, a la primera de estas dos caractersticas
de las pruebas y escalas, por ser stos los instrumentos que plantean mayores exigencias
tcnicas en su proceso de desarrollo. Esta caracterstica es fundamental cuando se trata
de medir rasgos o atributos psicolgicos. De all que deban ser cuidadosamente
establecidas en las llamadas pruebas formales, como parte de lo que hemos denominado
el estudio tcnico del instrumento.
2. CONFIABILIDAD
La confiabilidad se refiere a la consistencia de los resultados. En el anlisis de la
confiabilidad se busca que los resultados de un cuestionario concuerden con los resultados
del mismo cuestionario en otra ocasin. Si esto ocurre se puede decir que hay un alto
grado de confiabilidad. Tambin se habla de confiabilidad cuando dos o ms evaluadores
evalan al mismo estudiante sobre el mismo material y se obtienen puntuaciones
semejantes.
La mayora de autores en psicometra define a la confiabilidad como el grado de precisin
o consistencia con el cual una prueba mide lo que mide (Tyler, 1972). Como quiera que la
confiabilidad se ve afectada por la naturaleza de la poblacin a la cual se aplica la prueba,
se produce una ampliacin de la primera definicin: la confiabilidad de un test es la
precisin con la que el test mide lo que mide, en una poblacin dada y en las condiciones
normales de aplicacin (Anstey, 1976).
La confiabilidad se refiere a la estabilidad de las mediciones cuando no existen razones
tericas ni empricas para suponer que la variable a medir haya sido modificada
diferencialmente para los sujetos, por lo que se asume su estabilidad, mientras no se
demuestre lo contrario (Muiz, 1994).
La confiabilidad significa la consistencia entre los puntajes de un test obtenidos por los
mismos individuos en distintas ocasiones o entre diferentes conjuntos de temes
equivalentes (APA, 1999).
La confiabilidad puede entenderse como la exactitud o precisin de una medicin, o el
grado en el cual las puntuaciones de un test estn libres de esos errores de medicin. Esta
exactitud o precisin de las puntuaciones permite que stas se mantengan constantes en
diferentes circunstancias ( Tornimbeni, Prez y Olaz, 2008).
La definicin estadstica de la confiabilidad en la teora clsica de los tests, se entiende
como la proporcin entre la varianza verdadera y la varianza total.
El coeficiente de confiabilidad para la relacin entre dos tests paralelos da el valor
numrico para la proporcin entre la varianza de la distribucin de los puntajes verdaderos
y la varianza de la distribucin de los puntajes obtenidos en los tests (Magnusson, 1969).
La confiabilidad de una prueba se expresa como un nmero decimal positivo que va desde
0.00 hasta 1.00. r11 = 1.00, indica la confiabilidad perfecta y r11 = 0.00, indica la total
falta de confiabilidad.
Tcnicamente, la confiabilidad se calcula al analizar los efectos de las variaciones en las
condiciones de administracin y el contenido de los tests en las calificaciones. Sobre el
particular, tenemos que tener en cuenta que la confiabilidad est influenciada slo por los
cambios no sistemticos que tienen efectos diferentes en las distintas personas e influyen
en la varianza de error del test y por tanto en su confiabilidad.
a. Tipos de Confiabilidad
a.1 Se pueden realizar varias estimaciones de la confiabilidad de una prueba
dependiendo de cules sern las fuentes de error que ms nos interesan. La
mayora de los ndices de confiabilidad se expresan como coeficientes de
correlacin y por tanto, se denominan coeficientes de confiabilidad cuyo valor
numrico va de 0 a +1.
a.2 El valor que se obtenga depender del grupo (muestra) de sujetos que ha sido
examinado y de los orgenes de error que influyen en las calificaciones. Por lo
tanto, no existe la confiabilidad de una prueba psicolgica y lo que existe son
muchos coeficientes de confiabilidad para cualquier prueba, tantos como hay
diferentes condiciones para la estimacin de la confiabilidad. Asimismo, un
coeficiente de confiabilidad es una medida de la cantidad de inconfiabilidad que no
indica las causas de esta falta de confiabilidad y ms bien indica lo mucho que
puede esperarse que varen las calificaciones y no las razones de su variacin.
a.3 La estabilidad.
Este coeficiente se utiliza en las pruebas que miden rasgos psicolgicos que se
supone que son relativamente estables a travs del tiempo (por ejemplo: la
mayor parte de las aptitudes y las capacidades y muchas caractersticas de la
personalidad). Adems, siempre que se utilizan las calificaciones de una
prueba en la toma de decisiones sobre planes a largo plazo (por ejemplo:
aptitudes e intereses), es esencial una medida de la estabilidad de las
calificaciones al paso del tiempo.
Incluso, para las caractersticas que varan con el tiempo, conviene, por lo
comn tener conocimientos sobre el grado de estabilidad de las calificaciones
de las pruebas en perodos cortos. Se parte de la suposicin de que la
caracterstica que mide la prueba es estable en el tiempo; asimismo, que no
existe ningn efecto diferencial del olvido (si el tiempo de reaplicacin es muy
posterior), o de la prctica (si la reaplicacin se produce en un lapso corto
respecto a la primera); y, por ltimo, que no debe producirse ningn
aprendizaje diferencial entre las dos aplicaciones.
a.4 Equivalencia.
Se obtiene a travs del mtodo de las formas equivalentes. Puesto que
cualquier prueba contiene slo una muestra de todos los reactivos posibles, se
pueden construir varias formas paralelas de una prueba. Estas cubren el
mismo contenido, utilizan los mismos tipos de reactivos, tienen un grado de
dificultad igual e igual variabilidad (media aritmtica y varianza similares).
El procedimiento consistir en aplicar una forma de prueba (forma A), dejar que
transcurra cierto perodo de tiempo y, a continuacin, administrar la otra forma
(forma B). El coeficiente de estabilidad y equivalencia ser la correlacin (a
travs del coeficiente de Pearson), entre los dos conjuntos de calificaciones y
proporcionar la prueba ms rigurosa y dar la estimacin ms baja de
confiabilidad.
Con el mtodo de mitades emparejadas, los temes de una sola aplicacin del
test se dividen en dos mitades (mitad A: temes pares; mitad B: temes
impares), y se califican en forma independiente. Los puntajes de las dos
mitades se correlacionan a travs del coeficiente de Pearson.
Como el
resultado es de la mitad del test, es necesario corregirlo para estimar la
confiabilidad de todo el test.
Esta correccin se hace con la frmula Spearman Brown. Este mtodo supone
que las dos partes en que se divide el test son tests paralelos o equivalentes.
Se interpreta como un coeficiente de equivalencia. Puesto que las dos formas
(mitades), se aplican en esencia en forma simultnea, slo las fluctuaciones a
corto plazo podrn afectar la confiabilidad.
a.7 Finalmente, queda claro que el coeficiente de confiabilidad (obtenido por cualquiera
de los mtodos), es bsicamente un coeficiente de correlacin entre dos grupos de
puntajes e indica el grado con el cual los individuos mantienen sus posiciones
dentro de un grupo. Abarca valores desde 0 a +1 y no pueden ser negativos como
otros coeficientes de correlacin.
En trminos estadsticos, el valor numrico del coeficiente de confiabilidad de un
test corresponde exactamente a la proporcin de la varianza de los puntajes del
test que se debe a las diferencias verdaderas entre los individuos en el rasgo que
estudiamos mediante el test.
b. Evaluacin de la Confiabilidad
b.1 Segn Cortada de Kohan, 1999, la evaluacin de la confiabilidad de una prueba
implica dos tipos de operaciones: una experimental y otra estadstica. Mediante la
primera se aplica la prueba a un grupo definido de sujetos en razn a un plan
experimental especfico manteniendo las condiciones de control experimental.
En segundo lugar, los calificativos que constituyen el resultado de tal
administracin deben analizarse a travs de procedimientos adecuados para
producir un estadstico que represente la consistencia de la prueba. Estas dos
operaciones son algo independientes ya que los mismos procedimientos
estadsticos pueden usarse a datos logrados de maneras muy diversas.
b.2 Existen por los menos tres factores que influyen en la confiabilidad o la falta de
consistencia de una prueba (Cortada de Kohan, 1999):
a)La adecuacin de las tareas a los sujetos. Las tareas que son demasiado fciles
o que son suceptibles de distintas interpretaciones no generarn resultados
confiables.
b)La constancia o estabilidad de la aptitud del probando para realizar las tareas
que la prueba implica. Las personas varan hora a hora y da a da en su energa,
equilibrio emocional, cansancio, etc. Si estos factores afectan la realizacin de la
tarea del probando, la consistencia de la prueba se ver reducida
significativamente.
c)La coherencia y objetividad del sujeto que califica la prueba. En la medida que
los calificativos que se asignen dependan de elementos subjetivos del momento,
antes que de normas coherentes, aplicadas en forma objetiva a todos las pruebas,
entonces los puntajes carecern de confiabilidad. Esta situacin nos hace ver que
la confiabilidad no es una propiedad de la prueba en s misma, sino una propiedad
del test cuando se administra a una determinada muestra de sujetos.
c. Teora de la confiabilidad en el modelo clsico
c.1 En la teora clsica de los tests, el calificativo que obtiene un probando en un test
consta de una calificacin real ms algn error no sistemtico de medida.
La calificacin real se define como la media o promedio de los puntajes que se
obtendran si un sujeto respondiera el test una cantidad infinita de veces. Dicho
calificativo nunca puede medirse con exactitud sino que debe calcularse en base al
puntaje obtenido por el sujeto en el test.
c.2 En la teora clsica de los tests, la varianza de las calificaciones obtenida por un
grupo de sujetos ( S Obs), es igual a la varianza de sus puntuaciones reales
(SReal), ms la varianza de errores no sistemticos de medicin (SErr), tal y como
se indica a continuacin:
c.3 Por lo tanto, la confiabilidad de la prueba (r11), se define como la relacin entre la
varianza real con la varianza obtenida o la proporcin de la varianza obtenida que
se explica por la varianza real, tal y como se indica a continuacin:
c.4 La proporcin de la varianza obtenida que se explica por la varianza de error, o no
se explica por la varianza real, puede deducirse de las frmulas anteriores como:
d. Confiabilidad Absoluta. Error estndar de medida (ESm)
d.1 Hemos mencionado anteriormente que en la ecuacin clsica, la confiabilidad
implica que, el puntaje obtenido por un sujeto, ( tj ), es el producto de sumar un
puntaje verdadero (Tj), ms un puntaje de error (ej), respectivamente:
tj = Tj + ej
Los puntajes de error (ej), son debidos al azar y se producen por accin de factores
cuyo efecto vara de una ocasin a otra en que se aplique el test, es decir, por
factores diferentes a los que determinan los puntajes verdaderos (Tj), de los
sujetos. En la ecuacin indicada, no sabemos el valor de Tj ni de ej.
En relacin al error, es importante considerar los siguientes supuestos:
Se asume que
correlacionados.
los
errores
en
las
pruebas
diferentes
no
estn
LECCION 2
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
Es importante tener en cuenta, que la confiabilidad se refiere, especficamente a los errores
aleatorios, tal cual menciona Martnez Arias (1996). Podemos hablar de dos tipos de
errores: los errores aleatorios que, como tales, no pueden ser controlados y no se pueden
predecir y los errores sistemticos que son controlables y pueden ser explicados por
alguna fuente de variacin sistemtica. De ambos errores los nicos que interesan a la
teora de la fiabilidad son los errores aleatorios.
2. METODO DEL TEST-RETEST
Este mtodo consiste en aplicar la misma prueba en dos oportunidades a la misma
muestra de sujetos, con un determinado intervalo entre las dos aplicaciones, para
finalmente calcular la correlacin entre los calificativos obtenidos en la primera y segunda
Si bien es cierto, este mtodo es ms completo que el anterior toda vez que permite
controlar algunas fuentes de error aleatorio como: diversos tipos de reactivos, diferentes
condiciones fsicas y mentales de los probandos, diferente situacin medio ambiental, etc.,
sin embargo, presenta algunos inconvenientes.
Para ser consideradas equivalentes, dos pruebas deben reunir ciertos requisitos tales
como: tener las mismas caractersticas formales (cantidad de temes, escala de respuesta,
etc.) y estadsticas (tener medias y desviaciones estndar semejantes, coeficientes de
correlacin elevados entre ambas formas, etc.) (APA, 1999).
Un ejemplo de este mtodo puede ser los resultados obtenidos de las correlaciones de las
formas S y T del APT (Test de Aptitudes Diferenciales de Bennett, Seashore y Wesman,
2,000).
Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que
los resultados empricos de ambas en una poblacin correlacionen de forma elevada. Si
esto es as, ambas formas manifiestan un elevado grado de precisin a la hora de reflejar
los diversos niveles de rasgo. Si ambas correlacionasen de forma mnima, no podemos
fiarnos de que reflejen fidedignamente los niveles de rasgo.
Pues bien, definimos inicialmente el coeficiente de fiabilidad como la correlacin entre los
resultados que proporcionan dos formas paralelas de un mismo test. Tericamente, este
mtodo consistira entonces en correlacionar las puntuaciones obtenidas por los sujetos en
dos formas paralelas de un mismo test (mide por tanto el grado de equivalencia entre
ellas). Aunque sta es la forma que se deriva directamente del modelo de la TCT (recordad
la importancia que se da a su definicin en esta teora) tiene el enorme inconveniente de
que exige el diseo de dos formas paralelas de un mismo instrumento; diseo que, al
margen de costoso en tiempo y esfuerzo, es muy difcil de conseguir.
Sin embargo, el desarrollo terico de este tercer mtodo de aproximacin al estudio de la
fiabilidad relativa de un test resulta muy til para comprender mejor el significado y modo
de interpretacin del coeficiente de fiabilidad de un test, as que vamos a verlo con
detenimiento.
En este procedimiento no se administra el mismo instrumento de medicin, sino dos o ms
versiones equivalentes de ste. Las versiones son similares en contenido, instrucciones,
duracin y otras caractersticas. Las versiones generalmente dos, son administradas a un
mismo grupo de personas dentro de un periodo de tiempo relativamente corto. El
instrumento es confiable si la correlacin entre los resultados de ambas administraciones
es significativamente positiva. Los patrones de respuesta deben variar poco entre las
aplicaciones
LECCION 3
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
El criterio de confiabilidad del instrumento, se determina en la presente investigacin, por el
coeficiente de Alfa Cronbach, desarrollado por J. L. Cronbach, requiere de una sola
administracin del instrumento de medicin y produce valores que oscilan entre cero y uno.
(Hernndez, y otros, ob. cit.). Es aplicable a escalas de varios valores posibles, por lo que
puede ser utilizado para determinar la confiabilidad en escalas cuyos tems tienen como
respuesta ms de dos alternativas. Su formula determina el grado de consistencia y
precisin; la escala de valores que determina la confiabilidad est dada por los siguientes
valores:
LECCION 4
TRANSFORMACION DE PUNTAJES DIRECTOS
1. INTRODUCCION
Los puntajes directos, crudos o brutos de un test, sea ste los de una prueba
recientemente construda u otro test ya utilizado, no significan nada por s mismas a menos
que se les compare con algn patrn o tabla de medida.
Para comprender el significado de una puntuacin directa, cruda o bruta de un test
requerimos de una informacin complementaria. Para obtener dicha informacin existen
dos mtodos bsicos: referencia al criterio y referencia a la norma.
En este captulo nos centraremos fundamentalmente en la referencia a la norma por ser la
ms utilizada en nuestro medio. Dentro de esta perspectiva trataremos las puntuaciones
derivadas tales como los percentiles, las puntuaciones estndar o tpicas y las
estandarizadas.
4. Normalizacin o Baremacin
Es un procedimiento que permite transformar los puntajes directos, crudos o brutos de
un test en puntajes equivalentes sobre la base de un criterio de baremacin y teniendo
como base la curva de distribucin normal.
La tabla de normas o baremo, permite comparar el puntaje directo obtenido por un sujeto
con la distribucin de los puntajes obtenidos en el test por el grupo normativo.
5. El grupo normativo y sus caractersticas
El grupo normativo es llamado tambin muestra de normalizacin, constituye el grupo
histrico de sujetos sobre los cuales se han calculado las normas.
Una norma es una afirmacin de cmo se han desempeado una poblacin o universo de
referencia en un test, basndose en los clculos hechos sobre el grupo normativo.
Una poblacin de referencia son los sujetos que comparten una o ms caractersticas tales
como edad cronolgica; sexo; nivel educativo; estado civil; ubicacin geogrfica; lugar de
residencia, etc.
Un grupo normativo comprende las siguientes caractersticas:
A. Definicin.
El grupo debe estar perfectamente definido. Esto se realiza sobre la base de las
variables de estudio. Ejemplo: estudiantes secundarios de ambos sexos comprendidos
entre los 11 y 17 aos de edad que cursan del 1 al 5 de secundaria diurna en
colegios nacionales de Lima Metropolitana. Las normas son vlidas solamente para los
examinados que tengan las mismas caractersticas que definen al grupo normativo.
B. Representatividad
Cuando las medidas estadsticas (media o promedio; desviacin estndar, etc.), que se
estimen van a ser generalizadas a la poblacin general, es necesario que el grupo
normativo sea representativo de tal universo para que las medidas tengan validez.
C. Tamao suficiente
El grupo normativo es una muestra para calcular los parmetros estadsticos de la
poblacin; por lo tanto, el tamao del grupo normativo viene dado en funcin de la
precisin con que se desee hacer dichas estimaciones.
6. Puntuaciones derivadas: Tipos
Los puntajes directos se transforman mediante procedimientos estadsticos en
puntuaciones derivadas, las cuales permiten una interpretacin psicolgica de los
calificativos obtenidos.
Las puntuaciones derivadas que ms se utilizan en psicologa son: percentiles;
puntuaciones estndar o tpicas y puntuaciones estndar o tpicas normalizadas.
A. PERCENTIL (Pc) (Sinonimia: rango percentil, rango decil).
Se define como puntos de una distribucin continua debajo de las cuales se
encuentran porcentajes dados de la muestra. El percentil obtenido por un sujeto nos
dice qu proporcin del grupo normativo ha alcanzado un rendimiento inferior a l.
El percentil representa un orden en la ejecucin expresada en porcentajes (constituye
una escala ordinal).
Ventajas
Es el puntaje derivado ms rpido de entender y el de ms fcil comunicacin al lego,
lo que lo hace muy satisfactorio para informar a las personas que carecen de una
formacin estadstica. Adems, se puede interpretar de una manera exacta, an,
cuando la distribucin de los puntajes del test no sean estrictamente normales
(campana de Gauss).
Desventajas.
Al no tener distancias iguales (por ser una escala ordinal y no de intervalo), tiende a
exagerar las pequeas diferencias hacia la zona media, diferencias que no son
importantes y reduce el tamao aparente de diferencias realmente importantes y
amplias en los extremos de la distribucin. Por otra parte, es poco adecuado para los
anlisis estadsticos (no se pueden emplear operaciones aritmticas entre ellos.
En el presente captulo vamos a desarrollar cuatro formas de obtencin de percentiles.
B. PUNTUACIONES ESTNDAR O TPICAS.
Son puntuaciones derivadas que se obtienen en base a la media o promedio aritmtico
y a la desviacin estndar o tpica de la distribucin de puntajes del test (distribucin
emprica de puntajes del test).
Ventajas.
Son tiles para los anlisis estadsticos (se asume que se dan en una escala de
intervalo).
Desventajas.
No pueden ser fcilmente interpretados cuando las distribuciones empricas de
puntajes del test se alejan del patron de la distribucin normal (campana de Gauss), lo
cual puede llevar a conclusiones errneas.
C. PUNTUACIONES ESTNDAR O TPICAS NORMALIZADAS.-
GLOSARIO
correlacin ms alto de todas las predictoras con la predicha, y se establece una recta de
regresin, que permite establecer la correlacin entre Y y Y. La siguiente variable predictora se
correlaciona con los residuos para establecer si correlaciona en forma significativa. Si es as, se
incorpora al clculo de la recta de regresin del siguiente nivel. Se deja de incorporar variables
cuando una variable predictora no correlaciona en forma significativa con los residuos.
Correlacin simple. Relacin que se establece entre una variable predictora (o independiente)
y una variable predicha (o Criterio). Es el modelo ms sencillo de correlacin. Vase
Correlacin Producto Momento de Pearson.
Correlacin producto momento de Pearson. Coeficiente de correlacin que permite
establecer el grado de asociacin entre dos variables continuas. Dado que se fundamenta en
los mnimos cuadrados, exige que las variables guarden una relacin lineal entre ambas y que
presenten homocedasticidad. Se calcula mediante la frmula: YXxySNSYYXXr=))((
Covarianza. Grado en que dos o ms variables varan unas con relacin a las otras. Pueden
ser variables continuas o dicotmicas, como en el caso de los tems. Se puede establecer
mediante ndices de covarianza, que en el caso de los tems se determina mediante la frmula
siguiente: cov. = pij pi.pj. En realidad, la covarianza es la correlacin entre dos variables
multiplicada por sus desviaciones tpicas.
Criterio de Validacin. Es un estndar mediante el cual se evala la validez de un test. Se
requiere que sean tambin una medida de algn tipo, es decir, que se expresen en una Escala
Cuantitativa. Pueden ser el rendimiento en otra variable como otro test, la apreciacin de un
supervisor en el trabajo, los juicios de un profesor, notas en un curso, etc. Usualmente se
establece una correlacin entre el rendimiento en el test y la puntuacin en el criterio para
decidir cul es el grado de asociacin entre el test y el criterio, lo que permite predecir el
rendimiento a futuro o determinar el nivel actual en el criterio.
Desviacin Tpica. Es una medida de la variabilidad o dispersin de una distribucin de
puntajes. Mientras menos dispersos estn las puntuaciones alrededor de la Media menor es la
desviacin tpica, mientras ms se dispersan, mayor es la Desviacin Tpica. Cuando se trata
de una Distribucin Normal, existen algunas relaciones importantes. Por ejemplo, a una
desviacin tpica por encima y por debajo de la Media se encuentra el 68,26% de la
distribucin. El clculo de la Desviacin Tpica se realiza mediante el clculo de la raz
cuadrada de la sumatoria de los desvos de los puntajes con respecto a la media elevados al
cuadrado. Es tambin la raz cuadrada de la Varianza.
Dificultad de los tems. El grado de dificultad de un tem se determina mediante la proporcin
de respuestas correctas (cociente entre respuestas correctas divididas entre el nmero de
respuestas totales). La proporcin que se obtiene se denomina a la media del tem, o la p del
tem y es un indicador directo de su facilidad, o inverso de la dificultad, ya que su valor,
comprendido entre 0 y 1, indica que mientras ms se acerca a 0 es ms difcil el tem (puesto
que fue respondido por un menor nmero de personas) y mientras ms se acerca a 1 es ms
fcil (respondido por un mayor nmero de personas).
Distribucin bivariada normal. Modelo matemtico que permite describir la distribucin de los
puntajes de un grupo en dos variables simultneamente. Para utilizar este modelo, es
importante que los datos que se describen con esta distribucin muestren normalidad en sus
distribuciones marginales, linearidad en su relacin e igualdad de varianza en todos los niveles
de ambas variables (homocedasticidad).
Distribucin Normal. Es una distribucin de puntajes que tienen en su representacin grfica,
la tpica forma de una campana. Es llamada tambin Campana de Gauss. En una distribucin
normal, los puntajes se distribuyen en forma simtrica alrededor de la media, con tantos casos
hacia arriba como hacia abajo para distancias iguales. Los casos se concentran cerca de la
media y disminuyen en frecuencia a medida que se alejan de la media, de acuerdo a una
ecuacin matemtica muy precisa. La Media, Mediana y Moda son idnticos en una
Distribucin Normal, ya que existe simetra. No toda distribucin simtrica es necesariamente
normal. Nada indica en realidad que los rasgos psicolgicos se distribuyan de manera normal
en la poblacin de manera independiente del test que los mide; sin embargo, asumir que se
distribuyen en forma normal en la poblacin o en muestras de la misma y hacer que las
puntuaciones en el test se distribuyan en forma normal, es til porque permite hacer uso de las
propiedades conocidas de la Curva Normal para obtener conclusiones y realizar predicciones.
Efecto Halo. Efecto subjetivo que ocurre cuando al evaluar a una persona la impresin que
causa una variable o aspecto del sujeto afecta la evaluacin en otras variables. Por ejemplo, la
buena presencia de una persona determina que se considere que su nivel de razonamiento
debe ser alto y se indica as en la evaluacin.
H (Escala H). Escala a la que se transforman en forma lineal los puntajes con Media de 100 y
Desviacin Tpica 20.
Homogeneidad. Grado de similitud que existe entre los elementos de una Poblacin con
relacin a ciertos atributos; la Poblacin puede ser de Sujetos, Items, o de Contenidos o
Conceptos. Cuanto se trata de sujetos, la Homogeneidad se puede establecer en forma
comparativa mediante la Varianza de una distribucin de puntajes obtenidos por dos o ms
grupos de sujetos; el que tiene la menor Varianza es ms homogneo, en este caso hablamos
de Homogeneidad de la Muestra. Cuando se trata de los tems de una prueba, se establece
mediante H de Horst, KR21, el Coeficiente Alfa de Cronbach, que se fundamentan en la
covarianza entre los tems; en este caso hablamos de Homogeneidad de la Prueba.
Intervalo de Confianza. Recorrido que se establece alrededor de un estadstico (calculado en
una Muestra) para determinar la ubicacin de un parmetro (de la Poblacin) con un
determinado Nivel de Confianza. Se establece en funcin de los estadsticos de muestreo del
estadstico en cuestin, para lo que es usual utilizar las propiedades de la Distribucin Normal.
Por ejemplo, el Intervalo de Confianza de la Media permite estimar la Media de la Poblacin
(), haciendo uso del error estndar de la Media multiplicado por la z correspondiente al Nivel
de Confianza seleccionado.
Inventario de Personalidad. Es un tipo de Prueba Psicomtrica que consiste en un
cuestionario o lista de chequeo, usualmente autoadministrada, diseada para obtener
informacin de variables no intelectuales de un individuo. Los inventarios usualmente evalan
rasgos tales como intereses, actitudes, motivacin, etc. (vase Pruebas de Personalidad).
tems. Son los estmulos o reactivos que se presentan a los sujetos para que respondan y
pongan de manifiesto conductas asociadas con un atributo determinado. Dependiendo del tipo
de prueba, los tems varan sustancialmente. Un tipo comn de tem son los de opciones
mltiples, que presentan un problema en el pie y varias opciones de respuesta de las cuales
slo una es la correcta (la clave) y las otras son Distractores, que sirven para atraer la
respuesta de quienes no conocen realmente la respuesta correcta.
Items binarios. Son los tems que aceptan como puntuacin solamente 1 0. Por contraste,
los Items No Binarios aceptan puntuaciones de ms de 1, o con valores decimales. Los tems
binarios tiene aceptacin tanto por su facilidad de correccin, como porque han demostrado
gran estabilidad en las puntuaciones y en su nivel de dificultad en muestras sucesivas.
Items No binarios. Son tems que no se puntan slo como 1 0. Son usados
frecuentemente, pero no exclusivamente, en inventarios de personalidad o en la medicin de
Actitudes e Inventarios de Personalidad, en los que pueden haber escalas de aproximacin de
cada afirmacin a la forma usual de comportamiento del sujeto.
KR21. Estadstico que permite determinar la confiabilidad de consistencia interna de una
prueba. Deriva su nombre de las frmulas propuestas por Kuder y Richardson en
Psychometrika en los aos 30, de las cuales la nmero 21 fue particularmente exitosa. Tiene
estrecha relacin con Alfa de Cronchach. Se calcula con la frmula siguiente en donde KR21 es
el coeficiente de consistencia interna, m es el nmero de tems de la prueba, S2j es la varianza
del tem y S2x es la varianza total del test: =222111SxSmmKRi
Media o Media Aritmtica. Es el promedio de las puntuaciones obtenidas por un grupo en un
test. Se obtiene mediante la suma de las puntuaciones y la divisin entre el nmero de ellas.
Medicin. Consiste en la asignacin de numerales a las propiedades de los objetos o eventos
de acuerdo a ciertas reglas (Stevens). En medicin psicolgica, los objetos son las
manifestaciones de los atributos psicolgicos o constructos. Se fundamenta en varios
supuestos: a) la asuncin de la existencia de un continuo subyacente con direccionalidad, b) la
existencia de un solo puntaje verdadero para cada sujeto, c) la variabilidad entre sujetos con
relacin al puntaje verdadero y d) la posibilidad de obtener manifestaciones asociadas con la
posicin que la persona ocupa en el continuo subyacente. De esta manera, se asignan
puntuaciones, de acuerdo a ciertas reglas, a las manifestaciones de conducta asociadas al
atributo psicolgico que se desea medir. Las puntuaciones se interpretan en funcin de la teora
psicomtrica y psicolgica, para inferir acerca de la conducta actual, de la futura o de las
potencialidades de la persona. La medicin usualmente implica la existencia de un propsito y
una decisin que debe tomarse con relacin a los Sujetos de la medicin o de los atributos
medidos.
Mediana. Es la puntuacin en una distribucin de puntajes por encima de la cual se encuentra
el cincuenta por ciento de las observaciones.
Medidas de Dispersin. Estadsticos que permiten establecer la variabilidad de un conjunto de
datos. Por ejemplo: la Varianza, y la Desviacin Tpica.
las habilidades probablemente deba incluir tambin factores asociados con la motivacin, los
intereses y oportunidades, que permiten que una persona desarrolle sus aptitudes. Tambin es
posible percibir las habilidades como la plataforma para el desarrollo en nuevos campos, por lo
cual tienen tambin un carcter de aptitudes.
Pruebas de Personalidad. Son Pruebas Psicomtricas destinadas a medir uno o ms
aspectos no intelectuales de la estructura mental o psicolgica del individuo. Permite obtener
informacin acerca de caractersticas afectivas del individuo (emocionales, motivacionales,
actitudinales, etc.) que se diferencian de sus habilidades o procesos intelectuales. Las Pruebas
de Personalidad incluyen: a) los llamados inventarios de personalidad y de ajuste, que intentan
medir la posicin de la persona en rasgos tales como dominancia, sociabilidad, introversin,
locus de control, autoestima, etc., mediante el uso de respuestas autodescriptivas a una serie
de preguntas o afirmaciones. b) Escalas de rating, que exigen que el sujeto se compare, o sea
comparado por otros, con respecto a ciertos rasgos. c) Inventarios de opinin o actitudes.
Algunos autores tambin incluyen los inventarios de intereses y creencias como pruebas de
personalidad.
Pruebas de Potencia. Son Pruebas diseadas para medir el nivel de rendimiento
independientemente de la velocidad de respuesta. Por ello, usualmente no tienen lmite de
tiempo o se otorga a los sujetos suficiente tiempo para que puedan terminar sin dificultad. Es
usual que los reactivos o tems se ordenen de manera creciente de acuerdo a su dificultad.
Pruebas de Velocidad. Son Pruebas diseadas para evaluar habilidades asociadas con la
velocidad de respuesta y establecen su varianza en funcin de la velocidad de respuesta.
Usualmente contienen muchos tems relativamente fciles, que si se contase con suficiente
tiempo seran respondidos por todos los sujetos, pero como deben ser respondidos bajo
condiciones de presin de tiempo, usualmente no se logran responder todos.
Pruebas Psicomtricas. Vase Tests Psicomtricos
Pruebas Referidas a Dominio. Son pruebas diseadas para proveer informacin sobre
conocimientos o habilidades especficas que posee el sujeto de manera directa con relacin al
dominio que evala el test. Tales tests cubren usualmente unidades de contenido y estn
estrechamente relacionadas con procesos de instruccin. Sus puntajes tienen significado en
funcin de lo que el estudiante sabe o puede hacer, ms que en relacin con los puntajes
obtenidos por un grupo de referencia o grupo normativo. Fueron propuestas inicialmente por
Glaser en 1963 y se comenzaron llamando Pruebas Referidas a Criterios, nombre que fue
abandonado debido al carcter polismico en Psicometra del trmino Criterio, que tambin
puede ser entendido como Criterio de Validacin y como Punto de Corte.
Psicometra. Medicin de los atributos psicolgicos. En general constituyen mtodos
experimentales que permiten poner de manifiesto conductas asociadas con los atributos
psicolgicos; a esas manifestaciones se les asignan numerales que permiten establecer el nivel
relativo en que se encuentra ubicada la persona con relacin al atributo. Los Test
Psicomtricos son uno de los mtodos de la Psicometra.
Puntaje Derivado. Son puntajes que se transforman a escalas de propiedades conocidas.
Estas escalas, de las cuales lasa ms conocidas con los Puntajes Z, C.I., Desviacin H, CEEB
y T, tienen una media y una desviacin tpica determinada lo que permite interpretar las
puntuaciones en funcin de dnde se ubican en la escala. Por ejemplo H tiene una Media de
100 puntos y una Desviacin Tpica de 20, lo que se representa como H(100,20). Algunos
puntajes Derivados son transformaciones lineales de los Puntajes Directos, mientras que otros
son transformaciones No Lineales, como el caso de las Estaninas o T.
Puntaje Directo o Puntaje Bruto. Son los puntajes que se obtienen directamente de la
asignacin de numerales a las respuestas a una Prueba Psicomtrica. Usualmente se obtienen
de asignar un punto por cada respuesta correcta. En los casos en que existe una correccin
por puntajes al azar, es usual que se calcule mediante la frmula X = C l/(k-1) En donde X es
el puntaje obtenido, C las preguntas respondidas correctamente, l las respondidas
incorrectamente y K el nmero de opciones de las preguntas de la Prueba Psicomtrica.
Punto de Corte o de aprobacin. Se refiere al puntaje por encima del cual se considera que
el sujeto cumple con ciertos requisitos de ingreso, aprobacin de una materia o de seleccin
para un empleo. Pueden ser establecidos fundamentados en estudios que demuestran que a
partir de ese punto existe mayor probabilidad de xito en el trabajo o en los estudios, o de
manera ms o menos arbitraria, para permitir el ingreso a un cierto nmero de personas a la
institucin, como cuando existe un cupo limitado. Tambin ha sido denominado Criterio, pero,
por el carcter polismico (muchos referentes o significados) de ste trmino, es conveniente
no utilizarlo en ste contexto.
puntaje transformado (por ello existe una relacin no lineal entre los puntajes directos y sus
puntajes transformados); las ms conocidas son los Percentiles, Estaninas, Pentiles, zn y T.
Validacin Cruzada. Procedimiento mediante el cual la validez de una prueba establecida en
una muestra poblacional se verifica con otra muestra proveniente de la misma poblacin. Es
usual derivar rectas de regresin cuando se hacen estudios de validez; al realizar un estudio de
Validacin Cruzada, se utiliza esa recta para determinar los mejores valores predichos en otra
muestra de la poblacin, y luego se verifica qu tan cerca est la prediccin de los resultados
obtenidos en el Criterio de Validacin haciendo uso de mtodos correlacionales.
Validez. La medida en que el test mide lo que se pretende que mida, es decir, que sirva para lo
que se pretende utilizar. El trmino validez, por lo tanto, tiene connotaciones diferentes
dependiendo el uso para el cual se propone y para diferentes tipos de tests. Se habla as de
Validez Aparente, Validez de Constructo, Validez de Contenido, Validez Emprica o Criterial,
Validez Aparente. Es la medida en que el test aparenta ser un instrumento eficiente de
medicin. En realidad tiene ms que ver con lo que los Sujetos piensan del instrumento y la
situacin en que se aplica y la credibilidad que pueden tener en el proceso de evaluacin y la
atencin que prestarn a la misma.
Validez de Constructo. Pretende establecer hasta qu grado la varianza total observada se
puede explicar en funcin de variables (Constructos) derivados de una teora. Para realizar
estudios de validez de constructo, es necesario contar con una buena descripcin terica, que
permita derivar hiptesis y probarlas haciendo uso del instrumento. En la medida en que se
obtienen los resultados predichos por la teora, se dice que hay validez de constructo.
Validez de Contenido. Determinacin de si una prueba mide lo que se supone que debe medir
con relacin a la Tabla de Especificaciones que describe el universo de evaluacin (tpicos de
contenido, habilidades desarrolladas, etc.). Se establece cuando un grupo de expertos analiza
cualitativamente los tems y determina dnde se ubican con relacin a las celdas de la Tabla de
Especificaciones. Si existe coincidencia entre los juicios de los expertos y lo que se prev que
mida cada tem, se dice que hay validez de contenido. Es decir, se trata de determinar qu
grado de representatividad tiene la prueba con respecto a universo de conceptos que se
pretende medir. Se aplica de manera particular en las Pruebas de Rendimiento, que evalan un
contenido determinado.
Validez Emprica o Criterial. Establece la relacin entre el rendimiento en el test y las
puntuaciones obtenidas en una variable externa (criterio) que se supone mide el mismo atributo
que el test. Hace uso de mtodos correlacionales (vase Correlacin), que permiten establecer
el grado de asociacin entre ambas variables. La validacin emprica se fundamenta en
estudios que tienden a ser de carcter aplicado, puesto que a menudo interesa solamente la
capacidad predictiva de los resultados de la prueba con relacin al criterio. Cuando el criterio se
toma algn tiempo despus de la aplicacin de la prueba, se habla de validez predictiva, como
cuando se trata de predecir el rendimiento universitario a partir de una prueba de aptitud
acadmica. Cuando se toman la medida en el test y en el criterio en forma simultnea se habla
de validez concurrente, como cuando se trata de realizar un diagnstico de los conocimientos
de un grupo de personas.
Varianza. Medida de la dispersin de los puntajes en una distribucin. Se calcula mediante el
promedio de los desvos de cada puntaje con respecto a la Media elevados al cuadrado.
Varianza del tem. En tems binarios se determina mediante la multiplicacin de pxq, en donde
p es la proporcin de respuestas correctas y q la de respuestas incorrectas al tem. En este tipo
de tems, su valor est contenido entre 0 y 0,25. En tems no binarios, tanto para su clculo
como para establecer sus lmites, es necesario conocer el recorrido de la escala de los tems.
La raz cuadrada de la varianza del tem constituye la desviacin tpica del tem.
z o puntaje Estndar. Es un trmino general que se refiere a la transformacin de puntajes a
escalas de propiedades conocidas. En el caso de los puntajes z (minscula) es una
transformacin referida al nmero de desviaciones con respecto a la media a la que se
encuentra un determinado puntaje. Se calcula mediante la frmula siguiente (en donde X es un
puntaje determinado, X es la Media y D.T. es la Desviacin Tpica) z = (X X) / D.T.
Z (Escala Z). Transformacin lineal de Media de 50 puntos y Desviacin Tpica de 10 puntos.
zn (z normalizada). Transformacin a una escala de Media = 0 y Desviacin Tpica = 10,
fundamentada en las proporciones acumuladas hasta el punto medio de la clase haciendo uso
de la Tabla z de reas bajo la curva normal. Es una transformacin no lineal.
BIBLIOGRAFIA
Centro
12. Woolfolk, Anita . (1990). Psicologa Educativa. Tercera Edicin. P.H.H. Prentice Hall.
Mxico.
13. Escotet , Miguel. (1985). Estadstica Psicoeducativa Trillas Mxico.
14. Smith, Milton. (1971). Estadstica Simplificada para Psiclogos y Educadores. Manual
Moderno Mxico