Documente Academic
Documente Profesional
Documente Cultură
Donde:
A: Nmero de sujetos que aciertan el tem
E: Nmero de sujetos que fallan el tem
K: Nmero de alternativas del tem
N: Nmero de sujetos que intentan resolver el tem
La varianza de un tem puede expresarse en trminos de su ID:
j
2
= P
j
Q
j
, donde P
j
sera la proporcin de sujetos que aciertan el tem (su ID) y Q
j
= (1 P
j
). (la dificultad
media de los tems maximiza su varianza)
b. INDICE DE HOMOGENEIDAD O DISCRIMINACION DEL ITEM (IH)
El ndice de homogeneidad de un tem nos informa del grado en que dicho tem est
midiendo lo mismo que la globalidad del test; es decir, del grado en que es consistente,
homogneo con el total de la prueba.
Dicho IH se define como la correlacin existente entre las puntuaciones obtenidas por
los sujetos en un determinado tem y la puntuacin total de esos mismos sujetos en el
test completo.
Dado que el ndice de homogeneidad de un tem es un indicador del grado en que ese
tem mide lo mismo que la prueba completa, es coherente con el total de la prueba,
habr que eliminarlo si su I.H. est muy prximo a 0 ya que esto indicar que tem y
prueba completa tienen muy poca relacin entre s; es decir, miden cosas
completamente diferentes. Por el contrario, los tems cuya correlacin con la
puntuacin total sea cercana a 1 sern muy homogneos, muy consistentes entre s y
medirn todos lo mismo (como en el caso de los tres tems utilizados en el ejemplo).
Si la prueba y un tem miden la misma habilidad o competencia, podemos esperar que
quien tuvo una puntuacin alta en todo el test deber tener altas probabilidades de
contestar correctamente el tem. Tambin debemos esperar lo contrario, es decir, que
quien tuvo bajas puntuaciones en el test, deber tener pocas probabilidades de
contestar correctamente el reactivo. As, un buen tem debe discriminar entre aquellos
que obtuvieron buenas calificaciones en la prueba y aquellos que obtuvieron bajas
calificaciones.
Usualmente, se utilizan dos formas para determinar el poder discriminativo de un tem:
el ndice de discriminacin y el coeficiente de discriminacin. Aunque hay varias
maneras equivalentes de calcular el ndice de discriminacin, en este trabajo
utilizaremos la siguiente frmula:
Donde:
Di = ndice de discriminacin del reactivo i
GA aciertos = Nmero de aciertos en el reactivo i del 27% de personas con las
puntuaciones ms altas en el test.
GB aciertos = Nmero de aciertos en el reactivo i del 27% de personas con las
puntuaciones ms bajas en el test.
N grupo mayor = Nmero de personas en el grupo ms numeroso (GA o GB).
Indicador:
D > 0.39 Conservar
D entre 0.30 y 0.39 Bueno Mejorar
D entre 0.20 - 0.29 Regular Revisar
D entre 0.00 - 0.20 Pobre Descartar
D < -0.01 Psima Descartar
Un tem tiene poder discriminativo si distingue entre los sujetos que puntan alto y los
que puntan bajo en el test (si permite distinguir entre sujetos eficaces frente a
ineficaces).
Indica la capacidad del tem para distinguir entre los sujetos de mayor conocimiento y
los de menor.
Este ndice mide qu tan capaz es un tem para medir las diferencias individuales;
desde el punto de vista de objetivo evaluado.
Proporciona un indicador bruto del desempeo en cada item por separado de los
respondientes competentes frente a los menos competentes
a. Correlacin biserial-puntual (
bp
) (aplicacin de la correlacin de Pearson entre
una variable dicotmica y otra cuantitativa; frmula:
q
p
x
x p
bp
2
Donde:
p
: media en el test de los sujetos que aciertan el tem
x
: media del test
x
: desviacin tpica del test
p: proporcin de sujetos que aciertan el tem
q : (1 p).
Al calcular el ndice de discriminacin, a la puntuacin total del test hay que descontarle
el tem cuyo ndice de discriminacin se pretende hallar (X j); en caso contrario, se
puede usar la siguiente correccin:
x j jx x j
j x jx
j x j
2
2 2
) (
+
Donde:
j(x-j)
: correlacin entre el tem j y el test tras descontar el tem (x j)
jx
: correlacin tem-test cuando el tem est incluido en el test
x
: desviacin tpica del test
j
: desviacin tpica del tem
b. Correlacin biserial (b): se usa cuando una variable no dicotmica se dicotomiza
(se pierde informacin)
y
p
x
x p
b
Donde:
p
: media en el test de los sujetos que aciertan el tem
x
: media del test
x
: desviacin tpica del test
p: proporcin de sujetos que aciertan el tem
y: ordenada correspondiente al valor de la puntuacin tpica en la curva normal
que deja por debajo un rea igual a p
Notas: es una estimacin de la correlacin de Pearson, y puede dar valores superiores
a 1 si alguna de las variables es platicrtica o bimodal.
La relacin entre
bp
y
b
viene dada por:
c. Coeficiente phi (): es la correlacin de Pearson para dos variables dicotmicas
d. Correlacin tetracrica: ambas variables dicotomizadas y se asumen distribuidas
normalmente
e. ndice basado en las proporciones de aciertos:
d = P
c
P
i
Donde:
P
c
: proporcin de sujetos competentes (puntan > Md) que aciertan el tem
P
i
: proporcin de sujetos incompetentes que tambin aciertan el tem
Relacin con algunos parmetros del test
a) Variabilidad: la desviacin tpica del test est estrechamente relacionada con el
ndice de discriminacin de los tems
n
j
j x j j x
1
) (
Donde:
X
: desviacin tpica del test
j
: desviacin tpica del tem j
j(x-j)
: ndice de discriminacin del tem j
Si los tems son dicotmicos, su desviacin tpica vendr dada por:
) 1 (
j j j j j
P P Q P
sustituyendo:
n
j
j x j j j x
Q P
1
) (
Donde Pj es la proporcin de sujetos que aciertan el tem (su ID)
b) Fiabilidad: la fiabilidad de un test puede expresarse en:
( ) 1
1
]
1
2
) (
2
1
1
j x j j
j
n
n
,
_
2
) 1 (
) 1 (
1
1
j j jX
j j
P P
P P
n
n
n
j
jX j
n
j
jY j
xy
1
1
donde:
xy: coeficiente de validez del test
n: nmero de tems del test
j: desviacin tpica del tem j
jY: ndice de validez del tem j
jX: ndice de discriminacin del tem j
Si los tems son dicotmicos, entonces:
) 1 (
j j j j j
P P Q P
y por tanto:
n
j
j j jX
n
j
j j jY
xy
P P
P P
1
1
) 1 (
) 1 (
La frmula anterior es muy importante, pues expresa el coeficiente de validez del test
en funcin de tres parmetros de los tems: dificultad (P
j
), discriminacin (
jX
) y validez
(
jY
)
Una paradoja clsica: al maximizar la fiabilidad del test eligiendo tems con ndices de
discriminacin elevados se rebaja el coeficiente de validez del test (cuanto mayores
son los ndices de validez de los tems del test menores son sus ndices de
discriminacin)
Comentarios finales:
1) no confundir ndice de validez con la validez factorial de los tems
2) ponderacin de tems: puede ser interesante a veces ponderar tems: regresin
mltiple
3) en el proceso de seleccin de tems que van a constituir el test definitivo:
(i) se da mayor error si se eligen tems con ndices de discriminacin y validez
elevados
(ii) el ndice de discriminacin de un tem es la correlacin tem-test y depende
no slo del tem sino del resto de tems: seleccin de tems en pasos o
etapas
LECCION 2
VALIDEZ DEL TEST
1. INTRODUCCION
La validez es un aspecto crucial de la medicin psicolgica y se relaciona con la
investigacin del significado terico de las puntuaciones obtenidas por medio de un test
(Oliden, 2003).
Las puntuaciones evidencian propiedades de validez cuando se verifica que el test
realmente mide el constructo que pretende medir, justificando adecuadamente las
inferencias realizadas en funcin de sus resultados (Nunnally, 1991).
Cuando estimamos la validez de un test, necesitamos saber qu rasgo deseamos que
mida. Este rasgo se llama variable de criterio. Nos interesa saber qu tan bien
corresponden las posiciones de los sujetos en la distribucin de los puntajes obtenidos a
sus posiciones en el continuo que representa la variable de criterio (Magnusson, 1969).
La situacin ideal en lo concerniente a la validez es que una prueba represente
adecuadamente y mida la varianza relevante del constructo, o dicho de otra manera, que
las interpretaciones de los resultados de un test estn libres de sesgo de medicin (Prez y
Olaz, 2008). En tal sentido, la teora de la validez se relaciona con el concepto de sesgo,
definido como un error sistemtico que produce distorsin en las puntuaciones adulterando
su significado terico (Oliden, 2003). El hecho que las puntuaciones de un test sean
confiables es una condicin necesaria pero no suficiente para que sean validas (Muiz,
1998).
A pesar de su importancia, el concepto de validez es uno de los ms complejos y
controvertidos de la teora de los tests (Angoff, 1998; APA, 1999).
En la historia del concepto de validez pueden identificarse tres etapas principales (Prez y
Olaz, 2008). Segn estos autores, en la primera etapa llamada operacional predomina el
operacionalismo dominante de la epistemotologa de la primera mitad del siglo XX. Aqu, la
validez tratada desde una perspectiva meramente predictiva es sinnimo de la correlacin
entre las puntuaciones de un test y algn criterio que intenta predecir (Martnez Arias,
1995). Sin embargo, este tipo de validez no resultaba til para muchas pruebas en donde
ellas mismas constituyen su propio criterio como en el caso de los tests de rendimiento lo
cual llev a introducir el concepto de validez de contenido
La segunda etapa coincide con la publicacin del trabajo de Cronbach y Meehl (1955), los
cuales consideran por primera vez la llamada validez de constructo como aspecto esencial
e inclusivo de las restantes dimensiones de la validez (Martnez Arias, 1995).
En este perodo se distinguen tres tipos de validez: predictiva, de contenido y de
constructo. La ltima etapa guarda relacin con la versin de las Normas Tcnicas para
los Tests Psicolgicos y Educativos (APA, 1999), donde se define la validez como la
adecuacin, significacin y utilidad de las inferencias especficas hechas a partir de las
puntuaciones de los tests.
Asimismo, la APA (1999), propuso cinco tipos de evidencia de la validez, basadas en: el
contenido del test, la estructura interna del test, el proceso de respuestas al test, las
relaciones con otras variables externas al test y las consecuencias de su aplicacin.
Para verificar la validez de las inferencias realizadas a partir de las puntuaciones de un test
se usan procedimientos similares a los utilizados para contrastar cualquier hiptesis
cientfica, es decir, el acopio de evidencias que confirmen o refuten esas inferencias (Prez
y Olaz, 2008).
El producto final del proceso de validacin es la medicin de un constructo que: a)Est bien
definido en trminos de una variedad de observacin y eventualmente, b)Se correlacione
con otros constructos de inters.
Como podemos apreciar la validez, como la confiabilidad y la consistencia, es un trmino
genrico que se da a una clase de conceptos y procedimientos estrechamente
relacionados. Desde esta perspectiva y como ya hemos visto, la validez se puede definir
en varios niveles y de diversos modos. En el caso de la validez de las pruebas hay que
tener en cuenta (Brown, 1980): 1)Qu es lo que mide la prueba? y 2)Hasta qu punto
mide la prueba lo que dice medir?. Inclusive, el sentido del concepto se puede comunicar
mediante diversos tipos de interrogantes a los que intentan responder los anlisis de
validez (Brown, 1980): qu rasgos est midiendo la prueba?, mide la prueba el rasgo
para el que fue construida?, qu se puede predecir a partir de las calificaciones de la
prueba?, qu porcentaje de la varianza en las calificaciones de la prueba se puede atribuir
a la variable que mide?.
Debido a que la determinacin de la validez puede incluir varios procedimientos, la validez
como la confiabilidad es siempre especfica de las situaciones, es decir que, en
condiciones diferentes, al utilizar muestras distintas o mtodos diferentes de anlisis, se
obtendrn resultados diversos. As podemos hablar de la validez del test, en forma
legtima, slo en ciertas condiciones especficas.
En trminos estadsticos la validez se define como la proporcin de la varianza verdadera
que es relevante para los fines del examen. En este caso, relevante se refiere a lo que
atribuible a la variable que mide la prueba.
Esta ltima puede ser un rasgo o atributo, o bien, alguna medida observada
independientemente. Por lo tanto, la validez de una prueba se define ya sea por medio de
(1) la extensin con que la prueba mide un rasgo subyacente especfico hipottico o
construccin, o bien, (2) la relacin entre las calificaciones de la prueba y alguna medida de
criterio externo (al primer aspecto tambin se le denomina validez interna o funcional y al
segundo validez externa).
Definir la validez como la proporcin de la varianza relevante, implica que la varianza
verdadera se puede dividir en dos componentes: la varianza relevante y otra varianza
confiable, pero varianza irrelevante. En otras palabras, la variable estable (confiable o
verdadera) en las calificaciones de la prueba se compone de dos elementos: lo atribuible a
la variable que mide la prueba (varianza relevante o vlida) y lo atribuible a otras causas
(varianza confiable o irrelevante); o, dicho de otra manera, la variabilidad de un conjunto de
calificaciones se determina por medio de la varianza vlida, es decir, la atribuible a causas
confiables, pero irrelevantes (o sea los errores constantes), y la varianza de error de
medicin (errores al azar).
La distincin entre confiabilidad y validez implica que, a diferencia de la confiabilidad, que
est influenciada slo por los errores de medida no sistemticos, la validez de una prueba
se ve afectada tanto por los errores no sistemticos como por los sistemticos
(constantes). Por esta razn, una prueba puede ser confiable sin ser vlida, pero no puede
ser vlida si no es confiable. En resumen, la confiabilidad es una condicin necesaria, pero
no suficiente para la validez. Tcnicamente, la validez (relacionada con los criterios) de
una prueba, como lo indica la correlacin entre la prueba y una medida externa de criterio,
nunca podr ser mayor que la raz cuadrada del coeficiente de confiabilidad de las formas
paralelas (Aiken, 1996).
2. VALIDEZ
Validez es el grado en que una situacin o instrumento de medida, mide lo que realmente
pretende o quiere medir. A la validez en ocasiones se le denomina exactitud. Validez es el
criterio fundamental para valorar si el resultado obtenido en un estudio es el adecuado.
La validez puede introducir error sistemtico que afecta al tamao y direccin del efecto
encontrado. El error de medida se suma al error de muestreo disminuyendo la capacidad.
El error sistemtico se puede confundir con el efecto real que es el efecto sistemtico, el
hecho de que existan unos sistemas se puede confundir con el resultado final. Una
situacin de baja fiabilidad enmascara el efecto.
Cronbach en 1971 sealaba que la validacin es el proceso por medio del cual el
investigador que desarrolla cuestionarios obtiene evidencia para sustentar sus inferencias.
Este proceso de validacin requiere un estudio emprico dirigido a recolectar la evidencia
requerida.
La validez se ve como una evaluacin -ms que una caracterstica- de cun apropiadas y
adecuadas son las interpretaciones y los usos que se hacen de los resultados del
cuestionario.
En la evaluacin de la validez de un cuestionario se busca que las interpretaciones de los
resultados se basen en evidencia de que el cuestionario mide lo que realmente se quiere
que mida, que los resultados no se vean afectados por variables o factores irrelevantes a lo
que se quiere medir. En otras palabras, la evaluacin de la validez de un cuestionario
concierne los resultados y las consecuencias de las decisiones que se toman con esos
resultados.
Por otra parte, Trochim seala que el concepto de validez no debe limitarse solamente a la
validez del cuestionario, sino que debe poder hablarse de la validez de cualquier tipo de
operacionalizacin de un constructo.
La evidencia de validez es lo que permite al investigador estar relativamente seguro que no
ha errado en el proceso de traducir un constructo a una realidad operante. Segn Trochim,
esta visin permite hablar de validez tanto cuando se trata de cuestionarios, pruebas,
programas, tratamientos y hasta de muestreo (si se considera que la muestra no es otra
cosa que la operacionalizacin de un constructo llamado poblacin).
3. CARACTERSTICAS DE LA VALIDEZ
a. La validez se refiere a la adecuacidad
de la interpretacin de los resultados para un grupo determinado de individuos. La
validez no es una propiedad del cuestionario; aunque, por costumbre, se sigue
hablando de la validez del cuestionario.
b. La validez es una cuestin de grado.
No existe en trminos absolutos. No se puede decir que el cuestionario es vlido o
invlido. Aumenta o disminuye dependiendo de la calidad de la evidencia que la
sustenta. Nuevas evidencias pueden incrementarla o reducirla. Hoy da la validacin de
una inferencia se presenta como el proceso de determinar si la teora y las evidencias
empricas respaldan esta inferencia.
c. La validez se refiere siempre a un tipo
de uso o interpretacin especfico. No se puede hablar de la validez de un cuestionario
sea cual fuere su uso. A veces los usos son muy prximos, pero an as hay
diferencias.
d. La validez es un concepto unitario. No
se puede hablar de diferentes tipos de validez (contenido, constructo, criterio). Se habla
ms bien de un concepto validez- y de diversos tipos de evidencia.
e. Para hablar de validez se requiere un
juicio evaluativo comprensivo que dictamine si las interpretaciones y usos de los
resultados se justifican con la evidencia producida.
4. TIPOS DE VALIDEZ
a. VALIDEZ DE CONTENIDO
Responde a la pregunta los reactivos que constituyen la prueba son realmente una
muestra representativa del dominio de contenido (dominio conductual) que nos
interesa?. As pues la validacin de contenido consiste en determinar lo adecuado del
muestreo de reactivos del universo de reactivos potenciales y la validez de contenido
es una medida de lo adecuado del muestreo. Ponemos medida entre comillas,
debido a que, la validez de contenido consiste en una serie de estimaciones u
opiniones, que no proporcionan un ndice cuantitativo de la validez (no utiliza
procedimientos estadsticos).
El contenido significa los constituyentes sustantivos de la materia o tema, sus
componentes reales o informativos. Este tipo de validez se asocia por lo comn a las
pruebas de rendimiento, aunque no hay razn por la que no pueda aplicarse el
concepto en otros campos de las pruebas psicolgicas (pruebas de aptitud,
habilidades, etc.). En las pruebas psicolgicas de rendimiento, se har hincapi,
primordialmente, en el rea temtica que se cubre (por ejemplo: geometra, lenguaje,
etc.), y en los procesos utilizados para responder a los reactivos. El modo de la
respuesta tendr la menor importancia.
La validez de contenido alude a la necesidad de garantizar que el test constituye una
muestra adecuada y representativa de los contenidos que se pretende evaluar con l
(Muiz, 1994). Este tipo de validez surge a partir del anlisis del contenido de la
prueba (Aiken, 1996).
La validez de contenido es llamada algunas veces validez curricular y se refiere a la
adecuacin del muestreo de un determinado universo de contenido. Se determina
examinando el contenido mismo del test y juzgando el grado en que mide
verdaderamente los objetivos importantes de un curso o que constituyen una muestra
verdaderamente representativa de la materia de instruccin en sus aspectos esenciales
(Cortada de Kohan, 1999). La validez de contenido cuando se trata de los tests de
personalidad se llama validez aparente.
La validez de contenido est en funcin de lo adecuado del muestreo de reactivos y el
procedimiento por excelencia para establecer este tipo de validez es someter a la
prueba a una valoracin por jueces expertos, quienes evaluarn pregunta por pregunta
con respecto a los criterios de pertinencia, relevancia, claridad, redaccin y suficiencia
y, los resultados de esta evaluacin permitirn incluir, retirar o reestructurar los temes
(Medelln Lozano, 2001).
En la validez de contenido, los reactivos de la prueba deben ser una muestra
representativa del universo de las conductas o contenidos posibles. El muestreo
representativo implica la seleccin de reactivos en proporcin a su enfsis o
importancia.
En la construccin de pruebas, el proceso de muestreo de reactivos, tomados de un
banco de temes potenciales, implica, primeramente la divisin del dominio de
contenido en cierto nmero de categoras o subcategoras cada una de las cuales
representa un rea relevante de contenido. A continuacin se asigna un peso
proporcional a cada categora, y, finalmente, se muestrean al azar los reactivos de
cada categora, hasta alcanzar el nmero requerido.
En la prctica, el muestreo de la ltima etapa no es al azar. Una de las razones para
esto es que los reactivos seleccionados (despus del anlisis de temes), tienen que
satisfacer, en general, ciertos requisitos estadsticos como por ejemplo, tener una
dificultad apropiada. Otra razn, en los tests de rendimiento, es que se puede desear
un equilibrio de contenido dentro de cada categora. En tercer lugar, los reactivos se
escogen a veces para que desempeen funciones especficas, por ejemplo, para que
sirvan de calentamiento o para probar los lmites de los conocimientos de los mejores
alumnos.
Asimismo, no hay nada que exija que la prueba sea homognea. Puesto que, hasta
las unidades de instruccin (unidades de aprendizaje, lecciones, etc.), ms limitadas
suelen incluir una gran variedad de contenidos y capacidades, el exigir una elevada
homogeneidad sera indeseable y poco realista (Ebel, 1968).
Puede resultar conveniente un nivel elevado de homogeneidad dentro de las subreas
(si el test tiene varias reas); pero no es necesario que la prueba completa sea
homognea; sin embargo, si nos interesa la validez de contenido de una prueba
destinada a medir alguna construccin o rasgo psicolgico, ser conveniente una
elevada homogeneidad (como vemos, todas estas situaciones influirn en el proceso
de construccin de un test dependiendo si ste es de rendimiento o de aptitud).
La validez de contenido se determina mediante la comparacin sistemtica de los
reactivos de la prueba con el dominio conductual de contenido postulado. La clave
est en el muestreo. Generalmente para esta operacin se recurre a expertos.
Este procedimiento de validacin es lgico y racional y tiene algunas dificultades: no
hay ndices estadsticos, asimismo, los distintos jueces pueden no estar de acuerdo en
cuanto a la validez de contenido de una prueba; asimismo, la falta de claridad en la
especificidad del dominio har que resulten difciles los juicios de validez de contenido.
Existen varios procedimientos que hacen que el proceso sea ms objetivo, por ejemplo,
se debe lograr una definicin especfica del dominio del contenido, una descripcin que
delinear el universo, los conocimientos y las capacidades pertinentes y el origen de
los materiales utilizados (si se trata de un examen de rendimiento). Tambin se
podran definir subcategoras importantes y especificar su enfsis proporcional.
Adems, el constructor de la prueba podra especificar qu contenidos y qu
habilidades fueron medidas por cada reactivo. Actualmente, se utilizan algunos de
estos pasos. El universo de contenido se suele establecer en forma bastante detallada
y casi siempre se dispone de una clasificacin de reactivos por contenido y categora
de habilidades.
En cierto sentido, la validez de contenido es una propiedad general de la prueba; ms
bien que una situacin especfica. Si el constructor de la prueba define claramente el
universo de contenido y selecciona reactivos que lo representen, tendr o no tendr
xito (de manera ms precisa tendr xito en cierto grado), al alcanzar su meta.
An cuando podamos no estar de acuerdo con su definicin de dominio, debemos
evaluar la prueba en funcin de lo bien que alcance la meta especificada, hasta que
punto represente el dominio, tal y como lo defini su constructor (tambin se le
denomina validez curricular).
Validez de Facie. Se confunde fcilmente con la de contenido. Una prueba tiene
validez de facie cuando los reactivos parece que miden lo que se supone que tiene que
medir la prueba. La validez de facie se determina mediante un examen bastante
superficial de la prueba y considera solamente la relevancia obvia. Esta validez puede
ser una consideracin importante, si la relevancia aparente de los reactivos influye en
la motivacin del sujeto, por ejemplo, poner preguntas en lenguaje y contenido infantil
en una prueba destinada a adultos. En algunas situaciones, el sujeto puede no
sentirse motivado a obtener buenos resultados, al sentir que la prueba es poco
importante para la decisin que va a tomar.
LECCION 3
VALIDEZ DE CONCURRENTE Y PREDICTIVA
1. INTRODUCCION
La validez, en trminos generales, se refiere al grado en que un instrumento realmente
mide la variable que pretende medir. Por ejemplo, un instrumento para medir la inteligencia
vlida debe medir la inteligencia y no la memoria.
Una prueba sobre conocimientos de Historia debe medir esto y no conocimientos de
literatura histrica.
Aparentemente es sencillo lograr la validez. Despus de todo, como dijo un estudiante,
pensamos en la variable y vemos cmo hacer preguntas sobre esa variable. Esto seria
factible en unos cuantos casos (como lo sera el sexo de una persona).
Sin embargo, la situacin no es tan simple cuando se trata de variables como la
motivacin, la calidad de servicio a los clientes, la actitud hacia un candidato poltico y
menos aun con sentimientos y emociones, as como diversas variables con las que
trabajamos en ciencias sociales.
La validez es una cuestin ms compleja que debe alcanzarse en todo instrumento de
medicin que se aplica. Kerlinger (1979, p. 138) plantea la siguiente pregunta respecto a la
validez: Est usted midiendo lo que usted cree que est midiendo? Si es as, su medida
es vlida; si no, no lo es.
2. TIPOS DE VALIDEZ DE CRITERIO
La validez de criterio establece la validez de un instrumento de medicin comparndolo con
algn criterio externo.
En la validez de criterio deseamos saber hasta qu punto podemos generalizar (o predecir)
hacia el xito que habr de tener una persona en la ejecucin de una tarea diferente.
a. Validez concurrente. El criterio se fija en el presente. Los resultados del instrumento
se correlacionan con el criterio en el mismo momento del tiempo.
b. Validez predictiva. Los resultados del instrumento se correlacionan con un criterio
fijado en el futuro. Por ejemplo, una prueba de admisin a la universidad debe reflejar el
comportamiento del estudiante a lo largo de la carrera.
Caractersticas de la evaluacin de criterio
a.Debe ser relevante. Debe reflejar los aspectos ms relevantes del criterio conceptual.
b.Debe ser confiable. La confiabilidad del criterio afecta a la validez de criterio en la misma
medida que la confiabilidad del predictor.
3. VALIDEZ CONCURRENTE
La validez concurrente se da por medio de la comprobacin, mediante el uso de medidas
estadsticas de coeficiente de correlacin, con un coeficiente de validez, en que se juzga en
el sentido en que cuanto ms alto sea este coeficiente, mayor ser este tipo de validez.
El coeficiente se halla teniendo en cuenta un criterio de validacin que se da al mismo
tiempo que los datos del instrumento. Se emplea esta validez para saber el estado de una
persona en el momento actual, por ello es necesario que el criterio externo se d en el
momento presente. Relacionamos los datos del test con los datos externos que se estn
dando al mismo tiempo. Sirve para clasificar al sujeto en base a esa medida; Conlleva
diagnstico, clasificacin y descripcin. Incluye el error tpico de medida del test como el
error de criterio. Si el criterio no es objetivo o significativo el test no es confiable, la validez
concurrente no da datos significativos. Si mide lo que se quiere medir este coeficiente de
validez se acercar a 1 y significa que el test es vlido para hacer clasificaciones.
4. VALIDEZ PREDICTIVA
La palabra prediccin o predictivo normalmente se la asocia con visin o anticipacin de
futuro. En este sentido, cuando estudiamos la validez predictiva de un instrumento lo que
nos interesa es determinar hasta dnde podemos anticipar el desempeo futuro de una
persona en una actividad determinada, a partir de su ejecucin actual en dicho instrumento;
por ejemplo, se podra estudiar, hasta dnde la Prueba de Aptitud de Universidades
predice el xito acadmico de los estudiantes en los primeros semestres universitarios, o
anticipar el desempeo futuro de un vendedor a partir de su ejecucin en un test de
inteligencia social.
En consecuencia, la validez predictiva, tambin llamada validez de criterio externo o validez
emprica, se estudia comparando los puntajes de un instrumento (variable independiente)
con una o ms variables externas (variables dependientes) denominadas variables criterio.
Se asume que tales criterios, indicadores del desempeo futuro, estn terica y
lgicamente relacionados con el rasgo representado en el instrumento bajo estudio. Esta
comparacin entre los puntajes de la variable en estudio y los de la variable criterio se
expresa a travs de un coeficiente de correlacin, el cual se interpreta como un ndice de
validez. Entre ms alta sea la correlacin entre una medida o medidas de aptitud
acadmica y el promedio de notas, tomado como variable criterio, mejor ser la validez
predictiva de la prueba de aptitud acadmica.
Es importante destacar que la validez predictiva suele estar asociada con problemas y
resultados prcticos; es decir, el inters no es tanto en lo que est detrs del desempeo
en la prueba, sino ms bien en ayudar a resolver problemas prcticos y tomar decisiones.
Muchos de estos problemas y toma de decisiones estn relacionados con la evaluacin,
seleccin y asignacin de personas para diferentes actividades (estudio, trabajo, deporte,
arte, etc).
La validez de criterio establece la validez de un instrumento de medicin comparndola con
algn criterio externo. Este criterio es un estndar con el que se juzga la validez del
instrumento (Wiersma, 1986). Entre los resultados del instrumento de medicin se
relacionen ms al criterio, la validez del criterio ser mayor. Por ejemplo, un investigador
valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen
predice qu tan bien Un grupo de pilotos puede operar un aeroplano
Si el criterio se fija en el presente, se habla de validez concurrente (los resultados del
instrumento se correlacionan con el criterio en el mismo momento o punto del tiempo). Por
ejemplo, un cuestionario para detectar las preferencias del electorado por los distintos
partidos contendientes, puede validarse aplicndolo tres o cuatro das antes de la eleccin
y sus resultados compararlos con los resultados finales de la eleccin (si no hay
fraude,desde luego).
Si el criterio se fija en el futuro, se habla de validez predicativa. Por ejemplo, una prueba
para determinar la capacidad administrativa de altos ejecutivos se puede validar
comparando sus resultados con el futuro desempeo de los ejecutivos medidos.
La validez de criterio puede ser validez concurrente o validez predictiva. La validez concurrente
generalmente se alcanza fcilmente con estudios transversales pero la validez predictiva requiere
de un estudio longitudinal.
LECCION 4
VALIDEZ DE CONSTRUCTO
1. INTRODUCCION
La validez de constructo es la principal de los tipos de validez, en tanto que la validez de
constructo es el concepto unificador que integra las consideraciones de validez de
contenido y de criterio en un marco comn para probar hiptesis acerca de relaciones
tericamente relevantes (Messick, 1980; p.1015), en este mismo sentido (Cronbach,
1984; p.126) seala que la meta final de la validacin es la explicacin y comprensin y,
por tanto, esto nos lleva a considerar que toda validacin es validacin de constructo.
La gnesis de la validez de constructo como un concepto integrador de validez hay que
situarla en la primera versin de los Standards for Educational and Psychological Testing
(APA, 1954) y en la publicacin del influyente trabajo de Cronbach y Meehl (1955). Segn
estos autores, esta validez consiste en un anlisis de la significacin de las puntuaciones
de los instrumentos de medida expresada en trminos de los conceptos psicolgicos
asumidos en su medicin. Como seala Martnez Arias (1995), este nuevo concepto de
validez se empieza a percibir fundamental y bsico y, an ms importante, como
integrando a los anteriores enfoques de validez heredados de las tradiciones empirista
(validez criterial) y racionalista (validez de contenido), ponindose as los cimientos para
este enfoque globalizador que va a echar por tierra la concepcin tripartita de la validez y
va a defender una concepcin unificada de la misma, en la cual parece haber un consenso
emergente acerca del papel central desempeado por la validez de constructo (Moss,
1992).
Los trabajos de Cronbach (1980, 1982, 1988), Guion (1977, 1980), Loevinger (1957) y
Tenopyr (1977) destacan por su apoyo a esta perspectiva integradora, mas la figura clave
es la de Samuel Messick (1975, 1980, 1981, 1988, 1989, 1994, 1995). Messick (1995)
afirma que la validez unificada integra consideraciones de contenido, criterio y
consecuencias en un marco de referencia de constructo para la evaluacin emprica de
hiptesis racionales acerca del significado de las puntuaciones y de relaciones relevantes
desde el punto de vista terico, incluyendo las de naturaleza cientfica y aplicada.
2. VALIDEZ DE CONSTRUCTO
La validez de construccin es importante, siempre que se disee una prueba
psicolgica para medir algn atributo o alguna cualidad (construccin), que se
suponga, tengan las personas. Responde a la pregunta: cmo se puede explicar
psicolgicamente la puntuacin del test?, qu construccin psicolgica mide la
prueba?, hasta qu punto mide bien la prueba psicolgica esta construccin?, etc. En
este tipo de validez, se enfoca la atencin en la construccin (en el constructo) en la
caracterstica que se est midiendo.
La validez de constructo (Crombach y Meehl, 1955), se refiere a la recogida de
evidencia emprica que garantice la existencia de un constructo psicolgico en las
condiciones exigibles a cualquier otro modelo o teora cientfica.
Una prueba no es un conjunto de temes que se juntan al azar para predecir un criterio,
es ms bien una medida o ndice de un concepto, teora o constructo psicolgico, o de
otro tipo (Muiz, 1994).
Este tipo de validez se obtiene por medio de un estudio sistemtico de la eficacia de la
prueba como medida de un constructo psicolgico especfico (Aiken, 1996).
(Cortada de Kohan, 1999), nos dice que la validez de constructo se refiere a precisar
cules son las cualidades psicolgicas que un test mide, y se evala demostrando
que ciertos constructos explican en cierta medida el desempeo en el test.
(Medelln Lozano, 2001), nos dice que este tipo de validez se obtiene mediante la
acumulacin de evidencias respecto al rasgo que mide la prueba y est centrada en el
rasgo y se puede utilizar para el estudio de las diferencias individuales y para el
desarrollo de teoras psicolgicas.
En el mbito de la psicologa se han utilizado con mucha frecuencia dos
procedimientos metodolgicos, el anlisis factorial y la matriz multirrasgo-multimtodo,
para obtener datos acerca de la validez de constructos psicolgicos, denominndose,
respectivamente, validez factorial y validez convergente-discriminante (Muiz, 1994).
El proceso de la validacin de construccin, puede verse como la construccin de una
miniteora acerca de una prueba psicolgica. La lgica de la validez de constructo, en
muchos aspectos, as como en sus mtodos, son esencialmente los del mtodo
cientfico.
La construccin de la miniteora tiene tres pasos: (1) en base a la teora sostenida en
ese momento respecto a la prueba psicolgica, el investigador deduce ciertas hiptesis
sobre la conducta esperada de las personas que obtienen diferentes calificaciones en
ellas, (2) se rene datos que confirman o no esas hiptesis, y (3) en base a los datos
acumulados, toma la decisin relativa a si la teora, de hecho, explica adecuadamente
los datos. Si no es as, tiene que revisar su teora y repetir el proceso hasta lograr una
explicacin ms adecuada. En este sentido, el proceso de validacin es de continua
reformulacin y refinamiento.
Al determinar la validez de construccin, el propsito es identificar todos los factores
que influyen en la ejecucin del test y determinar el grado en que influyen cada uno de
ellos. Ejemplo: (Kline, 1985), sirvindose de un test hipottico sobre la ansiedad:
propuso una serie de hiptesis cuyos resultados globales nos pueden decir si el test
tiene validez de constructo:
a. Los que obtienen elevadas puntuaciones ser ms probable que acaben en
clnicas psiquitricas que aquellos con puntajes bajos.
b. Ser ms fcil que les receten drogas psicotrpicas a los que tienen altas
puntuaciones que a los de bajos puntajes.}
c. Los hijos de los de puntuaciones altas tendrn mayores probabilidades de tener
una puntuacin alta en test de ansiedad, que los hijos de quienes tuvieron bajas
puntuaciones.
d. El test de ansiedad se correlacionar alta y significativamente (ms all de 0.60),
con otros sobre dicha ansiedad caracterizada.
e. El test de ansiedad no se correlacionar con variables que no resulten conexas
con la misma.
f. Los grupos psiquitricos caracterizados como ansiosos alcanzarn en el test
unas puntuaciones ms altas que los de control.
g. En el test de ansiedad, los sujetos evaluados por supervisores y colegas como
ansiosos, lograrn mayores puntuaciones que quienes estn considerados como
no ansiosos.
Es necesario tener presente que los resultados de los estudios que hagamos realmente
no validan o prueban la teora completa, puesto que nunca se puede demostrar una
construccin en forma absoluta; solamente se puede aceptar como la mejor definicin
de trabajo.
Si los resultados son negativos, hay por lo menos tres interpretaciones posibles: la
prueba puede no medir la construccin, el marco terico puede ser errneo permitiendo
inferencias incorrectas o bien, quiz, el diseo del experimento no permite una prueba
apropiada de la hiptesis. La falla del diseo experimental suele ser la ms fcil de
detectar; pero no siempre se puede experimentar con claridad el lugar exacto de la
falla. Esta interpretacin ambigua de los resultados negativos es un inconveniente
evidente del procedimiento de validacin de los constructos.
En la prctica, (Cortada de Kohan 1999), habla de dos categoras fundamentales de la
validez: la validez directa o primaria y la validez secundaria o derivada. Una prueba
tiene validez directa en la medida en que las tareas incluidas en ella representan
verdaderamente y en la debida proporcin, las clases de tareas que dan lugar a una
definicin operacional para la variable o rasgo en cuestin; mientras que, un test posee
validez secundaria cuando los puntajes se correlacionan con otros puntajes de un
criterio que posee, a su vez, validez directa o primaria.
En tal sentido, perteneceran a la validez directa: la validez de contenido, la validez
curricular, la validez intrnseca, la validez aparente y la validez por definicin; y,
corresponderan a la validez secundaria: la validez emprica, la validez concurrente, la
validez predictiva, la validez factorial y la validez de constructo (Cortada de Kohan,
1999).
a. Mtodos para calcular la validez.
El mtodo ms simple para calcular la validez implica obtener el ndice de
correlacin de Pearson entre los puntajes del test y los puntajes del criterio externo
(Cortada de Kohan, 1999). Cuando por alguna razn este sistema no puede
utilizarse, ya que supone el mismo tipo de nivel de medicin y homocedasticidad
las variables, se puede utilizar otro tipo de coeficiente de validez como los
biseriales o el ndice de correlacin tetracrico cuando el criterio tiene una
clasificacin en dos categoras: si o no, o verdadero-falso. Algunas veces se utiliza
la correlacin mltiple.
Cuando la prueba se utiliza para pronosticar el desempeo en alguna situacin de
la vida cotidiana, la validez suele definirse como la correlacin entre la prueba y
alguna medida del desempeo en la situacin de la vida real. En este caso, la
correlacin debe ser explicada lgicamente y uno de los enfoques ms adecuados
es la teora factorial (Crombach, 1984).
b. Validez y anlisis factorial
Las evidencias relacionadas con la estructura interna de una prueba nos van a
indicar si las relaciones entre los reactivos y las dimensiones (factores, escalas),
permiten confirmar la existencia de los constructos que el test pretende medir. El
marco conceptual de una prueba puede proponer una dimensin unitaria de
comportamiento o varios factores ( Prez y Olaz, 2008).
Una encuesta podra construirse para medir salud orgnica y emocional. Ejemplo:
si las intercorrelaciones entre los reactivos confirman la presencia de esos dos
factores tericos, sta es una informacin relevante para la evidencia de validez
vinculada con la estructura interna del test (APA, 1999).
Resulta necesario comprobar estadsticamente que los reactivos se agrupen de la
manera que se ha realizado la propuesta terica, y para dicha finalidad el
procedimiento adecuado es el anlisis factorial (Carretero-Dios y Prez, 2005).
Debemos tener presente que el anlisis factorial es un mtodo estadstico utilizado
para analizar las intercorrelaciones entre datos observables (Martnez Arias, 1995).
Ejemplo: si se administran 90 reactivos o preguntas a 1,400 sujetos, el primer paso
implica calcular las correlaciones de cada elemento con los dems. Luego, al
observar la matriz de correlaciones obtenidas apreciaremos ciertas agrupaciones
entre los reactivos, lo cual va a revelar la presencia de rasgos o factores comunes.
En la prctica, cuando utilizamos el anlisis factorial por lo general se va a reducir
el nmero de variables inicialmente consideradas y el comportamiento de cada
sujeto puede describirse con referencia a un nmero relativamente pequeo de
factores o rasgos comunes (Anastasi y Urbina, 1998).
c. El meta-anlisis en la generalizacin de la validez
A lo largo del captulo hemos mencionado en repetidas oportunidades que la
validez de una prueba est relacionada con la muestra particular que se ha
utilizado en dicho proceso, lo cual implica la presencia de una limitacin que debe
ser tratada convenientemente con los procedimientos de generalizacin de la
validez.
En tal sentido, el mtodo ms utilizado en la actualidad es el meta-anlisis, el cual
permite integrar y combinar los hallazgos de diversas investigaciones empricas
mediante tcnicas especficas. En el caso de la utilizacin de este mtodo para el
tratamiento de la generalizacin de la validez, surgi como respuesta a los
coeficientes dbiles de correlacin obtenidos en muchos estudios relacionados con
la temtica test-criterio (Martnez Arias, 1995). Todo ello estaba vinculado con
resultados contradictorios obtenidos en estudios relacionados sobre una misma
temtica, los cuales eran resueltos por medio de revisiones narrativas o de
resmenes verbales que implicaban una metodologa subjetiva e informal, que sin
duda, fue sometida a todo tipo de crticas. Frente a esta situacin los especialistas
consideraron al meta-anlisis como la solucin ms atinada para enfrentar esta
problemtica.
Metodolgicamente, el meta-anlisis convierte los hallazgos estadsticos de
estudios empricos independientes a una mtrica comn, provee una estimacin
simple de la fortaleza de la relacin entre determinadas variables y permite
comprobar estadsticamente si una serie de investigaciones, conjuntamente
considerados, apoyan o refutan las hiptesis de investigacin (Multon, Brown y
Lent, 1991).
Operativamente, el meta-anlisis se inicia con la reunin, clasificacin y
codificacin de los estudios existentes sobre una temtica, lo cual infiere la
consideracin, clasificacin y codificacin de las caractersticas sustantivas y
metodolgicas de los estudios particulares (tales como tipo y duracin de una
intervencin o tratamiento experimental, tipo de muestra e instrumentos utilizados)
(Prez y Olaz, 2008).
En la medida que los hallazgos de los estudios a tener en cuenta podran ser
difciles de contrastar directamente, se les debe convertir a una medida comn.
Las dos medidas ms usadas para cuantificar e integrar los hallazgos de los
estudios independientes son los niveles de significacin y las medidas de tamao
del efecto. La primera informa los resultados obtenidos han ocurrido
probablemente al azar, mientras que la segunda nos indica la intensidad de la
relacin o el efecto de inters (Gmez Benito, 1987).
No obstante su importancia actual, el meta-anlisis no est exento de crticas y
entre las ms importantes tenemos:
a. El sesgo de publicacin o de seleccin editorial a favor de investigaciones
cuyos resultados favorecen las hiptesis de estudio. Sobre el punto, la
bibliografa especializada sugiere incluir en los meta-anlisis, investigaciones sin
publicar, lo cual permite que el investigador contraste los hallazgos de
investigaciones publicadas frente a las no-publicadas y de ese modo inferir la
probabilidad de sesgo en la publicacin.
b. La inclusin de investigaciones poco rigurosas conjuntamente con estudios
bien diseados, lo cual afecta la interpretacin que hace el meta-anlisis, ya que
esta situacin compromete la validez interna del procedimiento (Wolf, 1986).
c. La existencia en algunos casos del problema de las peras y las manzanas,
metfora referida a que las conclusiones producto del meta-anlisis son
inadecuadas toda vez que tienen como base la integracin de investigaciones
que incluyen diferentes definiciones de variables y tipos de muestras o
instrumentos.
d. Tcnicas de la validez de constructo
d.1 Tcnica de los grupos conocidos
Tenemos una opinin que hay que valorar y no tenemos criterio o
estndar, el procedimiento consiste en aplicar el instrumento a dos o ms
grupos y ver si discrimina.
Ejemplo: Un grupo de pacientes crnicos compuesto por un grupo de
pacientes hipertensos y otro grupo de pacientes con esclerosis mltiple. Si
mi instrumento de medida discrimina a ambos grupos (es decir me dice
que los hipertensos tienen mayor calidad de vida que los pacientes con
esclerosis mltiple) es que tiene validez.
d.2 Matriz multimtodo-multirrasgo
Es el ms sofisticado de todos aunque se utiliza poco, por ser complejo en
el sentido de que requiere utilizar muchas medidas diferentes. El
instrumento de medida introduce una fuente de variacin, es la
racionalidad.
Ejemplo: medir el grado de satisfaccin mediante un cuestionario, una
entrevista y la observacin y posteriormente se estudiar la convergencia
entre los tres resultados.
Que se debe esperar en las medidas, que haya convergencia (es decir
gran concordancia entre lo que miden los tres mtodos). El mtodo de
medida influye mucho en las puntuaciones como ocurre en el cuestionario,
hay que ver hasta que punto las mediciones son convergentes para una
misma medicin.
MTMM nos permite medir varios mtodos con varias variables.
d.3 Anlisis factorial
Para cada faceta o dimensin hay varios tems o indicadores, la validez
estructural o factorial intenta discernir el grado en que los indicadores de
un concepto reflejan dicho concepto, son parte de l o lo constituyen.
El anlisis factorial es una tcnica estadstica que examina la estructura
interna de la unidad de medida, mide si los indicadores tienen algo en
comn, es decir si tienen un comn denominador, mide las correlaciones
entre los indicadores e intenta descubrir si hay algo subyacente. Los tems
deben tener un comn denominador que debe aflorar estadsticamente. La
estructura subyacente o comn denominador se llama factor (faceta).
CUARTA UNIDAD
CONFIABILIDAD Y NORMATIVIDAD DE LOS TEST
LECCION 1
CONFIABILIDAD
1. INTRODUCCION
Al evaluar la utilidad de una prueba o test, a menudo hay dos preguntas que es necesario
formularse, las cuales aunque son diferentes, de alguna manera estn relacionadas. La
primera pregunta es: con cunta exactitud la muestra de temes o tareas representa al
universo de donde fueron seleccionados? La segunda pregunta es con qu fidelidad
corresponde este universo al atributo latente que se va a medir? La primera pregunta se
relaciona con lo que comnmente se denomina confiabilidad de la medida; mientras que la
segunda se refiere a su validez.
En este artculo nos referiremos, particularmente, a la primera de estas dos caractersticas
de las pruebas y escalas, por ser stos los instrumentos que plantean mayores exigencias
tcnicas en su proceso de desarrollo. Esta caracterstica es fundamental cuando se trata
de medir rasgos o atributos psicolgicos. De all que deban ser cuidadosamente
establecidas en las llamadas pruebas formales, como parte de lo que hemos denominado
el estudio tcnico del instrumento.
2. CONFIABILIDAD
La confiabilidad se refiere a la consistencia de los resultados. En el anlisis de la
confiabilidad se busca que los resultados de un cuestionario concuerden con los resultados
del mismo cuestionario en otra ocasin. Si esto ocurre se puede decir que hay un alto
grado de confiabilidad. Tambin se habla de confiabilidad cuando dos o ms evaluadores
evalan al mismo estudiante sobre el mismo material y se obtienen puntuaciones
semejantes.
La mayora de autores en psicometra define a la confiabilidad como el grado de precisin
o consistencia con el cual una prueba mide lo que mide (Tyler, 1972). Como quiera que
la confiabilidad se ve afectada por la naturaleza de la poblacin a la cual se aplica la
prueba, se produce una ampliacin de la primera definicin: la confiabilidad de un test es
la precisin con la que el test mide lo que mide, en una poblacin dada y en las
condiciones normales de aplicacin (Anstey, 1976).
La confiabilidad se refiere a la estabilidad de las mediciones cuando no existen razones
tericas ni empricas para suponer que la variable a medir haya sido modificada
diferencialmente para los sujetos, por lo que se asume su estabilidad, mientras no se
demuestre lo contrario (Muiz, 1994).
La confiabilidad significa la consistencia entre los puntajes de un test obtenidos por los
mismos individuos en distintas ocasiones o entre diferentes conjuntos de temes
equivalentes (APA, 1999).
La confiabilidad puede entenderse como la exactitud o precisin de una medicin, o el
grado en el cual las puntuaciones de un test estn libres de esos errores de medicin. Esta
exactitud o precisin de las puntuaciones permite que stas se mantengan constantes en
diferentes circunstancias ( Tornimbeni, Prez y Olaz, 2008).
La definicin estadstica de la confiabilidad en la teora clsica de los tests, se entiende
como la proporcin entre la varianza verdadera y la varianza total.
El coeficiente de confiabilidad para la relacin entre dos tests paralelos da el valor
numrico para la proporcin entre la varianza de la distribucin de los puntajes verdaderos
y la varianza de la distribucin de los puntajes obtenidos en los tests (Magnusson, 1969).
La confiabilidad de una prueba se expresa como un nmero decimal positivo que va desde
0.00 hasta 1.00. r11 = 1.00, indica la confiabilidad perfecta y r11 = 0.00, indica la total
falta de confiabilidad.
Tcnicamente, la confiabilidad se calcula al analizar los efectos de las variaciones en las
condiciones de administracin y el contenido de los tests en las calificaciones. Sobre el
particular, tenemos que tener en cuenta que la confiabilidad est influenciada slo por los
cambios no sistemticos que tienen efectos diferentes en las distintas personas e influyen
en la varianza de error del test y por tanto en su confiabilidad.
a. Tipos de Confiabilidad
a.1 Se pueden realizar varias estimaciones de la confiabilidad de una prueba
dependiendo de cules sern las fuentes de error que ms nos interesan. La
mayora de los ndices de confiabilidad se expresan como coeficientes de
correlacin y por tanto, se denominan coeficientes de confiabilidad cuyo valor
numrico va de 0 a +1.
a.2 El valor que se obtenga depender del grupo (muestra) de sujetos que ha sido
examinado y de los orgenes de error que influyen en las calificaciones. Por lo
tanto, no existe la confiabilidad de una prueba psicolgica y lo que existe son
muchos coeficientes de confiabilidad para cualquier prueba, tantos como hay
diferentes condiciones para la estimacin de la confiabilidad. Asimismo, un
coeficiente de confiabilidad es una medida de la cantidad de inconfiabilidad que no
indica las causas de esta falta de confiabilidad y ms bien indica lo mucho que
puede esperarse que varen las calificaciones y no las razones de su variacin.
a.3 La estabilidad.
Una medida de confiabilidad es la correlacin entre medidas repetidas (o sea
entre una prueba y una reaplicacin). Esta estimacin se denomina coeficiente
de estabilidad, el cual es la correlacin (obtenida a travs del coeficiente
producto de los momentos de Pearson), entre las calificaciones de dos
aplicaciones de la misma forma de la prueba psicolgica, separadas por un
perodo de tiempo.
Este coeficiente se utiliza en las pruebas que miden rasgos psicolgicos que se
supone que son relativamente estables a travs del tiempo (por ejemplo: la
mayor parte de las aptitudes y las capacidades y muchas caractersticas de la
personalidad). Adems, siempre que se utilizan las calificaciones de una
prueba en la toma de decisiones sobre planes a largo plazo (por ejemplo:
aptitudes e intereses), es esencial una medida de la estabilidad de las
calificaciones al paso del tiempo.
Incluso, para las caractersticas que varan con el tiempo, conviene, por lo
comn tener conocimientos sobre el grado de estabilidad de las calificaciones
de las pruebas en perodos cortos. Se parte de la suposicin de que la
caracterstica que mide la prueba es estable en el tiempo; asimismo, que no
existe ningn efecto diferencial del olvido (si el tiempo de reaplicacin es muy
posterior), o de la prctica (si la reaplicacin se produce en un lapso corto
respecto a la primera); y, por ltimo, que no debe producirse ningn
aprendizaje diferencial entre las dos aplicaciones.
Cualquier variable que influya en la ejecucin de una aplicacin, pero no en la
otra, reducir tambin la correlacin. El muestreo de los reactivos no afecta el
coeficiente de estabilidad, puesto que se utiliza la misma forma de la prueba en
las dos aplicaciones (o sea el mismo conjunto de reactivos). El coeficiente de
estabilidad se obtiene por el mtodo test-retest.
a.4 Equivalencia.
Se obtiene a travs del mtodo de las formas equivalentes. Puesto que
cualquier prueba contiene slo una muestra de todos los reactivos posibles, se
pueden construir varias formas paralelas de una prueba. Estas cubren el
mismo contenido, utilizan los mismos tipos de reactivos, tienen un grado de
dificultad igual e igual variabilidad (media aritmtica y varianza similares).
La suposicin primordial al calcular un coeficiente de equivalencia es la de que
las formas, de hecho, son equivalentes. Para determinar la confiabilidad se
aplicar primero una de ellas y a continuacin, con un perodo mnimo de
tiempo transcurrido, la segunda. La correlacin de los resultados (a travs del
coeficiente de Pearson), nos dar el coeficiente de equivalencia.
En este mtodo, las faltas de similaridad en las calificaciones se pueden
atribuir principalmente a diferencias en el muestreo de reactivos (o sea formas
de la prueba).
a.5 Estabilidad y equivalencia.
Si se dispone de formas alternativas de una prueba ser posible determinar la
confiabilidad mediante una combinacin de los dos mtodos anteriores.
El procedimiento consistir en aplicar una forma de prueba (forma A), dejar que
transcurra cierto perodo de tiempo y, a continuacin, administrar la otra forma
(forma B). El coeficiente de estabilidad y equivalencia ser la correlacin (a
travs del coeficiente de Pearson), entre los dos conjuntos de calificaciones y
proporcionar la prueba ms rigurosa y dar la estimacin ms baja de
confiabilidad.
a.6 Confiabilidad por mitades
Se obtiene con el mtodo de la divisin por mitades emparejadas o Split half
method, dado que en algunas situaciones no es posible utilizar el ndice de
confiabilidad de estabilidad o de formas equivalentes, siendo siempre
necesario estimar de alguna forma la confiabilidad.
Con el mtodo de mitades emparejadas, los temes de una sola aplicacin del
test se dividen en dos mitades (mitad A: temes pares; mitad B: temes
impares), y se califican en forma independiente. Los puntajes de las dos
mitades se correlacionan a travs del coeficiente de Pearson. Como el
resultado es de la mitad del test, es necesario corregirlo para estimar la
confiabilidad de todo el test.
Esta correccin se hace con la frmula Spearman Brown. Este mtodo supone
que las dos partes en que se divide el test son tests paralelos o equivalentes.
Se interpreta como un coeficiente de equivalencia. Puesto que las dos formas
(mitades), se aplican en esencia en forma simultnea, slo las fluctuaciones a
corto plazo podrn afectar la confiabilidad.
a.7 Finalmente, queda claro que el coeficiente de confiabilidad (obtenido por cualquiera
de los mtodos), es bsicamente un coeficiente de correlacin entre dos grupos de
puntajes e indica el grado con el cual los individuos mantienen sus posiciones
dentro de un grupo. Abarca valores desde 0 a +1 y no pueden ser negativos como
otros coeficientes de correlacin.
En trminos estadsticos, el valor numrico del coeficiente de confiabilidad de un
test corresponde exactamente a la proporcin de la varianza de los puntajes del
test que se debe a las diferencias verdaderas entre los individuos en el rasgo que
estudiamos mediante el test.
b. Evaluacin de la Confiabilidad
b.1 Segn Cortada de Kohan, 1999, la evaluacin de la confiabilidad de una prueba
implica dos tipos de operaciones: una experimental y otra estadstica. Mediante la
primera se aplica la prueba a un grupo definido de sujetos en razn a un plan
experimental especfico manteniendo las condiciones de control experimental.
En segundo lugar, los calificativos que constituyen el resultado de tal
administracin deben analizarse a travs de procedimientos adecuados para
producir un estadstico que represente la consistencia de la prueba. Estas dos
operaciones son algo independientes ya que los mismos procedimientos
estadsticos pueden usarse a datos logrados de maneras muy diversas.
b.2 Existen por los menos tres factores que influyen en la confiabilidad o la falta de
consistencia de una prueba (Cortada de Kohan, 1999):
a)La adecuacin de las tareas a los sujetos. Las tareas que son demasiado fciles
o que son suceptibles de distintas interpretaciones no generarn resultados
confiables.
b)La constancia o estabilidad de la aptitud del probando para realizar las tareas
que la prueba implica. Las personas varan hora a hora y da a da en su energa,
equilibrio emocional, cansancio, etc. Si estos factores afectan la realizacin de la
tarea del probando, la consistencia de la prueba se ver reducida
significativamente.
c)La coherencia y objetividad del sujeto que califica la prueba. En la medida que
los calificativos que se asignen dependan de elementos subjetivos del momento,
antes que de normas coherentes, aplicadas en forma objetiva a todos las pruebas,
entonces los puntajes carecern de confiabilidad. Esta situacin nos hace ver que
la confiabilidad no es una propiedad de la prueba en s misma, sino una propiedad
del test cuando se administra a una determinada muestra de sujetos.
c. Teora de la confiabilidad en el modelo clsico
c.1 En la teora clsica de los tests, el calificativo que obtiene un probando en un test
consta de una calificacin real ms algn error no sistemtico de medida.
La calificacin real se define como la media o promedio de los puntajes que se
obtendran si un sujeto respondiera el test una cantidad infinita de veces. Dicho
calificativo nunca puede medirse con exactitud sino que debe calcularse en base al
puntaje obtenido por el sujeto en el test.
c.2 En la teora clsica de los tests, la varianza de las calificaciones obtenida por un
grupo de sujetos ( S Obs), es igual a la varianza de sus puntuaciones reales
(SReal), ms la varianza de errores no sistemticos de medicin (SErr), tal y como
se indica a continuacin:
c.3 Por lo tanto, la confiabilidad de la prueba (r11), se define como la relacin entre la
varianza real con la varianza obtenida o la proporcin de la varianza obtenida que
se explica por la varianza real, tal y como se indica a continuacin:
c.4 La proporcin de la varianza obtenida que se explica por la varianza de error, o no
se explica por la varianza real, puede deducirse de las frmulas anteriores como:
d. Confiabilidad Absoluta. Error estndar de medida (ESm)
d.1 Hemos mencionado anteriormente que en la ecuacin clsica, la confiabilidad
implica que, el puntaje obtenido por un sujeto, ( tj ), es el producto de sumar un
puntaje verdadero (Tj), ms un puntaje de error (ej), respectivamente:
tj = Tj + ej
Los puntajes de error (ej), son debidos al azar y se producen por accin de factores
cuyo efecto vara de una ocasin a otra en que se aplique el test, es decir, por
factores diferentes a los que determinan los puntajes verdaderos (Tj), de los
sujetos. En la ecuacin indicada, no sabemos el valor de Tj ni de ej.
En relacin al error, es importante considerar los siguientes supuestos:
El puntaje verdadero de un probando en un test es el calificativo que tendra
si no existe error en la medicin y se puede definir como la media o promedio
de las puntuaciones alcanzadas por la misma persona en infinitas
aplicaciones del test.
Se asume que no hay correlacin entre los puntajes verdaderos y el error de
medicin.
Se asume que los errores en las pruebas diferentes no estn
correlacionados.
Estos tres supuestos no son comprobables directamente, slo se van a
justificar si las inferencias realizadas a partir de las predicciones del modelo
se confirman.
d.2 El objetivo fundamental de la confiabilidad es calcular el error existente en las
medidas, es decir, el valor del error.
Esta estimacin se expresa a travs del coeficiente de confiabilidad que es la
correlacin lineal entre administraciones de la misma prueba o de formas paralelas
o equivalentes en el mismo grupo de sujetos.
d.3 En el caso de que no existiesen errores entre las puntuaciones obtenidas en las
aplicaciones de los tests, la correlacin sera perfecta y tendra un valor de 1, en
cuyo caso el test sera confiable.
d.4 Un estadstico muy utilizado para describir fuentes de variabilidad en los
calificativos de un test, es la varianza.
e. Causas de errores de medicin
e.1 En la prctica, existen diversas causas que originan errores de medicin. En
nuestro caso estudiaremos tres causas de errores de medicin: los errores
inherentes a la prueba, sobre todo los que se deben al muestreo de reactivos; los
errores asociados a las condiciones de aplicacin de la prueba; los errores
relacionados con el examinador y los errores debidos a las fluctuaciones de las
caractersticas del examinado.
e.2 En la medida que cada causa de error tendr su mayor influencia en circunstancias
diferentes, sern posibles varios tipos de rangos que estimaciones de confiabilidad:
consistencia en el tiempo (el coeficiente de estabilidad); consistencia sobre las
formas de las pruebas (el coeficiente de equivalencia) y consistencia sobre el
tiempo y las formas de las pruebas, al mismo tiempo (el coeficiente de estabilidad y
equivalencia).
e.3 En cada caso, un ndice apropiado de confiabilidad, el coeficiente de confiabilidad,
es la correlacin entre las calificaciones de dos aplicaciones de la prueba.
Asimismo, existen procedimientos para determinar la confiabilidad cuando se
aplica slo una forma de la prueba, adems de un mtodo (el error estndar de
medida: ESm), para determinar la cantidad de error en las calificaciones obtenidas
por un sujeto y los factores que influyen en los coeficientes de confiabilidad.
e.4 Finalmente, hay que tener en cuenta la consistencia interna u homogeneidad de las
pruebas.
e.5 Las fuentes de varianza de error de medicin sealados por Ugarriza, 2004, son
los siguientes:
Factores inherentes a la prueba misma
Si los reactivos no son similares en contenido, en ndices de dificultad y
distribucin de sus puntuaciones en las pruebas equivalentes.
Tambin puede ocurrir en una sola prueba cuando los reactivos en su
mayora no miden un rasgo puro.
Reactivos muy difciles que hacen que el sujeto tenga que adivinar.
Ambigedad en la redaccin de los temes e instrucciones, lo que puede
originar respuestas inestables.
Lmites de tiempo restrictivo que fomentan el apresuramiento en la
lectura y en la respuesta.
Longitud de la prueba.
Errores en las condiciones de administracin y otras situaciones que pueden
producir distracciones
Errores al marcar las respuestas
Errores en el registro de tiempo y calificacin
Interrupciones inesperadas y otras situaciones que pueden producir
distracciones
Factores relacionados con el ambiente de la prueba: la temperatura del
saln, el nivel de iluminacin y la cantidad de ventilacin y ruido.
Variables relacionadas con el examinador
La subjetividad en la calificacin de ciertas pruebas de personalidad no
estructuradas o semiestructuradas y en ciertas pruebas acadmicas
(como los exmenes de ensayo) e incluso en la observacin conductual.
Errores inherentes al examinado
Entrenamiento especfico, ansiedad, estar enfermo, fallas de atencin o
el efecto de frmacos entre otros
f. Confiabilidad relativa. El coeficiente de confiabilidad
El coeficiente de confiabilidad es un coeficiente de correlacin entre un grupo de puntajes
e indica el grado con el cual los sujetos mantienen sus posiciones dentro de un grupo.
Comprende valores que oscilan de 0 a +1. Tcnicamente, cuanto ms se acerque el
coeficiente a 1 ms confiable ser la prueba (o el procedimiento de medicin), y
viceversa.
El coeficiente de confiabilidad seala la cuanta en que las medidas de las pruebas estn
libres de errores aleatorios. As por ejemplo: un coeficiente de 0.95 quiere decir que en
la muestra y condiciones establecidas (situacin experimental, instrucciones, etc.), el
95% de la varianza de los calificativos se deben a la autntica medida y slo el 5% a
errores aleatorios (Crombach, 1972).
f.1 Factores que influyen en los coeficientes de confiabilidad
Ya conocemos varias fuentes de error que influyen en la magnitud de la
correlacin obtenida; sabemos que el coeficiente de estabilidad equivalencia da
por lo comn la estimacin ms baja de confiabilidad debido a que hay ms
factores que tienen probabilidades de influir en las puntuaciones.
Contrariamente, la correlacin de mitades corregida produce por lo comn la
estimacin ms alta, puesto que tienen probabilidades de intervenir un nmero
menor de factores.
Sin embargo, hay otros factores que influyen tambin en el coeficiente de
confiabilidad y son los siguientes:
Rango de calificaciones (puntuaciones obtenidas). Todos los coeficientes
de correlacin se ven afectados por el rango de distribucin de las
calificaciones. Al disminuir la variabilidad (al hacerse ms pequea la
desviacin estndar), el coeficiente de correlacin disminuye y al aumentar
la variabilidad (al hacerse ms grande la desviacin estndar), el
coeficiente se incrementa.
Longitud de la prueba. Al agregar ms temes, asegurndonos que son
igualmente confiables, se incrementar la confiabilidad de la prueba.
Esto se produce porque el aumento de la longitud produce esencialmente
un rango ms amplio de calificaciones (mayor variabilidad y por lo tanto
una desviacin estndar ms grande). El efecto del aumento de longitud
de la prueba se puede determinar, en igualdad de otros factores mediante
la frmula de Spearman-Brown.
Dificultad de la prueba. Si una prueba es muy fcil o muy difcil para un
grupo, el rango de calificaciones (la variabilidad), se estrechar y se
reducir la confiabilidad. Esto implica que para elevar al mximo la
confiabilidad, el nivel de dificultad de una prueba debe ser tal que produzca
la distribucin ms amplia posible de puntuaciones (en el anlisis de los
temes la distribucin ms amplia de las calificaciones, en unin de otros
factores, se obtendr al utilizar reactivos con p = 0.50), es decir, cuando
la mitad del grupo responde al reactivo correctamente (o en la direccin
indicada).
Velocidad. La velocidad puede influir en la confiabilidad. De hecho, la
confiabilidad por mitades no se practica cuando la velocidad es uno de los
factores importantes en la ejecucin de la prueba. Los coeficientes de
confiabilidad obtenidos mediante la aplicacin de una prueba de alta
velocidad, son sobreestimaciones y se debern tomar con cuidado. En
este tipo de tests se deben utilizar los mtodos de estimacin de la
confiabilidad que se vean menos afectados por la velocidad.
g. Mtodos prcticos para obtener el coeficiente de confiabilidad
Existen varios mtodos prcticos para estimar el coeficiente de confiabilidad y cada
uno de ellos tiene sus propias ventajas y desventajas y controlan ms o menos fuentes
de error que vienen por ejemplo de factores personales: cansancio, motivacin,
fluctuacin de la atencin, etc., y factores ambientales: presencia de perturbaciones
externas que distraen al sujeto y otros factores ms.
h. Reglas para obtener una elevada confiabilidad
1. Cuanto mayor es el nmero de temes que constituyen la prueba (que midan la
misma dimensin o factor), ms elevada es la confiabilidad.
2. Cuanto ms extenso el tiempo empleado para la resolucin del test, mayor es la
confiabilidad.
3. Cuanto menor es la amplitud de dificultad de los temes, mayor ser la confiabilidad
del test.
4. Cuanto ms objetivo es el sistema de calificacin o cmputo, ms confiable ser el
test.
5. Cuanto ms alta la probabilidad de obtener una respuesta correcta por azar o
adivinacin, ms baja ser la confiabilidad.
6. Cuanto ms homogneo sea el contenido, ms confiable ser el test.
7. Cuanto ms acostumbrada est la muestra de sujetos a que se le administren
pruebas, ms alta ser la confiabilidad.
8. Los reactivos de contenido emocional (en un test de conocimiento o
aprovechamiento), tienden a disminuir la confiabilidad.
9. La disposicin mental de los examinados, la falta de motivacin, o la mala
interpretacin de las instrucciones del test, disminuyen la confiabilidad.
LECCION 2
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
Es importante tener en cuenta, que la confiabilidad se refiere, especficamente a los errores
aleatorios, tal cual menciona Martnez Arias (1996). Podemos hablar de dos tipos de
errores: los errores aleatorios que, como tales, no pueden ser controlados y no se pueden
predecir y los errores sistemticos que son controlables y pueden ser explicados por
alguna fuente de variacin sistemtica. De ambos errores los nicos que interesan a la
teora de la fiabilidad son los errores aleatorios.
2. METODO DEL TEST-RETEST
Este mtodo consiste en aplicar la misma prueba en dos oportunidades a la misma
muestra de sujetos, con un determinado intervalo entre las dos aplicaciones, para
finalmente calcular la correlacin entre los calificativos obtenidos en la primera y segunda
oportunidad. El coeficiente ms comnmente utilizado para calcular la confiabilidad con
este mtodo es el de la correlacin momento-producto de Pearson, aunque esto depende
del nivel o escala de medicin (nominal, ordinal o de intervalo), empleado por el test.
Cuando un coeficiente de correlacin es utilizado para estimar la estabilidad de los
calificativos de un test, tambin suele llamarse coeficiente de estabilidad.
Si bien su administracin es sencilla, sin embargo presenta algunos inconvenientes. En
algunos casos por ejemplo, puede presentarse incomodidad o malestar en los sujetos que
son sometidos a la misma prueba en dos oportunidades producindose una disposicin
desfavorable en la segunda aplicacin.
Esta situacin exige experiencia de parte del psiclogo para provocar una adecuada
motivacin en las personas examinadas. En tal sentido, si se ha considerado una entrega
de resultados a los sujetos, esta puede efectuarse despus de concluir la segunda
administracin y as garantizar la motivacin de los examinados.
En otros casos, si el intervalo de tiempo transcurrido entre las dos administraciones es muy
corto, en tests que miden habilidades, pueden obtenerse una correlacin falsamente alta.
Por el contrario, si el intervalo de tiempo entre las dos aplicaciones es muy prolongado, se
corre el riesgo de que las diferencias entre los calificativos se deban a cambios reales en
los sujetos examinados en la variable que est estudindose, ms que a una escasa
confiabilidad de la prueba.
Por lo anteriormente sealado, es conveniente que el tiempo transcurrido entre una y otra
aplicacin del test, debera delimitarse atendiendo a las caractersticas de la variable
medida y del universo meta de la prueba.
Consiste en correlacionar las puntuaciones obtenidas en dos ocasiones diferentes por los
mismos sujetos en el mismo test (y, por lo tanto, refleja el grado de estabilidad del test). El
principal problema de este mtodo es el de determinar la cantidad ptima de tiempo que
debe transcurrir entre la primera y la segunda aplicacin ya que si el perodo intermedio es
muy breve, las puntuaciones pueden variar por efecto del aprendizaje (recuerdo de las
respuestas a los tems) y/o de la fatiga de los sujetos, alterando con ello la fiabilidad real
del test. Por el contrario, si el perodo entre aplicaciones es muy largo, las puntuaciones
empricas pueden variar porque el rasgo que estamos midiendo no sea estable en el
tiempo, es decir, que evolucione, cambie, se modifique, por lo que este mtodo slo debe
emplearse con rasgos tericamente estables, es decir, que no varen con el paso del
tiempo como pueden ser el CI o la personalidad.
En este procedimiento un mismo instrumento de medicin (o tems o indicadores) es
aplicado dos o ms veces a un mismo grupo de personas, despus de un periodo de
tiempo. Si la correlacin entre los resultados de las diferentes aplicaciones es altamente
positiva, el instrumento se considera confiable. Se trata de una especie de diseo panel.
Desde luego, el periodo de tiempo entre las mediciones es un factor a considerar. Si el
periodo es largo y la variable susceptible de cambios, ello puede confundir la interpretacin
del coeficiente de confiabilidad obtenido por este procedimiento. Y si el periodo es corto las
personas pueden recordar cmo contestaron en la primera aplicacin del instrumento, para
aparecer como ms consistentes de lo que son en realidad (Bohrnstedt, 1976).
3. METODO DE FORMAS EQUIVALENTES O PARALELAS
Mediante este mtodo se puede examinar la consistencia interna pero tambin la
estabilidad temporal de un conjunto de puntajes. La mecnica consiste en aplicar dos
formas equivalentes o paralelas de un test a un mismo grupo de sujetos. Cuando el
mtodo se usa para verificar la estabilidad, la aplicacin de la segunda forma se hace
despus de transcurrido un tiempo prudencial y luego se correlacionan los resultados
obtenidos.
Si bien es cierto, este mtodo es ms completo que el anterior toda vez que permite
controlar algunas fuentes de error aleatorio como: diversos tipos de reactivos, diferentes
condiciones fsicas y mentales de los probandos, diferente situacin medio ambiental, etc.,
sin embargo, presenta algunos inconvenientes.
Para ser consideradas equivalentes, dos pruebas deben reunir ciertos requisitos tales
como: tener las mismas caractersticas formales (cantidad de temes, escala de respuesta,
etc.) y estadsticas (tener medias y desviaciones estndar semejantes, coeficientes de
correlacin elevados entre ambas formas, etc.) (APA, 1999).
Un ejemplo de este mtodo puede ser los resultados obtenidos de las correlaciones de las
formas S y T del APT (Test de Aptitudes Diferenciales de Bennett, Seashore y Wesman,
2,000).
Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que
los resultados empricos de ambas en una poblacin correlacionen de forma elevada. Si
esto es as, ambas formas manifiestan un elevado grado de precisin a la hora de reflejar
los diversos niveles de rasgo. Si ambas correlacionasen de forma mnima, no podemos
fiarnos de que reflejen fidedignamente los niveles de rasgo.
Pues bien, definimos inicialmente el coeficiente de fiabilidad como la correlacin entre los
resultados que proporcionan dos formas paralelas de un mismo test. Tericamente, este
mtodo consistira entonces en correlacionar las puntuaciones obtenidas por los sujetos en
dos formas paralelas de un mismo test (mide por tanto el grado de equivalencia entre
ellas). Aunque sta es la forma que se deriva directamente del modelo de la TCT (recordad
la importancia que se da a su definicin en esta teora) tiene el enorme inconveniente de
que exige el diseo de dos formas paralelas de un mismo instrumento; diseo que, al
margen de costoso en tiempo y esfuerzo, es muy difcil de conseguir.
Sin embargo, el desarrollo terico de este tercer mtodo de aproximacin al estudio de la
fiabilidad relativa de un test resulta muy til para comprender mejor el significado y modo
de interpretacin del coeficiente de fiabilidad de un test, as que vamos a verlo con
detenimiento.
En este procedimiento no se administra el mismo instrumento de medicin, sino dos o ms
versiones equivalentes de ste. Las versiones son similares en contenido, instrucciones,
duracin y otras caractersticas. Las versiones generalmente dos, son administradas a un
mismo grupo de personas dentro de un periodo de tiempo relativamente corto. El
instrumento es confiable si la correlacin entre los resultados de ambas administraciones
es significativamente positiva. Los patrones de respuesta deben variar poco entre las
aplicaciones
LECCION 3
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
El criterio de confiabilidad del instrumento, se determina en la presente investigacin, por el
coeficiente de Alfa Cronbach, desarrollado por J. L. Cronbach, requiere de una sola
administracin del instrumento de medicin y produce valores que oscilan entre cero y uno.
(Hernndez, y otros, ob. cit.). Es aplicable a escalas de varios valores posibles, por lo que
puede ser utilizado para determinar la confiabilidad en escalas cuyos tems tienen como
respuesta ms de dos alternativas. Su formula determina el grado de consistencia y
precisin; la escala de valores que determina la confiabilidad est dada por los siguientes
valores:
2. METODO DE DIVISION O MITADES EMPAREJADAS
Mediante este mtodo se verifica la consistencia interna de las puntuaciones de una
prueba, en otras palabras, el grado en que las diferentes partes de la prueba miden la
misma variable.
La mecnica a seguir es primero aplicar la prueba en una ocasin a una muestra de
sujetos y posteriormente se divide el test en dos mitades comparables, obtenindose de
este modo dos puntuaciones para cada sujeto de la muestra.
Finalmente, se correlacionan los calificativos correspondientes a ambas mitades de la
prueba por medio de un coeficiente de correlacin. Este mtodo fue muy utilizado antes de
que se dispusiera de computadoras personales en razn a que los estadsticos exigidos
son ms fciles de hallar manualmente que el coeficiente alfa.
Quizs el problema inicial de este mtodo sea lograr que las mitades obtenidas puedan ser
comparables. Por ejemplo, los temes de muchos tests tienen un arreglo en espiral y se
construyen con un nivel de dificultad creciente, de tal manera que si se divide el test en dos
mitades, sin lugar a dudas, no resultaran compatibles. En otros casos puede ocurrir que
los sujetos se vean ms afectados por el cansancio y la fatiga hacia el final del test
incidiendo en los calificativos de la segunda parte. Frente a esto, algunos especialistas
separan los reactivos en dos mitades, una de pares y otra de impares; y otros aparean los
reactivos con un criterio estadstico para luego asignarlos al azar a cada una de las
mitades.
Es el ms utilizado porque slo se necesita aplicar una vez el test y calcular la correlacin
obtenida por los sujetos en cada una de las dos mitades en que se puede dividir dicho test.
Como un test puede tener mltiples dos mitades, habitualmente escogeremos las
puntuaciones de los tems pares y las correlacionaremos con las de los tems impares (rPI).
Basta con hacer una pequea transformacin sobre esta correlacin (mediante la conocida
como frmula de Spearman-Brown para la longitud doble y que veremos con ms
detenimiento en prximos apartados) y tendremos el coeficiente de fiabilidad del test (que,
en este caso, es un indicador directo de la consistencia interna del test)
Los procedimientos anteriores (medida de estabilidad y mtodo de formas alternas),
requieren cuando menos dos administraciones de la medicin en el mismo grupo de
individuos. En cambio, el mtodo de mitades-partidas requiere slo una aplicacin de la
medicin. Especficamente, el conjunto total de tems (o componentes) es dividido en dos
mitades y las puntuaciones o resultados de ambas son comparados. Si el instrumento es
confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas.
Un individuo con baja puntuacin en una mitad, tender a tener tambin una baja
puntuacin en la otra mitad.
3. METODOS DE COEFICIENTE ALFA DE CRONBACH
Comparten con el anteriormente mencionado dos aspectos importantes: en primer lugar,
permiten comprobar la consistencia interna de los calificativos del test y en segundo
trmino, requieren una sola aplicacin del test (Thorndike, 1989).
El caso es que, a partir de una nica administracin de una prueba a una muestra de
sujetos, se logra una estimacin del grado de covarianza de los reactivos, usando como
estadstico el coeficiente alfa de Crombach o la frmula alternativa de Kuder-Richardson
(KR20), cuando los reactivos son dicotmicos o binarios y tienen diversos grados de
dificultad.
El coeficiente alfa puede considerarse como la media o promedio de todas las
correlaciones de particin por mitades posibles (Cohen y Swerdlik, 2000). Segn Muiz
(2001), el coeficiente alfa expresa el grado de covariacin de los temes de un test, o en
qu medida los diferentes temes de un test miden una misma variable.
Actualmente, es el estadstico ms utilizado para calcular la consistencia interna de una
prueba compuesta por temes politmicos, es decir, con varias alternativas y a cuya clave
o respuesta correcta puede puntuarse con diferentes valores.
Sobre el punto, existe otro estadstico llamado Kuder-Richardson 21, el cual es utilizado
cuando los reactivos tambin son binarios pero adems poseen el mismo grado de
dificultad. KR21, tiene dos versiones: KR21A y KR21B, las cuales deben arrojar el
mismo resultado.
El coeficiente KR21, en cualquiera de sus formulaciones, generalmente no arroja los
mismos resultados que KR20. KR20, es un coeficiente ms preciso y es el ms utilizado
por los constructores de pruebas.
Los elaboradores de tests consideran que KR21 tiende a subestimar el valor de KR20, por
ello en las aplicaciones de sus modalidades A y B se logran puntajes inferiores a los
obtenidos con KR20. En la aplicacin de la frmula KR21 de Gronlund inclusive, se
obtienen valores inferiores a KR21A y KR21B y que podra considerarse como el nivel
mnimo posible de hallar acerca de la consistencia interna (Thorndike y Hagen, 1973).
A estas alturas podemos indicar que tanto el mtodo de divisin o particin en mitades
como el coeficiente alfa, son inapropiados para verificar la confiabilidad de tests de
velocidad o tiempo limitado (Anastasi y Urbina, 1998). En estos casos deben utilizarse
mtodos alternativos, como el test-retest o el de formas equivalentes o paralelas
( Tornimbeni, Prez y Olaz, 2008).
Asimismo, cuando los temes de un test o escala son numerosos (superiores a 30), el
coeficiente alfa tiende a ser demasiado elevado (Cortina, 1993). En este caso se
recomienda el uso adicional del coeficiente de correlacin inter-tem, menos influido por el
nmero de temes de una escala. La magnitud recomendable del coeficiente de
correlacin inter-tem debe situarse entre 0.15 y 0.50 (Carretero-Dios y Prez, 2005).
En muchos tests psicomtricos, los indicadores de fiabilidad relativa no aparecen
expresados en funcin de sus coeficientes correspondientes sino en base a un potente
estimador de los mismos que se conoce como coeficiente de Cronbach.
Simplificando, podemos decir que el coeficiente alfa, propuesto por Cronbach (1951),
estudia la fiabilidad de un test entendindola como el grado en que todos los tems que lo
componen miden el mismo rasgo (unidimensionalidad del test) y, por supuesto, si lo miden
bien. Es, por lo tanto, una medida de la consistencia interna del test, de la coherencia
existente entre todos sus tems.
Su frmula puede verse expresada en trminos muy variados: varianzas, correlaciones e,
incluso, covarianza, por lo que existen mltiples alternativas para su clculo como, por
ejemplo, la planteada por Kuder y Richardson. De este modo, lo nico que nos va a
interesar a nosotros aqu es poder interpretarlo como medida de la fiabilidad de un test
cuando encontremos referencia a l al revisar las caractersticas psicomtricas de alguno
de ellos.
En estos trminos, debemos entender que es un estimador del coeficiente de fiabilidad de
un test, de tal manera que si el valor de es elevado, la fiabilidad del test tambin lo ser.
Este coeficiente de consistencia interna siempre tendr un valor menor o igual al de la
fiabilidad del test y slo coincidirn cuando todos los tems sean paralelos entre s; es decir,
cuando la consistencia interna entre ellos sea mxima y, por lo tanto, podamos afirmar que
estn midiendo la misma dimensin o rasgo psicolgico.
Este coeficiente desarrollado por J. L. Cronbach requiere una sola administracin del
instrumento de medicin y produce valores que oscilan entre O y 1. Su ventaja reside en
que no es necesario dividir en dos mitades a los tems del instrumento de medicin,
simplemente se aplica la medicin y se calcula el coeficiente.
LECCION 4
TRANSFORMACION DE PUNTAJES DIRECTOS
1. INTRODUCCION
Los puntajes directos, crudos o brutos de un test, sea ste los de una prueba
recientemente construda u otro test ya utilizado, no significan nada por s mismas a menos
que se les compare con algn patrn o tabla de medida.
Para comprender el significado de una puntuacin directa, cruda o bruta de un test
requerimos de una informacin complementaria. Para obtener dicha informacin existen
dos mtodos bsicos: referencia al criterio y referencia a la norma.
En este captulo nos centraremos fundamentalmente en la referencia a la norma por ser la
ms utilizada en nuestro medio. Dentro de esta perspectiva trataremos las puntuaciones
derivadas tales como los percentiles, las puntuaciones estndar o tpicas y las
estandarizadas.
2. Interpretacin de la puntuacin de un test con referencia a la norma
Un puntaje directo, crudo o bruto de una prueba se interpreta con referencia a la norma
cuando se convierte el puntaje del sujeto en una posicin con respecto al grupo que ha
sido examinado por el test y que se convierte en grupo normativo.
Ejemplo: Jaime resolvi los problemas de la escala avanzada de matrices progresivas de
Raven, mejor que el 85 por 100 de una muestra representativa de alumnos del quinto de
secundaria de Lima Metropolitana.
3. Estandarizacin o Tipificacin
El proceso de estandarizacin implica adaptar una prueba a una realidad diferente para la
que fue creada. Infiere establecer procedimientos unvocos para la aplicacin, calificacin
e interpretacin de un test. Por otra parte, la adaptacin muchas veces supone traducir el
test a un idioma diferente, por lo que los psiclogos especialistas deben manejar
correctamente lo concerniente a traduccin, diccin, vocabulario, ortografa, gramtica,
etc., a fin de poner el instrumento a punto.
Si las condiciones de administracin y cmputo estn perfectamente definidas y su
utilizacin es idntica para todos los sujetos a examinarse, es decir, se cumplen con todos
los requisitos de un test psicomtrico, entonces queda como aspecto ms importante la
interpretacin, la cual (con relacin a la norma), queda perfectamente definida con la
obtencin de normas o baremos.
Las normas obtenidas se sistematizan en una tabla de normas o baremo que sirve para
transformar los puntajes directos en puntajes derivados susceptibles de interpretacin
estadstica.
4. Normalizacin o Baremacin
Es un procedimiento que permite transformar los puntajes directos, crudos o brutos de
un test en puntajes equivalentes sobre la base de un criterio de baremacin y teniendo
como base la curva de distribucin normal.
La tabla de normas o baremo, permite comparar el puntaje directo obtenido por un sujeto
con la distribucin de los puntajes obtenidos en el test por el grupo normativo.
5. El grupo normativo y sus caractersticas
El grupo normativo es llamado tambin muestra de normalizacin, constituye el grupo
histrico de sujetos sobre los cuales se han calculado las normas.
Una norma es una afirmacin de cmo se han desempeado una poblacin o universo de
referencia en un test, basndose en los clculos hechos sobre el grupo normativo.
Una poblacin de referencia son los sujetos que comparten una o ms caractersticas tales
como edad cronolgica; sexo; nivel educativo; estado civil; ubicacin geogrfica; lugar de
residencia, etc.
Un grupo normativo comprende las siguientes caractersticas:
A. Definicin.
El grupo debe estar perfectamente definido. Esto se realiza sobre la base de las
variables de estudio. Ejemplo: estudiantes secundarios de ambos sexos comprendidos
entre los 11 y 17 aos de edad que cursan del 1 al 5 de secundaria diurna en
colegios nacionales de Lima Metropolitana. Las normas son vlidas solamente para los
examinados que tengan las mismas caractersticas que definen al grupo normativo.
B. Representatividad
Cuando las medidas estadsticas (media o promedio; desviacin estndar, etc.), que se
estimen van a ser generalizadas a la poblacin general, es necesario que el grupo
normativo sea representativo de tal universo para que las medidas tengan validez.
C. Tamao suficiente
El grupo normativo es una muestra para calcular los parmetros estadsticos de la
poblacin; por lo tanto, el tamao del grupo normativo viene dado en funcin de la
precisin con que se desee hacer dichas estimaciones.
6. Puntuaciones derivadas: Tipos
Los puntajes directos se transforman mediante procedimientos estadsticos en
puntuaciones derivadas, las cuales permiten una interpretacin psicolgica de los
calificativos obtenidos.
Las puntuaciones derivadas que ms se utilizan en psicologa son: percentiles;
puntuaciones estndar o tpicas y puntuaciones estndar o tpicas normalizadas.
A. PERCENTIL (Pc) (Sinonimia: rango percentil, rango decil).
Se define como puntos de una distribucin continua debajo de las cuales se
encuentran porcentajes dados de la muestra. El percentil obtenido por un sujeto nos
dice qu proporcin del grupo normativo ha alcanzado un rendimiento inferior a l.
El percentil representa un orden en la ejecucin expresada en porcentajes (constituye
una escala ordinal).
Ventajas
Es el puntaje derivado ms rpido de entender y el de ms fcil comunicacin al lego,
lo que lo hace muy satisfactorio para informar a las personas que carecen de una
formacin estadstica. Adems, se puede interpretar de una manera exacta, an,
cuando la distribucin de los puntajes del test no sean estrictamente normales
(campana de Gauss).
Desventajas.
Al no tener distancias iguales (por ser una escala ordinal y no de intervalo), tiende a
exagerar las pequeas diferencias hacia la zona media, diferencias que no son
importantes y reduce el tamao aparente de diferencias realmente importantes y
amplias en los extremos de la distribucin. Por otra parte, es poco adecuado para los
anlisis estadsticos (no se pueden emplear operaciones aritmticas entre ellos.
En el presente captulo vamos a desarrollar cuatro formas de obtencin de percentiles.
B. PUNTUACIONES ESTNDAR O TPICAS.
Son puntuaciones derivadas que se obtienen en base a la media o promedio aritmtico
y a la desviacin estndar o tpica de la distribucin de puntajes del test (distribucin
emprica de puntajes del test).
Ventajas.
Son tiles para los anlisis estadsticos (se asume que se dan en una escala de
intervalo).
Desventajas.
No pueden ser fcilmente interpretados cuando las distribuciones empricas de
puntajes del test se alejan del patron de la distribucin normal (campana de Gauss), lo
cual puede llevar a conclusiones errneas.
C. PUNTUACIONES ESTNDAR O TPICAS NORMALIZADAS.-
En este caso, la distribucin de puntajes empricos sigue estrictamente el patrn de la
distribucin normal (campana de Gauss). De esta manera, cada puntuacin adquiere
un significado estadstico preciso.
Cuando la distribucin emprica no sigue estrictamente el patrn de distribucin normal
se procede a la normalizacin de la curva. Esta consiste bsicamente en determinar
para distintas proporciones de la distribucin emprica qu valor z de la curva normal
les corresponde. En realidad lo que se est haciendo es ajustar la distribucin
emprica a una distribucin normal.
El caso es que, los puntajes estndar que obtenemos son normalizados. La nueva
distribucin ya no tiene la misma forma de la original (como s la tena los puntajes
estndar). Si se calcula, el promedio de esta distribucin es 0 y su DE es 1 (puntaje
estndar z).
La puntuacin normalizada tiene caractersticas importantes para la interpretacin de
las puntuaciones. Al estar basada en la curva normal, cada uno de los puntajes tiene
un significado estadstico conciso ya que el porcentaje de individuos que se encuentran
arriba y debajo de cada puntaje se conoce exactamente en una escala que tiene una
media y una desviacin conocidas. Esto es muy importante, por ejemplo, cuando los
resultados del test se utilizan en seleccin y consejo. En estos casos, se da
importancia no a la comparacin entre diferencias a distintos niveles de puntajes, sino
a la posicin relativa de un individuo en una distribucin cuyas propiedades son
conocidas.
La normalizacin puede necesitarse tambin para otros fines. As, cuando usamos
diferencias inter o intra individuales, necesitamos los puntajes de los individuos en una
escala de intervalo.
Por otra parte, como quiera que las puntuaciones normalizadas tienen unidades de
medida iguales y su amplitud es la misma en una u otra distribucin, se utilizan como
tcnica bsica para la interpretacin de los resultados de las pruebas psicolgicas y
pedaggicas.
Asimismo, las puntuaciones normalizadas adquieren mayor significado cuando
comprendemos su relacin con la distribucin o curva normal llamada tambin curva de
Gauss, la cual tiene las siguientes propiedades (Escotet, 1973):
a. La curva es simtrica. La media o promedio aritmtico, la mediana y el modo
coinciden en la mitad de la curva.
b. La curva es asinttica en relacin al eje de la abcisa. Esto nos indica que las colas
de la curva nunca llegan a tocar el eje horizontal y se extienden desde el infinito
negativo, hasta el infinito positivo.
c. La ordenada mxima de la curva se ubica en la media, donde la unidad de la curva
normal es igual a 0.3989 y z = 0.
d. A partir de los puntos donde se ubican ( + -), 1 desviaciones estndar (encima o
debajo de la media o promedio), la curva cambia en relacin al eje de las abcisas de
convexa a cncava.
e. Entre (+ - ) 1 desviacin estndar cubren el 68.26 por ciento del rea de la curva, tal
y como podemos apreciar en la tabla que se aprecia a continuacin:
La mayor ventaja de transformar puntajes brutos, directos o crudos a puntuaciones
normalizadas, es que con las primeras tendramos un nmero infinito de distribuciones
normales con diferentes medias o promedio aritmticos y desviaciones estndar, mientras
que con puntuaciones normalizadas podemos relacionar todas las distribuciones normales
a una distribucin de frecuencia relativa. De esta manera, cuando la curva normal es
utilizada como referencia, a travs de las puntuaciones normalizadas, recibe el nombre de
distribucin normal estndar, en donde el promedio de dicha distribucin es 0 y la
desviacin estndar es 1.
Escala X.-La escala X no es una escala normalizada, ya que viene dada por los puntajes
directos, crudos o brutos. En otras palabras, si un sujeto ha obtenido 80/100 puntos en
un examen, 80/100 es su puntuacin X. Por lo tanto, para elaborar una escala X,
solamente necesitamos conocer las puntuaciones directas y la media aritmtica de dichas
puntuaciones.
Escala Z.-Esta es una escala de puntuaciones estndar que comprende generalmente
cuatro unidades a cada lado de la media o promedio, la mitad positiva y la otra mitad
negativa. Asume como unidad de medida la desviacin tpica o estndar obtenida de las
puntuaciones directas, crudas o brutas. En razn a que una puntuacin normalizada
tiene como caractersticas que la desviacin estndar de una distribucin no se altera por
la sustraccin de una constante y que la variabilidad de un grupo de puntuaciones
determina la interpretacin de la posicin relativa.
Escala P (Percentil).-La escala percentil es una de las ms utilizadas por los psiclogos.
Constituye una escala ordinal sin suposiciones con respecto al cero arbitrario y las
unidades. Comprende desde 0 a 100 y se expresa en percentiles.
El percentil 30 (P30), es el punto de la escala por debajo del cual se encuentra el 30% de
los sujetos, o tambin el percentil 84 (P84), es el punto de la escala por debajo del cual se
encuentra el 84% de los sujetos.
Cuando hablamos de la desviacin o amplitud semiintercuartilar decimos que la mediana
es el punto de la distribucin de frecuencias debajo o encima de la cual se encuentra el
50% de los casos, y que el primer cuartil (Q1), marca el punto debajo del cual se encuentra
el 25% de los casos y el tercer cuartil (Q3), el 75% de los casos. Pues bien, en vez de
dividir nuestra muestra o colectivo en cuarteles (25%), la dividimos en cien partes iguales y
a los diversos puntos de la escala que separan las partes de porcentajes de 1 se les llama
percentiles o centiles. En la prctica tenemos 100 espacios y 99 puntos percentiles.
El mtodo para calcular y construir la escala percentilar es esencialmente igual al utilizado
en el clculo de la mediana.
Normas Locales (Baremos o Normas de Centro).
Para ser tiles, las normas o baremos deben permitir al profesional psiclogo comparar a
un sujeto, examinado o probando, con sus posibles compaeros y competidores. Muchas
veces, encontramos que las normas generales no son de gran utilidad toda vez que existen
mltiples diferencias entre las diversas regiones geogrficas, las profesiones, los colegios,
etc. Esta situacin se agudiza en pases como el nuestro donde los grupos humanos son
tan heterogneos, que resulta necesario elaborar normas locales o baremos de centro. Por
ejemplo: si el psiclogo trabaja en un centro educativo de nivel socio econmico muy alto,
debe elaborar tablas de normas o baremos para la poblacin en la cual desempea sus
funciones. Estas normas sern expresadas en los puntajes derivados que dicho
profesional estime conveniente de acuerdo al tipo de prueba, poblacin, confiabilidad,
validez, etc.
GLOSARIO
Actitud y Evaluacin de Actitudes. Se entiende por actitud una predisposicin organizada y
duradera con componentes cognoscitivos, afectivos y conductuales, que orienta a la persona a
pensar, sentir, percibir o a comportarse de una manera determinada hacia un referente u objeto
cognoscitivo. Se evalan usualmente mediante inventarios, es decir, listas de afirmaciones
asociadas con el objeto de la actitud, a las cuales el Sujeto responde, indicando en una escala
su disposicin positiva o negativa hacia esa afirmacin.
Anlisis de tems. Procedimiento cuantitativo mediante el cual se determina el funcionamiento
de los tems de una prueba o encuesta. Permite establecer el nmero y proporcin de sujetos
que responde la Clave y cada uno de los Distractores, as como la Correlacin Biserial de las
opciones con el puntaje total en la prueba o con un Criterio de Validacin externo.
Anlisis Factorial. Vase Factor
Anava de Hoyt. Procedimiento para al clculo de la Confiabilidad de Consistencia Interna de
una prueba, que establece la relacin entre la varianza debida a los sujetos, los tems y la
varianza total del test.
Aptitud y Pruebas de Aptitudes. Una aptitud es una combinacin de habilidades,
conocimientos y otras caractersticas, innatas o adquiridas, que indican el potencial de un
individuo para aprender a desarrollar un buen rendimiento en un rea particular si se le provee
de educacin y entrenamiento. Entre los tests aptitudinales se incluyen los que evalan la
habilidad acadmica general (llamados comnmente de habilidad mental o de inteligencia), los
de habilidades especiales tales como verbal, numrica, mecnica o musical; tests de apresto
para el aprendizaje; tests de pronstico que evalan tanto la habilidad como el aprendizaje
anterior y son usados para predecir el rendimiento futuro usualmente en un campo especfico,
como una lengua extranjera, taquigrafa, etc. Tambin se habla de aptitud en un sentido ms
amplio, por lo que la aptitud musical, por ejemplo, se referira a una combinacin de
caractersticas fsicas y mentales, y de aspectos motivacionales, intereses y otras
caractersticas, que conducen a lograr un buen rendimiento en msica.
Batera de Pruebas. Una Batera de Pruebas es un grupo de tests estandarizados sobre una
misma muestra de poblacin, de manera que los resultados en los diferentes tests son
comparables. Tambin se concibe como un conjunto de tests desarrollados para evaluar
habilidades interrelacionadas entre s tericamente y/o empricamente y asociadas con la
realizacin de una tarea o con los estudios acadmicos. Cuando se aplican todas las pruebas
como batera, es posible elaborar un Perfil Psicomtrico de la persona. Es usual que las
variables a explorar con los tests de una Batera se seleccionen de manera que tengan validez
factorial o que tengan altas correlaciones entre los tems de una prueba, pero bajas entre
pruebas. Un ejemplo de batera es el Test Diferencial de Aptitudes de Bennet y Seashore.
CEEB. Transformacin lineal derivada introducida por el College Entrance Examination Board
de USA, de Media 500 y Desviacin Tpica 100. Su gran amplitud permite la comparacin de
resultados de grandes grupos de sujetos, acumulados de ao en ao.
Clave de Correccin. Es el conjunto de respuestas correctas a las preguntas de una Prueba
Psicomtrica. La clave de correccin, tambin debe indicar la ponderacin dada a cada una de
las respuestas para el clculo del puntaje bruto total.
Cociente Intelectual (CI). Indicador del nivel de inteligencia utilizado en las primeras pruebas
psicomtricas y que se calculaba mediante la divisin de Edad Mental (calculada por el test) y
Edad Cronolgica (edad real del Sujeto) multiplicada por 100. Un valor de 100 (igual edad
mental y edad cronolgica) indica normalidad, mientras que por debajo indica retardo y por
encima aceleracin.
Cociente Intelectual de Desviacin (CI Desviacin). Sustituto del Cociente Intelectual
original se desarroll por las diferencias existentes en la varianza de las puntuaciones del
Cociente Intelectual en los diferentes niveles de edad, que dificultaban la interpretacin de los
resultados. Es en realidad una transformacin que tiene una media de 100 y una desviacin
tpica de 15.
Colectivas, Pruebas. Pruebas que se pueden aplicar a grupos de sujetos para su evaluacin.
Este concepto se contrapone al de Pruebas Individuales.
Coeficiente Alfa. Estimado de confiabilidad de consistencia interna propuesto por Cronbach.
Para tems binarios, da resultados iguales a la frmula Kuder Richardson 21 (KR21).
Coeficiente de Correlacin. Medida del grado de asociacin que existe entre dos conjuntos
de medidas realizadas en el mismo grupo de individuos. El ms conocido y utilizado con
Pruebas Psicomtricas es Producto Momento de Pearson, aunque existen otros como
correlacin por rangos, biserial, tetracrico, etc. Tiene un recorrido entre +1.00 y 1.00
(asociacin perfecta positiva o negativa), pasando por 0.00 (ausencia de relacin entre ambas
medidas). La correlacin indica solamente asociacin entre variables, no relaciones causales.
Confiabilidad. El grado en que un test es consistente al medir la variable que mide. Algunas
palabras asociadas con la Confiabilidad son estabilidad, exactitud, consistencia y precisin, as
como el Error Estndar de Medida. La Confiabilidad se expresa usualmente mediante
coeficientes de correlacin, obtenidos a partir de los puntajes en dos aplicaciones de la misma
prueba al mismo grupo de Sujetos o haciendo uso de pruebas paralelas aplicadas al mismo
grupo de sujetos. Tambin se define como Consistencia Interna, que se obtiene mediante la
determinacin de las intercorrelaciones o Covarianzas de los tems (vase KR21 y Coeficiente
Alfa).
Construccin de pruebas, fases de la. Las pruebas psicomtricas se construyen mediante un
cuidadoso proceso, que garantiza la calidad de las mismas. Tavella identifica varias fases: 1)
Preparatoria, en la que se define (terica y operacionalmente) la variable a explorar, se
establecen las especificaciones del instrumento, se elaboran los tems, se depuran
cualitativamente mediante el juicio de expertos, se elaboran instrucciones y se estructura el
instrumento. 2) Exploratoria, en la cual se aplica a una muestra informal de sujetos de la misma
poblacin a la cual va dirigida, se realiza anlisis de tems para determinar su calidad y se
depura el instrumento. 3) Experimental, en la cual se aplica el instrumento ya depurado en la
fase anterior a muestras formales de sujetos, hasta conocer mejor el instrumento, elaborar
estudios de validez y confiabilidad y normas. 4) Definitiva, en la cual ya se considera que el
instrumento est listo para su uso en grupos extensos de la poblacin, as como para la
realizacin de estudios normativos a gran escala.
Constructo. Las variables psicolgicas no son observables directamente, por lo que se infieren
a travs de la observacin de la conducta de las personas, y se plantean en trminos tericos.
Son inventados y adoptados en forma deliberada y consciente por la comunidad cientfica, es
decir, construidos por los investigadores y tericos de la psicologa.
Contaminacin del Criterio. Situacin en la cual, una persona que debe establecer un Criterio
de Validacin conoce de antemano las puntuaciones obtenidas por los sujetos en la prueba y
sesga su juicio por ese conocimiento. Por ejemplo, un maestro que debe indicar el nivel de
habilidad verbal de un grupo de alumnos, pero conoce con antelacin los resultados de la
prueba de razonamiento verbal que va a ser validada con su evaluacin.
Correccin (puntuacin) de Pruebas. Es la asignacin de puntajes a las respuestas dadas
por un sujeto a las preguntas de una prueba. La mayora de las veces se realiza mediante la
asignacin de un punto por cada respuesta correcta (tems binarios), es decir, que coincida con
la clave de respuestas (ver Clave de Correccin), aunque tambin son posibles otras formas de
correccin, como restar a las respuestas correctas una proporcin de las incorrectas. Consulte
tambin Puntaje Directo o Puntaje Bruto.
Correccin de Puntajes por Azar. Los tems de opciones mltiples permiten responder al azar
y alcanzar un cierto nmero de aciertos, es decir, permiten la adivinacin de las respuestas.
Por ejemplo, en una prueba de 40 tems de cuatro opciones, la probabilidad de marcar la
respuesta correcta por azar es de 25%, lo que permite establecer una media de puntajes por
azar de 10 puntos y una desviacin tpica de 2,73 (en una distribucin binomial, la media es
0,25x40= 8 puntos y la desviacin tpica raz de 0,25X0,75x40= 2,73). Por ello se han
propuesto formas de correccin por puntajes por azar. La ms comn es la siguiente, en donde
Xc es puntaje corregido, C es el nmero de respuestas correctas, I es el nmero de incorrectas
y k es el nmero de opciones. Estas frmulas asumen que toda respuesta incorrecta es una
respuesta al azar; lo usual es que se le recomiende al Sujeto, que se abstenga de dar
respuestas en las que no est completamente seguro y se le advierta sobre el uso de la
frmula de correccin. 1=kICXc
Correccin por atenuacin. La correlacin entre dos variables se modera en su magnitud, por
el nivel de confiabilidad de cada uno de las medidas. Esto hace que el resultado aparente ser
ms bajo, que la correlacin que se obtendra si se contase con medidas perfectamente
confiables. Para determinar el nivel de asociacin que se obtendra con medidas confiables, se
hace uso de la correccin por atenuacin, que se obtiene por la frmula siguiente, en donde
rTG es la correlacin entre los puntajes verdaderos, rtg es la correlacin obtenida entre las dos
variables, rtt es la confiabilidad de una de las medidas y rgg es la confiabilidad de la otra.
ttggTGrrrr.tg=
Correlacin Punto Biserial. Estimado de la correlacin Producto Momento de Pearson que se
calcula entre una variable continua y una variable dicotmica. Se aplica en el Anlisis de Items
para determinar la asociacin entre el puntaje total en el test y el puntaje obtenido en la Clave y
cada uno de los distractores. Se calcula mediante la frmula siguiente, en donde Mp es la
media obtenida por las personas que respondieron correctamente el tem, Mq la media de los
que respondieron de manera incorrecta, p es la probabilidad de respuesta correcta del tem, q
la probabilidad de respuestas incorrectas y Sx la desviacin tpica de la prueba.
pqSxMqMprpb=
Correlacin Mltiple. La correlacin que se establece entre una variable predicha y varias
variables predictoras en contraste con la Correlacin simple. Por ejemplo, el rendimiento
universitario (Criterio) que se predice haciendo uso de los resultados en varios tests (variables
predictoras). La Correlacin Mltiple tiene especial aplicacin en las Ecuaciones de Regresin
Mltiple, que permiten establecer una recta de regresin que incluye varias variables
predictoras de la forma siguiente (en donde K es una constante, nXn es la ponderacin que se
le da a cada una de las variables predictoras):
Y = K + 1X1 + 2X2 + 3X3
Correlacin Mltiple por Pasos. Correlacin Mltiple que se establece entre una variable
predicha y varias variables predictoras en forma progresiva. Para ello, se toma el coeficiente de
correlacin ms alto de todas las predictoras con la predicha, y se establece una recta de
regresin, que permite establecer la correlacin entre Y y Y. La siguiente variable predictora se
correlaciona con los residuos para establecer si correlaciona en forma significativa. Si es as, se
incorpora al clculo de la recta de regresin del siguiente nivel. Se deja de incorporar variables
cuando una variable predictora no correlaciona en forma significativa con los residuos.
Correlacin simple. Relacin que se establece entre una variable predictora (o independiente)
y una variable predicha (o Criterio). Es el modelo ms sencillo de correlacin. Vase
Correlacin Producto Momento de Pearson.
Correlacin producto momento de Pearson. Coeficiente de correlacin que permite
establecer el grado de asociacin entre dos variables continuas. Dado que se fundamenta en
los mnimos cuadrados, exige que las variables guarden una relacin lineal entre ambas y que
presenten homocedasticidad. Se calcula mediante la frmula: YXxySNSYYXXr=))((
Covarianza. Grado en que dos o ms variables varan unas con relacin a las otras. Pueden
ser variables continuas o dicotmicas, como en el caso de los tems. Se puede establecer
mediante ndices de covarianza, que en el caso de los tems se determina mediante la frmula
siguiente: cov. = pij pi.pj. En realidad, la covarianza es la correlacin entre dos variables
multiplicada por sus desviaciones tpicas.
Criterio de Validacin. Es un estndar mediante el cual se evala la validez de un test. Se
requiere que sean tambin una medida de algn tipo, es decir, que se expresen en una Escala
Cuantitativa. Pueden ser el rendimiento en otra variable como otro test, la apreciacin de un
supervisor en el trabajo, los juicios de un profesor, notas en un curso, etc. Usualmente se
establece una correlacin entre el rendimiento en el test y la puntuacin en el criterio para
decidir cul es el grado de asociacin entre el test y el criterio, lo que permite predecir el
rendimiento a futuro o determinar el nivel actual en el criterio.
Desviacin Tpica. Es una medida de la variabilidad o dispersin de una distribucin de
puntajes. Mientras menos dispersos estn las puntuaciones alrededor de la Media menor es la
desviacin tpica, mientras ms se dispersan, mayor es la Desviacin Tpica. Cuando se trata
de una Distribucin Normal, existen algunas relaciones importantes. Por ejemplo, a una
desviacin tpica por encima y por debajo de la Media se encuentra el 68,26% de la
distribucin. El clculo de la Desviacin Tpica se realiza mediante el clculo de la raz
cuadrada de la sumatoria de los desvos de los puntajes con respecto a la media elevados al
cuadrado. Es tambin la raz cuadrada de la Varianza.
Dificultad de los tems. El grado de dificultad de un tem se determina mediante la proporcin
de respuestas correctas (cociente entre respuestas correctas divididas entre el nmero de
respuestas totales). La proporcin que se obtiene se denomina a la media del tem, o la p del
tem y es un indicador directo de su facilidad, o inverso de la dificultad, ya que su valor,
comprendido entre 0 y 1, indica que mientras ms se acerca a 0 es ms difcil el tem (puesto
que fue respondido por un menor nmero de personas) y mientras ms se acerca a 1 es ms
fcil (respondido por un mayor nmero de personas).
Distribucin bivariada normal. Modelo matemtico que permite describir la distribucin de los
puntajes de un grupo en dos variables simultneamente. Para utilizar este modelo, es
importante que los datos que se describen con esta distribucin muestren normalidad en sus
distribuciones marginales, linearidad en su relacin e igualdad de varianza en todos los niveles
de ambas variables (homocedasticidad).
Distribucin Normal. Es una distribucin de puntajes que tienen en su representacin grfica,
la tpica forma de una campana. Es llamada tambin Campana de Gauss. En una distribucin
normal, los puntajes se distribuyen en forma simtrica alrededor de la media, con tantos casos
hacia arriba como hacia abajo para distancias iguales. Los casos se concentran cerca de la
media y disminuyen en frecuencia a medida que se alejan de la media, de acuerdo a una
ecuacin matemtica muy precisa. La Media, Mediana y Moda son idnticos en una
Distribucin Normal, ya que existe simetra. No toda distribucin simtrica es necesariamente
normal. Nada indica en realidad que los rasgos psicolgicos se distribuyan de manera normal
en la poblacin de manera independiente del test que los mide; sin embargo, asumir que se
distribuyen en forma normal en la poblacin o en muestras de la misma y hacer que las
puntuaciones en el test se distribuyan en forma normal, es til porque permite hacer uso de las
propiedades conocidas de la Curva Normal para obtener conclusiones y realizar predicciones.
Efecto Halo. Efecto subjetivo que ocurre cuando al evaluar a una persona la impresin que
causa una variable o aspecto del sujeto afecta la evaluacin en otras variables. Por ejemplo, la
buena presencia de una persona determina que se considere que su nivel de razonamiento
debe ser alto y se indica as en la evaluacin.
Error Estndar de Estimacin. Al aplicar rectas de regresin para estimar el rendimiento en
otra variable, como un Criterio, si la correlacin no es perfecta (rxy = 1.0) se comete un error de
estimacin del criterio. Se utiliza para establecer la posible magnitud del error presente en la
estimacin (Y) y para determinar Intervalos de Confianza. Se calcula mediante la frmula Se =
Sx1-rxy2 (en donde Se es el error estndar de estimacin, Sx es la desviacin tpica de la
variable a predecir, y rxy2 es la correlacin entre el predictor y la variable predicha elevada al
cuadrado.
Error Estndar de la Diferencia. Estadstico que permite establecer si las diferencias entre los
puntajes obtenidos por una persona en dos pruebas o por dos personas en la
misma prueba, son diferentes entre s en forma lo suficientemente significativa
como para afirmar que subyacen diferencias en los conocimientos o habilidades
que se estn midiendo. Se calcula mediante la frmula siguiente, en la que St es
la Desviacin Tpica de la escala de medicin y rxx es el Coeficiente de
Confiabilidad: xxrSSetd=1(2
Error Estndar de Medida Sem. Es un estadstico que estima la posible magnitud del error
presente en un puntaje individual. El Error Estndar de Medida indica la diferencia que puede
existir entre el Puntaje Obtenido y el Puntaje Real o Verdadero (T), que se supone que refleja la
verdadera posicin del individuo en un continuo subyacente; esa diferencia se debe a errores
de medida. Mientras mayor es el Error Estndar de Medida, menos confiable es la puntuacin
obtenida. El Error Estndar de Medida es una magnitud tal, que en aproximadamente dos
terceras partes de los casos, el puntaje obtenido no diferir ms de un Error Estndar por
encima o por debajo del Puntaje Real. En teora se puede decir, que en 2 de cada 3 casos, el
puntaje obtenido se encuentra en una banda que se extiende del Puntaje Real ms o menos un
Error Estndar de Medida; pero debido a que el Puntaje Real nunca se puede conocer, la
prctica establece que, para la interpretacin, se puede revertir la relacin Puntaje Verdadero
Puntaje Obtenido. Se calcula mediante la frmula siguiente, en la que St es la Desviacin
Tpica de la escala de medicin y rxx es el Coeficiente de Confiabilidad: xxtemrSS=1
Escala. La sucesin de nmeros en funcin de los cuales se realiza la medicin. Clsicamente
se distinguen cuatro niveles: Nominal, Ordinal, Intervalo, Razn. Tambin se entiende por
escalas, las transformaciones de puntajes que se realizan a escalas de propiedades conocidas,
tales como Estaninas Percentiles, puntaje Z, Puntaje H, etc.
Estadstica Descriptiva e Inferencial. La E. Descriptiva es una rama de la estadstica aplicada
que permite describir las caractersticas de las distribuciones en funcin de los datos obtenidos.
La E. Inferencial es una rama de la estadstica que permite realizar inferencias sobre el
comportamiento de los estadsticos en la poblacin o un segmento de ella. Ambas son
absolutamente necesarias en el trabajo estadstico de los datos psicomtricos.
Estanina. Escala de nueve puntos estandarizados. El nombre proviene del ingls Stanine
(standard nine), que tiene valores del 1 al 9, con una Media de 5 y una Desviacin Tpica de 2.
Cada Estanina, excepto la 1 y la 9, tiene media desviacin tpica de ancho, y la Estanina 5 tiene
un cuarto de desviacin tpica por encima y un cuarto por debajo de la media. Cada Estanina
contiene un determinado porcentaje de la distribucin, de acuerdo a la siguiente Tabla:
Evaluacin. Es la comparacin de una situacin actual con un estndar. En el caso de las
pruebas psicomtricas, los resultados cuantitativos (vase Medicin), se comparan con
estndares para establecer cmo rindi la persona, es decir, evaluar el resultado; la evaluacin
puede ser la comparacin con una Norma, o con un Perfil Psicomtrico. Usualmente la
evaluacin constituye un juicio de valor.
Factores. En medicin psicomtrica, factor es un rasgo hipottico que subyace a una variable y
que influye sistemticamente en el rendimiento en los tems de un test o los puntajes en dos o
ms tests y por lo tanto, hace que el rendimiento en diferentes tests est correlacionado. El
trmino factor se refiere estrictamente a la variable terica, que se deriva por un proceso de
anlisis factorial a partir de una matriz de intercorrelaciones entre tests. Sin embargo, tambin
se utiliza para denotar la interpretacin psicolgica que se le da a la variable, por ejemplo, el
rasgo mental que se asume que est representado por la variable, tales como habilidad verbal,
habilidad numrica, etc.
Frecuencia. Es el nmero de observaciones que corresponde a un determinado puntaje en
una escala. Usualmente las observaciones son los sujetos que obtuvieron ese puntaje.
Frecuencia Acumulada. Es el nmero de observaciones acumuladas hasta el lmite superior
de un determinado puntaje en una escala. Se acumula siempre desde las puntuaciones ms
bajas en la Escala hacia los ms altos.
H (Escala H). Escala a la que se transforman en forma lineal los puntajes con Media de 100 y
Desviacin Tpica 20.
Homogeneidad. Grado de similitud que existe entre los elementos de una Poblacin con
relacin a ciertos atributos; la Poblacin puede ser de Sujetos, Items, o de Contenidos o
Conceptos. Cuanto se trata de sujetos, la Homogeneidad se puede establecer en forma
comparativa mediante la Varianza de una distribucin de puntajes obtenidos por dos o ms
grupos de sujetos; el que tiene la menor Varianza es ms homogneo, en este caso hablamos
de Homogeneidad de la Muestra. Cuando se trata de los tems de una prueba, se establece
mediante H de Horst, KR21, el Coeficiente Alfa de Cronbach, que se fundamentan en la
covarianza entre los tems; en este caso hablamos de Homogeneidad de la Prueba.
Intervalo de Confianza. Recorrido que se establece alrededor de un estadstico (calculado en
una Muestra) para determinar la ubicacin de un parmetro (de la Poblacin) con un
determinado Nivel de Confianza. Se establece en funcin de los estadsticos de muestreo del
estadstico en cuestin, para lo que es usual utilizar las propiedades de la Distribucin Normal.
Por ejemplo, el Intervalo de Confianza de la Media permite estimar la Media de la Poblacin
(), haciendo uso del error estndar de la Media multiplicado por la z correspondiente al Nivel
de Confianza seleccionado.
Inventario de Personalidad. Es un tipo de Prueba Psicomtrica que consiste en un
cuestionario o lista de chequeo, usualmente autoadministrada, diseada para obtener
informacin de variables no intelectuales de un individuo. Los inventarios usualmente evalan
rasgos tales como intereses, actitudes, motivacin, etc. (vase Pruebas de Personalidad).
tems. Son los estmulos o reactivos que se presentan a los sujetos para que respondan y
pongan de manifiesto conductas asociadas con un atributo determinado. Dependiendo del tipo
de prueba, los tems varan sustancialmente. Un tipo comn de tem son los de opciones
mltiples, que presentan un problema en el pie y varias opciones de respuesta de las cuales
slo una es la correcta (la clave) y las otras son Distractores, que sirven para atraer la
respuesta de quienes no conocen realmente la respuesta correcta.
Items binarios. Son los tems que aceptan como puntuacin solamente 1 0. Por contraste,
los Items No Binarios aceptan puntuaciones de ms de 1, o con valores decimales. Los tems
binarios tiene aceptacin tanto por su facilidad de correccin, como porque han demostrado
gran estabilidad en las puntuaciones y en su nivel de dificultad en muestras sucesivas.
Items No binarios. Son tems que no se puntan slo como 1 0. Son usados
frecuentemente, pero no exclusivamente, en inventarios de personalidad o en la medicin de
Actitudes e Inventarios de Personalidad, en los que pueden haber escalas de aproximacin de
cada afirmacin a la forma usual de comportamiento del sujeto.
KR21. Estadstico que permite determinar la confiabilidad de consistencia interna de una
prueba. Deriva su nombre de las frmulas propuestas por Kuder y Richardson en
Psychometrika en los aos 30, de las cuales la nmero 21 fue particularmente exitosa. Tiene
estrecha relacin con Alfa de Cronchach. Se calcula con la frmula siguiente en donde KR21
es el coeficiente de consistencia interna, m es el nmero de tems de la prueba, S2j es la
varianza del tem y S2x es la varianza total del test: =222111SxSmmKRi
Media o Media Aritmtica. Es el promedio de las puntuaciones obtenidas por un grupo en un
test. Se obtiene mediante la suma de las puntuaciones y la divisin entre el nmero de ellas.
Medicin. Consiste en la asignacin de numerales a las propiedades de los objetos o eventos
de acuerdo a ciertas reglas (Stevens). En medicin psicolgica, los objetos son las
manifestaciones de los atributos psicolgicos o constructos. Se fundamenta en varios
supuestos: a) la asuncin de la existencia de un continuo subyacente con direccionalidad, b) la
existencia de un solo puntaje verdadero para cada sujeto, c) la variabilidad entre sujetos con
relacin al puntaje verdadero y d) la posibilidad de obtener manifestaciones asociadas con la
posicin que la persona ocupa en el continuo subyacente. De esta manera, se asignan
puntuaciones, de acuerdo a ciertas reglas, a las manifestaciones de conducta asociadas al
atributo psicolgico que se desea medir. Las puntuaciones se interpretan en funcin de la
teora psicomtrica y psicolgica, para inferir acerca de la conducta actual, de la futura o de las
potencialidades de la persona. La medicin usualmente implica la existencia de un propsito y
una decisin que debe tomarse con relacin a los Sujetos de la medicin o de los atributos
medidos.
Mediana. Es la puntuacin en una distribucin de puntajes por encima de la cual se encuentra
el cincuenta por ciento de las observaciones.
Medidas de Dispersin. Estadsticos que permiten establecer la variabilidad de un conjunto de
datos. Por ejemplo: la Varianza, y la Desviacin Tpica.
Medidas de Tendencia Central. Estadsticos que permiten conocer la ubicacin de la
distribucin en un continuo, por ejemplo: Media, Mediana y Moda,
Moda. Es la puntuacin que tiene la frecuencia ms alta en una distribucin. Algunas
distribuciones pueden ser bimodales o multimodales.
Muestra. Una parte de una Poblacin o universo; un subconjunto de observaciones de una
poblacin. Si la poblacin est compuesta de individuos, la Muestra constituye un grupo de
individuos provenientes de esa poblacin. Se desea que las Muestras sean representativas de
la poblacin para poder inferir los parmetros de la poblacin a partir de los estadsticos de la
Muestra. La representatividad se logra asegurando que todos los individuos de la poblacin
tienen la misma probabilidad de ser seleccionados para la Muestra, se habla as de muestreo
probabilstico. Esto se logra mediante esquemas de muestreos entre los que se incluyen como
sus elementos bsicos: Muestreo por Azar Simple, Muestreo por Azar Sistemtico, Muestreo
Estratificado, Muestreo por Conglomerado. Estos esquemas exigen contar con una descripcin
exhaustiva de los elementos de la poblacin a fin de identificar cada uno de ellos. Cuando no
se cuenta con esa descripcin se hace uso de muestreos por cuotas, en los cuales se definen
los atributos que influyen sobre la variable a evaluar y luego se completan cuotas de personas
en cada una de los niveles de esos atributos.
N. Nmero de sujetos incluidos en un grupo de sujetos o en un grupo normativo.
Normas. Es la expresin estadstica del rendimiento tpico de un grupo en una prueba.
Usualmente se expresa mediante valores estadsticos o mediante un conjunto de puntajes en
una escala de propiedades conocidas. Sirven como referencia para darle significado a los
puntajes brutos o puntajes directos, que se obtienen en las Pruebas Psicomtricas. Las normas
se basan en el rendimiento real de un grupo de personas en una prueba. Dicho grupo se
selecciona especialmente para que tenga el mayor grado de similitud, en variables importantes,
con los individuos que sern evaluados con la prueba. Debido a que se trata de rendimiento
promedio o tpico, las Normas no deben ser consideradas como estndares o niveles
deseables de rendimiento. Tambin es importante que al construir Normas se definan con
claridad las caractersticas de los sujetos del grupo, con relacin a variables importantes tales
como edad, nivel educativo, profesin. Los tipos ms comunes de Normas son expresadas en
escalas como las Percentiles, Estaninas, Puntaje Z y Puntaje H.
Piso de una Prueba. Es el nivel ms bajo que se puede medir con una prueba. Cuando un
individuo obtiene una puntaje que coincide o que est muy cerca del puntaje ms bajo posible,
se dice que la prueba tiene un piso muy alto para l y que se le debe administrar una prueba
ms fcil (vase Techo de una Prueba).
Poblacin. Grupo de elementos (que pueden ser personas, tems, conceptos, etc. ) que se
definen como pertenecientes a un todo y del cual se obtiene una Muestra. Tambin, una
coleccin de todas las observaciones que se pueden identificar de acuerdo a ciertas reglas.
Pruebas Aptitudinales. Son pruebas Psicomtricas que miden habilidades y otras
caractersticas, ya sean innatas o adquiridas, que indican la capacidad de un individuo para
aprender o desarrollarse en un rea particular acadmica o laboral, siempre y cuando se le
provea entrenamiento adecuado y oportunidades. Las Pruebas Aptitudinales incluyen
tantohabilidades acadmicas generales (llamadas comnmente habilidad mental o inteligencia),
como habilidades especiales como habilidad verbal, numrica, cuantitativa o musical. En
general se utilizan para predecir el rendimiento futuro, usualmente en un campo especfico,
como programas de entrenamiento o en el trabajo.
Pruebas Cognoscitivas. Son Pruebas Psicomtricas destinadas a medir aspectos
intelectuales de la estructura mental o psicolgica del individuo. Incluyen las Pruebas de
Conocimientos, las Pruebas Aptitudinales, Las Pruebas de Habilidades y las Pruebas de
Personalidad.
Pruebas de Conocimiento. Son pruebas Psicomtricas que permiten medir el dominio de
informacin en un campo determinado u rea del conocimiento. Por ejemplo, dominio de
informacin sobre tcnicas de contabilidad. Son llamadas tambin Pruebas de Rendimiento.
Pruebas de Diagnstico. Son tests utilizados para establecer reas especficas de fortalezas
y debilidades, y que se utilizan, en oportunidades, para determinar el origen causal de
debilidades y desarrollar programas de intervencin individual o grupal. Tales Pruebas permiten
establecer medidas de los componentes de habilidades o conocimientos ms complejos.
Pruebas de Habilidades. Son Pruebas Psicomtricas que miden rasgos cognoscitivos que se
han desarrollado a travs del entrenamiento, de las oportunidades laborales o de las
actividades en la vida cotidiana. Entre ellas se pueden contar las habilidades de lectura,
ortografa, redaccin. Al igual que en las aptitudes, una definicin ms amplia y comprensiva de
las habilidades probablemente deba incluir tambin factores asociados con la motivacin, los
intereses y oportunidades, que permiten que una persona desarrolle sus aptitudes. Tambin es
posible percibir las habilidades como la plataforma para el desarrollo en nuevos campos, por lo
cual tienen tambin un carcter de aptitudes.
Pruebas de Personalidad. Son Pruebas Psicomtricas destinadas a medir uno o ms
aspectos no intelectuales de la estructura mental o psicolgica del individuo. Permite obtener
informacin acerca de caractersticas afectivas del individuo (emocionales, motivacionales,
actitudinales, etc.) que se diferencian de sus habilidades o procesos intelectuales. Las Pruebas
de Personalidad incluyen: a) los llamados inventarios de personalidad y de ajuste, que intentan
medir la posicin de la persona en rasgos tales como dominancia, sociabilidad, introversin,
locus de control, autoestima, etc., mediante el uso de respuestas autodescriptivas a una serie
de preguntas o afirmaciones. b) Escalas de rating, que exigen que el sujeto se compare, o sea
comparado por otros, con respecto a ciertos rasgos. c) Inventarios de opinin o actitudes.
Algunos autores tambin incluyen los inventarios de intereses y creencias como pruebas de
personalidad.
Pruebas de Potencia. Son Pruebas diseadas para medir el nivel de rendimiento
independientemente de la velocidad de respuesta. Por ello, usualmente no tienen lmite de
tiempo o se otorga a los sujetos suficiente tiempo para que puedan terminar sin dificultad. Es
usual que los reactivos o tems se ordenen de manera creciente de acuerdo a su dificultad.
Pruebas de Velocidad. Son Pruebas diseadas para evaluar habilidades asociadas con la
velocidad de respuesta y establecen su varianza en funcin de la velocidad de respuesta.
Usualmente contienen muchos tems relativamente fciles, que si se contase con suficiente
tiempo seran respondidos por todos los sujetos, pero como deben ser respondidos bajo
condiciones de presin de tiempo, usualmente no se logran responder todos.
Pruebas Psicomtricas. Vase Tests Psicomtricos
Pruebas Referidas a Dominio. Son pruebas diseadas para proveer informacin sobre
conocimientos o habilidades especficas que posee el sujeto de manera directa con relacin al
dominio que evala el test. Tales tests cubren usualmente unidades de contenido y estn
estrechamente relacionadas con procesos de instruccin. Sus puntajes tienen significado en
funcin de lo que el estudiante sabe o puede hacer, ms que en relacin con los puntajes
obtenidos por un grupo de referencia o grupo normativo. Fueron propuestas inicialmente por
Glaser en 1963 y se comenzaron llamando Pruebas Referidas a Criterios, nombre que fue
abandonado debido al carcter polismico en Psicometra del trmino Criterio, que tambin
puede ser entendido como Criterio de Validacin y como Punto de Corte.
Psicometra. Medicin de los atributos psicolgicos. En general constituyen mtodos
experimentales que permiten poner de manifiesto conductas asociadas con los atributos
psicolgicos; a esas manifestaciones se les asignan numerales que permiten establecer el nivel
relativo en que se encuentra ubicada la persona con relacin al atributo. Los Test
Psicomtricos son uno de los mtodos de la Psicometra.
Puntaje Derivado. Son puntajes que se transforman a escalas de propiedades conocidas.
Estas escalas, de las cuales lasa ms conocidas con los Puntajes Z, C.I., Desviacin H, CEEB
y T, tienen una media y una desviacin tpica determinada lo que permite interpretar las
puntuaciones en funcin de dnde se ubican en la escala. Por ejemplo H tiene una Media de
100 puntos y una Desviacin Tpica de 20, lo que se representa como H(100,20). Algunos
puntajes Derivados son transformaciones lineales de los Puntajes Directos, mientras que otros
son transformaciones No Lineales, como el caso de las Estaninas o T.
Puntaje Directo o Puntaje Bruto. Son los puntajes que se obtienen directamente de la
asignacin de numerales a las respuestas a una Prueba Psicomtrica. Usualmente se obtienen
de asignar un punto por cada respuesta correcta. En los casos en que existe una correccin
por puntajes al azar, es usual que se calcule mediante la frmula X = C l/(k-1) En donde X es
el puntaje obtenido, C las preguntas respondidas correctamente, l las respondidas
incorrectamente y K el nmero de opciones de las preguntas de la Prueba Psicomtrica.
Punto de Corte o de aprobacin. Se refiere al puntaje por encima del cual se considera que
el sujeto cumple con ciertos requisitos de ingreso, aprobacin de una materia o de seleccin
para un empleo. Pueden ser establecidos fundamentados en estudios que demuestran que a
partir de ese punto existe mayor probabilidad de xito en el trabajo o en los estudios, o de
manera ms o menos arbitraria, para permitir el ingreso a un cierto nmero de personas a la
institucin, como cuando existe un cupo limitado. Tambin ha sido denominado Criterio, pero,
por el carcter polismico (muchos referentes o significados) de ste trmino, es conveniente
no utilizarlo en ste contexto.
Software Psicomtrico. Programas de computacin utilizados para la Correccin de Pruebas,
la administracin de pruebas por computadora o para el procesamiento de informacin. En
Venezuela se producen y comercializan dos programas: Microitem, que permite el anlisis de
tems, la correccin de pruebas de opciones mltiples con tems binarios y no binarios, y la
elaboracin de normas, producido por Massimo Di Salvatore de la Universidad Central de
Venezuela y PsicoMet, que permite la correccin de pruebas, la elaboracin de informes
psicomtricos grupales e individuales, la administracin de una base de datos de elegibles y la
elaboracin de normas internas, producido y distribuido por Psico Consult C.A. Ninguno de
estos programas permite la administracin de pruebas por computadora, pero tienen la ventaja
de que permiten el procesamiento de cualquier prueba binaria de opciones mltiples.
Spearman Brown, Frmula de Profeca. La confiabilidad de un test tiene una relacin directa
con el nmero de tems. Cuando se duplica el nmero de tems, la confiabilidad es mayor.
Cuando se calcula la confiabilidad por el mtodo de divisin por mitades, se obtiene la
confiabilidad de la mitad de la prueba, por lo que se hace necesario ajustar para la totalidad de
los tems.
Sujeto. Es una de las forma de referirse a las personas que presentan Pruebas Psicomtricas
o que participan en un experimento.
Tabla de Especificaciones. Son tablas que permiten definir el contenido de una prueba; son
particularmente tiles para la elaboracin de Pruebas de Conocimiento y para determinar su
validez. Usualmente se establecen como tablas de doble entrada (aunque pueden incluir ms
de dos dimensiones), una de las cuales indica el contenido del proceso de aprendizaje y la otra
alguna definicin de las habilidades que la persona logr durante ese proceso (es usual usar la
Taxonoma del Dominio Cognoscitivo de B. Bloom y otros).
Tablas de Expectacin. Son tablas que muestran la relacin entre los puntajes de un test
predictivo y el rendimiento en un criterio determinado. La relacin se puede expresar de
maneras diferentes tales como: a) El promedio de rendimiento en el criterio. b) El porcentaje de
casos en cada uno de los niveles sucesivos. c) La probabilidad de obtener una puntuacin en el
criterio, dada una puntuacin en la Prueba. Las Tablas de Expectacin son comunes para la
prediccin del xito acadmico o laboral, son de fcil elaboracin y comprensin. Se
diferencian las Tablas de Expectacin Individual de las Tablas de Expectacin Institucional ,ya
que en las primeras se indica la probabilidad de obtencin de un determinado resultado en el
Criterio, mientras que en las segundas se plantea solamente la probabilidad de xito o fracaso
en el mismo. El nivel ms avanzado incluye varias variables predictoras y se construyen a partir
de rectas de regresin mltiple.
Techo de una Prueba. Es el nivel ms alto de habilidad que se puede medir con un test.
Cuando un individuo logra un puntaje que coincide o que est cerca del puntaje ms alto
posible, se dice que el test tiene un techo, muy bajo para l y es necesario administrarle una
prueba que sea ms difcil (vase Piso de una Prueba).
Tendencia Central (medidas de). Las medidas de tendencia central proveen una
representacin del rendimiento de un grupo, indica la tendencia del grupo de medidas. Las ms
conocidas son la media, la mediana y el modo.
Tests Psicomtricos. Un test psicolgico constituye esencialmente una medida objetiva y
tipificada de una muestra de conducta Anastasi, Anne. Rodrguez y Feli lo definen como ...
un conjunto de estmulos seleccionados haciendo uso de una fundamentacin terica,
psicolgica y psicomtrica, en funcin de un propsito. Estos estmulos son presentados a
sujetos en condiciones controladas con el objeto de poner de manifiesto conductas relevantes
que debidamente interpretadas con base a normas y/o criterios permiten la toma de decisiones
respecto a un individuo, un grupo o un proceso.
Transcripcin de Resultados. Es la accin de registrar en un programa de computacin (por
ejemplo, el PsicoMet) las respuestas dadas por los sujetos a las preguntas de una Prueba
Psicomtrica.
Transformacin de puntajes. Los Puntajes Directos que se obtienen por la asignacin de
numerales a las respuestas de los sujetos, usualmente no tienen una significacin inmediata.
Por ello se realizan transformaciones a escalas de propiedades conocidas, que permiten contar
con un resultado ms fcilmente interpretable en funcin del rendimiento de grupos normativos.
Se reconocen al menos dos tipos de transformaciones: lineales y no lineales. Las lineales se
realizan mediante ecuaciones que utilizan estadsticos como la media y la desviacin tpica y
no modifican la forma de la distribucin (por ello existe una relacin rectilnea entre los puntajes
directos y sus puntajes transformados); las ms conocidas son z, Z, y H. Las no lineales hacen
uso de ciertas propiedades, como el nmero de casos acumulados en la distribucin y el
puntaje transformado (por ello existe una relacin no lineal entre los puntajes directos y sus
puntajes transformados); las ms conocidas son los Percentiles, Estaninas, Pentiles, zn y T.
Validacin Cruzada. Procedimiento mediante el cual la validez de una prueba establecida en
una muestra poblacional se verifica con otra muestra proveniente de la misma poblacin. Es
usual derivar rectas de regresin cuando se hacen estudios de validez; al realizar un estudio de
Validacin Cruzada, se utiliza esa recta para determinar los mejores valores predichos en otra
muestra de la poblacin, y luego se verifica qu tan cerca est la prediccin de los resultados
obtenidos en el Criterio de Validacin haciendo uso de mtodos correlacionales.
Validez. La medida en que el test mide lo que se pretende que mida, es decir, que sirva para lo
que se pretende utilizar. El trmino validez, por lo tanto, tiene connotaciones diferentes
dependiendo el uso para el cual se propone y para diferentes tipos de tests. Se habla as de
Validez Aparente, Validez de Constructo, Validez de Contenido, Validez Emprica o Criterial,
Validez Aparente. Es la medida en que el test aparenta ser un instrumento eficiente de
medicin. En realidad tiene ms que ver con lo que los Sujetos piensan del instrumento y la
situacin en que se aplica y la credibilidad que pueden tener en el proceso de evaluacin y la
atencin que prestarn a la misma.
Validez de Constructo. Pretende establecer hasta qu grado la varianza total observada se
puede explicar en funcin de variables (Constructos) derivados de una teora. Para realizar
estudios de validez de constructo, es necesario contar con una buena descripcin terica, que
permita derivar hiptesis y probarlas haciendo uso del instrumento. En la medida en que se
obtienen los resultados predichos por la teora, se dice que hay validez de constructo.
Validez de Contenido. Determinacin de si una prueba mide lo que se supone que debe medir
con relacin a la Tabla de Especificaciones que describe el universo de evaluacin (tpicos de
contenido, habilidades desarrolladas, etc.). Se establece cuando un grupo de expertos analiza
cualitativamente los tems y determina dnde se ubican con relacin a las celdas de la Tabla de
Especificaciones. Si existe coincidencia entre los juicios de los expertos y lo que se prev que
mida cada tem, se dice que hay validez de contenido. Es decir, se trata de determinar qu
grado de representatividad tiene la prueba con respecto a universo de conceptos que se
pretende medir. Se aplica de manera particular en las Pruebas de Rendimiento, que evalan un
contenido determinado.
Validez Emprica o Criterial. Establece la relacin entre el rendimiento en el test y las
puntuaciones obtenidas en una variable externa (criterio) que se supone mide el mismo atributo
que el test. Hace uso de mtodos correlacionales (vase Correlacin), que permiten establecer
el grado de asociacin entre ambas variables. La validacin emprica se fundamenta en
estudios que tienden a ser de carcter aplicado, puesto que a menudo interesa solamente la
capacidad predictiva de los resultados de la prueba con relacin al criterio. Cuando el criterio se
toma algn tiempo despus de la aplicacin de la prueba, se habla de validez predictiva, como
cuando se trata de predecir el rendimiento universitario a partir de una prueba de aptitud
acadmica. Cuando se toman la medida en el test y en el criterio en forma simultnea se habla
de validez concurrente, como cuando se trata de realizar un diagnstico de los conocimientos
de un grupo de personas.
Varianza. Medida de la dispersin de los puntajes en una distribucin. Se calcula mediante el
promedio de los desvos de cada puntaje con respecto a la Media elevados al cuadrado.
Varianza del tem. En tems binarios se determina mediante la multiplicacin de pxq, en donde
p es la proporcin de respuestas correctas y q la de respuestas incorrectas al tem. En este tipo
de tems, su valor est contenido entre 0 y 0,25. En tems no binarios, tanto para su clculo
como para establecer sus lmites, es necesario conocer el recorrido de la escala de los tems.
La raz cuadrada de la varianza del tem constituye la desviacin tpica del tem.
z o puntaje Estndar. Es un trmino general que se refiere a la transformacin de puntajes a
escalas de propiedades conocidas. En el caso de los puntajes z (minscula) es una
transformacin referida al nmero de desviaciones con respecto a la media a la que se
encuentra un determinado puntaje. Se calcula mediante la frmula siguiente (en donde X es un
puntaje determinado, X es la Media y D.T. es la Desviacin Tpica) z = (X X) / D.T.
Z (Escala Z). Transformacin lineal de Media de 50 puntos y Desviacin Tpica de 10 puntos.
zn (z normalizada). Transformacin a una escala de Media = 0 y Desviacin Tpica = 10,
fundamentada en las proporciones acumuladas hasta el punto medio de la clase haciendo uso
de la Tabla z de reas bajo la curva normal. Es una transformacin no lineal.
BIBLIOGRAFIA
1. Tovella, M. (1988). Anlisis de los temes e la construccin de instrumentos psicomtricos.
Mxico Trillas.
2. Bastin, G. (1968). Los Test Psicomtricos. Buenos Aires Kapelusz.
3. Adkins Wood, D. (1968). Elaboracin de test. Mxico Trillas.
4. Glass,G., Stanley,J. (1986). Mtodos estadsticos aplicados en las ciencias sociales.
Espaa Florento Hall Internacional.
5. Sieguel, Sidney. (1978). Estadstica no paramtrica aplicada a las ciencias de la conducta.
Mxico Trillas.
6. Cortada, N., Carr, J. (1979). Estadstica Aplicada. Buenos Aires. Ediciones Previas.
7. Numnaly Jun. (1979). Introduccin a la medicin Psicolgica. Buenos Aires Centro
Regional de Ayuda Tcnica.
8. Numnaly, Jun. (1991). Teora Psicomtrica. Mxico. Trillas.
9. Robert L. Thorndike. (1989). Psicometra Aplicada. Limusa. Mxico.
10. Manning, S., Rosentock, E. (1979). Elaboracin de escalas de actitudes y psicofsica
clsica. Mxico. Trillas.
11. Magnuson, D. (1986). Teora de los Test. Mxico Trillas.
12. Woolfolk, Anita . (1990). Psicologa Educativa. Tercera Edicin. P.H.H. Prentice Hall.
Mxico.
13. Escotet , Miguel. (1985). Estadstica Psicoeducativa Trillas Mxico.
14. Smith, Milton. (1971). Estadstica Simplificada para Psiclogos y Educadores. Manual
Moderno Mxico