Documente Academic
Documente Profesional
Documente Cultură
Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su
fiabilidad), y otra diferente es la cuestin de qu es lo que autnticamente est evaluando. En el
mbito psicosocial, los diferentes constructos resultan difcilmente operativizables de manera
indiscutible, y a veces se producen dudas razonables sobre qu mide un determinado test. Una
prueba de inteligencia general tendr un elevado grado de validez si asigna puntuaciones altas a
las personas muy inteligentes, puntuaciones medias a las personas medianamente inteligentes y
puntuaciones bajas a las personas de poca inteligencia. Un cuestionario para evaluar el nivel de
autoestima tendr un elevado nivel de validez si se demuestra que mide de forma exhaustiva
todos los componentes en que puede manifestarse la autoestima.
Aunque cada vez se tiende ms a concebir la validez como un proceso unitario que tiene
como objetivo aportar pruebas sobre las inferencias que podemos realizar con un test,
tradicionalmente se han diferenciado varios procedimientos de validacin, alguno de los cuales
incluye varios mtodos diferentes de comprobacin. Los fundamentales procedimientos son
denominados como validez de contenido, de constructo y referida al criterio.
Para justificar, aunque slo sea racionalmente, que un test posee validez de contenido, debe
quedar bien definido el universo o dominio conductual de referencia: especificar claramente
cules son los contenidos de Qumica que debe conocer un alumno de 4 de ESO, cules son los
componentes que interesa considerar en un cuestionario de cultura general, qu tipo de
conocimientos y destrezas son las pertinentes para medir el nivel bsico de ingls, etc. En
definitiva, nos referimos a explicitar claramente los objetivos de la evaluacin y la importancia
que se quiere dar a cada uno, lo que determinar la cantidad de cuestiones a incluir referidas a
62
cada uno de esos objetivos. En definitiva, la validez de contenido es un tema particular del de
muestreo: si deseamos realizar inferencias sobre el rendimiento de las personas en una
poblacin de contenidos determinada, el test debe incluir una muestra representativa de dichos
contenidos.
- Especificar los diversos objetivos (v.gr. reas diferentes de contenidos) que se pretenden
evaluar.
- Elaborar varios tems para cada objetivo.
- Seleccionar una muestra de expertos en el contenido del test.
- Pedirles que, segn su opinin, asignen cada tem al objetivo que pretende medir.
- Seleccionar los tems en los que los expertos manifiestan mayor acuerdo en sus
clasificaciones.
Aunque los mtodos a emplear son sin duda variados, as como la tcnicas estadsticas para
analizar los datos, podemos encontrar un comn denominador a todos ellos, que se sintetiza en
las siguientes fases:
Imaginemos, por ejemplo, que un investigador est interesado en validar una prueba de
motivacin intrnseca-extrnseca que ha construido. Desde la teora motivacional de partida se
puede deducir que las personas motivadas intrnsecamente (por el mero placer que les supone la
ejecucin de determinadas tareas) deberan rendir mejor en actividades escolares que las
personas motivadas por razones extrnsecas (deseos de alcanzar determinada nota o
determinado refuerzo externo). Para validar su prueba, el investigador tiene que demostrar
empricamente que mide autnticamente el constructo motivacional que se pretende, y podra
proceder de la siguiente manera:
c) Formar dos grupos diferentes (A y B), de tal manera que ambos tengan un mismo
nivel intelectual medio y que ocupen un nmero similar de horas en el estudio, pero que
el grupo A tenga niveles altos de motivacin intrnseca y el B niveles altos de
motivacin extrnseca.
Pueden ser muy variados los mtodos a seguir que, cumpliendo el proceso de ejecucin
planteado anteriormente, sirvan para poner a prueba la validez de constructo de un test. En
cada caso habr que seguir el que ms convenga para contrastar las hiptesis de partida, pero
algunos mtodos suelen ser ms frecuentes. Entre ellos destacamos:
- Obtener las relaciones entre las puntuaciones en el test y en otras variables que
deberan relacionarse con el constructo de inters. Si el modelo terico est bien
fundamentado, debe establecer relaciones entre el constructo de inters y otros
diferentes, y por tanto debe ser posible establecer diseos de investigacin para
contrastar las previsiones tericas. Por ejemplo, Molt (1988) predice (y comprueba)
que la escala de susceptibilidad al castigo (que mide el grado de evitacin de situaciones
reales aversivas) debe proporcionar puntuaciones relacionadas directamente con
neuroticismo e inversamente con estabilidad emocional.
64
- Evaluar mediante el test a grupos que se supone deben ser diferentes en el constructo,
para comprobar si realmente es as. Resulta un enfoque eminentemente diferencial: si el
test es vlido, debera reflejar las diferencias entre grupos que se predicen desde la
teora psicolgica. Por ejemplo, si un test de inteligencia general para edades infantiles
es vlido, debera reflejar el mayor rendimiento de los nios de ms edad.
- Utilizar una estrategia experimental para comprobar si el test resulta sensible para
detectar los efectos previsibles debidos a la manipulacin o seleccin de los niveles en
una o ms variables independientes. El ejemplo expuesto anteriormente sobre
motivacin y rendimiento puede servir para entender esta estrategia.
El anlisis factorial es una tcnica estadstica multivariante que sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. Normalmente toma como
datos de partida la matriz de correlaciones entre las n variables que interesa analizar. Como
informacin final, proporciona una matriz de tamao n p, denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de las p dimensiones
extradas, y que son las correlaciones de Pearson entre cada variable y cada dimensin.
Un psiclogo ha elaborado una prueba de cinco tems para evaluar la actitud hacia las nuevas
tecnologas por parte de las personas mayores. Los tems, que se responden en una escala de
siete categoras ordenadas (desde 1: muy de acuerdo" hasta 7: muy en desacuerdo"), son los
siguientes:
Los 5 tems se aplicaron a una muestra de 200 personas. La matriz de correlaciones entre ellos
se someti a un anlisis factorial, obtenindose los siguientes resultados. Esta matriz contiene
las saturaciones, es decir, la correlacin de cada tem con cada uno de los factores que mide el
test:
1 0.845 -0.126
2 -0.201 0.803
3 0.672 0.012
4 0.052 -0.615
5 0.713 -0.143
Hay dos factores fundamentales que explican las relaciones entre los 5 items. Supongamos que
se tipifican las puntuaciones en los tems; la varianza total sera cinco, que es la suma de la
varianza de cada tem. El factor I explica un 34% de la varianza total, el factor II explica un
21% de la varianza total. Con los dos factores se explica el 55% de la varianza de los tems.
En el factor I obtienen saturaciones altas los items 1, 3 y 5, que indican si la persona considera
que las nuevas tecnologas pueden ser tiles para mejorar su calidad de vida. El tem 2 tiene una
saturacin negativa porque manifiesta una actitud contraria hacia las nuevas tecnologas. Por
tanto, el factor I puede denominarse Actitud hacia las nuevas tecnologas como medio para
mejorar la calidad de vida.
En el factor II obtienen saturaciones elevadas (en valor absoluto) los tems 2 y 4, mientras que
el resto de saturaciones son cercanas a cero. El hecho de que el tem 2 tenga una saturacin
positiva y el 4 negativa significa que las personas con puntuacin alta en el factor II tienden a
66
estar de acuerdo con el tem 2 y en desacuerdo con el 4. Este segundo factor podra etiquetarse
Sensibilidad hacia el gasto que supone utilizar las nuevas tecnologas.
Vemos, pues, que las relaciones de covariacin entre los tems podemos explicarlas con dos
dimensiones que resultan bastante claras de identificar. Como el lector puede suponer, las cosas
no son tan evidentes en la prctica; el investigador debe decidir cuntos factores estn presentes
en los datos y, sobre todo, debe asignar un significado a cada factor, lo que normalmente no es
tan sencillo como en este ejemplo. Lo que es cierto es que la aplicacin del anlisis factorial
aporta informacin sobre las dimensiones que estamos midiendo con un determinado
cuestionario, es decir, proporciona informacin sobre la validez de la prueba.
El anlisis factorial se basa en un modelo que es una extensin del utilizado en teora clsica de
tests. A modo de ejemplo, consideremos los siguientes cinco tems de una escala de satisfaccin
vital, evaluados en una escala graduada de siete categoras:
Estos tems se aplicaron a una muestra de 250 sujetos y se obtuvo la siguiente matriz de
correlaciones. Adems se muestran las desviaciones tpicas:
1,000
0,617 1,000
0,592 0,518 1,000
0,448 0,321 0,432 1,000
0,486 0,454 0,457 0,434 1,000
Desviacin 1,602 1,579 1,569 1,664 1,832
Puede plantearse que los cinco tems miden una misma caracterstica, la satisfaccin vital.
Aplicando el modelo de la teora clsica de tests a las puntuaciones de los tems, se obtienen las
ecuaciones:
X 1 = V + E1
X 2 = V + E2
X 3 = V + E3
X 4 = V + E4
X 5 = V + E5
67
Esto significa que todos los tems miden la misma caracterstica (la satisfaccin vital),
representada por V en el modelo. Adems, hay un error de medida que puede ser distinto para
cada tem. Es posible plantearse que no todos miden igual de bien la satisfaccin vital. Por esta
razn se definen los parmetros i, denominados saturaciones, que indican la relacin de cada
tem con la caracterstica o factor que miden todos ellos. Si a la satisfaccin vital se la denomina
F en lugar de V, se obtiene el modelo de un factor:
X 1 = 1 F + E1
X 2 = 2 F + E2
X 3 = 3 F + E 3
X 4 = 4 F + E4
X 5 = 5 F + E 5
Las saturaciones se calculan a partir de la matriz de correlaciones entre los tems. Los clculos
son bastante tediosos y se realizan mediante ordenador. Por esta razn, a continuacin se
muestran nicamente los resultados del anlisis factorial y no la forma en que se han calculado.
En el ejemplo, a partir de la matriz de correlaciones mencionada anteriormente, se llega al
siguiente modelo de un factor:
X 1 = 0,819F + E1
X 2 = 0,719F + E 2
X 3 = 0,729F + E3
X 4 = 0,555F + E 4
X 5 = 0,629F + E5
Lo cual significa que el factor tiene una relacin ms fuerte con el tem 1 que con los dems,
aunque todas las saturaciones son elevadas. Las saturaciones resultan ser iguales a las
correlaciones de cada tem con el factor. Pueden tomar valores positivos o negativos. Si la
saturacin es cero, o prxima a cero, no existe relacin entre el tem y el factor. Saturaciones
extremas, en cualquier direccin, significan que la relacin es fuerte.
A partir del modelo de un factor, y teniendo en cuenta las propiedades de las combinaciones
lineales de variables, la varianza de los tems puede expresarse como:
X2 1 = 0,8192 F2 + E21
X2 = 0,7192 F2 + E2
2 2
2
X3 = 0,729 +
2 2
F
2
E3
X2 = 0,5552 F2 + E2
4 4
2
X5 = 0,628 +
2 2
F
2
E5
X2 = 1 = 0,819 2 + E2
1 1
2
X2 = 1 = 0,719 +
2 2
E2
X2 = 1 = 0,729 2 + E2
3 3
2
X4 = 1 = 0,555 +
2 2
E4
X2 = 1 = 0,628 2 + E2
5 5
Es posible formular modelos factoriales en los que cada tem mida ms de una caracterstica
simultneamente. Supongamos que se hipotetiza que el cuestionario mide dos factores,
denominados F1 y F2. Entonces, las saturaciones se denominan ij (siendo i el tem y j el factor),
y el modelo de dos factores es:
X 1 = 11 F1 + 12 F2 + E1
X 2 = 21 F1 + 22 F2 + E 2
X 3 = 31 F1 + 32 F2 + E3
X 4 = 41 F1 + 42 F2 + E 4
X 5 = 51 F1 + 52 F2 + E5
X 1 = 0,748F1 + 0,328F2 + E1
X 2 = 0,748F1 + 0,170F2 + E 2
X 3 = 0,626F1 + 0,353F2 + E3
X 4 = 0,252F1 + 0,783F2 + E 4
X 5 = 0,499F1 + 0,390F2 + E5
69
Puede verse que todos los tems tienen una correlacin ms fuerte con el factor I que con el
factor II, exceptuando el tem 4. Al haber dos factores, las comunalidades se calculan
hi2 = i21 + i22 . El resultado es 0,667, 0,588, 0,516, 0,677, y 0,401. Las unicidades se calculan
del mismo modo que en el modelo de un factor ( i2 = 1 hi2 ), y son 0,333, 0,412, 0,484, 0,323
y 0,599.
Adems, es posible calcular la varianza explicada por cada factor. Esta varianza es la suma de
las saturaciones en ese factor al cuadrado; es decir, la varianza explicada por el factor j es
2j1 + 2j 2 + 2j 3 + 2j 4 + 2j 5 . En el ejemplo, la varianza explicada por cada factor es 1,823 y
1,026, que representa un porcentaje del 36% y del 21% respectivamente. La varianza explicada
por los dos factores en conjunto es 2,859. Al ser la varianza total 5, el porcentaje de varianza
explicada por el modelo de dos factores es el 57%.
El primer objetivo del anlisis factorial es determinar cuantas dimensiones est midiendo un
test, es decir, cuantos factores deben incluirse en la solucin factorial. Al aadir un nuevo factor
al modelo aumenta la varianza explicada. En el ejemplo, la varianza explicada ha pasado del
48% al 57% al aadir un segundo factor. Sin embargo, esta mejora de la varianza no siempre
justifica que se aadan nuevos factores. Lo esperable, y deseable, es que el nmero de
dimensiones sea mucho menor que el de tems. Esto significara que una misma caracterstica
est siendo medida por muchos tems a la vez, lo que redundara en una mejor precisin de la
medida.
Se han propuesto varios mtodos para la extraccin de los factores y diversas reglas para
determinar cuantos retener. Uno de los procedimientos de extraccin ms sencillos es el de
Componentes Principales y una de reglas ms usadas es la regla de Kaiser (regla K1), en la
que el nmero de factores a retener viene determinado por el nmero de factores con varianza
mayor que uno. Se han propuesto otros procedimientos y reglas con mayor base terica, ms
recomendables y tambin ms complicados. Hay procedimientos que permiten determinar el
nmero de factores a retener utilizando criterios de bondad de ajuste aplicados al modelo
factorial, mediante el estadstico X2 de Pearson. La forma de hacerlo es estimar varios modelos
con distinto nmero de factores. El modelo ms simple (con menos factores) cuyo ajuste sea
satisfactorio es el que se utiliza para interpretar los resultados y obtener conclusiones. Una
descripcin de los mtodos de extraccin y reglas disponibles en el paquete SPSS puede
encontrarse en Pardo y Ruiz1 (2002).
En el ejemplo, se ha visto que la varianza explicada por el primer factor es 1,823 y la del
segundo 1,026. La varianza de los dems factores es menor de uno. Segn la regla de K1, se
descartan aquellos factores cuya varianza sea menor que 1. Por lo tanto, el nmero de factores a
retener ser dos.
La siguiente tabla muestra los valores del estadstico X2 para los modelos de uno y dos
factores, los grados de libertad (gl) y el nivel crtico (p).
1
Pardo, A. y Muiz, M.A. (2002). SPSS 11. Gua para el anlisis de datos. Madrid: Mc Graw Hill.
70
Factores X2 gl p
1 11,89 5 0,036
2 0,81 1 0,368
El ejemplo comentado permite ilustrar una importante propiedad del anlisis factorial. Las
saturaciones cambian en funcin del nmero de factores incluidos en el modelo. Por ejemplo,
las saturaciones de los tems 1 y 2 en el modelo de un factor eran 0,819 y 0,719. En cambio, en
el modelo de dos factores, estos dos tems tienen una saturacin de 0,748 en el factor I. Lo que
esto implica es que antes de intentar interpretar el significado de los factores, es necesario
determinar cuantos factores tiene el modelo. Si se analizan las saturaciones de los tems en un
factor y despus se aade un segundo factor para mejorar el ajuste, las conclusiones anteriores
pueden dejar de se vlidas.
3.2.4.- ROTACIONES
Cuando se estima un modelo factorial las saturaciones no siempre son fcilmente interpretables,
en el sentido de que pueden no indicar con claridad que es lo que estn midiendo los factores.
Para interpretar la solucin, los tems se agrupan en factores, y el significado de estos se infiere
analizando qu tienen en comn los tems que se agrupan en un mismo factor. Esto no siempre
es fcil de descubrir, por ejemplo, si los tems agrupados en un mismo factor son muy
heterogneos y no tienen un contenido comn. Adems, hemos visto que los tems pueden tener
saturaciones relativamente altas en ms de un factor, lo que significa que miden ms de una
caracterstica y hace ms difcil descubrir el sentido de estas.
Para facilitar la interpretacin se aplica a las saturaciones un proceso denominado rotacin, por
el cual se transforman las saturaciones en otras ms sencillas. Con la rotacin se intenta que la
solucin factorial se aproxime a la denominada estructura simple, en cual cada tem tiene una
saturacin igual a 1 en un factor y 0 en los dems. Supongamos que la solucin factorial
hubiera sido:
F1 F2
X1 1 0
X2 0 1
X3 1 0
X4 0 1
X5 1 0
71
Esta solucin sera ms fcilmente interpretable que la que hemos obtenido porque no hay
tems que saturen en ambos factores. En la realidad, mediante las rotaciones nunca se encuentra
una estructura simple sino una solucin lo ms parecida posible a la estructura simple.
1.0
X4
F2
.8
.6
X5
X3 X1
.4
.2
X2
0.0
F1
-.2
-.2 0.0 .2 .4 .6 .8 1.0
La rotacin ortogonal consiste en girar los ejes (los factores) un cierto nmero de grados.
Supongamos que un investigador desea que el tem 2 tenga saturacin 0 en el factor 2. Esto
sera una forma de simplificar la interpretacin de los factores, dado que el factor 1 vendra
definido por el tem 2, y podra etiquetarse como satisfaccin con lo hecho en la vida..
Para conseguir que la saturacin 22 sea 0, es necesario girar los ejes un ngulo de = 12,8 en
el sentido inverso al de las agujas del reloj. La siguiente figura ilustra la rotacin. Los nuevos
ejes se denominan en la figura F1r y F2r para distinguirlos de los anteriores.
1.0
X4
F2
.8
.6
X5
F2 r
X3 X1
.4
.2
X2
F1 r
0.0
F1
-.2
-.2 0.0 .2 .4 .6 .8 1.0
72
La varianza explicada por los factores rotados es 1,468 (el 29%) y 1,381 (el 28%), por lo que
la varianza explicada por el primer factor es menor que antes de la rotacin y la del segundo
mayor. Sin embargo, la varianza explicada por los dos factores en conjunto es la misma (el
57%). Este es un resultado general de la rotacin ortogonal: la varianza explicada por cada
factor cambia despus de la rotacin, pero no la varianza explicada en total.
La rotacin oblicua es ms compleja que la ortogonal porque permite que cada factor se rote
un nmero de grados diferente. En el ejemplo, aplicando la denominada rotacin oblicua se
llega a la solucin:
F1 F2
X1 0,808 0,016
X2 0,857 0,158
X3 0,650 0,098
X4 0,068 0,918
X5 0,477 0,204
La siguiente figura muestra las saturaciones obtenidas tras la rotacin oblicua. A diferencia de
lo que suceda en los ejemplos anteriores, los ejes de coordenadas (factores) no son
perpendiculares, en concreto, el ngulo entre ellos es de = 48,8. Estadsticamente, esto
significa que las puntuaciones en los dos factores estn correlacionadas. En el ejemplo, la
correlacin es de 0,658.
73
1.0
X4
.8
.6
r
F2
.4
X5
.2 X3
X1
0.0
F1 r
X2
-.2
-.2 0.0 .2 .4 .6 .8 1.0
Puede verse que la solucin rotada es ms sencilla porque los tems tienen saturaciones altas
en un factor y bajas en el otro. Viendo las saturaciones y el contenido de los tems, puede
suponerse que el factor I significa satisfaccin vital, mientras que el factor II es satisfaccin
con los logros conseguidos. Como hay una correlacin positiva entre los dos factores, los
sujetos que estn satisfechos con su vida presente tienden a estarlo tambin con los logros
conseguidos.
La solucin obtenida tras la rotacin oblicua tiene cuatro caractersticas especficas que deben
tenerse en cuenta: 1) las saturaciones ya no son las correlaciones de los tems con los factores,
2) no permite calcular las comunalidades ni unicidades, 3) no es posible determinar la varianza
explicada por cada factor, 4) los factores pueden estar correlacionados. Estas caractersticas no
se dan en la solucin inicial del anlisis factorial ni en la obtenida tras la rotacin ortogonal.
Una vez obtenida una solucin factorial definitiva, es posible calcular la puntuacin de los
sujetos en cada uno de los factores. De este modo, en lugar de obtener una puntuacin nica
para cada sujeto en el test, se obtiene la puntuacin en cada uno de los factores que se estn
midiendo.
La siguiente tabla muestra las respuestas de los cinco primeros sujetos, su puntuacin en el test
y las puntuaciones factoriales correspondientes a la rotacin factorial y la oblicua. Al haber
74
concluido que el test mide dos factores sera incorrecto utilizar la puntuacin en el test como el
resultado de cada sujeto. En su lugar, habra que utilizar las dos puntuaciones factoriales
correspondientes a la rotacin que finalmente se decida aplicar.
Ortogonal Oblicua
Sujeto X1 X2 X3 X4 X5 X F1 F2 F1 F2
1 2 4 3 5 2 16 -.797 .727 -0,749 0,064
2 5 7 7 7 6 32 1.383 1.438 1,792 1,853
3 3 5 5 4 1 18 .060 -.059 0,118 -0,514
4 6 6 3 6 5 29 .859 .946 0,919 1,037
5 7 7 3 2 2 24 1.624 -1.605 1,380 -1,459
3 3
2 2
1 1
F2
0
F2
0
-1 -1
-2 -2
-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
F1 F1
1. Validez convergente. Si dos tests miden un mismo rasgo, la correlacin entre ellos
debe ser alta.
75
2. Validez discriminante. Si dos tests miden rasgos diferentes, las correlacin entre ellos
debe ser baja, o al menos menor que con otro test que mida el mismo rasgo.
Supongamos que desean medirse los rasgos factor g, razonamiento espacial y neuroticismo.
Cada uno de los rasgos se evala mediante dos bateras de tests: A y B. Estos tests se aplican a
una muestra de sujetos y se obtiene la siguiente matriz de correlaciones multirasgo-
multimtodo, denominada as porque se evalan varios rasgos utilizando varios mtodos.
A B
A Factor g Espacial Neuroticismo Factor g Espacial Neuroticismo
Factor g 0,87
Espacial 0,61 0,81
Neurocicismo 0,25 0,31 0,73
B
Factor g 0,65 0,41 0,09 0,81
Espacial 0,35 0,50 0,11 0,33 0,78
Neurocicismo -0,05 0,08 0,62 0,19 0,25 0,74
La matriz inferior izquierda (sombreada) contiene las correlaciones entre los tests de las dos
bateras. En la diagonal estn los coeficientes de validez convergente (0,65, 0,50 y 0,62), que
son las correlaciones entre los dos tests que miden el mismo rasgo. Fuera de la diagonal
aparecen los coeficientes de correlacin entre distintos rasgos medidos por distintos tests.
Para evaluar los dos tipos de validez mencionados se procede del siguiente modo:
1) Los coeficientes de validez convergente deben ser mayores que las correlaciones
entre tests que miden diferentes rasgos. En estos datos, existe el problema de que, en la batera
A, la correlacin entre razonamiento espacial y factor g es excesivamente alta, por lo que esta
batera no parece discriminar bien entre ambas. Este problema no sucede en la batera B.
2) El mtodo empleado para medir los rasgos no debe afectar a las relaciones entre
ellos. Esto significa que las tres matrices de correlacin deben ser similares, exceptuando los
elementos de la diagonal. El resultado no es completamente satisfactorio porque la batera B
discrimina mejor entre los tres rasgos que la batera A.
4.1.- CONCEPTO
Sobre todo cuando se pretende utilizar el test para pronosticar determinados criterios de
rendimiento (por ejemplo, el rendimiento escolar en un nivel dado, el total de ventas que se van
a conseguir, el aprovechamiento de un cursillo o la mejora en un proceso teraputico) conviene
que el test se relacione muy estrechamente con un criterio externo. Este criterio externo debe ser
una medida fiable del rendimiento que se quiere pronosticar con el test: calificaciones escolares,
total de ventas producidas en un determinado perodo, estimaciones de un terapeuta de las
mejoras conseguidas por cada persona, etc. A la correlacin entre las puntuaciones en el test
(X) y en el criterio (Y) se le denomina coeficiente de validez, lo designamos como rxy e indicar
el grado en el que el test sirve para pronosticar con precisin el rendimiento en el criterio.
El lector puede imaginar que no siempre es til medir un criterio directamente, debido a
razones de coste temporal y econmico. Por eso es preciso que los profesionales dispongan de
tests con elevada validez relativa al criterio en mbitos en los que de una u otra forma deben
tomar decisiones sobre el nivel de los sujetos en un criterio o sobre su admisin o no a un
puesto de trabajo o de estudio determinado.
S y2' S y2 y '
r =
2
xy = 1
S y2 S y2
Sy Sy
Yi ' = (Y rxy X ) + rxy Xi
Sx Sx
Yi ' Z1 / 2 S y y '
Alumno X Y
1 7 6
2 13 10
3 10 9
4 9 8
5 11 12
Media 10 9
Varianza 4 4
El coeficiente de validez del test es rxy = 0.8, lo que significa que el test de habilidades
comunicativas explica un 64 % de las diferencias en las valoraciones de los profesores sobre la
capacidad de relacin interpersonal de sus alumnos.
Y5' = 9.8
Para realizar la estimacin por intervalo para este mismo alumno, con probabilidad 0.95,
fijamos el valor Z1-/2 = 1.96 y calculamos el error tpico de estimacin:
y el intervalo ser:
12.152
9.8 (1.96) (1.2)
7.448
Diremos entonces, con probabilidad 0.95, que la puntuacin del alumno 5 en el criterio se
encontrar entre 12.152 y 7.448.
Respecto a los dos primeros factores, aunque no tratamos en toda su extensin el desarrollo
formal de las relaciones, podemos decir que el coeficiente de validez tiende a incrementarse a
medida que test y criterio son variables medidas con exactitud. Problemas de fiabilidad en uno
u otro se reflejan mediante una disminucin del coeficiente de validez. De hecho, se puede
comprobar que el lmite mximo al que puede llegar rxy es r xx r yy . Es decir,
siendo rxx el coeficiente de fiabilidad del test y ryy el coeficiente de fiabilidad del criterio.
Demostracin:
rxy =
( x x )( y y )
NS x S y
Realizando las sustituciones oportunas que permiten los supuestos de la Teora Clsica:
rxy =
(V x + E x Vx )(V y + E y V y )
NS x S y
Cov(Vx ,V y )
rxy =
SxSy
Ya que el resto de covarianzas del numerador, haciendo uso de los supuestos del modelo
clsico, son cero.
Dado que la correlacin entre puntuaciones verdaderas entre el test y puntuaciones verdaderas
en el criterio es igual o inferior a 1, queda demostrada la desigualdad.
Imaginemos, por ejemplo, que un test de inteligencia general manifiesta un rxx = 0.85,
mientras que una prueba de cultura general, considerada como criterio, manifiesta un ryy = 0.73.
Segn estos datos, el coeficiente de validez de este test respecto a este criterio no puede superar
el valor de 0.79, que es la raz cuadrada del producto entre los dos coeficientes de fiabilidad.
80
De lo anterior se deduce que el coeficiente de validez de un test es menor o igual que la raz
cuadrada del coeficiente de fiabilidad del test; tambin es menor o igual que la raz cuadrada de
la fiabilidad del criterio:
Por otra parte, y atendiendo ahora a las relaciones entre longitud del test y su fiabilidad, es
lgico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud del test
(y en su caso, del criterio) influya tambin en rxy aunque de modo indirecto. La frmula que
permite estimar el coeficiente de validez de un test alargado n veces (compuesto por n formas
paralelas) es:
rxy
Rxy =
1 rxx
+ rxx
n
Demostracin:
Sean rxy rxx y ryy, respectivamente, los coeficientes de validez, de fiabilidad del test y de
fiabilidad del criterio. Supongamos que alargamos con formas paralelas la longitud del test, con
lo cual aumentarn su coeficiente de fiabilidad (Rxx) y su coeficiente de validez (Rxy), mientras
que el criterio (que no se modifica ) permanece con el mismo coeficiente de fiabilidad.
Segn las relaciones vistas anteriormente, podemos establecer las siguientes igualdades, para
el coeficiente de validez del test inicial y del test alargado:
Ejemplo: Supongamos que una "Escala de actitud hacia grupos ecologistas" de 30 items
manifiesta en un grupo normativo un coeficiente de fiabilidad de 0,42 y un coeficiente de
validez de 0,51. Si se duplicase le longitud de la escala, es decir si se le aadiera una forma
paralela de 30 items, el coeficiente de validez pasara a valer:
0,51
R xy = = 0,60
1- 0,42
+ 0,42
2
1 rxx
n=
rxy2
rxx
Rxy2
En caso de que el valor de n sea negativo, significa que el valor deseado no es alcanzable
incrementando la longitud del test.
a)
1 0.4
n= = 6.7
0.352
0.4
0.52
82
b)
1 0.4
n= = 2.4
0.352
0.4
0.9 2
Hemos indicado tambin que rxy depende de la variabilidad del grupo normativo. De forma
parecida a lo que aconteca con la varianza del grupo en el test y su coeficiente de fiabilidad,
el coeficiente de validez de un test respecto a un criterio es tanto ms elevado cuanto mayor
es la varianza de grupo normativo en ambos. Significa esto que, por ejemplo, un test de
aptitud para la venta tendr un coeficiente de validez mayor en una muestra de la poblacin
general (donde habr heterogeneidad respecto a la aptitud por ser vendedor) que en una
muestra de vendedores experimentados (seguramente obtendran todos puntuaciones
elevadas, y por tanto sera un grupo ms homogneo). En la medida que el poder predictivo
de un test respecto a un criterio depende de su rxy, habr que considerar la variabilidad del
grupo donde se ha obtenido.
Los autores elaboraron una nueva escala o cuestionario para evaluar la satisfaccin familiar.
Argumentan que se ha hecho poco esfuerzo por definir este constructo desde un marco
terico concreto, lo que ha dado lugar a instrumentos de evaluacin de la satisfaccin
familiar fundamentados en una pobre definicin del constructo. Los trabajos sobre
83
instrumentos previos de evaluacin han estudiado su relacin con otras variables (por
ejemplo, con la satisfaccin hacia la calidad de vida, con el constructo locus of control o
con el nivel de religiosidad) que al menos puede decirse que son cuestionables. Critican
tambin que los instrumentos hasta entonces disponibles no incluyen suficientemente los
componentes afectivos del constructo. Adems, algunos de los cuestionarios previos para
evaluar la satisfaccin familiar resultan poco amigables de responder: uno de ellos, por
ejemplo, consiste en preguntar dos veces sobre los mismos temas, una vez sobre la situacin
real de su familia y otra sobre lo que sera su familia ideal.
Todo ello les lleva a la opcin de construir una nueva escala de satisfaccin familiar, para
lo cual siguieron el siguiente procedimiento:
Cada tem se puntu desde uno hasta 7, dado que haba ese nmero de categoras ordenadas
de respuesta. Inicialmente elaboraron 177 adjetivos bipolares y eliminaron 66 por resultar
redundantes. Tres especialistas en terapia de familia dejaron la lista en 52, aquellos que de
forma unnime fueron considerados relevantes para evaluar el constructo.
Anlisis y seleccin de tems: Se aplic la escala inicial a una muestra de 274 personas.
Mediante el programa SPSS se obtuvieron varios indicadores psicomtricos para cada uno
de los 52 tems: a) correlacin tem-total, b) varianza, c) saturaciones factoriales (mtodo de
componentes principales, rotacin varimax) en los factores con autovalor mayor de 1, y d)
coeficiente de la escala cuando se elimina el tem. Se retuvieron finalmente los 27 tems
que cumplieron simultneamente los siguientes requerimientos: a) correlacin tem-total
mayor de 0.45, b) varianza por encima de 1, c) saturaciones en el primer factor rotado por
encima de 0.30, y d) coeficiente de la escala (al eliminar el tem) igual o superior al de la
escala completa (=0.9808).
5.2.- Ehlers, S., Gillberg, Ch. & Wing, L. (1999). A screening questionnaire for
Asperger Syndrome and other High-Functioning Autism Spectrum disorders in
school age children. Journal of Autism and Developmental Disorders, 29, 2, 129-141.
Descripcin del sndrome: No existiendo un acuerdo universal sobre los sntomas del
trastorno de Asperger, parece que se trata de chicos sin demasiados retrasos en el lenguaje ni
en su desarrollo cognitivo, pero que tienen sntomas claramente autistas en lo que se refiere a
problemas de interaccin social y de conductas estereotipadas.
Este chico destaca como diferente de otros chicos de su edad en los siguientes aspectos:
- Carece de sentido comn No Algo S
- Carece de empata No Algo S
- Tiene movimientos involuntarios en la cara o el cuerpo No Algo S
85
Cada respuesta era cuantificada como 0, 1 2 puntos, con lo que el rango terico de
puntuaciones poda oscilar entre 0 y 54.
Fiabilidad. La fiabilidad test-retest, con dos semanas de diferencia entre las dos
aplicaciones, fue 0.96 cuando los evaluadores eran los padres y 0.94 cuando eran los
profesores.
Validez convergente. Los padres y profesores respondieron tambin a dos escalas generales
de evaluacin de psicopatologas en nios, las escalas de Rutter y las de Conners,
obteniendo correlaciones de 0.75 y 0,58, respectivamente, en la muestra de padres, as como
valores de 0.77 y 0.70 en la muestra de profesores.
Validez referida al criterio. En este caso, uno de los objetivos fundamentales del trabajo
consista en estudiar el grado en que las puntuaciones totales en el cuestionario ASSQ serva
para diferenciar a los diversos grupos diagnsticos que formaban la muestra principal. Se
realizaron los correspondientes ANOVAS, donde la variable independiente era el grupo
diagnstico y la variable dependiente las puntuaciones en un cuestionario concreto (ASSQ,
Rutter o Conners). Algunos resultados interesantes fueron: a) los tres grupos de la muestra
principal obtuvieron puntuaciones medias significativamente distintas en el cuestionario
ASSQ, tanto cuando los evaluadores eran padres como cuando eran profesores; b) los chicos
con diagnstico de espectro autista obtuvieron siempre las medias ms elevadas; c) las
puntuaciones en las otras dos escalas no consiguieron diferencias significativas entre los
chicos de espectro autista y los hiperactivos; d) las medias de las puntuaciones (asignadas
por ambos tipos de evaluadores) en el cuestionario ASSQ, fueron estadsticamente similares
en la muestra de validacin (sndrome Asperger) que en la submuestra de espectro autista de
la muestra principal.
grupo con trastornos, mientras que si se encuentra por debajo de dicho punto de corte
concluiramos que no tiene dicho trastorno. Para establecer un determinado punto de corte,
debemos entender en primer lugar dos conceptos esenciales:
Las dos proporciones anteriores variarn segn la puntuacin total en el cuestionario que
establezcamos como punto de corte (en el caso del ASSQ podramos establecer en teora
hasta 55 puntos de corte diferentes). Por ejemplo, si en el ASSQ pusiramos como punto de
corte la puntuacin 54, que es la mxima posible, obviamente la sensibilidad sera 0 (todos
los chicos con sndrome Asperger quedaran clasificados como no Asperger) y la
especificidad 1 (todos los chicos sin sndrome Asperger quedaran clasificados como tales);
si el punto de corte lo pusiramos en la puntuacin 0, la sensibilidad sera 1 pero la
especificidad 0. Por tanto, para decidir sobre el punto de corte ms apropiado tendramos que
intentar maximizar ambas proporciones simultneamente, lo cual depende del grado de
validez predictiva de las puntuaciones del cuestionario para diferenciar los dos diagnsticos
posibles. En la prctica, para cada puntuacin posible como punto de corte, suele
representarse en un cuadrado unitario la proporcin complementaria a la especificidad o
proporcin de falsos positivos (en el eje de abcisas) y la sensibilidad (en el eje de
ordenadas). Esta representacin se conoce como curva ROC, y muchas veces interesa
establecer como punto de corte aquella puntuacin del cuestionario que queda representada
ms cerca de la esquina superior izquierda del cuadrado unitario. Esa puntuacin ser la que
maximiza simultneamente la especificidad y la sensibilidad.
Los autores indican que si se valora mucho la sensibilidad, es decir, intentar no cometer
errores con los chicos realmente diagnosticados como autistas, sera aconsejable establecer
87
como punto de corte la puntuacin X=13, a partir de la cual se detecta al 91 % de los chicos
con autismo de la muestra principal. El coste de esta clasificacin es que clasificaramos
como autistas a un 23 % de los chicos de la muestra principal que son hiperactivos o tienen
problemas de aprendizaje. Tal coste no sera muy elevado si el cuestionario representa slo
una primera deteccin, y es posible posteriormente profundizar en el diagnstico diferencial
mediante procedimientos alternativos.
Sin embargo, si el objetivo realmente fuera distinguir entre los chicos autistas y los que
tienen otros trastornos, los autores optan por establecer un punto de corte en la puntuacin
X=19, lo cual minimiza la proporcin de verdaderos positivos (0.62) pero tambin la de
falsos negativos (0.10). Teniendo en cuenta el tamao muestral, esta decisin equivale a
emitir un 82 % de decisiones correctas.
En ambos trabajos se recogen los diversos estudios realizados para poner en funcionamiento
un Test Adaptativo Informatizado (TAI) para evaluar el nivel de conocimientos del idioma
ingls en su versin escrita. Este tipo de tests requieren un amplio banco de tems, su estudio
psicomtrico desde la Teora de la Respuesta al tem, as como un conjunto de programas
informticos para la presentacin de los mejores tems a cada persona y para la estimacin
de su nivel (normalmente entre un rango de valores que oscila entre 4 y +4). Nos
centraremos fundamentalmente en el proceso de construccin del banco de tems, que
conforma el contenido fundamental del TAI, y en el anlisis de sus propiedades
psicomtricas.
Criterios generales para la elaboracin del banco de tems. Varias especialistas en Filologa
Inglesa, junto a varios profesionales de la Psicometra, elaboraron el banco de tems. Los
psicmetras indicaron a las fillogas algunos criterios a considerar en la elaboracin del
banco de tems: a) deba tener aproximadamente 600 tems, b) su dificultad previsible deba
ser heterognea, ya que el TAI pretende evaluar cualquier nivel de dominio del ingls
escrito, d) los tems deban ser de opcin mltiple, siendo el enunciado una frase donde
faltaran ciertas palabras, y 4 opciones de respuesta de las que slo una es correcta, e) las 3
opciones incorrectas de un tem deban cumplir los requisitos de redaccin que son
aconsejables (ver tema 1 de estos materiales), f) las fillogas deberan partir de un modelo
terico (ellas diran cual) explicativo de lo que representa el conocimiento del ingls escrito.
a) Estaba formado por 61 tems, 41 propios de ese subtest y 20 comunes a todos los
subtests.
b) Tena una dificultad heterognea. Los 5 nativos haban valorado subjetivamente la
dificultad de los tems, y en cada subtest se incluan tems de amplia gama de
dificultad previsible.
c) La cantidad de tems de una categora se decida segn el peso de esa categora en el
banco completo; por ejemplo, para la categora morfologa, que tena el 35 % de
los tems del banco (222 de los 635 tems totales), se eligieron 20 tems para cada
subtest (aproximadamente el 35 % de 61).
Estudio piloto de uno de los subtests. El primero de los subtests se aplic a una muestra de
435 personas: estudiantes de ESO y Bachillerato, estudiantes y profesores de Psicologa, y
estudiantes de Filologa Inglesa. Se les pidi alguna informacin adicional, como su
autoevaluacin del dominio del ingls y el procedimiento seguido para el aprendizaje del
idioma (colegio, familia, escuela oficial de idiomas,etc.). Algunos resultados de este primer
estudio psicomtrico fueron:
a) Se eliminaron 9 tems por ser demasiado fciles o correlacionar de forma escasa con
el total del subtest.
b) De los 52 tems retenidos, la media de las correlaciones tem-total fue 0.556. El
coeficiente de Cronbach result ser de 0.91
c) El anlisis factorial (mtodo de componentes principales) sobre la matriz de
correlaciones tetracricas entre los 52 tems dio lugar a un primer autovalor de 15.78
(30.35 % de la varianza total), lo que se consider como prueba suficiente de
89
En los cinco anlisis se observa que los niveles de rasgo medios se incrementan a medida
que lo hacen los niveles de cada una de las variables independientes. Todas las
comparaciones mltiples post hoc (estadstico DHS de Tukey) resultaron significativas
(p<0.05). En los valores de los tamaos del efecto (2) puede observarse un mayor poder
predictivo de las autoevaluaciones del nivel de ingls que de las variables relacionadas con
la formacin en el idioma.
confirmatorios (vase Ruiz2, 2000), sirve para estudiar el grado de ajuste entre un modelo
terico (donde se plantean ciertas relaciones entre variables empricas y tericas) y los datos
reales. En nuestro caso, el modelo terico consiste en plantear una variable latente o factor
(nivel informado de ingls) en la que obtuvieran saturaciones positivas las 5 variables
incluidas en el cuestionario; adems, planteamos una relacin positiva entre esta variable
latente y las puntuaciones estimadas a partir del rendimiento manifestado en los subtests de
ingls escrito.
Algunas medidas de ajuste del modelo fueron: 2 gl = 4.599, AGFI = 0.992, RMSEA =
0.037, que son indicadores de un buen ajuste del modelo terico a los datos empricos. Las
estimaciones de las saturaciones se recogen en la siguiente figura. Puede comprobarse que la
correlacin entre las estimaciones de nivel de ingls y el factor latente de nivel informado de
ingls es 0.81.
Enseanza
media
e
0.39
Formacin
e
0.35
Escritura e
e 0.89
Conversacin
e
2
Ruiz, M.A. (2000). Introduccin a los modelos de ecuaciones estructurales. Madrid: UNED
Ediciones.
91
EJERCICIOS
1. Seale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construccin de un cuestionario.
Sujetos 1 2 3 4 5 6 7 8 9 10
Test 18 15 12 11 8 4 5 6 9 3
Calificacin 9 8 7 6 4 2 4 4 5 2
a) Correlacionando las puntuaciones del test con otro criterio, podramos obtener un coeficiente de
validez menor de 0.10? Razone su respuesta.
b) Correlacionando las puntuaciones del test con otro criterio distinto, podramos obtener un
coeficiente de validez mayor de 0.60? Razone su respuesta.
7. Un pequeo test de aptitudes intelectuales consta de dos tems de aptitud verbal (el 1 y el 4)
y de dos tems de aptitud numrica (el 2 y el 3). Despus de aplicarse a un grupo normativo, la
matriz de correlaciones se someti a un anlisis factorial, cuya matriz F rotada se presenta en la
tabla que aparece a continuacin.
8. Estamos intentando elaborar una escala que mida la calidad de ciertos productos. Cada tem
consiste en un adjetivo y la persona ha de evaluar de 1 (totalmente en desacuerdo) a 5
(totalmente de acuerdo) en qu medida el adjetivo se aplica al producto. Tras un anlisis factorial, la
matriz rotada resultante ha sido:
Factor I Factor II Factor III
Barato -0,1 0,8 0,2
Agradable 0,2 0,2 0,7
til 0,9 -0,1 -0,2
Cmodo 0,6 -0,2 -0,1
Precio justo 0,1 0,9 0,2
Bonito -0,2 -0,1 0,6
Necesario 0,7 0,2 0,0
Atractivo -0,2 -0,1 0,5
Prctico 0,8 0,1 0,2
Manejable 0,8 0,2 -0,1
9. En la seleccin de aspirantes a un curso de formacin, los sujetos han sido examinados con
un cuestionario que obtuvo una media de 5 y una desviacin tpica de 2. Una vez terminado el
curso, los mismos sujetos fueron valorados por sus formadores segn una escala de 0 a 20, con
media 10 y desviacin tpica 3. La correlacin entre los resultados en el cuestionario y las
valoraciones de los formadores fue de 0.35.
a) Realice una estimacin puntual de la valoracin que recibira una persona que obtuvo 4 puntos en
el cuestionario.
b) Estime, con probabilidad 0.95, el intervalo de confianza en el que se encontrar la valoracin
para esta misma persona.
10. Un test de 5 tems tiene un coeficiente de fiabilidad de 0.4 y un coeficiente de validez de 0.5.
a) Queremos que su coeficiente de validez alcance el valor de 0.6. Qu longitud debera tener el
test?
b) Queremos que su coeficiente de validez alcance el valor de 0.8. Qu longitud debera tener el
test?
c) Cul es mximo valor del coeficiente de validez que se puede alcanzar alargando el test?
11. Un psiclogo dispone de tres pruebas de desorden del pensamiento (T1, T2, y T3), de igual
variabilidad, para pronosticar un determinado criterio (esquizofrenia). Los coeficientes de
fiabilidad, de validez y nmero de tems de cada test son:
Si los tres tests tuviesen la misma longitud, cul sera ms fiable? cul, ms vlido?
13. Asocie cada uno de estos trminos a cada una de las frases: coeficiente de fiabilidad, ndice
de validez, autovalor, coeficiente de determinacin, ndice de homogeneidad, saturacin.
14. Un test tiene un coeficiente de fiabilidad de 0.6 y de validez de 0.42. Duplicamos el test y
conseguimos un coeficiente de validez superior a 0.42. Volvemos a duplicarlo y conseguimos un
coeficiente de validez an mayor.
15. Aplicamos a Juana un test para predecir su rendimiento en un criterio, concluyendo que, con
probabilidad 0.99, su puntuacin en dicho criterio estar entre 24 y 30. Sabemos adems que en el
test obtuvo una puntuacin tpica igual a 1.5 Responda razonadamente a las siguientes cuestiones:
16. Un Centro de Investigaciones Sociolgicas est interesado en evaluar el impacto que los
escndalos acaecidos en la vida pblica han tenido en la imagen que la sociedad espaola tiene de la
clase poltica. Para ello, elaboran un cuestionario con seis elementos y la aplican a una muestra de
cinco sujetos. Adems se les pide a los sujetos que den una valoracin personal de la clase poltica,
en una escala de 1 a 20. La tabla recoge las respuestas dadas por los cinco sujetos a las preguntas
del cuestionario junto con su valoracin de la clase poltica.
a) Obtenga e interprete el coeficiente alfa del cuestionario formado por los 6 tems.
b) Cul ser la validez de este cuestionario si tomamos las valoraciones realizadas por los sujetos
como un criterio adecuado? Interprtelo.
c) Cuntos elementos tendramos que aadirle al cuestionario para que su nuevo coeficiente de
validez alcanzase un valor de 0,60?
R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)
Mean Std Dev Cases
1. IT1 2,4000 ,8433 10,0
2. IT2 1,9000 ,7379 10,0
3. IT3 3,7000 ,9487 10,0
4. IT4 2,6000 ,6992 10,0
N of
Statistics for Mean Variance Std Dev Variables
SCALE 10,6000 4,7111 2,1705 4
Item-total Statistics
Scale Scale Corrected
Mean Variance Item- Alpha
if Item if Item Total if Item
Deleted Deleted Correlation Deleted
IT1 8,2000 2,4000 ,6124 ,2917
IT2 8,7000 2,9000 ,5040 ,4138
IT3 6,9000 3,2111 ,1765 ,6851
IT4 8,0000 3,5556 ,2528 ,5906
Reliability Coefficients
N of Cases = 10,0 N of Items = 4
Alpha = ,5849
Matriz de componentesa
Componente
1 2
IT1 ,852 2,088E-02
IT2 ,769 ,121
IT3 ,368 ,874
IT4 ,672 -,643
Mtodo de extraccin: Anlisis de componentes principales.
a. 2 componentes extrados
Componente
1 2
IT1 ,827 ,208
IT2 ,724 ,287
IT3 ,167 ,934
IT4 ,797 -,479
Mtodo de extraccin: Anlisis de componentes principales.
19. Si el coeficiente de validez del test es 0.7, la correlacin entre las puntuaciones verdaderas
entre dicho test y el criterio ser: a) 0,7; b) mayor que 0,7; c) menor que 0,7. Razone su respuesta.
R E L I A B I L I T Y A N A L Y S I S - S C A L E (S P L I T)
97
Matriz de componentes a a
Matriz de componentes rotados Matriz de transformacin de las componentes
22. A un grupo normativo de 100 sujetos se le ha aplicado un test (X) formado por 4
tems y se le ha medido en un criterio (Y), obtenindose la siguiente matriz de correlaciones.
Se indica tambin la varianza de cada variable.
a) Diga cules son: 1) el tem que ms contribuye a la consistencia interna del test, 2) el tem
que ms contribuye a la validez del test. Razone sus respuestas y, en caso de necesidad,
realice los clculos oportunos.
b) Obtenga e interprete un indicador de la consistencia interna del test.
c) Obtenga la amplitud que tendra el intervalo para estimar la puntuacin en el criterio de
cualquier persona que hiciera el test, si dicho intervalo lo establecemos con un nivel de
significacin de 0.05.
d) Sabiendo que el coeficiente de fiabilidad del test de 4 tems es 0.80, obtenga e interprete el
coeficiente de validez que tendra el test si le aadimos 12 tems paralelos a los que ya tiene.
a) Una persona obtiene en el test de responsabilidad una puntuacin que se encuentra dos
desviaciones tpicas por debajo de la media. Obtenga, con probabilidad 0.95, entre qu
valores estimamos que se encontrar su puntuacin directa en el criterio.
b) Obtenga e interprete la proporcin de varianza del criterio que podemos pronosticar con el
test si lo alargamos 3 veces, es decir, si le aadimos dos formas paralelas.
99
24. A continuacin aparecen distintas partes de una salida de SPSS para el anlisis de la
fiabilidad de 6 de los 36 tems del test de matrices progresivas de Raven en una muestra de 1800
sujetos. En concreto, se analizaron los tems que ocupaban las posiciones 10, 15, 20, 25, 30 y
35 del test.
100.0
Matriz de componentes a
80.0
Componente 70.0
1 60.0
RAVEN10 .609
50.0
RAVEN15 .424
RAVEN20 .486 40.0
RAVEN30 .523
20.0
RAVEN35 .541
14.9
10.0
Mtodo de extraccin: Anlisis de componentes principales.
0.0 4.9
a. 1 componentes extrados 1
9
ANLISIS DE LAS OPCIONES (TEM 35)
ANLISIS DE FIABILIDAD:
Item-total Statistics
Scale Scale Corrected
Mean Variance Item- Squared Alpha
if Item if Item Total Multiple if Item
Deleted Deleted Correlation Correlation Deleted
RAVEN10 3.2480 1.5606 .2755 .0824 .3641
RAVEN15 3.3137 1.6051 .1571 .0404 .4204
RAVEN20 3.3912 1.5043 .2042 .0435 .3954
RAVEN25 3.4716 1.4742 .1987 .0466 .3996
RAVEN30 3.4735 1.4468 .2233 .0529 .3839
RAVEN35 3.5529 1.4270 .2256 .0598 .3827
Reliability Coefficients 6 items
Correlation between forms = .2594 Equal-length Spearman-Brown =
Guttman Split-half = .4071 Unequal-length Spearman-Brown =
Alpha for part 1 = .2928 Alpha for part 2 = .3053
100
En la figura se representan los porcentajes de eleccin de las opciones de respuesta para
el tem 35, cuya opcin correcta es la 3 (recuerde que el test se ha aplicado a 1800 sujetos y
que cada tem tiene 8 opciones de respuesta).
3. No. La fiabilidad del test podemos incrementarla hasta que llegue a su tope de 1. En
este caso, la validez mxima que puede alcanzar este test completamente fiable sera
la raz cuadrada del coeficiente de fiabilidad del criterio, que sera igual a 0.77.
5. a) rxy = 0.98
b) Sy-y' = 0.45
6. a) S. Por ejemplo, cuando el criterio no tenga que ver con lo que el test mida.
b) No, ya que rxy 0.25 = 0.5 .
7. a) Parece que s, dado que los dos tems de aptitud verbal obtienen saturaciones altas
en el Factor II, mientras que los dos tems de aptitud numrica obtienen saturaciones
altas en el Factor I.
b) El porcentaje de varianza explicado por el factor I ser (1.77)(100)/4 = 44.
9. a) Y' = 9.475
b) Li = 3.97 Ls = 14.98
10. a) n = 2.04 2, debera estar formado por 2 formas paralelas del test inicial; es decir,
por 10 tems.
b) n = -64, no se puede alcanzar la validez de 0.8 mediante el incremento de la
longitud del test. El mximo valor del coeficiente de validez obtenible por
alargamiento del test es rxy 0.4 = 0.79.
11. Si los tres tests tuviesen la misma longitud el ms fiable sera el tercero, ya que si
alargsemos el Test 1 hasta que tuviese 40 tems su coeficiente de fiabilidad
102
valdra 0,46. El ms vlido sera tambin el Test 3, ya que al alargar el Test 1 su
coeficiente de validez toma el valor de 0,33.
14. a) 0.8 es mayor que el tope mximo alcanzable (0.54 = 0.42/0.6) alargando el test,
luego NO se puede alcanzar el valor 0.8.
b) Cualquier valor menor que 1 se puede alcanzar alargando el test. Luego, SI.
16. a) Las varianzas de los tems son: 1.6, 0.4, 0.4, 2, 1.36 y 1.6
La varianza del test es 17.76
El coeficiente alfa es (6/5)(1 (7.36/17.67)) = 0.70. Alta consistencia, pues el test es
corto.
b) El coeficiente de validez es 0.43. El 18% de la varianza del criterio depende del test.
c) La correlacin par e impar es 0.33. El coeficiente de fiabilidad del test (dos
mitades) es 0.50. El nmero de formas paralelas necesarias para alcanzar la validez
0.6 es 36.73. El test deber tener 36.73x6= 220.38 tems, por lo que deberemos aadir
220.38 6 = 214.38 215 tems.
18. Sera mayor que 0.54, pues la muestra de todos los aspirantes (los que han aprobado
la selectividad y los que no) tiene una mayor variabilidad y por lo tanto cabe esperar
un mayor coeficiente de validez.
19. La correlacin entre las puntaciones verdaderas del test y criterio es mayor o igual que
el coeficiente de validez (vase apartado 4.3).
103
20. a) F
b) V
c) F
22. El tem 2, pues tiene la mayor correlacin con el test (0.87). El tem 4, pues tiene la
mayor diferencia V-H (0.29).
b) El coeficiente alfa vale 0.06. El test no tiene consistencia.
c) 12.97
d) El coeficiente de validez del test alargado cuatro veces es 0.82. Este coeficiente de
validez es muy alto. El test predice muy bien el criterio. El 67.24% de la varianza del
criterio puede explicarse por las puntuaciones en el test