Sunteți pe pagina 1din 43

61

TEMA IV: VALIDEZ DEL TEST

1.- CONCEPTO DE VALIDEZ

Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su
fiabilidad), y otra diferente es la cuestin de qu es lo que autnticamente est evaluando. En el
mbito psicosocial, los diferentes constructos resultan difcilmente operativizables de manera
indiscutible, y a veces se producen dudas razonables sobre qu mide un determinado test. Una
prueba de inteligencia general tendr un elevado grado de validez si asigna puntuaciones altas a
las personas muy inteligentes, puntuaciones medias a las personas medianamente inteligentes y
puntuaciones bajas a las personas de poca inteligencia. Un cuestionario para evaluar el nivel de
autoestima tendr un elevado nivel de validez si se demuestra que mide de forma exhaustiva
todos los componentes en que puede manifestarse la autoestima.

La validacin es un proceso continuo, que incluye procedimientos diferentes para comprobar


si el cuestionario mide realmente lo que dice medir. Dicho de otro modo, tiene que ver con el
tipo de conclusiones o inferencias que pueden realizarse a partir de las puntuaciones obtenidas
en el test. Las inferencias pueden ser de muy diverso tipo: qu rasgo estamos midiendo
realmente? Qu podemos predecir sobre el comportamiento de un sujeto que obtiene una
determinada puntuacin en el test? Qu consecuencias de diverso tipo tiene esa puntuacin, en
contextos de evaluacin o seleccin?

Aunque cada vez se tiende ms a concebir la validez como un proceso unitario que tiene
como objetivo aportar pruebas sobre las inferencias que podemos realizar con un test,
tradicionalmente se han diferenciado varios procedimientos de validacin, alguno de los cuales
incluye varios mtodos diferentes de comprobacin. Los fundamentales procedimientos son
denominados como validez de contenido, de constructo y referida al criterio.

2.- VALIDEZ DE CONTENIDO

Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de


aptitudes, etc...) y en pruebas de conocimientos (cuestionarios para evaluar el rendimiento en
una materia escolar o en una especialidad temtica concreta), tiene sentido justificar que el
conjunto de items que forman el test conforman una muestra representativa del universo de
contenidos que interesa evaluar. Un test de conocimientos de Qumica en 8 de EGB, por
ejemplo, debera incluir cuestiones representativas de los diferentes ncleos de contenidos que
oficialmente deben impartirse en ese nivel de estudios. Sera una prueba poco vlida si incluye
demasiadas cuestiones de unos temas y muy pocas de otros.

Para justificar, aunque slo sea racionalmente, que un test posee validez de contenido, debe
quedar bien definido el universo o dominio conductual de referencia: especificar claramente
cules son los contenidos de Qumica que debe conocer un alumno de 4 de ESO, cules son los
componentes que interesa considerar en un cuestionario de cultura general, qu tipo de
conocimientos y destrezas son las pertinentes para medir el nivel bsico de ingls, etc. En
definitiva, nos referimos a explicitar claramente los objetivos de la evaluacin y la importancia
que se quiere dar a cada uno, lo que determinar la cantidad de cuestiones a incluir referidas a
62

cada uno de esos objetivos. En definitiva, la validez de contenido es un tema particular del de
muestreo: si deseamos realizar inferencias sobre el rendimiento de las personas en una
poblacin de contenidos determinada, el test debe incluir una muestra representativa de dichos
contenidos.

El proceso de validacin de contenido es eminentemente lgico, si bien pueden utilizarse


jueces expertos en el tema para valorar la congruencia entre los diversos items y los diversos
objetivos. Existen procedimientos cuantitativos diversos para que cada experto valore el grado
en que un tem sirve para evaluar el objetivo al que corresponde. El procedimiento cuantitativo
ms sencillo sera el siguiente:

- Especificar los diversos objetivos (v.gr. reas diferentes de contenidos) que se pretenden
evaluar.
- Elaborar varios tems para cada objetivo.
- Seleccionar una muestra de expertos en el contenido del test.
- Pedirles que, segn su opinin, asignen cada tem al objetivo que pretende medir.
- Seleccionar los tems en los que los expertos manifiestan mayor acuerdo en sus
clasificaciones.

Muy en relacin con la validez de contenido se encuentra lo que se ha dado en llamar


"validez aparente", que se refiere al grado en que un test da la impresin a los evaluandos de
que mide lo que se pretende. En situaciones aplicadas, es importante que las personas perciban
que los tems del test tienen que ver con la finalidad que se persigue con el procedo de
evaluacin.

3.- VALIDEZ DE CONSTRUCTO

Un constructo es un concepto elaborado por los tericos de la Psicologa para explicar el


comportamiento humano. Inteligencia fluida, extroversin, autoconcepto, asertividad,
motivacin intrnseca... son constructos que forman parte de teoras psicolgicas y que precisan
de indicadores observables para su estudio. En muchas ocasiones, estos indicadores son los
tems de un test, y debe comprobarse empricamente que resultan adecuados para reflejar el
constructo de referencia

3.1.- ESTRATEGIAS PARA LA VALIDEZ DE CONSTRUCTO

La validez de constructo incluye la planificacin y ejecucin de determinados estudios


de investigacin orientados a comprobar empricamente que un test mide realmente el
constructo o rasgo que pretendemos.

Aunque los mtodos a emplear son sin duda variados, as como la tcnicas estadsticas para
analizar los datos, podemos encontrar un comn denominador a todos ellos, que se sintetiza en
las siguientes fases:

1.- Formular hiptesis relevantes (extradas de deducciones tericas o del sentido


comn) en las que aparezca el constructo que pretendemos evaluar con el test. En
definitiva, una hiptesis de trabajo consiste en poner en relacin dos o ms variables.
Pues bien, una de esas variables ha ser el constructo que pretendemos medir con el test.
63

2.- Efectuar en la prctica mediciones oportunas de las variables o constructos


involucrados en las hiptesis. La medicin del constructo de inters se realizar con la
prueba diseada a tal efecto, que es la que pretendemos validar.

3.- Determinar si se verifican o no las hiptesis planteadas. En el caso de que as sea,


queda confirmado mediante una investigacin que el test mide el constructo de inters
ya que, de lo contrario, no habra razones lgicas para que se cumplieran las hiptesis
formuladas. Si las hiptesis no se confirman no significa en principio que el test no es
vlido, ya que puede ser debido a que las hiptesis no estaban planteadas de manera
adecuada, lo cual exigira una revisin de la teora subyacente.

Imaginemos, por ejemplo, que un investigador est interesado en validar una prueba de
motivacin intrnseca-extrnseca que ha construido. Desde la teora motivacional de partida se
puede deducir que las personas motivadas intrnsecamente (por el mero placer que les supone la
ejecucin de determinadas tareas) deberan rendir mejor en actividades escolares que las
personas motivadas por razones extrnsecas (deseos de alcanzar determinada nota o
determinado refuerzo externo). Para validar su prueba, el investigador tiene que demostrar
empricamente que mide autnticamente el constructo motivacional que se pretende, y podra
proceder de la siguiente manera:

a) Aplicar el test a un grupo amplio de alumnos del nivel escolar apropiado.

b) Recoger informacin de cada alumno sobre su nivel intelectual, su calificacin


acadmica media en el ltimo curso y las horas que dedica al estudio.

c) Formar dos grupos diferentes (A y B), de tal manera que ambos tengan un mismo
nivel intelectual medio y que ocupen un nmero similar de horas en el estudio, pero que
el grupo A tenga niveles altos de motivacin intrnseca y el B niveles altos de
motivacin extrnseca.

d) Comparar el rendimiento acadmico de los dos grupos. Si la hiptesis de partida


fuera cierta, el grupo A debera rendir significativamente ms que el grupo B, con lo
cul se aportara informacin sobre la validez del test. Desde luego, si el test no midiera
motivacin, sera improbable que se verificase la hiptesis de trabajo.

Pueden ser muy variados los mtodos a seguir que, cumpliendo el proceso de ejecucin
planteado anteriormente, sirvan para poner a prueba la validez de constructo de un test. En
cada caso habr que seguir el que ms convenga para contrastar las hiptesis de partida, pero
algunos mtodos suelen ser ms frecuentes. Entre ellos destacamos:

- Obtener las relaciones entre las puntuaciones en el test y en otras variables que
deberan relacionarse con el constructo de inters. Si el modelo terico est bien
fundamentado, debe establecer relaciones entre el constructo de inters y otros
diferentes, y por tanto debe ser posible establecer diseos de investigacin para
contrastar las previsiones tericas. Por ejemplo, Molt (1988) predice (y comprueba)
que la escala de susceptibilidad al castigo (que mide el grado de evitacin de situaciones
reales aversivas) debe proporcionar puntuaciones relacionadas directamente con
neuroticismo e inversamente con estabilidad emocional.
64

- Evaluar mediante el test a grupos que se supone deben ser diferentes en el constructo,
para comprobar si realmente es as. Resulta un enfoque eminentemente diferencial: si el
test es vlido, debera reflejar las diferencias entre grupos que se predicen desde la
teora psicolgica. Por ejemplo, si un test de inteligencia general para edades infantiles
es vlido, debera reflejar el mayor rendimiento de los nios de ms edad.

- Utilizar una estrategia experimental para comprobar si el test resulta sensible para
detectar los efectos previsibles debidos a la manipulacin o seleccin de los niveles en
una o ms variables independientes. El ejemplo expuesto anteriormente sobre
motivacin y rendimiento puede servir para entender esta estrategia.

- Aplicar la tcnica multivariada del Anlisis Factorial (exploratorio o confirmatorio)


sobre la matriz de correlaciones entre items, para descubrir estadsticamente las
variables o dimensiones subyacentes (factores) a la covariacin entre los elementos.

3.2.- VALIDEZ DE CONSTRUCTO FACTORIAL

Este ltimo mtodo, denominado validez de constructo factorial, requiere alguna


precisin que puede ser pertinente por fundamentarse en una tcnica estadstica relativamente
sofisticada y, sobre todo, porque su utilizacin prctica es muy extensa.

El anlisis factorial es una tcnica estadstica multivariante que sirve para estudiar las
dimensiones que subyacen a las relaciones entre varias variables. Normalmente toma como
datos de partida la matriz de correlaciones entre las n variables que interesa analizar. Como
informacin final, proporciona una matriz de tamao n p, denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de las p dimensiones
extradas, y que son las correlaciones de Pearson entre cada variable y cada dimensin.

El anlisis factorial se realiza con dos objetivos 1) determinar cual es el nmero de


dimensiones o factores que mide un test y descubrir cual es el significado de cada una; 2)
obtener la puntuacin de cada sujeto en cada dimensin. Normalmente, el nmero de
dimensiones que mide un test es mucho menor que el de tems. Para descubrir su significado y
darles sentido es necesario fijarse en las variables que saturan de forma elevada en cada
dimensin. Cuando el investigador se enfrenta con la tarea de dar significado a una dimensin,
debe realizar un proceso inferencial para encontrar el nexo de unin entre las variables que
manifiestan correlaciones elevadas en la dimensin. Adems, los diferentes factores
(dimensiones) extrados no tienen la misma importancia. Cada uno explica una determinada
cantidad de la varianza total de los tems, que se expresa porcentualmente, y que indica la
importancia de esa dimensin para dar cuenta de la covariacin entre las variables. Si un factor
explica un porcentaje elevado de la varianza total, eso es sntoma de que las saturaciones de las
variables en dicho factor son altas, lo que significa que es una dimensin importante a la hora
de describir las relaciones entre las variables originales.
65

3.2.1.- EJEMPLO DE ANLISIS FACTORIAL

Un psiclogo ha elaborado una prueba de cinco tems para evaluar la actitud hacia las nuevas
tecnologas por parte de las personas mayores. Los tems, que se responden en una escala de
siete categoras ordenadas (desde 1: muy de acuerdo" hasta 7: muy en desacuerdo"), son los
siguientes:

tem 1: El uso de telfonos mviles puede hacerme la vida ms fcil.


tem 2: Los aparatos modernos son demasiado caros.
tem 3: Me gustara tener una agenda electrnica.
tem 4:Utilizara ms el telfono mvil si fuera ms barato.
tem 5: Gracias a internet podemos resolver muchos problemas.

Los 5 tems se aplicaron a una muestra de 200 personas. La matriz de correlaciones entre ellos
se someti a un anlisis factorial, obtenindose los siguientes resultados. Esta matriz contiene
las saturaciones, es decir, la correlacin de cada tem con cada uno de los factores que mide el
test:

tem Factor I Factor II

1 0.845 -0.126
2 -0.201 0.803
3 0.672 0.012
4 0.052 -0.615
5 0.713 -0.143

% de varianza 34% 21%


total explicada

Hay dos factores fundamentales que explican las relaciones entre los 5 items. Supongamos que
se tipifican las puntuaciones en los tems; la varianza total sera cinco, que es la suma de la
varianza de cada tem. El factor I explica un 34% de la varianza total, el factor II explica un
21% de la varianza total. Con los dos factores se explica el 55% de la varianza de los tems.

En el factor I obtienen saturaciones altas los items 1, 3 y 5, que indican si la persona considera
que las nuevas tecnologas pueden ser tiles para mejorar su calidad de vida. El tem 2 tiene una
saturacin negativa porque manifiesta una actitud contraria hacia las nuevas tecnologas. Por
tanto, el factor I puede denominarse Actitud hacia las nuevas tecnologas como medio para
mejorar la calidad de vida.

En el factor II obtienen saturaciones elevadas (en valor absoluto) los tems 2 y 4, mientras que
el resto de saturaciones son cercanas a cero. El hecho de que el tem 2 tenga una saturacin
positiva y el 4 negativa significa que las personas con puntuacin alta en el factor II tienden a
66

estar de acuerdo con el tem 2 y en desacuerdo con el 4. Este segundo factor podra etiquetarse
Sensibilidad hacia el gasto que supone utilizar las nuevas tecnologas.

Vemos, pues, que las relaciones de covariacin entre los tems podemos explicarlas con dos
dimensiones que resultan bastante claras de identificar. Como el lector puede suponer, las cosas
no son tan evidentes en la prctica; el investigador debe decidir cuntos factores estn presentes
en los datos y, sobre todo, debe asignar un significado a cada factor, lo que normalmente no es
tan sencillo como en este ejemplo. Lo que es cierto es que la aplicacin del anlisis factorial
aporta informacin sobre las dimensiones que estamos midiendo con un determinado
cuestionario, es decir, proporciona informacin sobre la validez de la prueba.

3.2.2.- EL MODELO FACTORIAL

El anlisis factorial se basa en un modelo que es una extensin del utilizado en teora clsica de
tests. A modo de ejemplo, consideremos los siguientes cinco tems de una escala de satisfaccin
vital, evaluados en una escala graduada de siete categoras:

1. En la mayora de los aspectos, mi vida est cerca de ser ideal.


2. Si pudiera vivir de nuevo, no cambiara casi nada.
3. Estoy satisfecho con mi vida.
4. Hasta ahora he conseguido todas las cosas importantes que me he propuesto en la
vida.
5. Las condiciones de mi vida son excelentes.

Estos tems se aplicaron a una muestra de 250 sujetos y se obtuvo la siguiente matriz de
correlaciones. Adems se muestran las desviaciones tpicas:

1,000
0,617 1,000

0,592 0,518 1,000

0,448 0,321 0,432 1,000
0,486 0,454 0,457 0,434 1,000
Desviacin 1,602 1,579 1,569 1,664 1,832

Puede plantearse que los cinco tems miden una misma caracterstica, la satisfaccin vital.
Aplicando el modelo de la teora clsica de tests a las puntuaciones de los tems, se obtienen las
ecuaciones:

X 1 = V + E1
X 2 = V + E2
X 3 = V + E3
X 4 = V + E4
X 5 = V + E5
67

Esto significa que todos los tems miden la misma caracterstica (la satisfaccin vital),
representada por V en el modelo. Adems, hay un error de medida que puede ser distinto para
cada tem. Es posible plantearse que no todos miden igual de bien la satisfaccin vital. Por esta
razn se definen los parmetros i, denominados saturaciones, que indican la relacin de cada
tem con la caracterstica o factor que miden todos ellos. Si a la satisfaccin vital se la denomina
F en lugar de V, se obtiene el modelo de un factor:

X 1 = 1 F + E1
X 2 = 2 F + E2
X 3 = 3 F + E 3
X 4 = 4 F + E4
X 5 = 5 F + E 5

Las saturaciones se calculan a partir de la matriz de correlaciones entre los tems. Los clculos
son bastante tediosos y se realizan mediante ordenador. Por esta razn, a continuacin se
muestran nicamente los resultados del anlisis factorial y no la forma en que se han calculado.
En el ejemplo, a partir de la matriz de correlaciones mencionada anteriormente, se llega al
siguiente modelo de un factor:

X 1 = 0,819F + E1
X 2 = 0,719F + E 2
X 3 = 0,729F + E3
X 4 = 0,555F + E 4
X 5 = 0,629F + E5

Lo cual significa que el factor tiene una relacin ms fuerte con el tem 1 que con los dems,
aunque todas las saturaciones son elevadas. Las saturaciones resultan ser iguales a las
correlaciones de cada tem con el factor. Pueden tomar valores positivos o negativos. Si la
saturacin es cero, o prxima a cero, no existe relacin entre el tem y el factor. Saturaciones
extremas, en cualquier direccin, significan que la relacin es fuerte.

A partir del modelo de un factor, y teniendo en cuenta las propiedades de las combinaciones
lineales de variables, la varianza de los tems puede expresarse como:
X2 1 = 0,8192 F2 + E21
X2 = 0,7192 F2 + E2
2 2

2
X3 = 0,729 +
2 2
F
2
E3

X2 = 0,5552 F2 + E2
4 4

2
X5 = 0,628 +
2 2
F
2
E5

Al estimar el modelo factorial a partir de la matriz de correlaciones, se est asumiendo


implcitamente que los cinco tems y el factor vienen expresados en puntuaciones tpicas. Esto
significa que las varianzas de los tems se descomponen del modo siguiente:
68

X2 = 1 = 0,819 2 + E2
1 1

2
X2 = 1 = 0,719 +
2 2
E2

X2 = 1 = 0,729 2 + E2
3 3

2
X4 = 1 = 0,555 +
2 2
E4

X2 = 1 = 0,628 2 + E2
5 5

A las saturaciones al cuadrado se las denomina comunalidades y se las representa por el


smbolo hi2 . Las comunalidades indican la cantidad de varianza del tem explicada por el
factor. En el ejemplo, las comunalidades son h12 = 0,671 , h22 = 0,517 , h32 = 0,531 , h42 = 0,308
y h52 = 0,394 . La suma de las comunalidades es la varianza de los tems explicada por el factor.
En nuestro ejemplo, esta suma es 2,422. Como la varianza total de los tems es 5, la proporcin
de varianza explicada por el factor es 2,422/5 = 0,484; es decir, el 48%.

La varianza de los errores se denomina unicidad, y se simboliza mediante i2 . La unicidad de


un tem indica cuanta varianza del mismo no depende del factor, es decir, es varianza especfica
del tem que no se relaciona con lo que los tems miden en conjunto. Las unicidades se calculan
i2 = 1 hi2 . En el ejemplo, las unicidades son 12 = 0,329 , 22 = 0,483 , 32 = 0,469 ,
42 = 0,692 y 52 = 0,606 . La suma de las unicidades es la varianza de los tems no explicada
por el factor, en este caso el 52% del total.

Es posible formular modelos factoriales en los que cada tem mida ms de una caracterstica
simultneamente. Supongamos que se hipotetiza que el cuestionario mide dos factores,
denominados F1 y F2. Entonces, las saturaciones se denominan ij (siendo i el tem y j el factor),
y el modelo de dos factores es:
X 1 = 11 F1 + 12 F2 + E1
X 2 = 21 F1 + 22 F2 + E 2
X 3 = 31 F1 + 32 F2 + E3
X 4 = 41 F1 + 42 F2 + E 4
X 5 = 51 F1 + 52 F2 + E5

Al estimar las saturaciones a partir de la matriz de correlaciones se obtiene el resultado:

X 1 = 0,748F1 + 0,328F2 + E1
X 2 = 0,748F1 + 0,170F2 + E 2
X 3 = 0,626F1 + 0,353F2 + E3
X 4 = 0,252F1 + 0,783F2 + E 4
X 5 = 0,499F1 + 0,390F2 + E5
69

Puede verse que todos los tems tienen una correlacin ms fuerte con el factor I que con el
factor II, exceptuando el tem 4. Al haber dos factores, las comunalidades se calculan
hi2 = i21 + i22 . El resultado es 0,667, 0,588, 0,516, 0,677, y 0,401. Las unicidades se calculan
del mismo modo que en el modelo de un factor ( i2 = 1 hi2 ), y son 0,333, 0,412, 0,484, 0,323
y 0,599.

Adems, es posible calcular la varianza explicada por cada factor. Esta varianza es la suma de
las saturaciones en ese factor al cuadrado; es decir, la varianza explicada por el factor j es
2j1 + 2j 2 + 2j 3 + 2j 4 + 2j 5 . En el ejemplo, la varianza explicada por cada factor es 1,823 y
1,026, que representa un porcentaje del 36% y del 21% respectivamente. La varianza explicada
por los dos factores en conjunto es 2,859. Al ser la varianza total 5, el porcentaje de varianza
explicada por el modelo de dos factores es el 57%.

3.2.3.- SELECCIN DEL NMERO DE FACTORES

El primer objetivo del anlisis factorial es determinar cuantas dimensiones est midiendo un
test, es decir, cuantos factores deben incluirse en la solucin factorial. Al aadir un nuevo factor
al modelo aumenta la varianza explicada. En el ejemplo, la varianza explicada ha pasado del
48% al 57% al aadir un segundo factor. Sin embargo, esta mejora de la varianza no siempre
justifica que se aadan nuevos factores. Lo esperable, y deseable, es que el nmero de
dimensiones sea mucho menor que el de tems. Esto significara que una misma caracterstica
est siendo medida por muchos tems a la vez, lo que redundara en una mejor precisin de la
medida.

Se han propuesto varios mtodos para la extraccin de los factores y diversas reglas para
determinar cuantos retener. Uno de los procedimientos de extraccin ms sencillos es el de
Componentes Principales y una de reglas ms usadas es la regla de Kaiser (regla K1), en la
que el nmero de factores a retener viene determinado por el nmero de factores con varianza
mayor que uno. Se han propuesto otros procedimientos y reglas con mayor base terica, ms
recomendables y tambin ms complicados. Hay procedimientos que permiten determinar el
nmero de factores a retener utilizando criterios de bondad de ajuste aplicados al modelo
factorial, mediante el estadstico X2 de Pearson. La forma de hacerlo es estimar varios modelos
con distinto nmero de factores. El modelo ms simple (con menos factores) cuyo ajuste sea
satisfactorio es el que se utiliza para interpretar los resultados y obtener conclusiones. Una
descripcin de los mtodos de extraccin y reglas disponibles en el paquete SPSS puede
encontrarse en Pardo y Ruiz1 (2002).

En el ejemplo, se ha visto que la varianza explicada por el primer factor es 1,823 y la del
segundo 1,026. La varianza de los dems factores es menor de uno. Segn la regla de K1, se
descartan aquellos factores cuya varianza sea menor que 1. Por lo tanto, el nmero de factores a
retener ser dos.

La siguiente tabla muestra los valores del estadstico X2 para los modelos de uno y dos
factores, los grados de libertad (gl) y el nivel crtico (p).

1
Pardo, A. y Muiz, M.A. (2002). SPSS 11. Gua para el anlisis de datos. Madrid: Mc Graw Hill.
70

Factores X2 gl p
1 11,89 5 0,036
2 0,81 1 0,368

Utilizando un nivel de significacin =0,05, puede concluirse que el modelo de un factor no


ajusta a los datos. En cambio, el ajuste del modelo de dos factores es bueno. Por tanto se
concluye que el test mide dos dimensiones. En nuestro ejemplo, la conclusin sobre el nmero
de factores a retener sera la misma utilizando X2 que utilizando la regla K1. No obstante, esta
regla ha recibido crticas porque no deja de ser arbitrario fijar en 1 (o cualquier otro valor) el
tope para determinar el nmero de factores a retener.

El ejemplo comentado permite ilustrar una importante propiedad del anlisis factorial. Las
saturaciones cambian en funcin del nmero de factores incluidos en el modelo. Por ejemplo,
las saturaciones de los tems 1 y 2 en el modelo de un factor eran 0,819 y 0,719. En cambio, en
el modelo de dos factores, estos dos tems tienen una saturacin de 0,748 en el factor I. Lo que
esto implica es que antes de intentar interpretar el significado de los factores, es necesario
determinar cuantos factores tiene el modelo. Si se analizan las saturaciones de los tems en un
factor y despus se aade un segundo factor para mejorar el ajuste, las conclusiones anteriores
pueden dejar de se vlidas.

3.2.4.- ROTACIONES

Cuando se estima un modelo factorial las saturaciones no siempre son fcilmente interpretables,
en el sentido de que pueden no indicar con claridad que es lo que estn midiendo los factores.
Para interpretar la solucin, los tems se agrupan en factores, y el significado de estos se infiere
analizando qu tienen en comn los tems que se agrupan en un mismo factor. Esto no siempre
es fcil de descubrir, por ejemplo, si los tems agrupados en un mismo factor son muy
heterogneos y no tienen un contenido comn. Adems, hemos visto que los tems pueden tener
saturaciones relativamente altas en ms de un factor, lo que significa que miden ms de una
caracterstica y hace ms difcil descubrir el sentido de estas.

Para facilitar la interpretacin se aplica a las saturaciones un proceso denominado rotacin, por
el cual se transforman las saturaciones en otras ms sencillas. Con la rotacin se intenta que la
solucin factorial se aproxime a la denominada estructura simple, en cual cada tem tiene una
saturacin igual a 1 en un factor y 0 en los dems. Supongamos que la solucin factorial
hubiera sido:

F1 F2
X1 1 0
X2 0 1
X3 1 0
X4 0 1
X5 1 0
71

Esta solucin sera ms fcilmente interpretable que la que hemos obtenido porque no hay
tems que saturen en ambos factores. En la realidad, mediante las rotaciones nunca se encuentra
una estructura simple sino una solucin lo ms parecida posible a la estructura simple.

3.2.4.1. ROTACIN ORTOGONAL

Las saturaciones encontradas en la solucin factorial pueden representarse en un espacio con


tantas dimensiones como factores. En el ejemplo, el resultado sera el siguiente, donde los ejes
son los factores y cada punto representa las saturaciones de una de las variables.

1.0

X4

F2
.8

.6
X5
X3 X1
.4

.2
X2

0.0
F1
-.2
-.2 0.0 .2 .4 .6 .8 1.0

La rotacin ortogonal consiste en girar los ejes (los factores) un cierto nmero de grados.
Supongamos que un investigador desea que el tem 2 tenga saturacin 0 en el factor 2. Esto
sera una forma de simplificar la interpretacin de los factores, dado que el factor 1 vendra
definido por el tem 2, y podra etiquetarse como satisfaccin con lo hecho en la vida..

Para conseguir que la saturacin 22 sea 0, es necesario girar los ejes un ngulo de = 12,8 en
el sentido inverso al de las agujas del reloj. La siguiente figura ilustra la rotacin. Los nuevos
ejes se denominan en la figura F1r y F2r para distinguirlos de los anteriores.
1.0

X4
F2

.8

.6
X5
F2 r

X3 X1
.4

.2
X2
F1 r
0.0
F1
-.2
-.2 0.0 .2 .4 .6 .8 1.0
72

Al realizar la rotacin ortogonal se obtienen unas nuevas saturaciones, aunque las


comunalidades y unicidades no cambian. El resultado es el siguiente.

F1r F2r hi2 i2


X1 0,657 0,486 0,667 0,333
X2 0,767 0,000 0,588 0,412
X3 0,532 0,483 0,516 0,484
X4 0,072 0,819 0,677 0,323
X5 0,400 0,491 0,401 0,599

La varianza explicada por los factores rotados es 1,468 (el 29%) y 1,381 (el 28%), por lo que
la varianza explicada por el primer factor es menor que antes de la rotacin y la del segundo
mayor. Sin embargo, la varianza explicada por los dos factores en conjunto es la misma (el
57%). Este es un resultado general de la rotacin ortogonal: la varianza explicada por cada
factor cambia despus de la rotacin, pero no la varianza explicada en total.

Uno de los tipos de rotacin ortogonal es la denominada VARIMAX. Consiste en escoger el


ngulo de modo que las saturaciones sean lo ms diferentes posible entre si, con lo que se
intenta que tomen valores extremos o valores prximos a cero y se eviten los valores
intermedios. Precisamente, el resultado mostrado en el apartado 3.2.2 es el correspondiente a la
rotacin VARIMAX.

3.2.4.2. ROTACIN OBLCUA

La rotacin oblicua es ms compleja que la ortogonal porque permite que cada factor se rote
un nmero de grados diferente. En el ejemplo, aplicando la denominada rotacin oblicua se
llega a la solucin:

F1 F2
X1 0,808 0,016
X2 0,857 0,158
X3 0,650 0,098
X4 0,068 0,918
X5 0,477 0,204

La siguiente figura muestra las saturaciones obtenidas tras la rotacin oblicua. A diferencia de
lo que suceda en los ejemplos anteriores, los ejes de coordenadas (factores) no son
perpendiculares, en concreto, el ngulo entre ellos es de = 48,8. Estadsticamente, esto
significa que las puntuaciones en los dos factores estn correlacionadas. En el ejemplo, la
correlacin es de 0,658.
73

1.0
X4

.8

.6

r
F2
.4
X5
.2 X3

X1
0.0
F1 r
X2
-.2
-.2 0.0 .2 .4 .6 .8 1.0

Puede verse que la solucin rotada es ms sencilla porque los tems tienen saturaciones altas
en un factor y bajas en el otro. Viendo las saturaciones y el contenido de los tems, puede
suponerse que el factor I significa satisfaccin vital, mientras que el factor II es satisfaccin
con los logros conseguidos. Como hay una correlacin positiva entre los dos factores, los
sujetos que estn satisfechos con su vida presente tienden a estarlo tambin con los logros
conseguidos.

La solucin obtenida tras la rotacin oblicua tiene cuatro caractersticas especficas que deben
tenerse en cuenta: 1) las saturaciones ya no son las correlaciones de los tems con los factores,
2) no permite calcular las comunalidades ni unicidades, 3) no es posible determinar la varianza
explicada por cada factor, 4) los factores pueden estar correlacionados. Estas caractersticas no
se dan en la solucin inicial del anlisis factorial ni en la obtenida tras la rotacin ortogonal.

Debido a estas caractersticas de la rotacin oblicua, en la prctica el anlisis factorial se aplica


en dos pasos. En primer lugar se obtiene la solucin inicial, lo que permite evaluar la bondad de
ajuste del modelo y determinar el nmero de factores. En segundo lugar se realiza una rotacin,
ortogonal u oblicua, segn los propsitos del investigador. La solucin rotada sirve para
interpretar el sentido de los factores. Si se realiza la rotacin ortogonal, es posible calcular las
comunalidades, unicidades y la varianza explicada por cada factor. Si se realiza la rotacin
oblicua, se obtiene la correlacin entre factores y unas saturaciones ms sencillas de interpretar.

3.2.5.- PUNTUACIONES FACTORIALES

Una vez obtenida una solucin factorial definitiva, es posible calcular la puntuacin de los
sujetos en cada uno de los factores. De este modo, en lugar de obtener una puntuacin nica
para cada sujeto en el test, se obtiene la puntuacin en cada uno de los factores que se estn
midiendo.

La siguiente tabla muestra las respuestas de los cinco primeros sujetos, su puntuacin en el test
y las puntuaciones factoriales correspondientes a la rotacin factorial y la oblicua. Al haber
74

concluido que el test mide dos factores sera incorrecto utilizar la puntuacin en el test como el
resultado de cada sujeto. En su lugar, habra que utilizar las dos puntuaciones factoriales
correspondientes a la rotacin que finalmente se decida aplicar.

Ortogonal Oblicua
Sujeto X1 X2 X3 X4 X5 X F1 F2 F1 F2
1 2 4 3 5 2 16 -.797 .727 -0,749 0,064
2 5 7 7 7 6 32 1.383 1.438 1,792 1,853
3 3 5 5 4 1 18 .060 -.059 0,118 -0,514
4 6 6 3 6 5 29 .859 .946 0,919 1,037
5 7 7 3 2 2 24 1.624 -1.605 1,380 -1,459

Segn se ha mencionado, las puntuaciones factoriales se obtienen en puntuaciones tpicas. En


la siguiente figura aparecen los diagramas de dispersin de las puntuaciones factoriales de los
250 sujetos del ejemplo. El diagrama izquierdo corresponde a la rotacin ortogonal y el derecho
a la oblicua. El diagrama derecho muestra que existe una relacin entre ambas puntuaciones
debida a la correlacin existente entre los factores. Esto no sucede as en el izquierdo.

3 3

2 2

1 1
F2

0
F2
0

-1 -1

-2 -2

-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

F1 F1

3.2.6.- VALIDEZ CONVERGENTE-DISCRIMINANTE. MATRICES


MULTIRASGO-MULTIMTODO

Muy en relacin con la validez factorial se encuentra tambin la validez convergente-


discriminante, la cual se evala mediante las matrices multirrasgo-multimtodo. El sentido
de estas definiciones es el siguiente:

1. Validez convergente. Si dos tests miden un mismo rasgo, la correlacin entre ellos
debe ser alta.
75

2. Validez discriminante. Si dos tests miden rasgos diferentes, las correlacin entre ellos
debe ser baja, o al menos menor que con otro test que mida el mismo rasgo.

Supongamos que desean medirse los rasgos factor g, razonamiento espacial y neuroticismo.
Cada uno de los rasgos se evala mediante dos bateras de tests: A y B. Estos tests se aplican a
una muestra de sujetos y se obtiene la siguiente matriz de correlaciones multirasgo-
multimtodo, denominada as porque se evalan varios rasgos utilizando varios mtodos.

A B
A Factor g Espacial Neuroticismo Factor g Espacial Neuroticismo
Factor g 0,87
Espacial 0,61 0,81
Neurocicismo 0,25 0,31 0,73
B
Factor g 0,65 0,41 0,09 0,81
Espacial 0,35 0,50 0,11 0,33 0,78
Neurocicismo -0,05 0,08 0,62 0,19 0,25 0,74

La matriz multirasgo-multimtodo se compone de varias submatrices. La matriz superior


izquierda contiene las correlaciones entre los tests de la batera A. En la diagonal aparecen los
coeficientes de fiabilidad de cada test. Fuera de la diagonal aparecen las correlaciones entre los
tests de la batera A. La matriz inferior derecha muestra la misma informacin referida a la
batera B.

La matriz inferior izquierda (sombreada) contiene las correlaciones entre los tests de las dos
bateras. En la diagonal estn los coeficientes de validez convergente (0,65, 0,50 y 0,62), que
son las correlaciones entre los dos tests que miden el mismo rasgo. Fuera de la diagonal
aparecen los coeficientes de correlacin entre distintos rasgos medidos por distintos tests.

Para evaluar los dos tipos de validez mencionados se procede del siguiente modo:

1) Los coeficientes de validez convergente deben ser mayores que las correlaciones
entre tests que miden diferentes rasgos. En estos datos, existe el problema de que, en la batera
A, la correlacin entre razonamiento espacial y factor g es excesivamente alta, por lo que esta
batera no parece discriminar bien entre ambas. Este problema no sucede en la batera B.

2) El mtodo empleado para medir los rasgos no debe afectar a las relaciones entre
ellos. Esto significa que las tres matrices de correlacin deben ser similares, exceptuando los
elementos de la diagonal. El resultado no es completamente satisfactorio porque la batera B
discrimina mejor entre los tres rasgos que la batera A.

4.- VALIDEZ REFERIDA AL CRITERIO

4.1.- CONCEPTO

En el apartado correspondiente al anlisis de tems estudiamos el concepto de ndice de


validez de un elemento, y ya entonces avanzamos el concepto de criterio externo al test, con el
que correlacionar el rendimiento en cada tem.
76

Sobre todo cuando se pretende utilizar el test para pronosticar determinados criterios de
rendimiento (por ejemplo, el rendimiento escolar en un nivel dado, el total de ventas que se van
a conseguir, el aprovechamiento de un cursillo o la mejora en un proceso teraputico) conviene
que el test se relacione muy estrechamente con un criterio externo. Este criterio externo debe ser
una medida fiable del rendimiento que se quiere pronosticar con el test: calificaciones escolares,
total de ventas producidas en un determinado perodo, estimaciones de un terapeuta de las
mejoras conseguidas por cada persona, etc. A la correlacin entre las puntuaciones en el test
(X) y en el criterio (Y) se le denomina coeficiente de validez, lo designamos como rxy e indicar
el grado en el que el test sirve para pronosticar con precisin el rendimiento en el criterio.

Supongamos, por ejemplo, que la correlacin entre un test de conocimientos adquiridos en 1


de BUP y la calificaciones obtenidas en COU es 0,95 en una muestra apropiada. Como la
correlacin es elevada, cometeramos errores de pronstico pequeos, haciendo uso de la
oportuna ecuacin de regresin, al predecir el rendimiento en COU de un alumno si conocemos
su rendimiento en el test. Podramos estimar con bastante exactitud el rendimiento que
manifestar en COU un determinado alumno que se encuentra todava en 1 de BUP.

El lector puede imaginar que no siempre es til medir un criterio directamente, debido a
razones de coste temporal y econmico. Por eso es preciso que los profesionales dispongan de
tests con elevada validez relativa al criterio en mbitos en los que de una u otra forma deben
tomar decisiones sobre el nivel de los sujetos en un criterio o sobre su admisin o no a un
puesto de trabajo o de estudio determinado.

En muchas ocasiones no resulta sencillo establecer criterios apropiados, fiables y fcilmente


mensurables. Los problemas en cualquiera de estas direcciones repercuten disminuyendo el
coeficiente de validez y, por tanto, la precisin con que se puede pronosticar un nivel dado en el
criterio conociendo la puntuacin en el test.

4.2.- INTERPRETACIN Y ESTIMACIONES EN EL CRITERIO

El coeficiente de validez es una correlacin de Pearson y, por tanto, su interpretacin


ms inmediata se fundamenta en el denominado coeficiente de determinacin, que es
simplemente el cuadrado de la correlacin y que indica la proporcin de varianza del criterio
que podemos pronosticar con el test. As, un test con un coeficiente de validez de 0.5 indicar
que explica un 25 % de la variabilidad o diferencias individuales en el criterio, mientras que el
75 % restante se debe a variables diferentes al test.

Recordando algunos conceptos fundamentales de la regresin lineal simple, el


coeficiente de determinacin se puede expresar de la siguiente manera:

S y2' S y2 y '
r =
2
xy = 1
S y2 S y2

donde S y2 es la varianza del criterio


77

S y2' es la varianza de los pronsticos

S y2 y ' es la varianza de los errores de pronstico

La ecuacin de regresin de Y sobre X en la escala directa se establece como:

Sy Sy
Yi ' = (Y rxy X ) + rxy Xi
Sx Sx

Mediante esta expresin podemos estimar la puntuacin directa en el criterio de una


determinada persona pero, como es conocido, esa estimacin ser tanto ms precisa cuanto
mayor sea la correlacin entre test y criterio. Estadsticamente, resulta ms apropiada una
estimacin por intervalos realizada con cierta probabilidad, para lo cual aplicaremos la siguiente
expresin:

Yi ' Z1 / 2 S y y '

donde Z1-/2 es el valor Z, de la normal (0, 1), asociado a la probabilidad establecida y


Sy-y' es el error tpico de estimacin.

Ejemplo: A una muestra de 5 alumnos de bachillerato se le aplica un test de habilidades


comunicativas (X). A sus respectivos profesores se les pide que hagan una valoracin (de 0 a 20
puntos) de la capacidad de relacin interpersonal de sus alumnos. Estas valoraciones hacen la
funcin de criterio (Y). Los resultados en el test y en el criterio fueron los siguientes:

Alumno X Y

1 7 6
2 13 10
3 10 9
4 9 8
5 11 12

Media 10 9
Varianza 4 4

El coeficiente de validez del test es rxy = 0.8, lo que significa que el test de habilidades
comunicativas explica un 64 % de las diferencias en las valoraciones de los profesores sobre la
capacidad de relacin interpersonal de sus alumnos.

Si queremos pronosticar puntualmente la puntuacin en el criterio del alumno n 5,


aplicando la oportuna ecuacin de regresin obtenemos:
78

Y5' = 9.8

Para realizar la estimacin por intervalo para este mismo alumno, con probabilidad 0.95,
fijamos el valor Z1-/2 = 1.96 y calculamos el error tpico de estimacin:

S y y ' = S y 1 rxy2 = 1.2

y el intervalo ser:

12.152
9.8 (1.96) (1.2)
7.448

Diremos entonces, con probabilidad 0.95, que la puntuacin del alumno 5 en el criterio se
encontrar entre 12.152 y 7.448.

Cuando, tanto en contextos aplicados como investigadores, se desea predecir de la forma ms


precisa posible las puntuaciones en un determinado criterio, es comn utilizar ms de un
predictor. En este caso debe aplicarse la tcnica estadstica de Regresin Mltiple, que
proporciona los pesos (coeficientes de regresin parcial) de cada predictor segn la importancia
que tengan para la prediccin.

4.3.- FACTORES QUE AFECTAN AL COEFICIENTE DE VALIDEZ

Centrndonos en la validez relativa al criterio, el coeficiente de validez es una


correlacin entre una variable X (test) y otra Y (criterio). La cuanta de la correlacin viene
condicionada por varios factores, como son:

- La fiabilidad del test.

- La fiabilidad del criterio.

- La autntica relacin entre test y criterio.

- La variabilidad de la muestra en el test y en el criterio.

Respecto a los dos primeros factores, aunque no tratamos en toda su extensin el desarrollo
formal de las relaciones, podemos decir que el coeficiente de validez tiende a incrementarse a
medida que test y criterio son variables medidas con exactitud. Problemas de fiabilidad en uno
u otro se reflejan mediante una disminucin del coeficiente de validez. De hecho, se puede
comprobar que el lmite mximo al que puede llegar rxy es r xx r yy . Es decir,

rxy rxx ryy


79

siendo rxx el coeficiente de fiabilidad del test y ryy el coeficiente de fiabilidad del criterio.

Demostracin:

Una de las expresiones de la correlacin de Pearson es:

rxy =
( x x )( y y )
NS x S y

Realizando las sustituciones oportunas que permiten los supuestos de la Teora Clsica:

rxy =
(V x + E x Vx )(V y + E y V y )
NS x S y

Si realizamos los productos trmino a trmino en el numerador, divididos entre N resultan


covarianzas, y finalmente, el coeficiente de validez quedara como:

Cov(Vx ,V y )
rxy =
SxSy

Ya que el resto de covarianzas del numerador, haciendo uso de los supuestos del modelo
clsico, son cero.

Otra manera de expresar la ecuacin anterior es:

rVxVy SVx SVy


rxy = = rVxVy rxx ryy
SxS y

Dado que la correlacin entre puntuaciones verdaderas entre el test y puntuaciones verdaderas
en el criterio es igual o inferior a 1, queda demostrada la desigualdad.

Imaginemos, por ejemplo, que un test de inteligencia general manifiesta un rxx = 0.85,
mientras que una prueba de cultura general, considerada como criterio, manifiesta un ryy = 0.73.
Segn estos datos, el coeficiente de validez de este test respecto a este criterio no puede superar
el valor de 0.79, que es la raz cuadrada del producto entre los dos coeficientes de fiabilidad.
80

De lo anterior se deduce que el coeficiente de validez de un test es menor o igual que la raz
cuadrada del coeficiente de fiabilidad del test; tambin es menor o igual que la raz cuadrada de
la fiabilidad del criterio:

rxy rxx ryy rxx

rxy rxx ryy ryy

dado que el valor mximo de un coeficiente de fiabilidad es uno.

Por otra parte, y atendiendo ahora a las relaciones entre longitud del test y su fiabilidad, es
lgico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud del test
(y en su caso, del criterio) influya tambin en rxy aunque de modo indirecto. La frmula que
permite estimar el coeficiente de validez de un test alargado n veces (compuesto por n formas
paralelas) es:

rxy
Rxy =
1 rxx
+ rxx
n

donde Rxy es el coeficiente de validez del test alargado.


rxy es el coeficiente de validez del test original.
rxx es el coeficiente de fiabilidad del test original.
n es el n de veces que se alarga el test original.

Demostracin:

Sean rxy rxx y ryy, respectivamente, los coeficientes de validez, de fiabilidad del test y de
fiabilidad del criterio. Supongamos que alargamos con formas paralelas la longitud del test, con
lo cual aumentarn su coeficiente de fiabilidad (Rxx) y su coeficiente de validez (Rxy), mientras
que el criterio (que no se modifica ) permanece con el mismo coeficiente de fiabilidad.

Segn las relaciones vistas anteriormente, podemos establecer las siguientes igualdades, para
el coeficiente de validez del test inicial y del test alargado:

rxy = rVxVy rxxryy y Rxy = rVxVy Rxx ryy

Dividiendo miembro a miembro y despejando el coeficiente de validez del test alargado,


tendramos que:
81

rxy rxy rxy


Rxy = = =
rxx rxx 1 rxx
+ rxx
Rxx nrxx n
(1 + (n 1)rxx )

Ejemplo: Supongamos que una "Escala de actitud hacia grupos ecologistas" de 30 items
manifiesta en un grupo normativo un coeficiente de fiabilidad de 0,42 y un coeficiente de
validez de 0,51. Si se duplicase le longitud de la escala, es decir si se le aadiera una forma
paralela de 30 items, el coeficiente de validez pasara a valer:

0,51
R xy = = 0,60
1- 0,42
+ 0,42
2

Si de la frmula anterior despejamos n, podemos estimar el nmero de veces que deberemos


multiplicar la longitud del test para alcanzar un coeficiente de validez Rxy deseado:

1 rxx
n=
rxy2
rxx
Rxy2

En caso de que el valor de n sea negativo, significa que el valor deseado no es alcanzable
incrementando la longitud del test.

Ejemplo: Un determinado test de 10 items manifiesta en un grupo normativo un coeficiente de


fiabilidad de 0.4 y un coeficiente de validez de 0.35. Nos cuestionamos cuntos items paralelos
necesitara el test para conseguir:

a) Un coeficiente de validez de 0.5

b) Un coeficiente de validez de 0.9

a)

1 0.4
n= = 6.7
0.352
0.4
0.52
82

b)

1 0.4
n= = 2.4
0.352
0.4
0.9 2

Podemos comprobar a partir de estos clculos que el coeficiente de validez de 0.5 lo


conseguiremos con un test de, aproximadamente, 70 items; con lo cul habra que disear 6
formas adicionales paralelas al test original.

El coeficiente de validez de 0.9 es imposible de conseguir, por mucho que incrementemos la


longitud del test inicial con formas paralelas.

Hemos indicado tambin que rxy depende de la variabilidad del grupo normativo. De forma
parecida a lo que aconteca con la varianza del grupo en el test y su coeficiente de fiabilidad,
el coeficiente de validez de un test respecto a un criterio es tanto ms elevado cuanto mayor
es la varianza de grupo normativo en ambos. Significa esto que, por ejemplo, un test de
aptitud para la venta tendr un coeficiente de validez mayor en una muestra de la poblacin
general (donde habr heterogeneidad respecto a la aptitud por ser vendedor) que en una
muestra de vendedores experimentados (seguramente obtendran todos puntuaciones
elevadas, y por tanto sera un grupo ms homogneo). En la medida que el poder predictivo
de un test respecto a un criterio depende de su rxy, habr que considerar la variabilidad del
grupo donde se ha obtenido.

5.- ALGUNOS EJEMPLOS EMPRICOS DEL PROCESO SEGUIDO PARA


LA VALIDACIN DE TESTS

En las siguientes pginas mostramos algunos trabajos desarrollados para la validacin de


varios tests psicolgicos, de contenido y objetivos bien diversos. Hemos intentado incluir
ejemplos que sigan estrategias de investigacin diferentes para obtener informacin sobre el
constructo que se mide o sobre el tipo de inferencias que se pueden hacer a partir de las
puntuaciones obtenidas en los tests.

5.1.- Barraca, J., Lpez-Yarto, L. & Olea, J. (2000). Psychometric properties of a


new Family Life Satisfaction Scale. European Journal of Psychological Assessment,
16, 2, 98-106.

Los autores elaboraron una nueva escala o cuestionario para evaluar la satisfaccin familiar.
Argumentan que se ha hecho poco esfuerzo por definir este constructo desde un marco
terico concreto, lo que ha dado lugar a instrumentos de evaluacin de la satisfaccin
familiar fundamentados en una pobre definicin del constructo. Los trabajos sobre
83

instrumentos previos de evaluacin han estudiado su relacin con otras variables (por
ejemplo, con la satisfaccin hacia la calidad de vida, con el constructo locus of control o
con el nivel de religiosidad) que al menos puede decirse que son cuestionables. Critican
tambin que los instrumentos hasta entonces disponibles no incluyen suficientemente los
componentes afectivos del constructo. Adems, algunos de los cuestionarios previos para
evaluar la satisfaccin familiar resultan poco amigables de responder: uno de ellos, por
ejemplo, consiste en preguntar dos veces sobre los mismos temas, una vez sobre la situacin
real de su familia y otra sobre lo que sera su familia ideal.

Todo ello les lleva a la opcin de construir una nueva escala de satisfaccin familiar, para
lo cual siguieron el siguiente procedimiento:

Definicin del constructo: Se entiende la satisfaccin familiar como el conjunto de


sentimientos que cada persona experimenta en su propia familia, y que son el resultado de
sus continuas interacciones con los dems, as como de las consecuencias positivas o
negativas derivadas.

Instrumento inicial de evaluacin: Decidieron evaluar estas connotaciones afectivas


mediante una escala de adjetivos bipolares, tambin denominado diferencial semntico, que
tena el siguiente formato:

Cuando estoy en casa con mi familia, normalmente me siento:

Feliz _____ _____ _____ _____ _____ _____ _____ Infeliz


Solo _____ _____ _____ _____ _____ _____ _____ Acompaado

Cada tem se puntu desde uno hasta 7, dado que haba ese nmero de categoras ordenadas
de respuesta. Inicialmente elaboraron 177 adjetivos bipolares y eliminaron 66 por resultar
redundantes. Tres especialistas en terapia de familia dejaron la lista en 52, aquellos que de
forma unnime fueron considerados relevantes para evaluar el constructo.

Anlisis y seleccin de tems: Se aplic la escala inicial a una muestra de 274 personas.
Mediante el programa SPSS se obtuvieron varios indicadores psicomtricos para cada uno
de los 52 tems: a) correlacin tem-total, b) varianza, c) saturaciones factoriales (mtodo de
componentes principales, rotacin varimax) en los factores con autovalor mayor de 1, y d)
coeficiente de la escala cuando se elimina el tem. Se retuvieron finalmente los 27 tems
que cumplieron simultneamente los siguientes requerimientos: a) correlacin tem-total
mayor de 0.45, b) varianza por encima de 1, c) saturaciones en el primer factor rotado por
encima de 0.30, y d) coeficiente de la escala (al eliminar el tem) igual o superior al de la
escala completa (=0.9808).

Estudio de la fiabilidad: Se obtuvo un coeficiente igual a 0.976. El coeficiente de


fiabilidad test-retest, obtenido tras un perodo de 4 semanas, result ser 0.758; an no siendo
ptimo este coeficiente, es bastante usual que la estabilidad temporal no sea mucho ms alta
cuando se emplea un diferencial semntico como instrumento de evaluacin.

Validez de constructo factorial: Se realiz un nuevo anlisis factorial sobre la matriz de


correlaciones entre los 27 tems. El primer factor explic el 62.3 % de la varianza total, lo
84

que se consider suficiente prueba de unidimensionalidad. Todos los tems obtuvieron


saturaciones por encima de 0.68 en el primer factor sin rotar.

Validez convergente: Se aplicaron a la misma muestra dos de los instrumentos previos de


evaluacin: el cuestionario Family Satisfaction (Olson y Wilson, 1982) y la Family
Satisfaction Scale (Carver y Jones, 1992). El nuevo cuestionario correlacion 0.646 con las
puntuaciones en el primero y 0.787 con las correspondientes en el segundo.

Datos adicionales sobre la validez de constructo: Se aplic el nuevo cuestionario a una


muestra de 16 personas (con la misma edad media de la muestra general) que asistan a una
terapia de familia. La media de esta muestra clnica en el cuestionario fue de 97.56, mientras
que la media de la muestra general fue 121.56. El contraste estadstico entre ambas medias
(prueba U de Mann Whitney) result significativo con un nivel de confianza del 95 %, con
lo que se concluy que la nueva escala era capaz de diferenciar el grado de satisfaccin
familiar de ambas muestras.

5.2.- Ehlers, S., Gillberg, Ch. & Wing, L. (1999). A screening questionnaire for
Asperger Syndrome and other High-Functioning Autism Spectrum disorders in
school age children. Journal of Autism and Developmental Disorders, 29, 2, 129-141.

En el presente artculo se describe un estudio realizado para comprobar las propiedades


psicomtricas de un nuevo instrumento, el Autism Spectrum Screening Questionnaire
(ASSQ), diseado para detectar (no tanto evaluar con precisin) a chicos y chicas que tienen
severos desordenes autistas pero con alto funcionamiento cognitivo, en concreto el
denominado como sndrome de Asperger. Este alto funcionamiento cognitivo complica
mucho la deteccin de esta patologa.

Descripcin del sndrome: No existiendo un acuerdo universal sobre los sntomas del
trastorno de Asperger, parece que se trata de chicos sin demasiados retrasos en el lenguaje ni
en su desarrollo cognitivo, pero que tienen sntomas claramente autistas en lo que se refiere a
problemas de interaccin social y de conductas estereotipadas.

Elaboracin del cuestionario: Varios especialistas clnicos ingleses y suecos elaboraron un


listado de sntomas caractersticos del sndrome en chicos de entre 7 y 16 aos. Ellos mismos
elaboraron 27 tems que recogieran esos sntomas y que fueran inteligibles para personas no
expertas (padres y profesores), ya que no intentaban tanto diagnosticar con precisin el
sndrome como que informantes no expertos (padres o profesores) identificaran a los chicos
que necesitaban un diagnstico diferencial en profundidad. La sintomatologa que pretendan
incluir era: interaccin social, problemas de comunicacin, conducta repetitiva y esterotipias
motoras. El formato de tems y respuesta que establecieron fue:

Este chico destaca como diferente de otros chicos de su edad en los siguientes aspectos:
- Carece de sentido comn No Algo S
- Carece de empata No Algo S
- Tiene movimientos involuntarios en la cara o el cuerpo No Algo S
85

Cada respuesta era cuantificada como 0, 1 2 puntos, con lo que el rango terico de
puntuaciones poda oscilar entre 0 y 54.

Muestras seleccionadas: En el estudio se describe la seleccin de dos muestras de chicos


diagnosticados previamente con determinados desrdenes conductuales por diversos
psiclogos y psiquiatras. La muestra principal estaba formada por 3 tipos de patologas: 21
casos de desrdenes de espectro autista (en el que se incluye el sndrome de Asperger), 58
casos con dficit atencional, hiperactividad y conducta disruptiva, y 31 con problemas de
aprendizaje (retraso en lectura y escritura). La muestra de validacin estaba formada por 34
chicos y chicas diagnosticados previamente en contextos clnicos como sndromes de
Asperger.

Fiabilidad. La fiabilidad test-retest, con dos semanas de diferencia entre las dos
aplicaciones, fue 0.96 cuando los evaluadores eran los padres y 0.94 cuando eran los
profesores.

La correlacin entre las evaluaciones de los padres y de los profesores (fiabilidad


interjueces) se obtuvo en los tres grupos de la muestra principal. Considerando la evaluacin
de la muestra completa, esta correlacin fue 0.66, mientras que result 0.77 para los chicos
con espectro autista, 0.27 para los chicos con dficit atencional y 0.19 para los chicos con
trastornos de aprendizaje.

Validez convergente. Los padres y profesores respondieron tambin a dos escalas generales
de evaluacin de psicopatologas en nios, las escalas de Rutter y las de Conners,
obteniendo correlaciones de 0.75 y 0,58, respectivamente, en la muestra de padres, as como
valores de 0.77 y 0.70 en la muestra de profesores.

Validez referida al criterio. En este caso, uno de los objetivos fundamentales del trabajo
consista en estudiar el grado en que las puntuaciones totales en el cuestionario ASSQ serva
para diferenciar a los diversos grupos diagnsticos que formaban la muestra principal. Se
realizaron los correspondientes ANOVAS, donde la variable independiente era el grupo
diagnstico y la variable dependiente las puntuaciones en un cuestionario concreto (ASSQ,
Rutter o Conners). Algunos resultados interesantes fueron: a) los tres grupos de la muestra
principal obtuvieron puntuaciones medias significativamente distintas en el cuestionario
ASSQ, tanto cuando los evaluadores eran padres como cuando eran profesores; b) los chicos
con diagnstico de espectro autista obtuvieron siempre las medias ms elevadas; c) las
puntuaciones en las otras dos escalas no consiguieron diferencias significativas entre los
chicos de espectro autista y los hiperactivos; d) las medias de las puntuaciones (asignadas
por ambos tipos de evaluadores) en el cuestionario ASSQ, fueron estadsticamente similares
en la muestra de validacin (sndrome Asperger) que en la submuestra de espectro autista de
la muestra principal.

Establecimiento de puntos de corte. Antes de comprender lo que realmente se hizo en este


trabajo, conviene describir el procedimiento general y su sentido. En contextos de
diagnstico clnico interesa muchas veces estudiar el grado en que las puntuaciones en un
cuestionario sirven para clasificar de forma fiable, es decir, si sirve el cuestionario para
clasificar correctamente a una persona dentro o fuera del grupo clnico objeto de estudio.
As, podramos establecer una determinada puntuacin como punto de corte, de tal manera
que si la puntuacin de una persona supera dicho punto de corte la clasificaramos en el
86

grupo con trastornos, mientras que si se encuentra por debajo de dicho punto de corte
concluiramos que no tiene dicho trastorno. Para establecer un determinado punto de corte,
debemos entender en primer lugar dos conceptos esenciales:

- La sensibilidad, tambin denominada probabilidad de acierto o de verdaderos


positivos, que es la proporcin de personas realmente diagnosticadas con desrdenes
que las clasificamos como tales mediante el cuestionario.
- La especificidad o proporcin de personas sin trastorno que los clasificamos como
tales a partir de sus puntuaciones en el cuestionario. La proporcin complementaria a
la especificidad es la probabilidad de falsos positivos (tambin denominadas como
falsas alarmas), que es la proporcin de personas que realmente no tienen el trastorno
y que decimos a partir del cuestionario que s lo tienen.

Las dos proporciones anteriores variarn segn la puntuacin total en el cuestionario que
establezcamos como punto de corte (en el caso del ASSQ podramos establecer en teora
hasta 55 puntos de corte diferentes). Por ejemplo, si en el ASSQ pusiramos como punto de
corte la puntuacin 54, que es la mxima posible, obviamente la sensibilidad sera 0 (todos
los chicos con sndrome Asperger quedaran clasificados como no Asperger) y la
especificidad 1 (todos los chicos sin sndrome Asperger quedaran clasificados como tales);
si el punto de corte lo pusiramos en la puntuacin 0, la sensibilidad sera 1 pero la
especificidad 0. Por tanto, para decidir sobre el punto de corte ms apropiado tendramos que
intentar maximizar ambas proporciones simultneamente, lo cual depende del grado de
validez predictiva de las puntuaciones del cuestionario para diferenciar los dos diagnsticos
posibles. En la prctica, para cada puntuacin posible como punto de corte, suele
representarse en un cuadrado unitario la proporcin complementaria a la especificidad o
proporcin de falsos positivos (en el eje de abcisas) y la sensibilidad (en el eje de
ordenadas). Esta representacin se conoce como curva ROC, y muchas veces interesa
establecer como punto de corte aquella puntuacin del cuestionario que queda representada
ms cerca de la esquina superior izquierda del cuadrado unitario. Esa puntuacin ser la que
maximiza simultneamente la especificidad y la sensibilidad.

En el presente estudio, se obtuvieron, por ejemplo, las siguientes proporciones de


sensibilidad y de falsos positivos, cuando los informantes eran los padres y el trastorno era el
referido a desordenes de espectro autista (subgrupo de la muestra principal):

Punto de corte Sensibilidad Falsos positivos Cociente entre ellos


7 .95 .44 2.2
13 .91 .23 3.8
15 .76 .19 3.9
16 .71 .16 4.5
17 .67 .13 5.3
19 .62 .10 5.5
20 .48 .08 6.1
22 .43 .03 12.6

Los autores indican que si se valora mucho la sensibilidad, es decir, intentar no cometer
errores con los chicos realmente diagnosticados como autistas, sera aconsejable establecer
87

como punto de corte la puntuacin X=13, a partir de la cual se detecta al 91 % de los chicos
con autismo de la muestra principal. El coste de esta clasificacin es que clasificaramos
como autistas a un 23 % de los chicos de la muestra principal que son hiperactivos o tienen
problemas de aprendizaje. Tal coste no sera muy elevado si el cuestionario representa slo
una primera deteccin, y es posible posteriormente profundizar en el diagnstico diferencial
mediante procedimientos alternativos.

Sin embargo, si el objetivo realmente fuera distinguir entre los chicos autistas y los que
tienen otros trastornos, los autores optan por establecer un punto de corte en la puntuacin
X=19, lo cual minimiza la proporcin de verdaderos positivos (0.62) pero tambin la de
falsos negativos (0.10). Teniendo en cuenta el tamao muestral, esta decisin equivale a
emitir un 82 % de decisiones correctas.

5.3.- Olea, J., Abad, F.J. y Ponsoda, V. (2002). Elaboracin de un banco de


tems, prediccin de la dificultad y diseo de anclaje. Metodologa de las Ciencias
del Comportamiento, Vol. Especial, 427-430.
Olea, J., Abad, F.J., Ponsoda, V. y Ximnez, M.C. (2004). Un test
adaptativo informatizado para evaluar el conocimiento del ingls escrito: Diseo
y comprobaciones psicomtricas. Psicothema (en prensa).

En ambos trabajos se recogen los diversos estudios realizados para poner en funcionamiento
un Test Adaptativo Informatizado (TAI) para evaluar el nivel de conocimientos del idioma
ingls en su versin escrita. Este tipo de tests requieren un amplio banco de tems, su estudio
psicomtrico desde la Teora de la Respuesta al tem, as como un conjunto de programas
informticos para la presentacin de los mejores tems a cada persona y para la estimacin
de su nivel (normalmente entre un rango de valores que oscila entre 4 y +4). Nos
centraremos fundamentalmente en el proceso de construccin del banco de tems, que
conforma el contenido fundamental del TAI, y en el anlisis de sus propiedades
psicomtricas.

Criterios generales para la elaboracin del banco de tems. Varias especialistas en Filologa
Inglesa, junto a varios profesionales de la Psicometra, elaboraron el banco de tems. Los
psicmetras indicaron a las fillogas algunos criterios a considerar en la elaboracin del
banco de tems: a) deba tener aproximadamente 600 tems, b) su dificultad previsible deba
ser heterognea, ya que el TAI pretende evaluar cualquier nivel de dominio del ingls
escrito, d) los tems deban ser de opcin mltiple, siendo el enunciado una frase donde
faltaran ciertas palabras, y 4 opciones de respuesta de las que slo una es correcta, e) las 3
opciones incorrectas de un tem deban cumplir los requisitos de redaccin que son
aconsejables (ver tema 1 de estos materiales), f) las fillogas deberan partir de un modelo
terico (ellas diran cual) explicativo de lo que representa el conocimiento del ingls escrito.

Validez de contenido del banco de tems. Las especialistas en Filologa establecieron un


modelo de dominio del ingls escrito funcional-cognitivo, en el que adems de la
competencia gramatical (aspectos fundamentalmente sintcticos) se incluyeran contenidos
para evaluar la competencia en el discurso (componentes pragmticos y lxicos), de tipo ms
instrumental para contextos comunicativos concretos. Finalmente establecieron 7 categoras
gramaticales generales, denominadas como: aspectos formales, componentes morfolgicos,
88

sintcticos, morfosintcticos, pragmticos, lxicos y una categora mixta. Estas categoras se


dividan a su vez en otras subcategoras: por ejemplo, en los componentes morfolgicos (222
tems en total) se especificaron 17 subcategoras diferentes. De esta forma se redactaron un
total de 635 tems, cada uno perteneciente a una categora y subcategora especficas. Un
ejemplo de un tem de morfologa (subcategora de tiempos verbales) es:

We * when he gets here.


a) wouldnt b) have left c) couldnt leave d) will have left

Cinco personas nativas, profesores de ingls en diversos centros educativos, revisaron el


banco, detectando errores de diverso tipo en la redaccin y marcando lo que consideraban
como respuestas correctas. Varias reuniones entre una de las fillogas y uno de los nativos
sirvieron para corregir los errores y no tener duda sobre la opcin correcta de algunos tems.

Elaboracin de subtests equivalentes. Para estudiar las propiedades psicomtricas del


banco de tems es necesario aplicarlo a muestras de personas con nivel heterogneo de
ingls. Sin embargo, es prcticamente imposible aplicar 635 tems a cada persona, con lo
cual es necesario establecer lo que se denomina un diseo de anclaje, que consiste en
construir subtests, de tal forma que sean lo ms equivalentes posible en dificultad y en
contenidos incorporados. As, se elaboraron 15 subtests diferentes, cada uno de los cuales
tena las siguientes caractersticas:

a) Estaba formado por 61 tems, 41 propios de ese subtest y 20 comunes a todos los
subtests.
b) Tena una dificultad heterognea. Los 5 nativos haban valorado subjetivamente la
dificultad de los tems, y en cada subtest se incluan tems de amplia gama de
dificultad previsible.
c) La cantidad de tems de una categora se decida segn el peso de esa categora en el
banco completo; por ejemplo, para la categora morfologa, que tena el 35 % de
los tems del banco (222 de los 635 tems totales), se eligieron 20 tems para cada
subtest (aproximadamente el 35 % de 61).

Estudio piloto de uno de los subtests. El primero de los subtests se aplic a una muestra de
435 personas: estudiantes de ESO y Bachillerato, estudiantes y profesores de Psicologa, y
estudiantes de Filologa Inglesa. Se les pidi alguna informacin adicional, como su
autoevaluacin del dominio del ingls y el procedimiento seguido para el aprendizaje del
idioma (colegio, familia, escuela oficial de idiomas,etc.). Algunos resultados de este primer
estudio psicomtrico fueron:

a) Se eliminaron 9 tems por ser demasiado fciles o correlacionar de forma escasa con
el total del subtest.
b) De los 52 tems retenidos, la media de las correlaciones tem-total fue 0.556. El
coeficiente de Cronbach result ser de 0.91
c) El anlisis factorial (mtodo de componentes principales) sobre la matriz de
correlaciones tetracricas entre los 52 tems dio lugar a un primer autovalor de 15.78
(30.35 % de la varianza total), lo que se consider como prueba suficiente de
89

unidimensionalidad. Esto es un requisito para la aplicacin del modelo de TRI


seleccionado por los investigadores.
d) Se realiz un anlisis de regresin mltiple, donde las variables independientes
fueron la informacin adicional recogida y la variable dependiente el nivel de
conocimientos estimado desde la TRI. El coeficiente de correlacin mltiple entre las
variables adicionales (autoevaluacin y formacin en el idioma) y las puntuaciones
estimadas en el subtest result ser 0.747.

Estudio psicomtrico simultneo de 5 subtests. Se aplicaron 5 de los subtests restantes a


una muestra de 3224 estudiantes de primer curso de la Pontificia Universidad Catlica de
Chile. Cada grupo de algo ms de 600 estudiantes respondi a uno de los subtests y a una
serie de preguntas adicionales de un cuestionario, donde se recab informacin sobre el tipo
de colegio donde estudiaron la enseanza media (bilinge-ingls u otros), su nivel
autopercibido en el idioma (en escritura, lectura y conversacin) y sobre su formacin
complementaria en el idioma (en casa, en estancias prolongadas en pases anglfonos, en
escuelas oficiales de idiomas, etc). Adems de obtener de nuevo informacin sobre la
consistencia interna y unidimensionalidad de los subtests (resultados satisfactorios para
ambos objetivos) se estudi la validez predictiva de las puntuaciones. Ms concretamente, se
realizaron dos estudios:
a) Las primeras pruebas de validez se realizaron a partir de los datos obtenidos en el
cuestionario. Se realizaron 5 ANOVAs, uno por cada variable independiente incluida en el
cuestionario, siendo en todos ellos la variable dependiente el nivel de rasgo estimado (en una
escala de -4 a 4) para cada estudiante a partir de sus respuestas al subtest correspondiente
(los cinco valores F resultaron significativos, p < 0.001): a) con la variable independiente
tipo de colegio, los niveles de rasgo medios () fueron 0.50 (colegio bilinge-ingls) y -0.24
(otros colegios). El tamao del efecto (2) fue 0.10. b) con la variable independiente
formacin, los niveles de rasgo medio fueron -0.16 (slo colegio), 0.24 (colegio+academia),
0.57 (colegio+familia) y 1.18 (colegio+extranjero). El tamao del efecto fue 0.09. c) con la
variable independiente autoevaluacin de la lectura, los niveles de rasgo medio fueron -1.16
(nada), -0.86 (sencillo), -0.13 (con esfuerzo), 0.94 (bien) y 1.64 (bilinge). El tamao del
efecto fue 0.46. d) con la variable independiente autoevaluacin de la escritura, los niveles
de rasgo medio fueron -1.30 (nada), -0.64 (sencillo), 0.03 (con esfuerzo), 0.90 (bien) y 1.77
(bilinge). El tamao del efecto fue 0.49. e) con la variable independiente autoevaluacin
de la conversacin, los niveles de rasgo medio fueron -1.23 (nada), -0.66 (sencillo), 0.25
(con esfuerzo), 1.01 (bien) y 1.76 (bilinge). El tamao del efecto fue 0.53.

En los cinco anlisis se observa que los niveles de rasgo medios se incrementan a medida
que lo hacen los niveles de cada una de las variables independientes. Todas las
comparaciones mltiples post hoc (estadstico DHS de Tukey) resultaron significativas
(p<0.05). En los valores de los tamaos del efecto (2) puede observarse un mayor poder
predictivo de las autoevaluaciones del nivel de ingls que de las variables relacionadas con
la formacin en el idioma.

b) Adicionalmente se puso a prueba mediante el programa AMOS (versin 4.01) un


modelo estructural para obtener la capacidad predictiva de las estimaciones de los niveles de
conocimiento con relacin a una variable latente de nivel informado de ingls, donde
tuvieran saturaciones positivas las 5 variables evaluadas en el cuestionario. Este tipo de
anlisis estadstico, denominado como ecuaciones estructurales o tambin como modelos
90

confirmatorios (vase Ruiz2, 2000), sirve para estudiar el grado de ajuste entre un modelo
terico (donde se plantean ciertas relaciones entre variables empricas y tericas) y los datos
reales. En nuestro caso, el modelo terico consiste en plantear una variable latente o factor
(nivel informado de ingls) en la que obtuvieran saturaciones positivas las 5 variables
incluidas en el cuestionario; adems, planteamos una relacin positiva entre esta variable
latente y las puntuaciones estimadas a partir del rendimiento manifestado en los subtests de
ingls escrito.

Algunas medidas de ajuste del modelo fueron: 2 gl = 4.599, AGFI = 0.992, RMSEA =
0.037, que son indicadores de un buen ajuste del modelo terico a los datos empricos. Las
estimaciones de las saturaciones se recogen en la siguiente figura. Puede comprobarse que la
correlacin entre las estimaciones de nivel de ingls y el factor latente de nivel informado de
ingls es 0.81.

Enseanza
media
e
0.39
Formacin
e
0.35

Nivel informado 0.82 Lectura


estimada de ingls e
0.81
0.86

Escritura e

e 0.89
Conversacin
e

2
Ruiz, M.A. (2000). Introduccin a los modelos de ecuaciones estructurales. Madrid: UNED
Ediciones.
91

EJERCICIOS

1. Seale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construccin de un cuestionario.

a) Correlacionar las puntuaciones totales en el cuestionario con un criterio externo al test.


b) Preguntar a varios jueces expertos sobre la representatividad de los contenidos de un test.
c) Aplicar un anlisis factorial a las puntuaciones obtenidas en el test y en varios tests
relacionados con el constructo de inters.

2. Seale qu variables pueden afectar al coeficiente de validez de un test (rxy).

3. Sabemos que aumentando la longitud de un test, podemos aumentar tambin su


fiabilidad, y que la fiabilidad del test es un factor que permite incrementar la validez del test.
Queremos obtener un coeficiente de validez de 0,8 (Rxy) y sabemos que la fiabilidad del test
es 0,8 (rxx) y la del criterio es 0,6 (ryy). Lograremos nuestro objetivo aumentando la
fiabilidad del test?

4. Un psiclogo social disea un test con 5 tems y obtiene los coeficientes de


fiabilidad, rxx= 0,4, y validez, rxy= 0,36. En vista de estos valores tan bajos, decide rechazar
el test. Valore esta actuacin del psiclogo.

5. A continuacin se detallan las puntuaciones que 10 personas obtuvieron en un test de


rendimiento escolar (X) y las calificaciones medias del curso (Y), que se consideran como
un criterio de aprovechamiento acadmico.

Sujetos 1 2 3 4 5 6 7 8 9 10
Test 18 15 12 11 8 4 5 6 9 3
Calificacin 9 8 7 6 4 2 4 4 5 2

a) Suponiendo que las 10 personas constituyen un grupo normativo apropiado, obtenga el


coeficiente de validez del test.
b) Obtenga el error tpico de estimacin del test.

6. En un test de 10 tems el coeficiente de fiabilidad es 0.25 y el de validez es 0.10.


92

a) Correlacionando las puntuaciones del test con otro criterio, podramos obtener un coeficiente de
validez menor de 0.10? Razone su respuesta.
b) Correlacionando las puntuaciones del test con otro criterio distinto, podramos obtener un
coeficiente de validez mayor de 0.60? Razone su respuesta.

7. Un pequeo test de aptitudes intelectuales consta de dos tems de aptitud verbal (el 1 y el 4)
y de dos tems de aptitud numrica (el 2 y el 3). Despus de aplicarse a un grupo normativo, la
matriz de correlaciones se someti a un anlisis factorial, cuya matriz F rotada se presenta en la
tabla que aparece a continuacin.

a) Considera que el estudio factorial aporta datos a la validez del test?


b) Calcule el porcentaje de la varianza total explicado por el Factor I.

tem Factor I Factor II


1 0,247 0,883
2 0,906 0,083
3 0,937 0,024
4 -0,108 0,925

8. Estamos intentando elaborar una escala que mida la calidad de ciertos productos. Cada tem
consiste en un adjetivo y la persona ha de evaluar de 1 (totalmente en desacuerdo) a 5
(totalmente de acuerdo) en qu medida el adjetivo se aplica al producto. Tras un anlisis factorial, la
matriz rotada resultante ha sido:
Factor I Factor II Factor III
Barato -0,1 0,8 0,2
Agradable 0,2 0,2 0,7
til 0,9 -0,1 -0,2
Cmodo 0,6 -0,2 -0,1
Precio justo 0,1 0,9 0,2
Bonito -0,2 -0,1 0,6
Necesario 0,7 0,2 0,0
Atractivo -0,2 -0,1 0,5
Prctico 0,8 0,1 0,2
Manejable 0,8 0,2 -0,1

Qu aspectos de la calidad mide la escala?


93

9. En la seleccin de aspirantes a un curso de formacin, los sujetos han sido examinados con
un cuestionario que obtuvo una media de 5 y una desviacin tpica de 2. Una vez terminado el
curso, los mismos sujetos fueron valorados por sus formadores segn una escala de 0 a 20, con
media 10 y desviacin tpica 3. La correlacin entre los resultados en el cuestionario y las
valoraciones de los formadores fue de 0.35.

a) Realice una estimacin puntual de la valoracin que recibira una persona que obtuvo 4 puntos en
el cuestionario.
b) Estime, con probabilidad 0.95, el intervalo de confianza en el que se encontrar la valoracin
para esta misma persona.

10. Un test de 5 tems tiene un coeficiente de fiabilidad de 0.4 y un coeficiente de validez de 0.5.

a) Queremos que su coeficiente de validez alcance el valor de 0.6. Qu longitud debera tener el
test?
b) Queremos que su coeficiente de validez alcance el valor de 0.8. Qu longitud debera tener el
test?
c) Cul es mximo valor del coeficiente de validez que se puede alcanzar alargando el test?

11. Un psiclogo dispone de tres pruebas de desorden del pensamiento (T1, T2, y T3), de igual
variabilidad, para pronosticar un determinado criterio (esquizofrenia). Los coeficientes de
fiabilidad, de validez y nmero de tems de cada test son:

rxx rxy tems


T1 0,3 0,27 20
T2 0,7 0,59 40
T3 0,9 0,60 40

Si los tres tests tuviesen la misma longitud, cul sera ms fiable? cul, ms vlido?

12. El coeficiente de determinacin de un test es 0.25 y la varianza del criterio es 2.

a) Obtenga el coeficiente de validez y la varianza de los errores de pronstico.


b) Obtenga, con probabilidad 0.95, la amplitud que tendr la estimacin por intervalo en el criterio
para cualquier persona.

13. Asocie cada uno de estos trminos a cada una de las frases: coeficiente de fiabilidad, ndice
de validez, autovalor, coeficiente de determinacin, ndice de homogeneidad, saturacin.

a) La correlacin de las puntaciones en un tem con las puntuaciones en el test:


b) La correlacin de las puntaciones en un tem con las puntuaciones en un criterio:
c) La suma de las correlaciones al cuadrado de los tems con un factor:
94

d) La correlacin de un tem con un factor:


e) La correlacin entre la forma par e impar de un test:
f) La proporcin de varianza de un criterio que explica un test:

14. Un test tiene un coeficiente de fiabilidad de 0.6 y de validez de 0.42. Duplicamos el test y
conseguimos un coeficiente de validez superior a 0.42. Volvemos a duplicarlo y conseguimos un
coeficiente de validez an mayor.

a) Podr conseguirse por la va de sucesivos alargamientos un coeficiente de validez de 0.8?


Justifique su respuesta.
b) Podr conseguirse por la va de sucesivos alargamientos un coeficiente de fiabilidad de 0.98?
Justifique su respuesta.

15. Aplicamos a Juana un test para predecir su rendimiento en un criterio, concluyendo que, con
probabilidad 0.99, su puntuacin en dicho criterio estar entre 24 y 30. Sabemos adems que en el
test obtuvo una puntuacin tpica igual a 1.5 Responda razonadamente a las siguientes cuestiones:

a) Cul es la estimacin puntual que hemos realizado a Juana?


b) Si hubiramos establecido el intervalo con probabilidad 0.95, su amplitud sera
(mayor/menor/igual) a 6?

16. Un Centro de Investigaciones Sociolgicas est interesado en evaluar el impacto que los
escndalos acaecidos en la vida pblica han tenido en la imagen que la sociedad espaola tiene de la
clase poltica. Para ello, elaboran un cuestionario con seis elementos y la aplican a una muestra de
cinco sujetos. Adems se les pide a los sujetos que den una valoracin personal de la clase poltica,
en una escala de 1 a 20. La tabla recoge las respuestas dadas por los cinco sujetos a las preguntas
del cuestionario junto con su valoracin de la clase poltica.

SUJETOS ITEM valoracin de la clase poltica


1 2 3 4 5 6
1 4 2 3 3 5 4 15
2 4 2 2 5 2 4 10
3 4 3 2 2 4 6 18
4 1 2 1 4 3 4 9
5 2 1 2 1 2 2 13

a) Obtenga e interprete el coeficiente alfa del cuestionario formado por los 6 tems.
b) Cul ser la validez de este cuestionario si tomamos las valoraciones realizadas por los sujetos
como un criterio adecuado? Interprtelo.
c) Cuntos elementos tendramos que aadirle al cuestionario para que su nuevo coeficiente de
validez alcanzase un valor de 0,60?

17. Del estudio psicomtrico de un test de 4 items, hemos obtenido:


95

R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)
Mean Std Dev Cases
1. IT1 2,4000 ,8433 10,0
2. IT2 1,9000 ,7379 10,0
3. IT3 3,7000 ,9487 10,0
4. IT4 2,6000 ,6992 10,0
N of
Statistics for Mean Variance Std Dev Variables
SCALE 10,6000 4,7111 2,1705 4

Item-total Statistics
Scale Scale Corrected
Mean Variance Item- Alpha
if Item if Item Total if Item
Deleted Deleted Correlation Deleted
IT1 8,2000 2,4000 ,6124 ,2917
IT2 8,7000 2,9000 ,5040 ,4138
IT3 6,9000 3,2111 ,1765 ,6851
IT4 8,0000 3,5556 ,2528 ,5906

Reliability Coefficients
N of Cases = 10,0 N of Items = 4
Alpha = ,5849

Varianza total explicada

Sumas de las saturaciones al Suma de las saturaciones al


Autovalores iniciales cuadrado de la extraccin cuadrado de la rotacin
% % %
acu acu acu
% de la mul % de la mul % de la mul
Componente Total varianza ado Total varianza ado Total varianza ado
1 1,905 47,629 47,6 1,905 47,629 47,6 1,871 46,769 46,8
2 1,193 29,813 77,4 1,193 29,813 77,4 1,227 30,673 77,4
3 ,591 14,782 92,2
4 ,311 7,776 100
Mtodo de extraccin: Anlisis de Componentes principales.

Matriz de componentesa

Componente
1 2
IT1 ,852 2,088E-02
IT2 ,769 ,121
IT3 ,368 ,874
IT4 ,672 -,643
Mtodo de extraccin: Anlisis de componentes principales.
a. 2 componentes extrados

Matriz de componentes rotadosa

Componente
1 2
IT1 ,827 ,208
IT2 ,724 ,287
IT3 ,167 ,934
IT4 ,797 -,479
Mtodo de extraccin: Anlisis de componentes principales.

Mtodo de rotacin: Normalizacin Varimax con Kaiser.


a. La rotacin ha convergido en 3 iteraciones.
96

RESPONDA RAZONADAMENTE LAS SIGUIENTES PREGUNTAS


a) El test es de rendimiento ptimo?
b) Supongamos que queremos que el test definitivo tenga 3 tems. Cul eliminara si queremos que
el test tenga la mxima variabilidad? Cul sera la variabilidad y consistencia interna del test de 3
tems resultante?
c) Supongamos que queremos que el test definitivo tenga mxima consistencia y solo dos tems.
Qu dos tems eliminara? Calcule e interprete el coeficiente de fiabilidad el test de dos tems
resultante, sabiendo que las correlaciones entre los 4 tem son: r(1,2)= 0.43, r(1,3)=0.31, r(1,4)=
0.49, r(2,3)=0.27 , r(2,4)=0.34 , r(3,4)= -0.20.
d) Diga cuanto vale la correlacin del tem 2 con el factor sin rotar 1.
e) Qu proporcin de varianza total explican cada uno de los dos factores rotados? Cree que en
este caso hubiera sido necesario rotar los factores?

18. En una muestra de universitarios, que haban superado la selectividad, el coeficiente de


validez de un test de conocimientos fue 0.54. Cul hubiese sido si se hubiese calculado con los
datos de todos los aspirantes y no slo de los que han superado el examen? a) mayor que 0,54; b)
menor que 0,54; c) igual (0,54). Razone su respuesta.

19. Si el coeficiente de validez del test es 0.7, la correlacin entre las puntuaciones verdaderas
entre dicho test y el criterio ser: a) 0,7; b) mayor que 0,7; c) menor que 0,7. Razone su respuesta.

20. Son corrrectos los siguientes enunciados sobre la validez de un test?

a) La validez de constructo de un test asegura su validez referida a un criterio. V ( ) F ( ).


b) Para estudiar la validez de contenido de un test no es necesario aplicarlo a una muestra.
V ( ) F ( ).
c) Si el coeficiente de validez de un test vale 0,7 esto significa que el 70% de la variabilidad de las
puntuaciones en el criterio se puede pronosticar a partir del test. V ( ) F ( ).

21. Hemos analizado mediante SPSS un test de 10 items y 5 opciones de respuesta:


R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)

Mean Std Dev Cases Scale Scale Corrected Alpha


Mean Variance Item-Total if Item
if Item if Item Deleted Correlation Deleted
Deleted

1. ITEM01 3.4949 .8376 99.0 31.8687 21.4826 .5768 .6231


2. ITEM02 3.6364 .9841 99.0 31.7273 19.7922 .6740 .5954
3. ITEM03 3.6061 1.0184 99.0 31.7576 22.0019 .3793 .6521
4. ITEM04 3.6263 1.2664 99.0 31.7374 22.5222 .2110 .6914
5. ITEM05 3.4646 1.0032 99.0 31.8990 21.7652 .4157 .6454
6. ITEM06 3.4949 .9516 99.0 31.8687 19.9316 .6856 .5956
7. ITEM07 3.5758 .9268 99.0 31.7879 23.1484 .2977 .6669
8. ITEM08 3.5152 .9188 99.0 31.8485 22.8033 .3436 .6592
9. ITEM09 3.4444 1.0712 99.0 31.9192 22.4628 .3006 .6674
10. ITEM10 3.5051 1.1008 99.0 31.8586 27.6737 -.1919 .7561
Alpha = .6825 Standardized item alpha = .7071

R E L I A B I L I T Y A N A L Y S I S - S C A L E (S P L I T)
97

Statistics for Mean Variance Std Dev N of


Variables
Part 1 17.8283 12.1029 3.4789 5
Part 2 17.5354 7.7003 2.7749 5
Scale 35.3636 26.6623 5.1636 10
Item Means Mean Minimum Maximum Range Max/Min Variance
Part 1 3.5657 3.4646 3.6364 .1717 1.0496 .0064
Part 2 3.5071 3.4444 3.5758 .1313 1.0381 .0022
Scale 3.5364 3.4444 3.6364 .1919 1.0557 .0048
Item Variances Mean Minimum Maximum Range Max/Min Variance
Part 1 1.0635 .7015 1.6038 .9023 2.2862 .1090
Part 2 .9936 .8442 1.2117 .3676 1.4354 .0299
Scale 1.0285 .7015 1.6038 .9023 2.2862 .0631

Inter-item Mean Minimum Maximum Range Max/Min Variance


Correlations
Part 1 .3351 -.1270 .6205 .7475 -4.8870 .0599
Part 2 .1556 -.2397 .5841 .8238 -2.4367 .1023
Scale .1945 -.2930 .6300 .9229 -2.1505 .0884
Correlation between forms = Equal-length Spearman-Brown =.5243
Guttman Split-half = .5145 Unequal-length Spearman-Brown=.5243
Alpha for part 1 = .7008 Alpha for part 2 = .4436
5 items in part 1 5 items in part 2

Varianza total explicada

Sumas de las saturaciones al cuadrado Suma de las saturaciones al cuadrado


Autovalores iniciales de la extraccin de la rotacin
% de la % de la % de la
Componente Total varianza % acumulado Total varianza % acumulado Total varianza % acumulado
1 3,460 34,601 34,601 3,460 34,601 34,601 3,109 31,092 31,092
2 2,673 26,725 61,327 2,673 26,725 61,327 3,023 30,234 61,327
3 ,903 9,027 70,353
4 ,650 6,500 76,853
5 ,486 4,855 81,709
6 ,453 4,530 86,239
7 ,383 3,832 90,071
8 ,371 3,715 93,786
9 ,351 3,515 97,300
10 ,270 2,700 100,000
Mtodo de extraccin: Anlisis de Componentes principales.

Matriz de componentes a a
Matriz de componentes rotados Matriz de transformacin de las componentes

Componente Componente Componente 1 2


1 2 1 2 1 ,745 ,668
ITEM01 ,703 ,353 ITEM01 ,288 ,732 2 -,668 ,745
ITEM02 ,759 ,352 ITEM02 ,331 ,769 Mtodo de extraccin: Anlisis de componentes principales.
ITEM03 ,747 ,401 ITEM03 ,288 ,798
ITEM04 ,340 ,814 ITEM04 -,290 ,833 Mtodo de rotacin: Normalizacin Varimax con Kaiser.
ITEM05 ,203 ,794 ITEM05 -,379 ,726
ITEM06 ,684 -,374 ITEM06 ,759 ,178
ITEM07 ,598 -,496 ITEM07 ,777 3,00E-02
ITEM08 ,606 -,433 ITEM08 ,741 8,20E-02
ITEM09 ,607 -,564 ITEM09 ,828 -1,4E-02
ITEM10 -,336 ,283 ITEM10 -,439 -1,3E-02
Mtodo de extraccin: Anlisis de componentes principales. Mtodo de extraccin: Anlisis de componentes principales.
a. 2 componentes extrados
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 3 iteraciones.
98
Responda a las siguientes preguntas RAZONADAMENTE:

a) Diga si el test es de rendimiento tpico o de rendimiento ptimo.


b) Obtenga el autovalor (varianza) asociado al tercer componente.
c) Puede decirse que el test es unidimensional?
d) La primera mitad del test est formada por los tems_____________________________ ,
su media es________y su consistencia interna es_____.
e) Asumiendo que ambas mitades son paralelas obtenga e interprete el coeficiente de
fiabilidad de cualquiera de ellas
f) Si tuviera que eliminar un tem diga qu tem eliminara y por qu _________ .
g) Atendiendo a la columna Alpha if item deleted diga cuales son los dos tems que ms
correlacionan con el total del test.

22. A un grupo normativo de 100 sujetos se le ha aplicado un test (X) formado por 4
tems y se le ha medido en un criterio (Y), obtenindose la siguiente matriz de correlaciones.
Se indica tambin la varianza de cada variable.

Item Item Item Item X Y


1 2 3 4
Item 1 1,00
Item 2 0,70 1,00
Item 3 0,00 0,25 1,00
Item 4 -0,44 -0,31 -,31 1,00
X 0,71 0,87 0,5 -0,15 1,00
Y 0,75 0,68 -0,08 0,14 0,76 1,00
Varianza 0,30 0,27 0,27 0,17 1,06 25,9

a) Diga cules son: 1) el tem que ms contribuye a la consistencia interna del test, 2) el tem
que ms contribuye a la validez del test. Razone sus respuestas y, en caso de necesidad,
realice los clculos oportunos.
b) Obtenga e interprete un indicador de la consistencia interna del test.
c) Obtenga la amplitud que tendra el intervalo para estimar la puntuacin en el criterio de
cualquier persona que hiciera el test, si dicho intervalo lo establecemos con un nivel de
significacin de 0.05.
d) Sabiendo que el coeficiente de fiabilidad del test de 4 tems es 0.80, obtenga e interprete el
coeficiente de validez que tendra el test si le aadimos 12 tems paralelos a los que ya tiene.

23. Un test de responsabilidad consta de 25 tems. Su coeficiente de fiabilidad test-retest


fue 0.82, su media 30 y su varianza emprica 16. La correlacin entre el test y un criterio
externo fue 0.40, siendo la varianza del criterio igual a 20 y su media 50.

a) Una persona obtiene en el test de responsabilidad una puntuacin que se encuentra dos
desviaciones tpicas por debajo de la media. Obtenga, con probabilidad 0.95, entre qu
valores estimamos que se encontrar su puntuacin directa en el criterio.
b) Obtenga e interprete la proporcin de varianza del criterio que podemos pronosticar con el
test si lo alargamos 3 veces, es decir, si le aadimos dos formas paralelas.
99

24. A continuacin aparecen distintas partes de una salida de SPSS para el anlisis de la
fiabilidad de 6 de los 36 tems del test de matrices progresivas de Raven en una muestra de 1800
sujetos. En concreto, se analizaron los tems que ocupaban las posiciones 10, 15, 20, 25, 30 y
35 del test.
100.0

ANLISIS FACTORIAL: 90.0

Matriz de componentes a
80.0

Componente 70.0

1 60.0
RAVEN10 .609
50.0
RAVEN15 .424
RAVEN20 .486 40.0

RAVEN25 .489 30.0 34.4 35.8

RAVEN30 .523
20.0
RAVEN35 .541
14.9
10.0
Mtodo de extraccin: Anlisis de componentes principales.
0.0 4.9
a. 1 componentes extrados 1

9
ANLISIS DE LAS OPCIONES (TEM 35)
ANLISIS DE FIABILIDAD:

Mean Std Dev Cases


1. RAVEN10 .8422 * 1020.0
2. RAVEN15 .7765 * 1020.0
3. RAVEN20 .6990 * 1020.0
4. RAVEN25 .6186 * 1020.0
5. RAVEN30 .6167 * 1020.0
6. RAVEN35 .5373 * 1020.0
Statistics for Mean Variance Std Dev Variables
Part 1 2.3176 .6429 .8018 3
Part 2 1.7725 .9060 .9518 3
Scale 4.0902 1.9448 1.3945 6
Item Means Mean Minimum Maximum Range Max/Min Variance
Part 1 .7725 .6990 .8422 .1431 1.2048 .0051
Part 2 .5908 .5373 .6186 .0814 1.1515 .0022
Scale .6817 .5373 .8422 .3049 1.5675 .0128
Item Variances Mean Minimum Maximum Range Max/Min Variance
Part 1 .1725 .1331 .2106 .0775 1.5827 .0015
Part 2 .2405 .2362 .2489 .0127 1.0538 .0001
Scale .2065 .1331 .2489 .1158 1.8703 .0020

Item-total Statistics
Scale Scale Corrected
Mean Variance Item- Squared Alpha
if Item if Item Total Multiple if Item
Deleted Deleted Correlation Correlation Deleted
RAVEN10 3.2480 1.5606 .2755 .0824 .3641
RAVEN15 3.3137 1.6051 .1571 .0404 .4204
RAVEN20 3.3912 1.5043 .2042 .0435 .3954
RAVEN25 3.4716 1.4742 .1987 .0466 .3996
RAVEN30 3.4735 1.4468 .2233 .0529 .3839
RAVEN35 3.5529 1.4270 .2256 .0598 .3827
Reliability Coefficients 6 items
Correlation between forms = .2594 Equal-length Spearman-Brown =
Guttman Split-half = .4071 Unequal-length Spearman-Brown =
Alpha for part 1 = .2928 Alpha for part 2 = .3053
100
En la figura se representan los porcentajes de eleccin de las opciones de respuesta para
el tem 35, cuya opcin correcta es la 3 (recuerde que el test se ha aplicado a 1800 sujetos y
que cada tem tiene 8 opciones de respuesta).

RESPONDA RAZONADAMENTE A LAS SIGUIENTES PREGUNTAS:

a) Atendiendo a los datos del anlisis de fiabilidad y a la figura Cul es el ndice de


dificultad del tem 35 considerando las omisiones como datos perdidos? Qu nmero de
personas omiten este tem?
b) Observando la frecuencia de eleccin de las opciones del tem 35 se incumple alguno de
los supuestos de la frmula de correccin del azar? Cul?
c) Considerando que el patrn de omisiones es parecido para todos los tems, cree usted que
en general habr muchas diferencias entre las puntuaciones directas y las correspondientes
corregidas?.
d) Obtenga e interprete el coeficiente de fiabilidad del test completo de 6 tems.
e) De las 2 partes del test que se consideran en el anlisis, diga cules son los tems que
forman la mitad ms consistente.
f) Algunos autores obtienen datos que indican que sobre el rendimiento de los 36 tems del
Raven subyacen dos dimensiones cognitivas. Los datos que se muestran para los 6 tems
analizados van en esta lnea?
g) El tem que ms contribuye al primer factor es el.. ya que su correlacin con dicho
factor es .
h) Cul es el porcentaje de varianza total explicado por el primer factor antes de rotar?
101
SOLUCIONES

1. a) Obtener su coeficiente de validez.


b) Aportar informacin sobre su validez de contenido.
c) Aportar datos sobre su validez factorial. Cabe pensar que si el test es vlido, sature
en el mismo factor que los otros tests que miden constructos relacionados.

2. El coeficiente de validez viene determinado por varios factores:


- La fiabilidad del test y del criterio.
- La longitud de ambos.
- La variabilidad del grupo normativo en ambos.
- La autntica relacin entre el test y el criterio.

3. No. La fiabilidad del test podemos incrementarla hasta que llegue a su tope de 1. En
este caso, la validez mxima que puede alcanzar este test completamente fiable sera
la raz cuadrada del coeficiente de fiabilidad del criterio, que sera igual a 0.77.

4. No estara totalmente justificada la desestimacin del cuestionario, dado que, por


tener tan pocos tems, obtendramos un incremento apreciable en sus cualidades
psicomtricas al incrementar su longitud.

5. a) rxy = 0.98
b) Sy-y' = 0.45

6. a) S. Por ejemplo, cuando el criterio no tenga que ver con lo que el test mida.
b) No, ya que rxy 0.25 = 0.5 .

7. a) Parece que s, dado que los dos tems de aptitud verbal obtienen saturaciones altas
en el Factor II, mientras que los dos tems de aptitud numrica obtienen saturaciones
altas en el Factor I.
b) El porcentaje de varianza explicado por el factor I ser (1.77)(100)/4 = 44.

8. El Factor I podra definirse como un producto bueno.El Factor II como un


producto barato y el Factor III como un producto bonito.

9. a) Y' = 9.475
b) Li = 3.97 Ls = 14.98

10. a) n = 2.04 2, debera estar formado por 2 formas paralelas del test inicial; es decir,
por 10 tems.
b) n = -64, no se puede alcanzar la validez de 0.8 mediante el incremento de la
longitud del test. El mximo valor del coeficiente de validez obtenible por
alargamiento del test es rxy 0.4 = 0.79.

11. Si los tres tests tuviesen la misma longitud el ms fiable sera el tercero, ya que si
alargsemos el Test 1 hasta que tuviese 40 tems su coeficiente de fiabilidad
102
valdra 0,46. El ms vlido sera tambin el Test 3, ya que al alargar el Test 1 su
coeficiente de validez toma el valor de 0,33.

12. rx y2 = 0.25; Sy2 = 2


Coeficiente de validez: 0.5
Varianza de los errores de pronstico: 1.5
Amplitud del intervalo: 4.80

13. a) Indice de homogeneidad


b) ndice de validez
c) Autovalor
d) Saturacin
e) Coeficiente de fiabilidad
f) Coeficiente de determinacin

14. a) 0.8 es mayor que el tope mximo alcanzable (0.54 = 0.42/0.6) alargando el test,
luego NO se puede alcanzar el valor 0.8.
b) Cualquier valor menor que 1 se puede alcanzar alargando el test. Luego, SI.

15. a) Y = (30 + 24)/ 2 = 27.


b) Menor. Con probabilidad 0.99, A= (2)2.57S. Con probabilidad 0.95, A = (2)1.96S.

16. a) Las varianzas de los tems son: 1.6, 0.4, 0.4, 2, 1.36 y 1.6
La varianza del test es 17.76
El coeficiente alfa es (6/5)(1 (7.36/17.67)) = 0.70. Alta consistencia, pues el test es
corto.
b) El coeficiente de validez es 0.43. El 18% de la varianza del criterio depende del test.
c) La correlacin par e impar es 0.33. El coeficiente de fiabilidad del test (dos
mitades) es 0.50. El nmero de formas paralelas necesarias para alcanzar la validez
0.6 es 36.73. El test deber tener 36.73x6= 220.38 tems, por lo que deberemos aadir
220.38 6 = 214.38 215 tems.

17. a) No, pues las medias son mayores que 1.


b) Elimaramos el tem 4. La varianza del test resultante es 3.5556. Su coeficiente alfa
es 0.5906.
c) Hay que quitar los tems 3 y 4. El test formado por los tems 1 y 2 tiene un
coeficiente de fiabilidad de 0.60 (dos mitades), pues la correlacin entre la mitad par e
impar es 0.43 y aplicando Spearman-Brown, el coeficiente de fiabilidad es 0.6.
d) 0.769.
e) 46.8 (factor 1) y 30.7 (factor 2). No hubiese sido necesaria, pues la matriz rotada se
parece mucho a la no rotada.

18. Sera mayor que 0.54, pues la muestra de todos los aspirantes (los que han aprobado
la selectividad y los que no) tiene una mayor variabilidad y por lo tanto cabe esperar
un mayor coeficiente de validez.

19. La correlacin entre las puntaciones verdaderas del test y criterio es mayor o igual que
el coeficiente de validez (vase apartado 4.3).
103
20. a) F
b) V
c) F

21. a) Tpico (las medias de los tems son mayores de 1).


b) 0.9027 (su % de varianza explicada es 9.027).
c) No. Hemos retenido dos factores.
d) Primera mitad: tems 1 a 5. Su media es 17.8283. Su alfa es 0.7008.
e) El coeficiente de fiabilidad del test de 10 tems es 0.5243 = 2r/(1+r), siendo r la
correlacin entre las dos partes y el coeficiente de fiabilidad de cada una. Despejando,
r = 0.36.
f) El tem 10, pues correlaciona -0.19 con el total del test.
g) Los dos que tengan menores valores en esa columna: tems 2 y 6.

22. El tem 2, pues tiene la mayor correlacin con el test (0.87). El tem 4, pues tiene la
mayor diferencia V-H (0.29).
b) El coeficiente alfa vale 0.06. El test no tiene consistencia.
c) 12.97
d) El coeficiente de validez del test alargado cuatro veces es 0.82. Este coeficiente de
validez es muy alto. El test predice muy bien el criterio. El 67.24% de la varianza del
criterio puede explicarse por las puntuaciones en el test

23. a) (38.27, 54.43).


b) El coeficiente de validez del test alargado es 0.43. La proporcin pedida es 0.18. Es
un coeficiente de validez medio.

24. a) 0.54, pues 0.344/(1-0.0.358) = 0.535. Lo omiten 644 = (0.358)1800.


b) Las alternativas no son igualmente elegidas.
c) Las diferencias entre puntuaciones y puntuaciones corregidas sern pequeas, pues
el nmero de errores en los tems es bajo y el nmero de opciones en cada tem es
alto.
d) 0.41 ( 0.41 = (2)(0.2594)/(1+0.2594)). El 41% de la varianza observada se debe a
la varianza de los niveles de rasgo. Es una fiabilidad baja, pero el test es corto.
e) La mitad ms consistente es la parte 2 (tems 25, 30 y 35). Su alfa es 0.3053.
f) No, pues solo se extrajo un factor, no dos.
g) tem 10, pues la correlacin es 0.609.
h) 26.54 (suma de saturaciones al cuadrado dividido por 6).

S-ar putea să vă placă și