Unidad Iii y Iv PDF

TOMS PEDRO PABLO CAYCHO RODRGUEZ
Tercera
UNIDAD
Validacin del Instrumento
Psicomtrico
La elaboracin de pruebas psicolgicas requiere de mucha paciencia.

Los reactivos rara vez pueden redactarse sin sufrir una revisin extensa.
Se realizan numerosas pruebas piloto antes de que surja un instrumento aceptable.
No hay una edicin final de una prueba; siempre aguarda la siguiente versin
Aaron T. Beck, M.D.

Extracto del Test Developer Prrofile publicado en Cohen (1999)
y en internet en www.mayfieldpub.com/psychtesting
Qu procedimiento se debe emplear para el anlisis de

tems?
Qu nos indica la confiabilidad de un test?
Qu nos indica la validez de un test?
1
Competencias
CONCEPTUALES:
Identifica las relaciones entre psicologa y las medidas

estadsticas.
Define los conceptos pertinentes a las medidas
estadsticas.
Define los conceptos de confiabilidad y validez
PROCEDIMENTALES:
Provee de validez de constructo a los instrumentos

psicomtricos, comprendiendo la relacin entre las
tcnicas estadsticas y la finalidad de los instrumentos
psicolgicos.
Obtiene la confiabilidad mediante mtodos apropiados

a problemas psicomtricos.
ACTITUDINALES:
Asume una actitud cientfica frente a la psicologa.

Valora el proceso de validacin de un instrumento
psicomtrico.
Valora los aportes de las ciencias matemticas y los
mtodos estadsticos.
2
CONTENIDO TEMTICO
Leccin I: Anlisis de tems
ndice de Dificultad
ndice de Homogeneidad
Anlisis del poder de discriminacin
ndice de Validez
Anlisis de opciones incorrectas de respuestas
Correccin de los efectos del azar
Seleccin de tems para el formato final del test
Leccin II: Confiabilidad. Concepto, caractersticas y aplicaciones
Confiabilidad como estabilidad temporal

Confiabilidad por consistencia interna
Confiabilidad por el mtodo de formas paralelas
Estimacin del error tpico de medida
Factores que afectan la confiabilidad
Leccin III: Validez. Concepto, caractersticas y aplicaciones
Concepto
Validez de contenido
Validez de constructo
Validez Predictiva
3
ESQUEMA CONCEPTUAL
VALIDACIN DEL
INSTRUMENTO
PSICOMTRICO
Anlisis Anlisis de la Anlisis de la

de tems Confiabilidad Validez
ndice de dificultad
Estabilidad Validez de
Temporal Contenido
ndice de
homogeneidad
Consistencia Validez de
Interna Constructo
ndice de
discriminacin
Formas Paralelas
Validez Predictiva
ndice de validez
ndice de dificultad
CONCEPTOS CLAVES
Homogeneidad, discriminacin, dificultad, validez, confiabilidad, estabilidad,

consistencia interna, contenido, constructo, predictiva
4
Leccin I
Anlisis de tems1
Los tems se construyen con la finalidad de medir el constructo, variable, o

rasgo que interesa evaluar con el test psicolgico. Ahora bien, el grado en
que cada tem "mide bien" el rasgo de inters es algo que se puede
comprobar estadsticamente de manera sencilla al obtener tres indicadores
para cada tem:
a) El ndice de dificultad.
b) El ndice de homogeneidad.
c) El ndice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos

representativa de la poblacin a la que va dirigida la prueba (se aconseja
entre 5 y 10 veces ms sujetos que tems), y una vez cuantificadas las
respuestas de cada individuo, se forma una matriz de datos de sujetos x
tems:
Tabla 8
Matriz de puntuaciones
tems
1 2 3 n X
Sujeto
1
Sujeto
2
Sujeto
3
.
.
.
Sujeto
N
1
Algunas de las ideas de este acpite se basan en Abad, F., Garrido, J., Olea J. & Ponsoda,
V. (2006). Introduccin a la Psicometra. Teora Clsica de los Test y Teora de Respuesta al
Item. Madrid: Universidad Autnoma de Madrid. Se agradece a los autores por la
deferencia para con el autor, a fin de que sean tomados para dar forma a los captulos de
esta unidad.
5
Un elemento aij de esta matriz indica el valor asignado a la respuesta que

da el sujeto i al tem j. Sumando por filas podemos obtener las
puntuaciones directas (X) de los sujetos en el total del test. Veamos cmo
se obtienen (y qu sentido tiene su obtencin) los tres ndices citados
anteriormente.
El procesamiento de los datos para obtener las caractersticas de los tems,

implica realizar necesariamente los siguientes tipos de anlisis:
Distribuir las frecuencias de las puntuaciones totales y de cada sub-test

(si es que la prueba los tiene).
Representar de manera grfica (polgonos de frecuencia o histogramas)
las distribuciones de frecuencia de las puntuaciones totales y de cada
sub-test.
Calcular la media, varianza, desviacin estndar, asimetra y kurtosis, de
la distribucin de las puntuaciones totales y de las parciales de cada sub-
test.
Tabular la dificultad de tem y corregirla para evitar el efecto del azar, as
como la proporcin de eleccin de cada uno de los distractores incluidos.
Computar la varianza y desviacin estndar de la puntuacin total y de
las puntuaciones parciales de los que eligieron la respuesta correcta.
Computar el poder discriminativo de cada tem.
Computar el coeficiente de validez de cada tem.
1. ndice de Dificultad
Este primer indicador sirve para cuantificar el grado de dificultad de cada

tem, por lo que slo tiene sentido su clculo para tems de test de
rendimiento ptimo. Indica la proporcin de personas que respondieron
correctamente la pregunta. El ndice de dificultad de un tem j se define
como el cociente entre el n de sujetos que lo han acertado (Aj) y el n
total de sujetos que lo han intentado resolver (Nj)
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de

una muestra de 10 personas a un test formado por 6 tems dicotmicos
(1 indica acierto y 0 error):
6
Tabla 9
Matriz de puntuaciones de 10 personas
tems
1 2 3 4 5 6 X
1 0 0 0 1 1 1 3
2 0 1 - 0 - 1 2
3 0 0 1 - 0 1 2
4 0 0 0 - 1 1 2
5 0 1 0 1 - 1 3
6 0 1 - - - 1 2
7 0 0 - 1 1 1 3
Sujetos 8 0 0 1 - 0 - 1
9 0 1 0 - 0 1 2
10 0 1 0 - 0 1 2
0 5 2 3 3 9
Aj
10 10 7 4 7 9
Nj
0 0.5 0.29 0.75 0.43 1
Dj
Con estos resultados podemos comprobar varios aspectos de la

interpretacin de Dj:
- El valor mnimo que puede asumir Dj es 0 (ningn sujeto acierta el

tem) y el valor mximo 1 (todos los sujetos que lo intentan lo
aciertan).
- A medida que Dj se acerca a 0 indica que el tem ha resultado muy

difcil; si se acerca a 1, que ha resultado muy fcil; y si se acerca a 0,5,
que no ha resultado ni fcil ni difcil.
- Dj est relacionado con la varianza de los tems: Si Dj es 0 1, la

varianza es igual a cero; a medida que Dj se acerca a 0,5, la varianza
del tem aumenta. De nada sirve un tem con Dj = 0 o Dj = 1, ya que
no discriminara entre los diferentes sujetos (todos aciertan o todos
fallan).
Al disear un cuestionario de rendimiento ptimo, al inicio se sitan los

tems ms fciles (con mayor Dj); en la parte central, los de dificultad
media (entre 0,30 y 0,70); y al final, los ms difciles (con menor Dj). El
nmero de tems de cada categora de dificultad que deben incluirse en el
7
test depende de los objetivos que quiera conseguir la persona que disea
el cuestionario. En general, la mayor parte de los tems deben ser de
dificultad media.
Debido a que la mayora de los tems de las pruebas de ejecucin

mxima son de la modalidad de eleccin mltiple, se hace necesario
cuando se estudia su nivel de dificultad corregir su valor, debido a la
probable existencia de la adivinacin al responder. Este procedimiento es
conocido como la correccin para el azar y se calcula a partir de la
siguiente frmula:
R W
P= O1
N
Donde:
P: Dificultad corregida.
R: Nmero de participantes que marcaron correctamente el tem.
W: Nmero de participantes que marcaron incorrectamente el tem.
O: Nmero de alternativas que tiene el tem.
N: Nmero total de participantes evaluados.
Una vez corregida la dificultad es posible jerarquizar los tems desde

los ms fciles hasta los ms difciles como es el caso de las pruebas de
dificultad creciente (Tabla 7).
2. ndice de Homogeneidad
La contribucin de caca tems a la consistencia interna del test se evala

con el ndice de Homogeneidad. El ndice de homogeneidad, llamado a
veces ndice de discriminacin de un tem (Hj) se define como la
correlacin de Pearson entre las puntuaciones de los N sujetos en el tem
j y las puntuaciones X en el total del test:
Hj= rjx
Segn la disposicin de la matriz de datos, para obtener los Hj de los

tems, debemos calcular la correlacin entre las columnas j y la columna
X de puntuaciones directas en la prueba. Recordemos que en la matriz de
puntajes o bases de datos, la columna j (tambin denominada columna
de las x o columna de puntajes directos (PD) seala el puntaje total que
en el test obtiene cada sujeto. Luego, la lgica del procedimiento a seguir
es simple: Si el tem mide lo mismo que el test, entonces debe haber una
correlacin estadsticamente significativa entre la puntuacin del tem y
la puntuacin total que obtiene cada sujeto en el test. Ahora bien,
8
estadsticamente, se averigua el grado de relacin entre dos variables (en

este caso el tem y el test) utilizando un coeficiente de correlacin.
Los coeficientes de correlacin que ms se utilizan para averiguar el

grado de relacin entre un tem y el test son dos: el coeficiente de
correlacin biserial y el coeficiente de correlacin punto o continuo
biserial. Cada uno de estos coeficientes tiene sus ventajas y desventajas;
as como sus propias frmulas que pueden consultarse en cualquier libro
de psicometra o estadstica aplicada a la psicologa. En este captulo,
como lo dijimos lneas arriba, utilizaremos el coeficiente de correlacin
punto biserial. Este coeficiente es un caso especial del coeficiente
producto momento de Pearson para el caso del tem-test. En
consecuencia, utilizaremos el coeficiente de Pearson.
El coeficiente de Pearson vara entre los siguientes valores: -1, 0, +1; los
tems del pretest demostrarn su homogeneidad o consistencia interna
en la medida en que el valor del coeficiente de correlacin del tem con el
test se acerquen significativamente a +1.
Ejemplo: Supongamos un test formado por 3 tems con formato de

respuesta de categoras ordenadas, que se valoran entre 0 y 5. Despus
de aplicarse a un grupo de 5 sujetos se obtienen los siguientes datos:
Tabla 10
Matriz de puntuaciones
tems
1 2 3 X
1 2 3 5 10
Sujetos 2 3 1 0 4
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
Puede comprobarse que los ndices de homogeneidad de los 3 elementos

son:
El ndice de homogeneidad de un tem nos va a informar del grado en

que dicho tem est midiendo lo mismo que la prueba globalmente; es
decir, del grado en que contribuye a la homogeneidad o consistencia
9
interna del test. Los tems con bajos ndices de homogeneidad miden algo
diferente a lo que refleja la prueba en su conjunto. Si con el test se
pretende evaluar un rasgo o constructo unitario, deberan eliminarse los
que tienen un Hj prximo a cero.
En ocasiones, un test est formado por diferentes subtest con contenidos

distintos. En este caso, los Hj deben obtenerse con relacin a las
puntuaciones directas del subtest concreto. Cuando un Hj es negativo y
alto, debemos cuestionar el sistema de cuantificacin de las respuestas
que se ha seguido en ese tem. Si un tem obtiene una correlacin
negativa y alta con el total de la prueba, seguramente es debido a que se
ha cuantificado errneamente el tem (se ha tomado como directo siendo
inverso, o viceversa).
Cuando un test tiene un nmero pequeo de tems, resulta ms

apropiado obtener el ndice de homogeneidad corregido (rj,x-j).
Consiste en correlacionar las puntuaciones en un tem con las
puntuaciones en el total del test despus de restar de este total las
puntuaciones del tem cuyo ndice queremos obtener. En el ejemplo
precedente, el ndice de homogeneidad corregido para el tem 1 ser
0.49, resultado de correlacionar la 1 columna de la tabla (2, 3, 5, 0, 4)
con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3).
Anlogamente, los ndices de homogeneidad corregidos para los tems 2
y 3 son, respectivamente, 0.89 y 0.54. Como resulta lgico suponer, el
Hj corregido de un tem suele ser inferior a su Hj sin corregir.
Una vez obtenidos los ndices de Homogeneidad (Hj) de cada tem con la
frmula r de Pearson, debemos informar si los coeficientes hallados
indican si el tem tiene una correlacin estadsticamente significativa con
el test. Para ello, debemos consultar las tablas de significacin de los
coeficientes r (Tabla 11). En primer lugar, debemos determinar los
grados de libertad (gl); despus el nivel de significacin
(generalmente el de 0.05 o el de 0.01). Para determinar los grados de
libertad se utiliza la frmula: N-2, donde N es el tamao de la muestra y
2 es una constante. En el ejemplo anterior (Tabla 10, matriz de 5 sujetos
y 3 tems), los gl son: 5-2=3; para estos grados de libertad en un nivel
de significacin del 0.05 le corresponde el valor de .0.878 y en un nivel
de significacin de 0.01 el valor es de 0.959. Luego en la tabla 10, los
ndices de homogeneidad de cada tem debe ser iguales o superiores a
0.878 para decir que hay una relacin estadsticamente significativa entre
el tem y el test; y deben ser iguales o superiores a 0.959 para decir que
hay una relacin estadsticamente muy significativa. Si los ndices de
homogeneidad no alcanzan o superan a los valores r de la tabla se dir
que no hay relacin entre el tem y el test, es decir, para efectos del
anlisis, el tem no mide lo mismo que el test.
10
El tamao de los ndices de homogeneidad estadsticamente significativos

sern elementos de juicio muy importantes al momento de seleccionar
los tems del pretest para la versin final o test.
Tabla 11
Significacin del coeficiente de correlacin de Pearson (Tomado
de Aliaga, 2005, p. 65)
gl 0.1 0.05 0.01 0.001 gl 0.1 0.05 0.01 0.001
1 0.988 0.997 1.000 1.000 22 0.344 0.404 0.515 0.629
2 0.900 0.950 0.990 0.999 23 0.337 0.396 0.505 0.618
3 0.805 0.878 0.959 0.991 24 0.330 0.388 0.496 0.607
4 0.729 0.811 0.917 0.974 25 0.323 0.381 0.487 0.597
5 0.669 0.755 0.875 0.951 26 0.317 0.374 0.479 0.588
6 0.622 0.707 0.834 0.925 27 0.312 0.367 0.471 0.579
7 0.582 0.666 0.798 0.898 28 0.306 0.351 0.463 0.570
8 0.549 0.632 0.765 0.872 29 0.301 0.355 0.456 0.562
9 0.521 0.602 0.735 0.847 30 0.296 0.349 0.449 0.554
10 0.497 0.576 0.708 0.823 35 0.275 0.325 0.418 0.519
11 0.476 0.553 0.684 0.801 40 0.275 0.304 0.393 0.490
12 0.458 0.532 0.661 0.780 45 0.243 0.288 0.372 0.465
13 0.441 0.514 0.641 0.760 50 0.231 0.273 0.354 0.443
14 0.426 0.497 0.623 0.742 55 0.220 0.261 0.339 0.425
15 0.412 0.482 0.606 0.725 60 0.211 0.250 0.325 0.408
16 0.400 0.468 0.590 0.708 70 0.195 0.232 0.302 0.380
17 0.369 0.456 0.575 0.693 80 0.183 0.217 0.283 0.357
18 0.378 0.444 0.561 0.679 90 0.173 0.205 0.267 0.338
19 0.369 0.433 0.549 0.665 100 0.164 0.195 0.254 0.321
20 0.360 0.423 0.537 0.652 120 0.150 0.178 0.232 0.294
21 0.352 0.413 0.525 0.640 150 0.134 0.159 0.208 0.264
200 0.116 0.138 0.181 0.230
11
3. Anlisis del poder de discriminacin
De acuerdo con Delgado, Escurra & Torres (2006) aqu se trata de medir
el grado con el cual el tem es capaz de establecer diferencias entre las
personas con niveles altos y bajos de una habilidad, aptitud o
conocimiento que est siendo evaluado.
Se separan las pruebas considerando el grupo superior (27%) y el grupo

inferior (27%), luego se obtiene separadamente para cada tem el
porcentaje de participantes que responden correctamente, ambos datos
se restan y el resultado final es la discriminacin que tiene cada tem
(Cortada, 1999). Su frmula es la siguiente:
Disc.= GS GI
Donde:
GS: % del grupo superior que contest correctamente el tem.
GI: % del grupo inferior que contest correctamente el tem.
El valor obtenido debe ser positivo y para aceptar el tem debe ser igual o
mayor a 0.30
Tabla 12
Clasificacin de la discriminacin de los tems (Tomado de
Delgado, Escurra & Torres, 2006, p. 65)
CLASIFICACIN DISCRIMINACIN
MUY BUENA DISCRIMINACIN De 0.40 a 0.99
DISCRIMINACIN ACEPTABLE De 0.30 a 0.39
DISCRIMINACIN INTERMEDIA De 0.20 a 0.29
DISCRIMINACIN INACEPTABLE De 0.05 a 0.19
4. ndice de Validez
El ndice de validez puede calcularse una vez que se conocen los

siguientes dos estadsticos:
La desviacin estndar de la puntuacin del tem.

La correlacin entre la puntuacin del tem y una puntuacin
criterio.
La correlacin entre la puntuacin en el tem 1 y una puntuacin en la

medida criterio se multiplica por la desviacin estndar de la puntuacin
del tem 1. El producto es igual a un ndice de la validez de un tem.
12
Las puntuaciones de los N sujetos en un tem j pueden correlacionarse

tambin con las que estos sujetos obtienen en un criterio de validacin
externo al test (Y); esta correlacin define el ndice de validez del tem j:
Vj= rjy
El criterio de validacin "Y" es una medida diferente del test para reflejar
el mismo rasgo u otro muy relacionado, de tal manera que si el test mide
lo que se pretende, debera correlacionar de forma elevada con el
criterio. Por ejemplo, un criterio para validar un test de inteligencia
verbal puede ser otro test que incluye cuestiones verbales; los
supervisores de unos trabajadores podran valorar el grado de motivacin
de cada uno y utilizar estas valoraciones como el criterio de validacin de
un test de motivacin laboral; el total de ventas en pesetas que realizan
los vendedores puede ser un buen criterio para validar un test de aptitud
para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que

conocemos las puntuaciones directas de las 5 personas en un criterio Y:
Sujeto : 1 2 3 4 5
Y: 5 3 6 0 6
Los ndices de validez de los tres tems sern:
V1= r1Y = 0,87

V2= r2Y = 0,88
V3= r3Y = 0,54
Los elementos que tengan una correlacin con el criterio prxima a cero
deberan eliminarse de la prueba, en la medida que no contribuyen a
evaluar el rasgo que se pretende medir. Si lo que se pretende es
seleccionar los tems que ms contribuyen a la validez del cuestionario,
de entre los tems de igual varianza, seran preferibles los que tienen alto
Vj y bajo Hj. El clculo del ndice de validez del tem ser importante
cuando la meta es maximizar la validez de la prueba relacionada con un
criterio.
5. Seleccin de tems para el formato final del test
1. Se seleccionar los tems del pretest por sus ndices de homogeneidad

estadsticamente significativos.
13
2. Se agrupar los tems por sus valores p (el nmero de tems en

porcentajes para cada franja de valores p aparece en la tabla
anterior).
3. Se reordenar los tems de acuerdo a sus valores p, colocando en

primer lugar al del valor p ms cercano a 1 y as sucesivamente en
forma descendente hasta el ltimo, que ser el valor p ms cercano
a 0.
Antes de la elaboracin de la versin final del test, siempre se debe hacer

una ltima inspeccin de los tems seleccionados para descartar cualquier
falla en su redaccin o en su presentacin, de tal modo que el test sea
ptimo en todos los aspectos.
14
Leccin II
Confiabilidad
Concepto, caractersticas y aplicaciones
Siguiendo a Abad, Garrido, Olea & Ponsoda (2006), la idea fundamental de

la teora de la confiabilidad, segn la teora clsica de los test (TCT), se
basa en el supuesto que el puntaje emprico obtenido por un individuo en el
test, est compuesto por un puntaje verdadero ms un puntaje de error. El
modelo expresa que el puntaje emprico X es una funcin lineal de la
puntuacin verdadera, ms el error de medida. El puntaje verdadero se
puede definir como la calificacin obtenida por una persona en el caso de
que un instrumento de medicin efectuara sus mediciones sin error (Brown,
1980).
X=V+E (1)
Esta definicin peca de circular siendo el mejor definir el puntaje verdadero

como la media aritmtica de los puntajes empricos que se obtendra de
aplicar un mismo test infinitas veces al mismo sujeto, bajo las mismas
condiciones y asumiendo que no se contaminarn por efecto de las prcticas
sucesivas ni por variaciones del individuo.
Se entiende por confiabilidad el grado de estabilidad, precisin o

consistencia que manifiesta el test como instrumento de medicin de un
rasgo determinado. Si un herrero mide varias veces con una cinta mtrica
la longitud de una barra de hierro, siempre obtendr la misma medicin,
debido a que tanto la cinta mtrica como la barra permanecen invariantes.
Ahora bien, cuando empleamos un test para medir un rasgo psicosocial
determinado, puede ocurrir que ni uno ni otro permanezcan invariantes de
una situacin a otra; anlogamente, sera como disponer de una cinta
mtrica elstica y de una barra de hierro sometida a diferentes
temperaturas (y, por lo tanto, ms o menos dilatada). Es labor de la
psicometra establecer en cada caso el grado de estabilidad del instrumento
de medicin.
Hasta el momento, el modelo clsico de puntuacin verdadera y el

planteamiento de la confiabilidad como correlacin entre formas paralelas,
se han establecido en trminos paramtricos; es decir, suponiendo
conocidos los datos de la poblacin de referencia. Lo real es que en la
prctica vamos a disponer de datos obtenidos en una muestra o grupo
normativo concreto. Esto significa que, de modo directo, nicamente vamos
15
a disponer de las puntuaciones empricas de dicha muestra, a partir de las

cuales podemos obtener los estadsticos que sean oportunos.
El concepto de confiabilidad lleva implcita la idea de que los puntajes

empricos estn afectados por fuentes de error. Aunque los errores son
muchos y variados, debe sealarse que en el estudio de la confiabilidad
interesan los errores aleatorios o accidentales, producidos despus de
eliminarse las fuentes de error susceptibles de control. En los puntajes de
error de medicin no se incluyen los errores constantes. De hecho, en la
construccin de un test se busca minimizar los errores atribuirles a la
prueba.
El puntaje de error de medida puede determinarse a partir de la ecuacin

(1) y se define como la diferencia entre el puntaje emprico (X) y el puntaje
verdadero (V):
E= X V (2)
Puesto que cualquier puntaje emprico puede descomponerse en dos partes,

en un puntaje verdadero y en un puntaje de error, del mismo modo puede
representarse la varianza de una prueba
S 2 x = S2 v + S 2 e (3)
Esto significa que la varianza total (S2x) de los puntajes, est integrada por
la varianza de los puntajes verdaderos (S2v) ms la varianza de los puntajes
de error (S2e ). Es de suponer que los puntajes verdaderos y los puntajes de
error son independientes, no estn correlacionados, su correlacin es cero.
Entonces podemos escribir la confiabilidad en los siguientes trminos, como
la proporcin entre la varianza verdadera y la varianza total.
En suma, la confiabilidad se refiere al grado de varianza de las mediciones

atribuibles a las fuentes de error. Esto significa que cuando la porcin de la
varianza de error es baja, el coeficiente de confiabilidad ser alto. Un
coeficiente de confiabilidad de 0.95 indicar que el 95% de la varianza de
los puntajes de un test corresponden a la varianza verdadera y el 5% a la
varianza de error.
En la prctica, la estimacin del coeficiente de confiabilidad no se realiza

empleando las ecuaciones anteriores. Ms bien, se han ideado numerosas
frmulas que permiten determinar los diversos conceptos referentes a la
confiabilidad. Tradicionalmente, la confiabilidad de un test puede
entenderse de tres maneras diferentes:
a) Aludiendo a la estabilidad temporal de las medidas que proporciona.
16
b) Haciendo referencia al grado en que diferentes partes del test miden un

rasgo de manera consistente.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.
1. Confiabilidad como estabilidad temporal
Si disponemos de las puntuaciones de N personas en un test y, despus

de transcurrido un tiempo, volvemos a medir a las mismas personas en el
mismo test, cabe suponer que siendo el test altamente fiable,
deberamos obtener una correlacin de Pearson elevada entre ambos
mediciones. Dicha correlacin entre la evaluacin test y la evaluacin
retest (rxx) se denomina coeficiente de confiabilidad test-retest, e
indicar mayor estabilidad temporal de la prueba cuanto ms cercano a
uno sea. Este modo de operar se desprende directamente del modelo
lineal clsico, segn el cul se define la fiabilidad como la correlacin
entre las puntuaciones empricas en dos formas paralelas, ya que no
existe mayor grado de paralelismo entre dos tests que cuando en
realidad es uno aplicado dos veces.
Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un

cuestionario de hbitos de estudio. Transcurridos dos meses, se vuelve a
aplicar el mismo test a las mismas personas bajo las mismas condiciones.
Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:
Tabla 14
Matriz de respuestas a un cuestionario de hbitos de
estudio
Persona Test Retest

1 16 10
2 14 14
3 12 8
4 11 12
5 10 10
6 8 8
7 8 7
8 6 5
9 4 4
10 1 2
Para obtener el coeficiente de fiabilidad test-retest basta con

correlacionar los datos de las dos ltimas columnas:
rxx = 0.87
17
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si

los niveles de rasgo (hbitos de estudio) de las personas no han variado
a lo largo de los dos meses transcurridos entre las dos aplicaciones,
podemos decir que el test proporciona bastantes garantas respecto a la
precisin con la que mide, dado que una persona concreta obtiene
puntuaciones muy parecidas (o similares) en las dos aplicaciones.
Ms concretamente, y haciendo uso del teorema demostrado en el tema

anterior, podemos interpretar que el 87 % de la varianza emprica se
debe a la variabilidad de las personas a nivel de puntuaciones
verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de

medida es un rasgo estable (pruebas de inteligencia general, aptitudes,
rasgos de personalidad, etc.) dado que, de lo contrario, no se podra
discernir entre la inestabilidad debida al rasgo de la causada por el
instrumento de medicin. Es aconsejable dejar periodos largos entre la
evaluacin test y la retest cuando los tems y las respuestas pueden
memorizarse con facilidad; de lo contrario, los sujetos podran emitir
pautas de respuesta similares en las dos aplicaciones del test nicamente
por efectos del recuerdo y del deseo de responder de manera
congruente, con lo que rxx se incrementara debido a factores ajenos a la
fiabilidad de la prueba.
Debe tenerse en cuenta, sin embargo, que cuanto mayor es el intervalo

temporal que se deja entre ambas aplicaciones, mayor es la posibilidad
de que las puntuaciones de los sujetos oscilen diferencialmente debido a
factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto
en el decremento de la correlacin entre las puntuaciones del test y del
retest.
2. Confiabilidad por consistencia interna
La precisin o confiabilidad de un test se puede entender tambin como

el grado en que diferentes subconjuntos de tems miden un rasgo o
comportamiento homogneo; es decir, el grado en que covaran,
correlacionan o son consistentes entre s diferentes partes del
cuestionario. Lo ms usual es obtener la consistencia entre dos mitades
del test (mtodo de dos mitades) o entre tantas partes como elementos
tenga la prueba (consistencia interna).
2.1 Mtodo de dos mitades
Este procedimiento consiste en dividir el test en dos mitades

equivalentes (normalmente una con los elementos pares y otra con
18
los impares). Para cada sujeto se obtiene la puntuacin directa en

ambas mitades. Disponemos entonces de dos variables (P e I), cuya
correlacin de Pearson (rPI) indica su grado de relacin.
Si la mitad par e impar fueran entre s formas paralelas (ya sabemos

cmo comprobarlo estadsticamente), la correlacin entre ambas
sera una medida de la fiabilidad de cada una de ellas. Ahora bien,
cuando hemos deducido la frmula general de Spearman-Brown
hemos visto que los test ms largos (con ms tems) suelen ser ms
fiables, por lo que rPI estar subestimando el coeficiente de fiabilidad
del test total en la medida que P e I son variables extradas de la
mitad de tems que tiene el test. Para superar este problema, y as
obtener el coeficiente de fiabilidad del test completo, debemos aplicar
la frmula de Spearman-Brown, considerando ahora que estamos
trabajando con datos muestrales, y haciendo n = 2 ya que el test
completo tiene el doble de tems que cualquiera de sus mitades:
A partir de esta frmula podemos comprobar que el coeficiente de

fiabilidad, entendido como la expresin de la consistencia entre dos
mitades, es mayor que la correlacin de Pearson entre ambas
mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de

una muestra de 10 personas que responden a un cuestionario de 6
tems valorados de forma dicotmica:
Tabla 15
Resultados de respuesta a un cuestionario de 6 tems
19
En este caso se obtiene que rPI = 0.34, y por tanto:
De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir

que las dos mitades del test no son muy consistentes entre s.
nicamente un 51 % de la varianza de las puntuaciones empricas se
debe a la varianza de las puntuaciones verdaderas. No podramos
afirmar con suficiente certeza que ambas mitades miden con
precisin el rasgo de inters.
La razn de dividir el test en la mitad par y la impar es garantizar su

equivalencia. Los test de rendimiento ptimo suelen tener tems
ordenados en dificultad, de tal forma que se comienza a responder
los tems ms fciles hasta llegar a los situados al final del test, que
son los ms difciles. Si realizsemos la particin en dos mitades
atendiendo a su disposicin en la prueba (la primera mitad formada
por los primeros n/2 tems, la segunda por los n/2 tems ltimos)
difcilmente podra cumplirse que ambas tuvieran la misma media.
1.2 Coeficiente Alfa de Cronbach
En el tema precedente vimos que si los k tems de un test fueran

paralelos, el coeficiente de confiabilidad del test podra obtenerse
aplicando la frmula general de Spearman-Brown:
siendo k el n de tems del test y jl la correlacin de Pearson entre

cualquier par de tems. Expresada la frmula anterior para datos
muestrales, quedara como:
Una frmula equivalente a la anterior; es decir, que proporciona

exactamente el mismo resultado, es el denominado coeficiente de
Cronbach:
20
donde k es el n de tems
S2j es la suma de las varianzas de los tems y S2x es la varianza del

test
Dado que las puntuaciones en el test son la suma de las puntuaciones

en los tems, la varianza del test puede expresarse como:
por lo que la expresin inicial puede quedar como:
Esta frmula reproduce el coeficiente de confiabilidad del test si todos

los tems son paralelos. En la prctica, es muy difcil que esto se
produzca pero, sin embargo, tiene sentido su aplicacin para
establecer el grado en que los diferentes tems estn midiendo una
nica dimensin o rasgo. Podemos observar en la ltima expresin
que depende del grado de covariacin de los tems: tendr un valor
alto (cercano a 1) cuando los tems covaren fuertemente entre s;
asumir valores cercanos a cero si los tems son linealmente
independientes (si covaran de forma escasa). Matemticamente,
puede asumir valores negativos.
Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad

si, como ocurre en la prctica totalidad de los test, los tems no son
paralelos. Suele considerarse una "estimacin por defecto" del
coeficiente de fiabilidad, lo que significa que es igual al coeficiente (si
los tems son paralelos) o menor (cuando no lo son). Debe
interpretarse como un indicador del grado de covariacin entre los
tems, y es aconsejable complementarlo con otras tcnicas
estadsticas (por ejemplo Anlisis Factorial) antes de interpretarlo
como una medida de unidimensionalidad.
Ejemplo:
21
Tabla 16
Matriz de puntuaciones para el anlisis del coeficiente de
confiabilidad de Cronbach
En este caso, el coeficiente obtenido representa un valor medio,

que nos indica que no existe un elevado grado de covariacin entre
los tems. No podemos afirmar con rotundidad que este test mide un
rasgo unitario.
El coeficiente puede obtenerse tambin entre diferentes grupos de

tems (subtest). En ese caso, k ser el nmero de subtests y S2j la
suma de las varianzas de los subtests. Un coeficiente bajo indicar
que los diferentes subtests miden rasgos o constructos diferentes.
2. Confiabilidad por el mtodo de formas paralelas
A veces, por razones de ndole prctica o investigadora, se disea un test

y una segunda versin del mismo, denominada forma paralela, que
intenta evaluar o medir lo mismo que el test original pero con diferentes
tems. Como ya hemos explicado, dos versiones o formas se consideran
paralelas si, aplicadas a una misma muestra de personas, obtienen
medias y varianzas probabilsticamente similares.
La correlacin de Pearson entre las puntuaciones obtenidas en una

misma muestra en dos formas paralelas se considera el coeficiente de
fiabilidad de cualquiera de ellas, e indicar el grado en que pueden
considerarse equivalentes.
22
Ejemplo:
Tabla 17
Matriz de puntuaciones para el anlisis de la Confiabilidad
por el mtodo de formas paralelas
Sujetos Forma 1 Forma 2
1 1 4
2 14 12
3 11 13
4 11 19
5 10 12
Medias 9.4 10
Varianzas 19.44 10.8
Varianzas (ins.) 24.3 13.5
No es comn disear una forma paralela de un test para obtener datos

sobre su fiabilidad. Cuando se disean (tarea por otra parte difcil) es
porque van a utilizarse en determinados trabajos que requieren 2
aplicaciones sucesivas de un test que se puede recordar con facilidad. Por
ejemplo, para evaluar la eficacia de ciertos programas cortos de
enriquecimiento cognitivo o motivacional, conviene utilizar antes y
despus del entrenamiento pruebas equivalentes aunque con contenidos
diferentes (formas paralelas) para evitar los efectos del recuerdo.
3. Estimacin del error tpico de medida
El coeficiente de confiabilidad no da una indicacin directa de la cantidad

de variabilidad (error) que se espera en las puntuaciones de un individuo
en una medicin. Esta indicacin la da el error tpico de medida.
Asumiendo el postulado fundamental del modelo clsico, que expresa la

relacin:
X=V+E
23
es fcil demostrar que se cumple la siguiente relacin para datos

muestrales:
Sx2 = Sv2 + Se2
A la desviacin tpica de los errores de medida (Se) se denomina error

tpico de medida. En cierta manera, el Se representa tambin una medida
de precisin: cuanto ms cercano a cero sea el error tpico de medida de
un test, eso significar que dicho test proporciona a cada persona una
puntuacin X cercana a su nivel de rasgo V.
En trminos paramtricos, habamos demostrado en el tema anterior

que:
Para datos muestrales, la expresin anterior queda establecida como:
De donde se deduce que el error tpico de medida puede obtenerse a

partir de la expresin:
Sx= desviacin estndar de la distribucin de puntajes

directos del test en la muestra estudiada.
1= constante
rxx= coeficiente de confiabilidad
El error de medida permite, a su vez, precisar un rango de puntaje que

abarca a la puntuacin verdadera del sujeto. Este rango se denomina
intervalo de confianza. Los niveles de confianza son principalmente dos:
el de 68% y del 95%.
24
4. Factores que afectan la confiabilidad de un test 2
Segn Hogan (2004), la confiabilidad se relaciona con la consistencia de

las puntuaciones en la medicin al margen de lo que mida el instrumento,
y en este sentido parece coincidir con Muiz (1994), quien indica que la
confiabilidad o fiabilidad se refiere a la estabilidad de las mediciones
cuando no existan razones tericas o empricas para suponer que la
variable a medir haya sido modificada diferencialmente para los sujetos,
por lo que esta estabilidad es asumida como tal, mientras no se
demuestre lo contrario.
En una definicin ms tcnica, Cohen y Swerdlick (2001), sealan que la

confiabilidad es la proporcin de la varianza total atribuida a la varianza
verdadera, y en consecuencia, entre mayor sea la proporcin de la
varianza total atribuida a la varianza verdadera, la prueba ser ms
confiable. Entonces, parafraseando a Kerlinger y Lee (2002) se puede
definir a la confiabilidad como la ausencia relativa de errores de medicin
en un instrumento de medicin.
Es por tal motivo, que al incrementar la proporcin de la varianza de

error, exista menor confiabilidad. De acuerdo con este enfoque, la
confiabilidad de un test puede expresarse en trminos del
Coeficiente de confiabilidad, es decir, la correlacin entre dos
mediciones obtenidas de la misma forma, y en funcin del error
estndar de la medicin (Alarcn, 2008).
De esta manera, se observa que la confiabilidad suele estar

definida en trminos de constancia temporal, es decir si existe o no
cierta variabilidad que d indicios de estabilidad en una serie de
aplicaciones de la prueba; y en su estructura interna, o sea, si se
encuentra que los reactivos que conforman la prueba son consistentes
entre s, y por lo tanto miden un mismo rasgo, habilidad o variable con
precisin y de forma consistente.
Tomando en cuenta tales definiciones de la confiabilidad,

planteadas en prrafos anteriores, es necesario mencionar ciertos
factores que la afectan, ocasionando que sta sea mnima o mxima, de
acuerdo a los estndares permitidos, para considerar a un instrumento
de medida o un test con una buena precisin.
2 Seccin redactado por el Lic. Christian Jibaja. Presidente del Crculo de investigacin y
Desarrollo de Instrumentos Psicomtricos CIDIPSI, al cual se le agradece su
colaboracin.
25
Por lo tanto, la presente revisin terica expondr e intentar explicitar

todos aquellos aspectos implicados a la problemtica de la confiabilidad,
pasando por su estimador principal de medida e interpretacin, as
como, aquellos procedimientos que permitirn resolver los mnimos
grados de confiabilidad de un instrumento psicomtrico, hasta alcanzar
un mayor nivel de precisin en la medicin y coadyuven a manifestar
que el instrumento utilizado puede ser fiable para una rplica posible y
futura medicin en lo sucesivo de las aplicaciones; todo esto segn el
marco referencial de la Teora Clsica de los Test (TCT).
5.1. Factores que Afectan a la Confiablidad.
Son diversas fuentes que afectan la confiabilidad. En tal sentido,

haciendo una revisin en la literatura se ha podido destacar, tres
principales factores que tienen impacto sobre la confiabilidad de una
prueba psicolgica o educativa. Estos factores son las que provienen
de caractersticas naturales del test, la variabilidad de la muestra y
la longitud de la prueba. De esta forma, se pasar a exponer y
detallar cada uno de estos factores propuestos.
5.1.1. Caractersticas Naturales del Test.
La naturaleza de una prueba (o test psicolgico) hace referencia

a las caractersticas propias del test, aqu se incluyen
consideraciones como si los reactivos de una prueba son de
naturaleza homognea o heterognea; si la capacidad, rasgo
o caracterstica que se est midiendo es dinmica o esttica; si
el rango de puntuaciones de la prueba est restringido o no, si
la prueba es de velocidad o de poder; y si la prueba se lleva
cabo con referencia a algn criterio o no (Cohen y Swerdlik,
2001), las mismas que suelen afectar la confiabilidad. A
continuacin, se pasar a detallar cada una de estas
consideraciones:
a) Homogeneidad contra heterogeneidad de los reactivos

de la prueba sobre la medida de una variable.
Esta consideracin seala que si la prueba es homognea en

sus reactivos, sera necesario esperar un alto grado de
consistencia interna y por lo tanto, confiabilidad. Esto se
debe a que los reactivos deben guardar una relacin en
conjunto con la variable o factor que se est midiendo, como
una habilidad, capacidad, rasgo o caracterstica.
26
b) Caractersticas Dinmicas versus las Estticas de la

variable a medir.
Al obtener una estimacin de la confiabilidad, se tiene que

tener en cuenta las implicancias de las caractersticas
dinmicas que pueden influir en la confiabilidad de un
test, ya que estas se dan en funcin de las
experiencias situacionales y cognoscitivas que afrontan los
sujetos. Es as que si se aplicara una prueba de ansiedad
estado a una persona que trabaja de cajero en un banco a lo
largo de un da atareado, un podra encontrar como esta
caracterstica cambia de una hora a otra; as que la mejor
estimacin de la confiabilidad podra obtenerse a partir de
una medida de consistencia interna, debido a que la medida
de la ansiedad estado suele ser una caracterstica que
puede cambiar continuamente. Sin embargo, existen otras
variables o caractersticas como por ejemplo, la inteligencia
en la que su naturaleza tiende a ser esttica o inmutable, y
en este caso sera necesario utilizar mtodos de prueba y
postprueba o el mtodo de formas alternas, ya que no se
esperara que la medicin vare en funcin al tiempo.
c) Restriccin o Inflacin del rango de varianza.
Este criterio, seala la importancia de la varianza y los

rangos de varianza en referencia a la interpretacin del
coeficiente de confiabilidad.
Si la varianza de cualquier variable en el anlisis de

correlaciones es restringida por el procedimiento de muestreo
usado, entonces el coeficiente de confiabilidad resultante
tiende a ser menor, de lo contrario si la varianza es inflada
por el procedimiento de muestreo usado, entonces la
confiabilidad ser mayor (Esto se ampliar mejor ms
adelante en la variabilidad de las muestras). Asimismo, es
importante considerar, si el rango de las varianzas
empleadas es apropiado para el objetivo del anlisis
correlacional, sea para cualquier medida de comparacin de
un sujeto conforme a una evaluacin grupal.
27
d) Segn el tipo de Prueba: Pruebas de Velocidad frente a

Pruebas de Poder.
Una prueba de Velocidad es aquella prueba que por lo

general posee reactivos de nivel de dificultad uniforme, de
modo que cuando se dan lmites de tiempo, todos los que
responden a la prueba, serian capaces de completar la
totalidad de los reactivos de la prueba en forma correcta. No
obstante, cuando de manera prctica se establece un lmite
de tiempo en una prueba de velocidad, quienes logran
responder a la prueba sern capaces de completar la prueba
en su totalidad. La estimacin de la confiabilidad en este tipo
de pruebas va hacia la demostracin de la consistencia de
velocidad de respuesta y en tal sentido la confiabilidad en
este tipo de pruebas, no debe calcularse a partir de una sola
aplicacin con un lmite de tiempo nico, sino tiene que
hacerse en dos periodos.
El calcular la confiabilidad mediante mtodos de una sola

aplicacin, como los de la consistencia interna, se obtendra
un coeficiente de confiabilidad alto, pero falso.
En contraste a lo mencionado existen las pruebas de Poder,

que son aquellas que presentan un lmite de tiempo bastante
largo, en donde a diferencia de la prueba de velocidad,
aqu se es capaz de obtener un puntuacin perfecta.
e) Pruebas con base a un Criterio.
Las pruebas con base a un criterio estn diseadas para

proporcionar un indicio de la posicin de quien las responde
como un objetivo educativo o vocacional. Las puntuaciones
de este tipo de prueba tienden a interpretar el desempeo
individual en funcin de aprobar o reprobar, y cualquier
resultado tiende a darse con propsitos de diagnstico.
Una medida de confiablidad depende de la variabilidad de las

puntuaciones de la prueba, es decir lo diferentes que son las
puntuaciones entre s, a causa de las diferencias
individuales. Sin embargo, lo determinante en una prueba
en base al criterio, no corresponde a las puntuaciones de la
prueba, sino a si se ha obtenido alguna puntuacin
criterio que indique la clasificacin de los individuos en base a
un objetivo.
28
Dado que la confiabilidad, no slo depende de las

caractersticas propias de un test, y adems suele
expresarse segn el coeficiente de correlacin, tambin
existen otros dos factores que pueden influir en los datos de
confiabilidad. Por lo tanto, se plantean estos importantes
factores para tomarlos en consideracin.
5.1.2. Variabilidad de las Muestras.
Segn la Teora Clsica de los Test (TCT), un instrumento de

medicin (test psicolgico o educativo) se describe en funcin
de los objetos medidos. Entonces, la confiabilidad de un test
depende del tipo de muestra de sujetos utilizados para
calcularla (Muiz, 1994).
Uno de los aspectos de la muestra que influye en la

confiabilidad es su variabilidad. Se ha mencionado que la
confiabilidad est estimada por el coeficiente de confiablidad,
por lo tanto, este puede aumentar, al incrementarse la
variabilidad de la muestra (muestra ms heterognea). Esto
se debe a que el coeficiente de confiabilidad est definido como
la correlacin de entre dos formas paralelas de un test y esta
correlacin viene afectada por la variabilidad del grupo,
aumentando con sta. En otras palabras, un test no posee un
coeficiente de confiabilidad fijo, ya que depende de la
variabilidad de la muestra en la que se calcule.
Una frmula que permite estimar este aumento de la

variabilidad y por ende de la confiabilidad, es aquella que surge
de la varianza de los errores de medida. Se dice que la frmula
es apropiada si se cumple el supuesto que se basa en que la
varianza de los errores de medida en el test es la misma en
ambas poblaciones; o cual es la menos o ms variable. Cabe
resaltar que la varianza siempre est definida como un ndice
de variabilidad. A continuacin se presenta el error tpico de
medida:
e x 1 rxx
Al comparar dos grupos, obtenemos:
( e 1) 2 = ( e 2) 2; ( e 1) 2 > ( e 2) 2 ( e 1) 2 < ( e 2) 2
29
Donde:
e : Error tpico de medida.
x : Desviacin estndar emprica.
rxx : Coeficiente de confiabilidad en la poblacin.
( e 1)2: Varianza de error de medida en una poblacin.
( e 2)2: Varianza de error de medida en otra poblacin.
Por lo tanto, mientras mayor sea la varianza de las

puntuaciones de un test o prueba psicolgica y/o educativa que
refleje una muestra, mayor ser el coeficiente de confiabilidad
encontrado.
5.1.3. Longitud del Test.
La longitud de una test hace referencia al nmero de reactivos o

tems que posee un test. En este sentido, la Confiabilidad
tambin depende de esta longitud del test, y se basa en una
lgica que se refiere que cuando se incluyen ms tems o
reactivos en una prueba, ms aspectos de la variable o rasgo a
medir se podrn evaluar, evidenciando as, un incremento en la
posibilidad de poseer un mayor coeficiente de confiabilidad.
La frmula de Spearman-Brown, permite explicar este

supuesto, debido a que estima el coeficiente de confiabilidad de
un test en funcin del aumento de la longitud de ste. Es decir,
la frmula de Spearman Brown, se traduce, por ejemplo, en si
tenemos un test A y se aumenta su longitud n veces a base
de tems o reactivos paralelos a los originales, se obtendr la
confiabilidad del nuevo test alargado. A continuacin se
presenta la frmula de Spearman Brown:
nrxx '
rXX
1 ( n 1) rxx '
Donde:
rXX : Confiabilidad del test alargado.

rxx' : Confiabilidad del test original.
n : Nmero de veces que se ha alargado el test.
Cabe destacar que una prueba o test breve suele ser inestable
o poco confiable; o en el mejor de los casos puede poseer una
confiabilidad muy limitada. Segn Hogan (2004), entre las
pruebas que se han desarrollado adecuadamente y de uso ms
30
generalizado, las confiabilidades de 0,80 exigen un mnimo de

25 tems o reactivos, mientras que aquellas pruebas que
poseen coeficientes de confiabilidad de 0,90 requieren de unos
45 tems o reactivos.
Analizando lo anteriormente mencionado, la longitud de una

prueba es importante, debido a que la cantidad de reactivos de
una prueba, nos puede ayudar a predecir cun confiable puede
ser un test, y mientras ms larga sea la prueba, ms confiable
podr ser. Sin embargo, Kerlinger y Lee (2002) manifiestan que
si bien esta frmula es una medida de estimacin de la
confiabilidad, no quiere decir que se alcance medidas de
confiabilidad del todo favorables en el test, ya que la
confiabilidad tambin dependera de cun bien desarrollados en
su contenido se encuentren los reactivos o tems y permitan
discriminar las diferentes individualidades que responden a los
reactivos.
5.2. Interpretacin del Coeficiente de Confiabilidad.
Al iniciar la presente revisin bibliogrfica, se plante que la

confiabilidad puede especificarse en trminos del Coeficiente de
Confiabilidad (Alarcn, 2008), en la que su definicin es la
correlacin entre dos formas paralelas de un test. Segn Alarcn
(2008), la confiabilidad denota estabilidad y constancia de los
puntajes, esperndose que no se presenten variaciones en el curso
de una serie de aplicaciones del test. Por consiguiente, la
interpretacin del coeficiente de confiabilidad viene dado por cun
preciso es un instrumento de medicin, cuando posee la menor
varianza de error. Por ejemplo, de la lectura de un coeficiente de
confiabilidad para un rxx = 0,80; se interpretara lo siguiente: En
una poblacin X, en condiciones estandarizadas o tipificadas de
aplicacin; el 80% de la varianza de los puntajes directos se debe a
la varianza verdadera, mientras que un 20% a la varianza de error.
Ahora que se entiende como dar lectura a un coeficiente de

confiabilidad, la pregunta que tendramos a continuacin, sera qu
nivel define que la confiabilidad de un test es aceptable o no? Al
respecto diversos investigadores han confluido en sus opiniones,
tomando como criterio la severidad de una decisin sobre los
puntajes de un test, la cual necesariamente responde al grado de
precisin y rigurosidad que se tenga en el estudio ya sea de un
grupo de personas o una persona sobre alguna determinada
variable. De esta forma, segn Nunnally & Bernstein (1995)
mencionan que si se platean tomar decisiones importantes con
31
respecto a las puntuaciones de una prueba, una confiabilidad de

0,90 es lo mnimo que se podra aceptar y una confiabilidad de 0,95
debe considerarse como lo deseable, de acuerdo a la rigurosidad
que plantean estos autores.
No obstante, haciendo una sntesis de las opiniones de los diversos

investigadores Hogan (2004), caracterizan los diferentes niveles de
confiabilidad de la siguiente forma:
De 0,90 1,00 se percibe un Elevado nivel de confiabilidad.
Cuando existe una confiabilidad de 0,80 0,90 se percibe un

Elevado y Moderado nivel de confiablidad.
Alrededor de 0,70 0,80 se perciben como un nivel de confiabilidad

Bueno.
Entre 0,60 0,70 se perciben confiabilidades con niveles Bajos.
Si un instrumento obtiene un coeficiente de confiabilidad de 0.60,

indica niveles inaceptablemente bajos como para tomar decisiones
para medir algn rasgo, caracterstica o variable. Si se desea
utilizarse para fines serios, deber incrementar su confiabilidad quiz
alargando la prueba.
5.3.Procedimientos para Incrementar la Confiabilidad de un Test.
Una vez habiendo sido expuestos todos aquellos factores que afectan
la confiabilidad de un test, se hace necesario trabajar con
algunos mtodos que permitan incrementar el nivel de confiabilidad
de una prueba, obtenindose as, instrumentos de mayor fiabilidad,
con menores ndices de error, de manera que se resuelvan todas
aquellas causas externas, como internas de la medicin. De esta
forma, tal y como lo mencionan Kerlinger & Lee (2002) el principio
que subyace al incremento de la confiabilidad vienen a estar dado
por el principio MAXIMINCON; y esto hace referencia a Maximizar la
varianza de las diferencias individuales y Minimizar la varianza del
error. Para desarrollar esto, Kerlinger y Lee (2002) proponen tres
pasos o procedimientos a seguir. El primero de ellos es escribir sin
ambigedades los reactivos de los instrumentos de medicin
psicolgica o educativa ya que sera fuente de ingreso de la varianza
de error; el segundo procedimiento esta dado por los mtodos de
amplitud de un test que pasaremos a revisar ms adelante; y
finalmente como tercer procedimiento se encuentra la especificacin
32
de instrucciones claras y estndar, la cuales tienden a reducir los

errores de medicin.
Todo esto permitir sacar conclusiones de que aquello que est

midiendo, tiene consistencia en tiempo y espacio, adems de una
buena estabilidad en sus resultados.
5.3.1. Anlisis de Reactivos:
Es a travs de procedimientos estadsticos denominados anlisis

de reactivos que se pueden incrementar, no slo la
confiabilidad, sino tambin la validez de un test. En este
sentido, se pueden hacer anlisis de dificultad del reactivo para
instrumentos, en donde las respuestas se evalan como
correctas e incorrectas (aqu se encontraran las pruebas de
inteligencia, capacidades y en general los tests cognitivos) y se
puede calcular con la siguiente frmula:
Na
Dificultad del Reactivo =
Nt
Donde:
Na : Nmero de personas que responden correctamente a un

reactivo.
Nt : Nmero total de personas que toma la prueba.
Otro ndice que se usa tambin, es el ndice de acuerdos, el cual

es utilizado en pruebas donde no existen respuestas correctas o
incorrectas (aqu se encontraran las pruebas de orden afectivo
o de personalidad), las cuales se pueden calcular con la
siguiente frmula:
Ni
ndice de Acuerdos =
Nt
Donde:
Na : Nmero de personas que selecciona una respuesta.

Nt : Nmero total de personas que toma la prueba.
Para ambos ndices, por regla general un mayor valor indicara

mayor facilidad o acuerdo del reactivo o tem y por lo tanto,
ms personas respondieron correctamente o coincidentemente
con el rea ctivo. Es por eso que una gran cantidad de
investigadores concuerdan que los mejores ndices de dificultad
33
o de acuerdos son los que se encuentran entre 0,5 y 0,7, siendo

el 0,0 y 1,00 que contribuyen pobremente a la informacin de
las diferencias entre las personas de acuerdo al reactivo.
Otro ndice para el anlisis de reactivos segn Kerlinger & Lee

(2002) es el ndice de discriminacin de reactivos, ya que indica
que tan efectivamente es capaz de discriminar un reactivo entre
puntuaciones altas y bajas. Vale aclarar que un reactivo se
considera bueno siempre y cuando es contestado correctamente
por personas que obtuvieron altas puntuaciones, y contestado
por errneamente por las personas por aquellas con baja
puntuacin y es all que se puede mencionar que el reactivo
discrimina o nos puede revelar dichas diferencias individuales.
Esto suele explorarse con mayor certeza en pruebas de orden
cognitivo y la frmula viene dada de la siguiente forma:
Pa Pb
ndice de Discriminacin =
Nap
Donde:
Pa : Nmero de personas en el grupo de alta puntuacin que

respondieron correctamente al reactivo.
Pb : Nmero de personas en el grupo de baja puntuacin que
respondieron correctamente al mismo reactivo.
Nap : Nmero de personas en el grupo de alta puntuacin.
Valores de 0,0; 1,0 y -1,0 son raros de encontrar. A mayor

valor existe mayor discriminacin del reactivo, por lo tanto, se
espera obtener valores altos y positivos. No obstante, si
existiesen valores negativos la discriminacin del reactivo es
inversa y en consecuencia el reactivo no est funcionando bien.
Para pruebas donde no existen respuestas correctas e

incorrectas como los tests de tipo afectivo o de personalidad, se
hace uso de la correlacin de la puntuacin del reactivo con la
puntuacin total, sin embargo, este procedimiento tambin
puede emularse para pruebas de tipo cognitivo. Este tipo de
incremento de la confiabilidad se ver con ms detenimiento
ms adelante en el punto que refiere al clculo de la
confiabilidad de un test extrayendo los tems que cuyas
puntuaciones correlacionan bajo con el total del test.
34
5.3.2. La Amplitud del test.
Tal como se haba mencionado, uno de los factores que afectan

la confiabilidad de una prueba o test, es su longitud; de manera
que a mayor cantidad de reactivos que pudiera poseer una
prueba, existira una mayor probabilidad de poseer un
incremento en el coeficiente de confiabilidad, y por ende en la
confiabilidad.
Una de las forma de remediar una baja obtencin del

coeficiente de confiabilidad despus de una aplicacin del test
en un estudio piloto; se basa en este factor (la longitud del
test). Es as que utilizando la frmula de Spearman
Brown, podemos estimar o predecir el efecto debido al
incremento de la amplitud sobre la confiabilidad del test:
nrxx '
rXX
1 (n 1)rxx '
Donde:
rXX : Confiabilidad del test alargado.

rxx' : Confiabilidad del test original.
n : Nmero de veces que se ha alargado el test.
Por ejemplo: Un test que consta de 15 tems, se aplic a una

muestra de sujetos, con lo que se obtuvo un coeficiente de
confiabilidad de 0,60. Si se aadiera 10 tems paralelos a
los que posee Cul sera la nueva confiabilidad?
En un primer momento se debe calcular n , que es la suma

de el nmero actual de tems con los aadidos, dividido con el
nmero actual de tems:
15 10
n 1,67
15
Una vez obtenido n se procede a estimar el nuevo

coeficiente de confiabilidad:
(1,67)(0,60)
rXX 0,71
1 (1,67 1)(0,60)
35
Se puede observar que la nueva confiabilidad que se ha

obtenido, se encuentra en el rango (0,70 0,80), que
corresponde a un buen nivel, por lo que se tendra que tomar
la decisin de incrementar 10 tems al test, para volver
hacer una nueva aplicacin. Sin embargo, esto no garantiza las
respuestas que puedan ejercer los sujetos al momento de la
evaluacin, por lo que este nuevo incremento de un mnimo
de 10 tems tiene que estar en funcin a la variable que se
va medir, de manera que haya una homogeneidad dentro de
los factores y en toda la variable que se pretenda medir, pero
que de oportunidad a una diversidad de respuestas.
5.3.3. Varianzas de las muestras.
Usando la frmula de la varianza de error de medida, se

pueden comparar las varianzas de dos poblaciones de inters a
las cuales se pretende obtener el coeficiente de confiabilidad.
La intencin de esta comparacin es observar qu poblacin
presentara la mayor varianza de error.
Tal como se haba declarado anteriormente, en la

variabilidad de las muestras; el error tpico de medida viene
dado por la siguiente frmula:
e x 1 rxx
Donde:
e : Error tpico de medida.

x : Desviacin estndar emprica.
rxx : Coeficiente de confiabilidad en la poblacin.
Si se compara la varianza de error tpico de medida en dos

poblaciones tenemos lo siguiente:
(e 1)2 = (e 2)2
De esta manera se reemplazan los valores de la varianza de

error tpico de medida en ambas poblaciones:
12 (1 r11 ) 22 (1 r22 )
Despejando r22, se obtiene la formula de estimacin
36
de la nueva confiabilidad:
22
r22 1 2 (1 r11 )
1
Donde:
r11 : Coeficiente de confiabilidad en poblacin 1.
r22 : Coeficiente de confiabilidad en poblacin 2.
12: Varianza emprica en poblacin 1.
22: Varianza emprica en poblacin 2.
Analizando esta frmula obtenida, si las varianzas fueran

iguales, el coeficiente de confiabilidad no vara, pero si hay
diferencias, existir variacin, ya sea de un incremento o de un
decremento en la estimacin de la confiabilidad.
Por ejemplo, en una prueba de motivacin de logro acadmico

se obtuvo un coeficiente de confiabilidad de 0,68 y cuya
varianza es 41 en una muestra de estudiantes universitarios. Si
la varianza fuera de 128, se obtendra un nuevo coeficiente de
confiabilidad con la frmula de estimacin de la confiabilidad,
de esta forma:
41
r22 1 (1 0,68) 0,89
128
Por lo tanto, se demuestra el axioma mencionado, en la cual el

coeficiente de confiabilidad aumenta de 0,68 a 0,89, al
aumentar la variabilidad de la muestra de 41 a 128.
Utilizando el programa estadstico SPSS en su versin 17, se

puede observar la diferencia de las varianzas en grupos de los
cuales nos llevara a pensar que a una mayor varianza existira
una mayor confiabilidad. Para esto se usa la opcin t para
muestras independientes, ubicado entre las opciones de
Analizar y localizado entre las opciones de Comparar Medias.
Una vez ubicada la opcin Prueba T para muestras

independientes en Comparar Medias, se coloca el total de las
puntuaciones de la prueba en: Variables para Contrastar; y en
la parte de: Variables de Agrupacin; se coloca el grupo en
que se desea ver las diferencias, obviamente despus de
37
haberlo categorizado, para luego ubicar dicho espacio las dos

categoras.
Este procedimiento nos lleva a ver la igualdad o diferencia de

varianza, en un primer momento, y posteriormente la igualdad
de medias; sin embargo, para efectos de este trabajo, slo se
comparar las varianzas. Esto se lleva a cabo mediante la
Prueba de Levene para la igualdad de varianzas, en donde se
seala si las diferencias son significativas o no de acuerdo con
el nivel de significacin de 0,05. De esta forma podemos ver si
existe homogeneidad (principio de homocedasticidad o
dispersin similar) o heterogeneidad (principio de
heterocedasticidad o dispersin diferente) en las varianzas entre
las muestras.
Siguiendo el mismo ejemplo de la prueba de motivacin

de logro se observa, en la Tabla 18, la diferencia de varianzas
empricas en las dos muestras, debido a que se obtuvo un F =
31,497 con un nivel de significacin menor a 0,05.
Tabla 18
Varianza de dos muestras
Prueba de Levene
Prueba de muestras independientes
para la igualdad de
varianzas
F Sig.
Se han asumido varianzas
Motivacin de iguales 31,497 0,00
Logro No se han asumido varianzas 0
iguales
Tabla 19
Estadsticos de la escala en la muestra 1
Media Varianza Desviacin N de

tpica elementos
94,53 40,991 6,40 19
2
Tabla 20
Estadsticos de la escala en la muestra 2
Media Varianza Desviacin N de

tpica elementos
85,32 127,541 11,293 19
38
En ese sentido, si bien existen diferencias significativas en las

varianzas de ambas muestras en la misma prueba; su puede
notar en las Tablas 19 y 20, que la varianza de la muestra 2
es mayor que la varianza de la muestra.
Haciendo un anlisis de la confiabilidad en ese mismo test de

motivacin de logro acadmico, la cual se compone de 19
reactivos en una escala de diferencial semntico de 6 grados,
se obtuvo los siguientes coeficientes de confiabilidad mediante
el Alfa de Cronbach, para las dos muestras en mencin:
La muestra 1, cuya varianza es 40,991 (ver Tabla 02), posee

una confiabilidad de 0,681 que se muestra en Tabla 4.
Tabla 21
Confiabilidad de una muestra 1
Estadsticos de fiabilidad en la
muestra 1
Alfa de N de elementos
Cronbach
0,68 19
1
La muestra 2, cuya varianza es 127,541 (ver Tabla 20), posee
una confiabilidad de 0,866 la misma que se muestra en la Tabla
22:
Tabla 22
Confiabilidad de una muestra 2
Estadsticos de fiabilidad en la
muestra 2
Alfa de Cronbach N de elementos
0,86 19
6
De esta manera, se comprueba la frmula de estimacin de la
confiabilidad en una prueba mediante el programa estadstico
SPSS 17; en la que la confiabilidad de la muestra 2 es mayor
que la de la muestra 1 ( r22 > r11 ), ya que la muestra 2 posee
mayor varianza que la muestra 1, es decir la muestra 2 es ms
aleatoria que la muestra 1 (existe mayor variabilidad en la
muestra 2): 22 > 12.
39
5.3.4 Clculo de la confiabilidad de un test extrayendo los

tems que cuyas puntuaciones correlacionan bajo con el
total del test.
Este mtodo se fundamenta en el principio de la correlacin de

la puntuacin del tem con la puntuacin total del test.
Para obtener una mayor confiabilidad en un test del que se ha

obtenido al evaluarse a una determinada poblacin, se tiene que
extraer del test aquellos tems o reactivos que poseen una
correlacin baja con el total del test. Esto se fundamenta en la
consistencia interna que poseen los tems en relacin con el test o
prueba, es decir en qu grado los tems de un test se encuentran
intercorrelacionados entre s con el total del test y midan de esta
forma una misma caracterstica. No obstante, este incremento no
llega a ser tan diferenciado con el coeficiente de confiabilidad
obtenido.
Este mtodo, generalmente suele usarse para la validez de

constructo, que por lo general, se suele llamar: Validacin de
constructo mediante la Correlacin tem test.
A continuacin, utilizando el programa estadstico SPSS versin

17, se realizar un ejemplo de este incremento cuando ciertos
tems que poseen bajas correlaciones con el total del test son
extrados de ste, dando como resultado una nueva confiabilidad
relativamente elevada.
A manera de ejemplo se utilizar una prueba de Motivacin de

Logro Acadmico de 22 reactivos; que al aplicarse a una muestra
de 202 estudiantes universitarios, se obtuvo el siguiente
coeficiente de confiabilidad: r = 0,834.
Para haber obtenido la confiabilidad de este instrumento con el

programa SPSS 17, se procedi de esta manera:
Se utiliz la opcin Analizar, luego Escala, de all se ingres a

Anlisis de fiabilidad y se anot todos los tems que componen el
test a la columna Elementos, para finalmente, entrar a
Estadsticos, en donde se marc en el men de Descriptivos
para, las opciones de Elemento, Escala y Escala si se elimina
el elemento. Al terminar, se eligi el botn Continuar, y luego
Aceptar. En ese primer anlisis de la confiabilidad, el resultado
se muestra a continuacin en las Tablas 23 y 24:
40
Tabla 23
Estadsticos de confiabilidad
Estadsticos de
fiabilidad
Alfa de N de
Cronbach elementos
0,834 2
2
Tabla 24
Correlacin total elemento
Estadsticos total-elemento
Alfa de
Correlacin
Correlacin Cronbach
elemento-
mltiple al si se
total
cuadrado elimina el
corregida
elemento
ML 1 ,419 ,487 ,827
ML 2 ,085 ,132 ,843
ML 3 ,351 ,433 ,830
ML 4 ,142 ,112 ,838
ML 5 ,223 ,260 ,835
ML 6 ,537 ,478 ,821
ML 7 ,573 ,419 ,819
ML 8 -,177 ,184 ,850
ML 9 ,523 ,438 ,823
ML 10 ,427 ,310 ,826
ML 11 ,556 ,477 ,821
ML 12 ,615 ,556 ,818
ML 13 ,545 ,394 ,821
ML 14 ,268 ,222 ,833
ML 15 ,399 ,388 ,827
ML 16 ,326 ,209 ,830
ML 17 ,582 ,514 ,821
ML 18 ,584 ,463 ,819
ML 19 ,550 ,459 ,822
ML 20 ,492 ,379 ,824
ML 21 ,583 ,444 ,822
ML 22 ,374 ,289 ,828
Se puede observar en el Tabla 7, que los reactivos ML2, ML4 y

ML8, poseen bajos ndices en sus coeficientes de correlacin
con el total del test, ya que son menores a 0,20. No
obstante, si se logra sacar cada uno de estos tems que
41
tienen bajas correlaciones, se tendr una reduccin del nmero

de reactivos, pero la confiabilidad tendr un ligero
incremento.
Tabla 25
Correlacin total elemento
Estadsticos total-elemento
Alfa de
Correlacin
Correlacin Cronbach
elemento-
mltiple al si se
total
cuadrado elimina el
corregida
elemento
ML 1 ,457 ,475 ,861
ML 3 ,379 ,425 ,863
ML 5 ,226 ,237 ,869
ML 6 ,551 ,451 ,856
ML 7 ,578 ,415 ,854
ML 9 ,517 ,423 ,858
ML 10 ,410 ,298 ,861
ML 11 ,589 ,471 ,855
ML 12 ,623 ,551 ,853
ML 13 ,558 ,388 ,856
ML 14 ,253 ,198 ,867
ML 15 ,427 ,362 ,861
ML 16 ,334 ,199 ,865
ML 17 ,590 ,510 ,855
ML 18 ,603 ,462 ,854
ML 19 ,546 ,456 ,857
ML 20 ,491 ,350 ,858
ML 21 ,583 ,440 ,856
ML 22 ,363 ,275 ,864
Tabla 26
Estadsticos de fiabilidad
Alfa de N de
Cronbach elementos
0,866 19
De esta forma, se nota que la confiabilidad logr aumentar

ligeramente de 0,834 a 0,866, habiendo disminuido la cantidad de
reactivos del test.
42
Como complemento a lo todo lo mencionado, se tiene que

tener presente cuatro aspectos importantes en la confiabilidad.
El primero de ellos, es que la confiabilidad siempre es
importante porque nos indica el nivel de precisin de un
instrumento, prueba o test. Un instrumento poco o no fiable, no
puede utilizarse para tomar decisiones y aseveraciones sobre la
medicin de algn rasgo, capacidad, habilidad o caracterstica. En
segundo lugar, considerar la relacin existente entre la longitud del
test y la confiabilidad. En consecuencia las pruebas o test breves
suelen ser bastante inestables o poco confiables. Si por ejemplo,
una prueba es larga o breve y posee una confiabilidad de 0.60, y
tal como se seal en la parte de la Interpretacin del coeficiente
de confiabilidad, una prueba con ese nivel de confiabilidad no es
fiable de ser utilizado para fines serios, con lo que se tendra que
proceder a alargar la prueba, para incrementar la confiabilidad.
Al alargar una prueba (Amplitud del test), se tiene que considerar,

que este procedimiento de incremento de la confiabilidad de una
prueba, no sea un factor determinante en los examinados, en que
les cause fatiga o los desaliente en la tarea, ya que se estara
incidiendo en un error de construccin de la prueba (Error no
sistemtico) que ayudara a aumentar la varianza de error y por
ende una menor confiabilidad.
Cuando se ha aplicado una prueba, no se debe confundir el

aumento de la variabilidad con el aumento de una muestra, ya que
no necesariamente depende de la cantidad de sujetos que han
respondido una serie de reactivos de un test, sino que depende de
la varianza, es decir cun variables son las respuestas a los
reactivos de esa prueba aplicada, aunque en ciertas ocasiones es
necesario aumentar la muestra, de manera que nos permita ver
si hay mayor variabilidad conjuntamente con ese nuevo grupo
de sujetos. Por otro lado, es necesario y primordial utilizar la
mejor tcnica de muestreo, buscando as la aleatorizacin, de
manera que se obtenga, una mejor variabilidad en las
caractersticas de los sujetos como variable.
Destacar como tercer punto, revisar los niveles de los coeficientes

de confiabilidad de la prueba o test, tal y como se expuso en la
parte de la interpretacin del coeficiente de confiabilidad; de
manera que se realicen los anlisis respectivos sobre los reactivos o
tems de acuerdo a las correlaciones de sus puntajes sobre el total
de la prueba, de manera que permitan tomar decisiones con la
finalidad de mejorar la precisin y estabilidad de la prueba o test
psicolgico.
43
Finalmente, es necesario indicar que una gran herramienta, que

puede favorecer a ejecutar los procedimientos de incrementar la
confiabilidad de un test, es la de realizar estudios pilotos con el
test, de manera que permitan controlar las fuentes e influencias de
error que forman parte de la varianza de error y que por ende
afectan la confiabilidad de una prueba psicolgica o educativa.
TIPOS DE CONFIABILIDAD
Denominacin Procedimiento Varianza de Error

Estabilidad Retest con la misma Fluctuacin
forma en distinta Temporal
ocasin.
Equivalencia Retest con forma Especificidad del

paralela en la misma elemento
ocasin.
Estabilidad y Retest con forma Fluctuacin temporal

Equivalencia paralela en distinta y especificidad del
ocasin. elemento
Consistencia Interna Divisin por Especificidad del

mitades. elemento
Consistencia Interna Kuder Richardson Especificidad del

Homogeneidad Kr20 y Kr21 element
heterogeneidad
Consistencia Interna Alfa de Cronbach Especificidad del

Homogeneidad elemento
heterogeneidad
44
Leccin III
Validez
Concepto, caractersticas y aplicaciones3
1. Concepto
Siguiendo a Abad, Garrido, Olea & Ponsoda (2006), una cosa es que el
test mida de manera precisa o estable (esta cualidad se refiere a su
confiabilidad), y otra diferente es la cuestin de qu es lo que
autnticamente est evaluando. En el mbito psicosocial, los diferentes
constructos resultan difcilmente operativizables de manera indiscutible, y
a veces se producen dudas razonables sobre qu mide un determinado
test. Una prueba de inteligencia general tendr un elevado grado de
validez si asigna puntuaciones altas a las personas muy inteligentes,
puntuaciones medias a las personas medianamente inteligentes y
puntuaciones bajas a las personas de poca inteligencia. Un cuestionario
para evaluar el nivel de autoestima tendr un elevado nivel de validez si
se demuestra que mide de forma exhaustiva todos los componentes en
que puede manifestarse la autoestima.
La validacin es un proceso continuo, que incluye procedimientos

diferentes para comprobar si el cuestionario mide realmente lo que dice
medir. Dicho de otro modo, tiene que ver con el tipo de conclusiones o
inferencias que pueden realizarse a partir de las puntuaciones obtenidas
en el test. Las inferencias pueden ser de muy diverso tipo: qu rasgo
estamos midiendo realmente? Qu podemos predecir sobre el
comportamiento de un sujeto que obtiene una determinada puntuacin
en el test? Qu consecuencias de diverso tipo tiene esa puntuacin, en
contextos de evaluacin o seleccin?
Aunque cada vez se tiende ms a concebir la validez como un proceso

unitario que tiene como objetivo aportar pruebas sobre las inferencias
que podemos realizar con un test, tradicionalmente se han diferenciado
varios procedimientos de validacin, alguno de los cuales incluye varios
mtodos diferentes de comprobacin. Los fundamentales procedimientos
son denominados como validez de contenido, de constructo y referida al
criterio.
3
esta unidad.
45
2. Validez de contenido
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de

inteligencia, de aptitudes, etc.) y en pruebas de conocimientos
(cuestionarios para evaluar el rendimiento en una materia escolar o en
una especialidad temtica concreta), tiene sentido justificar que el
conjunto de tems que forman el test conforman una muestra
representativa del universo de contenidos que interesa evaluar. Un test
de conocimientos de Qumica en 3er grado secundaria, por ejemplo,
debera incluir cuestiones representativas de los diferentes ncleos de
contenidos que oficialmente deben impartirse en ese nivel de estudios.
Sera una prueba poco vlida si incluye demasiadas cuestiones de unos
temas y muy pocas de otros.
Para justificar, aunque slo sea racionalmente, que un test posee validez
de contenido, debe quedar bien definido el universo o dominio conductual
de referencia: especificar claramente cules son los contenidos de
Qumica que debe conocer un alumno de 3er grado secundaria, cules
son los componentes que interesa considerar en un cuestionario de
cultura general, qu tipo de conocimientos y destrezas son las
pertinentes para medir el nivel bsico de ingls, etc. En definitiva, nos
referimos a explicitar claramente los objetivos de la evaluacin y la
importancia que se quiere dar a cada uno, lo que determinar la cantidad
de cuestiones a incluir referidas a cada uno de esos objetivos. En
definitiva, la validez de contenido es un tema particular del de muestreo:
si deseamos realizar inferencias sobre el rendimiento de las personas en
una poblacin de contenidos determinada, el test debe incluir una
muestra representativa de dichos contenidos.
El proceso de validacin de contenido es eminentemente lgico, si bien

pueden utilizarse jueces expertos en el tema para valorar la congruencia
entre los diversos tems y los diversos objetivos. Existen procedimientos
cuantitativos diversos para que cada experto valore el grado en que un
tem sirve para evaluar el objetivo al que corresponde. El procedimiento
cuantitativo ms sencillo sera el siguiente:
- Especificar los diversos objetivos (reas diferentes de contenidos) que

se pretenden evaluar.
- Elaborar varios tems para cada objetivo.
- Seleccionar una muestra de expertos en el contenido del test.
- Pedirles que, segn su opinin, asignen cada tem al objetivo que
pretende medir.
- Seleccionar los tems en los que los expertos manifiestan mayor
acuerdo en sus clasificaciones.
46
La verificacin de la validez de contenido de una prueba educacional no

encierra dificultades, sobre todo porque se dispone de fuentes empricas,
como programa escolar, textos utilizados en la enseanza y objetivos de
instruccin que facilitan verificar la validez de contenido del test. Sin
embargo, en pruebas que miden variables psicolgicas, este tipo de
validez afronta serios problemas. Anastasi refiere que el contenido de los
test de aptitud y de personalidad apenas sirve ms que para revelar la
hiptesis que llev al psiclogo, elaborador del test, a escoger un
determinado contenido para medir un rasgo especfico. Hay que
confirmar empricamente estas hiptesis para establecer la validez del
test (Anastasi, 1978).
Muy en relacin con la validez de contenido se encuentra lo que se ha

dado en llamar validez aparente, que se refiere al grado en que un test
da la impresin a los evaluados de que mide lo que se pretende. En
situaciones aplicadas, es importante que las personas perciban que los
tems del test tienen que ver con la finalidad que se persigue con el
procedo de evaluacin.
Para establecer la validez de contenido se requiere, en suma, que se

defina con precisin el comportamiento que se trata de medir y que se
incluya en el test una muestra representativa de los indicadores
relevantes del comportamiento. En la prctica, la validez de contenido, a
diferencia de otros tipos de validez, que son determinados por
coeficientes de correlacin, la validez de contenido es verificada por
jueces expertos, quienes evalan la representatividad de los indicadores
de la conducta que se mide, buscando establecer si representan el
universo del contenido de esa conducta y la relevancia de los tems para
medir tales indicadores. Se debe ofrecer a los jueces claras
especificaciones acerca de lo que juzgarn.
3. Validez de constructo
Un constructo es un concepto elaborado por los tericos de la Psicologa

para explicar el comportamiento humano. Inteligencia fluida,
extroversin, autoconcepto, asertividad, motivacin intrnseca... son
constructos que forman parte de teoras psicolgicas y que precisan de
indicadores observables para su estudio. En muchas ocasiones, estos
indicadores son los tems de un test, y debe comprobarse empricamente
que resultan adecuados para reflejar el constructo de referencia.
La validez de constructo se define como el grado en que un test mide la

construccin terica en la que el test reposa. Todo test psicolgico se
basa en una construccin terica que el autor desarrolla o asume, para
explicar la organizacin y funcionamiento de una conducta. La validez de
47
constructo se determina mostrando que las consecuencias que pueden

predecirse sobre la base de la teora con respecto a los datos del test
pueden, en lo fundamental, confirmarse por una serie de pruebas.
(Magnusson, 1969).
La comprobacin de la validez de constructo requiere de un largo

proceso, pues lo que se trata de verificar es la hiptesis referida a la
conducta que se intenta medir. En el curso del proceso de validacin el
investigador incrementa sus conocimientos acerca del test proyectado, lo
revisa y progresivamente lo mejora para hacerlo un instrumento de
medida del constructo. Puede cambiar sus conceptos tericos y tambin
el instrumento para medir esos conceptos tericos. Todo esto lo realiza
mediante informacin adquirida a travs de estudios empricos.
La literatura respecto a las tcnicas para establecer la validez de

constructo muy a menudo reiteran los procedimientos utilizados para
determinar la validez relacionada con criterios, y no pocas veces han
surgido confusiones con la validez de contenido. Es claro que las tcnicas
han sido utilizadas con diferentes propsitos. Al respecto, Kerlinger
(1975), seala que, en cierto sentido, cualquier tipo de validacin es
validacin de construccin. Las siguientes son las tcnicas ms utilizadas
para determinar este tipo de validez.
3.1 Mtodos para la estimacin de la validez de constructo
La validez de constructo incluye la planificacin y ejecucin de

determinados estudios de investigacin orientados a comprobar
empricamente que un test mide realmente el constructo o rasgo que
pretendemos. Aunque los mtodos a emplear son sin duda variados,
as como las tcnicas estadsticas para analizar los datos, podemos
encontrar un comn denominador a todos ellos, que se sintetiza en
las siguientes fases:
1.- Formular hiptesis relevantes (extradas de deducciones

tericas o del sentido comn) en las que aparezca el constructo
que pretendemos evaluar con el test. En definitiva, una hiptesis
de trabajo consiste en poner en relacin dos o ms variables.
Pues bien, una de esas variables ha ser el constructo que
pretendemos medir con el test.
2.- Efectuar en la prctica mediciones oportunas de las variables

o constructos involucrados en las hiptesis. La medicin del
constructo de inters se realizar con la prueba diseada a tal
efecto, que es la que pretendemos validar.
48
3.- Determinar si se verifican o no las hiptesis planteadas. En

el caso de que as sea, queda confirmado mediante una
investigacin que el test mide el constructo de inters ya que, de
lo contrario, no habra razones lgicas para que se cumplieran las
hiptesis formuladas. Si las hiptesis no se confirman no significa
en principio que el test no es vlido, ya que puede ser debido a
que las hiptesis no estaban planteadas de manera adecuada, lo
cual exigira una revisin de la teora subyacente.
Imaginemos, por ejemplo, que un investigador est interesado en

validar una prueba de motivacin intrnseca-extrnseca que ha
construido. Desde la teora motivacional de partida se puede deducir
que las personas motivadas intrnsecamente deberan rendir mejor en
actividades escolares que las personas motivadas por razones
extrnsecas (deseos de alcanzar determinada nota o determinado
refuerzo externo). Para validar su prueba, el investigador tiene que
demostrar empricamente que mide autnticamente el constructo
motivacional que se pretende, y podra proceder de la siguiente
manera:
a) Aplicar el test a un grupo amplio de alumnos del nivel escolar

apropiado.
b) Recoger informacin de cada alumno sobre su nivel intelectual, su

calificacin acadmica media en el ltimo curso y las horas que
dedica al estudio.
c) Formar dos grupos diferentes (A y B), de tal manera que ambos

tengan un mismo nivel intelectual medio y que ocupen un nmero
similar de horas en el estudio, pero que el grupo A tenga niveles
altos de motivacin intrnseca y el B niveles altos de motivacin
extrnseca.
d) Comparar el rendimiento acadmico de los dos grupos. Si la

hiptesis de partida fuera cierta, el grupo A debera rendir
significativamente ms que el grupo B, con lo cual se aportara
informacin sobre la validez del test. Desde luego, si el test no
midiera motivacin, sera improbable que se verificase la hiptesis
de trabajo.
Pueden ser muy variados los mtodos a seguir que, cumpliendo el

proceso de ejecucin planteado anteriormente, sirvan para poner a
prueba la validez de constructo de un test. En cada caso habr que
seguir el que ms convenga para contrastar las hiptesis de partida,
49
pero algunos mtodos suelen ser ms frecuentes. Entre ellos

destacamos:
- Obtener las relaciones entre las puntuaciones en el test y en otras

variables que deberan relacionarse con el constructo de inters. Si
el modelo terico est bien fundamentado, debe establecer
relaciones entre el constructo de inters y otros diferentes, y por
tanto debe ser posible establecer diseos de investigacin para
contrastar las previsiones tericas. Por ejemplo, para predicir (y
comprobar) que una escala de susceptibilidad al castigo (que mide
el grado de evitacin de situaciones reales aversivas) debe
proporcionar puntuaciones relacionadas directamente con
neuroticismo e inversamente con estabilidad emocional.
- Evaluar mediante el test a grupos que se supone deben ser

diferentes en el constructo, para comprobar si realmente es as.
Resulta un enfoque eminentemente diferencial: si el test es vlido,
debera reflejar las diferencias entre grupos que se predicen desde
la teora psicolgica. Por ejemplo, si un test de inteligencia general
para edades infantiles es vlido, debera reflejar el mayor
rendimiento de los nios de ms edad.
- Utilizar una estrategia experimental para comprobar si el test

resulta sensible para detectar los efectos previsibles debidos a la
manipulacin o seleccin de los niveles en una o ms variables
independientes. El ejemplo expuesto anteriormente sobre
motivacin y rendimiento puede servir para entender esta
estrategia.
- Aplicar la tcnica multivariada del Anlisis Factorial (exploratorio o

confirmatorio) sobre la matriz de correlaciones entre items, para
descubrir estadsticamente las variables o dimensiones
subyacentes (factores) a la covariacin entre los elementos.
3.2 Validez por medio del anlisis factorial
Este ltimo mtodo, denominado validez de constructo factorial,

requiere alguna precisin que puede ser pertinente por
fundamentarse en una tcnica estadstica relativamente sofisticada y,
sobre todo, porque su utilizacin prctica es muy extensa.
El anlisis factorial es una tcnica estadstica multivariante que

sirve para estudiar las dimensiones que subyacen a las relaciones
entre varias variables. Normalmente toma como datos de partida la
matriz de correlaciones entre las n variables que interesa analizar.
50
Como informacin final, proporciona una matriz de tamao n p,

denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de

las p dimensiones extradas, y que son las correlaciones de Pearson
entre cada variable y cada dimensin. El anlisis factorial se realiza
con dos objetivos 1) determinar cual es el nmero de dimensiones o
factores que mide un test y descubrir cual es el significado de cada
una; 2) obtener la puntuacin de cada sujeto en cada dimensin.
Normalmente, el nmero de dimensiones que mide un test es mucho
menor que el de tems. Para descubrir su significado y darles sentido
es necesario fijarse en las variables que saturan de forma elevada en
cada dimensin. Cuando el investigador se enfrenta con la tarea de
dar significado a una dimensin, debe realizar un proceso inferencial
para encontrar el nexo de unin entre las variables que manifiestan
correlaciones elevadas en la dimensin. Adems, los diferentes
factores (dimensiones) extrados no tienen la misma importancia.
Cada uno explica una determinada cantidad de la varianza total de
los tems, que se expresa porcentualmente, y que indica la
importancia de esa dimensin para dar cuenta de la covariacin entre
las variables. Si un factor explica un porcentaje elevado de la
varianza total, eso es sntoma de que las saturaciones de las
variables en dicho factor son altas, lo que significa que es una
dimensin importante a la hora de describir las relaciones entre las
variables originales.
Un psiclogo ha elaborado una prueba de cinco tems para evaluar la

actitud hacia las nuevas tecnologas por parte de las personas
mayores. Los tems, que se responden en una escala de siete
categoras ordenadas (desde 1: muy en desacuerdo" hasta 7: muy
de acuerdo"), son los siguientes:
tem 1: El uso de telfonos mviles puede hacerme la vida ms fcil.

tem 2: Los aparatos modernos son demasiado caros.
tem 3: Me gustara tener una agenda electrnica.
tem 4: El coste de las llamadas desde un mvil es razonable.
tem 5: Gracias a internet podemos resolver muchos problemas.
Los 5 tems se aplicaron a una muestra de 200 personas. La matriz

de correlaciones entre ellos se someti a un anlisis factorial,
obtenindose los siguientes resultados. Esta matriz contiene las
saturaciones, es decir, la correlacin de cada tem con cada uno de
los factores que mide el test:
51
Tabla 18
Anlisis factorial exploratorio
Hay dos factores fundamentales que explican las relaciones entre los
5 items. Supongamos que se tipifican las puntuaciones en los tems;
la varianza total sera cinco, que es la suma de la varianza de cada
tem. El factor I explica un 34% de la varianza total, el factor II
explica un 21% de la varianza total. Con los dos factores se explica el
55% de la varianza de los tems.
En el factor I obtienen saturaciones altas los items 1, 3 y 5, que

indican si la persona considera que las nuevas tecnologas pueden ser
tiles para mejorar su calidad de vida. El tem 2 tiene una saturacin
negativa (aunque baja) porque posiblemente manifiesta una actitud
contraria hacia las nuevas tecnologas. Por tanto, el factor I puede
denominarse Actitud positiva hacia las nuevas tecnologas como
medio para mejorar la calidad de vida.
En el factor II obtienen saturaciones elevadas (en valor absoluto) los

tems 2 y 4, mientras que el resto de saturaciones son cercanas a
cero. El hecho de que el tem 2 tenga una saturacin positiva y el 4
negativa significa que las personas con puntuacin alta en el factor II
tienden a estar de acuerdo con el tem 2 y en desacuerdo con el 4.
Este segundo factor podra etiquetarse Sensibilidad hacia el gasto
que supone utilizar las nuevas tecnologas.
Vemos, pues, que las relaciones de covariacin entre los tems

podemos explicarlas con dos dimensiones que resultan bastante
claras de identificar. Como el lector puede suponer, las cosas no son
tan evidentes en la realidad; el investigador debe decidir cuntos
factores estn presentes en los datos y, sobre todo, debe asignar un
significado a cada factor, lo que normalmente no es tan sencillo como
en este ejemplo. Lo cierto es que la aplicacin del anlisis factorial
aporta informacin sobre las dimensiones que estamos midiendo con
un determinado cuestionario, es decir, proporciona informacin sobre
52
la validez de la prueba. En las siguientes secciones se describe ms

detalladamente cmo se obtiene e interpreta la estructura factorial
que subyace a las respuestas a los tems de un test.
El anlisis factorial se basa en un modelo que es una extensin del

utilizado en teora clsica de test. A modo de ejemplo, consideremos
los siguientes seis tems de una escala de Cordialidad dirigida a
poblacin infantil:
1. Me comporto de manera honesta y correcta con los dems.

2. Trato a mis compaeros afectuosamente.
3. Si un compaero tiene dificultades, le ayudo.
4. Confo en los dems.
5. Pienso que otras personas son buenas y honradas.
6. Dejo que los dems usen mis cosas.
Estos tems se aplicaron a una muestra de 564 chicos y chicas de

entre 11 y 14 aos. La matriz de correlaciones obtenida en esta
muestra fue:
a. Anlisis factorial con un nico factor
Puede plantearse que los seis tems miden una misma

caracterstica, la cordialidad. Aplicando el modelo de la teora
clsica de test a las puntuaciones de los tems, se obtienen las
ecuaciones:
Esto significa que todos los tems miden la misma caracterstica

(la cordialidad), representada por V en el modelo. Adems, hay
53
un error de medida que puede ser distinto para cada tem (Ei). Es
posible plantearse que no todos miden igual de bien la
cordialidad. Por esta razn se definen los parmetros i,
denominados saturaciones, que indican la relacin de cada tem
con la caracterstica o factor que miden todos ellos. Cuanto mayor
sea i, mejor indicador de la cordialidad ser la puntuacin en el
tem. Si a la cordialidad se la denomina F en lugar de V, se
obtiene el modelo de un factor:
Las saturaciones se calculan a partir de la matriz de correlaciones

entre los tems. Los clculos exigen la aplicacin de clculos de
lgebra matricial y se realizan mediante ordenador. Sin embargo,
la lgica es fcil de ejemplificar. Asumamos que las variables X1,
X2, X3, X4, X5, X6 y F estn en puntuaciones tpicas. Si el
modelo unidimensional fuera cierto, la correlacin esperada entre
X1 y X2 (que denominaremos r12*) sera:
Lo que se simplifica a:
Asumiendo que los errores no correlacionan entre s ni con la

puntuacin en el factor (como en la Teora Clsica), obtenemos
que la correlacin esperada segn el modelo sera igual al
producto de los pesos de los 2 tems en el factor:
Para entender la ltima simplificacin, debe recordar es la

varianza de las puntuaciones F; al estar las puntuaciones F en
puntuaciones tpicas su varianza es 1. Por tanto, sabiendo que F
= 0:
54
Si calculramos cuales son los valores esperados de las

correlaciones segn el modelo unidimensional, a las que
denominamos correlaciones reproducidas ( r* ), obtendramos la
siguiente matriz:
En trminos generales, los programas de anlisis factorial buscan

aquellos valores de (1, 2, 3 , 4 , 5 y 6) que hacen que
las correlaciones esperadas segn el modelo (r* 21 , r* 31 , r* 41 ,
r* 51, etc.) se parezcan lo ms posible a las correlaciones
observadas (0,459, 0,313, 0,246, 0,171, etc.). En el ejemplo, a
partir de la matriz de correlaciones mencionada anteriormente, se
llega al siguiente modelo de un factor:
Lo cual significa que el factor tiene una relacin ms fuerte con el

tem 2 que con los dems, aunque todas las saturaciones son
elevadas. En el caso de un factor, las saturaciones resultan ser
iguales a las correlaciones de cada tem con el factor. Pueden
tomar valores positivos o negativos. Si la saturacin es cero, o
prxima a cero, no existe relacin entre el tem y el factor.
Saturaciones extremas, en cualquier direccin, significan que la
relacin es fuerte. Generalmente, en los programas informticos,
las saturaciones se disponen en una matriz que se denomina
matriz factorial:
55
Las correlaciones esperadas segn el modelo seran:
Segn el modelo de un factor los dos tems que ms deberan

correlacionar son los tems 2 y 3 puesto que son los que ms
correlacionan con ese factor. Las correlaciones reproducidas se
parecen a las correlaciones observadas en nuestra muestra, pero
no son iguales. La diferencia entre una correlacin observada y
una reproducida se llama residual:
Por ejemplo, el residual para la correlacin entre los tems 1 y 3

(r 31 r* 31) es 0,020. A partir del modelo de un factor, y teniendo
en cuenta las propiedades de las combinaciones lineales de
variables, la varianza de un tem puede calcularse como una
funcin de su saturacin en el factor, de la varianza del factor y
de la varianza del error. Por ejemplo, sabiendo que:
la varianza de X1 (2 X1) puede calcularse como:
56
donde F2 y 2 1representan la varianza de F y la varianza de E1.

Al estimar el modelo factorial a partir de la matriz de
correlaciones, se est asumiendo implcitamente que los tems y
el factor vienen expresados en puntuaciones tpicas. Esto significa
que las varianzas del factor y del tem son 1 (2F = 1, 2X1= 1);
Por tanto, la varianza del tem (1) se descompone del modo
siguiente:
Como se puede ver, una parte de la varianza del tem depende de

su saturacin en el factor comn. A esa parte se la denomina
comunalidad y se la representa por el smbolo h 2 i. El resto de la
varianza del tem depende de la varianza del error ( 2 1 ). A
esa parte se la denomina unicidad. Simblicamente,
La comunalidad de un tem indica la cantidad de su varianza

explicada por el factor. En el modelo de un factor, la comunalidad
de un tem se obtiene elevando la saturacin de ese tem en el
factor al cuadrado. En el ejemplo, las comunalidades son h 21=
0,292 (que es 0.5402), h 22= 0,450 (que es 0.6712), h 23= 0,294,
h 24 = 0,280, h 25= 0,234 y h 26= 0,191. La varianza de los
errores se denomina unicidad, y se simboliza, como ya hemos
mencionado, mediante 2 i . La unicidad de un tem indica
cuanta varianza del mismo no depende del factor, es decir, es
varianza especfica del tem que no se relaciona con lo que los
tems miden en conjunto. Las unicidades se calculan . En

el ejemplo, las unicidades son
La suma de las comunalidades es la varianza de los tems

explicada por el factor. En nuestro ejemplo, esta suma es 1,740.
Como la varianza total de los tems es 6, la proporcin de
varianza explicada por el factor es 1,740/6 = 0,290; es decir, el
29%. La suma de las unicidades es la varianza de los tems no
explicada por el factor, en este caso el 71% del total.
b. Anlisis factorial con ms de un factor
Es posible formular modelos factoriales en los que cada tem mida

ms de una caracterstica simultneamente. Supongamos que se
hipotetiza que el cuestionario mide dos factores, denominados F1
57
y F2. Entonces, las saturaciones se denominan ij (siendo i el

tem y j el factor), y el modelo de dos factores es:
De forma genrica, para un nmero p el nmero de factores

independientes:
De nuevo, el programa busca aquellos valores de que hacen

que las correlaciones esperadas segn el modelo
se parezcan lo ms posible a las

correlaciones observadas (0,459, 0,313, 0,246, 0,171,). Al
estimar las saturaciones a partir de la matriz de correlaciones
se obtiene el resultado:
Los programas nos informarn de esas saturaciones, mediante

una matriz denominada matriz de factores rotados:
58
Puede verse que los tems 1, 2 y 3 tienen una correlacin ms

fuerte con el factor I que con el factor II, mientras que ocurre lo
contrario para los tems 4, 5 y 6. Viendo las saturaciones y el
contenido de los tems, puede suponerse que el factor I significa
Trato a los dems, mientras que el factor II podra indicar
Confianza en los dems.
Al haber dos factores independientes, las comunalidades se

calculan mediante h2i =2i1 + 2i2. Las comunalidades de los 6
tems seran 0,354, 0,581, 0,277, 0,500, 0,397 y 0,188. En el
ejemplo, la varianza explicada por cada factor es 1,226 y 1,072,
que, representa un porcentaje del 20 % y del 18 %
respectivamente. Por tanto, el porcentaje de varianza explicada
por el modelo de dos factores es del 38% aproximadamente.
En la prctica el anlisis factorial se aplica en dos pasos. En

primer lugar se obtiene la solucin inicial, lo que permite evaluar
la bondad de ajuste del modelo y determinar el nmero de
factores. En segundo lugar se realiza una rotacin, ortogonal u
oblicua, segn los propsitos del investigador. La solucin rotada
sirve para interpretar el sentido de los factores. Si se realiza la
rotacin ortogonal, es posible calcular las comunalidades,
unicidades y la varianza explicada por cada factor. Si se realiza la
rotacin oblicua, se obtiene la correlacin entre factores y unas
saturaciones ms sencillas de interpretar.
En resumen, la validez factorial es determinada mediante anlisis

factorial. Sabemos que la covariacin de un grupo de subtest o de
tems define un factor que representa una dimensin terica
subyacente a todos ellos. Esto significa que los tems miden
dimensiones unitarias independientes, de modo que un test se
puede caracterizar por los factores ms predominantes que
determinan sus puntuaciones y por la saturacin de cada factor.
La carga factorial correspondiente al factor que el test mide se
denomina validez factorial. De acuerdo con este mtodo, se
eligen los factores que explican el mayor porcentaje de la
varianza total del test; asimismo, se toman los tems con mayor
peso factorial en cada uno de los factores.
4. Validez predictiva
La Validez Predictiva se centra en la comprobacin de que las pruebas

predicen aquello para lo que fueron diseadas. Constituye un aspecto
clave en la utilizacin aplicada de los test y las escalas en mbitos en
los cuales se toman decisiones importantes para las personas
59
basndose en las pruebas, por ejemplo en el mbito de la seleccin

de personal, orientacin, o situaciones de carcter clnico, por citar
algunos. La capacidad predictiva de una prueba suele expresarse
mediante su Coeficiente de Validez (vxy), que es la correlacin entre
las puntuaciones en la prueba (x) y la ejecucin en el criterio que se
pretende predecir (y). A medida que el valor del coeficiente de
validez se acerca a 1 mayor es la capacidad predictiva de la prueba.
Cuando se utilizan varias pruebas para predecir un criterio se utiliza
como coeficiente de validez la correlacin mltiple de las pruebas con
el criterio (Ryy).
Un criterio es cualquier desempeo que los sujetos tienen en la vida

real, por ejemplo, las medidas de rendimiento acadmico, medidas de
rendimiento laboral, clasificaciones psiquitricas, etctera. En muchos
casos resulta imposible hallar un criterio no ambiguo de un rasgo
mental. Por ejemplo, dos psiclogos, Toms y Aurora, que investigan
el rasgo de aptitud numrica pueden emplear diferentes criterios
externos para correlacionar los puntajes del test que han creado. As,
Aurora puede considerar que el criterio externo ms adecuado son
las calificaciones que reciben los sujetos en un curso de mecnica en
taller; mientras que Toms puede considerar como criterio el periodo
de tiempo que gastan los estudiantes en aprender una tarea
mecnica y sencilla durante el entrenamiento en un fabrica. Qu
sucede si las pruebas que emplean ambos psiclogos correlacionan
0.006 con uno de los criterios, y 0.70 con el otro?, cmo podemos
afirmar que la prueba es valida cuando arrojan resultados de cierta
clase?, se trata en verdad de una prueba de aptitud mecnica? En
razn a situaciones como esta se llego a la conclusin de que la
validacin de un test es un proceso largo y no un hecho aislado.
Solamente a travs de estudios de correlacin con una amplia
variedad de criterios podremos comprender que mide la prueba. As,
una serie de investigaciones sobre la prueba de actitud mecnica
nos puede demostrar que en realidad esta midiendo la habilidad para
realizar movimientos fino y cuidadosamente controlados, siendo
completamente independiente para comprender las reacciones
complejas de la piezas mecnicas. De esta manera el test puede
tener una alta correlacin con las calificaciones obtenidas en el taller
y ninguna con los trabajos e maquinarias.
60
TEXTO SELECCIONADO 3
Intervalos de confianza asimtricos para el ndice la validez de

contenido: Un programa Visual Basic para la V de Aiken4
Particularmente, los intervalos de confianza es forma ms informativa y til

de expresar el grado de imprecisin o in-certidumbre asociada con los
resultados cuantitativos de una investigacin o algn clculo en general;
eso sera una consecuencia apropiada de la situacin muy comn de utilizar
una muestra de limitado tamao. Actualmente, la construccin de intervalos
de confianza para los puntajes obtenidos es una prctica recomendada y a
veces es referida como un elemento esencial para la interpretacin del
reporte de resultados de un sujeto (Charter, 2003).
En el presente artculo presentamos un programa informtico para calcular

intervalos de confianza para el ndice de validez de contenido, V, propuesto
por Aiken (1980, 1985). El procedimiento para obtener el intervalo de
confianza es por medio del mtodo score, que recientemente fue derivado
en Penfield y Giacobbi (2004) para este coeficiente. Hay pocos precedentes
sobre el uso del coeficiente V de Aiken en publicaciones cientficas hispanas,
excepto la sencilla presen-tacin descriptiva por Escurra (1989) que no se
inclua un programa informtico para su clculo. El desarrollo de un
programa que calcule este coeficiente podra ser de menor utilidad dado que
el clculo no presenta complejidades an para el usuario sin conocimientos
estadsticos, pero el pro-grama presentado aqu incluye clculos que van
ms all del planteamiento original de Aiken, quien consideraba la
tradicional prueba de hiptesis del coeficiente V, particularmente con su
contraste de hiptesis nula fijada en V = 0.50 para establecer los valores
crticos. Esta caracterstica nueva resuelve los clculos para obtener
intervalos de confianza para V usando el mtodo score; pero ya que
calcularlos puede llevar a errores debido a sus ecuaciones (el lector los ver
ms adelante en el presente artculo).
El mtodo de los intervalos de confianza para la V de Aiken representa los

lmites que tienen una alta probabilidad de que ocurra V en la poblacin; y
esta probabilidad es de una extensin del 95% u otro lmite crtico que el
examina-dor elija. La justificacin de utilizar intervalos de confianza para la
cuantificacin de la validez de contenido va de acuerdo con el actual nfasis
de su uso para reportar hallazgos de investigacin psicolgica (Wilkinson y
4
Referencia Original: Merino C. & Livia, J. (2009). Intervalos de confianza asimtricos para el
ndice la validez de contenido: Un programa Visual Basic para la V de Aiken. Anales de
Psicologa, 25(1), 169-171.
61
APA Task Force on Statistical Inference, 1999; American Psychological

Association, 2001; Fidler, 2002).
Coeficiente de validez de contenido V de Ai-ken
En la literatura metodolgica se han descrito algunos enfoques de anlisis

cuantitativos para la validez de contenido que parecen promisorios (por
ejemplo, Anderson y Gerbing, 1991; Schriesheim, Powers, Scandura,
Gardiner y Lankau, 1993; Sireci, 1998a; Hinkin y Tracey, 1999), pero
requieren de mayor examen metodolgico para obtener de ellas resul-tados
confiables en investigaciones aplicadas. Un mtodo sencillo es el clculo del
coeficiente V de Aiken (Aiken, 1980; 1985), y se aplica en un mtodo lgico
de validez: la opinin de expertos sobre la validez de un material
evaluativo. Este coeficiente es una de las tcnicas para cuantificar de
validez de contenido o relevancia del tem respecto a un dominio de
contenido en N jueces, cuya magnitud va desde 0.00 hasta 1.00; el valor
1.00 es la mayor magnitud posible que indica un perfecto acuerdo entre los
jueces respecto a la mayor puntuacin de validez de los contenidos
evaluados. La interpretacin del coeficiente usa la magnitud hallada y la
determinacin de la significancia estadstica mediante las tablas de valores
crticos que se pueden hallar en Aiken (1985). La ecuacin, algebraicamente
modificada por Penfield y Giacobbi (2004), es:
X es la media de las calificaciones de los jueces en la muestra, l es la

calificacin ms baja posible, y k es el rango de los valores posibles de la
escala Likert utilizada. Por ejemplo, si l = 1 y k = 5, entonces k = 5 1= 4.
La estimacin de los intervalos de confianza para el coeficiente V de Aiken
usar el mtodo score (Wilson, 1927; Penfield y Giocobbi, 2004), que a
continuacin describimos brevemente.
Intervalos de confianza para V de Aiken por el mtodo score
Para la construccin de intervalos de confianza se usa tradicionalmente el

mtodo de Wald, que asume la distribucin normal asinttica de la variable
en estudio; pero particular-mente su aplicacin al coeficiente V es
inapropiada (Penfield y Giocobbi, 2004). Uno de los mtodos para afrontar
las limitaciones de este mtodo tradicional es el mtodo de Wilson (1927),
conocido como mtodo score, que tiene muy buenas propiedades para el
anlisis debido que no depende de la distribucin normal de la variable, es
asimtrica respecto a la variable y es altamente exacto. Una presentacin
tcnica del mtodo score aplicado a las proporciones y sus diferencias est
62
en Newcombe (1998a, 1998b, 1998c), y otra menos tcnica en Newcombe

y Merino (2006). La derivacin de la formulacin original del mtodo score
para su uso con V de Aiken aparece en el apndice de Penfield y Giocobbi
(2004), quienes trataron la V de Aiken como una proporcin para obtener la
construccin del intervalo en un nivel de confianza determinado. La
ecuacin para el lmite inferior del intervalo es:
La complejidad computacional de este procedimiento puede hacer que el

usuario sea proclive a errores, y por tal motivo facilitamos al lector un
programa informtico de libre distribucin.
El programa y su disponibilidad
El programa est escrito y compilado en Visual Basic 6.0, y corre bajo las
versiones actuales de Windows para PC, especficamente Windows 95 o
superior. Para ejecutar el pro-grama, se presenta una interfaz grfica fcil
de manejar. La activacin del programa requiere hacer doble clic en su ico-
no respectivo.
El usuario ingresar los siguientes datos: a) la calificacin promedio o rating

obtenido previamente para el tem seleccionado para el anlisis, b) la
calificacin mnima y mxima posibles en la escala, y c) el nmero de
jueces o expertos.
Para pasar de un cuadro de texto al siguiente, el usuario puede usar el

ratn, presionar la tecla enter o tab luego del ingreso de cada dato. Con
estos datos, el programa calcular automticamente el rango de valores de
las calificaciones (calificacin mxima - calificacin mnima), el ndice V de
Aiken, y los intervalos de confianza en los niveles del 90%, 95% y 99%,
que son los niveles ms usuales en las estimaciones de intervalos de
confianza. El programa, de uso sencillo, est disponible sin costo
escribiendo al autor principal en las direcciones de contacto.
63
Usos
El intervalo de confianza para la V de Aiken permite al usuario probar si la

magnitud obtenida del coeficiente es superior a una que es establecida
como mnimamente aceptable para concluir sobre la validez de contenido de
los tems. Por ejemplo, de desea probar si un coeficiente V es
significativamente diferente del mnimo nivel de validez segn los
estndares de los expertos; este estndar puede estar en un nivel liberal
(Cicchetti, 1994) de Vo = 0.50, o en un nivel ms conservador, como Vo =
0.70 o ms (Charter, 2003). Luego de recolectar el juicio de 5 jueces, en
una escala de 1 al 5, el rating promedio es 4.2, y al 95% de confianza el
intervalo del coeficiente obtenido ser [0.62, 0.90]. Con este dato, no
podemos aceptar el tem a la luz del estndar mnimo ms exigente (0.70),
ya que el lmite inferior del intervalo est por debajo de tal punto. En las
fases iniciales de la construccin de tems, se puede elegir un criterio ms
liberal (Vo = 0.50) o un nivel de confianza igual a 90%, especialmente si el
nmero de jueces es pequeo (Penfield y Giacobbi, 2004). Tambin, para
fines inferenciales, el enfoque de intervalos de confianza permite probar la
hiptesis nula de igualdad mediante coeficientes V, ya que la informacin
contenida en el intervalo de confianza conduce a juzgar el grado en que los
coeficientes V comparados se traslapan o se mantienen lo suficientemente
alejados como para concluir que son diferentes.
La significancia estadstica para el coeficiente V de Aiken tiene por hiptesis

nula que un valor del contraste de 0.50, que representa la variacin
aleatoria; pero este nivel es in-aceptable para fines prcticos y est por
debajo de las recomendaciones en la construccin de pruebas para cualificar
la magnitud de un coeficiente de validez (Cicchetti y Sparrow, 1981;
Cicchetti, 1994; Nunnally y Bernstein, 1995; Anastasi y Urbina, 1997; Prieto
y Muiz, 2000; Charter, 2003; Lindley, Bartram y Kennedy, 2005). Al
investigador aplicado y al usuario adems de interesarle si el valor estimado
del coefi-ciente de validez es diferente de lo que ocurrira en relaciones
aleatorias, observar si tal magnitud es lo suficientemen-te alto como para
tomar decisiones acertadas sobre la aceptabilidad de los tems para
capturar el contenido del constructo. Contrastando con la original propuesta
de prueba de hiptesis de Aiken, se puede probar cualquier valor declara-do
como valor nulo o Vo y no nicamente Vo = 0.50. Esto da al usuario
flexibilidad sobre los valores crticos apropia-dos al contexto de estudio y a
la fase de construccin de escalas en que se halla.
Finalmente, el programa permite interactivamente hacer una estimacin del

nmero de jueces necesitados para lograr un nivel deseado intervalo de
confianza, y obtener un grado de precisin del coeficiente V de Aiken. Bajo
el mismo contexto del ejemplo anterior, se necesitara un mnimo de 14
64
jueces y un nivel de confianza de 90% para lograr un intervalo que incluya

al estndar establecido, ya que el intervalo del coeficiente V de Aiken se
modificara a [0.70, 0.87]. Es fcil concluir que a medida que el tamao
muestral se incremente, la amplitud del intervalo ser menor, y por lo tan-
to, la precisin de la estimacin del coeficiente V ser mejor.
65
ACTIVIDADES DE AUTOAPRENDIZAJE
1. Elabora un cuadro comparativo de las diferentes clases de

validez
Validez de Validez de Validez Predictiva

Contenido Constructo
2. Escribe tres diferencias entre los mtodos de confiabilidad

descritos en el manual
66
AUTOEVALUACIN 3
1. Responda a las siguientes afirmaciones indicando si lo que se dice es

verdadero o falso. Justifique sus respuestas.
a) El ndice de homogeneidad de un tem indica en que grado mide lo

mismo que el test.
b) Un tem con un Hj bajo siempre debe ser descartado en un proceso de
seleccin.
c) El ndice de homogeneidad permite ver en qu medida un tem permite
predecir un criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos
rechazar aquellos tems que correlacionen poco con la puntuacin total
en el test.
e) Un tem con un ndice de homogeneidad alto pero con un bajo ndice
de validez no es necesariamente un mal tem. Estos resultados pueden
deberse a que el criterio seleccionado sea poco adecuado.
2. Un psiclogo construye una escala de actitudes para evaluar el

dogmatismo religioso. La escala consta de 4 tems, y en cada uno se
puede manifestar la opinin segn una escala de 7 puntos (del 1 al 7). A
continuacin se detallan las respuestas de un grupo normativo de 5
personas:
Obtenga e interprete el coeficiente de la prueba.
3. Un pequeo test de aptitudes intelectuales consta de dos tems de

aptitud verbal (el 1 y el 4) y de dos tems de aptitud numrica (el 2 y el
3). Despus de aplicarse a un grupo normativo, la matriz de
correlaciones se someti a un anlisis factorial, cuya matriz F rotada se
presenta en la tabla que aparece a continuacin.
a) Considera que el estudio factorial aporta datos a la validez del test?

b) Calcule el porcentaje de la varianza total explicado por el Factor I.
67
4. La confiabilidad es:
a) El grado de consistencia entre dos medidas de un mismo instrumento.
b) La propiedad por la cual un instrumento mide lo que dice medir.
c) La caracterstica de un test centrada en los errores sistemticos.
d) Slo aplicar pruebas.
5. Marque lo correcto respecto a la confiabilidad

a) En toda medida, el valor obtenido est compuesto por el valor verdadero
y los errores de medicin.
b) Un instrumento ser ms confiable en la medida que maximice el valor
verdadero y minimice el error.
c) Los nicos errores que interesan en la teora de la fiabilidad son los
errores sistemticos.
d) Un instrumento ser ms confiable en la medida que minimice el valor
verdadero.
6. Cuando evaluamos la validez de un instrumento estableciendo

estadsticamente los factores que configuran el constructo que se est
evaluando, estamos realizando
a) Validez de contenido.
b) Validez concurrente.
c) Validez predictiva.
d) Validez de constructo.
7. Marque lo correcto
a) Mayor cantidad de muestra, menor confiabilidad.
b) Dos versiones o formas de un test se consideran paralelas si, aplicadas a
una misma muestra de personas, obtienen medias y varianzas
diferentes.
c) Idealmente, el puntaje observado y verdadero coincidiran.
d) A Menos error, menos precisa sera la medicin.
8. Marque lo incorrecto
a) La validez de contenido se va mediante jueces expertos.
b) En psicologa las mediciones son objetivas y sin errores.
c) Para la estimacin de la validez de constructo se realiza el anlisis
factorial exploratorio.
d) En la confiabilidad por consistencia interna se utiliza el alfa.
68
9. Marque lo correcto con respecto al mtodos de estimacin de la

confiabilidad por mitades
a) Para cada sujeto no se obtiene la puntuacin directa en ambas mitades.
b) Si la mitad par e impar no fueran entre s formas paralelas, la correlacin
entre ambas no sera una medida de la fiabilidad de cada una de ellas.
c) Para cada sujeto se obtiene solamente una puntuacin directa para slo
una mitad.
d) Este procedimiento consiste en dividir el test en dos mitades
equivalentes.
10. Marque lo correcto con respecto al mtodos de estimacin de la

confiabilidad por formas paralelas
a) Las pruebas paralelas intentan evaluar o medir lo mismo que el test
original con tems iguales a los originales.
b) Implica disear un test y una segunda versin del mismo, denominada
forma paralela.
c) Dos versiones o formas se consideran paralelas si, aplicadas a una misma
muestra de personas, obtienen medias y varianzas probabilsticamente
diferentes.
d) Es comn disear una forma paralela de un test para obtener datos
sobre su fiabilidad.
RESPUESTAS:
1.
a) Verdadero, dado que es una correlacin entre las puntuaciones en el

tem y en el test.
b) Falso. Siempre que se pretenda medir un nico rasgo con el test, debe
ser descartado; si se pretenden medir varios rasgos, podra ser admitido.
c) Falso, la afirmacin hace referencia al ndice de validez.
d) Falso. Al disear un test que mida varios rasgos, se pretende buscar
tems que correlacionen con los tems que miden el mismo rasgo, y que
adems no correlacionen con otros tems que miden un rasgo diferente.
En esta situacin, la correlacin entre los tems y las puntuaciones del
test pueden ser bajas.
e) Verdadero. El tem mide lo mismo que el test, pero no mide lo mismo
que el criterio, que podra ser poco adecuado.
2. = 0.77, que se puede considerar un coeficiente medio-alto. Los 4

tems covaran entre s de forma apreciable.
69
3. a) Parece que s, dado que los dos tems de aptitud verbal obtienen
saturaciones altas en el Factor II, mientras que los dos tems de
aptitud numrica obtienen saturaciones altas en el Factor I.
b) El porcentaje de varianza explicado por el factor I ser (1.77)(100)/4
= 44.
4) a. 5) a. 6) d. 7) c. 8) b. 9) d. 10)
70
EXPLORACIONES ON-LINE
http://www.apa.org/science/standars.html.
http://www.uv.es/meliajl/Psicomet1.html
http://www.uv.es/facpsi/analesps.html
http://www.uniovi.es/user_htm/herrero/REMA.html
http://www.uniovi.es/UniOvi/Apartados/Departamento/Psicologia/metodos/tut
or.1indice.html
http://www.intestcom.org/
http:/huitoto.udea.edu.co/ceo/Validez02.htm
http:/webpages.ull.es/users/pprieto/escalamiento/escala41.html
BIBLIOGRAFA
Abad, F., Garrido, J., (2006). Introduccin a la Psicometra. Teora

Olea J. & Ponsoda, V. Clsica de los Test y Teora de Respuesta al Item.
Madrid: Universidad Autnoma de Madrid.
Aiken, L. R. (1985). Three coefficients for analyzing the

reliability and valid-ity of ratings. Educational and
Psychological Measurement, 45, 131-142.
Aiken, L. R. (1980). Content validity and reliability of single

items or ques-tionnaires. Educational and.
Psychological Measurement, 40, 955959.
Aiken, L. R. (1996) Tests psicolgicos y evaluacin. Mxico, D.

F.: Prentice Hall.
Alarcn, R. (1998). La Teora Clsica de los Test. Logros y

limitaciones. En Universidad de San Martn de
Porres (Ed.) Nuevos modelos en la medicin
psicolgica (pp. 9-30). Lima: Universidad San
Martn de Porres.
Alarcn, R. (2008). Mtodos y Diseos de Investigacin del

Comportamiento (2da ed.). Lima: Editorial
Universitaria.
Aliaga, J. (2005). Separatas del curso de Psicometra II.

Lima: Universidad Nacional Mayor de San Marcos
American Psychological (2001). Publication manual of the American

Association. Psychological Association (5th ed.). Washington,
DC: Author.
71
Anastasi, A. (1978). Test Psicolgicos. Madrid: Aguilar.
Anastasi, A. y Urbina, S. (1997). Psychological testing (7th ed). New York:

McMillian.
Anderson, J. C., y (1991). Predicting the performance of measures in

Gerbing, D. W. a confirmatory factor analysis with a pretest
assessment of their substantive validities. Journal
of Applied Psychology, 76, 732-740.
Brown, F. (1980). Principios de la medicin en psicologa y

educacin. Mxico: Ed. Manual Moderno.
Charter, R. A. (2003). A breakdown of reliability coefficients by

test type and reliability method, and the clinical
implications of low reliability. Journal of General
Psychology, 130(3), 290-304.
Cicchetti D.V. y Sparrow, (1981) Developing criteria for establishing the

S.S. interrater reliability of specific items in a given
inventory. American Journal of Mental Deficiency,
86, 127-137.
Cicchetti, D. V. (1994) Guidelines, criteria, and rules of thumb for

evaluating normed and standardized assessment
instruments in psychology. Psychological
Assesments, 6, 284-290.
Cohen, R., & Swerdlik, M. (2001). Pruebas y Evaluacin Psicolgicas:

Introduccin a las pruebas y a la medicin (4ta
ed.). Mxico: McGraw-Hill.
Cortada, N (1999). Teoras psicomtricas y construccin de

test. Buenos Aires: Lugar Editorial.
Delgado, A., Escurra, M. (2006). La medicin en psicologa y educacin.

& Torres, W. Teora y aplicaciones. Lima: Ed. Hozlo.
Escurra, L. (1989) Cuantificacin de la Validez de Contenido

por Criterio de Jueces. Revista de Psicologa -
PUCP, 6, 103-111.
Fidler, F. (2002). The 5th edition of the APA Publication

Manual: Why its statistics recommendations are so
controversial. Educational and Psycho-logical
Measurement, 62, 749-770.
Hinkin, T. R. y Tracey, J. (1999) An analysis of variance approach to content

B. validation. Organizational Research Methods, 2(2),
175-186.
72
Hogan, T. (2004). Pruebas Psicolgicas: Una Introduccin

Prctica. Mxico: Manual Moderno.
Kerlinger, F. (1975). Investigacin del comportamiento.

Tcnicas y metodologas. Mxico: Interamericana.
Kerlinger, F., & Lee, H. (2002).Investigacin del Comportamiento.

Mtodos de Investigacin en Ciencias Sociales (4ta
ed.). Mxico: McGraw-Hill Interamericana, S.A.
Lindley, P., Bartram, D., (2005) EFPA review for the description and
y Kennedy, N evaluation of psychological test: Test review form
and notes for reviewers (version 3.41). Report of
the Standing Committee on Test and Testing to
General Assembly. Granada: EFPA.
Magnuson, D. (1969). Teora de los test. Mxico: Trillas.
May, R. B., Masson, M. J., (1990). Application of statistics in behavioral

y Hunter, M. A. research. New York: Harper & Row.
Merino C. & Livia, J. (2009). Intervalos de confianza asimtricos para el

ndice la validez de contenido: Un programa Visual
Basic para la V de Aiken. Anales de Psicologa,
25(1), 169-171.
Miller, J. M., y Penfield, R. (2006). Using the Score method to construct

D. asymmetric confidence intervals: An SAS program
for content validation in scale development.
Behavior Research, Methods, Instruments, and
Computers, 37, 450-452.
Muiz, J. (1994). Teora clsica de los test (2 ed.). Madrid:

Pirmide.
Newcombe, R. G. y (2006) Intervalos de confianza para las

Merino, C. estimaciones de proporciones y sus diferencias
entre ellas. Interdisciplinaria, 23(2), 141-154.
Newcombe, R.G. (1998a).Two-sided confidence intervals for the

single proportion: Comparison of seven methods.
Statistics in Medicine, 17, 857-872.
Newcombe, R.G. (1998b). Interval estimation for the difference

between independent proportions: comparison of
eleven methods. Statistics in Medicine, 17, 873-
890.
Newcombe, R.G. (1998c). Improved confidence intervals for the

difference between binomial proportions based on
paired data. Statistics in Medicine, 17, 2635-2650.
73
Nunnally J., & Bernstein, (1995). Teora Psicomtrica (3ra ed.). Mxico:
I. McGraw-Hill.
Penfield, R. D. y Giacobbi, (2004) Applying a score confidence interval to

P. R., Jr. Aikens item content-relevance index.
Measurement in Physical Education and Exercise
Science, 8(4), 213-225.
Penfield, R. D. y Miller, J. (2004) Improving content validation studies using

M. an asymmetric confidence interval for the mean of
expert ratings. Applied Measurement in Education,
77(4), 359-370.
Prieto, G. y Muiz, J. (2000). Un modelo para evaluar la calidad de los

tests utilizados en Espaa. Papeles del Psiclogo,
77, 65-71.
Schriesheim, C. A., (1993). Improving construct measurement in

Powers, K. J., Scandura, management re-search: Comments and a
T. A., Gardiner, C. C., y quantitative approach for assessing the theo-
Lan-kau, M. J. retical adequacy of paper-and-pencil and survey-
type instruments. Journal of Management, 19,
385-417.
Sireci, S. G. (1998a) Gathering and analyzing content validity

data. Educational Assessment, 5(4), 299-321.
Sireci, S. G. (1998b) The construct of content validity. Social

Indicators Re-search, 45, 83-117.
Wilkinson, L., y APA Task (1999). Statistical methods in psychology journals:

Force on Statistical Guidelines and explanations. American
Inference. Psychologist, 54, 594-604.
Wilson, E.B. (1927). Probable inference, the law of succession,

and statistical inference. Journal of the American
Statistical Association, 22, 209-212.
74
BIBLIOGRAFA COMENTADA
Cortada de Kohan, N. (2000). Tcnicas psicolgicas de evaluacin y

exploracin. Mxico D.F.: Editorial Trillas.
En el libro se presentan las tcnicas de evaluacin psicolgica sealando su

fundamentacin terica, y analizar en forma crtica sus mritos y sus
insuficiencias desde el punto de vista terico tanto de su elaboracin como de
su aplicacin. De esta manera cuando el psiclogo desee estudiar algn
aspecto de la inteligencia, el conocimiento, las actitudes o la personalidad,
entre otros temas, podr consultar cules son los instrumentos ms
adecuados para sus fines.
75
Cuarta
UNIDAD
Normatividad del Instrumento

Psicomtrico
El aspecto ms importante y significativo de la elaboracin de la prueba

fue el proceso de construir las normas
Glen Roberts, Ph.D.

Extracto del Test Developer Prrofile publicado en Cohen (1999)
y en internet en www.mayfieldpub.com/psychtesting
Qu son los baremos?

Cmo se clasifican los baremos?
Cmo determinacin los baremos de una prueba para una muestra
de personas?
76
Competencias
CONCEPTUALES:
Conoce los diferentes tipos de baremos utilizados en

psicologa.
Conoce cmo se utilizan las tablas de baremos para
obtener el diagnstico psicolgico.
PROCEDIMENTALES:
Emplea datos empricos y criteriales para construir

normas de interpretacin de las diferencias individuales
que le permitan evaluar el desempeo de los
examinados en los instrumentos de medicin.
ACTITUDINALES:
Valora la utilidad de los baremos para el diagnstico

psicolgico.
Valora la preparacin del investigador en la aplicacin
e interpretacin de los resultados de los test
psicomtricos.
77
CONTENIDO TEMTICO
Leccin I: Baremos. Conceptos y clasificacin
Baremos Cronolgicos
Baremos Percentiles
Puntuaciones tpicas
Leccin II: Determinacin del Baremo
Obtencin de percentiles
Obtencin del rango percentilar
Obtencin de eneatipos
Equivalencias entre puntajes T; CI; eneatipos; percentiles; nivel y
rango
78
ESQUEMA CONCEPTUAL
Normatividad
del
Instrumento
Baremos
Baremos Obtencin de
Cronolgicos Baremos
Baremos
Cronolgicos
Baremos
Percentiles
Puntuaciones
Tpicas
CONCEPTOS CLAVES
Normatividad, baremo, baremo cronolgico, puntuaciones tpicas, percentiles,

rango percentilar, eneatipos, nivel, rangos.
79
Leccin I
Baremos
Conceptos y clasificacin5
La puntuacin directa de una persona en un test no es directamente

interpretable si no la referimos a los contenidos incluidos en el test o al
rendimiento de las restantes personas que comparten el grupo normativo.
Nosotros centramos en este segundo sentido el tema de la interpretacin de
una puntuacin directa en un cuestionario, para lo cual es necesario tratar
el tema de la obtencin de baremos para comparar esta puntuacin con las
que obtienen las personas que han formado el grupo normativo. De una u
otra forma, los baremos consisten en asignar a cada posible puntuacin
directa un valor numrico (en una determinada escala) que informa sobre la
posicin que ocupa la puntuacin directa (y por tanto la persona que la
obtiene) en relacin con los que obtienen las personas que integran el
grupo normativo donde se bareman las pruebas. Entre las mltiples formas
de baremar un test, destacamos las siguientes:
- Baremos cronolgicos: Edad Mental y Cociente Intelectual.

- Percentiles o percentiles.
- Puntuaciones tpicas: estndares, normalizadas, escalas T y D, eneatipos.
Lo ms usual en las pruebas comercializadas es encontrarse baremos

realizados en escala de percentiles eneatipos.
1. Baremos cronolgicos
Para rasgos psicolgicos que evolucionan con la edad (sobre todo de tipo
intelectual) tiene sentido comparar la puntuacin de un sujeto con las
que obtienen los de su misma edad y los de edades diferentes. Esto se
puede realizar mediante dos tipos diferentes de baremos: las Edades
Mentales (EM) y los Cocientes Intelectuales (CI).
Supongamos que aplicamos un test de Inteligencia de dificultad

progresiva a diferentes grupos de edad (nios entre 5 y 14 aos), y que
obtenemos las puntuaciones medias de cada grupo de edad en la prueba,
siendo las que siguen:
5
esta unidad.
80
Hemos realizado una correspondencia entre las edades y puntuaciones

medias que nos va permitir obtener la EM de cualquier nio al que
apliquemos el test. Por ejemplo, si un nio obtiene el test una puntuacin
directa de 14 puntos, le asignamos una EM de 9 aos,
independientemente de su edad cronolgica real, ya que esa puntuacin
es la media que obtienen los nios de 9 aos.
El Cociente Intelectual (CI) se denomina as (y no coeficiente, como es

usual escuchar en determinados mbitos) porque es el resultado de
dividir la edad mental (EM) entre la edad cronolgica (EC) del sujeto;
para evitar decimales el resultado se multiplica por 100, de tal manera
que se puede obtener a partir de la frmula:
Por ejemplo, en el ejemplo anterior, si un nio de 10 aos obtiene una

puntuacin directa de 18 puntos, diremos que su EM es de 11 aos, y
que su CI es:
Podemos observar que si la EM de un sujeto coincide exactamente con su

EC, el CI es igual a 100, e indicar que este sujeto obtiene exactamente
la puntuacin media de su grupo de edad. Si el CI supera el valor de 100
significar que el sujeto tiene una Inteligencia superior al promedio de su
edad, mientras que si su CI es inferior a 100, significa que el sujeto tiene
una inteligencia inferior a la media de su grupo de edad. Usualmente,
Cocientes Intelectuales inferiores a 70 indican problemas importantes
(deficiencias) de tipo cognitivo, mientras que Cocientes Intelectuales
superiores a 140 indican excepcionalidad intelectual.
2. Baremos percentiles
Los percentiles, como recordaremos, representan medidas de posicin en

una distribucin de frecuencias. Los baremos percentiles consisten en
asignar a cada posible puntuacin directa un valor (en una escala de 1 a
100) que se denomina percentil y que indican el porcentaje de sujetos
del grupo normativo que obtienen puntuaciones iguales o inferiores a las
correspondientes directas. As, si un sujeto obtiene en un cuestionario de
81
autoritarismo una puntuacin de 20 puntos, poco sabemos sobre su nivel

de autoritarismo, pero si sabemos que a esa puntuacin le corresponde el
percentil 95 , ya conocemos que este sujeto supera en ese rasgo al 95%
de los sujetos utilizados para baremar el test; si el grupo normativo fuese
una muestra representativa de la poblacin general, podramos inferir
que esta persona supera en autoritarismo al 95% de las personas, y que
slo un 5% de personas son ms autoritarias que l.
El modo de clculo del percentil asociado a una puntuacin se resume en

los siguientes pasos:
1) Disponer en una columna, ordenadas de mayor a menor o de menor a

mayor, las posibles puntuaciones directas (Xi) que se puedan obtener
en el test.
2) Asignar a cada puntuacin su frecuencia (fi), es decir, el n de sujetos

del grupo normativo que la han obtenido.
3) Disponer una tercera columna de frecuencias acumuladas (Fi).
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el
percentil asignado a la puntuacin directa Xi, Fi la frecuencia
acumulada correspondiente a Xi y N el nmero total de sujetos que
forman el grupo normativo.
Ejemplo: Supongamos que aplicamos un cuestionario de conocimientos

en el manejo de ordenadores a un grupo de 200 universitarios y que las
puntuaciones directas obtenidas (X) y los sujetos que obtuvieron cada
una de ellas (f) son las siguientes:
A partir de estos datos, los percentiles correspondientes a cada

puntuacin directa, se obtienen de la siguiente forma:
82
As, si un sujeto obtiene una puntuacin directa de 20 puntos en el

cuestionario, diremos que supera en conocimientos informticos al 9,5%
de los sujetos universitarios, mientras que ms del 90% de los alumnos
universitarios tienen mayor conocimiento en el manejo de ordenadores
que la persona evaluada.
La ventaja de los rangos percentilares es que el puntaje derivado ms

rpido de entender y el de ms fcil comunicacin, lo que lo hace muy
satisfactorio para informar a las personas que carecen de una formacin
estadstica. Adems, se puede interpretar de una manera exacta, an,
cuando la distribucin de los puntajes del test no sean estrictamente
normales. Por el contrario, una desventaja es que, al no tener distancias
iguales (por ser una escala ordinal y no de intervalo), tiende a exagerar
las pequeas diferencias hacia la zona media, diferencias que no son
importantes y reduce el tamao aparente de diferencias realmente
importantes y amplias en los extremos de la distribucin. Por otra parte,
es poco adecuado para los anlisis estadsticos, pues no se pueden
emplear operaciones aritmticas entre ellos.
3. Puntuaciones tpicas
En Anlisis de Datos se vio el significado y proceso de clculo de las

puntuaciones tpicas (Zx) asociadas a unas puntuaciones directas
determinadas. En este apartado vamos a encontrar una clara aplicacin
de estas puntuaciones, y de otras que se derivan de stas, para baremar
un cuestionario; vamos a diferenciar adems entre baremos tpicos
estndares y baremos normalizados.
3.1 Puntuaciones estndar
Como sabemos, una puntuacin tpica Zi se obtiene haciendo:
83
puede ser positiva o negativa, e indica el n de desviaciones tpicas

que se aleja de la media una determinada puntuacin directa. As,
conociendo la puntuacin tpica de un sujeto en un test y la
variabilidad del grupo normativo, podemos interpretar el nivel de
rasgo del sujeto (atendiendo a la cuanta y signo de su puntuacin Zi)
en comparacin con los niveles de los restantes sujetos. Por ejemplo,
una puntuacin tpica de -2,33 indica que es un sujeto cuya
puntuacin se encuentra 2,33 desviaciones tpicas por debajo de la
media.
3.2 Puntuaciones normalizadas
Cuando se puede asumir (o se comprueba) que las puntuaciones de

un grupo normativo en un test siguen una distribucin normal, un
percentil concreto Ci dividido entre 100 indica el rea de la curva
normal que queda por debajo de la puntuacin correspondiente. Por
ejemplo, observando la curva normal de la figura, podemos constatar
que el C1 es aproximadamente el percentil 10, y deja por debajo un
rea de 0,10 de la curva normal; el C2 es el percentil 42, y deja por
debajo una proporcin de 0,42 del rea de la curva normal; el C3 es
aproximadamente el percentil 95, y deja por debajo de s un rea de
0,95 de la curva normal.
Pues bien, conociendo la proporcin que queda por debajo de un

punto dado de la distribucin, podemos utilizar la tabla de la curva
normal para obtener sin clculos la puntuacin tpica asociada (Zn),
que se denominar puntuacin tpica normalizada. Indicar el nmero
de desviaciones tpicas que una puntuacin se encuentra por encima
(si es positiva) o por debajo (si es negativa) de la media en una
84
distribucin normal. Por ejemplo, las puntuaciones tpicas

normalizadas asociadas a los percentil 1, 26, 57 y 97 son:
Si no se puede asumir racionalmente o no se puede comprobar que

las puntuaciones siguen una distribucin normal, no se puede hacer
uso de las tablas de la curva normal para obtener las Zn. S podran
calcularse las puntuaciones tpicas estndares Zx, ya que no
asumimos ningn supuesto sobre la distribucin de los datos. Si los
datos de una muestra se ajustan a la normal, entonces cada Zx de
una persona es similar a su Zn.
Las puntuaciones normalizadas adquieren mayor significado cuando

comprendemos su relacin con la distribucin o curva normal llamada
curva de Gauss, la cual tiene las siguientes propiedades:
- La curva es simtrica, es decir, la media, la mediana y la moda

coinciden en la mitad de la curva.
- La curva es asinttica en relacin al eje de la abcisa. Esto indica
que las colas de la curva nunca llegan a tocar el eje horizontal y
se extienden desde el infinito negativo, hasta el infinito positivo.
- La ordenada mxima de la curva se ubica en la media, donde la
unidad de la curva normal es igual a 0.3989 y z = 0.
- A partir de los puntos donde se ubican (+ -), 1 desviacin
estndar (encima o debajo de la curva promedio), la curva cambia
en relacin al eje de las abcisas de convexa a cncava.
- Entre (+ -) la desviacin estndar cubre el 68.29% del rea de la
curva.
La mayor ventaja de transformar puntajes brutos a puntuaciones

normalizadas, es que con las primeras tendramos un nmero
infinito de distribuciones normales con diferentes medias o promedios
aritmticos y desviaciones estndar, mientras que con puntuaciones
normalizadas podemos relacionar todas las distribuciones normales a
una distribucin de frecuencia relativa. De esta manera, cuando la
curva normal es utilizada como referencia, a travs de las
puntuaciones normalizadas, recibe el nombre de distribucin normal
estndar, en donde el promedio de dicha distribucin es 0 y la
desviacin estndar es 1.
85
3.3 Puntuaciones derivadas
Las puntuaciones tpicas (estndares y normalizadas) tienen dos

dificultades formales para su interpretacin: la posibilidad de asumir
valores no enteros y negativos. Con objeto de superar estas
pequeas dificultades, se han propuesto otros baremos, que no son
ms que una transformacin lineal de las puntuaciones tpicas, con lo
que no se alteran las propiedades de la escala tpica. Estas
puntuaciones se denominan escalas tpicas derivadas (si el objeto
de la transformacin lineal es una puntuacin tpica estndar) o
escalas tpicas derivadas normalizadas (si suponen la
transformacin lineal de una puntuacin tpica normalizada), siendo
las principales las denominadas como escala T, escala D y estaninos
(o eneatipos):
En definitiva, las puntuaciones T representan una escala con media

50 y desviacin tpica 10. As, una puntuacin T = 78 significa que la
persona obtiene una puntuacin Zi = 2.8, es decir, 2.8 desviaciones
tpicas por encima de la media del grupo normativo.
Las puntuaciones D suponen una escala con media 50 y desviacin

tpica 20. Por ejemplo, una puntuacin D = 35 indica que la persona
obtuvo una puntuacin Zi = -.75, o lo que es lo mismo, una
puntuacin que se encuentra .75 desviaciones tpicas por debajo de la
media del grupo normativo donde se barema el test.
Los estaninos representan otra escala con media 5 y desviacin tpica

2. Una persona que obtenga el estanino 8 en un test de aptitud
espacial indicar que se encuentra 1.5 desviaciones tpicas por
encima de la media del grupo normativo.
Consideremos un caso de baremacin de una misma puntuacin en

diferentes escalas. Por ejemplo, a un sujeto que obtiene una
puntuacin directa de 30 puntos en un test de aptitud mecnica con
86
media de 38 puntos y desviacin tpica 4, le podemos asignar

puntuaciones en los siguientes baremos:
Todas estas puntuaciones en escalas o baremos diferentes indican lo

mismo: que es un sujeto que se encuentra dos desviaciones tpicas
por debajo de la media de grupo normativo en aptitud mecnica.
La interpretacin de cada una de las escalas tpicas derivadas

normalizadas sigue la misma lgica que su correspondiente escala
tpica derivada sin normalizar, haciendo siempre la salvedad de que la
interpretacin hay que referirla a una distribucin normal.
La principal ventaja de las puntuaciones tpicas, es que son tiles

para los anlisis estadsticos (se asume que se dan en una escala de
intervalo). Al contrario, no pueden ser fcilmente interpretados
cuando las distribuciones empricas de puntajes del test se alejan del
patrn de la distribucin normal, lo cual puede llevar a conclusiones
errneas.
87
Leccin II
Determinacin del Baremo
1. Obtencin de percentiles
Para obtener percentiles existen procedimientos grficos y numricos. En

este caso utilizaremos los procedimientos numricos.
Para halla percentiles (Pc) se utiliza la siguiente frmula:
Pc =li + n x /100 fa i
Donde:
Pc= Percentil
li = Lmite inferior matemtico, en el que se encuentra n x/100
n x/100 = Nmero de datos (n) multiplicado por el percentil buscado
(x); todo ellos dividido entre 100 (constante aplicada por ser referida a
tanto por ciento).
f = Frecuencias, nmero de sujetos en el intervalo en el cual se
encuentra n x/100.
fa = Frecuencia acumulada al intervalo inferior en el cual se encuentra n
x/100.
i = Amplitud de intervalo.
Para hallar percentiles se sigue el siguiente procedimiento:
1. Identifique el puntaje total percentil a obtener (Pc), para

reemplazarlo luego en la frmula.
2. Calcule n x/100, donde: n= tamao de la muestra; x = percentil
buscado; 100 = constante.
3. Halle li. Con el dato anterior vaya a la columna Fa y empezando
desde el intervalo inferior busque el intervalo en el cual se
encontrara el valor de n x/100. El lmite inferior de este intervalo al
cual se le resta 0.5 constituye el lmite inferior matemtico. Haga el
reemplazo en la frmula.
88
4. Fa = Determine la frecuencia acumulada al intervalo inferior en el

cual se encuentra n x/100. Con el valor hallado haga el reemplazo
en la frmula.
5. F = Establezca la frecuencia o nmero de sujetos dentro del intervalo
en el cual se encuentra n x/100.
6. i = Determine la amplitud del intervalo y haga el reemplazo en la
frmula.
7. Realice las operaciones indicadas en la frmula y obtendr el Pc
buscado.
Ejemplo, 177 nios rindieron un test de vocabulario. Los puntajes

directos (x), frecuencias (F) y frecuencias acumuladas (Fa) son las
siguientes. Cul es el valor del Pc 90?
(x) F Fa
32 4 177
31 7 173
30 17 166
29 22 149
28 18 127
27 28 109
26 15 81
25 22 66
24 14 44
23 14 30
22 12 16
21 3 4
20 1 1
1. Pc = 90
2. n x/100 = 177 x 90/100=159.
3. li =29.5 (el valor de n x/100 = 159.3 es ubicado en la columna Fa. Se

encuentra entre 149 y 166. En consecuencia el intervalo en el cual se
ubica este valor es el que corresponde al puntaje 166; vale decir, al
puntaje directo 30. El lmite inferior matemtico de 30 es 29.5.
4. Fa = La frecuencia acumulada al intervalo inferior en el cual se

encuentra n x/100, corresponde al intervalo 29, es decir, la Fa es
149.
89
5. F = la frecuencia de sujetos dentro del intervalo en el cual se

encuentra n x/100 es 17.
6. i = la amplitud del intervalo es 1.
Reemplazando los valores en la frmula:
Pc 90 = 29.5 + 159.3 149 1

17
Pc 90 = 30.19 = 30
2. Obtencin del rango percentilar
Para hallar qu percentil le corresponde a un determinado puntaje, se

sigue la siguiente secuencia:
1. Prepare una distribucin de frecuencias de las puntuaciones directas

en intervalos de amplitud uno (x).
2. Determine la frecuencia acumulada al lmite inferior (Fali) de cada

puntaje directo (empezando por el intervalo inferior, es conveniente
hacerse la pregunta Cul es el Fali de cada puntaje directo?). Esto es,
la suma de todas las puntuaciones que se encuentran por debajo del
puntaje directo en cuestin. Por ejemplo, en la tabla anterior que
utilizaremos tambin en este caso (x), la Fali del puntaje directo (x)
23 es 1+3+12=16, que es el nmero de sujetos con puntuaciones
directas de 23 o menos.
3. Determine la frecuencia acumulada en el punto medio del intervalo de

las puntuaciones Cul es el fapm de cada intervalo? Se obtiene
dividiendo f/2 y sumndole al resultado su correspondencia Fali. Por
ejemplo, al puntaje directo (x) de 23, le corresponde:
Fapm = 14/2 + 16 = 23.0
4. Determine la proporcin acumulada (PA9 dividiendo la Famp

correspondiente entre N (nmero de sujetos). Por ejemplo, en nuestra
tabla a la calificacin directa de 23 le corresponde el PA = 23.0:177 =
0.130.
90
5. Finalmente obtenga los rangos percentialres (RP) multiplicando el PA

correspondiente por 100. As la calificacin directa de 23 se le asigna
el RP= 0.130 x 100 =13. Un RP de 13 significa que 13 de cada 100
estudiantes (13%) alcanzaron puntuaciones directas menores a 23 en
el test y 87 de cada 100 tuvieron puntuaciones ms altas.
x F Fali FApm PA RP
32 4 173 175.0 0.989 99
31 7 166 169.5 0.958 96
30 17 149 157.5 0.890 89
29 22 127 138.0 0.780 78
28 18 109 118.0 0.667 67
27 28 81 95.0 0.537 54
26 15 66 73.5 0.415 45
25 22 44 55.0 0.311 31
24 14 30 37.0 0.209 21
23 14 16 23.0 0.130 13
22 12 4 10.0 0.056 6
21 3 1 2.5 0.014 1
20 1 0 0.5 0.003 1
3. Obtencin de eneatipos
1. Calcular la media de la distribucin.

2. Calcular la desviacin estndar de la distribucin
3. Obtener la constante K: K=S/4
4. Seguir el siguiente algoritmo.
Eneatipo Algoritmo
9= X + (K x 7)
8= X + (K x 5)
7= X + (K x 3)
6= X + (K x 1)
5= X - (K x 1)
4= X - (K x 3)
3= X - (K x 5)
91
2= X - (K x 7)
1= X - (K x 1)
4. Equivalencias entre puntajes T; CI; eneatipos; percentiles;

nivel y rango
T CI Eneatipos Percentiles Nivel Rango

67 - 128- 9 96 99 Muy Alto I
63 - 66 121 -127 8 89 95 Alto II+
58 - 62 112 120 7 77 88 Alto II
53 - 57 104 111 6 60 76 Medio III+
48 - 52 96 103 5 40 59 Medio III
43 - 47 88 95 4 23 39 Medio III-
38 - 42 80 87 3 11 22 Bajo IV
33 - 37 72 79 2 4 10 Bajo IV-
0 - 32 63 - 71 1 0-3 Muy Bajo V
92
TEXTOS SELECCIONADO 4
DIFERENCIACIN ENTRE NORMAS Y ESTANDARIZACIN6
Normas
Las pruebas frecuentemente utilizadas en el diagnstico son las llamadas

pruebas referidas a normas (Sattler, 1988), pues los resultados individuales
se comparan con los resultados de un grupo, para conocer la posicin del
desempeo del sujeto frente a ellos. Este grupo de comparacin o
referencia se llama grupo normativo (Cohen & Swerdlik, 1999), es decir, el
grupo de personas cuyo rendimiento en una prueba se usa para generar
normas para tal prueba y como fuente de referencia para evaluar los
resultados individuales (Cohen & Swerdlik, 1999). Sin embargo, hay normas
o grupos de referencia de tipo nacional, regional y local; segn la edad y
grado de instruccin; segn el tipo de desempeo laboral u otra condicin
especfica. Por ejemplo, normas para estudiantes de educacin especial,
para profesores con n aos de experiencia, etc. Esta informacin
generalmente se encuentra en las tablas normativas o baremos que los
manuales o algunos artculos cientficos publican; en los artculos cientficos,
los datos normativos se pueden construir a partir de los reportes de la
media y desviacin estndar del grupo estudiado.
Una prctica equivocada sera elegir datos normativos de un grupo

especfico y utilizarlo para interpretar los resultados de un sujeto con
caractersticas notablemente diferentes al grupo normativo. Por ejemplo, se
han encontrado evidencias que sugieren que la interpretacin normativa
para hombres y mujeres (o personas de media vs. baja condicin
socioeconmica, o adolescentes vs. adultos) en algunos atributos debe
6
Extrado de: Merino, C. & Kenny, D. (2003) Revisin de Algunos Conceptos y
Recomendaciones en la Medicin Psicopedaggica. Revista de Actualidad
Pedaggica, 23(55), 51-59.
93
hacerse por separado, pero una prctica negligente sera no tomar en

cuenta esta informacin cuando iniciamos la calificacin de la prueba
aplicada.
Generalmente, las diferencias normativas se extraen de un estudio en que

se muestra que las diferencias entre las submuestras (por ejemplo,
profesores varones vs. mujeres) ha evidenciado diferencias significativas en
su distribucin. El usuario debe identificar si la prueba posee normas
relevantes con las cuales comparar sus resultados individuales y si se
reporta algn tipo de descripcin de la muestra, as como los
procedimientos de seleccin. Existen tambin normas de limitada utilidad,
como los que son elaborados en (a) el periodo de construccin de una
prueba o (b) recogidas de la aplicacin especfica en un grupo (Angoff,
1971). En la primera situacin, el autor de la prueba deriva las normas del
grupo cuyos resultados sirvieron para el anlisis de tems y la definicin
final del instrumento. En la segunda situacin, la muestra es auto-
seleccionada o slo estaba ah. Se debe considerar finalmente que las
conclusiones basadas en normas tienden a variar con respecto al grupo de
comparacin (Andreani, 1975), de tal modo que el puntaje de un sujeto
puede ser alto al usar una norma pero cuando es comparada con otras
normas, su ubicacin puede descender (Lyman, 1991).
Estandarizacin
Bsicamente, la estandarizacin seala que el instrumento de medicin est

organizado de tal manera que es administrado en condiciones estndar, es
decir, igual para todos los momentos de aplicacin, a una muestra
representativa de sujetos, con el propsito de establecer normas (Cohen &
Swerdlik, 1999). Glascoe (1997) afirma que el trmino estandarizacin
significa, idealmente que (1) las instrucciones de administracin y
calificacin han sido probados en estudios de campo y estn establecidos
claramente, pudiendo ser administrados de la misma manera por diferentes
examinadores; (2) que la prueba se ha aplicado a una gran cantidad de
sujetos que han sido extrados representativamente de la poblacin de
inters; y (3), que se ha obtenido un desempeo promedio de los sujetos
de acuerdo a ciertas variables clasificadoras (sexo, regin, estatus
socioeconmico, etc.). La modificacin de alguna parte estandarizada de la
prueba, por lo tanto, introducira una variable de error en el puntaje
obtenido.
Las instrucciones de administracin y calificacin son las guas suficientes

para decidir la flexibilidad o rigurosidad que el examinador usar. Uno
debera cuestionar los resultados obtenidos por una aplicacin en la que se
las instrucciones originales son modificadas, si es que ello no forma parte
de una experimentacin de las modificaciones para algn fin preestablecido.
94
ACTIVIDADES DE AUTOAPRENDIZAJE
1. Elabora un mapa conceptual indicando los principales tipos de

baremos que se pueden utilizar, sealando adems ejemplos de
instrumentos que los utilicen.
2. Elabora un proyecto para elaborar un test psicomtrico. Elabora

los tems. Aplica los mismos a una muestra de 100 personas y
realiza el anlisis de los tems, confiabilidad, validez y
determinacin de baremos tal como indica en el manual.
95
AUTOEVALUACIN 4
1. Cul es el objetivo de la construccin de baremos?
2. Un grupo de 200 personas obtuvo en un test de inteligencia una media

de 14.78 puntos y una desviacin tpica de 3.34. La siguiente tabla
recoge la distribucin de frecuencias de las puntuaciones obtenidas por
los sujetos en el test:
a) Calcule los percentiles correspondientes a cada una de las puntuaciones

directas.
b) Calcule las puntuaciones tpicas, puntuaciones T y D que corresponden a
sujetos con puntuaciones directas de 10 y 21 puntos.
c) Suponiendo que la distribucin se adapta a la distribucin de la curva
normal, que puntuaciones tpicas normalizadas y en las escalas derivadas
(T, D y E) corresponderan a esos mismos sujetos.
a) Si el CI supera el valor de 100 significar que el sujeto tiene una
Inteligencia inferior al promedio de su edad.
b) Si el CI es inferior a 100, significa que el sujeto tiene una inteligencia
normal superior.
c) Cocientes Intelectuales inferiores a 70 indican excepcionalidad
intelectual de tipo cognitivo
d) Cocientes Intelectuales inferiores a 70 indican problemas importantes
de tipo cognitivo
96
a) Los baremos percentiles consisten en asignar a cada posible

puntuacin directa un valor (en una escala de 1 a 100) que se
denomina percentil y que indican la media de sujetos del grupo
normativo que obtienen puntuaciones iguales o superiores a las
correspondientes directas.
b) Si un sujeto obtiene en un cuestionario de autoritarismo le
corresponde el percentil 95, ya conocemos que este sujeto supera en
ese rasgo al 95% de los sujetos utilizados para baremar el test.
c) Los percentiles, representan medidas de posicin en una distribucin
de frecuencias
d) La desventaja de los rangos percentilares es que el puntaje derivado
es ms rpido de entender y ms fcil comunicacin.
5. Es incorrecto en relacin a los baremos

a) Los baremos consisten en asignar a cada posible puntuacin directa un
valor numrico que informa sobre la posicin que ocupa la puntuacin
directa en relacin con los que obtienen las personas que integran el
grupo normativo.
b) La puntuacin directa de una persona en un test no es directamente
rendimiento de las restantes personas que comparten el grupo
normativo.
c) Puntuaciones tpicas pueden ser: estndares, normalizadas, escalas T
y D, eneatipos
d) Baremos cronolgicos no pueden ser: Edad Mental y Cociente
Intelectual.
a) Las Edades Mentales (EM) y los Cocientes Intelectuales (CI) son
baremos percentiles.
b) Si el CI supera el valor de 100 significar que el sujeto tiene una
Inteligencia inferior al promedio de su edad
c) El Cociente Intelectual se denomina as porque es el resultado de
dividir la edad mental entre la edad cronolgica del sujeto
d) En la estimacin del coeficiente intelectual, para evitar decimales el
resultado se divide por 100
7. Los baremos percentiles
a) Son poco adecuados para los anlisis estadsticos, pues no se pueden

emplear operaciones aritmticas entre ellos.
97
b) Pueden interpretarse de una manera inexacta, slo cuando la

distribucin de los puntajes del test sean estrictamente normales
c) Son ms rpido de entender y ms difciles de comunicar
d) Los baremos percentilares pueden interpretarse de una manera
inexacta, slo cuando la distribucin de los puntajes del test sean
estrictamente normales.
a) Los baremos percentiles consisten en asignar a cada posible
puntuacin directa un valor (en una escala de 1 a 100) que se
denomina eneatipo y que indican la media de sujetos del grupo
normativo que obtienen puntuaciones iguales o superiores a las
correspondientes directas.
b) Si un sujeto obtiene en un cuestionario de autoritarismo le
corresponde el percentil 95, ya conocemos que este sujeto supera en
ese rasgo al 5% de los sujetos utilizados para baremar el test.
c) La desventaja de los rangos percentilares es que el puntaje derivado

es ms rpido de entender y ms fcil comunicacin
d) Los percentiles, representan medidas de posicin en una distribucin
de frecuencias
9. Es correcto en relacin a los baremos

a) Los baremos no consisten en asignar a cada posible puntuacin directa
un valor numrico que informa sobre la posicin que ocupa la
puntuacin directa en relacin con los que obtienen las personas que
integran el grupo normativo.
b) Baremos cronolgicos no pueden ser: Edad Mental y Cociente
Intelectual.
c) Puntuaciones tpicas no pueden ser: estndares, normalizadas, escalas
T y D, eneatipos
d) La puntuacin directa de una persona en un test no es directamente
rendimiento de las restantes personas que comparten el grupo
normativo.

a) Las Edades Mentales (EM) y los Cocientes Intelectuales (CI) son
baremos cronolgicos.
b) El Cociente Intelectual se denomina as porque es el resultado de
dividir la edad mental entre la edad cronolgica del sujeto
c) Si el CI supera el valor de 100 significar que el sujeto tiene una
Inteligencia inferior al promedio de su edad
d) En la estimacin del coeficiente intelectual, para evitar decimales el
resultado se multiplica por 100
98
RESPUESTAS
1. La construccin de baremos tiene por objeto poder interpretar

puntuaciones directas de los test en funcin de la posicin relativa que
esas puntuaciones directas tienen en el conjunto de las puntuaciones
obtenidas.
2. a) Los percentiles se muestran en la cuarta fila
b)
c)
3) d. 4) d. 5) d. 6) c. 7) a. 8) d. 9) d. 10) c.
99
EXPLORACIONES ON-LINE
http://www.uniovi.es/UniOvi/Apartados/Departamento/Psicologia/metodos/tut
or.1indice.html
http://www.intestcom.org/
http:/huitoto.udea.edu.co/ceo/Validez02.htm
http:/webpages.ull.es/users/pprieto/escalamiento/escala41.html
http:/www.aera.net/
http:/www.ncme.org/
http:/www.educastur.princast.es/eoep/eonalon/investigacin/inter_m2_fa.pdf
BIBLIOGRAFA
Abad, F., Garrido, J., (2006). Introduccin a la Psicometra. Teora

Olea J. & Ponsoda, V. Clsica de los Test y Teora de Respuesta al Item.
Madrid: Universidad Autnoma de Madrid.
Andreani, O., (1975). Aptitud mental y rendimiento escolar.

Barcelona: Herder.
Angoff, W. H. (1989). Scales, norms, and equivalente scores. En

R. L. Linn (Ed.) Educational measurement, New
York: ACE/Mac Millan.
Cohen, R. J. & Swerdlik, (1999) Psychological testing and assessment: An

M. E. introduction to test and measurement (4th ed.)
Montain View, California: Mayfield Publishing.
Glascoe, F. (1997). A validation study and the psychometric

propierties of the Brigance Screens. North Billera,
Massachusetts: Curriculum Associates.
Lyman, H. (1991). Test scores and what they mean (5th ed.)
USA: Allyn and Bacon.
Merino, C. & Kenny, D. (2003) Revisin de Algunos Conceptos y

Recomendaciones en la Medicin Psicopedaggica.
Revista de Actualidad Pedaggica, 23(55), 51-59.
Sattler, J. M. (1988). Evaluacin del a inteligencia infantil y

habilidades especiales, (2da edicin) Mxico, D.F.:
El Manual Moderno.
100
BIBLIOGRAFA COMENTADA
Magnusson, D. (1972). Teora de los Test. Mxico D.F.: Editorial Trillas.
El propsito fundamental del libro es ofrecer una introduccin coherente,

desde el punto de vista terico y estadstico en: a) la teora bsica de la
medicin de las diferencias individuales; b) los mtodos y la metodologa
aplicados a los problemas de dependencia, y c) para los modelos y mtodos
de uso para emplear los datos de psicologa diferencial en las situaciones
prcticas de la ndole de elaboracin de test, diagnstico, orientacin,
seleccin y clasificacin. La presentacin de cada rea se termina cuando el
propsito del resumen se ha logrado sin suponer que el lector tiene una
preparacin avanzada en estadstica. Se dan sugerencias de lecturas
superiores para viene de quienes deseen hacer un estudio ms avanzado.
101
GLOSARIO
Adaptacin : Proceso que permite que los contenidos de un test

sean acordes al nivel cultural, edad y capacidad de las
personas.
Anlisis Factorial : Tcnica estadstica que examina la estructura interna

de la unidad de medida, mide si los indicadores tienen
algo en comn, es decir si tienen un comn
denominador, mide las correlaciones entre los
indicadores e intenta descubrir si hay algo subyacente.
Los tems deben tener un comn denominador que
debe aflorar estadsticamente. La estructura
subyacente o comn denominador se llama factor
(faceta).
Anlisis de tems : Estudio de las propiedades de los elementos

(preguntas) de un test directamente relacionadas con
las propiedades de ste.
Baremos o tablas : Tabla que sistematiza las medidas que trasmutan los
de normas puntajes directos en puntajes derivados, susceptibles
de interpretacin estadstica.
Coeficiente de : Coeficiente de correlacin entre dos grupos de

Confiabilidad puntajes e indica el grado en que los individuos
mantienen sus posiciones dentro de un grupo. Abarca
valores desde 0 a 1. Cuanto ms se acerque el
coeficiente a 1, ms confiable ser la prueba. El
coeficiente de confiabilidad seala la cuanta en que las
medidas del test estn libres de errores casuales o no
sistemticos. Por ejemplo, un coeficiente de 0.95
quiere decir que en la muestra y condiciones fijadas de
aplicacin del test el 95% de la varianza de los
puntajes directos se debe a la autntica medida, y slo
el 5%, a errores aleatorios.
Confiabilidad : Propiedad mediante la cual un instrumento mide con

exactitud y precisin lo propuesto. Es la cualidad, la
que hace que una misma prueba aplicada dos veces a
la misma persona en circunstancias idnticas,
proporcione similares resultados. La confiabilidad
102
indica si la prueba es constante en las mediciones que

obtiene de una misma persona, registrando
nicamente fluctuaciones de menor importancia.
Constructo : Idea cientfica desarrollada o construido para

describir o explicar el comportamiento.
Cuestionario : Instrumento de recoleccin de datos, integrado por

preguntas que solicitan informacin referida a un
problema, objeto o tema de investigacin, el cual es
normalmente administrado a un grupo de personas.
Este tipo de instrumento es de uso generalizado en los
estudios de naturaleza psicolgica.
Cuestionario de : Cuestionarios en que cada reactivo o pregunta consta

Respuesta de un nmero fijo de escogencias o alternativas de
Cerrada respuestas. En estos casos, se le pide al sujeto marcar
la alternativa de respuesta que considere ms
apropiada o de tipo dicotmicas como si o no;
verdadero o falso.
Cuestionario de : Cuestionarios que adems de presentar diferentes

Respuesta alternativas de posibles respuestas, incluyen, adems,
Semiabierta una alternativa abierta identificada con la palabra:
Otro(a), dejando el espacio correspondiente para
responder.
Cuestionario de : Cuestionarios cuyas respuestas requieren de la

Respuesta Abierta expresin escrita del sujeto, el cual debe elaborar
claramente su respuesta. En estos casos, en lugar de
anticipar posibles alternativas de respuestas, el
investigador simplemente provee un espacio suficiente
para la redaccin de cada respuesta.
Cuestionarios : Cuestionarios integrados por algunas preguntas

Mixtos cerradas o semi-cerradas y por otras abiertas.
Definicin : Manera de especificar el significado de un trmino,

Conceptual como las que figuran en los diccionarios, emplendose
en ella otros trminos que son sinnimos (en mayor o
menor medida) de aqul que se est definiendo.
103
Definicin : Especificacin de las actividades del investigador para

Operacional medir o manipular una variable. Es decir, que dicha
definicin es como un manual de instrucciones para
el investigador, pues le indica cmo debe hacer
determinadas cosas (y qu cosas no debe hacer). En
definitiva, define o da sentido a una variable diciendo
al investigador, palabra por palabra, lo que debe hacer
para medir el constructo.
Dimensin : Distintos aspectos en que puede ser considerado un

concepto o variable, representando as sus
componentes.
Estandarizacin : Procedimiento mediante el cual siempre que se desee

comparar a cierto nmero de personas con respecto a
las calificaciones de una prueba, permite que se les
administre la misma prueba o distintas formas de la
misma.
Indicadores : Definiciones operacionales o componentes de un

modelo tales que: a) Estn relacionados con el
concepto o dimensin que tratan de indicar y, b) son
expresiones cuantitativas. Por ejemplo, el test NEO-PI
cuenta con 5 factores, cada uno dividido en 6
dimensiones. Cada una de estas dimensiones cuenta a
su vez con 8 indicadores o tems.
ndice de : Un tem tiene poder discriminativo si distingue entre

Discriminacin los sujetos que puntan alto y los que puntan bajo en
el test (si permite distinguir entre sujetos eficaces
frente a ineficaces). Indica la capacidad del tem para
distinguir entre los sujetos de mayor conocimiento y
los de menor. Este ndice mide qu tan capaz es un
tem para medir las diferencias individuales; desde el
punto de vista de objetivo evaluado. Proporciona un
indicador bruto del desempeo en cada tem por
separado de los respondientes competentes frente a
los menos competentes.
Medicin : Proceso de asignar nmeros u otros smbolos a los

objetos de tal forma que las propiedades de los
nmeros o smbolos reflejan propiedades del atributo
medido.
104
Nivel Nominal : Nivel de medicin que permite diferenciar conductas y

caractersticas dentro de las variables y asignar a
aquellos nombres categoriales no ordenables.
Nivel Ordinal : Nivel de medicin que requiere que los objetos de un

conjunto puedan ser ordenados con base en alguna
caracterstica o propiedad.
Nivel de Intervalo : Nivel de medicin que posee las caractersticas de las

ordinales pero suponen que las distancias
numricamente iguales en la escala representan
distancias iguales en la propiedad que se mide. Las
distancias entre las categoras o puntos de la escala se
llaman intervalos. Una escala que tiene una distancia
fija entre sus puntos se llama Escala de Intervalos.
Nivel de Razn : Nivel de medicin ideal del cientfico pues permite todo
tipo de clculos matemticos al tener entre sus valores
un cero real, es decir la ausencia de la propiedad que
se est midiendo. Ello hace posible la aplicacin de las
propiedades de la multiplicacin (y la divisin) base de
los nmeros fraccionarios.
Normas : Afirmacin de cmo se ha desempeado una poblacin

de referencia en un test. Tales afirmaciones se
sustentan bsicamente en los clculos estadsticos
realizados en base al rendimiento del grupo normativo.
Percentiles : Expresan en funcin del porcentaje de personas del

grupo normativo, que quedan por debajo de una
puntuacin directa determinada. Un percentil indica la
posicin relativa del individuo en el grupo normativo.
Puntajes : Puntuaciones que se obtienen de los puntajes directos

Derivados del grupo normativo, a travs de procedimientos
estadsticos y que posibilitan la interpretacin
psicomtrica de tales puntuaciones.
Puntajes directos : Puntuaciones que se obtienen directamente de los

o brutos sujetos del grupo normativo.
105
Validez : Criterio de calidad relacionado con la adecuacin de las

puntuaciones del test para el objetivo que suscit su
aplicacin. Un test es vlido si mide lo que pretende.
Se distingue entre validez terica y emprica. La
primera indica lo que el test mide; la segunda, aquello
para lo que sirve. La validez de un test se define ya
sea por medio de la relacin entre sus puntuaciones
con alguna medida de criterio externo, o bien la
extensin con la que la prueba mide un rasgo
subyacente especfico hipottico o constructo.
Validez Muestral : Indica que el test es una muestra adecuada de lo que

aspira a medir; p. ej., los test de conocimientos suelen
elaborarse con elementos que representen el campo y
el nivel de los conocimientos que interesen.
Validez : Indica que el test responde al concepto de lo que se

Conceptual quiere medir. Es de dos tipos: factorial y congruente.
La validez factorial se expresa por el coeficiente del
test en un factor; la validez congruente, por el
conjunto de datos que en investigaciones y con
mtodos diversos concuerdan en mostrar la
consistencia del concepto.
Validez de : Grado en que un procedimiento de medida contempla

Constructo de forma adecuada el constructo terico o rasgo
abstracto que pretende medir y en qu nivel de
hiptesis derivadas del mismo se confirman
empricamente mediante dicho procedimiento.
Variable : Constructos o propiedades estudiadas por los

cientficos que adquieren diferentes valores.
Ejemplos: Coeficiente Intelectual, Perfil de
personalidad, Estado civil.
106

Unidad Iii y Iv PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Unidad Iii y Iv PDF

Încărcat de

Drepturi de autor:

Formate disponibile

TOMS PEDRO PABLO CAYCHO RODRGUEZ

La elaboracin de pruebas psicolgicas requiere de mucha paciencia.

Aaron T. Beck, M.D.

Qu procedimiento se debe emplear para el anlisis de

Identifica las relaciones entre psicologa y las medidas

Provee de validez de constructo a los instrumentos

Obtiene la confiabilidad mediante mtodos apropiados

Asume una actitud cientfica frente a la psicologa.

Leccin I: Anlisis de tems

Leccin II: Confiabilidad. Concepto, caractersticas y aplicaciones

Confiabilidad como estabilidad temporal

Leccin III: Validez. Concepto, caractersticas y aplicaciones

Anlisis Anlisis de la Anlisis de la

Homogeneidad, discriminacin, dificultad, validez, confiabilidad, estabilidad,

Los tems se construyen con la finalidad de medir el constructo, variable, o

Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos

Un elemento aij de esta matriz indica el valor asignado a la respuesta que

El procesamiento de los datos para obtener las caractersticas de los tems,

Distribuir las frecuencias de las puntuaciones totales y de cada sub-test

Este primer indicador sirve para cuantificar el grado de dificultad de cada

Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de

Con estos resultados podemos comprobar varios aspectos de la

- El valor mnimo que puede asumir Dj es 0 (ningn sujeto acierta el

- A medida que Dj se acerca a 0 indica que el tem ha resultado muy

- Dj est relacionado con la varianza de los tems: Si Dj es 0 1, la

Al disear un cuestionario de rendimiento ptimo, al inicio se sitan los

Debido a que la mayora de los tems de las pruebas de ejecucin

Una vez corregida la dificultad es posible jerarquizar los tems desde

La contribucin de caca tems a la consistencia interna del test se evala

Segn la disposicin de la matriz de datos, para obtener los Hj de los

estadsticamente, se averigua el grado de relacin entre dos variables (en

Los coeficientes de correlacin que ms se utilizan para averiguar el

Ejemplo: Supongamos un test formado por 3 tems con formato de

Puede comprobarse que los ndices de homogeneidad de los 3 elementos

El ndice de homogeneidad de un tem nos va a informar del grado en

En ocasiones, un test est formado por diferentes subtest con contenidos

Cuando un test tiene un nmero pequeo de tems, resulta ms

El tamao de los ndices de homogeneidad estadsticamente significativos

gl 0.1 0.05 0.01 0.001 gl 0.1 0.05 0.01 0.001

1 0.988 0.997 1.000 1.000 22 0.344 0.404 0.515 0.629

2 0.900 0.950 0.990 0.999 23 0.337 0.396 0.505 0.618

3 0.805 0.878 0.959 0.991 24 0.330 0.388 0.496 0.607

4 0.729 0.811 0.917 0.974 25 0.323 0.381 0.487 0.597

5 0.669 0.755 0.875 0.951 26 0.317 0.374 0.479 0.588

6 0.622 0.707 0.834 0.925 27 0.312 0.367 0.471 0.579

7 0.582 0.666 0.798 0.898 28 0.306 0.351 0.463 0.570

8 0.549 0.632 0.765 0.872 29 0.301 0.355 0.456 0.562

9 0.521 0.602 0.735 0.847 30 0.296 0.349 0.449 0.554

10 0.497 0.576 0.708 0.823 35 0.275 0.325 0.418 0.519

11 0.476 0.553 0.684 0.801 40 0.275 0.304 0.393 0.490

12 0.458 0.532 0.661 0.780 45 0.243 0.288 0.372 0.465

13 0.441 0.514 0.641 0.760 50 0.231 0.273 0.354 0.443

14 0.426 0.497 0.623 0.742 55 0.220 0.261 0.339 0.425

15 0.412 0.482 0.606 0.725 60 0.211 0.250 0.325 0.408

16 0.400 0.468 0.590 0.708 70 0.195 0.232 0.302 0.380

17 0.369 0.456 0.575 0.693 80 0.183 0.217 0.283 0.357

18 0.378 0.444 0.561 0.679 90 0.173 0.205 0.267 0.338

19 0.369 0.433 0.549 0.665 100 0.164 0.195 0.254 0.321

20 0.360 0.423 0.537 0.652 120 0.150 0.178 0.232 0.294

21 0.352 0.413 0.525 0.640 150 0.134 0.159 0.208 0.264

200 0.116 0.138 0.181 0.230

3. Anlisis del poder de discriminacin

Se separan las pruebas considerando el grupo superior (27%) y el grupo