Sunteți pe pagina 1din 106

TOMS PEDRO PABLO CAYCHO RODRGUEZ

Tercera

UNIDAD
Validacin del Instrumento
Psicomtrico

La elaboracin de pruebas psicolgicas requiere de mucha paciencia.


Los reactivos rara vez pueden redactarse sin sufrir una revisin extensa.
Se realizan numerosas pruebas piloto antes de que surja un instrumento aceptable.
No hay una edicin final de una prueba; siempre aguarda la siguiente versin

Aaron T. Beck, M.D.


Extracto del Test Developer Prrofile publicado en Cohen (1999)
y en internet en www.mayfieldpub.com/psychtesting

Qu procedimiento se debe emplear para el anlisis de


tems?
Qu nos indica la confiabilidad de un test?
Qu nos indica la validez de un test?

1
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Competencias

CONCEPTUALES:

Identifica las relaciones entre psicologa y las medidas


estadsticas.
Define los conceptos pertinentes a las medidas
estadsticas.
Define los conceptos de confiabilidad y validez

PROCEDIMENTALES:

Provee de validez de constructo a los instrumentos


psicomtricos, comprendiendo la relacin entre las
tcnicas estadsticas y la finalidad de los instrumentos
psicolgicos.

Obtiene la confiabilidad mediante mtodos apropiados


a problemas psicomtricos.

ACTITUDINALES:

Asume una actitud cientfica frente a la psicologa.


Valora el proceso de validacin de un instrumento
psicomtrico.
Valora los aportes de las ciencias matemticas y los
mtodos estadsticos.

2
TOMS PEDRO PABLO CAYCHO RODRGUEZ

CONTENIDO TEMTICO

Leccin I: Anlisis de tems

ndice de Dificultad
ndice de Homogeneidad
Anlisis del poder de discriminacin
ndice de Validez
Anlisis de opciones incorrectas de respuestas
Correccin de los efectos del azar
Seleccin de tems para el formato final del test

Leccin II: Confiabilidad. Concepto, caractersticas y aplicaciones

Confiabilidad como estabilidad temporal


Confiabilidad por consistencia interna
Confiabilidad por el mtodo de formas paralelas
Estimacin del error tpico de medida
Factores que afectan la confiabilidad

Leccin III: Validez. Concepto, caractersticas y aplicaciones

Concepto
Validez de contenido
Validez de constructo
Validez Predictiva

3
TOMS PEDRO PABLO CAYCHO RODRGUEZ

ESQUEMA CONCEPTUAL

VALIDACIN DEL
INSTRUMENTO
PSICOMTRICO

Anlisis Anlisis de la Anlisis de la


de tems Confiabilidad Validez

ndice de dificultad
Estabilidad Validez de

Temporal Contenido

ndice de
homogeneidad
Consistencia Validez de
Interna Constructo
ndice de
discriminacin
Formas Paralelas
Validez Predictiva
ndice de validez

ndice de dificultad

CONCEPTOS CLAVES

Homogeneidad, discriminacin, dificultad, validez, confiabilidad, estabilidad,


consistencia interna, contenido, constructo, predictiva
4
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Leccin I

Anlisis de tems1

Los tems se construyen con la finalidad de medir el constructo, variable, o


rasgo que interesa evaluar con el test psicolgico. Ahora bien, el grado en
que cada tem "mide bien" el rasgo de inters es algo que se puede
comprobar estadsticamente de manera sencilla al obtener tres indicadores
para cada tem:

a) El ndice de dificultad.
b) El ndice de homogeneidad.
c) El ndice de validez.

Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos


representativa de la poblacin a la que va dirigida la prueba (se aconseja
entre 5 y 10 veces ms sujetos que tems), y una vez cuantificadas las
respuestas de cada individuo, se forma una matriz de datos de sujetos x
tems:

Tabla 8
Matriz de puntuaciones

tems
1 2 3 n X
Sujeto
1
Sujeto
2
Sujeto
3
.
.
.

Sujeto
N

1
Algunas de las ideas de este acpite se basan en Abad, F., Garrido, J., Olea J. & Ponsoda,
V. (2006). Introduccin a la Psicometra. Teora Clsica de los Test y Teora de Respuesta al
Item. Madrid: Universidad Autnoma de Madrid. Se agradece a los autores por la
deferencia para con el autor, a fin de que sean tomados para dar forma a los captulos de
esta unidad.

5
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Un elemento aij de esta matriz indica el valor asignado a la respuesta que


da el sujeto i al tem j. Sumando por filas podemos obtener las
puntuaciones directas (X) de los sujetos en el total del test. Veamos cmo
se obtienen (y qu sentido tiene su obtencin) los tres ndices citados
anteriormente.

El procesamiento de los datos para obtener las caractersticas de los tems,


implica realizar necesariamente los siguientes tipos de anlisis:

Distribuir las frecuencias de las puntuaciones totales y de cada sub-test


(si es que la prueba los tiene).
Representar de manera grfica (polgonos de frecuencia o histogramas)
las distribuciones de frecuencia de las puntuaciones totales y de cada
sub-test.
Calcular la media, varianza, desviacin estndar, asimetra y kurtosis, de
la distribucin de las puntuaciones totales y de las parciales de cada sub-
test.
Tabular la dificultad de tem y corregirla para evitar el efecto del azar, as
como la proporcin de eleccin de cada uno de los distractores incluidos.
Computar la varianza y desviacin estndar de la puntuacin total y de
las puntuaciones parciales de los que eligieron la respuesta correcta.
Computar el poder discriminativo de cada tem.
Computar el coeficiente de validez de cada tem.

1. ndice de Dificultad

Este primer indicador sirve para cuantificar el grado de dificultad de cada


tem, por lo que slo tiene sentido su clculo para tems de test de
rendimiento ptimo. Indica la proporcin de personas que respondieron
correctamente la pregunta. El ndice de dificultad de un tem j se define
como el cociente entre el n de sujetos que lo han acertado (Aj) y el n
total de sujetos que lo han intentado resolver (Nj)

Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de


una muestra de 10 personas a un test formado por 6 tems dicotmicos
(1 indica acierto y 0 error):

6
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Tabla 9
Matriz de puntuaciones de 10 personas

tems
1 2 3 4 5 6 X
1 0 0 0 1 1 1 3
2 0 1 - 0 - 1 2
3 0 0 1 - 0 1 2
4 0 0 0 - 1 1 2
5 0 1 0 1 - 1 3
6 0 1 - - - 1 2
7 0 0 - 1 1 1 3
Sujetos 8 0 0 1 - 0 - 1
9 0 1 0 - 0 1 2
10 0 1 0 - 0 1 2
0 5 2 3 3 9
Aj
10 10 7 4 7 9
Nj
0 0.5 0.29 0.75 0.43 1
Dj

Con estos resultados podemos comprobar varios aspectos de la


interpretacin de Dj:

- El valor mnimo que puede asumir Dj es 0 (ningn sujeto acierta el


tem) y el valor mximo 1 (todos los sujetos que lo intentan lo
aciertan).

- A medida que Dj se acerca a 0 indica que el tem ha resultado muy


difcil; si se acerca a 1, que ha resultado muy fcil; y si se acerca a 0,5,
que no ha resultado ni fcil ni difcil.

- Dj est relacionado con la varianza de los tems: Si Dj es 0 1, la


varianza es igual a cero; a medida que Dj se acerca a 0,5, la varianza
del tem aumenta. De nada sirve un tem con Dj = 0 o Dj = 1, ya que
no discriminara entre los diferentes sujetos (todos aciertan o todos
fallan).

Al disear un cuestionario de rendimiento ptimo, al inicio se sitan los


tems ms fciles (con mayor Dj); en la parte central, los de dificultad
media (entre 0,30 y 0,70); y al final, los ms difciles (con menor Dj). El
nmero de tems de cada categora de dificultad que deben incluirse en el

7
TOMS PEDRO PABLO CAYCHO RODRGUEZ

test depende de los objetivos que quiera conseguir la persona que disea
el cuestionario. En general, la mayor parte de los tems deben ser de
dificultad media.

Debido a que la mayora de los tems de las pruebas de ejecucin


mxima son de la modalidad de eleccin mltiple, se hace necesario
cuando se estudia su nivel de dificultad corregir su valor, debido a la
probable existencia de la adivinacin al responder. Este procedimiento es
conocido como la correccin para el azar y se calcula a partir de la
siguiente frmula:

R W
P= O1
N
Donde:

P: Dificultad corregida.
R: Nmero de participantes que marcaron correctamente el tem.
W: Nmero de participantes que marcaron incorrectamente el tem.
O: Nmero de alternativas que tiene el tem.
N: Nmero total de participantes evaluados.

Una vez corregida la dificultad es posible jerarquizar los tems desde


los ms fciles hasta los ms difciles como es el caso de las pruebas de
dificultad creciente (Tabla 7).

2. ndice de Homogeneidad

La contribucin de caca tems a la consistencia interna del test se evala


con el ndice de Homogeneidad. El ndice de homogeneidad, llamado a
veces ndice de discriminacin de un tem (Hj) se define como la
correlacin de Pearson entre las puntuaciones de los N sujetos en el tem
j y las puntuaciones X en el total del test:

Hj= rjx

Segn la disposicin de la matriz de datos, para obtener los Hj de los


tems, debemos calcular la correlacin entre las columnas j y la columna
X de puntuaciones directas en la prueba. Recordemos que en la matriz de
puntajes o bases de datos, la columna j (tambin denominada columna
de las x o columna de puntajes directos (PD) seala el puntaje total que
en el test obtiene cada sujeto. Luego, la lgica del procedimiento a seguir
es simple: Si el tem mide lo mismo que el test, entonces debe haber una
correlacin estadsticamente significativa entre la puntuacin del tem y
la puntuacin total que obtiene cada sujeto en el test. Ahora bien,

8
TOMS PEDRO PABLO CAYCHO RODRGUEZ

estadsticamente, se averigua el grado de relacin entre dos variables (en


este caso el tem y el test) utilizando un coeficiente de correlacin.

Los coeficientes de correlacin que ms se utilizan para averiguar el


grado de relacin entre un tem y el test son dos: el coeficiente de
correlacin biserial y el coeficiente de correlacin punto o continuo
biserial. Cada uno de estos coeficientes tiene sus ventajas y desventajas;
as como sus propias frmulas que pueden consultarse en cualquier libro
de psicometra o estadstica aplicada a la psicologa. En este captulo,
como lo dijimos lneas arriba, utilizaremos el coeficiente de correlacin
punto biserial. Este coeficiente es un caso especial del coeficiente
producto momento de Pearson para el caso del tem-test. En
consecuencia, utilizaremos el coeficiente de Pearson.

El coeficiente de Pearson vara entre los siguientes valores: -1, 0, +1; los
tems del pretest demostrarn su homogeneidad o consistencia interna
en la medida en que el valor del coeficiente de correlacin del tem con el
test se acerquen significativamente a +1.

Ejemplo: Supongamos un test formado por 3 tems con formato de


respuesta de categoras ordenadas, que se valoran entre 0 y 5. Despus
de aplicarse a un grupo de 5 sujetos se obtienen los siguientes datos:

Tabla 10
Matriz de puntuaciones

tems
1 2 3 X
1 2 3 5 10
Sujetos 2 3 1 0 4
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7

Puede comprobarse que los ndices de homogeneidad de los 3 elementos


son:

El ndice de homogeneidad de un tem nos va a informar del grado en


que dicho tem est midiendo lo mismo que la prueba globalmente; es
decir, del grado en que contribuye a la homogeneidad o consistencia

9
TOMS PEDRO PABLO CAYCHO RODRGUEZ

interna del test. Los tems con bajos ndices de homogeneidad miden algo
diferente a lo que refleja la prueba en su conjunto. Si con el test se
pretende evaluar un rasgo o constructo unitario, deberan eliminarse los
que tienen un Hj prximo a cero.

En ocasiones, un test est formado por diferentes subtest con contenidos


distintos. En este caso, los Hj deben obtenerse con relacin a las
puntuaciones directas del subtest concreto. Cuando un Hj es negativo y
alto, debemos cuestionar el sistema de cuantificacin de las respuestas
que se ha seguido en ese tem. Si un tem obtiene una correlacin
negativa y alta con el total de la prueba, seguramente es debido a que se
ha cuantificado errneamente el tem (se ha tomado como directo siendo
inverso, o viceversa).

Cuando un test tiene un nmero pequeo de tems, resulta ms


apropiado obtener el ndice de homogeneidad corregido (rj,x-j).
Consiste en correlacionar las puntuaciones en un tem con las
puntuaciones en el total del test despus de restar de este total las
puntuaciones del tem cuyo ndice queremos obtener. En el ejemplo
precedente, el ndice de homogeneidad corregido para el tem 1 ser
0.49, resultado de correlacionar la 1 columna de la tabla (2, 3, 5, 0, 4)
con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3).
Anlogamente, los ndices de homogeneidad corregidos para los tems 2
y 3 son, respectivamente, 0.89 y 0.54. Como resulta lgico suponer, el
Hj corregido de un tem suele ser inferior a su Hj sin corregir.

Una vez obtenidos los ndices de Homogeneidad (Hj) de cada tem con la
frmula r de Pearson, debemos informar si los coeficientes hallados
indican si el tem tiene una correlacin estadsticamente significativa con
el test. Para ello, debemos consultar las tablas de significacin de los
coeficientes r (Tabla 11). En primer lugar, debemos determinar los
grados de libertad (gl); despus el nivel de significacin
(generalmente el de 0.05 o el de 0.01). Para determinar los grados de
libertad se utiliza la frmula: N-2, donde N es el tamao de la muestra y
2 es una constante. En el ejemplo anterior (Tabla 10, matriz de 5 sujetos
y 3 tems), los gl son: 5-2=3; para estos grados de libertad en un nivel
de significacin del 0.05 le corresponde el valor de .0.878 y en un nivel
de significacin de 0.01 el valor es de 0.959. Luego en la tabla 10, los
ndices de homogeneidad de cada tem debe ser iguales o superiores a
0.878 para decir que hay una relacin estadsticamente significativa entre
el tem y el test; y deben ser iguales o superiores a 0.959 para decir que
hay una relacin estadsticamente muy significativa. Si los ndices de
homogeneidad no alcanzan o superan a los valores r de la tabla se dir
que no hay relacin entre el tem y el test, es decir, para efectos del
anlisis, el tem no mide lo mismo que el test.

10
TOMS PEDRO PABLO CAYCHO RODRGUEZ

El tamao de los ndices de homogeneidad estadsticamente significativos


sern elementos de juicio muy importantes al momento de seleccionar
los tems del pretest para la versin final o test.

Tabla 11
Significacin del coeficiente de correlacin de Pearson (Tomado
de Aliaga, 2005, p. 65)

gl 0.1 0.05 0.01 0.001 gl 0.1 0.05 0.01 0.001

1 0.988 0.997 1.000 1.000 22 0.344 0.404 0.515 0.629

2 0.900 0.950 0.990 0.999 23 0.337 0.396 0.505 0.618

3 0.805 0.878 0.959 0.991 24 0.330 0.388 0.496 0.607

4 0.729 0.811 0.917 0.974 25 0.323 0.381 0.487 0.597

5 0.669 0.755 0.875 0.951 26 0.317 0.374 0.479 0.588

6 0.622 0.707 0.834 0.925 27 0.312 0.367 0.471 0.579

7 0.582 0.666 0.798 0.898 28 0.306 0.351 0.463 0.570

8 0.549 0.632 0.765 0.872 29 0.301 0.355 0.456 0.562

9 0.521 0.602 0.735 0.847 30 0.296 0.349 0.449 0.554

10 0.497 0.576 0.708 0.823 35 0.275 0.325 0.418 0.519

11 0.476 0.553 0.684 0.801 40 0.275 0.304 0.393 0.490

12 0.458 0.532 0.661 0.780 45 0.243 0.288 0.372 0.465

13 0.441 0.514 0.641 0.760 50 0.231 0.273 0.354 0.443

14 0.426 0.497 0.623 0.742 55 0.220 0.261 0.339 0.425

15 0.412 0.482 0.606 0.725 60 0.211 0.250 0.325 0.408

16 0.400 0.468 0.590 0.708 70 0.195 0.232 0.302 0.380

17 0.369 0.456 0.575 0.693 80 0.183 0.217 0.283 0.357

18 0.378 0.444 0.561 0.679 90 0.173 0.205 0.267 0.338

19 0.369 0.433 0.549 0.665 100 0.164 0.195 0.254 0.321

20 0.360 0.423 0.537 0.652 120 0.150 0.178 0.232 0.294

21 0.352 0.413 0.525 0.640 150 0.134 0.159 0.208 0.264

200 0.116 0.138 0.181 0.230

11
TOMS PEDRO PABLO CAYCHO RODRGUEZ

3. Anlisis del poder de discriminacin

De acuerdo con Delgado, Escurra & Torres (2006) aqu se trata de medir
el grado con el cual el tem es capaz de establecer diferencias entre las
personas con niveles altos y bajos de una habilidad, aptitud o
conocimiento que est siendo evaluado.

Se separan las pruebas considerando el grupo superior (27%) y el grupo


inferior (27%), luego se obtiene separadamente para cada tem el
porcentaje de participantes que responden correctamente, ambos datos
se restan y el resultado final es la discriminacin que tiene cada tem
(Cortada, 1999). Su frmula es la siguiente:

Disc.= GS GI

Donde:

GS: % del grupo superior que contest correctamente el tem.

GI: % del grupo inferior que contest correctamente el tem.

El valor obtenido debe ser positivo y para aceptar el tem debe ser igual o
mayor a 0.30

Tabla 12
Clasificacin de la discriminacin de los tems (Tomado de
Delgado, Escurra & Torres, 2006, p. 65)

CLASIFICACIN DISCRIMINACIN
MUY BUENA DISCRIMINACIN De 0.40 a 0.99
DISCRIMINACIN ACEPTABLE De 0.30 a 0.39
DISCRIMINACIN INTERMEDIA De 0.20 a 0.29
DISCRIMINACIN INACEPTABLE De 0.05 a 0.19

4. ndice de Validez

El ndice de validez puede calcularse una vez que se conocen los


siguientes dos estadsticos:

La desviacin estndar de la puntuacin del tem.


La correlacin entre la puntuacin del tem y una puntuacin
criterio.

La correlacin entre la puntuacin en el tem 1 y una puntuacin en la


medida criterio se multiplica por la desviacin estndar de la puntuacin
del tem 1. El producto es igual a un ndice de la validez de un tem.

12
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Las puntuaciones de los N sujetos en un tem j pueden correlacionarse


tambin con las que estos sujetos obtienen en un criterio de validacin
externo al test (Y); esta correlacin define el ndice de validez del tem j:

Vj= rjy
El criterio de validacin "Y" es una medida diferente del test para reflejar
el mismo rasgo u otro muy relacionado, de tal manera que si el test mide
lo que se pretende, debera correlacionar de forma elevada con el
criterio. Por ejemplo, un criterio para validar un test de inteligencia
verbal puede ser otro test que incluye cuestiones verbales; los
supervisores de unos trabajadores podran valorar el grado de motivacin
de cada uno y utilizar estas valoraciones como el criterio de validacin de
un test de motivacin laboral; el total de ventas en pesetas que realizan
los vendedores puede ser un buen criterio para validar un test de aptitud
para la venta.

Supongamos que partimos de los datos del ejemplo precedente, y que


conocemos las puntuaciones directas de las 5 personas en un criterio Y:

Sujeto : 1 2 3 4 5

Y: 5 3 6 0 6

Los ndices de validez de los tres tems sern:

V1= r1Y = 0,87


V2= r2Y = 0,88
V3= r3Y = 0,54

Los elementos que tengan una correlacin con el criterio prxima a cero
deberan eliminarse de la prueba, en la medida que no contribuyen a
evaluar el rasgo que se pretende medir. Si lo que se pretende es
seleccionar los tems que ms contribuyen a la validez del cuestionario,
de entre los tems de igual varianza, seran preferibles los que tienen alto
Vj y bajo Hj. El clculo del ndice de validez del tem ser importante
cuando la meta es maximizar la validez de la prueba relacionada con un
criterio.

5. Seleccin de tems para el formato final del test

1. Se seleccionar los tems del pretest por sus ndices de homogeneidad


estadsticamente significativos.

13
TOMS PEDRO PABLO CAYCHO RODRGUEZ

2. Se agrupar los tems por sus valores p (el nmero de tems en


porcentajes para cada franja de valores p aparece en la tabla
anterior).

3. Se reordenar los tems de acuerdo a sus valores p, colocando en


primer lugar al del valor p ms cercano a 1 y as sucesivamente en
forma descendente hasta el ltimo, que ser el valor p ms cercano
a 0.

Antes de la elaboracin de la versin final del test, siempre se debe hacer


una ltima inspeccin de los tems seleccionados para descartar cualquier
falla en su redaccin o en su presentacin, de tal modo que el test sea
ptimo en todos los aspectos.

14
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Leccin II

Confiabilidad
Concepto, caractersticas y aplicaciones

Siguiendo a Abad, Garrido, Olea & Ponsoda (2006), la idea fundamental de


la teora de la confiabilidad, segn la teora clsica de los test (TCT), se
basa en el supuesto que el puntaje emprico obtenido por un individuo en el
test, est compuesto por un puntaje verdadero ms un puntaje de error. El
modelo expresa que el puntaje emprico X es una funcin lineal de la
puntuacin verdadera, ms el error de medida. El puntaje verdadero se
puede definir como la calificacin obtenida por una persona en el caso de
que un instrumento de medicin efectuara sus mediciones sin error (Brown,
1980).

X=V+E (1)

Esta definicin peca de circular siendo el mejor definir el puntaje verdadero


como la media aritmtica de los puntajes empricos que se obtendra de
aplicar un mismo test infinitas veces al mismo sujeto, bajo las mismas
condiciones y asumiendo que no se contaminarn por efecto de las prcticas
sucesivas ni por variaciones del individuo.

Se entiende por confiabilidad el grado de estabilidad, precisin o


consistencia que manifiesta el test como instrumento de medicin de un
rasgo determinado. Si un herrero mide varias veces con una cinta mtrica
la longitud de una barra de hierro, siempre obtendr la misma medicin,
debido a que tanto la cinta mtrica como la barra permanecen invariantes.
Ahora bien, cuando empleamos un test para medir un rasgo psicosocial
determinado, puede ocurrir que ni uno ni otro permanezcan invariantes de
una situacin a otra; anlogamente, sera como disponer de una cinta
mtrica elstica y de una barra de hierro sometida a diferentes
temperaturas (y, por lo tanto, ms o menos dilatada). Es labor de la
psicometra establecer en cada caso el grado de estabilidad del instrumento
de medicin.

Hasta el momento, el modelo clsico de puntuacin verdadera y el


planteamiento de la confiabilidad como correlacin entre formas paralelas,
se han establecido en trminos paramtricos; es decir, suponiendo
conocidos los datos de la poblacin de referencia. Lo real es que en la
prctica vamos a disponer de datos obtenidos en una muestra o grupo
normativo concreto. Esto significa que, de modo directo, nicamente vamos

15
TOMS PEDRO PABLO CAYCHO RODRGUEZ

a disponer de las puntuaciones empricas de dicha muestra, a partir de las


cuales podemos obtener los estadsticos que sean oportunos.

El concepto de confiabilidad lleva implcita la idea de que los puntajes


empricos estn afectados por fuentes de error. Aunque los errores son
muchos y variados, debe sealarse que en el estudio de la confiabilidad
interesan los errores aleatorios o accidentales, producidos despus de
eliminarse las fuentes de error susceptibles de control. En los puntajes de
error de medicin no se incluyen los errores constantes. De hecho, en la
construccin de un test se busca minimizar los errores atribuirles a la
prueba.

El puntaje de error de medida puede determinarse a partir de la ecuacin


(1) y se define como la diferencia entre el puntaje emprico (X) y el puntaje
verdadero (V):

E= X V (2)

Puesto que cualquier puntaje emprico puede descomponerse en dos partes,


en un puntaje verdadero y en un puntaje de error, del mismo modo puede
representarse la varianza de una prueba

S 2 x = S2 v + S 2 e (3)

Esto significa que la varianza total (S2x) de los puntajes, est integrada por
la varianza de los puntajes verdaderos (S2v) ms la varianza de los puntajes
de error (S2e ). Es de suponer que los puntajes verdaderos y los puntajes de
error son independientes, no estn correlacionados, su correlacin es cero.
Entonces podemos escribir la confiabilidad en los siguientes trminos, como
la proporcin entre la varianza verdadera y la varianza total.

En suma, la confiabilidad se refiere al grado de varianza de las mediciones


atribuibles a las fuentes de error. Esto significa que cuando la porcin de la
varianza de error es baja, el coeficiente de confiabilidad ser alto. Un
coeficiente de confiabilidad de 0.95 indicar que el 95% de la varianza de
los puntajes de un test corresponden a la varianza verdadera y el 5% a la
varianza de error.

En la prctica, la estimacin del coeficiente de confiabilidad no se realiza


empleando las ecuaciones anteriores. Ms bien, se han ideado numerosas
frmulas que permiten determinar los diversos conceptos referentes a la
confiabilidad. Tradicionalmente, la confiabilidad de un test puede
entenderse de tres maneras diferentes:

a) Aludiendo a la estabilidad temporal de las medidas que proporciona.

16
TOMS PEDRO PABLO CAYCHO RODRGUEZ

b) Haciendo referencia al grado en que diferentes partes del test miden un


rasgo de manera consistente.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.

1. Confiabilidad como estabilidad temporal

Si disponemos de las puntuaciones de N personas en un test y, despus


de transcurrido un tiempo, volvemos a medir a las mismas personas en el
mismo test, cabe suponer que siendo el test altamente fiable,
deberamos obtener una correlacin de Pearson elevada entre ambos
mediciones. Dicha correlacin entre la evaluacin test y la evaluacin
retest (rxx) se denomina coeficiente de confiabilidad test-retest, e
indicar mayor estabilidad temporal de la prueba cuanto ms cercano a
uno sea. Este modo de operar se desprende directamente del modelo
lineal clsico, segn el cul se define la fiabilidad como la correlacin
entre las puntuaciones empricas en dos formas paralelas, ya que no
existe mayor grado de paralelismo entre dos tests que cuando en
realidad es uno aplicado dos veces.

Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un


cuestionario de hbitos de estudio. Transcurridos dos meses, se vuelve a
aplicar el mismo test a las mismas personas bajo las mismas condiciones.
Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:

Tabla 14
Matriz de respuestas a un cuestionario de hbitos de
estudio

Persona Test Retest


1 16 10
2 14 14
3 12 8
4 11 12
5 10 10
6 8 8
7 8 7
8 6 5
9 4 4
10 1 2

Para obtener el coeficiente de fiabilidad test-retest basta con


correlacionar los datos de las dos ltimas columnas:

rxx = 0.87

17
TOMS PEDRO PABLO CAYCHO RODRGUEZ

En este caso se obtiene una elevada estabilidad de las puntuaciones. Si


los niveles de rasgo (hbitos de estudio) de las personas no han variado
a lo largo de los dos meses transcurridos entre las dos aplicaciones,
podemos decir que el test proporciona bastantes garantas respecto a la
precisin con la que mide, dado que una persona concreta obtiene
puntuaciones muy parecidas (o similares) en las dos aplicaciones.

Ms concretamente, y haciendo uso del teorema demostrado en el tema


anterior, podemos interpretar que el 87 % de la varianza emprica se
debe a la variabilidad de las personas a nivel de puntuaciones
verdaderas.

Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de


medida es un rasgo estable (pruebas de inteligencia general, aptitudes,
rasgos de personalidad, etc.) dado que, de lo contrario, no se podra
discernir entre la inestabilidad debida al rasgo de la causada por el
instrumento de medicin. Es aconsejable dejar periodos largos entre la
evaluacin test y la retest cuando los tems y las respuestas pueden
memorizarse con facilidad; de lo contrario, los sujetos podran emitir
pautas de respuesta similares en las dos aplicaciones del test nicamente
por efectos del recuerdo y del deseo de responder de manera
congruente, con lo que rxx se incrementara debido a factores ajenos a la
fiabilidad de la prueba.

Debe tenerse en cuenta, sin embargo, que cuanto mayor es el intervalo


temporal que se deja entre ambas aplicaciones, mayor es la posibilidad
de que las puntuaciones de los sujetos oscilen diferencialmente debido a
factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto
en el decremento de la correlacin entre las puntuaciones del test y del
retest.

2. Confiabilidad por consistencia interna

La precisin o confiabilidad de un test se puede entender tambin como


el grado en que diferentes subconjuntos de tems miden un rasgo o
comportamiento homogneo; es decir, el grado en que covaran,
correlacionan o son consistentes entre s diferentes partes del
cuestionario. Lo ms usual es obtener la consistencia entre dos mitades
del test (mtodo de dos mitades) o entre tantas partes como elementos
tenga la prueba (consistencia interna).

2.1 Mtodo de dos mitades

Este procedimiento consiste en dividir el test en dos mitades


equivalentes (normalmente una con los elementos pares y otra con

18
TOMS PEDRO PABLO CAYCHO RODRGUEZ

los impares). Para cada sujeto se obtiene la puntuacin directa en


ambas mitades. Disponemos entonces de dos variables (P e I), cuya
correlacin de Pearson (rPI) indica su grado de relacin.

Si la mitad par e impar fueran entre s formas paralelas (ya sabemos


cmo comprobarlo estadsticamente), la correlacin entre ambas
sera una medida de la fiabilidad de cada una de ellas. Ahora bien,
cuando hemos deducido la frmula general de Spearman-Brown
hemos visto que los test ms largos (con ms tems) suelen ser ms
fiables, por lo que rPI estar subestimando el coeficiente de fiabilidad
del test total en la medida que P e I son variables extradas de la
mitad de tems que tiene el test. Para superar este problema, y as
obtener el coeficiente de fiabilidad del test completo, debemos aplicar
la frmula de Spearman-Brown, considerando ahora que estamos
trabajando con datos muestrales, y haciendo n = 2 ya que el test
completo tiene el doble de tems que cualquiera de sus mitades:

A partir de esta frmula podemos comprobar que el coeficiente de


fiabilidad, entendido como la expresin de la consistencia entre dos
mitades, es mayor que la correlacin de Pearson entre ambas
mitades.

Ejemplo: Supongamos que la siguiente tabla refleja los resultados de


una muestra de 10 personas que responden a un cuestionario de 6
tems valorados de forma dicotmica:

Tabla 15
Resultados de respuesta a un cuestionario de 6 tems

19
TOMS PEDRO PABLO CAYCHO RODRGUEZ

En este caso se obtiene que rPI = 0.34, y por tanto:

De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir


que las dos mitades del test no son muy consistentes entre s.
nicamente un 51 % de la varianza de las puntuaciones empricas se
debe a la varianza de las puntuaciones verdaderas. No podramos
afirmar con suficiente certeza que ambas mitades miden con
precisin el rasgo de inters.

La razn de dividir el test en la mitad par y la impar es garantizar su


equivalencia. Los test de rendimiento ptimo suelen tener tems
ordenados en dificultad, de tal forma que se comienza a responder
los tems ms fciles hasta llegar a los situados al final del test, que
son los ms difciles. Si realizsemos la particin en dos mitades
atendiendo a su disposicin en la prueba (la primera mitad formada
por los primeros n/2 tems, la segunda por los n/2 tems ltimos)
difcilmente podra cumplirse que ambas tuvieran la misma media.

1.2 Coeficiente Alfa de Cronbach

En el tema precedente vimos que si los k tems de un test fueran


paralelos, el coeficiente de confiabilidad del test podra obtenerse
aplicando la frmula general de Spearman-Brown:

siendo k el n de tems del test y jl la correlacin de Pearson entre


cualquier par de tems. Expresada la frmula anterior para datos
muestrales, quedara como:

Una frmula equivalente a la anterior; es decir, que proporciona


exactamente el mismo resultado, es el denominado coeficiente de
Cronbach:

20
TOMS PEDRO PABLO CAYCHO RODRGUEZ

donde k es el n de tems

S2j es la suma de las varianzas de los tems y S2x es la varianza del


test

Dado que las puntuaciones en el test son la suma de las puntuaciones


en los tems, la varianza del test puede expresarse como:

por lo que la expresin inicial puede quedar como:

Esta frmula reproduce el coeficiente de confiabilidad del test si todos


los tems son paralelos. En la prctica, es muy difcil que esto se
produzca pero, sin embargo, tiene sentido su aplicacin para
establecer el grado en que los diferentes tems estn midiendo una
nica dimensin o rasgo. Podemos observar en la ltima expresin
que depende del grado de covariacin de los tems: tendr un valor
alto (cercano a 1) cuando los tems covaren fuertemente entre s;
asumir valores cercanos a cero si los tems son linealmente
independientes (si covaran de forma escasa). Matemticamente,
puede asumir valores negativos.

Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad


si, como ocurre en la prctica totalidad de los test, los tems no son
paralelos. Suele considerarse una "estimacin por defecto" del
coeficiente de fiabilidad, lo que significa que es igual al coeficiente (si
los tems son paralelos) o menor (cuando no lo son). Debe
interpretarse como un indicador del grado de covariacin entre los
tems, y es aconsejable complementarlo con otras tcnicas
estadsticas (por ejemplo Anlisis Factorial) antes de interpretarlo
como una medida de unidimensionalidad.

Ejemplo:

21
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Tabla 16
Matriz de puntuaciones para el anlisis del coeficiente de
confiabilidad de Cronbach

En este caso, el coeficiente obtenido representa un valor medio,


que nos indica que no existe un elevado grado de covariacin entre
los tems. No podemos afirmar con rotundidad que este test mide un
rasgo unitario.

El coeficiente puede obtenerse tambin entre diferentes grupos de


tems (subtest). En ese caso, k ser el nmero de subtests y S2j la
suma de las varianzas de los subtests. Un coeficiente bajo indicar
que los diferentes subtests miden rasgos o constructos diferentes.

2. Confiabilidad por el mtodo de formas paralelas

A veces, por razones de ndole prctica o investigadora, se disea un test


y una segunda versin del mismo, denominada forma paralela, que
intenta evaluar o medir lo mismo que el test original pero con diferentes
tems. Como ya hemos explicado, dos versiones o formas se consideran
paralelas si, aplicadas a una misma muestra de personas, obtienen
medias y varianzas probabilsticamente similares.

La correlacin de Pearson entre las puntuaciones obtenidas en una


misma muestra en dos formas paralelas se considera el coeficiente de
fiabilidad de cualquiera de ellas, e indicar el grado en que pueden
considerarse equivalentes.

22
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Ejemplo:

Tabla 17
Matriz de puntuaciones para el anlisis de la Confiabilidad
por el mtodo de formas paralelas

Sujetos Forma 1 Forma 2

1 1 4

2 14 12

3 11 13

4 11 19

5 10 12

Medias 9.4 10

Varianzas 19.44 10.8

Varianzas (ins.) 24.3 13.5

No es comn disear una forma paralela de un test para obtener datos


sobre su fiabilidad. Cuando se disean (tarea por otra parte difcil) es
porque van a utilizarse en determinados trabajos que requieren 2
aplicaciones sucesivas de un test que se puede recordar con facilidad. Por
ejemplo, para evaluar la eficacia de ciertos programas cortos de
enriquecimiento cognitivo o motivacional, conviene utilizar antes y
despus del entrenamiento pruebas equivalentes aunque con contenidos
diferentes (formas paralelas) para evitar los efectos del recuerdo.

3. Estimacin del error tpico de medida

El coeficiente de confiabilidad no da una indicacin directa de la cantidad


de variabilidad (error) que se espera en las puntuaciones de un individuo
en una medicin. Esta indicacin la da el error tpico de medida.

Asumiendo el postulado fundamental del modelo clsico, que expresa la


relacin:

X=V+E

23
TOMS PEDRO PABLO CAYCHO RODRGUEZ

es fcil demostrar que se cumple la siguiente relacin para datos


muestrales:

Sx2 = Sv2 + Se2

A la desviacin tpica de los errores de medida (Se) se denomina error


tpico de medida. En cierta manera, el Se representa tambin una medida
de precisin: cuanto ms cercano a cero sea el error tpico de medida de
un test, eso significar que dicho test proporciona a cada persona una
puntuacin X cercana a su nivel de rasgo V.

En trminos paramtricos, habamos demostrado en el tema anterior


que:

Para datos muestrales, la expresin anterior queda establecida como:

De donde se deduce que el error tpico de medida puede obtenerse a


partir de la expresin:

Sx= desviacin estndar de la distribucin de puntajes


directos del test en la muestra estudiada.

1= constante

rxx= coeficiente de confiabilidad

El error de medida permite, a su vez, precisar un rango de puntaje que


abarca a la puntuacin verdadera del sujeto. Este rango se denomina
intervalo de confianza. Los niveles de confianza son principalmente dos:
el de 68% y del 95%.

24
TOMS PEDRO PABLO CAYCHO RODRGUEZ

4. Factores que afectan la confiabilidad de un test 2

Segn Hogan (2004), la confiabilidad se relaciona con la consistencia de


las puntuaciones en la medicin al margen de lo que mida el instrumento,
y en este sentido parece coincidir con Muiz (1994), quien indica que la
confiabilidad o fiabilidad se refiere a la estabilidad de las mediciones
cuando no existan razones tericas o empricas para suponer que la
variable a medir haya sido modificada diferencialmente para los sujetos,
por lo que esta estabilidad es asumida como tal, mientras no se
demuestre lo contrario.

En una definicin ms tcnica, Cohen y Swerdlick (2001), sealan que la


confiabilidad es la proporcin de la varianza total atribuida a la varianza
verdadera, y en consecuencia, entre mayor sea la proporcin de la
varianza total atribuida a la varianza verdadera, la prueba ser ms
confiable. Entonces, parafraseando a Kerlinger y Lee (2002) se puede
definir a la confiabilidad como la ausencia relativa de errores de medicin
en un instrumento de medicin.

Es por tal motivo, que al incrementar la proporcin de la varianza de


error, exista menor confiabilidad. De acuerdo con este enfoque, la
confiabilidad de un test puede expresarse en trminos del
Coeficiente de confiabilidad, es decir, la correlacin entre dos
mediciones obtenidas de la misma forma, y en funcin del error
estndar de la medicin (Alarcn, 2008).

De esta manera, se observa que la confiabilidad suele estar


definida en trminos de constancia temporal, es decir si existe o no
cierta variabilidad que d indicios de estabilidad en una serie de
aplicaciones de la prueba; y en su estructura interna, o sea, si se
encuentra que los reactivos que conforman la prueba son consistentes
entre s, y por lo tanto miden un mismo rasgo, habilidad o variable con
precisin y de forma consistente.

Tomando en cuenta tales definiciones de la confiabilidad,


planteadas en prrafos anteriores, es necesario mencionar ciertos
factores que la afectan, ocasionando que sta sea mnima o mxima, de
acuerdo a los estndares permitidos, para considerar a un instrumento
de medida o un test con una buena precisin.

2 Seccin redactado por el Lic. Christian Jibaja. Presidente del Crculo de investigacin y
Desarrollo de Instrumentos Psicomtricos CIDIPSI, al cual se le agradece su
colaboracin.

25
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Por lo tanto, la presente revisin terica expondr e intentar explicitar


todos aquellos aspectos implicados a la problemtica de la confiabilidad,
pasando por su estimador principal de medida e interpretacin, as
como, aquellos procedimientos que permitirn resolver los mnimos
grados de confiabilidad de un instrumento psicomtrico, hasta alcanzar
un mayor nivel de precisin en la medicin y coadyuven a manifestar
que el instrumento utilizado puede ser fiable para una rplica posible y
futura medicin en lo sucesivo de las aplicaciones; todo esto segn el
marco referencial de la Teora Clsica de los Test (TCT).

5.1. Factores que Afectan a la Confiablidad.

Son diversas fuentes que afectan la confiabilidad. En tal sentido,


haciendo una revisin en la literatura se ha podido destacar, tres
principales factores que tienen impacto sobre la confiabilidad de una
prueba psicolgica o educativa. Estos factores son las que provienen
de caractersticas naturales del test, la variabilidad de la muestra y
la longitud de la prueba. De esta forma, se pasar a exponer y
detallar cada uno de estos factores propuestos.

5.1.1. Caractersticas Naturales del Test.

La naturaleza de una prueba (o test psicolgico) hace referencia


a las caractersticas propias del test, aqu se incluyen
consideraciones como si los reactivos de una prueba son de
naturaleza homognea o heterognea; si la capacidad, rasgo
o caracterstica que se est midiendo es dinmica o esttica; si
el rango de puntuaciones de la prueba est restringido o no, si
la prueba es de velocidad o de poder; y si la prueba se lleva
cabo con referencia a algn criterio o no (Cohen y Swerdlik,
2001), las mismas que suelen afectar la confiabilidad. A
continuacin, se pasar a detallar cada una de estas
consideraciones:

a) Homogeneidad contra heterogeneidad de los reactivos


de la prueba sobre la medida de una variable.

Esta consideracin seala que si la prueba es homognea en


sus reactivos, sera necesario esperar un alto grado de
consistencia interna y por lo tanto, confiabilidad. Esto se
debe a que los reactivos deben guardar una relacin en
conjunto con la variable o factor que se est midiendo, como
una habilidad, capacidad, rasgo o caracterstica.

26
TOMS PEDRO PABLO CAYCHO RODRGUEZ

b) Caractersticas Dinmicas versus las Estticas de la


variable a medir.

Al obtener una estimacin de la confiabilidad, se tiene que


tener en cuenta las implicancias de las caractersticas
dinmicas que pueden influir en la confiabilidad de un
test, ya que estas se dan en funcin de las
experiencias situacionales y cognoscitivas que afrontan los
sujetos. Es as que si se aplicara una prueba de ansiedad
estado a una persona que trabaja de cajero en un banco a lo
largo de un da atareado, un podra encontrar como esta
caracterstica cambia de una hora a otra; as que la mejor
estimacin de la confiabilidad podra obtenerse a partir de
una medida de consistencia interna, debido a que la medida
de la ansiedad estado suele ser una caracterstica que
puede cambiar continuamente. Sin embargo, existen otras
variables o caractersticas como por ejemplo, la inteligencia
en la que su naturaleza tiende a ser esttica o inmutable, y
en este caso sera necesario utilizar mtodos de prueba y
postprueba o el mtodo de formas alternas, ya que no se
esperara que la medicin vare en funcin al tiempo.

c) Restriccin o Inflacin del rango de varianza.

Este criterio, seala la importancia de la varianza y los


rangos de varianza en referencia a la interpretacin del
coeficiente de confiabilidad.

Si la varianza de cualquier variable en el anlisis de


correlaciones es restringida por el procedimiento de muestreo
usado, entonces el coeficiente de confiabilidad resultante
tiende a ser menor, de lo contrario si la varianza es inflada
por el procedimiento de muestreo usado, entonces la
confiabilidad ser mayor (Esto se ampliar mejor ms
adelante en la variabilidad de las muestras). Asimismo, es
importante considerar, si el rango de las varianzas
empleadas es apropiado para el objetivo del anlisis
correlacional, sea para cualquier medida de comparacin de
un sujeto conforme a una evaluacin grupal.

27
TOMS PEDRO PABLO CAYCHO RODRGUEZ

d) Segn el tipo de Prueba: Pruebas de Velocidad frente a


Pruebas de Poder.

Una prueba de Velocidad es aquella prueba que por lo


general posee reactivos de nivel de dificultad uniforme, de
modo que cuando se dan lmites de tiempo, todos los que
responden a la prueba, serian capaces de completar la
totalidad de los reactivos de la prueba en forma correcta. No
obstante, cuando de manera prctica se establece un lmite
de tiempo en una prueba de velocidad, quienes logran
responder a la prueba sern capaces de completar la prueba
en su totalidad. La estimacin de la confiabilidad en este tipo
de pruebas va hacia la demostracin de la consistencia de
velocidad de respuesta y en tal sentido la confiabilidad en
este tipo de pruebas, no debe calcularse a partir de una sola
aplicacin con un lmite de tiempo nico, sino tiene que
hacerse en dos periodos.

El calcular la confiabilidad mediante mtodos de una sola


aplicacin, como los de la consistencia interna, se obtendra
un coeficiente de confiabilidad alto, pero falso.

En contraste a lo mencionado existen las pruebas de Poder,


que son aquellas que presentan un lmite de tiempo bastante
largo, en donde a diferencia de la prueba de velocidad,
aqu se es capaz de obtener un puntuacin perfecta.

e) Pruebas con base a un Criterio.

Las pruebas con base a un criterio estn diseadas para


proporcionar un indicio de la posicin de quien las responde
como un objetivo educativo o vocacional. Las puntuaciones
de este tipo de prueba tienden a interpretar el desempeo
individual en funcin de aprobar o reprobar, y cualquier
resultado tiende a darse con propsitos de diagnstico.

Una medida de confiablidad depende de la variabilidad de las


puntuaciones de la prueba, es decir lo diferentes que son las
puntuaciones entre s, a causa de las diferencias
individuales. Sin embargo, lo determinante en una prueba
en base al criterio, no corresponde a las puntuaciones de la
prueba, sino a si se ha obtenido alguna puntuacin
criterio que indique la clasificacin de los individuos en base a
un objetivo.

28
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Dado que la confiabilidad, no slo depende de las


caractersticas propias de un test, y adems suele
expresarse segn el coeficiente de correlacin, tambin
existen otros dos factores que pueden influir en los datos de
confiabilidad. Por lo tanto, se plantean estos importantes
factores para tomarlos en consideracin.

5.1.2. Variabilidad de las Muestras.

Segn la Teora Clsica de los Test (TCT), un instrumento de


medicin (test psicolgico o educativo) se describe en funcin
de los objetos medidos. Entonces, la confiabilidad de un test
depende del tipo de muestra de sujetos utilizados para
calcularla (Muiz, 1994).

Uno de los aspectos de la muestra que influye en la


confiabilidad es su variabilidad. Se ha mencionado que la
confiabilidad est estimada por el coeficiente de confiablidad,
por lo tanto, este puede aumentar, al incrementarse la
variabilidad de la muestra (muestra ms heterognea). Esto
se debe a que el coeficiente de confiabilidad est definido como
la correlacin de entre dos formas paralelas de un test y esta
correlacin viene afectada por la variabilidad del grupo,
aumentando con sta. En otras palabras, un test no posee un
coeficiente de confiabilidad fijo, ya que depende de la
variabilidad de la muestra en la que se calcule.

Una frmula que permite estimar este aumento de la


variabilidad y por ende de la confiabilidad, es aquella que surge
de la varianza de los errores de medida. Se dice que la frmula
es apropiada si se cumple el supuesto que se basa en que la
varianza de los errores de medida en el test es la misma en
ambas poblaciones; o cual es la menos o ms variable. Cabe
resaltar que la varianza siempre est definida como un ndice
de variabilidad. A continuacin se presenta el error tpico de
medida:

e x 1 rxx
Al comparar dos grupos, obtenemos:

( e 1) 2 = ( e 2) 2; ( e 1) 2 > ( e 2) 2 ( e 1) 2 < ( e 2) 2

29
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Donde:
e : Error tpico de medida.
x : Desviacin estndar emprica.
rxx : Coeficiente de confiabilidad en la poblacin.
( e 1)2: Varianza de error de medida en una poblacin.
( e 2)2: Varianza de error de medida en otra poblacin.

Por lo tanto, mientras mayor sea la varianza de las


puntuaciones de un test o prueba psicolgica y/o educativa que
refleje una muestra, mayor ser el coeficiente de confiabilidad
encontrado.

5.1.3. Longitud del Test.

La longitud de una test hace referencia al nmero de reactivos o


tems que posee un test. En este sentido, la Confiabilidad
tambin depende de esta longitud del test, y se basa en una
lgica que se refiere que cuando se incluyen ms tems o
reactivos en una prueba, ms aspectos de la variable o rasgo a
medir se podrn evaluar, evidenciando as, un incremento en la
posibilidad de poseer un mayor coeficiente de confiabilidad.

La frmula de Spearman-Brown, permite explicar este


supuesto, debido a que estima el coeficiente de confiabilidad de
un test en funcin del aumento de la longitud de ste. Es decir,
la frmula de Spearman Brown, se traduce, por ejemplo, en si
tenemos un test A y se aumenta su longitud n veces a base
de tems o reactivos paralelos a los originales, se obtendr la
confiabilidad del nuevo test alargado. A continuacin se
presenta la frmula de Spearman Brown:

nrxx '
rXX
1 ( n 1) rxx '

Donde:

rXX : Confiabilidad del test alargado.


rxx' : Confiabilidad del test original.
n : Nmero de veces que se ha alargado el test.

Cabe destacar que una prueba o test breve suele ser inestable
o poco confiable; o en el mejor de los casos puede poseer una
confiabilidad muy limitada. Segn Hogan (2004), entre las
pruebas que se han desarrollado adecuadamente y de uso ms

30
TOMS PEDRO PABLO CAYCHO RODRGUEZ

generalizado, las confiabilidades de 0,80 exigen un mnimo de


25 tems o reactivos, mientras que aquellas pruebas que
poseen coeficientes de confiabilidad de 0,90 requieren de unos
45 tems o reactivos.

Analizando lo anteriormente mencionado, la longitud de una


prueba es importante, debido a que la cantidad de reactivos de
una prueba, nos puede ayudar a predecir cun confiable puede
ser un test, y mientras ms larga sea la prueba, ms confiable
podr ser. Sin embargo, Kerlinger y Lee (2002) manifiestan que
si bien esta frmula es una medida de estimacin de la
confiabilidad, no quiere decir que se alcance medidas de
confiabilidad del todo favorables en el test, ya que la
confiabilidad tambin dependera de cun bien desarrollados en
su contenido se encuentren los reactivos o tems y permitan
discriminar las diferentes individualidades que responden a los
reactivos.

5.2. Interpretacin del Coeficiente de Confiabilidad.

Al iniciar la presente revisin bibliogrfica, se plante que la


confiabilidad puede especificarse en trminos del Coeficiente de
Confiabilidad (Alarcn, 2008), en la que su definicin es la
correlacin entre dos formas paralelas de un test. Segn Alarcn
(2008), la confiabilidad denota estabilidad y constancia de los
puntajes, esperndose que no se presenten variaciones en el curso
de una serie de aplicaciones del test. Por consiguiente, la
interpretacin del coeficiente de confiabilidad viene dado por cun
preciso es un instrumento de medicin, cuando posee la menor
varianza de error. Por ejemplo, de la lectura de un coeficiente de
confiabilidad para un rxx = 0,80; se interpretara lo siguiente: En
una poblacin X, en condiciones estandarizadas o tipificadas de
aplicacin; el 80% de la varianza de los puntajes directos se debe a
la varianza verdadera, mientras que un 20% a la varianza de error.

Ahora que se entiende como dar lectura a un coeficiente de


confiabilidad, la pregunta que tendramos a continuacin, sera qu
nivel define que la confiabilidad de un test es aceptable o no? Al
respecto diversos investigadores han confluido en sus opiniones,
tomando como criterio la severidad de una decisin sobre los
puntajes de un test, la cual necesariamente responde al grado de
precisin y rigurosidad que se tenga en el estudio ya sea de un
grupo de personas o una persona sobre alguna determinada
variable. De esta forma, segn Nunnally & Bernstein (1995)
mencionan que si se platean tomar decisiones importantes con

31
TOMS PEDRO PABLO CAYCHO RODRGUEZ

respecto a las puntuaciones de una prueba, una confiabilidad de


0,90 es lo mnimo que se podra aceptar y una confiabilidad de 0,95
debe considerarse como lo deseable, de acuerdo a la rigurosidad
que plantean estos autores.

No obstante, haciendo una sntesis de las opiniones de los diversos


investigadores Hogan (2004), caracterizan los diferentes niveles de
confiabilidad de la siguiente forma:

De 0,90 1,00 se percibe un Elevado nivel de confiabilidad.

Cuando existe una confiabilidad de 0,80 0,90 se percibe un


Elevado y Moderado nivel de confiablidad.

Alrededor de 0,70 0,80 se perciben como un nivel de confiabilidad


Bueno.

Entre 0,60 0,70 se perciben confiabilidades con niveles Bajos.

Si un instrumento obtiene un coeficiente de confiabilidad de 0.60,


indica niveles inaceptablemente bajos como para tomar decisiones
para medir algn rasgo, caracterstica o variable. Si se desea
utilizarse para fines serios, deber incrementar su confiabilidad quiz
alargando la prueba.

5.3.Procedimientos para Incrementar la Confiabilidad de un Test.

Una vez habiendo sido expuestos todos aquellos factores que afectan
la confiabilidad de un test, se hace necesario trabajar con
algunos mtodos que permitan incrementar el nivel de confiabilidad
de una prueba, obtenindose as, instrumentos de mayor fiabilidad,
con menores ndices de error, de manera que se resuelvan todas
aquellas causas externas, como internas de la medicin. De esta
forma, tal y como lo mencionan Kerlinger & Lee (2002) el principio
que subyace al incremento de la confiabilidad vienen a estar dado
por el principio MAXIMINCON; y esto hace referencia a Maximizar la
varianza de las diferencias individuales y Minimizar la varianza del
error. Para desarrollar esto, Kerlinger y Lee (2002) proponen tres
pasos o procedimientos a seguir. El primero de ellos es escribir sin
ambigedades los reactivos de los instrumentos de medicin
psicolgica o educativa ya que sera fuente de ingreso de la varianza
de error; el segundo procedimiento esta dado por los mtodos de
amplitud de un test que pasaremos a revisar ms adelante; y
finalmente como tercer procedimiento se encuentra la especificacin

32
TOMS PEDRO PABLO CAYCHO RODRGUEZ

de instrucciones claras y estndar, la cuales tienden a reducir los


errores de medicin.

Todo esto permitir sacar conclusiones de que aquello que est


midiendo, tiene consistencia en tiempo y espacio, adems de una
buena estabilidad en sus resultados.

5.3.1. Anlisis de Reactivos:

Es a travs de procedimientos estadsticos denominados anlisis


de reactivos que se pueden incrementar, no slo la
confiabilidad, sino tambin la validez de un test. En este
sentido, se pueden hacer anlisis de dificultad del reactivo para
instrumentos, en donde las respuestas se evalan como
correctas e incorrectas (aqu se encontraran las pruebas de
inteligencia, capacidades y en general los tests cognitivos) y se
puede calcular con la siguiente frmula:

Na
Dificultad del Reactivo =
Nt
Donde:

Na : Nmero de personas que responden correctamente a un


reactivo.
Nt : Nmero total de personas que toma la prueba.

Otro ndice que se usa tambin, es el ndice de acuerdos, el cual


es utilizado en pruebas donde no existen respuestas correctas o
incorrectas (aqu se encontraran las pruebas de orden afectivo
o de personalidad), las cuales se pueden calcular con la
siguiente frmula:

Ni
ndice de Acuerdos =
Nt
Donde:

Na : Nmero de personas que selecciona una respuesta.


Nt : Nmero total de personas que toma la prueba.

Para ambos ndices, por regla general un mayor valor indicara


mayor facilidad o acuerdo del reactivo o tem y por lo tanto,
ms personas respondieron correctamente o coincidentemente
con el rea ctivo. Es por eso que una gran cantidad de
investigadores concuerdan que los mejores ndices de dificultad

33
TOMS PEDRO PABLO CAYCHO RODRGUEZ

o de acuerdos son los que se encuentran entre 0,5 y 0,7, siendo


el 0,0 y 1,00 que contribuyen pobremente a la informacin de
las diferencias entre las personas de acuerdo al reactivo.

Otro ndice para el anlisis de reactivos segn Kerlinger & Lee


(2002) es el ndice de discriminacin de reactivos, ya que indica
que tan efectivamente es capaz de discriminar un reactivo entre
puntuaciones altas y bajas. Vale aclarar que un reactivo se
considera bueno siempre y cuando es contestado correctamente
por personas que obtuvieron altas puntuaciones, y contestado
por errneamente por las personas por aquellas con baja
puntuacin y es all que se puede mencionar que el reactivo
discrimina o nos puede revelar dichas diferencias individuales.
Esto suele explorarse con mayor certeza en pruebas de orden
cognitivo y la frmula viene dada de la siguiente forma:

Pa Pb
ndice de Discriminacin =
Nap

Donde:

Pa : Nmero de personas en el grupo de alta puntuacin que


respondieron correctamente al reactivo.
Pb : Nmero de personas en el grupo de baja puntuacin que
respondieron correctamente al mismo reactivo.
Nap : Nmero de personas en el grupo de alta puntuacin.

Valores de 0,0; 1,0 y -1,0 son raros de encontrar. A mayor


valor existe mayor discriminacin del reactivo, por lo tanto, se
espera obtener valores altos y positivos. No obstante, si
existiesen valores negativos la discriminacin del reactivo es
inversa y en consecuencia el reactivo no est funcionando bien.

Para pruebas donde no existen respuestas correctas e


incorrectas como los tests de tipo afectivo o de personalidad, se
hace uso de la correlacin de la puntuacin del reactivo con la
puntuacin total, sin embargo, este procedimiento tambin
puede emularse para pruebas de tipo cognitivo. Este tipo de
incremento de la confiabilidad se ver con ms detenimiento
ms adelante en el punto que refiere al clculo de la
confiabilidad de un test extrayendo los tems que cuyas
puntuaciones correlacionan bajo con el total del test.

34
TOMS PEDRO PABLO CAYCHO RODRGUEZ

5.3.2. La Amplitud del test.

Tal como se haba mencionado, uno de los factores que afectan


la confiabilidad de una prueba o test, es su longitud; de manera
que a mayor cantidad de reactivos que pudiera poseer una
prueba, existira una mayor probabilidad de poseer un
incremento en el coeficiente de confiabilidad, y por ende en la
confiabilidad.

Una de las forma de remediar una baja obtencin del


coeficiente de confiabilidad despus de una aplicacin del test
en un estudio piloto; se basa en este factor (la longitud del
test). Es as que utilizando la frmula de Spearman
Brown, podemos estimar o predecir el efecto debido al
incremento de la amplitud sobre la confiabilidad del test:

nrxx '
rXX
1 (n 1)rxx '

Donde:

rXX : Confiabilidad del test alargado.


rxx' : Confiabilidad del test original.
n : Nmero de veces que se ha alargado el test.

Por ejemplo: Un test que consta de 15 tems, se aplic a una


muestra de sujetos, con lo que se obtuvo un coeficiente de
confiabilidad de 0,60. Si se aadiera 10 tems paralelos a
los que posee Cul sera la nueva confiabilidad?

En un primer momento se debe calcular n , que es la suma


de el nmero actual de tems con los aadidos, dividido con el
nmero actual de tems:

15 10
n 1,67
15

Una vez obtenido n se procede a estimar el nuevo


coeficiente de confiabilidad:
(1,67)(0,60)
rXX 0,71
1 (1,67 1)(0,60)

35
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Se puede observar que la nueva confiabilidad que se ha


obtenido, se encuentra en el rango (0,70 0,80), que
corresponde a un buen nivel, por lo que se tendra que tomar
la decisin de incrementar 10 tems al test, para volver
hacer una nueva aplicacin. Sin embargo, esto no garantiza las
respuestas que puedan ejercer los sujetos al momento de la
evaluacin, por lo que este nuevo incremento de un mnimo
de 10 tems tiene que estar en funcin a la variable que se
va medir, de manera que haya una homogeneidad dentro de
los factores y en toda la variable que se pretenda medir, pero
que de oportunidad a una diversidad de respuestas.

5.3.3. Varianzas de las muestras.

Usando la frmula de la varianza de error de medida, se


pueden comparar las varianzas de dos poblaciones de inters a
las cuales se pretende obtener el coeficiente de confiabilidad.
La intencin de esta comparacin es observar qu poblacin
presentara la mayor varianza de error.

Tal como se haba declarado anteriormente, en la


variabilidad de las muestras; el error tpico de medida viene
dado por la siguiente frmula:

e x 1 rxx

Donde:

e : Error tpico de medida.


x : Desviacin estndar emprica.
rxx : Coeficiente de confiabilidad en la poblacin.

Si se compara la varianza de error tpico de medida en dos


poblaciones tenemos lo siguiente:
(e 1)2 = (e 2)2

De esta manera se reemplazan los valores de la varianza de


error tpico de medida en ambas poblaciones:
12 (1 r11 ) 22 (1 r22 )

Despejando r22, se obtiene la formula de estimacin

36
TOMS PEDRO PABLO CAYCHO RODRGUEZ

de la nueva confiabilidad:

22
r22 1 2 (1 r11 )
1

Donde:
r11 : Coeficiente de confiabilidad en poblacin 1.
r22 : Coeficiente de confiabilidad en poblacin 2.
12: Varianza emprica en poblacin 1.
22: Varianza emprica en poblacin 2.

Analizando esta frmula obtenida, si las varianzas fueran


iguales, el coeficiente de confiabilidad no vara, pero si hay
diferencias, existir variacin, ya sea de un incremento o de un
decremento en la estimacin de la confiabilidad.

Por ejemplo, en una prueba de motivacin de logro acadmico


se obtuvo un coeficiente de confiabilidad de 0,68 y cuya
varianza es 41 en una muestra de estudiantes universitarios. Si
la varianza fuera de 128, se obtendra un nuevo coeficiente de
confiabilidad con la frmula de estimacin de la confiabilidad,
de esta forma:
41
r22 1 (1 0,68) 0,89
128

Por lo tanto, se demuestra el axioma mencionado, en la cual el


coeficiente de confiabilidad aumenta de 0,68 a 0,89, al
aumentar la variabilidad de la muestra de 41 a 128.

Utilizando el programa estadstico SPSS en su versin 17, se


puede observar la diferencia de las varianzas en grupos de los
cuales nos llevara a pensar que a una mayor varianza existira
una mayor confiabilidad. Para esto se usa la opcin t para
muestras independientes, ubicado entre las opciones de
Analizar y localizado entre las opciones de Comparar Medias.

Una vez ubicada la opcin Prueba T para muestras


independientes en Comparar Medias, se coloca el total de las
puntuaciones de la prueba en: Variables para Contrastar; y en
la parte de: Variables de Agrupacin; se coloca el grupo en
que se desea ver las diferencias, obviamente despus de

37
TOMS PEDRO PABLO CAYCHO RODRGUEZ

haberlo categorizado, para luego ubicar dicho espacio las dos


categoras.

Este procedimiento nos lleva a ver la igualdad o diferencia de


varianza, en un primer momento, y posteriormente la igualdad
de medias; sin embargo, para efectos de este trabajo, slo se
comparar las varianzas. Esto se lleva a cabo mediante la
Prueba de Levene para la igualdad de varianzas, en donde se
seala si las diferencias son significativas o no de acuerdo con
el nivel de significacin de 0,05. De esta forma podemos ver si
existe homogeneidad (principio de homocedasticidad o
dispersin similar) o heterogeneidad (principio de
heterocedasticidad o dispersin diferente) en las varianzas entre
las muestras.

Siguiendo el mismo ejemplo de la prueba de motivacin


de logro se observa, en la Tabla 18, la diferencia de varianzas
empricas en las dos muestras, debido a que se obtuvo un F =
31,497 con un nivel de significacin menor a 0,05.

Tabla 18
Varianza de dos muestras

Prueba de Levene
Prueba de muestras independientes
para la igualdad de
varianzas
F Sig.
Se han asumido varianzas
Motivacin de iguales 31,497 0,00
Logro No se han asumido varianzas 0
iguales
Tabla 19
Estadsticos de la escala en la muestra 1

Media Varianza Desviacin N de


tpica elementos
94,53 40,991 6,40 19
2

Tabla 20
Estadsticos de la escala en la muestra 2

Media Varianza Desviacin N de


tpica elementos
85,32 127,541 11,293 19

38
TOMS PEDRO PABLO CAYCHO RODRGUEZ

En ese sentido, si bien existen diferencias significativas en las


varianzas de ambas muestras en la misma prueba; su puede
notar en las Tablas 19 y 20, que la varianza de la muestra 2
es mayor que la varianza de la muestra.

Haciendo un anlisis de la confiabilidad en ese mismo test de


motivacin de logro acadmico, la cual se compone de 19
reactivos en una escala de diferencial semntico de 6 grados,
se obtuvo los siguientes coeficientes de confiabilidad mediante
el Alfa de Cronbach, para las dos muestras en mencin:

La muestra 1, cuya varianza es 40,991 (ver Tabla 02), posee


una confiabilidad de 0,681 que se muestra en Tabla 4.

Tabla 21
Confiabilidad de una muestra 1

Estadsticos de fiabilidad en la
muestra 1
Alfa de N de elementos
Cronbach
0,68 19
1
La muestra 2, cuya varianza es 127,541 (ver Tabla 20), posee
una confiabilidad de 0,866 la misma que se muestra en la Tabla
22:

Tabla 22
Confiabilidad de una muestra 2

Estadsticos de fiabilidad en la
muestra 2
Alfa de Cronbach N de elementos
0,86 19
6
De esta manera, se comprueba la frmula de estimacin de la
confiabilidad en una prueba mediante el programa estadstico
SPSS 17; en la que la confiabilidad de la muestra 2 es mayor
que la de la muestra 1 ( r22 > r11 ), ya que la muestra 2 posee
mayor varianza que la muestra 1, es decir la muestra 2 es ms
aleatoria que la muestra 1 (existe mayor variabilidad en la
muestra 2): 22 > 12.

39
TOMS PEDRO PABLO CAYCHO RODRGUEZ

5.3.4 Clculo de la confiabilidad de un test extrayendo los


tems que cuyas puntuaciones correlacionan bajo con el
total del test.

Este mtodo se fundamenta en el principio de la correlacin de


la puntuacin del tem con la puntuacin total del test.

Para obtener una mayor confiabilidad en un test del que se ha


obtenido al evaluarse a una determinada poblacin, se tiene que
extraer del test aquellos tems o reactivos que poseen una
correlacin baja con el total del test. Esto se fundamenta en la
consistencia interna que poseen los tems en relacin con el test o
prueba, es decir en qu grado los tems de un test se encuentran
intercorrelacionados entre s con el total del test y midan de esta
forma una misma caracterstica. No obstante, este incremento no
llega a ser tan diferenciado con el coeficiente de confiabilidad
obtenido.

Este mtodo, generalmente suele usarse para la validez de


constructo, que por lo general, se suele llamar: Validacin de
constructo mediante la Correlacin tem test.

A continuacin, utilizando el programa estadstico SPSS versin


17, se realizar un ejemplo de este incremento cuando ciertos
tems que poseen bajas correlaciones con el total del test son
extrados de ste, dando como resultado una nueva confiabilidad
relativamente elevada.

A manera de ejemplo se utilizar una prueba de Motivacin de


Logro Acadmico de 22 reactivos; que al aplicarse a una muestra
de 202 estudiantes universitarios, se obtuvo el siguiente
coeficiente de confiabilidad: r = 0,834.

Para haber obtenido la confiabilidad de este instrumento con el


programa SPSS 17, se procedi de esta manera:

Se utiliz la opcin Analizar, luego Escala, de all se ingres a


Anlisis de fiabilidad y se anot todos los tems que componen el
test a la columna Elementos, para finalmente, entrar a
Estadsticos, en donde se marc en el men de Descriptivos
para, las opciones de Elemento, Escala y Escala si se elimina
el elemento. Al terminar, se eligi el botn Continuar, y luego
Aceptar. En ese primer anlisis de la confiabilidad, el resultado
se muestra a continuacin en las Tablas 23 y 24:

40
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Tabla 23
Estadsticos de confiabilidad

Estadsticos de
fiabilidad
Alfa de N de
Cronbach elementos
0,834 2
2

Tabla 24
Correlacin total elemento

Estadsticos total-elemento
Alfa de
Correlacin
Correlacin Cronbach
elemento-
mltiple al si se
total
cuadrado elimina el
corregida
elemento
ML 1 ,419 ,487 ,827
ML 2 ,085 ,132 ,843
ML 3 ,351 ,433 ,830
ML 4 ,142 ,112 ,838
ML 5 ,223 ,260 ,835
ML 6 ,537 ,478 ,821
ML 7 ,573 ,419 ,819
ML 8 -,177 ,184 ,850
ML 9 ,523 ,438 ,823
ML 10 ,427 ,310 ,826
ML 11 ,556 ,477 ,821
ML 12 ,615 ,556 ,818
ML 13 ,545 ,394 ,821
ML 14 ,268 ,222 ,833
ML 15 ,399 ,388 ,827
ML 16 ,326 ,209 ,830
ML 17 ,582 ,514 ,821
ML 18 ,584 ,463 ,819
ML 19 ,550 ,459 ,822
ML 20 ,492 ,379 ,824
ML 21 ,583 ,444 ,822
ML 22 ,374 ,289 ,828

Se puede observar en el Tabla 7, que los reactivos ML2, ML4 y


ML8, poseen bajos ndices en sus coeficientes de correlacin
con el total del test, ya que son menores a 0,20. No
obstante, si se logra sacar cada uno de estos tems que

41
TOMS PEDRO PABLO CAYCHO RODRGUEZ

tienen bajas correlaciones, se tendr una reduccin del nmero


de reactivos, pero la confiabilidad tendr un ligero
incremento.

Tabla 25
Correlacin total elemento

Estadsticos total-elemento
Alfa de
Correlacin
Correlacin Cronbach
elemento-
mltiple al si se
total
cuadrado elimina el
corregida
elemento
ML 1 ,457 ,475 ,861
ML 3 ,379 ,425 ,863
ML 5 ,226 ,237 ,869
ML 6 ,551 ,451 ,856
ML 7 ,578 ,415 ,854
ML 9 ,517 ,423 ,858
ML 10 ,410 ,298 ,861
ML 11 ,589 ,471 ,855
ML 12 ,623 ,551 ,853
ML 13 ,558 ,388 ,856
ML 14 ,253 ,198 ,867
ML 15 ,427 ,362 ,861
ML 16 ,334 ,199 ,865
ML 17 ,590 ,510 ,855
ML 18 ,603 ,462 ,854
ML 19 ,546 ,456 ,857
ML 20 ,491 ,350 ,858
ML 21 ,583 ,440 ,856
ML 22 ,363 ,275 ,864

Tabla 26

Estadsticos de fiabilidad
Alfa de N de
Cronbach elementos
0,866 19

De esta forma, se nota que la confiabilidad logr aumentar


ligeramente de 0,834 a 0,866, habiendo disminuido la cantidad de
reactivos del test.

42
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Como complemento a lo todo lo mencionado, se tiene que


tener presente cuatro aspectos importantes en la confiabilidad.
El primero de ellos, es que la confiabilidad siempre es
importante porque nos indica el nivel de precisin de un
instrumento, prueba o test. Un instrumento poco o no fiable, no
puede utilizarse para tomar decisiones y aseveraciones sobre la
medicin de algn rasgo, capacidad, habilidad o caracterstica. En
segundo lugar, considerar la relacin existente entre la longitud del
test y la confiabilidad. En consecuencia las pruebas o test breves
suelen ser bastante inestables o poco confiables. Si por ejemplo,
una prueba es larga o breve y posee una confiabilidad de 0.60, y
tal como se seal en la parte de la Interpretacin del coeficiente
de confiabilidad, una prueba con ese nivel de confiabilidad no es
fiable de ser utilizado para fines serios, con lo que se tendra que
proceder a alargar la prueba, para incrementar la confiabilidad.

Al alargar una prueba (Amplitud del test), se tiene que considerar,


que este procedimiento de incremento de la confiabilidad de una
prueba, no sea un factor determinante en los examinados, en que
les cause fatiga o los desaliente en la tarea, ya que se estara
incidiendo en un error de construccin de la prueba (Error no
sistemtico) que ayudara a aumentar la varianza de error y por
ende una menor confiabilidad.

Cuando se ha aplicado una prueba, no se debe confundir el


aumento de la variabilidad con el aumento de una muestra, ya que
no necesariamente depende de la cantidad de sujetos que han
respondido una serie de reactivos de un test, sino que depende de
la varianza, es decir cun variables son las respuestas a los
reactivos de esa prueba aplicada, aunque en ciertas ocasiones es
necesario aumentar la muestra, de manera que nos permita ver
si hay mayor variabilidad conjuntamente con ese nuevo grupo
de sujetos. Por otro lado, es necesario y primordial utilizar la
mejor tcnica de muestreo, buscando as la aleatorizacin, de
manera que se obtenga, una mejor variabilidad en las
caractersticas de los sujetos como variable.

Destacar como tercer punto, revisar los niveles de los coeficientes


de confiabilidad de la prueba o test, tal y como se expuso en la
parte de la interpretacin del coeficiente de confiabilidad; de
manera que se realicen los anlisis respectivos sobre los reactivos o
tems de acuerdo a las correlaciones de sus puntajes sobre el total
de la prueba, de manera que permitan tomar decisiones con la
finalidad de mejorar la precisin y estabilidad de la prueba o test
psicolgico.

43
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Finalmente, es necesario indicar que una gran herramienta, que


puede favorecer a ejecutar los procedimientos de incrementar la
confiabilidad de un test, es la de realizar estudios pilotos con el
test, de manera que permitan controlar las fuentes e influencias de
error que forman parte de la varianza de error y que por ende
afectan la confiabilidad de una prueba psicolgica o educativa.

TIPOS DE CONFIABILIDAD

Denominacin Procedimiento Varianza de Error


Estabilidad Retest con la misma Fluctuacin
forma en distinta Temporal
ocasin.

Equivalencia Retest con forma Especificidad del


paralela en la misma elemento
ocasin.

Estabilidad y Retest con forma Fluctuacin temporal


Equivalencia paralela en distinta y especificidad del
ocasin. elemento

Consistencia Interna Divisin por Especificidad del


mitades. elemento

Consistencia Interna Kuder Richardson Especificidad del


Homogeneidad Kr20 y Kr21 element
heterogeneidad

Consistencia Interna Alfa de Cronbach Especificidad del


Homogeneidad elemento
heterogeneidad

44
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Leccin III

Validez
Concepto, caractersticas y aplicaciones3

1. Concepto

Siguiendo a Abad, Garrido, Olea & Ponsoda (2006), una cosa es que el
test mida de manera precisa o estable (esta cualidad se refiere a su
confiabilidad), y otra diferente es la cuestin de qu es lo que
autnticamente est evaluando. En el mbito psicosocial, los diferentes
constructos resultan difcilmente operativizables de manera indiscutible, y
a veces se producen dudas razonables sobre qu mide un determinado
test. Una prueba de inteligencia general tendr un elevado grado de
validez si asigna puntuaciones altas a las personas muy inteligentes,
puntuaciones medias a las personas medianamente inteligentes y
puntuaciones bajas a las personas de poca inteligencia. Un cuestionario
para evaluar el nivel de autoestima tendr un elevado nivel de validez si
se demuestra que mide de forma exhaustiva todos los componentes en
que puede manifestarse la autoestima.

La validacin es un proceso continuo, que incluye procedimientos


diferentes para comprobar si el cuestionario mide realmente lo que dice
medir. Dicho de otro modo, tiene que ver con el tipo de conclusiones o
inferencias que pueden realizarse a partir de las puntuaciones obtenidas
en el test. Las inferencias pueden ser de muy diverso tipo: qu rasgo
estamos midiendo realmente? Qu podemos predecir sobre el
comportamiento de un sujeto que obtiene una determinada puntuacin
en el test? Qu consecuencias de diverso tipo tiene esa puntuacin, en
contextos de evaluacin o seleccin?

Aunque cada vez se tiende ms a concebir la validez como un proceso


unitario que tiene como objetivo aportar pruebas sobre las inferencias
que podemos realizar con un test, tradicionalmente se han diferenciado
varios procedimientos de validacin, alguno de los cuales incluye varios
mtodos diferentes de comprobacin. Los fundamentales procedimientos
son denominados como validez de contenido, de constructo y referida al
criterio.

3
Algunas de las ideas de este acpite se basan en Abad, F., Garrido, J., Olea J. & Ponsoda,
V. (2006). Introduccin a la Psicometra. Teora Clsica de los Test y Teora de Respuesta al
Item. Madrid: Universidad Autnoma de Madrid. Se agradece a los autores por la
deferencia para con el autor, a fin de que sean tomados para dar forma a los captulos de
esta unidad.

45
TOMS PEDRO PABLO CAYCHO RODRGUEZ

2. Validez de contenido

Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de


inteligencia, de aptitudes, etc.) y en pruebas de conocimientos
(cuestionarios para evaluar el rendimiento en una materia escolar o en
una especialidad temtica concreta), tiene sentido justificar que el
conjunto de tems que forman el test conforman una muestra
representativa del universo de contenidos que interesa evaluar. Un test
de conocimientos de Qumica en 3er grado secundaria, por ejemplo,
debera incluir cuestiones representativas de los diferentes ncleos de
contenidos que oficialmente deben impartirse en ese nivel de estudios.
Sera una prueba poco vlida si incluye demasiadas cuestiones de unos
temas y muy pocas de otros.

Para justificar, aunque slo sea racionalmente, que un test posee validez
de contenido, debe quedar bien definido el universo o dominio conductual
de referencia: especificar claramente cules son los contenidos de
Qumica que debe conocer un alumno de 3er grado secundaria, cules
son los componentes que interesa considerar en un cuestionario de
cultura general, qu tipo de conocimientos y destrezas son las
pertinentes para medir el nivel bsico de ingls, etc. En definitiva, nos
referimos a explicitar claramente los objetivos de la evaluacin y la
importancia que se quiere dar a cada uno, lo que determinar la cantidad
de cuestiones a incluir referidas a cada uno de esos objetivos. En
definitiva, la validez de contenido es un tema particular del de muestreo:
si deseamos realizar inferencias sobre el rendimiento de las personas en
una poblacin de contenidos determinada, el test debe incluir una
muestra representativa de dichos contenidos.

El proceso de validacin de contenido es eminentemente lgico, si bien


pueden utilizarse jueces expertos en el tema para valorar la congruencia
entre los diversos tems y los diversos objetivos. Existen procedimientos
cuantitativos diversos para que cada experto valore el grado en que un
tem sirve para evaluar el objetivo al que corresponde. El procedimiento
cuantitativo ms sencillo sera el siguiente:

- Especificar los diversos objetivos (reas diferentes de contenidos) que


se pretenden evaluar.
- Elaborar varios tems para cada objetivo.
- Seleccionar una muestra de expertos en el contenido del test.
- Pedirles que, segn su opinin, asignen cada tem al objetivo que
pretende medir.
- Seleccionar los tems en los que los expertos manifiestan mayor
acuerdo en sus clasificaciones.

46
TOMS PEDRO PABLO CAYCHO RODRGUEZ

La verificacin de la validez de contenido de una prueba educacional no


encierra dificultades, sobre todo porque se dispone de fuentes empricas,
como programa escolar, textos utilizados en la enseanza y objetivos de
instruccin que facilitan verificar la validez de contenido del test. Sin
embargo, en pruebas que miden variables psicolgicas, este tipo de
validez afronta serios problemas. Anastasi refiere que el contenido de los
test de aptitud y de personalidad apenas sirve ms que para revelar la
hiptesis que llev al psiclogo, elaborador del test, a escoger un
determinado contenido para medir un rasgo especfico. Hay que
confirmar empricamente estas hiptesis para establecer la validez del
test (Anastasi, 1978).

Muy en relacin con la validez de contenido se encuentra lo que se ha


dado en llamar validez aparente, que se refiere al grado en que un test
da la impresin a los evaluados de que mide lo que se pretende. En
situaciones aplicadas, es importante que las personas perciban que los
tems del test tienen que ver con la finalidad que se persigue con el
procedo de evaluacin.

Para establecer la validez de contenido se requiere, en suma, que se


defina con precisin el comportamiento que se trata de medir y que se
incluya en el test una muestra representativa de los indicadores
relevantes del comportamiento. En la prctica, la validez de contenido, a
diferencia de otros tipos de validez, que son determinados por
coeficientes de correlacin, la validez de contenido es verificada por
jueces expertos, quienes evalan la representatividad de los indicadores
de la conducta que se mide, buscando establecer si representan el
universo del contenido de esa conducta y la relevancia de los tems para
medir tales indicadores. Se debe ofrecer a los jueces claras
especificaciones acerca de lo que juzgarn.

3. Validez de constructo

Un constructo es un concepto elaborado por los tericos de la Psicologa


para explicar el comportamiento humano. Inteligencia fluida,
extroversin, autoconcepto, asertividad, motivacin intrnseca... son
constructos que forman parte de teoras psicolgicas y que precisan de
indicadores observables para su estudio. En muchas ocasiones, estos
indicadores son los tems de un test, y debe comprobarse empricamente
que resultan adecuados para reflejar el constructo de referencia.

La validez de constructo se define como el grado en que un test mide la


construccin terica en la que el test reposa. Todo test psicolgico se
basa en una construccin terica que el autor desarrolla o asume, para
explicar la organizacin y funcionamiento de una conducta. La validez de

47
TOMS PEDRO PABLO CAYCHO RODRGUEZ

constructo se determina mostrando que las consecuencias que pueden


predecirse sobre la base de la teora con respecto a los datos del test
pueden, en lo fundamental, confirmarse por una serie de pruebas.
(Magnusson, 1969).

La comprobacin de la validez de constructo requiere de un largo


proceso, pues lo que se trata de verificar es la hiptesis referida a la
conducta que se intenta medir. En el curso del proceso de validacin el
investigador incrementa sus conocimientos acerca del test proyectado, lo
revisa y progresivamente lo mejora para hacerlo un instrumento de
medida del constructo. Puede cambiar sus conceptos tericos y tambin
el instrumento para medir esos conceptos tericos. Todo esto lo realiza
mediante informacin adquirida a travs de estudios empricos.

La literatura respecto a las tcnicas para establecer la validez de


constructo muy a menudo reiteran los procedimientos utilizados para
determinar la validez relacionada con criterios, y no pocas veces han
surgido confusiones con la validez de contenido. Es claro que las tcnicas
han sido utilizadas con diferentes propsitos. Al respecto, Kerlinger
(1975), seala que, en cierto sentido, cualquier tipo de validacin es
validacin de construccin. Las siguientes son las tcnicas ms utilizadas
para determinar este tipo de validez.

3.1 Mtodos para la estimacin de la validez de constructo

La validez de constructo incluye la planificacin y ejecucin de


determinados estudios de investigacin orientados a comprobar
empricamente que un test mide realmente el constructo o rasgo que
pretendemos. Aunque los mtodos a emplear son sin duda variados,
as como las tcnicas estadsticas para analizar los datos, podemos
encontrar un comn denominador a todos ellos, que se sintetiza en
las siguientes fases:

1.- Formular hiptesis relevantes (extradas de deducciones


tericas o del sentido comn) en las que aparezca el constructo
que pretendemos evaluar con el test. En definitiva, una hiptesis
de trabajo consiste en poner en relacin dos o ms variables.
Pues bien, una de esas variables ha ser el constructo que
pretendemos medir con el test.

2.- Efectuar en la prctica mediciones oportunas de las variables


o constructos involucrados en las hiptesis. La medicin del
constructo de inters se realizar con la prueba diseada a tal
efecto, que es la que pretendemos validar.

48
TOMS PEDRO PABLO CAYCHO RODRGUEZ

3.- Determinar si se verifican o no las hiptesis planteadas. En


el caso de que as sea, queda confirmado mediante una
investigacin que el test mide el constructo de inters ya que, de
lo contrario, no habra razones lgicas para que se cumplieran las
hiptesis formuladas. Si las hiptesis no se confirman no significa
en principio que el test no es vlido, ya que puede ser debido a
que las hiptesis no estaban planteadas de manera adecuada, lo
cual exigira una revisin de la teora subyacente.

Imaginemos, por ejemplo, que un investigador est interesado en


validar una prueba de motivacin intrnseca-extrnseca que ha
construido. Desde la teora motivacional de partida se puede deducir
que las personas motivadas intrnsecamente deberan rendir mejor en
actividades escolares que las personas motivadas por razones
extrnsecas (deseos de alcanzar determinada nota o determinado
refuerzo externo). Para validar su prueba, el investigador tiene que
demostrar empricamente que mide autnticamente el constructo
motivacional que se pretende, y podra proceder de la siguiente
manera:

a) Aplicar el test a un grupo amplio de alumnos del nivel escolar


apropiado.

b) Recoger informacin de cada alumno sobre su nivel intelectual, su


calificacin acadmica media en el ltimo curso y las horas que
dedica al estudio.

c) Formar dos grupos diferentes (A y B), de tal manera que ambos


tengan un mismo nivel intelectual medio y que ocupen un nmero
similar de horas en el estudio, pero que el grupo A tenga niveles
altos de motivacin intrnseca y el B niveles altos de motivacin
extrnseca.

d) Comparar el rendimiento acadmico de los dos grupos. Si la


hiptesis de partida fuera cierta, el grupo A debera rendir
significativamente ms que el grupo B, con lo cual se aportara
informacin sobre la validez del test. Desde luego, si el test no
midiera motivacin, sera improbable que se verificase la hiptesis
de trabajo.

Pueden ser muy variados los mtodos a seguir que, cumpliendo el


proceso de ejecucin planteado anteriormente, sirvan para poner a
prueba la validez de constructo de un test. En cada caso habr que
seguir el que ms convenga para contrastar las hiptesis de partida,

49
TOMS PEDRO PABLO CAYCHO RODRGUEZ

pero algunos mtodos suelen ser ms frecuentes. Entre ellos


destacamos:

- Obtener las relaciones entre las puntuaciones en el test y en otras


variables que deberan relacionarse con el constructo de inters. Si
el modelo terico est bien fundamentado, debe establecer
relaciones entre el constructo de inters y otros diferentes, y por
tanto debe ser posible establecer diseos de investigacin para
contrastar las previsiones tericas. Por ejemplo, para predicir (y
comprobar) que una escala de susceptibilidad al castigo (que mide
el grado de evitacin de situaciones reales aversivas) debe
proporcionar puntuaciones relacionadas directamente con
neuroticismo e inversamente con estabilidad emocional.

- Evaluar mediante el test a grupos que se supone deben ser


diferentes en el constructo, para comprobar si realmente es as.
Resulta un enfoque eminentemente diferencial: si el test es vlido,
debera reflejar las diferencias entre grupos que se predicen desde
la teora psicolgica. Por ejemplo, si un test de inteligencia general
para edades infantiles es vlido, debera reflejar el mayor
rendimiento de los nios de ms edad.

- Utilizar una estrategia experimental para comprobar si el test


resulta sensible para detectar los efectos previsibles debidos a la
manipulacin o seleccin de los niveles en una o ms variables
independientes. El ejemplo expuesto anteriormente sobre
motivacin y rendimiento puede servir para entender esta
estrategia.

- Aplicar la tcnica multivariada del Anlisis Factorial (exploratorio o


confirmatorio) sobre la matriz de correlaciones entre items, para
descubrir estadsticamente las variables o dimensiones
subyacentes (factores) a la covariacin entre los elementos.

3.2 Validez por medio del anlisis factorial

Este ltimo mtodo, denominado validez de constructo factorial,


requiere alguna precisin que puede ser pertinente por
fundamentarse en una tcnica estadstica relativamente sofisticada y,
sobre todo, porque su utilizacin prctica es muy extensa.

El anlisis factorial es una tcnica estadstica multivariante que


sirve para estudiar las dimensiones que subyacen a las relaciones
entre varias variables. Normalmente toma como datos de partida la
matriz de correlaciones entre las n variables que interesa analizar.

50
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Como informacin final, proporciona una matriz de tamao n p,


denominada matriz factorial rotada.

Esta matriz contiene las saturaciones de cada variable en cada una de


las p dimensiones extradas, y que son las correlaciones de Pearson
entre cada variable y cada dimensin. El anlisis factorial se realiza
con dos objetivos 1) determinar cual es el nmero de dimensiones o
factores que mide un test y descubrir cual es el significado de cada
una; 2) obtener la puntuacin de cada sujeto en cada dimensin.
Normalmente, el nmero de dimensiones que mide un test es mucho
menor que el de tems. Para descubrir su significado y darles sentido
es necesario fijarse en las variables que saturan de forma elevada en
cada dimensin. Cuando el investigador se enfrenta con la tarea de
dar significado a una dimensin, debe realizar un proceso inferencial
para encontrar el nexo de unin entre las variables que manifiestan
correlaciones elevadas en la dimensin. Adems, los diferentes
factores (dimensiones) extrados no tienen la misma importancia.
Cada uno explica una determinada cantidad de la varianza total de
los tems, que se expresa porcentualmente, y que indica la
importancia de esa dimensin para dar cuenta de la covariacin entre
las variables. Si un factor explica un porcentaje elevado de la
varianza total, eso es sntoma de que las saturaciones de las
variables en dicho factor son altas, lo que significa que es una
dimensin importante a la hora de describir las relaciones entre las
variables originales.

Un psiclogo ha elaborado una prueba de cinco tems para evaluar la


actitud hacia las nuevas tecnologas por parte de las personas
mayores. Los tems, que se responden en una escala de siete
categoras ordenadas (desde 1: muy en desacuerdo" hasta 7: muy
de acuerdo"), son los siguientes:

tem 1: El uso de telfonos mviles puede hacerme la vida ms fcil.


tem 2: Los aparatos modernos son demasiado caros.
tem 3: Me gustara tener una agenda electrnica.
tem 4: El coste de las llamadas desde un mvil es razonable.
tem 5: Gracias a internet podemos resolver muchos problemas.

Los 5 tems se aplicaron a una muestra de 200 personas. La matriz


de correlaciones entre ellos se someti a un anlisis factorial,
obtenindose los siguientes resultados. Esta matriz contiene las
saturaciones, es decir, la correlacin de cada tem con cada uno de
los factores que mide el test:

51
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Tabla 18
Anlisis factorial exploratorio

Hay dos factores fundamentales que explican las relaciones entre los
5 items. Supongamos que se tipifican las puntuaciones en los tems;
la varianza total sera cinco, que es la suma de la varianza de cada
tem. El factor I explica un 34% de la varianza total, el factor II
explica un 21% de la varianza total. Con los dos factores se explica el
55% de la varianza de los tems.

En el factor I obtienen saturaciones altas los items 1, 3 y 5, que


indican si la persona considera que las nuevas tecnologas pueden ser
tiles para mejorar su calidad de vida. El tem 2 tiene una saturacin
negativa (aunque baja) porque posiblemente manifiesta una actitud
contraria hacia las nuevas tecnologas. Por tanto, el factor I puede
denominarse Actitud positiva hacia las nuevas tecnologas como
medio para mejorar la calidad de vida.

En el factor II obtienen saturaciones elevadas (en valor absoluto) los


tems 2 y 4, mientras que el resto de saturaciones son cercanas a
cero. El hecho de que el tem 2 tenga una saturacin positiva y el 4
negativa significa que las personas con puntuacin alta en el factor II
tienden a estar de acuerdo con el tem 2 y en desacuerdo con el 4.
Este segundo factor podra etiquetarse Sensibilidad hacia el gasto
que supone utilizar las nuevas tecnologas.

Vemos, pues, que las relaciones de covariacin entre los tems


podemos explicarlas con dos dimensiones que resultan bastante
claras de identificar. Como el lector puede suponer, las cosas no son
tan evidentes en la realidad; el investigador debe decidir cuntos
factores estn presentes en los datos y, sobre todo, debe asignar un
significado a cada factor, lo que normalmente no es tan sencillo como
en este ejemplo. Lo cierto es que la aplicacin del anlisis factorial
aporta informacin sobre las dimensiones que estamos midiendo con
un determinado cuestionario, es decir, proporciona informacin sobre

52
TOMS PEDRO PABLO CAYCHO RODRGUEZ

la validez de la prueba. En las siguientes secciones se describe ms


detalladamente cmo se obtiene e interpreta la estructura factorial
que subyace a las respuestas a los tems de un test.

El anlisis factorial se basa en un modelo que es una extensin del


utilizado en teora clsica de test. A modo de ejemplo, consideremos
los siguientes seis tems de una escala de Cordialidad dirigida a
poblacin infantil:

1. Me comporto de manera honesta y correcta con los dems.


2. Trato a mis compaeros afectuosamente.
3. Si un compaero tiene dificultades, le ayudo.
4. Confo en los dems.
5. Pienso que otras personas son buenas y honradas.
6. Dejo que los dems usen mis cosas.

Estos tems se aplicaron a una muestra de 564 chicos y chicas de


entre 11 y 14 aos. La matriz de correlaciones obtenida en esta
muestra fue:

a. Anlisis factorial con un nico factor

Puede plantearse que los seis tems miden una misma


caracterstica, la cordialidad. Aplicando el modelo de la teora
clsica de test a las puntuaciones de los tems, se obtienen las
ecuaciones:

Esto significa que todos los tems miden la misma caracterstica


(la cordialidad), representada por V en el modelo. Adems, hay

53
TOMS PEDRO PABLO CAYCHO RODRGUEZ

un error de medida que puede ser distinto para cada tem (Ei). Es
posible plantearse que no todos miden igual de bien la
cordialidad. Por esta razn se definen los parmetros i,
denominados saturaciones, que indican la relacin de cada tem
con la caracterstica o factor que miden todos ellos. Cuanto mayor
sea i, mejor indicador de la cordialidad ser la puntuacin en el
tem. Si a la cordialidad se la denomina F en lugar de V, se
obtiene el modelo de un factor:

Las saturaciones se calculan a partir de la matriz de correlaciones


entre los tems. Los clculos exigen la aplicacin de clculos de
lgebra matricial y se realizan mediante ordenador. Sin embargo,
la lgica es fcil de ejemplificar. Asumamos que las variables X1,
X2, X3, X4, X5, X6 y F estn en puntuaciones tpicas. Si el
modelo unidimensional fuera cierto, la correlacin esperada entre
X1 y X2 (que denominaremos r12*) sera:

Lo que se simplifica a:

Asumiendo que los errores no correlacionan entre s ni con la


puntuacin en el factor (como en la Teora Clsica), obtenemos
que la correlacin esperada segn el modelo sera igual al
producto de los pesos de los 2 tems en el factor:

Para entender la ltima simplificacin, debe recordar es la


varianza de las puntuaciones F; al estar las puntuaciones F en
puntuaciones tpicas su varianza es 1. Por tanto, sabiendo que F
= 0:

54
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Si calculramos cuales son los valores esperados de las


correlaciones segn el modelo unidimensional, a las que
denominamos correlaciones reproducidas ( r* ), obtendramos la
siguiente matriz:

En trminos generales, los programas de anlisis factorial buscan


aquellos valores de (1, 2, 3 , 4 , 5 y 6) que hacen que
las correlaciones esperadas segn el modelo (r* 21 , r* 31 , r* 41 ,
r* 51, etc.) se parezcan lo ms posible a las correlaciones
observadas (0,459, 0,313, 0,246, 0,171, etc.). En el ejemplo, a
partir de la matriz de correlaciones mencionada anteriormente, se
llega al siguiente modelo de un factor:

Lo cual significa que el factor tiene una relacin ms fuerte con el


tem 2 que con los dems, aunque todas las saturaciones son
elevadas. En el caso de un factor, las saturaciones resultan ser
iguales a las correlaciones de cada tem con el factor. Pueden
tomar valores positivos o negativos. Si la saturacin es cero, o
prxima a cero, no existe relacin entre el tem y el factor.
Saturaciones extremas, en cualquier direccin, significan que la
relacin es fuerte. Generalmente, en los programas informticos,
las saturaciones se disponen en una matriz que se denomina
matriz factorial:

55
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Las correlaciones esperadas segn el modelo seran:

Segn el modelo de un factor los dos tems que ms deberan


correlacionar son los tems 2 y 3 puesto que son los que ms
correlacionan con ese factor. Las correlaciones reproducidas se
parecen a las correlaciones observadas en nuestra muestra, pero
no son iguales. La diferencia entre una correlacin observada y
una reproducida se llama residual:

Por ejemplo, el residual para la correlacin entre los tems 1 y 3


(r 31 r* 31) es 0,020. A partir del modelo de un factor, y teniendo
en cuenta las propiedades de las combinaciones lineales de
variables, la varianza de un tem puede calcularse como una
funcin de su saturacin en el factor, de la varianza del factor y
de la varianza del error. Por ejemplo, sabiendo que:

la varianza de X1 (2 X1) puede calcularse como:

56
TOMS PEDRO PABLO CAYCHO RODRGUEZ

donde F2 y 2 1representan la varianza de F y la varianza de E1.


Al estimar el modelo factorial a partir de la matriz de
correlaciones, se est asumiendo implcitamente que los tems y
el factor vienen expresados en puntuaciones tpicas. Esto significa
que las varianzas del factor y del tem son 1 (2F = 1, 2X1= 1);
Por tanto, la varianza del tem (1) se descompone del modo
siguiente:

Como se puede ver, una parte de la varianza del tem depende de


su saturacin en el factor comn. A esa parte se la denomina
comunalidad y se la representa por el smbolo h 2 i. El resto de la
varianza del tem depende de la varianza del error ( 2 1 ). A
esa parte se la denomina unicidad. Simblicamente,

La comunalidad de un tem indica la cantidad de su varianza


explicada por el factor. En el modelo de un factor, la comunalidad
de un tem se obtiene elevando la saturacin de ese tem en el
factor al cuadrado. En el ejemplo, las comunalidades son h 21=
0,292 (que es 0.5402), h 22= 0,450 (que es 0.6712), h 23= 0,294,
h 24 = 0,280, h 25= 0,234 y h 26= 0,191. La varianza de los
errores se denomina unicidad, y se simboliza, como ya hemos
mencionado, mediante 2 i . La unicidad de un tem indica
cuanta varianza del mismo no depende del factor, es decir, es
varianza especfica del tem que no se relaciona con lo que los

tems miden en conjunto. Las unicidades se calculan . En


el ejemplo, las unicidades son

La suma de las comunalidades es la varianza de los tems


explicada por el factor. En nuestro ejemplo, esta suma es 1,740.
Como la varianza total de los tems es 6, la proporcin de
varianza explicada por el factor es 1,740/6 = 0,290; es decir, el
29%. La suma de las unicidades es la varianza de los tems no
explicada por el factor, en este caso el 71% del total.

b. Anlisis factorial con ms de un factor

Es posible formular modelos factoriales en los que cada tem mida


ms de una caracterstica simultneamente. Supongamos que se
hipotetiza que el cuestionario mide dos factores, denominados F1

57
TOMS PEDRO PABLO CAYCHO RODRGUEZ

y F2. Entonces, las saturaciones se denominan ij (siendo i el


tem y j el factor), y el modelo de dos factores es:

De forma genrica, para un nmero p el nmero de factores


independientes:

De nuevo, el programa busca aquellos valores de que hacen


que las correlaciones esperadas segn el modelo

se parezcan lo ms posible a las


correlaciones observadas (0,459, 0,313, 0,246, 0,171,). Al
estimar las saturaciones a partir de la matriz de correlaciones
se obtiene el resultado:

Los programas nos informarn de esas saturaciones, mediante


una matriz denominada matriz de factores rotados:

58
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Puede verse que los tems 1, 2 y 3 tienen una correlacin ms


fuerte con el factor I que con el factor II, mientras que ocurre lo
contrario para los tems 4, 5 y 6. Viendo las saturaciones y el
contenido de los tems, puede suponerse que el factor I significa
Trato a los dems, mientras que el factor II podra indicar
Confianza en los dems.

Al haber dos factores independientes, las comunalidades se


calculan mediante h2i =2i1 + 2i2. Las comunalidades de los 6
tems seran 0,354, 0,581, 0,277, 0,500, 0,397 y 0,188. En el
ejemplo, la varianza explicada por cada factor es 1,226 y 1,072,
que, representa un porcentaje del 20 % y del 18 %
respectivamente. Por tanto, el porcentaje de varianza explicada
por el modelo de dos factores es del 38% aproximadamente.

En la prctica el anlisis factorial se aplica en dos pasos. En


primer lugar se obtiene la solucin inicial, lo que permite evaluar
la bondad de ajuste del modelo y determinar el nmero de
factores. En segundo lugar se realiza una rotacin, ortogonal u
oblicua, segn los propsitos del investigador. La solucin rotada
sirve para interpretar el sentido de los factores. Si se realiza la
rotacin ortogonal, es posible calcular las comunalidades,
unicidades y la varianza explicada por cada factor. Si se realiza la
rotacin oblicua, se obtiene la correlacin entre factores y unas
saturaciones ms sencillas de interpretar.

En resumen, la validez factorial es determinada mediante anlisis


factorial. Sabemos que la covariacin de un grupo de subtest o de
tems define un factor que representa una dimensin terica
subyacente a todos ellos. Esto significa que los tems miden
dimensiones unitarias independientes, de modo que un test se
puede caracterizar por los factores ms predominantes que
determinan sus puntuaciones y por la saturacin de cada factor.
La carga factorial correspondiente al factor que el test mide se
denomina validez factorial. De acuerdo con este mtodo, se
eligen los factores que explican el mayor porcentaje de la
varianza total del test; asimismo, se toman los tems con mayor
peso factorial en cada uno de los factores.

4. Validez predictiva

La Validez Predictiva se centra en la comprobacin de que las pruebas


predicen aquello para lo que fueron diseadas. Constituye un aspecto
clave en la utilizacin aplicada de los test y las escalas en mbitos en
los cuales se toman decisiones importantes para las personas

59
TOMS PEDRO PABLO CAYCHO RODRGUEZ

basndose en las pruebas, por ejemplo en el mbito de la seleccin


de personal, orientacin, o situaciones de carcter clnico, por citar
algunos. La capacidad predictiva de una prueba suele expresarse
mediante su Coeficiente de Validez (vxy), que es la correlacin entre
las puntuaciones en la prueba (x) y la ejecucin en el criterio que se
pretende predecir (y). A medida que el valor del coeficiente de
validez se acerca a 1 mayor es la capacidad predictiva de la prueba.
Cuando se utilizan varias pruebas para predecir un criterio se utiliza
como coeficiente de validez la correlacin mltiple de las pruebas con
el criterio (Ryy).

Un criterio es cualquier desempeo que los sujetos tienen en la vida


real, por ejemplo, las medidas de rendimiento acadmico, medidas de
rendimiento laboral, clasificaciones psiquitricas, etctera. En muchos
casos resulta imposible hallar un criterio no ambiguo de un rasgo
mental. Por ejemplo, dos psiclogos, Toms y Aurora, que investigan
el rasgo de aptitud numrica pueden emplear diferentes criterios
externos para correlacionar los puntajes del test que han creado. As,
Aurora puede considerar que el criterio externo ms adecuado son
las calificaciones que reciben los sujetos en un curso de mecnica en
taller; mientras que Toms puede considerar como criterio el periodo
de tiempo que gastan los estudiantes en aprender una tarea
mecnica y sencilla durante el entrenamiento en un fabrica. Qu
sucede si las pruebas que emplean ambos psiclogos correlacionan
0.006 con uno de los criterios, y 0.70 con el otro?, cmo podemos
afirmar que la prueba es valida cuando arrojan resultados de cierta
clase?, se trata en verdad de una prueba de aptitud mecnica? En
razn a situaciones como esta se llego a la conclusin de que la
validacin de un test es un proceso largo y no un hecho aislado.
Solamente a travs de estudios de correlacin con una amplia
variedad de criterios podremos comprender que mide la prueba. As,
una serie de investigaciones sobre la prueba de actitud mecnica
nos puede demostrar que en realidad esta midiendo la habilidad para
realizar movimientos fino y cuidadosamente controlados, siendo
completamente independiente para comprender las reacciones
complejas de la piezas mecnicas. De esta manera el test puede
tener una alta correlacin con las calificaciones obtenidas en el taller
y ninguna con los trabajos e maquinarias.

60
TOMS PEDRO PABLO CAYCHO RODRGUEZ

TEXTO SELECCIONADO 3

Intervalos de confianza asimtricos para el ndice la validez de


contenido: Un programa Visual Basic para la V de Aiken4

Particularmente, los intervalos de confianza es forma ms informativa y til


de expresar el grado de imprecisin o in-certidumbre asociada con los
resultados cuantitativos de una investigacin o algn clculo en general;
eso sera una consecuencia apropiada de la situacin muy comn de utilizar
una muestra de limitado tamao. Actualmente, la construccin de intervalos
de confianza para los puntajes obtenidos es una prctica recomendada y a
veces es referida como un elemento esencial para la interpretacin del
reporte de resultados de un sujeto (Charter, 2003).

En el presente artculo presentamos un programa informtico para calcular


intervalos de confianza para el ndice de validez de contenido, V, propuesto
por Aiken (1980, 1985). El procedimiento para obtener el intervalo de
confianza es por medio del mtodo score, que recientemente fue derivado
en Penfield y Giacobbi (2004) para este coeficiente. Hay pocos precedentes
sobre el uso del coeficiente V de Aiken en publicaciones cientficas hispanas,
excepto la sencilla presen-tacin descriptiva por Escurra (1989) que no se
inclua un programa informtico para su clculo. El desarrollo de un
programa que calcule este coeficiente podra ser de menor utilidad dado que
el clculo no presenta complejidades an para el usuario sin conocimientos
estadsticos, pero el pro-grama presentado aqu incluye clculos que van
ms all del planteamiento original de Aiken, quien consideraba la
tradicional prueba de hiptesis del coeficiente V, particularmente con su
contraste de hiptesis nula fijada en V = 0.50 para establecer los valores
crticos. Esta caracterstica nueva resuelve los clculos para obtener
intervalos de confianza para V usando el mtodo score; pero ya que
calcularlos puede llevar a errores debido a sus ecuaciones (el lector los ver
ms adelante en el presente artculo).

El mtodo de los intervalos de confianza para la V de Aiken representa los


lmites que tienen una alta probabilidad de que ocurra V en la poblacin; y
esta probabilidad es de una extensin del 95% u otro lmite crtico que el
examina-dor elija. La justificacin de utilizar intervalos de confianza para la
cuantificacin de la validez de contenido va de acuerdo con el actual nfasis
de su uso para reportar hallazgos de investigacin psicolgica (Wilkinson y

4
Referencia Original: Merino C. & Livia, J. (2009). Intervalos de confianza asimtricos para el
ndice la validez de contenido: Un programa Visual Basic para la V de Aiken. Anales de
Psicologa, 25(1), 169-171.

61
TOMS PEDRO PABLO CAYCHO RODRGUEZ

APA Task Force on Statistical Inference, 1999; American Psychological


Association, 2001; Fidler, 2002).

Coeficiente de validez de contenido V de Ai-ken

En la literatura metodolgica se han descrito algunos enfoques de anlisis


cuantitativos para la validez de contenido que parecen promisorios (por
ejemplo, Anderson y Gerbing, 1991; Schriesheim, Powers, Scandura,
Gardiner y Lankau, 1993; Sireci, 1998a; Hinkin y Tracey, 1999), pero
requieren de mayor examen metodolgico para obtener de ellas resul-tados
confiables en investigaciones aplicadas. Un mtodo sencillo es el clculo del
coeficiente V de Aiken (Aiken, 1980; 1985), y se aplica en un mtodo lgico
de validez: la opinin de expertos sobre la validez de un material
evaluativo. Este coeficiente es una de las tcnicas para cuantificar de
validez de contenido o relevancia del tem respecto a un dominio de
contenido en N jueces, cuya magnitud va desde 0.00 hasta 1.00; el valor
1.00 es la mayor magnitud posible que indica un perfecto acuerdo entre los
jueces respecto a la mayor puntuacin de validez de los contenidos
evaluados. La interpretacin del coeficiente usa la magnitud hallada y la
determinacin de la significancia estadstica mediante las tablas de valores
crticos que se pueden hallar en Aiken (1985). La ecuacin, algebraicamente
modificada por Penfield y Giacobbi (2004), es:

X es la media de las calificaciones de los jueces en la muestra, l es la


calificacin ms baja posible, y k es el rango de los valores posibles de la
escala Likert utilizada. Por ejemplo, si l = 1 y k = 5, entonces k = 5 1= 4.
La estimacin de los intervalos de confianza para el coeficiente V de Aiken
usar el mtodo score (Wilson, 1927; Penfield y Giocobbi, 2004), que a
continuacin describimos brevemente.

Intervalos de confianza para V de Aiken por el mtodo score

Para la construccin de intervalos de confianza se usa tradicionalmente el


mtodo de Wald, que asume la distribucin normal asinttica de la variable
en estudio; pero particular-mente su aplicacin al coeficiente V es
inapropiada (Penfield y Giocobbi, 2004). Uno de los mtodos para afrontar
las limitaciones de este mtodo tradicional es el mtodo de Wilson (1927),
conocido como mtodo score, que tiene muy buenas propiedades para el
anlisis debido que no depende de la distribucin normal de la variable, es
asimtrica respecto a la variable y es altamente exacto. Una presentacin
tcnica del mtodo score aplicado a las proporciones y sus diferencias est

62
TOMS PEDRO PABLO CAYCHO RODRGUEZ

en Newcombe (1998a, 1998b, 1998c), y otra menos tcnica en Newcombe


y Merino (2006). La derivacin de la formulacin original del mtodo score
para su uso con V de Aiken aparece en el apndice de Penfield y Giocobbi
(2004), quienes trataron la V de Aiken como una proporcin para obtener la
construccin del intervalo en un nivel de confianza determinado. La
ecuacin para el lmite inferior del intervalo es:

La complejidad computacional de este procedimiento puede hacer que el


usuario sea proclive a errores, y por tal motivo facilitamos al lector un
programa informtico de libre distribucin.

El programa y su disponibilidad

El programa est escrito y compilado en Visual Basic 6.0, y corre bajo las
versiones actuales de Windows para PC, especficamente Windows 95 o
superior. Para ejecutar el pro-grama, se presenta una interfaz grfica fcil
de manejar. La activacin del programa requiere hacer doble clic en su ico-
no respectivo.

El usuario ingresar los siguientes datos: a) la calificacin promedio o rating


obtenido previamente para el tem seleccionado para el anlisis, b) la
calificacin mnima y mxima posibles en la escala, y c) el nmero de
jueces o expertos.

Para pasar de un cuadro de texto al siguiente, el usuario puede usar el


ratn, presionar la tecla enter o tab luego del ingreso de cada dato. Con
estos datos, el programa calcular automticamente el rango de valores de
las calificaciones (calificacin mxima - calificacin mnima), el ndice V de
Aiken, y los intervalos de confianza en los niveles del 90%, 95% y 99%,
que son los niveles ms usuales en las estimaciones de intervalos de
confianza. El programa, de uso sencillo, est disponible sin costo
escribiendo al autor principal en las direcciones de contacto.

63
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Usos

El intervalo de confianza para la V de Aiken permite al usuario probar si la


magnitud obtenida del coeficiente es superior a una que es establecida
como mnimamente aceptable para concluir sobre la validez de contenido de
los tems. Por ejemplo, de desea probar si un coeficiente V es
significativamente diferente del mnimo nivel de validez segn los
estndares de los expertos; este estndar puede estar en un nivel liberal
(Cicchetti, 1994) de Vo = 0.50, o en un nivel ms conservador, como Vo =
0.70 o ms (Charter, 2003). Luego de recolectar el juicio de 5 jueces, en
una escala de 1 al 5, el rating promedio es 4.2, y al 95% de confianza el
intervalo del coeficiente obtenido ser [0.62, 0.90]. Con este dato, no
podemos aceptar el tem a la luz del estndar mnimo ms exigente (0.70),
ya que el lmite inferior del intervalo est por debajo de tal punto. En las
fases iniciales de la construccin de tems, se puede elegir un criterio ms
liberal (Vo = 0.50) o un nivel de confianza igual a 90%, especialmente si el
nmero de jueces es pequeo (Penfield y Giacobbi, 2004). Tambin, para
fines inferenciales, el enfoque de intervalos de confianza permite probar la
hiptesis nula de igualdad mediante coeficientes V, ya que la informacin
contenida en el intervalo de confianza conduce a juzgar el grado en que los
coeficientes V comparados se traslapan o se mantienen lo suficientemente
alejados como para concluir que son diferentes.

La significancia estadstica para el coeficiente V de Aiken tiene por hiptesis


nula que un valor del contraste de 0.50, que representa la variacin
aleatoria; pero este nivel es in-aceptable para fines prcticos y est por
debajo de las recomendaciones en la construccin de pruebas para cualificar
la magnitud de un coeficiente de validez (Cicchetti y Sparrow, 1981;
Cicchetti, 1994; Nunnally y Bernstein, 1995; Anastasi y Urbina, 1997; Prieto
y Muiz, 2000; Charter, 2003; Lindley, Bartram y Kennedy, 2005). Al
investigador aplicado y al usuario adems de interesarle si el valor estimado
del coefi-ciente de validez es diferente de lo que ocurrira en relaciones
aleatorias, observar si tal magnitud es lo suficientemen-te alto como para
tomar decisiones acertadas sobre la aceptabilidad de los tems para
capturar el contenido del constructo. Contrastando con la original propuesta
de prueba de hiptesis de Aiken, se puede probar cualquier valor declara-do
como valor nulo o Vo y no nicamente Vo = 0.50. Esto da al usuario
flexibilidad sobre los valores crticos apropia-dos al contexto de estudio y a
la fase de construccin de escalas en que se halla.

Finalmente, el programa permite interactivamente hacer una estimacin del


nmero de jueces necesitados para lograr un nivel deseado intervalo de
confianza, y obtener un grado de precisin del coeficiente V de Aiken. Bajo
el mismo contexto del ejemplo anterior, se necesitara un mnimo de 14

64
TOMS PEDRO PABLO CAYCHO RODRGUEZ

jueces y un nivel de confianza de 90% para lograr un intervalo que incluya


al estndar establecido, ya que el intervalo del coeficiente V de Aiken se
modificara a [0.70, 0.87]. Es fcil concluir que a medida que el tamao
muestral se incremente, la amplitud del intervalo ser menor, y por lo tan-
to, la precisin de la estimacin del coeficiente V ser mejor.

65
TOMS PEDRO PABLO CAYCHO RODRGUEZ

ACTIVIDADES DE AUTOAPRENDIZAJE

1. Elabora un cuadro comparativo de las diferentes clases de


validez

Validez de Validez de Validez Predictiva


Contenido Constructo

2. Escribe tres diferencias entre los mtodos de confiabilidad


descritos en el manual

66
TOMS PEDRO PABLO CAYCHO RODRGUEZ

AUTOEVALUACIN 3

1. Responda a las siguientes afirmaciones indicando si lo que se dice es


verdadero o falso. Justifique sus respuestas.

a) El ndice de homogeneidad de un tem indica en que grado mide lo


mismo que el test.
b) Un tem con un Hj bajo siempre debe ser descartado en un proceso de
seleccin.
c) El ndice de homogeneidad permite ver en qu medida un tem permite
predecir un criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos
rechazar aquellos tems que correlacionen poco con la puntuacin total
en el test.
e) Un tem con un ndice de homogeneidad alto pero con un bajo ndice
de validez no es necesariamente un mal tem. Estos resultados pueden
deberse a que el criterio seleccionado sea poco adecuado.

2. Un psiclogo construye una escala de actitudes para evaluar el


dogmatismo religioso. La escala consta de 4 tems, y en cada uno se
puede manifestar la opinin segn una escala de 7 puntos (del 1 al 7). A
continuacin se detallan las respuestas de un grupo normativo de 5
personas:

Obtenga e interprete el coeficiente de la prueba.

3. Un pequeo test de aptitudes intelectuales consta de dos tems de


aptitud verbal (el 1 y el 4) y de dos tems de aptitud numrica (el 2 y el
3). Despus de aplicarse a un grupo normativo, la matriz de
correlaciones se someti a un anlisis factorial, cuya matriz F rotada se
presenta en la tabla que aparece a continuacin.

a) Considera que el estudio factorial aporta datos a la validez del test?


b) Calcule el porcentaje de la varianza total explicado por el Factor I.

67
TOMS PEDRO PABLO CAYCHO RODRGUEZ

4. La confiabilidad es:
a) El grado de consistencia entre dos medidas de un mismo instrumento.
b) La propiedad por la cual un instrumento mide lo que dice medir.
c) La caracterstica de un test centrada en los errores sistemticos.
d) Slo aplicar pruebas.

5. Marque lo correcto respecto a la confiabilidad


a) En toda medida, el valor obtenido est compuesto por el valor verdadero
y los errores de medicin.
b) Un instrumento ser ms confiable en la medida que maximice el valor
verdadero y minimice el error.
c) Los nicos errores que interesan en la teora de la fiabilidad son los
errores sistemticos.
d) Un instrumento ser ms confiable en la medida que minimice el valor
verdadero.

6. Cuando evaluamos la validez de un instrumento estableciendo


estadsticamente los factores que configuran el constructo que se est
evaluando, estamos realizando
a) Validez de contenido.
b) Validez concurrente.
c) Validez predictiva.
d) Validez de constructo.

7. Marque lo correcto
a) Mayor cantidad de muestra, menor confiabilidad.
b) Dos versiones o formas de un test se consideran paralelas si, aplicadas a
una misma muestra de personas, obtienen medias y varianzas
diferentes.
c) Idealmente, el puntaje observado y verdadero coincidiran.
d) A Menos error, menos precisa sera la medicin.

8. Marque lo incorrecto
a) La validez de contenido se va mediante jueces expertos.
b) En psicologa las mediciones son objetivas y sin errores.
c) Para la estimacin de la validez de constructo se realiza el anlisis
factorial exploratorio.
d) En la confiabilidad por consistencia interna se utiliza el alfa.

68
TOMS PEDRO PABLO CAYCHO RODRGUEZ

9. Marque lo correcto con respecto al mtodos de estimacin de la


confiabilidad por mitades
a) Para cada sujeto no se obtiene la puntuacin directa en ambas mitades.
b) Si la mitad par e impar no fueran entre s formas paralelas, la correlacin
entre ambas no sera una medida de la fiabilidad de cada una de ellas.
c) Para cada sujeto se obtiene solamente una puntuacin directa para slo
una mitad.
d) Este procedimiento consiste en dividir el test en dos mitades
equivalentes.

10. Marque lo correcto con respecto al mtodos de estimacin de la


confiabilidad por formas paralelas
a) Las pruebas paralelas intentan evaluar o medir lo mismo que el test
original con tems iguales a los originales.
b) Implica disear un test y una segunda versin del mismo, denominada
forma paralela.
c) Dos versiones o formas se consideran paralelas si, aplicadas a una misma
muestra de personas, obtienen medias y varianzas probabilsticamente
diferentes.
d) Es comn disear una forma paralela de un test para obtener datos
sobre su fiabilidad.

RESPUESTAS:

1.

a) Verdadero, dado que es una correlacin entre las puntuaciones en el


tem y en el test.
b) Falso. Siempre que se pretenda medir un nico rasgo con el test, debe
ser descartado; si se pretenden medir varios rasgos, podra ser admitido.
c) Falso, la afirmacin hace referencia al ndice de validez.
d) Falso. Al disear un test que mida varios rasgos, se pretende buscar
tems que correlacionen con los tems que miden el mismo rasgo, y que
adems no correlacionen con otros tems que miden un rasgo diferente.
En esta situacin, la correlacin entre los tems y las puntuaciones del
test pueden ser bajas.
e) Verdadero. El tem mide lo mismo que el test, pero no mide lo mismo
que el criterio, que podra ser poco adecuado.

2. = 0.77, que se puede considerar un coeficiente medio-alto. Los 4


tems covaran entre s de forma apreciable.

69
TOMS PEDRO PABLO CAYCHO RODRGUEZ

3. a) Parece que s, dado que los dos tems de aptitud verbal obtienen
saturaciones altas en el Factor II, mientras que los dos tems de
aptitud numrica obtienen saturaciones altas en el Factor I.
b) El porcentaje de varianza explicado por el factor I ser (1.77)(100)/4
= 44.

4) a. 5) a. 6) d. 7) c. 8) b. 9) d. 10)

70
TOMS PEDRO PABLO CAYCHO RODRGUEZ

EXPLORACIONES ON-LINE

http://www.apa.org/science/standars.html.
http://www.uv.es/meliajl/Psicomet1.html
http://www.uv.es/facpsi/analesps.html
http://www.uniovi.es/user_htm/herrero/REMA.html
http://www.uniovi.es/UniOvi/Apartados/Departamento/Psicologia/metodos/tut
or.1indice.html
http://www.intestcom.org/
http:/huitoto.udea.edu.co/ceo/Validez02.htm
http:/webpages.ull.es/users/pprieto/escalamiento/escala41.html

BIBLIOGRAFA

Abad, F., Garrido, J., (2006). Introduccin a la Psicometra. Teora


Olea J. & Ponsoda, V. Clsica de los Test y Teora de Respuesta al Item.
Madrid: Universidad Autnoma de Madrid.

Aiken, L. R. (1985). Three coefficients for analyzing the


reliability and valid-ity of ratings. Educational and
Psychological Measurement, 45, 131-142.

Aiken, L. R. (1980). Content validity and reliability of single


items or ques-tionnaires. Educational and.
Psychological Measurement, 40, 955959.

Aiken, L. R. (1996) Tests psicolgicos y evaluacin. Mxico, D.


F.: Prentice Hall.

Alarcn, R. (1998). La Teora Clsica de los Test. Logros y


limitaciones. En Universidad de San Martn de
Porres (Ed.) Nuevos modelos en la medicin
psicolgica (pp. 9-30). Lima: Universidad San
Martn de Porres.

Alarcn, R. (2008). Mtodos y Diseos de Investigacin del


Comportamiento (2da ed.). Lima: Editorial
Universitaria.

Aliaga, J. (2005). Separatas del curso de Psicometra II.


Lima: Universidad Nacional Mayor de San Marcos

American Psychological (2001). Publication manual of the American


Association. Psychological Association (5th ed.). Washington,
DC: Author.

71
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Anastasi, A. (1978). Test Psicolgicos. Madrid: Aguilar.

Anastasi, A. y Urbina, S. (1997). Psychological testing (7th ed). New York:


McMillian.

Anderson, J. C., y (1991). Predicting the performance of measures in


Gerbing, D. W. a confirmatory factor analysis with a pretest
assessment of their substantive validities. Journal
of Applied Psychology, 76, 732-740.

Brown, F. (1980). Principios de la medicin en psicologa y


educacin. Mxico: Ed. Manual Moderno.

Charter, R. A. (2003). A breakdown of reliability coefficients by


test type and reliability method, and the clinical
implications of low reliability. Journal of General
Psychology, 130(3), 290-304.

Cicchetti D.V. y Sparrow, (1981) Developing criteria for establishing the


S.S. interrater reliability of specific items in a given
inventory. American Journal of Mental Deficiency,
86, 127-137.

Cicchetti, D. V. (1994) Guidelines, criteria, and rules of thumb for


evaluating normed and standardized assessment
instruments in psychology. Psychological
Assesments, 6, 284-290.

Cohen, R., & Swerdlik, M. (2001). Pruebas y Evaluacin Psicolgicas:


Introduccin a las pruebas y a la medicin (4ta
ed.). Mxico: McGraw-Hill.

Cortada, N (1999). Teoras psicomtricas y construccin de


test. Buenos Aires: Lugar Editorial.

Delgado, A., Escurra, M. (2006). La medicin en psicologa y educacin.


& Torres, W. Teora y aplicaciones. Lima: Ed. Hozlo.

Escurra, L. (1989) Cuantificacin de la Validez de Contenido


por Criterio de Jueces. Revista de Psicologa -
PUCP, 6, 103-111.

Fidler, F. (2002). The 5th edition of the APA Publication


Manual: Why its statistics recommendations are so
controversial. Educational and Psycho-logical
Measurement, 62, 749-770.

Hinkin, T. R. y Tracey, J. (1999) An analysis of variance approach to content


B. validation. Organizational Research Methods, 2(2),
175-186.

72
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Hogan, T. (2004). Pruebas Psicolgicas: Una Introduccin


Prctica. Mxico: Manual Moderno.

Kerlinger, F. (1975). Investigacin del comportamiento.


Tcnicas y metodologas. Mxico: Interamericana.

Kerlinger, F., & Lee, H. (2002).Investigacin del Comportamiento.


Mtodos de Investigacin en Ciencias Sociales (4ta
ed.). Mxico: McGraw-Hill Interamericana, S.A.

Lindley, P., Bartram, D., (2005) EFPA review for the description and
y Kennedy, N evaluation of psychological test: Test review form
and notes for reviewers (version 3.41). Report of
the Standing Committee on Test and Testing to
General Assembly. Granada: EFPA.

Magnuson, D. (1969). Teora de los test. Mxico: Trillas.

May, R. B., Masson, M. J., (1990). Application of statistics in behavioral


y Hunter, M. A. research. New York: Harper & Row.

Merino C. & Livia, J. (2009). Intervalos de confianza asimtricos para el


ndice la validez de contenido: Un programa Visual
Basic para la V de Aiken. Anales de Psicologa,
25(1), 169-171.

Miller, J. M., y Penfield, R. (2006). Using the Score method to construct


D. asymmetric confidence intervals: An SAS program
for content validation in scale development.
Behavior Research, Methods, Instruments, and
Computers, 37, 450-452.

Muiz, J. (1994). Teora clsica de los test (2 ed.). Madrid:


Pirmide.

Newcombe, R. G. y (2006) Intervalos de confianza para las


Merino, C. estimaciones de proporciones y sus diferencias
entre ellas. Interdisciplinaria, 23(2), 141-154.

Newcombe, R.G. (1998a).Two-sided confidence intervals for the


single proportion: Comparison of seven methods.
Statistics in Medicine, 17, 857-872.

Newcombe, R.G. (1998b). Interval estimation for the difference


between independent proportions: comparison of
eleven methods. Statistics in Medicine, 17, 873-
890.

Newcombe, R.G. (1998c). Improved confidence intervals for the


difference between binomial proportions based on
paired data. Statistics in Medicine, 17, 2635-2650.

73
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Nunnally J., & Bernstein, (1995). Teora Psicomtrica (3ra ed.). Mxico:
I. McGraw-Hill.

Penfield, R. D. y Giacobbi, (2004) Applying a score confidence interval to


P. R., Jr. Aikens item content-relevance index.
Measurement in Physical Education and Exercise
Science, 8(4), 213-225.

Penfield, R. D. y Miller, J. (2004) Improving content validation studies using


M. an asymmetric confidence interval for the mean of
expert ratings. Applied Measurement in Education,
77(4), 359-370.

Prieto, G. y Muiz, J. (2000). Un modelo para evaluar la calidad de los


tests utilizados en Espaa. Papeles del Psiclogo,
77, 65-71.

Schriesheim, C. A., (1993). Improving construct measurement in


Powers, K. J., Scandura, management re-search: Comments and a
T. A., Gardiner, C. C., y quantitative approach for assessing the theo-
Lan-kau, M. J. retical adequacy of paper-and-pencil and survey-
type instruments. Journal of Management, 19,
385-417.

Sireci, S. G. (1998a) Gathering and analyzing content validity


data. Educational Assessment, 5(4), 299-321.

Sireci, S. G. (1998b) The construct of content validity. Social


Indicators Re-search, 45, 83-117.

Wilkinson, L., y APA Task (1999). Statistical methods in psychology journals:


Force on Statistical Guidelines and explanations. American
Inference. Psychologist, 54, 594-604.

Wilson, E.B. (1927). Probable inference, the law of succession,


and statistical inference. Journal of the American
Statistical Association, 22, 209-212.

74
TOMS PEDRO PABLO CAYCHO RODRGUEZ

BIBLIOGRAFA COMENTADA

Cortada de Kohan, N. (2000). Tcnicas psicolgicas de evaluacin y


exploracin. Mxico D.F.: Editorial Trillas.

En el libro se presentan las tcnicas de evaluacin psicolgica sealando su


fundamentacin terica, y analizar en forma crtica sus mritos y sus
insuficiencias desde el punto de vista terico tanto de su elaboracin como de
su aplicacin. De esta manera cuando el psiclogo desee estudiar algn
aspecto de la inteligencia, el conocimiento, las actitudes o la personalidad,
entre otros temas, podr consultar cules son los instrumentos ms
adecuados para sus fines.

75
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Cuarta

UNIDAD

Normatividad del Instrumento


Psicomtrico

El aspecto ms importante y significativo de la elaboracin de la prueba


fue el proceso de construir las normas

Glen Roberts, Ph.D.


Extracto del Test Developer Prrofile publicado en Cohen (1999)
y en internet en www.mayfieldpub.com/psychtesting

Qu son los baremos?


Cmo se clasifican los baremos?
Cmo determinacin los baremos de una prueba para una muestra
de personas?

76
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Competencias

CONCEPTUALES:

Conoce los diferentes tipos de baremos utilizados en


psicologa.
Conoce cmo se utilizan las tablas de baremos para
obtener el diagnstico psicolgico.

PROCEDIMENTALES:

Emplea datos empricos y criteriales para construir


normas de interpretacin de las diferencias individuales
que le permitan evaluar el desempeo de los
examinados en los instrumentos de medicin.

ACTITUDINALES:

Valora la utilidad de los baremos para el diagnstico


psicolgico.
Valora la preparacin del investigador en la aplicacin
e interpretacin de los resultados de los test
psicomtricos.

77
TOMS PEDRO PABLO CAYCHO RODRGUEZ

CONTENIDO TEMTICO

Leccin I: Baremos. Conceptos y clasificacin

Baremos Cronolgicos
Baremos Percentiles
Puntuaciones tpicas

Leccin II: Determinacin del Baremo

Obtencin de percentiles
Obtencin del rango percentilar
Obtencin de eneatipos
Equivalencias entre puntajes T; CI; eneatipos; percentiles; nivel y
rango

78
TOMS PEDRO PABLO CAYCHO RODRGUEZ

ESQUEMA CONCEPTUAL

Normatividad
del
Instrumento

Baremos

Baremos Obtencin de
Cronolgicos Baremos

Baremos
Cronolgicos

Baremos
Percentiles

Puntuaciones
Tpicas

CONCEPTOS CLAVES

Normatividad, baremo, baremo cronolgico, puntuaciones tpicas, percentiles,


rango percentilar, eneatipos, nivel, rangos.

79
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Leccin I

Baremos
Conceptos y clasificacin5

La puntuacin directa de una persona en un test no es directamente


interpretable si no la referimos a los contenidos incluidos en el test o al
rendimiento de las restantes personas que comparten el grupo normativo.
Nosotros centramos en este segundo sentido el tema de la interpretacin de
una puntuacin directa en un cuestionario, para lo cual es necesario tratar
el tema de la obtencin de baremos para comparar esta puntuacin con las
que obtienen las personas que han formado el grupo normativo. De una u
otra forma, los baremos consisten en asignar a cada posible puntuacin
directa un valor numrico (en una determinada escala) que informa sobre la
posicin que ocupa la puntuacin directa (y por tanto la persona que la
obtiene) en relacin con los que obtienen las personas que integran el
grupo normativo donde se bareman las pruebas. Entre las mltiples formas
de baremar un test, destacamos las siguientes:

- Baremos cronolgicos: Edad Mental y Cociente Intelectual.


- Percentiles o percentiles.
- Puntuaciones tpicas: estndares, normalizadas, escalas T y D, eneatipos.

Lo ms usual en las pruebas comercializadas es encontrarse baremos


realizados en escala de percentiles eneatipos.

1. Baremos cronolgicos

Para rasgos psicolgicos que evolucionan con la edad (sobre todo de tipo
intelectual) tiene sentido comparar la puntuacin de un sujeto con las
que obtienen los de su misma edad y los de edades diferentes. Esto se
puede realizar mediante dos tipos diferentes de baremos: las Edades
Mentales (EM) y los Cocientes Intelectuales (CI).

Supongamos que aplicamos un test de Inteligencia de dificultad


progresiva a diferentes grupos de edad (nios entre 5 y 14 aos), y que
obtenemos las puntuaciones medias de cada grupo de edad en la prueba,
siendo las que siguen:

5
Algunas de las ideas de este acpite se basan en Abad, F., Garrido, J., Olea J. & Ponsoda,
V. (2006). Introduccin a la Psicometra. Teora Clsica de los Test y Teora de Respuesta al
Item. Madrid: Universidad Autnoma de Madrid. Se agradece a los autores por la
deferencia para con el autor, a fin de que sean tomados para dar forma a los captulos de
esta unidad.

80
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Hemos realizado una correspondencia entre las edades y puntuaciones


medias que nos va permitir obtener la EM de cualquier nio al que
apliquemos el test. Por ejemplo, si un nio obtiene el test una puntuacin
directa de 14 puntos, le asignamos una EM de 9 aos,
independientemente de su edad cronolgica real, ya que esa puntuacin
es la media que obtienen los nios de 9 aos.

El Cociente Intelectual (CI) se denomina as (y no coeficiente, como es


usual escuchar en determinados mbitos) porque es el resultado de
dividir la edad mental (EM) entre la edad cronolgica (EC) del sujeto;
para evitar decimales el resultado se multiplica por 100, de tal manera
que se puede obtener a partir de la frmula:

Por ejemplo, en el ejemplo anterior, si un nio de 10 aos obtiene una


puntuacin directa de 18 puntos, diremos que su EM es de 11 aos, y
que su CI es:

Podemos observar que si la EM de un sujeto coincide exactamente con su


EC, el CI es igual a 100, e indicar que este sujeto obtiene exactamente
la puntuacin media de su grupo de edad. Si el CI supera el valor de 100
significar que el sujeto tiene una Inteligencia superior al promedio de su
edad, mientras que si su CI es inferior a 100, significa que el sujeto tiene
una inteligencia inferior a la media de su grupo de edad. Usualmente,
Cocientes Intelectuales inferiores a 70 indican problemas importantes
(deficiencias) de tipo cognitivo, mientras que Cocientes Intelectuales
superiores a 140 indican excepcionalidad intelectual.

2. Baremos percentiles

Los percentiles, como recordaremos, representan medidas de posicin en


una distribucin de frecuencias. Los baremos percentiles consisten en
asignar a cada posible puntuacin directa un valor (en una escala de 1 a
100) que se denomina percentil y que indican el porcentaje de sujetos
del grupo normativo que obtienen puntuaciones iguales o inferiores a las
correspondientes directas. As, si un sujeto obtiene en un cuestionario de

81
TOMS PEDRO PABLO CAYCHO RODRGUEZ

autoritarismo una puntuacin de 20 puntos, poco sabemos sobre su nivel


de autoritarismo, pero si sabemos que a esa puntuacin le corresponde el
percentil 95 , ya conocemos que este sujeto supera en ese rasgo al 95%
de los sujetos utilizados para baremar el test; si el grupo normativo fuese
una muestra representativa de la poblacin general, podramos inferir
que esta persona supera en autoritarismo al 95% de las personas, y que
slo un 5% de personas son ms autoritarias que l.

El modo de clculo del percentil asociado a una puntuacin se resume en


los siguientes pasos:

1) Disponer en una columna, ordenadas de mayor a menor o de menor a


mayor, las posibles puntuaciones directas (Xi) que se puedan obtener
en el test.

2) Asignar a cada puntuacin su frecuencia (fi), es decir, el n de sujetos


del grupo normativo que la han obtenido.

3) Disponer una tercera columna de frecuencias acumuladas (Fi).

4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el
percentil asignado a la puntuacin directa Xi, Fi la frecuencia
acumulada correspondiente a Xi y N el nmero total de sujetos que
forman el grupo normativo.

Ejemplo: Supongamos que aplicamos un cuestionario de conocimientos


en el manejo de ordenadores a un grupo de 200 universitarios y que las
puntuaciones directas obtenidas (X) y los sujetos que obtuvieron cada
una de ellas (f) son las siguientes:

A partir de estos datos, los percentiles correspondientes a cada


puntuacin directa, se obtienen de la siguiente forma:

82
TOMS PEDRO PABLO CAYCHO RODRGUEZ

As, si un sujeto obtiene una puntuacin directa de 20 puntos en el


cuestionario, diremos que supera en conocimientos informticos al 9,5%
de los sujetos universitarios, mientras que ms del 90% de los alumnos
universitarios tienen mayor conocimiento en el manejo de ordenadores
que la persona evaluada.

La ventaja de los rangos percentilares es que el puntaje derivado ms


rpido de entender y el de ms fcil comunicacin, lo que lo hace muy
satisfactorio para informar a las personas que carecen de una formacin
estadstica. Adems, se puede interpretar de una manera exacta, an,
cuando la distribucin de los puntajes del test no sean estrictamente
normales. Por el contrario, una desventaja es que, al no tener distancias
iguales (por ser una escala ordinal y no de intervalo), tiende a exagerar
las pequeas diferencias hacia la zona media, diferencias que no son
importantes y reduce el tamao aparente de diferencias realmente
importantes y amplias en los extremos de la distribucin. Por otra parte,
es poco adecuado para los anlisis estadsticos, pues no se pueden
emplear operaciones aritmticas entre ellos.

3. Puntuaciones tpicas

En Anlisis de Datos se vio el significado y proceso de clculo de las


puntuaciones tpicas (Zx) asociadas a unas puntuaciones directas
determinadas. En este apartado vamos a encontrar una clara aplicacin
de estas puntuaciones, y de otras que se derivan de stas, para baremar
un cuestionario; vamos a diferenciar adems entre baremos tpicos
estndares y baremos normalizados.

3.1 Puntuaciones estndar

Como sabemos, una puntuacin tpica Zi se obtiene haciendo:

83
TOMS PEDRO PABLO CAYCHO RODRGUEZ

puede ser positiva o negativa, e indica el n de desviaciones tpicas


que se aleja de la media una determinada puntuacin directa. As,
conociendo la puntuacin tpica de un sujeto en un test y la
variabilidad del grupo normativo, podemos interpretar el nivel de
rasgo del sujeto (atendiendo a la cuanta y signo de su puntuacin Zi)
en comparacin con los niveles de los restantes sujetos. Por ejemplo,
una puntuacin tpica de -2,33 indica que es un sujeto cuya
puntuacin se encuentra 2,33 desviaciones tpicas por debajo de la
media.

3.2 Puntuaciones normalizadas

Cuando se puede asumir (o se comprueba) que las puntuaciones de


un grupo normativo en un test siguen una distribucin normal, un
percentil concreto Ci dividido entre 100 indica el rea de la curva
normal que queda por debajo de la puntuacin correspondiente. Por
ejemplo, observando la curva normal de la figura, podemos constatar
que el C1 es aproximadamente el percentil 10, y deja por debajo un
rea de 0,10 de la curva normal; el C2 es el percentil 42, y deja por
debajo una proporcin de 0,42 del rea de la curva normal; el C3 es
aproximadamente el percentil 95, y deja por debajo de s un rea de
0,95 de la curva normal.

Pues bien, conociendo la proporcin que queda por debajo de un


punto dado de la distribucin, podemos utilizar la tabla de la curva
normal para obtener sin clculos la puntuacin tpica asociada (Zn),
que se denominar puntuacin tpica normalizada. Indicar el nmero
de desviaciones tpicas que una puntuacin se encuentra por encima
(si es positiva) o por debajo (si es negativa) de la media en una

84
TOMS PEDRO PABLO CAYCHO RODRGUEZ

distribucin normal. Por ejemplo, las puntuaciones tpicas


normalizadas asociadas a los percentil 1, 26, 57 y 97 son:

Si no se puede asumir racionalmente o no se puede comprobar que


las puntuaciones siguen una distribucin normal, no se puede hacer
uso de las tablas de la curva normal para obtener las Zn. S podran
calcularse las puntuaciones tpicas estndares Zx, ya que no
asumimos ningn supuesto sobre la distribucin de los datos. Si los
datos de una muestra se ajustan a la normal, entonces cada Zx de
una persona es similar a su Zn.

Las puntuaciones normalizadas adquieren mayor significado cuando


comprendemos su relacin con la distribucin o curva normal llamada
curva de Gauss, la cual tiene las siguientes propiedades:

- La curva es simtrica, es decir, la media, la mediana y la moda


coinciden en la mitad de la curva.
- La curva es asinttica en relacin al eje de la abcisa. Esto indica
que las colas de la curva nunca llegan a tocar el eje horizontal y
se extienden desde el infinito negativo, hasta el infinito positivo.
- La ordenada mxima de la curva se ubica en la media, donde la
unidad de la curva normal es igual a 0.3989 y z = 0.
- A partir de los puntos donde se ubican (+ -), 1 desviacin
estndar (encima o debajo de la curva promedio), la curva cambia
en relacin al eje de las abcisas de convexa a cncava.
- Entre (+ -) la desviacin estndar cubre el 68.29% del rea de la
curva.

La mayor ventaja de transformar puntajes brutos a puntuaciones


normalizadas, es que con las primeras tendramos un nmero
infinito de distribuciones normales con diferentes medias o promedios
aritmticos y desviaciones estndar, mientras que con puntuaciones
normalizadas podemos relacionar todas las distribuciones normales a
una distribucin de frecuencia relativa. De esta manera, cuando la
curva normal es utilizada como referencia, a travs de las
puntuaciones normalizadas, recibe el nombre de distribucin normal
estndar, en donde el promedio de dicha distribucin es 0 y la
desviacin estndar es 1.

85
TOMS PEDRO PABLO CAYCHO RODRGUEZ

3.3 Puntuaciones derivadas

Las puntuaciones tpicas (estndares y normalizadas) tienen dos


dificultades formales para su interpretacin: la posibilidad de asumir
valores no enteros y negativos. Con objeto de superar estas
pequeas dificultades, se han propuesto otros baremos, que no son
ms que una transformacin lineal de las puntuaciones tpicas, con lo
que no se alteran las propiedades de la escala tpica. Estas
puntuaciones se denominan escalas tpicas derivadas (si el objeto
de la transformacin lineal es una puntuacin tpica estndar) o
escalas tpicas derivadas normalizadas (si suponen la
transformacin lineal de una puntuacin tpica normalizada), siendo
las principales las denominadas como escala T, escala D y estaninos
(o eneatipos):

En definitiva, las puntuaciones T representan una escala con media


50 y desviacin tpica 10. As, una puntuacin T = 78 significa que la
persona obtiene una puntuacin Zi = 2.8, es decir, 2.8 desviaciones
tpicas por encima de la media del grupo normativo.

Las puntuaciones D suponen una escala con media 50 y desviacin


tpica 20. Por ejemplo, una puntuacin D = 35 indica que la persona
obtuvo una puntuacin Zi = -.75, o lo que es lo mismo, una
puntuacin que se encuentra .75 desviaciones tpicas por debajo de la
media del grupo normativo donde se barema el test.

Los estaninos representan otra escala con media 5 y desviacin tpica


2. Una persona que obtenga el estanino 8 en un test de aptitud
espacial indicar que se encuentra 1.5 desviaciones tpicas por
encima de la media del grupo normativo.

Consideremos un caso de baremacin de una misma puntuacin en


diferentes escalas. Por ejemplo, a un sujeto que obtiene una
puntuacin directa de 30 puntos en un test de aptitud mecnica con

86
TOMS PEDRO PABLO CAYCHO RODRGUEZ

media de 38 puntos y desviacin tpica 4, le podemos asignar


puntuaciones en los siguientes baremos:

Todas estas puntuaciones en escalas o baremos diferentes indican lo


mismo: que es un sujeto que se encuentra dos desviaciones tpicas
por debajo de la media de grupo normativo en aptitud mecnica.

La interpretacin de cada una de las escalas tpicas derivadas


normalizadas sigue la misma lgica que su correspondiente escala
tpica derivada sin normalizar, haciendo siempre la salvedad de que la
interpretacin hay que referirla a una distribucin normal.

La principal ventaja de las puntuaciones tpicas, es que son tiles


para los anlisis estadsticos (se asume que se dan en una escala de
intervalo). Al contrario, no pueden ser fcilmente interpretados
cuando las distribuciones empricas de puntajes del test se alejan del
patrn de la distribucin normal, lo cual puede llevar a conclusiones
errneas.

87
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Leccin II

Determinacin del Baremo

1. Obtencin de percentiles

Para obtener percentiles existen procedimientos grficos y numricos. En


este caso utilizaremos los procedimientos numricos.

Para halla percentiles (Pc) se utiliza la siguiente frmula:

Pc =li + n x /100 fa i

Donde:

Pc= Percentil
li = Lmite inferior matemtico, en el que se encuentra n x/100
n x/100 = Nmero de datos (n) multiplicado por el percentil buscado
(x); todo ellos dividido entre 100 (constante aplicada por ser referida a
tanto por ciento).
f = Frecuencias, nmero de sujetos en el intervalo en el cual se
encuentra n x/100.
fa = Frecuencia acumulada al intervalo inferior en el cual se encuentra n
x/100.
i = Amplitud de intervalo.

Para hallar percentiles se sigue el siguiente procedimiento:

1. Identifique el puntaje total percentil a obtener (Pc), para


reemplazarlo luego en la frmula.
2. Calcule n x/100, donde: n= tamao de la muestra; x = percentil
buscado; 100 = constante.
3. Halle li. Con el dato anterior vaya a la columna Fa y empezando
desde el intervalo inferior busque el intervalo en el cual se
encontrara el valor de n x/100. El lmite inferior de este intervalo al
cual se le resta 0.5 constituye el lmite inferior matemtico. Haga el
reemplazo en la frmula.

88
TOMS PEDRO PABLO CAYCHO RODRGUEZ

4. Fa = Determine la frecuencia acumulada al intervalo inferior en el


cual se encuentra n x/100. Con el valor hallado haga el reemplazo
en la frmula.
5. F = Establezca la frecuencia o nmero de sujetos dentro del intervalo
en el cual se encuentra n x/100.
6. i = Determine la amplitud del intervalo y haga el reemplazo en la
frmula.
7. Realice las operaciones indicadas en la frmula y obtendr el Pc
buscado.

Ejemplo, 177 nios rindieron un test de vocabulario. Los puntajes


directos (x), frecuencias (F) y frecuencias acumuladas (Fa) son las
siguientes. Cul es el valor del Pc 90?

(x) F Fa
32 4 177
31 7 173
30 17 166
29 22 149
28 18 127
27 28 109
26 15 81
25 22 66
24 14 44
23 14 30
22 12 16
21 3 4
20 1 1

1. Pc = 90

2. n x/100 = 177 x 90/100=159.

3. li =29.5 (el valor de n x/100 = 159.3 es ubicado en la columna Fa. Se


encuentra entre 149 y 166. En consecuencia el intervalo en el cual se
ubica este valor es el que corresponde al puntaje 166; vale decir, al
puntaje directo 30. El lmite inferior matemtico de 30 es 29.5.

4. Fa = La frecuencia acumulada al intervalo inferior en el cual se


encuentra n x/100, corresponde al intervalo 29, es decir, la Fa es
149.

89
TOMS PEDRO PABLO CAYCHO RODRGUEZ

5. F = la frecuencia de sujetos dentro del intervalo en el cual se


encuentra n x/100 es 17.

6. i = la amplitud del intervalo es 1.

Reemplazando los valores en la frmula:

Pc 90 = 29.5 + 159.3 149 1


17

Pc 90 = 30.19 = 30

2. Obtencin del rango percentilar

Para hallar qu percentil le corresponde a un determinado puntaje, se


sigue la siguiente secuencia:

1. Prepare una distribucin de frecuencias de las puntuaciones directas


en intervalos de amplitud uno (x).

2. Determine la frecuencia acumulada al lmite inferior (Fali) de cada


puntaje directo (empezando por el intervalo inferior, es conveniente
hacerse la pregunta Cul es el Fali de cada puntaje directo?). Esto es,
la suma de todas las puntuaciones que se encuentran por debajo del
puntaje directo en cuestin. Por ejemplo, en la tabla anterior que
utilizaremos tambin en este caso (x), la Fali del puntaje directo (x)
23 es 1+3+12=16, que es el nmero de sujetos con puntuaciones
directas de 23 o menos.

3. Determine la frecuencia acumulada en el punto medio del intervalo de


las puntuaciones Cul es el fapm de cada intervalo? Se obtiene
dividiendo f/2 y sumndole al resultado su correspondencia Fali. Por
ejemplo, al puntaje directo (x) de 23, le corresponde:

Fapm = 14/2 + 16 = 23.0

4. Determine la proporcin acumulada (PA9 dividiendo la Famp


correspondiente entre N (nmero de sujetos). Por ejemplo, en nuestra
tabla a la calificacin directa de 23 le corresponde el PA = 23.0:177 =
0.130.

90
TOMS PEDRO PABLO CAYCHO RODRGUEZ

5. Finalmente obtenga los rangos percentialres (RP) multiplicando el PA


correspondiente por 100. As la calificacin directa de 23 se le asigna
el RP= 0.130 x 100 =13. Un RP de 13 significa que 13 de cada 100
estudiantes (13%) alcanzaron puntuaciones directas menores a 23 en
el test y 87 de cada 100 tuvieron puntuaciones ms altas.

x F Fali FApm PA RP
32 4 173 175.0 0.989 99
31 7 166 169.5 0.958 96
30 17 149 157.5 0.890 89
29 22 127 138.0 0.780 78
28 18 109 118.0 0.667 67
27 28 81 95.0 0.537 54
26 15 66 73.5 0.415 45
25 22 44 55.0 0.311 31
24 14 30 37.0 0.209 21
23 14 16 23.0 0.130 13
22 12 4 10.0 0.056 6
21 3 1 2.5 0.014 1
20 1 0 0.5 0.003 1

3. Obtencin de eneatipos

1. Calcular la media de la distribucin.


2. Calcular la desviacin estndar de la distribucin
3. Obtener la constante K: K=S/4
4. Seguir el siguiente algoritmo.

Eneatipo Algoritmo
9= X + (K x 7)
8= X + (K x 5)
7= X + (K x 3)
6= X + (K x 1)
5= X - (K x 1)
4= X - (K x 3)
3= X - (K x 5)

91
TOMS PEDRO PABLO CAYCHO RODRGUEZ

2= X - (K x 7)
1= X - (K x 1)

4. Equivalencias entre puntajes T; CI; eneatipos; percentiles;


nivel y rango

T CI Eneatipos Percentiles Nivel Rango


67 - 128- 9 96 99 Muy Alto I
63 - 66 121 -127 8 89 95 Alto II+
58 - 62 112 120 7 77 88 Alto II
53 - 57 104 111 6 60 76 Medio III+
48 - 52 96 103 5 40 59 Medio III
43 - 47 88 95 4 23 39 Medio III-
38 - 42 80 87 3 11 22 Bajo IV
33 - 37 72 79 2 4 10 Bajo IV-
0 - 32 63 - 71 1 0-3 Muy Bajo V

92
TOMS PEDRO PABLO CAYCHO RODRGUEZ

TEXTOS SELECCIONADO 4

DIFERENCIACIN ENTRE NORMAS Y ESTANDARIZACIN6

Normas

Las pruebas frecuentemente utilizadas en el diagnstico son las llamadas


pruebas referidas a normas (Sattler, 1988), pues los resultados individuales
se comparan con los resultados de un grupo, para conocer la posicin del
desempeo del sujeto frente a ellos. Este grupo de comparacin o
referencia se llama grupo normativo (Cohen & Swerdlik, 1999), es decir, el
grupo de personas cuyo rendimiento en una prueba se usa para generar
normas para tal prueba y como fuente de referencia para evaluar los
resultados individuales (Cohen & Swerdlik, 1999). Sin embargo, hay normas
o grupos de referencia de tipo nacional, regional y local; segn la edad y
grado de instruccin; segn el tipo de desempeo laboral u otra condicin
especfica. Por ejemplo, normas para estudiantes de educacin especial,
para profesores con n aos de experiencia, etc. Esta informacin
generalmente se encuentra en las tablas normativas o baremos que los
manuales o algunos artculos cientficos publican; en los artculos cientficos,
los datos normativos se pueden construir a partir de los reportes de la
media y desviacin estndar del grupo estudiado.

Una prctica equivocada sera elegir datos normativos de un grupo


especfico y utilizarlo para interpretar los resultados de un sujeto con
caractersticas notablemente diferentes al grupo normativo. Por ejemplo, se
han encontrado evidencias que sugieren que la interpretacin normativa
para hombres y mujeres (o personas de media vs. baja condicin
socioeconmica, o adolescentes vs. adultos) en algunos atributos debe

6
Extrado de: Merino, C. & Kenny, D. (2003) Revisin de Algunos Conceptos y
Recomendaciones en la Medicin Psicopedaggica. Revista de Actualidad
Pedaggica, 23(55), 51-59.

93
TOMS PEDRO PABLO CAYCHO RODRGUEZ

hacerse por separado, pero una prctica negligente sera no tomar en


cuenta esta informacin cuando iniciamos la calificacin de la prueba
aplicada.

Generalmente, las diferencias normativas se extraen de un estudio en que


se muestra que las diferencias entre las submuestras (por ejemplo,
profesores varones vs. mujeres) ha evidenciado diferencias significativas en
su distribucin. El usuario debe identificar si la prueba posee normas
relevantes con las cuales comparar sus resultados individuales y si se
reporta algn tipo de descripcin de la muestra, as como los
procedimientos de seleccin. Existen tambin normas de limitada utilidad,
como los que son elaborados en (a) el periodo de construccin de una
prueba o (b) recogidas de la aplicacin especfica en un grupo (Angoff,
1971). En la primera situacin, el autor de la prueba deriva las normas del
grupo cuyos resultados sirvieron para el anlisis de tems y la definicin
final del instrumento. En la segunda situacin, la muestra es auto-
seleccionada o slo estaba ah. Se debe considerar finalmente que las
conclusiones basadas en normas tienden a variar con respecto al grupo de
comparacin (Andreani, 1975), de tal modo que el puntaje de un sujeto
puede ser alto al usar una norma pero cuando es comparada con otras
normas, su ubicacin puede descender (Lyman, 1991).

Estandarizacin

Bsicamente, la estandarizacin seala que el instrumento de medicin est


organizado de tal manera que es administrado en condiciones estndar, es
decir, igual para todos los momentos de aplicacin, a una muestra
representativa de sujetos, con el propsito de establecer normas (Cohen &
Swerdlik, 1999). Glascoe (1997) afirma que el trmino estandarizacin
significa, idealmente que (1) las instrucciones de administracin y
calificacin han sido probados en estudios de campo y estn establecidos
claramente, pudiendo ser administrados de la misma manera por diferentes
examinadores; (2) que la prueba se ha aplicado a una gran cantidad de
sujetos que han sido extrados representativamente de la poblacin de
inters; y (3), que se ha obtenido un desempeo promedio de los sujetos
de acuerdo a ciertas variables clasificadoras (sexo, regin, estatus
socioeconmico, etc.). La modificacin de alguna parte estandarizada de la
prueba, por lo tanto, introducira una variable de error en el puntaje
obtenido.

Las instrucciones de administracin y calificacin son las guas suficientes


para decidir la flexibilidad o rigurosidad que el examinador usar. Uno
debera cuestionar los resultados obtenidos por una aplicacin en la que se
las instrucciones originales son modificadas, si es que ello no forma parte
de una experimentacin de las modificaciones para algn fin preestablecido.

94
TOMS PEDRO PABLO CAYCHO RODRGUEZ

ACTIVIDADES DE AUTOAPRENDIZAJE

1. Elabora un mapa conceptual indicando los principales tipos de


baremos que se pueden utilizar, sealando adems ejemplos de
instrumentos que los utilicen.

2. Elabora un proyecto para elaborar un test psicomtrico. Elabora


los tems. Aplica los mismos a una muestra de 100 personas y
realiza el anlisis de los tems, confiabilidad, validez y
determinacin de baremos tal como indica en el manual.

95
TOMS PEDRO PABLO CAYCHO RODRGUEZ

AUTOEVALUACIN 4

1. Cul es el objetivo de la construccin de baremos?

2. Un grupo de 200 personas obtuvo en un test de inteligencia una media


de 14.78 puntos y una desviacin tpica de 3.34. La siguiente tabla
recoge la distribucin de frecuencias de las puntuaciones obtenidas por
los sujetos en el test:

a) Calcule los percentiles correspondientes a cada una de las puntuaciones


directas.
b) Calcule las puntuaciones tpicas, puntuaciones T y D que corresponden a
sujetos con puntuaciones directas de 10 y 21 puntos.
c) Suponiendo que la distribucin se adapta a la distribucin de la curva
normal, que puntuaciones tpicas normalizadas y en las escalas derivadas
(T, D y E) corresponderan a esos mismos sujetos.

3. Marque lo correcto
a) Si el CI supera el valor de 100 significar que el sujeto tiene una
Inteligencia inferior al promedio de su edad.
b) Si el CI es inferior a 100, significa que el sujeto tiene una inteligencia
normal superior.
c) Cocientes Intelectuales inferiores a 70 indican excepcionalidad
intelectual de tipo cognitivo
d) Cocientes Intelectuales inferiores a 70 indican problemas importantes
de tipo cognitivo

4. Marque lo incorrecto

96
TOMS PEDRO PABLO CAYCHO RODRGUEZ

a) Los baremos percentiles consisten en asignar a cada posible


puntuacin directa un valor (en una escala de 1 a 100) que se
denomina percentil y que indican la media de sujetos del grupo
normativo que obtienen puntuaciones iguales o superiores a las
correspondientes directas.
b) Si un sujeto obtiene en un cuestionario de autoritarismo le
corresponde el percentil 95, ya conocemos que este sujeto supera en
ese rasgo al 95% de los sujetos utilizados para baremar el test.
c) Los percentiles, representan medidas de posicin en una distribucin
de frecuencias
d) La desventaja de los rangos percentilares es que el puntaje derivado
es ms rpido de entender y ms fcil comunicacin.

5. Es incorrecto en relacin a los baremos


a) Los baremos consisten en asignar a cada posible puntuacin directa un
valor numrico que informa sobre la posicin que ocupa la puntuacin
directa en relacin con los que obtienen las personas que integran el
grupo normativo.
b) La puntuacin directa de una persona en un test no es directamente
interpretable si no la referimos a los contenidos incluidos en el test o al
rendimiento de las restantes personas que comparten el grupo
normativo.
c) Puntuaciones tpicas pueden ser: estndares, normalizadas, escalas T
y D, eneatipos
d) Baremos cronolgicos no pueden ser: Edad Mental y Cociente
Intelectual.

6. Marque lo correcto
a) Las Edades Mentales (EM) y los Cocientes Intelectuales (CI) son
baremos percentiles.
b) Si el CI supera el valor de 100 significar que el sujeto tiene una
Inteligencia inferior al promedio de su edad
c) El Cociente Intelectual se denomina as porque es el resultado de
dividir la edad mental entre la edad cronolgica del sujeto
d) En la estimacin del coeficiente intelectual, para evitar decimales el
resultado se divide por 100

7. Los baremos percentiles

a) Son poco adecuados para los anlisis estadsticos, pues no se pueden


emplear operaciones aritmticas entre ellos.

97
TOMS PEDRO PABLO CAYCHO RODRGUEZ

b) Pueden interpretarse de una manera inexacta, slo cuando la


distribucin de los puntajes del test sean estrictamente normales
c) Son ms rpido de entender y ms difciles de comunicar
d) Los baremos percentilares pueden interpretarse de una manera
inexacta, slo cuando la distribucin de los puntajes del test sean
estrictamente normales.

8. Marque lo correcto
a) Los baremos percentiles consisten en asignar a cada posible
puntuacin directa un valor (en una escala de 1 a 100) que se
denomina eneatipo y que indican la media de sujetos del grupo
normativo que obtienen puntuaciones iguales o superiores a las
correspondientes directas.
b) Si un sujeto obtiene en un cuestionario de autoritarismo le
corresponde el percentil 95, ya conocemos que este sujeto supera en
ese rasgo al 5% de los sujetos utilizados para baremar el test.

c) La desventaja de los rangos percentilares es que el puntaje derivado


es ms rpido de entender y ms fcil comunicacin
d) Los percentiles, representan medidas de posicin en una distribucin
de frecuencias

9. Es correcto en relacin a los baremos


a) Los baremos no consisten en asignar a cada posible puntuacin directa
un valor numrico que informa sobre la posicin que ocupa la
puntuacin directa en relacin con los que obtienen las personas que
integran el grupo normativo.
b) Baremos cronolgicos no pueden ser: Edad Mental y Cociente
Intelectual.
c) Puntuaciones tpicas no pueden ser: estndares, normalizadas, escalas
T y D, eneatipos
d) La puntuacin directa de una persona en un test no es directamente
interpretable si no la referimos a los contenidos incluidos en el test o al
rendimiento de las restantes personas que comparten el grupo
normativo.

10. Marque lo incorrecto


a) Las Edades Mentales (EM) y los Cocientes Intelectuales (CI) son
baremos cronolgicos.
b) El Cociente Intelectual se denomina as porque es el resultado de
dividir la edad mental entre la edad cronolgica del sujeto
c) Si el CI supera el valor de 100 significar que el sujeto tiene una
Inteligencia inferior al promedio de su edad
d) En la estimacin del coeficiente intelectual, para evitar decimales el
resultado se multiplica por 100

98
TOMS PEDRO PABLO CAYCHO RODRGUEZ

RESPUESTAS

1. La construccin de baremos tiene por objeto poder interpretar


puntuaciones directas de los test en funcin de la posicin relativa que
esas puntuaciones directas tienen en el conjunto de las puntuaciones
obtenidas.

2. a) Los percentiles se muestran en la cuarta fila

b)

c)

3) d. 4) d. 5) d. 6) c. 7) a. 8) d. 9) d. 10) c.

99
TOMS PEDRO PABLO CAYCHO RODRGUEZ

EXPLORACIONES ON-LINE

http://www.uniovi.es/UniOvi/Apartados/Departamento/Psicologia/metodos/tut
or.1indice.html
http://www.intestcom.org/
http:/huitoto.udea.edu.co/ceo/Validez02.htm
http:/webpages.ull.es/users/pprieto/escalamiento/escala41.html
http:/www.aera.net/
http:/www.ncme.org/
http:/www.educastur.princast.es/eoep/eonalon/investigacin/inter_m2_fa.pdf

BIBLIOGRAFA

Abad, F., Garrido, J., (2006). Introduccin a la Psicometra. Teora


Olea J. & Ponsoda, V. Clsica de los Test y Teora de Respuesta al Item.
Madrid: Universidad Autnoma de Madrid.

Andreani, O., (1975). Aptitud mental y rendimiento escolar.


Barcelona: Herder.

Angoff, W. H. (1989). Scales, norms, and equivalente scores. En


R. L. Linn (Ed.) Educational measurement, New
York: ACE/Mac Millan.

Cohen, R. J. & Swerdlik, (1999) Psychological testing and assessment: An


M. E. introduction to test and measurement (4th ed.)
Montain View, California: Mayfield Publishing.

Glascoe, F. (1997). A validation study and the psychometric


propierties of the Brigance Screens. North Billera,
Massachusetts: Curriculum Associates.

Lyman, H. (1991). Test scores and what they mean (5th ed.)
USA: Allyn and Bacon.

Merino, C. & Kenny, D. (2003) Revisin de Algunos Conceptos y


Recomendaciones en la Medicin Psicopedaggica.
Revista de Actualidad Pedaggica, 23(55), 51-59.

Sattler, J. M. (1988). Evaluacin del a inteligencia infantil y


habilidades especiales, (2da edicin) Mxico, D.F.:
El Manual Moderno.

100
TOMS PEDRO PABLO CAYCHO RODRGUEZ

BIBLIOGRAFA COMENTADA

Magnusson, D. (1972). Teora de los Test. Mxico D.F.: Editorial Trillas.

El propsito fundamental del libro es ofrecer una introduccin coherente,


desde el punto de vista terico y estadstico en: a) la teora bsica de la
medicin de las diferencias individuales; b) los mtodos y la metodologa
aplicados a los problemas de dependencia, y c) para los modelos y mtodos
de uso para emplear los datos de psicologa diferencial en las situaciones
prcticas de la ndole de elaboracin de test, diagnstico, orientacin,
seleccin y clasificacin. La presentacin de cada rea se termina cuando el
propsito del resumen se ha logrado sin suponer que el lector tiene una
preparacin avanzada en estadstica. Se dan sugerencias de lecturas
superiores para viene de quienes deseen hacer un estudio ms avanzado.

101
TOMS PEDRO PABLO CAYCHO RODRGUEZ

GLOSARIO

Adaptacin : Proceso que permite que los contenidos de un test


sean acordes al nivel cultural, edad y capacidad de las
personas.

Anlisis Factorial : Tcnica estadstica que examina la estructura interna


de la unidad de medida, mide si los indicadores tienen
algo en comn, es decir si tienen un comn
denominador, mide las correlaciones entre los
indicadores e intenta descubrir si hay algo subyacente.
Los tems deben tener un comn denominador que
debe aflorar estadsticamente. La estructura
subyacente o comn denominador se llama factor
(faceta).

Anlisis de tems : Estudio de las propiedades de los elementos


(preguntas) de un test directamente relacionadas con
las propiedades de ste.

Baremos o tablas : Tabla que sistematiza las medidas que trasmutan los
de normas puntajes directos en puntajes derivados, susceptibles
de interpretacin estadstica.

Coeficiente de : Coeficiente de correlacin entre dos grupos de


Confiabilidad puntajes e indica el grado en que los individuos
mantienen sus posiciones dentro de un grupo. Abarca
valores desde 0 a 1. Cuanto ms se acerque el
coeficiente a 1, ms confiable ser la prueba. El
coeficiente de confiabilidad seala la cuanta en que las
medidas del test estn libres de errores casuales o no
sistemticos. Por ejemplo, un coeficiente de 0.95
quiere decir que en la muestra y condiciones fijadas de
aplicacin del test el 95% de la varianza de los
puntajes directos se debe a la autntica medida, y slo
el 5%, a errores aleatorios.

Confiabilidad : Propiedad mediante la cual un instrumento mide con


exactitud y precisin lo propuesto. Es la cualidad, la
que hace que una misma prueba aplicada dos veces a
la misma persona en circunstancias idnticas,
proporcione similares resultados. La confiabilidad

102
TOMS PEDRO PABLO CAYCHO RODRGUEZ

indica si la prueba es constante en las mediciones que


obtiene de una misma persona, registrando
nicamente fluctuaciones de menor importancia.

Constructo : Idea cientfica desarrollada o construido para


describir o explicar el comportamiento.

Cuestionario : Instrumento de recoleccin de datos, integrado por


preguntas que solicitan informacin referida a un
problema, objeto o tema de investigacin, el cual es
normalmente administrado a un grupo de personas.
Este tipo de instrumento es de uso generalizado en los
estudios de naturaleza psicolgica.

Cuestionario de : Cuestionarios en que cada reactivo o pregunta consta


Respuesta de un nmero fijo de escogencias o alternativas de
Cerrada respuestas. En estos casos, se le pide al sujeto marcar
la alternativa de respuesta que considere ms
apropiada o de tipo dicotmicas como si o no;
verdadero o falso.

Cuestionario de : Cuestionarios que adems de presentar diferentes


Respuesta alternativas de posibles respuestas, incluyen, adems,
Semiabierta una alternativa abierta identificada con la palabra:
Otro(a), dejando el espacio correspondiente para
responder.

Cuestionario de : Cuestionarios cuyas respuestas requieren de la


Respuesta Abierta expresin escrita del sujeto, el cual debe elaborar
claramente su respuesta. En estos casos, en lugar de
anticipar posibles alternativas de respuestas, el
investigador simplemente provee un espacio suficiente
para la redaccin de cada respuesta.

Cuestionarios : Cuestionarios integrados por algunas preguntas


Mixtos cerradas o semi-cerradas y por otras abiertas.

Definicin : Manera de especificar el significado de un trmino,


Conceptual como las que figuran en los diccionarios, emplendose
en ella otros trminos que son sinnimos (en mayor o
menor medida) de aqul que se est definiendo.

103
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Definicin : Especificacin de las actividades del investigador para


Operacional medir o manipular una variable. Es decir, que dicha
definicin es como un manual de instrucciones para
el investigador, pues le indica cmo debe hacer
determinadas cosas (y qu cosas no debe hacer). En
definitiva, define o da sentido a una variable diciendo
al investigador, palabra por palabra, lo que debe hacer
para medir el constructo.

Dimensin : Distintos aspectos en que puede ser considerado un


concepto o variable, representando as sus
componentes.

Estandarizacin : Procedimiento mediante el cual siempre que se desee


comparar a cierto nmero de personas con respecto a
las calificaciones de una prueba, permite que se les
administre la misma prueba o distintas formas de la
misma.

Indicadores : Definiciones operacionales o componentes de un


modelo tales que: a) Estn relacionados con el
concepto o dimensin que tratan de indicar y, b) son
expresiones cuantitativas. Por ejemplo, el test NEO-PI
cuenta con 5 factores, cada uno dividido en 6
dimensiones. Cada una de estas dimensiones cuenta a
su vez con 8 indicadores o tems.

ndice de : Un tem tiene poder discriminativo si distingue entre


Discriminacin los sujetos que puntan alto y los que puntan bajo en
el test (si permite distinguir entre sujetos eficaces
frente a ineficaces). Indica la capacidad del tem para
distinguir entre los sujetos de mayor conocimiento y
los de menor. Este ndice mide qu tan capaz es un
tem para medir las diferencias individuales; desde el
punto de vista de objetivo evaluado. Proporciona un
indicador bruto del desempeo en cada tem por
separado de los respondientes competentes frente a
los menos competentes.

Medicin : Proceso de asignar nmeros u otros smbolos a los


objetos de tal forma que las propiedades de los
nmeros o smbolos reflejan propiedades del atributo
medido.

104
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Nivel Nominal : Nivel de medicin que permite diferenciar conductas y


caractersticas dentro de las variables y asignar a
aquellos nombres categoriales no ordenables.

Nivel Ordinal : Nivel de medicin que requiere que los objetos de un


conjunto puedan ser ordenados con base en alguna
caracterstica o propiedad.

Nivel de Intervalo : Nivel de medicin que posee las caractersticas de las


ordinales pero suponen que las distancias
numricamente iguales en la escala representan
distancias iguales en la propiedad que se mide. Las
distancias entre las categoras o puntos de la escala se
llaman intervalos. Una escala que tiene una distancia
fija entre sus puntos se llama Escala de Intervalos.

Nivel de Razn : Nivel de medicin ideal del cientfico pues permite todo
tipo de clculos matemticos al tener entre sus valores
un cero real, es decir la ausencia de la propiedad que
se est midiendo. Ello hace posible la aplicacin de las
propiedades de la multiplicacin (y la divisin) base de
los nmeros fraccionarios.

Normas : Afirmacin de cmo se ha desempeado una poblacin


de referencia en un test. Tales afirmaciones se
sustentan bsicamente en los clculos estadsticos
realizados en base al rendimiento del grupo normativo.

Percentiles : Expresan en funcin del porcentaje de personas del


grupo normativo, que quedan por debajo de una
puntuacin directa determinada. Un percentil indica la
posicin relativa del individuo en el grupo normativo.

Puntajes : Puntuaciones que se obtienen de los puntajes directos


Derivados del grupo normativo, a travs de procedimientos
estadsticos y que posibilitan la interpretacin
psicomtrica de tales puntuaciones.

Puntajes directos : Puntuaciones que se obtienen directamente de los


o brutos sujetos del grupo normativo.

105
TOMS PEDRO PABLO CAYCHO RODRGUEZ

Validez : Criterio de calidad relacionado con la adecuacin de las


puntuaciones del test para el objetivo que suscit su
aplicacin. Un test es vlido si mide lo que pretende.
Se distingue entre validez terica y emprica. La
primera indica lo que el test mide; la segunda, aquello
para lo que sirve. La validez de un test se define ya
sea por medio de la relacin entre sus puntuaciones
con alguna medida de criterio externo, o bien la
extensin con la que la prueba mide un rasgo
subyacente especfico hipottico o constructo.

Validez Muestral : Indica que el test es una muestra adecuada de lo que


aspira a medir; p. ej., los test de conocimientos suelen
elaborarse con elementos que representen el campo y
el nivel de los conocimientos que interesen.

Validez : Indica que el test responde al concepto de lo que se


Conceptual quiere medir. Es de dos tipos: factorial y congruente.
La validez factorial se expresa por el coeficiente del
test en un factor; la validez congruente, por el
conjunto de datos que en investigaciones y con
mtodos diversos concuerdan en mostrar la
consistencia del concepto.

Validez de : Grado en que un procedimiento de medida contempla


Constructo de forma adecuada el constructo terico o rasgo
abstracto que pretende medir y en qu nivel de
hiptesis derivadas del mismo se confirman
empricamente mediante dicho procedimiento.

Variable : Constructos o propiedades estudiadas por los


cientficos que adquieren diferentes valores.
Ejemplos: Coeficiente Intelectual, Perfil de
personalidad, Estado civil.

106

S-ar putea să vă placă și