Sunteți pe pagina 1din 18

08.

Anlisis de los tems

Propiedades psicomtricas de los tems


La calidad mtrica de los tems se puede evaluar con el anlisis de las respuestas de los sujetos a
dos elementos importantes del tem: la alternativa correcta y las alternativas incorrectas.
Las respuestas a la alternativa correcta son las que ofrecen mayor informacin acerca de la calidad
mtrica del tem.
Cuatro aspectos fundamentales del tem son:
La Dificultad: se establece a priori y est en funcin del contenido y de la complejidad de
las operaciones demandadas al sujeto para responder correctamente.
La Discriminacin: un tem presenta poder discriminativo cuando es capaz de diferencias
adecuadamente a los sujetos de diferentes niveles de una variable criterio.
La Fiabilidad y la Validez, estrechamente relacionadas con la discriminacin del tem.
El anlisis de las respuestas a las alternativas incorrectas (anlisis de distractores), informa sobre
la utilidad de cada alternativa incorrecta en el tem y de su contribucin a la calidad del mismo.

Parmetros de los tems


Dificultad del tem
Se han propuesto varios estadsticos. El ms utilizado y sencillo es el estadstico p (proporcin de
sujetos que responden correctamente al tem).
Vara de 0 (tem muy difcil) a 1 (tem muy fcil).
Los tems con valores extremos deben ser descartados.
Para tems dicotmicos, el ndice de dificultad coincide con la media de los sujetos en el tem.
Los tems que mejor discriminan son aquellos que son respondidos correctamente por la mitad de
los sujetos.
El ndice de dificultad depende de la muestra utilizada.
Correccin para tems de eleccin mltiple.
Varianza de un tem: pi.qi
Varianza del test: Sumatorio de p.q
Media del test: Sumatorio de p

Discriminacin del tem


El poder discriminativo del tem se define como la capacidad del tem para distinguir a los sujetos
de alta, media y baja puntuacin en un criterio.
El criterio puede ser:
INTERNO (el test y el tem miden el mismo constructo) (el ndice de discriminacin se
puede interpretar como ndice de Homogeneidad).
EXTERNO (la puntuacin en otro test) (el ndice de discriminacin es una medida del
grado de validez del tem).
Dos son los tipos de medidas utilizados con ms frecuencia:
A) EL NDICE DE DISCRIMINACIN
Se basa en la informacin que proporciona la comparacin del rendimiento de dos grupos
extremos (bajo y alto) en las puntuaciones en el test.
Se toma el 27 % de los sujetos de ms baja puntuacin y el 27 % de ms alta puntuacin
en el test.
D = 0 refleja que el tem no discrimina adecuadamente.
D > 040 refleja que el tem tiene gran poder discriminativo.
Un valor negativo en D indicara una disminucin en la precisin del instrumento de
medida.
B) LOS COEFICIENTES DE DISCRIMINACIN
El ndice de discriminacin es la correlacin entre las puntuaciones de los sujetos en el tem y sus
puntuaciones en el test, descontada la del tem.
Presentan la ventaja de considerar a todos los sujetos de la muestra.
Cul haya de ser el coeficiente de correlacin depender de la naturaleza de las variables:

Propiedades psicomtricas de los tems


La calidad mtrica de los tems se puede evaluar con el anlisis de las respuestas
de los sujetos a dos elementos importantes del tem: la alternativa correcta y las
alternativas incorrectas.
Las respuestas a la alternativa correcta son las que ofrecen mayor informacin
acerca de la calidad mtrica del tem.

Cuatro aspectos fundamentales del tem son:

La Dificultad: se establece a priori y est en funcin del contenido y de la


complejidad de las operaciones demandadas al sujeto para responder
correctamente.

La Discriminacin: un tem presenta poder discriminativo cuando es capaz


de diferencias adecuadamente a los sujetos de diferentes niveles de una
variable criterio.

La Fiabilidad y la Validez, estrechamente relacionadas con la discriminacin


del tem.

El anlisis de las respuestas a las alternativas incorrectas (anlisis de


distractores), informa sobre la utilidad de cada alternativa incorrecta en el tem y de
su contribucin a la calidad del mismo.

Parmetros de los tems


Dificultad del tem
Se han propuesto varios estadsticos. El ms utilizado y sencillo es el estadstico
p (proporcin de sujetos que responden correctamente al tem).
Vara de 0 (tem muy difcil) a 1 (tem muy fcil).
Los tems con valores extremos deben ser descartados.
Para tems dicotmicos, el ndice de dificultad coincide con la media de los sujetos
en el tem.
Los tems que mejor discriminan son aquellos que son respondidos correctamente
por la mitad de los sujetos.
El ndice de dificultad depende de la muestra utilizada.
Correccin para tems de eleccin mltiple.

Varianza de un tem: pi.qi


Varianza del test: Sumatorio de p.q
Media del test: Sumatorio de p

Discriminacin del tem


El poder discriminativo del tem se define como la capacidad del tem para
distinguir a los sujetos de alta, media y baja puntuacin en un criterio.
El criterio puede ser:

INTERNO (el test y el tem miden el mismo constructo) (el ndice de


discriminacin se puede interpretar como ndice de Homogeneidad).

EXTERNO (la puntuacin en otro test) (el ndice de discriminacin es una


medida del grado de validez del tem).

Dos son los tipos de medidas utilizados con ms frecuencia:


A) EL NDICE DE DISCRIMINACIN

Se basa en la informacin que proporciona la comparacin del rendimiento


de dos grupos extremos (bajo y alto) en las puntuaciones en el test.

Se toma el 27 % de los sujetos de ms baja puntuacin y el 27 % de ms


alta puntuacin en el test.

D = 0 refleja que el tem no discrimina adecuadamente.

D > 040 refleja que el tem tiene gran poder discriminativo.

Un valor negativo en D indicara una disminucin en la precisin del


instrumento de medida.

B) LOS COEFICIENTES DE DISCRIMINACIN


El ndice de discriminacin es la correlacin entre las puntuaciones de los sujetos
en el tem y sus puntuaciones en el test, descontada la del tem.

Presentan la ventaja de considerar a todos los sujetos de la muestra.


Cul haya de ser el coeficiente de correlacin depender de la naturaleza de las
variables:
1.

Correlacin Biserial-Puntual

Cuando una variable es dicotmica y la otra es continua.

Vara de -1 a +1.

Pero en la realidad es muy poco probable que sea < -010 y > 075.

Para su clculo emprico introduciremos en la calculadora, en el Mode REG,


las puntuaciones del tem J y las del test menos el tem (X J).

Para tests de 40 o ms tems prcticamente no hay diferencia entre la


correlacin entre J y X y la correlacin corregida entre J y (X-J).

Correlacin Biserial

Cuando una variable ha sido dicotomizada y la otra es continua.

La correlacin biserial siempre ser mayor que la biserial-puntual.

Su principal ventaja es que es un fiel reflejo de la contribucin del tem al


funcionamiento del test.
Adems se ve menos influenciada por la dificultad del tem.

Correlacin Phi

Cuando las dos variables son dicotmicas.


Se puede calcular empricamente con la calculadora en el Mode REG, si
tenemos los datos sin agrupar.

Coeficiente de Correlacin de Pearson

Cuando las dos variables son continuas.

Se obtiene con la calculadora, en el Mode REG.

C) DISCRIMINACIN DE LOS TEMS EN DISEOS PRE-POST TEST


1.

ndice de Discriminacin
Se puede utilizar para determinar el grado de discriminacin de un tem
entre un grupo de sujetos que han pasado por un proceso de instruccin,
antes y despus del proceso.

Mtodo de Brennan

Considera las puntuaciones de dos grupos de sujetos, uno de los cuales


recibe instruccin y el otro no.

Procedimiento de Saupe

Cuando estamos interesados en determinar qu tems discriminan mejor


entre grupos que han recibido instruccin de aquellos que no la han recibido.

Este mtodo requiere que cada tem sea administrado al mismo grupo de
sujetos siguiendo un diseo pre-post test.

D) PODER DISCRIMINATIVO DE LOS ITEMS EN ESCALAS DE ACTITUDES


1.

Correlacin tem-test

Se obtiene la correlacin entre las puntuaciones en el tem y las


puntuaciones en el test, descontando la del tem.

Se puede obtener su valor con la calculadora, en el Mode REG.

Se suele eliminar aquellos elementos cuyo ndice de homogeneidad sea


inferior a 020 (Escala de Likert)

Dos grupos extremos de actitud

Se separa el 25 % (o el 27 %) de los sujetos con puntuacin total ms alta y


el 25 % (o el 27 %) de los sujetos con puntuacin total ms baja.

Si los elementos que se analizan no son discriminativos, al realizar el


anlisis comparativo de las puntuaciones obtenidas en el tem en ambos
grupos, no encontraremos diferencias significativas y, por tanto, esos
elementos debern eliminarse de la escala final.

1.

Prueba t de Student

Es el procedimiento ms adecuado porque utiliza toda la informacin.

Se usa cuando se cumplen los supuestos paramtricos.

Prueba U de Mann-Whitney

Se usa cuando se sospecha que no se cumplen los supuestos


paramtricos.

Las puntuaciones estn sin agrupar.

El procedimiento slo utiliza una informacin parcial.

Prueba Chi-Cuadrado

Se usa cuando se sospecha que no se cumplen los supuestos


paramtricos.

Los datos estn agrupados en una tabla 2 x 2.

Requiere que el tamao mnimo de la muestra elegida sea de 50 sujetos.

Los resultados obtenidos a travs de los distintos procedimientos expuestos


(2.1, 2.2, 2.3) no tienen por qu ser iguales.

Fiabilidad y validez del tem


Cuando el criterio es interno, el ndice se denomina Indice de fiabilidad del tem, IF,
y se considera una medida de la precisin con la que el tem mide el constructo o
dominio de inters.

La fiabilidad del test se puede expresar en trminos de los ndices de fiabilidad de


los tems que lo componen.
Cuando el criterio es externo, el ndice recibe el nombre de Indice de Validez del
item, IV,
Segn la naturaleza del criterio se debe utilizar un coeficiente u otro (biserialpuntual, biserial, Pearson).
La validez del test se puede expresar a travs de los IV de los tems.

Comparacin de las respuestas a los tems


Se produce esta situacin cuando interesa estudiar la similitud de las respuestas
dadas por un grupo de sujetos a dos tems que presentan caractersticas similares.
Dados dos tems podemos plantearnos tres criterios:
1.

Si dos tems miden lo mismo = su grado de homogeneidad

Se calcula el estadstico Chi-Cuadrado.

Se compara con el valor Chi-Cuadrado de con g.l. = (columnas-1)(filas-1).

Si el estadstico > valor de tabla, entonces el grado de homogeneidad es


significativo.

Analizar el grado de intensidad de dicha homogeneidad

Se calcula el estadstico p

Es sencillo e insesgado.

Si el grado de dificultad es el mismo

Se calcula el estadstico Chi-Cuadrado.


Se compara con el valor de la tabla Chi-Cuadrado con g.l. = (columnas-1)
(filas-1).

Si el estadstico > que el valor de tabla, entonces podemos concluir que hay
diferencias significativas entre la dificultad de ambos tems.

Anlisis de distractores
En tems de eleccin mltiple, pueden aparecer tems con poca discriminacin o
con valores de dificultad extremos.
Si se comprueba que el contenido y la redaccin son adecuados, el paso siguiente
es el anlisis del funcionamiento de las alternativas incorrectas como distractores,
para identificar aquellos defectuosos y eliminarlos.
Las alternativas incorrectas se consideran distractores eficaces si cumplen las
siguientes condiciones:

ser elegidos por un mnimo de sujetos,

ser aproximadamente igual de atractivos para los sujetos,

que el rendimiento medio en el test de los sujetos en cada distractor sea


inferior al de los sujetos que han elegido la respuesta correcta y a la media del
test general de todos los sujetos,

que discriminen entre los sujetos de baja, media y alta puntuacin en el test,
pero en el sentido contrario a como lo hace la alternativa correcta.

Funcionamiento diferencial del tem


Cabe preguntarse si el test mide de la misma manera a todos los grupos de
sujetos a los que se les aplica. Lo que se conoce como el problema del sesgo.
Las diferencias entre grupos reflejan diferencias reales o estn causadas por
fuentes sistemticas de error?
Estas fuentes sistemticas de variacin afectan a la validez de constructo.
El estudio del sesgo consiste en el anlisis de las posibles fuentes de variacin
sistemtica.

Para ello hay que diferenciar entre IMPACTO y FUNCIONAMIENTO


DIFERENCIAL DEL TEM (FDI).

Un tem presenta impacto cuando existen diferencias en la puntuacin


media obtenida en ese tem por dos grupos de sujetos con distinto nivel en el
rasgo o caracterstica que mida el test.

Un tem presenta FDI cuando existen diferencias en la puntuacin media


obtenida en ese tem por dos grupos distintos de sujetos pero con el mismo
nivel en el rasgo o caracterstica evaluada en el test.

El Mtodo de Mantel-Haenszel
Sirve para analizar el FDI.
Pasos a seguir:

Seleccionar la variable externa de agrupamiento: GRUPO REFERENCIA


(GR) (el supuestamente beneficiado) y GRUPO FOCAL (GF) (el
supuestamente perjudicado).

Subdividir a los sujetos de ambos grupos en funcin de la puntuacin


emprica del test en subgrupos de habilidad homognea.

Calcular el nmero de respuestas correctas e incorrectas por cada grupo


(GR y GF) y nivel de habilidad.

Estimar la cantidad de FDI con el estadstico alfa (vara de 0 a infinito).

Interpretar el resultado (si alfa > 1, indica que el tem favorece al GR; si alfa
< 1, indica que el tem favorece al GF; si alfa = 0 o muy prximo, indica que el
tem no presenta FDI).

Validez de las inferencias (II)


Validacin con varios predictores y un solo indicador del criterio

Cuando se desea conocer el influjo de varias variables predictoras cuantitativas en


otra tambin cuantitativa (criterio), los procedimientos estadsticos que van a

permitir obtener esta informacin son la correlacin mltiple y el modelo de


regresin lineal mltiple.
Correlacin Parcial
Permite interpretar el grado de correlacin entre la variable criterio (Y) y una de las
variables predictoras, eliminando de antemano el influjo que sobre dicha
correlacin pueda estar ejerciendo el resto de variables.
Correlacin Semiparcial
Permite conocer el grado de correlacin entre la variable criterio (Y) y una de las
variables predictoras, eliminando el efecto que sobre esta variable predictora
pueden estar ejerciendo el resto de las variables.
El Coeficiente de Validez Mltiple

Va a permitir analizar el grado de asociacin entre la variable dependiente (el


criterio) y el conjunto de variables predictoras.
Frmula en funcin de los coeficientes de correlacin.
Frmula en funcin de los coeficientes de regresin mltiple tipificados.

El Modelo de la Regresin Lineal Mltiple

Ecuacin en puntuaciones directas, diferenciales y tpicas.


Slo se ve el caso de 2 variables predictoras.
Error de Estimacin Mltiple: Y Y

Individual

puede ser + o

Error Tpico de Estimacin Mltiple

Colectivo

Slo puede ser +

Vara inversamente con el coeficiente de validez mltiple.

Interpretacin del Coeficiente de Validez Mltiple

Coeficiente de Determinacin Mltiple

Equivale al coeficiente de validez mltiple al cuadrado.

Representa la proporcin de varianza de las puntuaciones de los sujetos en


el criterio que se puede pronosticar a partir del conjunto de variables
predictoras.

Representa la varianza comn entre el criterio y las variables predictoras.

Oscila entre 0 y 1.

Coeficiente de Alienacin Mltiple

Indica la proporcin que representa el error tpico de estimacin mltiple


respecto a la desviacin tpica de las puntuaciones en el criterio.

Oscila entre 0 y 1.

Representa la inseguridad, o el azar, que afecta a los pronsticos.

El CA2 es el complemento del CD.

Coeficiente de Valor Predictivo Mltiple

Es el complemento del CA.

Se interpreta como la proporcin de seguridad con que se hacen los


pronsticos.

Mtodos para seleccionar las variables predictoras ms adecuadas

Hay varios mtodos estadsticos:


Mtodos Forward:
Dentro de estos mtodos el ms utilizado es el stepwise.

Se calculan las intercorrelaciones entre las distintas variables.

Se selecciona la variable predictora cuya correlacin con el criterio sea ms


alta y se construye la ecuacin de regresin.

La segunda variable a incluir ser aquella cuya correlacin semiparcial con


el criterio sea ms alta.

La tercera variable a incluir sera la que tuviera con el criterio una


correlacin ms alta, despus de haber eliminado la influencia debida a la
asociacin entre esa variable y las otras dos seleccionadas, y as
sucesivamente

Cada vez que se incluye una variable predictora en la ecuacin de regresin


se calcula el aumento en el porcentaje de varianza del criterio que explican
el conjunto de variables seleccionadas (aumento en el coeficiente de
determinacin mltiple) y se analiza si ese aumento es estadsticamente
significativo o no. El proceso se detiene cuando el aumento no es
significativo.

Mtodos Backward:
Es un mtodo inverso al anterior y menos utilizado.

Se calcula la correlacin mltiple al cuadrado (CD) entre la variable criterio


y todo el conjunto de predictores de que se dispone.

Se van eliminando una a una las variables menos relevantes, calculando en


cada proceso de eliminacin la reduccin que se producen en el coeficiente
de determinacin.

El proceso se detiene cuando la reduccin observada sea significativa.

Validez y utilidad de las decisiones

Se trata de analizar la validez de las decisiones tomadas a partir de las


puntuaciones obtenidas por los sujetos en un test en relacin a un criterio
dicotmico.
Las puntuaciones obtenidas en el test se dicotomizan a partir de un punto de
corte, de manera que permitan asignar a los sujetos en dos categoras.
La capacidad predictiva del test se analiza mediante unos ndices que reflejen la
consistencia o acuerdo entre las decisiones basadas en el test y la medida del
criterio.
ndices de Validez

Coeficiente Kappa

Ofrece un indicador general de la validez de las clasificaciones hechas por


el test.

Resta los aciertos debidos al azar.

El valor mximo de K es 1; el valor mnimo no es 0, sino que depende de


las frecuencias marginales.

Proporciones de clasificaciones correctas


Es la proporcin de clasificaciones correctas hechas a partir del test.

Especificidad
Proporcin de personas correctamente consideradas por la escala verdaderos
negativos respecto al total de casos.
Sensibilidad
Proporcin de personas correctamente detectadas por la escala respecto del total
de casos existentes segn los expertos, o proporcin de aspirantes correctamente
seleccionados mediante la prueba de admisin, respecto del total de los que
tuvieron xito en el criterio.
Razn de eficacia
Proporcin de aspirantes seleccionados mediante la prueba de admisin que
rindieron satisfactoriamente en el criterio.
ndices de Seleccin

Razn de idoneidad
Proporcin de aspirantes que rindieron satisfactoriamente en el criterio.
Razn de seleccin
Proporcin de aspirantes que han sido seleccionados mediante el test.

Dnde situar el punto de corte?

El valor del punto de corte tiene una gran importancia sobre la validez de la
prueba:

Si el punto de corte del test hace la seleccin ms estricta, se reduce la


tasa de falsos positivos, pero habr un aumento en la tasa de falsos
negativos.

Si el criterio es el que se hace ms estricto, disminuir el nmero de falsos


negativos, pero a costa de que aumente el nmero de falsos positivos.

Dnde situar el punto de corte?. Habra que buscar el valor que maximice la
capacidad predictiva del la variable predictora. El punto de corte debera situarse
en aquel valor con el que se cometa un menor nmero total de errores.
Hay que analizar las consecuencias de las decisiones tomadas, ya que no siempre
tiene la misma importancia cometer un tipo de error u otro (falsos positivos o falsos
negativos), ello depender del tipo de decisin a tomar.
Cuando un decisor utiliza un criterio maximin, deber elegir aquella alternativa que
entre los resultados ms desfavorables, le permite obtener la mxima ganancia
(mximo de los mnimos).
Cuando utiliza el criterio mnimax, el decisor estudiara las alternativas que le van
a proporcionar las mximas prdidas y dentro de esas alternativas elegira aquella
que le proporcionara una prdida menor (mnimo de los mximos).
Modelos de Seleccin

Hay tres modelos bsicos a los que se pueden aadir dos de tipo mixto.
Modelo Compensatorio

Se selecciona a los sujetos con puntuaciones pronosticadas ms altas en el


criterio.

Se lleva a cabo una combinacin aditiva de las distintas puntuaciones de


los sujetos en las distintas variables.

Una forma de obtener esta combinacin es mediante la regresin mltiple,


asignando a cada predictor un determinado peso que vendr determinado
por el correspondiente coeficiente de regresin.

Modelo Conjuntivo

Se selecciona a los sujetos que superen en todos y cada uno de los predictores un
nivel prefijado de competencia.

Modelo Disyuntivo

Se selecciona a los sujetos que superen un cierto nivel de competencia en, al


menos, un predictor.

Modelo Conjuntivo-Compensatorio

Una vez que se ha elegido segn el modelo conjuntivo a los sujetos, se les aplica
el modelo compensatorio, de manera que queden ordenados en funcin de la
puntuacin global obtenida.

Modelo Disyuntivo-Compensatorio

Se hace una primera seleccin aplicando el modelo disyuntivo, y a los sujetos


seleccionados se les aplica el modelo compensatorio.

Cmo estimar la eficacia de la seleccin?

Otra forma de estimar la eficacia de la seleccin es utilizando el modelo de


regresin, que permite estimar la probabilidad de que los seleccionados tengan
xito en el criterio.
Factores que influyen en el coeficiente de validez

Un test tiene varios coeficientes de validez, tantos como criterios elijamos. Tres
son los factores que son decisivos:
La Variabilidad de la muestra

El coeficiente de validez aumenta a medida que aumenta la variabilidad de la


muestra = disminuye con la homogeneidad entre los sujetos.
La Fiabilidad de las puntuaciones en el test y en el criterio

El coeficiente de validez de un test se ve afectado por los errores en las


puntuaciones en el test y en el criterio (errores de medida).

El coeficiente de validez aumenta al aumentar la fiabilidad del test y del criterio.


Frmulas de atenuacin: Conseguir los efectos de atenuacin quiere decir eliminar
el influjo de los errores de medida.
Validez y Longitud

Si se aumenta la longitud del test puede aumentar la validez.


Para saber la validez del test tras aumentar o disminuir la longitud (Rxy).
Para saber cunto hay que aumentar o disminuir la longitud del test para alcanzar
un coeficiente de validez determinado (n).

S-ar putea să vă placă și