Anal Is Is Items Prueba S Objetiv As

Anlisis de tems en las pruebas objetivas
Universidad Pontificia Comillas Madrid Facultad de Ciencias Humanas y Sociales Pedro Morales, (ltima revisin, 20 de Mayo, 2012)
ndice
1. El contexto: las pruebas objetivas............................................................................. 2. Utilidad del anlisis de tems .................................................................................... 3. Anlisis estadsticos convencionales ........................................................................ 3.1. Anlisis referidos a toda la prueba ..................................................................... 3.1.1. El coeficiente de fiabilidad ....................................................................... 3.1.2. El error tpico de las puntuaciones individuales ............................................ 3.2. Anlisis de cada alternativa en cada pregunta.................................................... 3.2.1. La correlacin tem-total.......................................................................... 3.2.2. La correlacin de cada alternativa con el total ....................................... 4. Anlisis de las diversas alternativas: tabulacin de las respuestas ............................ 5. Anlisis de cada tem: ndices de dificultad y discriminacin................................... 5.1. ndice de dificultad ............................................................................................. 5.2. ndices de discriminacin ................................................................................... 5.2.1. ndice de discriminacin 1 ....................................................................... 5.2.2. ndice de discriminacin 2 ....................................................................... 6. ndices de dificultad y discriminacin referidos a todo el test .................................. 7. Valoracin de estos ndices........................................................................................ 8. Bibliografa citada y direcciones sobre el anlisis de tems en Internet.................... 2 3 3 4 4 5 5 5 6 6 8 9 9 9 11 12 13 15
1. El contexto: las pruebas objetivas Al estudiar el anlisis de tems de las pruebas objetivas, hay que tener en cuenta todo el contexto de estas pruebas (ventajas, inconvenientes, tipos de preguntas, etc.) aunque aqu no tratamos del resto de los temas que se pueden y deben tratar a propsito de las pruebas objetivas. Es obvio por otra parte que las pruebas objetivas no son el nico mtodo de evaluacin, ni el mejor necesariamente. No sobra recordar que el trmino objetivo tiene connotaciones equvocas: en las pruebas objetivas la correccin s es objetiva (una respuesta o est bien o est mal), pero tanto la formulacin de la pregunta (qu y cmo se pregunta) como dnde se pone el mnimum para el apto son ya decisiones subjetivas del profesor. Las pruebas objetivas (tipo-test) pueden ser muy cmodas para el profesor, sobre todo con clases numerosas 1 Fundamentalmente porque se evita la tediosa tarea de corregir, que es la dificultad sentida de manera ms inmediata con las preguntas abiertas (las pruebas objetivas se pueden corregir con lectura ptica, y aunque se corrija sin estas ayudas, la tarea es mecnica, simple, e incluso delegable). 2 Con las pruebas objetivas suele ms sencillo establecer criterios de calificacin y tambin pueden justificarse mejor estos criterios, al menos aparentemente, a partir de un determinado nmero de respuestas correctas. Una consecuencia de estas ventajas para el profesor es la proliferacin de pruebas objetivas que con mucha frecuencia son de mala calidad, sobre todo por estas dos razones: 1 No es tan fcil redactar buenas preguntas objetivas, sobre todo si se quiere comprobar algo ms que pura memorizacin y estimular un estudio inteligente. 2 No es frecuente planificar estas pruebas aunque sea de manera muy elemental, por lo tanto puede haber ms preguntas de lo que es fcil preguntar y no ms preguntas de lo ms importante (el examen puede quedar desequilibrado, el apto puede depender de preguntas triviales, etc.); el disponer de un banco de preguntas tampoco es precisamente la solucin a esta frecuente falta de planificacin de las pruebas objetivas. Es obvio por otra parte que la calidad de las preguntas (objetivas o de otro tipo) no es un tema irrelevante si pensamos que el qu y cmo estudia el alumno (y consecuentemente cmo se forma o cmo se deforma) depende del tipo de prueba y de pregunta (o ejercicio) esperado. Una manera de mejorar la calidad de estas preguntas objetivas es precisamente analizarlas, aunque para preparar buenas preguntas objetivas habra que abordar tambin los dos puntos antes indicados: 1 Cmo redactar buenas preguntas (que no sean casi exclusivamente de memoria, que comprueben los objetivos propuestos, que estimulen un estudio inteligente, etc.); 2 Cmo planificar las pruebas objetivas para que el conjunto de la prueba est equilibrado en funcin de la importancia de los diversos temas y objetivos.
Aqu no tratamos sobre la redaccin de las preguntas y la planificacin de la prueba, aun as los anlisis que vamos a proponer nos puedan dar buenas pistas para mejorar las preguntas en ediciones sucesivas. Las pruebas objetivas se prestan a hacer una serie de anlisis de inters que pueden referirse: a) A toda la prueba b) A cada pregunta en particular. Aqu tratamos sobre todo del anlisis de cada tem o pregunta. 2. Utilidad del anlisis de tems Por qu puede ser de inters el analizar las pruebas objetivas: 1 Para ir mejorando su calidad. Estos anlisis aportan informacin no ya sobre los alumnos, sino sobre cada una de las preguntas. El hacer una buena prueba objetiva, incluso una mala prueba objetiva, supone un tiempo y un esfuerzo que hay que hacer rentables. Si acumulamos experiencia sin hacer nunca ningn anlisis, podemos estar haciendo permanentemente pruebas objetivas de calidad muy mediocre (diez aos de experiencia no es lo mismo que un ao de experiencia repetido diez veces; no por hacer muchas veces lo mismo lo haremos necesariamente mejor). La informacin que nos dan estos anlisis nos permite ir mejorando las pruebas sucesivas que vayamos haciendo, aprovechando nuestro propio trabajo. Estos anlisis facilitan por lo tanto la autoevaluacin del profesor y el ir mejorando sus tareas como profesor. 2 Algunos de estos anlisis aportan informacin til para comentarla con los mismos alumnos, y darles un feedback matizado sobre su aprendizaje. Esta informacin, que puede ser muy especfica, puede ayudar a caer en la cuenta de errores generalizados, a entender puntos difciles, a condicionar un estudio posterior de ms calidad, etc. 3 Tambin nos aportan datos que pueden influir indirectamente en nuestros criterios de calificacin; al menos disponemos de una informacin ms completa y fcil de entender (por ejemplo podemos descubrir preguntas ambiguas, o con dos respuestas correctas, o con la clave de correccin equivocada, o preguntas con un nivel de dificultad mayor del pretendido, etc.). 4 Por otra parte todos estos anlisis son fcilmente programables, y si utilizamos una hoja de respuestas de lectura ptica y un programa adecuado de ordenador (programa que es fcil preparar) casi sin darnos cuenta podemos acumular una informacin muy til, incluso para trabajos de investigacin. 4 El beneficio que podemos obtener de estos anlisis compensa el tiempo o esfuerzo extra que pueden suponer; beneficio en trminos de: * Mejorar la calidad de las preguntas * Dar a los alumnos una informacin ms especfica sobre sus aciertos y errores, con la consiguiente mejora de la calidad de la enseanza y del aprendizaje de los alumnos. 3. Anlisis estadsticos convencionales No vamos a tratar aqu con amplitud sobre los anlisis de carcter ms estadstico (o psicomtrico) que cabe hacer en estas pruebas, pero s recordamos en primer lugar los
anlisis estadsticos ms convencionales; unos se refieren a toda la prueba (fiabilidad, error tpico) y otros a cada tem (correlacin tem-total)1. 3.1. Anlisis referidos a toda la prueba Adems de los datos descriptivos bsicos (como son la media aritmtica y la desviacin tpica), podemos calcular el coeficiente de fiabilidad y el error tpico. 3.1.1. El coeficiente de fiabilidad El coeficiente de fiabilidad es una estimacin de la correlacin esperada con una prueba semejante y por lo tanto este coeficiente de fiabilidad (oscila entre 0 y 1) indica en qu medida en exmenes semejantes los alumnos hubieran quedado ordenados de manera parecida. En test con respuestas 1 0 (respuesta correcta o incorrecta) el coeficiente utilizado es el de Kuder-Richardson 20. Con tests muy breves (entre 10 y 15 tems) una fiabilidad de .50 puede considerarse suficiente, pero tomar decisiones importante sobre los sujetos la fiabilidad debera ser mucho mayor (en torno a .80) (Kehoe, 1995). Para interpretar estos coeficientes de fiabilidad en exmenes convencionales o pruebas de rendimiento hay que tener en cuenta tres factores que inciden en la magnitud de este coeficiente: 1. La homogeneidad de los tems: en la medida en que los tems midan lo mismo la fiabilidad ser mayor; con preguntas muy distintas y poco relacionadas entre s la fiabilidad ser ms baja. 2. Las diferencias entre los examinados (homogeneidad de la muestra); si los sujetos tienen resultados muy parecidos la fiabilidad bajar (no se puede clasificar, ordenar bien a los muy semejantes). 3. El nmero de tems porque a mayor nmero de tems los alumnos quedan mejor diferenciados. Fundamentalmente la fiabilidad depende de las diferencias entre los sujetos por lo que se puede cuestionar la fiabilidad de un test o de una prueba objetiva como indicador necesario de su calidad; si todos saben todo o casi todo (o casi nada), la fiabilidad tiende a bajar y esto no quiere decir que el test sea malo o que se trate de un mal resultado. Un coeficiente de fiabilidad (consistencia interna) alto es claramente deseable cuando las diferencias entre los sujetos son legtimas y esperadas; y esto es lo que suele suceder en los tests psicolgicos, y tambin en exmenes finales, sobre todo si son ms bien largos, y con ms razn en clases numerosas y donde es razonable esperar diferencias en rendimiento. Una fiabilidad alta nos dice que el examen deja a cada uno en su sitio; en exmenes parecidos (con otras preguntas del mismo estilo) los alumnos quedaran ordenados de manera semejante. No hay que olvidar que una fiabilidad alta no es sinnimo sin ms de calidad porque puede faltar lo que es ms importante, la validez: preguntas que se pueden responder
1 Ms informacin sobre el coeficiente de fiabilidad y el error tpico en Morales, Pedro La fiabilidad de los tests y escalas. Madrid: Universidad Pontificia Comillas http://www.upco.es/personal/peter/estadisticabasica/Fiabilidad.pdf; tambin publicado en el captulo 6 de Morales (2008). En este documento el apartado 11 est dedicado a las pruebas escolares. Otros temas relacionados con las pruebas objetivas, como la adivinacin y diversas alternativas para corregir estas pruebas, los tratamos en Morales, Pedro, Las pruebas objetivas: normas, modalidades y cuestiones discutidas http://www.upcomillas.es/personal/peter/otrosdocumentos/PruebasObjetivas.pdf (ltima revisin, 17, Diciembre, 2006).
correctamente de memoria cuando lo que queremos es comprobar comprensin o interpretacin, etc. 3.1.2. El error tpico de las puntuaciones individuales2 El error tpico tambin se refiere a toda la prueba y en la prctica puede ser ms til que el coeficiente fiabilidad. Suele denominarse error tpico de la medicin y se aplica a cada resultado individual. El error tpico se deriva del coeficiente de fiabilidad y viene a indicar el margen probable de oscilacin de las puntuaciones de cada sujeto de unas ocasiones a otras en exmenes hipotticamente semejantes; podramos denominarlo informalmente el coeficiente de buena-mala suerte. El error tpico puede servir para relativizar los resultados individuales (por ejemplo, para sumar el margen probable de error o de suerte en casos lmite). Equivale a una desviacin tpica y se interpreta de manera semejante en relacin con la distribucin normal (ms o menos cada alumno hubiera quedado en el 95% de las veces entre la puntuacin de hecho obtenida ms menos 1.96 errores tpicos). 3.2. Anlisis de cada alternativa en cada pregunta Estos anlisis (denominado convencionalmente anlisis de tems) son los que ms nos interesan en este momento. 3.2.1. La correlacin tem-total Se trata ahora de un dato de cada tem e indica en qu medida un tem discrimina (diferencia a los que saben ms de los que saben menos); este tipo de informacin lo podemos obtener tambin con los ndices que vamos a ver a continuacin. Aunque esta correlacin suele denominarse correlacin tem-total, en realidad se trata de la correlacin de cada pregunta con la suma de todas las dems; es decir, del total menos el tem que estamos analizando (con ms propiedad suele denominarse tambin correlacin tem-total menos el tem). Lo que expresa esta correlacin (como cualquier correlacin) es en qu medida el responder correctamente a un tem est relacionado con puntuar alto en todo el test. Esta informacin es semejante a la que nos da el ndice de discriminacin que vamos a ver aqu: a) Una correlacin prxima a cero quiere decir que el responder bien o mal a esa pregunta no tiene que ver con estar bien o mal en el conjunto del examen. b) Una correlacin negativa, sobre todo si es de cierta magnitud, quiere decir que el responder bien a esa pregunta est relacionado con estar ms bien mal en el conjunto de la prueba (en principio se trata de una mala pregunta, o quizs hay un error en la clave de correccin). c) Una correlacin positiva quiere decir que el responder bien a esa pregunta est relacionado con un buen resultado en el conjunto de la prueba. Los tems con mayores correlaciones positivas son los ms discriminantes, los que mejor diferencian a los mejores y peores alumnos.
2 Explicado con ms amplitud en Morales (2008), p.214.
3.2.2. La correlacin de cada alternativa con el total Cuando hablamos de la correlacin tem-total, nos referimos a la correlacin entre escoger la respuesta correcta en cada tem y puntuar ms o menos alto en el total de la prueba; tambin cabe calcular la correlacin entre escoger cada una de las alternativas falsas y el total del test. Lo que podemos esperar es que el escoger una alternativa falsa correlacione negativamente con el total (las alternativas falsas las escogen los que en conjunto estn peor). No es frecuente hacer este anlisis pero puede ser muy informativo. Aqu no tratamos con amplitud estos anlisis estadsticos, pero s es oportuno recordar que son relativamente sencillos, se pueden programar con toda facilidad y nuestra tarea se reducir a interpretar y valorar los resultados. Ahora nos vamos a limitar a los anlisis ms frecuentes y sencillos que suelen hacerse con cada pregunta o tem. 4. Anlisis de las diversas alternativas: tabulacin de las respuestas Este anlisis es ms sencillo que los anlisis estadsticos anteriores; se limita a una mera tabulacin de las respuestas: a) Es de fcil comprensin b) Tambin se puede programar c) Aporta una informacin de inters que se interpreta con mucha facilidad y de manera intuitiva, sin necesidad de anlisis estadsticos. Posiblemente es el anlisis en principio ms til para el profesor. Se trata de organizar las respuestas de manera que permitan una reflexin rpida sobre las preguntas y sobre los alumnos. El proceso es el siguiente (tambin se puede programar): 1 Se ordenan los sujetos de ms a menos segn su puntuacin total en la prueba (segn el nmero de respuestas correctas, no por las notas que se les asignen) y se seleccionan el 25 % con puntuacin total ms alta (grupo superior) y el 25 % con puntuacin total ms baja (grupo inferior). Tambin se escogen a veces el 27% o el 33% con totales ms altos y ms bajos, pero el 25% es un porcentaje cmodo y suficiente. 2 Se tabulan las respuestas de estos dos grupos en cada tem, de manera que se pueda ver cuntos de cada grupo, superior e inferior, han escogido cada opcin. Esta tabulacin de las respuestas se presta ya a muchas observaciones de inters para el profesor que ha redactado los tems. Lo veremos mejor con un ejemplo ficticio (tabla 1)3.
3 Un ejemplo comentado puede verse en la seccin IV de Case y Swanson (2006) (un excelente manual sobre pruebas objetivas en medicina).
alternativas (la respuesta correcta se indica con un *)

preguntas tem n 1 A B C D
10 * 0
5 1 6 1
0 2
5* 0 0 1
0 0
0
0 8
0 2 2* 8
tem n 2
7
2 0
tem n 3
Tabla 1 En este ejemplo suponemos que tenemos 40 alumnos, de estos 40 alumnos hemos escogido los 10 con el total ms alto y los 10 con el total ms bajo (el 25% de los mejores y peores resultados). En la figura 1 tenemos cmo se han distribuido las respuestas entre las cuatro opciones de cada pregunta: en el supuesto numerador tenemos el nmero de alumnos del grupo superior que ha escogido cada opcin, y debajo el nmero de alumnos del grupo inferior que ha escogido esa misma opcin; la respuesta correcta est sealada con un asterisco. Esta mera tabulacin de frecuencias se presta ya una serie de consideraciones aun sin conocer el contenido de las preguntas (como sucede en este ejemplo); por ejemplo: tem n 1: La alternativa correcta (la A) la han escogido todos y solos los del grupo superior: se trata de una pregunta que discrimina muy bien; diferencia claramente a los que saben de los que no saben. Los del grupo inferior se han ido casi todos a la opcin D: es una buena alternativa incorrecta, que atrae al que no sabe o no entiende; sabemos dnde o porqu fallan los que saben menos (qu confunden con qu); un resultado de este tipo se presta a una buena explicacin a la clase porque nos dice dnde fallan los que menos saben. Esta presentacin de los datos puede tener un claro valor diagnstico. La alternativa C no la ha escogido nadie, ni siquiera de los que menos saben. En otra edicin convendr modificarla, y si observamos que con frecuencia hay alguna opcin que no la escoge nadie o muy pocos (y esto sucede con mucha frecuencia), podremos pensar en pasar de cuatro a tres alternativas. tem n 2: Los que ms saben se distribuyen entre dos alternativas, la B (correcta) y la A (incorrecta). Es posible que las dos sean correctas, o que la pregunta sea ambigua; al menos se trata de una pregunta que conviene examinar. La opcin C tambin es un buen distractor que atrae a los que no conocen la respuesta correcta. tem n 3: Aqu tenemos un resultado anmalo: los que aciertan son sobre todo los que menos saben. El grupo superior prefiere la opcin A (incorrecta). Pregunta que podemos hacernos: Estar mal la clave de correccin? En cualquier caso una pregunta que favorece a los que menos saben es en principio una mala pregunta y habr que examinarla.
Naturalmente no hay interpretaciones automticas, pero esta tabulacin puede decir mucho al profesor que conoce sus propias preguntas. Esta simple tabulacin de las respuestas puede ser muy informativa: * Para comentar los resultados en clase (con la consiguiente reflexin, correccin de errores, etc.) * Para ir mejorando la redaccin de los tems (y entonces el tiempo y la experiencia sern rentables.) Tambin pueden tabularse las respuestas dividiendo a la clase en tres segmentos: el superior, el medio y el inferior, pero el tener en cuenta las respuestas de los dos grupos extremos es suficiente para el fin que se pretende. Las alternativas de respuesta que nadie escoge deben ser revisadas; si esto sucede con muchos tems, se puede plantear el poner menos alternativas (tres en vez de cuatro). Es ms informativo tener ms preguntas con menos alternativas que menos preguntas con ms alternativas: cuatro preguntas con tres alternativas es preferible a tres preguntas con cuatro alternativas; adems no es tan fcil pensar en tres o ms alternativas incorrectas pero plausibles para el que no sabe. En conjunto es preferible bajar de las cuatro alternativas habituales a tres (una correcta y dos incorrectas) pero aumentando el nmero de preguntas. Los ndices que vamos a exponer a continuacin son ampliamente utilizados, sin embargo a profesores no acostumbrados a anlisis numricos pueden resultarles poco claros o simplemente incmodos; en cambio ste observar cmo se distribuyen las respuestas en cada tem de los que ms y menos saben, ofrece buenas pistas de reflexin de manera intuitiva y nada complicada (este nivel de anlisis puede ser suficiente en seminarios y actividades de formacin del profesorado). 5. Anlisis de cada tem: ndices de dificultad y discriminacin Lo primero que hay que advertir es que estos anlisis no equivalen a un anlisis de la validez de los tems o del test; la validez (que los tems miden lo que se pretende medir; por ejemplo que no se pueden responder de memoria cuando se pretende comprobar compresin o capacidad de anlisis) se comprueba en primer lugar con un anlisis cualitativo de la formulacin del tem. Estos ndices: a) Se refieren a cada tem (no a cada alternativa o a todo el test en su conjunto) b) No se calculan con toda la muestra sino, como en el caso anterior (tabulacin de las respuestas a cada alternativa, con el 25% con una puntuacin total ms alta en todo el test y con el 25% con una puntuacin total ms baja; tambin suelen hacerse a veces con otras proporciones, como el 21%, 27%, 30%) pero el 25% es suficiente4. El nmero de sujetos en ambos grupos es por lo tanto el mismo; slo se analizan las respuestas del 50% de los alumnos. (se prescinde del 50% central). Este tipo de anlisis es anlogo al que se hace cuando se construye una escala de actitudes5. Los smbolos utilizados son los siguientes (tabla 2)
4 Pueden verse numerosos documentos sobre estos anlisis (poniendo item analysis en search) en The University of Washington's Office of Educational Assessment, http://www.washington.edu/oea/ 5 Estos anlisis referidos a escalas de actitudes (y tests en general) estn tratados en Morales (2011) y Morales, Urosa y Blanco (2003).
Smbolos utilizados N = nmero de sujetos en uno de los dos grupos (los dos grupos tienen idntico nmero de sujetos) N + N = nmero total de sujetos analizados AS = nmero de acertantes en el grupo superior (con puntuacin total ms alta) AI = nmero de acertantes en el grupo inferior (con puntuacin total ms baja)
Tabla 2
5.1. ndice de dificultad

ndice de dificultad AS + AI Df = N+N
Indica la proporcin de aciertos (tanto por ciento si multiplicamos por 100) en la muestra de alumnos que estamos utilizando (el 50% del total, los dos 25% con puntuaciones totales extremas).
Este ndice es la media de este 50% de sujetos analizados. Tambin la media del tem, obtenida con toda la muestra, nos indica el grado de dificultad (media ms alta, tem ms fcil), sin embargo este ndice de dificultad suele utilizarse rutinariamente junto con los ndices de discriminacin. El trmino ndice de dificultad se presta a equvocos: un ndice mayor indica una pregunta ms fcil (mayor proporcin de aciertos), no ms difcil (quizs podra denominarse con ms propiedad ndice de facilidad). 5.2. ndices de discriminacin Los ndices de discriminacin expresan en qu medida cada pregunta o tem diferencia a los que ms y menos saben. Decimos ndices (en plural) porque hay dos ampliamente utilizados (quizs ms el primero). 5.2.1. ndice de discriminacin 1
ndice de discriminacin 1:
Dc 1 = AS - AI N
Es la diferencia entre dos proporciones, los acertantes del grupo superior menos los acertantes del grupo inferior: (AS/N)-(AI/N); como los denominadores son iguales (idntico nmero de sujetos en cada grupo) la frmula queda simplificada.
a) Es el ndice probablemente ms utilizado consiste en la diferencia entre dos proporciones: proporcin de aciertos en el grupo superior (AS/N) menos proporcin de aciertos en el grupo inferior (AI/N). Expresa por lo tanto hasta qu punto la pregunta discrimina, establece diferencias, contribuye a situar a un sujeto en el grupo superior o inferior. A mayor diferencia en nmero de acertantes entre los grupos superior e inferior, el tem es ms discriminante, contribuye ms a situar a un sujeto entre los primeros o entre los ltimos. b) Equivale a una estimacin de la correlacin tem-total y puede interpretarse de la misma manera; sin embargo puede ser ms clara una interpretacin literal (diferencia entre dos proporciones). c) Los valores extremos que puede alcanzar este ndice son 0 y ms/menos 1.
10
Si todos responden correctamente (pregunta muy fcil): Si todos se equivocan (pregunta muy difcil):
Dc1 =
N-N N
=0
Dc1 =
0-0 =0 N
Es decir, las preguntas muy fciles o muy difciles no discriminan, no establecen diferencias; nos dicen que todos saben o no saben una pregunta, pero no quin sabe ms y quin sabe menos. Estas preguntas no contribuyen a la fiabilidad, pero eso no quiere decir necesariamente que sean malas preguntas (son malas para discriminar). N-0 Si todos y solos los del grupo superior aciertan la pregunta:
Dc1 =
Si acertaran solamente los del grupo inferior:
Dc1 =
N 0N N
=1
= -1
Por lo tanto 1 y -1 son los valores mximos de este ndice. Las preguntas con discriminacin negativa favorecen al grupo inferior y en principio deberan ser revisadas (posibilidades: preguntas mal formuladas, ambiguas, error en la clave de correccin, etc.) d) Las preguntas que discriminan mucho (diferencian bien a los que saben ms de los que saben menos) no son muy difciles; tienden a ser de dificultad media (responde bien la mitad de los sujetos analizados). En este caso (discriminacin mxima porque aciertan slo y todos los del grupo superior) tendramos que el ndice de dificultad sera:
Df = N0 N+N = .50
e) Una limitacin de este ndice est en que el valor mximo de 1 slo se alcanza cuando aciertan todos los del grupo superior y se equivocan todos los del grupo inferior. Puede haber preguntas que discriminan bien pero que son difciles (y fallan algunos del grupo superior) o son fciles (y las aciertan algunos el grupo inferior). Por estas razones algunos prefieren el otro ndice de discriminacin que expondremos a continuacin (Dc2), aunque se pueden programar y utilizar los dos.
Valores mximos del ndice de discriminacin
Puede tener su inters conocer el valor mximo que puede alcanzar este ndice de discriminacin. El valor mximo que puede tener de hecho este ndice depende de la dificultad de la pregunta (frmulas en la tabla 3).
Valores mximos del ndice de discriminacin (Dc1)
Cuando Df = .50 (aciertan la mitad) Dc1 mximo = 1
Cuando Df > .50 (aciertan ms de la mitad) Dc1 mximo = 2 (1 - Df) Tabla 3
Cuando Df < .50 (aciertan menos de la mitad) Dc1 mximo = 2Df
El ndice mximo de dificultad cuando aciertan ms de la mitad es el que hubiera habido 1 manteniendo el mismo nmero de aciertos (grado de dificultad de la pregunta) pero de manera que 2 ninguno del grupo superior hubiera fallado. Por ejemplo, en una clase de 40 sujetos tenemos que N = 10 (25% superior e inferior).
11
Si AS = 9 y AI = 3 tendremos que
Df =
9+3 10 + 10 93 10
= .60 (60% de aciertos) = .60
Dc1 =
El valor mximo de discriminacin, manteniendo los 12 aciertos, es el que hubiramos obtenido si AS = 10 (todos los del grupo superior aciertan) y AI = 2 (los dos aciertos restantes se los dejamos al grupo inferior). En este caso el ndice de discriminacin hubiera sido
Dc1 = 10 2 10
= .80 [ 2 (1- .60) = .80]
El ndice mximo de discriminacin cuando han acertado menos de la mitad, es el que hubiramos obtenido si todos los acertantes pertenecieran al grupo superior. En el mismo caso anterior (una clase de 40 y N = 10), obtenemos estos resultados:
Si AS = 4 y AI = 2 tendremos que
Df =
4+2 10 + 10 42 10
= .30 (30% de aciertos)
Dc1 =
= .20
El ndice mximo de discriminacin en este caso (han acertado menos de la mitad) es el que hubiramos obtenido si todos los aciertos estuvieran en el grupo superior (AS = 6) y todos los del grupo inferior se hubieran equivocado; el ndice de discriminacin hubiera sido:
Dc1 = 60 10
= .60 [ 2 (.30) = .60]
Cuando el ndice de dificultad es .50 (acierta el 50%) las dos frmulas anteriores llevan al mismo resultado, y el ndice mximo de dificultad es siempre 1. No es fcil en la prctica establecer una magnitud ptima del ndice de discriminacin; una buena orientacin es interpretar estos ndices en trminos relativos y examinar cules son ms y menos discriminantes en una situacin dada.
5.2.2. ndice de discriminacin 2
Este ndice es menos utilizado; cuando se habla de ndice de discriminacin sin ms especificaciones hay que entender que se trata del ndice anterior; sin embargo este segundo ndice de discriminacin es tambin informativo.
ndice de discriminacin 2:
Dc 2 = AS
AS + AI
Este ndice indica la proporcin de aciertos en el grupo superior con respecto al nmero total de acertantes. Puede considerarse satisfactorio si al menos es superior a .50: esto quiere decir que ms de la mitad de los acertantes pertenecen al grupo que sabe ms.
Este ndice es independiente del grado de dificultad de la pregunta; con el ndice anterior nunca se llega al valor de 1 si falla alguno del grupo superior (preguntas ms difciles); en cambio este ndice llega a 1 si todos los acertantes, aunque sean pocos, pertenecen al grupo superior. Este ndice nos dice cunto discrimina el tem lo mismo si es
12
muy fcil como si es muy difcil; de hecho se utiliza menos que el anterior pero tambin aporta una buena informacin. Vamos a verlo con dos ejemplos: 1 Suponemos una pregunta muy fcil; con N = 10 en cada grupo (superior e inferior, en una clase de 40 alumnos), la aciertan los 10 del grupo superior y 9 del grupo inferior; los dos ndices de discriminacin seran estos:
10 - 9 = .10 10
Dc1 =
El primer ndice (Dc1) nos dice que la pregunta apenas discrimina; es muy fcil; El segundo ndice (Dc2) nos dice que aunque es una pregunta muy fcil, ms del 50% (casi el 53 %) de los acertantes pertenece al grupo superior; de fallar alguien esta pregunta, pertenece al grupo de los que menos saben (este ndice debe alcanzar al menos el valor de .50).
10 = .526 Dc 2 = 10 + 9
2 Suponemos ahora una pregunta muy difcil; solamente la responden bien 2 alumnos del grupo superior y ninguno del inferior.
2-0 = .20 Dc1 = 10
Dc 2 = 2 =1 2+0
El primer ndice (Dc1) nos dice que la pregunta discrimina muy poco porque es muy difcil; El segundo ndice (Dc2) nos dice que la discriminacin es perfecta; aunque se trate de una pregunta muy difcil, de saberla alguien, ste pertenece al grupo superior, donde estn los alumnos que ms saben.
Podemos ver que este ndice (menos utilizado que el anterior como ya se ha indicado) es sumamente til, pues nos dice en qu medida una pregunta contribuye a distinguir a los que saben ms de los que saben menos independientemente de la dificultad o facilidad de la pregunta. Los dos ndices de discriminacin se pueden programar y utilizar conjuntamente.
6. ndices de dificultad y discriminacin referidos a todo el test
De manera anloga se pueden calcular los ndices de dificultad y discriminacin referidos a todo el test:
ndice de dificultad de todo el test =
media nmero de tems
Se trata simplemente de la proporcin de respuestas que corresponde a la media; en un test de 40 preguntas si la media es igual a 30.5, el ndice de dificultad ser 30.5/40 = .76 (la media de respuestas correctas es del 76%). Este ndice es til para comparar la dificultad de varios tests (o distintas partes del mismo test) sobre todo si tienen un nmero distinto de tems. ndice de discriminacin de todo el test =
puntuacin ms alta obtenida puntuacin ms baja obtenida nmero de tems
El nmero de tems del denominador es la diferencia mxima posible (la que habra entre un sujeto que hubiera respondido bien a todos los tems y el que no hubiera respondido a ninguno). Por lo tanto este ndice equivale a la diferencia mxima obtenida dividida por la
13
diferencia mxima posible (o lo que es lo mismo, la amplitud dividida por el nmero de tems). Si en un test de 40 preguntas la puntuacin mayor es de 35 y la ms baja es de 20, el ndice de discriminacin sera (35-20)/40 = .375.
La informacin que nos da este ndice puede ser cuestionable porque se puede ver afectado por unas pocas puntuaciones extremas y muy atpicas, aun as puede ser til para comparar en discriminacin tests con distinto nmero de tems o el mismo test en grupos distintos. Tambin se puede calcular excluyendo a los sujetos con puntuaciones muy extremas y atpicas (y advirtindolo en este caso).
7. Valoracin de estos ndices
1. Estos ndices describen cmo ha funcionado una pregunta en una situacin dada; no hay que asociar necesariamente juicios de valor sobre la calidad de la pregunta al valor de estos ndices; por eso decimos que estos ndices describen qu ha sucedido; luego vendr nuestra valoracin. Ya se ha indicado que con estos ndices (muy tiles por otra parte) no se comprueba la validez de los tems que requiere anlisis cualitativos (comprobar si preguntamos lo que deberamos preguntar). S se puede hablar de validez en un sentido muy restrictivo que no es el habitual cuando se habla de validez (los ndices de discriminacin nos dicen si los tems son vlidos para discriminar, no si son vlidos porque comprueban el objetivo pretendido). Las preguntas que son muy fciles o muy difciles, por ejemplo, no son discriminantes y tendrn una baja correlacin tem-total) y tienen su lugar. Otra cosa es cuando estos ndices nos sorprenden porque no esperbamos estos resultados (si las examinamos podemos ver quizs que la pregunta es ambigua, que alguna alternativa est mal formulada, que la clave de correccin est equivocada, que hay ms de una respuesta correcta, etc.). Un ndice bajo de discriminacin (o una correlacin con el total muy pequea) pueden estar indicando que esos tems miden algo distinto que la mayora del resto de los tems (por ejemplo un tem que mida comprensin o capacidad de aplicar principios puede tener un ndice de discriminacin bajo si la mayora de los tems son de memoria). 3. Estos ndices (sobre todo el ndice de discriminacin 1, el ms utilizado y del que suele tratarse cuando se habla del ndice de discriminacin) tienen la ventaja clara de que son muy fciles de entender, pero son poco fiables calculados en muestras pequeas (como son los alumnos de una clase); pueden variar mucho de muestra a muestra. Con muestras pequeas describen bien lo que ha sucedido en esa muestra y permiten dar un feedback muy especfico a los alumnos, pero hay que ser muy cauteloso cuando se trata de prescindir de algunos tems para utilizar el test ocasiones sucesivas; con esta finalidad hay que utilizar muestras grandes (o acumular anlisis). Cuando se descartan tems en funcin de anlisis hechos con muestras pequeas se corre el riesgo prescindir de buenos tems; por otra parte ningn anlisis puede sustituir un examen cuidadoso de la formulacin del tem (Burton, 2001). Para extrapolar los resultados haran falta muestras grandes (N= 400, unos 100 en los grupos extremos; estas muestras se pueden obtener acumulando datos); sin embargo la experiencia dice que los ndices obtenidos con grupos pequeos, si se mantiene constante el tipo de muestra, dan una buena idea de lo que se puede esperar en grupos similares. 3. La correlacin tem-total aporta una informacin semejante al ndice de discriminacin y puede ser preferible porque se basa en los datos de todos los sujetos. Si se ha
14
impuesto ms (al menos en textos de evaluacin) el ndice de discriminacin es por la facilidad de clculo antes de que se popularizaran los programas de ordenador. Sin embargo los ndices se discriminacin siguen siendo ms fciles de entender para los que no estn familiarizados con la estadstica. 4. Las preguntas muy discriminantes (que por definicin no suelen ser ni las ms difciles ni las ms fciles) nos indican dnde fallan, sobre todo, los que tienen malos resultados; pueden incluso indicar por qu fallan cuando varias preguntas muy discriminantes tienen alguna relacin entre s. 5. La discriminacin supone diferencias (lo mismo que la fiabilidad calculada con todo el test) y el que haya diferencias no es necesariamente un buen resultado, por ejemplo cuando las preguntas son en principio fciles, versan sobre objetivos mnimos, etc. S es, en cambio, importante que las preguntas (bastantes al menos) discriminen cuando se trata de clasificar, de seleccionar, etc., pero no es ste el caso en muchos exmenes convencionales. 6. En exmenes largos (sobre todo en exmenes finales), en los que se pregunta de todo, con grupos relativamente numerosos, la no discriminacin (lo mismo que una fiabilidad muy baja) puede indicar que no se detectan diferencias que de hecho existen (por ejemplo, puede haber alumnos que saben ms de lo que pueden manifestar en un determinado examen). En este tipo de exmenes habr preguntas que no discriminen porque o son fciles, o son importantes y todos las han estudiado; casi todos las responden bien y ste ser un buen resultado; otras no sern discriminantes porque son muy difciles y ya se contaba con ello (y tampoco tiene que valorarse como un mal resultado); pero en el conjunto del examen y para poder calificar con cierto matiz, debe haber preguntas de dificultad media que discriminen bien. 7. Las preguntas muy discriminantes (que nunca sern las ms difciles) pueden ser tiles en exmenes de segunda convocatoria, prescindiendo de lo muy fcil y de lo muy difcil; con exmenes ms cortos obtenemos la informacin suficiente. Claro est que puede haber otros criterios para seleccionar estas preguntas, como son temas u objetivos determinados y considerados importantes independientemente de que las preguntas discriminen mucho o poco. 8. No hay que olvidar, cuando se calculan e interpretan estos ndices, que en principio una pregunta es buena:
Si es clara y est correctamente formulada, Si permite comprobar el objetivo deseado, Si condiciona en el alumno un tipo de estudio inteligente o al menos deseable
Y tampoco hay que olvidar que
una mala pregunta muy analizada sigue siendo una mala pregunta
9. Estos ndices describen cmo han funcionado los tems en una muestra y situacin concretas y son tiles para evaluar las preguntas, sugerir qu se puede revisar, etc., pero malas preguntas (triviales, que no comprueban nada importante, que no responden a los objetivos, que condicionan un estudio poco inteligente, etc.) pueden tener ndices que podran considerarse como ptimos (por ejemplo pueden discriminar muy bien). Es
15
peligroso interpretar estos ndices como indicadores automticos de la calidad de una pregunta. 10. Estos ndices (y cualquier otro anlisis semejante) no son prueba de validez, es decir, de que realmente estamos comprobando lo que deseamos comprobar (comprensin, capacidad de anlisis, etc.). La validez la verificamos con un cuidadoso examen de la formulacin del tem y tambin viendo su relacin (de cada tem, de bloques de tems, de toda la prueba) con otros criterios. 11. El anlisis de las diversas alternativas expuesto en la tabla 1, comprobando cuntos eligen cada una, en toda la muestra o mejor en los dos grupos extremos, es un anlisis sencillo, fcil de entender y comunicar y que da una informacin sumamente til para ir mejorando las preguntas en ediciones sucesivas sin necesidad de calcular ningn ndice. 12. Estos ndices (lo mismo que otros datos descriptivos como la media, la desviacin y la correlacin tem-total) son sin embargo importantes:
para comunicar (y publicar) resultados, para resumir la informacin y conservarla para una reflexin posterior, para hacer algn tipo de investigacin, etc.
13. Y qu sucede con las preguntas abiertas? No estamos tratando de estas preguntas (u otro tipo de ejercicios, problemas, etc.) pero s es til advertir que se pueden hacer anlisis semejantes si todas las preguntas se corrigen con la misma clave o con el mismo sistema de correccin o calificacin (en vez de tener siempre el valor de 0 1, como las preguntas objetivas, podrn puntuar 0 1 o tambin de 0 a 2, de 0 a 5, etc., segn cmo se establezca la clave de correccin). En estos casos:
El ndice de dificultad es la media de cada tem, El ndice de discriminacin es la diferencia entre las medias de los dos grupos con puntuacin total ms alta y ms baja.
Tambin podramos utilizar como un indicador de la discriminacin la t de Student o preferiblemente el tamao del efecto (no es ste lugar para explicar estos clculos) en vez de la mera diferencia entre las dos medias6. Si utilizamos estos dos indicadores para apreciar en qu medida una pregunta diferencia a los que ms y menos saben, las preguntas o ejercicios pueden tener claves de correccin distintas (los valores de la t de Student y del tamao del efecto son independientes de la escala mtrica utilizada y son comparables entre s).
8. Bibliografa citada y direcciones sobre el anlisis de tems en Internet
CASE, SUSAN M. and SWANSON, DAVID B. (2006). Constructing Written Test Questions for the Basic and Clinical Sciences, 3rd Edition. Philadelphia: National Board of Examiners, 3 edicin revisada (disponible versin en espaol, Cmo elaborar preguntas para evaluaciones escritas en el rea de ciencias bsicas y clnicas) http://www.nbme.org/publications/item-writing-manual.html
6 Puede verse Morales (2008) cap. 8
16
BURTON, RICHARD F. (2001). Do Item-discrimination Indices really Help Us to Improve Our Tests? Assessment and Evaluation in Higher Education, Vol. 20, n 3, 213-220 KEHOE, JERARD (1995). Basic item analysis for multiple-choice tests. Practical Assessment, Research & Evaluation, 4(10). Retrieved January 14, 2005 from http://pareonline.net/getvn.asp?v=4&n=10 this paper has been viewed 91,773 times since 11/13/99 [28/12/2011] MATLOCK-HETZEL, SUSAN (1997). Basic Concepts in Item and Test Analysis. Texas A&M University. http://ericae.net/ft/tamu/Espy.htm MICHIGAN STATE UNIVERSITY. Scoring Office. Item Analysis http://www.msu.edu/dept/soweb/itanhand.html#uses MORALES VALLEJO, PEDRO (2011). Gua para construir cuestionarios y escalas de actitudes. Guatemala: Universidad Rafael Landvar. (Disponible en http://www.upcomillas.es/personal/peter/otrosdocumentos/Guiaparaconstruirescalasdeact itudes.pdf). MORALES VALLEJO, PEDRO (2008). Estadstica aplicada a las Ciencias Sociales. Madrid: Universidad Pontificia Comillas. MORALES VALLEJO, PEDRO La fiabilidad de los tests y escalas. Madrid: Universidad Pontificia Comillas http://www.upco.es/personal/peter/estadisticabasica/Fiabilidad.pdf (ltima revisin, 18 de Septiembre de 2007). MORALES, VALLEJO PEDRO, Las pruebas objetivas: normas, modalidades y cuestiones discutidas Madrid: Universidad Pontificia Comillas http://www.upcomillas.es/personal/peter/otrosdocumentos/PruebasObjetivas.pdf (ltima revisin, 17, Diciembre, 2006). MORALES VALLEJO, PEDRO, UROSA SANZ, BELN y BLANCO, BLANCO, NGELES (2003). Gua para construir escalas de actitudes. Madrid: La Muralla. THE UNIVERSITY OF TEXAS AT AUSTIN, Measurement and Evaluation Center (MEC) Item analysis http://www.utexas.edu/academic/mec/scan/scanitem.html THE UNIVERSITY OF WASHINGTON'S OFFICE OF EDUCATIONAL ASSESSMENT, http://www.washington.edu/oea/ (poniendo item analysis en search; numerosos documentos sobre anlisis de tems).

Anal Is Is Items Prueba S Objetiv As

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Anal Is Is Items Prueba S Objetiv As

Încărcat de

Drepturi de autor:

Formate disponibile

Anlisis de tems en las pruebas objetivas

Anlisis de tems en las pruebas objetivas

Anlisis de tems en las pruebas objetivas

2 Explicado con ms amplitud en Morales (2008), p.214.

Anlisis de tems en las pruebas objetivas

Anlisis de tems en las pruebas objetivas

alternativas (la respuesta correcta se indica con un *)

Anlisis de tems en las pruebas objetivas

5.1. ndice de dificultad

Anlisis de tems en las pruebas objetivas

Si acertaran solamente los del grupo inferior:

Cuando Df = .50 (aciertan la mitad) Dc1 mximo = 1

Cuando Df > .50 (aciertan ms de la mitad) Dc1 mximo = 2 (1 - Df) Tabla 3

Cuando Df < .50 (aciertan menos de la mitad) Dc1 mximo = 2Df

Anlisis de tems en las pruebas objetivas

= .60 (60% de aciertos) = .60

= .80 [ 2 (1- .60) = .80]

= .30 (30% de aciertos)

= .60 [ 2 (.30) = .60]

Anlisis de tems en las pruebas objetivas

Y tampoco hay que olvidar que

Anlisis de tems en las pruebas objetivas

6 Puede verse Morales (2008) cap. 8

Anlisis de tems en las pruebas objetivas

Anlisis de tems en las pruebas objetivas

S-ar putea să vă placă și