Sunteți pe pagina 1din 39

DISEO DE PRUEBAS PARA EVALUACIN EDUCATIVA REGLAS PARA ELABORAR TEMS DE FORMATO DE SELECCIN Y DE PRODUCCIN

DOCUMENTOS

Esta es una publicacin de la Oficina Regional de Educacin de la UNESCO para Amrica Latina y el Caribe (OREALC/UNESCO Santiago) y del Laboratorio Latinoamericano de Evaluacin de la Calidad de la Educacin (LLECE). Hctor Valds Coordinador del LLECE Autores Carlos A. Pardo Adames Martha C. Rocha Gaona Beatriz Scherz Edicin INTERSON Diseo y diagramacin Los autores son responsables por la seleccin y presentacin de los hechos y contenidos en esta publicacin, as como de las opiniones expresadas en ella, que no son necesariamente el pensamiento de la UNESCO y no comprometen a la Organizacin. Las denominaciones empleadas y la presentacin de los datos no implican, de parte de UNESCO, ninguna toma de posicin respecto al estatuto jurdico de los pases, las ciudades, los territorios, las zonas y sus autoridades, ni respecto al trazado de sus fronteras o lmites. El uso de un lenguaje que no discrimine ni reproduzca esquemas discriminatorios entre hombres y mujeres es una de las preocupaciones de nuestra Organizacin. Sin embargo, no hay acuerdo entre los lingistas acerca de la manera de hacerlo en castellano. En tal sentido, y para evitar la sobrecarga grfica que supondra utilizar en espaol o/a; los/las y otras formas sensibles al gnero con el fin de marcar la presencia de ambos sexos, hemos optado por usar la forma masculina en su tradicional acepcin genrica, en el entendido que es de utilidad para hacer referencia tanto a hombres y mujeres sin evitar la potencial ambigedad que se derivara de la opcin de usar cualesquiera de las formas de modo genrico. Permitida su reproduccin total o parcial, as como su traduccin a cualquier idioma siempre que se cite la fuente, y no se utilice con fines lucrativos. ISBN 978-956-322-045-2

4 5 6 8 8 11 12 13 13 14 15 16 16 18 18 19 20 21 22 23 24 24 25 26 27 27 28 29 30 31 31 33 35 37

I. II. . . . . . . . . III. .

El concepto de evaluacin Fases del diseo de prueba Marco conceptual Especificaciones Desarrollo de pruebas Aplicacin piloto Aplicacin definitiva Anlisis de tems y de prueba Escalas de calificacin Produccin y divulgacin de resultados Consideraciones para el desarrollo de pruebas Formatos de tems

De seleccin de respuesta . Apareamiento . Falso/Verdadero . Seleccin mltiple con nica respuesta . Seleccin mltiple compleja . Dependientes de un contexto . De analogas De produccin de respuesta . De completamiento . De ensayo . De expresin oral . De productos no escritos . Longitud de la prueba . Niveles de revisin . Confidencialidad . Problemas en el proceso de evaluacin IV. . . V. . Reglas para la elaboracin de tems De seleccin De produccin Validez del proceso de evaluacin Bibliografa

ndice

Introduccin

Introduccin

a evaluacin educativa, especialmente la que se realiza en el aula, forma parte integral del proceso general de educacin y no puede ser asumida como un proceso independiente, desarticulado, espordico o extrao. Desde esta perspectiva, la evaluacin debe realizarse con la intencin de formar parte del aprendizaje y convertirse en una herramienta que lo cualifique y lo potencie. Para que esta visin pueda hacerse realidad, es necesario que la evaluacin en s misma se realice con apego riguroso a las tcnicas psicomtricas, es decir, a los estndares y reglas que constituyen el saber sobre diseo de pruebas. La aplicacin de stas busca asegurar la validez del proceso evaluativo y, por ende, garantizar los principios de equidad, objetividad, pertinencia y relevancia deseables en todo proceso de evaluacin. Las tcnicas para la elaboracin de pruebas constituyen pautas ms o menos generales acerca de las consideraciones que se deben tener en cuenta desde el momento en que se define un propsito de evaluacin. Si bien estas tcnicas se han decantado principalmente como el legado de la experiencia acumulada en el desarrollo de procesos de evaluaciones masivas de carcter externo, es claro que son aplicables a los procesos de evaluacin en el aula y que su aplicacin contribuye a elevar los niveles de calidad y de utilidad del proceso evaluativo. Eso s, cabe aclarar que la calidad de las pruebas no puede atribuirse exclusivamente al apego a las tcnicas sealadas en este documento. En realidad, la experiencia ha demostrado sobradamente que, en gran parte, la clave para lograr una prueba confiable est en el grado de claridad que se tenga del propsito de la evaluacin, del conocimiento profundo del rea, tpico o disciplina que se va a evaluar, as como del conocimiento de las caractersticas de la poblacin que va a ser evaluada y de la forma en que se ha dado su proceso de formacin. Resulta, adems, de suma utilidad que el trabajo de disear, desarrollar y revisar el instrumento sea elaborado en equipo, como garanta de que los criterios individuales se someten a niveles deseables de objetivacin. Este documento comienza con una reflexin sobre el concepto de evaluacin. Luego, describe las fases del diseo de pruebas educativas y algunas tcnicas generales de elaboracin de tems o preguntas, tanto de aquellos de formato de seleccin como de los de formato de produccin de respuesta. Al final, se incluye un apartado sobre la validez del proceso evaluativo, por ser la cualidad por excelencia que se busca garantizar en estos procesos.

I.

El concepto de evaluacin

La evaluacin puede definirse como un proceso permanente y sistemtico de recoleccin de evidencias acerca de qu tanto los estudiantes comprenden los saberes objeto de enseanza. La evaluacin debe promover en los estudiantes reflexiones novedosas e interesantes que les ayuden a profundizar en los contenidos trabajados en el aula y a establecer conexiones entre estos saberes y otros. Debe permitir identificar problemticas puntuales de comprensin que tienen los evaluados y, por ende, debe poder orientar acerca de los ajustes que requiere el proceso de formacin. Debe ofrecer a los evaluados, adems, la oportunidad para reconocer por s mismos sus avances y sus dificultades en el proceso de aprendizaje, y debe servir para que otras audiencias (padres de familia y comunidad en general) puedan ser informados acerca de la eficacia del proceso educativo. A partir de la definicin anterior conviene precisar que: La evaluacin educativa es un proceso; NO debe ser una actividad espordica. La evaluacin debe ser intencionada y coherente con los propsitos del proceso formativo; NO debe ser improvisada. La evaluacin debe ser permanente y diversa. La valoracin sobre qu tanto han comprendido los evaluados un determinado tema debe basarse en evidencias de muchas clases, recogidas en distintas situaciones; NO debe hacerse nicamente al finalizar la formacin. La evaluacin debe servir para aprender. Las preguntas deben promover reflexin y relacin de saberes; NO debe basarse exclusivamente en la memorizacin de datos. Los resultados de la evaluacin deben usarse para mejorar el proceso educativo. Si los evaluados tienen fallas de comprensin hay que orientar el proceso educativo para superar tales fallas; NO debe usarse como herramienta para rotular ni para discriminar a los evaluados. Adems de los evaluados, hay otras personas o grupos necesitados de conocer y de comprender oportunamente los resultados de la evaluacin y para ellos deben definirse estrategias eficaces de divulgacin; NO debe limitarse el reporte de resultados a la publicacin lacnica de calificaciones, cifras o tablas.

Finalmente, es necesario tener en cuenta que una prueba debe ser entendida como una estrategia que pretende facilitar el acopio de evidencias sobre lo que saben y son capaces de hacer los evaluados con respecto a un tema, rea o tpico particular, y que, a partir de tales evidencias, se pueden emitir juicios acerca del grado de comprensin que tienen los

evaluados de ese tema, rea o tpico. As, si los instrumentos estn mal diseados, hay una alta probabilidad de llegar a inferencias incorrectas y, por tanto, es altamente probable que los juicios emitidos carezcan de validez y que, por ende, las decisiones tomadas para ajustar el proceso de formacin no resulten eficaces. Por tanto, para cualquier evaluador es un deber profesional y tico asegurarse de que los instrumentos que utiliza estn correctamente construidos. El diseo de un instrumento de evaluacin implica una serie de fases que se describen en el siguiente apartado. La complejidad de cada etapa est condicionada, entre otros aspectos, por el objeto de evaluacin y por el uso que se dar a los resultados. Corresponde al equipo de trabajo que disea y desarrolla la prueba, analizar y decidir el tiempo y dems recursos destinados a cada fase; no obstante, no existe ninguna excusa aceptable para soslayar el rigor tcnico que debe tener el diseo de una prueba en cada una de sus fases.

II.

Fases del diseo de pruebas

Antes de iniciar el proceso de diseo de pruebas, es recomendable reflexionar acerca de los siguientes aspectos: 1. Cul es el propsito de evaluacin?, Qu se busca decir de los evaluados a partir de sus resultados? Quines conforman la poblacin objetivo?, Cules son sus caractersticas culturales, educativas, cognitivas y cmo tenerlas en cuenta al disear la prueba? Qu recursos humanos, fsicos, materiales y financieros se tienen disponibles?, De qu forma podra gestionarse la consecucin de recursos adicionales? Cul es el mejor tipo de instrumento para cumplir el propsito planteado: test de seleccin, prueba de produccin o una combinacin de ellos? A quines interesa enterar de los resultados?, Quines estn interesados en conocer y en comprender los resultados?, Se disear un reporte de resultados diferente para grupos de inters?, Qu estrategia ser ms efectiva para lograr que se com prendan y utilicen los resultados?

2.

3.

4.

5.

Tener claridad sobre las respuestas a estas preguntas y sobre otras que pueden derivarse de stas es imprescindible para delimitar las condiciones bajo las cuales el equipo va a trabajar.

En la siguiente grfica se presenta de manera global las fases del diseo de pruebas.

MARCO CONCEPTUAL DE LA EVALUACIN

ESPECIFICACIONES DE PRUEBA

DESARROLLO DE PRUEBAS

APLICACIN PILOTO / DEFINITIVA

ANLISIS DE TEMS Y PRUEBAS

PROCESAMIENTO DE DATOS

ESCALAS DE CALIFICACIN

DIVULGACIN DE RESULTADOS

El proceso de evaluacin se inicia con la elaboracin de un Marco Conceptual, documento que ordena las ideas sobre el propsito y el enfoque que tendr la prueba. Este marco orienta las etapas subsiguientes en tanto que en l se describe el propsito de la evaluacin (para qu la prueba?); el objeto de evaluacin y el enfoque o teora desde el cual ese objeto ser definido (qu se evaluar?, cmo se define ese objeto?); la poblacin objetivo (a quin se evaluar?) y los usuarios de los resultados (a quines les interesa conocer los resultados de esta evaluacin?). El Marco Conceptual recoge las decisiones y argumentos en los mbitos disciplinar, metodolgico, educativo, administrativo y legal, que dan sustento a la prueba como un instrumento de evaluacin pertinente para cumplir el propsito enunciado. Como se trata del documento que establece la ruta a seguir en las dems fases del diseo, es recomendable que en su elaboracin participen personas que dominen el saber, tpico o tema que ser objeto de evaluacin, junto con personas que aporten el saber tcnico sobre diseo de instrumentos de evaluacin y personas que conozcan a la poblacin objetivo y que entiendan el sentido y propsito de la prueba. Este equipo deber avanzar en una etapa de consulta de informacin que les asegure un nivel de conocimiento apropiado sobre las tendencias en materia de conceptualizacin y de evaluacin del tpico de inters y luego deber someter a discusin la informacin recogida para optar por una lnea conceptual clara que ser fundamental para iluminar la fase siguiente en la que se definen las Especi-

ficaciones de Prueba.

Las Especificaciones de Prueba abarcan dos aspectos:

1. Se refieren a una descomposicin en categoras del objeto de evaluacin; dado que en


el mbito educativo este generalmente alude a constructos o rasgos como conocimiento, rendimiento, comprensin, etc., y estos constructos usualmente se ligan al dominio en una disciplina o campo del saber como matemticas, ciencias naturales, etc. La descomposicin del objeto de evaluacin en categoras se realiza tanto en lo disciplinar como en lo cognitivo. En lo disciplinar, la categorizacin puede orientarse en funcin de temas prctica que resulta tradicional en evaluaciones educativas pero tambin puede hacerse en funcin de conceptos o de problemas propios de la disciplina evaluada. As, un objeto de evaluacin como las matemticas puede ser categorizada, para efectos de evaluacin, bien en temas como aritmtica o lgebra, o bien en conceptos como nmero, proporcin, medida, etc. Vale decir, que una categorizacin conceptual o por problemas puede resultar ms pertinente si el propsito es la evaluacin de competencias, mientras que si se busca evaluar conocimientos, la categorizacin por temas cumple un mejor papel. Paralelamente con la definicin de categoras del orden disciplinar, se categoriza tambin el dominio cognitivo del objeto de evaluacin, es decir, se enuncian los procesos cognitivos subyacentes a ese objeto. Existen numerosas taxonomas de procesos cognitivos que se

utilizan para realizar tal categorizacin; es el caso de la muy conocida Taxonoma de Bloom, la cual diferencia seis procesos cognitivos distintos asociados al logro educativo, a saber: recuerdo, comprensin, aplicacin, anlisis, sntesis y evaluacin. Independientemente de la taxonoma utilizada, es importante que las categoras cognitivas definidas apunten a dar cuenta del objeto de evaluacin planteado en el Marco Conceptual del instrumento. As, si se ha definido que el objeto de evaluacin es, por ejemplo conocimientos en matemticas, el dominio cognitivo conocimientos debe ser evaluado a partir de las categoras cognitivas que, de acuerdo con el criterio tericamente sustentado por el equipo que disea la prueba, den cuenta de lo que se quiere significar con el constructo conocimientos. Las taxonomas o categorizaciones del objeto de evaluacin, tanto en el orden disciplinar como en el de procesos cognitivos, deben responder a dos condiciones: exhaustividad y mutua exclusin. La exhaustividad significa que, en conjunto, todas las categoras descritas den cuenta del dominio descrito. La mutua exclusin se refiere a la caracterstica que deben cumplir las categoras definidas en el sentido de que cada una de ellas aborde un proceso diferenciable de los procesos abordados en las dems categoras, es decir, que las categoras de la taxonoma elegida no deben solaparse entre s. El entrecruzamiento de las categoras disciplinar y cognitiva da lugar a lo que se conoce como Estructura de Prueba o la hoja de ruta para la elaboracin de los tems. Esta consiste en una matriz que combina los dominios del objeto de evaluacin, pues en sus celdas se determina el tipo de tareas que la resolucin de los tems va a demandar, as como el nmero de estos que sern necesarios para dar cuenta de esa parte del objeto de evaluacin que es sealado por tal celda. A continuacin se presenta una estructura de prueba simple para evaluacin de conocimientos en matemticas, en la cual el dominio disciplinar se categoriza en temas bsicos de las matemticas, mientras que para el dominio cognitivo se usan algunas de las categoras de la Taxonoma de Bloom.

DOMINIO COGNITIVO DOMINIO DISCIPLINAR

CATEGORA 1 (Aplicacin)

CATEGORA 2 (Anlisis)

CATEGORA 3 (Sntesis)

ARITMTICA

Tarea 1: Resolver problemas de suma con una incgnita, contextualizado a situaciones cotidianas reales. Tarea 1: Explicar las diferencias de un mtodo para resolver una ecuacin dada, frente a otros mtodos disponibles.

LGEBRA LINEAL

TRIGONOMETRA

XX

La Estructura de Prueba tambin sirve para orientar la retroalimentacin de resultados, dado que, siempre que se cuente con suficientes tems en una celda, las inferencias sobre lo que el evaluado puede o no puede, con respecto al objeto de evaluacin, puede darse a nivel de celda de la matriz. As, frente a la opcin de reportar un buen o un mal resultado en la prueba de conocimientos en matemticas, se tiene la alternativa de informar sobre fortalezas o debilidades especficas en aplicacin de la aritmtica, o en lgebra lineal, etc.

2. Adems de la definicin de la Estructura de Prueba, las Especificaciones de Prueba incluyen las decisiones tcnicas acerca de la cantidad de tems que es necesario construir por cada una de las celdas de la estructura, la distribucin de tems por distintos niveles de dificultad o de exigencia y el peso que cada tem tendr en la calificacin, as como tambin decisiones referidas a los formatos de tems que se incluirn (de seleccin mltiple con nica respuesta, de produccin, de apareamiento, etc.) y sus respectivas instrucciones de respuesta; la distribucin de los tems en la prueba (si se organizarn en bloques o secciones de

10

acuerdo con algn criterio de contenido, de forma, de organizacin logstica, etc.); el tiempo del cual dispondrn los evaluados para responder la prueba y sus partes, si es pertinente aclararlo y todos los dems lineamientos que aseguren una adecuada conformacin o ensamblaje del instrumento y que contribuyan a clarificar las condiciones en las cuales debe realizarse la aplicacin. Como en todas las decisiones que se toman a lo largo del proceso de diseo, stas deben ser coherentes con lo que se ha planteado en el Marco Conceptual. La longitud de la prueba no ser la misma para un grupo de pequeos de nueve aos que para un grupo de adultos profesionales; factores como el tiempo efectivo de atencin que es posible exigirle a cada poblacin son esenciales como insumo para definir las Especificaciones de Prueba. Las Especificaciones de Prueba constituyen una de las fases ms complejas del diseo de pruebas (Hambleton y Zaal, 1994), especialmente porque implica la toma de decisiones que definen las formas de accin en las etapas sucesivas. Mientras en el Marco Conceptual se describe qu y a quin se va a evaluar, en las especificaciones se delimita el cmo de esa evaluacin. En este sentido, es deber del evaluador dar a conocer entre los evaluados, con suficiente anticipacin a la fecha de aplicacin, al menos un resumen de las especificaciones. Con esto se busca garantizar que ningn evaluado llegue al momento de la aplicacin sin saber a qu se enfrentar y sin haber tenido la opcin de prepararse para demostrar de la mejor manera sus habilidades. Con esto se pretende respetar el principio de equidad y favorecer la validez del proceso de evaluacin en tanto que, tratndose de pruebas de logro o de desempeo en el contexto educativo, se espera que la prueba ponga en evidencia habilidades que son resultado de procesos de formacin o entrenamiento. Adems, las Especificaciones de Prueba deben ser conocidas a profundidad por todas las personas que vayan a participar en la siguiente fase, el Desarrollo de la Prueba. El desarrollo implica redactar los tems o preguntas siguiendo las pautas plasmadas en el Marco Conceptual y, ms precisamente, en la Estructura de Prueba. Elaborar tems en la cantidad y de las categoras requeridas, que apunten al propsito de la prueba, que demanden el grado de exigencia apropiado para la poblacin objetivo y que se apeguen a las reglas tcnicas establecidas para su construccin, asegura en gran medida que todos los tems de la prueba cumplan con cuatro caractersticas que resultan esenciales: equidad, pertinencia, relevancia y calidad tcnica. La equidad se refiere a que los tems no deben favorecer a una parte de la poblacin objetivo en razn de sus condiciones sociales, culturales, tnicas, religiosas o de cualquier otra ndole. La pertinencia se verifica por su contenido y por el proceso cognitivo que evala; un tem es pertinente si puede ubicarse clara e indiscutiblemente en una de las celdas de la Estructura de Prueba. La relevancia alude al hecho de que, habindose verificado la pertinencia, se pueda argumentar acadmica y tcnicamente que cada tem cumple un papel importante en el propsito de hacer evidente el dominio que tiene el evaluado del objeto de evaluacin; dicho de otra forma, un tem es relevante cuando no hay discusin en con-

11

siderar que la respuesta a tal tem verdaderamente contribuye a diferenciar entre quienes saben y quienes no saben aquello sobre lo cual la pregunta indaga. La calidad tcnica tiene que ver con la observacin de las reglas especficas de construccin que apuntan a asegurar la correccin gramatical y la pureza semntica en la construccin de los tems. Lograr que los tems tengan estas cuatro cualidades debe ser el objetivo de quien elabora una prueba. Sin embargo, no es labor fcil construir tems de calidad tcnica, equitativos, pertinentes y relevantes. Lograr buenas preguntas exige trabajo en equipo, dedicacin y paciencia. El trabajo coordinado de elaboradores de tems con revisores que tengan un buen dominio del objeto de evaluacin es esencial para lograr el cometido de una prueba bien hecha. Igualmente, la participacin de revisores de estilo y de revisores de edicin, en la medida que las condiciones lo permitan, decididamente es aconsejable.

Cuando la prueba est terminada y, siempre que se tenga la oportunidad de hacerlo, se procede a una etapa de experimentacin o de Aplicacin Piloto de la prueba. En esta fase suele seleccionarse a una muestra (aleatoria o intencional, dependiendo de las caractersticas propias del proceso) representativa de la poblacin objetivo para que respondan la prueba, intentando hacerlo en condiciones semejantes a las que se establecern para la aplicacin definitiva o real del instrumento. Esto se hace con el fin de evaluar su calidad tcnica, valorar la pertinencia de las preguntas para la poblacin y para afinar los criterios de calificacin. Al hacer una aplicacin piloto se recogen las respuestas dadas por la muestra seleccionada y con ellas se procede a estimar indicadores psicomtricos que permiten reconocer las necesidades de ajuste del instrumento en trminos del nivel de dificultad de las preguntas (por ejemplo, si los tems resultaron demasiado fciles para la poblacin ser necesario elaborar algunos de mayor nivel de dificultad para la aplicacin definitiva), de la redaccin de las opciones de respuesta y de organizacin de la prueba. Es importante tener en cuenta que las condiciones de la aplicacin piloto guarden la mayor similitud posible con las condiciones definidas para la aplicacin definitiva (edicin del instrumento, instrucciones para responder, tiempo disponible, etc.) con lo cual la aplicacin piloto servir tambin como criterio para evaluar la pertinencia de tales condiciones y en su defecto, dar la oportunidad de ajustarlas con miras a la aplicacin definitiva. Si no es posible realizar aplicacin piloto, una alternativa para someter a validacin los tems o preguntas consiste en realizar lo que se denomina un juicio de expertos. Este es un procedimiento a travs del cual un equipo de personas, con demostrados conocimientos y experiencia en la formacin y evaluacin de aquello que se ha definido como objeto de evaluacin en la prueba, emiten su juicio respecto de las cualidades previamente mencionadas: equidad, pertinencia, relevancia y calidad tcnica. Por supuesto, estos juicios deben ser emitidos a la luz de las consideraciones del Marco Conceptual. Los expertos pueden valerse de formatos previamente diseados para registrar sus juicios y para argumentarlos debidamente, de tal forma que el proceso de elaboracin de tems se retroalimente con claridad y sea posible adelantar los ajustes en aquellos que conduzcan, finalmente, a tener

12

la prueba que se requiere. Bien sea a travs de la aplicacin piloto o del juicio de expertos, la prueba siempre debe ser sometida a esta fase de revisin pues, como se ha mencionado, es prcticamente imposible asegurar una prueba de excelente calidad desde el primer intento de desarrollo. Vale reiterar que sobre la calidad del instrumento descansa la validez de los juicios que se emitirn acerca de los evaluados y que, en tal sentido, reviste un compromiso tico no escatimar esfuerzos en cualificar la prueba. Una vez que se dispone de una prueba debidamente validada, la siguiente fase corresponde a la administracin o Aplicacin Definitiva de la prueba. Ya desde la aplicacin piloto, si la hubo o en su defecto, desde un momento previo a la fase de aplicacin se han debido definir las condiciones de administracin convenientes y necesarias para los propsitos de evaluacin. Se trata de garantizar que las condiciones para responder la prueba sean equitativas y confortables para la poblacin objetivo. As, se espera que todos los evaluados reciban las mismas instrucciones antes de la aplicacin; que ninguno de ellos haya tenido conocimiento previo del contenido de la prueba; que ninguno tenga la oportunidad de buscar o de recibir ayuda extra de fuente alguna para responder durante la aplicacin; que las condiciones de la aplicacin, tales como la disposicin de materiales (cuadernillos de prueba, hoja de respuestas, instrucciones, lpiz, borrador, etc.), la acomodacin en un pupitre, la iluminacin y la ventilacin y el tiempo disponible para responder sean iguales para todos los evaluados y, finalmente, que cuando las circunstancias lo ameriten, se tomen las medidas necesarias para que personas de la poblacin objetivo con alguna limitacin fsica reciban soporte adecuado para afrontar el proceso de evaluacin en condiciones equivalentes al resto de la poblacin. Las respuestas que los evaluados dan a la prueba, junto con la informacin que se haya recogido durante el proceso de aplicacin, como la suficiencia de los tiempos permitidos para responder la prueba y la claridad de las instrucciones de respuesta, entre otros, sirven para realizar lo que se denomina un Anlisis de tems. Esta fase se realiza luego de cada aplicacin, se trate de una piloto o una definitiva. Al revisar las respuestas dadas por los evaluados es posible identificar con relativa facilidad indicadores como la frecuencia de respuesta a cada pregunta o cules preguntas no fueron respondidas por la mayora de los evaluados. Estos y otros indicadores sirven para retroalimentar el proceso de elaboracin de tems y an fases anteriores del diseo. Vale mencionar que existen programas de computador de bajo costo e incluso algunos gratuitos, descargables de la web, que procesan las respuestas dadas a una prueba y arrojan indicadores estadsticos que permiten valorar la calidad de una prueba desde el punto de vista psicomtrico1 . Tratndose de procesos de evaluacin en el aula, estos anlisis pueden realizarse con ayuda de un software bsico como una hoja de clculo.

1 Indicadores como nivel de dificultad, correlacin pregunta-prueba, discriminacin de la pregunta, confiabilidad del instrumento (dentro de la Teora Clsica de las Pruebas) u otros ms modernos y robustos como el grado de ajuste, la curva caracterstica del tem o la funcin de informacin, entre otros (dentro de la Teora de Respuesta al tem) son utilizados como criterios de evaluacin de la calidad de los instrumentos en procesos de evaluacin masiva.

13

Si no se dispone de este tipo de herramientas, es posible producir con relativa facilidad algunos indicadores cuantitativos y cualitativos para realizar el anlisis de tems. Algunos indicadores fcilmente estimables son: porcentaje de respuestas correctas para cada pregunta, errores ms frecuentes en las respuestas, preguntas que no fueron respondidas por ningn evaluado (o que muchos dejaron de responder), preguntas respondidas correctamente por casi todos, preguntas respondidas correctamente por muy pocos, respuesta ms comn o respuesta menos comn (en preguntas de produccin de respuesta), preguntas en las que se equivocaron evaluados cuyo dominio del saber se ha inter- pretado como alto o bueno por otras fuentes de evaluacin, opcin de respuesta preferida (en tems de seleccin), cantidad de evaluados que tuvieron dudas para responder un mismo tem, cantidad de evaluados a quienes el tiempo para responder les fue suficiente/insuficiente.

El anlisis de tems contribuye a verificar que las calificaciones y, por ende, los juicios derivados del proceso de evaluacin no pierdan validez por fallas en la prueba o en su administracin. Cualquier error detectado en esta fase debe ser objeto de anlisis para que el equipo responsable de la prueba implemente los ajustes necesarios en las fases precedentes en las que consideren pertinente hacerlos para mejorar la calidad de la prueba. Algunas veces, el anlisis de tems puede conducir a decisiones drsticas como la eliminacin de un tem para el proceso de calificacin; es preferible prescindir para la calificacin de una pregunta con problemas demostrados (excesivamente fcil o difcil, por ejemplo) para no afectar la validez del proceso que mantenerlo para asegurar la completitud de la estructura de prueba. El paso a seguir, una vez hecho el anlisis de tems y tomadas las decisiones pertinentes al respecto, es la definicin de Escalas de Calificacin que, desde el punto de vista tcnico, se define como la asignacin de valores, de acuerdo con ciertas reglas, a los desempeos de los evaluados cuando se les aplica un instrumento de evaluacin (Fenton y Pleeger, 1997).

14

La construccin de escalas es la fase en la que se definen las reglas de asignacin de esos valores, con el fin de asegurar que las interpretaciones de los resultados de la evaluacin sean comprensibles y pertinentes. Es importante reconocer que cada pregunta que conforma el instrumento tiene asociado un nivel de dificultad particular que debe ser tomado en cuenta en el momento de asignar la calificacin a cada evaluado2 . Es tambin importante asegurarse de que las valoraciones asignadas tengan en cuenta las diferencias en los instrumentos si se aplican distintas formas del mismo a subgrupos de evaluados (cuando un docente disea un tema A y un tema B, por ejemplo, para que la mitad de los estudiantes responda cada tema, sin considerar el nivel de dificultad que reviste cada tema, puede estar ofreciendo ventajas a aquella parte de evaluados que responda el tema menos exigente). Escalas propiamente dichas implican la estandarizacin de los datos usando el promedio y la desviacin estndar de los mismos para llevar todas las puntuaciones brutas (respuestas correctas) a puntuaciones que cobran sentido como parte de una distribucin (por ejemplo, la distribucin normal o gaussiana) o de un criterio o estndar externo (por ejemplo, escalas de niveles de desempeo). Actualmente, se dispone de modelos matemticos ms avanzados como los de la Teora de Respuesta al tem, que convierten las puntuaciones brutas en puntuaciones log intervalares y permiten la construccin de escalas de calificacin con mayores posibilidades de interpretacin. Un propsito fundamental en esta etapa tiene que ver con la intencin de disear escalas de calificacin que permitan y garanticen la comparabilidad de resultados a lo largo del tiempo, teniendo en cuenta que las pruebas no son idnticas y las poblaciones son diferentes. La fase final del proceso de evaluacin es la socializacin o la Divulgacin de los Resultados, no solamente a los evaluados, sino tambin a otros grupos interesados en conocer tales resultados (padres de familia, directivos de la institucin, organismos gubernamentales, sociedad civil, etc.). Esta es una fase crucial del proceso de evaluacin, porque de la claridad y oportunidad con que se comuniquen los resultados, depende en gran medida que se cumpla o no con los propsitos esenciales de la evaluacin como proceso y de la prueba propiamente dichos. El verdadero valor de la evaluacin como base de la cualificacin educativa se da cuando los usuarios se informan de manera detallada de aquellos aspectos en los que se detectan fallas y en aquellos en los que se infiere fortaleza, de tal suerte que los diferentes actores del proceso educativo puedan tomar decisiones acertadas sobre las acciones que conviene implementar con miras a la cualificacin permanente. En el aula, la retroalimentacin personalizada y pormenorizada de los resultados puede marcar la diferencia entre el sistema tradicional y un sistema educativo eficaz. La posibilidad de reconocer los errores cometidos abre el camino hacia la bsqueda de mecanismos para superarlos.

2 Los modelos modernos de procesamiento de datos basados en la Teora de Respuesta al tem utilizan formulaciones matemticas que tienen en cuenta el nivel de dificultad de los tems para producir una calificacin.

15

III.

Consideraciones para el desarrollo de pruebas

Un tem puede definirse como la enunciacin de una tarea a partir de cuya respuesta se infiere la habilidad3 o dominio para desarrollar la tarea planteada. Es una situacin demandante, intencionalmente diseada para poner en evidencia la habilidad de quien se enfrente a ella. Una prueba es un conjunto intencionalmente diseado de tems a travs de cuyas respuestas se infiere el grado de habilidad de quienes son evaluados, en relacin con el objeto de evaluacin. Una prueba constituye la agregacin sinrgica y articulada de tems para decir algo sobre la persona que los responde, en funcin de la eficacia con que lo hace. En tal sentido, un agregado casual de tems no puede ser considerado una prueba. Como ya se mencion, lograr una prueba implica partir de un Marco Conceptual que delimite consideraciones necesarias para concebir cada pregunta con una intencionalidad especfica tendiente a lograr que el conjunto de tems elaborados constituya verdaderamente un instrumento de evaluacin completo e ntegro. Esa integridad, sin embargo, no rie con el hecho de que se encuentre la necesidad de diversificar los formatos de tems a utilizar en la prueba, si esto responde a la intencin de rastrear de la manera ms completa el objeto de evaluacin previamente definido. Conviene entonces conocer distintos formatos de tems disponibles y sus potencialidades evaluativas a la hora de desarrollar pruebas.

1.

Formatos de tems

El formato de un tem corresponde a la manera en que se presentan, estructuran o disponen sus partes para plantear la tarea de evaluacin. Dependiendo de lo que debe hacer el evaluado para responder el tem, hay dos grandes categoras de formatos: los que demandan que el evaluado elija o seleccione una respuesta dentro de un grupo de opciones de respuesta dadas por el evaluador o los que demandan que el evaluado construya su respuesta a partir de unas instrucciones dadas. Tradicionalmente, a cada formato se le asocia la capacidad para provocar en el evaluado procesos cognitivos particulares; no obstante, ms que el formato en s mismo, es la combinacin de la formulacin de la tarea de evaluacin, la naturaleza del objeto evaluado y las caractersticas de la poblacin lo que determina que un formato resulte ms apropiado para evaluar unos procesos cognitivos que otros.

Habilidad en sentido genrico. Puede ser asumida como conocimiento, competencia, saber, desempeo, etc.

16

Cada formato tiene asociadas unas instrucciones particulares que pueden revestir mayor o menor grado de dificultad dependiendo de las caractersticas de la poblacin evaluada y/o del grado de familiaridad de la poblacin con el formato. Si bien es admisible que en una misma prueba se incluyan varios formatos de tems, es de considerar el hecho de que el tiempo que toma la lectura restringe el tiempo neto para dar respuesta a los tems. En tal sentido, conviene mesurar la diversificacin de formatos en una prueba. En el grfico siguiente se presentan algunos de los formatos ms representativos dentro de las dos categoras mayores: de seleccin y de produccin de respuesta. La separacin de los dos grandes grupos de formatos se basa en aquello que exige la tarea de evaluacin, que puede corresponder a seleccionar una respuesta de entre un grupo ofrecido de opciones o a elaborar una respuesta (sea esta escrita, verbal o de otra ndole) a partir de instrucciones ofrecidas. FORMATOS DE TEMS

SELECCIN DE RESPUESTAS SELECCIN DE RESPUESTA

PRODUCCIN DE RESPUESTA

SELECCIN MLTIPLE

COMPLETAR RESPUESTAS

APAREAMIENTO

ENSAYO CORTO

SELECCIN ALTERNA FALSO / VERDADERO

ENSAYO LARGO ENSAYO ORAL

DEPENDIENTES DE CONTEXTOS

EJECUCIN

PRODUCTOS NO ESCRITOS

17

Formatos de seleccin de respuesta


En estos formatos hay, por lo general, tres elementos bsicos: Un contexto que delimita las condiciones para responder. Una proposicin o enunciado que indica una tarea de evaluacin. Una o ms proposiciones que obran como opciones de respuesta.

tems de apareamiento
La estructura tpica de estos tems consiste en dos listados de proposiciones dispuestos en columna, uno frente al otro. El evaluado debe asociar o emparejar las palabras, expresiones o conceptos ofrecidos de acuerdo con la tarea descrita en el enunciado. El nmero de elementos que conforman las listas generalmente es distinto, con lo que se pretende incrementar el nivel de dificultad del tem, dado que con nmero igual de elementos la posibilidad de aplicar el principio de descarte para realizar el emparejamiento se incrementa. Una caracterstica de buena redaccin de estos tems es que todas las palabras o conceptos del enunciado y de las opciones correspondan con el tpico evaluado, de lo contrario sern fcilmente descartables. Es un formato til para evaluar habilidad de asociacin de conceptos y evocacin de definiciones, principios, teoras, etc. No se recomienda para evaluar procesos cognitivos superiores (como anlisis o argumentacin). Ejemplo: A continuacin se encuentra una lista de nombres de ciudades capitales y otra lista con nombres de pases. Trace una lnea para relacionar cada ciudad con el nombre del pas del cual es la capital.
Atenas Madrid Bogot Washington Londres Pars Managua Chile Rusia Grecia Canad Holanda Inglaterra Francia Venezuela Nicaragua Estados Unidos Espaa Colombia

18

Es de resaltar que en el ejemplo la lista de la derecha es ms larga (para que algunas palabras funcionen como distractores) y que ambas listas conservan homogeneidad (todas las de la izquierda son ciudades capitales y todos los de la derecha son pases). No se recomienda incluir elementos de naturaleza distinta dentro de una lista (para el ejemplo, usar nombres de montaas o de ros), ya que podra hacer ms fcil el tem por cuanto los estudiantes podran descartar fcilmente dichas opciones.

tems de Falso/Verdadero
En este tipo de tems, el estudiante debe evaluar el grado de verdad de un enunciado o proposicin, escribiendo una letra F si considera que el enunciado es falso y una V si considera que el enunciado es verdadero; en ocasiones la instruccin se cambia para que la respuesta sea un s o un no. Es un formato relativamente simple de elaborar; no obstante, es recomendable cuidar la redaccin de los enunciados para asegurar su claridad y precisin. Proposiciones en exceso triviales merman el inters del evaluado; proposiciones tautolgicas o aquellas que plantean ejercicios de lgica pueden afectar la validez del instrumento si el objeto de evaluacin definido en el Marco Conceptual no es justamente la capacidad de razonamiento lgico. Adems, es recomendable evitar el uso de proposiciones negativas, pues stas pueden generar confusin en el evaluado en tanto negar (sealar como falsa) una proposicin negativa equivale a decir que es verdadera. Es conveniente redactar proporcionalmente enunciados falsos y verdaderos. Dado que regularmente se prefiere trabajar con proposiciones cortas, este formato se facilita para aplicar largas listas de enunciados sin que su elaboracin ni su respuesta exijan mucho tiempo. De esta forma, puede abordarse la evaluacin extensa de un objeto de evaluacin o la evaluacin de varios objetos en un mismo instrumento. Con este formato, el evaluado puede ganar claridad sobre conceptos, definiciones, caracterizaciones de hechos, lugares, personajes, etc. La facilidad para su calificacin es una caracterstica que hace de este formato uno de los ms populares en evaluaciones escritas. Se le atribuye la desventaja de servir para evaluar esencialmente la capacidad de evocacin o de recuerdo. Esto, sin embargo, puede superarse a partir de la elaboracin de proposiciones que involucren procesos cognitivos ms exigentes. Lo que s puede resultar una desventaja es el hecho de no permitir conocer directamente las razones que llevan al evaluado a dar su respuesta en uno u otro sentido.

19

Ejemplo: Junto a cada una de las siguientes proposiciones marque, en el espacio en blanco, V si considera que es verdadera y F si considera que es falsa. __ Amrica fue descubierta por Cristbal Coln. __ La corona inglesa financi la expedicin de Coln a Amrica. __ Coln supo que NO haba llegado a las Indias tan pronto vio a los habitantes del lugar. __ Todos los nativos americanos asumieron una actitud de sumisin ante los espaoles recin llegados.

tems de seleccin mltiple con nica respuesta


Este formato, considerado el ms popular en los procesos de evaluacin objetiva, est constituido por dos partes esenciales: un enunciado, que contiene la pregunta o tarea de evaluacin y algunas (entre 3 y 5) opciones que plantean posibles respuestas al enunciado, entre las cuales slo una es la respuesta correcta. El enunciado puede ser planteado como una pregunta o como una proposicin incompleta que se completa con las opciones de respuesta. En tal sentido, la coherencia y la concordancia gramatical entre enunciado y opciones es algo que el evaluador debe cuidar con esmero. Muchos de estos tems pueden estar acompaados de un material informativo que se presenta para delimitar la tarea de evaluacin. A esta informacin se le denomina contexto y puede ser un texto, una grfica, una tabla, etc. El evaluado se remite a la informacin que ofrece el contexto y a la pregunta implcita en el enunciado para pensar y elegir la respuesta vlida entre las opciones. En algunos tems, el contexto se funde con el enunciado y no se reconoce fcilmente como una parte distinta de este. En otras ocasiones, el contexto est dado por el saber previo que se supone tienen los evaluados acerca del objeto de evaluacin, gracias al proceso formativo en el que estn inmersos y, por tanto, no se hace explcito.

Su principal ventaja es que genera confianza en el evaluado en cuanto a la objetividad con que se califica cada pregunta y en que al evaluador le resulta relativamente simple la tarea de asignar la calificacin. Puede utilizarse para evaluar procesos cognitivos bsicos, pero tambin procesos complejos; la diferencia radica en la complejidad de la tarea planteada y, por ende, en lo elaborado de las opciones de respuesta. El problema asociado con este formato no depende exactamente del formato como tal, ms bien est relacionado con el hecho de que en algunos contextos se ha asumido como el ni-

20

co modo de evaluacin que existe, ignorando a otros formatos de tems que, complementados con este, permitiran no slo la identificacin de las falencias de los evaluados, sino el entendimiento de las posibles causas de dichas falencias.

Ejemplo:
L IB R O S E N C AD A C AS A 400 350 300 250 200 150 CANTIDAD LIBROS 100 50 0 CAS A 1 CAS A 2 CAS A 3 C AS A 4 CA S A 5

En llaagrfica sese muestra cantidad de libros li bros En grfica muestra la la c a ntidad de que hay ENUNCIADO en cada casacada casa de que hay en de un vecindario.nDe acuerdo con esta E N UN CI AD O u vecindar io. De acuerdo con s ta 5 tiene: informacin,ela casa info rmacin, la casa 5 tien e :
A- menos de la mitad de libros que las casass11yy44juntas. A- meno s de la m itad de libro s que las casa juntas. B- msslibrossque las casas 2 2 3 juntas. B- m libro que las casas y y 3 juntas. C el dob le de po rc entaje que c asa 3. C--el doble de porcentaje que la casa 3. D ap roximadamen te, el 20% de todos los libro s. D-- aproximadamente, el 20% de todos los libros.

OPCIONES O P C IO N ES

C O NT EX T O CONTEXTO

tems de seleccin mltiple compleja


Son tems en los cuales se plantea un enunciado seguido de algunas proposiciones (entre 3 y 5, generalmente) y la tarea de evaluacin consiste en seleccionar la combinacin de proposiciones que da respuesta al enunciado. Regularmente, al menos dos de las proposiciones son correctas, aunque puede darse que slo una de ellas lo sea. No es recomendable que la totalidad de las proposiciones sea incorrecta, pues resultara contradictorio obligar al evaluado a que suponga la inexistencia de una respuesta correcta en un formato que le pide seleccionar una respuesta correcta. Las combinaciones de proposiciones, por lo general, son planteadas por el evaluador, pero puede variarse el formato en una modalidad en la que el evaluado deba elegir por s solo la combinacin de proposiciones que crea correcta. De acuerdo con la experiencia, para los evaluados estos tems parecen resultar ms complicados que los de formato de opcin mltiple con nica respuesta. Sin embargo, la redaccin clara de instrucciones y la ejercitacin previa con este formato contribuye a superar esa dificultad, lo que permite aprovechar sus bondades para la evaluacin de procesos de discriminacin, de anlisis y de evaluacin. Su desventaja puede estar en que los evaluados respondan correctamente el tem por conocimiento parcial no total de la repuesta, especialmente cuando pueden descartar algunas proposiciones con facilidad. En tal sentido, resulta necesario cuidar la elaboracin de los enunciados para homogenizar su lenguaje y su nivel de generalizacin y equilibrar la plausibilidad de todas ellas.

21

Ejemplo: De qu factores depende la fuerza de rozamiento para un cuerpo que se desliza por encima de un plano inclinado? 1) Del ngulo de inclinacin del plano. 2) De la velocidad del cuerpo que se desliza. 3) Del material del cuerpo que se desliza. 4) Del peso del plano inclinado. A. B. C. D. 1 y 4. 2 y 3. 2, 3 y 4. 1, 2 y 3.

tems dependientes de un contexto


En este formato se presenta un prrafo o texto, por lo general, de mediana extensin, un afiche, una figura o una tabla de datos, es decir, alguna informacin que sirva de contexto para la enunciacin de la tarea o tareas de evaluacin. A partir de ese contexto se derivan regularmente entre cuatro y ocho tems que pueden orientarse a recabar el dominio puntual o comprensin de la informacin presentada, o bien, pueden orientarse hacia la capacidad de relacin de tal informacin con otras previamente abordadas en el proceso educativo. Los tems derivados de un contexto pueden ser todos de un mismo formato o ser de formatos distintos. Combinar formatos de seleccin con algunos de produccin de respuesta a partir de un mismo contexto puede ser recomendable para explorar desde procesos simples de evocacin hasta procesos complejos, como el pensamiento crtico. La gran ventaja de trabajar con un contexto es que, adems de resultar interesante para el evaluado el contar con alguna informacin novedosa o de apariencia llamativa, se puede lograr una evaluacin profunda del asunto tratado en ese contexto. Sin embargo, puede encontrarse algo de dificultad en la elaboracin o en la bsqueda de contextos suficientemente atractivos, ricos en informacin y que adems sean adecuados para la poblacin objetivo. Por ltimo, debe evitarse el uso de contextos demasiado largos o complejos, que agoten la capacidad de atencin de los evaluados.

22

tems de analogas
En este formato se presenta, a manera de enunciado, una pareja de palabras o situaciones que mantienen entre s una relacin particular (de inclusin, de dependencia, de semejanza, entre otras) y a continuacin, como opciones de respuesta, una lista de parejas de palabras o situaciones entre las cuales debe elegirse aquella que mantenga la misma relacin descrita en la pareja de palabras del enunciado. Las palabras del enunciado pueden estar ligadas por la expresin es a y al final, para dar entrada a las opciones, la palabra como o, sencillamente, pueden ir separadas por el signo dos puntos. Las analogas son muy tiles para evaluar procesos cognitivos como la relacin, la comparacin, la inferencia y la generalizacin. Su mayor uso se da en evaluacin de la aptitud verbal. Es un formato que resulta algo complejo de realizar. Los evaluadores deben tener claras las distintas categoras de analogas posibles, para asegurarse de que la relacin que plantean en el enunciado sea la misma que se usa para la clave y de que no existan otras relaciones posibles de inferir en el enunciado que puedan identificarse en opciones distintas a la que el evaluador seala como clave. Por esto, la construccin de las opciones tiende a basarse en el uso de relaciones decididamente distintas a la definida en el enunciado. A continuacin se enuncian los tipos de relaciones ms usadas para construir tems de este formato. Relacin causa efecto. Ejemplos: xito - orgullo, calor - sofoco, prdida - frustracin. Relacin parte todo. Ejemplos: dedo - mano, llanta - carro. Relacin continente contenido. Ejemplos: pan - harina, oxgeno - agua. Relacin agente objeto. Ejemplos: mdico - enfermedad, profesor - ignorancia. Relacin agente producto. Ejemplos: abeja - miel, escritor - ensayo. Relacin conjunto elemento. Ejemplos: pared ladrillo, libro - hoja. Relacin objeto funcin. Ejemplos: abanico - airear, fogata - calentar. Relacin polos opuestos. Ejemplos: alto - bajo, dadivoso - egosta. Ejemplo: Rueda es a carro como: A. B. C. manubrio es a bicicleta. gasolina es a motor. riel es a tren.

23

En el ejemplo anterior, la relacin en el enunciado es de parte todo. La llanta hace parte del carro, como el manubrio hace parte de una bicicleta. Si faltase cualquiera de ellos, el aparato no podra considerarse completo. Las opciones B y C representan relaciones distintas. Si bien es cierto que tanto la ausencia de la gasolina en el motor, como del riel para el tren impiden su funcionalidad, no puede decirse que un motor no est completo si no tiene gasolina, ni que un tren est incompleto si faltan los rieles.

Formatos de tems de produccin de respuesta


En estos formatos hay, por lo general, tres elementos bsicos: Un contexto que delimita las condiciones para responder. Una tarea de evaluacin que indica lo que se espera que el evaluado produzca. Unos criterios que delimitan las condiciones esperables del producto.

tems de completamiento
Estos tems constan de enunciados (por lo general no muy extensos) seguidos de uno o ms espacios en blanco disponibles para escribir la o las palabras (o la cifra o la grafa) que completan adecuadamente tal proposicin. Este formato puede utilizarse para evaluar desde procesos cognitivos bsicos como el recuerdo hasta procesos ms complejos como el anlisis o la aplicacin; su uso ms comn es para evaluar el proceso de recuerdo. Se trata de un formato relativamente fcil de elaborar y de calificar; sin embargo, por tratarse de un formato de produccin de respuesta, el evaluador puede encontrarse con una inesperada variedad de respuestas que dificulte el proceso de calificacin. El esmero en clarificar los enunciados contribuye a reducir el riesgo de que los evaluados interpreten el tem de manera distinta a lo deseado y, por tanto, minimiza la probabilidad de encontrar respuestas demasiado heterogneas. Los enunciados pueden ser planteados en forma interrogativa, pero es ms usual que sean planteados a manera de proposicin incompleta. Ejemplo: La ley matemtica segn la cual el orden de los factores no altera el producto se denomina __________ El resultado de multiplicar 9 por 5 y sumarle 10 es ____________ El resultado de multiplicar 8 por 10 y restarle 15 es ____________ La operacin matemtica inversa a la multiplicacin es la___________

24

tems de ensayo
En este tipo de tems se pide al estudiante producir una composicin escrita a partir de unos criterios e indicaciones previamente dados. Aunque se denomina al formato de ensayo, bajo esta denominacin se agrupa a cualquier tipo de composicin o de produccin escrita solicitada, aun cuando no corresponda con las caractersticas literarias de un ensayo. En los tems de ensayo, tambin conocidos como de produccin escrita, se establece un contexto que delimita condiciones de anlisis y de reflexin para que el evaluado elabore su respuesta. Este contexto puede ser un texto de referencia, una situacin o un problema suficientemente delimitado o caracterizado por el evaluador. Aunque tambin puede construirse un tem de ensayo sin contexto, que deje abierta la produccin a la creatividad individual frente a un tema general propuesto, en el mbito educativo se prefiere cierta delimitacin previa de las condiciones esperables de la produccin escrita, con lo cual se evita el problema de la excesiva diversidad de respuestas que complejiza considerablemente el establecimiento y la aplicacin de criterios objetivos para la calificacin. Adems del contexto, en este formato se define una tarea especfica: qu es lo que se espera especficamente que el evaluado haga? y se establecen unas condiciones mnimas esperables del producto final. Los tems de ensayo permiten la evaluacin de procesos cognitivos complejos que incluyen la creatividad, la habilidad argumentativa, la capacidad de sntesis y de evaluacin. Su debilidad es que resulta sumamente exigente en cuanto al establecimiento y la aplicacin rigurosa de criterios de valoracin de las respuestas. A menos que el evaluador est debidamente entrenado, existe el riesgo de que criterios subjetivos afecten tal valoracin. As, una caligrafa difcil de comprender o un estilo de redaccin divertido pueden desviar la atencin del evaluador y llegar a sesgarlo en el proceso de asignar las valoraciones a los aspectos predefinidos. Es comn contar con un segundo evaluador de las producciones escritas como mecanismo para comprobar la confiabilidad de las calificaciones asignadas por el primer evaluador. La recalificacin sirve, adems, como estrategia para afinar la gua de calificacin (scoring rubric en ingls) que contiene la definicin de los criterios para asignar calificaciones. Los aspectos generales que incluye la gua de calificacin, en algunos casos, se da a conocer a los evaluados antes de la aplicacin de la prueba para asegurar que tengan claridad en cuanto a los aspectos que sern valorados y garantizar condiciones equitativas de aplicacin. Ejemplo: A partir de la lectura hecha del libro El Principito, escriba un texto de no ms de dos pginas tamao carta, en el cual usted presente: a) un breve resumen del libro, b) su interpretacin personal de la problemtica social que intenta plantear el autor de la obra y c) una propuesta personal de finalizacin diferente de la historia.

25

Del texto que usted presente se evaluar, en cuanto a forma: ortografa, aplicacin de normas gramaticales, ilacin. En cuanto a contenido: que incluya respuesta a las tres tareas planteadas, que el resumen sea completo en cuanto a tema de la historia, personajes, sitio en donde se desarrolla la historia, nudo y desenlace; que la interpretacin de la problemtica sea plausible y la originalidad en cuanto a la propuesta de finalizacin. En el tem anterior el contexto es el libro El Principito, la tarea se describe en los literales a), b) y c) y se delimitan condiciones esperables del producto tales como longitud y temtica de la produccin escrita, as como tambin se dan a conocer de manera genrica los criterios de evaluacin. La gua de calificacin, que no se da a conocer en este ejemplo, deber definir con suficiente claridad los aspectos que el evaluador entiende como una interpretacin plausible de la problemtica y ms an, definir algunos niveles de plausibilidad que le orientarn a la hora de asignar las calificaciones. Cules interpretaciones entender como plausibles?, cules no?, son preguntas a las que el evaluador se enfrenta y que debe responder antes de proceder a la calificacin, si bien, como se ha mencionado, tales criterios puedan irse afinando en la medida en que transcurre el proceso de calificacin.

tems de expresin oral


El ejercicio de evaluar la expresin oral puede ser tanto o ms exigente que la evaluacin de la produccin escrita. Es necesario definir con claridad las caractersticas que debe tener el producto, llmese exposicin, conferencia o discurso, que se usarn como criterios de calificacin. Es, sin duda, un formato de tem que ofrece grandes posibilidades a la hora de evaluar procesos cognitivos de orden superior, tales como la argumentacin, la sntesis y la explicacin, y constituye una oportunidad importantsima para que los evaluados demuestren y desarrollen habilidades esenciales, pero lastimosamente poco contempladas en procesos de evaluacin educativa, como la organizacin del discurso, el manejo adecuado de la voz, el autocontrol de ansiedad, la modulacin del nivel de lenguaje en funcin del pblico receptor, entre otras. Su dificultad radica en el proceso de aplicacin, ya que exige la aplicacin y calificacin individualizada con la consecuente dilacin del proceso evaluativo. No obstante, la evaluacin de la oralidad puede realizarse con pruebas pequeas, es decir, que basta con unos cuantos minutos por evaluado para recoger algunas evidencias interesantes acerca de sus habilidades en este dominio. Al igual que con los tems de ensayo, se requiere de la definicin clara de criterios de evaluacin para evitar el sesgo del evaluador en la asignacin de calificaciones.

26

tems de productos no escritos


Frente al proceso evaluativo tradicional de lpiz y papel que privilegia la evaluacin del dominio cognitivo y disciplinar, en las ltimas dcadas ha cobrado fuerza el uso de instrumentos de evaluacin que ponen al evaluado en situaciones cercanas a aquellas en las cuales se tendr que desenvolver fuera del contexto educativo. La evaluacin de competencias laborales, la evaluacin por proyectos y la evaluacin a travs de portafolios son evaluaciones que no slo constatan un saber terico o disciplinar, sino que buscan evidenciar el saber hacer de los evaluados a travs de sus producciones o ejecuciones: maquetas, obras de arte, proyectos, montajes, coreografas, etc. La bondad de este tipo de evaluacin es, por una parte, que generalmente despierta el inters y por tanto asegura el compromiso del evaluado con el proceso evaluativo, y por otra, que propicia la vinculacin entre saberes tericos y aplicacin prctica de los mismos en contextos de la cotidianidad. Adicionalmente, las evidencias, en este caso los productos elaborados, son susceptibles de ser valorados y juzgados por grupos distintos de evaluadores, desde diversas perspectivas, lo que contribuye a que el evaluado reciba una ms completa retroalimentacin. Es recomendable que la utilizacin de este formato no se limite a una nica presentacin del producto, sino que se convenga la posibilidad de hacer ajustes al mismo y, por ende, nuevas presentaciones en la medida en que se recibe la retroalimentacin. Es decir, este formato de tem propende hacia el perfeccionamiento de la ejecucin o del producto creado, con lo cual el proceso de evaluacin encuentra su mejor representacin como herramienta educativa para la cualificacin del proceso de formacin.

Longitud de la prueba
Una pregunta recurrente cuando se trata de elaboracin de instrumentos evaluativos es cuntas preguntas debe tener la prueba? La respuesta, sin duda, no es simple. No hay una frmula que permita afirmar categricamente que la prueba deba tener tal o cual nmero de tems, pero, definitivamente, es una pregunta importante y el evaluador debe reflexionar sobre el asunto. La respuesta a esta interrogante debe ser el resultado del anlisis de varios factores, todos ellos relacionados con la validez del proceso de evaluacin. Un aspecto necesario de analizar es el objeto de evaluacin. Entre ms grande sea aquel saber que quiero evaluar, probablemente no categricamente mayor nmero de tems ser necesario incluir. La categorizacin del dominio disciplinar y del dominio cognitivo que dan lugar a la estructura de la prueba, y que puede ser ms o menos especfica de acuerdo con el propsito y el uso de la evaluacin, da indicios de qu tan extensa deber ser la prueba. Entre ms detalladas sean esas categorizaciones, mayor nmero de tems se requerir para cubrir la totalidad de las celdas de la estructura de prueba.

27

Otro aspecto que hay que considerar es el uso que se dar a los resultados. Si se trata de una prueba de seleccin para asignacin de becas escolares, por ejemplo, un insuficiente nmero de tems puede conducir a tomar decisiones equivocadas, con mltiples consecuencias negativas imaginables para evaluadores y para evaluados. Las caractersticas de desarrollo psico-biolgico de la poblacin que va a ser evaluada, su nivel sociocultural y educativo son tambin factores determinantes para decidir la longitud adecuada del instrumento. El tiempo durante el cual las personas pueden mantener la atencin en una misma actividad antes de agotarse es diferente de acuerdo con stas. Los aspectos de orden logstico y administrativo cobran tambin importancia a la hora de decidir la longitud de una prueba. Los recursos humanos, materiales y financieros disponibles para disear, elaborar, aplicar y calificar la prueba son variables a considerar para asegurar que el instrumento diseado pueda llegar a materializarse. En conclusin, dado que a partir de los resultados en la prueba el evaluador infiere de los evaluados su nivel de dominio del objeto de evaluacin, la inquietud acerca de la longitud adecuada de una prueba implica un cuestionamiento de orden tico: con cuntas preguntas aplicadas el evaluador se sentir confiado de hacer inferencias vlidas acerca de los evaluados?

Niveles de revisin
Aunque en el proceso de desarrollo de una prueba se haya adelantado la revisin de cada uno de los tems para asegurar su relevancia frente al propsito de evaluacin y su pertinencia con la estructura y las especificaciones de prueba, una vez que la prueba sea ensamblada como instrumento ntegro, debe ser sometida a revisiones adicionales que busquen identificar las posibles fallas que afecten la potencia comunicativa del instrumento para corregirlas antes de proceder a la multiplicacin de los ejemplares de prueba requeridos. El asunto consiste en hacer una lectura completa del instrumento para verificar la inexistencia de errores de ortografa o tipogrficos, la claridad de instrucciones y su correspondencia con los formatos de tems utilizados; para controlar que haya secuencialidad en la numeracin de los tems y en la numeracin de pginas; para verificar la legibilidad de la fuente de letra utilizada, la nitidez de los grficos, dibujos o tablas incluidos, la ubicacin correcta de estos en relacin con la posicin de los tems de los cuales hacen parte, entre otras cosas. Esto en cuanto a los aspectos formales. En relacin con el contenido del instrumento, se busca ratificar que este sea pertinente y coherente. Se controla que todos los tems incluidos apunten a evaluar aquello que se defini como objeto de evaluacin, que todos estn correctamente formulados, que no se repita la intencin evaluativa entre ellos (es decir, que no haya varios tems indagando lo mismo, aunque de distinto modo) y que ninguno de ellos ofrezca pistas para responder a otro u otros dentro de la prueba.

28

Idealmente, estas revisiones deberan ser realizadas por personas con experticia en el objeto de evaluacin (para los asuntos de contenido) y con algn nivel de entrenamiento para detectar fallas especficas (correctores de estilo y correctores editoriales, para los asuntos propios de forma). No obstante, de no poder contar con estos expertos, estas revisiones bien pueden ser realizadas por uno o dos lectores independientes del instrumento, es decir, que no hayan tenido participacin en su elaboracin, pero que tengan formacin y experiencia en el rea o disciplina que se evaluar. Independientemente del grado de experticia de los revisores, siempre ser necesario que antes de iniciar su revisin sean debidamente informados de los propsitos evaluativos de la prueba y de las caractersticas de la poblacin que se evaluar para darle un marco de referencia a su labor. Es una prctica recomendable hacer uso de algn formato o plantilla para que los revisores registren sus observaciones, tem por tem, y para que hagan sugerencias de mejora al instrumento. El equipo responsable del desarrollo de la prueba tiene el deber de analizar las observaciones de los revisores, de decidir sobre la inclusin o no de sus sugerencias y de tomar las decisiones finales de ajuste, siempre bajo la perspectiva de mejorar su calidad.

Confidencialidad
Otro aspecto importante que debe considerarse para el desarrollo de una prueba es el aseguramiento de la confidencialidad de los tems. El principio de equidad y, por ende, la validez del proceso evaluativo se veran drsticamente afectados si se llegase a filtrar informacin sobre el contenido especfico de los tems. Como se ha mencionado, la estructura de prueba y, aun las especificaciones tcnicas de la misma, deberan ser divulgadas con anterioridad a la aplicacin para asegurar condiciones de equidad entre los evaluados al momento de afrontar la evaluacin. Sin embargo, el contenido puntual de los tems debe ser custodiado con esmero, al menos hasta despus de la aplicacin, momento en el cual el evaluador puede decidir o no dar a conocer los tems y, an ms, puede llegar a utilizarlos en el proceso de retroalimentacin de resultados. Es necesario, entonces, asegurar que el acceso a los tems se restrinja a un grupo mnimo necesario de personas (quienes desarrollan y quienes revisan la prueba), los que deben comprometerse explcitamente a guardar confidencialidad de la informacin que conozcan de la prueba. Es conveniente que el manejo y custodia de los archivos fsicos y magnticos de los tems se delegue a una persona para que esta se encargue de responder por la seguridad y por la integridad de los mismos. Las diferentes versiones o copias de los tems generadas durante el proceso de elaboracin deben ser efectivamente eliminadas (arrugarlas y lanzarlas en una cesta de basura o borrarlas de una carpeta de computador sin vaciar la papelera no resultan

29

prcticas efectivas de eliminacin). Es usual hacer uso de claves de acceso o de procesos de encriptamiento de los archivos para que los mismos puedan ser accedidos nicamente por personal autorizado. Los sistemas avanzados de evaluacin constituyen bancos magnticos de tems que permiten hacer uso de tecnologas de informacin, no slo para asegurar la posibilidad de administrar a discrecin los niveles de acceso a la informacin referida a pruebas para diferentes usuarios, sino tambin para sistematizar la informacin asociada a cada tem (nombre de quin lo elabor, tema del que trata, proceso cognitivo que evala, formato utilizado para su elaboracin, etc.) y facilitar el ensamble de distintas versiones de una prueba.

Problemas en el proceso de evaluacin


Problema 1. No tener claro el propsito. Para qu? El propsito de la evaluacin determina qu y cmo preguntamos. Problema 2. No reconocer las caractersticas de la poblacin objetivo. A quin? Cada poblacin tiene un perfil cognitivo, acadmico, sociocultural, etc., que delimita metodolgicamente la evaluacin. Problema 3. No verificar la coherencia propsito - pregunta. La pregunta indaga por lo que nos interesa? La evidencia que arroja la respuesta del evaluado debe corresponder con aquello que nos propusimos verificar. Problema 4. No prever las respuestas inesperadas. La pregunta se presta para distintas interpretaciones? La redaccin de la pregunta en lenguaje claro, directo y completo asegura su interpretacin homognea y, por ende, respuestas comparables.

30

Problema 5. No formular suficientes preguntas. Las preguntas hechas arrojan evidencia suficiente para hacer inferencias? El nmero suficiente de tems de un instrumento no est preestablecido por ningn modelo; es una cuestin que involucra lo tcnico y lo tico para decidir cundo la evaluacin es completa. Problema 6. Hacer inferencias incorrectas. Qu puedo inferir, en realidad, de la evaluacin que hice? Las inferencias hechas a partir de un proceso de evaluacin tienen efectos, a veces decisivos, en las vidas de las personas. La objetividad y mesura en las inferencias es deber tico del evaluador.

IV.

Reglas para la elaboracin de tems

De seleccin
Son numerosos los estudios realizados sobre las tcnicas que conducen a mejorar la calidad de los tems (Haladyna y Downing, 1989; Haladyna, 1994; Cheung y Bucat, 2002; ICFES, 2004; Cohen y Woollack, 2004). A continuacin se enuncian algunas de las reglas bsicas para elaborar correctamente tems de seleccin.

Consideraciones bsicas Planeacin: Se debe contar con un cronograma de trabajo que organice las fases del diseo del instrumento, teniendo en cuenta la complejidad del mismo. En la planeacin del desarrollo de tems deben incluirse los tiempos de revisin y ajustes de los mismos. Trabajo en equipo: Asegurarse de contar con personal que domine el objeto de eva- luacin, que conozca las caractersticas de la poblacin objetivo y, en lo posible, que cuente con experiencia en formacin y evaluacin es crucial para lograr niveles de reflexin, discusin y perfeccionamiento del instrumento. Supervisin: Debe haber un responsable de la prueba que se encargue de asegurar, en todo momento, que el desarrollo de los tems guarde coherencia con lo planteado en el Marco Conceptual de la prueba.

31

Reglas de elaboracin Use lenguaje claro y directo, sin sacrificar el nivel tcnico y acadmico requerido. Utilice el nivel de vocabulario adecuado para la poblacin objetivo. Esmrese en la correccin de estilo; corrija errores de ortografa, de puntuacin y de concordancia. Fije parmetros claros para la escritura de citas bibliogrficas, abreviaturas, siglas, unidades. Evite que los tems adolezcan de cualquiera de los siguientes problemas que los hace confusos (Roberts, 1993): Contenido trivial. Presencia de informacin irrelevante. Presentacin ambigua de las opciones de respuesta. Discriminacin muy fina difcil de percibir entre las opciones de respuesta. Presentacin de informacin en modo distinto a como ha sido aprendida por la poblacin evaluada dentro de su proceso educativo. Verifique que cada tem corresponda a una y slo una de las celdas de la estructura de prueba definida. Verifique que se elaboren los tems en la cantidad y en los formatos fijados en las especificaciones de prueba. No incluya tems con sesgo ideolgico o con prejuicios implcitos. Cada tem debe ser independiente de los dems y no proveer pistas que faciliten la repuesta a otros. Verifique que la respuesta a cada tem demanda el dominio del objeto de evaluacin y no una opinin personal. Incluya tems con distintos grados de complejidad, desde fciles hasta difciles. Garantice la coherencia gramatical entre enunciado y opciones de respuesta. Evite tems demasiado extensos o demasiado cortos.

o o o o o

32

Las opciones de respuestas deben organizarse siguiendo alguna regla: complejidad, longitud, cantidad, etc. Asegrese de que las opciones de respuesta realmente son diferentes entre s. No use sinnimos o parafraseos para construir opciones de respuesta. No utilice opciones de respuesta que se descartan por simple lgica, que resultan descabelladas o absurdas casi para cualquier evaluado. Procure la homogeneidad de las opciones de respuesta en cuanto a su longitud y nivel de lenguaje utilizado. No utilice opciones como: Todas las anteriores o Ninguna de las anteriores. Evite el uso de dobles negaciones en la redaccin de enunciados y/o de opciones. Las proposiciones con expresiones de negacin deben ser resaltadas con fuente en maysculas o en negrita. Evite el uso de adverbios que dan la idea de sobregeneralizaciones o de totalizaciones: siempre, nunca, totalmente, absolutamente, completamente. Las respuestas correctas o claves de los tems de una prueba deben ubicarse aleato riamente en todas las posiciones posibles de las opciones de respuesta, es decir, la clave no debe aparecer siempre en una misma posicin.

De produccin
Los tems de produccin de respuesta cobran sentido en la medida en que sirvan al propsito de evaluar aquello que no sea posible evidenciar a travs de preguntas de seleccin de respuesta. Dado que tanto el diseo como la aplicacin y la calificacin de un tem de produccin de respuesta reviste mayor complejidad que para un tem de seleccin, no resulta muy sensato evaluar con tems de produccin lo que podra evaluarse con tems de seleccin. Sin embargo, este tipo de pregunta cobra cada da mayor importancia y ha tenido un gran desarrollo en los ltimos aos (Badger y Thomas, 1992), porque indiscutiblemente es la respuesta a necesidades evaluativas para las cuales los tems de seleccin no resultan suficientemente eficaces. As, se usan tems de produccin para evaluar la coherencia y pertinencia de cadenas de razonamientos, la capacidad para comunicar y defender argumentos, para poner en evidencia la creatividad, la recursividad, la capacidad de sntesis para resolver situaciones novedosas (Badger y Thomas, Op. Cit), as como para demostrar habilidades artsticas o evidenciar el dominio de habilidades de comunicacin oral, entre otras.

33

Consideraciones bsicas El planteamiento de la tarea debe ser claro para asegurar que todos los evaluados hagan la misma interpretacin de aquello que el evaluador espera que hagan. Los conocimientos y/o habilidades que demande la realizacin de la tarea de evaluacin deben guardar correspondencia con las categoras disciplinares y cognitivas que en la estructura de prueba definen el objeto de evaluacin. Los temas elegidos para las tareas de evaluacin deben resultar interesantes para los evaluados; una tarea con sentido prctico, con algn nivel de utilidad, despierta mayor motivacin que realizar ejercicios netamente acadmicos. El nivel de dificultad de la tarea debe definirse intencionalmente, de tal manera que represente un verdadero reto a las habilidades de los evaluados; no puede ser demasiado fcil ni demasiado difcil. Los criterios que se tendrn en cuenta para la calificacin de las producciones deberan ser divulgados antes de la evaluacin, al menos en forma genrica. Esto otorga equidad al proceso.

Reglas de elaboracin El contexto utilizado para delimitar la tarea de evaluacin no debe favorecer o desfavorecer a subgrupos de evaluados por el grado de familiaridad que tengan con el mismo. De preferencia, los materiales que sirven de contexto deben ser suministrados por el evaluador. En su defecto, es necesario asegurarse de la accesibilidad a tales materiales. Evite tareas que se orienten a evaluar demasiados aspectos a la vez. El proceso de calificacin puede hacerse muy dispendioso y puede terminar arriesgando su confiabilidad. Las condiciones para realizar la tarea, as como las especificaciones de los productos entregables deben enunciarse con claridad y preferentemente ser divulgados por escrito entre los evaluados. Las especificaciones de los productos entregables deben ser definidas con anterioridad a la aplicacin del tem. Son susceptibles de ajustes luego de la aplicacin, nicamente si tales ajustes se orientan a mejorar la validez del proceso y siempre y

34

cuando no afecten la equidad en el mismo. Los calificadores deben recibir entrenamiento previo para asegurar la aplicacin imparcial de los criterios de evaluacin definidos. Debe implementarse algn mecanismo para verificar la confiabilidad de las calificaciones. Un segundo calificador independiente de una muestra de los tems calificados puede dar idea de qu tan objetivamente se entendieron y aplicaron los criterios de calificacin.

Validez del proceso de evaluacin


A lo largo de este documento se ha hecho referencia a la importancia de la validez en el proceso de evaluacin y se ha mencionado la forma en que diferentes acciones dentro del proceso de diseo pueden afectarla. La validez es, sin duda, la caracterstica esencial que debe cumplir un proceso de evaluacin. El concepto moderno de validez es global, a diferencia del concepto clsico que consideraba distintos tipos de validez. Se reconoce que la validez no es del instrumento, sino de las inferencias e interpretaciones realizadas a partir de las puntuaciones obtenidas en un proceso de evaluacin. La validez se entiende como un juicio evaluativo del grado en el cual la evidencia emprica y terica sustentan la pertinencia y conveniencia de las inferencias acerca de los resultados en un instrumento de medicin, as como las acciones que se realizan a partir de dichos resultados (Messick, 1989). Dicho de otra forma, la validez hace referencia a qu tan fuertes son los argumentos y las evidencias que respaldan las interpretaciones hechas acerca del objeto de evaluacin (por ejemplo, la competencia) con base en los resultados obtenidos. En tal sentido, la validez compromete a todas las etapas del diseo de pruebas: desde la definicin y caracterizacin del objeto de evaluacin hasta la divulgacin de resultados. El evaluador debe reconocer que el usuario directo de la evaluacin el evaluado as como los usuarios indirectos de la misma, utilizarn los resultados para comprender y analizar procesos para emitir juicios, para tomar decisiones, etc., y, por tanto, es su responsabilidad tica y social asegurarse de que tales anlisis, juicios y decisiones sean verdaderamente posibles de derivar de la evaluacin que realiza. La rigurosidad acadmica y tcnica en la elaboracin de los tems (y, por supuesto, en las dems etapas del diseo del instrumento) aporta para que los resultados de la evaluacin sean pertinentes con su propsito. Las reglas de elaboracin de tems descritas en este docu-

35

mento tienen la pretensin de orientar al evaluador para que los tems que elabore evalen realmente el objeto de evaluacin que se pretende; en este sentido, la aplicacin de tales reglas contribuye a consolidar la argumentacin alrededor de lo que los resultados indican es verdadero.

En resumen, en lo que concierne a la elaboracin de tems, los siguientes son factores que afectan negativamente la validez: La tarea a la cual se enfoca el tem no es relevante para la evaluacin del objeto definido en el marco de fundamentacin. En el tem se incluye informacin que la facilita o la dificulta, ms all del propsito de evaluacin.

Ahora bien, en la fase de elaboracin de tems no basta con aplicar las reglas de elaboracin para contribuir a la validez; es necesario garantizar que quienes van a ser evaluados con dichos tems no lleguen a responderlos correctamente por circunstancias distintas a su propia capacidad o competencia. As, entonces, es de vital importancia cuidar del correcto desarrollo de cada uno de las etapas del diseo mencionadas con anterioridad, velar porque cada accin realizada est enfocada a utilizar y aprovechar unos resultados desde distintas perspectivas y, no solamente interesarse por obtener un simple puntaje sin valor de interpretacin.

36

Bibliografa
Badger, E. y Thomas, B. 1992. Open ended questions in reading. Washington, ERIC Clearinghouse on Tests Measurement and Evaluation. Cohen, A. y Woollack, J. 2004. Helpful tips for creating reliable and valid classroom test Handbook on Test Development. U. Wisconsin. Cheung, D. y Bucat, R. 2002. How can we construct good multiple choice items? Hong Kong, Sciens and Technology Education Conference. Fenton, N. E. y Pfleeger, S. L. 1997. Software metrics. A rigurous and practical approach. Boston, PWS Pub. Haladyna y Downing. 1989. A taxonomy of multiple choice item writing rules Apply Measurement in Education. Vol. 1. Haladyna, T. 1994. Development and validating multiple choice test items. New Jersey, Lawrence Earlbaum Associates. Hambleton, R. y Zaal, J. 1994. Advances in educational psychological testing. Boston, Kluwer Academic Publishers. ICFES. 2004. Estndares para la construccin de pruebas. Grupo de Evaluacin de la Educacin Superior. Bogot, ICFES. Messick, S. 1989. Validity. R.L. Linn (Ed.). Educational measurement New York, Macmillan, 3a ed., pp. 13-103. Roberts, D. 1993. An empirical studying on the nature of trick questions. Journal of educational measurement. Vol. 30.

37

S-ar putea să vă placă și