Documente Academic
Documente Profesional
Documente Cultură
TEMA 1
LA EVALUACIÓN LINGÜÍSTICA: CONTEXTO, HISTORIA, TEMAS Y
TENDENCIAS
Tabla de contenido
1. INTRODUCCIÓN ........................................................................................................ 2
1 INTRODUCCIÓN
Los resultados específicos del aprendizaje que el estudiante debe alcanzar al final de
este tema son:
A principios de los años 60, algunos autores, como Hoffman (1962, p. 22), sostuvieron
que los ítems de elecciones múltiples penalizaban a las personas más inteligentes,
originales o “excepcionales”. Hoffman (1962) apoyó sus afirmaciones en una revisión
de ítems de pruebas estandarizadas que mostraba que era probable que algunos
estudiantes muy creativos y con un grado elevado en la capacidad evaluada realizaran
4
interpretaciones que no habían sido previstas por los diseñadores de las pruebas1.
Hoffman (1962, p. 17), por ejemplo, incluyó la siguiente carta, dirigida al director del
Times:
Estimado señor:
Entre las preguntas del tipo “marca el elemento diferente” que mi hijo tuvo que responder
en una prueba para entrar en un colegio estaba: “¿Cuál es el elemento diferente en cricket,
fútbol, billar y hockey?
Yo dije billar porque es el único juego que se realiza dentro de un edificio. Un compañero
dijo fútbol porque es el único en el que la pelota no es golpeada con un instrumento. Un
vecino dijo cricket porque en los demás juegos el objetivo es meter la pelota en una red; y
mi hijo, con la confianza que dan nueve primaveras, se decide por el hockey porque “es el
único juego de niñas”.
Aunque las críticas de Hoffman (1962) tuvieron bastante eco, Hoffman también animó a
que los autores de las pruebas añadieran un análisis lógico y cuidadoso de los ítems al
análisis estadístico de los ítems. Frederiksen (1984, p. 199) observó que los problemas
en las pruebas estandarizadas suelen estar bien estructurados, es decir, “están
expresados con claridad, toda la información necesaria para resolver el problema está
disponible en el problema o -presumiblemente- en la cabeza del estudiante, y existe un
algoritmo que garantiza una solución correcta si se aplica adecuadamente”. Sin
embargo, la mayoría de los problemas importantes a los que uno se enfrenta en la vida
están mal estructurados, es decir, son
Estas críticas han conducido a un mayor énfasis en las preguntas abiertas y en el diseño
de pruebas que utilizan simulaciones por ordenador.
Una gran parte de las malas interpretaciones y de los malos usos de las puntuaciones
de las pruebas se evitarían si el usuario de la prueba fuera consciente de la naturaleza
limitada de la información que una prueba proporciona. Un buen usuario de una prueba
tiene en cuenta el error que puede existir en las puntuaciones de la prueba y utiliza otras
informaciones, aparte de la puntuación en la prueba, a la hora de tomar su decisión.
Afirmar que se toman mejores decisiones sin las puntuaciones de las pruebas es afirmar
que se toman mejores decisiones cuando existe menos información. Las puntuaciones
de una prueba son ciertamente falibles, pero probablemente son menos falibles que la
1
Davies et al. (1999, p. 187) definen una prueba estandarizada como sigue:
Una prueba que idealmente tiene las siguientes características, aunque las pruebas
lingüísticas llamadas estandarizadas no siempre poseen todas estas características:
mayoría de los otros tipos de información que se utilizan para tomar las decisiones
educativas.
Los críticos de la evaluación afirman que la evaluación tiene efectos indeseables en los
estudiantes. Algunos de las críticas más mencionadas al uso de las pruebas aparecen a
continuación, seguidas de unos breves comentarios.
No cabe duda de que la ansiedad aumenta durante la realización de una prueba. Para la
mayoría de los estudiantes, la evaluación los obliga a actuar mejor. Para unos pocos, la
ansiedad causada por la prueba puede ser tan elevada que interfiere en la actuación en la
prueba. Estos estudiantes suelen tener una ansiedad elevada y la prueba, simplemente,
aumenta su nivel de ansiedad. Se pueden utilizar diferentes procedimientos para reducir
la ansiedad causada por la prueba, como una preparación concienzuda antes de la
prueba, el ensayo de la prueba, y proporcionar el tiempo suficiente para que el
estudiante pueda realizar la prueba con una cierta tranquilidad. Afortunadamente, en los
últimos años los diseñadores de muchas pruebas también proporcionan versiones para
que el estudiante ensaye y se ha pasado de las pruebas de velocidad a las pruebas de
potencia. Esto debería ayudar, pero, aun así, resulta necesario observar cuidadosamente
a los estudiantes durante la realización de la prueba y reflexionar acerca de las
puntuaciones obtenidas por los estudiantes a los que la prueba les produce un elevado
nivel de ansiedad.
Existen profesores que a partir de las puntuaciones en las pruebas atribuyen estereotipos
a los estudiantes, que puede tener un efecto no deseado en el autoconcepto de los
estudiantes. También ocurre que el estudiante desarrolla un sentimiento general de
6
fracaso a partir de una puntuación baja. Los profesores debemos explicar a los
estudiantes que reciben una puntuación baja que las pruebas son medidas limitadas y
que nuestras competencias (y, por tanto, las puntuaciones) cambian. Además, se puede
limitar el desarrollo del sentimiento de fracaso si se mencionan los aspectos positivos
que el estudiante muestra en la prueba. Las pruebas pueden ayudar a que los estudiantes
identifiquen sus puntos fuertes y sus puntos débiles, y, con ello, contribuyen a un mejor
aprendizaje y a una imagen propia positiva.
Crítica 4: Las pruebas influyen en las expectativas de los profesores, que, a su vez,
influyen en las expectativas propias de los estudiantes
Aquéllos que utilizan esta crítica sostienen que cuando un profesor asigna una
puntuación a una prueba se produce el siguiente proceso:
1. Las puntuaciones en las pruebas crean expectativas en los profesores acerca del
aprendizaje de cada estudiante.
2. El profesor enseña a cada estudiante en función de estas expectativas.
3. Los estudiantes responden situándose en el nivel esperado.
Por tanto, aquéllos de quienes se espera que consigan más, consiguen más, y aquéllos de
quienes se espera que consigan menos, consiguen menos. Este efecto, llamado efecto
Pygmalion, fue estudiado por Rosenthal y Jacobsen (1968), aunque el estudio fue luego
cuestionado por otros investigadores (Elashoff y Snow, 1971; West y Anderson, 1976).
Está muy extendida la creencia de que las expectativas del profesor aumentan u
obstaculizan el aprovechamiento de un estudiante.
En resumen, existe algo de razón en las diferentes críticas acerca de los efectos
indeseables de las pruebas en los estudiantes. Pero en la mayoría de los casos estas
críticas deberían ser dirigidas a los usuarios de las pruebas, en lugar de a las pruebas
mismas. Es probable que las mismas personas que utilizan mal los resultados de una
prueba utilicen mal otras informaciones, que probablemente son menos precisas y
objetivas. Por tanto, la solución no es dejar de utilizar las pruebas, sino empezar a
utilizar las pruebas y otros datos con más efectividad. Cuando se utilizan las pruebas de
un modo positivo –es decir, para ayudar a que los estudiantes mejoren su aprendizaje–
es probable que las consecuencias sean beneficiosas.
Siguiendo con nuestro ejemplo de los estudiantes rusos, para comprobar si el hecho de
que la prueba esté redactada en español ha influido en las puntuaciones del grupo focal,
se puede recurrir a un criterio externo: los estudiantes rusos realizarán una prueba
adicional, que es la traducción al ruso de la prueba original en español, y podrán
contestar esta segunda prueba en ruso. A continuación, se compararían las puntuaciones
que los estudiantes rusos obtuvieron en la prueba en español y en la prueba en ruso:
1. La tendencia precientífica.
2. La tendencia psicométrica-estructuralista.
3. La tendencia integradora-sociolingüística.
Para Spolsky (1978, v), la tendencia precientífica, que aún prevalece en muchos lugares
del mundo, se puede caracterizar por una ausencia de preocupación por las cuestiones
estadísticas o por nociones como la objetividad y la fiabilidad:
1. Los evaluadores, es decir, los psicólogos responsables del desarrollo de las teorías y
las técnicas modernas de la medición en la educación, cuyo objetivo principal es
proporcionar medidas objetivas mediante la utilización de diferentes técnicas
estadísticas, que permiten que las puntuaciones sean fiables y que las
interpretaciones que realizamos a partir de las puntuaciones sean válidas:
Tabla 1 Puntuaciones asignadas por 10 profesores (instructors) a una muestra de 10 pruebas (papers)
finales de inglés del primer curso de la Universidad de Wisconsin (Starch, 1913, p. 630).
Los evaluadores educativos han desarrollado diferentes tipos de ítems, como los
ítems de elecciones múltiples, que permiten comprobar con relativa facilidad si las
puntuaciones son fiables, y una serie de técnicas cuyos objetivos son conseguir que
las puntuaciones que los diferentes correctores asignan sean más fiables. En esta
tendencia se considera que la cuantificación de la fiabilidad y de la validez en las
pruebas tiene la máxima importancia.
Spolsky (1978, p. vi) mencionó dos problemas que tienen las pruebas
lingüísticas desarrolladas exclusivamente por los evaluadores:
Se obtienen varias conclusiones. Estas conclusiones son (1) que existe un gran retraso
en la medición del inglés como lengua extranjera, (2) que el retraso está relacionado
con concepciones acientíficas de la lengua, (3) que la ciencia del lenguaje debería ser
utilizada en la definición de qué enseñar… El estudio proporciona procedimientos
para la aplicación de la lingüística al desarrollo de pruebas de lengua extranjera (Lado,
1950, cit. en Carroll, 1953, p. 195).
La autopista del cielo por encima de la cima del mundo se ha convertido en la piedra de toque de la
historia del viaje intercontinental, marcando el comienzo de una nueva edad en la aviación comercial
(Mapa de las Rutas de las Líneas Aéreas Escandinavas)
2
Oller (1979, p. 37) definió una prueba de puntos discretos como una prueba “que intenta concentrar la
atención en un punto de la gramática cada vez”:
Este énfasis en un enfoque integrado convierte a Carroll, según Spolsky (1978, p. ix), en
el primer partidario de la tendencia integradora-sociolingüística, que es el objeto del
siguiente apartado.
Según Carroll (1961[1965], p. 370), el enfoque integrador poseía ciertas ventajas que no
tenía la tendencia psicométrica-estructuralista:
1. Los ítems o las tareas que constituyen una prueba diseñada según la tendencia
integradora-sociolingüística se seleccionan a partir de un conjunto que es más
amplio que el conjunto a partir del cual se seleccionan los ítems o las tareas de
una prueba psicométrica-estructuralista. Según Carroll, esto es una ventaja,
puesto que facilita la construcción de una prueba que es independiente de los
currículos que han seguido los examinandos que van a realizar la prueba.
2. Parece que es más sencillo relacionar las tareas de una prueba integradora-
sociolingüística con diferentes niveles de competencia.
3. En un enfoque integrador no resulta tan necesario realizar un análisis contrastivo
entre la primera lengua de los examinandos y la segunda evaluada en la prueba.
Posteriormente, Canale and Swain (1980, pp. 28-31) y Canale (1983, 338-342)
desarrollaron su concepto de competencia comunicativa, que ha sido muy
influyente en la evaluación lingüística.
3
En cursiva en el original.
15
La capacidad de realizar las pruebas cuando el candidato lo solicita y cuando es conveniente para
el candidato.
La posibilidad de crear preguntas que se pueden almacenar en “bancos de preguntas” y de
presentar estas preguntas aleatoriamente, reduciendo la evaluación “en serie”, es decir, la
necesidad de evaluar el mismo día a la misma hora a todos los candidatos.
La desaparición de complejos problemas logísticos, como la distribución, el almacenamiento y el
seguimiento de los impresos de examen.
Las pruebas pueden ser realizadas sin una conexión a Internet, por lo que se minimiza el riesgo
de fallos del sistema.
Reducción del esfuerzo y del tiempo al corregir y presentar los informes de los resultados.
Resultados instantáneos y retroalimentación diagnóstica inmediata, que indican los puntos
fuertes y las áreas que el candidato debe mejorar.
Aunque estas ventajas son importantes, los cambios más significativos han tenido
lugar como consecuencia del hecho de que el ordenador puede hacer fácilmente cosas
que no resultan sencillas con una prueba de lápiz y papel. La tecnología permite, por
ejemplo, introducir grabaciones en vídeo o plantear problemas que obligan a los
estudiantes a utilizar Internet, lo cual añade todas las ventajas que estas tecnologías
pueden aportar durante los procesos de enseñanza y evaluación.
El cambio más ampliamente difundido en la evaluación lingüística ha sido el uso del
ordenador para realizar pruebas adaptativas, es decir, pruebas en las que la elección
del siguiente ítem está basado en las respuestas previas del examinando, como las
pruebas DIALANG. Las pruebas adaptativas pueden aumentar la calidad de la
información disponible y, por tanto, de las decisiones que se adoptan a partir de la
información disponible. Una prueba adaptativa normalmente comienza con la
presentación de un ítem que se cree que tiene una dificultad media para el examinando.
El segundo ítem y los siguientes están determinados por las respuestas previas del
examinando. En general, si un examinando responde un ítem correctamente, el
programa selecciona a continuación un ítem un poco más difícil. Y, al contrario, se
presenta un ítem un poco más fácil después de una respuesta incorrecta. La prueba
finaliza cuando las estimaciones de la actuación del examinando alcanzan un nivel
predeterminado de precisión o cuando se ha presentado un determinado número de
ítems. Se ha demostrado que la evaluación adaptativa puede aumentar la eficiencia y la
precisión de las medidas de ciertos tipos de conceptos, destrezas y habilidades. En
algunos casos, las pruebas adaptativas pueden alcanzar el mismo nivel de fiabilidad que
una prueba convencional de lápiz y papel, pero en la mitad de tiempo.
Sin embargo, no comprenderéis todo el potencial de la utilización de los
ordenadores durante el proceso de evaluación si sólo consideráis que los ordenadores
son herramientas para presentar los ítems más fácilmente: ¡el ordenador puede medir
competencias que no se miden adecuadamente en las pruebas convencionales de lápiz y
papel! Las grabaciones en video permiten presentar problemas que tienen un mayor
realismo que los problemas normalmente planteados en las pruebas de lápiz y papel. La
simulación de problemas presentada a través de un ordenador tienen varias ventajas
respecto a las pruebas de lápiz y papel en la enseñanza del español como segunda
lengua: la simulación puede obligar a que el examinando concentre su atención en el
uso de la información para resolver un problema y puede ayudar a evaluar no sólo el
producto del estudiante sino también el proceso que el estudiante utiliza para realizar la
16
5 REFERENCIAS BIBLIOGRÁFICAS
FULCHER, Glenn. “Book Review: A history of foreign language testing in the United
States: from its beginnings to the present”. Language Testing. 1999, vol. 16, no. 3,
pp. 389-398.
HOFFMAN, Banesh. The tyranny of testing. New York: Crowell-Collier, 1962.
HOLLAND, Paul W.; THAYER, Dorothy T. “Differential item performance and the
Mantel-Haenszel procedure. En: WAINER, Howard; BRAUN, Henry I. (eds.). Test
Validity. Hillsdale, New Jersey: Lawrence Erlbaum, pp. 129-145.
HYMES, D.H. “On communicative competence”. En: PRIDE, J.B.; HOLMES, Janet
(eds.). Sociolinguistics: selected readings. Hardmondsworth: Penguin, 1972, pp.
269-293.
INGRAM, Elisabeth. “Attainment and diagnostic test”. En: DAVIES, Alan (ed.).
Language testing symposium: a psycholinguistic approach. London: Oxford
University Press, 1968, pp. 70-97.
LADO, Robert. Measurement in English as a foreign language with special reference to
Spanish-speaking adults. Tesis doctoral. Ann Arbor, Michigan: University of
Michigan, 1950.
LINN, Robert L.; GRONLUND, Norman E. Measurement and assessment in teaching.
Saddle River, New Jersey: Prentice-Hall, 2000.
OLLER, John W. Language tests at schools. London: Longman, 1979.
ORGANIZACIÓN PARA LA COOPERACIÓN Y EL DESARROLLO
ECONÓMICOS. Organisation for Economic Co-operation and Development [en
línea]. Paris: Organisation for Economic Co-operation and Development, s.d. [ref.
de 3 de noviembre de 2017 21:30]. OECD Programme for International Student
Assessment (PISA): PISA en español. Disponible en World Wide Web:
http://www.pisa.oecd.org/document/25/0,3343,en_32252351_32235731_39733465_
1_1_1_1,00.html.
O´SULLIVAN, B. “Language Testing”. En: SIMPSON, J (ed.) Routledge Handbook of
Applied Linguistics. New York: Routledge, 2011, pp. 259-273.
PAPAGEORGIU, Spiros. Setting performance standards in Europe. Frankfurt am
Main: Peter Lang, 2009.
PILLINER, Albert E.G. “Subjective and objective testing”. En: DAVIES, Alan (ed.).
Language testing symposium: a psycholinguistic approach. London: Oxford
University Press, 1968, pp. 19-35.
ROSENTHAL, Robert; JACOBSEN, Lenore. Pygmalion in the classroom: teacher
expectation and pupils’ intellectual development. New York: Holt, Rinehart and
Winston, 1969.
SHOHAMY, Elana. “Second language assessment”. En: TUCKER, G. Richard;
CORSON, David (eds.). Encyclopedia of language and education, vol. 4: second
language education. Dordrecht: Kluwer, 1997, pp. 141-149.
SPOLSKY, Bernard. “Introduction: linguists and language testers”. En: SPOLSKY,
Bernard (ed.). Approaches to language testing. Arlington, Virginia: Center for
Applied Linguistics, 1978, pp. v-x.
STARCH, Daniel. “Reliability and distribution of grades”. Science. 1913, vol. 38, no.
983, pp. 630-636.
STARCH, Daniel; ELLIOTT, Edward C. “Reliability of the grading of high-school
work in English”. The School Review. 1912, vol. 20, no. 7, pp. 442-457.
TSAGARI, Dina and Jayanti BANERJEE. Handbook of second language assessment.
Boston, Berlin: Walter de Gruyter, 2016.
WEST, Charles K.; ANDERSON, Thomas H. “The question of teacher preponderant
causation in teacher expectancy research”. Review of Educational Research. 1976,
vol. 46, pp. 613-630.