Sunteți pe pagina 1din 17

1

TEMA 1
LA EVALUACIÓN LINGÜÍSTICA: CONTEXTO, HISTORIA, TEMAS Y
TENDENCIAS

Tabla de contenido

1. INTRODUCCIÓN ........................................................................................................ 2

2. EL INTERÉS POR LA EVALUACIÓN ..................................................................... 2

2.1 La naturaleza y la calidad de las pruebas ............................................................... 3


2.2 Los efectos de la evaluación en los estudiantes ...................................................... 5
2.3 La justicia de las pruebas con las minorías............................................................. 6

3. BREVE HISTORIA DE LA EVALUACIÓN LINGÜÍSTICA ................................... 9

3.1 La tendencia precientífica....................................................................................... 9


3.2 La tendencia psicométrica-estructuralista .............................................................. 9
3.3 La tendencia integradora-sociolingüística ............................................................ 13
3.4 La tendencia comunicativa ................................................................................... 14

4. LOS AVANCES TECNOLÓGICOS EN LA EVALUACIÓN LINGÜÍSTICA ....... 14

5. REFERENCIAS BIBLIOGRÁFICAS ....................................................................... 16


2

1 INTRODUCCIÓN

En este tema introductorio voy a tratar los siguientes aspectos:

1. Las causas del interés creciente en la evaluación educativa en general y en la


evaluación de lenguas extranjeras en particular y tres áreas que han ocasionado
una intensa polémica en la evaluación educativa en general: (1) la naturaleza y la
calidad de las pruebas, (2) los efectos de la evaluación en los estudiantes y (3) la
justicia con las minorías.
2. La historia de la evaluación lingüística.
3. La influencia de las nuevas tecnologías de la información y la comunicación en
la evaluación lingüística.

Los resultados específicos del aprendizaje que el estudiante debe alcanzar al final de
este tema son:

1. El estudiante define, utiliza y relaciona una serie de conceptos generales de la


evaluación educativa.
2. El estudiante define, utiliza y relaciona una serie de conceptos que han ido
apareciendo a lo largo del desarrollo de la evaluación lingüística.
3. El estudiante define, utiliza y relaciona una serie de conceptos relacionados con
la utilización de las nuevas tecnologías de la información y la comunicación en
la evaluación lingüística.

2 EL INTERÉS POR LA EVALUACIÓN

La competencia global, los programas de evaluación autonómicos, nacionales e


internacionales, los nuevos currículos nacionales y autonómicos y la incorporación de
representantes de todos los sectores de la comunidad escolar a los órganos de gestión y
control de los centros educativos han contribuido al aumento de la importancia de la
evaluación educativa, en general, y de la evaluación lingüística, en particular. Sin
embargo, la dependencia de los instrumentos de evaluación también ha dado lugar a
debates acerca de la justicia de los usos y de las interpretaciones de los instrumentos de
evaluación.
La mayoría de las administraciones educativas exigen la realización de pruebas en
determinados cursos, que a veces son instrumentos desarrollados ex profeso por la
propia administración. En España, por ejemplo, la Ley Orgánica 8/2013, de 9 de
diciembre, de Educación (L.O.M.C.E.) (España, 2013) establece la obligatoriedad de
realizar una evaluación individualizada a los alumnos al finalizar el tercer curso de la
Educación Primaria (art. 20), para diagnosticar posibles problemas de aprendizaje y
para que se puedan tomar las medidas adecuada para mejorar el rendimiento escolar del
alumnado; también contempla la realización de otra evaluación al finalizar el sexto
curso de Educación Primaria (art. 21), que se expresará en niveles y tendrá carácter
informativo y orientador; asimismo exige la realización de otra evaluación
individualizada al finalizar la Educación Secundaria Obligatoria (art. 29), la superación
de dicha prueba es obligatoria para la obtención del título. Finalmente esta Ley
establece la realización de una evaluación individualizada al finalizar el Bachillerato y
el aprobar esta prueba estandarizada será también requisito indispensable para la
obtención del título oficial, aunque hasta que se desarrolle la normativa resultante del
pacto social y político por la educación estas evaluaciones se realizan de forma muestral
3

y solamente tendrán finalidad diagnóstica. La Ley Orgánica 2/2006, de 3 de mayo, de


Educación (L.O.E.) (España, 2006) también establecía la obligatoriedad de realizar dos
evaluaciones generales de diagnóstico de las competencias básicas alcanzadas por los
alumnos: una evaluación al finalizar el segundo ciclo de la educación primaria (art. 21)
y otra al finalizar el segundo curso de la educación secundaria obligatoria (art. 29). Las
pruebas a veces tienen su origen en la participación en estudios nacionales o
internacionales, como las pruebas del Programa Internacional de Aprovechamiento de
los Estudiantes (Programme for International Student Assessment (PISA)
(Organización para la Cooperación y el Desarrollo Económicos, s.d.) o en evaluaciones
de programas educativos, como el Programa andaluz de Adaptación Lingüística
(Andalucía, 2005, p. 31). Otro tipo de prueba educativa que nuestros lectores seguro que
han “sufrido” es la prueba para entrar en una universidad.
Los instrumentos de evaluación lingüística han desempeñado un papel muy
destacado en las discusiones acerca del estado de la enseñanza de lenguas extranjeras en
todo el mundo y en las reformas de los sistemas de enseñanza de las lenguas extranjeras.
Las pruebas lingüísticas han sido el centro de un intenso debate por multitud de razones:
acusaciones de que las pruebas estaban sesgadas contra las minorías o de que influyen
en la enseñanza de un modo indeseable, por prestar demasiada atención a ciertos tipos
de contenidos en detrimento de otros, etc. Teniendo en cuenta la importancia de la
evaluación en la práctica de la enseñanza de lenguas, y las cuestiones y debates
asociados, es esencial que los profesores comprendan el diseño, los usos y los abusos de
los instrumentos de evaluación lingüística.
Las decisiones acerca de la elección de una prueba educativa, acerca de una
convocatoria, o acerca de un uso de una prueba lingüística, o de las pruebas educativas
en general, ya no interesan sólo a los profesores. En la actualidad, la sociedad exige
efectividad en los programas de enseñanza de las lenguas extranjeras. Esta mayor
preocupación por las cuestiones relacionadas con la evaluación lingüística tiene su
origen, en parte, en la concienciación de las consecuencias sociales de la evaluación,
especialmente el peligro que ciertas pruebas constituyen para los derechos y las
oportunidades de determinados individuos y grupos. Esta preocupación ha adoptado la
forma de ataques a las pruebas, a la industria de la evaluación y a las nuevas normas que
regulan la evaluación, o de solicitudes de aplazamiento de la aplicación de los nuevos
instrumentos de evaluación, o de acusaciones de que las pruebas están sesgadas y son
discriminatorias. En realidad, existen muchas razones de peso que justifican la
preocupación por las consecuencias sociales de la evaluación. Sin embargo, es
importante, distinguir entre, por un lado, las consecuencias negativas para los
individuos o grupos que tienen su origen en fallos de los instrumentos de evaluación y,
por otro, los fallos causados por una mala interpretación o un el mal uso de las
puntuaciones de una prueba.
Linn y Gronlund (2000, p. 18) mencionan tres áreas que causan polémica en la
evaluación educativa, y que son perfectamente aplicables a la evaluación lingüística: (1)
la naturaleza y la calidad de las pruebas, (2) los efectos de la evaluación en los
estudiantes y (3) la justicia con las minorías.

2.1 La naturaleza y la calidad de las pruebas

A principios de los años 60, algunos autores, como Hoffman (1962, p. 22), sostuvieron
que los ítems de elecciones múltiples penalizaban a las personas más inteligentes,
originales o “excepcionales”. Hoffman (1962) apoyó sus afirmaciones en una revisión
de ítems de pruebas estandarizadas que mostraba que era probable que algunos
estudiantes muy creativos y con un grado elevado en la capacidad evaluada realizaran
4

interpretaciones que no habían sido previstas por los diseñadores de las pruebas1.
Hoffman (1962, p. 17), por ejemplo, incluyó la siguiente carta, dirigida al director del
Times:

Estimado señor:

Entre las preguntas del tipo “marca el elemento diferente” que mi hijo tuvo que responder
en una prueba para entrar en un colegio estaba: “¿Cuál es el elemento diferente en cricket,
fútbol, billar y hockey?

Yo dije billar porque es el único juego que se realiza dentro de un edificio. Un compañero
dijo fútbol porque es el único en el que la pelota no es golpeada con un instrumento. Un
vecino dijo cricket porque en los demás juegos el objetivo es meter la pelota en una red; y
mi hijo, con la confianza que dan nueve primaveras, se decide por el hockey porque “es el
único juego de niñas”.

Aunque las críticas de Hoffman (1962) tuvieron bastante eco, Hoffman también animó a
que los autores de las pruebas añadieran un análisis lógico y cuidadoso de los ítems al
análisis estadístico de los ítems. Frederiksen (1984, p. 199) observó que los problemas
en las pruebas estandarizadas suelen estar bien estructurados, es decir, “están
expresados con claridad, toda la información necesaria para resolver el problema está
disponible en el problema o -presumiblemente- en la cabeza del estudiante, y existe un
algoritmo que garantiza una solución correcta si se aplica adecuadamente”. Sin
embargo, la mayoría de los problemas importantes a los que uno se enfrenta en la vida
están mal estructurados, es decir, son

complejos, sin criterios definidos para determinar cuándo se ha solucionado el problema,


sin toda la información necesaria para resolver el problema, y sin un ‘generador de
movimientos legales’ para encontrar todas las posibilidades en cada paso durante la
resolución del problema (ibid.).

Estas críticas han conducido a un mayor énfasis en las preguntas abiertas y en el diseño
de pruebas que utilizan simulaciones por ordenador.
Una gran parte de las malas interpretaciones y de los malos usos de las puntuaciones
de las pruebas se evitarían si el usuario de la prueba fuera consciente de la naturaleza
limitada de la información que una prueba proporciona. Un buen usuario de una prueba
tiene en cuenta el error que puede existir en las puntuaciones de la prueba y utiliza otras
informaciones, aparte de la puntuación en la prueba, a la hora de tomar su decisión.
Afirmar que se toman mejores decisiones sin las puntuaciones de las pruebas es afirmar
que se toman mejores decisiones cuando existe menos información. Las puntuaciones
de una prueba son ciertamente falibles, pero probablemente son menos falibles que la

1
Davies et al. (1999, p. 187) definen una prueba estandarizada como sigue:

Una prueba que idealmente tiene las siguientes características, aunque las pruebas
lingüísticas llamadas estandarizadas no siempre poseen todas estas características:

 Un desarrollo riguroso, un ensayo y un proceso de revisión, que determinan las


propiedades métricas de la prueba…
 Procedimientos normalizados para la convocatoria y la puntuación de la prueba.
 El contenido de la prueba está normalizado en todas las versiones. Este contenido
está basado en un conjunto de especificaciones de la prueba que pueden reflejar
una teoría de la competencia lingüística o una concepción de las necesidades
previstas de los candidatos. Las formas alternativas de la prueba son examinadas
para comprobar si existe equivalencia en los contenidos.
5

mayoría de los otros tipos de información que se utilizan para tomar las decisiones
educativas.

2.2 Los efectos de la evaluación en los estudiantes

Los críticos de la evaluación afirman que la evaluación tiene efectos indeseables en los
estudiantes. Algunos de las críticas más mencionadas al uso de las pruebas aparecen a
continuación, seguidas de unos breves comentarios.

Crítica 1: Las pruebas producen ansiedad

No cabe duda de que la ansiedad aumenta durante la realización de una prueba. Para la
mayoría de los estudiantes, la evaluación los obliga a actuar mejor. Para unos pocos, la
ansiedad causada por la prueba puede ser tan elevada que interfiere en la actuación en la
prueba. Estos estudiantes suelen tener una ansiedad elevada y la prueba, simplemente,
aumenta su nivel de ansiedad. Se pueden utilizar diferentes procedimientos para reducir
la ansiedad causada por la prueba, como una preparación concienzuda antes de la
prueba, el ensayo de la prueba, y proporcionar el tiempo suficiente para que el
estudiante pueda realizar la prueba con una cierta tranquilidad. Afortunadamente, en los
últimos años los diseñadores de muchas pruebas también proporcionan versiones para
que el estudiante ensaye y se ha pasado de las pruebas de velocidad a las pruebas de
potencia. Esto debería ayudar, pero, aun así, resulta necesario observar cuidadosamente
a los estudiantes durante la realización de la prueba y reflexionar acerca de las
puntuaciones obtenidas por los estudiantes a los que la prueba les produce un elevado
nivel de ansiedad.

Crítica 2: Las pruebas clasifican a los estudiantes

La clasificación de los individuos puede convertirse en un problema grave,


especialmente si la clasificación en un determinado grupo es una simple excusa para no
dar el tratamiento que el estudiante necesita para conseguir un mayor aprendizaje.
Cuando los estudiantes son, por ejemplo, clasificados como retrasados o como
“inmigrantes”, esto influye en el modo en que los profesores y los compañeros los
consideran, en el que modo en que ellos se ven a sí mismos y en la elección del
programa educativo que se les proporciona. Si los estudiantes son considerados,
erróneamente, competentes en español, como está ocurriendo con algunos miembros de
las minorías étnicas, el problema se agrava.
La división de los estudiantes en diferentes grupos puede aumentar la eficiencia en
la gestión del tiempo en la clase y de los recursos del centro educativo. Sin embargo,
cualquier clasificación debe tener en cuenta que la prueba mide sólo una muestra
limitada de las capacidades de un estudiante y que los estudiantes están cambiando
constantemente. Los usuarios de una prueba deben tener en cuenta que las
clasificaciones basadas en esta prueba son provisionales y flexibles. Cuando las
categorías son consideradas permanentes, entonces la clasificación sí constituye un
problema importante. Pero en este caso, el culpable no es la prueba, sino el usuario de la
prueba.

Crítica 3: Las pruebas dañan el autoconcepto de los estudiantes

Existen profesores que a partir de las puntuaciones en las pruebas atribuyen estereotipos
a los estudiantes, que puede tener un efecto no deseado en el autoconcepto de los
estudiantes. También ocurre que el estudiante desarrolla un sentimiento general de
6

fracaso a partir de una puntuación baja. Los profesores debemos explicar a los
estudiantes que reciben una puntuación baja que las pruebas son medidas limitadas y
que nuestras competencias (y, por tanto, las puntuaciones) cambian. Además, se puede
limitar el desarrollo del sentimiento de fracaso si se mencionan los aspectos positivos
que el estudiante muestra en la prueba. Las pruebas pueden ayudar a que los estudiantes
identifiquen sus puntos fuertes y sus puntos débiles, y, con ello, contribuyen a un mejor
aprendizaje y a una imagen propia positiva.

Crítica 4: Las pruebas influyen en las expectativas de los profesores, que, a su vez,
influyen en las expectativas propias de los estudiantes

Aquéllos que utilizan esta crítica sostienen que cuando un profesor asigna una
puntuación a una prueba se produce el siguiente proceso:

1. Las puntuaciones en las pruebas crean expectativas en los profesores acerca del
aprendizaje de cada estudiante.
2. El profesor enseña a cada estudiante en función de estas expectativas.
3. Los estudiantes responden situándose en el nivel esperado.

Por tanto, aquéllos de quienes se espera que consigan más, consiguen más, y aquéllos de
quienes se espera que consigan menos, consiguen menos. Este efecto, llamado efecto
Pygmalion, fue estudiado por Rosenthal y Jacobsen (1968), aunque el estudio fue luego
cuestionado por otros investigadores (Elashoff y Snow, 1971; West y Anderson, 1976).
Está muy extendida la creencia de que las expectativas del profesor aumentan u
obstaculizan el aprovechamiento de un estudiante.

En resumen, existe algo de razón en las diferentes críticas acerca de los efectos
indeseables de las pruebas en los estudiantes. Pero en la mayoría de los casos estas
críticas deberían ser dirigidas a los usuarios de las pruebas, en lugar de a las pruebas
mismas. Es probable que las mismas personas que utilizan mal los resultados de una
prueba utilicen mal otras informaciones, que probablemente son menos precisas y
objetivas. Por tanto, la solución no es dejar de utilizar las pruebas, sino empezar a
utilizar las pruebas y otros datos con más efectividad. Cuando se utilizan las pruebas de
un modo positivo –es decir, para ayudar a que los estudiantes mejoren su aprendizaje–
es probable que las consecuencias sean beneficiosas.

2.3 La justicia de las pruebas con las minorías

La cuestión de la justicia con las minorías raciales y étnicas es crítica en cualquier


programa de evaluación y ha recibido una atención creciente a lo largo de los últimos
años. En evaluación se suelen utilizar los términos grupo focal (o grupo protegido)
para referirse al grupo que constituye el objeto de nuestro interés principal (por ejemplo,
un grupo con una lengua minoritaria) y grupo de referencia para denotar al resto de la
población (Holland y Thayer, 1988, p. 130). Los estudios sobre la justicia en la
evaluación se realizan porque existe la sospecha de que el grupo focal resulta
desfavorecido por alguna característica de la prueba que no está relacionada con el
constructo que se evalúa.
El término justicia está relacionado, según Linn y Gronlund (2000, pp. 21-22), con
diferentes conceptos:
7

1. Ausencia de sesgo: Según Association of Language Testers in Europe Members


(1998, p. 204), “una prueba o ítem está sesgado si un grupo determinado de la
población de candidatos resulta favorecido o perjudicado a causa de una
característica de la prueba o de un ítem que no sea pertinente para lo que se
pretende medir”. El origen del sesgo puede estar vinculado al sexo, la edad, la
cultura, etc. En evaluación se utiliza el término constructo para referirse a la
capacidad o propiedad mental que la prueba evalúa, como la competencia lectora
en una prueba de comprensión de lectura (Association of Language Testers in
Europe Members, 1998, p. 176).
2. Justicia en el procedimiento, que está relacionada con cuestiones como:
¿tienen los examinandos las mismas oportunidades de demostrar lo que saben en
la prueba? ¿Son las respuestas de redacción puntuadas de un modo consistente
por los correctores, sin tener en cuenta el origen étnico o racial del examinando?
3. Oportunidad de aprender: Evidentemente, se considerará que una prueba que
evalúa algo es injusta si sólo algunos examinandos han tenido la oportunidad de
aprender el material que es evaluado.
4. Igualdad en los resultados: desde esta perspectiva, una prueba es justa si las
medias de las puntuaciones de cada grupo (por ejemplo, castellanoparlantes,
catalanoparlantes, chinos, africanos, latinos) son iguales.

Los diferentes conceptos pueden conducir a conclusiones bastante diferentes acerca


de la justicia de una prueba o instrumento de evaluación. El cuarto concepto, la igualdad
de los resultados, es incompatible con otros principios de la evaluación, como el
objetivo de conseguir una medida fiable y válida de lo que los estudiantes saben,
independientemente de su origen o grupo étnico. Puede ocurrir que la media de las
puntuaciones de un subgrupo de estudiantes difiera de la media de otro subgrupo de
estudiantes porque cada subgrupo ha tenido experiencias educativas diferentes, dentro y
fuera del centro educativo, o porque los intereses y el esfuerzo de los estudiantes de
cada subgrupo son diferentes. En estos casos, las puntuaciones obtenidas en la prueba
son consecuencias de determinadas características de cada subgrupo, que se reflejan en
las puntuaciones que cada subgrupo obtiene en la prueba.
Últimamente, en evaluación el término sesgo está siendo sustituido por el término
funcionamiento del ítem diferencial (functional item functioning), que es utilizado
para referirse al “hecho de que la dificultad relativa de un ítem dependa de alguna
característica del grupo al cual ha sido administrado, como la lengua materna o el sexo”
(Association of Language Testers in Europe Members, 1998, p. 188). Resulta importante
distinguir entre el funcionamiento del ítem diferencial y el impacto del ítem. Una
medida del impacto de un ítem en una prueba es el porcentaje de examinandos que
responde el ítem correctamente (índice de dificultad). Puede ocurrir que en un
determinado ítem el grupo de referencia y el grupo focal obtengan índices de dificultad
significativamente diferentes. Sin embargo, los estudios de funcionamiento del ítem
diferencial estudian ítems que poseen una característica, que no está relacionada con el
constructo que el ítem evalúa, favorece al grupo de referencia y perjudica al grupo
focal. Un ejemplo puede aclarar lo que estoy tratando de explicar: supongamos que
estudiamos una prueba de matemáticas, que evalúa la competencia matemática y que
está redactada en español. Un grupo de estudiantes rusos, que ha tenido una
escolarización normal en Rusia y que acaba de llegar a España, realiza, al igual que sus
compañeros españoles, una prueba de matemáticas redactada en español. Los
estudiantes del grupo focal (los alumnos rusos) obtienen en esta prueba una puntuación
significativamente inferior que sus compañeros españoles (el grupo de referencia)
porque la prueba exige un nivel de comprensión de lectura en español que los
estudiantes rusos no poseen y esto explica esas puntuaciones inferiores. Es decir, el
8

hecho de que la prueba para evaluar la competencia matemática tuviera la característica


de estar redactada en español ha producido puntuaciones significativamente inferiores
en el grupo focal. Por tanto, si se puede demostrar que los estudiantes rusos tienen una
competencia matemática similar a sus compañeros españoles pero una competencia en
español inferior a sus compañeros españoles, entonces se debe concluir que los ítems de
esa prueba tienen un funcionamiento diferencial.
Camilli (2006, p. 229) distingue dos procedimientos para demostrar que un ítem
tiene un funcionamiento diferencial:

1. Procedimiento interno, cuyo objetivo es determinar si el ítem mide el mismo


constructo que el resto de los ítems de la prueba. El procedimiento interno suele
utilizar procedimientos estadísticos (como el análisis factorial o el escalamiento
multidimensional) para contrastar la hipótesis de que el grupo de referencia y el
grupo focal se comportan del mismo modo en el ítem sospechoso y en el resto de
la prueba.
2. Procedimiento externo, cuyo objetivo es comprobar si los dos grupos se
comportan del mismo modo en el ítem y en un criterio externo (que puede ser
otra prueba).

Siguiendo con nuestro ejemplo de los estudiantes rusos, para comprobar si el hecho de
que la prueba esté redactada en español ha influido en las puntuaciones del grupo focal,
se puede recurrir a un criterio externo: los estudiantes rusos realizarán una prueba
adicional, que es la traducción al ruso de la prueba original en español, y podrán
contestar esta segunda prueba en ruso. A continuación, se compararían las puntuaciones
que los estudiantes rusos obtuvieron en la prueba en español y en la prueba en ruso:

1. Si las puntuaciones que obtienen en la prueba en español y en la prueba en ruso


son las mismas, entonces el origen de las puntuaciones inferiores en los
estudiantes rusos puede estar en que los estudiantes rusos tiene una competencia
matemática inferior que el grupo de referencia. En este caso se debe concluir que
los ítems de la prueba en español no tienen un funcionamiento diferencial.
2. Si las puntuaciones que obtienen en la prueba en ruso es significativamente
superior, entonces el origen de las puntuaciones inferiores en la prueba en
español parece estar en el hecho de que la prueba está redactada en español, es
decir, en una característica de la prueba en español que no está relacionada con
el constructo que la prueba en español evalúa (la competencia matemática). En
este caso se debe concluir que los ítems de la prueba en español tienen un
funcionamiento diferencial.

La Norma 7.2 de las Standards for Educational and Psychological Testing


establecen que cuando existen datos de que una parte de una prueba tiene un
funcionamiento diferencial para un subgrupo, esa parte de la prueba debería ser
utilizada sólo para aquellos subgrupos para los que se pueden realizar inferencias
válidas acerca del constructo que está siendo evaluado (American Educational
Research Association; American Psychological Assocation; National Council on
Measurement in Education, 1999, p. 81). Siguiendo con nuestro grupo focal de
estudiantes rusos, si se demuestra que la prueba de matemáticas en español tiene un
funcionamiento diferencial en el grupo focal, entonces no se deben utilizar los
resultados de la prueba en español para establecer la competencia matemática de los
estudiantes del grupo focal.
9

3 BREVE HISTORIA DE LA EVALUACIÓN LINGÜÍSTICA

Bernard Spolsky (1978, v) distinguió tres tendencias en la evaluación lingüística, que


coexisten en la actualidad:

1. La tendencia precientífica.
2. La tendencia psicométrica-estructuralista.
3. La tendencia integradora-sociolingüística.

3.1 La tendencia precientífica

Para Spolsky (1978, v), la tendencia precientífica, que aún prevalece en muchos lugares
del mundo, se puede caracterizar por una ausencia de preocupación por las cuestiones
estadísticas o por nociones como la objetividad y la fiabilidad:

En su forma más simple, presupone que podemos y debemos basarnos totalmente en el


juicio de un profesor experimentado, que puede decir qué calificación se debe dar después
de una conversación de varios minutos, o después de leer la respuesta a una redacción
(Spolsky, 1978, p. v).

En la tendencia precientífica es difícil encontrar exámenes orales y los exámenes suelen


consistir en preguntas abiertas que deben ser respondidas por escrito. Estos exámenes
suelen incluir:

1. Fragmentos que deben ser traducidos a o desde la lengua extranjera.


2. Redacciones libres en la lengua extranjera.
3. Ítems gramaticales, textuales o culturales.

En este movimiento la construcción de las pruebas lingüísticas es una tarea asignada a


los profesores de lengua o, en determinadas situaciones, antiguos profesores de lengua
que han pasado a trabajar como examinadores. Para quienes poseen una concepción de
la evaluación basada en la tendencia precientífica, los profesores no necesitan una
formación especial: “si una persona sabe cómo enseñar, se supone que puede valorar la
competencia de sus estudiantes” (Spolsky, 1978, pp. v-vi).

3.2 La tendencia psicométrica-estructuralista

La tendencia psicométrica-estructuralista se caracteriza por la interacción de dos tipos


de expertos, que están de acuerdo en que la evaluación puede ser “precisa, objetiva,
fiable y científica” (Spolsky, 1978, vi):

1. Los evaluadores, es decir, los psicólogos responsables del desarrollo de las teorías y
las técnicas modernas de la medición en la educación, cuyo objetivo principal es
proporcionar medidas objetivas mediante la utilización de diferentes técnicas
estadísticas, que permiten que las puntuaciones sean fiables y que las
interpretaciones que realizamos a partir de las puntuaciones sean válidas:

La forma de las pruebas… está determinada principalmente por la necesidad de evaluar


la fiabilidad y la validez de las pruebas. Ésta es la razón por la que, por ejemplo, la
técnica de las respuestas de elecciones múltiples es tan común. En la evaluación
lingüística esto quiere decir que normalmente recurrimos a las destrezas de la escritura y
la comprensión oral (Ingram, 1968, p. 74).
10

Los evaluadores habían advertido la escasa fiabilidad de los exámenes


tradicionales (Pilliner, 1968, p. 27). Starch y Elliott (1912), por ejemplo, observaron
que las puntuaciones que 142 profesores de inglés habían asignado a una prueba
oscilaban entre 64 y 98, mientras que en otra prueba las puntuaciones oscilaban
entre 50 y 98 (Starch, 1913, p. 630). Starch (1913, ibid.) confeccionó la Tabla 1 a
partir de las puntuaciones asignadas por diez profesores a 10 pruebas finales de
inglés del primer curso de la Universidad de Wisconsin, en la que podemos apreciar
la gran disparidad en las puntuaciones que los profesores (instructors) asignan a una
prueba (paper) realizada por el mismo estudiante. El profesor 4, por ejemplo, asigna
una puntuación de 20 a la prueba realizada por el estudiante 4, mientras que el
profesor 8 asigna una puntuación de 68 a esta misma prueba:

Tabla 1 Puntuaciones asignadas por 10 profesores (instructors) a una muestra de 10 pruebas (papers)
finales de inglés del primer curso de la Universidad de Wisconsin (Starch, 1913, p. 630).

Los evaluadores educativos han desarrollado diferentes tipos de ítems, como los
ítems de elecciones múltiples, que permiten comprobar con relativa facilidad si las
puntuaciones son fiables, y una serie de técnicas cuyos objetivos son conseguir que
las puntuaciones que los diferentes correctores asignan sean más fiables. En esta
tendencia se considera que la cuantificación de la fiabilidad y de la validez en las
pruebas tiene la máxima importancia.
Spolsky (1978, p. vi) mencionó dos problemas que tienen las pruebas
lingüísticas desarrolladas exclusivamente por los evaluadores:

1. Los nuevos tipos de tareas (como la tarea en la que el examinando contesta


eligiendo una opción de entre varias opciones posibles) exigen una respuesta
escrita, lo cual limita la evaluación lingüística a las actividades de
comprensión escrita y comprensión oral. Agard y Dunkel (1948), por
ejemplo, afirmaban que las únicas pruebas disponibles eran pruebas escritas
de vocabulario, lectura y gramática y que ninguna de estas pruebas
evaluaban las destrezas de producción y comprensión orales (cit. en Spolsky,
1978, p. vi; Fulcher, 1999, p. 391).
2. Una prueba desarrollada exclusivamente por evaluadores no tiene en cuenta
los nuevos conceptos, procedimientos y descubrimientos de la enseñanza y
el aprendizaje de lenguas.

2. Los expertos con formación en evaluación educativa y en lingüística. Ya en los años


50 existieron voces que recomendaban la combinación de conocimientos
procedentes de la evaluación educativa con conocimientos lingüísticos para la
construcción de pruebas lingüísticas. Robert Lado (1950), por ejemplo, aplicó esta
11

combinación de conocimientos al diseño de pruebas de aprovechamiento de inglés


para estudiantes latinoamericanos y concluía lo siguiente en su tesis doctoral:

Se obtienen varias conclusiones. Estas conclusiones son (1) que existe un gran retraso
en la medición del inglés como lengua extranjera, (2) que el retraso está relacionado
con concepciones acientíficas de la lengua, (3) que la ciencia del lenguaje debería ser
utilizada en la definición de qué enseñar… El estudio proporciona procedimientos
para la aplicación de la lingüística al desarrollo de pruebas de lengua extranjera (Lado,
1950, cit. en Carroll, 1953, p. 195).

Para Carroll (1953, p. 195), el retraso existía, en realidad, en “toda la medición de


las lenguas extranjeras”. A lo largo de los años 50 y 60 Lado refinó sus conceptos de
evaluación lingüística y en 1961 publicó Language Testing, un libro dirigido a los
“profesores de lenguas extranjeras y de inglés como lengua extranjera”, que se basa
en el supuesto de que “el conocimiento lingüístico” es una “contribución principal”
a la evaluación lingüística, es decir, para Lado (1961, p. vii) las pruebas lingüísticas
debían tener en cuenta “el desarrollo de la lingüística moderna durante los últimos
treinta y cinco años”.

Según Spolsky (1978, p. vii), durante los años 50 y 60 se combinaron la concepción


estructuralista de la lengua, las teorías psicológicas y las necesidades prácticas de los
evaluadores. Por un lado, los diseñadores de pruebas lingüísticas necesitaban extensas
listas de ítems que permitieran la selección de ciertos ítems, que serían incluidos en
pruebas objetivas, mientras que, por otro, los lingüistas estructuralistas estaban
describiendo la lengua como un sistema compuesto de elementos que se combinan entre
sí. En la lingüística estructural americana de los años 50 se postulaban una serie de
niveles jerárquicos en el estudio del lenguaje, compuestos de una serie de unidades, de
cuya combinación surgían las unidades del nivel superior. Lado (1961, p. 25), por
ejemplo, afirmaba que “el lenguaje se construye a partir de sonidos, la entonación, el
acento, morfemas, palabras y combinaciones de palabras”. Mediante esta combinación
de la visión estructural de la lengua y los procedimientos de evaluación educativa
objetiva quedaba expedito el camino hacia la construcción de una prueba objetiva con
preguntas de elecciones múltiples basada en la lingüística estructural. Los elementos
lingüísticos pueden ser evaluados, según Lado (1961, p. 204), aisladamente o en
combinación en una “destreza integrada”, como la comprensión oral (listening), la
comprensión escrita (reading), la producción oral (speaking), la escritura (writing) o la
traducción (translation). A continuación presento dos ítems que aparecen en Lado
(1961), que evalúan elementos aislados y elementos combinados:

Ejemplo de ítem de elecciones múltiples para evaluar el control de estructuras


gramaticales:

El señor Martin visitó al profesor. John los vio…

(1) El señor Martin sabe quién visitó a John.


(2) John sabe quién visitó al señor Martín.
(3) El profesor sabe a quien visitó John.
(4) John sabe a quien visitó el señor Martín.
(5) John sabe a quien visitó el profesor.

(Lado, 1961, p. 159)


12

Ejemplo de ítem de elecciones múltiples para evaluar la destreza integrada de la


lectura:

La autopista del cielo por encima de la cima del mundo se ha convertido en la piedra de toque de la
historia del viaje intercontinental, marcando el comienzo de una nueva edad en la aviación comercial
(Mapa de las Rutas de las Líneas Aéreas Escandinavas)

1. “Autopista” en esta oración quiere decir

(A) ‘vía para autómoviles’


(B) ‘ruta para aviones’
(C) ‘grupo de estrellas’
(D) ‘animal con alas’

(Lado, 1961, p. 235)

En 1961 Carroll (1961[1965], p. 370) distinguió en la evaluación lingüística entre el


enfoque de los puntos estructurales discretos (dicrete structure-point approach) y el
enfoque integrador (integrative approach):

1. En el enfoque de los puntos estructurales discretos los diseñadores construyen


pruebas que evalúan

ítems muy específicos de conocimiento lingüístico y de destreza que han sido


sensatamente seleccionados del conjunto generalmente enorme de ítems posibles…
Es el tipo de enfoque que es necesario y recomendado… donde deben ser evaluados
el conocimiento de la estructura y el léxico, la discriminación auditiva y la
producción oral de sonidos, y la lectura y la escritura de símbolos y palabras
individuales (Carroll, 1961[1965], p. 369)2.

2. El enfoque integrador de la evaluación lingüística:

Las cuatro destrezas de la comprensión oral (listening), producción oral (speaking),


lectura, y escritura también deben ser consideradas actuaciones integradas que
exigen que el candidato domine la lengua como un todo, es decir, su fonología,
estructura y léxico. Merece la pena especificar el nivel de competencia deseado en
cada una de ellas… porque cada una está relacionada con elementos de velocidad en
la respuesta… No creo… que la evaluación lingüística (o la especificación de la
competencia lingüística) esté completa sin el uso de… un enfoque que exija una
actuación integrada y fluida al examinando… yo recomiendo pruebas en las que se
presta menos atención a determinados puntos estructurales o a determinados
vocabularios que al efecto comunicativo total de un enunciado. Por ejemplo, he
tenido gran éxito en la determinación de niveles de formación audiolingüe mediante
una prueba de comprensión oral en la que oraciones de longitud y velocidad
crecientes presentadas auditivamente deben ser asociadas al dibujo correspondiente,

2
Oller (1979, p. 37) definió una prueba de puntos discretos como una prueba “que intenta concentrar la
atención en un punto de la gramática cada vez”:

Cada ítem de la prueba tiene como objetivo un único elemento de un determinado


componente de una gramática (o quizás deberíamos decir de una gramática que es
postulada), como la fonología, la sintaxis, o el vocabulario. Además, una prueba de puntos
discretos tiene como fin evaluar sólo una destreza cada vez (por ejemplo, la comprensión
oral, o la producción oral, o la lectura, o la escritura) y sólo un aspecto de una destreza (por
ejemplo, productivo en lugar de receptivo u oral en lugar de visual). Dentro de cada
destreza, aspecto y componente, los ítems discretos supuestamente tienen por objeto
exactamente uno y sólo un fonema, morfema, elemento léxico, regla gramatical, o lo que
quiera que sea el elemento correspondiente (Oller, 1979, p. 37).
13

de los cuatro presentados. El examinando no está interesado en los puntos


estructurales específicos o en el léxico especifico, sino en el significado total de la
oración, independientemente del modo en que pueda comprenderla (Carroll,
1961[1965], pp. 369-370).

Este énfasis en un enfoque integrado convierte a Carroll, según Spolsky (1978, p. ix), en
el primer partidario de la tendencia integradora-sociolingüística, que es el objeto del
siguiente apartado.

3.3 La tendencia integradora-sociolingüística

Según Carroll (1961[1965], p. 370), el enfoque integrador poseía ciertas ventajas que no
tenía la tendencia psicométrica-estructuralista:

1. Los ítems o las tareas que constituyen una prueba diseñada según la tendencia
integradora-sociolingüística se seleccionan a partir de un conjunto que es más
amplio que el conjunto a partir del cual se seleccionan los ítems o las tareas de
una prueba psicométrica-estructuralista. Según Carroll, esto es una ventaja,
puesto que facilita la construcción de una prueba que es independiente de los
currículos que han seguido los examinandos que van a realizar la prueba.
2. Parece que es más sencillo relacionar las tareas de una prueba integradora-
sociolingüística con diferentes niveles de competencia.
3. En un enfoque integrador no resulta tan necesario realizar un análisis contrastivo
entre la primera lengua de los examinandos y la segunda evaluada en la prueba.

Según Spolsky (1978, p. ix), la tendencia integradora-sociolingüística se caracteriza,


entre otras cosas, por:

1. La utilización de pruebas clozes, que Association of Language Testers in Europe


Members (1998, p. 198) definen como un “tipo de actividad que consiste en
rellenar huecos en un texto en el cual han sido suprimidas palabras enteras”, y
dictados, un “tipo de actividad de examen en el cual el candidato ha de escuchar
un texto y escribir las palabras escuchadas” (ibid., p. 179). La razón por la cual
se incluyen este tipo de tareas en una prueba integradora-sociolingüística tiene
su origen en el supuesto de que “en el uso normal de la lengua… siempre es
posible predecir parcialmente lo que vendrá a continuación” (Oller, 1979, p. 25).
Por tanto, la inclusión de las pruebas cloze y de los dictados permite que el
examinando utilice esta capacidad de predicción.
2. La importancia concedida a la evaluación de la competencia comunicativa. Con
el transcurso del tiempo el concepto de competencia lingüística fue haciéndose
cada vez más complejo y ha sido sustituido por el concepto de competencia
comunicativa. Los lingüistas se dieron cuenta de que la lengua no está
constituida sólo por “sonidos, la entonación, el acento, morfemas, palabras y
combinaciones de palabras” (Lado, 1961, p. 25). Hymes (1972, p. 281), por
ejemplo, afirmó que existen cuatro tipos diferentes de sistemas de reglas que
subyacen a la conducta lingüística, que se reflejan en los cuatro tipos de juicios
que un hablante comunicativamente competente puede realizar acerca de la
lengua:

1. Si (y en qué grado) algo es formalmente posible;


2. Si (y en qué grado) algo es factible en virtud de los medios disponibles de
implementación;
14

3. Si (y en qué grado) algo es apropiado (adecuado, bien adaptado, tiene éxito) en


relación al contexto en el que es utilizado y evaluado.
4. Si (y en qué grado) se hace algo de hecho, algo es realmente realizado, y qué
conlleva esta acción3.

Posteriormente, Canale and Swain (1980, pp. 28-31) y Canale (1983, 338-342)
desarrollaron su concepto de competencia comunicativa, que ha sido muy
influyente en la evaluación lingüística.

3.4 La tendencia comunicativa

Otros autores han dividido la evolución de la evaluación linguistic de un modo


ligeramente diferente a Spolsky (1978). James Dean Brown (2005, pp. 19-24), por
ejemplo, distingue cuatro movimientos en la evaluación lingüística, que coexisten en la
actualidad: (i) el movimiento precientífico, (ii) el movimiento psicométrico-
estructuralista, (iii) el movimiento integrativo-sociolingüístico, y (iv) el movimiento
comunicativo, mientras que Elana Shohamy (1997, p. 141) distingue tres periodos en la
historia de la evaluación lingüística: el período de los puntos discretos, el período
integrativo y el período comunicativo.
La tendencia comunicativa, que comenzó en el Reino Unido y que después se
extendió a los Estados Unidos, se basa en tres principios:

1. El aprendizaje de una lengua debe ser interactivo.


2. Las situaciones en las que se aprende una lengua deben ser muy parecidas a las
situaciones en las que los sujetos van a utilizar la lengua (Shohamy, 1997, p.
142).
3. El uso de las pruebas de actuación lingüística (performance assessment), es
decir, pruebas que obligan a que “los candidatos produzcan una muestra de
lengua, escrita o hablada (por ejemplo, redacciones y entrevistas orales). Estos
procedimientos están diseñados para reproducir la actuación tal y como se
produce en contextos reales de comunicación” (Association of Language Testers
in Europe Members, 1998, pp. 198-199).

El trasfondo específico de este movimiento está compuesto de proposiciones tomadas


de diversos campos de la enseñanza de lenguas, como el enfoque nocional-funcional de
la enseñanza de lenguas o la enseñanza de lenguas para fines específicos. El concepto
de competencia comunicativa de Canale y Swain (1981) y Canale (1983) también ha
influido en el diseño de las pruebas diseñadas dentro de la tendencia comunicativa.

4 LOS AVANCES TECNOLÓGICOS EN LA


EVALUACIÓN LINGÜÍSTICA

Con el aumento de la disponibilidad y la potencia de los microordenadores a un precio


relativamente bajo, no es sorprendente que se haya generalizado el uso de programas
informáticos para evaluar la competencia lingüística de los individuos. Hasta puede que
algunos de vosotros ya hayáis realizado, por ejemplo, las pruebas DIALANG
(www.dialang.org).
La utilización de un ordenador para presentar los ítems de una prueba lingüística
puede tener varias ventajas. Por ejemplo, en lugar de tener que realizar la prueba el día

3
En cursiva en el original.
15

de la convocatoria, los examinandos pueden solicitar realizarla en un momento que se


ajuste mejor a sus necesidades. Además, en lugar de tener que esperar varias semanas
para recibir los resultados de la prueba, las puntuaciones pueden ser obtenidas
inmediatamente. Pearson Driving Assessment (2007) cita las siguientes ventajas de la
evaluación basada en ordenadores:

 La capacidad de realizar las pruebas cuando el candidato lo solicita y cuando es conveniente para
el candidato.
 La posibilidad de crear preguntas que se pueden almacenar en “bancos de preguntas” y de
presentar estas preguntas aleatoriamente, reduciendo la evaluación “en serie”, es decir, la
necesidad de evaluar el mismo día a la misma hora a todos los candidatos.
 La desaparición de complejos problemas logísticos, como la distribución, el almacenamiento y el
seguimiento de los impresos de examen.
 Las pruebas pueden ser realizadas sin una conexión a Internet, por lo que se minimiza el riesgo
de fallos del sistema.
 Reducción del esfuerzo y del tiempo al corregir y presentar los informes de los resultados.
 Resultados instantáneos y retroalimentación diagnóstica inmediata, que indican los puntos
fuertes y las áreas que el candidato debe mejorar.

Aunque estas ventajas son importantes, los cambios más significativos han tenido
lugar como consecuencia del hecho de que el ordenador puede hacer fácilmente cosas
que no resultan sencillas con una prueba de lápiz y papel. La tecnología permite, por
ejemplo, introducir grabaciones en vídeo o plantear problemas que obligan a los
estudiantes a utilizar Internet, lo cual añade todas las ventajas que estas tecnologías
pueden aportar durante los procesos de enseñanza y evaluación.
El cambio más ampliamente difundido en la evaluación lingüística ha sido el uso del
ordenador para realizar pruebas adaptativas, es decir, pruebas en las que la elección
del siguiente ítem está basado en las respuestas previas del examinando, como las
pruebas DIALANG. Las pruebas adaptativas pueden aumentar la calidad de la
información disponible y, por tanto, de las decisiones que se adoptan a partir de la
información disponible. Una prueba adaptativa normalmente comienza con la
presentación de un ítem que se cree que tiene una dificultad media para el examinando.
El segundo ítem y los siguientes están determinados por las respuestas previas del
examinando. En general, si un examinando responde un ítem correctamente, el
programa selecciona a continuación un ítem un poco más difícil. Y, al contrario, se
presenta un ítem un poco más fácil después de una respuesta incorrecta. La prueba
finaliza cuando las estimaciones de la actuación del examinando alcanzan un nivel
predeterminado de precisión o cuando se ha presentado un determinado número de
ítems. Se ha demostrado que la evaluación adaptativa puede aumentar la eficiencia y la
precisión de las medidas de ciertos tipos de conceptos, destrezas y habilidades. En
algunos casos, las pruebas adaptativas pueden alcanzar el mismo nivel de fiabilidad que
una prueba convencional de lápiz y papel, pero en la mitad de tiempo.
Sin embargo, no comprenderéis todo el potencial de la utilización de los
ordenadores durante el proceso de evaluación si sólo consideráis que los ordenadores
son herramientas para presentar los ítems más fácilmente: ¡el ordenador puede medir
competencias que no se miden adecuadamente en las pruebas convencionales de lápiz y
papel! Las grabaciones en video permiten presentar problemas que tienen un mayor
realismo que los problemas normalmente planteados en las pruebas de lápiz y papel. La
simulación de problemas presentada a través de un ordenador tienen varias ventajas
respecto a las pruebas de lápiz y papel en la enseñanza del español como segunda
lengua: la simulación puede obligar a que el examinando concentre su atención en el
uso de la información para resolver un problema y puede ayudar a evaluar no sólo el
producto del estudiante sino también el proceso que el estudiante utiliza para realizar la
16

actividad, incluyendo el modo en que la actividad es abordada, la calidad de la solución


y el número de sugerencias que pueden ser necesarias para resolver la actividad.

5 REFERENCIAS BIBLIOGRÁFICAS

AGARD, F.B.; DUNKEL, H.B. An investigation of second language teaching. Boston,


Massachusetts: Ginn, 1948.
AMERICAN EDUCATIONAL RESEARCH ASSOCIATION; AMERICAN
PSYCHOLOGICAL ASSOCIATION; NATIONAL COUNCIL ON
MEASUREMENT IN EDUCATION. Standards for educational and psychological
testing. Washington, D.C.: American Educational Research Association, 2014.
ANDALUCÍA. Acuerdo de 22 de marzo de 2005, del Consejo de Gobierno, por el que se
aprueba el Plan de Fomento del Plurilingüismo en Andalucía. Boletín Oficial de la
Junta de Andalucía, 5 de abril de 2005, n.º 65, pp. 8-39.
ASSOCIATION OF LANGUAGE TESTERS IN EUROPE MEMBERS. Multilingual
glossary of language testing terms. Cambridge: Cambridge University Press, 1998.
BORDÓN, T; LISKIN-GASPARRO,J. “The Assessment and Evaluation of Spanish”. En:
LACORTE, M. (ed.) The Routledge Handbook of Hispanic Applied Linguistics. New
York and London: Routledge, 2014, pp. 258-274.
BROWN, James Dean. Testing in language programs. New York: McGraw-Hill
ESL/ELT, 2005.
DAVIES, Alan; BROWN, Annie; ELDER, Cathie; HILL, Kathryn; LUMLEY, Tom;
MCNAMARA, Tim F. Dictionary of language testing. Cambridge: Cambridge
University Press, 1999.
CAMILLI, Gregory. “Test fairness”. En: BRENNAN, Robert L. (ed.). Educational
Measurement. American Council on Education; Praeger: Westport, Connecticut,
2006, pp. 221-256.
CANALE, Michael. “On some dimensions of language proficiency”. En: OLLER, John
W. (ed.). Issues in language testing research. Rowley, Massachusetts: Newbury
House, pp. 333-342.
CANALE, Michael; SWAIN, Merrill. “Theoretical bases of communicative approaches
to second language teaching and testing”. Applied Linguistics. 1980, vol. 1, pp. 1-47.
CARROLL, John Bissell. The study of language: A survey of linguistics and related
disciplines in America. Cambridge: Harvard University Press, 1953.
CARROLL, John Bissell. “Fundamental considerations in testing for English language
proficiency of foreign students”. En: Testing the English proficiency of foreign
students. Washington, D.C.: Center for Applied Linguistics, 1961, pp. 30-40.
Reimpr. en: ALLEN, Harold B (ed.). Teaching English as a second language: A
book of readings. New York: McGraw-Hill, 1965, 364-372.
DAVIES, Alan; BROWN, Annie; ELDER, Cathie; HILL, Kathryn; LUMLEY, Tom;
McNamara, Tim F. Dictionary of language testing. Cambridge: Cambridge
University Press, 1999.
ELASHOFF, Janet D.; SNOW, Richard E. Pygmalion reconsidered; a case study in
statistical inference: reconsideration of the Rosenthal-Jacobson data on teacher
expectancy. Worthington, Ohio: Charles A. Jones, 1971.
ESPAÑA. Ley Orgánica 2/2006, de 3 de mayo, de Educación. Boletín Oficial del
Estado, 4 de mayo de 2006, núm. 106, pp. 17158-17207.
ESPAÑA. Ley Orgánica 8/2013, de 9 de diciembre, de Educación. Boletín Oficial del
Estado, 10 de diciembre de 2013, núm. 295, pp. 97858-97921.
FREDERIKSEN, Norman. “The real test bias: Influences of testing on teaching and
learning”. American Psychologist. 1984, vol. 39, n.º 3, pp. 193-202.
17

FULCHER, Glenn. “Book Review: A history of foreign language testing in the United
States: from its beginnings to the present”. Language Testing. 1999, vol. 16, no. 3,
pp. 389-398.
HOFFMAN, Banesh. The tyranny of testing. New York: Crowell-Collier, 1962.
HOLLAND, Paul W.; THAYER, Dorothy T. “Differential item performance and the
Mantel-Haenszel procedure. En: WAINER, Howard; BRAUN, Henry I. (eds.). Test
Validity. Hillsdale, New Jersey: Lawrence Erlbaum, pp. 129-145.
HYMES, D.H. “On communicative competence”. En: PRIDE, J.B.; HOLMES, Janet
(eds.). Sociolinguistics: selected readings. Hardmondsworth: Penguin, 1972, pp.
269-293.
INGRAM, Elisabeth. “Attainment and diagnostic test”. En: DAVIES, Alan (ed.).
Language testing symposium: a psycholinguistic approach. London: Oxford
University Press, 1968, pp. 70-97.
LADO, Robert. Measurement in English as a foreign language with special reference to
Spanish-speaking adults. Tesis doctoral. Ann Arbor, Michigan: University of
Michigan, 1950.
LINN, Robert L.; GRONLUND, Norman E. Measurement and assessment in teaching.
Saddle River, New Jersey: Prentice-Hall, 2000.
OLLER, John W. Language tests at schools. London: Longman, 1979.
ORGANIZACIÓN PARA LA COOPERACIÓN Y EL DESARROLLO
ECONÓMICOS. Organisation for Economic Co-operation and Development [en
línea]. Paris: Organisation for Economic Co-operation and Development, s.d. [ref.
de 3 de noviembre de 2017 21:30]. OECD Programme for International Student
Assessment (PISA): PISA en español. Disponible en World Wide Web:
http://www.pisa.oecd.org/document/25/0,3343,en_32252351_32235731_39733465_
1_1_1_1,00.html.
O´SULLIVAN, B. “Language Testing”. En: SIMPSON, J (ed.) Routledge Handbook of
Applied Linguistics. New York: Routledge, 2011, pp. 259-273.
PAPAGEORGIU, Spiros. Setting performance standards in Europe. Frankfurt am
Main: Peter Lang, 2009.
PILLINER, Albert E.G. “Subjective and objective testing”. En: DAVIES, Alan (ed.).
Language testing symposium: a psycholinguistic approach. London: Oxford
University Press, 1968, pp. 19-35.
ROSENTHAL, Robert; JACOBSEN, Lenore. Pygmalion in the classroom: teacher
expectation and pupils’ intellectual development. New York: Holt, Rinehart and
Winston, 1969.
SHOHAMY, Elana. “Second language assessment”. En: TUCKER, G. Richard;
CORSON, David (eds.). Encyclopedia of language and education, vol. 4: second
language education. Dordrecht: Kluwer, 1997, pp. 141-149.
SPOLSKY, Bernard. “Introduction: linguists and language testers”. En: SPOLSKY,
Bernard (ed.). Approaches to language testing. Arlington, Virginia: Center for
Applied Linguistics, 1978, pp. v-x.
STARCH, Daniel. “Reliability and distribution of grades”. Science. 1913, vol. 38, no.
983, pp. 630-636.
STARCH, Daniel; ELLIOTT, Edward C. “Reliability of the grading of high-school
work in English”. The School Review. 1912, vol. 20, no. 7, pp. 442-457.
TSAGARI, Dina and Jayanti BANERJEE. Handbook of second language assessment.
Boston, Berlin: Walter de Gruyter, 2016.
WEST, Charles K.; ANDERSON, Thomas H. “The question of teacher preponderant
causation in teacher expectancy research”. Review of Educational Research. 1976,
vol. 46, pp. 613-630.

S-ar putea să vă placă și