Sunteți pe pagina 1din 393

II. DE LA EVALUACIÓN A LA MEDICIÓN

II. DE LA EVALUACIÓN A LA MEDICIÓN Aboites_120725.indd 331 25/07/12 03:29

Aboites_120725.indd

331
331
II. DE LA EVALUACIÓN A LA MEDICIÓN Aboites_120725.indd 331 25/07/12 03:29

25/07/12

II. DE LA EVALUACIÓN A LA MEDICIÓN Aboites_120725.indd 331 25/07/12 03:29
II. DE LA EVALUACIÓN A LA MEDICIÓN Aboites_120725.indd 331 25/07/12 03:29

03:29

Aboites_120725.indd 332 25/07/12 03:29

Aboites_120725.indd

332
332
Aboites_120725.indd 332 25/07/12 03:29

25/07/12

Aboites_120725.indd 332 25/07/12 03:29
Aboites_120725.indd 332 25/07/12 03:29

03:29

6. LA CIENCIA DE LA MEDICIÓN EN MÉXICO:

LA CREACIÓN DEL CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR (1989-1994)

El examen no es más que el bautismo burocrático del saber.

Carlos Marx

El legado y la visión de Conant y Chauncey, los pioneros de la evaluación entendida como política nacional en la educación en Estados Unidos, llegaron a México y se insti- tucionalizaron sobre todo a partir de la creación del Centro Nacional de Evaluación para la Educación Superior, A.C. (Ceneval), impulsada (capítulo 3) por la firma del Tratado de Libre Comercio de América del Norte (tLCAN). Una perspectiva estadounidense de la evaluación que concibe que la educación es patrimonio sobre todo de “los mejores” queda así encargada de organizar o supervisar el acceso, permanencia y egreso a la educación media superior y superior de millones de jóvenes en México. Más tarde, con el intento fallido que representó el Instituto Nacional para la Evaluación de la Educación (INEE, 2002) y con la Evaluación Nacional del Logro Académico en Centros Escolares (ENLA- CE) —de los que hablaremos en el capítulo 14—, esta corriente se materializa también en una estructura de supervisión para más de un millón de maestros de la sEp y la medición repetida de decenas de millones de niños en la educación básica. Esta corriente apenas había sido difundida en México. En la primera mitad del si- glo xx la psicometría era un campo reservado a los psicólogos, especialistas y algunos académicos para la elaboración de estudios vocacionales y de inteligencia, pero sólo en la segunda mitad del siglo aparece como mecanismo de ingreso en algunas instituciones, sobre todo en la UNAM (1962). Nada anticipaba a fines de la década de 1980 que la teoría de la medición humana se convirtiera en la doctrina oficial del Estado y en la estrategia fundamental del mejoramiento de la calidad de todo el sistema de educación a partir de exámenes nacionales y de un organismo único nacional encargado de administrarlos. El Ceneval surge como una detallada réplica del Educational Testing Service (Ets) y como representante oficial en México de la corriente teórico-metodológica de la medición humana. Hasta el evidentemente imaginativo Jensen, aquel experto que hablaba de la inteligencia en los extraterrestres —véase el capítulo anterior—, aparece en México como uno de los autores de la bibliografía básica del Centro Nacional de Evaluación para la Educación Superior. La creación de esta especie de sucursal del Ets en México tuvo una repercusión inmediata. En su segundo año de operación ya estaba aplicando decenas de miles de exá-

En su segundo año de operación ya estaba aplicando decenas de miles de exá- Aboites_120725.indd 333

Aboites_120725.indd

333
333

333

En su segundo año de operación ya estaba aplicando decenas de miles de exá- Aboites_120725.indd 333

25/07/12

En su segundo año de operación ya estaba aplicando decenas de miles de exá- Aboites_120725.indd 333
En su segundo año de operación ya estaba aplicando decenas de miles de exá- Aboites_120725.indd 333

03:29

334

DE LA EvALUACIÓN A LA MEDICIÓN

menes a nivel medio superior y superior, aunque también casi de inmediato se convierte en objeto de protestas por parte de importantes movimientos sociales en el terreno de la educación. y 20 años más tarde las críticas no han dejado de perseguirlo. En este capítulo se analiza el itinerario de la creación del Centro Nacional de Evalua-

ción y —más allá de las razones comerciales y las similitudes externas que se adelantaban en

el capítulo 3— se intenta indagar en la conexión teórica y práctica más estrecha que guarda

con la experiencia estadounidense de medición, los usos que se le dan en México y la mane- ra como todo esto cambia profundamente el panorama del acceso y egreso de la educación en México. Posteriormente (capítulo 7) abordamos las razones concretas que motivan las movilizaciones que marcan desde el comienzo la actividad de este centro de evaluación y que se oponen a la corriente teórico-política que apunta a la restricción y control sobre la educación. Con el Ceneval dos culturas muy distintas de la educación se enfrentan en Mé- xico, la de una evaluación generada por los maestros y la medición de los especialistas en los exámenes estandarizados, y ese enfrentamiento recorre la década de 1990 y más allá.

I. EL NACIMIENto DEL CENEvAL y DE Los ExáMENEs DE INgrEso y EgrEso

La conexión del sistema educativo mexicano con la ciencia “moderna” de la medición de estudiantes tiene su primer antecedente en Baja California en 1990 (final del capítulo 4), pero ya en 1988 el candidato presidencial Carlos Salinas de Gortari en Ciudad Obregón había manifestado su interés en convertirla en uno de los ejes de su política educativa. Como se recordará (capítulo 2), a la urgencia de evaluar a los académicos y maestros, el candidato agregaba la necesidad de “profundizar en los criterios de ingreso de estudian- tes” (Hernández yánez, 2002: 126). La evaluación de los profesores comenzó en 1990 al inicio del sexenio (1988-1994) con los estímulos para académicos, y fue seguida, en 1992, por la Carrera Magisterial

para los docentes de nivel básico, pero desarrollar una nueva política de evaluación de los estudiantes probó ser una tarea bastante más difícil y requirió de todo el sexenio. Sólo hasta el último año de la administración salinista (1994) comienza a funcionar el Ceneval

y las razones de este retraso son significativas.

Un itinerario complicado

En primer lugar, el objetivo era bastante complejo. A diferencia de la evaluación de los académicos —que consistió en repartir dinero a las instituciones y asegurarse de que en cada una se estableciera un mecanismo de evaluación y distribución bajo la directa super- visión de la sEp-ANUIEs—, en el caso de los estudiantes precisamente se buscaba terminar con la descentralización. Más que cambiar o ajustar los existentes procedimientos de ingreso y egreso de los estudiantes a las instituciones de educación superior, se pretendía sustituirlos con un organismo central encargado de manejar todo el flujo de ingreso y egreso de estudiantes de nivel medio superior y superior en todo el país. Una centraliza- ción total de la evaluación en un centro único encargado de crear y aplicar exámenes. y por todos lados surgían las opiniones que se oponían a una iniciativa de este tipo.

todos lados surgían las opiniones que se oponían a una iniciativa de este tipo. Aboites_120725.indd 334

Aboites_120725.indd

334
334
todos lados surgían las opiniones que se oponían a una iniciativa de este tipo. Aboites_120725.indd 334

25/07/12

todos lados surgían las opiniones que se oponían a una iniciativa de este tipo. Aboites_120725.indd 334
todos lados surgían las opiniones que se oponían a una iniciativa de este tipo. Aboites_120725.indd 334

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

335

En segundo lugar, las condiciones políticas en el ámbito de la educación al comienzo de la década de 1990 no eran favorables a semejante iniciativa. Para empezar, el secre- tario de educación Manuel Bartlett Díaz (1988-1991), funcionario heredado de la anterior administración y no precisamente del equipo de Salinas de Gortari, estaba ocupado en manejar el conflicto que generaba una disidencia magisterial sumamente activa y pode- rosa, la Coordinadora Nacional de Trabajadores de la Educación (CNtE), que luchaba en contra del caciquismo del líder sempiterno Carlos Jongitud Barrios en el Sindicato Na- cional de Trabajadores de la Educación (sNtE). El secretario apenas tenía el tiempo —y, aparentemente menos, el interés— necesario para impulsar en la educación la agenda de modernización neoliberal del presidente Salinas. Hombre de la rancia política naciona- lista mexicana, el tema de la evaluación neoliberal de estudiantes no le era precisamente

prioritario. Así, aunque se le dio el apoyo burocrático circunstancial de rigor, la medición no fue impulsada con toda la fuerza de la sEp durante los dos primeros años del sexenio. En tercer lugar, porque a pesar de que a partir de 1991 se dan modificaciones impor- tantes en la escena política de la educación y un cambio de funcionarios en la sEp, no deja de existir la resistencia entre los rectores universitarios a este tipo de iniciativas. Efectivamente, a mitad del sexenio la situación había comenzado a cambiar, pero

a un paso muy lento. En 1991 el veterano líder del sNtE es finalmente derrocado y sus- tituido —con la intervención directa del presidente Salinas de Gortari— por la maestra Elba Esther Gordillo (véase el capítulo 2). Con ella se inicia un proceso que tiene éxito en disipar parte de la fuerza que había acumulado el movimiento magisterial y se forta- lecen las que serán las bases políticas para poner en marcha iniciativas neoliberales en la educación y la evaluación “moderna”. Al comienzo de 1992 Manuel Bartlett Díaz es removido del cargo y toma su lugar el hasta ese momento secretario de Programación

y Presupuesto del gabinete, Ernesto zedillo Ponce de León, un hombre profundamente

convencido del proyecto de modernización neoliberal (y más tarde sucesor de Salinas de Gortari en la presidencia de la República). De inmediato, Antonio Gago Huguet —hasta

ese momento director de Educación Superior de la sEp y cuya trayectoria anterior aparece en las primeras páginas del capítulo 2— es nombrado subsecretario de Educación Superior

e Investigación de la misma dependencia, una posición estratégica para los proyectos de

los medidores que él encabezaba. A pesar de este logro no se apagan las resistencias de algunos rectores de las universidades públicas, quienes de manera velada y, en ocasiones, abierta, desde 1989 insisten en que la evaluación sea un mecanismo principalmente inter- no de cada institución, pretensión que obviamente no es bien vista, porque contradice de raíz cualquier intento de crear un centro nacional único de evaluación de estudiantes y de instituciones de la educación superior. El avance de los evaluadores en el poder y esta primera soterrada discusión y resistencia en 1988-1989, aún antes de que tomaran cuerpo las iniciativas de evaluación, son antecedentes importantes de las tensiones que más tarde habrían de venir en torno a la evaluación y al Ceneval en particular.

más tarde habrían de venir en torno a la evaluación y al Ceneval en particular. Aboites_120725.indd

Aboites_120725.indd

335
335
más tarde habrían de venir en torno a la evaluación y al Ceneval en particular. Aboites_120725.indd

25/07/12

más tarde habrían de venir en torno a la evaluación y al Ceneval en particular. Aboites_120725.indd
más tarde habrían de venir en torno a la evaluación y al Ceneval en particular. Aboites_120725.indd

03:29

336

DE LA EvALUACIÓN A LA MEDICIÓN

El significado del cambio en la sep

Hasta para un observador externo resultaban evidentes las afinidades fundamentales entre el nuevo secretario Ernesto zedillo y Antonio Gago Huguet. El primero, economista de afiliación tecnocrática, egresado del Instituto Politécnico Nacional y de la universidad estadounidense de yale, y hasta entonces secretario de Programación y Presupuesto a las órdenes de Salinas de Gortari, tenía una formación y experiencia cuyos puntos de referen- cia —econometría, competitividad, eficiencia técnica— aparecían reiteradamente en sus planteamientos sobre educación (Mendoza Rojas, 1997: 110). Su origen popular y norteño (Tijuana, B.C.), combinados con un posgrado en la elitista universidad estadounidense, le daban el especial perfil emprendedor y liberal de quienes consideran que han logrado triunfar a pesar de todos los obstáculos, gracias a su esfuerzo y demostrada capacidad para competir exitosamente. De ahí que no dejara de ver como un reflejo de su propio itinerario las ideas de Gago Huguet y otros, de establecer un macromecanismo nacional único de competencia para el acceso y egreso de la educación. Difícilmente podía disgus- tarle la idea de una agencia única de evaluación a nivel nacional, una especie de centro de control de las variables en una matriz de insumo-producto: quiénes y cuántos de “los que se lo merecen” entran y con qué destino escolar, y quiénes y con qué “valor agrega- do” salen del sistema educativo. El sueño de todo econometrista se combinaba, además, con la populista propuesta de “neoliberalismo social” que pregonaba el propio Salinas de Gortari. En educación esto significó la tesis de que el camino a las mejores instituciones era a través de una evaluación que demostrara el mérito. zedillo se ocupó, además personalmente, de proponer —e imponer— desde el co- mienzo de su gestión un ambiente de competencia en la educación mediante la propuesta de que los recursos públicos se entregaran a las universidades que demostraran ser más eficientes; la concepción en la práctica de la educación como proceso industrial orientado a crear capital humano, la reorganización de la universidad en torno a la relación con el mundo empresarial y la medición “objetiva” (Mendoza Rojas, 1997: 110). Estas medidas correspondían exactamente a la reforma integral de país pensada por Salinas de Gortari. En las altas esferas de la sEp se generó así un ambiente que convirtió a la evaluación en pieza clave de la creación de un contexto competitivo y, por tanto, se esperaba de mejoramiento y prosperidad en la educación. No podía estar más complacido con todo esto el grupo de los medidores mexicanos modernos que hasta entonces sólo se movía en los niveles intermedios de las instituciones de educación superior, del cuerpo técnico de la ANUIEs y del gobierno federal. En este contexto, la llegada de Antonio Gago Huguet a la Subsecretaría de Educa- ción Superior e Investigación Científica (sEsIC) en 1992 fue vista como una clara señal de aprobación y apoyo a las iniciativas de evaluación y dio un fuerte impulso a la creación del Centro Nacional de Evaluación para la Educación Superior.

a la creación del Centro Nacional de Evaluación para la Educación Superior. Aboites_120725.indd 336 25/07/12 03:29

Aboites_120725.indd

336
336
a la creación del Centro Nacional de Evaluación para la Educación Superior. Aboites_120725.indd 336 25/07/12 03:29

25/07/12

a la creación del Centro Nacional de Evaluación para la Educación Superior. Aboites_120725.indd 336 25/07/12 03:29
a la creación del Centro Nacional de Evaluación para la Educación Superior. Aboites_120725.indd 336 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

337

La postura de los rectores

Sin embargo, desde la llegada de Salinas a la presidencia y a partir de los primeros planteamientos en torno a la evaluación, algunos rectores de la Asociación Nacional de Universidades e Instituciones de Educación Superior (ANUIEs) habían sostenido posturas divergentes respecto de los evaluadores “modernos”. Pero no era, ciertamente, una rebe- lión. Había, por un lado, un ánimo extremadamente cauteloso a fin de no confrontarse abiertamente con el gobierno, y, por el otro, el interés de asegurarse de que los procesos de evaluación no pusieran en jaque la autonomía universitaria (y sus propios intereses entremezclados en ella). Tenían en contra, sin embargo, una historia de acendrado corporativismo que los hacía extremadamente vulnerables a las presiones del gobierno en turno (veáse el capí- tulo 12) y, además, hacia el final de la década de 1980 sufrían virulentas críticas prove- nientes del gobierno y los grupos empresariales. “Las universidades públicas —recuerda Javier Mendoza Rojas, analista de la ANUIEs— eran objeto de fuertes cuestionamientos y críticas, principalmente dentro de ámbitos del gobierno federal y de grupos empresaria- les… la imagen era de una institución ineficiente, que debía ser reordenada y puesta al día.” Ante esto, los rectores rápidamente decidieron que la mejor opción era aceptar e incorporarse a la corriente de la evaluación, pero —como solían hacerlo— con la idea es- tratégica de que “trabajando desde dentro” de los ámbitos de decisión y resistiéndose en lo posible podrían lograr términos menos agresivos y no sufrir más tarde imposiciones fruto de “decisiones externas y alejadas a la lógica académica” (en Mendoza Rojas, 1997: 91). Con esa idea, desde el primer momento establecieron con toda claridad lo que a su juicio debía ser un principio rector de las nuevas iniciativas: aceptaban de entrada la eva- luación al manifestar su acuerdo en caminar por esa ruta, pero con la condición de que no vinieran evaluadores externos y suplantaran a los actores institucionales. El papel de los actores internos —afirmaban con mucha razón— era indispensable para el éxito de los propósitos mismos de la evaluación, pues sin ellos no habría propuestas consensadas. Por esa razón, apenas meses después de la llegada del gobierno de Salinas, en 1989 izaron la bandera de la aceptación y, al mismo tiempo, de la resistencia con una declaración formal (Declaraciones y aportaciones de la anuies para la modernización de la educación superior):

Dado que la evaluación tiene como propósito la toma de decisiones —señalaban— y que éstas sólo pueden hacerse efectivas realmente en la medida en que quienes realizan las actividades específicas las asuman, es importante que sean los propios actores institucionales quienes lleven a cabo el proceso de evaluación, ya que les concierne y afecta en su ámbito propio de actividades, y dado que son ellos quienes efectivamente pueden hacer mayores esfuerzos para efectuar cambios cualitativos (Mendoza Rojas, 1997: 89).

Este cauteloso pero razonable planteamiento sin embargo resultó enorme ingenuo, pues no convocó a ulteriores medidas y ciertamente no detuvo a los en ese momento ya engallados evaluadores-funcionarios. Pero era una declaración que iba directa a una cuestión nodal de la historia de la evaluación, es decir, si ésta debía ser desde las institu-

de la historia de la evaluación, es decir, si ésta debía ser desde las institu- Aboites_120725.indd

Aboites_120725.indd

337
337
de la historia de la evaluación, es decir, si ésta debía ser desde las institu- Aboites_120725.indd

25/07/12

de la historia de la evaluación, es decir, si ésta debía ser desde las institu- Aboites_120725.indd
de la historia de la evaluación, es decir, si ésta debía ser desde las institu- Aboites_120725.indd

03:29

338

DE LA EvALUACIÓN A LA MEDICIÓN

ciones o desde las instancias externas de evaluación que aún estaban en la mesa de dibujo (como los comités de pares o CIEE s, las acreditaciones y, sobre todo, los exámenes estan- darizados nacionales). Se generó entonces una soterrada pugna en el seno de instancias gobierno-universidades, como la Coordinación Nacional para la Planeación de la Educa- ción Superior (Conpes) integrada en esa época por funcionarios y rectores miembros de la ANUIEs. Ahí, los rectores, arrollados por la clara voluntad de las autoridades educativas gubernamentales (entre éstas el evaluador Gago Huguet) y acorralados por el contexto de presiones de la opinión pública que demandaba acciones espectaculares, tuvieron que ceder mucho más de lo que inicialmente habían anticipado. Aceptaron entonces en 1989 una fórmula que pretendía resolver el problema. Se es- tablecía que habría evaluaciones externas de carácter integral, pero esto se matizaba con una declaración conjunta que insistía en el valor de la participación de las instituciones en la evaluación, la incorporación de algunos académicos en las instancias evaluadoras que se crearan y la realización de autoevaluaciones, como un ejercicio previo y complementario, Obviamente, ganaban los evaluadores porque las instancias externas tendrían la parte más importante, pero en el papel por lo menos el trato parecía llegar a un razonable equilibrio. Para avanzar en esta ruta la Coordinación para la Planeación de la Educación Superior creó la Comisión Nacional de Evaluación de la Educación Superior (Conaeva) que en 1989 comenzó a impulsar los comités de pares integrados por académicos, llamados Comités Interinstitucionales para la Evaluación de la Educación Superior (CIEEs) al mismo tiempo que comenzaron a realizarse las autoevaluaciones a cargo de cada institución. Estos co- mités evaluaban desde fuera a las instituciones y sus programas de licenciatura y ofrecían recomendaciones —como se verá en el capítulo 13—. También surgió el Fondo para la Mo- dernización de la Educación Superior (Fomes) que con la promesa de que habría recursos adicionales para las postradas universidades, llevaba a cabo una evaluación de los planes de desarrollo y propuestas de mejoramiento que hacían las instituciones. 1 El que las instituciones tuvieran una participación (autoevaluaciones), sin embargo, no pareció convencer a los evaluadores, pero lo toleraban porque veían que podía servir como arranque de una marcha que podían llevar en la dirección apropiada. Eso explica porqué por un lado alababan el comienzo de la autoevaluación al interior de las institucio- nes, pero por otro expresaban su insatisfacción por esa actividad que consideraban poco valiosa y hasta una distracción. En efecto, más tarde y frente a los resultados de las autoevaluaciones el subsecretario Gago Huguet manifestaba primero aprobación por lo que se había logrado. Decía que “en- tre los resultados positivos, en verdad sorprendentes, está la cantidad de instituciones que

1 Para 1992 el Fomes ya estaba en funciones y en enero de 1993 el presidente hacía entrega de 12.5 miles de millones de pesos —antes de la supresión de tres ceros del peso mexicano, que ocurrió poco más tarde—, como resultado de la presentación de “proyectos que merecieron la obtención de recursos del Fomes” (UAM, 1993: 11). Los comités de pares, formalmente conocidos como Comités Interinstitucionales de Evaluación de la Educación Superior (CIEEs), como describe el presidente en la misma ocasión, funcionaban también bajo el mismo esquema de evaluación-dinero: “Todos estos recursos —hablando de lo que se ha entregado a instituciones de educación superior— se han otorgado con base en las evaluaciones que realizan las propias instituciones y organismos externos creados ex profeso, como la Comisión Nacional de Evaluación y los llamados Comités de Pares” (UAM, 1993: 11).

Nacional de Evaluación y los llamados Comités de Pares” ( UAM , 1993: 11). Aboites_120725.indd 338

Aboites_120725.indd

338
338
Nacional de Evaluación y los llamados Comités de Pares” ( UAM , 1993: 11). Aboites_120725.indd 338

25/07/12

Nacional de Evaluación y los llamados Comités de Pares” ( UAM , 1993: 11). Aboites_120725.indd 338
Nacional de Evaluación y los llamados Comités de Pares” ( UAM , 1993: 11). Aboites_120725.indd 338

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

339

elaboró y entregó, conforme lo acordado su respectivo reporte de autoevaluación… sola- mente dos universidades no concluyeron…” (Gago Huguet, 1991: 6). Pero a continuación utilizaba esos mismos resultados para descalificar los esfuerzos que hacían los rectores. Señalaba que no había validación alguna de los indicadores —no había manera de saber qué significaba la cifra de académicos y estudiantes por ejemplo, pues no se aclaraba si eran de tiempo parcial o completo—; que tampoco existía objetividad —porque la tarea la hacían los propios involucrados—; que los datos que se ofrecían eran con frecuencia poco pertinentes y desorganizados; que no se tenían parámetros ni resultados cuantificables en muchos rubros, y finalmente que en la documentación entregada había “mucho rollo” — palabrería— y poca sustancia. Todavía más, decía que las instituciones utilizaban “instrumentos y metodologías rudimentarias”, “información incompleta, pocas veces oportuna y en ciertos aspectos poco confiable”. Añadía que había una “carencia casi general de un marco de referencia que oriente los juicios evaluatorios en cada universidad [de ahí que] nunca se sabrá en qué medida y con qué calidad se están logrando los objetivos y cumpliendo los fines” (Gago Huguet, 1991: 6-7). Después de andanadas como éstas, insistía una y otra vez en que si se quería dar pasos hacia la calidad debían establecerse indicadores que fueran realmente objetivos, “científicos”, y de una mayor exigencia. Es decir, que si no había exámenes estandarizados, no habría realmente evaluación. La posición de los rectores frente a la inflexible determinación de los evaluadores — ahora funcionarios gubernamentales— era débil no sólo por su situación de dependencia político-financiera respecto del gobierno, sino también porque, atendiendo a sus propios intereses de control interno, nunca pensaron en abrir procesos institucionales amplios de evaluación que permitieran a trabajadores académicos y administrativos, estudiantes, y comunidades y organizaciones locales analizar críticamente a su universidad, definir los principales problemas, ofrecer y discutir propuestas de mejoramiento. Abrir las puertas a estos procesos, hubiera dado a los rectores un enorme punto de apoyo interno y a la ins- titución la fortaleza necesaria para ponderar críticamente propuestas externas de reforma y, así, una más favorable posición frente a la agenda de los evaluadores. Siguiendo la única ruta que conocían bien —la de control de su respectiva universi- dad, que les garantizaba que no tendrían críticas internas—, los rectores concibieron la autoevaluación como una tarea burocrática que encargaron a alguna pequeña oficina para

elaborar gráficas y cuadros estadísticos, redactar textos con los objetivos de la universidad

y hacer propuestas de mejoramiento. Este fue un error o deliberada estrategia que dejó a

los directivos institucionales sin propuestas de fondo y sin fuerza alguna dentro y fuera

de la universidad. Ni los maestros ni los estudiantes conocían lo que se estaba definiendo en esa pugna burocrática entre rectores y subsecretario y carecían por lo tanto de buenas razones para defender algún intento de mejoría real que hicieran los rectores. Si la auto- evaluación se hubiera entendido como un proceso de convergencia de las fuerzas internas

a cada institución que buscaban discutirla y reformarla, habría dado a los rectores una

base mucho más firme para reivindicar la importancia de la evaluación interna. Si los rectores —en lugar de sumarse posteriormente a la difusión y aplicación de los exáme- nes— hubieran planteado claramente a sus comunidades que con pretexto de la calidad se buscaba sustituir los procesos propios de ingreso y egreso con exámenes únicos a nivel

sustituir los procesos propios de ingreso y egreso con exámenes únicos a nivel Aboites_120725.indd 339 25/07/12

Aboites_120725.indd

339
339
sustituir los procesos propios de ingreso y egreso con exámenes únicos a nivel Aboites_120725.indd 339 25/07/12

25/07/12

sustituir los procesos propios de ingreso y egreso con exámenes únicos a nivel Aboites_120725.indd 339 25/07/12
sustituir los procesos propios de ingreso y egreso con exámenes únicos a nivel Aboites_120725.indd 339 25/07/12

03:29

340

DE LA EvALUACIÓN A LA MEDICIÓN

nacional, podrían haber construido una discusión en términos de fuerza muy diferentes.

y las instituciones en ese momento eran las que más experiencia habían acumulado en la

selección de aspirantes y en el egreso de sus graduados. Es decir, que si hubieran querido también podían haber hecho propuestas de evaluación por su cuenta y en bloque como instituciones a partir de las mediciones que ellos mismos hacían del desempeño de los

estudiantes. Con esas experiencias, una discusión en las instituciones podría haber llevado

a esquemas mucho más amplios y socialmente menos agresivos que las mediciones que

trataban de imponerse. Pero no hubo manera de averiguarlo, fue una batalla que los rec-

tores perdieron de antemano con su falta de disposición a plantear y sostener vías distintas

a las que impulsaban los evaluadores. De ahí que en ausencia de procesos institucionales internos, los impulsores de la evaluación “moderna” pudieron insistir exitosamente en

la necesidad de hacer uso de mediciones externas más precisas, “científicas” (de opción

múltiple) y cuyos resultados pudieran darse a conocer ampliamente, revindicándose in- cluso como promotores de la transparencia. En lugar de autoevaluaciones que eran una pesada compilación de datos y documentos inconexos o discursos de retórica vacía, los evaluadores ofrecían que habría cifras concretas, datos incuestionables que servirían para constatar de un solo vistazo cuáles eran realmente las mejores instituciones, los estudian- tes más esforzados y los maestros más eficaces.

El argumento moral

Los evaluadores se presentaban también como reformadores morales aludiendo a que

la falta de entusiasmo de algunas autoridades universitarias por la evaluación era en el

fondo una postura poco ética, renuente a que se supiera lo que en realidad ocurría en las universidades. Parecían convencidos de que en medio del esfuerzo real de algunas insti- tuciones había en las autoridades de otras universidades un oscuro talante moral y hasta

la intención de engañar. Gago Huguet parecía entender que en ocasiones las instituciones

no pudieran entregar los datos que certificaban su transparencia y admitía que algunas universidades tenían problemas de infraestructura y falta de recursos técnicos. Pero luego refiriéndose a algunos otros reportes disparaba, “lo que es imposible aceptar es la distor- sión y la resistencia, el convertir la evaluación en un trámite meramente ritual que sirva para dar una apariencia de trabajo serio, de supervisión responsable y de actitud compro- metida” (Gago Huguet, 1991: 7). Idénticas quejas habría de proferir más tarde —esta vez contra los profesores— cuando los mecanismos “modernos” de evaluación de los acadé-

micos mostraron una irrefrenable tendencia a propiciar la simulación (véase el capítulo 2). y en ese momento se hacían sonar las trompetas de una cruzada contra el “valema- drismo” y la autocomplacencia, y se hacían llamados a una mayor exigencia y al esta- blecimiento de estándares verdaderamente rigurosos para las universidades. En 1995, ya logrado el objetivo de establecer el Ceneval y los exámenes, Gago Huguet hacía referencia

al significado que tenía haber dejado atrás aquella etapa de la “autoevaluación”: “con

pleno convencimiento unos y a regañadientes otros, ahora se cantan nuevas canciones en México, se está en plena transición del valemadrismo a la actitud evaluatoria; de la auto- complacencia a la autocrítica y del paternalismo gubernamental al juicio social con base en estándares rigurosos de validez nacional e internacional” (1995: 22).

base en estándares rigurosos de validez nacional e internacional” (1995: 22). Aboites_120725.indd 340 25/07/12 03:29

Aboites_120725.indd

340
340
base en estándares rigurosos de validez nacional e internacional” (1995: 22). Aboites_120725.indd 340 25/07/12 03:29

25/07/12

base en estándares rigurosos de validez nacional e internacional” (1995: 22). Aboites_120725.indd 340 25/07/12 03:29
base en estándares rigurosos de validez nacional e internacional” (1995: 22). Aboites_120725.indd 340 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

341

La ofensiva de los medidores: la búsqueda de la calidad

Al avanzar la década de 1990 y una vez sometida la oposición inicial de los rectores, los evaluadores desplegaron entonces con gran intensidad su campaña a favor de la calidad, pero como algo que sólo se podía conseguir a partir de sus mediciones. Impulsaban in- sistentemente la idea de que éstas propiciaban la calidad de la educación y que una eva- luación nacional permitiría ver el panorama completo del país y así mejorar la educación donde fuera necesario. A fuerza de repetirlo —y en el vacío de otras discusiones y pro- puestas— este argumento cobró vida propia y a medida que se amplificaba pocos cayeron en la cuenta de que los evaluadores casi nunca explicaban cómo exactamente medirle una y otra vez la temperatura al paciente finalmente lo haría mejorar. En ese momento no era claro todavía, pero ésta relación fundamental (evaluación-calidad) no se comprobaría ni siquiera con el paso de más dos décadas (capítulo final). En esos años el discurso de los impulsores de la nueva evaluación se ajustaba a lo que Morley ha caracterizado como la creación de un pánico “artificial” o “pánico sinté- tico”, en donde primero se pinta una situación de deterioro generalizado y terrible de la educación para luego ofrecer como solución inobjetable, la evaluación. En una época de incertidumbre como la que generaba un momento en que claramente se abandonaba el esquema de país y Estado que había prevalecido durante más de 70 años tenían un espe- cial poder los discursos que ofrecen la promesa de resolver la ambivalencia mediante la identificación de culpables y soluciones a partir de la evaluación (veáse Morley, 2003: 6). Los evaluadores ofrecen seguridad mediante la creación de “bunkers” ideológicos, convicciones acríticas, sabiduría del sentido común más simple y la creación de una acti- tud y atmósfera de campaña moral como mentalidad de grupo dispuesto a luchar, capaz de salir a derrotar al adversario. Hart describe a sus integrantes como “los fanáticos de la calidad”, “un grupo de personas de donde surgen los pares evaluadores, los funcionarios encargados de los procedimientos de calidad” (citado por Morley, 2003: 6), que ofrecen la solución a la incertidumbre y la ambiguedad.

El argumento definitivo: el poder desde la sep

Esta apelación a la incertidumbre y el ambiente de cruzada legitiman la exigencia de que “se haga algo”, es decir, que un poder decisivo —como el gubernamental— intervenga y dicte lo que es necesario hacer. y siendo que los evaluadores eran también funcionarios, ocurría que los mismos que con una cara urgían a actuar de manera decisiva, con la otra actuaban para dar respuestas a sus propias exigencias, que se concretizaban en iniciativas gubernamentales. Cuando en enero de 1992 Ernesto zedillo ya había sido nombrado secre- tario de educación pública, y Gago Huguet subsecretario de educación superior e investi- gación científica, esto precisamente comenzó a darse. Desde la subsecretaría de educación superior Gago Huguet y su equipo tenían, además del discurso de alarma, el poder, el dinero necesario y la entusiasta adherencia del titular de la sEp para impulsar la evaluación de programas y la medición de estudiantes en la forma que consideraran conveniente. Ni siquiera habían pasado tres meses de la llegada de los nuevos encargados de la sEp cuando en marzo de 1992 los nuevos funcionarios ya estaban convocando a los rectores de

en marzo de 1992 los nuevos funcionarios ya estaban convocando a los rectores de Aboites_120725.indd 341

Aboites_120725.indd

341
341
en marzo de 1992 los nuevos funcionarios ya estaban convocando a los rectores de Aboites_120725.indd 341

25/07/12

en marzo de 1992 los nuevos funcionarios ya estaban convocando a los rectores de Aboites_120725.indd 341
en marzo de 1992 los nuevos funcionarios ya estaban convocando a los rectores de Aboites_120725.indd 341

03:29

342

DE LA EvALUACIÓN A LA MEDICIÓN

las 27 universidades más importantes, integrantes del Consejo de Universidades Públicas

e Instituciones Afines (CUpIA) de la ANUIEs, a su primera reunión de trabajo en el puerto de Manzanillo, en la costa del Pacífico mexicano. No fue un viaje de placer sino de regaño, porque el nuevo secretario de educación pública venía a cuestionar a los rectores de las universidades públicas, como se volvió usual al comienzo de cada sexenio a partir de entonces. Se buscaba darles una sacudida que permitiera introducir luego una serie de li- neamientos de profunda reforma. 2 Servía también para lograr que no pusieran más trabas

a la ansiada creación del centro de evaluación externo, encargado de medir, a la salida, la

eficiencia de las instituciones. La reunión fue a puerta cerrada, pero la narración que de ella hace un importante asesor y funcionario de la ANUIEs permite tener una idea bastante exacta de lo que ahí ocurrió. Ese día junto al mar, Ernesto zedillo comenzó su intervención diciendo que así como estaban, las instituciones públicas de educación superior eran “inviables” —una manera que quería ser elegante de decir que no tenían futuro—. Las universidades, decía, “pasan por un momento particularmente crítico de su historia […] viven una crisis de calidad académica y una crisis de pertinencia social” (Mendoza Rojas, 1997: 111). Estos juicios eran doblemente severos si se tenía en cuenta que se daban en 1992, cuando todavía las universidades no se habían recobrado de la catastrófica década de 1980 llena de recortes presupuestables de los años 80 y en un momento en que las instituciones cumplían más de dos años de haber comenzado los trabajos de autoevaluación en la Conaeva. Habían dado muestra de la disposición a seguir avanzando por la ruta trazada en el acuerdo tácitamente pactado al comienzo del sexenio, por medio del cual se aceptaba la evaluación externa pero con base en la participación institucional. El regaño venía a contrastar también con los comentarios favorables que apenas un año antes, en su calidad de director de educa- ción superior de la misma sEp, había hecho el ahora subsecretario Gago Huguet. Señalaba entonces que ya existía “una base razonablemente sólida para decir que las instituciones de educación superior están dispuestas y comprometidas a poner en práctica procedi- mientos de evaluación y a comunicar los resultados obtenidos. Esta circunstancia es muy positiva y alentadora, pues tiene que ver con la actitud, con la voluntad, con las ganas de hacer algo que se considera conveniente” (Gago Huguet, 1991: 6). Pero ahora, desde una posición más fortalecida, la exigencia se redoblaba, y el se- cretario zedillo, el subsecretario Gago Huguet y el nuevo director de educación superior, Víctor Arredondo, 3 ya no parecían dispuestos a tolerar un minuto más la lentitud e insu- ficiencias del avance. Decían que para ellos —la autoridad educativa— había cosas más importantes y prácticas que evaluar lo que ocurría al interior de las instituciones. Como

2 Se les advertiría ahí que de ahora en adelante las universidades públicas “tenían que ser conscientes de que compiten por recursos escasos, no sólo entre ellas, sino con […] otros niveles y modalidades educativas.” “El gasto público es una herramienta que utiliza el gobierno […]” “los criterios que rigen a la autoridad educativa para influir por medio de la asignación de recursos, en la actividad de las universidades, son el de excelencia y el de pertinencia.” “El subsidio adicional será asignado en función del esfuerzo encaminado a la excelencia y la pertinencia” (Mendoza Rojas, 1997: 111).

3 La reunión tenía como objeto explicarles a los rectores cómo funcionaría un nuevo programa de es- tímulos a la docencia para los académicos universitarios. Por eso la nutrida delegación por parte de la sEp (Saldierna, 1992: 3).

Por eso la nutrida delegación por parte de la sEp (Saldierna, 1992: 3). Aboites_120725.indd 342 25/07/12

Aboites_120725.indd

342
342
Por eso la nutrida delegación por parte de la sEp (Saldierna, 1992: 3). Aboites_120725.indd 342 25/07/12

25/07/12

Por eso la nutrida delegación por parte de la sEp (Saldierna, 1992: 3). Aboites_120725.indd 342 25/07/12
Por eso la nutrida delegación por parte de la sEp (Saldierna, 1992: 3). Aboites_120725.indd 342 25/07/12

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

343

una manera de confirmar que la discusión sobre la evaluación interna o externa seguía viva zedillo hubo de pronunciarse con fuerza e impaciencia sobre el tema. “El avance reciente de las universidades públicas, valioso en sí, es, sin embargo, demasiado lento en relación con lo que requiere el país”, decía hablando de la autoevaluación. y pasó luego a decir qué era lo que la autoridad educativa consideraba que debían hacer las instituciones.

La autoevaluación y los otros procesos de evaluación en desarrollo son importantes para las universidades, pero lo que más interesa a la autoridad educativa son los resultados de la formación de profesionales egresados de las universidades, en términos de calidad y per- tinencia. Hasta hoy se han realizado evaluaciones de insumos y de procedimientos, no de productos (Mendoza Rojas, 1997: 112).

Lo que el recién llegado secretario y subsecretario de educación superior querían decir era que debía crearse un organismo externo —que sería el Ceneval— y exámenes de egreso que evaluaran los “productos” que generaban las instituciones para constatar su calidad con un mismo examen y con resultados comparables nacionalmente.

Tenemos que evolucionar rápidamente —añadió para que no quedara la menor duda— a un sistema en el cual gracias a un mecanismo autónomo de la sEp y de las universidades, podamos evaluar resultados por medio de exámenes de carácter nacional que se apliquen a los egresados de manera general o por muestreo en la carreras típicas de las universidades (Mendoza Rojas, 1997: 112).

Pero los evaluadores no querían dedicarse a hacer muestreos, eso estaba bien para los investigadores, pero no para una iniciativa mucho más ambiciosa. 4 Sin admitirlo, ellos veían con envidia al Ets estadounidense como el encargado de medir a millones de individuos y, por tanto, como regulador de los flujos del acceso a la educación; veían la oportunidad de constituirse en un influyente polo nacional capaz de obtener enormes recursos, y también contemplaban las perspectivas del papel que como evaluadores podían desempeñar en la conducción de la educación mexicana. Los muestreos no permitían todo eso. Los planteamientos del secretario no terminaron ahí y a partir de la brusquedad con que se presentó lo que las universidades debían hacer, en un episodio inusual en las hasta entonces comedidas formas de los conflictos en la política mexicana —y de la educación superior—, los rectores y el secretario protagonizaron el tenso intercambio que referimos en el capítulo 2. Sobre todo cuando el secretario habló de la idea de evaluar resultados y hacer depender de éstos la entrega de recursos financieros adicionales a las institu- ciones, los rectores no se quedaron callados e insistieron en que más que evaluaciones

4 Esta última propuesta del muestreo nunca fue realmente tomada en serio, pero ciertamente hubiera cumplido bien con el propósito de conocer los resultados del trabajo de las instituciones. Un muestreo bien hecho (que puede alcanzar altos niveles de confianza en sus resultados) permitiría ofrecer información se- mejante a la que ofrecen los resultados de un examen que se aplica a todos los egresados, y con solo una fracción de su costo.

examen que se aplica a todos los egresados, y con solo una fracción de su costo.

Aboites_120725.indd

343
343
examen que se aplica a todos los egresados, y con solo una fracción de su costo.

25/07/12

examen que se aplica a todos los egresados, y con solo una fracción de su costo.
examen que se aplica a todos los egresados, y con solo una fracción de su costo.

03:29

344

DE LA EvALUACIÓN A LA MEDICIÓN

el problema era de presupuestos suficientes y estables. Como relata una periodista que tuvo acceso a lo que se dijo ahí: “Los rectores hablaron fuerte para decir que necesitan mejores presupuestos, pero zedillo no se dejó. También habló fuerte para decirles que los recursos se entregarán con base en criterios más escrupulosos de calidad educativa, y

sobre todo a resultados, que fue el planteamiento que se repitió sin cesar en el encuentro de los rectores” (Saldierna, 1992: 3). En la autoritaria cultura política mexicana, estas breves frases del secretario de edu- cación eran suficientes para sellar la victoria de los evaluadores frente a los disidentes rectores. Significaban que ahora tenían consigo, sin ambigüedad alguna, el poder de la sEp

y del gobierno federal, una carta blanca para la intervención directa de los evaluadores en

las instituciones mediante Gago Huguet en la subsecretaría. Se debe tener en cuenta que por una peculiar disposición presupuestal, todos los recursos federales destinados a las universidades estatales autónomas y otras más del país —salvo algunas del ámbito federal como UNAM, UAM, IpN, UpN— se entregan directamente a la Subsecretaría de Educación Superior e Investigación Científica, para que esta los administre (bastante discrecional- mente) a partir de una burocrática evaluación de sus proyectos y necesidades. En esta situación, los rectores de las universidades de los estados apenas tenían el espacio político de autonomía necesario para sostener sus posiciones contrarias a una evaluación centralizada y externa sin que real —o imaginariamente— consideraran que se estaban confrontando con el subsecretario y pusieran en riesgo la mirada favorable de la autoridad a sus urgentes solicitudes de mayores recursos.

La construcción de los exámenes

Todavía no se habían extinguido los ecos provocados por la reunión de Manzanillo a lo largo y ancho de la educación superior, cuando semanas más tarde ya la cúpula de la ANUIEs, acatando el mensaje gubernamental procedió a resucitar los intentos que an- teriormente había hecho para la creación de un examen indicativo para el ingreso a la licenciatura y el examen general de egreso de la licenciatura, y se imprimía una inusitada

celeridad a los trabajos para tenerlos listos cuanto antes. Para facilitar más las cosas, se acordó hacer “una división del trabajo: la ANUIEs desarrollaría el primero [el de ingreso]

y la sEsIC el segundo [el de egreso]” (Mendoza Rojas, 1997: 112). Es decir, el equipo de

Gago Huguet estaría directamente a cargo de los exámenes de salida, con toda la influen- cia y recursos propios de la subsecretaría. El tema concreto de los exámenes de egreso de la licenciatura era una idea que — como se aclaraba anteriormente— no había prosperado precisamente por las dudas de los rectores y por la situación tan poco propicia que imperaba en la sEp de Bartlett Díaz. Pero ahora, directamente en manos de una sEp reconvertida a la evaluación, ya no se anticipaban problemas. Sin embargo, a pesar de que los rectores como conjunto guarda- ban silencio, algunos habrían de continuar con su inconformidad y ésta aparecería aquí y allá en este proceso de construcción del Ceneval y aun después. Los rectores no tuvieron grandes inconvenientes en aceptar los estímulos para los académicos y, a regañadientes, iniciativas de evaluación como la Conaeva, los CIEEs, el Fomes y demás expresiones de la fórmula evaluación de resultados-recursos, pero el asunto de los exámenes de ingreso

evaluación de resultados-recursos, pero el asunto de los exámenes de ingreso Aboites_120725.indd 344 25/07/12 03:29

Aboites_120725.indd

344
344
evaluación de resultados-recursos, pero el asunto de los exámenes de ingreso Aboites_120725.indd 344 25/07/12 03:29

25/07/12

evaluación de resultados-recursos, pero el asunto de los exámenes de ingreso Aboites_120725.indd 344 25/07/12 03:29
evaluación de resultados-recursos, pero el asunto de los exámenes de ingreso Aboites_120725.indd 344 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

345

y sobre todo de egreso cuyo control quedaría completamente fuera de las universidades seguía siendo problemático. En el terreno de las pruebas de egreso, desde principios de la década de 1990 los rectores no cesaban de mencionar dificultades. Consideraban que la autonomía de las ins- tituciones y su facultad de expedir títulos se vería comprometida con un examen externo:

“Se apuntaba incluso una potencial contradicción entre preceptos legales existentes (frac- ción vII del artículo tercero constitucional y ley de Profesiones)”, cuenta Javier Mendoza (Mendoza Rojas, 1997: 115). La diversidad de planes de estudio era otro punto que cau- saba intranquilidad, pues con un examen único nacional se temía que habría una fuerte presión a la homologación, y también les preocupaban las implicaciones que traía la diver- sidad de carreras. Unas parecían de más fácil evaluación —por ejemplo, las ingenierías— pero otras, las humanidades, eran mucho más problemáticas. Estaba además el problema de la ingerencia que significaba la existencia de un “superexamen” que podía anular un documento ya entregado por una institución legalmente autorizada para expedir títulos de licenciatura. Los rectores habían insistido en que se mantuviera que “el examen [externo] sería un instrumento que brindase información sobre el nivel de formación alcanzado por un egresado, sin pretender evaluar a la universidad en la que cursó sus estudios”, algo que no complacía a los medidores y que ponía en entredicho todo el planteamiento de zedillo, de enfocarse precisamente a los productos para evaluar las instituciones. Así todavía en 1993-1994, como si no hubieran pasado los años, una vez más el conjunto de rectores:

[…] alertó sobre los riesgos que implicaría evaluar a las universidades considerando sólo, o fundamentalmente, los resultados de sus egresados en dicho examen, máxime si las auto- ridades gubernamentales planteaban establecer políticas de apoyo y asignación de recursos con base en estos resultados, aislados de otras variables distintas a la docencia, que necesa- riamente tendrían que considerarse en la evaluación de las universidades (Mendoza Rojas, 1997: 115).

Estas objeciones parecían aceptar ya como inevitable la creación de los exámenes, pero de cualquier manera ponían en crisis relativa las intenciones de convertir sus re- sultados en la moneda de cuño corriente para informar al mercado del “valor” de cada institución. y también ponían en entredicho la capacidad del gobierno de fincar en los exámenes la evaluación de las instituciones. Todas estas discusiones dejan ver claramente que en el itinerario de creación de los exámenes, que arranca desde 1989 y culmina en 1994, nunca fue fácil y hubo momentos de posiciones encontradas. Estaba en juego no sólo la decisión de materializar o no el pro- yecto de realizar exámenes de egreso, sino también la idea misma de crear una instancia nacional de medición. Aunque hubo rectores que en las reuniones y en otros momentos posteriores continuaron reiterando su oposición, siempre decidieron hacerlo discretamente, renuentes a llevar el asunto más allá de los corredores y antesalas burocráticas, nada dis- puestos a abrir la discusión sobre el tema con sus comunidades académicas en un debate nacional. Éstas nunca supieron bien a bien lo que estaba en juego. Sobre todo volvieron más reservada su postura cuando importantes rectores retomaron el proyecto como algo propio y lo apoyaron de manera decisiva. Uno de éstos fue, sin duda, el influyente rector

y lo apoyaron de manera decisiva. Uno de éstos fue, sin duda, el influyente rector Aboites_120725.indd

Aboites_120725.indd

345
345
y lo apoyaron de manera decisiva. Uno de éstos fue, sin duda, el influyente rector Aboites_120725.indd

25/07/12

y lo apoyaron de manera decisiva. Uno de éstos fue, sin duda, el influyente rector Aboites_120725.indd
y lo apoyaron de manera decisiva. Uno de éstos fue, sin duda, el influyente rector Aboites_120725.indd

03:29

346

DE LA EvALUACIÓN A LA MEDICIÓN

de la UNAM. Desde ese momento y más tarde oficialmente se reconocería a “José Sarukhán, quien siendo rector de la UNAM contribuyó decididamente a la fundación del Ceneval”

(Ceneval, 2003b: 2). y más tarde asumió abiertamente el papel de defensor de esos exáme- nes y del Ceneval en las luchas ya públicas en contra de la evaluación de nuevo cuño. Su influencia —y la estrecha relación entre la UNAM y el Centro Nacional de Evaluación— se mantuvieron no sólo por que eran de la Universidad Nacional los cuadros académicos que fueron operadores e impulsores de algunos de los exámenes sino porque todavía en 2002,

al concluir Gago Huguet su mandato, se habría de nombrar como director de ese Centro a

Salvador Malo, quien había sido alto funcionario de planeación de la Universidad y consi- derado como muy cercano al rector Sarukhán (Vargas y Olivares, 2007: 51). En general, los rectores ratificaron su lealtad con el sistema y los que protestaron se mantuvieron en los cauces de una disidencia institucional que obviamente fue arra- sada por el bloque secretario-subsecretario y rectores comprometidos a caminar sin ambages por esta vía. Además, sumándose a todos ellos, estaban claramente a favor del proyecto los dos secretarios generales ejecutivos de la ANUIEs de los primeros años de 1990, el primero, Juan Casillas García de León y el segundo, Carlos Pallán Figueroa —este último a partir de 1993—. Ambos, académicos y funcionarios de la Universidad Autónoma Metropolitana, asumieron la tarea de manera plena y hasta personal. Para hacerlo sin embargo tuvieron que apartarse de las declaraciones y acuerdos tomados por la misma ANUIEs que en 1989 y posteriormente insistían en los actores internos. La cúpula de la ANUIEs se sumó, así, abiertamente a los esfuerzos por crear los exámenes de ingreso y, más tarde, por apoyar los de egreso. También asumió como propia la ta- rea de descalificar la oposición a la creación de una instancia de evaluación totalmente externa y extraña a las instituciones y a sus exámenes. Con todo esto, apenas llama la atención que un año más tarde —en marzo de 1993— en Villahermosa, Tabasco, Gago Huguet, en su carácter de titular de la sEsIC-sEp, fuera quien formalmente presentara a la ANUIEs el proyecto de exámenes de egreso y que éste viniera aprobado por la asamblea, aunque al parecer —y no sin molestar profundamente

a los funcionarios— una vez más aparecieron los puntos de vista divergentes. Así, se

reporta que el documento “fue aprobado en lo general, manifestándose diversas opinio- nes sobre aspectos particulares de la propuesta” (Mendoza Rojas, 1997: 113). “Diversas

opiniones”, según el testimonio de Carlos Pallán, secretario de la ANUIEs en ese momen- to, como veremos, no sólo fue eso, la oposición tiene más fondo que esas moderadas palabras. Este primer brote de disidencia sólo provocó una todavía mayor prisa de los eva- luadores. Así, apenas un mes más tarde la Asamblea General de la Asociación reunida en Mérida aprobó otros 11 resolutivos que establecían formalmente el Examen General de Calidad Profesional (EgCp), y daban pasos adicionales en dirección a la creación del Ceneval. El texto de los acuerdos muestra que aún en ese momento hubo que hacer concesiones en el discurso a las críticas veladas de rectores. Así, en lugar de colocar

a estos exámenes como la única evaluación válida, en un lenguaje que pretendía ser

incluyente se hablaba de “aplicar el examen en 1994 en una fase experimental; consi- derarlo como complemento a los procesos de evaluación, acreditación y titulación que competen a las instituciones”. Se hablaba también de “incorporar personal académico

a las instituciones”. Se hablaba también de “incorporar personal académico Aboites_120725.indd 346 25/07/12 03:29

Aboites_120725.indd

346
346
a las instituciones”. Se hablaba también de “incorporar personal académico Aboites_120725.indd 346 25/07/12 03:29

25/07/12

a las instituciones”. Se hablaba también de “incorporar personal académico Aboites_120725.indd 346 25/07/12 03:29
a las instituciones”. Se hablaba también de “incorporar personal académico Aboites_120725.indd 346 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

347

[de las instituciones], técnico y científico del más alto nivel en el diseño de los exá- menes; consultar a los diversos sectores interesados; no condicionar el otorgamiento de la cédula profesional a la aprobación del examen, pero sí exigir al solicitante la constancia de su presentación…, y presentar la propuesta de que un organismo no gu- bernamental y autofinanciable a mediano plazo [el Ceneval] se encargue del desarrollo del proyecto” (Mendoza Rojas, 1997: 113). No fue necesario mucho tiempo para que quedara claro que algunas eran frases huecas. La dirección de la ANUIEs, por ejemplo, logró que más tarde (1997) se aprobara que las instituciones debían establecer la obligatoriedad del Examen General de Calidad Profesional para todos los egresados. Un requisito como este apenas se podía llamar “complementario” a la evaluación que hace cada universidad. La participación —por otro lado— de unos cuantos académicos de algunas instituciones en la elaboración de los exámenes resultó ser apenas una caricatura de la evaluación desde las propias universi- dades y a cargo de los actores institucionales que los rectores habían propuesto en 1989. En Mérida, sin embargo, lo más importante es la discusión sobre la creación del nuevo organismo que habría de llamarse Centro Nacional de Evaluación para la Educación Superior.

El parto del Ceneval, rodeado de controversia

Al llegar a ese punto de nuevo aparecieron los problemas, como recuerda Carlos Pallán. Aunque tiende a presentar una imagen positiva de todo el trámite, se siente obligado a hacer al menos una escueta referencia a las críticas que surgieron antes y después de la aprobación del punto. De tal manera que el subsecretario Gago Huguet tuvo que inter- venir directamente en la asamblea para lograr que finalmente se aprobara la “propuesta de que un organismo no gubernamental y autofinanciable a mediano plazo se encargue del desarrollo del proyecto de exámenes nacionales” (Mendoza Rojas, 1997: 113). Pallán recuerda que “el parto, sin embargo, no fue fácil. Desde la aprobación en la asamblea los embates se hicieron sentir” (Pallán, 2004: 8) Inmediatamente se tomaron varias decisiones operativas para materializar el proyec-

to, sobre todo por parte de la sEsIC-sEp. En primer lugar, se rescató el trabajo ya realizado desde 1992 por la especialista yolanda Gayol, quien “realizó un viaje por varios países, con especial énfasis en Estados Unidos, Inglaterra y Francia” por encargo de la sEp re- cogiendo experiencias de centros de evaluación (Pallán, 2004: 8). Para revisar esos datos

y generar una propuesta concreta y actualizada, “la ANUIEs y la sEsIC contrataron a un

reconocido investigador de la educación, Pablo Latapí quien con su vasta experiencia y los insumos ya mencionados, procedió a hacer la propuesta preliminar” de lo que sería

el Ceneval (Pallán, 2004: 8). En este proceso, sin embargo, la persona clave y motor del

proyecto seguía siendo Gago Huguet, según Carlos Pallán, secretario de la ANUIEs.

En toda esta historia sobresale intensamente la figura de Antonio Gago. Posiblemente sin él la institución [el Ceneval] no existiría: primero, porque fue el impulsor del viaje que permitió el acopio de experiencias nacionales de la materia. Segundo, en su calidad de subsecretario, estuvo pendiente del avance del trabajo que el doctor Pablo Latapí elaboró para ANUIEs, siendo

del avance del trabajo que el doctor Pablo Latapí elaboró para ANUIEs , siendo Aboites_120725.indd 347

Aboites_120725.indd

347
347
del avance del trabajo que el doctor Pablo Latapí elaboró para ANUIEs , siendo Aboites_120725.indd 347

25/07/12

del avance del trabajo que el doctor Pablo Latapí elaboró para ANUIEs , siendo Aboites_120725.indd 347
del avance del trabajo que el doctor Pablo Latapí elaboró para ANUIEs , siendo Aboites_120725.indd 347

03:29

348

DE LA EvALUACIÓN A LA MEDICIÓN

una fuente de opinión muy importante para el planteamiento técnico final del nuevo centro (Pallán, 2004: 8).

Por lo que toca a las características concretas del Ceneval, que se definieron en ese momento, además de la aportación crucial de Latapí, Pallán explica que “entre las principales ahí aprobadas sobresalían dos, las cuales con el tiempo, han mostrado su enorme importancia: la estructura jurídica de una asociación civil y la idea de que fuese un organismo autofinanciable”. Es decir, que adoptó el carácter de un organismo privado

que, para ser autosustentable, debía dedicarse a la comercialización de sus servicios. Así, se señala que inicialmente recibió un subsidio que debería ir disminuyendo “de 100% en el primer año a 0 en el sexto” (Pallán, 2004: 8). La idea de que fuera autofinanciable aunado al apoyo irrestricto de la sEp habría de convertir al Ceneval prácticamente desde el comienzo en una entidad comercial con fuertes rasgos monopólicos. En los hechos se

le

otorgaba la concesión de evaluar en todas las instituciones de educación media superior

y

superior del país, públicas y privadas. Pero, además, se construía con una combinación

ventajosa. Era privada pero tenía todo el apoyo gubernamental económico 5 y político para convertirse en los hechos en la única entidad autorizada para evaluar en todo el

país. Adoptaba la figura de una asociación civil con el propósito, se decía, de establecerse como una entidad independiente —una especie de organismo no gubernamental, solía decir Gago Huguet—, pero contaba con la participación directa del mismo secretario y subsecretarios de la sEp en la Asamblea de Asociados. 6 Más que en una voz independiente de evaluación de la educación superior se convirtió en un organismo privado, comercial

y exento de cualquier supervisión y control propio de una agencia pública. 7 Lo mejor de

dos mundos. Este planteamiento no dejaba de ser contradictorio, porque con el paso del tiempo haría que se convirtiera en una entidad híbrida, altamente comercializada pero estricta- mente sujeta a la voluntad gubernamental (veáse el capítulo 15). Así, más que algún afán de independencia del gobierno, el por qué ese Centro Nacional de Evaluación adopta un carácter privado se explica por una combinación de razones pragmáticas que permiten que las autoridades más altas de la sEp intervengan en ese organismo —paralelo a la estruc- tura de la sEp— donde pueden tomar decisiones sin mayor supervisión o procedimientos,

5 Como se señalaba en nota 31 en el capítulo 3, todavía en 2005 el Ceneval recibía más de medio centenar de millones de pesos en apoyos por parte de la Dirección General de Bachillerato, la Dirección General de Evaluación, la Dirección General de Educación Tecnológica Industrial, la Dirección General de Educación Superior y la Comipems, que organiza el examen único (Ceneval, 2006b: 54).

6 “Los siguientes funcionarios, con representación institucional, integran la Asamblea de Asociados: el secretario de Educación Pública (sEp), el subsecretario de Educación e Investigación Tecnológica (sEp), el sub- secretario de Educación Superior e Investigación Científica (sEp), el secretario general ejecutivo de la ANUIEs, el presidente de la Federación de Instituciones Mexicanas Particulares de Educación Superior (fIMpEs), el rector de la Universidad Nacional Autónoma de México; el director general del Instituto Politécnico Nacio- nal; los directivos de los siguientes colegios de profesionistas u organismos gremiales: Instituto Mexicano de Contadores Públicos, A.C.; Colegio Nacional de Psicólogos, A.C., Federación de Colegios y Asociaciones de Médicos Veterinarios zootecnistas de México, A.C.” (Ceneval, c. 1998a: 11-12).

7 “En su carácter de asociación civil se constituye un organismo privado…” se explica (Ceneval, c. 1998a: 11).

civil se constituye un organismo privado…” se explica (Ceneval, c. 1998a: 11). Aboites_120725.indd 348 25/07/12 03:29

Aboites_120725.indd

348
348
civil se constituye un organismo privado…” se explica (Ceneval, c. 1998a: 11). Aboites_120725.indd 348 25/07/12 03:29

25/07/12

civil se constituye un organismo privado…” se explica (Ceneval, c. 1998a: 11). Aboites_120725.indd 348 25/07/12 03:29
civil se constituye un organismo privado…” se explica (Ceneval, c. 1998a: 11). Aboites_120725.indd 348 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

349

incluyendo la idea de convertir este espacio en un punto de encuentro público-privado

donde se pueden materializar los acuerdos de 1989 entre la sEp y el empresariado (véase

el capítulo primero). Un organismo público no podría tomar estas decisiones sin abrir un

flanco a las críticas del mundo de la educación pública. Pero lo más importante, por ser

un organismo civil se trataba de un espacio que le permitía al sector privado empresarial

y educativo así como a los funcionarios de la sEp, una libertad de acción que no tendrían desde una dependencia pública sujeta a innumerables leyes, reglamentos y mecanismos de escrutinio. 8

Una inesperada salida en la sep y la creación formal del Ceneval

Las cosas avanzaban satisfactoriamente durante 1993, pero en diciembre de ese año hubo un cambio inesperado en la sEp. Donaldo Colosio Murrieta acababa de ser nombrado can- didato presidencial del prI y el hasta entonces secretario de educación, Ernesto zedillo, se convirtió en su jefe de campaña. 9 Gago Huguet debió abandonar la subsecretaría y a pesar de los planes y preparativos que lo hacían inminente, el Ceneval seguía sin establecerse formalmente. Este fortuito desenlace resultaría ser una gran oportunidad para Gago Huguet y muy importante para la imagen y desarrollo que luego tomaría el Ceneval. Ciertamente era difícil que Gago Huguet continuara en la subsecretaría. Aun en el caso de que se le diera la opción de quedarse, habría estado en una situación incómoda, en medio del equipo del nuevo secretario de educación pública Fernando Solana Morales. Aunque disciplinado, Solana no era del grupo de los neoliberales pues no sólo había sido muy cercano colabo- rador —secretario particular— del rector Barros Sierra de la UNAM —quien suprimió la evaluación psicométrica en esa institución a fines de la década de 1960—, sino que había sido el último secretario de educación pública antes (1982) de la llegada de los nuevos gru- pos tecnócratas al gobierno federal. De hecho, como nuevo subsecretario de Educación Superior y en lugar de Gago Huguet se nombró precisamente al hijo del antiguo rector de la UNAM, Javier Barros Valero, quien hasta entonces había ocupado un puesto en la Secretaría de Relaciones Exteriores, a las órdenes del entonces titular, Fernando Solana.

8 Algo de esto apareció más tarde durante el examen único, cuando “a pregunta expresa acerca de la necesidad de legislar sobre las funciones de esta instancia [Ceneval], debido a la incidencia que tiene en la educación media superior y superior, el senador Gustavo Guerrero Ramos recordó que se trata de una

asociación civil y no de una autoridad, por lo que no necesita un ordenamiento jurídico” (Gil Olmos, 1996).

9 Antes de salir, a zedillo le correspondió en 1993 impulsar la aprobación de un nueva Ley General de Educación, que sustituyó a la anterior Ley Federal de Educación. Esta nueva ley no sólo vino a dar un detallado respaldo legal a la descentralización —que en 1992 había sido un mero acuerdo con el sindicato

y los gobiernos de los estados—, sino que además introducía el tema de la evaluación. Ahí se dispone (Art.

29) que “corresponde a la Secretaría [de Educación Pública] la evaluación del sistema educativo sin perjuicio

de la que las autoridades educativas locales realicen en sus respectivas competencias”; que (Art. 30) las

instituciones públicas y privadas “otorgarán a las autoridades educativas todas las facilidades y colaboración para la evaluación”, tales como estadísticas y otros datos, y que (Art. 31) “las autoridades educativas darán

a conocer a los maestros, alumnos, padres de familia y a la sociedad en general, los resultados de las eva- luaciones que se realicen…”.

la sociedad en general, los resultados de las eva- luaciones que se realicen…”. Aboites_120725.indd 349 25/07/12

Aboites_120725.indd

349
349
la sociedad en general, los resultados de las eva- luaciones que se realicen…”. Aboites_120725.indd 349 25/07/12

25/07/12

la sociedad en general, los resultados de las eva- luaciones que se realicen…”. Aboites_120725.indd 349 25/07/12
la sociedad en general, los resultados de las eva- luaciones que se realicen…”. Aboites_120725.indd 349 25/07/12

03:29

350

DE LA EvALUACIÓN A LA MEDICIÓN

La salida de zedillo y Gago Huguet, por otro lado, ciertamente no significó que la medición dejara de ser una prioridad de la administración salinista. Solana y Barros Va- lero eran muy concientes de la temporalidad de su encargo —menos de un año—, y los evaluadores conservaron una importante parcela de poder al interior de la administración. Aunque no tenían especial cercanía con el grupo de los evaluadores, los recién llegados tampoco traían un proyecto propio y distinto, y calladamente los dejaron hacer. Tan era cierto todo esto que la constitución formal del Centro Nacional de Evaluación tiene lugar muy pronto, el 2 de febrero de 1994 en reunión “del pleno de la Coordinación Nacional para la Planeación de la Educación Superior (Conpes) con la presidencia del titular de la sEp, Lic. Fernando Solana Morales [y ahí] se designó a Antonio Gago Huguet como responsable de ese Centro, que se protocolizó como Asociación Civil en abril de ese

año” (ANUIEs, 1994: 165). 10 El recién llegado secretario Solana aparece como el principal firmante del acta constitutiva del Centro Nacional de Evaluación para la Educación Su- perior. 11 Más importante aún, la salida de Gago Huguet de la subsecretaría le permitió hacer un acertado cálculo político. Se le abría la oportunidad de encabezar a partir 1994 el nuevo centro de evaluación por él creado, algo mucho más vital que continuar en un cargo que de todas maneras terminaría en unos meses. Desde ese puesto en la sEp se habían reforzado o creado los estímulos para académicos, los comités de pares, el comienzo tentativo de la acreditación, el centro de evaluación, los exámenes nacionales de ingreso

y egreso, etcétera, es decir, prácticamente todo el paquete de iniciativas de evaluación

había sido propiciado desde la subsecretaría. El proyecto ahora tenía como su punto focal

al Ceneval y qué mejor que estar ahí, encargado directamente de la conducción de esta

nueva e importante etapa. Carlos Pallán confirma de alguna manera esta interpretación al presentar a Gago Huguet como víctima de un “remolino político que alevantó la titularidad de esa subse- cretaría”, pero que, en una afortunada coincidencia y de manera perfectamente natural, trajo la gran ventaja de permitir que el maestro pudiera ocupar la dirección del Centro que era su proyecto favorito. 12 La presencia de Gago Huguet en el nuevo organismo hizo que de inmediato éste comenzara una rápida expansión. No sólo por su capacidad organi- zadora y el liderazgo indudable que ejercía entre los evaluadores y rectores, sino además por el apoyo que las autoridades educativas continuaban dando al ex secretario y por su habilidad para utilizar bien la red de conexiones lograda en más de una década de trabajo

10 En el Centro Nacional de Evaluación se reporta como fecha el 28 de febrero (Ceneval, 2002: 16).

11 En el Registro Público de la Propiedad del DF se encuentra: “Escritura No. 87, 036 de fecha 28- 04-1994, Lic. Arturo Sobrino Franco, Notario 49 del DF, por el que se constituye el ‘Centro Nacional de Evaluación para la Educación Superior’, A.C. en el que intervienen como asociados fundadores: el Gobierno Federal a través de la Secretaría de Educación Pública, representado por el Lic. Fernando Solana Morales, en su carácter de Secretario de la misma […]. Se nombra Director General al Mtro. Antonio Gago Huguet.” (Re- gistro Público de la Propiedad, Personas Morales, Departamento del Distrito Federal, Folio Real No. 32348).

12 “[…] Todavía estaba [Gago], junto con las autoridades de ANUIEs tratando de conseguir candidatos para el naciente organismo, cuando vino ‘un remolino político que alevantó’ la titularidad de esa subsecre- taría —diciembre de 1993—. El hecho fue afortunado: el futuro Ceneval tenía ya un candidato idóneo para la dirección.” (Pallán, 2004: 8).

Ceneval tenía ya un candidato idóneo para la dirección.” (Pallán, 2004: 8). Aboites_120725.indd 350 25/07/12 03:29

Aboites_120725.indd

350
350
Ceneval tenía ya un candidato idóneo para la dirección.” (Pallán, 2004: 8). Aboites_120725.indd 350 25/07/12 03:29

25/07/12

Ceneval tenía ya un candidato idóneo para la dirección.” (Pallán, 2004: 8). Aboites_120725.indd 350 25/07/12 03:29
Ceneval tenía ya un candidato idóneo para la dirección.” (Pallán, 2004: 8). Aboites_120725.indd 350 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

351

en la ANUIEs y varios años más como director de educación superior y subsecretario en la Secretaría de Educación Pública. Un fruto concreto de la capacidad de hacer converger distintas voluntades apareció en la anexión que el recién creado Ceneval hizo de la Comisión Nacional de Educación Media Superior (Conaems), que agrupaba a instituciones de ese nivel educativo del país. Desde 1993 se “decidió crear un grupo técnico que se abocó al diseño y elaboración de un Examen Diagnóstico Indicativo de Ingreso al Nivel Medio Superior” (Ceneval, 1994a:

8) y los trabajos de este grupo se convertirían en un “antecedente fundamental” —según lo dicen los propios evaluadores— para la fundación del Ceneval —pues al poco tiempo de haberse aprobado su creación en el papel los integrantes de la Comisión “se mostraron conformes en ceder al Ceneval [su] banco de reactivos”— . 13 Además, en lo que sería el comienzo de una importante relación “el Ceneval contrató con la UNAM la utilización de un importante conjunto de reactivos”, lo que permitió comenzar cuanto antes la creación

y aplicación del Examen Nacional de Ingreso a la Educación Media Superior (Exani-I). Todo esto muestra que el proceso mexicano para la creación de un nicho propio para los medidores fue muy distinto al seguido en Estados Unidos. En el país del norte, el fuerte peso de la administración federal se ve equilibrado e incluso superado por el rol todavía más importante que tiene el sector industrial y financiero, y las universidades privadas. En México la administración federal desempeña un papel clave y prácticamente único, apoyado por la ANUIEs y la UNAM. Las presiones, los grupos, los mecanismos mis- mos esos sí tienen una llamativa similitud con el proceso estadounidense, así como otras características que ya se subrayaban al final del capítulo 3. Pero restaría una pregunta todavía más importante y de fondo que se esbozaba al comienzo de este capítulo, ¿la semejanza con el caso estadounidense es sólo circunstancial, de ciertos rasgos externos

que se repiten mecánicamente? O por el contrario, ¿existe una relación más estrecha entre

la experiencia estadounidense y la que en ese momento comienza en México? Recuérdese

que a partir de ese mismo año —1994— se comienzan a aplicar los tests de egreso y los

utilizados para el acceso a la educación media superior y superior de algunas instituciones de zonas claves del país, incluyendo la ciudad de Tijuana y el estado de Baja California. Pero, ¿cómo eran estos exámenes? ¿Qué relación, si acaso, tenían con la historia que llevó en Estados Unidos a la creación del examen nacional llamado sAt y del mismo centro nacional, el Ets? y en concreto, ¿hasta qué punto la teoría y metodología de la ciencia de

la evaluación desarrollada en Estados Unidos fue retomada en México?

13 La palabra reactivo indica que la pregunta es un estímulo ante el cual el evaluado debe ‘reaccionar’ ante la pregunta y escoger la respuesta correcta de entre cuatro o cinco opciones posibles. Es una palabra que no esconde su origen conductista y su lógica mecánica de ir ensamblando una parte (la base o pregunta) con otra (la opción adecuada); muy lejos de la idea de una educación que concibe el conocimiento como un flujo complejo en ampliación y relación con otros tópicos.

conocimiento como un flujo complejo en ampliación y relación con otros tópicos. Aboites_120725.indd 351 25/07/12 03:29

Aboites_120725.indd

351
351
conocimiento como un flujo complejo en ampliación y relación con otros tópicos. Aboites_120725.indd 351 25/07/12 03:29

25/07/12

conocimiento como un flujo complejo en ampliación y relación con otros tópicos. Aboites_120725.indd 351 25/07/12 03:29
conocimiento como un flujo complejo en ampliación y relación con otros tópicos. Aboites_120725.indd 351 25/07/12 03:29

03:29

352

DE LA EvALUACIÓN A LA MEDICIÓN

II. LA CIENCIA DE LA MEDICIÓN ofICIAL EN MéxICo

Aunque no lo proclamó a los cuatro vientos, el icono de la medición oficial en México, el Ceneval, retomó sin miramientos no sólo el concepto de Aptitud, sino también la impli- cación de que detrás de la falta de capacidad para cursar los niveles superiores de la edu- cación en las personas había no sólo una deficiencia de educación previamente recibida, sino una pobre inteligencia, una falta de talento expresada en la carencia de habilidades fundamentales para el desarrollo del pensamiento abstracto. En otras palabras, se institu- cionalizó en México la práctica de rechazar a los jóvenes no sólo por carecer de la forma- ción académica adecuada, sino por algo que no se quiere llamar abiertamente incapacidad mental, aunque a eso se refieran los exámenes. y esto ocurre cuando el Ceneval no sólo retoma tal cual muchos de los rasgos del Educational Testing Service (Ets) sobre el acceso

a la educación —basada en el “talento”—, sino hasta la metodología para hacer exámenes

y la fundamentación teórica surgida al comienzo del siglo xx en Estados Unidos. yendo más lejos se puede decir que una vez creado el Centro Nacional de Evaluación para la Educación Superior, la ciencia de la medición tuvo en México un espacio institu- cional propio donde desarrollarse. Dejó de ser una corriente académica confinada en los salones de clase de algunas universidades y una práctica recluida en algunas dependencias de instituciones de educación superior mexicanas para convertirse en un organismo na- cional con la protección total del gobierno federal, con la participación intensa del sector privado educativo y empresarial y con propósitos de medición de largo alcance. Precisa- mente por sus ambiciosos proyectos, la relación que este nuevo espacio establece con la corriente estadounidense es muy importante.

Un estrecho parentesco: Spearman, Terman y la medición de la inteligencia en el Ceneval

Los exámenes que a partir de 1994 comienza a desarrollar el nuevo Centro Nacional de Evaluación llevan claramente la impronta de Spearman y de su posterior crítico Thurs- tone, quienes se habían dado a la búsqueda de una medida adecuada de la inteligencia. Basta ver alguna de las guías que el Ceneval elabora para el llamado Examen de Ingreso

a la Educación Media Superior o Superior (Exani-I, Exani-II) para constatar que, a pesar

de la insistencia de que estos tests son de carácter estrictamente académico y miden la preparación obtenida en la escuela por el demandante, una parte importante de ellos está

dedicada a medir las habilidades directamente relacionadas con la inteligencia —el factor g— de acuerdo con la teoría de Spearman. Un ejemplo: el examen correspondiente a educación media, utilizado en el llamado “examen único” en la zona Metropolitana de la Ciudad de México (zMCM), desde 1994

y hasta 2001 dedicaba más de la mitad del total de los reactivos a medir la “Habilidad

verbal y matemática” por un lado, y, por otro, “Español y Matemáticas.” 14 Una situa-

14 A partir de 2002 y dado que no eran necesarios tantos “reactivos” para medir el ámbito de habilida- des, la proporción se redujo a 40%.

para medir el ámbito de habilida- des, la proporción se redujo a 40%. Aboites_120725.indd 352 25/07/12

Aboites_120725.indd

352
352
para medir el ámbito de habilida- des, la proporción se redujo a 40%. Aboites_120725.indd 352 25/07/12

25/07/12

para medir el ámbito de habilida- des, la proporción se redujo a 40%. Aboites_120725.indd 352 25/07/12
para medir el ámbito de habilida- des, la proporción se redujo a 40%. Aboites_120725.indd 352 25/07/12

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

353

ción similar encontramos en el Examen Nacional de Ingreso a la Educación Superior (Exani-II). Si se hurga más allá de los meros nombres que se dan a las habilidades y se ven los reactivos concretos, aparecen exactamente los cuatro rubros específicos que señalaba Spearman para evaluar el nivel de inteligencia. Recuérdese que “la teoría de Spearman [incluye] vocabulario; comprensión de lectura; problemas; cómputo matemáti- co” (Cianciolo y Sternberg, 2004: 5). y en el examen para la educación media superior del Ceneval, la habilidad verbal se evalúa con la amplitud del vocabulario; la habilidad matemática, resolviendo problemas; el idioma a partir de la comprensión de lectura, y las matemáticas, mediante la ejecución de operaciones (Ceneval, 1997e, reactivos 1-24 y 65-88, 25-34 y 89-98 respectivamente). 15 Por otro lado, cuando el Ceneval quiere justificar la inclusión en sus exámenes de la medición de la habilidad verbal, por ejemplo, la autoridad teórica a la que se remite es nada menos que el ya conocido Lewis Terman, aquel evaluador de triste memoria, del ejército estadounidense. El encargado del examen de ingreso a la educación media del Centro Nacional de Evaluación presenta a ese autor de comienzo del siglo pasado como uno de los referentes teóricos que justifican la inclusión de la medición de las habilidades en el examen de ingreso —Exani-I—:

[Las] habilidades se organizan en el Exani-I en dos secciones: Habilidad verbal y Habilidad matemática, con un contenido y orientación específicos cuya justificación y descripción se expone a continuación:

A) Habilidad verbal. Según Terman (1954), el factor verbal se vincula con la capacidad de pensar de manera abstracta, debido a que el pensamiento abstracto opera fundamental- mente con elementos y relaciones conceptuales; de tal suerte, el lenguaje hablado y escrito es su instrumento por excelencia (Hernández Uralde, 2006: 66).

Esta referencia a Terman es muy importante porque junto con yerkes elaboró un exa- men donde la habilidad verbal era clave para medir el grado de inteligencia o “debilidad mental” de los reclutas y de otros grupos sociales. En la concepción de Terman —que el Ceneval retoma plenamente—, con sólo medir las habilidades verbales y matemáticas se podía tener una gran confianza de que se estaba identificando a quienes tienen la capaci- dad de pensar de manera abstracta, es decir, tienen mayor talento. y recuérdese también que la confianza de Terman en sus mediciones era tal, que apoyaba con gran entusiasmo la idea de que aquellos que fueran débiles mentales de acuerdo con su test deberían ser

15 La diferencia entre habilidad verbal y Español está en los reactivos que se presentan al evaluado. En la habilidad verbal las preguntas buscan averiguar el conocimiento del vocabulario al pedirle al joven que identifique sinónimos, antónimos y resuelva analogías (“leñador es a bosque como…”). Para evaluar el grado de avance en Español, por otra parte, los reactivos miden acentuación, puntuación, uso de comillas, tiempos de verbos, identificación de las partes de una oración, uso de mayúsculas, etcétera. En el caso de la habilidad matemática, las tareas incluyen cuestiones familiares para el lector (capítulo 5): completar series de números, identificar patrones en series numéricas, cálculos y visualización utilizando el espacio, etcétera. También se mide la facultad “espacial”, mediante la identificación de figuras y la representación en tres dimensiones de imágenes colocadas en una sola dimensión (por ejemplo, identificar cuál es el diagrama plano de una caja de cartón con la caja de cartón ya armada que se le presenta en otra imagen al evaluado).

con la caja de cartón ya armada que se le presenta en otra imagen al evaluado).

Aboites_120725.indd

353
353
con la caja de cartón ya armada que se le presenta en otra imagen al evaluado).

25/07/12

con la caja de cartón ya armada que se le presenta en otra imagen al evaluado).
con la caja de cartón ya armada que se le presenta en otra imagen al evaluado).

03:29

354

DE LA EvALUACIÓN A LA MEDICIÓN

esterilizados sin mayor trámite porque “desde un punto de vista de la eugenesia —decía— constituyen un grave problema dada su inusual capacidad de reproducirse prolíficamente” (Terman citado por Gould, 1996: 221). A partir de esa misma confianza en su test de habilidades este autor tampoco dudaba en descalificar a grupos sociales y étnicos enteros a partir de una aplicación muy limi- tada de su examen. Así, no sólo declaraba que los jóvenes trabajadores tenían una muy baja capacidad para el pensamiento abstracto, sino que se seguía de largo y afirmaba que ésta era semejante a la de los “indígenas, mestizos y mexicanos” (Gould, 1996: 220). y recalcaba que los exámenes estaban bien, no mentían. “Los tests han dicho la verdad. Estos muchachos están más allá de cualquier posibilidad de recibir cualquier educación, a menos de que sea la más rudimentaria” (Gould, 1996: 220). El examen para el ingreso a la educación media, Exani-I del Ceneval —como el de ingreso a la educación superior que es muy similar—, se ajusta de manera precisa a la ambiciosa aproximación teórica de Terman, el psicólogo militar. Expresamente se pro- pone medir la capacidad de pensamiento abstracto de los aspirantes y con base en esa medición definir el acceso o no a la educación superior. Porque, como lo dice Hernández Uralde, el encargado del examen de ingreso a la educación media superior en el Ceneval, ese conjunto de habilidades de razonamiento es indispensable para tener éxito en el ba- chillerato pues “el conjunto de procesos cognoscitivos —de razonamiento— […] resultan esenciales para el aprendizaje de los conocimientos y habilidades característicos del nivel medio superior” (Hernández Uralde, 2006: 61). Claro que en el México de fines de siglo xx —como desde la década de 1930 en Estados Unidos— a ese conjunto de habilidades ya no se le llama “inteligencia” —lo que traería connotaciones que no serían bienvenidas—, sino que se suaviza el concepto me- diante la utilización de términos más inocuos como “capacidad”, “talento”, “aptitud”, “lo necesario” para realizar los estudios de nivel medio superior.

Vocabulario y aptitud: la presencia de Terman en México

Acá en la escuela todo es diferente, ya ves que tenemos que ha- blarles con otras palabras para que nos entiendan. Niño indígena aconsejando a su hermano. Quiroz, G. 2005: 5

La gran falla de la teoría de Terman es asumir que la capacidad mental puede medirse de manera efectiva con la constatación de la amplitud del vocabulario. y la gran falla del Ceneval consiste en abrazar sin recato esa teoría fallida.

En la sección de Habilidad verbal del examen —dice el funcionario del Ceneval encargado del examen de ingreso— se mide básicamente la parte semántica [significados] del lenguaje verbal, específicamente la amplitud de vocabulario del sustentante y el manejo del significado de oraciones y textos. La amplitud del vocabulario se mide a través de reactivos de sinónimos, antónimos y analogías. En los sinónimos y antónimos el sustentante debe reconocer el signi- ficado de la palabra que se presenta en la base de la pregunta e identificar, entre diferentes

palabra que se presenta en la base de la pregunta e identificar, entre diferentes Aboites_120725.indd 354

Aboites_120725.indd

354
354
palabra que se presenta en la base de la pregunta e identificar, entre diferentes Aboites_120725.indd 354

25/07/12

palabra que se presenta en la base de la pregunta e identificar, entre diferentes Aboites_120725.indd 354
palabra que se presenta en la base de la pregunta e identificar, entre diferentes Aboites_120725.indd 354

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

355

palabras propuestas, aquella que tenga un significado similar —sinónimos— u opuesto —an- tónimos— (Hernández Uralde, 2006: 67).

Es decir, quien conoce el significado de muchas palabras es inteligente —o “capaz” o “talentoso”— y quien lo desconoce es —de hecho— sospechoso de una deficiencia o “sin talento”. Sin embargo se recordará que la relación entre conocer el significado de textos, frases y palabras e inteligencia está en duda desde la década de 1920. A algunos de los evaluadores ya entonces les resultó obvio que las respuestas a este tipo de reactivos refle- jaban muchas cosas y no sólo y principalmente la capacidad intelectual. Reflejaban desde el grado de claridad en las instrucciones, el tipo de familia y comunidad donde había crecido el evaluado, hasta la familiaridad que éste tenía con ciertos giros del lenguaje, y en el fondo, el nivel de acceso de la persona a libros, cierto tipo de textos, el vocabulario en la familia, el ambiente y recursos escolares, es decir, contextos sociales y culturales muy determinados y sus correspondientes vocabularios. Se asume el planteamiento del comienzo de siglo a pesar de que 80 años más tarde seguía siendo evidente que hay textos, frases y palabras cuyo significado puede ser desco- nocido para grupos enteros de personas sin que de ahí se pueda derivar válidamente una menor inteligencia o, en la terminología del Ets y del Ceneval, una menor Aptitud para los estudios. Cualquiera puede abrir al azar un grueso diccionario y encontrar en una sola página un rosario de palabras que le son desconocidas a pesar de que haya concluido exitosamente estudios universitarios —y con esto haya ya demostrado su capacidad para el pensamiento abstracto—. Por ejemplo, en una sola de las páginas correspondientes a la letra “N”, el lector se encontrará con vocablos como “neotenia”, “nepentáceo”, “neo- rama”, “neodimio” y otros de calibre semejante. Que todas o algunas de estas palabras resulten desconocidas sólo demuestra que el lector o lectora no es ni biólogo, ni botánico, ni tampoco ingeniero metalúrgico, pero no dice mucho respecto de su inteligencia o de su Aptitud para los estudios superiores. Frente a este argumento los medidores actuales responden diciendo que eligen pala- bras que a partir de pruebas piloto han demostrado que son conocidas por una parte im- portante de un grupo representativo de las personas a evaluar y que el hecho de que otra proporción no conozca su significado debe explicarse a partir de la ausencia de ciertas habilidades mentales. 16 En el caso de “nepentáceo” y palabras semejantes —dirían en res- puesta al párrafo anterior— éstas son inmediatamente desechadas para medir el vocabu- lario porque prácticamente nadie las conoce y por tanto no sirven para diferenciar a unas personas de otras. Pero con esto no hacen sino confirmar que lo que se mide realmente es qué tanto participa una persona del conocimiento del conjunto de palabras familiares a un grupo social determinado, no la Aptitud. En otras palabras, el llamado “índice de uso” de palabras tan comunes como “urbano”, “resistencia” puede ser muy distinto dependiendo

16 Se seleccionan palabras, por ejemplo, que tienden a ser conocidas por la mitad, por una tercera parte o por un porcentaje aún menor de los sustentantes. De esta manera pueden diferenciar entre los que conocen la gran mayoría de las palabras del examen, los que conocen dos terceras partes, la mitad o aún menos.

palabras del examen, los que conocen dos terceras partes, la mitad o aún menos. Aboites_120725.indd 355

Aboites_120725.indd

355
355
palabras del examen, los que conocen dos terceras partes, la mitad o aún menos. Aboites_120725.indd 355

25/07/12

palabras del examen, los que conocen dos terceras partes, la mitad o aún menos. Aboites_120725.indd 355
palabras del examen, los que conocen dos terceras partes, la mitad o aún menos. Aboites_120725.indd 355

03:29

356

DE LA EvALUACIÓN A LA MEDICIÓN

de factores diversos. 17 y esto difícilmente puede ser atribuido a una carencia de capaci- dades mentales. Desde el siglo pasado la investigación en sociolinguística ha reconocido que un lenguaje tiene variaciones importantes en el uso y significado dependiendo de “la clase social, del grupo étnico, del sexo, del contexto, de la interacción social, de la nación, de la geografía” y otros aspectos más. y de la década de 1930 en adelante las investigaciones reconocen esas diferencias como aparece en cualquier texto básico sobre el tema (Trudgill, 2000). Sostener el uso de exámenes basados en un vocabulario como su parte fundamental significa un desfase enorme respecto de los avances en este campo. 18 El caso de uno de los reactivos que el Ceneval utiliza para medir la habilidad verbal puede mostrar esto todavía con más detalle. Aquí, el aspirante debe empatar la afir- mación entrecomillada con uno de los posibles significados presentados como opciones de respuesta.

“Viajaba en un rocín desvencijado”

a) caballo deteriorado

b) mula descompuesta

c) yegua bravía

d) asno inútil

e) cabalgadura desecha

(Ceneval, 1997e: 34).

Este es un buen ejemplo de cómo la aparente simplicidad de la propuesta teórica de Terman —vocabulario = inteligencia— no incorpora la complejidad social y cultural que forma parte del lenguaje y sus significados en grupos distintos. Esto es problema del Ter- man de 1917, pero más del Ceneval que lo abraza con enorme y acrítico entusiasmo casi cien años más tarde. El reactivo del rocín presenta al joven mexicano con una palabra del castellano que se habla en España y que además en México es conocido prácticamente sólo

17 Una manera de presentar el fenómeno de la enorme diversidad en el conocimiento de las palabras es el llamado “índice de uso” de una palabra, que se dice resulta de una fórmula “que combina la frecuencia de aparición de vocablos con su dispersión; dichos vocablos conforman un corpus léxico extraído de un conjunto de obras escritas que son seleccionadas por el uso de la norma culta en diferentes ‘mundos’…”. Con el uso de diccionarios especializados —como el Frequency Dictionary of Spanish Words de A. Juilland y E. Chang-Rodríguez— que resultan de los estudios que aplican la fórmula mencionada, es posible ver que palabras como “urbano”, “guarnición”, “cerco”, “resistencia” tienen un índice muy bajo, menor al 14% de uso. Otras palabras, como “contingente”, “derrocarlo” y “súbitamente” son de uso tan bajo que ni siquiera son registradas (Muñoz Corona et al., 2003: 130-131).

18 Incluso hay quienes como Pinker (1995) y Chomsky (1993) que sostienen la existencia de un sustrato básico biológico y cognitivo propio del ser humano como fundamento del lenguaje, reconocen esta enorme diversidad. En palabras de Toriz (2008), “si bien la facultad del lenguaje puede ser un innatismo, el acon- tecimiento de su praxis es histórico; luego, sus invariables se encuentran a merced de la contingencia: el lenguaje es la historia…” Más directamente relacionado con las enormes diferencias en el ámbito escolar latinoamericano se pueden ver los trabajos de Elsie Rockwell. Por ejemplo: “Otra diversidad. Múltiples his- torias de apropiación de la lengua escrita” (Diversité Langues 5, University of Québec. 2000); “¡Atájemelo ese llama! La apropiación del castellano en las escuelas bilingües de Puno”, con Dora Pellicer (Revista de Lingüística Teórica y Aplicada, 34. Santiago de Chile, 1996); “The uses of Orality and Literacy in Rural Mexico” (The making of literate societies Olson y Torrace eds. Oxford Blackwell, 2001).

( The making of literate societies Olson y Torrace eds. Oxford Blackwell, 2001). Aboites_120725.indd 356 25/07/12

Aboites_120725.indd

356
356
( The making of literate societies Olson y Torrace eds. Oxford Blackwell, 2001). Aboites_120725.indd 356 25/07/12

25/07/12

( The making of literate societies Olson y Torrace eds. Oxford Blackwell, 2001). Aboites_120725.indd 356 25/07/12
( The making of literate societies Olson y Torrace eds. Oxford Blackwell, 2001). Aboites_120725.indd 356 25/07/12

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

357

a partir del texto de Miguel de Cervantes Saavedra. De ahí que si algo mide el reactivo, es

la familiaridad con el castellano como éste se hablaba en el siglo xv, y la familiaridad que tiene el evaluado específicamente con la novela Don Quijote de la Mancha. Mide por tanto si el alumno ha tenido o no oportunidad de leer el párrafo apropiado de la obra de Cervan- tes —o también mide si hubo tiempo o no en ese grupo escolar para incluirlo—; si recuerda esa palabra en concreto entre las decenas de vocablos completamente extraños con que el joven se topó en esa lectura —por lo tanto mide memoria—, mide también —aunque esto es más remoto— si la persona suele hablar con otras que en su país usen ese término. De ahí que ciertamente no procede dar el salto que tanto irritaba a Binet y a Brigham

y declarar que al medir el conocimiento del significado de esta palabra se está midiendo la inteligencia o, para nuestro caso, la “aptitud para los estudios”. yendo un poco más lejos, es como tratar de llegar a la conclusión de que en España quienes conocen la pa- labra “cuaco” —caballo, en México— tienen mayor capacidad de pensamiento abstracto que los que la ignoran. Sobre todo cuando, aun para el diccionario de la Real Academia, en ese país europeo “cuaco” significa “harina de la raíz de la yuca” o “persona ruda”. Evidentemente en algunos estratos sociales y culturales de las zonas urbanas y de la clase media educada de México la palabra y el significado de “rocín” son perfectamente cono- cidos y pueden aparecer registrados en el “índice de uso” —como en España la palabra “cuaco” a quienes conozcan el cine y las canciones rancheras mexicanas de las décadas de 1940 y 1950—, pero aun este caso sólo revela la pertenencia a un grupo determinado

y no precisamente alguna inteligencia o aptitud distinta de los demás. Cualquiera que haya tenido alguna experiencia de docencia conoce estudiantes suma-

mente despiertos, creativos, inteligentes, capaces de entender rápidamente nuevos conceptos

y de hacer relaciones importantes entre tópicos aparentemente distantes a pesar de carecer

del bagaje de vocabulario de la ilustración usual en el idioma de la clase media urbana en

que generalmente están escritos los tests estandarizados. Palabras como “intrínseco”, “ines- crutable”, “críptico” pueden desorientar a alumnos no familiarizados con el vocabulario de las familias de más alta escolaridad —dialecto que no es fácilmente perceptible pues es el mismo del que difícilmente escapan los propios encargados de elaborar y revisar los reac- tivos—, y que al mismo tiempo poseen un lenguaje muy complejo y desarrollado respecto de su entorno cultural, fruto de su origen en una familia campesina u obrera. Animales, pájaros, insectos, decenas de hierbas distintas y sus usos específicos, pero también esta- dos de ánimo, características personales, relaciones familiares, trabajo, geografía urbana

y rural —algo que los exámenes del Ceneval no exploran—, forman una constelación de

significados y palabras de una riqueza y diversidad tan amplias como la de la clase media urbana ilustrada. Hay de fondo, estilos cognitivos distintos. Si estos jóvenes retomaran palabras de su contexto e hicieran con ellas un examen que aplicaran a los evaluadores, los resultados serían aleccionadores porque es muy posible que los examinados resultaran con bajo número de aciertos, aunque no se demostraría que han dejado de ser inteligentes. Toda esta discusión ilustra bien los niveles de incertidumbre en que se mueve el in- tento por medir con algunos reactivos la habilidad verbal de una persona, deducir de ahí su aptitud para el pensamiento abstracto y determinar con eso que no le corresponde un lugar en la educación media superior o superior.

con eso que no le corresponde un lugar en la educación media superior o superior. Aboites_120725.indd

Aboites_120725.indd

357
357
con eso que no le corresponde un lugar en la educación media superior o superior. Aboites_120725.indd

25/07/12

con eso que no le corresponde un lugar en la educación media superior o superior. Aboites_120725.indd
con eso que no le corresponde un lugar en la educación media superior o superior. Aboites_120725.indd

03:29

358

DE LA EvALUACIÓN A LA MEDICIÓN

La incertidumbre se vuelve todavía mayor cuando desde el propio Ceneval con in- usual franqueza se afirma que no es posible medir las habilidades como si se tratara del peso de una persona o, más cercano a la experiencia de la medición, el diámetro de su cráneo. Un analista del Ceneval llega a decir que en realidad las habilidades sólo se las puede conocer “indirectamente” y, más francamente, afirma que no se miden, sólo se “estiman”. 19 Con lo que, si sólo tenemos “estimaciones” de las habilidades se cimbra toda la idea de que con base en un acierto o dos de diferencia es posible —y además perfecta- mente válido— descartar a alguien de ingresar a la educación media superior o superior.

Una oportunidad perdida: la ruta de Thurstone y Gardner

El Ceneval reafirma su carácter de heredero del patrimonio teórico de la medición huma- na estadounidense del siglo xx, cuando incorpora como parte de su santoral a otra figura bien conocida, Louis Thurstone. Su relación con este autor podría haber sido muy fructí- fera para el desarrollo de una aproximación totalmente distinta a la evaluación en México porque se recordará que éste difiere radicalmente de Spearman. Sin embargo, al retomar a Thurstone —y también a Howard Gardner— el Ceneval en realidad no se interesa en explotar las diferencias que ellos tienen con Spearman, sino que hace como si éstos no cuestionaran al fundador teórico. Thurstone pensaba que en lugar de una inteligencia o una Aptitud, había muchos talentos, aptitudes —en plural y con minúscula—, habilidades distintas e independientes. Es decir, negaba la noción de un factor subyacente, que existe en mayor o menor grado en las personas. Lo que hacen los expertos del organismo mexicano es tomar una de las habilidades propuestas por Thurstone como diferentes —la espacial— e incorporarla como una más de las que constituyen la capacidad de llevar a cabo estudios superiores. la Aptitud, des- pojándola así del carácter independiente, alternativo y crítico que le daba este autor. 20 Así, dicen que:

19 El texto es el siguiente: “Uno de los principales problemas a los que se enfrentan pedagogos y psicó- logos —y en particular el personal del Cenevales la medición de constructos o rasgos, tales como el nivel de conocimiento y habilidad que posee una persona sobre un cierto tema. La mayoría de las características físicas de las personas, como la estatura y el peso, se pueden medir de forma directa, pero estos constructos [las habilidades] sólo son cuantificables de manera indirecta, ya que no existen ‘metros o balanzas’ diseñadas para su medición. Con el fin de efectuar dichas mediciones, los especialistas han diseñado instrumentos de evaluación: se trata de los exámenes objetivos. Están integrados por un conjunto de reactivos o ítems que permiten estimar el nivel de habilidad o de conocimiento que poseen las personas que los responden. Dichos reactivos son de opción múltiple, es decir que cada pregunta contiene cuatro o cinco opciones de respuesta, pero sólo una es la correcta” (Arce Orozco, 2005: 1).

20 Como se veía en el capítulo anterior, prácticamente toda la base científica de la Psicometría está fincada en análisis factorial y correlaciones, ello significa que las “verdades” de esta “ciencia” en el fondo no consisten en el descubrimiento de causas, sino de meras asociaciones. Un mar de diferencia. De ahí que, por ejemplo, una y otra vez en los estudios que surgen del Ceneval concluyen mostrando que existe asociación entre el re- sultado obtenido en una sección del examen y alguna variable en especial (lugar que ocupa entre los hermanos, el número de horas que estudia en casa, etcétera). Asociación y causalidad, sin embargo, como veíamos al criticar a Spearman en el capítulo anterior, marcan la diferencia entre lo que distingue a la ciencia del intento de ciencia. Por eso aquí frecuentemente entrecomillamos las referencias a “ciencia” de la medición.

frecuentemente entrecomillamos las referencias a “ciencia” de la medición. Aboites_120725.indd 358 25/07/12 03:29

Aboites_120725.indd

358
358
frecuentemente entrecomillamos las referencias a “ciencia” de la medición. Aboites_120725.indd 358 25/07/12 03:29

25/07/12

frecuentemente entrecomillamos las referencias a “ciencia” de la medición. Aboites_120725.indd 358 25/07/12 03:29
frecuentemente entrecomillamos las referencias a “ciencia” de la medición. Aboites_120725.indd 358 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

359

No obstante la importancia que tiene la inteligencia lógica-matemática, y la opinión de al- gunos autores, como Piaget (1972) que consideran que ésta subyace prácticamente a todo el pensamiento, otros autores (Thurstone, 1938; Gardner, 1994) han demostrado que existen otras habilidades, independientes de las habilidades lingüísticas y lógico-matemáticas, que son igualmente importantes para la enseñanza y el aprendizaje de diversos campos del cono- cimiento, como la habilidad espacial (Hernández Uralde, 2006: 69-70).

Al reducir a Thurstone y Gardner al papel de simples proveedores de una habilidad más que puede incluirse en la medición (aunque de palabra se dice que es otra cosa), el Ceneval opta por subordinar los avances teóricos a consideraciones estrictamente prag- máticas. y no puede ser de otra manera pues para este Centro retomar a fondo la con- cepción de Thurstone o la de Gardner significaría serios problemas prácticos. Gardner,

por ejemplo, propone la existencia de hasta ocho inteligencias distintas e independientes 21 que, por supuesto, no se pueden sumar para concluir en una sola cifra (como hace el Ceneval) que representa el grado de Aptitud que tiene una persona —número de acier- tos—. Si el organismo medidor mexicano adoptara esta teoría, literalmente se le caería encima toda la estructura organizada en torno a la doctrina de evaluar con un solo examen, obtener de ahí un solo resultado y medir así una sola Aptitud o inteligencia. Se derrumbaría uno de los atractivos fundamentales de estos exámenes: la ventaja práctica y comercial que significa poder ofrecer un examen que mide de un golpe lo que se considera fundamental y hace posible entregar a las autoridades de las instituciones una sola cifra por cada individuo —y un promedio para toda la escuela—. Se acabaría toda

la ventaja que tiene un trámite rápido, único y express para supervisar y crear el merca-

do. Basta imaginarse la sorpresa que significaría para los directivos de las instituciones que la agencia evaluadora les entregara no uno sino ocho resultados distintos por cada

aspirante, sin que pudiera orientarles sobre a cuál de ellos debe darse prioridad, a fin de que sean ellos los que valoren cuál combinación de habilidades o talentos les interesa en las personas a admitir. Esto no mitiga sino complica el aprieto que significa una multitud de jóvenes que se agolpa frente a sus puertas. El trámite de la asignación de estudiantes debe estar sustentado en un cierto aire de objetividad y ciencia y, sobre todo, como único

y contundente. Una teoría que resulta demasiado amplia y compleja es peligrosa para el

manejo del flujo a la educación superior y para la prosperidad de la industria de la eva- luación. De hecho, el Ets estadounidense en su prueba sAt ofrece dos resultados distintos precisamente porque considera que no procede sumarlos como si fueran iguales (cosa que sí hace el Ceneval). Recogiendo la idea de Thurstone de que se trata de habilidades diferentes, el organismo evaluador estadounidense entrega al evaluado una calificación

21 Para esto, Gardner analiza la inteligencia desde varios puntos de vista, desde la antropología hasta la lingüística y de ahí comprueba la existencia de varias inteligencias: lingüística, lógico-matemática; espacial, musical y rítmica, de movimiento y cuerpo; interpersonal, intrapersonal, naturalista e inteligencia existen- cial. La propuesta de Gardner es muy interesante porque señala que, por ejemplo, la inteligencia lingüística es clave para los periodistas, escritores, traductores. En la teoría de la habilidad verbal de Spearman —que se refleja en el Exani, ésta se usa como referente fundamental para todos los que quieren ingresar a la educación media superior y superior, independientemente del campo profesional de estudio.

media superior y superior, independientemente del campo profesional de estudio. Aboites_120725.indd 359 25/07/12 03:29

Aboites_120725.indd

359
359
media superior y superior, independientemente del campo profesional de estudio. Aboites_120725.indd 359 25/07/12 03:29

25/07/12

media superior y superior, independientemente del campo profesional de estudio. Aboites_120725.indd 359 25/07/12 03:29
media superior y superior, independientemente del campo profesional de estudio. Aboites_120725.indd 359 25/07/12 03:29

03:29

360

DE LA EvALUACIÓN A LA MEDICIÓN

para la sección de habilidad verbal y otra para la matemática. La institución o universidad decide qué peso dar a cada uno de los resultados.

Amibas y extraterrestres en el Ceneval

Otro de los referentes teóricos que utiliza el Ceneval es Arthur Jensen, quien en 1979 resucitó la tesis del factor g de Spearman y a quien el lector o lectora recordará por sostener que la inteligencia es una cualidad que linealmente se extiende desde las amibas hasta los extraterrestres, pasando por los humanos. Aunque se debe aclarar que el orga- nismo de evaluación mexicano no entra en la discusión sobre Aptitud, microbiología y astrobiología, no tiene empacho en retomar a ese autor para sustentar la tesis de que las “habilidades intelectuales” que constituyen el foco principal de la medición que realiza, “se relacionan con un mejor aprendizaje de tareas que demandan comprensión” (Hernán- dez Uralde, 66). Estas son algunas de las lealtades teóricas fundamentales que están en la base de los exámenes estandarizados en su versión mexicana.

III. EL INstrUMENto DE MEDICIÓN o EL sAt MExICANo

El Ceneval no sólo retoma estas teorías de allende el río Bravo, también copia tal cual el instrumento de evaluación originado en los internados de los condenados como “débiles mentales”, que luego se perfeccionó en las barracas militares de la primera guerra mun- dial y que de ahí pasó al College Board para medir la Aptitud.

La construcción del Exani-i del Ceneval

No es necesario mostrar una a una las similitudes entre el Examen Nacional para el Ingreso a la Educación Media Superior del Centro Nacional de Evaluación (Exani-I) de fines del siglo xx con el Scholastic Aptitude Test (sAt) estadounidense de 50 años antes para caer en la cuenta de que éste es uno de los puntos de referencia más importante de los exámenes del Centro Nacional de Evaluación para la Educación Superior. Aunque dice que en el ámbito nacional “se revisaron” los materiales “de la UNAM, del Colegio de Bachilleres y del IpN, instituciones que venían aplicando un examen de ingreso con fines selectivos en el nivel medio superior…”, aclara que se tuvo en cuenta “el referente internacional, el sAt del Collage (sic) Board [que] es, sin duda, la prueba estandarizada de opción múltiple de mayor tradición e influencia en el mundo” (Hernán- dez Uralde, 2004: 66-69). Señala además que se establecieron relaciones con el Ets para conocer las reglas de ensamble y otros aspectos que ellos utilizan, así como el concepto de Aptitud y sus derivados (habilidades), a fin de aplicarlas a los exámenes mexicanos. Con esto es posible decir que el examen mexicano, Exani-I, como otros exámenes del Ceneval, son una copia del sAt estadounidense. Si bien no llega al extremo de traducir al español los reactivos es posible decir que el sAt “marcó” profundamente los exáme- nes de ingreso del Centro Nacional de Evaluación en cuanto a la inclusión de la parte correspondiente a habilidades y con la incorporación del concepto de Aptitud, con ma-

a habilidades y con la incorporación del concepto de Aptitud, con ma- Aboites_120725.indd 360 25/07/12 03:29

Aboites_120725.indd

360
360
a habilidades y con la incorporación del concepto de Aptitud, con ma- Aboites_120725.indd 360 25/07/12 03:29

25/07/12

a habilidades y con la incorporación del concepto de Aptitud, con ma- Aboites_120725.indd 360 25/07/12 03:29
a habilidades y con la incorporación del concepto de Aptitud, con ma- Aboites_120725.indd 360 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

361

yúscula. Como explica el funcionario del Ceneval: “La consulta del sAt se restringió en este primer momento al análisis de constructo, la organización y las reglas de ensamble de la prueba, el concepto de Aptitud y sus derivados Habilidad verbal y Habilidad ma- temática, así como el contenido específico de la sección de Habilidad verbal y algunas especificaciones para el ensamble del sAt, marcaron en buena medida el contenido y orga- nización del área de Habilidades intelectuales del Exani-I” (Hernández Uralde, 2004: 59).

Las peculiaridades del instrumento mexicano

Los exámenes de ingreso de la agencia evaluadora mexicana tienen una diferencia impor- tante con el sAt. El test estadounidense únicamente mide habilidades —verbal y matemá- tica—y como decíamos, ofrece una calificación para cada una. El Ceneval, por su parte, utiliza lo que él mismo llama un test “híbrido” que —como en las sesiones que mañana y tarde aplicaba el College Board— combina tanto la medición de la Aptitud—aptitude, habilidades naturales— como el “desempeño” o “logro” —achievement— en el ciclo an- terior. Es decir, habilidades e informaciones. 22 Estas eran evaluaciones separadas, pero el Ceneval hace un revoltijo y suma los resultados de cada una de las cuatro habilidades y, además, las de cada una de las ocho áreas disciplinarias distintas —Historia, Geografía, Español, Biología, Química, Matemáticas, Formación Cívica y Ética y Física—. De toda esta mezcla obtiene una sola cifra, con ella define la exclusión o la admisión de millones de jóvenes a la educación pública. Hacer este brebaje sería ya un elemento de duda res- pecto de la seriedad del instrumento. 23 En otras palabras el sAt va directo a las habilidades, a la Aptitud que buscaba el rector Conant de Harvard; el examen de ingreso del Ceneval, por su parte, es una solu- ción pretendidamente salomónica que incorpora también el “desempeño” del aspirante, es decir, la capacidad del joven de identificar o recordar determinadas informaciones. Como se recordará, el rector Conant se planteaba la opción entre un examen “de aptitud o uno de desempeño”, pero el Ceneval elude el dilema y tranquilamente junta los dos. Esta forzada aproximación “híbrida” a la medición de los demandantes de educación no parece ser fruto de una deliberada adhesión del Ceneval a Spearman, sino sólo del

22 Se utiliza esta formulación, “habilidades e informaciones”, a pesar de que en los documentos del Ceneval se habla de “habilidades y conocimientos”. La razón está en el hecho de que los reactivos por lo general no intentan siquiera medir algún proceso cognitivo, sino simplemente si el estudiante es capaz de identificar la palabra que corresponde —analogías—, o una información precisa —como el nombre de la CNDH—. El mismo Ceneval cuando habla de “conocimientos” se refiere a “informaciones”: “Así, el área de Conocimientos permitiría obtener información sobre el grado de dominio que los educandos tenían de unidades de información básica necesaria…” (Hernández Uralde, 2004: 53).

23 Es claro que no se puede sumar la habilidad verbal y la matemática para obtener una tercera cualidad —¿qué habilidad sería esta tercera?—, y también es claro que no se puede sumar el resultado de historia al de geografía para obtener todavía otra entidad. Pero ¿por qué se vuelve posible y real mezclar habilidades e informaciones de tópicos tan distintos en incontables combinaciones? ¿Tiene algún significado semejante potaje? Sólo se justifica —y esto es importante— si se cree a pie juntillas en la tesis de Spearman de que prácticamente cualquier cosa que se mida en una persona reflejará a g, la habilidad general y por eso es válido sumarlo. La sola disposición del Exani, está mostrando sin lugar a dudas que el Ceneval se adhiere de lleno a la teoría de Spearman.

sin lugar a dudas que el Ceneval se adhiere de lleno a la teoría de Spearman.

Aboites_120725.indd

361
361
sin lugar a dudas que el Ceneval se adhiere de lleno a la teoría de Spearman.

25/07/12

sin lugar a dudas que el Ceneval se adhiere de lleno a la teoría de Spearman.
sin lugar a dudas que el Ceneval se adhiere de lleno a la teoría de Spearman.

03:29

362

DE LA EvALUACIÓN A LA MEDICIÓN

voluntarismo de las instituciones por hacer que el examen de ingreso o Exani también

evalúe el desempeño académico que tiene el sustentante. Las instituciones que utilizan el examen de ingreso a la educación media buscaban tener algún diagnóstico concreto sobre

la preparación con que llegaban los estudiantes, 24 y lo mismo pretendía la sEp, pues quería

conocer la eficacia de la secundaria de origen del evaluado. Este objetivo, como veremos páginas más adelante, apenas puede lograrse con un examen estandarizado cuyo propósito es la distribución de quienes buscan un lugar en la escuela, no el diagnóstico. Otra explicación de esta peculiar decisión de hacer un examen “híbrido”, estriba en el hecho de que el test mexicano está diseñado para determinar el ingreso o rechazo

a una institución en particular. Mientras que esto no ocurre así en el caso del sAt esta-

dounidense. La persona que concluye el equivalente al nivel de preparatoria en ese país —Senior High School— presenta el sAt en cualquiera de las fechas que éste se aplica a nivel nacional y de manera totalmente independiente de la institución o instituciones a la que pretende ingresar. Una vez que recibe los resultados por correo, con ellos en la mano busca ser admitido en algún college o institución de educación superior —generalmente, como aquí en México—, solicita ingreso a tres o cuatro. En Estados Unidos cada institución tiene su propia política de admisión. Algunas se guían sobre todo por los resultados del sAt, otras en cambio colocan ese indicador en un tercero o cuarto lugar de prioridad y dan más peso al promedio obtenido en el ciclo anterior, cartas de recomendación, ensayo, etcétera; otras están más interesadas en la parte verbal — según el tipo de formación que imparten—; otras en los resultados en habilidad matemática. Aunque quien obtiene muy malos resultados en el sAt tiene problemas para el acceso a insti-

tuciones de primer nivel, suele ocurrir que si los aspirantes sólo logran un nivel intermedio en el sAt pero tienen otros elementos a favor, estos últimos se vuelven decisivos. Es decir, que una calificación muy alta en el examen estandarizado no garantiza el ingreso si no está acompañada de resultados importantes en otros criterios. Son cada vez menos los colleges que admiten todavía a un estudiante con base exclusivamente en los resultados del sAt. En la autoritaria política mexicana, sin embargo, lo único que cuenta es la cifra global que ofrece el examen híbrido porque el test del Ceneval se presenta como el único criterio y, además, muy rígido, pues con sólo un acierto de diferencia se decide su admisión o rechazo. Esta aproximación se vuelve más problemática cuando se obliga a los estudiantes

a que el resultado de un solo examen sea el que determine no sólo el acceso a esta institu-

ción, sino también —en el caso del examen único que se aplica en la Ciudad de México— a qué otra será asignado si no logra cabida en su primera opción o en extremo, si será o no impedido de continuar sus estudios en una institución pública escolarizada. A pesar de que la oCDE ha recomendado a la sEp que combine los resultados del test con el promedio escolar obtenido en la escuela de origen, no ha habido cambio alguno hasta el momento. 25

24 “El examen de admisión —señalaba el director del IpN— permitió diagnosticar en qué condiciones se encuentran los egresados de secundaria que pretenden acceder a ese nivel” (Ojeda, N., 1996c: B2).

25 En sus “recomendaciones” de 1997, como se vio en el capítulo 1, la oCDE propone “implantar para todos los candidatos a ingresar a la educación superior un procedimiento de admisión selectiva, basado en un examen y en los resultados obtenidos en el bachillerato” (oCDE, 1997: 236).

un examen y en los resultados obtenidos en el bachillerato” ( oCDE , 1997: 236). Aboites_120725.indd

Aboites_120725.indd

362
362
un examen y en los resultados obtenidos en el bachillerato” ( oCDE , 1997: 236). Aboites_120725.indd

25/07/12

un examen y en los resultados obtenidos en el bachillerato” ( oCDE , 1997: 236). Aboites_120725.indd
un examen y en los resultados obtenidos en el bachillerato” ( oCDE , 1997: 236). Aboites_120725.indd

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

363

A nivel nacional, el examen del Ceneval busca convertirse en el criterio fundamental,

único y obligatorio para todas las instituciones públicas y privadas del país. El Examen Nacional de Ingreso a la Educación Media Superior del Ceneval (ExANI-I), además, dedica un 44% de sus reactivos a la medición de las cuatro habilidades funda- mentales de Spearman ya señaladas —vocabulario, idioma, problemas y operaciones ma- temáticas, que se incluyen en las Secciones de Habilidad verbal y matemática, y Español

y Matemáticas—. El resto de los reactivos está dedicado a las seis áreas de informaciones sobre distintas disciplinas. El énfasis puesto en medir las habilidades y dedicar casi la mitad de la prueba a ese propósito, reduce significativamente el número de reactivos disponible para evaluar

el desempeño o informaciones. En el Exani-I, por ejemplo que tiene un límite de 120

reactivos, sólo se puede utilizar uno solo para valorar si el demandante tiene información suficiente sobre el periodo de la independencia de México. 26 El mismo Ceneval admite que esta evaluación que realiza es de un nivel que puede considerarse elemental (como

el reactivo que aparece como ejemplo en la nota anterior, que sólo permite identificar el

orden en que ocurren los eventos) y no sólo por el número tan pequeño de reactivos que

puede utilizar, sino porque la calidad misma de los reactivos es muy pobre. Éstos, dice,

en general no van más allá de los tres primeros niveles de los seis de progresiva comple-

jidad que contiene la taxonomía de Bloom. Esos niveles son de “identificación, compren- sión y aplicación” y la mayoría de los reactivos están en el primero y segundo (Hernández Uralde, 2004: 72). 27 De hecho el propio Centro de Evaluación reconoce que “la obtención de reactivos que integren contenidos y que alcancen niveles taxonómicos superiores es una de las mayores dificultades para el mejoramiento de los exámenes” (Ceneval, 2004f:

42). Pero, en realidad, esto ocurre porque la parte referida a informaciones no es la más importante. La parte diagnóstica (información sobre Geografía, Historia, etcétera) del examen está claramente subordinada a la de habilidades, pues, como dice el encargado, se trata

de un examen que tiene “una función primordialmente predictiva, y, de manera subsidia-

ria, una función diagnóstica, aunque de carácter general” (Hernández Uralde, 2004: 60.

l). Todo este énfasis recalca lo que ya se decía al hablar anteriormente en este capítulo

de la conexión Ceneval-Spearman: que las pruebas de ingreso para realizar estudios de

nivel superior en buena medida pueden considerarse un rudimentario test de inteligencia disfrazado de una prueba académica.

26 El reactivo es el siguiente: “Indica la secuencia en la que se ordenan cronológicamente los aconteci- miento de la Guerra de Independencia de México. 1) Fusilamiento de Hidalgo, Allende, Aldama y Jiménez; 2) Llegada de Mina a México; 3) Promulgación de la Constitución de 1814; 4) Muerte de Morelos.” Opciones de respuesta: a) 4, 2, 1, 3; b) 3, 2, 4, 1; c) 2, 3, 1, 4; d) 1, 3, 4, 2; e) 1, 4, 3, 2. La respuesta correcta —se informa— es la opción d (Ceneval, 2004b, 51).

27 Los seis niveles de la taxonomía son: identificación, comprensión, aplicación, análisis, síntesis y evaluación. Con el formato de opción múltiple es muy difícil hacer mediciones en los niveles superiores, paradójicamente los que son importantes para la educación superior.

superiores, paradójicamente los que son importantes para la educación superior. Aboites_120725.indd 363 25/07/12 03:29

Aboites_120725.indd

363
363
superiores, paradójicamente los que son importantes para la educación superior. Aboites_120725.indd 363 25/07/12 03:29

25/07/12

superiores, paradójicamente los que son importantes para la educación superior. Aboites_120725.indd 363 25/07/12 03:29
superiores, paradójicamente los que son importantes para la educación superior. Aboites_120725.indd 363 25/07/12 03:29

03:29

364

DE LA EvALUACIÓN A LA MEDICIÓN

Las implicaciones del test en México

Con base en los tests de inteligencia, yerkes y Terman pudieron recabar información

y llegar a conclusiones dramáticas —pero equivocadas— que influenciaron profunda-

mente a la sociedad estadounidense de comienzos del siglo pasado, contribuyendo a

afianzar y dar bases “científicas” a sus tendencias más racistas. El fortalecimiento del racismo y de la exclusión social se tradujo en un clima intolerante y en leyes sumamen-

te injustas —por ejemplo las referidas a la esterilización de mujeres y niñas en muchos

estados—. Todo esto se llevó a cabo a partir de los resultados obtenidos de la medición de dos millones de reclutas que les permitieron llegar a conclusiones sobre el estado de inteligencia de la nación estadounidense. En México, con cerca de 30 millones de jóvenes evaluados ya en 2012, sólo con los exámenes del Centro Nacional, con cerca de 80 millones de exámenes de ENLACE (Eva- luación Nacional del Logro Académico en Centros Escolares) administrados a niños y

jóvenes sólo en los cinco primeros años (2006-2010), y con los resultados de las distintas versiones del Excale (Examen de Calidad y Logro Educativo) creado por el Instituto Nacional para la Evaluación de la Educación (INEE) y aplicado a varias muestras de miles de jóvenes en todo el país, ya existe la posibilidad de construir una visión panorámica —aunque también equivocada— de la medida de la nación en términos de “inteligencia”

y de información. El poder de los evaluadores puede ampliarse considerablemente con

toda esta recopilación. 28 Si este cúmulo de datos se utiliza indebidamente —por ejemplo en una reiterada campaña mediática— es posible ejercer influencia en la opinión pública, las políticas educativas y sociales y en general en el clima de tolerancia en el país. Cuando una gran parte de la población es evaluada como “deficiente” por los tests es muy fácil que se extiendan entre el gran público visiones equivocadas especialmente acerca de los maestros (holgazanes), estudiantes (burros, baquetones) y de las escuelas encargadas de formarlos. La medición científica ha comenzado a aportar los elementos cuantitativos necesarios para crear un clima de discriminación y diferenciación, y, en consecuencia, de supervisión, en el que se vuelve natural que muchos queden excluidos. Existen en este país innegables y graves deficiencias en la formación de los jóvenes. Éstas son tan obvias que hasta exámenes superficiales como los descritos las pueden detectar y ofrecer una borrosa imagen general, pero el problema es que los bajos re-

sultados son considerados por el Ceneval como si fueran deficiencias en la capacidad

—la Aptitud— de los aspirantes y, de paso, como señales de la ineficiencia de maestros

y escuelas. Estos énfasis pueden permear las políticas públicas, en educación y otros

terrenos, con consecuencias sociales desastrosas. En un país ya polarizado social y económicamente como México, poner como punto de partida de políticas públicas la existencia de grupos sociales importantes y millones de jóvenes que ya se sabe por el examen que no tienen —y no tendrán— la Aptitud para ir a la escuela es cometer un suicidio como nación, además de una profunda agresión contra millones de personas

28 Nairn (1980: 28-29) cita la expresión de un funcionario del Ets estadounidense quien orgullosamente señalaba que “tal vez sólo la CIA tiene mejores y más grandes capacidades para recoger, almacenar y utilizar información [que nosotros]”.

capacidades para recoger, almacenar y utilizar información [que nosotros]”. Aboites_120725.indd 364 25/07/12 03:29

Aboites_120725.indd

364
364
capacidades para recoger, almacenar y utilizar información [que nosotros]”. Aboites_120725.indd 364 25/07/12 03:29

25/07/12

capacidades para recoger, almacenar y utilizar información [que nosotros]”. Aboites_120725.indd 364 25/07/12 03:29
capacidades para recoger, almacenar y utilizar información [que nosotros]”. Aboites_120725.indd 364 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

365

que en realidad son víctimas de una pésima educación. Sin decirlo, los incorporan como parte de una población en la frontera de “los que no tienen remedio” y eso sólo lastra las potencialidades del país mismo. Un gobierno todavía más neoliberal que los que han gobernado a México desde 1982

y hasta la segunda década del siglo xxI puede avanzar a las más bárbaras conclusiones —e iniciativas— a partir de datos e interpretaciones como ésta.

Exámenes nacionales e información

Esa posibilidad adquiere mayor fuerza porque en el caso mexicano —a diferencia del esta- dounidense— la medición de la inteligencia se acompaña de una recopilación sistemática de datos personales, familiares y sociales de cada uno de los sustentantes. El segundo director del Ceneval, Salvador Malo, dice en 2004 que con sus exámenes “obtiene da- tos acerca de los conocimientos y habilidades que poseen los estudiantes” y que con un cuestionario anexo “de igual forma, hace acopio de información adicional acerca de la situación socioeconómica y otras características personales de los jóvenes […]” (Malo, 2004a: 6-7). De tal manera que se hace posible “cruzar” la variable de “Aptitud” con la de zona de residencia, ingresos, ocupación de los padres, otros datos familiares, hábitos de estudio y alimentación y hasta dirección y teléfono. Esos datos, guardados en las computadoras de ese Centro, son considerados como de su exclusiva propiedad y están

sujetos a las decisiones que éste tome, sin que a los padres de familia o a los solicitantes

y ni siquiera una entidad pública puedan tener algún control o supervisión sobre su uso. En 1996 los padres de familia agraviados con el examen único reclamaban a quienes lo habían organizado —la Comisión Metropolitana de Instituciones Públicas de Educación Media Superior (Comipems) y el Cenevalque escuelas privadas estaban haciendo uso de los datos personales de los solicitantes —nombre, dirección, teléfono, número de

aciertos— para hacerles llegar a sus casas, por teléfono o por correo, ofertas y descuen- tos especiales en sus planteles. Aunque los representantes de la Comipems prefirieron no responder, Gago Huguet en ese momento se encargó de negar rotundamente que se estuvieran entregando los datos a las escuelas privadas, pero hizo la importante acla- ración de que en el futuro, esos datos podían proporcionarse a quien los solicitara. El director del Centro “rechazó el supuesto acceso de instituciones privadas al banco de datos del Ceneval [aunque] admitió que esto podría darse en un futuro.” Además señaló que “hemos recibido numerosas ofertas y no las hemos aceptado, pero, si la Comisión Metropolitana decide prestar su banco de datos, no es ilegal porque tenemos el derecho a hacer el uso que nos convenga de la información” (Herrera Beltrán, C. 1996b: 20).

A pesar de que la Comipems es la responsable del examen único y es a esa comisión

que formalmente entregan los padres de familia la información, en esa cita los datos aparecen como propiedad exclusiva del Ceneval. Salvador Malo, director del Ceneval, reiteraba esta situación, al hablar de “nuestras bases de datos” (Malo, 2004a: 7), a pesar de que la información se entrega a las instituciones que organizan los procedi- mientos de ingreso —como la Comipems en el caso de la Ciudad de México— y no a ese centro privado. Sin embargo, el Centro decide cuándo y a quién abrirla, pues señala

privado. Sin embargo, el Centro decide cuándo y a quién abrirla, pues señala Aboites_120725.indd 365 25/07/12

Aboites_120725.indd

365
365
privado. Sin embargo, el Centro decide cuándo y a quién abrirla, pues señala Aboites_120725.indd 365 25/07/12

25/07/12

privado. Sin embargo, el Centro decide cuándo y a quién abrirla, pues señala Aboites_120725.indd 365 25/07/12
privado. Sin embargo, el Centro decide cuándo y a quién abrirla, pues señala Aboites_120725.indd 365 25/07/12

03:29

366

DE LA EvALUACIÓN A LA MEDICIÓN

que en ocasiones ha decidido hacerlo para que científicos que seleccione lleven a cabo “investigaciones independientes realizadas por invitación exclusiva” (Malo, 2004a: 7). Como los datos recabados se pueden organizar por ciudades, escuelas, regiones del país, entidad federativa, escuela de origen, estrato socioeconómico, tipo de vivienda, re- laciones familiares, ocupación de los padres, etcétera, esto hace posible diseñar políticas sociales que incluyan como una de sus variables la distribución de la “inteligencia” a lo largo y ancho del país. Puede prejuzgarse, por ejemplo, la capacidad intelectual de ciertos grupos para aprovechar los programas de oportunidades sociales y educativas, dónde y con quiénes serán más redituables las inversiones en subsidios.

Hacia un mapa nacional de la inteligencia

Prejuicios como el de que “el norte trabaja, el sur descansa y el centro piensa” que al- gunos empresarios utilizan para describir al país, podrían encontrar su “fundamentación científica” en estos datos, a la manera de lo que ocurrió en Estados Unidos al comienzo del siglo pasado. Organismos como el Ceneval parecen coquetear con esta idea al hablar todavía no de “inteligencia” en términos sociales, pero sí de la “capacidad colectiva de adquirir nuevo conocimiento” (CAC), una especie de Aptitud colectiva. Como puede verse en la lámina 7 de su libro llamado La inteligencia colectiva de México. Una estimación de los niveles de conocimiento de su población (2005) en “los factores determinantes de la capacidad de adquirir nuevo conocimiento” aparecen como indicadores los resultados de “los exámenes del Ceneval”, junto con otros: cobertura y abandono escolar, escolari- dad promedio, población indígena, escuelas, aislamiento y otros. Con esa base, este organismo divide al país de acuerdo con el criterio mencionado, de “la capacidad colectiva de adquirir nuevo conocimiento” en tres grandes zonas.

CUADro 6.1

Regiones por nivel de capacidad colectiva de adquirir nuevo conocimiento

Nivel alto

Nivel medio

Nivel bajo

Aguascalientes Baja California Baja California Sur Coahuila Distrito Federal Estado de México Nuevo León Tamaulipas Sonora Quintana Roo

Campeche Chihuahua Hidalgo Puebla Querétaro Durango San Luis Potosí Jalisco Tlaxcala Morelos zacatecas Nayarit Sinaloa Tabasco Colima

Chiapas

Guanajuato

Guerrero

Michoacán

Oaxaca

Veracruz

yucatán

Fuente: Con datos de Ceneval, 2005a: 104.

Oaxaca Veracruz yucatán Fuente: Con datos de Ceneval, 2005a: 104. Aboites_120725.indd 366 25/07/12 03:29

Aboites_120725.indd

366
366
Oaxaca Veracruz yucatán Fuente: Con datos de Ceneval, 2005a: 104. Aboites_120725.indd 366 25/07/12 03:29

25/07/12

Oaxaca Veracruz yucatán Fuente: Con datos de Ceneval, 2005a: 104. Aboites_120725.indd 366 25/07/12 03:29
Oaxaca Veracruz yucatán Fuente: Con datos de Ceneval, 2005a: 104. Aboites_120725.indd 366 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

367

En el Ceneval: ¿medición de la inteligencia innata o aprendida?

La cuestión de los usos que puedan darse a la información regional sobre la Aptitud

o capacidad para adquirir conocimiento adquiere toda una nueva dimensión si resulta

que esa capacidad es una dotación innata y poco susceptible de modificarse. Decimos esto porque la historia y la teoría sitúan al Exani y otras pruebas de ese centro en las coordenadas de la medición de la inteligencia cuando asumen como modelo el examen de Brigham y Conant, cuando retoman la formulación del “pensamiento abstracto” de Terman “como indispensable para realizar estudios superiores”, y cuando además reco- nocen que el concepto de “Aptitud” del sAt “ha marcado” de manera importante a los exámenes del organismo mexicano, como se citaba páginas atrás. Recuérdese que en el lenguaje del Ceneval, la Aptitud es “la capacidad de pensar de manera abstracta”, indis- pensable para los estudios superiores, como señala el responsable del examen de ingreso (Hernández Uralde, 2004: 66). No se trata de una mera coincidencia en las palabras. El Ceneval asume plenamente los cuatro rasgos fundamentales de la concepción de la inteligencia o la Aptitud que nace

con la distorsión del pensamiento de Binet. Es decir, 1) la concepción de que las múltiples expresiones de la inteligencia humana se reducen a un solo factor o energía básica; 2) la convicción de que esa energía o factor único es perfectamente medible a través de dos grandes habilidades —verbal y matemática— y que esa medición puede expresarse en una cifra concreta; 3) con base en esa medición precisa las personas pueden ordenarse en serie, es decir, de manera lineal de mayor a menor y finalmente; 4) que se trata de una medición confiable porque mide algo que no cambia radicalmente al paso del tiempo, pues

es una “energía” determinada y básicamente inmodificable de las personas. Así, quien un

año presenta el test, al siguiente año tenderá a obtener un número semejante de aciertos, por el carácter básicamente permanente de la carga de inteligencia que traen consigo las personas desde el nacimiento. Este último es el elemento más importante de esta corriente; sin él los restantes se vuelven muy endebles. Si el factor g —o la “Aptitud”— de las personas fuera algo dinámi- co que puede cambiar en forma importante a partir de las condiciones socio-ambientales,

difícilmente podrían tomarse decisiones de fondo respecto de las personas. Al insistir que sus mediciones son incuestionables y que es posible determinar con gran certeza y con sólo un acierto más o menos, que una persona debe ser excluida de la educación pública

o enviada no a una escuela propedéutica sino técnica, el Ceneval está suponiendo que hay

algo, una energía o talento básicamente inmodificable en los sujetos, que permite que se tomen decisiones que afectan a largo plazo a las personas. La insistencia de ese Centro, en que puede llegar a “micras y miligramos” en la medición de las personas —como dice en su Boletín—, supone la medición de algo con dimensiones apenas modificables. Lo más problemático de la teoría de la inteligencia heredada o innata, además de que no ha podido ser comprobada (véase el capítulo 5) consiste en sus implicaciones sociales. De las diferencias básicamente estables en la inteligencia que los medidores de antaño creían encontrar en los individuos, pasaron a concluir que tampoco las diferencias en inte- ligencia entre grupos sociales sufrían modificaciones sustanciales. Es decir que los pobres, los negros, los inmigrantes mediterráneos o judíos, los indígenas —y los mexicanos— eran

los inmigrantes mediterráneos o judíos, los indígenas —y los mexicanos— eran Aboites_120725.indd 367 25/07/12 03:29

Aboites_120725.indd

367
367
los inmigrantes mediterráneos o judíos, los indígenas —y los mexicanos— eran Aboites_120725.indd 367 25/07/12 03:29

25/07/12

los inmigrantes mediterráneos o judíos, los indígenas —y los mexicanos— eran Aboites_120725.indd 367 25/07/12 03:29
los inmigrantes mediterráneos o judíos, los indígenas —y los mexicanos— eran Aboites_120725.indd 367 25/07/12 03:29

03:29

368

DE LA EvALUACIÓN A LA MEDICIÓN

de entrada y permanentemente inferiores en inteligencia. La explicación que daban a esta aparente regularidad era simple: la carga de inteligencia era básicamente hereditaria. Podía modificarse en alguna medida, señalaban, con un adecuado entrenamiento, o podía reo- rientarse útilmente mediante el aprendizaje de algún oficio manual, pero no mucho más. y luego daban el paso a explicar las diferencias que existían en la estructura social a partir de los resultados de los tests. La falta de inteligencia que los exámenes ponían en evidencia era lo que explicaba las diferencias sociales, la persistente incapacidad para salir de la po- breza o la marginación, la futilidad de los esfuerzos por redimirlos a partir de programas de asistencia o de educación e, incluso, daba razón a la existencia del racismo. El problema no era el color de la piel, sino la deficiente inteligencia que tenían los de piel oscura. Las diferencias en inteligencia explicaban finalmente porqué unas razas eran superiores a otras, por razones “científicas” más sólidas que las simples características físicas. Como veíamos en el recorrido teórico que hacíamos al comienzo de esta segunda parte del capítulo, el Ceneval adopta tal cual y abiertamente los postulados básicos de Spearman, Terman y otros que sustentan conclusiones racistas como las ya señaladas. Claro que los directivos y funcionarios del Ceneval rechazarían tales expresiones y nega- rían airadamente que formaran parte de su marco conceptual, pero asumen los postulados teóricos fundamentales que apoyan esas doctrinas y asumen también la aplicación de esas teorías en prácticas que son patentemente discriminatorias, como que con base en esas mediciones a decenas de miles de mujeres, jóvenes de clases populares, indígenas, se les niegue el acceso a la educación pública y que a cientos de miles debe remitírseles a estudios técnicos por carecer del grado suficiente de Aptitud. Al mismo tiempo que adopta las teorías que dan paso al que podemos llamar “racismo científico” y a un mapa de la carga de inteligencia disponible en el país, el Ceneval hace esfuerzos por distanciarse en el discurso de su verdadera matriz teórico-filosófica. Así, en un par de ocasiones da un giro de 180 grados y plantea que esas habilidades son resultado de lo que los jóvenes aprenden en las escuelas donde previamente estuvieron —es decir, las condiciones sociales y culturales que les rodean— y no fruto de una energía innata.

El área de habilidades —dice de nuevo el funcionario encargado del examen del Ceneval—, mide en dos secciones, verbal y matemática, el conjunto de procesos cognoscitivos —de ra- zonamiento— que como producto del aprendizaje previo resultan esenciales para el aprendi- zaje de los conocimientos y habilidades característicos del nivel medio superior (Hernández Uralde, 2004: 61. Cursivas nuestras).

Esta declaración —y alguna otra similar que aparece en los textos del Ceneval— es sin embargo profundamente contradictoria. Para empezar porque apenas un año más tarde, en 2005 se decía que se evaluaba “la potencialidad” para adquirir nuevos conoci- mientos, es decir volvía a la idea de aptitudes: “el Exani-I identifica la potencialidad de un individuo para lograr nuevos aprendizajes, independientemente de los conocimientos específicos adquiridos mediante el ejercicio de esas aptitudes durante su educación se- cundaria” (Comipems, 2006: 83. Cursivas nuestras). Es fácil afirmar que no se está de acuerdo con la teoría del innatismo, pero el hecho es que se sigue actuando como si ésta fuera la única válida. Una de las ofertas fundamentales que hace la tecnología de la eva-

única válida. Una de las ofertas fundamentales que hace la tecnología de la eva- Aboites_120725.indd 368

Aboites_120725.indd

368
368
única válida. Una de las ofertas fundamentales que hace la tecnología de la eva- Aboites_120725.indd 368

25/07/12

única válida. Una de las ofertas fundamentales que hace la tecnología de la eva- Aboites_120725.indd 368
única válida. Una de las ofertas fundamentales que hace la tecnología de la eva- Aboites_120725.indd 368

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

369

luación es que asegura que tiene la capacidad de identificar a aquellos que tendrán éxito en la educación superior —“la potencialidad”— y también de distinguir a aquellos que desde ahora se puede decir que no irán muy lejos. Este poder de predicción que se atribuye a los tests es lo que está en la base de la política de admisión. Se admite a quienes el test muestra que tienen la Aptitud. Si se pensara realmente que “los aprendizajes previos” generan la Aptitud, eso significa que nada impediría que se admitiera a quien hoy obtiene un bajo número de aciertos. Si no se es innatista se estaría convencido de que, con los apoyos y aprendizajes apropiados, sería posible adquirir la Aptitud necesaria para hacer estudios superiores. Pero esto no ocurre, el examen del Ceneval se utiliza para determinar una Aptitud que está ahí en nivel suficiente o no está, como algo fijo y dado. Por otro lado, al colocar en una fila a todos los sustentantes a partir del resultado que obtienen en el examen, ese Centro está diciendo que ha medido un “algo” básico que todos poseen, aunque en grados diferentes —como la estatura—, que hace posible ordenar de mayor a menor a todos, con diferencias mínimas. De esta manera, la afiliación del Ceneval al innatismo —y a sus implicaciones a todas luces discriminatorias— no está finalmente en las declaraciones sino en los hechos, en la manera de diseñar sus exámenes en función de “habilidades” y en el uso que le da a los resultados en los procesos de admisión. Pero el tema planteado por el Ceneval, sobre si las habilidades son innatas o más bien son el resultado de la intervención decisiva de un Estado educador y una sociedad justa y equitativa, tiene además una implicación ética.

Ética y medición tipo Ceneval

Charles Darwin ofrece un argumento inesperado que desde la ética plantea una crítica de fondo a la medición discriminatoria. Hablando de las diferencias sociales decía en una sola frase algo que vale un tratado entero: “Si la miseria de nuestros pobres es causada no por las leyes de la naturaleza, sino por nuestras instituciones, grande es nuestro pecado” (citado por Gould, 1996: 5). En otras palabras, si los pobres existen porque la dotación de inteligencia que les correspondió por herencia natural fue insuficiente para competir exitosamente con el res- to, poco o nada se puede hacer, viven una condición ante la cual la sociedad sólo tiene como opción la misericordia. Pero si la existencia de millones de explotados y desposeí- dos no es resultado de la herencia de una inteligencia disminuida, sino de mecanismos e instituciones sociales creados por los propios seres humanos para perpetuar la posición subordinada de muchos otros, grande y total es nuestra responsabilidad como sociedad. Cuando el Ceneval rechaza que está midiendo una carga heredada y básicamente inmodificable conferida por la naturaleza y afirma que más bien mide el resultado de años de interacción de niños y jóvenes con diferentes contextos escolares y sociales, es grande su responsabilidad ética. Porque a sabiendas, utiliza un instrumento que está di- señado para identificar las diferencias que son producto de las trayectorias escolares y de contextos culturales dramáticamente distintos —sobre todo en los países latinoamerica- nos— para rechazar a muchos incluso de manera definitiva de la posibilidad de acceder a la educación superior. Es decir, convierte en responsables a quienes son víctimas de una injusta e inequitativa distribución del acceso a las mejores escuelas, recursos educativos,

inequitativa distribución del acceso a las mejores escuelas, recursos educativos, Aboites_120725.indd 369 25/07/12 03:29

Aboites_120725.indd

369
369
inequitativa distribución del acceso a las mejores escuelas, recursos educativos, Aboites_120725.indd 369 25/07/12 03:29

25/07/12

inequitativa distribución del acceso a las mejores escuelas, recursos educativos, Aboites_120725.indd 369 25/07/12 03:29
inequitativa distribución del acceso a las mejores escuelas, recursos educativos, Aboites_120725.indd 369 25/07/12 03:29

03:29

370

DE LA EvALUACIÓN A LA MEDICIÓN

profesores capacitados y profesionalizados, etcétera. Con esto contribuye a reforzar el círculo vicioso de acceso diferenciado al conocimiento, atribuyéndolo ahora a un proble- ma de los individuos. Un regreso pleno al siglo xIx.

Los datos del Ceneval

Como veremos en detalle lo anterior no es una afirmación sin sustento, la confirman los propios datos del Centro Nacional. Éstos muestran una y otra vez la fuerte asociación que existe entre calificaciones y aprendizajes previos diferentes —contexto cultural, social y educativo— en las personas. Una abundante colección de estudios —más de 500 pági- nas— generada desde el propio Ceneval basados en una década completa de aplicaciones del Exani-I ofrecen la oportunidad única de analizar la importancia de la trayectoria social como explicación de las diferencias en los resultados que los estudiantes obtienen en el examen de ese centro de evaluación. El volumen se titula Evaluación de la educación en México. Indicadores del Exani-i (Ceneval, 2004: 575) y fue dirigido por Felipe Tirado Segura, uno de los pioneros de la medición de la época de Baja California. En el estudio que estuvo a su cargo, revela que los primeros tres factores que “muestran tener un impacto sobre la calificación [de las habilidades, son], en orden descendente: la escolaridad del padre y de la madre, la ocupación del padre y de la madre, el ingreso familiar…” (Tirado Segura, 2004: 111). Es

decir, tres indicadores claves para identificar la colocación de una familia en la estructura socioeconómica y educativa del México de hoy. Este tipo de exámenes en realidad miden el “pecado” de las instituciones, la sEp y sus malas escuelas, el fracaso de sus políticas —entre éstas la de la mejoría de la educación a partir de la evaluación— y también el fracaso de un modelo nacional de desarrollo basado en el poco empleo, la desintegración de la industria y el campo, la pobreza persistente y la concentración de la riqueza. Pero miden además el grado en que al diseñar sus exámenes para medir un inexistente factor g hereditario el Centro Nacional termina midiendo la diferenciación social y cultural —que

sí existe.

Decíamos que los exámenes miden únicamente un rango muy específico y reducido de habilidades poco representativo de las potencialidades de las personas. y esto afecta a los niños y jóvenes de las zonas rurales y periféricas aunque sean de inteligencia despierta y sumamente capaces y a pesar de que hayan adquirido múltiples habilidades de conocimien- to que no se registran en los exámenes del Ceneval. Lo mismo ocurre en la cultura distinta

de grupos indígenas, habitantes de comunidades rurales, de las diferentes regiones del país,

y con las mujeres. Comparados con un patrón único de lo que es la Aptitud, muchos fallan

en el examen simplemente porque además de malas escuelas, poca escolaridad y escasos recursos culturales en sus hogares, han desarrollado sus talentos en formas que no necesa- riamente son las de los grupos urbanos de clase media que sirven de referencia al examen. Rivera et al. se refieren a estas diferencias retomando el concepto de “diferencias en los estilos cognitivos de los estudiantes” (2006: 78) implicando algo muy cierto: que la estruc- tura del examen de opción múltiple apela a una estrategia de conocimiento que no todos tienen desarrollada. El encuadre rígido —una pregunta y cinco opciones de respuesta— es especialmente hostil a los estilos de conocer que son más creativos, visuales y profundos.

hostil a los estilos de conocer que son más creativos, visuales y profundos. Aboites_120725.indd 370 25/07/12

Aboites_120725.indd

hostil a los estilos de conocer que son más creativos, visuales y profundos. Aboites_120725.indd 370 25/07/12

370

hostil a los estilos de conocer que son más creativos, visuales y profundos. Aboites_120725.indd 370 25/07/12

25/07/12

hostil a los estilos de conocer que son más creativos, visuales y profundos. Aboites_120725.indd 370 25/07/12
hostil a los estilos de conocer que son más creativos, visuales y profundos. Aboites_120725.indd 370 25/07/12

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

371

Desde su inicio el Centro Nacional era, además, perfectamente consciente de las im- plicaciones sociales de sus exámenes. En 1995, apenas a un año de su creación y después de aplicar los primeros exámenes, el Ceneval detectaba inmediatamente que “una relación positiva con el desempeño [en el examen de ingreso a la educación media superior] lo constituye el nivel de ingreso mensual familiar” (Ceneval, 1996: 29). El paso del tiempo no ha cambiado —y ha confirmado poderosamente— estas tendencias, casi una década más tarde los datos de ese Centro reiteraban el peso que el origen social tenía en los sustentantes, además el Boletín del Centro informaba sobre el impacto que tenía en las mujeres al decir que “como en las anteriores aplicaciones, el examen metropolitano para el ingreso a la educación media superior… muestra que los sustentantes de sexo masculino tienen un mejor desempeño que los del sexo femenino” (zubirán, 2004: 4). El Centro Nacional de Evaluación registra los datos, pero no las implicaciones éticas. Trata a éstas como si no existieran. En un artículo publicado en el Boletín Ceneval sobre “principios y ética en los procesos de evaluación” (Sandoval Chávez, 2004: 10), éste cen- tra su atención en cuestiones periféricas —importantes sin duda pero secundarias— como que no se den a conocer los nombres de los evaluados, que la información se debe pre- sentar en forma agregada —estadísticas— y cosas por el estilo, pero no menciona siquiera la problemática derivada del uso de exámenes reconocidamente discriminatorios. En conversación informal con este autor, un funcionario del Centro en el año 1999 ar- gumentaba que “nosotros hacemos los exámenes y los aplicamos, no decidimos qué hacer con los resultados.” Una manera de decir que ese Centro es simplemente una agencia neu- tra de servicios de medición sin mayor responsabilidad sobre el uso que se da a los resul- tados, la tecnología es inocente, parece decirse. La tecnología, sin embargo, generalmente está preñada de un propósito y una concepción social. Es cierto, un Ak-47 puede utilizarse para defender el hogar o para ir de cacería, pero está diseñado fundamentalmente como rifle de asalto para eliminar a un enemigo en situaciones de enfrentamiento entre grupos combatientes. La medición que aquí analizamos no es una tecnología que en ocasiones en forma perversa y por personas malévolas se utiliza para diferenciar socialmente, sino que desde su enfoque teórico hasta el tipo de reactivos y el uso al que se destina tiene como parte estructurante el rasgo discriminatorio. Podrá haber ocasiones en que una ins- titución ordene la aplicación de las pruebas del Ceneval por mera curiosidad, pero no se puede negar para qué está hecha esa tecnología y cuál es el uso fundamental que sele da. Los usuarios de los servicios del Ceneval también tienen responsabilidad pero aun si quisieran las instituciones contratantes no tienen manera de anular los rasgos y tendencias excluyentes que son parte central en los exámenes y sus resultados. Sólo pueden decidir no utilizarlos —medida que sólo pocos toman ante la presión de las autoridades educativas y de la demanda 29 — o pueden optar por introducir otros elementos paralelos de evaluación —cosa que prácticamente nadie hace. 30

29 Como el caso del gobernador de Puebla Manuel Bartlett, que aparentemente no tuvo más remedio que sujetarse a la presión de la sEp de utilizar los exámenes del Centro Nacional de Evaluación en su estado, pero ordenó que los resultados no se utilizaran (referido al autor por el funcionario del Ceneval arriba citado). 30 ya en 2009 la Universidad Autónoma Metropolitana asignaba los lugares disponibles combinando el resultado del examen (70%) y el promedio obtenido en la educación media superior (25%). Con esto,

(70%) y el promedio obtenido en la educación media superior (25%). Con esto, Aboites_120725.indd 371 25/07/12

Aboites_120725.indd

(70%) y el promedio obtenido en la educación media superior (25%). Con esto, Aboites_120725.indd 371 25/07/12

371

(70%) y el promedio obtenido en la educación media superior (25%). Con esto, Aboites_120725.indd 371 25/07/12

25/07/12

(70%) y el promedio obtenido en la educación media superior (25%). Con esto, Aboites_120725.indd 371 25/07/12
(70%) y el promedio obtenido en la educación media superior (25%). Con esto, Aboites_120725.indd 371 25/07/12

03:29

372

DE LA EvALUACIÓN A LA MEDICIÓN

En un contexto de progresiva restricción de la educación de amplios horizontes, pú- blica, gratuita, los medidores crean y ofrecen sus exámenes como suficientes para tomar

decisiones de fondo sobre las personas a partir de una diferenciación discriminatoria, pero además saben muy bien cuál será el uso que se dará a sus exámenes y el impacto que tendrán. Su postura es tan reprobable como distribuir una medicina que comprobadamente provoca efectos secundarios de consideración para la salud de las personas. En Estados Unidos organismos evaluadores como el College Board que conocen bien los sesgos de sus propios tests, expresamente advierten a los usuarios de sus servicios que “debe evitarse el uso del número de aciertos como la única base para tomar decisiones importantes que afecten la vida de los individuos” (College Board, 1988). También en México hay voces que conocedoras de estos exámenes y desde una visión ética están en desacuerdo con la aproximación vigente a la evaluación. “Una predicción verdadera [del éxito escolar futuro] debe incluir factores cognoscitivos —el examen— y factores no cognoscitivos —atributos y circunstancias extra académicas del alumno… la admisión de alumnos es un proceso en el cual el examen de conocimientos proporciona un criterio, necesario pero no suficiente…; omitir los factores no cognitivos es contrario a la ética.” (Álvarez Manilla, 2002: 25). Por otro lado, es falsa la idea que se proyecta desde el Ceneval de un centro indepen- diente que de manera inocente ofrece sus servicios a quien le interesen y para los fines que cada uno persiga. Lo cierto es que los medidores mexicanos hicieron suya y apoyaron

a

fondo la voluntad de un gobierno neoliberal que necesitaba esta tecnología para cambiar

y

restringir el acceso a la educación; hicieron suyas las recomendaciones de organismos

internacionales; presionaron y cabildearon intensamente en México —desde el poder y fuera de él— en favor de la adopción de sus exámenes; descalificaron también otras al- ternativas de evaluación basadas en maestros, escuelas y universidades; convencieron a autoridades institucionales; escalaron a posiciones clave de la sEp y desde ahí ejercieron influencias y presión para lograr la creación del Centro. ya establecido, impusieron los

exámenes con el poder y la influencia de la sEp en miles de instituciones hasta constituirse prácticamente en un monopolio protegido por la participación de dependencias guberna- mentales. 31 El Ceneval está muy lejos de ser víctima de una conspiración que hace que sus exámenes sean utilizados de formas perversas. El análisis de los componentes esenciales de esta tecnología demuestra la esencia de sus rasgos excluyentes. Uno de los más característicos, el de la curva de distribución normal o de campana, permite hacer un análisis pormenorizado de su estructura interna

y desdoblar con mayor claridad sus implicaciones.

aumentó en un 50% la proporción de mujeres que ingresan a la UAM. 31 Explica el Ceneval que “el Consejo Técnico incorpora un representante de la Secretaría de Educa- ción, Cultura y Bienestar Social del Estado de México, así como a los representases —uno por subsecreta- ría— de la Subsecretaría de Servicios Educativos del Distrito federal y de la Subsecretaría de Planeación y Coordinación Educativa de la sEp. En este período se integra también un representante de la Federación de Instituciones Mexicanas Particulares de Educación Superior (fIMpEs), instancia que solicita ex profeso su incorporación a diversos Consejos del Ceneval” (Hernández Uralde, 65). Todos son representantes de instituciones clientes del Ceneval y, al mismo tiempo, miembros de la Asamblea de Asociados.

clientes del Ceneval y, al mismo tiempo, miembros de la Asamblea de Asociados. Aboites_120725.indd 372 25/07/12

Aboites_120725.indd

clientes del Ceneval y, al mismo tiempo, miembros de la Asamblea de Asociados. Aboites_120725.indd 372 25/07/12

372

clientes del Ceneval y, al mismo tiempo, miembros de la Asamblea de Asociados. Aboites_120725.indd 372 25/07/12

25/07/12

clientes del Ceneval y, al mismo tiempo, miembros de la Asamblea de Asociados. Aboites_120725.indd 372 25/07/12
clientes del Ceneval y, al mismo tiempo, miembros de la Asamblea de Asociados. Aboites_120725.indd 372 25/07/12

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

373

IV. Los tests y LA CUrvA DE DIstrIbUCIÓN NorMAL o DE CAMpANA

La distribución normal en realidad no existe… hay muchos con- ceptos en matemáticas y en ciencia que nunca han sido verdad y que a pesar de todo dan buenos resultados.

W.L. Hays, 1973: 296

Desde que los matemáticos invadieron la teoría de la relatividad, en realidad yo mismo no la entiendo más.

Alberto Einstein

En México, la selección del paquete teórico-práctico de la medición de la inteligencia heredada no fue una opción principista. Es decir, los evaluadores y funcionarios guber- naentales y directivos de las instituciones de educación superior en general no escogieron esta tecnología de la medición porque estuvieran convencidos de las tesis racistas y dis- criminatorias y de la existencia de “cargas” distintas e inmutables de talento en ciertos grupos humanos. La tenáz adhesión que, sin embargo, profesan a las prácticas de una medición de fuerte contenido discriminatorio nace más bien de la utilidad que este paquete teórico- práctico les proporciona para controlar y, eventualmente, restringir el acceso a la edu- cación. Dentro de ese paquete, uno de los sostenes más importantes es la curva de dis- tribución normal o de campana. Es decir, el segundo rasgo de la teoría de la medición humana que consiste en la posibilidad de alinear uno tras otro, a los participantes en un examen, a partir de diferencias mínimas. De ahí que el análisis del funcionamiento de esta curva resulta crucial para saber por qué para las políticas restrictivas resulta tan útil este instrumento de organización de los resultados de los exámenes.

La “naturaleza” de la curva de distribución normal o de campana

Cualquier persona que revise los resultados de un examen estandarizado del Ceneval se encontrará con que la mayoría de los sustentantes logra resultados medios mientras que un número bastante menor obtiene calificaciones altas y bajas. Por ejemplo, en el examen de 128 reactivos o preguntas de opción múltiple que aplica el Ceneval a los 300 mil jóvenes que pretenden ingresar a la educación media superior en la Ciudad de México (la llamada versión “metropolitana” del Exani-I) se encontrará con que casi dos terceras partes de los jóvenes evaluados (aproximadamente 200 mil) obtiene un número de aciertos cercano a la mitad (64) del total posible (128), mientras que 50 mil logra resultados superiores a 80 aciertos y otros 50 mil tiene una calificación menor a 48 aciertos. Al dibujarse, estos resultados aparecen como una campana o una joroba, un trazo lineal en donde en el centro está la parte más alta (mayor concentración de los resultados de los sustentantes) y a los lados, de manera descendente, un número significativamente menor de sustentantes y sus resultados. Esto puede verse en el Cua- dro 6.2, donde la parte más alta y gruesa aparece precisamente en la mitad —ahí se concentran los resultados de 200 mil jóvenes— mientras que el resto —50 mil del lado

los resultados de 200 mil jóvenes— mientras que el resto —50 mil del lado Aboites_120725.indd 373

Aboites_120725.indd

los resultados de 200 mil jóvenes— mientras que el resto —50 mil del lado Aboites_120725.indd 373
los resultados de 200 mil jóvenes— mientras que el resto —50 mil del lado Aboites_120725.indd 373

373

los resultados de 200 mil jóvenes— mientras que el resto —50 mil del lado Aboites_120725.indd 373

25/07/12

los resultados de 200 mil jóvenes— mientras que el resto —50 mil del lado Aboites_120725.indd 373
los resultados de 200 mil jóvenes— mientras que el resto —50 mil del lado Aboites_120725.indd 373

03:29

374

DE LA EvALUACIÓN A LA MEDICIÓN

derecho y 50 mil de lado izquierdo— se distribuye en forma paulatina y descendente hasta que casi toca piso. Si se analizan luego los resultados de muchos otros exámenes del Ceneval y otras agencias, se descubrirá que prácticamente todos ofrecen la misma distribución de resul- tados. y si se analizan algunos fenómenos naturales, se verá que en no pocos existe una tendencia semejante aunque nunca llegan a cumplir exactamente con la definición mate- mática, que viene a ser perfecta. 32 Al comienzo de la temporada de huracanes (verano), éstos son poco frecuentes, pero al pasar las semanas alcanzan su apogeo en número. Luego comienzan a disminuir y finalmente desaparecen ya avanzado el otoño. Lo mis- mo ocurre con la estatura de los varones en las poblaciones de algunos países o con las emisiones de partículas radioactivas en un periodo de 40 segundos, aunque nunca con la precisión de la curva que vemos en la Gráfica 6.1. Detrás de cada uno de estos fenóme- nos hay una explicación científica de esta regularidad. En el caso de los huracanes, por ejemplo, se dice que el factor dinámico es la temperatura de la superficie del océano que genera masas ascendentes de aire húmedo y caliente (convección) que al encontrarse con el frío en estratos superiores generan turbulencias que al seguirse moviendo sobre el mar absorben aún más energía de la superficie marina y se convierten en huracanes. De ahí que éstos son pocos cuando las aguas apenas comienzan a aumentar su temperatura y se hacen más frecuentes (y poderosos) a medida que en el verano los rayos del sol pegan de manera más directa sobre la superficie. ya entrado el otoño, sin embargo, los rayos del

gráfICA 6.1

La curva de distribución normal o de campana Sustentantes (número de resultados) 4000 2000 0
La curva de distribución normal o de campana
Sustentantes (número de resultados)
4000
2000
0
64
128

Número de aciertos

32 Lo que de manera precisa define a la curva de distribución normal no es la figura de campana sino la función matemática que la genera. Esta función asegura que la curva será perfectamente simétrica, es decir en nuestro caso, que a cada número de aciertos (valor del eje x), corresponde un número específico de sustentantes (densidad esperada) (eje y) del conjunto de éstos (Hays, 1973; Freund, 1967). Esta función se expresa en una ecuación de muy compleja apariencia, pero sus rasgos esenciales se explican en cualquier texto introductorio a la estadística.

rasgos esenciales se explican en cualquier texto introductorio a la estadística. Aboites_120725.indd 374 25/07/12 03:29

Aboites_120725.indd

rasgos esenciales se explican en cualquier texto introductorio a la estadística. Aboites_120725.indd 374 25/07/12 03:29
rasgos esenciales se explican en cualquier texto introductorio a la estadística. Aboites_120725.indd 374 25/07/12 03:29

374

rasgos esenciales se explican en cualquier texto introductorio a la estadística. Aboites_120725.indd 374 25/07/12 03:29

25/07/12

rasgos esenciales se explican en cualquier texto introductorio a la estadística. Aboites_120725.indd 374 25/07/12 03:29
rasgos esenciales se explican en cualquier texto introductorio a la estadística. Aboites_120725.indd 374 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

375

sol no caen directos sobre el agua, ésta pierde calor y baja la frecuencia de los huracanes hasta que finalmente desaparecen. En el caso de los resultados de un examen, la curva podrá ser semejante, pero éstos no tienen el soporte de una explicación científica de su regularidad. Como se recordaba párrafos atrás en este capítulo (y en el 5), Spearman y otros sostienen que las personas tienen una carga de talento innata y diferente cada uno y que el test lo que hace es des- cubrir el nivel en que existe esa dotación en cada persona, pero es una hipótesis que no intenta siquiera explicar por qué necesariamente habría un grado mayor de personas con una carga de inteligencia mediana y sólo unos cuantos superiores, y, lo más importante, casi 100 años más tarde la existencia misma de esa energía g no ha podido ser com- probada. Al mismo tiempo, ya en el capítulo 5 se mostraba que los mismos medidores habían encontrado que el resultado que se obtiene en los tests está más relacionado a cuestiones como las condiciones socioeconómicas de las personas que a alguna Aptitud

o energía misteriosa. Cabe entonces preguntarse, ¿por qué entonces los tests de los medidores ofrecen resultados que asumen una y otra vez la misma distribución de campana, con una regu- laridad sorprendente, como si hubiera detrás un factor poderoso y determinante? ¿No es esa asombrosa regularidad la prueba suprema de que efectivamente existe “algo” (talento, Aptitud, inteligencia, como quiera llamársele) en un grado distinto en cada persona? ¿No prueba que, además, está distribuida en forma tal que la mayoría tiene ese algo sólo me- dianamente? Si no, ¿qué explica entonces que todos los exámenes tengan resultados que adoptan una distribución igual? La respuesta es simple, aunque no deja de ser sorprendente: los exámenes estanda- rizados de opción múltiple logran resultados que se agrupan en la forma casi perfecta de una curva de campana porque el test lo elaboran los medidores de tal manera que pro- duzca precisamente esa distribución. Es una curva artificial. Hacer un examen que genere una curva de campana requiere del esfuerzo y empeño de los medidores, pero no de un factor misterioso y poderoso. De hecho, no es difícil aunque sí una tarea que requiere paciencia, pero cualquiera puede hacer que los resultados de un examen asuman precisa- mente esa distribución. Para eso se debe tener en cuenta que es posible diseñar un examen donde la mayoría de los jóvenes de secundaria obtengan un alto número de aciertos, basta utilizar preguntas que sean de fácil respuesta. Como identificar el nombre del principal héroe de la independencia, por ejemplo; el año de inicio del proceso de la independencia del país; el nombre del presidente y de la capital de la República y otras semejantes. y una vez que se obtienen los resultados se verá que puesto que son muy fáciles éstos no se agruparán en forma de una curva de campana sino aparecerán amontonados en el extremo derecho de la escala del 0 al 128, como se ve en la Gráfica 6.2. Nadie obtuvo 64 aciertos

y muchos casi alcanzan 128. Es también posible imaginar que si en otro examen todas las preguntas son más difí- ciles (identificar, por ejemplo, el número de municipios en el país, el mes y año en que se firmó el acta de independencia, el nombre del primer presidente de la República y otras de nivel semejante), los resultados tampoco se ordenarán en una distribución de campana. La gran mayoría (muy bajos), se concentrarán en la parte izquierda, hacia el cero, exac- tamente lo contrario de lo que ocurre con la figura que aparece en la Gráfica 6.2.

tamente lo contrario de lo que ocurre con la figura que aparece en la Gráfica 6.2.

Aboites_120725.indd

tamente lo contrario de lo que ocurre con la figura que aparece en la Gráfica 6.2.
tamente lo contrario de lo que ocurre con la figura que aparece en la Gráfica 6.2.

375

tamente lo contrario de lo que ocurre con la figura que aparece en la Gráfica 6.2.

25/07/12

tamente lo contrario de lo que ocurre con la figura que aparece en la Gráfica 6.2.
tamente lo contrario de lo que ocurre con la figura que aparece en la Gráfica 6.2.

03:29

376

DE LA EvALUACIÓN A LA MEDICIÓN

grAfICA 6.2

La distribución de resultados de un examen de bajo grado de dificultad

de resultados de un examen de bajo grado de dificultad 0 6 4 Número de aciertos

0

64

Número de aciertos

128

Una curva de campana se logra entonces al combinar preguntas con un alto y un bajo grado de dificultad, y agregando, además, un buen número de preguntas con un grado de dificultad intermedio. 33 Cuando esto se hace, entonces los resultados tenderán a agrupar- se en forma de una campana en el centro de la escala, como aparece en la Gráfica 6.1. Es decir, la mayoría obtendrá poco más o menos 64 aciertos, mientras que un número más reducido tenderá a tener más aciertos (80 o más) y otro número también reducido tenderá a tener menos aciertos (48 o menos). Para conseguir esto, los medidores deben aplicar pruebas preliminares para asegurarse de que el examen va a dar resultados que reflejen a la perfección la figura de una campana (como en la Gráfica 6.1). Si el examen resultó más fácil de lo que imaginaban, la campana no tiene el centro en el 64 sino un poco más a la derecha. y esto se puede corregir sustituyendo algunas preguntas fáciles por otras más difíciles. 34 Luego deben hacer otra prueba piloto y así sucesivamente hasta

33 “Grado de dificultad” o “dificultad de un ítem” se entiende como “la proporción de personas que res- ponde correctamente un reactivo”. Un reactivo con un grado de dificultad de 20 (o de .20) —también se conoce como p=20)— es un reactivo difícil porque sólo una proporción del 20% pudo responderlo acertadamente; una p de 80% obviamente significa que es mucho más fácil. Un test debe contener reactivos con diferente grado de dificultad para ser capaz de diferenciar a los distintos sustentantes y crear la curva de campana. El “índice de discriminación” se obtiene mediante un procedimiento estadístico cuyo resultado puede estar entre el 0.0 en el nivel más bajo y el 1.0 en el nivel más alto —aunque pueden darse valores negativos—. Expresa el grado en que un reactivo —o en promedio, un grupo de reactivos— es capaz de diferenciar entre los que obtienen un número mayor de aciertos y los que obtienen el más bajo número de aciertos. En la situación ideal, un reactivo tiene un poder 1.0 de diferenciación si sólo pueden responderlo aquellos con más alto número de aciertos y no los que tienen bajas calificaciones en el resto del test. Por tanto un índice de discriminación de .10 es sumamente bajo. Lo que significa que no es un muy buen examen psicométricamente hablando y las respuestas dependen más del azar que de la capacidad de las personas (veáse www.estadistico.com).

34 El total del banco de reactivos disponible está clasificado al menos en tres grandes grupos: reactivos fáciles, difíciles y regulares. Así, si debe sustituir un reactivo fácil por uno difícil en, digamos, Historia, van a la “bolsa” de reactivos de esa materia y escogen uno del casillero de los “difíciles”.

de reactivos de esa materia y escogen uno del casillero de los “difíciles”. Aboites_120725.indd 376 25/07/12

Aboites_120725.indd

de reactivos de esa materia y escogen uno del casillero de los “difíciles”. Aboites_120725.indd 376 25/07/12
de reactivos de esa materia y escogen uno del casillero de los “difíciles”. Aboites_120725.indd 376 25/07/12

376

de reactivos de esa materia y escogen uno del casillero de los “difíciles”. Aboites_120725.indd 376 25/07/12

25/07/12

de reactivos de esa materia y escogen uno del casillero de los “difíciles”. Aboites_120725.indd 376 25/07/12
de reactivos de esa materia y escogen uno del casillero de los “difíciles”. Aboites_120725.indd 376 25/07/12

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

377

que tienen la seguridad de que casi siempre lograrán una curva de campana casi perfecta. Es decir, cuando consiguen acertar a la mezcla correcta de preguntas fáciles, difíciles e intermedias para esta población de sustentantes. Esta curva, por cierto, recibe también el nombre técnico de “curva de distribución normal o estandarizada” porque está ajustada al propósito, es decir, a la norma o estándar de formar una curva de campana, y el examen que genera esta curva se llama “estandarizado” por la misma razón. 35 Los propios organizadores del examen único de la Ciudad de México confirman lo anterior, cuando dicen que el examen “está compuesto con preguntas que tienen diferentes niveles de dificultad, desde fáciles hasta difíciles, de tal manera que el instrumento sea capaz de identificar desde los sustentantes menos aptos hasta los más aptos…” (Comipems, 1997b: 2). y expresamente dice el Ceneval que los exámenes están hechos de manera que se obtengan resultados que en su mayoría se concentran en medio, es decir, cercanos al promedio de aciertos. El Exani-I—para el acceso a educación media superior— “está dise- ñado para que el promedio de [los resultados] de la población se ubique alrededor del 50% de aciertos…” (Ceneval, 1996: 22), es decir, lo que se ve en la Gráfica 6.1. y todavía en otras palabras, el encargado de la elaboración del Exani-I, confirma que “de acuerdo con estas reglas de diseño, es previsible que la mayoría de los sustentantes alcance un número de aciertos cercano a la mitad del total de preguntas del examen que es el promedio de aciertos que se espera obtenga la totalidad de la población que lo sustenta” (Hernández Uralde, 2004: 73). Aunque en un lenguaje no exactamente claro lo que dicen los medidores confirma lo que señalábamos párrafos atrás: que la notable perfección y consistencia de los da- tos examen tras examen no muestran la distribución de algún escondido talento en las personas sino más bien el esfuerzo que han hecho ellos por encontrar la combinación acertada de preguntas con diverso grado de dificultad que generen una curva normal lo más impecable posible. En otras palabras, la curva de distribución normal puede estar inspirada en la re- gularidad con la que se presentan ciertos fenómenos (huracanes, estatura, emisión de

35 También existen exámenes que no están diseñados para que los resultados se concentren en el centro y

generen una curva de campana, sino que son más “libres” en el sentido de que únicamente fijan un criterio (de ahí que se conocen como exámenes de criterio o criteriales). Se trata de un tope mínimo de conocimien- tos que debe tener la persona para aprobar, y puede darse el caso de que —dependiendo de lo estricto del criterio— muchos lo aprueben. Agencias como el Ceneval también elaboran este tipo de exámenes aunque

lo hacen utilizando preguntas o reactivos de opción múltiple y por eso pueden aparecer como si fueran los

tests estandarizados o apegados a la norma (que generan una curva normal). Un ejemplo de exámenes de

criterio con tests de opción múltiple son los exámenes nacionales de egreso de la licenciatura, EgEL, que

se discuten en los capítulos 10 y 11. Quienes alcanzan determinado número de aciertos quedan en el nivel

de “suficiente” y quienes logran acercarse al número más alto posible, en el nivel de “alta competencia”

o “alto rendimiento.” Esta gradación, sin embargo, implica que —como en los tests estandarizados —se

utilizaran también reactivos que generen una diferenciación aun entre los que rebasan el criterio mínimo aprobatorio. Es decir, que este tipo de exámenes puede ser utilizado para diferenciar. Por ejemplo, en la Guía del Examen egel Pedagogía Ciencias de la Educación (Ceneval, 2000: 4), se establece que “se acordó que este examen sea de naturaleza criterial para calificar el logro de las competencias incluidas en él, lo que permitirá comparar el puntaje obtenido por el sustentante con los estándares de calidad establecidos. También es un examen referido a la norma, lo que permitirá establecer comparaciones entre sustentantes, instituciones y regiones del país”.

establecer comparaciones entre sustentantes, instituciones y regiones del país”. Aboites_120725.indd 377 25/07/12 03:29

Aboites_120725.indd

establecer comparaciones entre sustentantes, instituciones y regiones del país”. Aboites_120725.indd 377 25/07/12 03:29

377

establecer comparaciones entre sustentantes, instituciones y regiones del país”. Aboites_120725.indd 377 25/07/12 03:29

25/07/12

establecer comparaciones entre sustentantes, instituciones y regiones del país”. Aboites_120725.indd 377 25/07/12 03:29
establecer comparaciones entre sustentantes, instituciones y regiones del país”. Aboites_120725.indd 377 25/07/12 03:29

03:29

378

DE LA EvALUACIÓN A LA MEDICIÓN

partículas) que tienen una explicación científica, pero en sí misma no revela la existencia de algún poder, es un mero artificio técnico. “No hay nada mágico en la distribución normal” dice un experto, es simplemente, “un concepto matemático idealizado” que sirve para representar un fenómeno. 36 Los medidores, sin embargo, prefieren no decir clara- mente que las diferencias que aparecen entre los individuos en la distribución normal no necesariamente o en su totalidad son debidas a los niveles distintos de conocimiento que existan entre quienes presentan el examen, sino al propio esfuerzo que ellos (los medido- res) han hecho por hacerlas aparecer, en el afán por construir esta curva. Como se decía arriba, son diferencias en gran medida artificiales y cuyo solo propósito, como se verá más adelante, es el de controlar y dosificar la demanda por un lugar en la educación.

El imperativo de la distribución normal

El uso de la distribución normal, sin embargo, impone un alto precio a la evaluación. Cuando la prioridad es obtener la curva normal perfecta en cada examen, la verdadera evaluación académica queda en un remoto segundo plano. Como hemos visto, los medidores tienen el doble desafío de encontrar preguntas o reactivos que al mismo tiempo que generan una curva de distribución normal también midan el grado de informaciones y habilidades que tiene el sustentante. Como dicen los medidores, el conjunto de reactivos y cada reactivo debe:

1. Representar adecuadamente los aprendizajes considerados [habilidades e informaciones],

2. Mantener un grado de dificultad equivalente al del examen en su conjunto; es decir, que el

promedio de aciertos de la totalidad de la población sustentante sea de 50% del total de pre- guntas de cada sección… Incluir preguntas de una amplia gama de dificultad, desde las muy fáciles hasta las muy difíciles, con el propósito de medir la capacidad de los sustentantes con una escala lo suficientemente amplia que haga posible identificar a los sustentantes de bajo, medio y alto desempeño, y diferenciarlos según las habilidades y conocimientos que poseen (Hernández Uralde, 2004: 73).

Estas son las llamadas “reglas de ensamble” o criterios de construcción de los exá- menes pero frecuentemente son incompatibles y hasta contradictorios. Las contradicciones surgen porque el imperativo de la curva perfecta presiona al uso de reactivos que a pesar de no ser los mejores para evaluar informaciones y habili- dades, son más adecuados para generar la curva deseada. Lo que significa que si bien en el examen se incluyen reactivos o preguntas que se refieren a temas académicos, en

36 La cita completa es la siguiente “la distribución normal es una teoría acerca de lo que podría ser verdadero en la relación entre intervalos de ciertos valores y probabilidades respecto de alguna variable. No hay nada mágico en la distribución normal, sucede que es sólo una de las distribuciones teóricas que han sido estudiadas y que resultan útiles como un concepto matemático idealizado. Las distribuciones nor- males no existen en la realidad y en situaciones concretas lo más cerca que podemos llegar a encontrar una distribución normal nunca corresponderá a los requisitos de la distribución matemática. Muchos conceptos en matemáticas y ciencia que nunca son verdad, dan sin embargo buenos resultados” (Hays, 1973: 296. Cursivas nuestras).

verdad, dan sin embargo buenos resultados” (Hays, 1973: 296. Cursivas nuestras). Aboites_120725.indd 378 25/07/12 03:29

Aboites_120725.indd

verdad, dan sin embargo buenos resultados” (Hays, 1973: 296. Cursivas nuestras). Aboites_120725.indd 378 25/07/12 03:29
verdad, dan sin embargo buenos resultados” (Hays, 1973: 296. Cursivas nuestras). Aboites_120725.indd 378 25/07/12 03:29

378

verdad, dan sin embargo buenos resultados” (Hays, 1973: 296. Cursivas nuestras). Aboites_120725.indd 378 25/07/12 03:29

25/07/12

verdad, dan sin embargo buenos resultados” (Hays, 1973: 296. Cursivas nuestras). Aboites_120725.indd 378 25/07/12 03:29
verdad, dan sin embargo buenos resultados” (Hays, 1973: 296. Cursivas nuestras). Aboites_120725.indd 378 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

379

realidad su función preponderante no es hacer esa evaluación. Además, quienes diseñan este tipo de exámenes conocen con precisión estadística decimal el grado de dificultad de cada reactivo, pero no tienen un instrumento con la exactitud remotamente semejante para evaluar qué reactivo representa mejor el campo de conocimiento o la habilidad que se quiere medir. Para lo primero, los medidores aplican varias pruebas piloto y analizan las respuestas a ese reactivo por parte de cientos o miles de sustentantes y de ahí derivan la estabilidad en las respuestas y mediante el cómputo del porcentaje de aquellos que respondieron correctamente, el grado de dificultad que el reactivo tiene. 37 Mucho más complicado y bastante menos objetivo es medir el grado en que un reactivo concreto sirve para verificar la presencia de una habilidad general o una infor- mación específica. No existe una técnica estadística que ofrezca esa información, sino un mecanismo artesanal. Un grupo de expertos en historia prehispánica, por ejemplo, considera que es mejor el reactivo que en conjunto evalúa sobre las distintas culturas indígenas que existían en el prehispánico. Otro grupo, sin embargo, puede decidir que es mejor preguntar algo muy específico, como el sistema aritmético que utilizaban los mayas, una de las muchas culturas. Pero como puede darse cuenta el lector el juicio es muy discrecional. Semejante discrecionalidad aparece también en el caso de los reactivos destinados a medir la habilidad verbal o vocabulario. Se decide por ejemplo que tiene más habilidad verbal quien considera que “falso” es similar a “fraudulento” y sin embargo “falso” puede o no ser “fraudulento”. 38 Es falso que exista Santa Claus, pero sólo se vuelve un asunto fraudulento cuando se le hace pasar por verdadero para obtener una ventaja, como aumentar el consumo navideño. Un análisis de estos exámenes muestra que en realidad importa muy poco qué tan correcta es la información a evaluar, es más importante que el estudiante pase una serie de obstáculos que se ha demostrado tienen un grado de dificultad determinado y —se supone— estable. Todo esto introduce en la medición precisa de los “procesos cognitivos esenciales” un error o distorsión difícil de conocer con exactitud. Peor aún, la selección de este o aquel reactivo para ser incluido en un test no depende en último término de los expertos académicos, sino de los técnicos ensambladores del examen. En el ejemplo anterior del examen de ingreso al bachillerato, una vez que los expertos historiadores han dictaminado que son representativos del periodo prehispánico tanto un reactivo sobre el sistema numérico de los mayas como el de las características que tenían las culturas existentes antes de la conquista, la decisión de cuál es más conveniente que aparezca en el examen no corresponde a ellos, sino a los técnicos medidores encar- gados de ensamblar el examen. Éstos los seleccionan con base en el grado de dificultad.

37 Una pregunta que se pretende utilizar como reactivo en un examen normativo se prueba primero incorporándolo —sin decirlo— en los exámenes regulares para averiguar cuántas personas la responden co- rrectamente. A partir del número de personas que la contestan correctamente en los exámenes se determina estadísticamente el valor o grado de dificultad que ésta tiene, como lo explicábamos en la nota 33.

38 El reactivo pide se identifique cuál es el vocablo más similar al que aparece en la base o encabezado de

la pregunta y es como sigue: “Los asuntos falsos no caben en nuestra empresa: a) insignificantes; b) legales;

c) decadentes; d) auténticos; e) fraudulentos.” Se supone que la respuesta correcta es “fraudulentos”, pero un documento puede ser falso y sólo se vuelve fraudulento cuando se utiliza para sacar provecho indebido

o ilegal. Aboites_120725.indd 379
o ilegal.
Aboites_120725.indd
379
se vuelve fraudulento cuando se utiliza para sacar provecho indebido o ilegal. Aboites_120725.indd 379 25/07/12 03:29

25/07/12

se vuelve fraudulento cuando se utiliza para sacar provecho indebido o ilegal. Aboites_120725.indd 379 25/07/12 03:29
se vuelve fraudulento cuando se utiliza para sacar provecho indebido o ilegal. Aboites_120725.indd 379 25/07/12 03:29

03:29

380

DE LA EvALUACIÓN A LA MEDICIÓN

Por ejemplo, en 1997 el Ceneval utilizaba el siguiente reactivo para medir la fami- liaridad del sustentante con el periodo prehispánico en lo que hoy es territorio mexicano.

La cultura maya aportó a la humanidad conocimientos astronómicos y arquitectónicos que tenían un sustento matemático en el sistema:

a) binario

b) decimal

c) duodecimal

d) vigesimal

e) sexagesimal

(Ceneval, 1997e: 44).

Aunque no sabemos el grado de dificultad que tiene esta pregunta —el Ceneval no da a conocer esa información— no parece una pregunta fácil para los egresados de secunda- ria. Suponemos que se decidió incluirla porque resultó necesario aumentar el número de reactivos con mayor dificultad. Pero precisamente por ser una pregunta muy específica, desde el punto de vista de una evaluación académica no es muy buena porque en lugar de inquirir acerca de una visión amplia sobre el periodo se concentra en un detalle que dice mucho sobre la memoria del concursante. Muchas aplicaciones y años más tarde probablemente se decidió que era necesario utilizar reactivos más fáciles en el examen de ingreso al bachillerato y en el caso del tramo prehispánico —sólo hay un reactivo para cada periodo histórico— éste cambió. En 2004 aparece una pregunta que explora la información que posee el estudiante sobre el panorama de las culturas originarias en ese tramo histórico. El nuevo reactivo dice así:

Relaciona las culturas del México prehispánico de la columna izquierda con la característica que les corresponde:

Culturas

Características

1)

Tolteca

a) Influyó en una vasta extensión del territorio mexicano, por lo cual se le ha

2)

Chichimeca

llamado cultura madre.

3)

Teotihuacana

b) Fundó la primera gran ciudad-centro religioso, de dimensiones monumenta- les, a la que se ha llamado ciudad de los dioses

 

c) Fue integrada por nómadas y guerreros que venían del norte de México y que no habían construido grandes ciudades ni centros ceremoniales.

d) Integró elementos de las culturas clásicas del centro de México y desde la ciudad de Tula ejerció una fuerte influencia en Mesoamérica.

a)

1a, 2d, 3b; b) 1d, 2b, 3c; c) 1b, 2c, 3d; d) 1c, 2d, 3a; e) 1d, 2c, 3b

(Ceneval, 2004b: 54).

No es aventurado afirmar que este es un reactivo que por la visión panorámica que plantea resulta más adecuado para explorar la información que el sustentante posee sobre el periodo y por eso, mejor desde el punto de vista de validez estrictamente académica.

y por eso, mejor desde el punto de vista de validez estrictamente académica. Aboites_120725.indd 380 25/07/12

Aboites_120725.indd

380
380
y por eso, mejor desde el punto de vista de validez estrictamente académica. Aboites_120725.indd 380 25/07/12

25/07/12

y por eso, mejor desde el punto de vista de validez estrictamente académica. Aboites_120725.indd 380 25/07/12
y por eso, mejor desde el punto de vista de validez estrictamente académica. Aboites_120725.indd 380 25/07/12

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

381

Sin embargo este reactivo sufre las consecuencias de estar encajonado en un test estan- darizado y subordinado a sus requisitos técnicos. Porque aquí, el joven —y el lector o lectora de este libro— primero debe definir visualmente qué elemento de una columna corresponde al de la otra y después registrar su respuesta en el lenguaje alfa-numérico que se encuentra más abajo de las columnas y esto representa una mayor dificultad. Se trata de un denso paquete de incisos, números y letras que expresan de manera más abstracta las opciones de respuesta. Para el sustentante —y el lector que quiera hacer la prueba— sería más sencillo tomar el lápiz y trazar una línea entre cada cultura y su respectiva descripción en la columna opuesta, de esa manera quedaría muy claro si conoce la respuesta. Sin embargo esto no es posible en un test estandarizado porque un reactivo que aparece en la hoja de respuestas sin un círculo marcado no cuenta. Con el formato que tiene el reactivo sobre las tres cul- turas, no se sabe si quien responde erróneamente a la pregunta lo hace porque no conoce las culturas prehispánicas o porque se confundió con las complejas y abstractas series alfanuméricas en cada opción de respuesta. y la evaluación es sobre culturas indígenas no sobre su familiaridad con las secuencias de letras y números. Cabe hacer notar que para dar este muy pequeño paso hacia una pregunta que presen- te una visión más comprensiva de un periodo histórico, los medidores se ven obligados a dejar de ceñirse estrictamente al formato usual —una muy breve pregunta o encabezado y cinco opciones cortas de respuesta— y utilizar un esquema de dos columnas que deben relacionarse. Con esto alteran el ritmo y velocidad con que el sustentante contesta el exa- men por lo que no pueden introducir más de estas preguntas so pena de que se alargue el tiempo promedio necesario para procesar el resto de los reactivos. Esto indica que cualquier intento más serio por hacer preguntas con un formato distinto para lograr mayor profundidad en todo el examen sería intolerable para la hor- ma tan estrecha de la tecnología de la opción múltiple. y aun con esta innovación la pregunta no se escapa de una característica de los exámenes estandarizados: su fuerte tendencia a utilizar preguntas donde todo el quehacer del sustentante consiste sólo en identificar la información correcta. A pesar del esfuerzo por hacer menos rígida la pregunta sobre las culturas originarias ésta no puede incluir algún análisis u otra forma mediante la cual el estudiante demuestre que en su formación previa se ha apropiado del tema. Igual podría preguntarse sobre la dinastía Ming en China, que no tiene mu- cho que ver con la formación de los jóvenes mexicanos. La prioridad de los exámenes de opción múltiple no se centra tanto en una exploración de cómo esta noción concreta contribuye a la formación del joven, sino en constatar que el evaluado puede identificar este dato concreto. Enfrentados a la complejidad de un mundo de múltiples inteligencias y habilidades donde lo importante es la formación y no la información, e incapaces de resolver este desafío sin vulnerar su compromiso con la curva de distribución normal, los medidores optan por ir a lo seguro, es decir, asumir que cualquier reactivo que ha sido calificado con el mismo grado de dificultad —a pesar de que cognitivamente pueda ser muy distinto de otros— mide de la misma manera y con la misma exactitud. De tal manera que reac- tivos que son excelentes desde el punto de vista estadístico, no lo son desde el punto de vista de una evaluación académica satisfactoria. Por eso en este tipo de exámenes existen

una evaluación académica satisfactoria. Por eso en este tipo de exámenes existen Aboites_120725.indd 381 25/07/12 03:29

Aboites_120725.indd

381
381
una evaluación académica satisfactoria. Por eso en este tipo de exámenes existen Aboites_120725.indd 381 25/07/12 03:29

25/07/12

una evaluación académica satisfactoria. Por eso en este tipo de exámenes existen Aboites_120725.indd 381 25/07/12 03:29
una evaluación académica satisfactoria. Por eso en este tipo de exámenes existen Aboites_120725.indd 381 25/07/12 03:29

03:29

382

DE LA EvALUACIÓN A LA MEDICIÓN

innumerables reactivos que son de una trivialidad sorprendente, confusos e incluso con evidentes inexactitudes. En el caso de matemáticas aparece la misma indiferencia res- pecto de lo que debería ser lo prioritario —la evaluación de la formación—. Un estudio sobre los reactivos que se utilizan para evaluar esta disciplina concluye que “seis de los doce corresponden al programa de primero de secundaria”. Por ser un examen al final de secundaria —agregan los autores— “debería incluirse todas las áreas fundamentales de estudio de cada asignatura” que obviamente no se cubren en el primer grado. El mismo grupo de investigadores 39 analizó el examen único del Ceneval y sus guías y encontró que “no hay ningún reactivo correspondiente al área de tratamiento de información, una de las cinco áreas del conocimiento fundamentales en el currículo de secundaria” (Rivera Figueroa, Antonio, et al., 2006: 74). Algunos reactivos con varias respuestas correctas, sin respuesta correcta o con graves inexactitudes de información, que analizaremos en el capítulo 9, constituyen una prueba adicional de que el énfasis no está en medir lo mejor posible las habilidades e informaciones sino en proveer de reactivos que precisamente porque son triviales, irrelevantes e incluso erróneos contienen los grados necesarios de dificultad para lograr una curva de distribución normal. Es decir, que la evaluación de “lo esencial”, de las habilidades, de la Aptitud, resulta no ser lo prioritario. Los medidores prefieren poner en primer plano la maravilla de la regularidad “cien- tífica” que significa la aparición una y otra vez de la curva de campana, dejan en la pe- numbra el hecho de que no hay seguridad de que el test realmente mida lo que se supone debe medir. Insisten en que el test tiene confiabilidad (es decir que mide bien) porque tras repetidas aplicaciones tiende a generar una curva de distribución normal, pero no dicen mucho acerca de qué tan válido es lo medido, es decir, si mide lo que debería medir, cuestiones académicas significativas. 40 En otras palabras, las medidas que se tomaban a los cráneos en el siglo xIx eran con- fiables porque se llevaban a cabo con extrema precisión, pero por más exactas que fuera la medida, eso no significaba que se estuviera midiendo la inteligencia de la persona dueña del cráneo. Es decir, que de la belleza y perfección estadística de la curva normal no es posible derivar que efectivamente se esté midiendo la Aptitud. 41 Esta es una distinción crucial que los medidores no gustan de exponer a la luz pública. En ocasiones, sin embargo, admiten a regañadientes y en estudios poco conocidos que la cuestión de la validez no ha sido su prioridad. Una década después de haber comenzado

39 Se trata de los investigadores Antonio Rivera Figueroa (Cinvestav, Departamento de Matemáticas Educativas); M. Lourdes Guerrero Magaña, y Armando Sepúlveda López (ambos de la Facultad de Ciencias Físico Matemáticas, Universidad Michoacana de San Nicolás de Hidalgo), e Iñaqui de Alaizola Arizmendi (Departamento de Tecnología y Producción, UAM-X) (veáse Rivera Figueroa, Antonio, et al., 2006: 85).

40 El test obviamente es una abstracción de “lo que debe conocerse, lo que es necesario conocer”, una creación de la mente de los evaluadores que regresa cosificada como si tuviera existencia y valor por sí misma. Por innumerables que sean las aplicaciones que se hagan esto no significa un gramo más de validez. Seguirá estando tan distante de la realidad —salvo ajustes mínimos— como lo fue inicialmente.

41 Otra manera de entender qué quieren decir los medidores cuando hablan de “confiabilidad” es retomar el ejemplo de Burns: “si se construye un test que consiste en medir la altura de las personas y los resultados son utilizados como un índice de inteligencia o para determinar el talento de la persona, los resultados son confiables, pero no válidos. Son confiables en el sentido de que las mediciones fueron muy precisas, pero no son válidos porque la altura de una persona no pueden considerarse como índice de inteligencia” (Burns: 131).

de una persona no pueden considerarse como índice de inteligencia” (Burns: 131). Aboites_120725.indd 382 25/07/12 03:29

Aboites_120725.indd

382
382
de una persona no pueden considerarse como índice de inteligencia” (Burns: 131). Aboites_120725.indd 382 25/07/12 03:29

25/07/12

de una persona no pueden considerarse como índice de inteligencia” (Burns: 131). Aboites_120725.indd 382 25/07/12 03:29
de una persona no pueden considerarse como índice de inteligencia” (Burns: 131). Aboites_120725.indd 382 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

383

a aplicar este examen de ingreso en todo el país, los medidores confiesan que en el Ceneval

existe una “ausencia de estudios formales sobre la validez del contenido del examen.” 42 Es decir, que después de aplicar a varios millones de personas el examen de ingreso a la educación media superior admiten que no ha existido la preocupación por estudiar si los reactivos sobre habilidades e informaciones realmente están midiendo el grado en que la persona domina esas áreas de conocimiento y si tiene las habilidades que reflejan la Ap- titud para ingresar al bachillerato. Ojalá esta ausencia fuera una simple cuestión de falta de interés o simple irresponsabilidad —porque entonces tendría remedio—, pero no es así. En el fondo —explica un autor— ocurre que esta es una tarea casi imposible porque “es sumamente difícil obtener evidencia sólida acerca de la validez de los tests que se usan en educación” (Ebel, 1972: 448). Esta es una razón por la que se prefiere no indagar mucho sobre la validez y enfatizar, como especie de compensación, la confiabilidad. Se refuerza así la verdadera prioridad del examen. Su función primordial es ordenar en una sola línea a los demandantes de educación y tratándose de ingresar a centros de estudio escuelas, resulta apropiado utilizar algo que dé la impresión de “científico” y académico para que legitime el orden en que se establece la fila de personas. En una oficina burocrática la línea de espera frente a la ventanilla se crea con base en el orden de llegada. Pero en el ingreso a la educación media superior y superior utilizar ese criterio u otro (como el sorteo) desmerecería del glamour y prioridad académica que se supone debe tener el ser admitido a una escuela. Sería demasiado trivial. Para darle la pompa y solemnidad que lo legitimen, el orden en la fila se hace depender de la respuesta a algunas decenas de preguntas cuyo valor académico en realidad no importa demasiado, pero crea la ilusión de que se utiliza sobre todo un criterio académico para seleccionar a “los mejores”. Los mismos organizadores de los procesos de ingreso a la educación media superior y superior lo confirman cuando

descuidadamente señalan que en realidad “no es un examen de admisión, sino de distribu- ción, que permite ubicar a cada aspirante…” (Olmedo Badía, citado por Roldán, 2007: 16).

El papel del grupo de referencia

Otro importante problema de un examen estandarizado o sujeto a la norma de la curva

de campana es de su representatividad. Es decir, qué tan apropiado es para medir válida

y confiablemente a poblaciones diferentes. Como se veía en la segunda parte del capí-

tulo 5, el maestro que hace un examen y lo aplica a sus 40 estudiantes sabe que el test está mal diseñado si resulta que quienes sólo son estudiantes regulares aparecen como los mejores del grupo. Tiene que usar otros reactivos. Pero cuando se trata de diseñar una prueba nacional, en un país con más de 100 millones de habitantes, con decenas de miles de escuelas, millones de estudiantes, numerosos de planes de estudio distintos,

42 El funcionario citado del Ceneval señala que “entre los principales asuntos por resolver en el horizonte del Exani-I como instrumento de medición; uno… tiene que ver con la necesidad de fortalecer la validez del examen…” (Hernández Uralde, 2004: 81). y todavía llama más la atención que se reconoce abiertamente que no ha habido siquiera preocupación por atender este punto crucial. Se reporta que en el Ceneval se han detectado “debilidades en ámbitos relevantes” y el primero es “la ausencia de estudios formales sobre la validez de contenido del examen” (Hernández Uralde, 2004: 71).

formales sobre la validez de contenido del examen” (Hernández Uralde, 2004: 71). Aboites_120725.indd 383 25/07/12 03:29

Aboites_120725.indd

383
383
formales sobre la validez de contenido del examen” (Hernández Uralde, 2004: 71). Aboites_120725.indd 383 25/07/12 03:29

25/07/12

formales sobre la validez de contenido del examen” (Hernández Uralde, 2004: 71). Aboites_120725.indd 383 25/07/12 03:29
formales sobre la validez de contenido del examen” (Hernández Uralde, 2004: 71). Aboites_120725.indd 383 25/07/12 03:29

03:29

384

DE LA EvALUACIÓN A LA MEDICIÓN

con culturas regionales e indígenas por docenas, trópicos, desiertos, fronteras, población rural y urbana, con sectores muy modernos y jóvenes que asisten a las escuelas de la periferia de las grandes ciudades, el evaluador está a ciegas. Aplicará tal vez exámenes de prueba buscando aquellos reactivos más apropiados para lograr la curva normal pero una vez que tiene la base de preguntas necesaria para lograrla (es decir, un examen con- fiable) no tiene manera fácil de saber qué tanto realmente está midiendo (es decir, qué tan válido es su examen) y si está midiendo lo mismo en una población tan diversa. Lo que tendría que hacerse sería una compleja muestra nacional de miles de estudiantes, lo más representativa posible de la población general de potenciales sustentantes del examen en el país, a fin de que la evaluación sea equitativa y se sepa si realmente las preguntas miden las habilidades e informaciones claves, en temas que les son familiares y sin ses- gos culturales. En esa muestra debería estar representada toda la diversidad de la nación. Una vez que se tiene esta enorme y compleja muestra nacional hay que aplicarle sucesivamente el test a fin de irlo calibrando y comparar los resultados que se obtienen con grupos diversos, de tal manera que mida igual a todos los grupos representados en la muestra, sin dar ventaja indebida a ciertos grupos o segmentos de la población. Esto se dice fácil pero es sumamente complicado porque habrá reactivos y palabras que son muy comprensibles en una región o para un grupo, pero no lo son tanto en otras regiones

o para otro grupo cultural o socioeconómico. Entonces deben eliminarse y buscar reac-

tivos “neutros” que puedan ser respondidos en la misma proporción en todas partes. eso

sin atender a las diferencias culturales; es muy difícil, porque los sesgos culturales son muchas veces imperceptibles y en un esfuerzo por hacer un examen neutro se corre el riesgo de tener reactivos que miden poco o casi nada de las informaciones o habilidades

y si se hace un examen tutti frutti, donde hay reactivos para todos, pierde en profun-

didad y validez. De tal manera que después de todo el laborioso proceso de hacer esta compleja muestra, los resultados pueden ser decepcionantes porque no se logra un test realmente único o pluricultural. Decepcionantes, además, porque aunque puede ser que se atine finalmente con un test que produce una distribución normal, no se sabe qué tanto

representa la pluralidad del país o más bien la habilidad de los medidores para lograr una vez más —sin prestar demasiada atención a lo que miden los reactivos— resultados que se agrupen como una curva de distribución normal. A diferencia del maestro que decide hacer él mismo un examen, que conoce directamente a sus estudiantes y que puede ver si

el examen realmente mide con precisión a todos, los medidores no pueden tener una cer-

teza semejante dada la enorme diversidad que hay en un país que bien a bien no conocen.

El discutible atajo del Ceneval: no hacer un muestreo nacional

En los hechos, el Ceneval ni siquiera tuvo que enfrentar estos problemas. No se ocupó de elaborar los reactivos, sino que éstos le fueron proporcionados por instancias que los diseñaron para otros propósitos 43 y a partir de los programas sólo de unas cuantas insti-

43 Se informó que “un grupo de 30 especialistas… [que previamente] elaboró un poco más de 500 reac- tivos” en el seno de la Comisión Nacional de Educación Media Superior (Conaems) integrada por represen- tantes de varias instituciones y dependencias educativas oficiales. Su tarea consistía en elaborar un examen

y dependencias educativas oficiales. Su tarea consistía en elaborar un examen Aboites_120725.indd 384 25/07/12 03:29

Aboites_120725.indd

384
384
y dependencias educativas oficiales. Su tarea consistía en elaborar un examen Aboites_120725.indd 384 25/07/12 03:29

25/07/12

y dependencias educativas oficiales. Su tarea consistía en elaborar un examen Aboites_120725.indd 384 25/07/12 03:29
y dependencias educativas oficiales. Su tarea consistía en elaborar un examen Aboites_120725.indd 384 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

385

tuciones (Ceneval, 1994a: 8-9); no hizo un muestreo nacional y sólo realizó “pilotajes”

(aplicaciones de prueba) en unas cuantas escuelas. Inicialmente se dijo que los pilotajes se hicieron sólo en nueve de las 32 entidades federativas del país, a cinco mil sustentantes y 137 planteles de varias instituciones (Ceneval, 1994a: 9). Sin embargo años más tarde, se aclaró que las condiciones de representatividad fueron aún más malas. Los exámenes de prueba (“pilotaje”) se llevaron a cabo sólo en 32 planteles del Colegio de Bachilleres y con 2 916 sustentantes (Hernández Uralde, 2004: 56). 44 Se aplicaron además en procesos reales de admisión, en los planteles que escogieron los propios directivos (lo que muy probable- mente distorsionó la representatividad) y se aplicó sólo a los jóvenes que buscan ingresar

a la educación media superior en febrero (nada representativo pues la inmensa mayoría lo hace en septiembre) (Hernández Uralde, 2004: 56). Como consecuencia de una muestra tan pequeña, hubo entidades federativas que fueron “representadas” por apenas poco más de cien sustentantes y otras aún con me- nos. Oaxaca y yucatán, por ejemplo, tuvieron sólo 113 evaluados y otros estados, como Guerrero y Quintana Roo, sólo contaron con 36 y 43 (¡!) sustentantes respectivamente, mientras que en el Df fueron miles y representaron más del 50% de la muestra. Difícil considerar esta como una muestra representativa del país. De ahí que no debe extrañar

que todavía en 2005 y después de diez años los egresados de las secundarias del Df siguen siendo considerados por el examen (Exani-I) del Ceneval como “los mejores” de toda la República junto con los de otros pocos estados (Galán, 2005: 53). En concreto, en el Df

el promedio de aciertos es de 63 —de 128 preguntas—, pero a nivel nacional el promedio

es aún más bajo, de 46.2 aciertos —de 120 reactivos—, utilizando básicamente el mismo examen (Exani-I) (Comipems, 2000: 86; y Tirado Segura, 2004: 129). Una “muestra” tan poco cuidada trae como resultado un test cuya falta de representa- tividad está prácticamente asegurada y cuya validez (el grado en que mide realmente lo que

dice medir) también está en el aire. Como señala un autor, aun en el caso de exámenes bien elaborados y “para desánimo de la evaluación educativa, los valores que [realmente] obten- dría la población son más un misterio que un hecho comprobado; los valores que obtendría

la población generalmente no se conocen. Como resultado, el sentido común juega un papel

importante a la hora de determinar qué tan representativa es una muestra. Muestras muy pequeñas o muestras seleccionadas de tal manera que no representan a la población, pueden afectar la interpretación sobre el desempeño del test” (Burns, 1979: 70). Asumir que el procedimiento utilizado para elaborar este examen nacional es correcto, es una apreciación basada no más que en el sentido común, algo diametralmente opuesto a un procedimiento riguroso y bien fundado, basado en la precisión y metodología científica.

indicativo (no de selección, sino de diagnóstico). Entre otras, participaban la UNAM, IpN, ANUIEs, fIMpEs, Conalep, Colbach, Univ. de Guadalajara, Univ. Autónoma de Nuevo León y las dependencias de la sEp que tienen que ver con la educación media superior: CosNEt, DgEtI, DgEtA, UECytM (Hernández Uralde, 2004:

Anexo 1). Ese “conjunto de reactivos —junto con sus valores estadísticos y su esquema metodológico— fue cedido por la Conaems al Ceneval con el fin de que pudiera utilizarlos en el proceso de construcción del Exani - I…” (Hernández Uralde, 2004: 57). Casi la mitad (Hernández Uralde, 2004: 232) de los reactivos proporcionados tuvieron que ser descartados por inservibles (Ceneval, 1994a: 9). 44 En ese año existían en el país 7 167 escuelas de nivel medio superior —5 151 propedéuticas y 2 016 de técnico profesional (sEp, 2001a: 411-412).

—5 151 propedéuticas y 2 016 de técnico profesional ( sEp , 2001a: 411-412). Aboites_120725.indd 385

Aboites_120725.indd

385
385
—5 151 propedéuticas y 2 016 de técnico profesional ( sEp , 2001a: 411-412). Aboites_120725.indd 385

25/07/12

—5 151 propedéuticas y 2 016 de técnico profesional ( sEp , 2001a: 411-412). Aboites_120725.indd 385
—5 151 propedéuticas y 2 016 de técnico profesional ( sEp , 2001a: 411-412). Aboites_120725.indd 385

03:29

386

DE LA EvALUACIÓN A LA MEDICIÓN

El grupo de referencia: equidad y objetividad sólo para algunos

El caso de la Ciudad de México es útil para subrayar otro punto problemático que acom- paña a la curva de distribución normal. Si se ven los resultados que se obtienen con el Exani-I en todos estos años de aplicación del examen único en la Ciudad de México

(capítulos 7 y 8), es posible decir que el instrumento se calibró en forma tal que favorece

a quienes son del género masculino, provienen de una escuela privada, viven en zonas

residenciales de clase media como la colonia del Valle, sus padres tienen alta escolaridad, buenos ingresos económicos y ocupaciones de alto nivel. Porque una y otra vez éstos son los que logran en promedio los resultados más altos. Esto significaría que el problema es doble: no sólo es un examen sesgado al Df, sino a un grupo en especial minoritario y acomodado de la propia zona Metropolitana de la Ciudad de México (zMCM). Cuando se diseña un examen con base predominantemente en un grupo social sólo los estudiantes pertenecientes a ese grupo son evaluados realmente en forma equitativa, porque se mide en qué grado tienen las habilidades e informaciones que son característicos de su ámbito sociocultural —desde las revistas y los periódicos que leen hasta las conver-

saciones en el hogar, viajes, libros, relaciones sociales, tipo de escuelas de origen, posición socioeconómica a que pertenecen—. Quienes entre ellos resulten “reprobados” se puede decir que lo fueron equitativamente, es decir, que no los reprobó el que se usara con ellos un test referenciado a una población, digamos, campesina, sino una prueba hecha para ese grupo precisamente. En este caso, pero sólo en este caso y para esta población, el test puede considerarse como válido. Esto hay que decirlo para aclarar que el test no es algo que mecánicamente hace aparecer con alto número de aciertos a quienes pertenecen a de- terminados grupos, a los ricos y no a los pobres o a los hombres y no tanto a las mujeres. Si éstos no hicieron su parte de esfuerzo su propio test los reprobará. Pero el asunto es muy diferente en el caso de los aspirantes de otros grupos sociales que —como ya se ha mencionado— se enfrentan a un examen que incluye una porción, por lo menos, de palabras, temas, operaciones matemáticas y ejercicios de captación del espacio, que simple y sencillamente no pueden conocer porque vienen presentados en un lenguaje que no les es propio, o porque no son temas familiares en su entorno cotidiano, escolar y social. Deben por tanto no sólo contender con la dificultad y superficialidad que representa en sí mismo todo examen estandarizado, sino además con el hecho de que no los tuvo en cuenta a la hora de ser elaborado y “pilotado”. La tendencia será por tanto a generar un porcentaje inferior de aciertos que el que les correspondería si

el test les hubiera sido equitativo. Una especie de “cuota” o precio que deben pagar por

ser diferentes. En la medida en que este examen va ampliando su área de aplicación a otros estados

y

ciudades en ellas va encontrando grupos que son similares a los de la clase media del Df

y

éstos evidentemente aparecerán como “los mejores” en cada localidad. En Guadalajara,

Monterrey, Chihuahua, Torreón, y todas las grandes y medianas ciudades del país. Cuan- do a partir de la aplicación progresiva del examen en otras ciudades se muestra una y otra vez que los resultados se organizan en forma de campana —aunque deberían notar que lo hace de manera más imperfecta que en la capital—, los medidores tienden a ver en eso una señal que les confirma que el diseño de su examen después de los pilotajes es correcto

que les confirma que el diseño de su examen después de los pilotajes es correcto Aboites_120725.indd

Aboites_120725.indd

386
386
que les confirma que el diseño de su examen después de los pilotajes es correcto Aboites_120725.indd

25/07/12

que les confirma que el diseño de su examen después de los pilotajes es correcto Aboites_120725.indd
que les confirma que el diseño de su examen después de los pilotajes es correcto Aboites_120725.indd

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

387

y

nacionalmente representativo. De tal manera que éste sigue arrastrando durante pruebas

y

años sucesivos los vicios de origen. Aparece entonces una especie de juego de espejos,

porque en realidad la curva que produce el examen y que los evaluadores presentan como señal del cielo que apunta a la certidumbre en el fondo no es otra cosa que el resultado de sus esfuerzos de años para crearla.

La medición a cargo de un cerrado grupo de expertos del Ceneval

No contribuye a la representatividad de este tipo de exámenes el hecho de que su elabora- ción esté a cargo de pequeños grupos de expertos y funcionarios. En contraste con la ampli-

tud y el carácter colectivo de la evaluación escolar en la que participa hasta el último de los cientos de miles de maestros en todo un país, la que surge de la medición “científica” tiende

a ser sumamente restringida, casi secreta, pensada y organizada por consejos técnicos con

una docena de participantes y, cuando se trata de incorporar una perspectiva más amplia, ésta consiste en apenas unas cuantas decenas de personas, “25 o 30” en algunos casos. 45 En México como en Estados Unidos la medición nació y se consolidó como un ám- bito exclusivo de expertos y funcionarios y con el paso del tiempo, se ha fortalecido su carácter restringido. Una parte sustancial de los primeros integrantes del Ceneval fueron funcionarios de la sEp y representantes de las instituciones de educación media superior que laboraban en la ya mencionada Comisión Nacional de Educación Media Superior (Conaems). Prácticamente todos ellos —como los 500 reactivos— se fueron al nuevo centro de evaluación y pasaron a formar el Consejo Técnico encargado oficialmente de elaborar el examen de ingreso a la educación media superior, el Exani-I. Los consejos técnicos tienen un papel muy importante dentro de la estructura de este centro de evaluación. Teóricamente constituyen el puente a través del cual el grupo de medidores establece contacto con el mundo de las escuelas y maestros. “El Ceneval se apoya, invariablemente, en cuerpos colegiados —Consejos Técnicos— integrados por per- sonas de reconocido prestigio académico y profesional provenientes de instituciones edu- cativas” (Hernández Uralde, 2004: 59). Estas frases, “cuerpos colegiados”, “personas de reconocido prestigio académico”, “profesionales provenientes de instituciones educativas”, dan la falsa impresión de que están constituidos por grupos de académicos de escuelas y universidades que ofrecen una visión directa del mundo real de la educación. Sin embargo

los primeros responsables de elaborar el test que decidiría el futuro de millones de jóvenes

y que sustituirían en los hechos a los propios maestros como los evaluadores principales,

estaban muy lejos de ser uno de ellos o sus representantes. Su presencia en el consejo respondía en la mayoría de los casos al hecho de que eran empleados o funcionarios de las instituciones que integraban la Conaems. Más que académicos, eran medidores que ya laboraban en esas tareas para las instituciones y dependencias. Como puede suponerse fá-

45 Por ejemplo, hablando de los consejos técnicos donde se acuerdan los temarios de los exámenes gene- rales de egreso el director del Ceneval señala que se trata de “25 o 30 contadores de diversas instituciones los que hacen un examen de contaduría y fijaron los estándares y criterios. A la luz de ellos se va a evaluar a todos los contadores. Ese es un importante punto de vista con un estándar y con una norma nacional…” (Gago Huguet, 1997: 5).

de vista con un estándar y con una norma nacional…” (Gago Huguet, 1997: 5). Aboites_120725.indd 387

Aboites_120725.indd

387
387
de vista con un estándar y con una norma nacional…” (Gago Huguet, 1997: 5). Aboites_120725.indd 387

25/07/12

de vista con un estándar y con una norma nacional…” (Gago Huguet, 1997: 5). Aboites_120725.indd 387
de vista con un estándar y con una norma nacional…” (Gago Huguet, 1997: 5). Aboites_120725.indd 387

03:29

388

DE LA EvALUACIÓN A LA MEDICIÓN

cilmente, la visión, prioridades y preocupaciones de un grupo que ya de antemano estaba convencido de las virtudes de estos exámenes y se dedicaba además a diseñarlos, estaba muy lejos de representar siquiera de lejos la postura de los maestros y académicos en el crucial tema de la evaluación. Su tarea no era representar, sino elaborar con la mayor prontitud y eficacia el nuevo examen de ingreso, y cubriendo al mismo tiempo el requisito formal de representar a la institución. Esa primera composición estableció un sesgo que —como en los exámenes— ha- bría de perdurar durante décadas y que, además, tendería a acentuar la ausencia de los académicos. En 1996 de los 14 integrantes del Consejo Técnico del Exani-I, siete eran funcionarios de diversas instituciones y dependencias federales (Ceneval, 1997a: 20) y los otros siete, aunque claramente eran parte del gremio de los evaluadores, al fin y al cabo eran académicos universitarios. Sin embargo, para el año 2003 el número de funcionarios del propio Centro de evaluación y de instituciones y dependencias federales en el Consejo Técnico había aumentado de manera importante y eran 11 de los 14 integrantes. Sólo tres académicos, aunque también ellos dedicados de lleno a las cuestiones de la medición (Ceneval, 2003: 116). Un grupo de expertos como este tiende a tener una visión muy cerrada porque está convencido del carácter estrictamente técnico y científico de su actividad, un trabajo es- pecializado y de especialistas que no se siente interpelado por las realidades sociales e institucionales diversas y complejas. Está, además, integrado por miembros de una clase media bien escolarizada, que mira a la educación desde la perspectiva de funcionarios y cuadros de nivel medio de apoyo administrativo y al que le es difícil aceptar que en la elaboración de los exámenes recrean su visión —socialmente muy restringida— de lo que es prioritario en el conocimiento, de sus estrategias cognoscitivas y de su ethos de clase. No parecen preguntarse sistemáticamente, por ejemplo, por el impacto de ciertas palabras en contextos distintos, ni cuestiones tan elementales como qué palabras o informaciones deben incluirse como representativas de la Aptitud de los aspirantes. De ahí el lenguaje tan peculiar de estos tests que a diestra y siniestra dispensa palabras como “osado”, “des- atinada” e “implantadas” y “planteadas”. Mismas que no suelen ser muy comunes en la mesa de una familia cuyos padres apenas concluyeron la educación primaria. Tampoco les llama la atención la reiterada aparición de sesgos discriminatorios en sus tests, que mecánicamente achacan a problemas externos, meros productos de un medio ambiente cultural imperfecto. Más que algún estándar “objetivo” están reflejando su pertenencia a un segmento burocrático ilustrado de la clase media del país. Esta tendencia a la autorreferencia existe en los grupos que en otros países elaboran los exámenes, pero en México se manifiesta todavía más fuerte gracias al contexto y apoyo que tienen en el profundo centralismo y verticalidad en la educación. Se trata por eso de una tecnología de la medición donde las relaciones sociales que la conforman ni nacen, ni están pensadas para recuperar y apoyar la visión de los maestros y las lecciones de las escuelas y universidades en torno a cómo y qué evaluar. Para su elaboración, los tests necesitan como condición indispensable de un grupo de técnicos medidores que mediante procedimientos muy especializados ponderen el valor diferenciador de cada reactivo, ensa- yen una y otra vez distintas composiciones del examen y analicen los resultados, todo esto en condiciones de asepsia social, de laboratorio. Su única conexión con el mundo de las

de asepsia social, de laboratorio. Su única conexión con el mundo de las Aboites_120725.indd 388 25/07/12

Aboites_120725.indd

388
388
de asepsia social, de laboratorio. Su única conexión con el mundo de las Aboites_120725.indd 388 25/07/12

25/07/12

de asepsia social, de laboratorio. Su única conexión con el mundo de las Aboites_120725.indd 388 25/07/12
de asepsia social, de laboratorio. Su única conexión con el mundo de las Aboites_120725.indd 388 25/07/12

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

389

escuelas es, además de su experiencia como funcionarios de la educación —la mayoría—,

la llegada periódica de una pila de reactivos que maestros y académicos venden al Ceneval

para que éste pueda escoger cuáles utilizar en sus exámenes. Toda esta estructura inevitablemente hace difícil que, como ya ocurría en los tiempos de yerkes y Terman, los resultados de los tests y los tests mismos puedan ser evaluados de manera verdaderamente independiente. Un ejemplo muy claro es la cuestión de la sub- calificación sistemática que sufren las mujeres en estos exámenes (prácticamente siempre resultan con un promedio menor que los hombres). Así, aunque en los Informes y Boletín del Ceneval en 2004 se reporta la existencia de este fenómeno los especialistas que poco antes de ese año hicieron evaluaciones “externas” de algunos aspectos del quehacer del Centro Nacional de Evaluación no llegaron siquiera a tocar este tipo de problemas. El Centro es el que juzga, en ocasiones critica y, por supuesto, absuelve su propio quehacer. En este tema de las mujeres los propios integrantes del Ceneval parecen reconocer que a la hora de evaluar a las mujeres en realidad están midiendo la educación de género con que se les ha formado —pues achacan esta subcalificación a factores culturales—, pero no sacan la conclusión obvia de que si el test es sensible a la manera como las mujeres son educadas, éste debe cambiarse o no debe utilizarse para decidir cuestiones importantes como el ingreso o egreso en los niveles superiores. Se limitan a constatar sólo que “como en anteriores aplicaciones, el examen metropolitano para el ingreso a la educación media superior… muestra que los sustentantes del sexo masculino tienen un mejor desempeño que los del sexo femenino.” Pero, en una forma que recuerda a yerkes, dan a entender que en todo caso el problema no está en el examen sino en otro lado —y mientras más lejos y vago, mejor—: “…debe buscarse la explicación —dicen— en una serie de factores sociales y culturales que condicionan a las mujeres para reaccionar —en

promedio, desde luego— en forma distinta a los hombres frente a cada una de las pregun- tas que componen el examen” (Garza, 2004: 4). Decir eso en términos científicos es una barbaridad. Es aceptar que el instrumento “científico” no es capaz de hacer mediciones realmente “objetivas” en ciertos grupos sociales y concluir que, sin embargo, es perfectamente correcto seguirlo utilizando. Es como decir que el problema de que no se pueda medir bien al objeto de estudio científico es responsabilidad del objeto mismo y de las condiciones ambientales que le rodean, pero no del instrumento que es menos adecuado o de plano inservible para ese propósito.

Una medición “científica” que no puede medir de manera precisa

Es un enorme contrasentido, pero en el fondo el instrumento de medición inventado para

medir con precisión y rápidamente a los seres humanos es tan delicado y ha sido construido y probado en condiciones tales de laboratorio, que cuando se expone a la realidad humana

y social inevitablemente tiene importantes fallas en la medición. Otras estrategias de evalua-

ción —como la realizada por los maestros— son mucho menos preciosistas y carecen de una apariencia de alta tecnología y refinada ciencia pero por ser menos pretenciosos y evaluar a lo largo de días, meses y años haciendo uso de diversos instrumentos y estar a cargo de muchos evaluadores distintos (los maestros de cada curso) son paradójicamente mucho más certeros —aunque tengan el problema de que se les intenta resumir en una calificación de dos dígitos.

el problema de que se les intenta resumir en una calificación de dos dígitos. Aboites_120725.indd 389

Aboites_120725.indd

389
389
el problema de que se les intenta resumir en una calificación de dos dígitos. Aboites_120725.indd 389

25/07/12

el problema de que se les intenta resumir en una calificación de dos dígitos. Aboites_120725.indd 389
el problema de que se les intenta resumir en una calificación de dos dígitos. Aboites_120725.indd 389

03:29

390

DE LA EvALUACIÓN A LA MEDICIÓN

La fragilidad del instrumento de medición normativo y de opción múltiple, en cam- bio, es reconocida por los propios evaluadores cuando desde el Ceneval se habla de que los tests tienen un “error intrínseco” debido “a la naturaleza misma del examen y las

circunstancias en que se realiza”, algo que también se conoce como “error de medida” en

el vocabulario psicométrico. Lo describen diciendo que:

[…] aun en condiciones muy controladas la respuesta de sustentantes del mismo nivel de ha- bilidad y conocimiento a un reactivo dado tiene un cierto grado de aleatoriedad [azar]. Aquí intervienen factores circunstanciales tales como el estado de ánimo de los sustentantes en el momento del examen, su estado físico —cansancio, salud— y otros cuyo efecto conjunto es que haya una probabilidad, por pequeña que sea, de que esas personas —como se dijo con ha- bilidades y conocimientos esencialmente iguales— contesten de manera diferente un reactivo determinado” (Ceneval, 2006a: 38). 46

Esto da lugar a que una misma persona obtenga resultados diferentes si presenta dos veces y en ocasiones distintas, el mismo examen. y da lugar también a una pregunta

fundamental, ¿entonces cuál de esas dos mediciones “exactas” es la que en verdad evalúa

a esa persona? Esta situación paradójica de exámenes que están hechos para medir con

precisión de “milímetros y microgramos” —como insiste en decir el Centro Nacional de Evaluación— ha llevado a algunos autores a considerar que, en el fondo, “no hay manera de conocer la verdadera calificación” de una persona (Burns: 133). Otro problema también reconocido abiertamente, es que los organismos medidores suelen utilizar versiones distintas en cada examen (hasta 12 en el Exani para evitar que un sustentante copie al otro) y esto genera inevitablemente que algunos estudiantes obtengan un mayor —o menor— número de aciertos dependiendo de la versión que les tocó en suerte. En las palabras del Centro en el mismo texto, “la necesidad de utilizar versiones distintas del examen, es decir, diferentes conjuntos de preguntas o reactivos, hace prác- ticamente imposible lograr un nivel perfectamente homogéneo de dificultad entre todas las versiones usadas.” De tal manera —prosigue la cita del Ceneval— que “en el caso de dos sustentantes con niveles exactamente iguales de habilidad y conocimientos en todos los temas del exa-

46 No sólo el Ceneval expresa esta tesis, también lo hacen evaluadores como Felipe Tirado, Eduardo Backhoff y otros en un texto que parece haber sido retomado por el Ceneval. Refiriéndose a las evaluacio- nes estandarizadas, señalan que “hay muchos factores de invalidez que pueden incidir en la determinación de una calificación y que no se corresponde a los atributos que se desean medir. Por ejemplo, pueden incidir de manera determinante aspectos como la fatiga, el estado de salud, la comprensión o segui- miento inapropiado de las instrucciones para resolver un examen.” Aunque señalan que también en las calificaciones otorgadas por los maestros puede haber razones de invalidez “como la simpatía o belleza de una estudiante, que pueden ser factores de invalidación al no medir lo que se desea medir…” (Tirado Segura et al., 1997), se trata de situaciones completamente diferentes. La belleza de una o un estudiante ciertamente puede influir en la percepción del maestro o maestra respecto de su aprovechamiento, pero es difícil decir que esto ocurrirá en el mismo grado con todas las demás maestras y maestros que trabajen con la estudiante en tres años de escolaridad en secundaria o preparatoria. Como se verá más adelante en último término el juicio de un docente en lo individual no se vuelve tan definitivo como sí lo es un examen normativo y, como también se verá (capítulo 8), suele estar menos contaminado por factores sociales.

se verá (capítulo 8), suele estar menos contaminado por factores sociales. Aboites_120725.indd 390 25/07/12 03:29

Aboites_120725.indd

390
390
se verá (capítulo 8), suele estar menos contaminado por factores sociales. Aboites_120725.indd 390 25/07/12 03:29

25/07/12

se verá (capítulo 8), suele estar menos contaminado por factores sociales. Aboites_120725.indd 390 25/07/12 03:29
se verá (capítulo 8), suele estar menos contaminado por factores sociales. Aboites_120725.indd 390 25/07/12 03:29

03:29

LA CIENCIA DE LA MEDICIÓN EN MéxICo: LA CrEACIÓN DEL CENEvAL

391

men, alguno de los dos se encontrará en relativa desventaja frente al otro y obtendrá una calificación global inferior.” Como este es un problema que simple y llanamente no tiene solución, ese Centro sólo ofrece palabras que intentan ser reconfortantes: “se ha tenido cuidado de que las versiones que se aplican tengan, en lo general, un nivel de dificultad semejante y, aunque se reconoce la posibilidad de que la calificación global pueda estar influida por diferencias inevitables entre las versiones, se cuenta con estudios estadísticos que permiten afirmar que los errores debidos a este factor son relativamente pequeños” (Ceneval, 2006a: 38). y más que plantear la necesidad de buscar otras alternativas de evaluación más estables, aseguran que el error será pequeño o razonable, “un nivel razonablemente aceptable de error de medida” (Hernández Uralde, 2004: 78). Para el estudiante que es excluido de la educación pública por un solo acierto el pequeño error de medida nunca podrá ser visto como “razonable”. Por todo esto los medidores aceptan que más que una calificación determinada y exacta, para cada persona existe un rango de calificación. Es decir que en un examen Ro- berto obtendrá 75 aciertos, pero en otro puede llegar a 80 aciertos, 75-80 es pues su nivel “verdadero” —si es que esta palabra todavía puede usarse después de todos los problemas de confiabilidad y validez antes señalados—. y eso está bien hablando en condiciones de laboratorio, pero en el concreto de la medición para ingresar a una escuela muy solicitada no hay manera de eludir el problema. Roberto obtiene 80 aciertos, María 78 ¿quién tiene más aptitud? Como en un examen real no se aplica el criterio del “rango” entonces el lugar se le otorga a Roberto y no a María. Sin embargo, como nos han dicho los medi- dores, la verdad es que no sabemos —ni el evaluador lo sabe con un sólo examen— cuál es el rango de uno y otro. Si el de Roberto, como decíamos, es 75-80 pero el de María resulta ser más alto, de 78-83, en realidad se cometió una injusticia porque toca decir que María es mejor y que a ella le corresponde el lugar en la escuela. Es decir, que a pesar de que ese día y con esa versión del examen María obtuvo una calificación menor, no significa mucho porque en otro momento bien podría haber obtenido hasta 83 aciertos. Burns señala por ejemplo, que aún con un examen de alta confiabilidad —0.90— el error puede ser de nivel significativo, de 4.74 % (Hernández Uralde, 2004: 137), es decir nada menos que seis aciertos en un examen de 128 reactivos. Hay otros muchos ángulos de la problemática que genera en la evaluación la insisten- cia en la curva de distribución normal y un examen que la provea, 47 pero en el trasfondo de todos ellos resalta el hecho de que a pesar de que se admiten los problemas estos exámenes se siguen aplicando una y otra vez durante años para determinar el ingreso a la educación de millones de personas, sin que aparentemente cuestiones como el error de medida realmente se tengan en cuenta. Así, por ejemplo, sabemos —y sólo porque el

4