Manual Del Curso - 2012

Elaborado por Psic.
Fernando Reyes Baos

1
ALGUNAS APROXIMACIONES A LA MEDICIN EN PSICOLOGA

Mara Luisa Morales: Con la psicometra se intenta comprender la naturaleza de las personas a travs de la medicin de la conducta del ser humano (y de los animales). Tiene su origen en el estudio de las diferencias individuales, es decir, en trabajos que investigan en qu difieren las personas y en qu se parecen. Lo que en psicologa se mide son los atributos, caractersticas, habilidades o rasgos que en las personas se expresan conductualmente de manera externa y observable, para lo cual se usan modelos, esto es, representaciones simplificadas que contienen las caractersticas del fenmeno estudiado, que sirven de gua para identificar los elementos del mundo real con los elementos que a estos caractericen. En psicologa, por ejemplo, se usa como gua el modelo matemtico para la medicin de la conducta; para ello, se siguen los siguientes pasos: a) Identificacin del objeto que va a ser medido; b) Identificacin de las propiedades o conducta que va hacer medida, y c) Identificacin de las reglas, mediante las cuales, asignamos un nmero a tales propiedades o conducta. En conclusin, podemos decir que medicin es: un procedimiento, mediante el cual, asignamos nmeros a las propiedades, atributos o caractersticas de los objetos, estableciendo las reglas especficas sobre las que se fundamentan tales asignaciones.
Lewis R. Aiken: La utilizacin ms rentable del mtodo estadstico ha sido la construccin, aplicacin y evaluacin de las pruebas psicolgicas, particularmente debido a las funciones que estas tienen: de diagnstico, de seleccin, de ubicacin y promocin, de decisiones prcticas y de investigacin. Como nota histrica interesante: en 1991, la cifra total de ventas para los tests estandarizados aplicados en los grados, desde el jardn de nios hasta el bachillerato, se calcul, segn la Asociacin Americana de Editores, en 134 millones de dlares!
Frederick G. Brown Las personas difieren en sus caractersticas de personalidad y en sus habilidades psicolgicas. As, los trminos usados en psicologa para describir a las personas se refieren entonces a caractersticas que varan mucho unas de otras: inteligencia, agresividad, habilidades para las matemticas, intereses mecnicos, introversin, etc.
Un problema para el psiclogo es: Cmo descubrir la naturaleza y la amplitud de esas diferencias individuales en forma precisa y exacta? En la descripcin de las caractersticas de los individuos se ha llegado a identificar ms de 40,000 trminos, por lo que los psiclogos, han tratado de reducir su cantidad a un nmero ms manejable. Una solucin a esto fue la Teora de los rasgos: trmino que describe a un grupo de conductas que tienden a producirse juntas. El proceso para identificar un rasgo es hacer que un grupo de personas respondan a un gran nmero de reactivos, para luego analizar estadsticamente los datos, y poder ver as, cules son los reactivos que se agrupan. Ejemplo: inters mecnico en una prueba que cubra actividades vocacionales. Para que los rasgos resulten tiles como construcciones descriptivas tienen que ser relativamente estables en el tiempo y en diferentes situaciones. Debido a esta estabilidad relativa, autores como Burt y Jensen sostienen que los rasgos se determinan genticamente. Una alternativa a esta opinin es la de Ferguson, quien sostiene que los rasgos son modos habituales de reaccin, es decir, patrones de conducta que se han aprendido tan bien que las personas se conducen de manera similar en muchas situaciones. Sin embargo hay quienes opinan, Brown por ejemplo, que los rasgos NO SON caractersticas tangibles y directamente mensurables, y por ello, las mediciones psicolgicas son siempre indirectas. En cuanto a la naturaleza de las mediciones psicolgicas, estas son ms bien relativas que absolutas porque comparamos la ejecucin de un individuo con la de otros y no con un estndar absoluto; en otras palabras, tenemos un continuo de conductas y tratamos de situar a cada individuo en el lugar que le corresponde a lo largo de l. Dos cosas que se deben de observar siempre: 1) Los numerosos grados de variacin de cualquier rasgo, y 2) Que la medicin se har siempre con relacin a algn grupo de comparacin. Lo que si es definitivo es que, en psicologa no hay estndares absolutos.
Gloria Benedito Habiendo una importacin de las matemticas a la psicologa, Basta con esa importacin para decir que la psicologa ha adquirido cientificidad? An ahora prevalece una suposicin de que la cientificidad de una disciplina depende del mtodo que sta emplee (y ms si se trata de la cuantificacin). Esta suposicin tiene su origen en el positivismo, movimiento filosfico fundado en 1844 por Augusto Comte, quien postulaba ciertos principios para concebir a un conocimiento como cientfico, tales como un modelo acumulativo, observacin de hechos, formulacin de leyes, precisin racional y dogma progresista, que en conjunto definan lo que era ciencia, a saber: representacin formal del objeto dado empricamente expresado a travs de un cdigo matemtico.
Sin embargo, a la suposicin de que la dimensin cuantitativa es inherente a la naturaleza de los fenmenos y que por lo mismo es susceptible de ser extrada aplicando el mtodo cuantitativo a los datos obtenidos por la experimentacin, se opone la idea de que la cuantificacin es posible porque antes est el nmero como objeto formal, el cual, es producto de la prctica cientfica de la matemtica. En cuanto a la medicin, los elementos distinguibles en su proceso son: a) Un instrumento o escala de medida; b) Una tcnica de medicin que est en funcin del instrumento y de las propiedades del objeto a medir; c) El sistema de nmeros, y d) Interpretacin de los datos. Se justifica la cuantificacin en psicologa por la eleccin de un objeto de estudio que, supuestamente, lo posibilita: la conducta, pero es precisamente por ello que entonces se omiten ciertos factores que son imprescindibles para el estudio psicolgico del hombre: la concepcin de un proceso de sujetacin, de un aparato psquico, de un modo de produccin, de un conflicto, etc. Descartar esto equivale a hablar de una prctica ideolgica, de una reproduccin de lo aparente. Una justificacin ms certera para introducir en psicologa la medicin como parte de una prctica cientfica es la elaboracin de un objeto formal que aluda a una explicacin del fenmeno que se mide y que se constituya por la construccin de una teora, proceso que reconoce dos momentos: 1) Trabajo terico-conceptual, y 2) Trabajo conceptualexperimental, eligindose entonces el mtodo apropiado a esa prctica cientfica. Para ello, Gastn Bachelar sugiere tres tipos de vigilancia epistemolgica: a) Vigilancia de Primer Grado, ejercida en el campo de lo emprico; b) Vigilancia al Cuadrado, cuidado de la rigurosidad y correccin, y c) Vigilancia al cubo, supervisin de la eleccin. Finalmente cabe una ltima pregunta: Por qu se utiliza el mtodo estadstico en psicologa? Porque se considera a la conducta humana como un fenmeno de tipo probabilstico.
Hernndez Sampieri y otros Se dice que medir es asignar nmeros a objetos y eventos de acuerdo con reglas (Stevens, 1951), pero esta definicin no es apropiada, segn Sampieri, para las ciencias sociales, ya que varios de los fenmenos que son medidos en estas no pueden caracterizarse como objetos o eventos, puesto que son demasiado abstractos para ello. Se sugiere entonces definir a la medicin como proceso de vincular conceptos abstractos con indicadores empricos, proceso que se realiza sistemticamente para clasificar y cuantificar los datos disponibles en trminos del concepto que el investigador tiene en mente. As, el instrumento de medicin o de recoleccin de datos juega un papel central. ste queda definido entonces, como el dispositivo que permite registrar datos observables que representan, verdaderamente, los conceptos que el investigador tiene en mente. 4
Kathia Ma. Costa Neiva Un instrumento de medicin en psicologa es un conjunto de operaciones que nos permite llegar a obtener, objetivamente y con la mayor certeza posible, informacin acerca de la expresin de los fenmenos que se suceden en esa unidad biolgica, social, psicolgica, etc., que es la conducta humana. Una prueba psicolgica es un instrumento de medicin que posee tres caractersticas fundamentales: 1. Sirve de estmulo para extraer un segmento de la conducta de un sujeto. 2. Es rigurosamente estandarizado, es decir, se construye, se administra y se califica segn reglas preestablecidas. 3. Permite comparar estadsticamente la conducta de un sujeto con un grupo de sujetos de una poblacin definida. La medicin de una conducta implica la utilizacin de ciertos procedimientos, segn reglas especficas, para obtener como resultado la asignacin de valores numricos a la ejecucin de una persona
Anastasi Urbina Un baremo es el resultado que se espera de una persona de determinada edad y que pertenece a determinado grupo, construido segn procedimientos estadsticos que, a partir de muestras representativas, determinan cules son los rendimientos tpicos o promedios de ese grupo que servir de patrn de comparacin. Ejemplo: al querer medir la memoria es preciso hacer una comparacin entre el rendimiento de un sujeto respecto a esa facultad y el obtenido por el resto de los individuos que integran el grupo al que pertenece.
SOBRE LAS PRUEBAS
Utilidad Para la seleccin. Se identifica a los solicitantes ms prometedores (los que tengan mayores probabilidades de xito). La decisin es la de rechazar o aceptar. Para la clasificacin. La meta es la de hacer coincidir los individuos y las alternativas que haya de manera ptima. Para el diagnstico. Se compara la ejecucin de un individuo en varios campos para determinar sus puntos fuertes y dbiles. Estos procedimientos implican la identificacin de los campos de incapacidad de un individuo y la aplicacin de un programa de correccin. Para la prueba de hiptesis en las investigaciones psicolgicas, para la construccin de hiptesis durante una asesora y para la evaluacin en las instituciones escolares.
Actitudes hacia las pruebas Sobreestimacin. Posicin cmoda porque no hay que sopesar una gran variedad de factores. Desvalorizacin. Se cree en la inutilidad de las mismas porque depender de ellas puede traer como consecuencia tomar decisiones erradas. Las pruebas como algo antidemocrtico y como una intrusin en la vida privada. Se cree que ciertas caractersticas de personalidad no se relacionan necesariamente con el xito y que las actitudes de un individuo son un asunto exclusivamente suyo.
Las pruebas Son mtodos para la observacin sistemtica de la conducta. Son una muestra de todos los reactivos posibles, por lo que se debe determinar si la prueba contiene una muestra adecuada de reactivos del universo de reactivos posibles.
Las pruebas pueden servir como Muestras. Los reactivos de la prueba son una muestra de todos los reactivos posibles en un dominio particular. Signos. Enfatizan la naturaleza de la caracterstica que se mide. Predictoras. Predicen una conducta a futuro.
TIPOS DE PRUEBAS
1. Segn la conducta que miden: - De inteligencia, - De habilidades, - De personalidad, - De intereses y valores, - Psicomotoras, - De rendimiento, - Etc. 2. Segn el objetivo: - De ejecucin mxima. Exigen del examinado su mximo rendimiento en las distintas tareas que componen la prueba. - De ejecucin tpica. Llamadas tambin de clasificacin tipolgica o cualitativa. 3. Segn el tipo de respuesta exigida: - Objetivas. El examinado elige una respuesta entre varias alternativas. - Subjetivas. El sujeto proporciona libremente la respuesta. 4. Segn la forma de administracin: - De aplicacin individual, - De aplicacin colectiva y - Autoadministrables. 5. Segn la forma de dar las instrucciones: - Orales y - Escritas. 6. Segn la libertad de ejecucin: - De poder. Exigen que el sujeto emplee toda su capacidad. El tiempo lmite a veces es controlado. - De velocidad. Exigen que el sujeto ejecute la tarea asignada lo ms rpido posible. La duracin de la prueba es rigurosamente controlada. 7. Segn el material utilizado: - De papel y lpiz, - Completamente verbal, - De ejecucin y - Mixtas. 7
8. Segn la forma de calificacin: - Manual e - Informatizada. 9. Segn la poblacin a la que se destina: - Para bebs, - Para nios preescolares y escolares, - Para adolescentes, - Para adultos, - Las que pueden aplicarse a dos o ms etapas del desarrollo.
Factores a considerar La estandarizacin sirve para:
a) Reducir al mnimo la posible influencia de variables personales y situaciones irrelevantes. b) Comparar directamente las calificaciones dadas a diferentes personas. Una prueba mide slo la conducta registrada por ella, esto es, las respuestas dadas por una persona a los reactivos de la prueba. Una prueba contiene solamente una muestra de todos los reactivos posibles. Ninguna prueba incluye todos los reactivos que podran desarrollarse para medir lo que, a partir de ahora, denominaremos dominio conductual: agrupacin hipottica de todos los reactivos posibles que cubren una determinada rea.
DISEO Y ELABORACIN DE TESTS
Exmenes Tipo de instrumento Trabajo invertido en la elaboracin de un test De capacidad y personalidad
Propsitos Planeacin del contenido antes de redactar reactivos
Definicin de constructos que se desean medir y establecimiento del contenido
Tests de observacin Poblacin destino: quienes solicitan empleo Incluye un anlisis de puestos: especificacin de los componentes de un puesto de trabajo para desarrollar los reactivos del instrumento, y predecir con ellos, el desempeo del empleado. El instrumento resultante es una muestra representativa de los comportamientos que resultan importantes para ocupar un puesto de trabajo determinado
Tests de inteligencia Sus reactivos se desarrollan: De acuerdo a una teora especfica del comportamiento inteligente Refirindose a los tipos de tareas que se supone las personas ms inteligentes realizan con mayor eficacia que aquellas menos inteligentes
Escalas o inventarios de personalidad Se basa en planteamientos tales como: Sentido comn Teoras de la personalidad Investigacin emprica
Tests de rendimiento Evalan y motivan a los estudiantes y proporcionan informacin sobre el grado de avance de los objetivos educativos
En cuanto a las pruebas de rendimiento, mejor conocidas como exmenes (las pruebas escolares que se aplican en las instituciones educativas) deben considerarse varios aspectos: objetivos educativos basados en taxonomas; tabla de especificaciones; contexto curricular, en el cual, este tipo de pruebas se hayan circunscritas; aspectos prcticos, etc.
Objetivos educativos: taxonomas Preparar una prueba para medir objetivos educativos especficos resulta ms efectivo cuando los comportamientos a evaluar se definen con claridad en la etapa preliminar Existen diferentes sistemas de clasificacin para los objetivos educativos. Veamos un ejemplo:
CONOCER EVALUAR OBJETIVOS COGNOSCITIVOS SINTETIZAR ANALIZAR APLICAR COMPRENDER
10
OBJETIVOS Conocimiento
VERBOS SIGNIFICADO REACTIVO Definir, Recuerdo de hechos Menciona las seis categoras Identificar, especficos principales de la taxonoma de Mencionar, Bloom Nombrar, etc. Comprensin Convertir, Entendimiento del Explique lo que quiere decir el Explicar, significado o propsito de revisor de pruebas cuando dice Resumir, etc. algo que una prueba no es confiable Aplicacin Calcular, Uso de informacin e Calcule la media y la desviacin Determinar, ideas en nuevas estndar del siguiente grupo de Resolver, etc. situaciones calificaciones Anlisis Diferenciar, Dividir algo para revelar Analiza esta unidad de Relacionar, etc. su estructura y la instrucciones en las distintas interrelacin de sus partes categoras conductuales y de contenido Sntesis Disear, Combinar los distintos Disee una tabla de Desarrollar, elementos de un todo especificaciones para una Formular, estructural prueba sobre estadstica Planear, etc. elemental Evaluacin Comparar, Realizar un juicio con Evala el procedimiento Criticar, base al razonamiento utilizado para la estandarizacin Evaluar, etc. de esta prueba
Dentro de la planeacin de un instrumento es importante contar con una tabla de especificaciones, que sirva como gua para elaborar los reactivos. Al respecto: Ejemplo de una tabla de especificaciones: unidad referente al gobierno HABILIDADES EVALUADAS Comprender Hacer Localizar Interpretar Total de conceptos generalizaciones informacin grficas preguntas 4 4 1 1 10 2 1 3 10 3 1 6 14 3 2 4 10 2 1 2 6 10 5 15 40
TEMAS Tendencias sociales Eventos polticos nacionales Mtodos de investigacin Principales aspectos polticos Total de preguntas
11
Se sugiere redactar inicialmente ms reactivos de los necesarios La objetividad de los reactivos denominados objetivos radica en su calificacin La informacin que se obtenga de los sujetos depender de las tareas implicadas en cada reactivo
Hablando propiamente de exmenes Si concebimos los exmenes como parte integral y formativa del proceso educativo (Pansza y Hernndez, 1990) en lugar de pensar en ellos como una actividad desagradable, que debemos de anexar inevitablemente a dicho proceso, podemos comenzar a vislumbrarlos como herramientas tiles para evaluar el aprendizaje en los estudiantes.
MOTIVACIN
EXMENES
FUENTE DE
INFORMACIN
Con relacin a los exmenes deben considerarse diferentes factores, todos ellos relacionados con los objetivos educativos del programa de estudio de que se trate.
Temas y subtemas Las preguntas que deben de hacerse El docente, al momento de hacer una prueba, deber considerar los siguientes factores
El formato Cundo, dnde y cmo
Forma de calificar
Objetivos educativos
12
En cualquier caso, uno como docente debe atender siempre a los propsitos que el programa de estudios plantea con relacin a los temas y subtemas que se vern en el curso, porque los primeros expresan lo que pretende lograrse en los estudiantes con la revisin de los segundos.
Objetivos educativos planteados por el plan de estudios.
Objetivos educativos planteados por el programa de estudios.
Nivel al que se pretende que los estudiantes aprendan los temas y subtemas: Conocer, comprender, aplicar, analizar, sintetizar o evaluar.
Exmenes con reactivos que midan los temas y subtemas segn el nivel sealado por el programa de estudios
Otras consideraciones acerca de los exmenes Extensin de la prueba, Cuntos reactivos deben incluirse en una prueba?: Eso depende de Los lmites de tiempo El Grado de lectura de los sujetos La Extensin y dificultad de los reactivos Si tomamos en cuenta las diferencias individuales entre los estudiantes, debemos estar al tanto adems de otra clase de factores: Su Preparacin Su Personalidad Su Estado emocional y fsico La Naturaleza del contenido de la prueba El Entorno en que se aplica Ordenamiento de las preguntas: Se hacen las siguientes sugerencias: Los reactivos de opcin mltiple y falso y verdadero se ordenan de manera que las respuestas no sigan ningn patrn establecido Los reactivos de respuesta corta se colocan en grupos de 5 o una cantidad similar 13
Cuando sean reactivos de aparejamiento, que todas las opciones aparezcan en la misma pgina Otorgar espacio suficiente para responder reactivos de respuesta corta y de ensayo Las instrucciones: Es importante que expresemos las instrucciones de la prueba o de cada una de las partes que la conforman lo ms claramente posible, haciendo mencin de cmo debern los estudiantes registrar sus respuestas. En algunas ocasiones podemos agregar, si se juzga conveniente, cmo sern calificados cada uno de los reactivos. Procedimiento general alternativo para calificar exmenes: Para pruebas objetivas conformadas por reactivos con n opciones de respuesta puede utilizarse la siguiente frmula de correccin: Aciertos - Errores N Donde N equivale al nmero de preguntas dividido entre 10 Ahora bien, para usar un procedimiento como ste es recomendable contemplar criterios de acreditacin y de evaluacin. Vase el siguiente ejemplo: Un profesor, despus de haber utilizado el procedimiento anterior, determin para la acreditacin y evaluacin de sus alumnos en un examen, los siguientes criterios: a) Acreditacin: puntuacin igual o superior a 6 en el examen b) Un ejemplo de baremo de la nota final: Hasta 5.99 = Malo De 6 a 7.5 = Regular De 7.6 a 8.5 = Bien De 8.6 a 10 = Muy Bien
Sugerencias para calificar pruebas de ensayo.- Calificar la pregunta como un todo o asignar valores distintos a cada uno de los componentes que conforman al reactivo, considerar la extensin asignada para la tarea que se solicita y su importancia, redactar con anticipacin una respuesta ideal para cada reactivo para poder hacer comparaciones, calificar las pruebas sin el conocimiento del nombre del examinado y evitar errores como: dar ms importancia a la cantidad que a la calidad de la respuesta, dar por buena una respuesta demasiado general y calificar bien un reactivo slo porque el estudiante obtuvo calificaciones altas en otros reactivos (o porque ha tenido buenos promedios anteriormente).
14
En cuanto a las hojas de respuesta: En los primeros aos escolares se pide a los alumnos que marquen sus respuestas en los folletos de las pruebas. Posteriormente, pueden utilizarse hojas separadas, que pueden calificarse manual o automticamente
Para administrar una prueba se recomienda: Que el aplicador lea las instrucciones generales antes de distribuir los folletos de la prueba Luego, que distribuya las hojas de respuestas y lea en voz alta las indicaciones para marcar estas Despus, que distribuya los folletos de la prueba volteados y pida a los alumnos verlos solamente hasta que indique que pueden empezar
Finalmente, el aplicador debe expresar las instrucciones de la prueba lo ms claramente posible, refirindose a: El propsito de la prueba Los lmites del tiempo Cmo deben registrarse las respuestas Cmo se va a calificar
Pruebas orales. Ventajas: Situacin social interactiva Respuestas a un nivel intelectual ms alto Prctica en la comunicacin oral Revisin ms detallada del material El tiempo de evaluacin es pequeo Desventajas: Ineficaces Falta de exactitud psicomtrica Consumen mucho tiempo Muestra limitada de respuestas Mal planeadas
15
Retro-alimentacin Una vez que se califican las pruebas y se hace entrega de los resultados, resulta ms til explicarles a los estudiantes en qu se equivocaron en lugar de explicarles en qu acertaron, pero resulta todava ms til explicarles por qu se equivocaron. Por qu? Porque de ese modo pueden aprender estrategias ms convenientes para la prxima vez. Preguntas gua para mejorar la comunicacin de la retro-alimentacin Comentarios especficos sobre errores o estrategias negativas
RETROALIMENTACIN
Cul es el error? Cul es la razn probable por la que el alumno comete ese error? Cmo puedo guiar al alumno para evitar el error en el futuro? Qu hizo bien el alumno que se pueda hacer notar?
Sugerencias sobre cmo mejorar y comentarios sobre aspectos positivos
16
TIPOS DE REACTIVOS
Preparacin de los reactivos del Instrumento. Todos los reactivos de pruebas representan procedimientos para obtener informacin sobre los individuos, pero la cantidad y clase de informacin varia de acuerdo con la naturaleza de las tareas que implican los distintos tipos de reactivos. Pedir a los sujetos que comparen la Batalla Bulges con la Batalla de Hastings exige una clase de respuesta diferente que aquella que se obtiene cuando slo se les pide que indiquen, de entre una serie de eventos, aquellos que ocurrieron en cada batalla. El primer reactivo o tem requiere de capacidades complejas de integracin y organizacin, en tanto que para contestar el segundo solo se necesita memoria cognoscitiva. Se han sugerido distintos mtodos para clasificar los reactivos de acuerdo con el formato, o la forma en que se requiere la respuesta. Completamiento o llenado contra seleccin, recuerdo contra conocimiento y construccin de respuesta contra identificacin son maneras de diferenciar entre los reactivos en los cuales se requiere que los sujetos escriban o elaboren una respuesta y aquellos en los cuales se les pide indiquen cul es la alternativa correcta. Otro mtodo popular para clasificar los reactivos es ensayo contra objetivo. Todos los reactivos de ensayo son del tipo de completamiento o llenado porque la respuesta del sujeto es una respuesta construida. Sin embargo, los reactivos objetivos pueden ser del tipo de llenado, completamiento, de seleccin, dependiendo de si los sujetos deben elaborar una respuesta o slo seleccionar la mejor respuesta de una serie de alternativas. El rasgo crucial de los reactivos objetivos no es la forma de respuesta, sino qu tan objetivamente pueden calificarse. Con frecuencia, dos o ms calificadores de un reactivo de ensayo estn en desacuerdo hasta cierto punto sobre lo correcto de una respuesta determinada y cuntos puntos debe recibir. Pero, a excepcin de los errores de oficina, los distintos calificadores de una prueba objetiva darn la misma calificacin a un reactivo dado. Ejemplos de distintos tipos de reactivos de prueba I. Reactivos de ensayo: escriba una respuesta de media pgina para cada reactivo. 1. Compare las ventajas y desventajas de los reactivos de ensayo y objetivos para pruebas. 2. Explique las razones para realizar un anlisis de reactivos de una prueba aplicable en el saln de clases. II. Reactivos objetivos A. Respuesta corta: escriba la (s) palabras (s) apropiada (s) en cada espacio. 1. Lo nico que es objetivo sobre una prueba objetiva es el _____________________. 2. Cul es el primer paso formal en la elaboracin de una prueba para predecir el grado de xito en un trabajo en particular? ________________________________.
17
B. Falso y verdadero: encierre en un crculo la V si la afirmacin es verdadera; encierre en un crculo la F si se trata de una afirmacin falsa. V V F F 1. El sistema de clasificacin de pruebas ms comprensivo es el de The Mental Measurements Yearbooks. 2. El grupo de respuestas de conveniencia social es la tendencia a dar una calificacin alta a una persona en un rasgo o caracterstica solo porque se le califica as en otra caracterstica.
C. Aparejamiento: escriba la letra que corresponde al nombre correcto en el espacio adecuado del margen. _____ 1. Prueba de inteligencia de grupo _____ 2. Prueba de inteligencia individual _____ 3. Inventario de intereses _____ 4. Inventario de personalidad _____ 5. Correlacin producto-momento _____ 6. Pruebas sensoriomotrices A. Binet B. Darwin C. Galton D. Otis E. Pearson F. Rorschach G. Spearman H. Strong I. Woodworth
D. Opcin mltiple: escriba la letra de la opcin correcta en el espacio del margen antes del tem o reactivo. 1. Los adverbios como nunca, a veces y siempre, que revelan la respuesta a una persona sin informacin sobre la materia del reactivo, se llaman generalidades brillantes adverbios de enlace B. D. grupos de respuestas determinantes especficos
A. C. 2.
Jimmy, que tiene 8 aos 4 meses de edad, obtiene una calificacin de edad mental de 9 aos 5 meses. De acuerdo con el texto, cul es su CI promedio? A. C. 88 90 B. D. 113 120
1. Reactivos de ensayo. La ventaja ms importante de los reactivos de ensayo es que pueden medir la capacidad para organizar, relacionar y comunicar, comportamientos que no evalan con facilidad los reactivos objetivos; adems, un instrumento de ensayo requiere menos tiempo para prepararse y es poco probable que los sujetos contesten en forma correcta, los reactivos de ensayo mediante la adivinacin. Una desventaja de los instrumentos de ensayo es que la cantidad de preguntas que pueden responderse en un tiempo de clase regular (aproximadamente seis respuestas de media pgina en 50 minutos) 18
tal vez no proporcionen un muestreo adecuado del conocimiento sobre la materia que tienen las personas. Otras desventajas de estos instrumentos son que la calificacin es subjetiva; toma mucho tiempo y son susceptibles al engao por parte de sujetos con facilidad de palabra, pero que carecen de informacin. Un profesor de historia que conozco, en una ocasin inform haber aplicado un instrumento de ensayo que inclua la pregunta, Cules fueron las causas y consecuencias de la Batalla de Hastings? Un alumno flojo que no haba tenido tiempo de llegar mas atrs del siglo XVI al estudiar la historia de Inglaterra empez la respuesta a esta pregunta con la afirmacin, No puedo comentar sobre la Batalla de Hastings, pero prestemos atencin a la Guerra de los Cien Aos. Este es un ejemplo bastante flagrante de la tendencia que presentan personas que no cuentan con informacin suficiente al responder de manera ligeramente diferente a la pregunta hecha con objeto de enfatizar lo que s saben, en lugar de lo que no conocen. Por regla general, no deben utilizarse los reactivos de ensayo cuando es posible realizar la misma evaluacin con reactivos objetivos. Si se hacen preguntas de ensayo, la persona que redacta los reactivos debe tratar de realizar las preguntas objetivas. Esto puede lograrse al 1) definir la tarea y redactar los reactivos en forma clara, por ejemplo, pidiendo al sujeto que compare y explique en lugar de que analice; 2) utilizar una cantidad reducida de reactivos, debern responder todas las personas; 3) estructurar los reactivos de manera que los expertos en la materia estn de acuerdo en que una respuesta es mejor que otra de forma demostrable y 4) pedir a las personas que respondan cada reactivo en una hoja de papel separada.
Reactivos de respuesta corta, falso y verdadero y comparacin. Los reactivos objetivos no se limitan a las cuatro formas tradicionales (respuesta corta o terminacin, falso y verdadero, comparacin y opcin mltiple), pero estas son las ms populares. Algunas de las ventajas que presentan las pruebas objetivas son que pueden calificarse con facilidad y de manera objetiva y que, como se necesita menos tiempo para responder cada reactivo, permiten un muestreo ms extenso del material que las pruebas de ensayo. En la preparacin de pruebas objetivas, debe ponerse especial cuidado en lograr que los reactivos sean claros, precisos y correctos en el aspecto gramatical. Deben redactarse con un lenguaje apropiado para el nivel de lectura del grupo que presentar la prueba. Deben incluir en el reactivo todos los datos y requerimientos necesarios para seleccionar una respuesta razonable, omitiendo las palabras y frases intiles o estereotipadas. A pesar de que puede existir una tendencia a elaborar los reactivos objetivos con el uso de afirmaciones de los libros de texto u otras fuentes, esto da mayor importancia al aprendizaje de memoria. Las personas que redactan los reactivos tambin deben tener Una forma de manejar este problema, aunque representa mucho trabajo tanto para las personas que presentan la prueba como para quienes la califican, es el famoso procedimiento chino para los exmenes en el que se pide a los sujetos que escriban todo lo que saben!
19
cuidado de omitir las claves irrelevantes para la respuesta correcta y evitar reactivos que se interrelacionen y se entrelacen. Los reactivos se interrelacionan cuando la redaccin de uno de estos ofrece una clave para la respuesta de otro. Los reactivos se entrelazan cuando es necesario saber la respuesta correcta de uno con objeto de contestar otro en forma correcta.
2. Reactivos de respuesta corta. Un reactivo de respuesta corta es una tarea de tipo de completamiento, en la cual, se pide a las personas que completen o llenen uno o ms espacios en blanco de una afirmacin incompleta con las palabras o frases correctas o que den una respuesta breve a una pregunta. En trminos de la longitud de la respuesta elaborada, los reactivos de respuesta corta se encuentran entre los reactivos de ensayo y de conocimiento. Se cuentan entre los reactivos que se elaboran con mayor facilidad, ya que requieren que las personas den la respuesta correcta en lugar de limitarse a reconocerla. A pesar de que los reactivos de respuesta corta son en especial tiles para evaluar el conocimiento de la terminologa, tienen serias limitaciones. No son apropiados para medir objetivos de enseanza complejos y, ya que puede haber ms de una respuesta correcta, la calificacin no siempre es por completo objetiva. En la elaboracin de reactivos de respuesta corta debe seguirse los lineamientos siguientes: 1. Se prefieren las preguntas a las afirmaciones incompletas. 2. Si se utiliza una afirmacin incompleta, debe redactarse de manera que el espacio en blanco quede al final de sta. 3. Evitar varios espacios en blanco en el mismo concepto, en especial, si hacen que el significado de la tarea no sea claro.
3. Reactivos de falso y verdadero. Uno de los tipos de reactivos para pruebas que son ms sencillos de elaborar, pero que quiz sean los que menos agradan a los profesionales que aplican las pruebas, son los de falso y verdadero. Estos reactivos pueden redactarse y leerse con rapidez y, por tanto, permiten un muestreo extenso del contenido. Una desventaja importante de estos reactivos es que, con frecuencia, se ocupan de informacin trivial o se elaboran con afirmaciones que se toman al pie de la letra de los libros de texto. Como consecuencia, se dice que alientan el aprendizaje de memoria. Otro motivo de crtica para los reactivos de falso y verdadero es que con frecuencia son ambiguos, no pueden utilizarse para medir objetivos de enseanza ms complejos y, al basarse en el aprendizaje de memoria, dan una direccin errnea a los esfuerzos por aprender; adems, ya que la calificacin total de una prueba de falso y verdadero puede verse afectada por la tendencia del sujeto a adivinar cuando tiene duda o a estar de acuerdo (o en desacuerdo), el significado de sta puede ponerse en entredicho. La tendencia a estar de acuerdo cuando se tienen dudas (conformidad) es un ejemplo de un grupo de respuestas. Un grupo de respuestas es la tendencia por parte de la persona que presenta la prueba a contestar los reactivos con base a su forma, es decir, en la manera que estn redactados, en lugar de su contenido.
20
En promedio, los sujetos respondern en forma correcta 50 por ciento de los reactivos de una prueba de falso y verdadero con slo adivinar. Las calificaciones pueden aumentar an ms cuando los reactivos contienen determinantes especficos; palabras como todos, siempre, nunca y slo, que indican que es probable que la afirmacin sea falsa, o con frecuencia, algunas veces y por lo general, que indican que es probable que la afirmacin sea verdadera. A pesar de estas desventajas, los reactivos de falso y verdadero no tienen que ser triviales ni ambiguos y no necesariamente dan una direccin errnea a los esfuerzos por aprender. En defensa de los reactivos de falso y verdadero, Ebel (1970) sostiene que el grado del dominio por parte de los alumnos de un rea del conocimiento en particular est indicado por su xito al juzgar lo cierto o falso de las propuestas que se relacionan con sta". Ebel argumentaba que estas propuestas son expresiones del conocimiento verbal, que considera, la esencia del logro educativo. La defensa por parte de Ebel de los reactivos de falso y verdadero puede ponerse en duda, pero no se pone en duda el hecho de que los reactivos de falso y verdadero puedan medir algo ms que el aprendizaje de memoria, por ejemplo, al incluir dos conceptos, condiciones o eventos en un reactivo de falso y verdadero, la persona que administra la prueba puede preguntar si es cierto que estn relacionados de manera estrecha a moderada. (Diekhoff, 1984). Otras posibilidades son preguntar si: 1) un concepto, condicin o evento implica (es consecuencia de) otro; 2) un concepto, condicin o evento es un subgrupo, ejemplo o categora de otro, o 3) ambos conceptos, condiciones o eventos son verdaderos. Estos reactivos pueden medir la comprensin, as como el conocimiento significativo de los conceptos y eventos. Cualesquiera que sean los objetivos de una prueba de falso y verdadero, se aconseja tomar en cuenta las sugerencias siguientes al elaborar reactivos de este tipo: 1. Asegrese de que las afirmaciones planteen asuntos importantes (no triviales). 2. Redacte las afirmaciones relativamente cortas y verdaderas o falsas sin lugar a dudas. 3. Evite los reactivos en forma negativa, en especial aquellos que contienen doble negacin. 4. Evite los reactivos ambiguos y capciosos. 5. Como regla general, evite los determinantes especficos. Si se utilizan determinantes especficos para hacer que cometan errores las personas sin conocimientos pero hbiles, deben incluirse en los reactivos verdaderos con tanta frecuencia como en los falsos. 6. En las afirmaciones de opinin, cite la fuente o el texto del que provienen. 7. Redacte las afirmaciones verdaderas y falsas ms o menos con la misma longitud y procure que la cantidad de afirmaciones verdaderas sea aproximadamente igual a la cantidad de afirmaciones falsas. Puede argumentarse que, debido a que las afirmaciones falsas tienden a ser ms discriminantes que las verdaderas, la cantidad de afirmaciones falsas debera ser mayor que las verdaderas. Sin embargo, si el maestro sigue esta prctica en pruebas subsecuentes, es probable que los alumnos se den cuenta de ello y empiecen a responder falso cuando tengan duda sobre la respuesta.
21
8. Haga que las respuestas incorrectas sean ms atractivas al redactar los reactivos de modo que la lgica superficial, los errores populares y los determinantes especficos sugieran que las respuestas errneas son correctas. Las afirmaciones falsas que parecen verdaderas tambin pueden hacer que se equivoquen las personas sin conocimientos.
4. Reactivos de aparejamiento. En cierto sentido, tanto los reactivos de falso y verdadero como los de opcin mltiple son una variedad de los reactivos de aparejamiento. En estos tres tipos de reactivos, se compara un grupo de opciones de respuesta a un grupo de opciones de estmulo (premisas). La diferencia es que los reactivos de falso y verdadero y de opcin mltiple tienen una sola opcin de estmulo (el tronco de la respuesta) y dos o ms opciones de respuesta, en tanto que los reactivos de aparejamiento pueden tener opciones de estmulo y de respuesta mltiples. La tarea en un reactivo de aparejamiento es indicar qu opciones de respuesta corresponden a cules opciones de estmulo. Por lo general, la comparacin es de una a uno (una respuesta por estmulo), pero tambin puede ser de una a varios, de varias a uno o de varias a varios. Desde luego, los sujetos deben estar informados sobre cuales de estos procedimientos se aplican a un reactivo en particular. Los reactivos de aparejamiento son fciles de elaborar y cubren el material con ms eficacia que otros tipos de reactivos, pero por lo regular miden slo el aprendizaje de memoria de los hechos; adems, la necesidad de hacer que las opciones sean homogneas (todas las opciones de la misma clase, como fechas, lugares o nombres) limita el tipo de material que puede adaptarse en un contexto de comparacin. Los siguientes son algunos lineamientos para la elaboracin de reactivos de aparejamiento: 1. Ordene las opciones de estmulo (premisas) y respuesta en un formato de columnas claro y lgico, con las opciones de estmulo en la columna izquierda y las opciones de respuesta en la columna derecha. 2. Numere las opciones de estmulo en forma sucesiva y coloque letras (a, b, c, etctera) antes de las opciones de respuesta. 3. Utilice entre seis y 15 opciones de estmulo, que tengan de dos a tres opciones de respuesta ms que las opciones de estmulo. 4. Especifique con claridad las bases de la comparacin. 5. Coloque todos los reactivos de este mismo tipo en una sola pgina. Un tipo especial de reactivo de aparejamiento es el reactivo de reordenamiento o jerarquizacin, en el cual se pide a las personas que clasifiquen un grupo de opciones en una cantidad fija de categoras determinadas previamente. Un tipo particular de reactivo de jerarquizacin es el reactivo de rango, en el cual, se ordena un conjunto de opciones de acuerdo con el rango de primera a ltima.
5. Reactivos de opcin mltiple. Nadie sabe quien elabor el primer reactivo de prueba de opcin mltiple, pero desde el punto de vista de la evaluacin psicolgica se trat de un
22
evento importante. Los reactivos de opcin mltiple son los ms verstiles de todos los reactivos para las pruebas objetivas en el sentido que pueden utilizarse para medir los objetivos de aprendizaje complejos y sencillos en todos los niveles y en cualquier materia. A pesar de que la elaboracin de una respuesta para un reactivo de ensayo quiz requiera de mayor habilidad para la organizacin que la respuesta para un reactivo de opcin mltiple, responder en forma correcta un reactivo de opcin mltiple bien elaborado, requiere de gran capacidad para la discriminacin y no slo para reconocer o recordar la respuesta adecuada. Las calificaciones para este tipo de reactivos se ven menos afectadas por la adivinacin y otros grupos de respuesta que las calificaciones para otros tipos de reactivos objetivos. Adems, puede obtenerse informacin de diagnstico til a partir de un anlisis de las opciones incorrectas (distractores) que eligen las personas. Entre las desventajas de los reactivos de opcin mltiple se encuentra que: 1) es difcil elaborar los reactivos adecuados, en especial aquellos donde todas las opciones tengan el mismo atractivo para los sujetos que no conocen 1a respuesta correcta; 2) enfatizan el reconocimiento ms que el recuerdo y organizacin de la informacin; y 3) requieren de ms tiempo para contestarse y quizs ofrecen una muestra menos adecuada del rea de la materia que los reactivos de falso y verdadero. Tambin se establece, aunque no se ha comprobado, que las pruebas de opcin mltiple favorecen a los lectores astutos, ingeniosos y rpidos y afectan a las personas que piensan con mayor profundidad las respuestas (Hoffman, 1962). Los lineamientos siguientes deben facilitar la elaboracin de reactivos de opcin mltiple de alta calidad: 1. Debe utilizarse como tronco una pregunta o afirmacin incompleta, pero se prefiere el formato de pregunta. En una afirmacin incompleta, coloque el espacio en blanco al final del reactivo. 2. Establezca en el tronco, el problema especfico de la pregunta o afirmacin incompleta de manera clara y en un nivel apropiado para las personas; evite tomar al pie de la letra preguntas o afirmaciones de los libros de texto. 3. Coloque la mayor parte del reactivo en el tronco. No tiene caso repetir las mismas palabras en todos los conceptos. Para las personas es menos difcil revisar las opciones ms cortas. 4. Emplee pocas preguntas de opinin; cuando las utilice, cite la fuente o el libro de texto de donde proviene la opinin. 5. Por lo general se utilizan cuatro o cinco opciones, pero tambin pueden redactarse slo dos o tres opciones. 6. Si las opciones tienen un orden natural, como fechas o pocas, se recomienda ordenarlos de acuerdo con ste. De otra manera, ordene las opciones de modo aleatorio o alfabticamente (si esta ultima no proporciona alguna clave para las respuestas correctas).
Es probable que el crdito por la creacin del formato de reactivos de opcin mltiple corresponda a Arthur Otis, quien al parecer, lo utiliz por primera vez en su prueba de inteligencia en grupo en 1916-1917.
23
7. Redacte todas las opciones de respuesta de modo que tengan una longitud, ms o menos igual, que sean correctas en el aspecto gramatical y que sean apropiadas en relacin con el tronco. Sin embargo, no permita que el tronco revele la opcin correcta mediante asociaciones verbales u otras claves. 8. Haga que todas las opciones sean posibles para las personas que no conocen la respuesta correcta, pero que slo una opcin sea la correcta o "la mejor". 9. Al elaborar cada distractor, formule una razn por la cual un sujeto que no conoce la respuesta correcta podra seleccionarlo. 10. Evite, o por lo menos reduzca al mnimo, el uso de expresiones como no tanto en el tronco como en las opciones. 11. A pesar de que es apropiada cierta cantidad de originalidad e incluso humor y puede servir para interesar y motivar a las personas, no deben utilizarse troncos y opciones ambiguas ni capciosas. 12. Use poco las expresiones ninguna de las anteriores, todas las anteriores o ms de una de las anteriores. Tambin evite los determinantes especficos como siempre o nunca. 13. Coloque las opciones en formato (prrafo) de grupo en lugar de una tras otra; utilice nmeros para designar los reactivos y letras para las opciones. 14. Prepare la cantidad correcta de reactivos para el grado o nivel de edad que se pondr a prueba, haciendo que cada reactivo sea independiente de los dems (que no se entrelacen ni se interrelacionen). Con slo seguir estos lineamientos, que son sobre todo producto de la lgica y la experiencia ms que de la investigacin, no asegura la elaboracin de una prueba de opcin mltiple adecuada; en lugar de obedecer a ciegas un conjunto de reglas, la capacidad para redactar reactivos adecuados depende tanto o ms del conocimiento de la materia que abarca la prueba, de entender lo que los alumnos deben saber sobre la materia, del arte o la habilidad para hacer preguntas, etc. An cuando los lineamientos no se sigan con precisin, los reactivos de opcin mltiple tienden a ser bastante eficaces para medir el conocimiento y la comprensin1.
Elaboracin de distractores. Un proceso crucial para determinar la efectividad de los reactivos de opcin mltiple es la seleccin o elaboracin de distractores (opciones incorrectas). En la seleccin de reactivos puede emplearse un planteamiento racional o emprico. El planteamiento racional requiere que la persona que elabora la prueba realice juicios personales con respecto de los distractores apropiados. Por el contrario, el planteamiento emprico consiste en seleccionar distractores de acuerdo con la cantidad de respuestas que se dan al tronco del reactivo cuando se aplican como afirmaciones abiertas. No existe un consenso con respecto de qu planteamiento da como resultado mejores distractores, pero el juicio de la persona que aplica el examen parece ser por lo menos tan efectivo como el planteamiento emprico (Owens, Hanna y Coppedge, 1970; Hanna y Jonhson. 1978).
Pueden encontrarse ejemplos de esta clase de reactivos en Woolfolk, Anita E. (1999), Psicologa educativa. Prentice Hall: Mxico.
24
Elaboracin de reactivos complejos. Los creadores de pruebas por lo general tienen ms problemas al elaborar los reactivos para medir la comprensin y el pensamiento que aquellos que miden el conocimiento directo de la materia de la prueba. Se han propuesto distintas formas de componer reactivos objetivos para evaluar objetivos de enseanza ms complejos. Las opciones como todas las anteriores, ninguna de las anteriores, dos de las anteriores y "todas las anteriores menos una pueden hacer que la eleccin sea ms difcil; adems, hacer que todas las opciones sean correctas (o incorrectas) y pedir que las personas seleccionen la mejor o la opcin ms apropiada para cada reactivo complica la tarea. Otras formas de hacer que la decisin del sujeto sea ms difcil son: 1) incluir reactivos de opcin mltiple en los cuales una cantidad variable de opciones sea correcta y en los que la persona deba indicar cules opciones son correctas o incorrectas (en caso de haberlas); 2) hacer que seleccionen una respuesta y la mejoren, y 3) pedir que identifiquen el planteamiento correcto (como por ejemplo una ecuacin o mtodo de solucin) para las tareas de solucin de problemas. A continuacin se ilustran procedimientos adicionales para aumentar la complejidad de los reactivos de opcin mltiple. Todas estas tcnicas se disearon para hacer que la eleccin de la opcin correcta sea un proceso analtico y que requiera del pensamiento en el cual se emplean distintas capacidades mentales, en lugar de un simple proceso de memoria de reconocimiento. Algunas formas complejas de reactivos de opcin mltiple 1. Clasificacin. El examinando clasifica una persona, objeto o condicin en una de las varias categoras mencionadas en el tronco: Jean Piaget se caracteriza mejor como un psiclogo ________________ a. clnico b. del desarrollo c. psicomtrico d. social
2. Condiciones si-entonces. El examinando debe decidir la consecuencia correcta de una o ms condiciones presentes: Si la varianza real de una prueba aumenta pero la varianza de error permanece constante, cul de las situaciones siguientes se presenta? a. aumenta la confiabilidad b. disminuye la confiabilidad observada c. disminuye la varianza observada d. no cambian ni la confiabilidad ni la varianza
3. Condiciones mltiples. El examinando utiliza dos o ms condiciones o afirmaciones mencionadas en el tronco para llegar a una conclusin: Suponiendo que la calificacin bruta de Mary en una prueba es 60, la medida de la prueba es 59 y la desviacin estndar es 2, cul es la calificacin z de Mary?
25
a. 2.00 b. 0.50
c. 0.50 d. 2.00
4. Falso y verdadero mltiple. El examinando decide si una, todas o ninguna de las dos o ms condiciones o afirmaciones mencionadas en el tronco es (son) correcta (s): Es cierto que 1) Alfred Binet es el padre de las pruebas de inteligencia y 2) su primera prueba de inteligencia se public en 1916? a. ambas, 1 y 2 b. 1 pero no 2 c. 1 no, pero 2 s d. ni 1 ni 2
5. Falta de correspondencia. El Examinando indica cul de las opciones no pertenece al mismo grupo que las otras: Cul de los nombres siguientes no corresponde con los otros? a. Alfred Adler b. Sigmund Freud c. Carl Jung d. Carl Rogers
_________________________________________________________________________ Tomado textualmente de: Aiken, Lewis R. (1996). Tests psicolgicos y Evaluacin. Mxico: Prentice Hall, pginas 29 a 37.
26
BREVE REPASO DE ALGUNOS TRMINOS ESTADSTICOS

MEDIDAS DE TENDENCIA CENTRAL
Una caracterstica de la distribucin de datos es su tendencia a acumularse hacia el centro de la misma. Esta caracterstica se denomina tendencia central. Las ms importantes, al menos para la segunda parte de este curso sobre Teora de la Medida, son: la moda, la mediana y la media.
MODA, el valor ms frecuente (Mo) Es la puntuacin que ocurre con mayor frecuencia. La moda puede ser no nica e inclusive no existir. Ejemplo: 24 31 35 Mo = 35 Ejercicio 1. Hallar la moda en los siguientes datos: 16 18 15 20 16 35 38 43 45 50 57
MEDIANA, el valor central (Mdn) Es el valor que divide a la distribucin por la mitad, o dicho de otra forma, el punto central de una serie de datos
a) No. Impar: N + 1 / 2
Para calcularla b) No. Par: Media de los valores centrales Ejemplos: Habindose ordenado los datos en forma creciente (o decreciente), se aplica la frmula del inciso a dado que el nmero de datos es impar.
27
24 31 35 35
38 43 45 50
57
Mdn = 9 + 1 / 2 = 5
La mediana es 38
Ordenndose previamente los datos, se calcula la media de los valores centrales dado que el nmero de datos es par. 7 M = 10 +12 / 2 = 11 10 10 12 13 15 La mediana es 11
Ejercicio 2. Hallar la mediana de los siguientes datos. 25 30 28 26 32
MEDIA, promedio aritmtico de una distribucin (M) Se trata de la suma de todos los valores divididos por el nmero de casos. Frmula: M = X / N
Ejemplo: 10 8 6 5 10 7
M = 10 + 8 + 6 + 5 + 10 + 7 / 6 = 8 Cuando los datos estn agrupados en intervalos, la media se calcula as: 1. Se obtiene el punto medio de cada intervalo. 2. Se multiplica cada punto medio por las frecuencias correspondientes. 3. Se aplica la siguiente frmula: M = fx / N
Ejemplo:
28
INTERVALOS 13 15 10 12 79 46 1-3
f 3 4 9 2 1 N = 19
x 14 11 8 5 2
fx 42 44 72 10 2 fx = 170
M = 170 / 19 = 8.95 Ejercicio 3. Con la siguiente distribucin de frecuencias, que muestra espesores en pulgadas de recipientes de acero, hallar la media aritmtica. Espesores en pulgadas 0.327 0.330 0.323 0.326 0.319 0.322 0.315 0.318 0.311 0.314 0.307 0.310 f 1 14 22 5 5 3
MEDIDAS DE DISPERSIN
Estas medidas indican la tendencia de los datos a dispersarse en torno al centro de la distribucin. Las ms importantes, para la segunda parte del curso en cuestin, son: el rango, la desviacin estndar y la varianza.
RANGO, amplitud o recorrido (R) Es la diferencia entre el dato mayor y el dato menor de un conjunto de datos. Su frmula es: R = X mx. X mn. Ejemplos:
29
4 5 R = 16 2 R = 13
5 5 6
7 20
4 6 7
9 12 14
15
DESVIACIN ESTNDAR (s) Y VARIANZA (s2) Considrese el siguiente conjunto de datos: 5 10 15 20 25 30 35,
el cual, presenta una M de 20. La desviacin de cada uno de esos datos con respecto a su media los presentamos en el siguiente cuadro:
X XM=d
5 5 - 20 - 15
10 10 - 20 - 10
15 15 - 20 -5
20 20 - 20 0
25 25 - 20 5
30 30 - 20 10
35 35 - 20 15
Considerando lo anterior, la desviacin estndar es un promedio de las desviaciones de las puntuaciones de una distribucin con respecto a su media. Se define como: la raz cuadrada de los cuadrados de las desviaciones de los valores de la variable con relacin a su media. Cuanto mayor es la dispersin de los datos alrededor de la media, mayor es la desviacin estndar. En lo que respecta a la varianza, sta es el cuadrado de la desviacin estndar.
Frmula de la desviacin estndar: s =
(X M)2 / N
30
Procedimiento: 1. 2. 3. 4. Se ordenan las puntuaciones. Se calcula la media. Se determina la desviacin de cada puntuacin con respecto a la media. Se eleva al cuadrado cada desviacin y se obtiene la sumatoria de las desviaciones elevadas al cuadrado. 5. Se aplica la frmula antes citada.
Ejemplo: Las calificaciones en Teora de la medida. M = 40 / 7 = 5.71 X 9 7 6 6 5 4 3 X = 40 s= 23.40 / 7 = 1.83 X-M 3.29 1.29 0.29 0.29 - 0.71 - 1.71 - 2.71 (X M)2 10.82 1.66 0.08 0.08 0.50 2.92 7.34 (X M)2 = 23.40
s2 = 3. 34 Ejercicio 4. Siendo su M de 9.5, hallar la desviacin estndar y la varianza de la siguiente serie de datos: 10 18 15 12 3 6 5 7
Cuando los datos estn agrupados en una distribucin de frecuencias: 1. Se obtiene el punto medio de cada intervalo y se determina la media de la distribucin (con la frmula para los datos agrupados M = fx / N).
31
2. Se determina la desviacin de cada puntuacin con respecto a la media (restando a los puntos medios lo que se haya obtenido como media). 3. Se eleva al cuadrado cada desviacin 4. Se multiplica el cuadrado de cada desviacin por las frecuencias correspondientes 5. Se obtiene la sumatoria de las desviaciones elevadas al cuadrado y multiplicadas por las frecuencias. 6. Se aplica la siguiente frmula: s= f (X M)2 / N
Ejemplo: M = 8.95 INTERVALOS 13 15 10 12 79 46 13 (X M)2 25.5025 4.2025 0.9025 15.6025 48.3025 f (X M)2 76.5075 16.81 8.1225 31.205 48.3025 f (X M)2 = 180.9475
f 3 4 9 2 1 N = 19
X 14 11 8 5 2
X -M 5.05 2.05 - 0.95 - 3.95 - 6.95
s=
180.9475 / 19
9.5235
= 3.08
s2 = 9.48 Ejercicio 5. Siendo su M de 26.04, hallar la desviacin estndar y la varianza para la siguiente distribucin de frecuencias. INTERVALOS 34 - 39 28 33 22 27 16 21 10 15 f 6 10 13 8 2
32
CASO PRCTICO: Supngase que se utiliz una escala de actitudes para medir la actitud hacia el presidente entre dos grupos pertenecientes a una misma nacin, en la cual, se utilizaron 18 reactivos con un rango potencial de 1 a 5:
Actitud totalmente desfavorable 1 2 3 4 5 Actitud totalmente favorable
Al promediarse los resultados, se obtuvieron los siguientes datos para cada uno de los grupos encuestados: Grupo A: - variable: actitud hacia el presidente - Moda: 4.0 - Mediana: 3.9 - Media: 4.2 - Desviacin estndar: 0.7 - Puntuacin mxima: 5.0 - Puntuacin mnima: 2.0 - Rango: 3 Grupo B: - variable: la misma - Moda: 1 - Mediana: 1.5 - Media: 1.3 - Desviacin estndar: 0.4 - Puntuacin mxima: 3.0 - Puntuacin mnima: 1.0 Rango: 2
PREGUNTA: Haciendo una comparacin entre ambos casos, En cual de los dos se obtuvieron promedios que reflejaran una actitud ms favorable hacia el presidente?
CORRELACIN (DE PEARSON)
Mide la magnitud y la direccin de la relacin existente entre dos variables. Se dice que hay correlacin entre dos variables cuando stas cambian de tal modo que los valores que toma una de ellas son, hasta cierto punto, predecibles a partir de los que toma la otra. Su frmula es:
33
rxy = xy (x) (y) N [x2 (x)2] [y2 (y)2] N N Ejemplo: Un investigador realiz un estudio entre la relacin del consumo de cigarro y las enfermedades. Determin, para ello, la cantidad de cigarros consumidos diariamente y los das de ausencia en el trabajo durante el ltimo ao debido a una enfermedad de 12 sujetos. Para calcular la correlacin entre estas dos variables, basndose en la frmula de Pearson, dicho investigador llevo a cabo el siguiente procedimiento:
SUJETOS 1 2 3 4 5 6 7 8 9 10 11 12 CIGARROS (X) 0 0 0 10 13 20 27 35 35 44 53 60 297 DAS (Y) 1 3 8 10 4 14 5 6 12 16 10 16 105 X2 0 0 0 100 169 400 729 1225 1225 1936 2809 3600 12193 Y2 1 9 64 100 16 196 25 36 144 256 100 256 1203 XY 0 0 0 100 52 280 135 210 420 704 530 960 3391
rxy = 3391 (297) (105) 12 [12193 (297)2] [12032 (105)2] 12 12 rxy = 0.67 RESPUESTAS A LOS EJERCICIOS:
1. Mo = 16 2. Mdn = 28 3.
34
Espesores en pulgadas 0.327 0.330 0.323 0.326 0.319 0.322 0.315 0.318 0.311 0.314 0.307 0.310 M = 15.9930 / 50 = 0.3199 4. X 10 18 15 12 3 6 5 7 X = 8 s = 190 / 8 = 4.87 s2 = 23.75 5. INTERVALOS f 34 - 39 6 28 33 10 22 27 13 16 21 8 10 15 2 N =39 s= 1693 / 39 = 6.6 s2 = 43.4
f 1 14 22 5 5 3 N=50
X 0.3285 0.3245 0.3205 0.3165 0.3125 0.3085
fX 0.3285 4.5430 7.0510 1.5825 1.5625 0.9255 fX=15.9930 (X M)2 0.25 72.25 30.25 6.25 42.25 12.25 20.25 6.25 (X M)2 = 190 (X M)2 109.4116 19.8916 2.3716 56.8516 183.3316 f (X M)2 656.5 168.1 46.9 454.8 366.7 f (X M)2 = 1693
X-M 0.5 8.5 5.5 2.5 - 6.5 - 3.5 - 4.5 - 2.5
X 36.5 30.5 24.5 18.5 12.5
X -M 10.46 4.46 - 1.54 - 7.54 -13.54
Respuesta a la pregunta. Es en el grupo A donde se obtuvieron promedios que reflejan una actitud ms favorable hacia el presidente. Para verificarlo, observa la comparacin grfica que se hace de ambos casos a continuacin:
Grupo A: Actitud favorable
Mo 4 Mdn 3.9 M 4.2
Grupo B: Actitud muy desfavorable

Mdn 1.5
Mo 1
M 1.3
R3
Promedio de desviacin (s) 0.7
R2
Promedio de desviacin (s) 0.4
35
USO DE LA TABLA DE AREAS BAJO LA CURVA NORMAL
- Parte 1 de 2 Dado un conjunto de datos que se distribuyen en forma normal, con media (M) y desviacin estndar (s), se convierte el dato X en dato z2, mediante la expresin: Z=X-M/s S X > M, z es positivo. S X = M, z = 0. Si X < M, z es negativo. Por ejemplo, si M = 70 y s = 10, la conversin de los valores 60, 70 y 80 en datos z es la siguiente: z = 60 - 70 / 10 = -1 z = 70 - 70 / 10 = 0 z = 80 - 70 / 10 = 1
2
Las calificaciones brutas se transforman con frecuencia a otras escalas, para facilitar el anlisis y la interpretacin. Estas calificaciones, como sucede en el caso de las calificaciones estndar, se llaman derivadas o transformadas. Una calificacin estndar (z) expresa la ejecucin de una persona en funcin de su desviacin de la media en unidades de desviacin estndar. Estas calificaciones derivadas en particular tienen varias ventajas: 1. Miden en una escala de intervalos (al expresar la ejecucin en trminos de unidades de desviacin estndar se transforman las calificaciones brutas en una escala de unidades de igual medida), y 2. Nos permiten comparar calificaciones de varias pruebas en forma directa, incluso cuando tengan medias y desviaciones estndar diferentes. Un ejemplo ilustrar mejor esta ventaja: Tenemos el caso donde se desea comparar una distribucin obtenida en una preprueba con otra obtenida en una postprueba (en un contexto experimental). Supongamos que se trata de un estmulo que incrementa la productividad. Un trabajador obtuvo en la preprueba una productividad de 130 (la media del grupo fue de 122.5 y la desviacin estndar de 10). Y en la postprueba obtuvo 135 (la media del grupo fue de 140 y la desviacin estndar de 9.8). Mejor la productividad del trabajador? Aparentemente la mejora no es considerable. Sin transformar las 2 calificaciones en puntuaciones "z" no podemos asegurarlo porque los valores no pertenecen a la misma distribucin. Entonces transformamos ambos valores a puntuaciones "z" donde la comparacin es vlida. El valor de 130 en productividad es en trminos de unidades de desviacin estndar igual a: z = 130 - 122.5 / 10 = 0.75 Y el valor de 135 corresponde a una puntuacin "z" de: z = 135 - 140 / 9.8 = 0.51
Como podemos observar, en trminos absolutos 135 es una mejor puntuacin que 130, pero no en trminos relativos (en relacin a sus respectivas distribuciones).
36
Obsrvese que la distancia entre la media 70 y el valor 80 es de una desviacin estndar a la derecha de la media. La distancia entre 60 y la media tambin es de una desviacin estndar pero por debajo de la media. La distancia entre el valor 70 y la media es cero. El valor z que corresponde a un valor X mide la distancia que hay entre la media y el valor X. Esa distancia se mide en desviaciones estndar3. Por ejemplo, si M = 70 y s = 10, entonces la distancia que hay entre 70 y 85 es de 1.5 desviaciones estndar a la derecha de la media, ya que z = 85 - 70 / 10 = 1.5 Cuando una distribucin de frecuencias es de forma normal, el porcentaje de datos cuyos valores estn comprendidos entre la media y un valor arriba de la media, a una distancia de una desviacin estndar, es aproximadamente igual al 34.13 %. Esto es, si la distribucin normal tiene media y desviacin estndar, entonces el 34.13% de la totalidad de los datos 4 son valores comprendidos entre X y M + s. Por ejemplo, las siguientes distribuciones normales tienen diferentes medias y desviaciones estndar, pero las distancias entre los valores dados y la media es de una desviacin estndar: a) Si M = 24 y s = 7, entre 24 y 31 se encuentra el 34.13%, ya que la distancia entre 24 y 31 es de una desviacin estndar. z = 31 - 24 / 7 = 1 b) Si M = 100 y s = 25, entre 100 y 125 se encuentra el 34.13%, ya que la distancia entre 100 y 125 es de una desviacin estndar. z = 125 - 100 / 25 = 1 Para el caso en que la distancia entre la media y un valor dado sea de dos o tres desviaciones estndar, se tiene lo siguiente: El porcentaje de datos cuyos valores estn comprendidos entre arriba de la media, a una distancia de dos desviaciones estndar igual al 47.72%. El porcentaje de datos cuyos valores estn comprendidos entre arriba de la media a una distancia de tres desviaciones estndar, igual al 49.87%. Por ejemplo:
En resumen, z indica el nmero de desviaciones estndar que hay entre un valor dado y la media; por arriba de la media si z es positivo y por abajo si z es negativo. 4 Simblicamente: entre X y M + 2s se encuentra el 47.72% del total de datos y entre X y M + 3s se encuentra el 49.87% del total de datos.
3
la media y un valor es aproximadamente la media y un valor es aproximadamente
37
a) Si M = 30 y s = 8, entre 30 y 46 se encuentra el 47.72%, ya que la distancia entre 30 y 46 es de dos desviaciones estndar. z = 46 - 30 / 8 = 2 b) Si M = 30 y s = 8, entre 30 y 54 se encuentra el 49.87%, ya que la distancia entre 30 y 54 es de tres desviaciones estndar. z = 54 - 30 / 8 = 3 Los porcentajes de 34.13%, 47.72% y 49.87% correspondientes a los valores z = 1, z = 2 y z = 3, respectivamente, han sido obtenidos de la tabla de reas bajo la curva normal. En esta tabla se encuentran los diferentes porcentajes que corresponden a los diferentes valores de z (consltese el apndice al final de este texto). Dicha tabla est constituida por un arreglo de nmeros dispuestos en filas y columnas. La primera columna y el primer rengln dan los valores de z desde 0.00 hasta 3.095. En la tabla Uso de la tabla de reas bajo la curva normal (ubicada en las pginas finales de este material) se indica cmo encontrar los porcentajes que corresponden a los valores de z = 0.4, z = 0.96, z = 1.32 y z = 1.6, los cuales son respectivamente, 15.54%, 33.15%, 40.66% y 44.52%. En una distribucin normal el 34.13% del total de datos son valores comprendidos entre X y M + s. Como la curva es simtrica, el mismo 34.13% del total de datos son valores comprendidos entre M - s y X. En general, el porcentaje de datos que se encuentra entre X y M + zs es el mismo que se da entre M - zs y X. Por ejemplo, si M = 15 y s = 4, el porcentaje de datos entre 15 y 21 y entre 9 y 15 es de 43.32%, ya que z = 21 - 15 / 4 = 1.5, y z = 9 - 15 / 4 = -1.5 lo cual significa que tanto 21 como 9 tienen la misma distancia en desviaciones estndar a la media, el primero por arriba de la media y el segundo por debajo de ella.
PROBLEMA:
Para un conjunto de 500 datos que se distribuyen en forma normal con M = 65 y s = 11, Qu porcentaje de 500 son valores comprendidos entre 65 y 80? He aqu los pasos para dar respuesta a dicho cuestionamiento: 1. Se calcula la distancia en desviaciones estndar que hay entre 65 y 80 (z = 80 - 65 / 11 = 1. 36),
Algunas tablas incluyen valores de z mayores que 3.09.
38
2. Se busca en la tabla de reas bajo la curva normal el porcentaje que corresponde a z. Para esto se localiza la interseccin del rengln 1.3 y la columna .06. En esta interseccin se encuentra el nmero 41.31 (otras tablas tienen .4131). Por tanto, el 41.31% de los 500 datos son valores comprendidos entre 65 y 80. Como el 41.31% de 500 es 206.55 (500 x 41.31 = 20655 / 100 = 206.55); entonces alrededor de 206 o 207 datos son valores entre 65 y 80. Con base a lo anterior, resulvanse los siguientes casos: 1. Qu porcentaje de los datos son valores comprendidos entre 50 y 65?
2. Qu porcentaje de los datos son valores mayores que 65?
3. Qu porcentaje del total de datos son valores comprendidos entre la media y 98?6
Resuelto este caso observe que, entre los nmeros M - 3s y M +3s se encuentra el 99.74% de los datos.
39
USO DE LA TABLA DE AREAS BAJO LA CURVA NORMAL
- Parte 2 de 2 -
Para el mismo conjunto de 500 datos que se distribuyen en forma normal con M = 65 y s = 11, tambin pueden darse los siguientes casos: 1. 2. 3. 4. 5. 6. 7. Calcular el porcentaje arriba de un valor mayor que la media. Calcular el porcentaje arriba de un valor menor que la media. Calcular el porcentaje abajo de un valor mayor que la media. Calcular el porcentaje abajo de un valor menor que la media. Calcular el porcentaje entre un valor menor que la media y otro mayor que la media. Calcular el porcentaje entre dos valores mayores que la media. Calcular el porcentaje entre dos valores menores que la media.
Se resolvern a continuacin los primeros cuatro casos con la intencin de que se conviertan en una especie de gua para el educando, quien posteriormente intentar resolver los ltimos tres casos: Caso 1. Qu porcentaje son valores mayores que 78? R. Primero: convierta 78 en dato z. z = 78 - 65 / 11 = 1.18 Segundo: localice en la tabla de reas bajo la curva normal, el porcentaje que corresponde a z = 1.18. Este porcentaje es de 38.10 y es el porcentaje de valores entre la media 65 y 78. Tercero: como arriba de la media existe el 50% de los valores y como entre la media y 78, el 38%, entonces la diferencia de estos porcentajes es el porcentaje de datos mayores que 78. Por tanto, el 11.90% son valores mayores que 78 (50.00 - 38.10 = 11.90). Caso 2. Qu porcentaje son valores mayores que 45? R. Primero: convierta 45 en dato z. z = 45 - 65 / 11 = -1.82 Segundo: localice en la tabla del apndice A, el porcentaje que corresponde a z = -1.82. Este porcentaje es 46.56 y es el porcentaje de valores entre 45 y la media 65. Tercero: como 46.56% es el porcentaje entre 45 y la media y como el 50% de los valores son mayores que la media, entonces la suma de estos porcentajes es el porcentaje de datos mayores que 45. Por tanto, el 96.56% son valores mayores que 45 (46.56 + 50.00 = 96.56).
40
Caso 3. Qu porcentaje son valores menores que 72? R. Primero: z = 72 - 65 / 11 = .64 Segundo: el porcentaje entre la media 65 y 72, que corresponde a z = .64 es 23.89. Tercero: como el 50% son valores menores que la media y como entre la media y 72 se encuentra el 23.89%, entonces la suma de estos porcentajes es el porcentaje de datos menores que 72. Por tanto, el 73.89% son valores menores que 72 (50.00 + 23.89 = 73.89). Caso 4. Qu porcentaje son valores menores que 50? R. Primero: z = 50 - 65 / 11 = -1.36 Segundo: el porcentaje entre 50 y 65, que corresponde a z = -1.36, es 41.31. Tercero: como el 50% son valores menores que la media y como entre 50 y 65 se encuentra el 41.31%, entonces la diferencia de estos porcentajes es el porcentaje de datos menores que 50. Por tanto, el 8.69% son valores menores que 50 (50.00 - 41.31 = 8.69). Resuelva de la misma manera los ltimos tres casos: 1. Caso 5: Qu porcentaje son valores comprendidos entre 52 y 81? R.
2. Caso 6: Qu porcentaje son valores comprendidos entre 70 y 85? R
3. Caso 7: Qu porcentaje son valores comprendidos entre 44 y 58? R
41
APENDICE
TABLA DE REAS BAJO LA CURVA NORMAL
z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
0.00 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2258 0.2580 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987 0.4990 0.4993 0.4995 0.4997 0.4998 0.4998 0.4999 0.4999 0.5000
.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.1950 0.2291 0.2612 0.2910 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.4920 0.4940 0.4955 0.4966 0.4975 0.4982 0.4987 0.4991 0.4993 0.4995 0.4997 0.4998 0.4998 0.4999 0.4999 0.5000
.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4987 0.4991 0.4994 0.4995 0.4997 0.4998 0.4999 0.4999 0.4999 0.5000
.03 0.0120 0.0517 0.0910 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.4370 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4988 0.4991 0.4994 0.4996 0.4997 0.4998 0.4999 0.4999 0.4999 0.5000
.04 0.0160 0.0557 0.0948 0.1331 0.1700 0.2054 0.2389 0.2704 0.2996 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4988 0.4992 0.4994 0.4996 0.4997 0.4998 0.4999 0.4999 0.4999 0.5000
.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.4960 0.4970 0.4978 0.4984 0.4989 0.4992 0.4994 0.4996 0.4997 0.4998 0.4999 0.4999 0.4999 0.5000
.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.3770 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.4750 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4989 0.4992 0.4994 0.4996 0.4997 0.4998 0.4999 0.4999 0.4999 0.5000
.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.3340 0.3577 0.3790 0.3980 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.4850 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4989 0.4992 0.4995 0.4996 0.4997 0.4998 0.4999 0.4999 0.4999 0.5000
.08 0.0319 0.0714 0.1103 0.1480 0.1844 0.2190 0.2518 0.2823 0.3106 0.3365 0.3599 0.3810 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.4980 0.4986 0.4990 0.4993 0.4995 0.4996 0.4997 0.4998 0.4999 0.4999 0.4999 0.5000
.09 0.0359 0.0754 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.3830 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.4890 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 0.4990 0.4993 0.4995 0.4997 0.4998 0.4998 0.4999 0.4999 0.4999 0.5000
42
RESPUESTAS DE LOS EJERCICIOS
A. De la parte 1: 1. 41.31% 2. En una distribucin normal, arriba y debajo de la media se encuentra el 50% del total de datos. Por tanto, 50% de los datos son valores mayores que 65. 3. El 49.87% del total de datos son valores comprendidos entre 65 y 98.
B. De la parte 2: 1. Como el 38.10% son valores comprendidos entre 52 y 65 y como el 42.65% son valores comprendidos entre 65 y 82, entonces la suma de estos porcentajes es el porcentaje de datos entre 52 y 81. Por tanto, el 80.75% son valores comprendidos entre 52 y 81 (38.10 + 42.65 = 80.75). 2. Como el 46.56% son valores entre 65 y 85 y como el 17.36% son valores entre 65 y 70, entonces la diferencia entre estos porcentajes es el porcentaje de datos entre 70 y 85. Por tanto, el 29.20% son valores comprendidos entre 70 y 85 (46.56 - 17.36 = 29.20). 3. Como el 47.19% son valores comprendidos entre 44 y 65 y como el 23.89% son valores comprendidos entre 58 y 65, entonces la diferencia entre estos porcentajes es el porcentaje de datos entre 44 y 58. Por tanto, el 23.30% son valores comprendidos entre 44 y 58 (47.19 - 23.89 = 23.30).
Bibliografia
Portilla Chimal, E. (1998). Estadstica, primer curso. Mxico: McGraw-Hill. Brown F. (1998). Principios de la medicin en psicologa y educacin. Mxico: El Manual Moderno. Hernndez Sampieri, R., C. Fernndez Collado, y P. Baptista Lucio (1998). Metodologa de la investigacin. Mxico: McGraw-Hill.
43
CALIFICACIN DE LAS PRUEBAS
Para una prueba formada por partes con diferentes contenidos o reactivos debe considerarse si se obtienen calificaciones separadas o una calificacin como un todo
Otras consideraciones:
-Restar aciertos por

Qu Procedimiento de calificacin Utilizar? adivinar,
-Reportar los resultados

en forma de calificacin bruta o convertirlos de alguna manera
Calificacin de pruebas de ensayo Para estos se sugiere estructurar claramente la tarea solicitada
E R R O R E S
Escritura & Calidad de la respuesta (Evaluacin) Ser demasiado general (Error de indulgencia) Calificar bien un reactivo slo porque el sujeto obtuvo calificaciones altas en otros (efecto de halo)
Recomendaciones para calificar pruebas de ensayo Calificar la pregunta como un todo (calif. general o global) o asignar valores distintos a cada uno de los componentes que conforman al reactivo (procedimiento analtico) Consideracin de la extensin asignada y de la importancia de la respuesta Redaccin de respuesta ideal 44
Calificacin de las pruebas sin el conocimiento del nombre del examinado
Pruebas objetivas & Pruebas de ensayo (Calificacin)
Calificacin con mquina & Calificacin a mano
Errores cuando califican las personas Mal interpretacin de las instrucciones para calificar Percepcin del examinador al examinado como una persona afectuosa Clculo errneo al convertir las calificaciones brutas a derivadas
Ponderacin de calificaciones para reactivos de opcin mltiple y falso y verdadero Presupuesto: el puntaje dado debe variar segn el tipo de reactivo y la calidad de las respuestas
Tipos de valoracin
Convencional: otorgar la misma cantidad de puntos a los distintos reactivos Anticipada: otorgar diferentes cantidades de puntos a los distintos tipos de reactivos
Para una prueba formada por partes con diferentes contenidos o reactivos no slo debe considerarse la obtencin de calificaciones para cada una de esas partes, sino tambin la obtencin de una calificacin, que implique a todas esas partes como un todo. De ah el presupuesto de que, el puntaje dado debe variar segn el tipo de reactivo y la calidad de las respuestas.
Correccin para la adivinacin Cuestionamiento: La calificacin bruta en una prueba representa la posicin real de un sujeto o sta aument debido a las adivinaciones exitosas del sujeto? Si el sujeto ignora la respuesta correcta y todas las opciones son igualmente atractivas, las probabilidades de que elija la respuesta correcta por adivinacin son: 100 / K de 100, donde K es igual a la cantidad de opciones por reactivo 45
Qu probabilidades de adivinar la respuesta correcta hay en reactivos de falso y verdadero y de opcin mltiple?
Frmulas de calificacin para corregir la adivinacin:
S = R W K1 S = R W 2(K1)
Donde: S = Calif. Corregida R = Nmero de reactivos contestados correctamente W = No. de reactivos contestados incorrectamente K = Cantidad de opciones por reactivo La primera ha sido criticada por las bajas calificaciones que produce en personas poco familiarizadas con el material de prueba y por las altas calificaciones que produce en el caso contrario. La segunda representa, con relacin a la anterior, una alternativa Se recomienda su uso cundo: La cantidad de reactivos sin responder vara mucho en cada persona Cuando ciertos reactivos son ms susceptibles a la adivinacin que otros Se califican pruebas de falso y verdadero o rpidas
Calificaciones derivadas Las calificaciones que se obtienen directamente de la aplicacin de una prueba (brutas o crudas) suelen cambiarse en otras formas para hacerlas ms significativas
Calificaciones de pruebas orales: factores para propiciar su objetividad Atencin al diseo de los reactivos Elaboracin previa de respuestas modelo Empleo de varios calificadores 46
Capacitacin de los examinadores Grabacin electrnica, si es posible, de las respuestas de los sujetos
Anlisis de reactivos
Cualquier tipo de prueba
MEJORA DE LA PRUEBA
Revisin o eliminacin de los reactivos que no son
Anlisis posterior de reactivos
La efectividad de una prueba tambin depende de sus propsitos Pruebas con referencia de criterio Lo que NO son: pruebas para descubrir las calificaciones de las personas con relacin a las calificaciones de otros individuos.
Lo que SI son: pruebas para determinar la posicin de cada persona con respecto a ciertos objetivos educativos
OE
Pruebas de dominio Tipo particular de prueba con referencia de criterio Diseadas para medir el logro de un rango limitado de capacidades cognoscitivas 47
La calificacin en estas pruebas se expresa como un porcentaje equivalente a la cantidad total de reactivos respondidos correctamente. Ejemplo: una calificacin perfecta indica un dominio del 100% del material de la prueba
Total de reactivos
Rango limitado de capacidades cognoscitivas
Diferencias individuales Comnmente, la calificacin de una prueba se compara con las calificaciones de otras personas Con las pruebas se evalan las diferencias entre las personas en cuanto a sus caractersticas cognoscitivas y afectivas Entre mejor se midan las diferencias en capacidad y personalidad entre las personas, con mayor exactitud podr predecirse el comportamiento Se trata de idear reactivos que hagan una diferencia entre los individuos en trminos de lo que se mide, lo cual: a) Aumenta la variedad en las calificaciones totales, y b) Determinada calificacin se convierte en un indicador de la posicin de un sujeto con respecto al resto de la gente
Validez de los reactivos Para evaluar la utilidad de un reactivo como medida de diferencias individuales suele recurrirse a una medida de criterio externo
Prueba para el desempeo
Estudiante Trabajador
C R I T E R O S
Logro en la escuela (Notas de los profesores) Medida de desempeo (Calificaciones de los supervisores)
La validez de un reactivo puede determinarse por la correlacin entre las calificaciones del reactivo y las correspondientes a la medida de criterio Por medio de coeficientes de correlacin, por ejemplo el biserial puntual, puede calcularse el poder de un reactivo para predecir una medida de criterio externo
48
Los reactivos con ndices de validez altos pero correlaciones bajas entre s se prefieren porque realizan una contribucin independiente a la prediccin de las calificaciones de criterio
PROBLEMAS
1. Correccin para la adivinacin Ejemplo 1: Prueba de opcin mltiple con 50 reactivos de 4 opciones cada uno, de los cuales: - 30 reactivos fueron contestados correctamente, - 16 reactivos fueron contestados incorrectamente y - 4 no fueron contestados, Cul es la calificacin total de la prueba, tanto con correccin para adivinar como sin sta? S = R W K1 S = R W 2 ( K 1)
Donde: S = Calif. Corregida R = Nmero de reactivos contestados correctamente W = No. De reactivos contestados incorrectamente K = Cantidad de opciones por reactivo
S = 30 16 / 4 1 = 30 16 / 3 = 30 5.3 = 24.7 (Con correccin) S = 30 16 / 2 (4 -1) = 30 16 / 2 (3) = 30 16 /6 = 30 2.6 = 27.4 (Con correccin) Sin correccin: 30 (reactivos contestados correctamente) Ejemplo 2: Si todos los reactivos fueran del tipo falso y verdadero y se obtuviera en ellos la misma cantidad de respuestas correctas e incorrectas que antes se mencion, Cul sera su calificacin total, tanto con correccin por adivinar como sin esta? (K = 2) S = 30 16 / 2 1 = 30 16 / 1 = 30 16 = 14 (Con correccin) S = 30 16 / 2 (2 1) = 30 16 / 2 = 30 8 = 22 (Con correccin)
49
Ejercicio: Prueba de opcin mltiple con 30 reactivos de 3 opciones cada uno, de los cuales: - 20 reactivos fueron contestados correctamente, - 6 reactivos fueron contestados incorrectamente y - 4 no fueron contestados, Cul es la calificacin total de la prueba, tanto con correccin para adivinar como sin sta?
50
Anlisis estadstico de reactivos de pruebas de rendimiento escolar

Analizar las respuestas que un grupo de sujetos da a los reactivos de una prueba tiene la funcin de ayudar a mejorar sta, debido a que con la revisin de sus reactivos puede determinarse cun efectivos son cada uno de ellos para medir el atributo que la prueba pretende medir como un todo. Para las pruebas de rendimiento escolar (los exmenes que se aplican en el saln de clases) no hay, generalmente, criterios con los cuales poder determinar la validez de los reactivos (que implicara, como es de suponerse, la correlacin entre el porcentaje de sujetos que contestan correctamente cada reactivo con alguna medida de criterio externo), motivo por el cual, se utiliza un procedimiento denominado de consistencia interna con el que se sustituye el criterio externo por las calificaciones totales de la misma. El propsito de analizar los reactivos de una prueba de rendimiento escolar es que los reactivos que se seleccionen para su versin definitiva sean indicadores adecuados de lo que la prueba mide como un todo; para ello, cada uno de los reactivos que integran la prueba deber evaluarse para determinar cun difciles son y en qu grado sirven para diferenciar entre quienes presentan un rendimiento alto y bajo en la prueba, lo cual ser posible, gracias al clculo de sus ndices de dificultad y de discriminacin. ndices de dificultad (Idf) y de discriminacin (Idc) [1] Mientras que Idf seala la proporcin de personas que respondieron correctamente el reactivo de una prueba, Idc indica qu tan bien discrimina cada reactivo de la prueba entre las personas con un buen desempeo general en ella y aquellas que tuvieron un desempeo deficiente. Veamos a continuacin, ms detenidamente, cada uno de estos ndices. Idf tiene un rango de 0.00 a 1.00. Cuando el Idf de un reactivo es igual a 0.00 significa que ningn sujeto lo contest correctamente, mientras que si el Idf de un reactivo es igual a 1.00, significa que ste fue respondido por todos los sujetos correctamente. Cul es el valor ptimo de Idf? Eso depende, principalmente, de dos factores: los propsitos de la prueba y la cantidad de opciones de respuesta de sus reactivos. Por ejemplo: si la prueba busca identificar un porcentaje reducido de estudiantes que represente a quienes tuvieron el mejor aprovechamiento durante un curso escolar, entonces la prueba debe tener un grado de dificultad tal que Idf tenga un valor medio bajo; en cambio si el propsito de la prueba es abarcar tambin a un reducido porcentaje de quienes obtuvieron un aprovechamiento por debajo de la media, entonces convendra que Idf tuviera un valor ms elevado. Otro ejemplo: dependiendo de la cantidad de opciones de respuesta que tengan los reactivos, estos sern ms o menos difciles, o para decirlo con mayor precisin: a mayor nmero de opciones de respuesta, mayor grado de dificultad del reactivo; por ello, si un reactivo tiene slo dos opciones de respuesta tendr, en promedio, 0.85 de dificultad, uno con tres opciones tendr 0.77 de dificultad, uno de cuatro opciones 0.74, uno de cinco 0.69, etc.
51
Idc mide la efectividad de un reactivo para discriminar entre quienes obtienen calificaciones altas y bajas en una prueba. Cuanto mayor sea Idc, mayor ser la efectividad del reactivo para discriminar entre los estudiantes con calificaciones altas y bajas en la prueba como un todo, de manera que cuando Idc vale 1 (situacin, ciertamente, muy improbable), significa que todos los estudiantes del grupo con mejor rendimiento en las calificaciones totales de la prueba y ninguno del grupo con el ms bajo rendimiento respondi el reactivo correctamente. Pero, cul es el valor ptimo de Idc? Generalmente, se considera que un reactivo tiene un valor adecuado de Idc si ste es igual o mayor a 0.30; hay que considerar, no obstante, que Idf y Idc no son ndices independientes y que el valor mnimo aceptable de Idc variar segn sea el valor de Idf. Respecto al valor que puede adoptar Idc se han propuesto diferentes clasificaciones de rangos para interpretar la efectividad que presentan los reactivos de una prueba para discriminar. La Tabla 1 es un ejemplo de estas clasificaciones:
Idc = de .60 a 1.00 Idc = de .40 a .59
Muy buena discriminacin Buena discriminacin Moderada discriminacin (Debe mejorarse el Idc = de .20 a .39 reactivo) No discrimina (El reactivo debe mejorarse o Idc = de - .19 a .19 eliminarse) Fuerte discriminacin negativa (Es necesario revisar Idc = de -.20 a -1.00 el reactivo para identificar problemas: Est mal la clave?, Permite dos respuestas correctas?, etc. Tabla 1
Un caso prctico Como parte de las prcticas que realizamos a nivel universitario en una materia donde se revisa, principalmente, el aspecto tcnico de los instrumentos de medicin en psicologa y educacin se solicita a los estudiantes analizar los ndices de dificultad y de discriminacin de algunas pruebas de rendimiento escolar con el propsito de valorar, desde el punto de vista estadstico, en qu casos los reactivos de esta clase de pruebas deben ser aceptados, rechazados o revisarse, nuevamente, para su mejora. A continuacin se presenta, paso a paso, cmo se calcula Idf y Idc para una prueba de rendimiento escolar de 9 reactivos [2] aplicada a 14 estudiantes: 1. Con una matriz como la que se muestra en la Tabla 1, se anota el puntaje que los estudiantes obtuvieron en cada uno de los 9 reactivos, asignando 1 a las respuestas correctas y 0 a las respuestas incorrectas y procurando que la posicin que ocupen los sujetos se ordene, de forma descendente, de acuerdo al total de respuestas correctas que cada uno obtuvo en la prueba, de tal suerte que el sujeto A sea quien tenga el mayor puntaje, en este caso 9 (equivalente al total de reactivos de la prueba), el sujeto B quien tenga el mismo o menor puntaje, y as sucesivamente,
52
hasta llegar al sujeto N, con un puntaje de 2, el cual, lo posiciona en el ltimo lugar de la matriz. Ntese que en la Tabla 2 estamos incluyendo una columna con TP [3] (Total Puntaje) como encabezado, para anotar el total de respuestas correctas que cada estudiante obtuvo en los 9 reactivos.
SUJETOS A B C D E F G H I J K L M N
1 1 1 1 1 1 1 1 0 0 1 1 0 1 0
2 1 1 1 1 1 1 1 1 0 1 1 1 0 0
3 1 1 1 1 1 1 1 1 1 1 0 1 0 1
REACTIVOS 4 5 6 7 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1 0 0 1 1 0 0 1 0 0
8 1 1 1 1 1 1 1 1 1 0 1 0 0 0
TP 9 1 9 1 9 1 9 1 9 1 9 1 9 0 8 1 8 0 6 0 6 0 6 1 5 0 3 0 2 Tabla 2
2. Una vez que vaciamos, contabilizamos y ordenamos esta informacin en la matriz, debemos dividir la poblacin que contest los reactivos de la prueba en 3 grupos: a) El grupo superior, constituido por quienes obtuvieron el mayor nmero de respuestas correctas en la prueba; b) El grupo intermedio, formado por quienes tuvieron un rendimiento promedio en la prueba; y c) El grupo inferior, compuesto por quienes obtuvieron el menor nmero de respuestas correctas en la prueba; para hacer esta divisin y obtener estos tres grupos, se sugiere aplicar la siguiente frmula: N x 27 / 100, donde N es el nmero total de sujetos que presentaron la prueba y 27 equivale al porcentaje que, de manera convencional, suele darse a los grupos superior e inferior. En el caso que nos ocupa ahora, la poblacin que contest los reactivos de la prueba est integrada por 14 sujetos, siendo el resultado igual a 4, porque 14 x 27 / 100 = 3.78, que redondeado es igual a 4; por tanto, nuestros grupos superior e inferior estn constituidos por los 4 primeros estudiantes de la matriz (sujetos A, B, C y D) y por los ltimos 4 estudiantes (sujetos K, L, M y N), respectivamente. Pero, qu pasa con el grupo intermedio? Para la obtencin de Idf y Idc no necesitamos utilizar el 46% restante, correspondiente a quienes obtuvieron un rendimiento promedio, porque lo que nos interesa es discriminar entre quienes obtuvieron calificaciones altas y bajas en la prueba como un todo. La matriz, despus de determinarse los grupos superior e inferior de la poblacin que contest los reactivos, debe quedar como se demuestra en la Tabla 3:
53
Sujetos A B C D E F G H I J K L M N
1 1 1 1 1 1 1 1 0 0 1 1 0 1 0
2 1 1 1 1 1 1 1 1 0 1 1 1 0 0
3 1 1 1 1 1 1 1 1 1 1 0 1 0 1
Reactivos 4 5 6 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 0
7 1 1 1 1 1 1 1 1 1 1 1 0 0 0
8 1 1 1 1 1 1 1 1 1 0 1 0 0 0
9 1 1 1 1 1 1 0 1 0 0 0 1 0 0
PC 9 9 9 9 9 9 8 8 6 6 6 5 3 2
Grupos
SUPERIOR
INFERIOR Tabla 3
3. Para determinar Idf, se recomienda aplicar la siguiente frmula: (A + B) / N Donde: A es el nmero de respuestas incorrectas del grupo superior en un reactivo, B es el nmero de respuestas incorrectas del grupo inferior en un reactivo y N es el nmero total de sujetos que integran el grupo superior e inferior. Para saber qu reactivo ser aceptado, rechazado o considerado como candidato para otra revisin, cada reactivo deber ser valorado de acuerdo a un criterio de aceptacin determinado, que en nuestro caso (por ser una prueba de rendimiento escolar), un criterio adecuado sera: si el resultado se encuentra entre 0.20 y 0.80, entonces el reactivo ser aceptado. En nuestro caso, la aplicacin de la frmula (A + B) / N en cada reactivo de la prueba y la valoracin de los mismos de acuerdo al criterio de aceptacin establecido arrojara como resultado una matriz como la que se muestra en la Tabla 4:
54
Reactivos 1 2 3 4 5 6 7 8 9
ndices de dificultad (Idf): Frmula para calcular el Cumple con el criterio (0.20Idf 0.80)? (0 + 2) / 8 = 0.25 SI (0 + 2) / 8 = 0.25 SI (0 + 2) / 8 = 0.25 SI (0 + 4) / 8 = 0.5 SI (0 + 0) / 8 = 0 NO (0 + 1) / 8 = 0.125 NO (0 + 3) / 8 = 0.375 SI (0 + 3) / 8 = 0.375 SI (0 + 3) / 8 = 0.375 SI Tabla 4
4. Para determinar Idc, se recomienda aplicar la siguiente frmula: (A - B) / (N / 2) Donde A es el nmero de respuestas correctas del grupo superior en un reactivo, B es el nmero de respuestas correctas del grupo inferior en un reactivo y N es el nmero total de sujetos pertenecientes a los grupos superior e inferior. Nuevamente, cada reactivo deber ser valorado de acuerdo a un criterio de aceptacin determinado. El criterio para valorar cada reactivo y determinar si debemos aceptarlo, rechazarlo o considerarlo candidato para otra revisin ser, en nuestro caso, que el valor de Idc sea, en cada reactivo, superior a 0. La matriz que presentamos en la Tabla 5 es el resultado de aplicar la frmula (A - B) / (N / 2) a cada reactivo de la prueba y de valorar estos de acuerdo al criterio de aceptacin que establecimos en esta ocasin: ndices de discriminacin (Idc) Frmula para calcular el Idc Cumple con el criterio (Superior a 0)? (4 - 2) / (8 / 2) = 0.5 SI (4 - 2) / (8 / 2) = 0.5 SI (4 - 2) / (8 / 2) = 0.5 SI (4 - 0) / (8 / 2) = 1 SI (4 - 4) / (8 / 2) = 0 NO (4 - 3) / (8 / 2) = 0.25 SI (4 - 1) / (8 / 2) = 0.75 SI (4 - 1) / (8 / 2) = 0.75 SI (4 - 1) / (8 / 2) = 0.75 SI Tabla 5 55
Reactivos 1 2 3 4 5 6 7 8 9
5. Falta todava lo ms importante. Hasta ahora slo hemos hecho, por separado, el clculo de Idf y Idc y la valoracin de acuerdo a un criterio de aceptacin para cada uno de los reactivos de la prueba, pero falta que comparemos los resultados que obtuvimos con ambos ndices y las valoraciones que hicimos de cada reactivo segn el criterio de aceptacin que elegimos, con el propsito final de determinar si cada reactivo es un buen indicador del atributo que la prueba mide como un todo. Para ello basta con posicionar, uno junto a otro, los resultados que obtuvimos y decidir si aceptamos, rechazamos o consideramos que deben volverse a revisar cada uno de los reactivos de la prueba, de acuerdo a las siguientes consideraciones: SI + SI = SI, el reactivo se acepta SI + NO o NO + SI = NO, el reactivo debe revisarse nuevamente NO + NO = NO, el reactivo se rechaza La Tabla 6 muestra cmo queda est ltima etapa en el caso que hemos estado revisando: Reactivos 1 2 3 4 5 6 7 8 9 Idf y valoracin 0.25 SI 0.25 SI 0.25 SI 0.5 SI 0 NO 0.125 NO 0.375 SI 0.375 SI 0.375 SI Idc y valoracin 0.5 SI 0.5 SI 0.5 SI 1 SI 0 NO 0.25 SI 0.75 SI 0.75 SI 0.75 SI Valoracin final SI SI SI SI NO NO SI SI SI Tabla 6
De acuerdo a los resultados que tenemos en la tabla anterior, podemos concluir que de los reactivos analizados: a) Los reactivos 1, 2, 3, 4, 7, 8 y 9 podemos aceptarlos porque cumplen con los criterios que establecimos con relacin al grado de dificultad y de discriminacin que tales reactivos deben tener. b) El reactivo 5, en cambio, debemos rechazarlo porque no cumple con tales criterios de acuerdo a los resultados que obtuvimos en el anlisis final c) Finalmente el reactivo 6, por el anlisis efectuado, debe revisarse nuevamente si queremos incluirlo, posteriormente, entre los reactivos con un nivel aceptable de dificultad y de discriminacin.
Analizar, estadsticamente, los reactivos de una prueba de rendimiento escolar permite mejorar la prueba en cuanto al grado de dificultad y fineza discriminativa que resulta
56
conveniente que sta posea, pero, evidentemente, estos procedimientos atienden solamente a un aspecto de la construccin ms adecuada de esta clase de instrumentos.
Reactivos de pruebas con referencia al criterio Los ndices p y D tambin pueden calcularse para esta clase de reactivos p = Up + Lp U+L D = Up Lp U L
Up = Cantidad en el grupo superior que responde el reactivo correctamente Lp = Cantidad en el grupo inferior que responde el reactivo correctamente Los sujetos se dividen en dos grupos
a) Grupo superior (U): sujetos cuyas calificaciones en la prueba cumplen con los criterios de dominio. b) Grupo inferior (L): sujetos cuyas calificaciones totales en la prueba no cumplen con los criterios de dominio.
Diferencias de grupo en pruebas rpidas Lo que resulta de analizar reactivos vara frecuente y significativamente segn el grupo especfico con el que se pongan a prueba Que la forma cmo se contesta un reactivo no sea la misma para dos grupos no significa necesariamente que el reactivo muestre una inclinacin por alguno de ellos Un reactivo muestra una inclinacin cuando mide una caracterstica diferente en alguno de los dos grupos Si las calificaciones de los reactivos reflejan verdaderas diferencias con relacin a la caracterstica que miden, el reactivo es tcnicamente imparcial
Notas: [1] En algunos casos Idf y Idc pueden encontrarse como p y D, respectivamente. [2] Es necesario aclarar que los 9 reactivos correspondientes a esta prueba, originalmente, formaban parte de una prueba ms extensa (de 40 reactivos) que, para fines prcticos y didcticos, fue dividida y sus partes distribuidas entre varios equipos para su
57
anlisis estadstico. El anlisis que se presenta en este artculo es el resultado de unos de esos trabajos. [3] Originalmente, en lugar de TP, tenamos PC, es decir, Puntaje Crudo, que en psicometra hace referencia a las calificaciones que se obtienen, directamente, de las pruebas despus de su aplicacin, sin someterlas a ninguna clase de transformacin estadstica, como por ejemplo, convertirlas a puntajes z, Z, T, etc.
Referencias Canudas Gonzlez, Matilde (2005). Manual para el Curso-taller Estrategias para la Evaluacin en la Educacin Superior. Mxico: Asociacin Nacional de Universidades e Instituciones de Educacin Superior. Aiken, Lewis R. (1996). Tests psicolgicos y evaluacin. Mxico: Prentice Hall. Anastasi, A. (1998). Tests psicolgicos. Madrid: Aguilar. Brown F. (1998). Principios de la medicin en psicologa y educacin. Mxico: El Manual Moderno.
PROBLEMAS
1. Anlisis estadstico de reactivos (ndices de dificultad y discriminacin). Con los datos que se presentan en la siguiente matriz, obtn los ndices de dificultad y discriminacin de una prueba de 9 reactivos que se aplic a 14 sujetos, determinando cules reactivos pueden ser aceptados, cules deben revisarse nuevamente y cules deben rechazarse:
Reactivos 4 5 6 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 1 0 1 1 0 1 0
Sujetos A B C D E F G H I J K L M N
1 1 1 1 1 1 1 1 0 0 1 1 0 1 0
2 1 1 1 1 1 1 1 1 0 1 1 1 0 0
3 1 1 1 1 1 1 1 1 1 1 0 1 0 1
7 1 1 1 1 1 1 1 1 1 1 1 0 0 0
8 1 1 1 1 1 1 1 1 1 0 1 0 0 0
9 1 1 1 1 1 1 0 1 0 0 0 1 0 0
58
2. ndices de dificultad y discriminacin para reactivos de pruebas con referencia al criterio Ejemplo: Calcule los ndices de dificultad y de discriminacin de una prueba con referencia al criterio que presentaron 50 personas, 30 de las cuales, obtuvieron una calificacin en el nivel de criterio o ms arriba y 20 obtuvieron una calificacin por debajo del nivel de criterio. De aquellas que recibieron una calificacin en el nivel de criterio o ms arriba, 20 contestaron el reactivo en forma correcta y de aquellas que presentaron una calificacin por debajo del nivel de criterio, 10 respondieron bien el reactivo. p = Up + Lp U+L D = Up Lp U L Up = Cantidad en el grupo superior que responde el reactivo correctamente Lp = Cantidad en el grupo inferior que responde el reactivo correctamente
U = 30, L = 20, Up = 20, Lp = 10, p = ? y D = ? p = 20 + 10 / 30 + 20 = 30 / 50 = 0.6 D = 20 / 30 10 / 20 = 0.67 0.5 = 0.17
Ejercicio: Calcule los ndices de dificultad y de discriminacin de una prueba con referencia al criterio que presentaron 40 personas, 25 de las cuales, obtuvieron una calificacin en el nivel de criterio o ms arriba y 15 obtuvieron una calificacin por debajo del nivel de criterio. De aquellas que recibieron una calificacin en el nivel de criterio o ms arriba, 20 contestaron el reactivo en forma correcta y de aquellas que presentaron una calificacin por debajo del nivel de criterio, 7 respondieron bien el reactivo. Respuestas: 1. Los resultados son los siguientes:
Reactivos 1 2 3 4 5 6 7 8 9 Idf 0,25 0,25 0,25 0,5 0 0,125 0,375 0,375 0,375 Idc Valoracin 0,5 SI SI 0,5 SI SI 0,5 SI SI 1 SI SI 0 NO NO 0,25 SI NO 0,75 SI SI 0,75 SI SI 0,75 SI SI
SI SI SI SI NO NO SI SI SI
2.
59
CONSISTENCIA Y VALIDEZ
INTRODUCCION La interpretacin precisa de los resultados individuales se hace conociendo qu caractersticas mide una prueba y que lo haga de un modo consistente. La consistencia y validez estn enmarcados aqu por el error de medida. Hay dos tipos: 1. Errores al azar: se producen cuando una variable implica la falta de consistencia en la ejecucin de la prueba de unas situaciones a otras (son importantes para la confiabilidad7). 2. Errores constantes: producen efectos sistemticos sobre la ejecucin, pero son irrelevantes para los propsitos de la medicin (son importantes para la validez8). La consistencia y la validez son trminos genricos; se pueden evaluar por varios mtodos. La eleccin del mtodo depender de la pregunta a la que se desee responder o de los orgenes de error que se deben controlar. Son caractersticas que informan sobre la cualidad y eficiencia de una prueba para un grupo de personas9.
DESARROLLO Una prueba debe caracterizarse por ser confiable (consistencia con la que la prueba mide lo que debe medir) y vlida (exactitud con la que la prueba mide lo que tiene que medir).
Estas caractersticas pueden considerarse mediante la examinacin de las variables que influyen en los resultados de las pruebas. Cualquier variable que produce resultados inexactos introduce error. Hemos considerado ya 2 tipos de error: al azar (falta de consistencia en los resultados de la prueba de una
La confiabilidad se puede definir como la proporcin de variabilidad en el conjunto de calificaciones de una prueba, que representa diferencias "reales" entre las personas; esto es, la proporcin no atribuible a errores de medicin. 8 Con la validez queremos saber qu rasgo mide la prueba o que resultados predice. 9 Los datos de la consistencia y validez se obtienen siempre de un grupo dado de personas que se someten a la prueba en particulares circunstancias evaluando los resultados mediante algunos de los mtodos disponibles.
60
ocasin a otra) y sistemticos (producen efectos irrelevantes para los fines de la medicin, aunque sean efectos consistentes10).
Debido a que la conducta humana flucta de una situacin a otra es importante estudiar la consistencia. El muestreo de reactivos, las circunstancias en que se aplica la prueba y las caractersticas del sujeto son factores que pueden introducir errores11.
Hay 2 grupos de problemas en la confiabilidad: 1. Grado de consistencia de las calificaciones de las pruebas 2. Causas de discrepancia entre las calificaciones de las pruebas Qu es una calificacin real? La calificacin que obtendra una persona en el caso de que el instrumento efectuara sus mediciones sin error, es decir:
La calificacin que obtendra una persona si respondiera a todos los reactivos del dominio, y La calificacin promedio de una persona en un gran nmero (tericamente infinito) de formas equivalentes de una prueba.
La calificacin que obtiene una persona en una prueba es funcin tanto de su calificacin real como de los errores incluidos en las mediciones.
X = T + E12
X (Calificacin obtenida) T (Calificacin real hipottica) E (Error de estimacin)
Hay 2 suposiciones sobre el error: Si se promedia a lo largo de muchas aplicaciones o sobre un grupo de personas, el error promedio ser cero, y
La validez determina qu tanto de la ejecucin se debe a una variabilidad relevante (variable que tratamos de medir) y que tanto representa una variabilidad irrelevante (efectos de las variables irrelevantes). 11 Los resultados de las pruebas se ven afectados con mayor facilidad por condiciones extraas. 12 Representa la contribucin de cualquier variable que produzca inconsistencias en las mediciones. El error de estimacin puede ser positivo, si la calificacin real de la persona se sobrestima mediante la calificacin obtenida, o negativo, si se subestima su calificacin real. Hay que mencionar que los efectos de los errores son al azar.
10
61
Que las calificaciones reales y el error de medicin son independientes (no estn correlacionados)
Como la confiabilidad es una propiedad de la prueba, necesitamos una ecuacin13 para su aplicacin a un grupo de personas:
SX2 = ST2 + SE2
La confiabilidad queda definida como la razn de la varianza real de un conjunto de calificaciones de una prueba con la varianza total.
rxx = ST2 / SX2
La confiabilidad: Se refiere a la consistencia dentro de un conjunto de mediciones Es una propiedad del conjunto de calificaciones y no de una calificacin individual Nunca se puede determinar con precisin. Slo es posible estimarla a partir de un conjunto de datos obtenidos14.
Hay varios tipos de confiabilidad dependiendo de las fuentes de error que ms nos interesan:
1. Coeficiente de estabilidad: cuando deseamos saber de la consistencia entre las calificaciones obtenidas en una prueba y una reaplicacin en una fecha posterior. 2. Coeficiente de equivalencia: cuando nos interesa la correspondencia entre los resultados obtenidos en 2 formas supuestamente equivalentes de una prueba.
13
Donde la varianza de las calificaciones observadas ( SX2 ) es igual a la varianza de las calificaciones reales ( ST2 ) ms la varianza de error ( SE2 ). 14 La confiabilidad es una construccin, es decir, propiedad hipottica de las calificaciones de las pruebas.
62
3. Coeficiente de equivalencia y estabilidad: para determinar la consistencia entre los resultados de 2 formas equivalentes de una prueba separadas por un intervalo de tiempo. 4. ndices de homogeneidad: es cuando se desea determinar si todos los reactivos de la prueba miden el mismo rasgo o la misma caracterstica.
Lo que se busca con las pruebas es que, las calificaciones observadas reflejen las calificaciones reales con tan poco error como sea posible. Para ello, se deben controlar las variables que influyen en las calificaciones observadas. La meta es entonces, reducir al mnimo el error de medicin y maximizar la varianza real en las calificaciones de las pruebas.
Habamos dicho que el error es cualquier efecto irrelevante para los fines de la medicin. Ahora bien, una variable introduce error s: No tiene que ver con la finalidad de la medicin. Produce falta de consistencia en las calificaciones de una situacin a otra.
Algunos errores son:
A. Dentro de la prueba: Cualquier aspecto que haga que un sujeto responda a un reactivo sobre bases distintas de los conocimientos de la respuesta correcta, podr introducir error. El muestreo de reactivos que componen la prueba15. Por regla se procura que cada uno de los reactivos deba medir el mismo rasgo16. B. Aplicacin de la prueba: El aplicador debe considerar las condiciones que puedan producir calificaciones inexactas17. En las pruebas de ensayo o de respuesta libre es esencial un ndice de acuerdo entre los calificadores (confiabilidad de jueces).
Este punto es particularmente importante cuando se trabaja con formas equivalentes de una prueba. Estas formas se deben comparar en cuanto al contenido y la dificultad de cada reactivo. 16 La mayora de los reactivos no son medidas puras de un solo rasgo, y aunque lo fueran, los sujetos podran no reaccionar de la misma forma en cada reactivo. 17 Principalmente en el caso de pruebas con instrucciones complejas a las que se somete un gran nmero de personas.
15
63
C. El examinado: Cuando una persona o un subgrupo de personas tienen una motivacin diferente que la mayora de los sujetos examinados. Cuando un individuo recibe un adiestramiento especfico para una prueba o cuando en el tiempo transcurrido entre 2 pruebas, algunas personas reciben un adiestramiento. Experiencia con las pruebas. Ansiedad debida a las pruebas. Variables fisiolgicas. Direccin o asesoramiento.
Con respecto a la validez, sta se ocupa de qu es lo que mide la prueba y hasta que punto mide la prueba lo que dice medir. Algunas preguntas con las que se puede dar expresin a esta propiedad son: Qu rasgos mide la prueba? Mide la prueba el rasgo para el que fue construida? Qu porcentaje de la varianza en las calificaciones de la prueba se puede atribuir a la variable que se mide? Qu se puede predecir con las calificaciones de la prueba?, etc. Por ser la validez especfica de las situaciones, al utilizar muestras distintas o mtodos diferentes de anlisis se obtendrn resultados diversos. La proporcin de varianza real que es relevante para los fines del examen18se define ya sea por, la extensin con que la prueba mide un rasgo o la relacin entre las calificaciones de la prueba y alguna medida de criterio externo19. SX2 = ST2 + SE2
Si la validez es la proporcin de varianza relevante, la varianza real se puede dividir en:

18
Una varianza confiable y relevante, y Otra varianza confiable, pero irrelevante.
relevante se refiere a lo que es atribuible a la variable que mide la prueba, que puede ser un rasgo o atributo, o alguna medida observada independientemente 19 Al respecto se dice que, los resultados de una prueba adquieren sentido cuando se relacionan con otras variables.
64
o sea: ST2 = SV2 + SI2 Varianza confiable, pero irrelevante. Varianza confiable relevante (Vlida).
En otras palabras, la varianza estable en las calificaciones de la prueba se compone de: lo atribuible a la variable que mide la prueba (variable relevante) y lo atribuible a otras causas (variable confiable e irrelevante). SX2 = SV2 + SI2 + SE2
La variabilidad en un conjunto de calificaciones se determina por medio de la varianza vlida, la atribuible a causas confiables, pero irrelevantes (errores constantes) y la varianza de error de medicin. Al disminuir la varianza de error, aumenta la proporcin de la varianza potencialmente vlida, pero como la varianza restante puede ser relevante o no, la baja varianza de error no garantiza una elevada validez. CONCLUSIN Como punto final diremos que, los errores al azar son factores importantes para el clculo de la confiabilidad, en tanto que, los errores sistemticos son factores importantes para el clculo de la validez20.
APENDICE: Qu es la varianza?
En muchos trabajos de estadstica se utiliza este estadgrafo como medida de la dispersin. Se trata del cuadrado de la desviacin estndar, que puede expresarse mediante la frmula: S2 = x2 / N
20
La validez siempre estar limitada por la confiabilidad.

65
La varianza es una medida de la cantidad total de variabilidad en un conjunto de calificaciones. Posee la propiedad de la aditividad, lo que permite determinar la proporcin de variabilidad de un conjunto de calificaciones que sea atribuible a cada una de las diversas variables. As, se podrn hacer afirmaciones respecto a la influencia relativa de cada variable (es decir, la cantidad total de variabilidad en un conjunto de calificaciones se podr dividir y distribuir entre diversos efectos La varianza es un procedimiento til para conceptualizar ciertas propiedades de las pruebas (confiabilidad y validez) y para determinar los efectos de las diversas condiciones de la ejecucin de las mismas.
66
ALGUNOS MTODOS PARA CALCULAR LA CONFIABILIDAD La confiabilidad va de 0.00 a 1.00. Si r11 = 1.00, confiabilidad perfecta y si r11 = 0.00, total falta de confiabilidad. Ya que la varianza de las calificaciones reales no puede calcularse directamente, la confiabilidad se calcula al analizar los efectos de las variaciones en las condiciones de aplicacin y el contenido de la prueba en las calificaciones. La confiabilidad est influenciada por los cambios no sistemticos que tienen efectos diferentes en los distintos sujetos. Estos factores no sistemticos influyen en la varianza de error de la prueba y, por tanto, en su confiabilidad. Cada mtodo para calcular la confiabilidad: test-retest, formas paralelas y consistencia interna, toma en cuenta condiciones diferentes que pueden dar lugar a estos cambios no sistemticos en las calificaciones. 1. Coeficiente test-retest (Coeficiente de estabilidad): Se encuentra al correlacionar las calificaciones que obtiene un grupo de personas en una primera aplicacin de la prueba con las calificaciones que obtienen en una segunda aplicacin. Este procedimiento toma en cuenta los errores de medida que resultan de las diferencias en las condiciones asociadas en las dos ocasiones en que se aplica el instrumento. La magnitud de este coeficiente tiende a ser mayor cuando el intervalo entre la primera aplicacin de la prueba y su segunda aplicacin es breve (unos das o semanas) en lugar de prolongado (meses o aos). 2. Coeficiente de formas paralelas (Coeficiente de equivalencia): Cuando el intervalo entre la primera aplicacin de la prueba y su segunda aplicacin es breve, regularmente, los sujetos recuerdan muchas respuestas de la prueba. Si todos los sujetos recordaran la misma cantidad de respuestas la confiabilidad de la prueba no cambiara, pero casi siempre algunos sujetos recuerdan ms respuestas que otros, lo cual, reduce la correlacin entre las calificaciones obtenidas en la primera y la segunda aplicacin. Este problema se corrige usando una prueba paralela de la prueba, una que consista en reactivos similares, pero no iguales. A continuacin presentamos un esquema que describe el procedimiento que suele realizarse para estar en condiciones de aplicar este coeficiente:
Dependiendo de la importancia que se le otorgue a la variable tiempo, el coeficiente de equivalencia puede ser tambin un coeficiente de estabilidad y equivalencia.
Prueba Forma A Forma B
Grupo Mitad 1 Mitad 2
Prueba Forma B Forma A
Grupo Mitad 1 Mitad 2
PRIMERA APLICACIN
SEGUNDA APLICACIN
67
Este coeficiente toma en cuenta los diferentes momentos de aplicacin y los distintos reactivos de la prueba. 3. Coeficientes de consistencia interna: Como generar la forma paralela de una prueba con frecuencia puede resultar costoso y difcil, se desarroll un mtodo menos directo para tomar en cuenta los efectos sobre la confiabilidad de las muestras de diferentes reactivos de la prueba. Se trata de los mtodos de la consistencia interna. Algunos de ellos son: mtodo de divisin por mitades, frmula de profeca de Spearman-Brown y el mtodo de KuderRichardson. Detalle: los errores de medicin que provocan las diferentes condiciones o momentos de la aplicacin no se reflejan en estos mtodos, debido a lo cual, no suele equiparrseles con los coeficientes anteriormente vistos. 3.1 Divisin por mitades (par-impar): Se divide la prueba en dos partes como si se trataran de formas equivalentes que miden el mismo rasgo, de manera que la correlacin entre ellas, sea un coeficiente de confiabilidad de formas paralelas. 3.2 Frmula de profeca de SpearmanBrown: Hecho el procedimiento anterior, y suponiendo que ambas mitades sean equivalentes en lo que respecta a sus medias y a sus varianzas, la confiabilidad de la prueba como un todo puede calcularse con base a este procedimiento. EJEMPLO EN CLASE: Calcule los coeficientes de confiabilidad de a) Divisin por mitades (par-impar)21: rxy = xy (x) (y) N [x2 (x)2] [y2 (y)2] N N y b) Formula de profeca de SpearmanBrown: rxx = (2) (rxy) 1 + rxy en las siguientes respuestas por parte de 10 sujetos a 10 reactivos de una prueba (donde 1 indica la respuesta correcta y 0 la incorrecta):
En esta frmula: N es igual al nmero de sujetos que contestan los reactivos, x es igual a reactivos impares y y es igual a reactivos pares.
21
68
Matriz 1 REACTIVOS SUJETOS I II III IV V VI VII VIII 1 1 1 1 1 1 1 1 A 1 0 1 1 0 1 0 1 B 0 0 1 1 1 1 1 1 C 1 0 1 0 1 0 1 0 D 1 0 1 0 0 1 0 1 E 0 1 0 1 0 1 0 1 F 1 0 1 0 0 1 1 0 G 0 0 0 1 0 0 1 0 H 1 0 0 0 0 0 0 1 I 0 1 0 0 0 0 1 0 J 6 3 6 5 3 6 6 6 fi Media de las calificaciones totales = 5.30 y Varianza = 5.21 rxy = 75 (27)(26) 10 [ 93 (27)2] [90 (26)2 ] 10 10 rxx = (2) (0.22) = 0.36 1 + 0.22
IX 1 1 0 1 1 1 0 1 0 0 6
X 1 1 1 1 1 0 0 0 1 0 6
X 10 7 7 6 6 5 4 3 3 2 53
= 0.22
fi = Total de aciertos por reactivo
69
EJERCICIO 1: Calcule los coeficientes de confiabilidad de a) Divisin por mitades (parimpar) y b) Formula de profeca de SpearmanBrown, en las siguientes respuestas por parte de 20 sujetos a 8 reactivos de una prueba (donde 1 indica la respuesta correcta y 0 la incorrecta): Matriz 2 REACTIVOS SUJETOS I II III IV V VI VII VIII 1 0 0 0 0 0 0 0 A 1 1 1 1 0 0 1 1 B 1 0 1 0 0 0 0 0 C 1 1 1 1 1 1 1 0 D 1 1 1 1 0 0 0 0 E 1 1 0 0 0 0 0 0 F 1 0 1 1 1 1 0 0 G 1 1 1 0 0 0 0 0 H 1 1 1 0 1 1 1 0 I 1 0 0 1 1 1 0 0 J 1 1 1 1 1 1 0 1 K 1 1 0 1 1 0 1 0 L 1 1 1 1 1 1 0 0 M 0 1 1 1 1 0 0 0 N 1 1 1 0 0 0 0 0 1 1 1 0 1 0 0 0 O 1 1 0 1 0 0 0 0 P 1 1 1 1 1 1 1 1 Q 1 1 1 1 0 1 0 0 R 1 1 1 1 1 0 0 0 S 19 16 15 13 11 8 5 3 fi Media de las calificaciones totales = 4.5 y Varianza = 3.2
X 1 6 2 7 4 2 5 3 6 4 7 5 6 4 3 4 3 8 5 5 90
3.3 Mtodo de Kuder-Richardson: Existen muchas formas diferentes de dividir una prueba en dos mitades. Debido a que cada forma puede producir un valor distinto de r11, no est claro qu estrategia de divisin da como resultado el mejor clculo de la confiabilidad. Solucin: Considerar el promedio de los coeficientes de confiabilidad obtenidos de todas las divisiones a la mitad como el clculo de la confiabilidad general. La media de todos los coeficientes de divisin por mitades puede calcularse con la frmula 21 de Kuder-Richardson, la cual, se basa en la suposicin de que todos los reactivos de la prueba tienen la misma dificultad. r11 = K (K 1) 1 M (K M) Ks2
70
Donde: K = Cantidad de reactivos de la prueba M = Media de las calificaciones totales de la prueba s2 = Varianza de las calificaciones totales de la prueba Ejemplo: Para una prueba que contiene 75 reactivos, una media de 50 y una varianza de 100, calcule su confiabilidad general. K = 75 M = 50 s2 = 100 r11 = ? r11 = 75 (75 1) 1 50(75 50) = 0.84 (75)(100)
EJERCICIO 2: Con los datos del ejemplo que se hizo en clase para practicar los mtodos de divisin por mitades y de profeca de Spearman-Brown (Matriz 1, correspondiente a los incisos 3.1 y 3.2), calcula la confiabilidad de dicha prueba usando el mtodo de KuderRichardson. 3.4 Mtodo de Kuder-Richardson. Frmula 20: Pero, Qu pasa cuando al calcular la media de todos los coeficientes de divisin por mitades se trabaja con reactivos que tienen distintos grados de dificultad? La alternativa es la frmula 20 de Kuder-Richardson: r11 = K (K 1) S2x - piqi S2x
En donde: K = Cantidad de reactivos de la prueba S2x = Varianza de las calificaciones totales de la prueba pi = Proporcin de personas que contestaron correctamente el reactivo qi = Proporcin de personas que contestaron incorrectamente el reactivo La frmula 20 de Kuder-Richardson, a diferencia de la frmula 21, es que: 1) Produce un resultado menos conservador que la frmula 21 y b) Es ms difcil de calcular. Para el clculo de este coeficiente de consistencia interna es necesario contar con datos previos como la media de las calificaciones totales de la prueba (M) y la varianza de las calificaciones totales de la prueba (S2x), cuyas frmulas son:
71
M=x N S2x = (x M)2 N Donde: M = Media de las calificaciones totales de la prueba x = Nmero de aciertos por sujeto N = Total de sujetos que contestaron la prueba
EJEMPLO EN CLASE: Con los datos del ejemplo que se hizo en clase para practicar los mtodos de divisin por mitades y de profeca de Spearman-Brown (Matriz 1, correspondiente a los incisos 3.1 y 3.2), calcula la media de todos los coeficientes de divisin por mitades considerando los distintos grados de dificultad de los reactivos de la prueba. M=x N M = 53 = 5.3 10 S2x = (x M)2 N S2x = 52.1 = 5.21 10
Para el clculo de (x M)2 xM (x M)2 x 10 4.7 22.09 7 1.7 2.89 7 1.7 2.89 6 0.7 0.49 6 0.7 0.49 0.3 5 0.09 1.3 4 1.69 2.3 3 5.29 2.3 3 5.29 3.3 2 10.89 52.1
r11 =
K (K 1)
S2x - piqi S2x
10 10 - 1
5.21 - 2.35 5.21
= 0.59
72
Para el clculo de pi: Pi = fi22 pi qi piqi
Para el clculo de piqi Para el clculo de qi: qi = 1 - pi
Aciertos en cada reactivo Total de aciertos en los reactivos 6 0.6 0.4 0.24 3 0.3 0.7 0.21 6 0.6 0.4 0.24 5 0.5 0.5 0.25 3 0.3 0.7 0.21 6 0.6 0.4 0.24 6 0.6 0.4 0.24
6 0.6 0.4 0.24
6 0.6 0.4 0.24
6 0.6 0.4 0.24
piqi 2.35
EJERCICIO 3: Ahora con los datos del ejercicio que se dej en clase para practicar los mtodos de divisin por mitades y de profeca de Spearman-Brown (Matriz 2, correspondiente a los incisos 3.1 y 3.2), calcula la media de todos los coeficientes de divisin por mitades considerando los distintos grados de dificultad de los reactivos de la prueba.
Confiabilidad y variabilidad Debido a que la varianza de la calificacin de la prueba est relacionada con la extensin de la prueba, un mtodo para incrementar la confiabilidad es hacer que la prueba sea ms extensa al agregarle reactivos. La frmula general de Spearman-Brown es una expresin del efecto que tiene en la confiabilidad este hecho de hacer ms extensa una prueba al agregar reactivos del mismo tipo. Una generalizacin de esta frmula es: rmm = mr11 1 + (m 1) r11
Donde: m = Factor por el cual la prueba se hace ms extensa r11 = Confiabilidad de la prueba original (sin extensin) rmm = Confiabilidad estimada de la prueba ms extensa EJEMPLO: Si una prueba con 20 reactivos y con un coeficiente de confiabilidad de 0.70 se hace 3 veces ms extensa al agregar 40 reactivos ms, Cul ser su confiabilidad estimada? m=3 r11 = 0.70 rmm = ?
22
Nmero de aciertos por reactivo
73
rmm =
(3)(0.70) = 0.87 1 + (3 1)(0.70)
Si teniendo una prueba con una confiabilidad determinada (r11) deseamos determinar cun extensa debe ser sta para que tenga una confiabilidad ms adecuada (rmm), podemos hacer esta estimacin resolviendo la frmula anterior para m: m= rmm (1 - r11) r11 (1 - rmm)
Donde: r11 = Confiabilidad conocida rmm = Confiabilidad deseada EJEMPLO: Una prueba de 40 reactivos tiene un coeficiente de confiabilidad de 0.80. Aproximadamente, Cuntos reactivos ms del mismo tipo general deben agregarse a la prueba para aumentar su confiabilidad a 0.90? r11 = 0.80 rmm = 0.90 m = 0.90 (1 0.80) = 0.18 = 2.25 0.80 (1 0.90) 0.08 Al multiplicar n (cantidad de reactivos que originalmente tiene la prueba) por m obtenemos 40 2.25 = 90. Por tanto, a fin de aumentar el coeficiente de confiabilidad de la prueba a 0.90, deben agregrsele 50 reactivos ms del mismo tipo general. EJERCICIO 4: Resuelve los siguientes problemas 1. Cul ser la confiabilidad de una prueba con un r11 de 0.62 despus de que su longitud se incrementa: a) 4 veces, b) 5 veces y c) 6 veces. 2. Una prueba de 50 reactivos tiene un coeficiente de confiabilidad de 0.75. Cuntos reactivos ms del mismo tipo general deben agregarse a la prueba para aumentar su confiabilidad a 0.85? Adems de depender de la cantidad de reactivos que comprende una prueba, la varianza y la confiabilidad de una prueba se ven afectadas por la heterogeneidad del grupo de personas que la presentan. Cuanto ms amplio sea el rango de diferencias individuales en una caracterstica determinada, mayor ser la varianza de las calificaciones en una medida de esa caracterstica. Como consecuencia, el coeficiente de confiabilidad de una prueba u otro instrumento de evaluacin ser mayor en un grupo heterogneo, que tiene una varianza de calificacin ms alta,
74
que un grupo homogneo que tiene una varianza de calificacin menor. El hecho de que la confiabilidad de una prueba vare con la naturaleza del grupo que se somete a la prueba se refleja en la prctica de reportar distintos coeficientes de confiabilidad para los grupos con edades, grados, sexo y nivel socioeconmico diferentes.
Respuestas a los ejercicios: 1. a) 0.59 y b) 0.74 3. 0.58 2. 0.61 4. a) 0.89 y b) 0.90
75
ERROR ESTANDAR DE MEDICIN (sm)

Un coeficiente de confiabilidad no da una indicacin directa de la cantidad de variabilidad (error) que se espera en las calificaciones de un individuo en una medicin. Sin embargo, en muchas situaciones prcticas, nos interesa saber hasta donde se puede esperar que varen las calificaciones de un individuo al repetir la medicin (reaplicacin). Nuestro problema consiste en estimar las calificaciones reales (T) de una persona y la magnitud del componente de error.23 Hipotticamente, podemos someter a examen a una persona un nmero infinito de veces y calcular la media y la desviacin estndar de la distribucin de sus calificaciones (obtenidas). En esta distribucin hipottica, la media sera la calificacin real del individuo y la desviacin estndar sera un ndice de la magnitud de los errores de medicin. Como es obvio, este procedimiento es inaplicable, pero se puede realizar una estimacin de la varianza de error, utilizando el nivel de ejecucin de un grupo de sujetos en dos aplicaciones de la misma prueba psicolgica como substitucin de mediciones repetidas del mismo sujeto. Al hacer esto, las diferencias en las calificaciones individuales en las dos mediciones sern errores de medicin. A continuacin, podramos desarrollar una distribucin de esas calificaciones errneas. La desviacin estndar de esta distribucin es el error estndar de medicin, el cual, se puede estimar directamente a partir de las calificaciones obtenidas en la prueba, mediante la frmula:
sm = sx
1 - r11
en donde sm es el error estndar de medicin, sx es la desviacin estndar de la distribucin de las calificaciones obtenidas y r11 es el coeficiente de confiabilidad del instrumento de medicin. As, al conocer la desviacin estndar de las calificaciones obtenidas y la confiabilidad de la prueba psicolgica, se puede estimar la magnitud de error en las calificaciones individuales.
Recordemos que, cualquier calificacin obtenida es una funcin de las calificaciones reales ms las de error y que, las calificaciones obtenidas pueden sobrestimar, subestimar o igualar a las reales.
23
76
1. De las calificaciones de una prueba psicolgica se obtuvieron los siguientes resultados: una media de 9.95, una desviacin estndar de 2.46 y un coeficiente de confiabilidad de 0.90. 2. Para calcular el error estndar de medicin utilizaremos la frmula anteriormente citada. Substituyendo los valores apropiados en la ecuacin y resolviendo para sm, se tiene:
sm = 2.46
1 - 0.90 = 0.78
3. Supongamos que un individuo obtuviera una calificacin de 12 en esta prueba psicolgica y que deseamos conocer los lmites de confianza de 95% para su calificacin real. Los lmites son:
X 1.96 sm
y, al hacer las substituciones adecuadas con los valores.del .ejemplo,
12 (1.96)(0.78) = 12 1.53 = 10.47 - 13.53

podremos decir que hay una probabilidad de 0.95 de que la .calificacin real de un individuo con X = 12 est entre 10.5 y .13.5 puntos, o bien, redondeando, entre 10 y 14.
Veamos otro ejemplo. Supongamos que la desviacin estndar de una prueba es 6.63 y el coeficiente de confiabilidad del test-retest 0.85; entonces sm = 6.63 1 - 0.85 = 2.57 Si la calificacin bruta de Juan en la prueba es 40, se puede llegar a la conclusin con 68% de confianza que Juan es uno de un grupo de personas con calificacin observada de 40 cuyas calificaciones reales se encuentran entre 40 - 2.57 = 37.43 y 40 + 2.57 = 42. 57. O bien, se puede llegar a la conclusin con 95% de confianza que Juan es uno de un grupo de sujetos con una calificacin observada de 40 cuyas calificaciones reales en la prueba se encuentran entre 40 - 1.96 (2.57) = 34.96 y 40 + 1.96 (2.57) = 45.04. El error estndar de medicin se incrementa conforme se reduce la confiabilidad. Cuando r11 = 1.00, no existe ningn error al calcular la calificacin real de una persona a partir de su calificacin observada; cuando r11 = 0.00, el error de medicin es el mximo y es igual a la desviacin estndar de las 77
calificaciones observadas. Desde luego, una prueba que tiene un coeficiente de confiabilidad cercano a 0.00 es intil porque lo acertado de cualquier decisin tomada basndose en las calificaciones no es mayor que la probabilidad.
Interpretacin de sm Con el sm puede conocerse el rango de valores de las calificaciones que, con una probabilidad dada, incluir a las calificaciones reales. Puede escogerse cualquier nivel de probabilidad; pero en general, se usa el nivel de confianza de 95%. La eleccin de dicho nivel asegura que el rango de calificaciones incluir a las reales en un 95% de los casos. Puede demostrarse as, que hay una probabilidad de 0.95 de que las calificaciones reales caigan dentro del rango: (X 1.96 sm) T (X + 1.96 sm); es decir, la probabilidad es de aproximadamente 0.95 de que T caiga dentro de 1.96sm de la calificacin obtenida (X). El rango de valores que abarca a las calificaciones reales se denomina intervalo de confianza y los lmites del intervalo se denominan lmites de confianza. Los intervalos de confianza y los lmites de confianza tienen un nivel de probabilidad. Para quien analiza tcnicamente la prueba, sm le informa acerca de 2 cosas: a) La cantidad de variabilidad (diferencia en los resultados) que se puede esperar en la reaplicacin y b) El rango dentro del cual caer probablemente la calificacin real. EJERCICIO: Calcule el error estndar de medicin (sm) de una prueba que tiene una desviacin estndar de 10 y un coeficiente de confiabilidad de formas paralelas de 0.84. Despus, utilice el valor de sm obtenido para encontrar el intervalo de confianza de 68% y de 95% para las calificaciones reales que corresponden a las calificaciones obtenidas de a) 40, b) 50 y c) 60. Respuestas del ejercicio: a) 36 44 y 32.16 47.84 b) 46 54 y 42.16 57.84 c) 56 64 y 52.16 67.84 BIBLIOGRAFIA Brown F., Principios de la medicin en psicologa y educacin, Ed. El Manual Moderno, Mxico, 1998. Aiken, Lewis R., Tests psicolgicos y evaluacin, Ed. Prentice Hall, Mxico, 1996.
78
VALIDEZ
INTRODUCCIN La validez de un instrumento es la exactitud con que pueden hacerse medidas significativas y adecuadas con l, en el sentido que miden realmente los rasgos que se pretenden medir. La validez de un instrumento rara vez es un problema cuando tratamos medidas fsicas, pero con los instrumentos usados para medir variables psicolgicas es necesario probar empricamente que el instrumento es vlido en todos los casos. Debe mantenerse el requerimiento de que la validez de cualquier mtodo tiene que probarse empricamente en las diferentes situaciones donde va a usarse. Debe tenerse presente que una alta confiabilidad es un requerimiento necesario, pero no suficiente para una alta validez. Cuando estimamos la validez de una prueba, necesitamos saber que rasgo deseamos que mida. Este rasgo se llama variable de criterio. Nos interesa saber qu tan bien corresponden las posiciones de los individuos en la distribucin de los puntajes obtenidos a sus posiciones en el continuo que representa la variable de criterio. La validez es tradicionalmente estimada por un coeficiente de correlacin, llamado coeficiente de validez, el cual, indica la relacin que hay entre los datos obtenidos con la prueba y los datos que usamos, con un grado conocido de certeza, como ndices para los puntajes del individuo en la variable de criterio. Una prueba no tiene un coeficiente fijo de validez que sirva para cualquier fin y cualquier grupo de individuos para los cuales pudiera usarse. La validez de la prueba vara de acuerdo con el propsito que se use y el grupo dentro del cual discrimina. En todo proceso de validacin la cuestin crucial es: Para quin y para qu es vlido el test? Necesitamos por consiguiente criterios diferentes para diferentes propsitos de la prueba. Cuando estimamos la validez, rara vez tenemos acceso a los criterios que son expresiones confiables y vlidas de la variable criterio. Por ello, debemos distinguir entre los criterios "verdaderos" y los criterios intermedios disponibles. El criterio asequible puede seleccionarse de entre varias posibilidades (el tamao del coeficiente de validez depende en cierto grado de la posibilidad escogida). Debemos esperar encontrar deficiencias de confiabilidad y validez en los datos de criterio que usamos para estimar la validez de la prueba. Se debe tomar en cuenta
79
tambin cun estrechamente est relacionado el criterio usado con el verdadero y con la confiabilidad de las medidas de criterio obtenidas. Los datos que en una situacin son usados como datos de criterio pueden en otra situacin emplearse como datos de prediccin, y necesitamos entonces, probar su validez.
TIPOS DE VALIDEZ Hay diferentes tipos de validez: Validez Predictiva: cuando deseamos usar la prueba para predecir las posiciones de los individuos sobre una distribucin de la que slo podemos disponer ms tarde. La prueba predice cierto resultado despus de un tiempo dado. La validez predictiva, calculada a travs de un coeficiente de validez, se usa en las pruebas para orientacin vocacional y para la seleccin y clasificacin de los individuos para propsitos de adiestramiento o trabajo. Validez Concurrente: cuando se dispone de la medida de la variable de criterio en el momento en que se obtienen los resultados de la prueba. Este tipo de validez se expresa tambin por un coeficiente de validez. Se usa para pruebas en situaciones de diagnstico. Cuando evaluamos los coeficientes de validez concurrente, debemos recordar que los criterios usados varan grandemente en calidad.
Tanto la validez predictiva como la concurrente se determinan calculando la correlacin entre los puntajes de la prueba y las medidas de la variable de criterio, y la validez se expresa en ambos casos por un coeficiente de correlacin. En la validez concurrente, la cuestin es si la prueba mide lo que se intenta medir y el coeficiente de validez indica que tan adecuados son los datos del test como base para el diagnstico. En la validez predictiva, la cuestin es la exactitud con que la prueba predice lo que se intenta predecir. Hay que decir que, una buena capacidad predictiva presupone una buena capacidad de diagnstico. Si algo no puede medirse exactamente, no puede usarse como base de predicciones vlidas. Dos observaciones ms: a) Un alto coeficiente para la relacin entre la prueba y el criterio no significa necesariamente que la prueba mida lo que creemos que mide. b) Cuando calculamos los coeficientes de validez es necesario que los datos del test y los del criterio se determinen en forma independiente. Validez de Contenido: es aplicable cuando estimamos el grado en que una prueba escolar, por ejemplo, abarca algn campo de estudio. Se determina por el grado en que la muestra de reactivos de la prueba es representativa
80
de la poblacin total. A diferencia de la validez predictiva y concurrente, la validez de contenido no puede expresarse por un coeficiente de validez. Validez de construccin: no se expresa por un solo coeficiente que represente la correlacin entre la prueba y las medidas de criterio. Es especialmente til en relacin con las pruebas que miden rasgos para los cuales no hay un criterio externo. Si el resultado de una serie de tales pruebas es el esperado, entonces se dice que el test tiene validez de construccin para la variable que se examina. Esta validez se determina mostrando que las consecuencias que pueden predecirse sobre la base de la teora con respecto a los datos del test pueden, en lo fundamental, confirmarse por una serie de pruebas. El procedimiento para probar la validez de construccin es el mismo que el del mtodo deductivo. Es una aplicacin de este mtodo al problema de evaluar la exactitud de las predicciones basndose en un test. Esta evaluacin se efecta segn el procedimiento clsico: teora-deduccin-hiptesis-prueba experimental-datos que desmienten o confirman la hiptesis.
PREDICCIN Podemos hacer una prediccin de una variable a otra con ayuda del coeficiente de correlacin. Si conocemos la correlacin entre los puntajes de las variables X y Y, necesitamos solamente obtener el puntaje de un individuo en X para poder predecir el puntaje probable del mismo individuo en Y.
81
Cuando conocemos el puntaje estndar observado en X (zx) de un individuo y el coeficiente de correlacin entre los puntajes de la distribucin X y los de la distribucin Y, podemos obtener la mejor prediccin posible del puntaje estndar del individuo sobre y1 multiplicando zx por el coeficiente de correlacin:
zy1 = rxy zx
(1)
Si en lugar de expresar las posiciones de los individuos en las distribuciones como puntajes estndar las expresamos como desviaciones de las medias de las respectivas distribuciones (y = y1 My1, y x = X - Mx), obtenemos:
y1 . = rxy x . sy sx
Multiplicando ambos lados por sy obtenemos:
(2)
y1 = rxy sy x sx
(3)
La expresin para calcular el puntaje crudo ms probable de la variable y para un individuo con un puntaje crudo dado de la variable x, es:
y1 = rxy sy (X - Mx) + My sx
(4)
La exactitud de la prediccin depende directamente de rxy, el tamao de la correlacin. Cuando rxy = 1.0, la prediccin ser perfectamente exacta. Si rxy = 0, la prediccin ser completamente al azar. La incertidumbre de la prediccin aumenta cuando la correlacin entre las variables disminuye. Cuando predecimos de la variable x a la variable Y tenemos una expresin directa de esta incertidumbre en la distribucin de los puntajes y alrededor
82
del puntaje predicho (y1) correspondiente a cada puntaje x. Cuando conocemos la desviacin estndar de esta distribucin, tenemos una expresin numrica con la que podemos calcular el intervalo dentro del que se encuentra el puntaje y de un individuo con un grado conocido de certidumbre, cuando su puntaje predicho es de una magnitud dada. Es posible derivar una ecuacin general para estimar la desviacin estndar de los errores que cometemos en la prediccin de los puntajes y a partir de los de x:
Syx = Sy 1 rxy2
(5)
EJEMPLO: Se conoce el puntaje de un alumno en una prueba de inteligencia y deseamos predecir su xito como estudiante expresado por las estimaciones del profesor al terminar sus estudios. Supongamos que el C.I. del alumno es de 120 en una escala donde M = 100 y s = 16. Las estimaciones del profesor se dieron en una escala de 9 puntos donde M = 5 y s = 2. El coeficiente de validez es de 0.50. Cul es ahora la mejor estimacin del xito, expresada por las estimaciones del profesor, para el alumno con un C.I. de 120? Datos
Mx = 100 Sx = 16
My = 5 Sy = 2
rxy = 0.50 X = 120
Y1 = ?
y1 = rxy sy (X - Mx) + My = y1 = (0.50) 2 (120 - 100) + 5 = 6.25 sx 16

La mejor de las estimaciones del profesor para este alumno en las condiciones dadas ser de 6.25, pero Cun grande es la incertidumbre de estimar que el puntaje es de 6.25? Para calcularlo usamos la ecuacin del error estndar de medicin (frmula 5):
Syx = Sy 1 rxy2 = 2 1 (0.50)2 = 1.74
83
El puntaje que obtiene el alumno en las estimaciones cae con 68% de certeza en el rango: 6.25 1.74 = 4.51 y 7.99 (Lmites de confianza) y con 95% de certeza en el rango: 6.25 3.4124 = 2.84 y 9.66
EJERCICIOS: 1. Calcular el puntaje de criterio que sea la mejor prediccin a partir de los puntajes predictores: a) -1.0, b) 0.0, c) 0.75 y d) 1.4, si el coeficiente de validez es de 0.70. Los puntajes de criterio y el predictor se dan como puntajes estndar. 2. En la seleccin para un curso escolar los aspirantes son estimados despus de ser entrevistados en una escala de 9 puntos (1 9). Las estimaciones se distribuyeron normalmente con M = 5 y s = 2. Despus de completar el curso, los mismos individuos fueron estimados en una escala de 19 puntos (1 19) con M = 10 y s = 3. La correlacin entre las dos estimaciones fue de 0.35. Un estudiante obtuvo un puntaje de 4 en la entrevista, Cul es su mejor estimacin final? Dentro de cul estimacin de puntajes caer su puntaje obtenido con un a) 68% y b) 95% de seguridad? 3. La correlacin entre los puntajes de un examen de admisin y las calificaciones finales es de 0.60. Los puntajes del examen de admisin son transformados a puntajes T (M = 50 y s = 10). Las calificaciones finales tienen M = 4.0 y s = 1.2. El individuo A tiene un puntaje de 55 en el examen de admisin. Prediga su calificacin final. 4. Un predictor se mide sobre la escala 1 21 (M = 11 y s = 3) y la variable de criterio se mide en la escala 1 11 (M = 6 y s = 2). El coeficiente de validez es de 0.66. Arriba de cul puntaje de criterio se encontrarn, aproximadamente, el 2.5% de estos individuos, si tienen un puntaje predictor de 7? Encuentre el resultado usando un 95% de seguridad y dibuje la figura correspondiente.
24
1.74 1.96 = 3.41 equivalente al 95% de certeza
84
RESPUESTA A LOS EJERCICIOS: 1. a) -0.7, b) 0, c) 0.52 y d) 0.98 2. y1 = 9.47, syx = 2.81, a) 6.66 12.28 (68%) y b) 3.96 14.98 (95%) 3. 4.36 4. y1 = 4.2 syx = 1.50 95% = 2.7 5.7 BIBLIOGRAFA Brown F., Principios de la medicin en psicologa y educacin, Ed. El Manual Moderno, Mxico, 1998. Downie, N. M. y R. W. Heath, Mtodos estadsticos aplicados, Ed. Harper & Row Publishers Inc., Mxico, 1998.
85
CLCULO DEL COEFICIENTE DE VALIDEZ

El mtodo que se utiliza con mayor frecuencia para determinar la validez de una prueba es correlacionar los resultados de la prueba con un criterio. El procedimiento incluye 5 etapas: 1) Seleccin de un grupo apropiado de estudio; 2) Aplicacin de la prueba predictora; 3) Aplicacin del tratamiento relevante; 4) Reunin de los datos del criterio y 5) Correlacin de las calificaciones de la prueba y el criterio. Grficamente: Prueba ----------- (Tratamiento) ----------- Criterio Correlacin La correlacin resultante, denominada coeficiente de validez (rxy), es una medida de la exactitud con la que se puede predecir la ejecucin en el criterio (Y) a partir de los resultados de la prueba (X). Ejemplo: Supongamos que un profesor de matemticas de secundaria descubre que cierta proporcin de sus alumnos tienen dificultades con el lgebra de primer ao. Le agradara identificar a esos alumnos, para impartirles un curso distinto de matemticas. Decide efectuar un estudio para ver si puede establecer diferencias entre los estudiantes que tengan diversos grados de xito en lgebra. Puesto que cree que los alumnos que tienen dificultades en lgebra carecen de capacidad para razonar de manera matemtica, desarrolla una prueba breve (de siete preguntas) sobre razonamiento matemtico y la aplica a todos los alumnos el primer da de clases. Para evitar la contaminacin de sus datos, no califica las pruebas, sino que las archiva para su uso posterior. Al final del curso, despus de asignar las calificaciones, califica las pruebas iniciales y decide calcular un coeficiente de validez para ver si la prueba es o no un predictor vlido. El siguiente cuadro muestra el diagrama de dispersin que indica la relacin entre las calificaciones de la prueba y las calificaciones obtenidas en lgebra. Los resultados de la prueba de razonamiento matemtico sirven como predictores; el criterio es el de las calificaciones obtenidas en lgebra. Y 4 3 2 1 0
A B C D E
2 6 14 26 1 2 10 16 25 5 1 1 7 20 30 9 3 2 7 20 28 15 1 1 6 25 15 6 1 1 2 3 4 5 6 7 Prueba de razonamiento matemtico (Predictor)
Calificacin en lgebra (Criterio)
86
Para su anlisis, el profesor asigna un valor numrico a cada calificacin: de 4 para A, de 3 para B, de 2 para C, de 1 para D y de 0 para E; y a continuacin realiza los clculos estadsticos necesarios, incluyendo el clculo del coeficiente de validez. Veamos a continuacin, paso por paso, cmo obtuvo el profesor el resultado de este coeficiente. Una frmula til que pudo haber empleado para calcular el coeficiente de validez es la siguiente: rxy = xy / n (Mx)(My) (sx)(sy) Para aplicar esta frmula, primero deben obtenerse los datos correspondientes a n, Mx, sx, My, sy y xy. Veamos, caso por caso, cmo se obtienen estos datos:
1. Para obtener n se suman todos los valores dentro del cuadro de doble entrada. As, en nuestro ejemplo n es igual a 305 datos.
2. Para obtener Mx, se multiplica cada rengln de datos por los nmeros correspondientes a los reactivos del predictor, se suman los productos obtenidos por cada rengln y estas sumas parciales se suman entre s. En nuestro ejemplo queda as: 6 + 50 + 45 +24 + 5 2 + 14 + 60 + 112 + 75 + 6 + 7 1 + 2 + 21 + 80 + 150 + 54 + 21 2 + 6 + 40 + 80 + 150 + 35 8 + 30 +84 + 182 Luego, se aplica la siguiente frmula: Mx = x / n O en el ejemplo en cuestin: Mx = 1352 / 305 = 4.43 = = = = = = 130 276 319 313 304 1352
3. Para obtener sx se aplican a los datos la siguiente frmula: sx = (x Mx)2 n 87
Obsrvese a continuacin, la forma cmo se aplica esta frmula a los datos con el ejemplo que venimos desarrollando:
Sx = 9(1 - 4.43)2 + 34(2 - 4.43)2 + 44(3 - 4.43)2 + 66(4 - 4.43)2 + 68(5 - 4.43)2 + 49(6 - 4.43)2 + 35(7 - 4.43)2 = 1.60 305
Donde: 9, 34, 44, 66, 68, 49 y 35 son la sumatoria de cada columna de datos; 1, 2, 3, 4, 5, 6 y 7 son los nmeros de cada reactivo; 4.43 es Mx, y 305 es n.
4. Para obtener My, se multiplica cada rengln de datos por el valor de la variable de criterio correspondiente, se suman los productos obtenidos por cada rengln y estas sumas parciales se suman entre s. Aplicndolo a nuestro ejemplo tenemos: 0 2 + 7 +20 + 28 +15 + 1 + 1 2 + 2 + 14 + 40 + 60 + 18 + 6 3 + 6 + 30 + 48 + 75 + 15 8 + 24 + 56 + 104 Luego, se aplica la siguiente frmula: My = y / n O en nuestro caso: My = 585 / 305 = 1.91 = = = = = = 0 74 142 177 192 585
5. Para obtener sy se aplican a los datos la siguiente frmula: sy = (y My)2 n
Obsrvese a continuacin, el modo cmo se aplica esta frmula a los datos con el ejemplo que nos ocupa:
Sy = 53(0 1.91)2 + 74(1 - 1.91)2 + 71(2 - 1.91)2 + 59(3 - 1.91)2 + 48(4 - 1.91)2 = 1.324 305
88
Donde: 53, 74, 71, 59 y 48 son la sumatoria de cada rengln de datos; 0, 1, 2, 3 y 4 son las calificaciones en la variable de criterio; 1.91 es My, y 305 es n.
6. Para obtener xy se multiplica cada nmero de los reactivos del predictor por cada nmero de las calificaciones de la variable de criterio por la frecuencia de cada caso dentro del cuadro de doble entrada: 106 112 121 2 0 25 217 221 231 3 0 15 3 1 20 327 332 406 4 1 28 4 2 20 4 3 10 442 501 5 1 15 5 2 30 5 3 16 546 611 629 6 3 25 6 4 14 711 723 735 7 4 26
0 = = 2 = 2 = 0 = 14 4 = = 6 = 0 = 60 = 42 = 18 = 0 = 112 = 160 = 120 = 32 = 0 = 75 = 300 = 240 = 120 = 6 = 108 = 450 = 336 = 7 = 42 = 105 = 728 = 3089
89
Habiendo obtenido estos valores: n = 305 My = 1.91 Mx = 4.43 sy = 1.324 sx= 1.60 xy = 3089
Finalmente, se hace la sustitucin en la frmula para calcular el coeficiente de validez de nuestro predictor: rxy = 3089 / 305 (4.43)(1.91) = 0.78 (1.60)(1.324) De esta manera, el profesor descubre un valor de 0.78 para su coeficiente de validez. Puesto que la correlacin es positiva y moderadamente alta, se confirma su creencia de que la capacidad de razonamiento matemtico puede ser importante para determinar las calificaciones en el curso (Evidentemente, se incluyen otros factores, puesto que la correlacin no es perfecta).
Interpretacin de rxy. Hay varios modos de interpretar y evaluar los coeficientes de validez. Probablemente el mtodo ms comn sea el comparativo: el utilizar la prueba con el coeficiente ms elevado de validez. As, si en una situacin dada, los coeficientes de validez son de 0.40 para la prueba A y 0.50 para la B, se adoptar esta ltima ya que es ms vlida en esas circunstancias. Por consiguiente, lo que se considera como una buena validez, depender de cada situacin especfica. Los coeficientes de validez se pueden interpretar tambin en funcin del porcentaje de varianza en el criterio, justificado por las diferencias en las calificaciones predictoras. El porcentaje de varianza que se explica en esa forma, se obtiene elevando al cuadrado el coeficiente de correlacin. As, si rxy = 0.78 como en nuestro ejemplo, podremos decir que 60% de la varianza (0.782 = 0.6084 100 = 60.84 = 60%) lo comparten las dos medidas o que el 60% de la varianza en los resultados del criterio es atribuible a variaciones en las calificaciones predictoras.
90
EJERCICIO: En el cuadro que se muestra a continuacin, se expone el diagrama de dispersin que indica la relacin entre las calificaciones de un predictor y las calificaciones de una medida de criterio. Se asign, como en el ejemplo anterior, un valor numrico a cada calificacin: A = 4, B = 3, C = 2, D = 1 y E = 0. Con la frmula para obtener el coeficiente de validez, es decir, rxy = xy / n (Mx)(My) (sx)(sy) calcula rxy para el presente caso: Y 4 3 2 1 0
A B C D E
4 8 8 1
8 11 1 2
1 26 8 1 3
2 8 3 14 20 42 29 9 6 3 1 1 4 5 6 Predictor
Criterio
7 8 2
7 2
Respuesta del ejercicio: rxy = 0.60
91
NORMAS Y ESTANDARIZACIN DE PRUEBAS
Muestra de estandarizacin
R e p r e s e n t a t i v i d a d
Poblacin meta
Para que la muestra sea representativa de la poblacin meta es necesario seleccionar la muestra con detenimiento
Proceso de estandarizacin
Propsito: determinar la distribucin de calificaciones brutas en el grupo de estandarizacin (grupo de norma) Las calificaciones brutas que se obtienen se convierten en calificaciones derivadas o normas Los manuales de las pruebas contienen CUADROS DE NORMAS que enlistan las calificaciones brutas y las calificaciones convertidas correspondientes
92
El desempeo de alguien en una prueba se evala al referirse al cuadro de normas apropiado y encontrar las calificaciones convertidas equivalentes a las calificaciones brutas Las normas sirven como marco de referencia para interpretar las calificaciones brutas Las normas indican el desempeo del sujeto en la prueba con respecto a la distribucin de las calificaciones que obtuvieron personas con la misma edad cronolgica, grado, sexo, etc.
SELECCIN DE UNA MUESTRA DE ESTANDARIZACIN
Las normas que se usan para interpretar las calificaciones de las pruebas deben de ser apropiadas para el grupo o individuo que se evala
Cuando la calificacin de una prueba se convierta, refirindose a un cuadro de normas, hay que considerar:
Naturaleza del grupo de norma en particular e incluir esta informacin en el informe
Cundo se obtuvieron las normas
Eleccin de una muestra de estandarizacin de la poblacin meta
93
Como la aleatoriedad no asegura la representatividad de la muestra, se usa:
Muestreo aleatorio estratificado (se categoriza la poblacin meta en una serie de variables demogrficas, que se supone que pueden relacionarse, con las calificaciones que se obtienen en la prueba)
Tambin se utiliza el muestreo aleatorio simple
Y para reducir costos, se utiliza el muestreo de grupos. Otras estrategias menos costosas para determinar las normas de las pruebas son los muestreos de reactivos y de individuos: distintas muestras de reactivos se aplican a muestras de sujetos diferentes que se eligen de manera aleatoria TIPOS DE NORMAS
Normas nacionales, regionales y locales
Las normas que se publican en los manuales de las pruebas son tiles para comparar la calificacin de un sujeto con aquellas de una muestra de personas de distintas localidades (escuela, sistema escolar, estado, regin, seccin del pas, etc.) Cuando nos interesa limitar las calificaciones de la prueba en una escuela en particular, debemos convertir las calificaciones brutas en normas locales por medio de ciertos procedimientos
94
Normas de edad y grado
Norma de edad: es la calificacin mediana que obtienen en una prueba, los sujetos de una edad cronolgica determinada. Se expresa en aos y 12 intervalos de un mes Norma de grado: es la calificacin mediana que obtienen los sujetos en el nivel de un grado determinado. Se expresa en 10 intervalos de un mes. Desventajas: el crecimiento en las caractersticas cognoscitivas, psicomotrices y afectivas no es uniforme en todo el rango de edades y grados. En realidad, las unidades de edad y de grado se reducen progresivamente con el aumento de edad o nivel de grado. Ya que estas normas suponen de manera incorrecta, que el ndice de aumento en las capacidades sometidas a prueba es constante a travs de los aos, no se apoya su uso Para proporcionar un ndice ms preciso de la calificacin promedio de los alumnos en un nivel de grado determinado, las calificaciones de los estudiantes que son mucho mayores o menores que la edad modal en ocasiones se omiten y la calificacin mediana se calcula slo con base en los alumnos que tienen la edad apropiada para ese grado
Normas de edad modal Normas de edad mental
La calificacin de la edad mental de un sujeto en particular corresponde a la edad cronolgica del subgrupo de nios en el grupo de estandarizacin cuya calificacin mediana en la prueba fue la misma que la del sujeto
95
Cociente intelectual: se convierte la norma de edad del sujeto en un cociente dividiendo la calificacin de la edad mental entre la edad cronolgica de la persona y multiplicando el resultado por 100. En la escala de Stanford-Binet se defini as: Cocientes CI = 100 x EM / EC Donde EM es la edad mental del sujeto y EC es la edad cronolgica en meses Cociente educativo: es la relacin de la edad educativa (norma de edad en una prueba de aprovechamiento educativa) con la edad cronolgica en meses Cociente de aprovechamiento: es la relacin de la edad educativa con la edad mental
Normas percentiles
Consisten en un cuadro de porcentajes que corresponden a las calificaciones brutas particulares. Las calificaciones brutas se conocen como percentiles y el porcentaje del grupo de normas que se encuentra debajo de una calificacin en particular es el rango percentil de esa calificacin Para muchos instrumentos psicomtricos se reportan cuadros de normas percentiles en los grupos de grados, edades, sexo, ocupaciones y otros El problema de las unidades de calificaciones desiguales queda sin resolver. Las unidades de rango percentilar no son iguales en todas las partes de la escala. Los rangos percentilares son medidas de nivel ordinal en lugar de nivel de intervalo. A pesar de que las diferencias numricas entre los rangos son las mismas, el tamao de la unidad del rango percentilar se vuelve cada vez menor hacia el centro de la escala. La tendencia que presentan las unidades del rango percentilar a agruparse en el centro y extenderse en los extremos de la escala provoca la dificultad en la interpretacin de los cambios y diferencias en las normas percentiles. Por ello, debemos recordar dar un mayor valor relativo a las diferencias del rango percentilar en los extremos que aquellas que se encuentran hacia el centro de la escala
96
Procedimientos para obtener los rangos percentiles 1 2 3 4 5 Intervalo Punto frecuencia Frecuencia Rango percentil medio acumulada (del punto medio debajo del de un intervalo punto determinado) medio X X Para calcularla Puede calcularse XX al dividir la X X para un XX intervalo en frecuencia X XX X acumulada X X particular, se XX X X suman todas las debajo del punto XX medio de un frecuencias en X X XX intervalo entre el todos los X X XX intervalos hasta nmero total de X X XX calificaciones (n) ste, y a esta X X XX suma, se agrega y multiplicar el X X XX una mitad de la cociente X X XX resultante por frecuencia de X X XX 100 ese intervalo X X XX Representan las medidas en una escala de intervalo. Son calificaciones convertidas que tienen cualquier media y desviacin estndar que se desee. Existen muchos tipos: Normas de calificacin estndar Calificaciones z: se determinan con la frmula z = X M / s, donde: X = Una calificacin bruta determinada, M = La media aritmtica y s = La desviacin estndar
NOTA. Frmulas para calcular M y s:
M = fX / N y s = f (X M)2 / N
Donde N equivale al total de las calificaciones que se consideren (frecuencia)
97
Al transformar la distribucin de las calificaciones brutas en calificaciones z se obtiene una nueva distribucin que tiene la misma forma, pero una media y una desviacin estndar diferentes a aquellas de la distribucin de las calificaciones brutas. La media de las calificaciones z es 0 y la desviacin estndar es 1. Calificaciones Z: que las calificaciones z puedan ser nmeros decimales negativos o positivos crea cierta dificultad al manipular estas calificaciones. Este problema se resuelve al multiplicar las calificaciones z por una constante y sumar otra constante a los productos. Si las calificaciones z se multiplican por 10 y se suma a los productos 50, se produce un nuevo conjunto de calificaciones, las calificaciones Z, que tienen una media de 50 y una desviacin estndar de 10. Calificaciones CEEB: se obtienen al multiplicar las calificaciones z correspondientes por Representan las medidas en una escala 100 y sumar 500 al resultado; de esta manera se de intervalo. Son calificaciones convertidas produce, una nueva distribucin de calificaciones que una tienen cualquier media desviacin que tiene media de 500 y unaydesviacin estndar que se desee. Existen muchos tipos: estndar de 100. Calificaciones z: (Prueba se determinan con la Calificaciones AGCT de frmula General z=XM s, donde:y X = Una : la Clasificacin del/ Ejrcito) Wechsler calificacin determinada, M = La media primera, tiene unabruta media de 100 y una desviacin aritmtica y con s = La desviacin estndar de 20, y la segunda, lasestndar calificaciones brutas de las subpruebas se transformaron para NOTA. Frmulas para calcular M y s: estndar obtener una media de 10 y una desviacin 2 fX / N y las s =calificaciones f (X M) / N de de 3 yM se=convirtieron totales Donde Nnormas equivale al total las calificaciones los grupos de para quede tuvieran una media que se consideren (frecuencia) aritmtica de 100 y una desviacin estndar de 15.
98
Para hacer que las calificaciones de pruebas diferentes sean comparables ms directamente, existe un procedimiento de transformacin que no slo afecta la media y la desviacin estndar, sino que tambin, cambia la forma de la distribucin de las calificaciones brutas a una distribucin normal. Calificaciones estndar normalizadas (zn) La conversin de un grupo de calificaciones brutas a Calificaciones estndar normalizadas (zn) empieza con el clculo de los rangos percentiles de las calificaciones brutas, continua con la conversin de esos rangos percentilares en proporciones; para finalmente, encontrar la calificacin z que corresponde a cada uno de esos rangos, a partir de una tabla de reas bajo la curva normal. A fin de eliminar los puntos decimales y nmeros negativos, estas calificaciones zn se pueden transformar a Calificaciones T por medio de la frmula T = 10 zn + 50. La nueva distribucin normal de las calificaciones T tiene una media aritmtica de 50 y una desviacin estndar de 10.
Escala de Estanina
Escala de calificaciones estndar normalizadas con una M de 5 y una s de 2 (aproximadamente). Frmula: (2)(z) + 5. Esta escala tiene 9 rangos que estn representados por los nmeros del 1 al 9 y cierto porcentaje de personas se encuentra en el intervalo representado por una estanina determinada; sin embargo, no es una escala de calificaciones estndar real porque el 1 y el 9 valor son abiertos. El ancho de las estaninas del 2 al 8 son iguales, indicando unidades de calificacin estndar iguales, pero el 1 y el 9 son mucho ms anchos que los dems. Una ventaja de esta propiedad es que representan rangos en lugar de puntos especficos, lo cual, ayuda a combatir la tendencia a considerar las calificaciones de las pruebas como medidas exactas y sin variacin de las diferencias individuales.
99
1 Punto medio X X X X X X X X X X X X X X X X X X X
2 z XM/s
Procedimientos para obtener las dems calificaciones 3 4 5 Z CEEB zn
6 T
7 Estanina
(10)(z) + 50 (100)(z) + 500 1. Se calculan los (10)( zn) + 50 (2)(z) + 5 Rangos percentiles Donde: correspondientes a X los puntos medios corresponde de cada intervalo, a una 2. Se convierten determinada los Rangos calificacin percentilares bruta (en resultantes a este caso, al proporciones, punto dividindolos entre medio de 100 cada 3. Se busca la intervalo) calificacin z correspondiente a cada uno de los rangos en una tabla de reas bajo la curva normal.
100
EJERCICIO. Complete el cuadro con los datos que correspondan a los puntos medios de cada uno de los intervalos, que agrupan las 30 calificaciones de la siguiente distribucin de frecuencias:
Intervalo de calif. X f Frecuencia acumulada abajo del X Rango percentil z Z CEEB zn T Estanina
96 98
93 95
90 92
87 89
84 86
81 83
78 80
75 77
72 74 69 71
2 1
101
Intervalo de calif.
Frecuencia acumulada abajo del X
EJERCICIO RESUELTO Rango z Z percentil
CEEB
zn
Estanina
96 98 93 95 90 92 87 89 84 86 81 83 78 80 75 77 72 74 69 71
97 94 91 88 85 82 79 76 73 70
1 2 3 5 6 4 4 2 2 1
29.5 28 25.5 21.5 16 11 7 4 2 0.5
98.33 93.33 85.00 71.67 53.33 36.67 23.33 13.33 6.67 1.67
1.98 1.52 1.07 0.61 0.15 - 0.30 - 0.76 -1.22 - 1.68 - 2.14
69.8 65.2 60.7 56.1 51.5 47 42.4 37.8 33.2 28.6
698 652 607 561 515 470 424 378 332 286
2.13 1.50 1.04 0.57 0.08 - 0.34 - 0.73 - 1.11 - 1.50 - 2.13
71.3 65 60.4 55.7 50.8 46.6 42.7 38.9 35 28.7
8.96 8.04 7.14 6.22 5.3 4.4 3.48 2.56 1.64 0.72
102
OPERACIONES RESUELTAS DEL CLCULO DE LA M PARA LA OBTENCIN DE z:
X 97 94 91 88 85 82 79 76 73 70
f 1 2 3 5 6 4 4 2 2 1
fx 97 188 273 440 510 328 316 152 146 70 = 2520
Clculo:
M = fx / N = 2520 / 30 = 84
103
OPERACIONES RESUELTAS DEL CLCULO DE LA s PARA LA OBTENCIN DE z:
X 97 94 91 88 85 82 79 76 73 70
X-M 13 10 7 4 1 -2 -5 -8 - 11 - 14
(X M)2 169 100 49 16 1 4 25 64 121 196
f(X M)2 169 200 147 s= 80 6 16 = 100 128 242 196 = 1284
Clculo:
f (X M)2 / N = 42.8 = 6.54
1284 / 30
104
USO DE LA TABLA DE REAS BAJO LA CURVA NORMAL .00 .01 .02 .03 .04 .05 .06 .07 .08 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6
.09
15.54
33.15
S z es igual a 0.4, 0.96, 1.32 y 1.6, los porcentajes correspondientes a tales valores dentro de la tabla de reas bajo la curva normal, se encuentran en la interseccin entre la 1 columna a la izquierda y el 1 rengln de arriba; en este caso, los porcentajes son 15.54 %, 33.15 %, 40.66 % y 44.52 %, respectivamente.
40.66
44.52
105
INSTRUCCIONES: Completa la siguiente tabla de calificaciones.
INTERVALO DE CLASE
PUNTO INTERMEDIO
FRECUENCIA
FRECUENCIA ACUMULADA ABAJO DEL PUNTO INTERMEDIO
RANGO PERCENTILAR
Zn
CEEB
ESTATINA
96-98 93-95 90-92 87-89 84-86 81-83 78-80 75-77 72-74 69-71 66-68 63-65 60-62 57-59
1 1 20 36 78 160 122 90 84 68 28 10 4 2
106
INSTRUCCIONES: Completa la siguiente tabla de calificaciones.
RANGO PERCEN-TILAR
Zn
CEEB
98.33 93.33 85.00 71.67 53.33 36.67 23.33 13.33 6.67 1.67
1.95 1.50 1.05 0.60 0.15 -0.30 -0.75 -1.20 -1.65 -2.10
107
III. INSTRUCCIONES: Completa la siguiente tabla de calificaciones.
INTERVALO PUNTO FRECUENDE CLASE INTERCIA MEDIO
FRECUENCIA ACUMULADA ABAJO DEL PUNTO INTERMEDIO
RANGO PERCENTILAR
Zn
CEEB
ESTATINA
96-98 93-95 90-92 87-89 84-86 81-83 78-80 75-77 72-74 69-71 66-68 63-65 60-62 57-59
1 2 19 37 77 160 121 91 83 69 27 11 4 2
108
PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS
Los captulos del uno al cuatro tratan los antecedentes, metodologa y condicin profesional de los tests psicolgicos y educativos. En las prximas dos secciones se estudiarn las clases especificas de instrumentos cognoscitivos y afectivos, as como lo que miden. Las pruebas de rendimiento, que en el Reino Unido se conocen como pruebas de logro, se analizan en este captulo. Los captulos seis y siete se ocupan de otros instrumentos cognoscitivos, tests de inteligencia general y capacidades especiales. La evaluacin afectiva, incluyendo las medidas de inters, actitud, valor y personalidad se analizan en los captulos nueve y diez. LAS PRUEBAS DE APROVECHAMIENTO EN PERSPECTIVA Las pruebas de aprovechamiento, que se definen como el nivel de conocimientos, habilidad o logro en un rea de desempeo, son las ms populares de todas las clases de pruebas. Si consideramos todas las pruebas que se aplican en el saln de clases y que elaboran los profesores, as como las pruebas estandarizadas que se venden a las escuelas y otras organizaciones, la cantidad de pruebas de logro aplicadas sobrepasa con facilidad los otros tipos de medidas psicolgicas y educativas. La mayor parte de las pruebas de logro estandarizadas se ocupan de reas de lectura y el lenguaje, aunque cada ao tambin se invierten millones de dlares en pruebas de matemticas, ciencias sociales y otras materias. Cualquier prueba de habilidad (inteligencia general, capacidades especiales o rendimiento) en realidad mide aquello que logran los individuos. Los reactivos en las pruebas de inteligencia y capacidades especiales, al igual que los de pruebas de aprovechamiento, requieren que los sujetos demuestren ciertos logros. Las calificaciones obtenidas en las pruebas de aprovechamiento tambin pueden utilizarse para muchos de los mismos propsitos que aquellas obtenidas en pruebas de capacidades generales o especificas. Estos propsitos incluyen no slo la evaluacin global y de diagnostico de capacidades individuales, sino tambin la evaluacin de efectividad en la enseanza o de un programa educativo especifico. Por ltimo, las pruebas de aprovechamiento con frecuencia son mejores indicadores de las notas escolares que las pruebas de inteligencia o capacidades especiales. Sin embargo, esto no significa que las pruebas de aprovechamiento en una materia especfica puedan reemplazar por completo a las pruebas de inteligencia o capacidades especiales. Los logros que miden las pruebas de inteligencia general casi siempre son ms amplios y se producen por experiencias de aprendizaje menos formales y supuestamente menos recientes que aqullos que miden las pruebas de aprovechamiento estandarizadas. Por lo regular, las pruebas de aprovechamiento evalan el conocimiento sobre algo que se enseo de manera explicita. Como consecuencia, las calificaciones obtenidas en estas pruebas tienden a estar influidas ms por la preparacin que las calificaciones de las pruebas de inteligencia. Tambin puede hacerse una distincin entre las pruebas de aprovechamiento y las de inteligencia y capacidades especiales en trminos del nfasis que poseen. 109
Las pruebas de aprovechamiento se concentran ms en el presente, es decir, en lo que la persona sabe o puede realizar en este momento; mientras que las pruebas de inteligencia y capacidades especiales centran la atencin en el futuro. Miden la aptitud para el aprendizaje, lo que una persona debe poder lograr con mayor educacin o capacitacin. Panorama histrico Aunque la primera vez que se utilizaron las pruebas escritas con propsitos educativos fue en Cambridge, Inglaterra, en 1702, no fue sino hasta 1845 cuando esas pruebas se aplicaron a gran escala en Estados Unidos, la cantidad de estudiantes haba aumentado en forma considerable para la aplicacin peridica de exmenes orales, hasta la ltima mitad del siglo XIX, este tipo de pruebas constitua el principal mtodo utilizado para evaluar el aprovechamiento de los alumnos en ese pas. A mediados del siglo XIX, el educador de Boston Horace Mann argument en forma persuasiva que los exmenes escritos, que se aplicaban y calificaban en condiciones uniformes, eran medidas de aprovechamiento ms vlidas que los exmenes orales. Con la influencia de Mann, las escuelas de la ciudad de Boston empezaron a aplicar pruebas escritas a los alumnos cada ao. Se esperaba que en esta prctica ayudara a determinar la condicin, mejoramiento o deterioro de nuestras escuelas (Fish 1941, pgina23). A pesar de los esfuerzos de Horace Mann y otros educadores, durante muchos aos, los exmenes escritos los reemplazaron en forma gradual. La primera prueba objetiva de aprovechamiento que pudo calificarse de manera confiable, fue una escala de caligrafa que elabor en 1864 George Fisher, un ingls. Veinticinco aos despus, J. M. Rice (1897) dio otro paso importante, al inventar la prueba comparativa y convertirse as en el padre de la investigacin educativa en Estados Unidos (Ross y Stanley, 1954, pgina 38). Las primeras pruebas de Rice fueron pruebas objetivas de ortografa que se disearon para el estudio clsico de las capacidades de ortografa por parte de los nios en las escuelas. Las investigaciones con estas pruebas revelaron poca relacin entre la cantidad de tiempo invertido todo los das en ejercicios de ortografa con 50 palabras a 33,000 nios llevaron a Rice a la conclusin de que, en ortografa, se aprenda los mismo en 15 que en 40 minutos de enseanza diaria. En estudios posteriores, Rice evalu las capacidades del lenguaje de 8,000 nios y los logros en aritmtica de 6,000 nios. E.L. Thorndike y otros psiclogos educativos se basaron en los fundamentos de Rice, cuyo trabajo por lo general se considera precursor de las pruebas de aprovechamiento estandarizadas. Bajo la direccin de Thorndike, a quien se considera el padre del movimiento de pruebas educativas (Ross y Stanley, 1954, pgina 39), varias pruebas de aprovechamiento estandarizadas se publicaron durante los primeros aos del siglo xx. stas incluan la Prueba de Aritmtica para las Operaciones Fundamentales y la Prueba del Razonamiento Aritmtico de C.L. Stone en 1908, la serie de Pruebas Aritmticas de
110
S.A. Courtis en 1909 y la escala de Caligrafa para nios de Thorndike en el mismo ao. Las demostraciones de falta de confiabilidad de las calificaciones que asignaban los maestros, incluso en las materias ms exactas como las matemticas (Starcha y Elliot), 1913), llevaron a un aumento del inters por las pruebas estandarizadas objetivas. Para fines de la dcada de los 20, estaban disponibles numerosas pruebas de aprovechamiento estandarizadas, incluyendo las bateras de medicin como la Prueba de Aprovechamiento de Stanford (1923) para los alumnos de primaria y el Examen de Contenido de la Iowa High School (1924). El nuevo formato de opcin mltiple, junto con la invencin de las mquinas de calificacin automatizada, llevaron a un rpido incremento en el uso de las pruebas estandarizadas para evaluar el aprovechamiento de los alumnos. En el lugar de estar motivado slo por las preocupaciones educativas y cientficas, el crecimiento de la aplicacin de pruebas de aprovechamiento en Estados Unidos se atribuye en parte al hecho de que ambos puntos de vista, el educativo y el cientfico en un debate poltico sobre las escuelas pblicas encontraron que el propsito y los resultados de las pruebas eran tiles para sus argumentos (Levine, 1976). Como puede verse en la ponencia sobre los exmenes de aprovechamiento estandarizados en todo el pas por parte del presidente George Bush, incluso en la actualidad la aplicacin de pruebas estandarizadas, en las escuelas, sigue teniendo implicaciones polticas significativas. A pesar del paso del tiempo y de cientos de estudios de investigacin, nunca se ha establecido por completo el aspecto de los meritos relativos de las pruebas de ensayo y objetivas. De hecho, con frecuencia escuchamos el planteamiento de que los maestros se han excedido en el uso de pruebas objetivas en detrimento de las habilidades de composicin por parte de los alumnos. No obstante, est claro que las pruebas objetivas que se disean con detenimiento pueden medir no slo la memoria para los hechos, sino adems muchos de los objetivos de la educacin ms compleja que antes, se crea, que se evaluaban slo mediante exmenes de ensayo. En aos recientes, ha existido una tendencia muy marcada por las pruebas que miden objetivos de enseanza de orden ms elevado, como aplicacin, anlisis y evaluacin. Otra tendencia ha sido alejarse de las pruebas de aprovechamiento estandarizadas que tratan de evaluar los objetivos educativos amplios y acercarse a las pruebas que estn diseadas en forma especfica para libros de texto y programas de enseanza particulares. Por ltimo, como respuesta a las crticas que afirman que las pruebas objetivas fomentan malos hbitos de escritura y autoexpresin, en la actualidad se da ms importancia a las pruebas de ensayo estandarizadas de expresin escrita. Usos de las pruebas de aprovechamiento La funcin bsica de las pruebas de aprovechamiento es determinar cunto sabe una persona sobre cierto tema o qu tan bien pueden poner en prctica determinadas habilidades. Los resultados de las pruebas de aprovechamiento informan a los alumnos, a padres y maestros, acerca de los logros y deficiencias acadmicas de los estudiantes. Esas pruebas tambin pueden motivas a los alumnos para que aprendan, proporcione a los maestros y personal. Como es obvio, las calificaciones obtenidas en las pruebas 111
educativas no constituyen el nico medio para evaluar la afectividad de la enseanza, pero s ofrecen una medida de la calidad de la educacin y, de esa forma, contribuyen con su mejoramiento. En realidad, las pruebas de aprovechamiento no evalan todos los objetivos o metas que proponen los filsofos educativos. Por ejemplo, no miden en forma directa variables efectivas como el placer y la confianza en el pensamiento, el inters por la materia educativa, el placer de poner en prctica las habilidades, la diversin que proporciona la lectura, aprender a aprender y manejar el cambio o el desarrollo de las habilidades sociales e interpersonales, sin embargo, lo que estas pruebas pueden medir y con una precisin mucho mayor que las calificaciones por parte de los maestros u otros juicios subjetivos, es el grado en el cual los sujetos han logrado ciertos objetivos cognoscitivos de enseanza (Levine.1976). Pruebas elaboradas por maestros y estandarizadas. Las funciones de las pruebas de aprovechamiento descritas en los prrafos anteriores se adjudican tanto a las pruebas que se aplican en el saln de clases y que preparan los maestros como a las estandarizadas que elaboran los profesionales en medidas educativas. Pero las pruebas que crean los profesores difieren de las estandarizadas en ciertos aspectos importantes. Una prueba elaborada por un maestro es ms especfica, para un profesor, grupo unidad de estudios particulares y es mas fcil mantenerla al da, como consecuencia, las pruebas que elaboran los maestros es mas probable que reflejen los objetivos educativos actuales de una escuela o profesor. Por otra parte las pruebas estandarizadas se elaboran alrededor de un ncleo de objetivos educativos comunes para muchas escuelas distintas. Estos objetivos representan elaboracin de pruebas y en el desarrollo de stas. Las pruebas de aprovechamiento estandarizadas tambin se concentran ms en los procesos de comprensin y pensamiento que en el conocimiento sobre reas especificas. De manera clara, las pruebas elaboradas por los maestros y las estandarizadas se complementan entre s en lugar de remplazarse. Miden aspectos diferentes pero igualmente importantes y , dependiendo de los objetivos del grupo o escuela en particular, ambas clases de pruebas deben emplearse. Cuando una prueba estandarizada determinada no evala los objetivos educativos de un sistema escolar en especial, deben tomarse en cuenta otras pruebas estandarizadas e incluso algunas elaboradas por los maestros. Adems de estar elaboradas con mayor detenimiento y tener un contenido con cobertura ms amplia que las pruebas elaboradas por los maestros, las pruebas de aprovechamiento estandarizadas son en particular tiles para comparar a los alumnos de manera individual con propsitos de ubicacin en los grupos y de evaluacin de los distintos planes de estudio por medio de la evaluacin de los logros relativos de diversos grupos o escuelas. Tanto las pruebas elaboradas por maestros como las estandarizadas pueden cumplir con la funcin de diagnostico de una prueba, en la que se determinan las capacidades e incapacidades de una persona en cierta materia o rea, aunque las pruebas estandarizadas son de alguna de manera mas efectiva para este propsito. Las decisiones con respecto de la individualizacin de la enseanza, la ubicacin en niveles de enseanza particulares y la enseanza teraputica por lo regular tambin se toman con base en las calificaciones obtenidas en las pruebas estandarizadas ms que en aquellas que elaboran los maestros. 112
Responsabilidad y contrato del desempeo. Las calificaciones de las pruebas se utilizan no slo para evaluar el desempeo de los alumnos, sino tambin para evaluar a los profesores y escuelas. La responsabilidad, o hacer que los maestros se responsabilicen del grado de xito que tienen al ensear a los alumnos, ha sido un tema que ha provocado controversias en la educacin durante varios aos. Cuando los alumnos pueden lograr los objetivos de enseanza, se debe premiar a los maestros, a quienes por lo regular no se le permite elegir a sus alumnos sino que deben tratar de educar a cualquier persona que se les asigne, y est bien castigarlos cuando los objetivos no se alcanzan? Como resultado de la preocupacin, cada vez mayor, por parte de pblico porque las escuelas no realizan un trabajo adecuado al educar a ciertos estudiantes, en aos recientes se ha prestado especial atencin a la responsabilidad por la efectividad de la enseanza. En muchos sistemas escolares, se han hecho esfuerzos por especificar el grado de competitividad que deben alcanzar los alumnos a fin de completar un grado determinado, curso de estudio o graduarse de la educacin superior, As, la evaluacin de la efectividad de la enseanza est basada en el logro de esta competitividad. La responsabilidad y la enseanza con base en la competitividad se relacionan con el contrato del desempeo, es decir, hacer que lo salarios de los profesores se establezcan de acuerdo con el grado de xito que tengan al educar a los estudiantes. Si las pruebas van utilizarse como medio para determinar el grado en el cual un maestro cumple con su contrato para ensear el material del curso a los alumnos, pueden aplicarse las mismas pruebas al principio y al final del curso. Como consecuencia, cuanto mayores sean los avances en el aprovechamiento de los alumnos entre una y otra prueba, el salario del maestro ser ms alto. Cuando se combinan con otras medidas del desempeo, las calificaciones de las pruebas de aprovechamiento pueden y deben contribuir en las decisiones con respecto de la responsabilidad. Sin embargo, tienen limitaciones bien definidas cuando se utilizan con este propsito. Una limitacin estadstica importante es que la confiabilidad de las diferencias entre las calificaciones de ambas pruebas es menor que aquella de las calificaciones en las pruebas. Evaluacin sumativa y formativa. La prctica tradicional requiere de la aplicacin de una prueba de aprovechamiento al final de una unidad o curso de estudio para determinar si los alumnos alcanzaron los objetivos de enseanza. Tcnicamente, este procedimiento se conoce como evaluacin sumativa: la calificacin de una prueba se considera el producto final, o suma, de extensas unidades de experiencias educativa. En contraste con la evaluacin sumativa, la necesidad de una evaluacin formativa es una consecuencia de la creencia de que los procesos de enseanza y evaluacin deben estar integrados. El propsito de la evaluacin formativa es ayudar tanto al alumno como al profesor a concentrarse en el aprendizaje particular necesario para avanzar hacia el dominio (Bloom, Hastings y Madaus. 1971, pgina61). Cuando la evaluacin es
113
formativa, las pruebas y otros mtodos de evaluacin del progreso educativo ocurren de manera continua durante el proceso de enseanza. Un resultado directo del concepto de evaluacin formativa es el desarrollo de unidades de enseanza que incluyen pruebas como parte integral y contina de la enseanza, y no como una culminacin del proceso. En la prctica, el desempeo del alumno se observa de manera continua durante el proceso de aprendizaje y puede servir como gua para el estudio y el aprendizaje posterior. Medidas con referencia a normas y criterios. Por tradicin, las medidas educativas no slo han sido de suma; sino que adems han sido con referencias a normas ms que a criterios. Como se describi en el capitulo cuatro, la calificacin que una persona obtiene en una prueba con referencias a normas se interpreta al compararlas con la distribucin de las calificaciones obtenidas de algn grupo de norma (estandarizacin). Pero la calificacin que obtiene una persona en una prueba con referencias a criterios se interpreta al compararla con un estndar o criterio de desempeo efectivo ya establecido. Este estndar puede derivarse del consenso de personas que se ocupan de la educacin: trminos de su contenido, las pruebas con referencia a criterios se interpreta al compararla con un estndar o criterio de desempeo efectivo ya establecido. Este estndar puede derivarse del consenso de personas que se ocupan de la educacin: maestros y personal administrativo de las escuelas, padres, expertos en medicin y polticos. En trminos de su contenido, las pruebas con referencias a normas por lo regular son ms amplias y comprenden tareas ms complejas que las pruebas con referencias a criterios. Como consecuencia, el rango de diferencias individuales en las calificaciones obtenidas en una prueba con referencias a normas tiende a ser mayor que aquel que presentan las pruebas con referencias a criterios. A pesar de las diferencias en el propsito y diseo de pruebas con referencias a normas y criterios, una prueba de aprovechamiento en particular puede funcionar como instrumento con referencias a normas y criterios. La cantidad de material que ha aprendido un alumno (funcin con referencias a criterios) y la manera en que su desempeo se compara con el de otros estudiantes (funcin con referencias a normas) con frecuencia pueden determinarse con la misma prueba (Carver, 1974). Entre las muchas pruebas con referencias a criterios para una sola materia que se encuentran disponibles en el mercado estn la Prueba de Lectura para el Diagnostico de California y la Prueba de Matemticas para el Diagnostico de California (ambas de CTB/ Macmillan/McGraw-Hill). Tambin pueden compararse bateras de pruebas con referencias a criterios, como la Serie de Estudios Nacionales de Aprovechamiento y La Prueba de Alfabetismo Cultural (de Riverside Publishing Company). Otro producto que ofrecen ciertas compaas que se dedican a las pruebas son las pruebas de una sola materia combinadas con estrategias de enseanza apropiadas para sta. Algunos ejemplos son las pruebas de Matemticas CRC y de la Lectura CRC (De The Psychological Corporatio). Varias compaas tambin preparan pruebas con referencias a criterios en varias materias. Estas pruebas
114
con especificaciones poseen la ventaja de estar diseadas para los objetivos de un sistema escolar particular, pero tambin presentan varias desventajas. Adems del problema de decidir sobre una calificacin aceptable para aprobar o tener un nivel de dominio en cada prueba, la necesidad de gran cantidad de subpruebas para medir distintos objetivos educativos requiere que cada prueba sea relativamente corta y, por tanto, su confiablidad es bastante baja. Adems, no se ha resuelto del todo el problema de la forma en que deben determinarse la confiablidad y validez de las diferentes subpruebas y de la prueba general. La Evaluacin Nacional del Progreso Educativo. Un planteamiento de referencias a criterios gua a la Evaluacin Nacional del Progreso Educativo (NAEP), un estudio continuo que se realiza en todo el pas sobre el conocimiento, habilidades, comprensin y actitudes de los jvenes estadounidenses. La NAEP, que en la actualidad est financiada por el Instituto Nacional de Educacin y est basado en el Servicio de Pruebas Educativas de Princeton, Nueva Jersey, comprende la evaluacin peridica de extensas muestras de personas en cuatro grupos de edad (9, 13, 17, y 25 a 35 aos) en 10 reas (arte, desarrollo profesional y ocupacional, civismo, literatura, matemticas, msica, lectura, ciencias, ciencias sociales y escritura). Dos o tres materias se evalan en un ao determinado y se vuelven a evaluar en un ciclo de 3 a 6 aos. La NAEP emplea un procedimiento de muestreo aleatorio estratificado al seleccionar a los sujetos: determinado nmero de personas del mismo sexo, nivel socioeducativo y raza se elige de manera aleatoria de cuatro regiones geogrficas y cuatro tipos de comunidades. A pesar de que se formulan gran cantidad de preguntas con respecto de cada tema, el procedimiento de muestreo, tanto de los sujetos como de los reactivos, hace que slo sea necesario un periodo relativamente corto de prueba (50 minutos) para cada persona. Los adultos se evalan en forma individual y los jvenes se evalan tanto de manera individual como en grupo. Ya que los resultados se expresan en trminos de porcentajes de porcentajes de personas en cada nivel, que poseen ciertos conocimientos y habilidades, los nombres de esas personas no aparecen en las pruebas. La Evaluacin Nacional se plane como un programa continuo para proporcionar al pblico estadounidense, en especial a legisladores y educadores, informacin sobre la condicin y el crecimiento de los logros educativos en Estados Unidos (La Boleta de Calificaciones del Pas), as como el grado en el cual se alcanzan los objetivos educativos de toda la nacin. Estos estudios no se disearon, como algunas personas temen, para evaluar los logros de escuelas o distritos escolares especficos ni como un medio de control federal para los planes de estudio de las escuelas pblicas. Sin embargo, los descubrimientos se analizan por rea geogrfica, tamao y tipo de comunidad, sexo, educacin de los padres y raza. Los anlisis de los efectos del apoyo federal y de os tipos especficos de programa sobre el aprovechamiento educativo son de especial inters.
115
Tipos de pruebas de aprovechamiento estandarizadas. Existen cuatro tipos generales de pruebas de aprovechamiento estandarizadas: batera de pruebas de estudio, pruebas de estudio en materias especficas, pruebas de diagnstico y pruebas de pronstico. Algunas de stas estn diseadas para aplicarse individualmente a una persona a la vez, pero a la gran mayora son pruebas de grupo. El mercado para las pruebas altamente especializadas en un rea particular es ms bien limitado, de modo que por lo regular las pruebas de aprovechamiento estandarizadas cubren reas de contenido amplias y se ocupan de aspectos de conocimiento general. Ya que el plan de estudios se vuelve ms especializado en los niveles de grados superiores, la aplicacin de pruebas de aprovechamiento estandarizadas es menos comn despus de la secundaria. Bateras de pruebas de estudio. La forma ms apropiada de evaluar el aprovechamiento es con la aplicacin de una batera de pruebas de estudio, un grupo de pruebas sobre una materia diseado para niveles de grados particulares. El propsito principal de la aplicacin de una batera de pruebas es determinar la posicin general de un individuo dentro de un grupo, en lugar de sus fortalezas y debilidades especficas. Como consecuencia, cada prueba en una batera de estudio contiene una muestra bastante limitada del contenido y las habilidades en cierta materia. Ya que las distintas pruebas en una batera se estandarizan con base en el mismo grupo de sujetos y las calificaciones se expresan en la misma escala numrica, el desempeo de una persona en diversas materias puede compararse de manera directa. A pesar de que proporcionan una evaluacin ms adecuada del aprovechamiento del alumno que las pruebas sencillas, la batera de pruebas se presenta varias desventajas. A pesar de que el tiempo de aplicacin es ms prolongado, las pruebas que forman una batera son ms breves que las pruebas de estudio sencillas y, por tanto, tienden a presentar una confiabilidad menor. Desde luego, no es necesario aplicar todas las pruebas en una batera a un grupo determinado de alumnos; el examinador puede elegir cualquier prueba que produzca informacin relevante con respecto de los objetivos de evaluacin. Pruebas de estudio sencillas. Adems de las pruebas individuales sobre una materia, el examinador puede elegir varias pruebas sencillas. Estas pruebas de estudio por lo general son ms extensas y detalladas que las de una batera y, por tanto, permiten una evaluacin ms profunda del aprovechamiento en un rea especfica. Sin embargo, las pruebas de estudio sencillas casi siempre producen una sola calificacin general y quiz un par de subcalificaciones y no determinan las causas especficas del bajo o alto desempeo en la materia. Debido a que existe mayor uniformidad entre las distintas escuelas con respecto de la enseanza de la lectura y las matemticas que en otras materias, las pruebas estandarizadas en estas dos reas tienden a ser ms vlidas que, por ejemplo, las pruebas de estudio en ciencias y ciencias sociales. Pruebas de diagnstico. Ciertas pruebas tienen la funcin de diagnostico para identificar dificultades especificas en el aprendizaje de una materia. Para elaborar una prueba de diagnostico en una habilidad bsica como lectura, aritmtica u ortografa, es preciso analizar el desempeo en la materia como un todo en subhabilidades y despus grupos de reactivos diseados para medir el desempeo en estas subhabilidades. A
116
diferencia de las pruebas de estudio, que se concentran en las calificaciones totales, las pruebas de diagnostico producen calificaciones en cada una de varias subhabilidades. Debido a que las diferencias entre las calificaciones obtenidas en diversas partes de la prueba se interpretan al realizar el diagnostico, la cantidad de reactivos para medir una subhabilidades en particular debe ser suficiente (10 o ms) para asegurar que las diferencias entre las calificaciones de las partes sean confiables. Por desgracia, la cantidad de reactivos que forman las calificaciones de las partes con frecuencia es reducida y estas calificaciones se correlacionan entre s, dando como resultado distintas calificaciones con una confiabilidad baja. La mayor parte de las pruebas de diagnostico se aplican en el rea de la lectura, pero se han diseado pruebas de diagnostico para matemticas y ortografa. Una prueba de diagnostico contiene mayor variedad de reactivos y por lo regular su aplicacin toma ms tiempo que las pruebas de estudio en la misma materia. Tambin puede comprender varios aparatos, como un taquistoscopio para exponer el material de lectura slo durante un periodo de tiempo breve y una cmara de movimientos oculares para rastrear la direccin en la cual se mueven los ojos al leer. La aplicacin de una batera de pruebas de estudio es el primer paso lgico en un programa de pruebas porque proporciona un panorama general de la posicin del sujeto en las distintas materias. Si se necesita una segunda evaluacin del aprovechamiento de una persona en un rea en particular, puede aplicarse una prueba sencilla en esa materia. Por ltimo, si se desea realizar un anlisis detallado de la incapacidad de un individuo en lectura o matemticas y determinar las causas de sta, debe aplicarse una prueba de diagnstico. Pruebas de pronstico. Las pruebas de pronstico, que estn diseadas para predecir el aprovechamiento en las materias escolares especficas, contienen una variedad ms amplia de reactivos que las pruebas de logro de estudio en la misma materia. Son similares a las pruebas de aptitud en su funcin como indicadores del aprovechamiento posterior. Por ejemplo, el propsito de una prueba de preparacin para la lectura que se aplica a un alumno de jardn de nios o de primer grado es predecir si el nio esta preparado para aprovechar la enseanza de la lectura. En un grado ms alto, las pruebas de pronstico en matemticas (lgebra, geometra) e idioma extranjeros esta diseada para predecir la facilidad para el aprendizaje de esas materias. Seleccin de una prueba de aprovechamiento estandarizada. Al igual que la elaboracin de una prueba de aprovechamiento aplicable en saln de clases, la seleccin de una prueba de logro estandarizada bsicamente es una cuestin de encontrar una prueba que tenga la dificultad apropiada y un contenido que vaya de acuerdo con los objetivos de enseanza de la organizacin, grupo, escuela o sistema escolar en particular. Esto significa que el nivel de conocimiento o capacidad de los sujetos y el contenido y objetivos del plan de estudios deben determinarse antes de decidir qu prueba(s) aplicar, Adems, deben tomarse en cuenta las razones que se tienen para someter a prueba y la forma en que van a utilizarse las calificaciones; no tiene mucho sentido aplicar una prueba por el solo hecho de parecer adecuada y despus archivar los resultados intiles en un cajn.
117
Propsitos y consideraciones prcticas. Con frecuencia, el manual que viene con la prueba explica con detalle sus posibles usos (evaluacin del alumno, ubicacin, diagnstico de incapacidades para el aprendizaje, preparacin para aprender, evaluacin del plan de estudios) y hace referencia a las evidencias de apoyo. Como consecuencia, antes de elegir una prueba, deben estar claras las formas especficas en que van a utilizarse las calificaciones y es necesario consultar los manuales para determinar cules son las pruebas apropiadas para el propsito. Adems de leer el manual, los compradores deben analizar una copia de la prueba e incluso resolverla a fin de determinar si es adecuada para el uso que se le va a dar. La mayor parte de las compaas que se dedican a la elaboracin de pruebas editan muestras de stas que consisten en un folleto de prueba, una hoja de respuestas, un manual, una clave para la calificacin y otros materiales relacionados; tambin pueden pedirse catlogos de pruebas. Estos materiales son valiosos al tomar las decisiones sobre las pruebas que van a aplicarse. Otra consideracin al seleccionar una prueba es el grado de cooperacin que puede esperarse por parte del personal de la escuela al aplicarla e interpretar los resultados. Tambin son importantes los aspectos prcticos como costo y tiempo de aplicacin, calificacin y anlisis de los resultados. Los servicios de calificacin por medio de una mquina que ofrecen las empresas dedicadas a las pruebas, facilitan en gran medida la calificacin y los procesos de anlisis y, por lo general, tienen precios muy razonables. Adems de las pruebas de diagnostico en materias especificas como lectura y matemticas, ciertas pruebas de estudio o globales que se aplican de manera individual se utilizan para el diagnostico educativo en lectura, matemticas y ortografa. Algunos ejemplos son la Prueba de Kaufman de Logros Educativos y la Prueba de logro Individual de Peabody, Revisada ambas publicadas por American Guidance Service. An ms global en sus objetivos de diagnostico es la batera Psicoeducativa de woodcock-Johnson,(Teaching Resoources Corporation, 50 Pond Rd., Hingham, MA 02043), una batera de habilidades mltiples que se aplica individualmente diseada para evaluar la capacidad cognoscitiva, aptitud acadmica, aprovechamiento acadmico e inters de personas de 3 a 80 aos de edad. Confiabilidad, validez y normas. Aunque con frecuencia no se toman en cuenta al seleccionar una prueba, las caractersticas estadsticas de sta son muy importantes. La confiabilidad de la mayor parte de las pruebas de aprovechamiento se encuentran entre .80 y .90, pero el significado de estos coeficientes elevados depende de los procedimientos por medio de los cuales se obtienen. Un coeficiente de formas paralelas es preferible que un coeficiente test-retest o de consistencia interna porque es probable que estos ltimos sean demasiado altos. Cuando una prueba de aprovechamiento se aplica con el propsito de predecir un logro posterior, como en el caso de una prueba de preparacin o de pronstico, es importante la evidencia con respecto de su validez del contenido casi siempre tiene mayor contenido con los objetivos del programa de enseanza. Un manual de prueba preparado adecuadamente describe el sistema para
118
clasificar el contenido y los objetivos conductuales utilizados en la elaboracin de la prueba y los compradores deben decidir si estos objetivos corresponden a los suyos. Otra caracterstica estadstica que se debe analizarse al seleccionar cualquier prueba es si las normalmente se estandarizan con base en muestras representativas nacionales, en ocasiones se estratifican de acuerdo con la edad, sexo regin geogrfica, nivel socioeconmico y otras variables relevantes. Los compradores de pruebas que planean reportar calificaciones en trminos de estas normas deben asegurar que las caractersticas del grupo de norma sean similares a aquellas de los estudiantes que van a presentar la prueba. Para los propsitos de ubicacin y otras comparaciones en una escuela o sistema escolar determinados, las normas locales pueden ser an ms importantes que las nacionales. Los usuarios de las pruebas necesitan comprender que, al delinear el avance acadmico de un estudiante por medio de calificaciones de normas en una prueba de aprovechamiento estandarizada que se aplica en grados sucesivos, supone que los grupos con diferentes niveles sobre los cuales se estandariz la prueba son equivalentes. Si hay alguna razn para creer que existen diferencias significativas entre los grupos de normas en las variables, aparte de aquellas relacionadas con el crecimiento, entonces las calificaciones de normas, de rangos de percentilares y estndar que un alumno obtiene en una prueba no pueden compararse con los distintos grados. Otra advertencia para la adquisicin de pruebas es ser precavido al seleccionar una prueba de acuerdo con su nombre. Los usuarios de pruebas que tienen experiencia estn conscientes de que es un error suponer que los instrumentos con el mismo nombre miden lo mismo y que aquellos que tienen nombres diferentes miden reas distintas. Antes de decidir qu pruebas de aprovechamiento deben comprar, tanto los examinadores novatos como experimentos deben consultar los volmenes de Then Mental Measurements Yearbook y las revisiones de las pruebas en las publicaciones profesionales. BATERAS DE PRUEBAS DE APROVECHAMIENTO Las bateras de pruebas de aprovechamiento, que en ocasiones se conocen como pruebas de desarrollo educativo general (GED), representan los esfuerzos por medir las amplias habilidades y capacidades cognoscitivas producidas mediante experiencias educativas bsicas en las reas principales. Estas bateras de pruebas de niveles mltiples evalan las habilidades bsicas en lectura, matemticas, lenguaje, en niveles de grado apropiados, en las habilidades para el estudio, ciencias sociales y ciencia. Una batera de pruebas llamada Pruebas de Desarrollo Educativo General (GED), publicada por el American Council on Education, se diseo para medir los logros educativos de personas graduadas en la escuela de educacin superior. Muchas universidades y organizaciones de negocios, as como las fuerzas armadas estadounidenses, aceptan a
119
aquellas personas que obtienen calificaciones suficientes altas en estas pruebas de diploma de equivalencia general basndose en lo mismo que para aceptar a los graduados de educacin superior. Los programas de pruebas de muchas escuelas se basan en bateras de pruebas de aprovechamiento aplicadas durante el otoo o la primavera a los alumnos de escuelas, con el propsito de medir el crecimiento y los logros educativos generales. Esas pruebas tienen muchos usos diferentes: agrupacin (ubicacin), identificacin de los individuos para estudios ms detallados, evaluacin del plan de estudios y planeacin de ste ltimo. Los resultados de las pruebas son interesantes para los maestros, padres, consejeros en planes de estudio y, desde luego, para los mimos alumnos. Una limitacin del planteamiento de las bateras es que algunas de las pruebas no corresponden con los objetivos particulares de la escuela o el sistema escolar. Adems, no todas las pruebas en una batera tienen confiabilidad ni validez de contenido iguales. Normas de bateras Las distintas pruebas que constituyen el nivel particular de una batera de pruebas de aprovechamiento de estandarizan en forma simultnea con base en el mismo grupo de sujetos. Como consecuencia, el conjunto de normas unificado que resulta permite una evaluacin directa del aprovechamiento relativo de un sujeto en varias reas. Ya que los diversos niveles de grado de una batera de pruebas se estandarizan con base en grupos comparables de sujetos, el crecimiento acadmico de los estudiantes puede diagramarse al comparar las calificaciones obtenidas en las pruebas durante un periodo de varios aos; sin embargo, esto no se debe hacer si existe alguna duda sobre la equivalencia o capacidad de comparacin de las distintas muestras de nivel de los estudiantes con base en los que Se estandariz la batera de pruebas. Adems, las normas con las cuales se comparan las calificaciones de los alumnos deben obtenerse de la aplicacin de la(s) al grupo de estandarizacin durante la misma poca del ao (otoo o primavera) que a los alumnos cuyas calificaciones se evalan. Contenido de las bateras de pruebas de aprovechamiento Nivel de escuela primaria. Debido a la mayor uniformidad de contenido de la enseanza en la escuela primaria, las bateras de pruebas de aprovechamiento se aplican con ms frecuencia en este nivel. Una batera de escuela primaria consiste en subpruebas para medir vocabulario de lectura de compresin, uso del lenguaje, ortografa, bases de aritmtica y comprensin de aritmtica. Tambin pueden incluirse subpruebas para medir las habilidades para el estudio, ciencias sociales y ciencia, pero en el nivel de escuela primaria se hace nfasis en la medicin del aprovechamiento en las habilidades verbales y cuantitativas bsicas. La figura 5-1, que ofrece una divisin de las calificaciones que obtuvo un alumno de cuarto ao en la Prueba de aprovechamiento de Stanford, ilustra la variedad de habilidades lingsticas y cuantitativas que mide una batera de pruebas de aprovechamiento en el nivel de escuela primaria. Otras bateras de pruebas de aprovechamiento populares en este nivel son las Pruebas de Aprovechamiento de California, la Prueba Comprensiva de Habilidades Bsicas, las
120
Pruebas de Iowa de Habilidades Bsicas y las Pruebas de Aprovechamiento Metropolitanas. Estas bateras tambin contienen niveles de pruebas para jardn de nios y escuela secundaria. Nivel de escuela secundaria. Debido a la mayor variacin en los programas acadmicos de los distintos alumnos de educacin superior, las bateras de pruebas de aprovechamiento son menos tiles en este nivel. Las bateras de pruebas para la escuela secundaria siguen haciendo nfasis en las habilidades bsicas en lectura, lenguaje y aritmtica, pero tambin son comunes las pruebas de ciencias sociales, ciencia y habilidades para el estudio. Tanto en el nivel de escuela primaria como en de escuela secundaria, las pruebas de aprovechamiento enfatizan el desarrollo educativo general y no se relacionan con cursos especficos en las escuelas particulares. En la figura 5-2 se muestran reactivos ilustrativos que aparecen en niveles sucesivos de cinco de las pruebas en una batera de aprovechamiento, las Pruebas Comprensivas de Habilidades Bsicas. En el nivel de educacin superior, tambin son interesantes las bateras de pruebas como las Pruebas Universitarias Estadounidenses (ATC), que se aplican cada ao con propsitos de admisin a universidades. En realidad la ACT es una batera de pruebas de aprovechamiento, pero en cierto modo es similar a una prueba de aptitud debido a que su amplio rango de contenido se relaciona menos con experiencias escolares especficas que la mayor parte de las pruebas de logro.
121
PRUEBAS DE APROVECHAMIENTO EN AREAS ESPECFICAS
La aplicacin de una batera de pruebas de aprovechamiento tiene prioridad en un programa escolar de pruebas tpico. Cuando se desea tener ms informacin sobre el aprovechamiento de los alumnos en una materia en particular, el procedimiento comn es aplicar una prueba especfica sobre alumnos en una materia despus de una batera. Estas pruebas de aprovechamiento especficas tienen ciertas ventajas sobre las pruebas comparables en una batera. Por ejemplo, el hecho de que una prueba sobre una materia especifica consista en mas reactivos y cuente con un contenido de la materia mas amplio que una prueba de una batera de aprovechamiento hace que sea probable que la primera represente de manera mas adecuada los objetivos de enseanza de un amplio rango de grupos y escuelas. La antigua cancin Reading and writing and rithmetic, taught to the tune of a hickory stick, es un testimonio de la importancia que han tenido a travs el tiempo estas materias en el plan de estudios de la escuela primaria, -- pero en la actualidad con menos nfasis para el castigo corporal. Estn disponibles cientos de pruebas sobre materias especficas en lectura, matemticas, lenguaje, ciencia, ciencias sociales, profesiones, negocios y comercio. Otras reas en las cuales se han elaborado pruebas de aprovechamiento estandarizadas son: salud, economa del hogar, artes industriales, uso de las bibliotecas, literatura, la Biblia, msica, oratoria, ortografa, y educacin vial. Adems del estudio con referencias a normas e instrumentos de diagnostico y pronostico tradicionales, existen muchas pruebas con referencias a criterios en materias especificas. Adems, el nfasis que en la actualidad se da a las pruebas de competencia en habilidades bsicas para graduarse de la escuela de educacin superior ha llevado a la publicacin de muchas pruebas de aprovechamiento para evaluar el conocimiento y las habilidades de los alumnos del primer y ultimo ao de educacin superior en lectura, escritura y matemticas. Estas habilidades de supervivencia, como se les llama, se consideran esenciales para manejar las exigencias de la vida diaria. Estudio con referencias a normas e instrumentos de diagnostico y pronostico tradicionales, existen muchas pruebas con referencias a criterios en materias especificas. Adems, el nfasis que en la actualidad se da a las pruebas de competencia en habilidades bsicas para graduarse de la escuela de educacin superior ha llevado a la publicacin de muchas pruebas de aprovechamiento para evaluar el conocimiento y las habilidades de los alumnos del primer y ultimo ao de educacin superior en lectura, escritura y matemticas. Estas habilidades de supervivencia, como se les llama, se consideran esenciales para manejar las exigencias de la vida diaria. A pesar de la disponibilidad de esas pruebas de habilidades bsicas para adultos, un estudio reciente de 595 compaas estadounidenses y canadienses descubri que solo una tercera parte, aproximadamente, de estas hace que sus empleados se sometan a pruebas de alfabetismo. Como consecuencia por lo menos uno de cada cuatro empleados es analfabeta en el aspecto funcional y debe simular desempear un trabajo que requiere de habilidades de lectura. Otro estudio de 1328 patrones descubri que 63 % sabe que tiene empleados que no pueden leer, escribir, realizar clculos, ni entender el ingls. Los empleados analfabetas no solo son mas propensos a sufrir 122
accidentes, sino que adems tienen limitaciones en su capacidad para superarse en una organizacin (Fewer Firms Testing Employee Literacy, 1992).
Pruebas de Lectura Muchas de las dificultades para el aprendizaje que experimentan los nios se relacionan con los problemas en la lectura y esta es una razn por la que con frecuencia se refiere a un nio para una evaluacin psicoeducativa. Ya que los problemas con la lectura se acumulan y afectan el desempeo en casi todo el trabajo escolar, es importante evaluar el nivel de lectura y diagnosticar las deficiencias en esta materia de manera oportuna y regular. Debido a sus muchos usos se aplican ms pruebas de lectura que a cualquier otro tipo de prueba de aprovechamiento. De hecho existen tantas de lectura diferentes que se dedica un volumen completo de la serie Buros, Reading Tests and Reviews II (Buros, 1975). Pueden encontrarse distintos tipos de pruebas de lectura; las tres categoras principales son las pruebas de estudio, pruebas de diagnostico y pruebas de preparacin para la lectura. Otras formas de clasificar las pruebas e lectura son con referencias a normas contra referencias a criterios (o ambas) y lectura en silencio contra lectura oral. Pruebas de lecturas de estudio. El propsito principal de la aplicacin de una prueba de lectura de estudios es determinar la capacidad general de la persona para la lectura. Las pruebas de este tipo contienen secciones de reactivos de vocabulario y secciones de prrafos o pasajes sobre los que se hacen preguntas. Una medida del conocimiento de las palabras se obtiene de los reactivos de vocabulario, en tanto que la velocidad y el nivel de comprensin de la lectura se miden a partir de los prrafos. Algunos ejemplos importantes de pruebas de lectura de estudio son las Pruebas de Lectura de GatesMacGinitie. La Prueba de Lectura de Nelson Denny, las Pruebas de Lectura Oral de Gray, Revisadas y las Pruebas de Aprovechamiento Metropolitanas, sexta edicin, Estudio de Lectura. La Riverside Publishing Company publica las primeras dos pruebas y The Psychological Corporation publica las dos ltimas. Pruebas de diagnostico de lectura. Las pruebas de lectura de diagnostico, que son por mucho el tipo de prueba de diagnostico mas comn, intentan evaluar muchos factores diferentes que afectan la lectura: coordinacin ojo-mano, percepcin visual y auditiva, comprensin de los conceptos e incluso la motivacin. Contiene subpruebas de reconocimiento de palabras, lectura de pasajes, fontica y pronunciacin, lectura en silencio y oral, ortografa y discriminacin de sonidos, todos con el propsito de descubrir las causas de la incapacidad que tiene un estudiante en la lectura. Ya que, con frecuencia, las correlaciones entre estas subpruebas son sustanciales, las distintas habilidades que miden las pruebas de lectura de diagnostico no necesariamente son independientes. Adems la confiabilidad de las subpruebas y de la prueba en general casi nunca es tan alta como se deseara. Algunas pruebas representativas de esta categora son las pruebas de lectura para el diagnostico de California (publicada por CTB/Macmillan/McGraw-Hill), el anlisis de Durell de dificultad para la lectura y las pruebas de Lectura para el diagnostico de Stanford (ambas publicadas por The
123
Psychological Corporation) y las Pruebas de Dominio de la Lectura de Woodcock (publicadas por American Guidance Service).
Pruebas de preparacin para la lectura. Como medida del grado en el que un nio posee las habilidades y conocimientos necesarios para aprender a leer, una prueba de preparacin para a lectura con frecuencia predice el logro en el primer ao mejor que una prueba de inteligencia general. Por esta razn, las pruebas de preparacin para la lectura, que casi siempre se llevan menos tiempo en su aplicacin que las de inteligencia, pueden aplicarse a iqueos de jardn de nios y de primer ao cuando no se tienen disponibles calificaciones de pruebas de inteligencia. Ciertas pruebas de lectura contienen componentes tanto de diagnostico como de pronostico. Por ejemplo, las Pruebas de Dominio de la Lectura de Woodcock no solo constituyen una prueba de lectura para el diagnostico sino que adems contienen una prueba de preparacin para la lectura. Adems, las pruebas de preparacin para la lectura contienen muchos de los mismos tipos de reactivos que las pruebas de lectura para el diagnostico: medidas de discriminacin visual, combinacin y discriminacin auditiva, vocabulario, reconocimiento de letras y coordinacin visual-motriz. Algunas pruebas ilustrativas son la Prueba de Preparacin CTBS (CTB/Macmillan/McGraww-Hill), La Conciencia Lingstica en la Preparacin para la Lectura (American Guidance Service) y las Pruebas de Preparacin Metropolitanas (The Psychological Coporation). Esta ltima es nica porque combina una prueba de preparacin para la lectura con una prueba de preparacin para las matemticas. Pruebas de matemticas De manea similar a las pruebas de aprovechamiento en lectura, las pruebas de aprovechamiento de matemticas pueden clasificarse como de estudio, diagnostico y pronostico. Pruebas de matemticas de estudio. Debido a que el rea de la educacin en las matemticas ha combinado en gran medida durante los ltimos 30 aos, las pruebas de matemticas actuales representan una variedad de planteamiento para la enseanza. Ciertas pruebas estn diseadas para abarcar los nfasis tradicional y moderno en los planes de estudio de matemticas y estn disponibles instrumentos que reflejan planteamientos de enseanza mas especializados desde la escuela primaria hasta la universidad. En general, las pruebas de matemticas de estudio contienen reactivos que requieren los sujetos demuestren una comprensin de los conceptos y operaciones cuantitativos, as como la capacidad de aplicar esta comprensin en la resolucin de problemas. Algunos ejemplos de pruebas de matemticas con referencias de normas del tipo de estudio son las Pruebas de Estudio de Stanford (ambas publicadas por The Psychological Coporation) la Prueba de Capacidades para las Matemticas y la Prueba de Primeras Capacidades Matemticas (ambas publicadas por Publishers Test Service).
124
Pruebas para el diagnostico en matemticas. Aunque se utilizan menos que las pruebas de lectura para el diagnostico, las pruebas de diagnostico en matemticas tambin representan los intentos por dividir una materia compleja, que comprende una variedad de habilidades, en los elementos que la constituyen. Los reactivos de las pruebas de diagnostico de aritmtica y matemticas se basan en un anlisis de las habilidades y errores en la materia. Estas pruebas comprenden las habilidades y el conocimiento requerido para las aplicaciones que comprenden numeracin, fracciones, algebra y geometra. Dos ejemplos de pruebas para el diagnostico de matemticas son la Prueba de Diagnostico de Matemticas de Stanford y KeyMath. La primera, que publica The Psychological Corporation, es una prueba de grupo desarrollada para diagnosticar las fortalezas y debilidades especficas en los conceptos y operaciones de matemticas bsicos en los nios del primer al decimosegundo grado. El KeyMath, Revisado: un Inventario de Diagnostico de Matemticas Esenciales es una prueba aplicada individualmente que publica The American Guidance Service y esta diseada para medir la comprensin y aplicacin de los conceptos de matemticas bsicos y las habilidades desde el jardn de nios hasta el noveno grado. Pruebas de pronstico en matemticas. Se han diseado varias pruebas para predecir el desempeo en cursos de matemticas especficos; pero, en comparacin con las pruebas de pronostico de lectura (pruebas de preparacin para la lectura), no se utilizan comnmente. Un ejemplo de una prueba de pronstico en matemticas es la Prueba de Prognosis de lgebra de Orlens-Hanna, Revisada (The Psychological Corporation). Diseada para identificar, antes de empezar la enseanza, que alumnos tendrn xito y cuales enfrentaran dificultades en el aprendizaje del algebra, la prueba de OrleansHanna evala la aptitud y el aprovechamiento as como el inters y motivacin en algebra de los alumnos del primer y ultimo aos de educaron superior. Para terminar el cuestionario y los reactivos de muestra en la prueba se necesitan 40 minutos. El rango percentilares y las normas de calificaciones estaninas se basan en tres grupos de estudiantes: aquellos que terminaron las matemticas de sptimo grado, los que terminaron las matemticas de octavo grado y aquellos de los primeros dos grupos que terminaron un curso de un ao de algebra en el ao siguiente. Pruebas de lenguaje En forma general, el lenguaje se refiere a cualquier medio de comunicacin a pesar de que las pruebas de lenguaje son principalmente de tipo verbal, tambin se han desarrollado medidas para la comunicacin no verbal para utilizarse con personas que tienen una incapacidad auditiva y, en pocas mas recientes, en personas con capacidad auditiva normal. El lenguaje oral y escrito se ensea en todos los niveles y estn disponibles pruebas apropiadas para todos los grados. La falta de comprensin de ciertos conceptos puede actuar como un obstculo entre el alumno de primer grado y el maestro y, como consecuencia, tener un efecto grave en el aprendizaje del nio en la escuela. Al reconocer esta hecho, la Prueba e Boehm de Conceptos Bsicos, Revisada (para los grados de jardn de nios a segundo) y la Prueba de Boehm de Conceptos Bsicos: Versin para Preescolar (para edades de 3 a 5 aos) se disearon para medir el dominio 125
de los nios pequeos en los conceptos bsicos de espacio, cantidad y tiempo (vase la figura 5-4). The Psychoogical Corporation tambin pone a su disposicin un equipo de materiales para ayudar al nio a dominar los conceptos que miden las pruebas, la Boehm Resource Guide for Basic Concept Teaching. A pesar de la existencia de pruebas como las de Boehm, la mayor parte de las pruebas de aprovechamiento mencionadas en la categora del lenguaje estn diseadas para estudiantes de secundaria y universidad. Estos instrumentos, que incluyen pruebas de ingles e idiomas extranjeros, se aplican frecuentemente en secundaria y universidades con el propsito de ubicar a los estudiantes en los cursos de ingles o de algn idioma extranjero apropiado para su nivel de competencia. Pruebas de Ingls. Algunas de las criticas mas severas de las pruebas objetivas provienen de los maestros de ingles, pero en general e reconoce que esas pruebas realizan un trabajo bastante eficiente al medir el conocimiento de gramtica, vocabulario y, hasta cierto punto, las habilidades en expresin oral y escrita. Las habilidades para el ingls se evalan como parte de las bateras de prueba de aprovechamiento, pero existen tambin muchas pruebas separadas de aprovechamiento en ingls. Algunos ejemplos son la Prueba de Ingles para Educacin Superior de Purdue, la Prueba de Ingles para los Negocios y la Prueba de Ingles de Colocacin en la Universidad (todas de la Riverside Publishing Co.). Estas pruebas evalan el conocimiento de vocabulario, gramtica, sintaxis y ortografa. Tambin estn disponibles pruebas de ortografa por separado, como ola Prueba de Ortografa Escrita 2 (pro ed). Como es obvio, las habilidades para escuchar, habla y escribir son parte del uso del ingls y varias pruebas se han desarrollado para medir esta habilidades. Un buen ejemplo de prueba para escuchar es la Batera de Pruebas de Habilidades Auditivas de Goldman-Friscoe-Woodcock (de American Guidance Service). Entre las medidas e las habilidades en los estudiantes para articular sonidos del lenguaje estn la prueba de Desempeo de la Articulacin (pro. ed) y la Prueba de Articulacin de GoldmanFriscoe (American Guidance Service). La comprensin y uso significativo de la palabras habladas por parte de un nio, diversos aspectos de la gramtica y la capacidad de pronunciar las palabras de manera correcta, as como distinguir entre palabras entre sonidos similares pueden evaluarse mediante la Prueba de Desarrollo del Lenguaje Primario e Intermedio (de American Guidance Service y pro. ed). Algunos ejemplos de pruebas de escritura son la Prueba del Lenguaje Escrito (pro ed) y la Prueba de Escritura de la Prueba de Logro Metropolitana. Sexta edicin (The Psychological Corporation). Estas dos pruebas de escritura, para alumnos del segundo al decimosegundo grados, son medidas de respuesta libre y muestras de trabajo mediante las cuales los sujetos escriben historias sobre un grupo de ilustraciones que se les muestran (vase la figura 5-5). Las historias pueden calificarse de acuerdo con diversas variables, que incluyen tema, vocabulario, sintaxis, ortografa y estilo. Muchas otras pruebas de aprovechamiento disponibles en el mercado, como las Pruebas Avanzadas de Ubicacin del Consejo de Exmenes para la Admisin a la Universidad, tambin contienen un componente escrito (ensayo).
126
Los estudiantes extranjeros que solicitan su admisin a las universidades de Estados Unidos y cuyo idioma materno no es el ingls por lo regular presentan la Prueba de Ingles como Idioma Extranjero (TOEFL). El TOEFL es un examen de opcin mltiple que dura 3 horas (del Servicio de Pruebas Educativas) consiste en tres partes: Comprensin del Lenguaje, que mide la capacidad para entender el ingles hablado: Estructura y Expresin Escrita, que mide la capacidad para reconocer el lenguaje que no es apropiado para el ingles escrito estndar; y Vocabulario y Lectura de Comprensin, que mide la capacidad para entender el material de lectura no tcnico.
Pruebas de idiomas extranjeros. Las pruebas de estudio de aprovechamiento en un idioma extranjero por lo regular consisten en diferentes formas para los estudiantes que terminaron distintos niveles de capacitacin en el idioma. Ciertas pruebas reflejan el planeamiento gramatical ms tradicional par al enseanza del idioma, en tanto que otras resaltan la comprensin del idioma hablado y escrito. Adems de las pruebas de estudio (ubicacin) en idiomas extranjeros, existen varias pruebas de pronstico. El contenido de estas pruebas, que estn diseadas para predecir el xito en el aprendizaje de un idioma extranjero, vara de acuerdo con el instrumento particular. Una prueba tpica incluye medidas de aprendizaje de memoria, el inters por estudiar un idioma extranjero, la sensibilidad a la estructura gramatical y la habilidad para relacionar sonidos y smbolos. Un ejemplo de pruebas de idiomas extranjeros del tipo de estudios son las Pruebas Cooperativas MLA de Idiomas Extranjeros. Estas pruebas, publicadas por la Modern Language Association of America y el Educational Tedting Service y distribuidas por CTB/Macmillan/McGraw-Hill, estn disponibles en francs, alemn, espaol, ruso e italiano. Algunos ejemplos de pruebas de pronstico en idiomas extranjeros son la Batera de Aptitudes para el Lenguaje de Pimsleur y la Prueba Moderna de Aptitudes para el Lenguaje, ambas publicadas por The Psychological Corporation. Estas dos pruebas, que consisten en ejercicios en el aprendizaje de vocabulario y gramtica de un idioma artificial, estn diseadas para predecir con que facilidad y rapidez pueden progresar los estudiantes que hablan ingls en un programa de idiomas extranjero tpico.
Pruebas de ciencias sociales Los temas en ciencias sociales, historia economa y ciencias polticas por lo general se relacionan con la escuela secundaria y los planes de estudio de las universidades. Las ciencias sociales, quiz en un sentido menos formal, tambin se ensean en los grados de escuela primaria. Algunas pruebas representativas de las pruebas de aprovechamiento en ciencias sociales en el nivel de escuela secundaria son las Pruebas CAT de Fin de Cursos en Historia Mundial, Historia de Estados Unidos y Economa del Consumidor (CTB/Macmillan/McGraw-Hill) y la Prueba de Emporios del Gobierno de Estados Unidos (Bureau of Educational Measurements).
127
Pruebas de ciencias La enseanza en ciencias, al igual que en las matemticas, ha cambiado tanto desde principios de la dcada de los 60 que muchas de las pruebas antiguas son inapropiadas para el plan de estudios de ciencias actual. El Estudio del Plan de ciencias Biolgicas (BSCS) y el Comit de Estudios de Ciencias Fsicas (PSSC) llevaron al diseo de pruebas especficas en biologa y fsica. Los programas de pruebas comprensivas en otras ciencias, como las Pruebas Cooperativas de Qumica de la American Chemical Society, tambin reflejan los planteamientos modernos para la educacin de las ciencias. Muchas de las pruebas mas antiguas se han revisado e un intento por evaluar el desempeo ya sea en un programa de ciencias moderno o tradicional. Algunos ejemplos de pruebas de la efectividad en la enseanza de las ciencias especficas son las Pruebas de fin de Cursos en Biologa, Qumica y fsica (CTB/Macmillan/McGraw-Hill) para estudiantes del ltimo ao de educacin superior. Pruebas para la educacin superior y las profesiones Muchas instituciones de educacin superior permiten que los alumnos obtengan crditos por cursos universitarios al obtener calificaciones aceptables en pruebas de aprovechamiento estandarizadas como aquellas que aplica el Programa Avanzado de Colocacin (APP) de la Junta Universitaria, el Programa de Exmenes del Nivel Universitario /CLEP) y el Programa de Exmenes de Aprovechamiento ACT. Adems, las universidades y escuelas profesionales utilizan las calificaciones en las pruebas de aprovechamiento estandarizadas como criterios para la seleccin de estudiantes. Por lo general, estas pruebas estn restringidas o aseguradas, en el sentido de que se venden o alquilan solo a ciertas organizaciones para la aplicacin en conjunto a programas educativos especficos. Un conjunto de 15 pruebas de aprovechamiento estandarizado que utilizadas para seleccionar estudiantes en los programas de graduados son las Pruebas de Materias de los Exmenes de Registro de Graduados (GRE). Las Pruebas de Materias GRE, que consisten para las principales reas de trabajo universitario, pueden aplicarse, con la Prueba General GRE, , a estudiantes universitarios de ultimo ao que desean solicitar ingreso a una escuela de posgrado. Otros ejemplos de pruebas estandarizadas para la admisin a escuelas de posgrado o profesionales son el Examen Nacional para Maestros (NTE), la Prueba de Admisin a la Facultad de Medicina (MCAT), la Prueba de admisin a la facultad de Derecho (LSAT), las Pruebas NLN de Aprovechamiento en Enfermera y la Prueba de Aptitudes de Administracin de Graduados (GMAT). La obtencin del certificado o titulo como contador publico titulado, medico, abogado, enfermera titulada o profesional en ciertas reas tambin depende de las clasificaciones en una serie de pruebas de aprovechamiento (exmenes de consejo, exmenes de abogados) en esta rea en particular.
128
Pruebas para negocios y oficios. La administracin es una materia escolar por si misma y las pruebas de educacin en administracin estn diseadas para evaluar el conocimiento que un alumno tiene de la materia. Adems de evaluar el grado de aprovechamiento en una materia escolar, las pruebas de aprovechamiento se utilizan en los negocios y la industria con propsitos de seleccin, ubicacin y ascenso. Las pruebas de eficiencia en mecanografa, archivo, procesamiento de palabras, computacin y otras habilidades de oficina son quiz las ms populares de estas medidas. Algunos ejemplos de pruebas en esta categora son las Habilidades de Oficina (vase la figura 5-6) y la Batera de Evaluacin para Procesador de Palabras (que ofrece London House). Las pruebas de conocimiento y habilidad en un oficio en particular (pruebas de oficios) se utilizan por lo regular con propsitos de seleccin, ubicacin y autorizacin de empleados. Una prueba de oficio puede consistir en una serie de preguntas que deben contestarse en forma oral o escrita, o bien puede ser una tarea de muestra de trabajo que requiere que el sujeto demuestre una habilidad en especial. Algunos ejemplos de pruebas de oficios, o competencia ocupacional, son aquellas que se desarrollen en el programa de Competencia Ocupacional Nacional del Educational Testing Service. Este programa es responsable del desarrollo de docenas de pruebas ocupacionales. Entre estas se incluyen los exmenes de eficiencia para mecnica automotriz, cantineros, cosmetlogos, distribuidores de lentes de contacto, bomberos funcionarios del servicio exterior, oficiales de polica, jugadores profesionales de golf y muchas otras especialidades. Muchas de estas pruebas comprenden un desempeo muy diferente del que requieren los exmenes tradicionales de lpiz y papel. En las pruebas para los funcionarios de servicio exterior, por ejemplo, hay un da de evaluacin en el cual se evala la capacidad del candidato para tomar acciones apropiadas en cada uno de un grupo de minutas y otros comunicados del tipo de los que por general se encuentran en la charola de un ejecutivo, as como su habilidad para manejar una entrevista de negociacin de grupo sin lder. Como es obvio, alunas de estas tareas van mas all del dominio de las pruebas de capacidad y penetran en el mundo de la evaluacin de las actitudes y la personalidad.
129
Escalas para medir las actitudes

Una actitud es una predisposicin aprendida para responder cohererntemente de una manera favorable o desfavorable ante un objeto, ser vivo, actividad, concepto, persona o sus smbolos (Fishbein y Ajzen, 1975; Oskamp, 1991; Eagly y Chaiken, 1993). As, los seres humanos tenemos actitudes hacia muy diversos objetos, smbolos, etc.; por ejemplo, actitudes hacia el aborto, la poltica econmica, la familia, un profesor, diferentes grupos tnicos, la ley, nuestro trabajo, una nacin especfica, los osos, el nacionalismo, nosotros mismos, etctera. Las actitudes estn relacionadas con el comportamiento que mantenemos en torno a los objetos a que hacen referencia. Si mi actitud hacia el aborto es desfavorable, probablemente no abortara o no participara en un aborto. Si mi actitud es favorable a un partido poltico, lo mas probable es que vote por el en las prximas elecciones. Desde luego, las actitudes slo son un indicador de la conducta, pero no la conducta en si. Por ello, las mediciones de actitudes deben interpretarse como sntomas y no como hechos (Papua, 2000). Si detecto que la actitud de un grupo hacia la contaminacin es desfavorable, esto no significa que las personas estn tomando acciones para evitar contaminar el ambiente, aunque s es un indicador de que pueden adoptarlas en forma paulatina. La actitud es como una semilla que bajo ciertas condiciones suele germinar en comportamiento. Las actitudes tienen diversas propiedades, entre las que destacan: direccin (positiva o negativa) e intensidad (alta o baja); estas propiedades forman parte de la medicin. Los mtodos ms conocidos para medir por escalas las variables que constituyen actitudes son: el mtodo de escalamiento Likert, el diferencial semntica y la escala de Guttman. A continuacin examinamos las primeras dos, que son las utilizadas con mayor frecuencia.
Escalamiento tipo Liket

Este mtodo fue desarrollado por Rensis Liket en 1932; sin embargo, se trata de un enfoque vigente y bastante popularizado. Consiste en un conjunto de tems presentado entorna de afirmaciones o juicios, ante los cuales se pide la reaccin de los participantes. Es decir, se presenta cada afirmacin y se solicita al sujeto que externe su reaccin eligiendo uno de los cinco puntos o categoras de la escala. A cada punto se le asigna un valor numrico. As, el participante obtiene una puntuacin respecto de la afirmacin y al final su puntuacin final su puntuacin total, sumando las puntuaciones obtenidas en relacin con todas las afirmaciones. Las afirmaciones califican al objeto de actitud que se esta midiendo. El objeto de actitud puede ser cualquier cosa fsica (un vestido, un automvil), un individuo (el presidente, un lider historico, mi madre, mi sobrino Alex, un candidato a una eleccin) un concepto o smbolo (patria, sexualidad, la mujer vallenata Colombia-, el trabajo), una marca (Adidas, BMW), una actividad (comer, beber caf), una profesin, un edificio, etc. Por ejemplo, Kafer et al. (1989) generaron varias escalas para medir las actitudes hacia los animales. 130
Tales fases o juicios deben expresar slo una relacin lgica; adems, es muy recomendable que no excedan de 20 palabras.
_______________________________________________ EJEMPLO:
Objetivo de actitud medido El voto Afirmacin votar es una obligacin de De ciudadano responsable
_______________________________________________
En este caso, la afirmacin incluye ocho palabras y expresa una sola relacin lgica (X-Y). Las opciones de respuesta o puntos de la escala son cinco e indican cunto se est de acuerdo con la afirmacin correspondiente. Las opciones ms comunes se presenten en la siguiente tabla. Debe recordarse que a cada una de ellas se le asigna un valor numrico y slo puede marcarse una respuesta. Se considera un doto invlido si se marcan dos o ms opciones.
Afiliacin Alternativa 1: Muy de acuerdo De acuerdo Ni de acuerdo Ni en desacuerdo Afirmacin Neutral Afiliacin Alternativa 3: Siempre La mayora de las voces s Algunas veces s algunas veces no Afiliacin Ni falso ni malo La mayora de las veces no Nunca En desacuerdo Muy en desacuerdo
Alternativa 2: Totalmente de acuerdo
De acuerdo
En desacuerdo
Totalmente en desacuerdo
Alternativa 4: Completamente verdadero
verdadero
Falso
Completamente falso
Las opciones de respuesta o categoras pueden colocarse de manera horizontal, como en el caso anterior, o en forma vertical. ( ( ( ( ( ) Muy de acuerdo ) De acuerdo ) Ni de acuerdo ni en desacuerdo ) En desacuerdo ) Muy en desacuerdo
131
O bien, utilizando recuadros en lugar de parntesis: Definitivamente s Probablemente s Indeciso Probablemente no Definitivamente no O bien, utilizando recuadros en lugar de parntesis: Definitivamente s Probablemente s Indeciso Probablemente no Definitivamente no
Es indispensable sealar que el nmero de categoras de respuesta debe ser igual para todas las afirmaciones. Pero siempre respetando el mismo orden o jerarqua de presentacin de las opciones para todas las frases.
Opciones jerrquicamente correctas e incorrectas en un ejemplo

Objeto de actitud: Mi novia
Correcto Incorrecto (no se respeta la misma jerarqua en todos los tems) Me gusta estar mucho con mi novia ( ) Probablemente s ( ) Indeciso ( ) Definitivamente s ( ) Probablemente no ( ) Definitivamente no Si por m fiera, todos los das estada con mi novia ( ) Definitivamente s ( ) Probablemente s ( ) Probablemente no ( ) Definitivamente no ( ) Indeciso Amo demasiado a m novia ( ) Definitivamente s ( ) Probablemente s ( ) Indeciso ( ) Probablemente no ( ) Definitivamente no
Me gusta estar mucho con mi novia ( ) Definitivamente s ( ) Probablemente s ( ) Indeciso ( ) Probablemente no ( ) Definitivamente no Si por m fuera, todos los das estara con mi novia ( ) Definitivamente s ( ) Probablemente s ( ) Indeciso ( ) Probablemente no ( ) Definitivamente no Amo demasiado a m novia ( ) Definitivamente s ( ) Probablemente s ( ) Indeciso ( ) Probablemente no ( ) Definitivamente no
132
Direccin de las afirmaciones

Las afirmaciones pueden tener direccin: favorable o positiva y desfavorable o negativa. Y esta direccin es muy importante para saber cmo se codifican las alternativas de respuesta. Si la afirmacin es positiva, significa que califica favorablemente al objeto de actitud; de este modo, cuando ms de acuerdo con la afirmacin estn los participantes, su actitud ser igual ms favorable.
_____________________________________ EJEMPLO
El Ministerio de Hacienda al contribuyente a resolver sus problemas en al pago de impuestos
_______________________________________________
En este ejemplo, si estamos muy de acuerdo con la afirmacin implica una actitud ms favorable hacia el Ministerio de Haciendo que si estamos solamente de acuerdo. En cambio, si estamos muy en desacuerdo implica una actitud muy desfavorable. Por lo tanto, cuando las afirmaciones son positivas se califican comnmente de la siguiente manera: (5) Muy de acuerdo (4) De acuerdo (3) Ni de acuerdo, ni en desacuerdo (2) En desacuerdo (1) Muy en desacuerdo Es decir, en este ejemplo, estar ms de acuerdo implica una puntuacin mayor. Pero, si la afirmacin es negativa, significa que califica desfavorablemente al objeto de actitud, y cuando ms de acuerdo estn los participantes con la afirmacin, significa que su actitud es menos favorable, esto es, ms desfavorable.
EJEMPLO
El Ministro de Haciendo se caracteriza por obstaculizar por obstaculizar al contribuyente en el pago de impuestos.
______________________________________________
En este nuevo ejemplo, si estamos muy de acuerdo implica una actitud ms desfavorable que si estamos de acuerdo, y as en forma sucesiva. En contraste, si estamos muy en desacuerdo implica una actitud favorable hacia el Ministro de
133
Hacienda. Rechazamos la frase porque califica negativamente el objeto de actitud. Un ejemplo cotidiano de afirmacin negativa seria: Luis es un mal amigo. Cuando ms de acuerdo estemos con la afirmacin, nuestra actitud hacia Lus ser menos favorable. Es decir, estar ms de acuerdo implica una puntuacin menor. Cuando las afirmaciones son negativas se califican al contrario de las positivas. (1) (2) (3) (2) (1) Totalmente de acuerdo De acuerdo Ni de acuerdo, ni en desacuerdo En desacuerdo Muy en desacuerdo
A continuacin, se presenta un ejemplo de una escala Liket para medir la actitud hacia un organismo tributario. Las afirmaciones que voy a leer son opciones con las que algunas personas estn de acuerdo y otras en desacuerdo. Voy a pedirle que me diga, por favor, qu tan de acuerdo est usted con cada una de estas opiniones:
1. El personal de la Direccin General de Impuestos Nacionales es grosero al atender al pblico. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo 2. La Direccin General de Impuestos Nacionales se caracteriza por la deshonestidad de sus funciones. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo
3. Los servicios que presta la Direccin General de Impuestos Nacionales en general son muy buenos.
1. Muy de acuerdo 2. De acuerdo 3. Ni de acuerdo, ni en desacuerdo 4. En desacuerdo 5. Muy en desacuerdo
4. La Direccin General de Impuestos Nacionales informa claramente sobre cmo, dnde y cundo pagar
los impuestos. 1. Muy de acuerdo 2. De acuerdo 3. Ni de acuerdo, ni en desacuerdo 4. En desacuerdo 5. Muy en desacuerdo
5. La Direccin General de Impuestos Nacionales es muy lenta en la evolucin de impuestos pagados en

exceso. 1. Muy de acuerdo 2. De acuerdo 3. Ni de acuerdo, ni en desacuerdo 4. En desacuerdo 5. Muy en desacuerdo
6. La Direccin General de Impuestos Nacionales informa oportunamente sobre cmo, dnde y cundo pagar los impuestos. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo
134
7. La Direccin General de Impuestos Nacionales tiene normas y procedimientos bien definidos para el pago de impuestos. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo 8. La Direccin General de Impuestos Nacionales tiene malas relaciones con la gente porque cobra
impuestos muy altos. 1. Muy de acuerdo 2. De acuerdo 3. Ni de acuerdo, ni en desacuerdo 4. En desacuerdo 5. Muy en desacuerdo
Figura 9.14 Muestra de una escala Likert. Como puede observarse, las afirmaciones 1, 2, 5, y 8 son negativas (desfavorables); y las afirmaciones 3, 4, 6 y 7 son positivas (favorables).
Forma de obtener las puntuaciones Las puntuaciones de las escalas Liket se obtienen sumando los valores alcanzados respecto de cada frase. Por ello se denomina escala aditiva. Una puntuacin se considera alta o baja segn el nmero de tems o afirmaciones. Por ejemplo, en la escala para evaluar la actitud hacia el organismo tributario, la puntuacin mnima posible es de ocho (1+1+1+1+1+1+1+1) y la mxima es de 40 (5+5+5+5+5+5+5+5), por que hay ocho afirmaciones.
1. El personal de la Direccin de Impuestos Nacionales es grosero al atender al pblico. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo 2. La Direccin General de Impuestos Nacionales se caracteriza por la deshonestidad de sus funciones. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo 3. Los servicios que presenta la Direccin General de Impuestos Nacionales en general son muy buenos. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo 4. La Direccin General de Impuestos Nacionales informa claramente sobre cmo, dnde y cundo pagar los impuestos. 5. Muy de acuerdo 2. En desacuerdo 4. De acuerdo 1. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo
5. La Direccin General de Impuestos Nacionales es muy lenta en la evolucin de impuestos pagados en exceso. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo
135
6. La Direccin General de Impuestos Nacionales informa oportunamente sobre cmo, dnde y cundo pagar los impuestos. 5. Muy de acuerdo 2. En desacuerdo 4. De acuerdo 1. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo 7. La Direccin General de Impuestos Nacionales tiene normas y procedimientos bien definidos para el pago de impuestos. 5. Muy de acuerdo 2. En desacuerdo 4. De acuerdo 1. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo 8. La Direccin General de Impuestos Nacionales tiene malas relaciones con la gente porque cobra impuestos muy altos. 1. Muy de acuerdo 4. En desacuerdo 2. De acuerdo 5. Muy en desacuerdo 3. Ni de acuerdo, ni en desacuerdo Valor = 1+2+1+3+1+1+2+1=12
La persona del ejemplo obtuvo 12. Su actitud hacia el organismo tributario es ms bien bastante desfavorable; vemoslo grficamente:
_______________________________________________ EJEMPLO
8 12 16 Actitud muy Desfavorable 24 32 40 Actitud muy favorable
Si alguien hubiera tenido una puntuacin de 37 (5+5+4+5+5+4+4+5) su actividad se calificara como sumamente favorable. En las escalas Likert a veces se califica el promedio resultante en la escala mediante la sencilla frmula PT/NT (donde PT es la puntuacin total en la escala y TN es el nmero de afirmaciones), y entonces una puntuacin se analiza en el continuo 1-5 de la siguiente manera, con el ejemplo de quien obtuvo 12 en la escala (12/8=1.5).
_______________________________________________ EJEMPLO
0 1.5 2 Actitud muy Desfavorable 3 4 5 Actitud muy favorable
La escala Likert es, en sentido estricto, una medicin ordinal; sin embargo, es comn que se le trabaje como si fuera de intervalo. Creswell (2005) seala que debe considerarse en un nivel de medicin por intervalos porque ha sido probada en mltiples ocasiones. Asimismo, a veces se utiliza un intervalo de 0 a 4 o de -2 a +2, en lugar de 1
136
a 5. Pero esto no importa por que se cambia el marco de referencia de la interpretacin. Vemoslo grficamente.
EJEMPLO
(4) Totalmente de acuerdo) (1) En desacuerdo (3) De acuerdo (0) Totalmente en desacuerdo 2 3 (1) De acuerdo (-2) Totalmente en desacuerdo -1 0 +1 +2 4 (0) Ni de acuerdo ni en desacuerdo (2) Ni de acuerdo ni en desacuerdo
0 1 (2) Totalmente de acuerdo) (-1) En desacuerdo
-2
_______________________________________________
Simplemente se ajusta el marco de referencia: pero el rango se mantiene y las categoras continan siendo cinco.
Otras condiciones sobre la escala Likert

A veces se disminuye o se incrementa el nmero de categoras, sobre todo cuando los sujetos potenciales tienen una capacidad muy limitada de discriminacin o, por el contrario, muy amplia.
EJEMPLO
(1) (3) De acuerdo De acuerdo (0) En desacuerdo (1) En desacuerdo
(2) Ni de acuerdo, ni en desacuerdo (6) De acuerdo
(7) Totalmente de acuerdo
(5) Indeciso, pero ms bien de acuerdo
(4) Indeciso ni de acuerdo, ni en desacuerdo (2) En desacuerdo
(3) Indeciso, pero ms bien de desacuerdo (1) Totalmente en desacuerdo
_______________________________________________
Si los participantes tienen poca capacidad de discriminar se puedan considerar dos o tres categoras. Por el contrario, si son personas con un nivel educativo elevado y gran
137
capacidad de discriminacin, puede incluirse siete categoras. Pero debe de recalcarse que el nmero de categoras de respuesta tiene que ser el mismo para todos los tems. Si son tres, son tres categoras para todos los tems o las afirmaciones. Si son cinco categoras para todos los tems. En ocasiones se elimina la opcin o categora intermedia y neutral (ni de acuerdo, ni en desacuerdo, neutral, indeciso) para comprender el sujeto o forzarlo a que se pronuncie de manera favorable o desfavorable. Un aspecto muy importante de la escala LIkert es que asume que los tems o las afirmaciones miden la actitud hacia un nico concepto subyacente. En caso de que se miden la actitudes hacia varios objetos, deber incluir incluirse una escala por objeto, porque aunque se presenten conjuntamente, se califican por separado. En cada escala se considera que todos los tems tienen igual peso.
Como se constituye una escala Likert

En terminos generales, una escala Likert se constituye con un elevado nmero de afirmaciones que califiquen al objeto de actitud y se administran a un grupo piloto para obtener las puntuaciones del grupo en cada afirmacin. Estas puntuaciones se correlacionan con las del grupo a toda la escala (la suma de las puntuaciones de todas las afirmaciones), y las afirmaciones, cuyas puntuaciones se correlacionen significativamente con las puntuaciones de toda la escala, se seleccionan para integrar el instrumento de medicin. Asimismo, debe calcularse la confiabilidad y validez de la escala.
Preguntas en lugar de afirmaciones

En la actualidad, la escala original se ha extendido y observaciones. Como se pueda observar en el siguiente ejemplo.
EJEMPLO
Cmo considera usted al conductor que aparece en los protagonistas? (5) Muy buen conductor (4) Buen conductor (3) Regular (2) Mal conductor (1) Muy mal conductor
La escala en la pregunta
En ocasiones la escala se incluye en la pregunta. Mertens (2005) las denomina preguntas actitudinales, por ejemplo: Est usted fuertemente a favor, ms bien a favor, ms bien a favor en contra o fuertemente en contra del aborto cuando la mujer ha sido violada?
138
En la pregunta se elimino la categora central o intermedia. Pero estas interrogantes suelen limitarse a entrevistas de unas cuantas preguntas, porque requieren cierta capacidad de memorizacin.
Maneras de aplicar la escala Likert

Existen dos formas bsicas de aplicar una escala Likert. La primera es de manera autoadministrada: se le entrega la escala la participante y ste marca, respecto de cada afirmacin, la categora que mejor describe su reaccin. Es decir, marcan su respuesta. La segunda formula es la entrevista, donde un entrevistador lee las afirmaciones y alternativas de respuesta al sujeto, y anota lo que ste conteste. Cuando se aplica por medio de la entrevista, es necesario que se le entregue al entrevistado una tarjeta donde se muestren las alternativas de respuesta o categoras. El siguiente es un ejemplo que se aplica a la pregunta de la tabla 9.12:
EJEMPLO
De tarjeta de respuestas Sumamente importante Medianamente Poco importante importante No se toma en cuente
Indispensable
_______________________________________________
Al construir una escala Likert, debemos asegurarnos de que las afirmaciones y alternativas de respuestas sern comprendidas por los sujetos a los que se les aplicar y que stos tendrn la capacidad de discriminacin requerida. Ellos se evala cuidadosamente en la prueba piloto.
139

Manual Del Curso - 2012

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Manual Del Curso - 2012

Încărcat de

Drepturi de autor:

Formate disponibile

Elaborado por Psic.

Fernando Reyes Baos

ALGUNAS APROXIMACIONES A LA MEDICIN EN PSICOLOGA

SOBRE LAS PRUEBAS

Factores a considerar La estandarizacin sirve para:

DISEO Y ELABORACIN DE TESTS

Exmenes Tipo de instrumento Trabajo invertido en la elaboracin de un test De capacidad y personalidad

Propsitos Planeacin del contenido antes de redactar reactivos

Definicin de constructos que se desean medir y establecimiento del contenido

CONOCER EVALUAR OBJETIVOS COGNOSCITIVOS SINTETIZAR ANALIZAR APLICAR COMPRENDER

El formato Cundo, dnde y cmo

Objetivos educativos planteados por el plan de estudios.

Objetivos educativos planteados por el programa de estudios.

Sugerencias sobre cmo mejorar y comentarios sobre aspectos positivos

BREVE REPASO DE ALGUNOS TRMINOS ESTADSTICOS

Ejercicio 2. Hallar la mediana de los siguientes datos. 25 30 28 26 32

Frmula de la desviacin estndar: s =

X -M 5.05 2.05 - 0.95 - 3.95 - 6.95

CORRELACIN (DE PEARSON)

X 0.3285 0.3245 0.3205 0.3165 0.3125 0.3085

X-M 0.5 8.5 5.5 2.5 - 6.5 - 3.5 - 4.5 - 2.5

X 36.5 30.5 24.5 18.5 12.5

X -M 10.46 4.46 - 1.54 - 7.54 -13.54

Grupo B: Actitud muy desfavorable

USO DE LA TABLA DE AREAS BAJO LA CURVA NORMAL

la media y un valor es aproximadamente la media y un valor es aproximadamente

Algunas tablas incluyen valores de z mayores que 3.09.

2. Qu porcentaje de los datos son valores mayores que 65?

USO DE LA TABLA DE AREAS BAJO LA CURVA NORMAL

2. Caso 6: Qu porcentaje son valores comprendidos entre 70 y 85? R

3. Caso 7: Qu porcentaje son valores comprendidos entre 44 y 58? R

RESPUESTAS DE LOS EJERCICIOS

CALIFICACIN DE LAS PRUEBAS

-Restar aciertos por

-Reportar los resultados

Calificacin de las pruebas sin el conocimiento del nombre del examinado

Pruebas objetivas & Pruebas de ensayo (Calificacin)

Calificacin con mquina & Calificacin a mano

Frmulas de calificacin para corregir la adivinacin:

Cualquier tipo de prueba

Anlisis posterior de reactivos

Rango limitado de capacidades cognoscitivas

Prueba para el desempeo

Anlisis estadstico de reactivos de pruebas de rendimiento escolar

Idc = de .60 a 1.00 Idc = de .40 a .59

U = 30, L = 20, Up = 20, Lp = 10, p = ? y D = ? p = 20 + 10 / 30 + 20 = 30 / 50 = 0.6 D = 20 / 30 10 / 20 = 0.67 0.5 = 0.17

X (Calificacin obtenida) T (Calificacin real hipottica) E (Error de estimacin)

SX2 = ST2 + SE2

rxx = ST2 / SX2

Algunos errores son:

Si la validez es la proporcin de varianza relevante, la varianza real se puede dividir en:

Una varianza confiable y relevante, y Otra varianza confiable, pero irrelevante.

La validez siempre estar limitada por la confiabilidad.

Prueba Forma A Forma B

Grupo Mitad 1 Mitad 2

Prueba Forma B Forma A

Grupo Mitad 1 Mitad 2

fi = Total de aciertos por reactivo

S2x - piqi S2x

5.21 - 2.35 5.21

Para el clculo de pi: Pi = fi22 pi qi piqi

Para el clculo de piqi Para el clculo de qi: qi = 1 - pi

6 0.6 0.4 0.24

6 0.6 0.4 0.24