Sunteți pe pagina 1din 16

Estandarizacin y Baremacin del Test 133

5.7.- Anlisis de la calidad de los tems. Si hemos seguido los pasos recomendados en los apartados anteriores de este captulo posiblemente vayamos por buen camino en la construccin del instrumento de medida. Pero, a veces el autor del test tiene su juicio viciado por la cercana e implicacin que tiene con la prueba. Llega el momento de contrastar por procedimientos distintos y lo ms objetivos posible la bondad del tem, que propiciar de forma inexcusable la consecuente bondad de la prueba en su conjunto. Los principales criterios de bondad de una prueba y subsecuentemente de un tem son dos: validez y fiabilidad. Para su contrastacin Osterlind (1989) recomienda dos procedimientos fundamentales:

5.7.1.- El Juicio de Expertos. 5.7.2.- Anlisis de tems: ndices estadsticos obtenidos en un estudio piloto.

5.7.1.- Juicio de expertos. El juicio de expertos para contrastar la validez de los tems consiste en preguntar a personas expertas en el dominio que miden los tems, sobre su grado de adecuacin a un criterio determinado y previamente establecido en los pasos anteriormente reseados de construccin de una prueba. Para esta validacin se siguen dos procedimientos (Osterlind, 1989):

Tabla 5.2. Hoja resumen de las seales de emparejamiento de los jueces entre objetivos e tems (adaptada de Osterlind, 1989, p. 268) Juez: REA de contenido: Marcas de emparejamiento entre tems y objetivos Fecha:

Primero lea detenidamente toda la lista de especificaciones de dominio y de tems del test. Su marca es para sealar qu tem del test es y cul no es una medida de una de las especificaciones de dominio. Esto es, si Ud. cree reconocer dentro de un banco de tems la representacin en un tem del test de la medida de una especificacin de dominio, puede emparejarlo con una linea al objetivo correspondiente. Esto es, despus de cada objetivo, escribir el/los tems del test que crea miden dicho objetivo. En el caso de aquellos tems que Vd. crea que no miden ninguna de las especificaciones de dominio disponibles, marcar sus nmeros en el espacio disponible al final. Objetivo 1 2 3 4 tems no emparejados: Emparejamiento de tems del test

From R.K. Hambleton "Validating the test scores" (p.225) in R.A. Berk (ed), A Guide to CriterionReferenced Test Construction, 1984, Baltimore: The Johns Hopkins University Press.

133

134 Procedimiento General de Construccin de una Prueba

A) Emparejamiento de tems y objetivo/s o dominio/s, a juicio de los jueces.- En este procedimiento se oculta a los jueces el emparejamiento objetivo-tem para comprobar si, dicho emparejamiento, es tan evidente que una persona experta lo pueda descubrir. Ver tabla 5.1 como ejemplo del protocolo de respuesta. En este caso se puede utilizar la proporcin de aciertos como ndice de congruencia. B) Juicios del grado de adecuacin entre cada tem y el subdominio u objetivo que pretende medir el tem. Ver tabla 5.2 como ejemplo de hoja de respuesta para los jueces. Si no nos basta con la simple cuantificacin del nmero de jueces que estn de acuerdo, podemos recurrir al ndice de congruencia entre el tem "i" y el objetivo "k" (Rovinelli y Hambleton, 1977; Hambleton, 1980): (N&1)j Xijk% Nj Xijk& j Xijk
n n n

Iik '

j'1

j'1

j'1

(5.12)

2(N&1)n

Por ejemplo (Osterlind, op. cit. p. 270), en un test con 36 tems y 5 objetivos especficos se evala la congruencia entre el tem 1 con el objetivo 2. Nueve expertos han emitido un juicio: uno opina que no hay unin entre el tem y el objetivo, otro que la unin es dbil y siete que la unin es fuerte. As, la suma de los nueve juicios es -1+0+(1*7) = 6. aplicando el ejemplo a la ecuacin: I21 ' (5&1)6 % 5( 6 & 6 ' 0.67 2(5&1)9 (5.13)

Tabla 5.2. Grado de congruencia tem-objetivo (adaptada de Osterlind, 1989, p. 267)


Nombre Instrucciones: Primero lea el objetivo nmero 1. Despus, lea el primer tem en el cuadernillo del test. Considere cuidadosamente el grado de congruencia de este tem con el dominio de habilidad. Evale la congruencia segn las siguientes categoras: A = Alto grado de congruencia M = Grado medio de congruencia B = Bajo grado de congruencia Si Vd. quiere hacer algn comentario sobre la congruencia de ese tem regstrelo en el lugar reservado para ello. Despus de que haya terminado con el primer tem, proceda con el segundo tem, e igualmente con todos los tems siguientes, evalundolos de igual forma. Objetivo N 1 Uso de las tcnicas matemticas para solventar problemas de la vida real. Evaluacin Comentario tem N 1 tem N 2 tem N 3 tem N 4 tem N 6 tem N 9 Objetivo N 2 Uso de las propiedades de figuras de dos o tres dimensiones para realizar clculos geomtricos. Evaluacin Comentario tem N 3 tem N 5 tem N 8 tem N 10 tem N 11

134

Anlisis de la Calidad de los tems 135

5.7.2.- Anlisis estadstico de tems En la construccin de un test el objetivo general es llegar a un test de mnima longitud que produzca puntuaciones con el mayor grado posible de fiabilidad y validez. Esto se lleva a cabo partiendo de un nmero considerable de tems (5, 3 o, incluso, 4 veces ms tems que el test resultante) que se someten, en primer lugar, al juicio de expertos, segn hemos descrito en el apartado anterior. Una vez depurados estos tems y reducidos a un menor nmero de ellos se pasan a una o varias muestras de sujetos en lo que se suele llamar estudio piloto, para realizar con los datos as obtenidos lo que se suele llamar anlisis de tems. Este proceso consiste en estimar las propiedades estadsticas de los tems que ms van a influir en la fiabilidad y validez del test resultante. Pues cuanto mejores sean los tems mejor ser el test que resulte de la unin de ellos. Dado que la fiabilidad y la validez son las dos propiedades fundamentales de una buena medida, han de ser propiedades exigibles a un buen test y, por lo tanto, criterios a tener en cuenta para depurar los tems. Recordando lo que se ha tratado en el tema anterior, podemos afirmar que una medida es fiable si es precisa, estable y consistente, y es vlida si con ella medimos lo que pretendemos y no otra cosa. Por lo tanto, se llama fiabilidad al grado de ajuste entre la medicin obtenida del comportamiento externo (X ) y lo que tiene el sujeto del atributo o constructo que en realidad mide el test (rasgo latente o factor Fx); mientras que validez es el ajuste entre dicho factor que mide el test (Vx) y el factor que intenta medir (Vy ). Los procedimientos y tcnicas para contrastar tanto fiabilidad como validez se basan en el modelo lineal de regresin y utilizan como ndices de ambos conceptos (fiabilidad y validez) el coeficiente de correlacin de Pearson o los parmetros causales de los modelos de medida integrados en los modelos estructurales. En ambos ndices o tcnicas de anlisis, la variabilidad (y la desviacin tpica como su estimador ms frecuente) de los sujetos tanto en la medida como en el constructo es condicin necesaria, aunque no suficiente, para poder contrastar la idoneidad de la prueba. Idoneidad de la prueba que es la segunda condicin, adems de la variabilidad de los sujetos, para que se manifieste empricamente, por ejemplo, un coeficiente de correlacin (coeficiente de fiabilidad o de validez) aceptablemente alto. No consideramos que este sea el mejor momento para detenerse en mayores disertaciones porque ello podra romper el hilo conductor del tema que nos ocupa, esto es, analizar los tems y depurarlos para optimizar la prueba. As pues, de acuerdo con lo dicho en el prrafo anterior los parmetros que se suelen analizar en los tems de cara a su consiguiente depuracin se pueden resumir en tres grupos (Gulliksen, 1950; Croker y Algina, 1986; Osterlind, 1989; Martnez-Arias, 1995; Muiz, 1994): - ndices que describen la distribucin de respuestas a un tem (p.e. varianza del tem). - ndices que describen el grado de relacin entre la respuesta al tem y algn criterio interno o externo que interese. - ndices que renen los dos aspectos anteriores.

5.7.2.1. ndices descriptivos de la distribucin de respuestas y/o de puntuaciones del tem y del test. a) ndice de dificultad. Como entrada, cabe afirmar que, en igualdad para el resto de condiciones, un tem y un test son mejores cuanto mayor es su varianza.

135

136 Procedimiento General de Construccin de una Prueba

Adems, un tem que se evala de forma dicotmica -correcto/incorrecto- tiene mxima varianza cuando p=q=0.5. Ya que es entonces cuando su varianza (que es igual a p*q) es mxima. Por lo tanto este es un ndice importante y a tener en cuenta a la hora de seleccionar los tems. Nos estamos refiriendo a lo que se suele llamar ndice de dificultad, que no es otra cosa que la proporcin de sujetos que saben el tem:

ID '

A IR

(5.14)

Donde: A: Nmero de sujetos que aciertan el tem IR: Numero de sujetos que han intentado resolver el tem En los tems de respuesta limitada a un nmero delimitado de alternativas, conviene corregir el nmero de sujetos que han acertado el tem (A), restandole el nmero de ellos que lo han acertado por azar (recordemos ecuaciones 5.10 y 5.11), para as obtener los que en realidad saben el tem.

A & ID '

E (K&1) IR

(5.15)

Donde: E: Numero de sujetos que han fallado el tem K: Nmero de alternativas de respuesta del tem Por lo que respecta a estos items dicotmicos con K alternativas de respuesta, igual que anteriormente hicimos al hablar de evaluacin de los sujetos, a la hora de evaluar la dificultad de los tems tambin existe la opcin de no computar los errores sino los aciertos (recordemos lo dicho al respecto sobre la forma de compensar el azar en la puntuacin del sujeto, las alternativas y los intentos de respuesta (Renom, 1997)

K( ID '

A &1 IR K&1

(5.16)

Como ya se ha apuntado anteriormente, los mejores tems son los que tienen un ndice de dificultad de 0.5, porque optimizan la variabilidad del tem1. Por lo que respecta al test en su conjunto, para que discrimine no slo entre los de aptitudes intermedias (como ocurre si todos los

En los tests de personalidad o actitudes no cabe hablar de ndice de dificultad, pero todo lo que hemos dicho del I.D. cabe afirmarlo respecto de la proporcin de sujetos que saturan con el atributo, esto es, que responden en el sentido de manifestar el constructo que estamos midiendo. 136

Anlisis de la Calidad de los tems 137

tems son de dificultad intermedia) sino tambin entre los de niveles de habilidad ms extremos, Yela (1980) recomienda: Categoras Centl en el constructo % Aproximado ndices de Dificultad Muy fciles 0 - 10 10% 0.75 a 0.95 Fciles 10 - 30 20% 0.55 a 0.74 Normales 30 - 70 40% 0.45 a 0.54 Difciles 70 - 90 20% 0.25 a 0.44 Muy difciles 90 - 100 10% 0.05 a 0.24 En este mismo sentido, Garret (1968) propone: Categoras Centl en el Constyructo % Aproximado Fciles 0 - 25 25% 0.75 a Medios 25 - 75 50% 0.26 a Difciles 75 - 100 25% 0.05 a

ndices de Dificultad 0.95 0.74 0.25

Osterlind recomienda, en tests de rendimiento, ndices de dificultad que oscilen entre 0.4 y 0.8. Tambin considera puede ser til analizar la evolucin del ndice de dificultad de un tem para subpoblaciones con distintos niveles en el constructo (ver figura 5.2). Si, al contrario de lo que se observa en el grfico representado en fig. 5.2, no se apreciara evolucin o cambio en los ID de un grupo a otro sera un sntoma de falta de fiabililidad y/o de validez del tem . Este problema quedara solventado con tests a la medida de la cantidad del constructo que posee cada sujeto. Dado que el ndice de dificultad depende de la poblacin en la que se calcula, con los

Figura 5.2. Representacin grfica del ndice de dificultad de un tem para cada uno de los cinco subgrupos formados con sujetos de distintos niveles en el constructo (adaptado de Osterlind 1989)

tests a medida todos los I.D. seran siempre de 0.5. Como es lgico, solo cabe hablar de ndice de dificultad en los tests de aptitud mxima. Sin embargo, para cualquier tipo de prueba psicolgica en la que los tems ofrezcan varias alternativas de respuesta, puede resultar til analizar la distribucin de frecuencias para cada una de las

137

138 Procedimiento General de Construccin de una Prueba

alternativas de respuesta. Siempre cabe afirmar que una alternativa que no la elija nadie o casi nadie es intil. A este respecto, en tests de aptitud mxima, lo lgico es que: -La alternativa correcta sea elegida mayor nmero de veces que las incorrectas. -Los distractores o alternativas incorrectas sean elegidas todas ellas aproximadamente igual nmero de veces. Con lo dicho sobre el ID, ampliado con otras lecturas, ms el sentido comn, podemos tomar las decisiones ms acertadas en funcin de nuestras necesidades y objetivos de medida. En este sentido, si tenemos que seleccionar al 30% de aspirantes ms hbiles, nos interesan tems con ID=0.3. En tests con tems homogneos pueden interesarnos niveles de dificultad que cubran todo el rango (ver anteriormente cuadros orientativos de Yela (1980) y Garret (1968)). En tests heterogneos puede interesarnos que todos o la mayora de los tems tengan valores centrales (alrededor de 0.5) de dificultad. En test referidos al criterio el ID ser el adecuado al punto de corte. Hay un problema asociado al ID como es el hecho de que, en los test de varias alternativas de respuesta, los sujetos no responden con un grado de certeza total o nulo. Este tema ha sido tratado por distintos autores sin haberse encontrado una solucin plenamente satisfactoria, aunque s se han ofrecido diferentes alternativas: -Juicios de seguridad por parte de los evaluados -Responder hasta acertar y al puntuar penalizar el nmero de errores -Ponderar las alternativas de los tems, en funcin del juicio de expertos sobre el grado de correccin o incorreccin de cada una de ellas. -Tener en cuenta la tabla adjunta (ver tabla 5.4) a la hora de calcular el ID o la puntuacin directa de un sujeto, siguiendo la frmula Pptimo = P + (1-P)/k Tabla 5.4.- Valores ptimos de p (Po) segn el nmero de alternativas (adaptado de Martnez Arias, 1995). Proporcin que Proporcin que Proporcin total conoce la respuesta acierta por azar Po Po de Lord2 0.50 0.50/4 0.62 0.74 0.50 0.50/3 0.67 0.77 0.50 0.50/2 0.75 0.85

K 4 3 2

Esta distribucin de frecuencias de las distintas alternativas de respuesta la podemos hacer tambin dividiendo la muestra en dos grupos extremos por lo que respecta a su rendimiento en el test completo o en cualquier otro criterio externo. A partir de la tabla resultante (ver tabla 5.5) se obtiene informacin de gran inters por lo que respecta al llamado anlisis de alternativa incorrectas, o, en general, a la relacin entre alternativa de respuesta elegida y pertenencia al grupo superior o inferior en el test o en un criterio. A modo de ejemplo, observemos la tabla 5.3. (ejemplo tomado de Muiz, 1994; p.192). En esta ocasin la alternativa E es intil porque no la elige nadie y la D parece ser que ofrece informacin que confunde precisamente a los del grupo superior. Tambin habra que revisar la alternativa B, por ser especialmente atractiva.

Lord (1952) afirma que la probabilidad de acertar al azar es mayor que 1/k debido al hecho del posible conocimiento parcial de la respuesta.

138

Anlisis de la Calidad de los tems 139

La in f o rmacin obtenida con este cuadro ser retomada en el apartado siguiente, al hablar del ndice de discriminacin. En un apartado posterior sobre a p l i c a c i o n e s informticas trataremos tambin, a travs del programa Metrix , este aspecto del estudio de las distintas alternativas de respuesta y su relacin con la puntuacin total del test.

Tabla 5.5. Anlisis de las alternativas incorrectas

5.7.2.2. ndice de discriminacin: ndices que relacionan el tem con un criterio externo al tem. El objetivo de la mayora de los tests es ofrecer informacin acerca de las diferencias individuales en el constructo o en cualquier criterio externo cuya prediccin, seleccin u optimizacin se pretende conseguir a travs de las puntuaciones obtenidas en el test. Para la mejor consecucin de ambos objetivos, un parmetro de gran inters en la seleccin de los tems es aquel que ponga de manifiesto su poder para discriminar, esto es diferenciar, a los sujetos con puntuaciones altas en el criterio de aquellos que las tienen bajas. Para todos los ndices de discriminacin y relacionales que se van a presentar a continuacin, podemos utilizar como criterio en el que discriminar tanto la puntuacin total del test como cualquier otro criterio externo al propio test. En el primer caso, dado que el puntaje en el test suele ser la suma de la puntuacin en los tems, hay que evitar la influencia en el ndice obtenido de la participacin del tem en la puntuacin total del test (para mayor informacin se puede consultar Muiz, 1994 y Martnez-Arias, 1995). Si el criterio es externo no existe este problema. En cualquier caso, se dispone de cinco procedimientos para estimar este parmetro de discriminacin: - ndice de discriminacin (D) propiamente dicho: D = Ps - Pi (5.15) donde: Ps es la proporcin de sujetos del grupo superior3 en el criterio que responden correctamente al tem. y Pi es la proporcin de sujetos del grupo inferior que responden correctamente al tem. -Distintos tipos de correlaciones entre tem y criterio en el que discriminar: . Coeficiente de Correlacin de Pearson (rxy)

rxy

j xy & X ( Y N ' Sx ( Sy

(5.16)

Recordemos la formacin de un grupo superior y otro inferior en tabla 5.3. de pginas anteriores. 139

140 Procedimiento General de Construccin de una Prueba

. Aplicaciones o estimaciones del Coeficiente de Correlacin de Pearson: *Correlacin Biserial Puntual (bp)

bp '

p & x x

p q

(5.17)

donde: p: Media en el test de los sujetos que han acertado el tem x: Media del test x: Desviacin tpica del test p: Proporcin de sujetos que aciertan el tem q: 1-p * Correlacin Biserial (b)

b '

p & x x

p y

(5.18)

donde: y: Ordenada correspondiente al valor de la puntuacin tpica en la curva normal que deja por debajo un rea igual a p (los valores se pueden encontrar en la tabla estadstica correspondiente). * Correlacin Phi (n)

'

bc & ad a%b) (b%c) (c%d) (b%d)

(5.19)

Donde a,b,c, y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un tem y un criterio dicotmico. * Correlacin Tetracrica (t) 4 Hasta aqu, en este apartado del ndice de discriminacin, nos hemos limitado a presentar distintos procedimientos estadsticos para la estimacin de dicho parmetro. Nuestro inters ir dirigido al adecuado uso e interpretacin de estos ndices, ms que a su clculo, que es un problema ya resuelto por la informtica. Generalizando, podemos decir que, en todos los casos, cuanto mayor sea el ndice de discriminacin o de correlacin del tem con el criterio mejor es el tem. Resumiendo, vamos a dar unas pautas generales de uso e interpretacin de los distintos estimadores de la discriminacin de un tem: -Con tems de dificultad intermedia el ndice de Discriminacin D es fcil de calcular y de interpretar (oscila entre -1 y +1, y lo normal es que sea positivo). Tiene el inconveniente de que se ve muy afectado en el caso de los tems con ndices de dificultad extremos. As, p.e., para un tem con ID=0.9 el valor mximo de D=0.2 . Otro inconveniente de este ndice es que no tiene

No consideramos pertinente especificar su frmula 140

Anlisis de la Calidad de los tems 141

test de significacin estadstica. -Si los tems son de dificultad extrema es adecuado utilizar b por estar poco afectado tanto por ID como por la fluctuacin muestral. Tiene la exigencia de que ambas distribuciones (las de test e tem) sean normales (la del tem dicotomizada). -Si se sospecha que distintas muestras de la poblacin sern similares en habilidad, y si el objetivo es seleccionar tems con alta consistencia interna; lo adecuado es utilizar bp (Lord y Novick, 1968). Tiene el inconveniente de que los tems han de ser dicotmicos. -Cuando tem y criterio son dicotomizados y con distribuciones normales en origen, y t son los ms utilizados. es fcil de calcular pero est restringido cuando las proporciones de dicotomizaciones no son iguales. En este caso, slo disponemos como ltima instancia de t , que adems es el coeficiente de correlacin ms utilizado para someter posteriormente la matriz de correlaciones a anlisis factorial. Hasta ahora hemos hablado de ndices descriptivos y de ndices correlacionales. Como ambos tipos de ndices es pertinente que sean tenidos en cuenta, presentamos a continuacin los ndices mixtos. 5.7.2.3. Indices mixtos

- Indice de fiabilidad del tem IFi - Indice de validez del tem IVi - Desviacin tpica del test x - Coeficiente Alfa de fiabilidad del test - Coeficiente emprico de validez del test xy Son ndices mixtos aquellos que contemplan conjuntamente estadsticos de distribucin del tem y relacionales, del tem con un criterio interno/externo al test (ver recuadro anterior).

IFi ' i ix ' piqi ix


Donde: IFi: es el ndice de fiabilidad del tem i: es la desviacin tpica del tem ix: es la correlacin entre el tem y el test

(5.20)

IVi ' i iy ' piqi iy


Donde: IVi: es el ndice de validez del tem

(5.21)

141

142 Procedimiento General de Construccin de una Prueba

x ' ' i ix
n i' 1

(5.22)

Donde: x: es la desviacin tpica del test

n ' n&1
Donde:

1 &

'i ix 2

' i

(5.23)

: es el Coeficiente Alfa de fiabilidad (consistencia interna) n: nmero de tems del test 'i: es sumatorio de las desviaciones tpicas de los n. tems ('iix)2 : es el sumatorio al cuadrado de los productos entre la desv. tip. del tem y la correlacin del tem con el criterio. Esto es la varianza del test

xy '

i' 1 n

' iiy
n

i' 1

' iix

(5.24)

Donde: xy: es la correlacin del test con el criterio externo al propio test. 'iiy : es el sumatorio de los productos entre la desv. tip. del tem y la correlacin del tem con el criterio externo 'iix: es el sumatorio de los productos entre la desv. tipo del tem y la correlacin del tem con el test completo. Esto es la desv. tipo del test 2.7.2.4.- A modo de conclusin o resumen Despus de tantos ndices: de dificultad, correlacionales y mixtos, qu cabe decir de todos ellos a modo de resumen o conclusin? Pues caben algunas reflexiones, pero la principal, y por encima de todas ellas, es: tener siempre presente el objetivo final para el que se quiere realizar el escalamiento, y subordinar a su consecucin la informacin que nos proporcionen todos estos ndices tanto de los tems como del test. Se podra decir que la consigna a la hora de interpretar estos ndices, algunos de ellos contrarios o enfrentados, es aplicar el sentido comn, sabiendo lo que informa cada ndice y sabiendo lo que se quiere conseguir como objetivo de escalamiento. Pero, dado que el sentido comn no siempre es igual para todos, vamos a hacer algunas recomendaciones, sin intentar ser exhaustivos ni excesivamente tajantes. La virtud principal que ha de cumplir cualquier prueba es la validez. Si una prueba se demuestra que es altamente vlida, consiguientemente y como condicin necesaria, ha de ser fiable. Por que

142

Anlisis de la Calidad de los tems 143

de no ser as, la fluctuacin o azar de las distintas medidas, podra afectar a la relacin o explicacin mutua entre los constructos y evitara que se pusiera de manifiesto en los distintos estudios empricos de validez (coomo veremos ms adelante en figura 3.2). Por lo tanto, si se consigue validez nos podremos quedar satisfechos. Pero como la validez es tan difcil de contrastar en algunos casos, se suele aconsejar optimizar la fiabilidad para as disponer, al menos, de la condicin necesaria para, en la medida de lo posible, conseguir la validez. Hay casos en los que lo medido es un nico factor o dimensin psicolgica. En tales cincunstancias el depurar los tems en aras de su fiabilidad no perjudica la validez, ya que se puede llegar al extremo de que, al coincidir el constructo que se mide con el test y el que se pretende medir, fiabilidad y validez de constructo son una misma cosa. As pues, en tales casos es importante asegurar la validez de contenido previamente, especialmente en los tests de rendimiento que tienen referentes operativos (recordar figura 2.1. y tabla 2.1.). De cualquier forma, sea cual sea el tipo de test, su validez estar ms garantizada si la relacin del constructo que medimos con otros atributos psicolgicos es coincidente con teoras psicolgicas consistentes y previamente hipotetizadas. Todos estos temas sern tratados con mayor extensin en el tema especfico de validez. Seguimos con algunas reflexiones generales sobre los distintos estadsticos utilizados para depurar los tem. En pruebas de rendimiento o de aptitud prctica, depurar excesivamente los tems para mejorar su fiabilidad, puede perjudicar la mayor validez de una prueba ms heterognea y completa (con mayor validez de contenido). De cualquier forma, la depuracin de los tems es cclica y, aunque en algn caso se pueda admitir que se ha conseguido un buen nivel, con el tiempo puede aconsejarse su revisin. El proceso a seguir, normalmente, es hacer el anlisis de tems en distintas muestras. Una vez depurados los tems, se pasan a una muestra distinta y se vuelven a analizar los resultados obtenidos. Cuando ya se suele admitir que estn depurados se contrasta su validez, y, si no es aceptable, se vuelve a empezar. De cualquier forma, la mejor receta es una buena dosis de sentido comn aplicada sobre una buena base de conocimientos psicomtricos y de conocimientos psicolgicos sobre el dominio que se pretende escalar (adobados, claro est con el oportuno ingenio). 5.8.- Estandarizacin y baremacin del test. La estandarizacin del test es el ltimo paso del proceso de elaboracin de un test. Consiste en ofrecer la informacin necesaria para que cuantas veces sea utilizado para la medicin psicolgica se haga en las mismas circunstancias. Desde el punto de vista conductual se puede decir que el test est constituido por un contexto estimular que se presenta ante el sujeto y provoca en l una respuesta comportamental que ha de ser correctamente cuantificada y evaluada de cara a informar sobre el atributo psicolgico que se pretende medir. Para que esta medida tenga las suficientes garantas de representar el nivel correspondiente en el citado atributo, hemos de asegurarnos el control situacional de cualquier variable que no sea el propio atributo que se pretende medir. Este control debe ser tan riguroso como se pueda y/o se deba. Decimos se deba porque, para cumplir con determinados objetivos de medida, a veces, es ms adecuado una menor manipulacin experimental de variables y un mayor acercmiento al modelo de entrevista clnica. Para conseguir esta garanta de medir lo que se pretende se suelen utilizar los siguientes recursos cuando se comercializa un instrumento psicomtrico: a.- Manual de instrucciones para el especialista, en el que se informa de: El atributo que se mide Poblacin objetivo y sus distintas subpoblaciones, muestras y los correspondientes baremos Distintos coeficientes y procedimientos tendentes a informar sobre la fiabilidad y validez del test completo as como de sus distintas subescalas. Circunstancias en las que se ha de presentar el test o cuestionario en cuanto a hora,

143

144 Procedimiento General de Construccin de una Prueba

luz, materiales, tiempo de realizacin, instrucciones, consignas y respuestas, etc. Modo de cuantificar las respuestas o de corregir la prueba para obtener la medida o puntuacin directa (en adelante PD). Modo de evaluar la P.D. convirtindola en los oportunos baremos referidos a la norma y/o al criterio b.- Informaciones para el usuario: Adems de las informacin que proporciona el especialista, el cuadernillo de la prueba as como otros materiales informan al sujeto que se evala sobre: El atributo psicolgico que se pretende medir. En el grado en que dicha informacin no distorsione la medida. El comportamiento que se le requiere: nmero de tems, forma de responder, tiempo de la prueba, forma de puntuar, etc. A continuacin se desarrollarn algunos de estos aspectos. Especialmente los de tipo metodolgico, por su mayor inters para que las puntuaciones, llamadas estandarizadas, tengan el adecuado rigor, dado que son la materia prima para el diagnstico, la seleccin u orientacin, el pronstico, o para cualquier tipo de investigacin psicolgica. Ya hemos hablado de los distintos mtodos para corregir la prueba y obtener la llamada puntuacin directa (PD). Pero esta PD no puede ser interpretada o evaluada directamente, sino que ha de ser transformada en una puntuacin estandarizada (PS), a travs de unos baremos que establecen la correspondencia entre PD y PS. Hay dos tipos de baremos: baremos referidos al criterio y baremos referidos a la norma. Los baremos referidos al criterio informan sobre el grado en el sujeto posee un criterio o dominio de referencia, mientras que los baremos referidos a la norma informan de la posicin del sujeto con respecto a sus semejantes de la poblacin por lo que respecta a la cantidad en la que poseen el atributo en cuestin. Para una mejor comparacin de ambos tipos de baremos podemos ver la tabla 5.4. En un baremo referido al criterio basta con informar directamente de la cantidad del atributo posedo o dominado por el sujeto. Esto se puede hacer directamente a partir de la PD, en la medida en que sta representa la superacin de unos determinados tems y, por lo tanto, de la parte del dominio psicolgico representado por esos tems. Los baremos referidos al criterio se basan en la fidelidad con la que los tems representan los distintos objetivos de medida que constituyen el dominio psicolgico en cuestin. Como veremos despus cuando hablemos de validez de contenido, sta es la base y la mejor garanta de que la medida absoluta o PD representa la cantidad de criterio conseguido o posedo. Si queremos ofrecer una medida que no est afectada por el nmero total de tems del test, podemos informar sobre proporcin de tems resueltos satisfactoriamente y, por lo tanto, sobre proporcin del criterio que se posee. Un examen con validez de contenido es un buen ejemplo de test referido al criterio, y, adems, la nota suele (o mejor debe) estar en un baremo referido al criterio. -

144

Anlisis de la Calidad de los tems 145

Los tests referidos al criterio son frecuentes en la medida del rendimiento, ya sea educativo o de cualquier otro tipo. En el campo psicolgico de las aptitudes, actitudes y personalidad, sobre todo dentro de los modelos de la Teora Clsica de los Tests (en adelante TCT) y afines, es ms frecuente encontrarse con Baremos Referidos a la Norma, en los que, como ya hemos adelantado, la puntuacin baremada, normalizada o estandarizada ofrece informacin de la situacin del sujeto con respecto a una poblacin de pertenencia. As p.e. la inteligencia de un sujeto puede ser evaluada con distintas puntuaciones en funcin de los distintos baremos de sus posibles poblaciones de referencia. Esta dependencia de la puntuacin con respecto al test del que se trate y con respecto a la poblacin, constituye uno de los principales problemas de la TCT. As como su superacin constituye una de las principales ventajas de la Teora de Respuesta al tem (TRI).

Tabla 5.4. Tests Referidos a las Norma vs. Tests Referidos al Criterio (Adaptado de M.Arias, 1995. p. 657)
Baremos referidos a las normas 1) Finalidad de la Evaluacin Baremos referidos al criterio

-Poner de relieve diferencias interindividuales en la conducta o rasgo que mide el test.

- Estimar el rendimiento o conducta del sujeto en los objetivos que mide el test.

2) Construccin del test y especificacin de los contenidos -Los elementos suelen derivarse de alguna teora de rasgos o constructos. Suelen ser limitados, ambiguos y sin delimitacin clara de dominio de contenidos. - Se comienza con una clara especificacin del dominio de contenidos o conductas y del uso pretendido del test.

3) Seleccin de los tems -Para poner de relieve las diferencias individuales, debe maximizarse la varianza del test, seleccionando tems de dificultad media y alto poder discriminante. - Los tems se seleccionan en funcin de los objetivos y uso predeter minado del test.

4) Significado de las puntuaciones - La puntuacin se considera un indicador de la puntuacin verdadera en un rasgo latente. - La puntuacin representa el estimador muestral de la conducta o rendimiento del sujeto en el dominio.

5) Interpretacin de las puntuaciones - La puntuacin tiene significado nicamente con relacin a los resultados del grupo normativo. - La puntuacin tiene significado en trminos absolutos.

145

146 Procedimiento General de Construccin de una Prueba

5.8.1.-Baremos referidos a la Norma Tipos de baremos referidos a la Norma: Baremos de puntuaciones derivadas de las tpicas ya sean normalizadas o sin normalizar. Baremos de puntuaciones centiles , o, en general, cuantiles; ya estn normalizadas o sin normalizar. Baremos de puntuaciones cronolgicas.

Figura 5.2. Proceso para obtener los baremos de puntuaciones derivadas de las tpicas, tanto sin normalizar como normalizadas.

A) Baremos de Puntuaciones Derivadas de las Tpicas.- Son baremos que se obtienen a partir de las puntuaciones tpicas Zi, y que por lo tanto conservan sus ventajas como son el que tengan una media constante y una desviacin tpica constante e independientes de el test o prueba de la que se trate.Como todas se derivan la Zi, en primer lugar se ha de efectuar la transformacin de PDi

a Zi segn la siguiente expresin:

Zi '
Donde:

PDi & X

(5.25)

0 es la puntuacin media del grupo normativo en el test


es la desviacin tpica del grupo normativo en el test. En segundo lugar, para obtener las puntuaciones tpicas derivadas sin normalizar (D) (ver

146

Anlisis de la Calidad de los tems 147

expresin 5.26):

Di ' M % S Zi

(5.26)

Se ha de efectuar una transformacin lineal de la anterior puntuacin tpica (Zi,) a otra puntuacin derivada de sta (en general la llamaremos D) que conserva sus ventajas y que evite sus inconvenientes como son: - El uso de valores negativos, que se evita con la constante que se suma (en general la llamaremos M por ser la media de la nueva variable) - El inconveniente de usar decimales, que se evita con la constante que se multiplica (en general la llamaremos S por ser la desviacin tpica de la nueva variable). Otra de las ventajas de estas puntuaciones tpicas derivadas es que con el uso se hacen familiares y por lo tanto fciles de interpretar, aunque cuando proliferan tantas escalas del tipo D esta ventaja no surte efecto. Las escalas D ms usadas son las siguientes, sustituyendo en cada caso M y S de la expresin 5.26 por sus respectivos valores:

Ti ' 50 % 10 Zi Ei ' 5 % 2 Zi C.I.W ' 100 % 15 Zi


i

(5.27) (5.28) (5.29) (5.30)

C.I.T ' 100 % 16 Zi


i

En base a suponer, o en su caso comprobar, que la poblacin de la que se ha obtenido el grupo normativo sigue una distribucin normal y que la muestra puede que por la influencia del azar en el muestreo no la siga totalmente, suelen normalizarse cualquiera de estas escalas tpicas derivadas dando lugar a las llamadas puntuaciones o escalas Tpicas Derivadas Normalizadas (Dn). Ello se consigue obteniendo la escala Dn tambin por transformacin lineal pero a partir de Zn. La diferencia, con respecto a las escalas no normalizadas, est en que en aquellas Zi se obtena por la expresin 5.25, mientras que ahora Zni se obtiene a travs de la tabla de la curva normal y a partir del centil Pi que corresponde a la PDi (para ver el proceso seguido para obtener ambos baremos ver figura 5.2, en pgina anterior). B) Baremo de Puntuaciones Centiles o, en general, cuantiles .- Son baremos que informan sobre el porcentaje Pi de sujetos de la poblacin de referencia que quedan por debajo de una determinada PD. El centil de cualquier sujeto se obtiene multiplicando por 100 (el decil multiplicando por 10, el cuartil multiplicando por 4, etc.) la frecuencia relativa de sujetos del grupo normativo que han obtenido puntuaciones iguales o inferiores a su PD (ver expresin 5.31).

Pi '

fa N

100

(5.31)

Por el mismo motivo que se normalizan las puntuaciones derivadas de las tpicas, debido a la distribucin normal de la poblacin, as tambin se normalizan las puntuaciones centiles. Pero el

147

148 Procedimiento General de Construccin de una Prueba


Tabla 5.5.- Baremo en Centiles, Eneatipos y CIT sin normalizar y normalizados P. Directa 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Centil Eneatipo 1 2 4 8 13 23 36 52 67 79 87 92 95 97 99 1 1 1 2 3 4 4 5 6 6 7 8 9 9 9 CIT 65 68 73 78 84 89 95 100 106 111 117 122 128 133 139 Centiln 1 2 4 7 14 24 37 51 65 77 87 93 97 99 99 CITn 65 69 74 79 83 89 95 101 107 112 117 121 125 128 135

proceso seguido, como es lgico, es el inverso al seguido para normalizar las puntuaciones tipificadas (ver figura 5.3). Esto es, primero se obtiene la Zi que corresponde a cada PD, y despus se ve en la curva normal que centil le corresponde a esa Z.

Figura 5.3. Proceso de obtencin de los centiles normalizados

Todo este proceso de baremacin es el que se sigue en el grupo normativo para incorporar al manual del test el baremo correspondiente a la poblacin de la que se trate. As habr tantos baremos como poblaciones con diferencias significativas hayan de utilizar el test. Los baremos que suelen aparecer en los manuales, del test son tablas del tipo de la siguiente (ver tabla 5.5), que establecen la correspondencia entre las posibles puntuaciones directas y las posibles puntuaciones baremadas. La edad mental se calcula siguiendo las instrucciones del test del que se trate. C.I. ' EM 100 EC (5.31)

Este es un baremo muy poco utilizado actualmente debido a algunos problemas: - Falta de evolucin con la edad de algunos rasgos psicolgicos. - Grado de desarrollo no constante para distintos niveles de edad.

148

S-ar putea să vă placă și