Documente Academic
Documente Profesional
Documente Cultură
ESCALAS DE ACTITUDES
Universidad Pontificia Comillas Madrid Facultad de Ciencias Humanas y Sociales Pedro Morales Vallejo (ltima revisin, 13, Dic. 2006)1
INDICE
1. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta .................... 2. Proceso de construccin de una escala de actitudes................................................................... 3. Definicin de la actitud que se desea medir .............................................................................. 4. Redaccin de los tems........................................................................................................... 5. Redaccin y nmero de respuestas .......................................................................................... a) Redaccin de las respuestas .............................................................................................. b) Nmero de respuestas ....................................................................................................... c) Nmero par o impar de respuestas .................................................................................... 6. Preparar la clave de correccin ............................................................................................... 7. Preparar preguntas o instrumentos adicionales .......................................................................... 8. Obtener datos de una muestra................................................................................................. 9. Anlisis de tems y comprobacin de la fiabilidad...................................................................... 9.1. Anlisis de tems ............................................................................................................ 9.1.1. Correlacin tem-total .......................................................................................... 9.1.2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y menores en el total de la escala .................................. 9.2. Comprobacin de la fiabilidad y seleccin de los tems definitivos.................................... 10. Otras consideraciones en torno a la eleccin de los tems definitivos ........................................... 1 Equilibrio entre tems positivos y negativos ......................................................................... 2 Cuidar ms la representatividad del contenido de las formulaciones de los tems.................... 3 Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general............. 4 Incorporacin de nuevos tems........................................................................................... 5 Preparacin de dos versiones, corta y larga, de la misma escala ............................................ 6 Explicacin o redefinicin del rasgo medido por nuestro instrumento .................................... 11. Comprobacin de la validez y otros anlisis posteriores.............................................................. 12. Sugerencias para obtener datos adicionales que faciliten la validacin de la escala......................... 12.1. Confirmacin del significado pretendido (validez de constructo)...................................... 12.1.1. Anlisis correlacionales .................................................................................. 1 Relacin con otros modos de medir el mismo rasgo......................................... 2 Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos distintos.............................................................................. 3 Comprobar que no existe relacin donde no esperamos que la haya ................. 1.2.1.2. Comparaciones entre grupos ........................................................................... 12.2. Confirmacin de la utilidad del instrumento (validez predictiva)...................................... 13. Bibliografa............................................................................................................................ 13.1. Referencias bibliogrficas citadas ................................................................................... 13.2. Bibliografa sobre construccin de instrumentos .............................................................. 13.3. Bibliografa sobre colecciones de instrumentos ................................................................ 2 3 3 4 5 5 6 6 6 7 8 8 9 9 10 12 15 15 15 15 16 16 16 16 18 18 18 18 19 19 19 20 21 21 21 22
1 Una gua ms extensa sobre construccin de escalas y que incluye cmo utilizar el programa SPSS puede verse en Morales, Urosa y Blanco (2003) (referencia completa en la bibliografa).
1. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta.
Construimos escalas de actitudes (o tests de personalidad e instrumentos semejantes) para medir determinados rasgos. Aqu entendemos por medir, de una manera muy genrica, el apreciar cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, el ver dnde se sita un sujeto en un continuo de menos a ms. Podemos preguntarnos por qu tenemos que construir una escala compuesta de varios tems en vez de hacer una sola pregunta, clara y bien pensada, con un nmero de respuestas adecuado. Lo primero que hay que decir es que tambin se pueden medir actitudes con una sola pregunta, y esto es comn en muchos cuestionarios sociolgicos. A un sujeto se le puede preguntar que se site en una escala de 1 a 6 (poco o muy en cualquier rasgo: conservador, extravertido, amigo de los animales). As se miden actitudes con frecuencia, tenemos numerosos ejemplos y est bien hecho. Con frecuencia es lo ms conveniente o al menos suficiente, sobre todo cuando no se pretende obtener una informacin muy precisa sobre cada sujeto (no es lo mismo describir grupos que hacer un diagnstico individual). A veces el medir actitudes (u otros rasgos psicolgicos) con una sola pregunta es muy til como medida complementaria de instrumentos ms complejos2. Sin embargo aun en el caso de los cuestionarios sociolgicos, que no son escalas en sentido propio, puede ser til y conveniente el disponer de varios indicadores de una misma actitud (o de una misma variable, como nivel socioeconmico) que van a ser sumados despus como indicador de esa actitud o variable. Tenemos varias razones para construir escalas, o simplemente para disponer de varios indicadores del mismo rasgo. 1 Con una serie de tems describimos y medimos mejor constructos relativamente complejos. De hecho en la vida cotidiana juzgamos sobre cmo es una persona (si tiene ms o menos de una determinada variable, como gusto por el deporte, religiosidad, conservadurismo, asertividad) en funcin de varios indicadores (como pueden ser diversas conductas o diversas opiniones sobre aspectos distintos referidos a la misma actitud). Una nica pregunta frecuentemente simplifica en exceso el concepto que vamos a medir. De manera anloga en la consulta de un mdico nos hacen muchas preguntas, y no una solamente, que pueden ser indicadores o sntomas de una determinada patologa. 2 En conjunto una medida compuesta por varios tems es ms vlida, no solamente porque describe mejor un constructo complejo, sino porque una nica pregunta puede de hecho ser poco afortunada, o equvoca o ser mal entendida por muchos sujetos. Cuando hay varios indicadores de la misma actitud (o rasgo en general) se obvian mejor las limitaciones de cada tem en particular. Adems una nica pregunta puede distorsionar la informacin que el sujeto aporta de s mismo; por ejemplo uno puede definirse como muy liberal en una nica pregunta, porque esa es la imagen que tiene de s mismo, pero puede no aparecer tan liberal ante cuestiones ms especficas. De manera anloga podemos pensar en la medida del rendimiento acadmico que quizs es un ejemplo ms claro: si queremos saber si un alumno sabe qumica, no le hacemos una sola pregunta porque puede saber esa pregunta pero no otras muchas posibles preguntas, o esa pregunta puede ser de hecho ambigua o muy difcil, etc.; una serie de preguntas sobre el mismo tema o asignatura nos da una idea ms certera sobre si sabe ms o menos. Despus de todo nuestra conclusin y nuestro juicio no va a ser sobre si sabe o no sabe unas preguntas concretas, sino sobre si sabe o no sabe en general de unas pocas preguntas extrapolamos nuestras conclusiones a otras muchas preguntas semejantes. Algo anlogo hacemos con las escalas de actitudes, tests de inteligencia, etc.; una muestra relativamente amplia de preguntas (tems) constituye una mejor base para formarnos un juicio ms preciso y fundado sobre cmo est una persona en un rasgo concreto.
2 Tambin hay investigaciones que muestran que utilizar un solo tem puede ser til (Gardner, Cummings; Dunham and Pierce (1998). Gua para construir escalas de actitudes
Este tipo de razones tiene ms peso cuando se van a tomar decisiones sobre los sujetos o interesa un buen diagnstico individual. 3 Aumenta la fiabilidad de la medida y por las razones dichas: se minimizan las limitaciones de cada tem en particular; merecen ms confianza varias preguntas que una sola. Un solo tem est ms sujeto a los errores de medicin, que tienden a cancelarse mutuamente si sumamos varios tems. En un sentido ms psicomtrico, si disponemos de una serie de tems podemos calcular el coeficiente de fiabilidad como veremos ms adelante. La fiabilidad puede ser alta o baja, pero eso es algo que podemos verificar, de la misma manera que podemos analizar la calidad de cada tem. 4 Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos van a quedar ms ntidas; va ser ms fcil clasificarlos; en definitiva va a aumentar la varianza. El detectar diferencias es de inters en cualquier estudio o investigacin porque sin diferencias claras es muy difcil encontrar relaciones entre variables. De nuevo esto es importante incluso en cuestionarios ms de corte sociolgico: diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables. De los diversos tipos de escalas nos limitamos aqu al denominado escalas tipo-Likert. Son las ms conocidas y se denominan as por el autor que sistematiz el proceso de construccin (en 1932). En conjunto es el sistema ms sencillo y de caractersticas no inferiores a los otros tipos de escalas (o son incluso mejores) por lo que es posiblemente el ms utilizado. Lo que hizo Likert fue extender a la medicin de las actitudes lo que ya era comn en la medicin de los rasgos de personalidad: la suma de una serie de respuestas a tems supuestamente homogneos (que expresan el mismo rasgo) sita al sujeto en la variable medida.
tenga una actitud positiva como negativa. Si, por ejemplo, se desea construir una escala para medir actitud hacia el estudio, uno puede preguntarse qu caracteriza al que tiene una actitud muy favorable o muy desfavorable tal como conceptualizamos nosotros esa actitud: le gusta estudiar, tiene un nivel alto de aspiraciones, no confa en la suerte, etc. No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en diversos grados de abstraccin, y pueden ser muy genricos (como actitud general hacia el estudio) o muy especficos (como nivel de aspiraciones o actitud hacia el estudio de un determinado tipo de materias, etc.). Este retrato robot ayudar a redactar los tems en torno a un plan coherente; interesa desde el principio asegurar la validez conceptual y poder justificarla. Este retrato robot se puede pensar en funcin de supuestas caractersticas personales, de opiniones con las que estara de acuerdo, de actividades que le gustara hacer, etc. Puede ayudar tambin el revisar otros instrumentos ya hechos. Si se utiliza una escala ya hecha (o varias) como fuente de inspiracin, o se toman determinadas ideas de un autor, etc., esto se debe hacer constar.
desfavorable (estudiar es aburrido) pero sin introducir palabras negativas, como no o nunca, que se prestan a confusiones al responder. Esta redaccin bipolar tiene estas ventajas4: 1. Obliga a una definicin previa ms matizada del rasgo o constructo. 2. Requiere una atencin mayor por parte del que responde; 3. Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemticas. Si hay un nmero aproximado de tems positivos y negativos, y sumamos a cada sujeto sus respuestas a los dos tipos de tems, podemos calcular la correlacin entre los dos totales parciales como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de .50 o ms, y mostrar en este caso una coherencia global en las respuestas. 4. Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con afirmaciones que se contradicen (cuando se da esta aquiescencia suele deberse a ambigedad en la redaccin, falta de claridad; se da ms en niveles educacionales bajos)5. Los errores y ambigedades en la formulacin de los tems suelen manifestarse en el anlisis. La irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los tems no discriminan; tambin la no discriminacin puede indicar que un tem no mide lo mismo que los dems o que los sujetos lo entienden de hecho de otra manera. Si un tem discrimina en sentido contrario (puntan ms alto en ese tem los que en el conjunto de la escala puntan ms bajo) puede haber un error en la clave de correccin. Sobre el nmero inicial de tems que deben redactarse: no hay un nmero ptimo, pero a mayor nmero inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con una fiabilidad suficiente. A mayor nmero de tems buenos (que no tienen que ser muchos) tambin ser mayor la fiabilidad.
indiferente
Cuadro 1 Caben otros formatos en las respuestas, como utilizar nmeros especificando con palabras el significado de los extremos (muy de acuerdo y muy en desacuerdo o expresiones equivalentes), o se pueden redactar las respuestas en trminos de una mayor o menor importancia, frecuencia, etc. Es til ver modelos antes de hacer nuestra redaccin y presentacin definitiva de la escala 6.
4 Las ventajas de una formulacin de los tems pero en ambas direcciones y eliminando expresiones negativas est muy investigada, por ejemplo Barnette (2000). 5 Un tratamiento amplio de la aquiescencia y otros problemas metodolgicos puede verse en Morales (2006) 6 En general las diversas maneras de expresar las respuestas (todas con expresiones verbales, o describiendo solamente las dos respuestas extremas, o utilizando nmeros, etc.) dan resultados semejantes por lo que respecta Gua para construir escalas de actitudes
Las respuestas en trminos de frecuencia estn especialmente avaladas por la investigacin experimental y en concreto se han propuesto las posibles respuestas indicadas en el cuadro 27.
casi nunca casi nunca casi nunca a veces normalmente casi siempre siempre siempre siempre
ocasionalmente
de vez en cuando
a veces
muchsimas veces
Cuadro 2 Las respuestas pueden indicarse tambin con nmeros (1= en desacuerdo, 2 = indiferente, 3= de acuerdo, etc. ) o con palabras y con nmeros, o con letras, pero siempre debe estar muy claro para el que responde el significado de sus respuestas. En general parece preferible el empleo de letras o de palabras (al menos cuando se juzgue que los nmeros pueden condicionar la respuesta). Cuando se ponen nmeros, todos deben ir en la misma direccin (muy de acuerdo siempre tiene el valor mximo), aunque despus se cambien estos valores en la clave de correccin como indicamos ms adelante. b) Nmero de respuestas El nmero habitual de respuestas es de cinco, pero pueden ser ms o pueden ser menos. En general, y aunque esto no sucede siempre, a mayor nmero de respuestas en los tems, suele haber en toda la escala una mayor fiabilidad, con tal de que el nmero de respuestas no supere la capacidad de discriminacin de los que responden; en torno a seis o siete respuestas puede ponerse el nmero mximo, y en tres el mnimo (en cualquier caso con tres respuestas suele subir la fiabilidad con respecto a dos nada ms). c) Nmero par o impar de respuestas Una cuestin distinta es si se debe incluir un nmero par o impar de respuestas (con o sin una respuesta central de indecisin). No hay normas claras sobre este punto; lo ms claro es que son preferibles tres respuestas a dos (la fiabilidad es casi siempre mayor con tres respuestas que con dos, y adems con slo dos respuestas los que responden pueden sentirse incmodos). El incluir un nmero par de respuestas (4 6) tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos categoras (se hace fcilmente con ordenador), de acuerdo y en desacuerdo, y esto puede ser til para determinados anlisis. Adems se elimina la posibilidad de que los sujetos se evadan escogiendo la respuesta central (casi nunca hay verdadera indecisin si la actitud medida y los tems son relevantes para que los que responden porque realmente expresan esa actitud).
a la validez y fiabilidad (por ejemplo Chang, (1997). La fiabilidad test-retest suele ser mayor cuando todas las categoras de respuesta estn expresadas verbalmente (Weng, 2004, con una muestra de 1247 estudiantes universitarios). 7 La justificacin de estas categoras de respuesta, y un listado mayor, puede verse en Caadas y Snchez Bruno, (1998). Gua para construir escalas de actitudes
Cuadro 3
La conveniencia de obtener ms o menos informacin adicional variar segn la situacin y la finalidad. Podemos limitarnos a construir una escala y en un momento posterior obtener nuevos datos, pero siempre es til obtener informacin adicional de los sujetos (adems de los datos que podemos denominar censales o muy obvios: sexo, curso o profesin, etc.). Ms adelante presentamos sugerencias sobre cmo recoger datos adicionales, pero bsicamente estos datos son de dos tipos: 1. Datos censales o sociolgicos, como edad, sexo, ocupacin o curso, estado civil, etc. Estos datos servirn para describir la muestra y para hacer anlisis adicionales (como exponer datos descriptivos por sexos, comparar subgrupos, preparar normas de interpretacin individual como los percentiles, para los distintos subgrupos, etc.). 2. Datos de otro tipo, como pueden ser preguntas relacionadas con lo que se pretende medir, u otros tests o escalas que pueden estar relacionados con la variable que estamos midiendo, etc.; el objetivo de estos datos adicionales es facilitar la comprobacin de la validez de nuestra escala.
verse tratado este tema en Dodeen (2003). Gua para construir escalas de actitudes
12
Una explicacin detallada sobre cmo utilizar el SPSS en la construccin de escalas en Morales, Urosa y Blanco (2003). Este programa nos hecho el anlisis de tems (correlacin tem-total), la fiabilidad de toda la escala y la fiabilidad si suprimimos un tem. Gua para construir escalas de actitudes
10
En este ejemplo metodolgico tenemos el anlisis de una breve escala de slo cuatro tems. Las columnas que nos interesa examinar son las dos ltimas: la correlacin tem-total (menos el tem) y la fiabilidad de todo el test o escala si suprimimos ese tem. En este ejemplo la fiabilidad obtenida es de .645, pero si suprimimos el tem 4 (es el que tiene una menor correlacin con el total), sube a casi .67; si suprimimos cualquier otro tem, baja la fiabilidad; habra que suprimir por la tanto el tem 4. Estos programas facilitan notablemente el proceso, pero conviene hacer algunas observaciones (aplicables tambin si utilizamos el contraste de los grupos extremos que veremos a continuacin). a) Es cuestionable seguir cuasi mecnicamente procedimientos automticos; el constructor del instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las caractersticas del instrumento (por ejemplo, incluir un nmero idntico de tems positivos y negativos)13. b) Por otra parte estos programas nos dan la fiabilidad si suprimimos tems de uno en uno, pero no si suprimimos ms de uno a la vez, y normalmente no interesa ir eliminando tems uno a uno sino en bloques escogidos con algn criterio (como el tener una casi idntica correlacin tem-total, o buscando que haya un nmero idntico de tems positivos y negativos). c) Adems es normal que varios subconjuntos de tems tengan un fiabilidad idntica o similar, por lo que habr que acudir a otros criterios en la seleccin definitiva de los tems (como consideraciones conceptuales y resultados del anlisis factorial). La correlacin tem-total que podemos encontrar ya programada es sumamente til, pero en principio no debe ser la nica consideracin en la seleccin de los tems definitivos. Por esta razn en un apartado posterior aadimos algunas consideraciones sobre la eleccin definitiva de los tems.
9.1.2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y menores en el total de la escala.
El procedimiento anterior es muy laborioso si no se hace con un programa de ordenador; un procedimiento ms sencillo, y que aporta una informacin semejante, es comparar en cada tem el 25% con puntuacin total ms alta con el 25% con puntuacin total ms baja14. Para esto: 1 Ordenamos a los sujetos de ms a menos, segn el total obtenido en toda la escala, y seleccionamos dos subgrupos: grupo superior, el 25% con total ms alto, y grupo inferior, el 25% con puntuacin total ms bajo; el 50% central no entra en este anlisis. 2 Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos, superior e inferior; 3 Contrastamos las medias de estos dos grupos mediante la t de Student. Lo que esperamos es que el 25% con una puntuacin total superior tenga una media significativamente ms alta en cada tem que el 25% inferior. Podremos en este caso concluir que los tems que simultneamente diferencian a los mismos sujetos estn midiendo lo mismo. Prescindiremos de los tems que no discriminan (valores de t no significativos), y si son muchos o demasiados los que discriminan (y esto sucede con frecuencia), podemos quedarnos con los ms discriminantes; siempre hay tems mejores que otros en trminos relativos. En la eleccin definitiva de los tems pueden intervenir adems otros criterios, como ya hemos indicado y explicamos despus con ms detenimiento, pero en cualquier caso debe estar claro su poder discriminatorio que a su vez nos confirma que los tems miden bsicamente lo mismo. Para hacer estos anlisis conviene disponer los datos de manera clara y tener a al vista algn modelo (no hay un modo nico de presentar los datos). Aunque hagamos todo el proceso con ordenador es
13 Ya hemos indicado que es til calcular la correlacin entre los dos subtotales (sumando por separado las respuestas a los tems positivos y negativos); si la correlacin est en torno a .50 podemos excluir el influjo de la aquiescencia en las respuestas. 14 Este anlisis se hace muy fcilmente con una hoja de clculo tipo EXCEL. Gua para construir escalas de actitudes
11
importante saber qu estamos haciendo, y adems, tal como nos vienen los resultados del ordenador, no es siempre la mejor manera de presentarlos. En este ejemplo (ficticio y con resultados muy exagerados, cuadro 5) de un total de 40 sujetos (nmero muy bajo si se tratara de un caso real) comparamos las respuestas de los 10 sujetos (25%) con totales ms altos y ms bajos. Tambin es til calcular la media y la desviacin tpica de cada tem en toda la muestra; las desviaciones tpicas de los tems en toda la muestra nos harn falta despus para calcular la fiabilidad. Tambin se podran poner como ejemplos correlaciones tem-total, pero el contraste de medias de los grupos extremos resulta ms grfico y es muy fcilmente comprensible.
tem n 1 en toda la muestra: X = = n 2 en toda la muestra: X = = n 3 en toda la muestra: X = = 25% Superior 25% Inferior 25% Superior 25% Inferior 25% Superior 25% Inferior
||| (4) |||| (4) ||| (3) |||||| (6) ||||| (5) || (2) || (2) || (2) ||||| (5) ||| (3) || (2) | (1) | (1) || (2) 5 4 ||||| (5) ||| (3) | (1) || (2) ||||||| (7) 3 2 1 diferencia
X s =3.9 = .70 X i = 1.4 = .66 X s = 4.4 = .49 X i = 4.1 = .70 X s = 2.8 = .49 X i = 3.9 = 1.04
X s - X i= 2.50
t= p
Cuadro 5 En este ejemplo ficticio (cuadro 4; con datos exagerados, de fcil interpretacin): El tem n 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e inferior es muy superior a lo puramente aleatorio; este tem habra que retenerlo. El tem n 2 discrimina poco, la diferencia no es significativa y habr que eliminarlo en la escala definitiva. El tem n 3 tiene discriminacin negativa, los del grupo inferior superan a los del grupo superior; claramente este tem no es sumable con los dems, no mide lo mismo y hay que rechazarlo. En este caso tambin puede suceder que est mal la clave de correccin. Con cualquiera de los dos procedimientos (correlacin tem-total y contraste de medias entre los dos grupos extremos) obtenemos un dato (r t) sobre la calidad del tem; ambos tipos de informacin nos dicen si podemos considerar que el tem discrimina adecuadamente y consecuentemente si podemos considerar que mide lo mismo que los dems. Cul de los dos anlisis es preferible? Los dos anlisis aportan informacin semejante; un tem que diferencia adecuadamente a los grupos con total mayor y menor est claramente relacionado con el total de la escala; prcticamente con los dos procedimientos se llega a la misma seleccin de tems, sobre todo si nos vamos a quedar con los mejores tems. En la prctica el escoger un mtodo u otro es cuestin de conveniencia. Si disponemos de un programa de ordenador como el SPSS, con la correlacin tem-total y la fiabilidad ya programados, es el procedimiento ms cmodo y el que hoy da suele seguirse. En procesos de aprendizaje sobre cmo construir escalas quizs el contraste de medias entre los grupos extremos es intuitivamente ms claro15.
15 El autor del procedimiento (Likert) recomienda y utiliza el contaste de medias, pero en su poca no se dispona de los programas de ordenador con los que contamos hoy da. Gua para construir escalas de actitudes
12
2 i 1 = k 1 2 t
k
k = nmero de tems i2 = suma de las varianzas de todos los tems 2 t = varianza de las puntuaciones totales
Aunque llevemos a cabo todo el proceso con un programa de ordenador, debemos tener muy claro qu es lo que estamos haciendo. Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos de tems para quedarnos finalmente con la seleccin de tems que ms nos convenza como versin definitiva de nuestro instrumento. El proceso es el siguiente: 1 En primer lugar calculamos la fiabilidad de la escala inicial con todos los tems, 2 En un segundo lugar: a) Eliminamos los tems que con ms claridad no son discriminantes (no diferencian bien a los dos grupos extremos, o tienen las correlaciones tem-total ms bajas); b) De nuevo recontamos a los sujetos su nueva puntuacin total (pues hemos eliminado algunos tems) c) Volvemos a calcular la fiabilidad de la nueva versin de la escala ms reducida. 3 Vamos repitiendo el proceso del paso anterior, calculando la fiabilidad cada vez con menos tems, hasta que la fiabilidad empieza a bajar. 4 Nos quedamos en principio con la versin de la escala que tiene una fiabilidad ptima. Los tems los vamos suprimiendo de uno en uno, o en pequeos bloques. No se trata de un proceso totalmente mecnico, pues como comentaremos despus, pueden entrar otras consideraciones en la eleccin de los tems, pero los tems que vamos reteniendo deben ser tems que correlacionan bien con el total (o que diferencian bien a los sujetos en los grupos extremos). En cualquier caso la norma de retener el subconjunto de tems que nos de una mxima fiabilidad es vlida en principio, aunque siguiendo este criterio de manera literal no obtendremos necesariamente el mejor instrumento posible. Para calcular estos coeficientes de fiabilidad necesitamos estos datos que son los que entran en las frmulas: 1. El nmero de tems, que ir variando cada vez segn vamos eliminando algunos. 2. La varianza de cada tem en toda la muestra, que debe estar calculada previamente; se suman las varianzas de los tems que componen cada versin de la escala pues la suma de las varianzas de los tems entra en la frmula el coeficiente de fiabilidad ( de Cronbach). 3. La varianza de los totales. sta es la parte ms laboriosa si no se hace con un programa de ordenador, pues a cada sujeto hay que recontarle su nueva puntuacin segn se van eliminando tems. De estos nuevos totales se calcula la varianza (y la media, que siempre ser un dato descriptivo importante aunque no sea necesaria en el clculo de la fiabilidad). Aunque no dispongamos de un programa de ordenador, estos clculos resultan ms sencillos si tenemos los datos bien organizados, y siempre es til tener algn modelo a la vista. Una manera de ir controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones de la escala
Gua para construir escalas de actitudes
13
segn se va calculando la fiabilidad con unos tems y otros (como figura en el cuadro 6). Aunque utilicemos un programa de ordenador es conveniente entender lo que realmente estamos haciendo, y adems un cuadro como ste es una buena manera de presentar el proceso.
tems en las versiones sucesivas todos los tems eliminamos tems n eliminamos tems n eliminamos tems n nmero de tems de cada versin k media de los totales desviacin tpica Suma de las de los totales varianzas de los 2 tems i coeficiente de fiabilidad
Cuadro 6 En la tabla vamos colocando los datos que intervienen en la frmula. La media de los totales (de cada nueva versin) no es necesaria para calcular la fiabilidad, pero conviene ponerla como dato descriptivo de inters. Si utilizamos este cuadro para presentar el proceso seguido, podra sobrar la columna de la suma de las varianzas de los tems, porque este dato no es especialmente informativo aunque entra en la frmula de la fiabilidad. El proceso, como vamos viendo, es ste: 1 Calculamos el coeficiente de fiabilidad con todos los tems iniciales; 2 Eliminamos los peores tems y volvemos a calcular la fiabilidad y as sucesivamente hasta que nos quedamos con el conjunto de tems que nos da la mayor fiabilidad. Los datos de la frmula del de Cronbach van variando segn vamos eliminando tems. Cada vez que eliminamos algn tem hay que contar a cada sujeto su nueva puntuacin total, pues necesitamos conocer la varianza de los nuevos totales. 3 Cuando al eliminar tems vemos que baja la fiabilidad, damos por terminado el trabajo. Al final nos quedamos con el subconjunto de tems que forme una escala con una fiabilidad ptima. Este proceso, seguido de manera casi automtica, nos lleva a construir instrumentos (escalas de actitudes en nuestro caso) de una calidad adecuada: la validez, al menos conceptual, la hemos ya procurado al redactar los tems, y con un anlisis de tems que nos permite a desechar los peores, podemos garantizar una fiabilidad aceptable (al menos la mayor posible en nuestro caso). Sin embargo en estos procesos caben niveles de perfeccionismo, y a partir del mismo conjunto inicial de tems cabe llegar a instrumentos mejores o peores. La inversin en tiempo, anlisis, confeccin y comparacin de versiones distintas del mismo instrumento, etc., puede depender del uso pretendido del mismo; no es lo mismo preparar una escala para una evaluacin sencilla de actitudes sin muchas pretensiones, que para hacer una investigacin ms seria en torno a la actitud medida por nuestro instrumento (no es lo mismo construir un instrumento como un simple ejercicio acadmico, o para una experiencia didctica o para aportar un feedback a unos sujetos en una determinada situacin, que construir una escala para medir un rasgo que va ser central en una tesis doctoral o en una investigacin ms seria o que pensamos publicar). El rigor metodolgico no tiene que ser siempre el mismo, con tal de garantizar siempre un rigor suficiente. Si pretendemos construir un instrumento de una calidad superior, o simplemente deseamos hacerlo lo mejor posible, ya hemos repetido que este proceso no tiene por qu ser automtico. Tambin tienen su lugar nuestras propias ideas sobre lo que queremos medir, nuestra propia concepcin del rasgo. En la eleccin definitiva del conjunto de tems que van a formar la escala deben entrar tambin otros criterios ms
14
conceptuales que modulen esta seleccin; con frecuencia tendremos versiones con distinto nmero de tems que apenas difieren en fiabilidad. En principio deben eliminarse aquellos tems que hacen que la fiabilidad sea menor, pero a veces eliminando un tem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente con otros criterios (una idea o aspecto del constructo puede quedar mal representada o de manera muy incompleta). Otras veces entre los tems que contribuyen a una mejor fiabilidad hay alguno que, una vez eliminados otros previamente, puede tener poco sentido porque desequilibra el significado, etc., y puede ser mejor eliminarlo tambin. El que la fiabilidad vare en el tercer decimal importa poco. Tambin puede suceder que con menos tems obtengamos una fiabilidad igual o semejante que con un nmero mayor de tems. Frecuentemente tendremos ms tems de los que necesitamos para llegar a una escala con una fiabilidad ms que aceptable. Adems, y a la vista de lo que va sucediendo, podremos probar qu sucede si incluimos o excluimos algunos tems en particular, o podemos ir comprobando la estructura factorial de las distintas versiones. Es normal que de un conjunto de tems amplio nos pueda quedar ms de una escala, sobre todo si el constructo medido tiene cierta complejidad. En estos casos la escala prevista puede quedar dividida en subescalas, o podemos tener un instrumento largo que mide el rasgo ms general y que a la vez se puede dividir en subescalas que dan puntuaciones de los componentes. Para este proceso (que aqu no tratamos de manera especfica) suele utilizarse el anlisis factorial, que adems puede ser un buen mtodo complementario para seleccionar los tems16. Como estamos tratando del anlisis de tems y de la fiabilidad como criterios (no nicos) de calidad, no debemos olvidar que aunque es verdad que en general a mayor nmero de tems tendremos una mayor fiabilidad, tambin es verdad que con ms respuestas en los tems tambin aumenta la fiabilidad. Procedimiento inverso, recomendado por algunos autores, y que puede ser preferible. En vez de calcular la fiabilidad primero con todos los tems y de nuevo eliminando progresivamente los que menos discriminan, podemos seguir el proceso inverso: 1 Calculamos la fiabilidad con el subconjunto de tems que ms discriminan (mayor correlacin con el total o mayor diferencia entre los grupos extremos). 2 Aadimos unos pocos tems, los ms discriminantes de los que nos quedan y volvemos a calcular la fiabilidad. 3 Damos la tarea por terminada cuando la fiabilidad empieza a bajar. Con este procedimiento nos quedar normalmente una escala ms breve, sobre todo si partimos de muchos tems. Los tems se pueden ir aadiendo de uno o en uno, o de cinco en cinco, o en pequeos bloques de tems de discriminacin parecida. Como antes, se pueden tener tambin criterios ms conceptuales, para que nos quede un instrumento equilibrado y a nuestro gusto.
(que en principio es el preferible) es utilizar alguna de las frmulas basadas en la particin del test o escala
Una alternativa ms sencilla (no siempre, depende de los medios disponibles) al clculo del coeficiente
en dos mitades. Para esto: 1 Al corregir la escala a cada sujeto se le calculan dos puntuaciones totales, una en los tems pares y otra en los tems impares (y la suma de los dos subtotales ser el total de cada sujeto); 2 Despus se calcula la correlacin entre las dos mitades pues esta correlacin entra en estas frmulas de la fiabilidad basadas en la particin del test en dos mitades17. Conviene repasar en otro lugar todo lo referente a estas frmulas; en principio es preferible utilizar las frmulas del coeficiente de Cronbach o Kuder-Richardson 20.
16 Ejemplos de anlisis factoriales de diversas escalas e instrumentos en Morales (2005). 17 Hay varias frmulas de la fiabilidad basadas en la particin del test en dos mitades y conviene revisarlas antes de escoger una, pero en cualquier caso siempre es preferible calcular el coeficiente de Cronbach.
15
16
4 Incorporacin de nuevos tems Cuando con pocos tems que en principio nos convencen porque expresan bien lo que deseamos medir, no alcanzamos una fiabilidad adecuada, podemos acudir a las frmulas que nos dicen cuntos tems del mismo estilo (de formulaciones parecidas) deberamos aadir para alcanzar una fiabilidad determinada18. Tambin puede suceder que algunos de los tems eliminados en el anlisis, y que conceptualmente nos parezcan adecuados, simplemente estn mal formulados y haya que hacer una redaccin nueva. 5 Preparacin de dos versiones, corta y larga, de la misma escala Con frecuencia podremos observar que un nmero reducido de tems nos da una fiabilidad aceptable. Puede ser interesante hacer dos versiones, una la versin normal o larga, y otra breve, quizs con una fiabilidad menor, pero apta para muchos de los usos de estos instrumento. Podemos verificar qu fiabilidad obtenemos seleccionando solamente los mejores tems, que pueden ser muy pocos (cinco o seis, por ejemplo). Estas versiones breves suelen ser tiles como instrumentos complementarios en investigaciones en las que el nfasis o el inters del investigador est en otro rasgo distinto, pero le interesa adems medir otras variables con suficiente precisin pero utilizando instrumentos breves y econmicos. 6 Explicacin o redefinicin del rasgo medido por nuestro instrumento En esta observacin no nos referimos a la seleccin definitiva de los tems, sino a las consecuencias de esta seleccin. A veces, y a la vista de los tems que han sido retenidos en la escala definitiva, habr que redefinir lo que pretendemos medir o al menos explicarlo adecuadamente aunque se mantenga el nombre del instrumento. Los trminos para designar los rasgos suelen ser muy genricos, y de hecho instrumentos con el mismo nombre (como actitud hacia el estudio, autoestima, etc.) pueden no coincidir en lo que de hecho miden, que puede ser definido con unos lmites ms ajustados. Podemos comenzar, por ejemplo, construyendo una escala de actitud hacia el estudio, pero al eliminar una serie de tems y fijarnos en los que nos quedan, puede ser preferible hablar de nivel de aspiraciones, o de constancia en el estudio, etc. (lo que de hecho estemos midiendo). Al menos debe quedar explicado de alguna manera.
18 Estas frmulas que relacionan la longitud de un test y su fiabilidad suelen encontrarse en textos en los que se trata de la fiabilidad de manera ms especfica y en la obra citada de Morales, Urosa y Blanco (2003). Gua para construir escalas de actitudes
17
No tratamos aqu de manera especfica sobre la validez, pero es til recordar ahora algunas ideas bsicas sobre la validez y cmo probarla. No hay una prueba de validez en sentido estricto, pero s podemos tener datos que apoyen una determinada interpretacin, avalen la utilidad del instrumento, etc.19 Una visin de conjunto de lo que entendemos por validez y de los modos de comprobarla est resumida en el cuadro 7.
Cmo comprobamos el significado y la utilidad Las interpretaciones se pueden reducir a dos grandes tipos: analizando el contenido Necesario pero no siempre suficiente Ms fcil en pruebas de rendimiento escolar (nos ajustamos a un plan, a una tabla de especificaciones); Ms difcil o ms limitado: a) Cuando tratamos de medir rasgos ms abstractos (como son los rasgos de personalidad); b) Cuando queremos ampliar el significado, o generalizarlo a otras situaciones; c) Cuando en las respuestas es ms probable que influyan otras variables (aquiescencia, deseo de quedar bien, etc.) No es una estrategia vlida o al menos es insuficiente; pero el anlisis del contenido ayuda a formular hiptesis predictivas con mtodos experimentales Estrategias: comprobar hiptesis sobre el significado de la variable que medimos; dos estrategias bsicas: Validacin convergente; Validacin divergente
a) Interpretaciones sobre el significado de lo que medimos (validez de constructo) A pesar de la validez aparente de los tems, podemos medir, al menos parcialmente, algo distinto de lo que pretendemos, como capacidad lectora, deseo de presentar una buena imagen, etc.; adems los que responden pueden entender otra cosa distinta o no entender lo que se les pregunta, etc. b) Interpretaciones sobre la utilidad del instrumento ( validez predictiva, en sentido amplio)
Necesario siempre; Mtodos correlacionales; Problemas posibles: validez y fiabilidad del criterio que se pretende predecir
Cuadro 7 Con los estudios de validacin pretendemos, sobre todo, dos finalidades (que se apoyan mutuamente): 1 Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir. Se trata de verificar que la interpretacin es correcta (si, por ejemplo, decimos que estamos midiendo actitud hacia el estudio, verificamos que es eso, y no otra cosa, como inteligencia, lo que de hecho medimos). Este tipo de validez suele denominarse validez de constructo (constructo = rasgo). Confirmamos el significado comprobando hiptesis basadas en el mismo significado; podemos utilizar dos tipos de estrategias que se complementan: 1. Validez convergente: por ejemplo comprobando relaciones esperadas y plausibles (positivas o negativas) con otras medidas: a) unas pueden ser otros instrumentos que pretendidamente miden lo mismo (si hacemos una escala de autoconcepto esperaremos una correlacin significativa con otras escalas de autoconcepto); b) otras pueden medir otras cosas pero con l as que esperamos que haya relacin (como entre actitud hacia el estudio y calificaciones escolares).
19 Sobre la validez las normas de la American Educational Research Association (A.P.A.) dicen que la validez se refiere al grado en el que la evidencia y la teora apoyan (support) las interpretaciones de los tests de acuerdo con el uso que se va a hacer de estos tests. Gua para construir escalas de actitudes
18
2. Validez divergente: comprobando que el rasgo no tiene relacin con otros con los que no esperamos que la tenga o que se diferencia de otros del mismo mbito (la asertividad de la agresividad, puede haber relacin pero no tan alta que nos permita concluir que ambos instrumentos miden lo mismo); podemos tambin comprobar si la escala diferencia grupos que ya sabemos que son diferentes en esa variable. Hay otros mtodos para confirmar, matizar, describir mejor o explorar el significado de lo que medimos, como es el anlisis factorial y otros tipos de anlisis. 2 Comprobar la utilidad prctica del instrumento En este caso verificamos, por ejemplo si existen correlaciones apreciables con determinados criterios (como rendimiento acadmico, xito en una tarea, etc.; se trata de validez predictiva en sentido amplio). Esta comprobacin de la utilidad tambin aporta datos a la comprobacin del significado.
12. Sugerencias para obtener datos adicionales que faciliten la validacin de la escala
Las sugerencias puestas a continuacin estn estructuradas pensando en los posibles anlisis sobre la validez, pero en cualquier caso siempre es til e informativo hacer algn estudio de tipo correlacional o de comparacin de grupos. 12.1. Confirmacin del significado pretendido (validez de constructo) Los anlisis pueden tener dos enfoques bsicos (hay ms), como son 1 los estudios correlacionales y 2 las comparaciones entre grupos. Por lo que respecta a los anlisis correlacionales, y para tener una visin de conjunto, vamos a pensar en tres tipos de relaciones (o en su caso, de no relaciones): 1 con instrumentos que miden el mismo rasgo (ms o menos) 2 con instrumentos que no miden el mismo rasgo, pero s otros rasgos que estn relacionados (al menos como hiptesis razonable) con el que medimos nosotros 3 con instrumentos que miden otros rasgos con los que esperamos que no haya relacin (o menor que si midieran el mismo rasgo). 12.1.1. Anlisis correlacionales Podemos distinguir tres estrategias basadas en estudios correlacionales. 1 Relacin con otros modos de medir el mismo rasgo Comprobamos la relacin entre nuestro instrumento y otros modos de medir el mismo rasgo. Otros modos de medir lo mismo pueden ser: a) Una pregunta amplia (hasta qu punto crees que eres as: etc.?) y sigue una descripcin de un par de lneas del que supuestamente tiene el rasgo en un grado alto. b) Otro mini-test de pocos tems que ms o menos mida lo mismo, por ejemplo: 1. Desde otra perspectiva (por ejemplo conductas probables en vez de opiniones), 2. Con un instrumento que mide el mismo rasgo pero construido con una tcnica distinta (por ejemplo eleccin entre alternativas o un Semntico Diferencial) c) Otra escala o test (o factor, o subescala, o seleccin de tems, etc.) de otro autor y que supuestamente comprueba lo mismo (o muy parecido) d) Si es posible, se puede comprobar la relacin entre autoevaluacin (si se trata de la medicin de un rasgo propio ms que la actitud hacia otra cosa) y hteroevaluacion.
19
Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y tambin pueden ser simples preguntas. 2 Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos Podemos comprobar tambin la relacin entre lo que mide nuestro instrumento y otros rasgos o caractersticas distintas con las que esperamos que haya relacin (positiva o negativa): a) Una lista de adjetivos o rasgos autodescriptivos que podran equivaler a una serie de tests de personalidad; tambin se pueden sumar adjetivos que reflejen ms o menos el mismo rasgo (mediante el anlisis factorial se pueden encontrar grupos de adjetivos relacionados entre s y que reflejan un mismo rasgo subyacente a todos ellos). b) Tests de personalidad (completos o en parte, subtests, etc. ), c) Preguntas sueltas sobre diversos temas, otras actitudes, preferencias, etc. que, como hiptesis, puedan tener relacin con la actitud medida; (por ejemplo preguntas de este estilo: de estas profesiones cual te hubiera gustado ms para ti? Se escoge una entre varias, o se escoge una de cada par, o se valoran todas independientemente, etc.). 3 Comprobar que no existe relacin donde no esperamos que la haya Esta no relacin nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen al misma mbito conceptual y es fcil confundirlos. La no relacin no hay que entenderla de manera literal; puede tratarse de relaciones, incluso estadsticamente significativas, pero menores que con otros rasgos, y de acuerdo con un razonamiento plausible. 1.2.1.2. Comparaciones entre grupos El otro enfoque mencionado al principio de este apartado consiste en comparar grupos supuestamente distintos en aquello que estamos midiendo. a) Todas las comparaciones entre grupos equivalen a anlisis correlacionales (como en definitiva todos los anlisis estadsticos): nos da lo mismo, por ejemplo, preguntarnos si los nios superan a las nias en el rasgo o actitud A (y haremos un contraste de medias), que preguntarnos si el sexo est relacionado o tiene que ver con la actitud A (y calcularemos un coeficiente de correlacin entre el gnero, 1 0, y la actitud medida). Es ms, no slo hay una obvia relacin conceptual entre las dos preguntas (diferencia entre medias o relacin), sino que mediante las frmulas oportunas podemos transformar un valor de la t de Student en un coeficiente de correlacin. b) Aun as nuestras preguntas espontneas son unas veces en trminos de relacin, y otras en trminos de diferencias; ambos enfoques nos ayudan a formular hiptesis que podemos intentar confirmar, y adems los procedimientos de anlisis son en principio distintos aunque en ltima instancia aporten la misma informacin. c) Al preparar nuestro instrumento de recogida de datos, debemos pensar qu preguntas podemos hacer que identifiquen a los sujetos segn grupos de pertenencia (segn profesiones, edades, sexos, etc.) o segn caractersticas personales de inters que permitan subdividir la muestra en subgrupos (preferencias por A B, preguntas en relacin con el estilo de vida, valores, etc.) d) El anlisis estadstico obvio ser un contraste de medias, o anlisis de varianza si las muestras son ms de dos. Resumiendo Los anlisis sugeridos (correlaciones y comparaciones de grupos) no agotan todos los anlisis posibles en relacin con la validez, pero s son los ms obvios y con frecuencia suficientes. Como ya hemos indicado antes se trata en todos los casos de obtener datos para poder verificar hiptesis (y tambin para explorar):
20
a) El instrumento mide algo relacionado (positiva o negativamente) con otras cosas con las que lgicamente esperamos que haya relacin (validacin convergente). Unas veces comprobamos relacin con el mismo rasgo medido de otra manera (o por otras personas, por ejemplo auto y htero-evaluacion); Otras veces comprobamos relacin con rasgos distintos pero lgicamente relacionados. b) El instrumento mide algo que no est relacionado con lo que no se espera que lo est (validacin divergente). La no relacin tambin es til para ver que no confundimos unas cosas con otras, y porque tambin son datos informativos. 12.2 Confirmacin de la utilidad del instrumento (validez predictiva) Bsicamente se trata de calcular coeficientes de correlacin entre el instrumento (lo que mide el test o escala) y determinados criterios (como rendimiento acadmico, determinadas habilidades, etc.). Estos son los coeficientes que suelen denominarse coeficientes de validez. Tambin cabe hacer estudios meramente exploratorios o que respondan a hiptesis no directamente relacionadas con la validez. El complemento de la construccin de un instrumento pueden ser adems unas normas de interpretacin (baremos), para los sujetos individuales que respondan: percentiles, estaninos, etc.
21
13. Bibliografa
13.1. Referencias bibliogrficas citadas
AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN P SYCHOLOGICAL ASSOCIATION and NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999). Standards for Educational and Psychological Testing. Washington DC: American Educational Research Association BARNETTE, JACKSON J. (2000). Effects of stem and Likert response option reversals on survey internal consistency: if you feel the need, there is a better alternative to using those negatively worded stems. Educational and Psychological Measurement, 60 (3), 361-370. CAADAS OSINSKI, ISABEL y SNCHEZ BRUNO, ALFONSO (1998), Categoras de respuesta en escalas tipo Likert. Psicothema, vol. 10, n 3, 623-631. CHANG, LEI (1997). Dependability of Anchoring Labels of Likert-Type Scales. Educational and Psychological Measurement, 57 (5), 800-807. DODEEN, HAMZEH M. (2003). Effectiveness of Valid Mean Substitution in Treating Missing Data in Attitude Assessment. Assessment & Evaluation in Higher Education. Vol. 28, n 5, 505-513. GARDNER, DONALD G.; CUMMINGS, L.L.; DUNHAM, RANDALL B. and P IERCE, JON L. (1998). Singleitem versus multiple item measurement: an empirical comparison. Educational and Psychological Measurement, 58 (6), 898-915. MORALES VALLEJO, P EDRO (2005). Anlisis factorial en la construccin e interpretacin de tests, escalas y cuestionarios. http://www.upcomillas.es/personal/peter/ MORALES VALLEJO, P EDRO (2006). Medicin de actitudes en Psicologa y Educacin, construccin de escalas y problemas metodolgicos, tercera edicin revisada. Madrid: Universidad Comillas. MORALES VALLEJO, P EDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003). Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla. NUNNALLY, JUM C. (1978). Psychometric Theory. Second Edit. New York: McGraw-Hill. WENG, LI-JEN (2004). Impact of the Number of Response Categories and Anchor Labels on Coefficient Alpha and Test-Retest Reliability. Educational and Psychological Measurement, 64, 6, 956-972.
EDWARDS, A.L., (1957a). Techniques of Attitude Scale Construction. New York: Appleton-CenturyCrofts. GABLE, ROBERT K. AND WOLF, MARIAN B. (1986). Instrument Development in the Affective Domain. Boston/Dordrecht/Lancaster: Kluwer-Nijhoff Publishing. HENERSON, M.E., MORRIS, L.L. AND FIZT-GIBBON, C.T . (1978). How to Measure Attitudes, Beverly Hills: Sage. KING, M. AND ZIEGLER, M. (1975). Research Projects in Social Psychology. Monterrey: Brooks-Cole. KLINE, P. (1986). A Handbook of Test Construction. New York: Methuen.
22
LIKERT, R. (1932). A Technique for the Measurement of Attitudes, Archives of Psychology, 140, 44-53 [en espaol en WAINERMAN, C.H. (Ed.), (1976). Escalas de medicin en las ciencias sociales. Buenos Aires: Nueva Visin, 199-260 y en SUMMERS, GENE F. (Ed.) (1976). Medicin de actitudes. Mxico: Trillas, 182-193]. MORALES VALLEJO, P EDRO (2006). Medicin de actitudes en Psicologa y Educacin, construccin de escalas y problemas metodolgicos, tercera edicin revisada. Madrid: Universidad Comillas. MORALES, PEDRO (2005). Anlisis factorial en la construccin e interpretacin de tests, escalas y cuestionarios. http://www.upcomillas.es/personal/peter/ MORALES VALLEJO, P EDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003). Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla. MORRIS, LYNN LYONS, FIZT-GIBBON, CAROL T AYLOR, AND LINDHEIM, ELAINE (1987). How to measure attitudes. Newbury Park & London: Sage. NUNNALLY, JUM C. (1978). Psychometric Theory. New York: McGraw-Hill. SPECTOR, P AUL E. (1992). Summating Ratings Scale Construction: An Introduction. Newbury Park & London: Sage. WAINER, HOWARD AND MESSICK, SAMUEL (Eds.) (1983). Principals of Psychological Measurement. Hillsdale, N. J.: Lawrence Erlbraun.