Documente Academic
Documente Profesional
Documente Cultură
ISSN 1697-2600
2005, Vol. 5, N 3, pp. 521-551
Correspondencia: Facultad de Psicologa. Universidad de Granada. Campus Cartuja. 18071 Granada (Espaa). E-mail: hugocd@ugr.es.
522
clinical and health psychology fields. The content is structured on seven principal
points, which are centred in each one of distinct phases of the test creation/adaptation
process. These are: study justification, conceptual and theoretical framework related to
construct to be assessed, items contruction and item theoretical assessment, item analysis,
internal structure study, reliability, and studies to obtain external evidences of validity.
An abstract of basic rules to be considered is presented. Finally it is noted the relevance
to not consider this rules only to create or adapt tests but to assess the adequacy about
using a particular assessment instrument.
KEY WORDS. Norms to review instrumental studies. Test construction. Tests adaptation.
Theoretical study.
Introduccin
Dentro de la gran variedad de trabajos de investigacin que surgen desde la Psicologa, los centrados en la construccin o adaptacin de tests ocupan un lugar destacado, lo que podra ponerse de manifiesto a travs de distintos ejemplos. As, la base
de datos PsycINFO, con las palabras clave test construction, test adaptation y test
translation dentro del campo de bsqueda materia (unidas con el nexo or), proporciona para los ltimos cinco aos (2000-2004) un total de 2752 publicaciones. De igual
modo, en un estudio donde fue analizada la proporcin de trabajos publicados segn su
metodologa de estudio en las revistas de Psicologa en castellano con factor de impacto
durante los aos 2000-2001 (Buela-Casal, Carretero-Dios y De los Santos-Roig, 2002),
se constat como el 22% de los artculos publicados en la revista Psicothema, el 13%
de los aparecidos en la Revista Latinoamericana de Psicologa y el 25% de los presentes en la Revista Mexicana de Psicologa tenan como objetivo analizar las propiedades
psicomtricas de algn instrumento de evaluacin. Si a esto se le aade que en la
mayora de trabajos de investigacin llevados a cabo en Psicologa se hace uso de tests,
Int J Clin Health Psychol, Vol. 5, N 3
523
524
En este estudio van a proponerse las normas a tener en cuenta para la elaboracin
y revisin de investigaciones instrumentales (vase el Anexo 1). Su finalidad es la de
servir como referencia para el interesado en la publicacin o revisin de trabajos de
estas caractersticas, a la vez que se llama la atencin al usuario de tests, es decir,
se insiste en que estas normas sean igualmente tenidas en cuenta a la hora de seleccionar un instrumento de medida ya disponible para su aplicacin. La intencin no es que
los criterios que van a especificarse sean definitivos e indiscutibles. stos, a travs de
la comunicacin e intercambio entre profesionales, junto con el inevitable avance del
conocimiento, y considerando las observaciones, reflexiones y sugerencias que puedan
emitirse desde distintos puntos de vista, debern ir retocndose y adaptndose.
525
526
a cabo los resultados suelen alejarse de los encontrados con la escala original. As,
distintos autores han destacado como la traduccin suele ser una eleccin rpida y
arriesgada que conduce a resultados inadecuados (Osterlind, 1989; Smith et al., 2003),
y que finalmente provoca, en el mejor de los casos, un paso atrs en la investigacin
para una nueva formulacin de tems, y en el peor, un abandono del proceso y un dato
ms sin conexin ni utilidad. Por ello, hay que insistir en que la creacin y adaptacin
de tests es cuestin de reflexin y no de premura, y que se adopte la eleccin que se
adopte, deben seguirse las recomendaciones generales sobre este difcil proceso (AERA
et al., 1999). Dado que la traduccin es una prctica habitual entre los investigadores,
las normas que van a presentarse van a ocuparse de este proceso, aunque entendido
como uno de los posibles pasos a dar dentro de una adaptacin, y sin dejar de recomendar al lector que acuda a trabajos especializados como los anteriormente citados.
527
528
529
estas relaciones las que acaban dando significado al valor que la escala facilite, siendo
esencial e ineludible su justificacin y especificacin.
Construccin y evaluacin cualitativa de tems (C)
En el momento que se cuenta con un constructo claramente delimitado en cuanto
a sus facetas o componentes operativos, e igualmente ha sido establecida la red de
relaciones esperadas tanto para el constructo en general como para cada una de sus
facetas, puede emprenderse la tarea de construccin de tems. La elaboracin de los
tems de la prueba va a suponer una etapa crucial dentro del proceso de construccin/
adaptacin de sta, y no conviene olvidar que el uso de los refinados procedimientos
empricos para analizar y seleccionar los tems no permitir construir un test de calidad
si la materia prima es deficiente (Prieto y Delgado, 1996, p. 108). En esta tarea debe
tenerse en cuenta a quin se quiere evaluar (acomodando los tems a su nivel cultural,
edad, lengua, etc.). Adems, la respuesta sobre a quin quiere evaluarse, junto con la
consideracin de otros factores externos que van a estar siempre presentes, va a afectar,
por ejemplo, al tiempo que va a poder dedicarse a la evaluacin, a cmo va a ser la
aplicacin, individual o colectiva, o a cul va a ser el modelo de medida adoptado.
Antes de crear los tems propiamente dichos debe reflexionarse sobre todas las posibles
variables de influencia, las cuales deben afectar al proceso de creacin de tems. En la
mayora de las publicaciones encargadas de presentar los datos referidos a la creacin/
adaptacin de un test, no se presenta informacin sobre las razones que han provocado
que los tems sean redactados de una forma determinada, que se use una escala de
respuesta especfica con un nmero de opciones de respuesta concreto o por qu se ha
decidido, por ejemplo, asociar estas opciones a etiquetas verbales referidas a un criterio
temporal (Nunca, Siempre, A veces, etc.), de intensidad (Poco, Bastante, etc.), o de
adhesin (Totalmente de acuerdo, Nada de acuerdo, etc.). Estas decisiones deben ser
tomadas en funcin de las caractersticas del constructo a evaluar, los modelos tericos
adoptados, objetivo de evaluacin, poblacin de inters y exigencias de la realidad. As,
no puede olvidarse que los tems son la concrecin operativa de los componentes a
evaluar y que de tems inadecuados surge una delimitacin operativa errnea, es decir,
una deficiente validez de contenido (Rubio et al., 2003). Todo ello conlleva la necesidad de proponer una tabla de especificaciones de los tems (Osterlind, 1989), donde
aparezcan todos los elementos necesarios para poder elaborar stos (formato de tems,
escala de respuesta, proporcin dentro de la escala o, incluso, un ejemplo redactado).
La tabla de especificaciones de los tems debe permitir que una persona experta no
involucrada en la construccin/adaptacin del test, teniendo en cuenta la informacin
que all se facilita, pueda generar tems. La delimitacin de la tabla de especificaciones
de los tems es algo que en la actualidad brilla por su ausencia, a pesar de resaltarse
sus ventajas, tanto por el hecho de facilitar que se obtengan tems ms relacionados con
los intereses de partida, como por el hecho de posibilitar le creacin de tems por
profesionales distintos, aumentando la cantidad y variedad de stos, y posibilitando en
mayor medida la obtencin de una adecuada validez de contenido (Osterlind, 1989). El
iniciar la tarea de construccin de tems igualmente conlleva preguntarse por cuntos
tems son suficientes. El autor de la prueba debe tener planificado y justificado el
Int J Clin Health Psychol, Vol. 5, N 3
530
531
definicin semntica qued bien recogida en los tems formulados. En este sentido,
dentro de la fase que nos ocupa, el propsito es proporcionar evidencias a favor de que
los tems construidos son relevantes para el constructo y representan adecuadamente a
cada uno de los componentes propuestos en la definicin semntica (Sireci, 1998). En
los estndares para la creacin de tests psicolgicos y educativos (AERA et al., 1999)
se subraya la necesidad de someter la batera de tems a una evaluacin por parte de
jueces seleccionados por tener unas caractersticas similares a la poblacin objetivo o
por ser expertos en la temtica. Lynn (1986) sugiere un mnimo de 3 jueces, aunque
esta cifra no est consensuada (Gable y Wolf, 1993) y va a depender de los intereses
del investigador y de la complejidad del constructo. A los jueces seleccionados se les
debe facilitar la definicin operativa del constructo a evaluar y la batera de tems
creada. Tienen que estimar si los tems son pertinentes para la faceta para la que han
sido creados, a la vez que indicar si el nmero de tems por componente refleja adecuadamente la importancia atribuida en la definicin. Adems, se aconseja recoger
informacin sobre si los tems estn redactados de manera clara. Esta estimacin debe
hacerse a travs de una escala numrica de entre 5 y 7 puntos (Haynes et al., 1995) o
con cualquier otro procedimiento que permita cuantificar la valoracin de los jueces,
aunque luego los datos a tener en cuenta sean meramente descriptivos, usndose si
acaso el acuerdo inter-jueces para eliminar los tems ms problemticos. Si despus de
esta fase se opta por modificar algunos tems o escribir nuevos elementos, el proceso
de evaluacin debe repetirse. Finalizada la valoracin de los tems por parte de los
jueces, el autor/adaptador debe informar con claridad qu tems han sido eliminados y
por qu, a la vez que debe especificarse cul es finalmente la batera de tems conservada.
Anlisis estadstico de los tems (D)
Tras el anlisis cualitativo de los tems, y para seleccionar los mejores del total de
los disponibles, deben llevarse a cabo distintos estudios dirigidos a analizar mtricamente
las propiedades de dichos tems, anlisis que est basado en una serie de ndices que
van a permitir valorar a cada uno de ellos desde un punto de vista estadstico. El primer
anlisis de la batera de tems suele basarse en la administracin de stos a una muestra
de participantes con unas caractersticas semejantes a la de la poblacin objetivo y que
segn Osterlind (1989) bastara con que estuviese compuesta por entre 50 y 100 participantes. Esta administracin debe hacerse tal y como si el autor tuviera la prueba
definitiva desarrollada, y la intencin es detectar los tems ms problemticos, dificultades para comprender las instrucciones, errores en el formato del instrumento, erratas, etc. En el caso de que el nmero de tems sea demasiado elevado se recomienda
que stos sean divididos y pasados a muestras diferentes. Con los resultados de este
primer estudio, y con los tems seleccionados, debe repetirse el proceso con la intencin
de obtener ms garantas sobre stos, pero ahora con una muestra de mayor tamao,
mnimo 300 participantes o entre 5 y 10 por tem (Martnez-Arias, 1995) y tambin de
caractersticas similares a la poblacin objetivo. Es aconsejable que este proceso se
repita (validacin cruzada), dadas las fluctuaciones que los estadsticos derivados de las
puntuaciones de los tems presentan en funcin de la muestra con la que est trabajndose.
Int J Clin Health Psychol, Vol. 5, N 3
532
533
La puntuacin individual que se obtenga para cada componente debe tener elementos
comunes con las otras facetas delimitadas, ya que han sido propuestas como integrantes
de un mismo constructo. Sin embargo, estos elementos comunes no deben superar un
lmite, ya que de lo contrario no podra sostenerse que son componentes distintos. En
esta direccin es donde resulta aconsejable hacer mencin a nuevos anlisis a incluir
en el estudio estadstico de los tems.
Junto al coeficiente de correlacin tem-total corregido deben efectuarse los anlisis de correlacin entre la puntuacin de los tems que configuran un componente y
la puntuacin total de los componentes que no sean el de pertenencia terica. Algunos
autores plantean que debe existir una diferencia positiva a favor del primer anlisis de
al menos dos dcimas (Jackson, 1970). Junto con el clculo anterior, es aconsejable
incluir la correlacin media inter-item. Este aspecto necesita de cierta reflexin. Cuando est elaborndose un instrumento con la intencin de verificar una propuesta conceptual sobre un constructo determinado, un criterio normalmente tenido en cuenta es
trabajar para que los componentes del constructo sean homogneos. Para lograr esta
homogeneidad, tradicionalmente ha sido usado el ndice de fiabilidad de consistencia
interna, intentndose que ste fuera lo mayor posible como indicativo de una faceta
homognea. As, cuando es calculado el ndice de discriminacin de los tems, se opta
por eliminar los que provocan que la consistencia interna del componente se incremente
(tal y como anteriormente ha sido explicado). Sin embargo, resulta necesario distinguir
consistencia interna de homogeneidad. Tal y como Cortina (1993) especifica, la consistencia interna es el grado en el que los tems de un componente o faceta estn intercorrelacionados, mientras que la homogeneidad se refiere a si los tems de ese componente evalan fundamentalmente slo a ste. Esto significa que la consistencia interna
es algo necesario pero no suficiente para conseguir una faceta homognea, o dicho de
otro modo, puede tenerse un grupo de tems altamente inter-correlacionados y que an
as no puedan ser considerados como representativos de un nico componente (Clark
y Watson, 2003). Debido a esto es recomendable llevar a cabo el clculo de la correlacin media entre los tems.
La forma de proceder a la hora de llevar a cabo la correlacin media inter-item,
consiste en calcular sta para los tems de cada uno de los componentes por separado,
para posteriormente calcularla teniendo en cuenta los posibles cruces entre componentes. La lgica que debe subyacer para interpretar los datos es que la correlacin media
entre los tems de componentes distintos tiene que ser positiva para poder concluir que
forman parte de un mismo constructo, pero inferior a la aparecida para los tems de un
mismo componente (una diferencia de al menos dos dcimas segn Clark y Watson,
2003). Llegado a este momento es donde algunos autores recomiendan el uso del
anlisis factorial como procedimiento inicial incluido dentro del estudio de las propiedades de los tems (Floyd y Widaman, 1995). De hecho, las conclusiones que pueden
derivarse de los clculos de correlacin media inter-item son fcilmente obtenidas a
travs de la lectura del patrn de saturaciones factoriales. As, la tcnica de anlisis
factorial podra ser usada en esta fase, no todava como procedimiento de validez
interna, sino como herramienta para la seleccin de tems homogneos (vase el siguiente apartado para un comentario ms detallado sobre el anlisis factorial).
Int J Clin Health Psychol, Vol. 5, N 3
534
535
536
537
el otro a los negativos. As, el formato de los tems puede pesar ms que la significacin conceptual y sin una exploracin detallada de los resultados lo emprico, pero
irrelevante, puede prevalecer sobre lo psicolgicamente sustantivo. As, cualquier criterio usado debe estar caracterizado por la flexibilidad en su aplicacin. Los autores de
este artculo quieren mostrar su total rechazo hacia aquellos trabajos donde a partir de
un agrupamiento de tems inadecuadamente derivados, y segn la estructura factorial
resultante, se seala el descubrimiento de los aspectos subyacentes de una realidad
psicolgica. Se recuerda que la tcnica debe estar sometida a los intereses conceptuales
y que un agrupamiento de tems es slo eso, un agrupamiento, y que aunque empricamente relevante, puede carecer de significado psicolgico. Los factores no psicolgicos que pueden hacer que unos tems aparezcan juntos son tantos que la aplicacin
de esta tcnica de anlisis en el vaco terico es totalmente improductiva e ineficaz, no
recomendndose su uso en estas condiciones (Nunnally y Bernstein, 1995). Dado lo
apuntado, viene a recordarse que los procedimientos exploratorios sirven para indagar y que, por lo tanto, esta indagacin debe ser posteriormente sometida a confirmacin. As, aunque el autor deber informar sobre los criterios tomados en cuenta para
concluir sobre qu factores y cuntos son vistos como determinantes (vase una revisin en Ferrando, 1996 o Martnez-Arias, 1995), estos criterios debern verse relacionados en la discusin con referentes tericos, a la vez que se declara la momentaneidad
de las conclusiones hasta que la replicacin sea suficiente y la confirmacin de la
hiptesis llevada a cabo.
Cuando el objetivo es confirmar si la estructura emprica de la escala se corresponde con la terica, la tcnica de anlisis no debe ser exploratoria. Aunque en los
ltimos aos est observndose un incremento en el uso de los procedimiento
confirmatorios en la publicaciones referentes a la creacin/adaptacin de tests, su uso
an est poco generalizado, siendo lo comn la aplicacin de procedimientos exploratorios
(Batista-Foguet, Coenders y Alonso, 2004). No es este el espacio para explicar el uso
de estrategias confirmatorias a travs de los modelos de ecuaciones estructurales (se le
recomienda al lector el trabajo de Batista-Foguet y Coenders, 2000); sin embargo, s se
resaltan las etapas que el encargado de su aplicacin debe considerar (Batista-Foguet
et al., 2004) y los datos que deben hacerse explcitos al publicar los resultados. El autor
debe especificar claramente cul es el modelo (forma en la que los tems se agrupan)
que pretende someterse a prueba, recomendndose el uso simultneo de otros modelos
alternativos para analizar el ajuste comparativo, y facilitando la informacin que asegure que los modelos pueden ser contrastados en funcin de los requisitos de las
ecuaciones estructurales. El tamao de la muestra debe ser adecuado para este tipo de
anlisis. As, no debe aplicarse este mtodo de anlisis con muestras inferiores a 200
participantes, aunque depender del nmero de tems, componentes propuestos, etc.
(Batista-Foguet et al., 2004). Una vez especificado el o los modelos, comprobado que
la aplicacin de la tcnica es posible y que la muestra es adecuada, debe seleccionarse
el mtodo de estimacin a usar para concluir si lo tericamente propuesto se ajusta a
los datos empricos. Cuando se usan tems con una escala de respuesta tipo Likert, la
recomendacin es tratar a las puntuaciones como datos categoriales no continuos, ya
que son en realidad las propiedades de dichas puntuaciones (Jreskog y Srbom, 1993).
Int J Clin Health Psychol, Vol. 5, N 3
538
539
540
541
542
o que puedan usarse para el objetivo inicialmente planteado. Para llegar a esta conclusin es necesario obtener las pertinentes evidencias externas de validez. Las evidencias
de validez externa deben basarse en el estudio de las relaciones entre el test y a) un
criterio que se espera prediga ste (validez de criterio), b) otros tests que supuestamente
miden lo mismo o con otros constructos con los que tendra que mostrar relacin
(validez convergente); y c) otras variables tericamente relevantes y de las que debera
diferenciarse (validez discriminante) (AERA et al., 1999). Como puede deducirse, cuando
se habla de evidencias externas de validez se produce una vuelta a la elaboracin
terica inicial. De hecho, se tratara de establecer si aparecen las relaciones tericamente predichas entre las puntuaciones obtenidas con el instrumento de evaluacin y otras
variables externas delimitadas como importantes para el constructo evaluado. As, el
anlisis de la validez externa de las puntuaciones de un test no es ni ms ni menos que
el intento por ubicar al constructo en un entramado terico significativo, dndole
coherencia psicolgica. De esta forma, estos estudios supondran el soporte a partir
del cual interpretar las puntuaciones de la herramienta de evaluacin y, por lo tanto, el
modo de otorgar significado psicolgico a un dato numrico (Paz, 1996). Los autores
de este artculo quieren advertir algo que con frecuencia suele ser pasado por alto.
Llegados a este momento del proceso de construccin/adaptacin de un test, lo que los
estudios siguientes deben aportar no es algo exclusivo de la tarea que supone esta
construccin o adaptacin. Lo que quiere decirse es que en cualquier campo de investigacin, al estudiar una dimensin, se busca integrar sta en un esquema general que
le d sentido y donde pueda drsele utilidad y significado. De esta forma, el estudio de
la faceta psicolgica que sea, tiene que enmarcarse en una tradicin emprica y terica
previa, para posteriormente proceder a analizar si la propuesta resulta adecuada (validacin). Con esto viene a sostenerse que el proceso de validacin asentado en estos
objetivos no es algo que se observe slo dentro de esta fase de construccin/adaptacin
de un test, sino que debe tratarse ms como una finalidad y quehacer comn dentro de
una disciplina cientfica. As, esto tiene su reflejo en que no hay una metodologa de
estudio particular para esta tarea de validacin externa de un instrumento, sino que la
clave son las relaciones tericamente propuestas como significativas, aplicndose la
metodologa y diseo ms conveniente (experimental, cuasi-experimental o no experimental), en funcin de los intereses tericos.
Para la elaboracin o revisin de un trabajo dirigido a la obtencin de evidencias
externas de validez de un test, los autores deben justificar ste a partir de las teoras
de referencia y resultados de investigacin previos (lo cual debera estar concretado en
la definicin sintctica de la variable realizada en las primeras fases de construccin/
adaptacin), y su puesta en marcha debe seguir los criterios consensuados para cualquier investigacin (Bobenrieth, 2002), adems de tener en cuenta los particulares de
la metodologa concreta que haya decidido usarse, como por ejemplo la experimental
(Ramos-lvarez y Catena, 2004). Este es el motivo por el que para esta fase en cuestin no podr observarse al finalizar el informe una tabla resumen dedicada a los
aspectos ms sustantivos de sta, remitindose al lector a los trabajos ya citados
(Bobenrieth, 2002; Ramos-lvarez y Catena, 2004) o a cualquier otro encargado de
tratar las normas para la publicacin de artculos en Ciencias del Comportamiento.
Int J Clin Health Psychol, Vol. 5, N 3
543
544
sobre una variable de inters. Sin embargo, no est exento de problemas, y el autor
deber justificar su uso y reflexionar sobre sus condiciones de aplicacin y verdaderas
aportaciones a la hora discutir los resultados (vase Martnez-Arias, 1995 o Nunnally
y Bernstein, 1995 para un anlisis de los factores a tener en cuenta a la hora de usar
el anlisis de regresin lineal simple y mltiple). A pesar de haberse destacado el uso
del anlisis de regresin lineal, no debera perderse de vista que esta tcnica de anlisis
no agota las posibilidades. As, y aunque dependiendo del nmero de variables y de sus
particularidades mtricas, el hecho es que lo habitual sera poder acudir a casi la
totalidad de tcnicas de anlisis multivariado, por lo que el investigador debera ser
conocedor de las caractersticas principales de cada una de stas, para as aplicarlas en
las circunstancias adecuadas (vase Muiz, 1998 para profundizar en el uso de estas
tcnicas dentro de los estudios de validez externa).
Para finalizar los comentarios referidos a la obtencin de evidencias externas de
validez habra que hacer una reflexin sobre un aspecto muy tratado en los ltimos
estndares para la creacin de tests psicolgicos y educativos (AERA et al.,1999). Se
trata del estudio dirigido a explorar si las evidencias de validez obtenidas para determinadas muestras y en contextos concretos pueden generalizarse sin necesidad de nuevos
estudios de validez. Aqu el problema residira en que los coeficientes de validez obtenidos se ven afectados por la variabilidad de las muestras, los distintos instrumentos
usados, criterios considerados en cada estudio, etc. As, el objetivo es determinar si la
variacin en dichos coeficientes es simplemente producto de estas influencias inevitables, o bien existen otras variables no tenidas en cuenta y que deberan ser pues
incluidas dentro de los estudio de validez del instrumento en cuestin. Para este objetivo la propuesta se ha centrado en hacer uso de variaciones del meta-anlisis tradicional y que viene a suponer ms que una puesta en comn y equiparacin de los
resultados logrados en diversos estudios. Como puede deducirse, las conclusiones son
tomadas cuando stas se ven precedidas por un amplio bagaje de resultados y, por lo
tanto, por un conjunto de estudios numeroso. Esto de nuevo pone de relieve que hasta
que un test cuenta con todas las evidencias necesarias de validez interna y externa,
junto con las encargadas de reflejar la fiabilidad, las fases a seguir son varias, su puesta
en marcha debe ser repetida y el tiempo que se necesita es igualmente elevado. As,
no hay test fiable y vlido sin un trabajo estructurado, sistemtico y prolongado detrs.
Referencias
AERA, APA y NCME (1999). Standards for educational and psychological tests. Washington
DC: American Psychological Association, American Educational Research Association,
National Council on Measurement in Education.
Barbero, M.I. (2003). Psicometra. Madrid: Universidad Nacional de Educacin a Distancia.
Batista-Foguet, J.M. y Coenders, G. (2000). Modelos de ecuaciones estructurales. Madrid: La
Muralla.
Batista-Foguet, J.M., Coenders, G. y Alonso, J. (2004). Anlisis factorial confirmatorio. Su utilidad en la validacin de cuestionarios relacionados con la salud. Medicina Clnica, 122,
21-27.
Int J Clin Health Psychol, Vol. 5, N 3
545
546
Haynes, S.N., Richard, D.C.S. y Kubany, E.S. (1995). Content validity in psychological assessment:
A functional approach to concepts and methods. Psychological Assessment, 7, 238-247.
Jackson, D.N. (1970). A sequential system for personality scale development. En C.D. Spielberger
(Ed.), Current topics in clinical and community psychology (vol. 2) (pp. 61-96). Nueva
York: Academic Press.
Jreskog, K.G. y Srbom, D. (1993). LISREL 8. Users referente guide. Chicago, IL: Scientific
Software.
Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports,
3, 635-694.
Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison Wesley.
Lynn, M. (1986). Determination and quantification of content validity. Nursing Research, 35,
382-385.
Martnez-Arias, R. (1995). Psicometra: teora de los test psicolgicos y educativos. Madrid:
Sntesis.
Montero, I. y Len, O. (2002). Clasificacin y descripcin de las metodologas de investigacin
en Psicologa. Revista Internacional de Psicologa Clnica y de la Salud/Internacional
Journal of Clinical and Health Psychology, 2, 503-508.
Montero, I. y Len, O.G. (2005). Sistema de clasificacin del mtodo en los informes de investigacin en Psicologa. Internacional Journal of Clinical and Health Psychology, 5, 115127.
Muiz, J. (1998). Teora clsica de los tests. Madrid: Pirmide.
Muiz, J. y Hambleton, R.K. (1996). Directrices para la traduccin y adaptacin de los tests.
Papeles del Psiclogo, 66, 63-70.
Muiz, J. y Hambleton, R.K. (2000). Adaptacin de los tests de unas culturas a otras. Metodologa de las Ciencias del Comportamiento, 2, 129-149.
Murphy, K.R. y Davidshofer, C.O. (1994). Psychological testing: Principles and applications (3
ed.). Englewood Cliffs, NJ: Prentice-Hall.
Navas, M.J. (2001). Mtodos, diseos y tcnicas de investigacin psicolgica. Madrid: Universidad Nacional de Educacin a Distancia.
Nunnally, J.C. y Bernstein, I.J. (1995). Teora psicomtrica. Madrid: McGraw-Hill.
Osterlind, S.J. (1989). Constructing Test Items. Londres: Kluwer Academic Publishers.
Paunonen, S.V. y Ashton, M.C. (2001). Big Five factors and facets and the prediction of behavior.
Journal of Personality and Social Psychology, 81, 524-539.
Paz, M.D. (1996). Validez. En J. Muiz (Ed.), Psicometra (pp. 499-103). Madrid: Universitas.
Pelechano, V. (1997). Prlogo. En G. Buela-Casal y J.C. Sierra (dirs.), Manual de evaluacin
psicolgica. Fundamentos, tcnicas y aplicaciones (pp. 31-35). Madrid: Siglo XXI.
Pelechano, V. (2002). Valoracin de la actividad cientfica en psicologa? Pseudoproblema,
sociologismo o ideologismo? Analisis y Modificacion de Conducta, 28, 323-362.
Prieto, G. y Delgado, A.R. (1996). Construccin de los tems. En J. Muiz (Ed.), Psicometra
(pp. 139-170). Madrid: Universitas.
Ramos-lvarez, M.M. y Catena, A. (2004). Normas para la elaboracin y revisin de artculos
originales experimentales en Ciencias del Comportamiento. International Journal of Clinical
and Health Psychology, 4, 173-189.
Rubio, D.M., Berg-Weger, M., Tebb, S.S., Lee, E.S. y Rauch, S. (2003). Objectifying content
validity: Conducting a content validity study in social work research. Social Work Research,
27, 94-104.
Sireci, S.G. (1998). Gathering and analyzing content validity data. Educational Measurement, 5,
299-321.
Int J Clin Health Psychol, Vol. 5, N 3
547
Smith, G.T., Fischer, S. y Fister, S.M. (2003). Incremental validity principles in test construction.
Psychological Assessment, 15, 467-477.
Smith, G.T., y McCarthy, D.N. (1995). Methodological considerations in the refinement of clinical
assessment instruments. Psychological Assessment, 7, 300-308.
Snook, S.C. y Gorsuch, R.L. (1989). Component analysis versus common factor analysis: A
Monte Carlo study. Psychological Bulletin, 106, 148-154.
Stevens, J. (1992). Applied multivariate statistics for the social sciences. Hillsdale, NJ: Lawrence
Erlbaum.
Tanaka, J.S. (1993). Multifaceted conceptions of fit in structural models. En K.A. Bollen y J.S.
Long (Eds.), Testing Structural Equation Models (pp. 10-39). Thousand Oaks: Sage.
Traub, R.E. (1994). Reliability for the social sciences: Theory and applications. Londres: Sage.
Walsh, W.B. (1995). Tests and assessment. Nueva York: Prentice-Hall.
Whiteside, S.P. y Lynam, D. R. (2001). The five factor model and impulsivity: Using a structural
model of personality to understand impulsivity. Personality and Individual Differences,
30, 669-689.
548
Dudoso
No
DELIMITACIN CONCEPTUAL
DEL CONSTRUCTO
A EVALUARA(B)EVALUAR (B)
DELIMITACIN
CONCEPTUAL
DEL CONSTRUCTO
S
B.1.
B.2.
B.3.
B.4.
B.5.
B.6.
B.7.
B.8.
B.9.
B.10.
Dudoso
No
Dudoso
No
C.2.
C.3.
549
Anlisis estadstico
de los tems (D)
ANLISIS
ESTADSTICO
DE LOS TEMS (D)
S
D.1.
D.2.
D.3.
D.4.
D.5.
D.6.
C.7.
C.8.
C.9.
C.10.
C.11.
C.12.
Dudoso
No
Estudio de laDE
dimensionalidad
del instrumento (estructura
(E)
ESTUDIO
LA DIMENSIONALIDAD
DEL interna)
INSTRUMENTO
(ESTRUCTURA
INTERNA) (E)
S
E.1.
E.2.
E.3.
E.4.
E.5.
Dudoso
No
550
E.6.
E.7.
E.8.
E.9.
E.10.
E.11.
E.12.
E.13.
E.14.
E.15.
E.16.
E.17.
E.18.
E.19.
E.20.
E.21.
E.22.
E.23.
E.24.
E.25.
E.26.
551
F.4.
F.5.
F.6.
F.7.
F.8.
F.9.
F.10.
F.11.
F.12.
F.13.
F.14.
F.15.
F.16.
Dudoso
No