Documente Academic
Documente Profesional
Documente Cultură
4.Validez
Mientras que la fiabilidad se refiereal grado en que una variable influye en un conjunto de
artículos, la validez se refiere a si la variable es la causa subyacente de la covariación del
artículo. En la medida en que una escala es fiable, la variación de las puntuaciones de la
escala puede atribuirse a la verdadera puntuación de algún fenómeno que ejerce una
influencia causal sobre todos los artículos. Sin embargo, determinar que una escala es fiable
no garantiza que la variable latente compartida por los artículos sea, de hecho, la
variable
de interés para el desarrollador de la escala. La adecuación de una escala como medida
de una variable específica
(por ejemplo, el estrés psicológico percibido) es una cuestión de validez.
Algunos autores han asignado un significado más amplio a la validez. Por ejemplo,
Messick (1995) describió seis tipos de validez, uno de los cuales (validez consecuencial)
se refería al impacto que tiene en los encuestados la forma en que se utilizan sus
puntuaciones. Aunque las opiniones de Messick sobre la validez suscitaron algunas
cuestiones que hacen reflexionar, su sistema de clasificación no ha sido adoptado
ampliamente.
Según la interpretación más convencional, la validez se infiere de la manera en que se
construyó una escala, su capacidad para predecir acontecimientos específicos o su
relación con medidas de otras construcciones. Hay esencialmente tres tipos de validez que
corresponden a estas operaciones:
Cada tipo será revisado brevemente. Para un tratamiento más amplio de la validez,
incluido un examen de las cuestiones metodológicas y estadísticas de la validez
relacionada con los criterios y los índices de validez alternativos, véase el capítulo 10
en Ghiselli, Campbell y Zedeck (1981).
Los lectores también podrían considerar el punto de vista más amplio de Messick (1995)
sobre la validez.
La validez del contenido está íntimamente ligada a la definición del constructo que se
examina. Dicho simplemente, el contenido de una escala debe reflejar la definición
conceptual aplicable a esa escala. Algunos conceptos pueden haber sido definidos de más
de una manera por los teóricos o pueden encontrarse en la intersección de múltiples
conceptos. Es esencial que el contenido del elemento capte los aspectos del fenómeno
que se enuncian en su definición conceptual y no otros aspectos que podrían estar
relacionados pero que quedan fuera de la intención del investigador para ese
instrumento en particular.
A modo de ejemplo, Sterba y sus colegas (2007) se propusieron desarrollar una medida de
la eficacia diádica relacionada con la forma en que las parejas en las que uno de los
miembros tenía artritis reumatoide percibían su capacidad para manejar la enfermedad
en equipo. Este instrumento fue el primero en evaluar la eficacia diádica, es decir, la
confianza de una pareja en su capacidad como equipo para adoptar diversas medidas
de promoción de la salud.
Así pues, el concepto subyacente al instrumento era distinto de otros conceptos,
como el de autoeficacia individual, aunque estaba relacionado con ellos. La primera
fase de este esfuerzo fue un estudio de desarrollo de artículos que constituyó la
base de las afirmaciones de los autores sobre la validez del contenido. Este estudio
tenía por objeto identificar el contenido apropiado de la literatura empírica y teórica más
amplia para su posible inclusión en la medida. Aunque los autores examinaron el
contenido a partir de medidas de constructos relacionados (por ejemplo, la autoeficacia
específica para la artritis), orientaron su desarrollo de artículos a las características
específicas del constructo tal como lo habían definido. Un aspecto crítico de esa
definición era la confianza que tenían las parejas en que, como equipo, podían manejar
los desafíos de la enfermedad. En consecuencia, el estudio sobre la elaboración de
artículos incluyó entrevistas con las parejas para conocer sus ideas sobre si el
constructo les sonaba verdadero, comprender cómo lo conceptualizaban e identificar
el lenguaje que utilizaban para describirlo. Los conocimientos adquiridos a partir de la
definición conceptual del constructo, la revisión de la literatura y las entrevistas a los
pacientes informaron la construcción del artículo. Los ítems fueron escritos explícitamente
para capturar el aspecto de equipo de las percepciones de las parejas con respecto a la
eficacia. Este proceso aseguró que el contenido del ítem reflejara el constructo
específico en el cual los investigadores estaban interesados y no varios otros conceptos
(como la autoeficacia o el apoyo percibido del cónyuge) que pudieran estar
conceptualmente relacionados con él. Como paso adicional de validación del
contenido, Sterba y otros (2007) pidieron a un grupo de expertos en contenido que
revisara los elementos que el equipo de investigación había elaborado inicialmente con
respecto a su definición conceptual. Este procedimiento sirvió para comprobar una vez
más que los elementos eran representativos del contenido pertinente que el
instrumento estaba diseñado para medir.
En conjunto, estas medidas aumentaron la probabilidad de que el contenido pertinente se
incluyera en la escala, mientras que el contenido irrelevante no lo estaba, lo que
respaldaba las afirmaciones de validez del contenido.
Continuando con este ejemplo hipotético, supongamos que un investigador quiere crear
una escala para evaluar la conciencia de los costos como se describe aquí. Ella o él
podría lograr esto pensando cuidadosamente en lo que el concepto abarca y luego
desarrollar elementos que reflejen esa definición de trabajo.
1. Prefiero posponer la compra del coche que realmente quiero a pagar un centavo
más.
por ello que tengo que hacerlo.
2. Prefiero pagar un poco más y conseguir exactamente el coche que quiero que
ahorrar algo de dinero pero tener que comprometerme.
3. Considero que el primer precio que menciona un vendedor de autos no
es más que una táctica de negociación.
El segundo conjunto de artículos (es decir, del 4 al 6) contiene versiones generales del
primer conjunto, redactadas para ser aplicables en todos los contextos.
90
los bienes, parece una variable muy diferente de la que se utiliza para regatear el precio
de un televisor nuevo. Si las pruebas empíricas confirman estas sospechas, yo diría
que el segundo conjunto de artículos más generales no fue
91
contenido válido en todos los contextos. Además, sugeriría que su falta de validez en
determinados contextos (como la toma de decisiones sobre la obtención de asistencia
jurídica o médica importante) se debe, al menos en parte, a la falta de especificidad del
constructo. Como resultado de esa falta de especificidad, la validez del contenido de
los puntos 4 a 6 puede verse comprometida.
Por supuesto, se podría argumentar que los artículos del 1 al 3 también serían
inválidos en situaciones distintas a la compra de un coche. Aunque eso es indudablemente
cierto, la diferencia importante es que la limitación de la validez del contenido de esos
artículos es evidente, y las personas sensatas no intentarían utilizarlos para evaluar la
conciencia de los costos en contextos marcadamente diferentes. Sin embargo, en el caso de
los artículos más generales, su inadecuación para determinadas situaciones es mucho
menos evidente y podría pasar fácilmente desapercibida.
1. Tengo problemas para usar mis manos para tareas que requieren fuerza de
agarre.
2. Tengo problemas para pararme desde una posición sentada.
3. Cuando me quedo en una posición por mucho tiempo, mis miembros se
ponen rígidos.
4. Me canso fácilmente si me esfuerzo demasiado.
5. Ya no puedo hacer cosas que antes podía hacer con facilidad.
Cada uno de estos elementos representa una limitación funcional que podría considerarse
razonablemente representativa de la discapacidad. En algunos tipos de enfermedad,
se podría esperar que todas ellas fueran manifestaciones de la afección y podrían
tender a ocurrir al unísono. Sin embargo, se plantea un problema si los artículos
tienen por objeto evaluar la discapacidad para una afección que no implica todas
estas limitaciones. En tal caso, algunos artículos pueden ser válidos en cuanto a su
contenido mientras que otros no lo son. Así, por ejemplo, para alguien que ha sufrido
una grave fractura de pierna, el artículo A que describe la falta de fuerza de agarre
sería contenido inválido. Es decir, la fuerza de agarre sería poco informativa con
respecto al impacto de la fractura de la pierna de la persona. Por el contrario, para
otra condición, tal vez un derrame cerebral o artritis reumatoide, un artículo sobre la
fuerza de agarre podría ser válido. Así, mientras que la inclusión del artículo A
compromete la validez del contenido para el paciente con fractura de pierna, su
omisión podría atenuar la validez del contenido para el paciente con artritis
reumatoide. La dificultad aquí es que la definición operativa implícita de
discapacidad que adopté al crear estos artículos ilustrativos era demasiado amplia.
Como resultado, elaboré una lista de manifestaciones plausibles de discapacidad que
podrían manifestarse en una serie de condiciones agudas o crónicas sin tener en
cuenta cómo esa lista se ajustaría a cualquier
condición que lleva a la discapacidad. Así que, una vez más, una definición más amplia
creó una situación que podría comprometer la validez del contenido.
Los ejemplos anteriores fueron construidos para hacer un punto. Dudo que alguien
considere realmente desarrollar una medida de conciencia de los costos con la noción
de que artículos como el 4 al 6 pueden ser usados en cualquier contexto con
impunidad. Tampoco ningún investigador sofisticado combinaría los elementos de la
A a la E en una escala única destinada a evaluar la discapacidad en una amplia gama de
condiciones. Sin embargo, estos ejemplos extremos ilustran un punto que sí se aplica en
algunas situaciones de medición del mundo real: cuando una variable y una medida
destinada a aprovecharla son extremadamente amplias, aumenta la probabilidad de
que algunos de los indicadores no se apliquen (y, por lo tanto, no tengan validez de
contenido) en determinadas situaciones o para determinados grupos.
Otra posible consecuencia adversa de la definición amplia de una variable es que los
pasos para establecer la validez del contenido pueden resultar más gravosos. Por ejemplo,
como se examina en el capítulo 5, es común que los expertos examinen el contenido de
los artículos como medio de asegurar la validez del contenido. A medida que se amplía
el alcance del concepto, puede ser necesario ampliar también los conocimientos colectivos
de las personas a las que se pide que examinen la validez del contenido. Además, la tarea
que se plantea a estos expertos puede resultar más difícil, ya que estos jueces se ven
obligados a considerar cuándo y para quién un determinado elemento puede o noser
pertinente para el constructo. Esto requiere que imaginen algo que se aproxime a
todas las situaciones posibles en las que podría utilizarse el instrumento y que
evalúen su idoneidad para cada una de ellas. A medida que la especificidad de la
construcción disminuye, los jueces pueden encontrar más difícil evaluar si
determinados elementos se ajustan adecuadamente a la construcción. Esto puede
requerir la creación de un grupo más grande de jueces expertos de lo que se
necesitaría con un constructo más específico para lograr el mismo grado de confianza
en sus calificaciones.
La validez del contenido es diferente de los otros tipos de validez que discutiremos
porque realmente está definida por las acciones que el creador de la escala toma al
principio del desarrollo de la escala. La más importante de ellas es considerar
cuidadosamente la variable que la escala pretende medir y, a continuación, los tipos de
elementos que muestrean adecuadamente el dominio que abarca esa variable.
Las compensaciones entre dominios y conjuntos de artículos más generales y más
específicos merecen una cuidadosa atención en esta etapa del proceso de desarrollo de la
escala y pueden tener un gran impacto en la validez del contenido de los artículos
finalmente elegidos. Del mismo modo, cuando se selecciona una escala existente
para su uso en un estudio, en lugar de basarse meramente en informes anteriores de
validez del contenido de estudios anteriores, el investigador debe considerar
cuidadosamente la forma en que el contenido de las escalas disponibles corresponde a la
población, el contexto y las cuestiones de estudio del estudio específico que se proyecta.
Debido a que la amplitud de la variable que un investigador elige para estudiar define de
manera directa y transparente el tamaño del conjunto potencial de contenido que el
desarrollador de la escala debe representar adecuadamente, he optado por discutir
este tema en conjunto con la validez del contenido. Sin embargo, la amplitud del
dominio que una escala espera abarcar también tiene implicaciones para los otros
tipos de validez que examino en el resto de este capítulo. No repetiré lo que he
tratado hasta ahora, pero los lectores deben saber que la adecuación de los elementos
al constructo es fundamental para todos los tipos de validez examinados en este
capítulo. A medida que se amplían los límites de esa construcción, la tarea de
demostrar la validez relacionada con el criterio o la validez de la construcción puede
ser más desalentadora, como lo es para la validez del contenido.
Otro punto que vale la pena señalar sobre la validez relacionada con los criterios es que,
lógicamente, se trata del mismo tipo de problema de validez si el criterio sigue,
precede o coincide con la medición en cuestión. Así pues, además de la validez
predictiva, la validez concurrente (por ejemplo, la predicción de la capacidad de
conducción a partir de las respuestas a las preguntas orales formuladas durante el
examen de conducción) o incluso la validez postdictiva (por ejemplo, la predicción del
peso al nacer a partir de una escala del estado de desarrollo de la infancia) puede
utilizarse más o menos como sinónimo de validez relacionada con el criterio. El aspecto
más importante de la validez basada en criterios no es la relación temporal entre la
medida en cuestión y el criterio cuyo valor se intenta inferir, sino más bien la fuerza
de la relación empírica entre ambos acontecimientos. El término
La validez relacionada con el criterio tiene la ventaja sobre los otros términos de ser
temporalmente neutral y, por lo tanto, es preferible.
Además, es importante recordar que, aunque la correlación entre una medida de predicción
y un criterio sea perfecta, la puntuación obtenida en el predictor no es una
estimación del criterio. Los coeficientes de correlación son insensibles a las
transformaciones lineales de uno o ambos
variables. Una alta correlación entre dos variables implica que las puntuaciones de esas
variables obtenidas de un mismo individuo ocuparán lugares similares en sus
respectivas distribuciones. Por ejemplo, es probable que alguien que obtenga una
puntuación muy alta en la primera variable también obtenga una puntuación muy alta en
la segunda si las dos están fuertemente correlacionadas. Sin embargo, "muy alto" es un
término relativo más que absoluto y no tiene en cuenta las unidades de medida de las
dos variables, por ejemplo. Puede ser necesario transformar las unidades de medida del
predictor en las del criterio para obtener una predicción numérica exacta. Este ajuste
equivale a determinar la interceptación apropiada además de la pendiente de una
línea de regresión. Si no se reconoce la necesidad de transformar una puntuación, se
pueden sacar conclusiones erróneas. Un error de este tipo es tal vez más probable que
ocurra si el predictor se calibra en unidades que caen en el mismo rango que el criterio.
Supongamos, por ejemplo, que alguien ideó la siguiente "escala de multas por exceso
de velocidad" para predecir cuántas multas recibirían los conductores a lo largo de
5 años:
: Raramente : Nunca
Frecuentemente : Ocasionalmente :
Raramente : Nunca
Raramente : Nunca
Construir la validez
La validez de la construcción (Cronbach & Meehl, 1955) está directamente relacionada
con la teoría
relación de una variable (por ejemplo, una puntuación en alguna escala) con otras
variables. Es la medida en que una medida se "comporta" de la manera en que el
constructo que pretende medir debe comportarse con respecto a las medidas establecidas
de otros constructos. Así, por ejemplo, si consideramos que alguna variable, basada en
la teoría, está relacionada positivamente con los constructos A y B, negativamente con C y
D, y sin relación con X e Y, entonces una escala que pretende medir ese constructo
debería tener una relación similar a las medidas de esos constructos. En otras palabras,
nuestra medida debería estar positivamente correlacionada con las medidas de los
constructos A y B, negativamente correlacionada con las medidas de C y D, y no
correlacionada con las medidas de X e Y. Una descripción de estas relaciones hipotéticas
podría parecerse a la de la figura 4.1.
La llamada validación de los grupos conocidos es otro ejemplo de un procedimiento que puede
clasificarse como validez de constructo o de criterio, según la intención del investigador.
La validación de los grupos conocidos suele implicar la demostración de que alguna escala
puede diferenciar a los miembros de un grupo de otro en función de sus puntuaciones
de escala. El propósito puede estar relacionado con la teoría (como cuando se valida una
medida de las actitudes hacia un determinado grupo diferenciando correctamente a los
que se afilian o no a los miembros de ese grupo) o ser puramente predictivo (como
cuando se utiliza una serie de elementos aparentemente no relacionados para predecir
la rotación del trabajo). En el primer caso, el procedimiento debe considerarse un tipo
de validez de constructo y en el segundo, de criterio.
donde r(T)xy es la correlación entre las puntuaciones reales de las variables X e Y, rxy
es la correlación entre las puntuaciones observadas, y rxx y ryy son las confiabilidades de
las variables X e Y, respectivamente.
Matriz multirretrato-multimétodo
Campbell y Fiske (1959) idearon un procedimiento llamado matriz multirretrato-
multimétodo que es extremadamente útil para examinar la validez de los constructos.
Este enfoque encaja bien con la idea, presentada anteriormente, de que la validez de
los constructos se evalúa indirectamente y debe inferirse a partir de los indicadores
disponibles de la variable latente de interés. El procedimiento consiste en medir
más de un constructo por medio de más de un método, de manera que se obtiene una
matriz "totalmente cruzada" método por medida. Por ejemplo, supongamos que se diseña
un estudio en el que la ansiedad y la depresión y la talla de los zapatos se miden cada
una en dos momentos distintos utilizando dos procedimientos de medición diferentes
cada vez. (Obsérvese que se podrían haber medido dos muestras diferentes de individuos
al mismo tiempo. ¿Qué efecto tendría esto en la lógica del enfoque?) Cada constructo
podría evaluarse mediante dos métodos: una escala visual-analógica (una línea en la
que los encuestados hacen una marca para indicar la cantidad del atributo que
poseen, ya sea ansiedad, depresión o bignidad de pie) y una calificación asignada por
un entrevistador tras una interacción de 15 minutos con cada sujeto. A continuación se
podría construir una matriz de correlaciones obtenidas entre las mediciones, como
se muestra en el cuadro 4.1.
Notas: TM = mismo rasgo y método (fiabilidad); T = mismo rasgo, método diferente; M = mismo método,
rasgo diferente.
Mitchell (1979) observó que los métodos de recopilación de datos para una matriz
multirrazo-multimétodo constituyen un estudio G de dos facetas (o estudio de
generalizabilidad; véase el capítulo 3), en el que los rasgos y los métodos son las facetas.
La matriz multirraito-multimétodo permite dividir la covariación en fuentes de
"método" y "rasgo" (o construcción). Podemos entonces hacer afirmaciones más
precisas sobre la validez de constructo, porque nos permite diferenciar la covariación
que refleja verdaderamente la similitud de constructo (y por lo tanto es pertinente
para la validez de constructo) de la covariación que es un artefacto de la aplicación de
procedimientos de medición similares (y por lo tanto no se relaciona con la validez de
constructo). Esa diferenciación no es posible cuando se examina simplemente una
100
correlación única entre dos medidas.
101
para medir en su cara. En mi opinión, este uso es desafortunado por varias
razones.
En primer lugar, la suposición de que una medida evalúa lo que parece que está
evaluando puede ser errónea. Por ejemplo, Idler y Benyamini (1997) examinaron 27
grandes estudios epidemiológicos bien realizados para determinar con precisión lo que
un elemento común estaba tocando. Ese ítem pide a las personas que evalúen su salud
general como pobre, regular, buena o excelente. La mayoría de la gente juzgaría esta
medida de un solo ítem para evaluar exactamente lo que dice: la salud de los encuestados.
Idler y Benyamini notaron que el ítem era un excelente predictor de una variedad de
resultados de salud. Superó sistemáticamente a otras variables en la contabilización de la
varianza en los diferentes estudios. Más relevante para nuestra discusión, parecía no estar
relacionado principalmente con el estado de salud. Los modelos a menudo contenían
un solo ítem y también establecían medidas del estado de salud. Típicamente, tanto la
autocalificación de salud de un solo ítem como las otras medidas del estado de salud
eran predictores significativos en el mismo modelo. Es decir, no compartían suficiente
varianza para que la contribución predictiva de uno excluyera una contribución
predictiva independiente del otro. Más bien, la autocalificación de salud de un solo
elemento parecía compartir la varianza en mayor grado con las variables psicológicas.
Estas conclusiones sugieren que este elemento único ampliamente utilizado no es un
indicador válido del estado de salud, tal como aparece en su cara. Para este elemento, el
hecho de que parezca que está midiendo lo que queremos que mida no es suficiente
para apoyar las afirmaciones de validez.
Una última preocupación sobre la validez de la cara es que no está claro para quién
debe ser evidente el propósito de un instrumento, en su cara. ¿Es el demandado? Si
un médico pregunta a un paciente si ha tenido más sed de lo habitual, ¿la validez de
esa pregunta depende de que el paciente sepa lo que se le preguntó? Es evidente que
no. ¿Es la persona que crea el instrumento quien debe reconocer el propósito? Es
difícil imaginar que el vínculo entre el contenido del instrumento y la variable de
interés no sea obvio para el creador del instrumento (excepto quizás en los casos relativos
a la validez puramente empírica, atérea y relacionada con el criterio). Si se adoptara este
significado de validez fisonómica, unaescala de ll esencialmente se consideraría válida.
Por último, ¿es una comunidad científica más amplia la que debería reconocer la finalidad
de un instrumento basándose en su apariencia? Es probable que esta interpretación dé
lugar a pruebas contradictorias. Un elemento que para algunos expertos parece medir
una variable podría parecer como si midiera otra a un segundo grupo igualmente
cualificado. A menudo, parece que las personas que afirman que una escala es o no
válida porque tiene o no parece tener validez aparente están basando su afirmación
en percepciones personales. Es decir, si la intención y el aspecto de un instrumento se
parecen a ellos, se inclinan a considerarlo válido a primera vista; de lo contrario, no lo
son. Este
parece una base débil para cualquier reclamo de validez.
Ejercicios
1. Dé un ejemplo de cómo la misma correlación entre una escala y un
comportamiento podría ser indicativa de la validez de construcción o de la
validez relacionada con el criterio. Explique cómo (a) los motivos detrás
del cálculo de la correlación y (b) la interpretación de esa correlación
diferiría dependiendo del tipo de validez que el investigador estaba
tratando de evaluar.
2. Supongamos que un investigador tiene medidas de papel y lápiz de dos
constructos: autoestima y conformidad social. El investigador también tiene
puntuaciones basadas en entrevistas en los mismos dos constructos.
¿Cómo se podrían utilizar estos datos en una matriz multirretrato-
multimétodo para demostrar que el método de reunión de datos tuvo un
efecto indeseable en los resultados obtenidos?
3. ¿Cómo podría una definición demasiado amplia del dominio de contenido
para una escala afectar negativamente a la validez del contenido de esa
escala cuando se utiliza con determinadas poblaciones?