Sunteți pe pagina 1din 34

Suscríbete a DeepL Pro para poder editar este documento.

Entra en www.DeepL.com/pro para más información.

4.Validez

Mientras que la fiabilidad se refiereal grado en que una variable influye en un conjunto de
artículos, la validez se refiere a si la variable es la causa subyacente de la covariación del
artículo. En la medida en que una escala es fiable, la variación de las puntuaciones de la
escala puede atribuirse a la verdadera puntuación de algún fenómeno que ejerce una
influencia causal sobre todos los artículos. Sin embargo, determinar que una escala es fiable
no garantiza que la variable latente compartida por los artículos sea, de hecho, la
variable
de interés para el desarrollador de la escala. La adecuación de una escala como medida
de una variable específica
(por ejemplo, el estrés psicológico percibido) es una cuestión de validez.

Algunos autores han asignado un significado más amplio a la validez. Por ejemplo,
Messick (1995) describió seis tipos de validez, uno de los cuales (validez consecuencial)
se refería al impacto que tiene en los encuestados la forma en que se utilizan sus
puntuaciones. Aunque las opiniones de Messick sobre la validez suscitaron algunas
cuestiones que hacen reflexionar, su sistema de clasificación no ha sido adoptado
ampliamente.
Según la interpretación más convencional, la validez se infiere de la manera en que se
construyó una escala, su capacidad para predecir acontecimientos específicos o su
relación con medidas de otras construcciones. Hay esencialmente tres tipos de validez que
corresponden a estas operaciones:

1. Validez del contenido


2. Validez relacionada con el criterio
3. Construir la validez

Cada tipo será revisado brevemente. Para un tratamiento más amplio de la validez,
incluido un examen de las cuestiones metodológicas y estadísticas de la validez
relacionada con los criterios y los índices de validez alternativos, véase el capítulo 10
en Ghiselli, Campbell y Zedeck (1981).
Los lectores también podrían considerar el punto de vista más amplio de Messick (1995)
sobre la validez.

Validez del contenido


La validez del contenido se refiere a la idoneidad del muestreo de elementos, es decir,
la medida en que un conjunto específico de elementos refleja un dominio de
contenido. La validez del contenido es más fácil de evaluar cuando el dominio (por
ejemplo, todas las palabras del vocabulario enseñadas a los alumnos de sexto grado) está
bien definido. La cuestión es más sutil cuando se miden atributos como creencias,
actitudes o disposiciones porque es difícil determinar exactamente cuál es la gama de
elementos potenciales y cuando una muestra de elementos es representativa. En teoría,
una escala tiene validez de contenido cuando sus elementos son un subconjunto elegido
al azar del universo de elementos apropiados. En el ejemplo de prueba de vocabulario
utilizado anteriormente, esto se logra fácilmente. Todas las palabras enseñadas
durante el año escolar se definirían como el universo de ítems. Algún subconjunto
podría entonces ser muestreado. Sin embargo, en el caso de la medición de las
creencias, por ejemplo, no tenemos una lista conveniente de las
universo de artículos. No obstante, los métodos que se utilizan para desarrollar una escala
(por ejemplo, hacer que los artículos sean examinados por expertos en función de su
pertinencia para el ámbito de interés, como se sugiere en el capítulo 5) pueden ayudar
a maximizar la idoneidad de los artículos. Por ejemplo, si un investigador necesitara
elaborar una medida que contrastara los resultados esperados y los resultados deseados
(por ejemplo, esperar o querer que un médico haga participar al paciente en la toma de
decisiones), sería conveniente establecer que todos los resultados pertinentes
estuvieran representados en los ítems. Para ello, el investigador podría hacer que sus
colegas familiarizados con el contexto de la investigación revisaran una lista inicial de
elementos y sugirieran las áreas de contenido que se han omitido pero que deberían
incluirse. A continuación, podrían añadirse elementos que reflejaran ese contenido.

La validez del contenido está íntimamente ligada a la definición del constructo que se
examina. Dicho simplemente, el contenido de una escala debe reflejar la definición
conceptual aplicable a esa escala. Algunos conceptos pueden haber sido definidos de más
de una manera por los teóricos o pueden encontrarse en la intersección de múltiples
conceptos. Es esencial que el contenido del elemento capte los aspectos del fenómeno
que se enuncian en su definición conceptual y no otros aspectos que podrían estar
relacionados pero que quedan fuera de la intención del investigador para ese
instrumento en particular.

A modo de ejemplo, Sterba y sus colegas (2007) se propusieron desarrollar una medida de
la eficacia diádica relacionada con la forma en que las parejas en las que uno de los
miembros tenía artritis reumatoide percibían su capacidad para manejar la enfermedad
en equipo. Este instrumento fue el primero en evaluar la eficacia diádica, es decir, la
confianza de una pareja en su capacidad como equipo para adoptar diversas medidas
de promoción de la salud.
Así pues, el concepto subyacente al instrumento era distinto de otros conceptos,
como el de autoeficacia individual, aunque estaba relacionado con ellos. La primera
fase de este esfuerzo fue un estudio de desarrollo de artículos que constituyó la
base de las afirmaciones de los autores sobre la validez del contenido. Este estudio
tenía por objeto identificar el contenido apropiado de la literatura empírica y teórica más
amplia para su posible inclusión en la medida. Aunque los autores examinaron el
contenido a partir de medidas de constructos relacionados (por ejemplo, la autoeficacia
específica para la artritis), orientaron su desarrollo de artículos a las características
específicas del constructo tal como lo habían definido. Un aspecto crítico de esa
definición era la confianza que tenían las parejas en que, como equipo, podían manejar
los desafíos de la enfermedad. En consecuencia, el estudio sobre la elaboración de
artículos incluyó entrevistas con las parejas para conocer sus ideas sobre si el
constructo les sonaba verdadero, comprender cómo lo conceptualizaban e identificar
el lenguaje que utilizaban para describirlo. Los conocimientos adquiridos a partir de la
definición conceptual del constructo, la revisión de la literatura y las entrevistas a los
pacientes informaron la construcción del artículo. Los ítems fueron escritos explícitamente
para capturar el aspecto de equipo de las percepciones de las parejas con respecto a la
eficacia. Este proceso aseguró que el contenido del ítem reflejara el constructo
específico en el cual los investigadores estaban interesados y no varios otros conceptos
(como la autoeficacia o el apoyo percibido del cónyuge) que pudieran estar
conceptualmente relacionados con él. Como paso adicional de validación del
contenido, Sterba y otros (2007) pidieron a un grupo de expertos en contenido que
revisara los elementos que el equipo de investigación había elaborado inicialmente con
respecto a su definición conceptual. Este procedimiento sirvió para comprobar una vez
más que los elementos eran representativos del contenido pertinente que el
instrumento estaba diseñado para medir.
En conjunto, estas medidas aumentaron la probabilidad de que el contenido pertinente se
incluyera en la escala, mientras que el contenido irrelevante no lo estaba, lo que
respaldaba las afirmaciones de validez del contenido.

Alcance de la variable e implicaciones para la validez del


contenido
Una cuestión estrechamente relacionada con la validez del contenido es el alcance de la
variable de interés y, por lo tanto, de los elementos que componen una escala.
Potencialmente, un investigador puede estar interesado en una variable global como la
calidad de vida o las preferencias de compra, o en una variable definida más
estrechamente como la felicidad o la conciencia de los costos. Por supuesto, el principal
determinante de lo que medimos deberían ser las preguntas que tratamos de responder y
nuestra comprensión de las cuestiones teóricas pertinentes a esas preguntas. Al mismo
tiempo, debemos ser conscientes de cómo la amplitud de nuestras construcciones se
relaciona con la validez del contenido.

Evidentemente, abarcar demasiado o demasiado poco contenido puede plantear


problemas si el resultado es un desajuste entre el concepto que se pretende medir con
la escala y el alcance de los artículos que contiene. En el contexto de las pruebas
educativas, Messick (1995) advirtió de los posibles escollos de la "infrarrepresentación
del concepto", es decir, tomar muestras demasiado estrechas de un dominio de
contenido y privar así potencialmente a un examinando de la oportunidad de
demostrar sus conocimientos. Sin embargo, también señala el peligro de la "varianza
irrelevante de la construcción", que puede resultar de un muestreo demasiado amplio del
contenido. Aunque Messick considera que estos dos fenómenos son amenazas para la
validez de la construcción, es evidente que se refieren a la amplitud de la selección
del contenido y, por lo tanto, a la validez del contenido.

Aunque una estrategia de muestreo de contenido que sea demasiado inclusiva o


demasiado restrictiva puede ser problemática, parece haber una asimetría,
prevaleciendo construcciones más amplias y conjuntos de elementos más inclusivos. Una
manifestación de esta tendencia es que, en algunos contextos de investigación, parece
haber una creciente preferencia por escalas de medición ampliamente orientadas. La
medición relacionada con la salud es un ejemplo de ello. Algunas de las razones que
explican esta creciente preferencia por las mediciones más inclusivas son obvias. Si
una escala puede abarcar un atributo relativamente amplio, se amplía su posible
utilidad. Se podría argumentar, por ejemplo, que una medida general de la
discapacidad puede ser más atractiva que una específica para un determinado grupo de
pacientes. Esto no sólo obvia la necesidad de elaborar una nueva escala para cada tipo
diferente de enfermedad, sino que mejora las comparaciones entre los grupos porque
ambas pueden medirse utilizando el mismo instrumento. Además, los instrumentos de
medición de aplicación más amplia pueden servir para una doble función, ya que
satisfacen tanto las necesidades administrativas como las de investigación. Por ejemplo,
para fines como la tramitación de solicitudes de indemnización por discapacidad, se
puede aplicar uniformemente un instrumento más general para medir el deterioro en
todas las condiciones y determinar así el derecho a indemnización de manera uniforme en
todos los pacientes y contextos. Además, las comparaciones de la eficacia del tratamiento
pueden resultar beneficiosas cuando los resultados del tratamiento se miden con el mismo
instrumento. Sin embargo, estas aparentes ventajas pueden ocultar la importancia de las
diferencias contextuales y específicas de la muestra en la forma en que se realiza una
medición.
Al igual que la fiabilidad, la validez no es una propiedad inherente a un instrumento
de medición, sino del instrumento en el contexto de su utilización. Un instrumento
puede ser válido en un contexto pero no lo es en otro o cuando se le da un uso
diferente. Como ejemplo evidente, un esfigmomanómetro en buen estado de
funcionamiento es un medio válido para evaluar la presión en los vasos sanguíneos de
una persona; sin embargo, si se coloca alrededor de la cabeza de una persona en un
intento de medir su inteligencia, el resultado no sería válido. La validez no reside en la
herramienta sino en cómo se utiliza. Esto también es cierto para las escalas de
medición basadas en los artículos. Así pues, la validez del contenido de un
instrumento dependerá de lo bien que los elementos que componen el mapa de
escalas se ajusten al constructo de interés para la población y el contexto de la
investigación específica. La diversidad del contenido de los artículos influirá en este
mapeo.

Una posible deficiencia de un instrumento que intente evaluar un concepto en


términos generales es que los elementos elegidos para instanciar ese concepto pueden
no aplicarse por igual en todas las situaciones o con todas las poblaciones. De hecho,
la validez del contenido del instrumento puede depender en gran medida del
contexto. Consideremos, por ejemplo, un hipotético instrumento destinado a evaluar
la conciencia de los costos. Con fines didácticos, supongamos que el trabajo previo ha
revelado que algunos individuos son muy conscientes de los costos cuando hacen compras.
Estos individuos se abstendrán de hacer una compra, incluso si los bienes ofrecidos son
muy atractivos, si creen que el costo no representa un valor excepcional. Asumamos
además que otras personas son más bajas en la variable de la conciencia de los costos.
Para esos individuos, el costo no es un determinante primario de sus decisiones de
compra, sino que es sólo una de varias consideraciones decisivas, entre ellas la calidad y la
conveniencia. Si un determinado bien de consumo les resulta sumamente atractivo, tal vez
prefieran adquirirlo cuando se presente la oportunidad en lugar de esperar a la
posibilidad de encontrar un precio más bajo para el mismo bien o un bien similar
en otro lugar.

Continuando con este ejemplo hipotético, supongamos que un investigador quiere crear
una escala para evaluar la conciencia de los costos como se describe aquí. Ella o él
podría lograr esto pensando cuidadosamente en lo que el concepto abarca y luego
desarrollar elementos que reflejen esa definición de trabajo.

Una cuestión a la que se enfrentará el investigador es cómo ver de forma amplia o


estrecha el ámbito de las decisiones de compra que debe incluir el instrumento. Esto,
a su vez, debería guiar la construcción del artículo. En un extremo, los artículos
podrían enfocarse bastante estrechamente en las decisiones de compra específicas,
como la compra de un coche nuevo. En el otro extremo, el investigador podría tratar de
crear una escala general que pudiera aplicarse a cualquier tipo de situación en la que
el costo pudiera ser un problema, incluida una amplia gama de bienes y servicios.
Consideremos algunos ejemplos de los tipos de artículos que cada uno de estos dos
enfoques podría producir. Supongamos que los dos conjuntos de artículos que siguen
piden a los encuestados que respalden cada artículo en una escala de acuerdo de 6
puntos, con opciones de respuesta que van desde un fuerte desacuerdo hasta un fuerte
acuerdo.
Los puntos 1, 2 y 3 que siguen son específicos de la conciencia de costos en el contexto
de la compra de un auto.

1. Prefiero posponer la compra del coche que realmente quiero a pagar un centavo
más.
por ello que tengo que hacerlo.
2. Prefiero pagar un poco más y conseguir exactamente el coche que quiero que
ahorrar algo de dinero pero tener que comprometerme.
3. Considero que el primer precio que menciona un vendedor de autos no
es más que una táctica de negociación.

El segundo conjunto de artículos (es decir, del 4 al 6) contiene versiones generales del
primer conjunto, redactadas para ser aplicables en todos los contextos.

4. Prefiero posponer la obtención de lo que realmente quiero a pagar un


centavo más de lo necesario.
5. Prefiero pagar un poco más y obtener exactamente los bienes o servicios que
quiero que ahorrar algo de dinero pero tener que comprometerme.
6. Considero que el primer precio mencionado para cualquier bien o servicio no es
más que una estratagema de negociación.

Los tres primeros artículos parecen aprovechar la conciencia de los costos y


compartir una cierta visión sobre los precios de los automóviles y su importancia en
la elección de la compra de un automóvil. Algunas personas pueden estar muy de
acuerdo o en desacuerdo con las afirmaciones tal como están redactadas, pero no es
difícil imaginar que las respuestas que alguien eligió sean bastante similares en los
diferentes casos de compra de automóviles. También parece plausible que los artículos
se apliquen más o menos de la misma manera a la mayoría de las personas que se
enfrentan a una decisión de compra de un coche. Aunque es probable que la medida
en que las diferentes personas apoyen las declaraciones varíe considerablemente, yo
esperaría un grado bastante alto de coherencia en los niveles de apoyo que una sola
persona daría.

Pasemos ahora a las tres declaraciones restantes, los puntos 4 a 6. No es difícil


imaginar que el ámbito variable más amplio (es decir, global, más que específico del
contexto, consciente de los costos) y sus elementos asociados puedan causar algunas
dificultades. No espero que la mayoría de las personas aprueben estos temas de manera
similar en contextos marcadamente diferentes. Considere, por ejemplo, la forma en que
las personas podrían responder a estos elementos en tres situaciones diferentes: a)
comprando un televisor, b) comprando una obra o arte poco común, y c) decidiendo
si recibir o renunciar al asesoramiento jurídico en un asunto de vital importancia.
Tengo la firme sospecha de que esos contextos diferentes moderarían la relación de
esos artículos con su pretendida variable latente y que saber cómo respondió alguien
en uno de esos contextos no sería necesariamente predictivo de cómo respondería a
los otros dos. El fundamento de esta sospecha es mi creencia de que la conciencia
de los costos, tal como se refleja en estos últimos elementos, tiene un significado
fundamentalmente diferente en los distintos contextos. Su importancia en relación
con otras variables que influyen en las respuestas a los elementos es inconsistente. La
conciencia de los costos que motiva el regateo sobre el costo del asesoramiento jurídico
que puede tener alguna consecuencia grave, como el encarcelamiento o la pérdida total de

90
los bienes, parece una variable muy diferente de la que se utiliza para regatear el precio
de un televisor nuevo. Si las pruebas empíricas confirman estas sospechas, yo diría
que el segundo conjunto de artículos más generales no fue

91
contenido válido en todos los contextos. Además, sugeriría que su falta de validez en
determinados contextos (como la toma de decisiones sobre la obtención de asistencia
jurídica o médica importante) se debe, al menos en parte, a la falta de especificidad del
constructo. Como resultado de esa falta de especificidad, la validez del contenido de
los puntos 4 a 6 puede verse comprometida.

Por supuesto, se podría argumentar que los artículos del 1 al 3 también serían
inválidos en situaciones distintas a la compra de un coche. Aunque eso es indudablemente
cierto, la diferencia importante es que la limitación de la validez del contenido de esos
artículos es evidente, y las personas sensatas no intentarían utilizarlos para evaluar la
conciencia de los costos en contextos marcadamente diferentes. Sin embargo, en el caso de
los artículos más generales, su inadecuación para determinadas situaciones es mucho
menos evidente y podría pasar fácilmente desapercibida.

En el ejemplo anterior, la validez del contenido se vio comprometida cuando se utilizaron


versiones más generales de los artículos porque el concepto de conciencia del costo
adquiere esencialmente un significado diferente en algunos contextos. Otra forma en
que una definición más amplia del concepto podría comprometer la validez del
contenido es cuando un subconjunto de artículos es a veces pertinente y a veces no. Es
decir, en algunas circunstancias, ciertos elementos serán una fuente de variación
irrelevante de la construcción (Messick, 1995), aunque otros elementos conserven su
pertinencia. Como otro ejemplo hipotético, consideremos un subconjunto de elementos que
se están considerando para una escala de discapacidad de propósito general. (Una vez
más, podemos suponer que las opciones de respuesta que acompañan a la escala van
de muy en desacuerdo a muy de acuerdo).

1. Tengo problemas para usar mis manos para tareas que requieren fuerza de
agarre.
2. Tengo problemas para pararme desde una posición sentada.
3. Cuando me quedo en una posición por mucho tiempo, mis miembros se
ponen rígidos.
4. Me canso fácilmente si me esfuerzo demasiado.
5. Ya no puedo hacer cosas que antes podía hacer con facilidad.

Cada uno de estos elementos representa una limitación funcional que podría considerarse
razonablemente representativa de la discapacidad. En algunos tipos de enfermedad,
se podría esperar que todas ellas fueran manifestaciones de la afección y podrían
tender a ocurrir al unísono. Sin embargo, se plantea un problema si los artículos
tienen por objeto evaluar la discapacidad para una afección que no implica todas
estas limitaciones. En tal caso, algunos artículos pueden ser válidos en cuanto a su
contenido mientras que otros no lo son. Así, por ejemplo, para alguien que ha sufrido
una grave fractura de pierna, el artículo A que describe la falta de fuerza de agarre
sería contenido inválido. Es decir, la fuerza de agarre sería poco informativa con
respecto al impacto de la fractura de la pierna de la persona. Por el contrario, para
otra condición, tal vez un derrame cerebral o artritis reumatoide, un artículo sobre la
fuerza de agarre podría ser válido. Así, mientras que la inclusión del artículo A
compromete la validez del contenido para el paciente con fractura de pierna, su
omisión podría atenuar la validez del contenido para el paciente con artritis
reumatoide. La dificultad aquí es que la definición operativa implícita de
discapacidad que adopté al crear estos artículos ilustrativos era demasiado amplia.
Como resultado, elaboré una lista de manifestaciones plausibles de discapacidad que
podrían manifestarse en una serie de condiciones agudas o crónicas sin tener en
cuenta cómo esa lista se ajustaría a cualquier
condición que lleva a la discapacidad. Así que, una vez más, una definición más amplia
creó una situación que podría comprometer la validez del contenido.

Los ejemplos anteriores fueron construidos para hacer un punto. Dudo que alguien
considere realmente desarrollar una medida de conciencia de los costos con la noción
de que artículos como el 4 al 6 pueden ser usados en cualquier contexto con
impunidad. Tampoco ningún investigador sofisticado combinaría los elementos de la
A a la E en una escala única destinada a evaluar la discapacidad en una amplia gama de
condiciones. Sin embargo, estos ejemplos extremos ilustran un punto que sí se aplica en
algunas situaciones de medición del mundo real: cuando una variable y una medida
destinada a aprovecharla son extremadamente amplias, aumenta la probabilidad de
que algunos de los indicadores no se apliquen (y, por lo tanto, no tengan validez de
contenido) en determinadas situaciones o para determinados grupos.

Otra posible consecuencia adversa de la definición amplia de una variable es que los
pasos para establecer la validez del contenido pueden resultar más gravosos. Por ejemplo,
como se examina en el capítulo 5, es común que los expertos examinen el contenido de
los artículos como medio de asegurar la validez del contenido. A medida que se amplía
el alcance del concepto, puede ser necesario ampliar también los conocimientos colectivos
de las personas a las que se pide que examinen la validez del contenido. Además, la tarea
que se plantea a estos expertos puede resultar más difícil, ya que estos jueces se ven
obligados a considerar cuándo y para quién un determinado elemento puede o noser
pertinente para el constructo. Esto requiere que imaginen algo que se aproxime a
todas las situaciones posibles en las que podría utilizarse el instrumento y que
evalúen su idoneidad para cada una de ellas. A medida que la especificidad de la
construcción disminuye, los jueces pueden encontrar más difícil evaluar si
determinados elementos se ajustan adecuadamente a la construcción. Esto puede
requerir la creación de un grupo más grande de jueces expertos de lo que se
necesitaría con un constructo más específico para lograr el mismo grado de confianza
en sus calificaciones.

Cuando las cuestiones de interés de la investigación se refieren a variables inherentemente


amplias, los investigadores podrían considerar si una escala general o varias escalas
específicas son más adecuadas para la tarea y más propicias para establecer la validez
del contenido. Siguiendo con el ejemplo de la conciencia de los costos, un investigador
podría considerar si varias medidas específicas para sus contextos singulares serían una
alternativa más útil a un conjunto no específico de elementos similares a los 4 a 6
anteriores. O, en el caso de una escala de discapacidad, podría ser útil seleccionar
conjuntos de elementos que se refieran específicamente a los tipos de limitaciones que
cabe esperar en un grupo de personas bastante limitado.

La validez del contenido es diferente de los otros tipos de validez que discutiremos
porque realmente está definida por las acciones que el creador de la escala toma al
principio del desarrollo de la escala. La más importante de ellas es considerar
cuidadosamente la variable que la escala pretende medir y, a continuación, los tipos de
elementos que muestrean adecuadamente el dominio que abarca esa variable.
Las compensaciones entre dominios y conjuntos de artículos más generales y más
específicos merecen una cuidadosa atención en esta etapa del proceso de desarrollo de la
escala y pueden tener un gran impacto en la validez del contenido de los artículos
finalmente elegidos. Del mismo modo, cuando se selecciona una escala existente
para su uso en un estudio, en lugar de basarse meramente en informes anteriores de
validez del contenido de estudios anteriores, el investigador debe considerar
cuidadosamente la forma en que el contenido de las escalas disponibles corresponde a la
población, el contexto y las cuestiones de estudio del estudio específico que se proyecta.

Debido a que la amplitud de la variable que un investigador elige para estudiar define de
manera directa y transparente el tamaño del conjunto potencial de contenido que el
desarrollador de la escala debe representar adecuadamente, he optado por discutir
este tema en conjunto con la validez del contenido. Sin embargo, la amplitud del
dominio que una escala espera abarcar también tiene implicaciones para los otros
tipos de validez que examino en el resto de este capítulo. No repetiré lo que he
tratado hasta ahora, pero los lectores deben saber que la adecuación de los elementos
al constructo es fundamental para todos los tipos de validez examinados en este
capítulo. A medida que se amplían los límites de esa construcción, la tarea de
demostrar la validez relacionada con el criterio o la validez de la construcción puede
ser más desalentadora, como lo es para la validez del contenido.

Validez relacionada con el criterio


Para tener validez relacionada con el criterio, como el término implica, se requiere
que un elemento o escala tenga sólo una asociación empírica con algún criterio o
supuesto "patrón oro". El hecho de que se comprenda o no la base teórica de esa
asociación es irrelevante para la validez del criterio. Si se pudiera demostrar, por
ejemplo, que la radiestesia se asocia empíricamente con la localización de fuentes de
agua subterránea, entonces la radiestesia tendría validez con respecto al criterio del éxito
de la excavación de pozos. Así pues, la validez relacionada con el criterio en sí es más
una cuestión práctica que científica, porque no se trata de comprender un proceso sino
simplemente de predecirlo. De hecho, la validez relacionada con los criterios se suele
denominar validez predictiva.

La validez de los criterios por cualquier nombre no implica necesariamente una


relación causal entre las variables, incluso cuando el orden temporal del predictor y
el criterio son inequívocos. Por supuesto, la predicción en el contexto de la teoría
(por ejemplo, la predicción como hipótesis) puede ser pertinente para las relaciones
causales entre las variables y puede tener un útil propósito científico.

Otro punto que vale la pena señalar sobre la validez relacionada con los criterios es que,
lógicamente, se trata del mismo tipo de problema de validez si el criterio sigue,
precede o coincide con la medición en cuestión. Así pues, además de la validez
predictiva, la validez concurrente (por ejemplo, la predicción de la capacidad de
conducción a partir de las respuestas a las preguntas orales formuladas durante el
examen de conducción) o incluso la validez postdictiva (por ejemplo, la predicción del
peso al nacer a partir de una escala del estado de desarrollo de la infancia) puede
utilizarse más o menos como sinónimo de validez relacionada con el criterio. El aspecto
más importante de la validez basada en criterios no es la relación temporal entre la
medida en cuestión y el criterio cuyo valor se intenta inferir, sino más bien la fuerza
de la relación empírica entre ambos acontecimientos. El término
La validez relacionada con el criterio tiene la ventaja sobre los otros términos de ser
temporalmente neutral y, por lo tanto, es preferible.

Validez relacionada con el criterio frente a la precisión


Antes de dejar la validez relacionada con el criterio, es necesario decir algunas palabras
sobre su relación con la exactitud. Como señalan Ghiselli y otros (1981), el coeficiente de
correlación, que ha sido el índice tradicional de la validez relacionada con el criterio,
puede no ser muy útil cuando se trata de la exactitud de la predicción. Un coeficiente de
correlación, por ejemplo, no revela cuántos casos son clasificados correctamente por un
predictor (aunque las tablas que proporcionan una estimación de la proporción de
casos que caen en diversas categorías de percentiles, basadas en el tamaño de la
correlación entre el predictor y el criterio, son descritas por Ghiselli y otros, pág. 311).
En algunas situaciones puede ser más apropiado dividir tanto un predictor como su
criterio en categorías discretas y evaluar la "tasa de acierto" para colocar los casos en la
categoría correcta del criterio sobre la base de su categoría de predictor. Por ejemplo, se
podría clasificar cada variable en categorías "bajas" frente a "altas" y conceptuar la exactitud
como la proporción de clasificaciones correctas (es decir, los casos en que el valor del
predictor corresponde al valor del criterio). El lugar en que se dividen las categorías es una
consideración importante. Considérese un criterio que tenga dos estados no arbitrarios,
como "enfermo" y "sano", y un instrumento de evaluación que tenga una gama de
puntuaciones que un investigador quiera dicotomizar. La finalidad del instrumento de
evaluación es predecir si las personas darán un resultado positivo o negativo en la prueba
de la enfermedad en cuestión. Dado que el resultado es dicotómico, tiene sentido hacer
que el predictor sea dicotómico.
Hay dos posibles errores de clasificación: La medida puede clasificar erróneamente a una
persona verdaderamente enferma también (falso negativo) o a una persona
verdaderamente sana como enferma (falso positivo). Cuando a lo largo de la gama de
puntuaciones de la herramienta de evaluación se coloca la línea divisoria al dicotomizar,
puede afectar a las tasas de estos dos tipos de errores. En los extremos, si se clasifica a
todos también se evitarán los falsos negativos (pero se incrementarán los falsos positivos),
mientras que si se clasifica a todos como enfermos se evitarán los falsos positivos (pero
se incrementarán los falsos negativos). Obviamente, en ambos casos extremos, la
herramienta de evaluación no tendría ningún valor predictivo. El objetivo, por supuesto,
es elegir un corte que produzca el menor número de errores de ambos tipos y, por lo
tanto, la mayor precisión. A menudo, no existe un punto de corte ideal (es decir, uno
que resulte en una clasificación perfecta). En tal caso, el investigador puede hacer un
esfuerzo consciente por reducir al mínimo un tipo de error en lugar del otro. Por
ejemplo, si la enfermedad es devastadora y el tratamiento es eficaz, barato y
benigno, el costo de un falso negativo (que da lugar a un tratamiento insuficiente) es muy
superior al de un falso positivo (que da lugar a un tratamiento excesivo). Por
consiguiente, parece apropiado elegir un límite para reducir los falsos negativos y al
mismo tiempo aceptar los falsos positivos. Por otra parte, si el remedio es caro y
desagradable y la enfermedad es leve, la compensación opuesta podría tener más
sentido.

Además, es importante recordar que, aunque la correlación entre una medida de predicción
y un criterio sea perfecta, la puntuación obtenida en el predictor no es una
estimación del criterio. Los coeficientes de correlación son insensibles a las
transformaciones lineales de uno o ambos
variables. Una alta correlación entre dos variables implica que las puntuaciones de esas
variables obtenidas de un mismo individuo ocuparán lugares similares en sus
respectivas distribuciones. Por ejemplo, es probable que alguien que obtenga una
puntuación muy alta en la primera variable también obtenga una puntuación muy alta en
la segunda si las dos están fuertemente correlacionadas. Sin embargo, "muy alto" es un
término relativo más que absoluto y no tiene en cuenta las unidades de medida de las
dos variables, por ejemplo. Puede ser necesario transformar las unidades de medida del
predictor en las del criterio para obtener una predicción numérica exacta. Este ajuste
equivale a determinar la interceptación apropiada además de la pendiente de una
línea de regresión. Si no se reconoce la necesidad de transformar una puntuación, se
pueden sacar conclusiones erróneas. Un error de este tipo es tal vez más probable que
ocurra si el predictor se calibra en unidades que caen en el mismo rango que el criterio.
Supongamos, por ejemplo, que alguien ideó la siguiente "escala de multas por exceso
de velocidad" para predecir cuántas multas recibirían los conductores a lo largo de
5 años:

Excedo el límite de velocidad cuando

conduzco. Frecuentemente : Ocasionalmente

: Raramente : Nunca

En las carreteras de varios carriles,

conduzco en el carril de adelantamiento.

Frecuentemente : Ocasionalmente :

Raramente : Nunca

Juzgo por mí mismo qué velocidad de conducción es la

apropiada. Frecuentemente : Ocasionalmente :

Raramente : Nunca

Supongamos también que la escala se correlaciona perfectamente con el número de


entradas recibidas en un período de 5 años. La escala se puntúa dando a cada artículo
un valor de 3 cuando un encuestado marca "frecuentemente", 2 para "ocasionalmente", 1
para "raramente" y 0 para "nunca". Las puntuaciones de los artículos se suman para
obtener una puntuación de escala. La perfecta validez del criterio de puntuación no
significa que una puntuación de 9 se traduzca en nueve entradas en 5 años.
Más bien, significa que las personas que obtienen la mayor puntuación en el
instrumento son también las que tienen el mayor número de entradas observadas en un
año. Alguna transformación determinada empíricamente (por ejemplo, 0,33 × PUNTAJE)
daría la estimación real. Esta transformación particular predeciría tres boletos para un
conductor con una puntuación de 9. Cuanto mayor sea la validez relacionada con el
criterio, más precisa podrá ser la estimación basada en la medida del predictor.
Sin embargo, la similitud entre los valores numéricos del criterio y la medida del
predictor antes de una transformación apropiada no tendría nada que ver con el grado
de validez.

Construir la validez
La validez de la construcción (Cronbach & Meehl, 1955) está directamente relacionada
con la teoría
relación de una variable (por ejemplo, una puntuación en alguna escala) con otras
variables. Es la medida en que una medida se "comporta" de la manera en que el
constructo que pretende medir debe comportarse con respecto a las medidas establecidas
de otros constructos. Así, por ejemplo, si consideramos que alguna variable, basada en
la teoría, está relacionada positivamente con los constructos A y B, negativamente con C y
D, y sin relación con X e Y, entonces una escala que pretende medir ese constructo
debería tener una relación similar a las medidas de esos constructos. En otras palabras,
nuestra medida debería estar positivamente correlacionada con las medidas de los
constructos A y B, negativamente correlacionada con las medidas de C y D, y no
correlacionada con las medidas de X e Y. Una descripción de estas relaciones hipotéticas
podría parecerse a la de la figura 4.1.

Figura 4.1 Una relación hipotética entre las variables

La medida en que las correlaciones empíricas coincidieron con el patrón predicho


proporciona alguna evidencia de lo bien que se comporta la medida como lo hace la
variable que se supone que debe medir.

Aplicando este enfoque general, Sterba y otros (2007) describieron un patrón de


asociaciones que predijeron que su instrumento tendría con varios constructos
pertinentes. Por ejemplo, basándose en su análisis teórico, predijeron que las
puntuaciones de eficacia diádica se correlacionarían con medidas de calidad matrimonial,
ajuste psicológico y normas de trabajo en equipo. Algunas de esas predicciones
especificaban asociaciones negativas, como la hipótesis de una relación inversa entre la
eficacia diádica y la depresión. Una limitación de ese estudio, reconocida por los autores,
fue que no se evaluó la autoeficacia individual. Demostrar que la eficacia diádica es
distinta de las percepciones de autoeficacia individual de las parejas dentro de las parejas
es un aspecto potencialmente importante del proceso en curso de validación de
la escala.

Diferenciación de la construcción de la validez relacionada


con el criterio
La gente a menudo confunde la validez del constructo y la del criterio porque la misma
correlación exacta puede servir para cualquiera de los dos propósitos. La diferencia reside
más en la intención del investigador que en el valor obtenido. Por ejemplo, un
epidemiólogo podría tratar de determinar cuál de las diversas medidas obtenidas en un
estudio de encuesta se correlaciona con el estado de salud. La intención podría ser
simplemente identificar los factores de riesgo sin preocuparse (al menos inicialmente)
por los mecanismos causales subyacentes que vinculan las puntuaciones de las medidas
con el estado de salud. La validez, en este caso, es el grado en que las escalas pueden
predecir el estado de salud. Otra posibilidad es que la preocupación sea más teórica y
explicativa. El investigador, como el epidemiólogo descrito en el capítulo inicial de este
libro, podría respaldar un modelo teórico que considera el estrés como una causa del
estado de salud, y la cuestión podría ser qué tan bien una escala recientemente
desarrollada mide el estrés. Esto podría evaluarse evaluando el comportamiento de la
escala en relación con la forma en que la teoría sugiere que el estrés debe operar. Si la
teoría sugiere que el estrés y la salud
Si el estado de la situación debe estar correlacionado, entonces la misma relación
empírica utilizada como prueba de la validez predictiva en el ejemplo precedente podría
utilizarse como prueba de la validez del constructo.

La llamada validación de los grupos conocidos es otro ejemplo de un procedimiento que puede
clasificarse como validez de constructo o de criterio, según la intención del investigador.
La validación de los grupos conocidos suele implicar la demostración de que alguna escala
puede diferenciar a los miembros de un grupo de otro en función de sus puntuaciones
de escala. El propósito puede estar relacionado con la teoría (como cuando se valida una
medida de las actitudes hacia un determinado grupo diferenciando correctamente a los
que se afilian o no a los miembros de ese grupo) o ser puramente predictivo (como
cuando se utiliza una serie de elementos aparentemente no relacionados para predecir
la rotación del trabajo). En el primer caso, el procedimiento debe considerarse un tipo
de validez de constructo y en el segundo, de criterio.

Además de la intención, otra diferencia a menudo subyace en la validez de los


criterios y la construcción. La validez de criterio a menudo se evalúa directamente
calculando una correlación entre la medida que se valida y el criterio (por ejemplo,
algún comportamiento, estado o puntuación). Por el contrario, la validez de
constructo sólo puede evaluarse indirectamente (véase Lord & Novick, 2008, pág.
278), porque la comparación pertinente es con una variable latente más que con una
observada. A este respecto, es similar a la fiabilidad. En los capítulos anteriores hemos
observado que la fiabilidad se refiere en realidad a la relación entre un indicador y una
puntuación verdadera no observable y que inferimos esa relación sobre la base de las
correlaciones entre los indicadores observables. Lo mismo ocurre con la validez del
constructo. No podemos calcular directamente la asociación entre el instrumento que
se valida y la variable latente, sino que debemos hacerlo indirectamente
observando las asociaciones entre el nuevo instrumento y otros indicadores creíbles
de la variable latente. De hecho, los investigadores pueden encontrar útil utilizar esta
diferencia comoregla general cuando no están seguros de que la validez de criterio o
de constructo sea de interés primordial. Si el objetivo es predecir un resultado
observable (por ejemplo, el comportamiento, el estado o una puntuación observada),
entonces la validez de criterio puede ser el objetivo. Por otra parte, si el objetivo es
predecir el nivel de algún constructo hipotético e inobservable mediante un
indicador observable, es probable que la meta sea la validez del constructo.

A veces, sin embargo, la validación de los criterios implicará un indicador destinado a


reflejar alguna puntuación real no observable. Este es el caso cuando el criterio (por
ejemplo, un graduado de una escuela de derecho que reúne los requisitos para ser
admitido en el colegio de abogados) se basa en alguna forma de evaluación
psicométrica (por ejemplo, aprobar el examen del colegio de abogados). Si el objetivo
del investigador sigue siendo la mera predicción sin elaboración conceptual, esa
comparación es un ejemplo de la validez del criterio a pesar de lo indirecto de la
comparación entre el predictor y el resultado de interés.
Atenuación
En la medida en que dos indicadores no son perfectamente fiables, cualquier
correlación entre ellos
subestimarán la correlación entre sus correspondientes resultados reales (por
ejemplo, Lord & Novick, 2008). Cuando asumimos que el error es aleatorio, sólo las
partes fiables de los dos indicadores pueden correlacionarse. Por consiguiente, un
coeficiente de validez observado calculado mediante la correlación de dos variables
observadas se atenúa como consecuencia de cualquier falta de fiabilidad inherente a
esos indicadores. Se puede aplicar una corrección por atenuación a una correlación
observada que tenga en cuenta la falta de fiabilidad de las variables. Esa corrección
consiste en dividir la correlación observada entre los dos indicadores por la raíz cuadrada
del producto de su fiabilidad. Así pues,

donde r(T)xy es la correlación entre las puntuaciones reales de las variables X e Y, rxy
es la correlación entre las puntuaciones observadas, y rxx y ryy son las confiabilidades de
las variables X e Y, respectivamente.

A pesar de la disponibilidad de tales correcciones, algunos autores se oponen a ellas.


Nunnally y Bernstein (1994), por ejemplo, señalan que pueden inducir a los
investigadores a pensar que una asociación es más fuerte de lo que realmente es.
También señalan que los coeficientes corregidos pueden a veces exceder de 1,0 (pág.
257), lo cual es problemático. Lord y Novick (2008) señalan que cuando se subestiman
las confiabilidades de las dos medidas (que se producen en el denominador dela
ecuación de corrección), la correlación entre los coeficientes verdaderos se
sobrestimará (pág. 138). Al recordar en los capítulos anteriores que en los modelos
distintos de las pruebas paralelas, el coeficiente alfa es un límite inferior de la
verdadera fiabilidad de una medida, se hace evidente que podría surgir fácilmente
una "corrección" inexacta. Por lo tanto, hay fuertes argumentos prácticos contra el uso
de una corrección para la atenuación cuando se examinan las correlaciones, ya sea para
evaluar la validez o para otros fines. Debido al carácter indirecto de los coeficientes de
correlación utilizados para evaluar la validez del constructo, como se ha examinado
anteriormente, puede ser especialmente tentador corregir esos coeficientes de validez
para la atenuación. Sin embargo, los argumentos contra el ajuste por atenuación
siguen siendo válidos, y es práctica común no corregir el coeficiente de correlación
en esos casos.

¿Qué tan fuertes deben ser las correlaciones para demostrar


la validez de la construcción?
No hay ningún límite que defina la validez de la construcción. Es importante reconocer
que dos medidas pueden compartir más que la similitud de constructo. Específicamente,
las similitudes en la forma en que se miden los constructos pueden dar cuenta de alguna
covarianza en las puntuaciones, independientemente de la similitud de los constructos.
Por ejemplo, dos variables puntuadas en un sistema de puntuación multipunto
(puntuaciones del 1 al 100) tendrán una mayor correlación entre sí que con una variable
binaria, siendo todo lo demás igual. Esto es un artefacto causado por la estructura de los
métodos de medición. Asimismo, debido a las similitudes de procedimiento, los datos
de un tipo recogidos por
Las entrevistas pueden correlacionarse en cierta medida con otros datos reunidos de la
misma manera, es decir, parte de la covarianza entre dos variables puede deberse a la
similitud de las mediciones más que a la similitud de las construcciones. Este hecho
proporciona alguna base para responder a la pregunta relativa a la magnitud de las
correlaciones necesarias para concluir la validez del constructo. Las variables, como
mínimo, deben demostrar una covariación superior a la que puede atribuirse a la
varianza compartida del método.

Matriz multirretrato-multimétodo
Campbell y Fiske (1959) idearon un procedimiento llamado matriz multirretrato-
multimétodo que es extremadamente útil para examinar la validez de los constructos.
Este enfoque encaja bien con la idea, presentada anteriormente, de que la validez de
los constructos se evalúa indirectamente y debe inferirse a partir de los indicadores
disponibles de la variable latente de interés. El procedimiento consiste en medir
más de un constructo por medio de más de un método, de manera que se obtiene una
matriz "totalmente cruzada" método por medida. Por ejemplo, supongamos que se diseña
un estudio en el que la ansiedad y la depresión y la talla de los zapatos se miden cada
una en dos momentos distintos utilizando dos procedimientos de medición diferentes
cada vez. (Obsérvese que se podrían haber medido dos muestras diferentes de individuos
al mismo tiempo. ¿Qué efecto tendría esto en la lógica del enfoque?) Cada constructo
podría evaluarse mediante dos métodos: una escala visual-analógica (una línea en la
que los encuestados hacen una marca para indicar la cantidad del atributo que
poseen, ya sea ansiedad, depresión o bignidad de pie) y una calificación asignada por
un entrevistador tras una interacción de 15 minutos con cada sujeto. A continuación se
podría construir una matriz de correlaciones obtenidas entre las mediciones, como
se muestra en el cuadro 4.1.

Notas: TM = mismo rasgo y método (fiabilidad); T = mismo rasgo, método diferente; M = mismo método,
rasgo diferente.

A, D y S se refieren a los constructos ansiedad, depresión y talla de zapatos,


respectivamente. Los subíndices v y i se refieren a los métodos de entrevista y visual-
analógico, respectivamente.
Otra posible distinción, que no figura en el cuadro, es entre rasgos relacionados y no
relacionados. Dado que las entradas que reflejan el mismo rasgo (constructo) y el mismo
método deben compartir tanto la varianza del método como la del constructo, cabría
esperar que estas correlaciones sean más elevadas. Se espera que las correlaciones
correspondientes al mismo rasgo pero a diferentes métodos sean las siguientes en
importancia. Si es así, esto sugeriría que la covariación de constructo es mayor que la
covariación de método. En otras palabras, nuestras medidas estuvieron más
influenciadas por lo que se midió que por cómo se midió. Por el contrario, no hay razón
para que exista una covariación entre la talla del zapato y cualquiera de las otras dos
construcciones cuando se miden por procedimientos diferentes. Por lo tanto, estas
correlaciones no deberían ser significativamente diferentes de cero. Para los
constructos no idénticos pero teóricamente relacionados, como la depresión y la ansiedad,
uno esperaría alguna covariación de constructo. Este es potencialmente un conjunto de
correlaciones muy informativo para establecer la validez del constructo. Si, por ejemplo,
nuestras medidas de depresión estuvieran bien establecidas pero nuestras medidas de
ansiedad se estuvieran desarrollando actualmente, podríamos evaluar la cantidad de
covariación atribuible a la similitud de los conceptos en condiciones de procedimientos
de medición similares y diferentes. La teoría afirma que la ansiedad y la depresión
deben estar sustancialmente correlacionadas incluso cuando se miden con métodos
diferentes. Si esto resultara ser así, serviría como prueba de la validez del constructo
de nuestras nuevas medidas de ansiedad. Más específicamente, estas correlaciones serían
indicativas de la validez convergente, evidencia de la similitud entre las medidas de los
constructos teóricamente relacionados. Idealmente, las correlaciones entre la ansiedad y
la depresión serían menores que las existentes entre dos medidas de depresión o dos
medidas de ansiedad, pero sustancialmente mayores que las existentes entre
cualquiera de las puntuaciones de depresión y la talla de zapatos. Igualmente importante
es la evidencia de que las medidas de ansiedad no se correlacionaron significativamente
con las medidas de la talla de los zapatos, independientemente de la similitud o
disimilitud de la técnica de medición. Se trata de pruebas de validez discriminante (a
veces llamada validez divergente), la ausencia de correlación entre las medidas de
constructos no relacionados. La correlación significativa entre la talla de los zapatos y la
ansiedad cuando se miden de la misma manera sugeriría que el método en sí mismo
representaba una parte sustancial de la variación (y covariación) asociada a medidas
similares de los constructos disímiles.

Mitchell (1979) observó que los métodos de recopilación de datos para una matriz
multirrazo-multimétodo constituyen un estudio G de dos facetas (o estudio de
generalizabilidad; véase el capítulo 3), en el que los rasgos y los métodos son las facetas.
La matriz multirraito-multimétodo permite dividir la covariación en fuentes de
"método" y "rasgo" (o construcción). Podemos entonces hacer afirmaciones más
precisas sobre la validez de constructo, porque nos permite diferenciar la covariación
que refleja verdaderamente la similitud de constructo (y por lo tanto es pertinente
para la validez de constructo) de la covariación que es un artefacto de la aplicación de
procedimientos de medición similares (y por lo tanto no se relaciona con la validez de
constructo). Esa diferenciación no es posible cuando se examina simplemente una
100
correlación única entre dos medidas.

¿Qué hay de la validez de la cara?


Muchas personas usan el término "validez de la cara" para describir un conjunto de
elementos que evalúan lo que parecen

101
para medir en su cara. En mi opinión, este uso es desafortunado por varias
razones.

En primer lugar, la suposición de que una medida evalúa lo que parece que está
evaluando puede ser errónea. Por ejemplo, Idler y Benyamini (1997) examinaron 27
grandes estudios epidemiológicos bien realizados para determinar con precisión lo que
un elemento común estaba tocando. Ese ítem pide a las personas que evalúen su salud
general como pobre, regular, buena o excelente. La mayoría de la gente juzgaría esta
medida de un solo ítem para evaluar exactamente lo que dice: la salud de los encuestados.
Idler y Benyamini notaron que el ítem era un excelente predictor de una variedad de
resultados de salud. Superó sistemáticamente a otras variables en la contabilización de la
varianza en los diferentes estudios. Más relevante para nuestra discusión, parecía no estar
relacionado principalmente con el estado de salud. Los modelos a menudo contenían
un solo ítem y también establecían medidas del estado de salud. Típicamente, tanto la
autocalificación de salud de un solo ítem como las otras medidas del estado de salud
eran predictores significativos en el mismo modelo. Es decir, no compartían suficiente
varianza para que la contribución predictiva de uno excluyera una contribución
predictiva independiente del otro. Más bien, la autocalificación de salud de un solo
elemento parecía compartir la varianza en mayor grado con las variables psicológicas.
Estas conclusiones sugieren que este elemento único ampliamente utilizado no es un
indicador válido del estado de salud, tal como aparece en su cara. Para este elemento, el
hecho de que parezca que está midiendo lo que queremos que mida no es suficiente
para apoyar las afirmaciones de validez.

Un segundo problema de la evaluación de una medida basada en la validez facial es


que hay veces en que es importante que la variable que se mide no sea evidente. Por
ejemplo, un instrumento destinado a evaluar el grado en que las personas responden de
manera falsa (por ejemplo, para hacerse "ver bien") difícilmente se beneficiaría si su
propósito fuera evidente para los encuestados. ¿Concluiríamos que no era válido
porque no parecía medir la falsedad? Esperemos que no. Entonces, aquí tenemos un caso
en el que el hecho de no parecer lo que realmente es no puede apoyar una conclusión de
invalidez.

Una última preocupación sobre la validez de la cara es que no está claro para quién
debe ser evidente el propósito de un instrumento, en su cara. ¿Es el demandado? Si
un médico pregunta a un paciente si ha tenido más sed de lo habitual, ¿la validez de
esa pregunta depende de que el paciente sepa lo que se le preguntó? Es evidente que
no. ¿Es la persona que crea el instrumento quien debe reconocer el propósito? Es
difícil imaginar que el vínculo entre el contenido del instrumento y la variable de
interés no sea obvio para el creador del instrumento (excepto quizás en los casos relativos
a la validez puramente empírica, atérea y relacionada con el criterio). Si se adoptara este
significado de validez fisonómica, unaescala de ll esencialmente se consideraría válida.
Por último, ¿es una comunidad científica más amplia la que debería reconocer la finalidad
de un instrumento basándose en su apariencia? Es probable que esta interpretación dé
lugar a pruebas contradictorias. Un elemento que para algunos expertos parece medir
una variable podría parecer como si midiera otra a un segundo grupo igualmente
cualificado. A menudo, parece que las personas que afirman que una escala es o no
válida porque tiene o no parece tener validez aparente están basando su afirmación
en percepciones personales. Es decir, si la intención y el aspecto de un instrumento se
parecen a ellos, se inclinan a considerarlo válido a primera vista; de lo contrario, no lo
son. Este
parece una base débil para cualquier reclamo de validez.

La validez aparente y la validez del contenido se confunden a veces porque ambas


pueden referirse a la medida en que el contenido del artículo parece pertinente
para la construcción de interés. Sin embargo, una diferencia importante es que la
validez del contenido se define en función de procedimientos específicos, y esos
procedimientos suelen ser más estructurados y rigurosos que las evaluaciones
informales de la validez aparente. Como se ha señalado, esos pasos pueden
incluir la reunión de ideas de posibles encuestados, pero también suelen incluir
la obtención de información de la bibliografía teórica pertinente y de expertos en la
esfera investigada. Por ejemplo, se puede pedir a los expertos en contenido que
evalúen el contenido del artículo en relación con una definición de construcción
explícita. Se supone que esos expertos tienen un marco de referencia teórico que
respalda sus juicios. La mera apariencia de pertinencia no es el único criterio.
Además, los individuos cuyos juicios se utilizan para evaluar la validez son
claros. Además, la conclusión de que el instrumento tiene validez de contenido no
es una determinación exclusiva de los propios investigadores. Por último, la
transparencia para el demandado no es una base para evaluar la validez del
contenido como suele hacerse (por ejemplo, mediante juicios de expertos). Así
pues, un enfoque formal de la validación del contenido puede superar las
limitaciones de la confianza en la validez aparente.

Dependiendo de las circunstancias, puede haber ventajas o desventajas en


que la intención de un instrumento sea evidente por su apariencia. Como
veremos en el próximo capítulo, el proceso de generación de artículos suele
producir afirmaciones que se refieren explícitamente a la variable de interés. Esto
no suele ser algo malo. No estoy sugiriendo que los instrumentos en general
se construyan de manera que su intención no sea evidente por las apariencias;
más bien, estoy sugiriendo que el hecho de que sea así o no tiene poco o nada
que ver con la validez.

Ejercicios
1. Dé un ejemplo de cómo la misma correlación entre una escala y un
comportamiento podría ser indicativa de la validez de construcción o de la
validez relacionada con el criterio. Explique cómo (a) los motivos detrás
del cálculo de la correlación y (b) la interpretación de esa correlación
diferiría dependiendo del tipo de validez que el investigador estaba
tratando de evaluar.
2. Supongamos que un investigador tiene medidas de papel y lápiz de dos
constructos: autoestima y conformidad social. El investigador también tiene
puntuaciones basadas en entrevistas en los mismos dos constructos.
¿Cómo se podrían utilizar estos datos en una matriz multirretrato-
multimétodo para demostrar que el método de reunión de datos tuvo un
efecto indeseable en los resultados obtenidos?
3. ¿Cómo podría una definición demasiado amplia del dominio de contenido
para una escala afectar negativamente a la validez del contenido de esa
escala cuando se utiliza con determinadas poblaciones?

S-ar putea să vă placă și