para la evaluación de las medidas físicas y fisiológicas. Esto no es algo que un
lector puede pasar por alto algunas pruebas fisiológicas y las medidas son notoriamente poco fiables. Se espera que el investigador proporcione pruebas de fiabilidad del aparato, pruebas y medidas. Pruebas Psicológicas
Cuando la medida de criterio de variable independiente se obtiene de una
prueba psicológica, debe presentarse evidencia acerca de la fiabilidad y validez de la prueba. La prueba tiene que ser válida para el propósito de esta variable específica, no meramente válida en algún sentido más amplio. Por lo tanto, una prueba de inteligencia como la Escala de Inteligencia de Adultos de Wechsler (Matarazzo, 1972) podría ser una prueba válida de inteligencia, pero no sería apropiado usarla como medida de criterio para una variable independiente como la autoestima. Cuando se usan las puntuaciones de los exámenes para clasificar a las personas en categorías nominales, es importante determinar si se han utilizado puntuaciones de corte bien establecidas. Los participantes que han sido colocados en un grupo ansioso, un grupo deprimido o un grupo con retraso mental deben tener puntajes de prueba que se ajusten al nivel de corte para asegurar una clasificación válida. La validez interna del estudio tendría que ser sospechoso a menos que todos los participantes realmente pertenecieran a sus grupos asignados.
Clasificación por Jueces
La clasificación por jueces calificados (preferentemente expertos) es un modo favorecido para algunas variables de atributo. Por ejemplo, los dos niveles de variables pendiente en un estudio se pueden establecer como "límite" y "normal". Para esta clasificación, el investigador decide utilizar el juicio de un consejo de expertos. Trabajando independientemente, cada uno de los miembros examina a los participantes potenciales y estudia sus registros. El lector tiene que estar convencido de las normas de calificación para la experiencia de los jueces y busca las normas de acuerdo que se requiere de ellos. ¿Se usaron suficientes jueces y los estándares de acuerdo entre ellos fueron lo suficientemente rigurosos para que los lectores estuvieran seguros de que los participantes estaban correctamente clasificados? La regla que rige la selección es que cada participante tiene que encajar inequívocamente en una de las dos categorías. Cualquiera que no cumpla con este requisito no puede ser utilizado para este estudio. El lector tiene que estar seguro de que los participantes que han sido seleccionados para representar el grupo fronterizo se ajustan a esa categoría como se define y que los seleccionados para el grupo normal se clasifican correctamente. 106 PENSAMIENTO CRÍTICO SOBRE INVESTIGACIÓN
Variable dependiente
El criterio de la variable dependiente debe ser relevante, válido, claramente
definido y declarado de antemano. Los descubrimientos post hoc que se llegan a partir del examen de datos ya recogidos pueden en el mejor de los casos ser utilizados como base para hipótesis para futuras investigaciones. El post hoc ergo propter hoc falacia, es decir, tomar un antecedente de un evento para ser su causa sólo por el hecho de que precedió al evento, puede fácilmente llevar a un lector extraviado. El lector debe examinar la conveniencia del criterio y la medida de criterio. Por ejemplo, en un estudio sobre la memoria, un investigador puede seleccionar el recuerdo en lugar del reconocimiento como criterio y recordar una lista de 10 sílabas sin sentido como medida de criterio. Ambas opciones pueden ser evaluadas. CRITERIOS DE MEDIDAS Tipos y Fuentes de Datos y Sesgo Indicadores versus correlatos
Algunas medidas son indicadores directos de lo que ocurrió en la situación
experimental. Si se evalúa con precisión, no hay duda de que se ha medido el comportamiento, estado o evento bajo escrutinio. Esto es distinto de las medidas, un paso más, que se correlacionan con el criterio en algún nivel aceptable. Un investigador que está estudiando el comportamiento de la delincuencia y utiliza el número de delitos como medida de criterio está utilizando un indicador, en contraposición al investigador que utiliza un correlato de la delincuencia en forma de una prueba de valores morales. Un indicador en un estudio de la agresión sería una medida del número de actos agresivos presentados. Un correlato podría ser respuestas en el Rosenzweig Picture Frustration Test (Rosenzweig, 1935). Los indicadores inculcan un mayor nivel de certeza en el investigador y en el lector, pero no siempre son factibles de concebir o utilizar. Fuentes y sesgo Los datos se pueden derivar de varias fuentes y pueden ser de diferentes tipos. Cada uno de estos tiene un mayor o menor grado de sesgo potencial que es importante para un lector a tener en cuenta. El sesgo es conocimiento previo o interés adquirido que contamina o influye en los juicios que se hacen, o la manera en que se aplican las medidas. El potencial de sesgo depende de lo que se observa, quién hace la observación y cómo se hacen las observaciones. Se pueden utilizar observadores independientes capacitados, o los observadores pueden ser los experimentadores y Criterios y Medidas de criterios 107
los asistentes de investigación, padres, supervisores, maestros, terapeutas, o
incluso los propios participantes. El auto-reporte no es la mejor opción debido al evidente potencial de sesgo de autoservicio o de distorsiones de la autopercepción. Si se utilizan en absoluto, los lectores prefieren ver el auto- informe acompañado de informes de los puntos de vista de otros observadores y evaluados por criterios de comportamiento también. Sin embargo, cuando se realizan estudios de experiencias subjetivas tales como dolor físico, alegría o tristeza, es difícil descubrir cómo se sienten las personas sin pedirles un informe de venta. Incluso un inventario de personalidad como el Inventario de Personalidad Multifásico de Minnesota Dahlstrom, Welsh, y Dahlstrom, 1972) es, después de todo, una colección de artículos de auto-informe. En otros casos, las "observaciones" pueden ser hechas por instrumentos o por pruebas y medidas físicas o psicológicas. El principio general es que cuanto menos la participación personal del observador en el desempeño o el comportamiento del participante, menos ambiguo sea el comportamiento y menos juicio sea requerido al observador, menor será el potencial de sesgo. Los datos que son totalmente críticos o evaluativos, como buenos, mejor o el mejor, sin cambios, son más sujetos a prejuicios que las decisiones sobre si un comportamiento especificado ocurrió o no. Cuando se utilizan datos evaluativos, es aún más importante que las personas que hacen la sentencia estén libres de prejuicios. Esto también es cierto para los datos descriptivos u otros datos de carácter cualitativo, porque son tan dependientes del espectador. Los datos de estado que no son propensos al sesgo pueden usarse como medidas de criterios. Cuando son aplicables y las consecuencias significativas de alguna intervención experimental, los datos de estatus tales como fechas de hospitalización o alta, muerte, graduación, nacimiento, matrimonio, divorcio y desempleo pueden ser usados. Al darse cuenta de que pueden perderse algo confiando en una sola medida, muchos investigadores usan múltiples medidas de diferentes tipos de procedentes, diferentes fuentes y desde puntos de vista de diferentes observadores. Viendo esto en un informe de investigación, un lector no puede dejar de impresionar si todas las medidas dan los mismos resultados Un problema surge cuando los resultados no son consistentes. Múltiples medidas aumentan la probabilidad de obtener algunas diferencias significativas por casualidad, y el peligro de que esto suceda aumenta a medida que aumenta el número de medidas. En primer lugar, por lo tanto, el lector debe anotar si se ha aplicado una corrección estadística apropiada para esto. En el caso de que persisten incoherencias después de tales correcciones, el lector debe buscar una presentación justa y equilibrada de las conclusiones contradictorias, en contraste con un énfasis indebido en los resultados favorables y un descuento de los desfavorables. 108 PENSAMIENTO CRÍTICO SOBRE LA INVESTIGACIÓN
Fiabilidad y Validez
El lector debe buscar la documentación de la fiabilidad y validez de la variable
dependiente criterio medida. El establecimiento de la fiabilidad puede tomar la forma de evidencia de exactitud consistente de la medida mediante una fuerte correlación test-retest. También puede tomar la forma de una medida de consistencia interna como el procedimiento de mitad dividida, el coeficiente alfa (Cronbach, 1951), o Kuder-Richardson 20 (Kuder & Richardson, 1937) para pruebas psicológicas que consisten en una serie de elementos. Una demostración satisfactoria de validez es esencial para la variable dependiente como lo fue para la variable independiente. La validez puede establecerse de diferentes maneras. La forma más apropiada depende del tipo de medida. La validez facial, la apariencia de medir lo que se quiere medir, no suele ser suficiente. Si la variable dependiente está destinada a evaluar el dominio de la materia, una prueba de validez del contenido es valiosa. El contenido es juzgado por un panel de expertos; el contenido se considera válido si los expertos coinciden en que el contenido de cada elemento es apropiado y que todas las áreas de contenido importantes han sido cubiertas adecuadamente. La validez constructiva puede determinarse mediante una evaluación de la correlación de la prueba con otras medidas del mismo rasgo o habilidad (validez convergente) y cuán bien la prueba diferencia entre grupos de personas que se sabe que poseen la capacidad o rasgo y grupos de personas Que se sabe que no la poseen (validez discriminante). La validez factorial confirma el constructo mostrando la fuerte presencia de factores esperados en las pruebas. La validez relacionada con el criterio demuestra que la prueba o medida se correlaciona altamente con el desempeño contemporáneo de un grupo conocido (validez concurrente) o que predice desempeño futuro (validez predictiva). Por encima y más allá de estas formas estándar de validez es algo que se puede llamar validez del estudio, que se refiere a la validez de esta medida cuando se utiliza en esta situación experimental con estas personas para el propósito específico que se designa. Una prueba psicológica puede venir teniendo impresionantes coeficientes de validez, sin embargo, ser de validez cuestionable para su uso en este estudio en particular. Una prueba de CI verbal de alta validez tendría baja validez en el estudio si se usara en participantes que hablaban en su mayoría un idioma diferente del que estaba en la prueba. El estudio válido de un inventario de personalidad de papel y lápiz ampliamente utilizado y bien validado sería cuestionado si los encuestados tuvieran dificultades para entender el vocabulario debido a su edad o nivel educativo. La prueba tiene que medir lo que pretende medir con esta muestra de personas y bajo las condiciones especiales de esta investigación. El uso de una prueba válida de ansiedad para medir la depresión es un ejemplo del mal uso de una prueba que es válida para medir algo más. Ninguna prueba tiene validez omnibus.