Documente Academic
Documente Profesional
Documente Cultură
Por otra parte, hay en la vida cotidiana y en el quehacer cientfico, modos de actuar que
tienen valor prctico sin que sepamos por qu, Todos los hombres, incluidas, por supuesto,
las mujeres e incluso los que nos dedicamos a la psicologa, somos de algn modo
psiclogos prcticos, unos buenos, otros malos y los ms entreverados. Es un buen
psiclogo, deca Gracin, el que sabe buscarle a cada uno su torcedor. Recientemente se
ha comprobado (Arvey y Campion, 1982; Dougherty y cols., 1986), que hay buenos y
malos entrevistadores; unos hacen juicios vlidos sobre los sujetos entrevistados, en el
preciso sentido de que sus juicios se correlacionan con criterios objetivamente pertinentes,
es decir, sus juicios son tiles, aunque no se sepa por qu; otros emiten juicios invlidos,
sin correlacin con los objetivos que se persiguen.
Vengamos al trado y llevado caso de los tests. De nuevo, encontramos los dos tipos de
validez, la terica y la prctica. Se desea, por ejemplo, elaborar un test de inteligencia. No
hay manera de empezar a hacerlo, si no se tiene alguna idea acerca de lo que la inteligencia
pueda ser. Con distintas ideas, elaboraremos distintos tests. Esa idea de la inteligencia ser
el criterio con el que tendremos que contrastar el test. Lo que plantea dos cuestiones
principales, Primera, la idea de inteligencia adoptada qu valor tiene? Es decir, es, al
menos hipotticamente, pertinente? Est delimitada por conceptos coherentes entre s y en
conexin sistemtica con los conocimientos ya adquiridos en ese campo? Aporta tal vez
algo nuevo que subsuma y supere lo anterior? Segunda, nuestro test es vlido para apreciar
la inteligencia as concebida? Todas las tcnicas de validacin que empleemos, en este
caso, se encaminarn a comprobar la validez terica de la hiptesis avanzada sobre la
inteligencia y la validez terica del test como procedimiento para evaluarla. Es lo que en el
campo de la psicometra se ha llamado validez de constructo. Se refiere, por un lado, a la
validez de lo que se evala, en tanto que concepto construido por una serie de nociones
tericas que se van precisando, ampliando o modificando mediante la confirmacin y
refutacin progresiva de las consecuencias que implican, en relacin con otros constructos
o conceptos de la teora psicolgica. Se refiere tambin, de otro lado, a la validez del test,
en tanto que tcnica para evaluar ese constructo. En la medida en que la nocin de
inteligencia vaya siendo comprobada por su consistencia con las dems nociones
psicolgicas y por la confirmacin de las consecuencias que implica, ir adquiriendo la
forma de un criterio teorticamente vlido. En la medida en que se compruebe que el test
evala, en efecto, ese criterio, el test ir adquiriendo validez terica o de constructo.
Pero el test puede elaborarse con otros fines inmediatos. Nuestro objetivo puede ser,
pongamos por caso, escoger entre los aspirantes a un trabajo a los que, sin saberlo realizar
todava, van a realizarlo mejor, despus del oportuno perodo de aprendizaje y prctica.
Ideamos para ello el test. Si se comprueba que los mejores y los peores en l son luego los
mejores y los peores en el trabajo, el test ha resultado vlido para nuestro propsito. Tiene
validez prctica. Es til para lo que queremos, aunque no sepamos claramente por qu. El
problema de la evaluacin consiste, en este caso, en definir un criterio pertinente de lo que
es un buen trabajo y en comprobar que el test sirve para pronosticarlo. El resultado del
proceso de evaluacin suele resumiese, ahora, en un coeficiente de validez, que expresa la
correlacin entre el test y el criterio. Si la correlacin es significativa, el test es vlido, y
tanto ms cuanto ms alta sea la correlacin. Se trata aqu, como vemos, de otro tipo de
validez, la que suele llamarse validez pragmtica o meramente emprica.
Insisto en que conviene mantener, como nociones distintas, los dos tipos de validez. Suele
afirmarse hoy que el concepto de validez es nico. Un criterio de evaluacin, o un
procedimiento para evaluarlo, es o no vlido, y nada ms. Los que son variados y mltiples
son los mtodos de validacin, unos teorticos o de constructo y otros pragmticos o
meramente empricos. Creo que este parecer no es del todo correcto. Creo que hay razones
de peso para distinguir las dos nociones de validez. La distincin concierne a los
fundamentos epistemolgicos de la investigacin cientfica. Ni todo en la ciencia se reduce
a la intervencin til, ni todo a la explicacin y comprensin tericas. Ni hay que prescindir
en el proceder cientfico de todo lo que no sea til, porque un fin capital de la ciencia es el
conocimiento, aunque no sirva ms que para conocer; ni puede prescindir la ciencia de su
aplicacin eficaz, porque la ciencia forma parte de la vida y una pretensin del hombre,
mientras vive, es vivir mejor. Conocer cientficamente es siempre saber para prever,
como afirmaba Comte. Pero, contra lo que Comte afirmaba, prever cientficamente no
siempre consiste en prever para poder; consiste, sobre todo y fundamentalmente, en
prever para, si se cumplen las previsiones, saber y conocer mejor, explicar y comprender
ms cabalmente la realidad.
En el campo de la evaluacin suele mantenerse, desde Cronbach, que no debe hacer
diagnstico sin pronstico, ni pronstico sin tratamiento. La consigna me parece plausible,
pero parcial. Todo diagnstico implica un pronstico y debe ser seguirlo por l. Pero este
pronstico se refiere, primordialmente, a las consecuencias previsibles que el diagnstico
implica respecto a los dems conocimientos que se tengan o puedan adquiriese sobre
aquello que se diagnostica. En la medida en que estas previsiones se verifiquen, aumentar
la validez terica del diagnstico y, a travs de l, la validez cientfica del conocimiento de
los fenmenos en cuestin. Es, a mi juicio, el tipo de validez que caracteriza
fundamentalmente a la ciencia. Pero el diagnstico significa tambin prever para poder,
para intervenir en la realidad y elaborar un tratamiento que mantenga o modifique aquello
que se diagnostica. Es otro tipo de validez, subordinada, pero esencial, en el proceder
cientfico.
Veamos, de nuevo, un caso concreto. Aplicamos a un sujeto un test de inteligencia. Obtiene
una puntuacin, sea una edad mental, un cocienta de inteligencia o una medida en una
escala de variable latente. He ah una evaluacin o, si se quiere, un diagnstico. Qu
validez puede tener? Por lo pronto, cabe indagar su validez terica. Es preciso, para ello,
elaborar un criterio pertinente, es decir, un constructo de inteligencia al que se refiera la
puntuacin y que le confiera significacin cientfica. Hay argumentos, emprica y
experimentalmente confirmados, para mantener un concepto de inteligencia general?
Supongamos que los haya. Dicho sea de paso, yo creo que los hay, y algunos han sido
aportados por nuestras investigaciones. Bien, supongamos que los haya. Hay que indagar
hasta qu punto nuestro test se relaciona con el constructo. Si, mediante las diversas
tcnicas de validacin, se comprueba que efectivamente se relaciona, nuestro test tiene
validez terica para evaluar la inteligencia. La investigacin cientfica puede proseguir.
Cmo? Fundamentalmente, tratando de integrar las conclusiones que se derivan de los
datos obtenidos mediante el test con el resto de los conocimientos cientficos y aclarando
as, en este intento de integracin, el concepto mismo de inteligencia. Por ejemplo, parece
plausible suponer que la inteligencia est de algn modo condicionada por ciertas
propiedades de la estructura y funcionamiento del cortex cerebral. Hay alguna relacin
entre las puntuaciones en nuestro test y, por ejemplo, la amplitud, la variabilidad o alguna
medida combinada de diversos parmetros de los potenciales provocados, como vienen
ltimamente defendiendo, con cierta vehemencia, Eysenck y otros investigadores? Se
relacionan esas puntuaciones con las latencias de los tiempos de inspeccin o de reaccin?
Covaran con el predominio funcional de uno u otro hemisferio o con la masa total de la
corteza cerebral intacta? Dependen y en qu cuanta de las diferencias genticas y de las
ambientales entre los sujetos de una determinada poblacin? O, en otro contexto terico,
varan sistemticamente esas puntuaciones con determinados parmetros de los
componentes y estrategias cognitivas que intervienen en la solucin de tareas y problemas
que supongan el ejercicio de la actividad inteligente? Se relacionan con los repertorios de
conducta adquiridos por los sujetos? En la medida en que estas cuestiones reciben
respuestas confirmatorias o refutadoras, se ir aclarando la validez o invalidez terica del
constructo de inteligencia, como parte de una teora cientfica y como criterio para
contrastar los procedimientos para evaluarla.
Por otra parte, sirve nuestro test para algo prctico? Sepamos o no qu es lo que realmente
evala, es til para predecir algn criterio pragmtico? Se correlaciona con el xito
laboral, escolar o clnico de ciertos sujetos o ciertas poblaciones? Para averiguarlo, hay que
definir algn criterio pertinente: en qu consiste, al menos en alguno o algunos de sus
aspectos, el comportamiento satisfactorio en el trabajo, el estudio o el sano ajuste mental. Si
el test se correlaciona con algn criterio prctico, el test ser vlido para pronosticarlo,
tendr validez emprica.
Sigamos adelante con nuestro ejemplo. Averiguamos que un sujeto obtiene una
determinada puntuacin en nuestro test. Nos podemos parar ah? No parece sensato. Es
como si un mdico aplicara un termmetro a un paciente y se fuera tan contento diciendo
tiene cuarenta grados de temperatura. Es obvio que, entonces, el mdico no cumplira su
funcin. En el contexto cientfico general, la temperatura es un constructo bien asentado. Su
significacin viene dada por el conjunto de relaciones entre conceptos cientficos tales
como el calor, el movimiento browniano, la cantidad de calor y las diferencias entre niveles
trmicos. El termmetro se relaciona comprobablemente con el constructo de temperatura.
Tiene validez terica para medirla y, si est bien construido, sus medidas son altamente
fiables. El mdico puede, en consecuencia y por lo pronto, utilizar el termmetro para
medir la temperatura. Es lo que el psiclogo debe, tambin y ante todo, comprobar: que lo
que pretende evaluar tiene consistencia cientfica y que el procedimiento para evaluarlo es
vlido y fiable. Pero, evidentemente, no todo acaba ah. El mdico debe saber hasta qu
punto la temperatura es una propiedad -los psiclogos solemos decir un rasgosuficientemente estable, cul es su origen, qu la hace variar y cmo modificarla, cuando
convenga, en provecho del paciente. Lo mismo el psiclogo. Sabe ya a qu concepto de
inteligencia se refiere y que su test la mide aceptablemente. Ha averiguado que tal sujeto
tiene tal puntuacin. Debe, asimismo, saber, o intentar descubrir, cmo se ha originado el
fenmeno que evala, a qu se debe que el sujeto haya obtenido esa puntuacin y qu
medios hay para, segn convenga, mantenerla o modificarla. Lo que significa que, adems
de los fundamentos tericos en que se base, el psiclogo tiene que averiguar qu
pronsticos prcticos puede Formular y cmo intervenir para que esos pronsticos se
cumplan. Es decir, debe considerar tambin la validez pragmtica del test, su relacin con
criterios tiles en la vida del sujeto,
Todo lo cual implica que la validez y los criterios tericos y prcticos son nociones
distintas, pero no independientes. Un conocimiento cientfico vlido, tiene validez en s,
pero, si es teorticamente vlido, parece poco razonable suponer que no sirva, ahora o en el
futuro, para nada. Si se muestra obstinada y permanentemente estril, se supuesta validez
terica resultar ms bien dudosa. Del mismo modo, algo que prcticamente sirve,
manifiesta obviamente su validez emprica, pero, si es en efecto til, es poco plausible que
carezca de algn fundamento terico, que hay que buscar, aunque por el momento se
ignore, Es improcedente, y puede ser nefasto, limitarse a afirmar que un sujeto, porque
tiene, vlida y correctamente, cuarenta grados centgrados de temperatura, es a este
respecto anormal, como lo es contentarse con decir que un sujeto, porque vlida y
correctamente obtenga un cociente intelectual de cuarenta, es un dbil o retrasado mental, y
tal vez dejarlo clasificado para siempre en esa categora, como a una mariposa clavada con
un alfiler. Es preciso intentar averiguar por qu tiene esa temperatura o ese cociente de
inteligencia y tratar de elaborar procedimientos cientficos para modificar la temperatura o
el cociente, o para, mientras no se logre o no se sepa como conseguirlo, procurar aliviar la
experiencia subjetiva de la persona y mejorar su comportamiento en lo que se pueda.
Algunos datos
Apliquemos estas nociones elementales a una investigacin concreta que realic hace
algunos aos (1953). Se trataba de seleccionar personal para tareas sencillas y repetitivas de
emsable de rels. Se procedi segn el esquema clsico: anlisis de las tareas, elaboracin
de un profesiograma, definicin de las aptitudes supuestamente requeridas, eleccin e
invencin de tests para medirlas y comprobacin de su fiabilidad, extraccin de una
muestra de sujetos, determinacin de un criterio de eficacia en el trabajo, medicin de las
aptitudes y del criterio en la muestra de sujetos y, finalmente, comprobacin de la validez
de los tests para pronosticar el criterio, indicada por la correlacin entre ambos. La
investigacin prosigui, sin embargo, a diferencia de lo que suele hacerse, con diversos y
sucesivos estudios, para someter a prueba diferentes hiptesis acerca de la pertinencia de
varios criterios y de los diversos aspectos de la validez de los tests.
La muestra elegida fue de 20 operarios. Razones prcticas de la empresa impidieron utilizar
una muestra mayor. Todos los sujetos tenan aproximadamente la misma edad, de 24 a 28
aos, y la misma antigedad en el trabajo, 3 meses, suficiente para haber tenido ocasin de
dominarlo y lo bastante breve para que otros factores distintos de la aptitud, que pudieran
acumularse a lo largo del tiempo, hubieran podido influir decisivamente en el rendimiento.
A estos operarios se les aplicaron los tests: rapidez y ritmo de movimientos manuales,
coordinacin bimanual y visomanual, automatizacin de movimientos, sensibilidad tctil a
espesores y rugosidades e inteligencia espacial. Asimismo, se evalu su eficacia productiva
mediante dos criterios combinados: la eficacia media de su trabajo durante los 3 meses,
segn constaba en sus fichas de produccin, y la puntuacin en una escala de juicios
comparativos de Thurstone, elaborada a partir de las comparaciones binarias hechas por el
jefe de taller sobre la eficacia observada en el trabajo de cada operario. La validez de los
tests, en este caso la validez concurrente, pues los tests y el criterio se aplicaron
prcticamente al mismo tiempo, fue hallada mediante la correlacin mltiple entre la
batera y el criterio y result igual a 0,69, una elevada validez pragmtica.
Hasta aqu, todo se hizo, con el mayor rigor posible, segn la metodologa al uso.
Subsisten, sin embargo, dudas acerca de la validez terica del criterio, que es el tema que
hoy nos ocupa. Es conceptualmente vlido un criterio de produccin para juzgar sobre el
valor prctico de unos tests de aptitud? -Cabe pensar razonablemente que el rendimiento
depende slo de la aptitud? Parece obvio que no. Parece claro que depende tambin de otras
muchas cosas. Para decirlo con un mnimo de palabras, las resumir en dos: formacin y
motivacin. Es razonable suponer que se trabaja segn se puede, es decir, segn las
aptitudes; segn se sabe, es decir, segn se ha aprendido, y segn se quiere, es decir, segn
la motivacin. Si esto es as, habra que introducir criterios de aprendizaje y motivacin en
el estudio. Para ello proced como sigue.
A una nueva muestra de 180 aspirantes, que la empresa haba admitido recientemente
mediante sus anteriores mtodos de seleccin -examen mdico, antecedentes laborales y
entrevista-, se aplic la batera antes dicha. Luego, despus de 6 aos, se calcul la eficacia
productiva media de cada operario, de acuerdo con sus fichas de produccin durante los 6
aos y su puntuacin en una escala de Thurstone, como la antes mencionada. Es decir, se
repiti el proceso de validacin seguido en el primer estudio, pero ahora sometiendo a
prueba la validez predictiva a largo plazo de los tests de aptitud. Son los ms aptos, segn
los tests, los que mejor rinden a lo largo de 6 aos? La respuesta fue totalmente negativa.
Las correlaciones entre cada test y la batera, de una parte, y cada criterio de eficacia
productiva y la combinacin de ambos, de otra, resultaron todas prximas a cero y
estadsticamente no significativas. La validez emprica de los tests, que haba sido
considerablemente alta a corto plazo, se mostr nula a largo plazo. La conclusin parece
clara: los tests de aptitud, a fin de cuentas, no sirven. Pero, es razonable esta conclusin?
Tal vez los que no sirvan sean los criterios. Veamos.
Suponemos, como dije, que el rendimiento depende de tres factores principales: aptitud,
formacin y motivacin. En este tipo de trabajo la formacin requerida es escasa; son tareas
sencillas, repetidas y muy automatizadas. Es sensato suponer que todos los operarios han
tenido ocasin de adquirir, durante 6 aos de prctica, el mismo tipo de formacin, sea esta
definida en trminos de componentes y estrategias cognitivas o de repertorios de conducta.
Nos queda la aptitud y la motivacin. Ya vimos que los supuestos tests de aptitud no sirven
para pronosticar el rendimiento a largo plazo. Se relacionar este rendimiento con la
motivacin? Para comprobarlo evaluamos esta variable. Cada uno de los 180 operarios
recibi una puntuacin en una escala de juicios comparativos, como las ya dichas, derivada
de las comparaciones de cada par de sujetos hechas por los supervisores sobre el inters y
voluntad de trabajo observados en los operario,, La correlacin entre el mismo criterio
anterior de eficacia productiva y las puntuaciones en inters y voluntad de trabajo fue de
0,80, es decir, muy elevada. Nueva conclusin: Los tests de aptitud carecen a la larga de
valor, Lo decisivo en estos trabajos es la motivacin del operario.
Bien, pero los tests de aptitud carecen de valor para qu. Desde luego, para predecir el
rendimiento durante amplios perodos de tiempo. Pero, por qu habran de predecirlo? Lo
ms que cabe esperar de los tests de aptitud, si la miden, es que pronostiquen la aptitud para
trabajar, siempre que, como en este caso, sea plausible suponer que las aptitudes
psicomotoras elementales y la inteligencia espacial sean rasgos suficientemente estables en
adultos. No parece, en cambio, sensato esperar que pronostiquen el rendimiento efectivo,
que depender tambin de la motivacin. El fracaso puede no estar en los tests, sino en el
criterio. El criterio de produccin es inadecuado, si no se controla la motivacin, para
juzgar del valor de los tests. Tratemos comprobarlo
Para ello, se defini un nuevo criterio la competencia, capacidad, destreza y habilidad
mostradas en el trabajo. Los 180 operarios fueron juzgados por los supervisores en estas
caractersticas, prescindiendo de su inters por el trabajo y de su efectiva produccin,
obteniendo cada uno una puntuacin en la correspondiente escala de juicios comparativos.
La correlacin entre la batera de los tests, aplicada 6 aos antes, y el nuevo criterio fue de
0,70. Despus de todo, los tests resultan altamente vlidos para predecir a largo plazo lo
nico que cabe esperar que pronostiquen, la capacidad de los sujetos para realizar su
trabajo, no su efectivo rendimiento.
Sigamos nuestras reflexiones. Cul es verdaderamente el valor prctico de los tests?
Parece que, a la postre, ninguno, pues, en definitiva, lo que interesa es el rendimiento
efectivo. Pero no podrn los tests pronosticar tambin este rendimiento, si se controlan los
efectos del aprendizaje y la motivacin?
Hagamos una nueva comprobacin. Se aplicaron los tests a nuevos aspirantes. Se
seleccionaron 20, diez considerados como aptos, segn los tests, con puntuaciones
superiores a un valor tpico de uno, y diez pronosticados como insuficientes, con
puntuaciones tpicas inferiores a menos uno. Los veinte pasaron por un mismo cursillo de
aprendizaje, que garantiz una formacin para el trabajo aproximadamente homognea, y
se procur que todos estuvieran altamente motivados, entre otras cosas, porque saban que
su contratacin dependa de la prueba final. Esta prueba consisti en la calificacin por un
conjunto de supervisores de la eficacia productiva lograda en varias muestras de trabajo. La
correlacin entre la batera de tests de aptitud y el criterio de rendimiento fue ahora alta.
Los supervisores estuvieron de acuerdo en calificar a 8 operarios como eficaces en el
trabajo y a 7 como insatisfactorios. Los 5 restantes fueron juzgados como dudosos o no
hubo acuerdo sobre ellos. Pues, bien, los 8 eficaces en rendimiento pertenecan todos al
grupo de los 10 pronosticados como aptos, los 7 insatisfactorios en el trabajo
formaban todos parte del grupo de los 10 pronosticados como insuficientes; de los 5
dudosos, 3 eran de los aptos y 2 de los insuficientes. La prueba de khi cuadrado, con 2
grados de libertad, arroj un valor de 17,4 y el coeficiente C de contingencia fue de 0,68,
altamente significativos.
En conclusin, los tests de aptitud, en las condiciones de nuestro estudio, resultaron
altamente vlidos para pronosticar la capacidad de trabajo, pero no el rendimiento; el
rendimiento depende fuertemente de la motivacin. Los tests de aptitud, sin embargo,
pueden pronosticar el rendimiento cuando el trabajo se realiza en condiciones que hacen
semejantes la formacin y la motivacin de los sujetos. Es preciso tener en cuenta las
circunstancias de cada caso para definir los criterios pertinentes. Si los criterios no son
conceptualmente vlidos, los resultados de una evaluacin pueden ser engaosos.
En un contexto ms amplio, todo indica que las pruebas de aptitud pueden ser tiles para
disponer de personal capaz, pero no suficientes para lograr un trabajo eficazmente
productivo. Se necesita para ello atender a los complejos factores, aqu no examinados, que