Evaluar Qué y para Qué. El Problema Del Criterio

Noviembre , n 46 y n47 , 1990
Copyright 1990 Papeles del Psiclogo

ISSN 0214 - 7823
http://www.papelesdelpsicologo.es/vernumero.asp?id=469
EVALUAR QU Y PARA QU. EL PROBLEMA DEL CRITERIO.
MARIANO YELA
Empecemos por las nociones elementales. Son las ms importantes y, con frecuencia, las
peor entendidas. Sin duda, en toda evaluacin se evala algo, para algo y de algn modo.
Aclarar el qu y el para qu constituye el problema del criterio, o, dicho con el trmino
clsico, el problema de la validez. Aclarar el cmo significa escoger o desarrollar tcnicas y
procedimientos para comprobar esa validez: es el problema de la validacin.
Las tcnicas de validacin son muy abundantes y su nmero crece aceleradamente.
Mencionar, ms adelante, las ms recientes y prometedoras. Pero, a m juicio, slo hay dos
tipos fundamentales de validez, por lo dems, interdependientes entre s: la terica y la
prctica. Corresponden a los dos objetivos fundamentales de la ciencia: conocer y poder.
De una parte, conocer la realidad, explicarla y comprenderla; es decir, dar razn de algn
aspecto de la realidad (explicarlo), en conexin con otros aspectos (comprenderlo). De otra
parte, poder intervenir en la realidad para, en alguna medida, dominarla, ajustarse mejor a
ella o modificarla para que mejor se ajuste a nuestros propsitos. Son dos objetivos
distintos, pero no independientes.
Son, por lo pronto, distintos y conviene mantener y comprender esta distincin. Comprobar
que algo es teorticamente vlido. no significa necesariamente que nos conste que tiene
validez pragmtica. Muchas teoras matemticas, perfectamente vlidas, no han tenido
aplicacin prctica durante largos perodos. El algoritmo de matrices, por ejemplo, fue
elaborado mucho antes de que Heisenberg encontrara su aplicacin en la fsica cuntica o
Thurstone lo utilizara en el anlisis factorial de la inteligencia. Einstein desarroll la teora
de la relatividad y, ms especficamente, la interpretacin de la masa como equivalente a la
energa, mucho antes de que se inventara, para su remordimiento y congoja, la bomba
atmica. Y, en todo caso, cabe afirmar que el conocimiento comprobadamente vlido es
algo vlido en s. Ese es, desde luego, mi parecer. Y no slo el mo. Todos los hombres
desean, por naturaleza, conocer, dej dicho Aristteles al principio de su Metafsica. La
vida humana implica su propia interpretacin, escribi Ortega, porque el hombre no slo
vive; al vivir, se da cuenta de ello y tiene inevitablemente que dar de ello cuenta y razn. O,
como recientemente ha afirmado nuestro colega conductista Staats, Los seres humanos,
como los animales, se conducen, pero, a diferencia de los otros, pueden tambin detenerse y
considerar lo que han hecho (Staats, 1983, p. 3).
Por otra parte, hay en la vida cotidiana y en el quehacer cientfico, modos de actuar que
tienen valor prctico sin que sepamos por qu, Todos los hombres, incluidas, por supuesto,
las mujeres e incluso los que nos dedicamos a la psicologa, somos de algn modo
psiclogos prcticos, unos buenos, otros malos y los ms entreverados. Es un buen
psiclogo, deca Gracin, el que sabe buscarle a cada uno su torcedor. Recientemente se
ha comprobado (Arvey y Campion, 1982; Dougherty y cols., 1986), que hay buenos y
malos entrevistadores; unos hacen juicios vlidos sobre los sujetos entrevistados, en el
preciso sentido de que sus juicios se correlacionan con criterios objetivamente pertinentes,
es decir, sus juicios son tiles, aunque no se sepa por qu; otros emiten juicios invlidos,
sin correlacin con los objetivos que se persiguen.
Vengamos al trado y llevado caso de los tests. De nuevo, encontramos los dos tipos de
validez, la terica y la prctica. Se desea, por ejemplo, elaborar un test de inteligencia. No
hay manera de empezar a hacerlo, si no se tiene alguna idea acerca de lo que la inteligencia
pueda ser. Con distintas ideas, elaboraremos distintos tests. Esa idea de la inteligencia ser
el criterio con el que tendremos que contrastar el test. Lo que plantea dos cuestiones
principales, Primera, la idea de inteligencia adoptada qu valor tiene? Es decir, es, al
menos hipotticamente, pertinente? Est delimitada por conceptos coherentes entre s y en
conexin sistemtica con los conocimientos ya adquiridos en ese campo? Aporta tal vez
algo nuevo que subsuma y supere lo anterior? Segunda, nuestro test es vlido para apreciar
la inteligencia as concebida? Todas las tcnicas de validacin que empleemos, en este
caso, se encaminarn a comprobar la validez terica de la hiptesis avanzada sobre la
inteligencia y la validez terica del test como procedimiento para evaluarla. Es lo que en el
campo de la psicometra se ha llamado validez de constructo. Se refiere, por un lado, a la
validez de lo que se evala, en tanto que concepto construido por una serie de nociones
tericas que se van precisando, ampliando o modificando mediante la confirmacin y
refutacin progresiva de las consecuencias que implican, en relacin con otros constructos
o conceptos de la teora psicolgica. Se refiere tambin, de otro lado, a la validez del test,
en tanto que tcnica para evaluar ese constructo. En la medida en que la nocin de
inteligencia vaya siendo comprobada por su consistencia con las dems nociones
psicolgicas y por la confirmacin de las consecuencias que implica, ir adquiriendo la
forma de un criterio teorticamente vlido. En la medida en que se compruebe que el test
evala, en efecto, ese criterio, el test ir adquiriendo validez terica o de constructo.
Pero el test puede elaborarse con otros fines inmediatos. Nuestro objetivo puede ser,
pongamos por caso, escoger entre los aspirantes a un trabajo a los que, sin saberlo realizar
todava, van a realizarlo mejor, despus del oportuno perodo de aprendizaje y prctica.
Ideamos para ello el test. Si se comprueba que los mejores y los peores en l son luego los
mejores y los peores en el trabajo, el test ha resultado vlido para nuestro propsito. Tiene
validez prctica. Es til para lo que queremos, aunque no sepamos claramente por qu. El
problema de la evaluacin consiste, en este caso, en definir un criterio pertinente de lo que
es un buen trabajo y en comprobar que el test sirve para pronosticarlo. El resultado del
proceso de evaluacin suele resumiese, ahora, en un coeficiente de validez, que expresa la
correlacin entre el test y el criterio. Si la correlacin es significativa, el test es vlido, y
tanto ms cuanto ms alta sea la correlacin. Se trata aqu, como vemos, de otro tipo de
validez, la que suele llamarse validez pragmtica o meramente emprica.
Insisto en que conviene mantener, como nociones distintas, los dos tipos de validez. Suele
afirmarse hoy que el concepto de validez es nico. Un criterio de evaluacin, o un
procedimiento para evaluarlo, es o no vlido, y nada ms. Los que son variados y mltiples
son los mtodos de validacin, unos teorticos o de constructo y otros pragmticos o
meramente empricos. Creo que este parecer no es del todo correcto. Creo que hay razones
de peso para distinguir las dos nociones de validez. La distincin concierne a los
fundamentos epistemolgicos de la investigacin cientfica. Ni todo en la ciencia se reduce
a la intervencin til, ni todo a la explicacin y comprensin tericas. Ni hay que prescindir
en el proceder cientfico de todo lo que no sea til, porque un fin capital de la ciencia es el
conocimiento, aunque no sirva ms que para conocer; ni puede prescindir la ciencia de su
aplicacin eficaz, porque la ciencia forma parte de la vida y una pretensin del hombre,
mientras vive, es vivir mejor. Conocer cientficamente es siempre saber para prever,
como afirmaba Comte. Pero, contra lo que Comte afirmaba, prever cientficamente no
siempre consiste en prever para poder; consiste, sobre todo y fundamentalmente, en
prever para, si se cumplen las previsiones, saber y conocer mejor, explicar y comprender
ms cabalmente la realidad.
En el campo de la evaluacin suele mantenerse, desde Cronbach, que no debe hacer
diagnstico sin pronstico, ni pronstico sin tratamiento. La consigna me parece plausible,
pero parcial. Todo diagnstico implica un pronstico y debe ser seguirlo por l. Pero este
pronstico se refiere, primordialmente, a las consecuencias previsibles que el diagnstico
implica respecto a los dems conocimientos que se tengan o puedan adquiriese sobre
aquello que se diagnostica. En la medida en que estas previsiones se verifiquen, aumentar
la validez terica del diagnstico y, a travs de l, la validez cientfica del conocimiento de
los fenmenos en cuestin. Es, a mi juicio, el tipo de validez que caracteriza
fundamentalmente a la ciencia. Pero el diagnstico significa tambin prever para poder,
para intervenir en la realidad y elaborar un tratamiento que mantenga o modifique aquello
que se diagnostica. Es otro tipo de validez, subordinada, pero esencial, en el proceder
cientfico.
Veamos, de nuevo, un caso concreto. Aplicamos a un sujeto un test de inteligencia. Obtiene
una puntuacin, sea una edad mental, un cocienta de inteligencia o una medida en una
escala de variable latente. He ah una evaluacin o, si se quiere, un diagnstico. Qu
validez puede tener? Por lo pronto, cabe indagar su validez terica. Es preciso, para ello,
elaborar un criterio pertinente, es decir, un constructo de inteligencia al que se refiera la
puntuacin y que le confiera significacin cientfica. Hay argumentos, emprica y
experimentalmente confirmados, para mantener un concepto de inteligencia general?
Supongamos que los haya. Dicho sea de paso, yo creo que los hay, y algunos han sido
aportados por nuestras investigaciones. Bien, supongamos que los haya. Hay que indagar
hasta qu punto nuestro test se relaciona con el constructo. Si, mediante las diversas
tcnicas de validacin, se comprueba que efectivamente se relaciona, nuestro test tiene
validez terica para evaluar la inteligencia. La investigacin cientfica puede proseguir.
Cmo? Fundamentalmente, tratando de integrar las conclusiones que se derivan de los
datos obtenidos mediante el test con el resto de los conocimientos cientficos y aclarando
as, en este intento de integracin, el concepto mismo de inteligencia. Por ejemplo, parece
plausible suponer que la inteligencia est de algn modo condicionada por ciertas
propiedades de la estructura y funcionamiento del cortex cerebral. Hay alguna relacin
entre las puntuaciones en nuestro test y, por ejemplo, la amplitud, la variabilidad o alguna
medida combinada de diversos parmetros de los potenciales provocados, como vienen
ltimamente defendiendo, con cierta vehemencia, Eysenck y otros investigadores? Se
relacionan esas puntuaciones con las latencias de los tiempos de inspeccin o de reaccin?
Covaran con el predominio funcional de uno u otro hemisferio o con la masa total de la
corteza cerebral intacta? Dependen y en qu cuanta de las diferencias genticas y de las
ambientales entre los sujetos de una determinada poblacin? O, en otro contexto terico,
varan sistemticamente esas puntuaciones con determinados parmetros de los
componentes y estrategias cognitivas que intervienen en la solucin de tareas y problemas
que supongan el ejercicio de la actividad inteligente? Se relacionan con los repertorios de
conducta adquiridos por los sujetos? En la medida en que estas cuestiones reciben
respuestas confirmatorias o refutadoras, se ir aclarando la validez o invalidez terica del
constructo de inteligencia, como parte de una teora cientfica y como criterio para
contrastar los procedimientos para evaluarla.
Por otra parte, sirve nuestro test para algo prctico? Sepamos o no qu es lo que realmente
evala, es til para predecir algn criterio pragmtico? Se correlaciona con el xito
laboral, escolar o clnico de ciertos sujetos o ciertas poblaciones? Para averiguarlo, hay que
definir algn criterio pertinente: en qu consiste, al menos en alguno o algunos de sus
aspectos, el comportamiento satisfactorio en el trabajo, el estudio o el sano ajuste mental. Si
el test se correlaciona con algn criterio prctico, el test ser vlido para pronosticarlo,
tendr validez emprica.
Sigamos adelante con nuestro ejemplo. Averiguamos que un sujeto obtiene una
determinada puntuacin en nuestro test. Nos podemos parar ah? No parece sensato. Es
como si un mdico aplicara un termmetro a un paciente y se fuera tan contento diciendo
tiene cuarenta grados de temperatura. Es obvio que, entonces, el mdico no cumplira su
funcin. En el contexto cientfico general, la temperatura es un constructo bien asentado. Su
significacin viene dada por el conjunto de relaciones entre conceptos cientficos tales
como el calor, el movimiento browniano, la cantidad de calor y las diferencias entre niveles
trmicos. El termmetro se relaciona comprobablemente con el constructo de temperatura.
Tiene validez terica para medirla y, si est bien construido, sus medidas son altamente
fiables. El mdico puede, en consecuencia y por lo pronto, utilizar el termmetro para
medir la temperatura. Es lo que el psiclogo debe, tambin y ante todo, comprobar: que lo
que pretende evaluar tiene consistencia cientfica y que el procedimiento para evaluarlo es
vlido y fiable. Pero, evidentemente, no todo acaba ah. El mdico debe saber hasta qu
punto la temperatura es una propiedad -los psiclogos solemos decir un rasgosuficientemente estable, cul es su origen, qu la hace variar y cmo modificarla, cuando
convenga, en provecho del paciente. Lo mismo el psiclogo. Sabe ya a qu concepto de
inteligencia se refiere y que su test la mide aceptablemente. Ha averiguado que tal sujeto
tiene tal puntuacin. Debe, asimismo, saber, o intentar descubrir, cmo se ha originado el
fenmeno que evala, a qu se debe que el sujeto haya obtenido esa puntuacin y qu
medios hay para, segn convenga, mantenerla o modificarla. Lo que significa que, adems
de los fundamentos tericos en que se base, el psiclogo tiene que averiguar qu
pronsticos prcticos puede Formular y cmo intervenir para que esos pronsticos se
cumplan. Es decir, debe considerar tambin la validez pragmtica del test, su relacin con
criterios tiles en la vida del sujeto,
Todo lo cual implica que la validez y los criterios tericos y prcticos son nociones
distintas, pero no independientes. Un conocimiento cientfico vlido, tiene validez en s,
pero, si es teorticamente vlido, parece poco razonable suponer que no sirva, ahora o en el
futuro, para nada. Si se muestra obstinada y permanentemente estril, se supuesta validez
terica resultar ms bien dudosa. Del mismo modo, algo que prcticamente sirve,
manifiesta obviamente su validez emprica, pero, si es en efecto til, es poco plausible que
carezca de algn fundamento terico, que hay que buscar, aunque por el momento se
ignore, Es improcedente, y puede ser nefasto, limitarse a afirmar que un sujeto, porque
tiene, vlida y correctamente, cuarenta grados centgrados de temperatura, es a este
respecto anormal, como lo es contentarse con decir que un sujeto, porque vlida y
correctamente obtenga un cociente intelectual de cuarenta, es un dbil o retrasado mental, y
tal vez dejarlo clasificado para siempre en esa categora, como a una mariposa clavada con
un alfiler. Es preciso intentar averiguar por qu tiene esa temperatura o ese cociente de
inteligencia y tratar de elaborar procedimientos cientficos para modificar la temperatura o
el cociente, o para, mientras no se logre o no se sepa como conseguirlo, procurar aliviar la
experiencia subjetiva de la persona y mejorar su comportamiento en lo que se pueda.
Algunos datos
Apliquemos estas nociones elementales a una investigacin concreta que realic hace
algunos aos (1953). Se trataba de seleccionar personal para tareas sencillas y repetitivas de
emsable de rels. Se procedi segn el esquema clsico: anlisis de las tareas, elaboracin
de un profesiograma, definicin de las aptitudes supuestamente requeridas, eleccin e
invencin de tests para medirlas y comprobacin de su fiabilidad, extraccin de una
muestra de sujetos, determinacin de un criterio de eficacia en el trabajo, medicin de las
aptitudes y del criterio en la muestra de sujetos y, finalmente, comprobacin de la validez
de los tests para pronosticar el criterio, indicada por la correlacin entre ambos. La
investigacin prosigui, sin embargo, a diferencia de lo que suele hacerse, con diversos y
sucesivos estudios, para someter a prueba diferentes hiptesis acerca de la pertinencia de
varios criterios y de los diversos aspectos de la validez de los tests.
La muestra elegida fue de 20 operarios. Razones prcticas de la empresa impidieron utilizar
una muestra mayor. Todos los sujetos tenan aproximadamente la misma edad, de 24 a 28
aos, y la misma antigedad en el trabajo, 3 meses, suficiente para haber tenido ocasin de
dominarlo y lo bastante breve para que otros factores distintos de la aptitud, que pudieran
acumularse a lo largo del tiempo, hubieran podido influir decisivamente en el rendimiento.
A estos operarios se les aplicaron los tests: rapidez y ritmo de movimientos manuales,
coordinacin bimanual y visomanual, automatizacin de movimientos, sensibilidad tctil a
espesores y rugosidades e inteligencia espacial. Asimismo, se evalu su eficacia productiva
mediante dos criterios combinados: la eficacia media de su trabajo durante los 3 meses,
segn constaba en sus fichas de produccin, y la puntuacin en una escala de juicios
comparativos de Thurstone, elaborada a partir de las comparaciones binarias hechas por el
jefe de taller sobre la eficacia observada en el trabajo de cada operario. La validez de los
tests, en este caso la validez concurrente, pues los tests y el criterio se aplicaron
prcticamente al mismo tiempo, fue hallada mediante la correlacin mltiple entre la
batera y el criterio y result igual a 0,69, una elevada validez pragmtica.
Hasta aqu, todo se hizo, con el mayor rigor posible, segn la metodologa al uso.
Subsisten, sin embargo, dudas acerca de la validez terica del criterio, que es el tema que
hoy nos ocupa. Es conceptualmente vlido un criterio de produccin para juzgar sobre el
valor prctico de unos tests de aptitud? -Cabe pensar razonablemente que el rendimiento
depende slo de la aptitud? Parece obvio que no. Parece claro que depende tambin de otras
muchas cosas. Para decirlo con un mnimo de palabras, las resumir en dos: formacin y
motivacin. Es razonable suponer que se trabaja segn se puede, es decir, segn las
aptitudes; segn se sabe, es decir, segn se ha aprendido, y segn se quiere, es decir, segn
la motivacin. Si esto es as, habra que introducir criterios de aprendizaje y motivacin en
el estudio. Para ello proced como sigue.
A una nueva muestra de 180 aspirantes, que la empresa haba admitido recientemente
mediante sus anteriores mtodos de seleccin -examen mdico, antecedentes laborales y
entrevista-, se aplic la batera antes dicha. Luego, despus de 6 aos, se calcul la eficacia
productiva media de cada operario, de acuerdo con sus fichas de produccin durante los 6
aos y su puntuacin en una escala de Thurstone, como la antes mencionada. Es decir, se
repiti el proceso de validacin seguido en el primer estudio, pero ahora sometiendo a
prueba la validez predictiva a largo plazo de los tests de aptitud. Son los ms aptos, segn
los tests, los que mejor rinden a lo largo de 6 aos? La respuesta fue totalmente negativa.
Las correlaciones entre cada test y la batera, de una parte, y cada criterio de eficacia
productiva y la combinacin de ambos, de otra, resultaron todas prximas a cero y
estadsticamente no significativas. La validez emprica de los tests, que haba sido
considerablemente alta a corto plazo, se mostr nula a largo plazo. La conclusin parece
clara: los tests de aptitud, a fin de cuentas, no sirven. Pero, es razonable esta conclusin?
Tal vez los que no sirvan sean los criterios. Veamos.
Suponemos, como dije, que el rendimiento depende de tres factores principales: aptitud,
formacin y motivacin. En este tipo de trabajo la formacin requerida es escasa; son tareas
sencillas, repetidas y muy automatizadas. Es sensato suponer que todos los operarios han
tenido ocasin de adquirir, durante 6 aos de prctica, el mismo tipo de formacin, sea esta
definida en trminos de componentes y estrategias cognitivas o de repertorios de conducta.
Nos queda la aptitud y la motivacin. Ya vimos que los supuestos tests de aptitud no sirven
para pronosticar el rendimiento a largo plazo. Se relacionar este rendimiento con la
motivacin? Para comprobarlo evaluamos esta variable. Cada uno de los 180 operarios
recibi una puntuacin en una escala de juicios comparativos, como las ya dichas, derivada
de las comparaciones de cada par de sujetos hechas por los supervisores sobre el inters y
voluntad de trabajo observados en los operario,, La correlacin entre el mismo criterio
anterior de eficacia productiva y las puntuaciones en inters y voluntad de trabajo fue de
0,80, es decir, muy elevada. Nueva conclusin: Los tests de aptitud carecen a la larga de
valor, Lo decisivo en estos trabajos es la motivacin del operario.
Bien, pero los tests de aptitud carecen de valor para qu. Desde luego, para predecir el
rendimiento durante amplios perodos de tiempo. Pero, por qu habran de predecirlo? Lo
ms que cabe esperar de los tests de aptitud, si la miden, es que pronostiquen la aptitud para
trabajar, siempre que, como en este caso, sea plausible suponer que las aptitudes
psicomotoras elementales y la inteligencia espacial sean rasgos suficientemente estables en
adultos. No parece, en cambio, sensato esperar que pronostiquen el rendimiento efectivo,
que depender tambin de la motivacin. El fracaso puede no estar en los tests, sino en el
criterio. El criterio de produccin es inadecuado, si no se controla la motivacin, para
juzgar del valor de los tests. Tratemos comprobarlo
Para ello, se defini un nuevo criterio la competencia, capacidad, destreza y habilidad
mostradas en el trabajo. Los 180 operarios fueron juzgados por los supervisores en estas
caractersticas, prescindiendo de su inters por el trabajo y de su efectiva produccin,
obteniendo cada uno una puntuacin en la correspondiente escala de juicios comparativos.
La correlacin entre la batera de los tests, aplicada 6 aos antes, y el nuevo criterio fue de
0,70. Despus de todo, los tests resultan altamente vlidos para predecir a largo plazo lo
nico que cabe esperar que pronostiquen, la capacidad de los sujetos para realizar su
trabajo, no su efectivo rendimiento.
Sigamos nuestras reflexiones. Cul es verdaderamente el valor prctico de los tests?
Parece que, a la postre, ninguno, pues, en definitiva, lo que interesa es el rendimiento
efectivo. Pero no podrn los tests pronosticar tambin este rendimiento, si se controlan los
efectos del aprendizaje y la motivacin?
Hagamos una nueva comprobacin. Se aplicaron los tests a nuevos aspirantes. Se
seleccionaron 20, diez considerados como aptos, segn los tests, con puntuaciones
superiores a un valor tpico de uno, y diez pronosticados como insuficientes, con
puntuaciones tpicas inferiores a menos uno. Los veinte pasaron por un mismo cursillo de
aprendizaje, que garantiz una formacin para el trabajo aproximadamente homognea, y
se procur que todos estuvieran altamente motivados, entre otras cosas, porque saban que
su contratacin dependa de la prueba final. Esta prueba consisti en la calificacin por un
conjunto de supervisores de la eficacia productiva lograda en varias muestras de trabajo. La
correlacin entre la batera de tests de aptitud y el criterio de rendimiento fue ahora alta.
Los supervisores estuvieron de acuerdo en calificar a 8 operarios como eficaces en el
trabajo y a 7 como insatisfactorios. Los 5 restantes fueron juzgados como dudosos o no
hubo acuerdo sobre ellos. Pues, bien, los 8 eficaces en rendimiento pertenecan todos al
grupo de los 10 pronosticados como aptos, los 7 insatisfactorios en el trabajo
formaban todos parte del grupo de los 10 pronosticados como insuficientes; de los 5
dudosos, 3 eran de los aptos y 2 de los insuficientes. La prueba de khi cuadrado, con 2
grados de libertad, arroj un valor de 17,4 y el coeficiente C de contingencia fue de 0,68,
altamente significativos.
En conclusin, los tests de aptitud, en las condiciones de nuestro estudio, resultaron
altamente vlidos para pronosticar la capacidad de trabajo, pero no el rendimiento; el
rendimiento depende fuertemente de la motivacin. Los tests de aptitud, sin embargo,
pueden pronosticar el rendimiento cuando el trabajo se realiza en condiciones que hacen
semejantes la formacin y la motivacin de los sujetos. Es preciso tener en cuenta las
circunstancias de cada caso para definir los criterios pertinentes. Si los criterios no son
conceptualmente vlidos, los resultados de una evaluacin pueden ser engaosos.
En un contexto ms amplio, todo indica que las pruebas de aptitud pueden ser tiles para
disponer de personal capaz, pero no suficientes para lograr un trabajo eficazmente
productivo. Se necesita para ello atender a los complejos factores, aqu no examinados, que
influyen en el inters, la motivacin y la voluntad de trabajo. La aptitud, sin la motivacin,

es en buena parte intil. La motivacin, sin la aptitud, es una buena parte estril. Y las dos,
aptitud y motivacin, sin el aprendizaje y formacin adecuadas, que aqu tampoco hemos
estudiado, no llegan a ser conductas efectivas o efectivamente eficaces. Son stas, por
cierto, como es sabido, algunas de las cuestiones centrales de la actual psicologa del
trabajo y de las organizaciones.
Consideraciones finales
Las reflexiones y datos precedentes no tenan otro propsito que aclarar, de la forma ms
sencilla posible, algunos aspectos del problema del criterio. Las tcnicas estadsticas y de
diseo empleadas, aunque creo que correctas, fueron sumamente elementales. Represe en
que el estudio se realiz hace casi cuarenta aos. El psiclogo interesado en las tcnicas de
validacin cuenta hoy con un arsenal copioso de nuevos procedimientos. En Espaa se
conocen bien gracias al trabajo de numerosos equipos de investigacin. Mencionar tan
slo, las damas primero -admtase esta cortesa demode, explicable por mi avanzada edadmencionar, digo, tan slo las publicaciones de Roco Fernndez Ballesteros, Rosario
Martnez Arias y Mara Teresa Anguera.
La aportacin ms saliente al estudio de estos problemas consiste en haber mostrado que el
uso de un solo coeficiente de correlacin, simple o mltiple, es insuficiente. La aplicacin
del anlisis causal ha confirmado la vieja conviccin de que un nico coeficiente de
correlacin es prcticamente ininterpretable. Cuando se utiliza el anlisis de vas (el path
analysis) y se analiza una correlacin en sus componentes directos e indirectos, suele
comprobarse que el coeficiente es espuriamente alto o bajo, debido al influjo de otras
variables. Se han desarrollado, asimismo, nuevos aspectos tericos para aclarar las llamadas
validez de constructo, muestras y pragmtica, y nuevas tcnicas para evaluarlas, tanto en el
comportamiento laboral, como en el escolar y el clnico y tanto con fines clasificatorios,
como preventivos, modificadores o teraputicos. El valor efectivo de las previsiones se
puede hoy afinar mediante la aplicacin de las teoras de la decisin y la utilidad. La
llamada validez externa de un estudio, o de un conjunto de ellos, se puede indagar mediante
los procedimientos de generalizabilidad a universos de arcas, ocasiones, evaluadores o
sujetos, Estn en pleno auge y son objeto de vivas polmicas los nuevos enfoques de metaanlisis y generalizacin de la validez. Se estudian con ellos las propiedades y
solapamientos de las distribuciones de numerosos coeficientes, en ocasiones varios miles,
una vez corregidos los influjos perturbadores de los varios artefactos estadsticos, como son
los errores de atenuacin por fiabilidad imperfecta, los efectos que tienen sobre la
correlacin las diferencias de amplitud y varianza entre las muestras o el poder de las
pruebas estadsticas, es decir, el riesgo que algunas implican de no justificar el rechazo de
la hiptesis nula cuando es falsa.
A mi entender, los objetivos de estos enfoques son, entre otros muchos, dos principales.
Uno, estudiar los patrones de variacin temporal sistemtica de los coeficientes de validez,
mediante, por ejemplo, el ajuste de las matrices de coeficientes al escalograma simple de
Guttman. Otro, comparar la validez diferencial entre criterios globales y nicos y criterios
especficos y mltiples. En este campo se desarrolla hoy una interesante controversia acerca
de los criterios estticos y dinmicos, es decir, acerca de la relativa pertinencia y eficacia de
mantener durante un proceso de evaluacin, sobre todo si se prolonga bastante en el tiempo,

el mismo criterio o cambiarlo sistemticamente. Los datos, creo, se inclinan, por el
momento, a favor de los criterios dinmicos e indican, como era de esperar, que las
caractersticas que ms importa prever en muchos tipos de comportamiento no son las
mismas a lo largo del ejercicio profesional, de las actividades escolares o de un proceso de
terapia o de modificacin de conducta.
Hay que mencionar tambin el desarrollo de tcnicas para la investigacin idiogrfica e
idiottica, que intentan describir los componentes, estructuras, procesos y estrategias y sus
regularidades y leyes en un sujeto particular, as como la renovacin del inters por los
viejos temas psicomtricos. Especialmente en el campo clnico y en todo intento de
modificacin de conducta, se vuelve a insistir en la necesidad, durante algn tiempo un
poco olvidada, de que todo procedimiento evaluativo, cualquiera que sea su fundamento
terico, debe cumplir los requisitos psicomtricos clsicos de fiabilidad, consistencia
interna, poder discriminativo, generalizabilidad y validez objetiva, como competentemente
muestra Fernando Silva en su reciente libro (1989). Se subraya, asimismo, la exigencia de
distribuir y analizar por separado, de una parte, la estabilidad a lo largo del tiempo de las
medidas de rasgos y constructos y, de otro, la fiabilidad de los procedimientos de
evaluacin. Otro avance importante en este terreno es el desarrollo de los tests de
competencia -los llamados por los anglosajones tests referidos al criterio-, de los tests de
potencial de aptitud y aprendizaje, y de los tests de variable latente, que permiten elaborar
procedimientos de evaluacin adaptados a cada persona y ofrecer puntuaciones en buena
parte independientes de la muestra de sujetos. Finalmente, se mantiene y renueva el estudio
de las dimensiones de covariacin de prodictores y criterios mediante el anlisis factoral
clsico y jerrquico y las nuevas tcnicas de anlisis de conglomerados y correspondencias
y de anlisis factorial confirmatorio y de ecuaciones estructurales (Vanse, como fuentes
bibliogrficas y revisiones recientes sobre estos temas, APA, 1985; Arvey y Faley, 1988;
Austin y cols., 1989; Barrett y cols., 1981, 1985; Guion, 1987; Guion e Ironson, 1983;
Nathan y Alexander, 1988 y Sussman y Robertson, 1986).
Tengo que terminar. Vaya, si me lo permits, una ltima observacin. El campo de la
evaluacin, como, por lo dems, todos los campos de la psicologa, est en plena ebullicin,
desarrollo y polmica. Crecen los problemas, se multiplican las perspectivas tericas
proliferan y las tcnicas para definirlas y comprobarlas. De una cosa podis estar seguros.
Si de verdad os interesa la psicologa y os ponis a trabajar en ella, no tendris ocasin de
aburriros en toda vuestra vida, que os deseo larga y gozosa.
BIBLIOGRAFA
American Psychologial Association (1985): Standards for Educational and Psychological
Testing. Washington, DC: APA.
Arvey, R. D. y Campion, J.E. (1982): The employment interview: A summary and review of
recent research. Personnel Psychology. 35, 281-232.
Arvey, R. D. y Faley, R.H. (1988). Fairness in selecting employees. New York: AddisonWesley.
Austin, J. T, Humphreys, L. G. y Hulin, Ch.L. (1989). Another view of dynamic criteria.

Personnel Psychology. 42, 538-596.
Barrett G. V., Phillips, J. S. y Alexander, R. A..(1981). Concurrent and predictive validity
desings. J. Applied Psychology. 66, 1-6.
Barrett, G. V, Caldwell M. S. y Alexander, R. A. (1985). Personnel Psychology. 38, 41-56.
Dougherty, T. W, Ebert P. T. y Callender, J. C. (1986): Policy capturing in the employment
interview. J. Applied Psychology. 71, 9-15.
Guion, R.M. (1987). Changings views for personnel selection research. Personnel
Psychology. 40, 199-213.
Guion, R. M. o Ironson, G. H. (1983). Latent trait theory for organizational research.
Organizational Behavior and Human Performance. 31, 54-87.
Nathan, B.R., y Alexander, R. A. (1988): A comparisson of criteria for test validation: a
meta-analytical investigation. Personnel Psychology. 41, 517-535.
Silva, F. (1989). Evaluacin conductual y criterios psicomtricos. Madrid: Pirmide.
Staats, A. W. (1983): Psychology's crisis of disunity. New York, Praeger.
Sussma, M. y Robertson, D.U. (1986): The validity of validity: An analysis of validation
study designs. J. Applied Psychology. 71, 4161-468.
Yela, M. (1953): Eficacia, aptitud y voluntad de trabajo. Revista del Instituto de
Racionalizacin del Trabajo, 33, 417-420.

Evaluar Qué y para Qué. El Problema Del Criterio

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Evaluar Qué y para Qué. El Problema Del Criterio

Încărcat de

Drepturi de autor:

Formate disponibile

Noviembre , n 46 y n47 , 1990

Copyright 1990 Papeles del Psiclogo

influyen en el inters, la motivacin y la voluntad de trabajo. La aptitud, sin la motivacin,

mantener durante un proceso de evaluacin, sobre todo si se prolonga bastante en el tiempo,

Austin, J. T, Humphreys, L. G. y Hulin, Ch.L. (1989). Another view of dynamic criteria.

S-ar putea să vă placă și