Sunteți pe pagina 1din 12

Pruebas Psicométricas I

---------------------------------------------------------------------------------------------------------------------------------------------------

Medición de inteligencia

Rasgos de personalidad

Factores de personalidad - Proyectivas

Son las encargadas de medir que cualidades psíquicas de un individuo existen.

Campo Definición FUNDAMENTOS TEÓRICOS DE LAS PRUEBAS PSICOLÓGICAS de acción
Campo
Definición
FUNDAMENTOS TEÓRICOS DE LAS PRUEBAS
PSICOLÓGICAS
de acción
TEÓRICOS DE LAS PRUEBAS PSICOLÓGICAS de acción CONSIDERACIONES HISTÓRICAS CONSIDERACIONES ESTADÍSTICAS
CONSIDERACIONES HISTÓRICAS
CONSIDERACIONES HISTÓRICAS
CONSIDERACIONES ESTADÍSTICAS Confiabilidad Test retest Es la consistencia de las puntuaciones obtenidas por las
CONSIDERACIONES ESTADÍSTICAS
Confiabilidad
Test retest
Es la consistencia de las
puntuaciones obtenidas por las
mismas personas en diferentes
ocasiones con las mismas pruebas.
Formales paralelos
División por mitades
Validez
Una prueba mide lo que pretende
medir e un determinado contexto.
Contenido
Criterio
Constructo
1

Pruebas psicológicas

Evaluación Psicológica

Es la aplicación e interpretación de la puntuación y resultados obtenidos de la misma.

Proceso de resolución de problemas que podría tomar diferentes formas.

Evaluador

Son los desarrolladores y editores de pruebas y otros métodos de evaluación.

Evaluado

Tiene diferentes aproximaciones a la situación de evaluación y los aplicadores deben ser sensibles ante la diversidad de respuestas posibles ante dicha evaluación.

FUNDAMENTOS TEÓRICOS DE LAS PRUEBAS PSICOLÓGICAS

1.1.1. CONSIDERACIONES HISTÒRICAS

En el siglo XIX, una forma primitiva de pruebas de destreza existió en China 2200 a.c. en donde el emperador chino conducía un programa de pruebas que implicaban alguna forma de examen para los funcionarios públicos de cada tercer año. El significado histórico del programa de pruebas en la antigua china es que, hace miles de años existió una civilización que mostró evidencias de una preocupación por algunos de los mismos principios básicos de la psicometría que interesan y se manejan en la actualidad. En un período de la historia en que el nepotismo sin duda era cosa común, es admirable ver a una sociedad donde el empleo se basaba en exámenes competitivos y abiertos. En el siglo XIX, la historia registra que fue Darwin quien incitó el interés científico en las diferencias individuales, (Darwin 1859). De hecho los escritos de Darwin sobre las diferencias individuales despertaron el interés en la investigación de la herencia en su primo, Francis Galton. En el curso de sus esfuerzos por explorar y cuantificar las diferencias individuales entre personas. Galton contribuyó ampliamente en el campo de la medición., Galton recibiría el crédito de diseñar o contribuir al desarrollo de muchas herramientas contemporáneas de evaluación psicológica incluyendo cuestionarios escalas de estimación e inventarios de rasgos personales.

En el siglo XX, atestiguaron el nacimiento de las primeras pruebas formales de inteligencia, Como se verá en el resto de esta sección, al inicio hubo una gran receptividad para los instrumentos que supuestamente podían medir características mentales; al principio, inteligencia y más adelante otras características como aquellas relacionadas con la personalidad, intereses, actitudes y valores.

Una persona que tuvo la visión de ampliar las pruebas para incluir la medición de capacidades cognitivas fue Alfred Binet (1987-1911), quien publicó junto a su colega Victor Henri 81985), varios artículos sobre la medición de capacidades como la memoria y el manejo de habilidades sociales. Diez años después Binet y Simón (1905), publicaron un libro sobre “escala de medición de la inteligencia”, que consistía en 30 reactivos que identificaban a niños con deficiencia mental en edades escolares. Luego de pasar por muchas revisiones y traducciones, se crea el movimiento de pruebas psicológicas de inteligencia y posteriormente fueron utilizadas en escenarios diversos, como, tribunales, reformatorios, prisiones, orfanatos y escuelas.

David Wechsler (1939), un psicólogo clínico introdujo una prueba diseñada para medir inteligencia en adultos, fue revisada y se le cambio el nombre a Escala Wechsler de Inteligencia para adultos y desde ese entonces fue revisada de manera periódica. Luego fueron diseñadas las pruebas de tipo grupal por Binet, y aparecieron en EE.UU, en respuesta a la necesidad del ejército por obtener un método eficiente para explorar la capacidad intelectual de los reclutas en la primera guerra mundial. Debido a las capacidades necesitadas en los soldados, los psicólogos fueron reclutados para el servicio del gobierno, con la misión de elaborar, administrar e interpretar datos de pruebas psicológicas grupales. Después de la guerrea, los psicólogos que regresaron del servicio militar trajeron consigo una riqueza de habilidades en la aplicación de pruebas que serían útiles no sólo para el servicio del gobierno sino también en escenarios tal diversos como la industria privada, hospitales y escuela. Las pruebas entonces, serían desarrolladas para medir no sólo distintas habilidades e intereses, sino también la personalidad entre otras variables.

1.1.2. DEFINICIÓN Y CAMPO DE ACCIÓN.

La medición de las capacidades psíquicas recibe el nombre de psicometría. Se trata de la disciplina que atribuye valores (cifras) a condiciones y fenómenos psicológicos para que, de este modo, resulte posible la comparación de las características psíquicas de distintas personas y se pueda trabajar con información objetiva.

Las pruebas psicométricas son las encargadas de medir que cualidades psíquicas de un individuo, hay de varios tipos:

de medición de la inteligencia (que tanto cotejan edad mental y edad cronológica) rasgos de personalidad (como tiendes a reaccionar), factores de personalidad (cotidianamente cono te comportas) proyectivas (que es lo que el subconsciente deseas) y varios tipos más son una herramienta tanto para conocer su vida, estado emocional, intelectual e inclusive si existe una anomalía en su funcionamiento cerebral o simplemente para ubicarnos en la forma de pensar. Una prueba psicométrica, por lo tanto, apunta a evaluar la psiquis de un individuo y a plasmar esos resultados mediante valores numéricos. Los tests psicométricos deben ser elaborados e interpretados bajo ciertos parámetros para que sus conclusiones sean acertadas. Suele decirse, en este sentido, que las pruebas psicométricas deben ser confiables (tienen que permitir realizar las mediciones siempre de la misma manera) y válidas (es decir, que consigan medir la facultad que efectivamente planean medir).

Es frecuente que las empresas apelen a las pruebas psicométricas a la hora de decidir la contratación de un empleado. Lo habitual es que, tras una primera preselección entre los postulantes, se desarrollen pruebas psicométricas a los candidatos para medir sus capacidades intelectuales y los rasgos de su personalidad. Todas estas personas, de esta manera, serán sometidas a pruebas idénticas y los resultados de las mismas podrán compararse.

Se supone que, al realizar evaluaciones psicométricas a los candidatos, el empleador cuenta con datos objetivos para tomar la decisión de contratación, dejando de lado eventuales simpatías o prejuicios que pudieran surgir en una entrevista. Por lo general, existen diferentes pruebas psicométricas de acuerdo al cargo que se pretende cubrir. Esto obedece a que no se necesitan las mismas habilidades para trabajar en el departamento de Ventas que para desempeñarse como administrativo o en el área de Logística.

1.2.3. PRUEBAS Y EVALUACIÒN PSICOLÓGICA

Ronal Jay y Mark S. (2007). La apertura que el mundo tuvo con respecto a las pruebas desarrolladas por Binet a principios del siglo XX no sólo produjo más herramientas de este tipo, también surgieron más autores, publicadores y usuarios de prueba también emergiendo por lógica, lo cual a la fecha se conoce como “la industria de las pruebas”.

La prueba, puede definirse tan sólo como un instrumento o procedimiento de medición. Cuando la palabra prueba está acompañada por un modificador, se refiere a un instrumento o procedimiento diseñado para medir una variable relacionada con ese modificador. Por ejemplo el término prueba médica, refiere a un instrumento diseñado para medir alguna variable relacionada a la medicina, de igual manera el término prueba psicológica se refiere a un instrumento para medir variables relacionadas a la psicología. Una prueba psicológica generalmente implica el análisis de una forma de comportamiento. La forma de comportamiento puede variar desde las respuestas de un cuestionario por escrito, respuestas orales o preguntas, hasta el desempeño de alguna tarea. La muestra del comportamiento puede ser originada por el estímulo de la prueba misma puede ser un comportamiento que ocurre de manera natural.

El contenido de la prueba, por supuesto variarán de acuerdo al enfoque teórico que la prueba maneje. Pero cuando dos pruebas psicológicas tienen el propósito de medir lo mismo pueden diferir de una manera amplia en los contenidos debido a factores como la definición de personalidad que el autor de la prueba maneje, así como el marco teórico de referencia, por ejemplo los reactivos de la pruebas de personalidad orientadas desde un enfoque y otro, pero ambas son pruebas de personalidad. Las pruebas psicológicas y otras herramientas de evaluación pueden diferir en un gran número de variables como contenido, formato, procedimiento de aplicación, puntuación, contextos de interpretación y calidad técnica.

1.1.3.1. Pruebas:

Pruebas fue el término utilizado para referirse a todo lo relacionado con la aplicación de una prueba y la interpretación de la puntuación y resultados obtenidos de la misma. Durante la primera guerra mundial, el proceso de las pruebas

determinó de manera óptima un grupo experimental obtenido mediante la evaluación de miles de reclutas militares. Se sospecha que esto sucedió al mismo tiempo en que las pruebas lograron el reconocimiento e inserción en el vocabulario de los profesionales y de la gente en general. El uso del término pruebas para denotar todo, desde la aplicación hasta la interpretación de una prueba. Sin embargo, en la segunda guerra mundial, inicia el surgimiento de una distinción semántica entre pruebas y un término más inclusivo llamada, evaluación.

Durante la segunda guerra mundial, la Oficina de Servicios Estratégicos de Estados Unidos (OSS) utilizó diversos procedimientos y herramientas de medición, entre ellos pruebas psicológicas, en la selección de personal militar para puestos especializados que involucran actividades tales como espionaje, manejos de inteligencia militar y otros procesos similares. Escenarios militares, clínicos, educativos y de negocios son algunos de los muchos contextos que implican observaciones conductuales y la integración activa de pruebas y otros datos por parte de evaluadores.

1.1.3.2. Evaluación psicológica:

Evaluación psicológica, Maloney y Wars, concibieron la evaluación como un proceso de resolución de problemas que podía tomar diferentes formas. La conducción de una evaluación depende de muchos factores, no sólo de aquel que constituye la razón para la evaluación. Diferentes herramientas de evaluación, entre ellas distintas pruebas psicológicas, deben estar presentes en el proceso de la evaluación, determinadas por los objetivos particulares, las personas y circunstancias específicas en el momento de la misma, así como variables únicas, generadas por el contexto y ambiente. Por el contrario, se consideró que las pruebas psicológicas tenían un alcance mucho más reducido, ya que sólo se refería al proceso de aplicar, calificar e interpretar las pruebas psicológicas.

1.1.3.3. Examinador:

El examinador es un punto clave en el proceso de evaluación, en el que las decisiones, predicciones por ambas, se realizan a partir del mayor número de fuentes de información (pruebas psicológicas) La distinción semántica entre pruebas psicológicas y evaluación psicológica es confusa, sin embargo señalamos algunas definiciones.

Evaluación psicológica, se define como la recolección e integración de datos relacionados con la psique individual con el propósito de hacer una evaluación psicológica, concretada mediante el uso de herramientas como pruebas, entrevistas, estudio de caso, observación conductual, así como equipos y procedimientos diseñados específicamente para la medición de ésta. Pruebas psicológicas, se define como el proceso para medir variables relacionadas con la psique mediante instrumentos o procedimientos diseñados para obtener rasgos de comportamientos definidos como conductas.

1.1.3.4. Medición psicológica:

La medición psicológica es un proceso que le permite al psicólogo cuantificar características humanas y objetivizar procesos de evaluación. Las pruebas hacen parte de un proceso general organizado para llegar a una impresión diagnóstica, pero no se pueden convertir en el único medio de información. Los resultados obtenidos en las pruebas deben estar acompañados de otras técnicas o herramientas que le permitan al psicólogo establecer relaciones y obtener una valoración general. Los instrumentos de medición psicológica han jugado un papel muy importante en la historia de la Psicología. No obstante, a pesar de los avances teóricos, las técnicas de evaluación psicológica aún tienen que resolver muchos aspectos relacionados básicamente con su utilización.

El manejo de estos instrumentos de medición requiere de una fundamentación teórica, de un conocimiento técnico de los instrumentos y de un manejo ético de los mismos. Mientras no se cumplan estos requerimientos, algunos conceptos como medición en psicología, evaluación y psicometría, siempre serán motivo de cuestionamientos.

Vale recordar como escenario existencial que circunda las evaluaciones psicológicas, que todo proceso de medición deja huellas transcendentales en la vida de las personas. Puede resultar en consecuencias nefastas, la utilización incorrecta de los test en el destino de las personas evaluadas. Por ejemplo: un Psicodiagnóstico que no refleje su problemática, el no ingreso a un colegio, la mala escogencia de una carrera, la imposibilidad de conseguir un empleo, desarrollo dentro de una organización, etc.

Tal vez este sea el momento adecuado para recordar que fuera del contexto clínico, el social y algunos contextos educativos, las evaluaciones obedecen básicamente a escenarios capitalistas donde hay mayor oferta que demanda y surge la necesidad de seleccionar y filtrar las oportunidades. La medición psicológica entonces, favorecerá que tales procesos sean realizados de manera transparente, con ausencia de favoritismos, fundamentados en cualidades y conocimientos, proporcionando una recopilación objetiva de información, una comunicación más eficiente y detallada de resultados, promoviendo mayor agilidad y equidad en la toma de decisiones. Finalmente, la medición psicológica organizacional, ofrece una excelente relación costo/beneficio. La economía en tiempo y dinero es significativa para la cantidad y profundidad del material recopilado.

La medición psicológica, en nuestro contexto más práctico, más laboral, que investigativo, tiene el propósito básico de, a través de un corte transversal en la vida de alguien, recopilar una serie de información que permita comprender este ser evaluado en algunas de sus características y realizar una serie de predicciones de comportamientos que tengan que ver con el objeto de la evaluación.

1.1.4. PARTES INVOLUCRADAS

1.1.4.1. Evaluador:

Los desarrolladores de las pruebas y los editores crean pruebas y otros métodos de evaluación. Algunas pruebas fueron creadas para un caso de investigación, algunas para ser publicadas y otras de pruebas ya existentes para ser revisadas. De acuerdo con esto, un gran número de organizaciones profesionales han publicado estándares de comportamiento ético que refieren, de manera específica aspectos del desarrollo y so de pruebas en forma ética y responsable. Los estándares para las pruebas psicológicas y educativas cubren aspectos relacionados con la construcción y estandarización de pruebas, administración y usos y aplicaciones especiales de las pruebas, tales como adecuaciones especiales en la aplicación de pruebas a minorías lingüísticas.

1.1.4.2. Evaluado:

Los evaluados tienen diferentes aproximaciones a la situación de evaluación, y los usuarios o aplicadores, deben ser

día de la aplicación de la prueba, los

evaluadores pueden variar de forma continua y de acuerdo con numerosas variables, incluidas:

- El estado de ansiedad que están experimentando y el grado en que la ansiedad puede afectar de manera significativa los resultados de la prueba.

- Su capacidad y disposición para cooperar con el examinador o para comprender las instrucciones de la prueba escrita.

- El grado de dolor físico o angustia emocional que están sintiendo.

- El grado de incomodidad física por no haber comido lo suficiente, haber comido en exceso u otras condiciones físicas.

- El estado en que están alertas y despiertos en contraposición al estado de somnolencia.

- La predisposición que tienen a estar de acuerdo o en desacuerdo cuando se les presentan estímulos parta provocar una reacción.

- El grado de preparación e información que han recibido antes de la evaluación.

- La importancia que le haya atribuido al verse situados en un buen o mal lugar.

sensibles ante la diversidad de respuestas posibles ante dicha evaluación. El

1.2.

CONSIDERACIONES ESTADÍSTICAS:

1.2.1. CONFIABILIDAD Ronal Jay y Mark S. (2007). Es una prueba que se refiere a la consistencia de las puntaciones obtenidas por las mismas personas en distintas ocasiones con las mismas pruebas.

Es la capacidad del mismo instrumento para producir resultados congruentes cuando se aplica por segunda vez, en condiciones tan parecidas como sea posible. La confiabilidad se refiere al nivel de exactitud y consistencia de los resultados obtenidos al aplicar el instrumento por segunda vez en condiciones tan parecida como sea posible.

Bernal (2000:218) afirma que la pregunta clave para determinar la confiabilidad de un instrumento de medición es:

Si se miden fenómenos o eventos una y otra vez con el mismo instrumento de medición, ¿Se obtienen los mismos resultados u otros muy similares? Si la respuesta es afirmativa, se puede decir que el instrumento es confiable.

Es importante lograr la elaboración de un instrumento que sea confiable. Para ello, existen muchas vías para lograrlo. Si se tratara de un cuestionario, se puede aplicar dos veces a la misma persona en un corto período de tiempo, y seguidamente se utiliza el índice de Bellack:

Se considera que el instrumento es confiable si el índice de Bellack resultante es superior al umbral arbitrario de 80. Pourtois, J., Desmet, H. (1992:187) Esta prueba se aplica a cualquier tipo de variable o dimensión objeto de estudio.

Otra manera para poder determinar si un instrumento es confiable es a través del cálculo de la medida de estabilidad por la vía del test-retest. En este procedimiento un mismo instrumento es aplicado en dos oportunidades o más a un mismo grupo de personas, después de cierto período de tiempo. Si la correlación entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. El cálculo de este coeficiente se utiliza para mediciones de variables o dimensiones que responden a una escala de medición de intervalo o razón. Es importante que para la aplicación de esta prueba, se tome un lapso de tiempo lo suficientemente largo para que los sujetos se olviden de lo que contestaron y, por el otro, no tanto que se produzcan cambios importantes. (Pérez 1998:72). Este tipo de medición se utiliza en investigaciones cuantitativas.

También el Coeficiente alfa de Cronbach permite determinar la confiabilidad; utilizando la fórmula si el resultado es 0.80 o más se considera aceptable el instrumento.

El cálculo del coeficiente de confiabilidad Alfa de Cronbach se utiliza para mediciones de variables o dimensiones que responden a una escala de medición de intervalo o razón.

La confiabilidad también se puede calcular mediante la aplicación de las ecuaciones de Rulon, Guttman, Sperman- Brown, Kuder-Richardson (KD20) para elementos dicotómicos y (KD21) en el caso de elementos con dificultad similar.

Adicionalmente a la confiabilidad de un instrumento, se debe buscar la validez del mismo. En este sentido, el investigador realizará un esfuerzo dirigido a la elaboración de un instrumento que mida lo que se desea medir.

Salkind (1998:126); Hernández (1998:242) clasifican la validez en: validez de contenido, validez de criterio y la validez de constructo.

La validez de contenido está representada por el grado en que una prueba representa el universo de estudio. Por tal motivo, deberán seleccionarse los indicadores e ítems de tal manera que estos respondan a las características peculiares del objeto de estudio.

La validez de criterio, llamada también validez concurrente es más fácil de estimar, lo único que se debe hacer es correlacionar su medición con el criterio, y este coeficiente se toma como coeficiente de validez. La validez de criterio es una medida del grado en que una prueba está relacionada con algún criterio. Es de suponer que el criterio con el que se está comparando la prueba tiene un valor intrínseco como medida de algún rasgo o característica. Una prueba se considera válida para un propósito específico si en realidad mide lo que pretende medir. De ese modo, una prueba de inteligencia es válida si en realidad si mide de inteligencia.

1.2.2. TIPOS DE CONFIABILIDAD

1.2.1.1. Test retest:

Es un instrumento de medición muy confiable porque se puede decir que la confiablidad es estable en el tiempo, es decir hoy, mañana o el próximo año. En el lenguaje psicométrico, este enfoque de la valoración de la confiabilidad se llama método test-retes y el resultado de dicha evaluación es una estimación de la confiabilidad test-retest.

La confiabilidad test retest es una estimación de la confiabilidad obtenida al correlacionar pares de puntuaciones de las mismas persona en dos aplicaciones diferentes de la misma prueba. La medida test retes es apropiada cuando se valora la confiablidad de una prueba que pretende medir algo relativamente estable a lo largo del tiempo, como un rasgo de personalidad.

Conforme pasa el tiempo, las personas cambian, pueden, por ejemplo, aprender cosas nuevas, olvidar otras y adquirir nuevas habilidades. Por lo general. Aunque hay excepciones, conforme se incrementan el intervalo de tiempo entre las aplicaciones de las mismas pruebas, disminuye la correlación entre las puntuaciones obtenidas en cada una. El paso del tiempo puede ser una causa de la varianza de error. Entre más tiempo pase, es más probable que el coeficiente de confiabilidad sea menor. Cuando el intervalo entre las pruebas es mayor a seis mese, a menudo se hace referencia a la estimación de la confiabilidad test retest como coeficiente de estabilidad

Una estimación de la confiabilidad test retest puede ser más apropiadas para calibrar la confiabilidad de exámenes que emplean como medidas de resultados el tiempo de reacción o juicios perceptivos. Sin embargo, incluso al medir variables como éstas y aun cuando el periodo entre las dos aplicaciones de la prueba sea relativamente pequeño, nótese que pueden intervenir diversos factores y alterar una medida de confiabilidad obtenida.

1.2.1.2. Formas paralelas y formas alternas:

Si alguna vez usted ha presentado un segundo examen en el que las preguntas no eran iguales a las de la prueba inicial, ha experimentado con formas diferentes de una prueba. Y si alguna vez se ha preguntado si en realidad las dos formas de la prueba eran equivalentes, habrá cuestionado la confiabilidad de las formas alternas o formas paralelas de la prueba. Aunque con frecuencia se usan de manera indistinta los términos formas alternas o formas paralelas, existe una diferencia entre ellos, Existen formas paralelas de una prueba cuando, para cada forma del examen, las medias y las varianzas de las puntuaciones de la prueba observada son iguales. En teoría las medias de las puntuaciones obtenidas en formas paralelas se correlacionan igual con la puntuación verdadera. De manera más práctica, las puntuaciones obtenidas en pruebas paralelas se correlacionan de modo igual con otras medidas.

Las formas alternas, de modo simple, son versiones diferentes de una prueba que se han construido para que sean paralelas. Aunque no cumplen con los requisitos para la designación legítima de “paralelas”, las formas alternas de una prueba generalmente estás diseñadas para ser equivalentes con respecto a variables como contenido y nivel de dificultad.

Se puede obtener un estimado de la confiabilidad de una prueba sin elaborar una forma alterna de la misma y sin tener que administrarla dos veces a las mismas personas. La derivación de este tipo de estimado implica una evaluación de la consistencia interna de las preguntas de la prueba. De manera lógica, se le conoce como una estimación de la confiabilidad de la consistencia interna como una estimación de la consistencia entre reactivos. Existen diferentes métodos para obtener estimaciones de confiabilidad de la consistencia interna. Uno de dichos métodos es la estimación de dividir en mitades.

1.2.1.3. División por mitades:

Una estimación de la confiabilidad de dividir en mitades se obtiene correlacionando dos pares de puntuaciones obtenidas cuando es poco práctico o indeseable evaluar la confiabilidad con dos pruebas o hacer dos aplicaciones de una misma prueba. El cálculo de un coeficiente de confiabilidad de dividir en mitades por lo general implica tres pasos:

1º Dividir la prueba en mitades equivalentes. 2º Calcular una r de Pearson entre las puntuaciones en las dos mitades de la prueba. 3º Ajustar la confiabilidad de una mitad de la prueba usando la fórmula de Spearman-Brown.

Una forma aceptable de dividir una prueba es asignar al azar las preguntas a una u otra mitad de la prueba. Una segunda forma aceptable de dividir una prueba es asignar las preguntas con números a una mitad de la prueba y las identificadas con números pares a la otra mitad. Este modo produce una estimación de la confiabilidad de dividir en mitades, a la que también se le llama confiabilidad non-par. Aún otra manera es dividir la prueba por contenido y la dificultad. En general, un objetivo primario al dividir una prueba en mitades con el propósito de obtener una estimación de la confiabilidad de dividir en mitades es crear lo que podría denominarse “mini formas paralelas”, con cada mitad siendo igual a la otra o lo más cercano posible a esto, en aspectos de formato, estilísticos y otros relacionados. El paso 2 del procedimiento implica el cálculo de una r de Pearson, lo cual requiere poca explicación en este punto. Sin embargo, el tercer paso requiere el uso de la fórmula de Spearman Brown. La formula de Spearman, permite a quien elabora la prueba, estimar la confiabilidad de su consistencia interna a partir de la correlación de las dos mitades.

Medidas de confiabilidad entre evaluadores:

Denominada también como confiabilidad del evaluador, confiabilidad del juez, confiabilidad del observador y confiabilidad entre evaluadores. La confiabilidad entre evaluadores es el grado de acuerdo o consistencia que existe entre dos o más evaluadores (jueces o calificadores) las referencias a los niveles de confiabilidad entre evaluadores para una prueba particular pueden publicarse en el manual de la prueba o en alguna otra parte. Si el coeficiente de confiabilidad es muy alto, el futuro usuario de la prueba sabe que las puntuaciones pueden ser derivadas en forma consistente y sistemática por varios evaluadores con capacitación suficiente. Se puede estimular la consistencia entre evaluadores suministrando jueces que promuevan la participación en discusiones de grupo junto con ejercicios prácticos e información sobre la precisión del evaluador.

Quizá la forma más simple de determinar el grado de consistencia que existe entre evaluadores en cuanto a la calificación de una prueba sea mediante el cálculo de un coeficiente de correlación. A este coeficiente se le denomina coeficiente de confiabilidad entre evaluadores.

1.2.3. VALIDEZ Ronal Jay y Mark S. (2007).: En el lenguaje cotidiano, decimos que algo es valido cuando es firme, significativo o tienen un fundamento sólido en principios o evidencia.

La validez, aplicada a una prueba, es un juicio o una estimación acerca de que tan bien una prueba mide lo que pretende medir en un determinado contexto. De manera más específica, es la elaboración de un juicio en base a la evidencia sobre lo apropiado de las inferencias realizadas a partir de las puntuaciones de una prueba.

Validación es el proceso de recopilar y evaluar la validez de la evidencia. Tanto el creador de la prueba como e usuario de la misma pueden desempeñar una función en la validación de una prueba para un propósito específico. Es responsabilidad del diseñador de la prueba suministrar evidencias de la validez en el manual de la misma Cabe indicar y esperar que la puntuación de una persona en una prueba válida que mida introversión esté inversamente relacionada con la puntuación de esa misma persona en una prueba válida que mida extroversión.; es decir mientras más alta sea la puntuación de la prueba de introversión, más baja será la puntuación de la prueba de extroversión y viceversa. Para proceder a la validación por juicio de expertos, es importante tener a la mano un instrumento / formato diseñado exclusivamente para servir de guía operativa a los especialistas, quienes lo emplearán para evaluar y valorar la primera versión del instrumento de recolección de datos.

La confiabilidad y la validez son cualidades esenciales que deben estar presentes en todos los instrumentos de carácter científico para la recogida de datos. En palabras de Pérez (1998:71), si el instrumento o instrumentos reúnen estos requisitos habrá cierta garantía de los resultados obtenidos en un determinado estudio y, por lo tanto, las conclusiones pueden ser creíbles y merecedoras de una mayor confianza.

Una manera en que los especialistas de la medición tradicionalmente han conceptualizado la validez es de acuerdo con tres categorías: validez de contenido, validez relacionada con el criterio y validez de constructo.

Existen tres enfoques para evaluar la validez asociada a los tres tipos de valides: Examinar el contenido de la prueba, Relacionar las calificaciones obtenidas en la prueba con otras puntuaciones u otras medidas y realizar un análisis general (la forma en que las puntuaciones de la prueba se relacionan con otras medidas y calificaciones) y (la forma en que las puntuaciones de la prueba puedan ser entendidas dentro de un contexto teórico para comprender el constructo a medir y por el cual la prueba fue diseñada.

Los tres enfoques sobre la validez de la evaluación no son mutuamente excluyentes; cada uno debe ser considerado como un tipo de evidencia que, junto con otras, contribuye a elaborar un juicio sobre la validez de la prueba. Si bien los tres tipos de evidencia ayudan a tener una imagen unificada de la validez de la prueba, el usuario podría no necesitar conocer los 3 tipos. Dependiendo del uso que se le vaya a dar a la prueba, los tres tipos de evidencias con respecto a la validez pueden no ser relevantes de la misma manera.

1.2.3. TIPOS DE VALIDEZ

no ser relevantes de la misma manera. 1.2.3. TIPOS DE VALIDEZ http://ciberconta.unizar.es/doctorado/08ecuaciones.htm 9

http://ciberconta.unizar.es/doctorado/08ecuaciones.htm

1.2.2.1.

Validez de contenido:

Describe un juicio de cuán adecuadamente una prueba es una muestra de la conducta representativa dentro del universo de conductas que la prueba fue diseñada. Por ejemplo respecto a las pruebas de rendimiento educativo, es usual considerar una prueba como una medida de contenido válido cuando la proporción del material cubierto por la prueba se aproxima a la proporción del material que se cubrió en el curso. Un examen final acumulativo sobre psicometría se considera valido en cuanto a su contenido, si la proporción y el tipo de casos sobre ese tema abarcados en la prueba, se aproximan a la proporcionan y el tipo de problemas que se abordaron durante dicho curso.

Validez de contenido, está representada por el grado en que una prueba representa el universo de estudio. Por tal motivo, deberán seleccionarse los indicadores e ítems de tal manera que estos respondan a las características peculiares del objeto de estudio. En el análisis de factores se generan “variables artificiales”, denominadas factores que representan constructos, los factores se obtienen de las variables originales y deben ser interpretadas de acuerdo con éstas. Se trata, de una técnica para explicar un fenómeno completo complejo en atención de unas cuantas variables.

Todos los instrumentos de recolección de datos (cuestionarios, test, escalas, guías de observación, pruebas de conocimiento, etc.) debe precisar de la validez de contenido, y ésta consiste en hacer una revisión profunda de cada ítem que estructuran el instrumento. Denominada también “lógica” o de “muestreo”. Se refiere básicamente al contenido del instrumento, al hecho de que el instrumento contenga en sus elementos o ítem todos y sólo los aspectos que, de acuerdo a los objetivos de la investigación, sea necesario (sic) averiguar para el logro de los mismos. De esta manera, la validez de contenido es un procedimiento al que no puede obviarse cuando se tiene el objetivo certero de realizar una investigación de gran envergadura, y en el caso muy particular de la Gerencia de Recursos Humanos, los instrumentos de recolección de datos han de condensar suficientes ítem como para poder apreciar de una manera totalizadora los aspectos, factores y variables que se conjugan para estructurar el fenómeno objeto de estudio.

Debe tenerse siempre presente que el investigador del área de Recursos Humanos tiene ante su mirada de inquisidor científico un universo de sujetos cuyas actuaciones se corresponden con representaciones subjetivas y las mismas son objetivadas en actos y redes de actos los cuales se constituyen en los posibles escenarios susceptibles de ser captados a través de medios instrumentales diseñados para fines bien definidos.

Así, de lo que se trata es de advertir que los fenómenos sociales son de una complejidad tal que todo investigador que se aventure a su aprehensión debe disponer de instrumentos de recolección de datos bien construidos, y es por ello que la validez de contenido está destinada a darle coherencia y sistematicidad a los ítems que conforman el instrumento diseñado.

Al decir de Aroca, A. (1999: 269), El método que más se utiliza para estimar la validez de contenido es el denominado Juicio de Expertos, el cual consiste en seleccionar un número impar (3 o 5) de jueces (personas expertas o muy conocedoras del problema o asunto que se investiga). Quienes tienen la labor de leer, evaluar y corregir cada uno de los ítems del instrumento so pretexto de que los mismos se adecuen directamente con cada uno de los objetivos de la investigación propuestos.

Se consideran expertos o jueces aquellos sujetos que reúnan las siguientes consideraciones:

a.- Formación académica en el área y rama del quehacer científico al que diera lugar;

b.- Comprobada trayectoria experiencial de investigaciones realizadas en institutos y centros destinados para fines bien definidos; c.- Desarrollo de una línea (o líneas) de investigación relacionada a intereses académicos; d.- Poseer una amplia concepción epistemológica de la ciencia y de la investigación; y, e.- Demostrar pleno dominio de la lengua castellana, pues la sintaxis, la semántica y la sindéresis son aspectos determinantes para dar forma interna y externa al instrumento.

Tomando como base estas características que se consideran las más deseables que debe tener un experto encargado de validar los instrumentos de recolección de datos, se hace saber que la validez de contenido permite al sujeto investigador lograr la aprehensión lo más objetiva posible de la esencia de los hechos y fenómenos que estudia, es decir, se establece un perfecto relacionamiento entre los propósitos de la investigación y el alcance en el campo real donde se experimentan los acontecimientos.

Una vez que se diseña el instrumento de recolección de datos a partir del desglosamiento de los objetivos específicos en su factor, definición, dimensiones e indicadores, el producto materializado en dicha herramienta se corresponde con lo que muy bien puede llamarse una primera versión, pues como se ha especificado antes debe procederse con la “calibración” donde el juicio de experto se corresponde con una de ellas.

En manos del experto, la primera versión del instrumento sufrirá cambios superficiales o profundos, los cuales son importantes que sean considerados por el investigador so pretexto de que el instrumento de recolección de datos alcance la configuración y calidad deseada. Dichos cambios pueden ser de índole de contenido, de redacción- semántica, sindéresis, correspondencia con los objetivos planteados, pertinencia con el tipo de investigación, relación estrecha con una realidad concreta.

1.2.2.2. Validez de criterio:

Es un juicio de cuán adecuadamente puede ser utilizada la puntuación de una prueba para inferir la posición más probable de un individuo con respecto a cierta medida del interés, siendo el criterio esa medida de interés.

Validez de criterio, llamada también validez concurrente es más fácil de estimar, lo único que se debe hacer es correlacionar su medición con el criterio, y este coeficiente se toma como coeficiente de validez. La validez de criterio es una medida del grado en que una prueba está relacionada con algún criterio. Es de suponer que el criterio con el que se está comparando la prueba tiene un valor intrínseco como medida de algún rasgo o característica.

Un criterio puede ser definido en forma amplia como el modelo contra el cual se compara y evalúa una prueba o la puntuación de una prueba. Un criterio puede ser la calificación de una prueba, una conducta específica o un grupo de comportamientos, una cantidad de tiempo, una estimación, un diagnóstico psiquiátrico, etc. Cualquiera que sea el criterio, de manera ideal es relevante, valido y sin contaminación. Una medida de criterio adecuada debe también ser válida para el propósito para el que está siendo usada.

a) Validez concurrente:

Si las calificaciones de la prueba se obtienen más o menos al mismo tiempo que las medidas de criterio, entonces las medidas de la relación entre las calificaciones de la prueba y el criterio proporcionan evidencian de la validez concurrente. Las declaraciones de validez concurrente indiquen el grado en que las puntuaciones de una prueba pueden servir para estimar la posición actual de un individuo frente a un criterio.

b) Validez predictiva:

Las calificaciones de la prueba pueden obtenerse en un cierto momento y las medidas de criterio en uno posterior, usualmente después de que algún evento mediador ha ocurrido, dicho evento podría ser la capacitación, la experiencia, alguna terapia, etc.

Las medidas de la relación que existe entre las puntuaciones de la prueba y una medida criterio obtenida en un momento futuro nos dan un inicio de la validez predictiva de la prueba; es decir, con cuánta precisión las puntuaciones predicen alguna medida de criterio. Lo valioso del resultado de una prueba para tomar una decisión dependerá de cómo dicho resultado mejore las decisiones de selección en comparación con las que se hubieran tomado sin conocerlo.

1.2.2.3. Validez de constructo:

Es un juicio acerca de lo apropiado de las inferencias realizadas a partir de las puntuaciones o calificaciones obtenidas en la prueba, respecto a posiciones individuales en una variable llamada constructo, un constructo es una idea informada, científica, desarrollada como una hipótesis para describiré o explicar el comportamiento. Un ejemplo de constructo pueden ser, Inteligencia, Ansiedad, satisfacción laboral, inteligencia emocional, creatividad, comprensión lectora, entre otros. Los constructos son rasgos inobservables, supuestos a los que un desarrollador de pruebas puede recurrir para describir el comportamiento de la prueba o el desempeño del criterio evaluado. Las diversas técnicas de validación del constructo pueden proporcionar evidencia; por ejemplo:

- La prueba es homogénea, midiendo un solo constructo.

- Las calificaciones de la prueba aumentan o disminuyen como una función de la edad o del paso del tiempo o de una manipulación experimental como se predijo de manera teórica.

- Las calificaciones obtenidas en la prueba luego de algún evento o por el simple paso del tiempo difieren de las calificaciones de pre prueba como se predijo de manera teórica.

- Las calificaciones obtenidas en la prueba por personas de grupos distintos varían como fue pronosticado por la teoría.

- Las calificaciones de la prueba se correlacionan con las de otras pruebas de acuerdo con lo que se predecirá a partir de una teoría que cubra la manifestación del constructo en cuestión. La validez de constructo determina a través del procedimiento de análisis de factores en qué medida los resultados de una prueba se relacionan con constructos. Un constructo es un atributo para explicar un fenómeno.

Una validez es concurrente si las calificaciones de la prueba se obtienen más o menos al mismo tiempo que las medidas de criterio, entonces las medidas de la relación entre las calificaciones de la prueba y el criterio proporcionan evidencian de la validez concurrente. Las declaraciones de validez concurrente indiquen el grado en que las puntuaciones de una prueba pueden servir para estimar la posición actual de un individuo frente a un criterio. Es un instrumento de medición muy confiable porque se puede decir que la confiablidad es estable en el tiempo, es decir hoy, mañana o el próximo año. En el lenguaje psicométrico, este enfoque de la valoración de la confiabilidad se llama método test-retes y el resultado de dicha evaluación es una estimación de la confiabilidad test-retest. La confiabilidad test retest es una estimación de la confiabilidad obtenida al correlacionar pares de puntuaciones de las mismas persona en dos aplicaciones diferentes de la misma prueba. La medida test retes es apropiada cuando se valora la confiablidad de una prueba que pretende medir algo relativamente estable a lo largo del tiempo, como un rasgo de personalidad.

Fuente: Ronald Jay Cohen y Mark E. Swerdlik (2007). Pruebas y evaluaciones psicológicas: introducción a las pruebas y a la medición. Editorial Mc Graw Hill. Sexta edición.

Referencias bibliográficas Anastasi, A., (1980), Test Psicológicos, 3 ° edición, Madrid, ed. Aguilar. Freud, S., (1930), El malestar en la cultura, Tomo XXI, Buenos Aires, Amorrortu. Editores. Muñiz, J., & Hambleton, R. K., (1996). Directrices para la traducción y adaptación de los test. Papeles del Psicólogo, Madrid, Universitas. Ronald Jay Cohen y Mark E. Swerdlik (2007). Pruebas y evaluaciones psicológicas: introducción a las pruebas y a la medición. Editorial Mc Graw Hill. Sexta edición.