Documente Academic
Documente Profesional
Documente Cultură
Características psicométricas.
Fiabilidad.
Es el nivel de consistencia en la medida que proporciona el instrumento. Se
manifiesta por cuatro procedimientos:
3. Estabilidad en el tiempo.
El coeficiente de estabilidad de las puntuaciones (consistencia en distintas
situaciones en el tiempo) es otra medida de fiabilidad. Pero dada la variabilidad
del comportamiento en distintas situaciones, esta medida, siendo baja no sería
indicador de baja fiabilidad. Algunos autores consideran este método como
inadecuado para controlar el error de varianza.
Esto se puede solucionar usando diseños estadísticos de series temporales
para conocer la línea base de la conducta y conocer posteriormente así las
variaciones en el comportamiento en acontecimientos determinados.
Empíricamente esto es inviable por la complejidad de su elaboración y los
costes que implica.
1
Validez.
1. Validez de contenido.
Es la relevancia de Drenth. El grado en que el instrumento recoge una
representación adecuada y completa de toda la conducta que debe ser evaluada.
Un instrumento puede tener distintas dimensiones parciales para medir un
rendimiento global, pero estas, juntas, tienen que abarcar todo el contenido
global, de no ser así no habría validez de contenido. La puntuación daría una
idea parcial de lo que se pretende medir. Esto es una baja validez por defecto o
deficiencia. También puede darse lo contrario, que el instrumento contenga
ítems irrelevantes para el verdadero rendimiento que se pretende medir. Sería
una baja validez por exceso, o superfluidad, medimos dimensiones no
relevantes.
Esta validez se basa en el juicio de expertos. Conocedores de todos los
procesos y dimensiones y de su relación con los objetivos de la organización.
2. Validez de constructo.
Muy relacionado con la fiabilidad o consistencia interna de los ítems. Se
trata de confirmar empíricamente que unos determinados reactivos miden una
dimensión teóricamente supuesta, y que esta dimensión es diferente o
independiente de otras, medidas con otros ítems. Hay alta validez si
encontramos que tras factorialización o estudio de correlación entre ítems, los
reactivos poseen alta intercorrelación y consistencia entre sí, y a la vez se
relacionan muy escasamente con otros que suponemos miden dimensiones
independientes. Esta corroboración no excede la falsación popperiana de las
hipótesis y es un complemento empírico de la validez de contenido.
Poder de discriminación.
Un instrumento puede ser fiable y válido pero a la vez ser relativamente
basto. Incapaz de discriminar diferencias finas. Esto depende de tres factores:
1. Grado de variación que ofrecen las escalas, adecuado a las distintas posibilidades de variación de la
conducta evaluada.
2. Grado de utilización fáctica de cada nivel. A veces los niveles extremos no son nunca utilizados y las
puntuaciones se acumulan en el centro. Esto puede originarse en errores sistemáticos del evaluador
pero se corrige con una formulación adecuada de las conductas a identificar y evaluar.
3. Grupo de referencia que propone el instrumento. Si se usa un grupo no adecuado y comparable con
los sujetos puede que se agrupen todos en el mismo nivel. Se deben usar grupos de referencia
comparables o usar la técnica de la distribución forzada.
2
Criterios de utilización.
3
7. ¿cómo evaluar? Instrumentos de evaluación (II).
Indicadores.
3. Otros: accidentes causados a sí o a otros, días que falta, antecedentes salariales en función de
incrementos, ritmo de progreso según sus ascensos, etc. Estos son válidos también en trabajos ajenos
a producción.
4
Técnicas no relacionadas directamente con la producción.
1. Jerarquización simple o múltiple. El evaluador (jefe, supervisor, etc.), formula una lista de
subordinados ordenándolos de mejor a peor, en relación a su valor global para la organización.
Simple. Tiene un criterio simple
Múltiple: se usa un criterio múltiple, emitiéndose tantas listas de orden como subcriterios analizados.
Se puede pedir además una lista del mérito global, usando para ello un criterio compuesto.
2. Jerarquización alternada. Cuando son muchos sujetos se usa un sistema semejante, pero en el que:
a) Se obtiene la lista de todo el personal a evaluar.
b) Se eliminan los sujetos que no hacen un trabajo homogéneo.
c) Se elimina los que no se cree poder evaluar por falta de conocimiento.
d) Se elige al sujeto considerado mejor en la lista restante (LR), y se le coloca
en la lista nueva (LN).
e) Se elige al sujeto peor en la LR y se le coloca último en la LN.
f) Se elige el segundo mejor y se le pasa a la LN.
g) Se elige el segundo peor...
h) Se continúa así con todos.
5
a) el evaluador compara en función de cada subcriterio o del criterio global- cada sujeto con todos
los demás de su sección con un trabajo homogéneo.
b) De cada pareja se elige al mejor.
c) Se suma el número de veces que el sujeto es elegido como mejor. Se realizan estas estimaciones
con varios evaluadores para aumentar la fiabilidad.
d) Se elabora una lista de orden de mejor a peor en función de las elecciones realizadas.
e) Pueden ponderarse eventualmente las puntuaciones obtenidas en cada subcriterio, para asignar
una puntuación de criterio compuesto.
Pueden usarse fichas o una matriz de doble entrada, u otro sistema similar.
Se suman las elecciones favorables obtenidas en la matriz trabajadores x
trabajadores, y se calcula el porcentaje de preferencia de cada trabajador sobre
los demás. Los porcentajes se convierten en puntuaciones estandarizadas Z.
Para eliminar puntuaciones negativas se les suma a todos la puntuación más
baja y así se obtiene una escala continua positiva donde aparecen los individuos
y las distancias entre ellos. Las distancias son indicadoras de las diferencias
relativas entre méritos.
En caso de haber varios evaluadores se procede igual, pero en la matriz se
colocan tantas marcas como evaluadores han elegido a cada sujeto. La matriz de
marcas se convierte en otra de proporciones, donde cada proporción es el
número de elecciones recibidas dividido por el número de elecciones posibles.
(n/N) en los cruces de un sujeto consigo mismo (la diagonal) se coloca la
proporción 0.5. las puntuaciones se convierten en Z con la tabla y se suman los
valores de cada columna. Obtenemos la media de esos valores dividiendo por N
–1 siendo N el total de sujetos evaluados. Se les suma la constante necesaria
para hacerlos positivos y se pasa a representar ya a los sujetos y sus distancias
relativas. (mejor lo vemos en las páginas 133 a 136).
6
Técnicas mixtas jerárquico – escalares.
7
8 ¿Cómo evaluar? Instrumentos de evaluación III.
Técnicas escalares.
Son instrumentos construidos en forma de escalas. Su dificultad y rigor es dispar
pero tienen en común el uso de estándares de rendimiento comunes y fijados para
cada puesto de trabajo de forma que la clasificación de los trabajadores no es por
comparación entre ellos. Las puntuaciones pueden ser iguales para dos trabajadores
Hay dos grupos de escalas, las de estimación basadas en rasgos y las
basadas en la conducta. En la tabla página 144 se identifican ambas.
Son listas de adjetivos o atributos entre los cuales debe verificarse cuales se
aplican más adecuadamente a los trabajadores evaluados.
En un check list o en un diferencial semántico, el evaluador marca con un signo los
adjetivos que se aplican al trabajador. Eventualmente, se puede atribuir un punto
positivo a cada signo marcado en adjetivos favorables y un negativo en los
desfavorables. La puntuación global es la suma algebraica de los reactivos
señalados.
Uhrbrock analiza 2000 adjetivos sobre conductas de trabajadores, cada uno
recibe el valor promedio en que se considera adecuado para definir buenos o malos
trabajadores. Si las puntuaciones de un adjetivo tienen una dispersión muy amplia se
le elimina y se mantienen los que presenten homogeneidad de criterios.
Una variante son las Escalas de Diferencial Semántico. Suelen trabajar con
adjetivos bipolares pero a veces incluyen descripciones conductuales. En su
estructura coinciden a veces con las escalas de medición de actitudes de las
Técnicas de Investigación Social. La de Osgood es así. La escala BOS de conductas
observadas coincide con la de Likert y las BES, de conductas esperadas asemeja a la
de Thursthone.
En la figura de la página 147 aparece un Diferencial semántico de la
universidad de Barcelona que evalúa los contenidos de los seminarios y a los
profesores. Las hipótesis que fundamentan esta técnica son:
1- El resultado del proceso de cualificación puede concebirse como el lugar que ocupa un concepto
en el continuo de la experiencia del sujeto definido por dos adjetivos bipolares.
El evaluador sitúa al sujeto en un continuo definido por adjetivos bipolares según
su experiencia, observación y seguimiento del evaluado.
2- Muchos de estos continuos son en parte equivalentes y pueden representarse por dimensiones
únicas. Se pueden agrupar en factores o dimensiones.
En el ejemplo del libro, el análisis factorial de componentes tiene una estructura
compacta en las que las escalas tienen alta comunalidad. La rotación factorial
Varimax releva una estructura trifactorial en: Contenidos, características
Personales, y características Profesionales y Didácticas.
8
adjetivos a usar, se puede verificar si saturan factorialmente cualquiera de los
factores EPA de Osgood: Evaluación, Potencial y Actividad. (existen tablas de
adjetivos al respecto, con sus ponderaciones y pesos en cada factor EPA)
P = E2+P2+A2
La distancia semántica o puntuación D, es la distancia del significado
connotativo o de la valoración obtenida entre dos evaluados o grupos de evaluados
(por el mismo evaluador) o entre dos evaluadores o grupos de evaluadores (sobre el
mismo sujeto). Su valor es la raíz de la suma del cuadrado de las diferencias entre
cada par de evaluaciones EPA
El rigor psicométrico varía según la habilidad con que se eligen los rasgos
verdaderamente relevantes para el puesto de trabajo. También son importantes las
definiciones operativas de dichos rasgos, tanto por lo que se refiere a su significado
como a los niveles de presencia de los mismos contemplados en la escala.
Surgen como respuesta a los errores sistemáticos de medida por el juicio del
evaluador. El efecto halo, la tendencia a extremos o la distorsión por el
9
conocimiento de los resultados en las variables predictoras, o la intención perversa
voluntaria del evaluador son controlados mediante escalas de elección forzada.
Estructura.
La escala consta de distintas frases, agrupadas en reactivos, cada uno de los
cuales se orienta a evaluar el rendimiento del trabajador en distintos factores o
dimensiones.
Todas las frases deben tener un índice de preferencia bajo, pero el índice de
discriminación debe ser alto para unas y bajo para otras. Las frases positivas debe
parecer igualmente positivas y las negativas igualmente negativas, (índice de
preferencia bajo) pero entre las positivas y de entre las negativas de un mismo
reactivo, debe haber una que discrimine realmente los buenos de los malos (índice
de discriminación alto) y otra que pueda aplicarse a todo el mundo (baja
discriminabilidad)
10
Construcción.
a) Subíndice de frecuencia de uso. Punto hasta el cual las personas en general tienden a usar una
expresión para describir favorable o desfavorablemente a otros. Es la frecuencia de uso de esa
expresión. El reactivo tiene que tener enunciados con un mismo índice de frecuencia. Para ello se
presenta a los evaluadores un listado y se les pide que elijan 5 o 10 favorables o desfavorables. Se
marcan por orden de preferencia, se tabulan las respuestas y cada uno recibe un índice de frecuencia
igual al porcentaje en que ha sido elegido, eventualmente se puede obtener un subíndice referido a la
elección en primer, segundo, etc. lugar, y un subíndice total de uso.
c) Subíndice de importancia. Grado en que un rasgo descriptivo de una persona resulta importante o
conectado con la obtención de resultados o con el éxito de un trabajo o situación determinada. El
evaluador que quiera distorsionar los resultados tenderá a elegir el rasgo que considere más
específicamente ligado al trabajo en particular antes que una característica general. Los datos se
tabulan como en la anterior.
d) Subíndice de Conveniencia Social. Grado hasta el cual un rasgo es considerado socialmente como
conveniente o inconveniente en una situación social dada.
Los rasgos favorables suelen ser convenientes y aceptables en diferentes
situaciones sociales, pero algunos en principio favorables pueden ser causa de
rechazo por la organización en determinadas situaciones sociales.
Se calcula referido a un puesto y una organización particulares.
11
Índice de discriminación.
Otro método es construir una escala Likert con todas las frases ya
analizadas desde la perspectiva del índice de preferencia y descriptoras de rasgos o
comportamientos de los trabajadores. Se pide a los evaluadores que evalúen con
ellas a los trabajadores, señalando hasta qué punto se identifican con ellas, del 1 al 6
para después analizar los datos y ver qué frases reciben puntuaciones a lo largo de
toda la escala y cuales agrupan sus valores en una puntuación determinada. Este
procedimiento es complementario del anterior.
Todos los formatos tienen alta fiabilidad, pero los 5 y 6 son los mejores.
12
Escalas de conductas observadas (BOS).
Estructura.
Se asemejan a las escalas Likert, compuestas por ítems que describen
positiva o negativamente formas de actuar de los trabajadores. Se responde
mostrando acuerdo mayor o menor con la identificación de tales conductas con las
del evaluado.
Construcción.
Los objetivos son la base para definir una conducta como clave: cantidad de
piezas, calidad, ahorro de materia prima, satisfacción del cliente, moral de grupo,
etc. Esto lo definen los supervisores o jefes de departamento, con la eventual
supervisión de los jefes o directores de personal u otros directivos, para comprobar
que se integran en los objetivos generales de la organización.
Son mejores los incidentes recientes, sobre todo si los observadores son
alertados y entrenados previamente. Nos fijamos en los comportamientos que han
influido apreciablemente en la consecución de objetivos del puesto. Si no es posible,
se usarán casos recordados y observados anteriormente.
No se trata de describir modelos ideales de comportamiento sino observaciones
de la experiencia.
13
El simple análisis superficial de los incidentes críticos suele revelar categorías
más amplias en las que agrupar los diversos incidentes. En el ejemplo de Kirchner y
Dunnette se hacen quince agrupaciones. En la fase anterior se recogieron 135
incidentes propuestos por 85 gerentes de ventas referidos a más de 1000 vendedores,
se toman como útiles 96 y de ellos 61 son de desempeño eficiente y 35 de fracaso.
(Están en la página 170). Recogen conductas positivas desarrolladas o conductas
perniciosas evitadas. El descuido en uno sólo de los factores podría llevar al fracaso.
No todos los factores parecen tener la misma importancia, algunos incidentes de
determinadas categorías aparecen con más frecuencia que otros.
Un análisis estadístico de estos datos permite analizar y corroborar factores y
dimensiones, el AF confirmatorio puede ser muy útil en este caso.
Este recoge las conductas clave obtenidas a través del método de Incidentes
críticos o bien las conductas habituales, identificadas como positivas o negativas y
recogidas mediante cuestionarios, entrevistas u otros procedimientos.
Los ítems de un mismo factor no deben colocarse seguidos, sino mezclados con
otros de otros factores, igual con el sentido positivo o negativo de los mismos.
El formato de respuesta puede ser tipo Likert, con información ordinal, o con
procedimientos psicofísicos de respuesta (Stevens) como la estimación de
magnitudes o producción de líneas, implementados en sistemas informáticos y que
aportan gran información en escalas continuas. (Fig 15, página 172 y 173.)
Una vez construido el cuestionario se pide a los evaluadores que lo usen para
evaluar a los trabajadores (claro), bajo su responsabilidad. Con los datos se
contrasta la validez del constructo con técnicas como la alfa de Cronbach, AF,
comparación de medias para cada ítem entre grupos de alto y bajo rendimiento, etc.
acabado el análisis de ítems, se eliminan los escasamente consistentes con las
subescalas a las que pertenecen. Con el resto se construye la escala definitiva.
La puntuación final del sujeto en cada dimensión y su rendimiento global puede
obtenerse:
de la suma algebraica de cada ítem
de esos valores ponderados, por ejemplo multiplicados por el grado de
saturación que posean en el factor al que corresponden.
Conviene reconvertir los valores negativos para homogeneizar el sentido de las
puntuaciones directas del cuestionario.
Ventajas.
14
Escalas de conductas esperadas BES.
Estructura.
Se asemejan a las escalas de Thursthone de intervalos aparentemente
equivalentes. Una escala BES se compone de tantas escalas de Thursthone como
dimensiones de un trabajo se identifiquen y pretendan medirse.
Se llaman conductas esperadas porque los ítems suelen formularse como
conductas que cabe esperar de un trabajador en determinadas circunstancias. Más
que como conductas reales que esté realizando específicamente. Los ítems son
ejemplos conductuales que no agotan todas las posibles conductas que pueden
desarrollarse en el trabajo, correspondientes a diferentes niveles de rendimiento. Un
trabajador puede realizar estas conductas o bien otras semejantes no recogidas, por
eso, cabe esperar de él en las circunstancias descritas por el ítem la conducta
expresada en él.
También se han llamado conductas ancladas o ancoradas (BARS) porque
los ítems se hallan anclados a un determinado nivel, en una escala de mayor a menor
rendimiento.
Construcción.
El mismo grupo define qué entiende por cada una de las dimensiones para
que el futuro evaluador lo conozca. El mismo grupo, después define
cualitativamente tres niveles de rendimiento (alto, medio y bajo) en cada
dimensión, para clarificar con la mayor precisión el significado de la dimensión
y además qué significa ser alto, medio o bajo en ella. El mismo grupo de nuevo
busca ejemplos concretos de conductas observables en el trabajo que
operativicen los niveles antes definidos.(ver páginas 178 a 180)
15
4. Análisis estadístico de los datos.
5. Contrastación empírica.
Ventajas.
a) proporcionan incidentes conductuales cuidadosamente diseñados para cada escala.
16
b) La terminología es propia de los trabajadores y gerentes, dando mayor comprensión y validez
aparente.
c) Elevado consenso sobre la distribución de los incidentes y la diferenciación entre escalas. Elevada
fiabilidad de las mismas.
d) Permite conocer las causas del éxito y fracaso. Esto facilita los estudios de validación de predictores
y las entrevistas para orientación y motivaciones.
e) Los ítems no usados debidos a que se disponía de otros semejantes pueden usarse para elaborar
objetivos de programas de formación, con ellos puede el trabajador ser informado de lo que la
compañía espera de ellos.
f) Puede pedirse a los trabajadores que califiquen los ítems de 1 a 7, comparadas sus respuestas con las
de los superiores pueden analizarse discrepancias para saber que esperan de ellos sus jefes
g) Las mismas discrepancias planteadas por el personal ofrecen oportunidad a la organización de
enunciar, desarrollar y formular y comunicar sus políticas y normas relativas a los objetivos y al
rendimiento.
17
9.¿Cómo evaluar? Instrumentos de evaluación (IV)
La entrevista libre.
La orientación a resultados.
La consideración más importante en una situación directiva es la
consecución de resultados. Frases que expresan esta visión son:
Cuanto más clara sea la idea que se tenga de lo que se trata de lograr más
posibilidades tendrá de éxito.
Si sabe dónde quiere ir aumenta sus posibilidades de llegar. Si no sabe
dónde va, ningún camino le llevará allí.
No se trata de lo que usted haga sino de lo que consigue.
No diga a alguien qué debe hacer, dígale cuales son sus responsabilidades.
18
Pese a la tercera frase, se reconoce que unos resultados deficitarios pueden
deberse también a factores fuera de control del individuo responsable. En este caso
no se puede responsabilizar al individuo, aunque en caso de los directivos, una de las
responsabilidades es resolver los problemas que obstaculizan el logro de los
objetivos. En todo caso se debe tener en cuenta si el problema y su solución están
fuera del alcance de su responsabilidad. Por ello los objetivos no solo pueden ser
resultados, sino también desempeños.
1- Definición de objetivos.
Primero se identifican las áreas de responsabilidad del empleado. Las
actividades cruciales para el éxito del departamento y la organización de las
que se va a hacer responsable. Son distintas para cada área funcional y
unidad de la organización.
Después se determinan medidas de resultados, indicadores directamente
observables de las actividades de las que son responsables los individuos y
los departamentos.
Se establecen los estándares que sirven para medir y comparar los resultados
conseguidos.
Los objetivos establecidos deben respetar varios principios:
- Estar relacionados con las necesidades del negocio y apoyar los fines de
la organización.
- Claros, concisos y realistas.
- Mensurables y cuantificados.
- Guías para la acción: qué y no cómo se debe lograr.
- Ambiciosos para ofrecer un desafío enorgullecedor para el que lo logre.
- Conscientes de las limitaciones internas y externas del empleado.
- Definir objetivos es una tarea conjunta de mutuo acuerdo entre el
responsable y su superior.
2- Desarrollo de planes de acción.
19
Suele fallar en este punto la dirección por objetivos. Es programar
diferentes pasos necesarios para conseguir los objetivos y los recursos
necesarios, la distribución de responsabilidades, el timing y otros detalles
frecuentemente olvidados.
4- La evaluación de resultados.
20
1) revisión de los objetivos fijados
2) medición de resultados reales.
3) Identificación de la adecuación o desajuste de los resultados conseguidos con las normas y
estándares de actuación.
Si la persona evaluada no consigue sus objetivos, en la entrevista de él con
su jefe deberán averiguar la razón del fracaso. Este puede venir de que no
se realizaron bien las fases descritas, la falta de claridad sobre lo que se
esperaba de él, la falta de conciencia sobre lo que hace y los resultados
previstos, la falta de preparación o formación o la falta de recursos
aportados, la falta de motivación o la pobre relación del evaluado con su
jefe.
También puede que se hayan planteado objetivos irreales,
demasiado ambiciosos o carentes de sentido. También pueden haberse dado
razones externas fuera de control del evaluado o de su jefe.
Ventajas.
21