Sunteți pe pagina 1din 9

Cuando la calidad es cosa de percepción, el uso de índices de confiabilidad (por David Futrell).

La mayoría de los procesos de medición en la industria se hacen usando los instrumentos de medición tales como
los micrómetros, termómetros u otros dispositivos que toman las mediciones directamente de la característica de
un producto o un proceso. Se ha generado una gran variedad de metodologías de medición que tienen que ver
con este tipo de sistemas de medición, sin embargo, existen muchas situaciones en las que las mediciones son
clasificaciones subjetivas o evaluaciones hechas por las personas, ejemplos de este tipo son muy comunes en la
industria y en los deportes, tales como:
 Clasificación por tipos de defectos de un par de zapatos
 Clasificación de prendas de vestir en “buenas” o “malas”
 Clasificación de un vino en una escala del 1 al 100
 Evaluación de Call Center en una escala del 1 al 5
 Calificación de los clavadistas de plataforma de 10 metros en una escala del 1 al 10

Lo que comparten estas situaciones es el “criterio de calidad” que es difícil o imposible de definir, por ejemplo,
no hay manera de obtener una calificación verdadera para la calidad de un bourbon o un vino aún cuando los
catadores puedan evaluar y clasificarlos con un acuerdo muy similar. Otras mediciones tales como las
clasificaciones de las prendas de vestir por el tipo de defecto puede tener un criterio correcto pero se necesita una
manera de decir si todos los evaluadores están usando las mismas definiciones operacionales para su
clasificación, en estas situaciones se requiere una estrategia diferente para evaluar la calidad del sistema de
medición.
Para definir si las clasificaciones o evaluaciones se hacen de manera consistente muchas unidades se deben
clasificar más de una vez y por más de un evaluador o inspector. Si existe un acuerdo significativo entre los
evaluadores existe la posibilidad, aunque no la garantía, de que las evaluaciones son exactas. Si existe un bajo
nivel de acuerdo entre los evaluadores entonces la utilidad de las evaluaciones es extremadamente limitada.
¿Cómo se puede esperar encontrar cuáles son las calidades asociadas con un conjunto de evaluaciones si los
inspectores ni siquiera están de acuerdo entre ellos mismos?
Los estadistas, particularmente aquellos que trabajan en la industria, se han enfrentado con este tipo de
problemas de medición durante años y han desarrollado diferentes índices de confiabilidad para solventar estas
situaciones. Aunque existen muchas técnicas, las cuales ligeramente de acuerdo con su aplicación, hay dos
familias de técnicas que se pueden usar efectivamente para resolver la mayoría de las situaciones que se
encuentran en la industria. Para las clasificaciones de datos no cuantitativos (por atributos) la técnica de Kappa
es la más apropiada. Para evaluaciones basadas en algún tipo de escala (por ejemplo, del 1 al 10) el método de
correlación entre clases (ICC) es la opción correcta.

La técnica de Kappa: una clasificación puramente nominal

Si un sistema de medición necesita clasificar objetos de una manera no cuantitativa se requiere usar la técnica de
Kappa. Algunos ejemplos incluyen la clasificación de objetos como buenos o malos y diferenciar los sonidos
(tales como un chillido, un timbre o un golpe). Si es posible ordenar o evaluar en una escala los objetos bajo
inspección tal como “realmente malo”, “muy malo”, “muy bueno” o “perfecto” se debe usar el método de
correlación entre clases. La razón es porque las consecuencias de una mala clasificación, Kappa todas las
diferentes clasificaciones de la misma manera contrario al método de correlación entre clases, por ejemplo, la
consecuencia de clasificar un objeto “perfecto” como “realmente malo” es más significativo que clasificar ese
mismo objeto como “muy bueno”.
Debido a que Kappa se usa para datos categóricos éstos no asumen que las evaluaciones están igualmente
distribuidas en todo el rango posible, en otras palabras, algunas categorías se pueden usar más frecuentemente
que otras. Kappa sólo requiere que las unidades sean independientes, que los inspectores o evaluadores hagan
sus clasificaciones de manera independiente y que las categorías sean mutuamente excluyentes.
Para evaluar los acuerdos de una escala nominal se necesita conocer sólo dos piezas de información:
La proporción de las unidades clasificadas en las cuales los inspectores están de acuerdo o Pobservada
La proporción de las unidades clasificadas en las cuales se esperaría que los inspectores estuvieran de acuerdo
por ocurrencia o casualidad Pocurrencia
Kappa (K) se define como la proporción de acuerdo entre los inspectores después de que se quita el acuerdo por
ocurrencia. La fórmula para Kappa es:

K=
1 −

Considerar los siguientes datos:

Parte Insp. A Insp. B


1 Good Good
2 Good Good
3 Good Good
4 Good Bad
5 Good Good
6 Bad Bad
7 Good Good
8 Good Good
9 Good Good
10 Bad Bad
11 Good Good
12 Bad Bad

Primero, los datos se convierten en proporciones y luego se colocan en una tabla de contingencia como se
muestra en la siguiente tabla.

Inspector A
Bueno Malo Total
Bueno 0.67 0 0.67
Inspector B Malo 0.08 0.25 0.33
Total 0.75 0.25 1

Pobservada es la suma de las probabilidades ubicadas en la diagonal de la tabla anterior (0.67 + 0.25) = 0.92. Para
obtener Pocurrencia se debe multiplicar las sumas de las probabilidades de cada clasificación de cada inspector:
(0.67 * 0.75) + (0.33 * 0.25) = 0.59; Luego entonces Kappa es:

0.92 − 0.59
K= = 0.8
1 − 0.59

Existe similitud entre Kappa y Chi cuadrada. Chi cuadrada puede, de hecho, calcularse junto con Kappa para
cualquier tabla de contingencia cuadrada. Sin embargo, estos dos indicadores tiene diferentes propósitos, Chi
cuadrada determina si existe una relación entre las variables categóricas mientras que Kappa evalúa el grado de
esa relación.
El valor máximo de Kappa es +1 lo cual indica un perfecto acuerdo entre los inspectores, el límite más bajo para
Kappa es más complicado y puede ir desde -1 hasta cero dependiendo de las distribuciones marginales. Un valor
de Kappa igual a cero significa que el acuerdo es igual al esperado por ocurrencia. En el ejemplo anterior K =
0.8. El límite aceptable más bajo (o cualquier otro coeficiente de confiabilidad) varía dependiendo de varios
factores pero como regla general, si es menor a 0.7 el sistema de medición necesita revisarse. Los problemas
generalmente son causados por un procedimiento de medición mal definido o un mal entrenamiento de los
inspectores. Los coeficientes de confiabilidad por arriba de 0.9 se consideran excelentes y raramente existe la
necesidad de mejorar más allá de este nivel.
Se puede probar la significancia de Kappa con la hipótesis nula siendo K = 0. Para probar su significancia se
debe calcular σK0 de la siguiente forma:

=
(1 − )

Así, para este ejemplo, σK0 es:


0.58
= = 0.342
12 (0.41645)

Luego K se divide entre σK0 para obtener una relación crítica para compararse contra las curva normal.
Nuevamente, refiriéndose al mismo ejemplo sería:

0.8
= 2.33
0.342

Esto indica que K es significativo respecto a p < 0.05.


Al probar la significancia de K es común ya que se espera encontrar valores mucho más grandes que cero. Sin
embargo puede haber situaciones en las que tal vez la prueba de significancia puede servir como un límite
inferior absoluto.
El ejemplo expuesto es el caso más simple para Kappa. También se puede aplicar en casos con múltiples
inspectores y múltiples categorías aunque por supuesto los cálculos son más complejos. Considerar el ejemplo de
la siguiente tabla en la cual cinco inspectores evalúan de manera independiente las costuras de diez alfombras y
las clasifican de acuerdo con sus defectos. El número en cada celda es el número de inspectores que clasificaron
el producto en dicha categoría. Como hay cinco inspectores cada fila tiene un total de cinco.

Costura muy Costura muy Costura Costura Costura


Muestras abierta cerrada dehilachada dispareja perfecta
1 0 0 1 0 4 17
2 2 0 1 0 2 9
3 3 0 0 2 0 13
4 0 0 0 0 5 25
5 0 2 3 0 0 13
6 4 0 0 0 1 17
7 0 4 1 0 0 17
8 0 0 0 5 0 25
9 0 0 0 0 5 25
10 3 2 0 0 0 13
12 8 6 7 17 174
p 0.24 0.16 0.12 0.14 0.34
q 0.76 0.84 0.88 0.86 0.66

En este ejemplo se pueden calcular dos tipos de coeficientes Kappa. Primero se puede calcular Kappa total, el
cual es una evaluación del acuerdo de un inspector a través de todas las categorías, la segunda opción es calcular
los valores individuales de Kappa para cada categoría. Esto revelará las categorías en las que los inspectores
tienen diferencias o desacuerdos.
La fórmula para Kappa total con múltiples inspectores es:

− ∑ ∑
K = 1 −
( − 1) ∑
Donde:
n = número de unidades
m = número de inspectores
k = número de categorías
p = (número total de inspecciones dentro de una categoría) / (n*m)
q=1-p
Esta es una fórmula aparentemente compleja pero se puede calcular de manera relativamente fácil, para este
ejemplo se tiene:
(10 ∗ 5 ) − 174
K = 1 −
(0.24 ∗ 0.76) + (0.16 ∗ 0.84) +
10 ∗ 5 ∗ 4 (0.12 ∗ 0.88) + (0.14 ∗ 0.86) +
(0.34 ∗ 0.66) +

= 1 − (76/153.44)

= 0.5

El cálculo de los valores individuales de Kappa para cada categoría es más confuso. Para facilitarlo, el
numerador y el denominador se pueden calcular separadamente:

∑ ( − )
K í = 1 −
( − 1)

Por ejemplo, el numerador para la categoría “Costura muy abierta” es:

[0 ∗ (5 − 0)] + [2 ∗ (5 − 2)] + [3 ∗ (5 − 3)] + [0 ∗ (5 − 0)] + [0 ∗ (5 − 0)] +


[4 ∗ (5 − 4)] + [0 ∗ (5 − 0)] + [0 ∗ (5 − 0)] + [0 ∗ (5 − 0)] + [3 ∗ (5 − 3)] = 22

El denominador para la categoría “Costura muy abierta” es:

10 ∗ 5 ∗ (5 − 1) ∗ 0.24 ∗ 0.76 = 36.48

22
K í = 1 − = 0.4
36.48

Los numeradores y denominadores para todas las categorías se muestran en la siguiente tabla. Los valores
individuales de Kappa van desde 0.15 hasta 0.75. Esto significa que el acuerdo entre los inspectores es bueno
para la categoría “Costura dispareja”, marginal para la categoría “Costura perfecta” e inaceptablemente baja para
el resto de las categorías. Para mejorar este sistema de medición se requeriría cambiar los estándares de
operación para cada tipo de defecto, reentrenar a los inspectores o ambas acciones.

Categorías: Numerador: Denominador: Kappa:


Costura muy
22 36.48 0.40
abierta
Costura muy
16 26.88 0.40
cerrada
Costura
18 21.12 0.15
dehilachada
Costura
6 24.08 0.75
dispareja
Costura
14 44.88 0.69
perfecta

Correlación entre clases (IntraClass Correlation) Evaluación de la confiabilidad de las clasificaciones


cuantitativas

Si los datos son evaluaciones o clasificaciones hechas con base en un tipo de escala la correlación entre clases
(intraclass correlation) es un mejor sistema de medición que aquel que sólo evalúa entre dos niveles o categorías
(bueno/malo, pasa/no pasa.) En realidad existen varios tipos de correlación entre clases pero todos comparten el
mismo procedimiento, la diferencia entre ellos es la relación de los componentes de variación. El siguiente
método se puede calcular manualmente de manera relativamente fácil, sin embargo todos los términos se pueden
calcular fácilmente usando el Análisis de Varianza.
El ejemplo que se muestra en la siguiente tabla muestra un análisis de correlación entre clases; en este ejemplo,
los inspectores hicieron sus evaluaciones de manera independiente sobre la calidad de las costuras de unos
pantalones usando una escala del 1 al 9 en la cual el 1 significa una costura pobre y 9 equivale a una costura
excelente. Una vez que la varianza (mínimos cuadrados) se calcula el resto del análisis es simple.
Existen seis diferentes formas de la relación entre clases, cada una se adapta a las diferentes situaciones las
cuales serán descritas en términos del ejemplo siguiente:

Inspector 1 Inspector 2 Inspector 3 SUM SUM2


Pantalón 1 5 7 7 19 361
Pantalón 2 4 3 2 9 81
Pantalón 3 4 2 3 9 81
Pantalón 4 6 7 8 21 441
Pantalón 5 5 5 5 15 225
SUM 24 24 25 73 1189
SUM2 576 576 625 1777

Suma de todos las evaluaciones al cuadrado: 405


Promedio de todas las evaluaciones: 4.87
Suma * promedio (73 * 4.87): 355.27

Número de inspectores: 3
Número de pantalones: 5
Total (no. de pantalones * no. de inspectores): 15

Sumas de cuadrados: Grados de libertad (DF): Mínimos cuadrados: Componente:


Inspectores:
(1777/5) - 355.27 0.13 2 0.07 IMS
Entre pantalones:
(1189/3) - 355.27 41.07 4 10.27 BMS
Total:
(405 - 355.27) 49.73 14 3.55
Dentro pantalones:
(49.73 - 41.07) 8.67 10 0.87 WMS
Error:
(49.73 - 41.07 - 0.13) 8.53 8 1.07 EMS

Cálculo de los grados de libertad:


DF Inspectores = número de inspectores - 1 = 2
DF Entre pantalones = número de pantalones - 1 = 4
DF Total = (no. inspectores * no. pantalones) - 1 = 14
DF Dentro pantalones = DF Total - DF Entre pantalones = 10
DF Error = DF Inspectores * DF Entre pantalones = 8

Situación 1. Cada pantalón es evaluado por un grupo diferente de tres inspectores, quienes son seleccionados
aleatoriamente de una población de inspectores más grande. A continuación se describe la manera de estimar la
confiabilidad de las evaluaciones de cada uno de los inspectores:

− 10.27 − 0.87
ICC = = = 0.78
+ ( − 1) 10.27 + 2(0.87)

Situación 2. Cada pantalón es evaluado por un grupo diferente de tres inspectores, quienes son seleccionados
aleatoriamente de una población de inspectores más grande. A continuación se describe la manera de estimar la
confiabilidad de las evaluaciones promedio de los inspectores:

− 10.27 − 0.87
ICC = = = 0.92
10.27
Situación 3. Una muestra aleatoria de tres inspectores es seleccionada de una población de inspectores más
grande y este mismo grupo de inspectores evalúa los cinco pantalones. A continuación se muestra cómo
estimar la confiabilidad de las evaluaciones de cada uno de los inspectores:

− 10.27 − 1.07
ICC = = = 0.78
+ ( − 1) + ( − )/ 10.27 + 2(1.07) + 3(0.07 − 1.07)/ 5

Situación 4. Una muestra aleatoria de tres inspectores es seleccionada de una población de inspectores más
grande y este mismo grupo de inspectores evalúa los cinco pantalones. A continuación se muestra cómo estimar
la confiabilidad de las evaluaciones promedio de los inspectores:

− 10.27 − 1.07
ICC = = = 0.91
+( − )/ 10.27 + (0.07 − 1.07)/ 5

Situación 5. Los cinco pantalones son evaluados por tres inspectores, quienes son los únicos inspectores de
interés (no hay una población de inspectores más grande). A continuación se muestra cómo estimar la
confiabilidad de las evaluaciones de cada uno de los inspectores:

− 10.27 − 1.07
ICC = = = 0.7
+ ( − 1) 10.27 + (3 − 1)1.07

Situación 6. Los cinco pantalones son evaluados por tres inspectores, quienes son los únicos inspectores de
interés (no hay una población de inspectores más grande). A continuación se muestra cómo estimar la
confiabilidad de las evaluaciones promedio de los inspectores:

− 10.27 − 1.07
ICC = = = 0.9
10.27

Es posible obtener conjuntos de datos que producen valores de la correlación entre clases ampliamente diferentes
entre las seis situaciones antes mencionadas, sin embargo esto raramente sucede con mediciones reales. El factor
principal para determinar la confiabilidad de las evaluaciones es saber si las evaluaciones provienen de un solo
inspector (como en las situaciones 1, 3 y 5) o si provienen de un promedio de un grupo de inspectores (como en
las situaciones 2, 4 y 6.) Las situaciones 5 y 6 son las más comunes en la industria porque los inspectores o
evaluadores generalmente son los únicos porque no hay una población de inspectores más grande de la cual se
pudiera seleccionar un grupo de inspectores.
La interpretación de la correlación entre clases es de la siguiente manera: 0.7 significa un nivel muy bajo de
aceptabilidad mientras que un valor igual o mayor a 0.9 es muy bueno. Si se obtiene un valor por debajo de 0.7
el sistema de medición necesita revisarse, los problemas serán atribuibles generalmente a unos procedimientos
mal definidos o a los inspectores mal entrenados.

Caso de estudio: “salsas picantes”


Algunas ocasiones es difícil decidir si un sistema de medición requiere un análisis binomial (Kappa) o un
análisis de correlación entre clases. El siguiente ejemplo muestra las diferencias entre los resultados con un
análisis binomial y uno con correlación entre clases.
John y Peter están de visita en México y están desconcertados por la gran variedad salsas picantes que existen en
este país. Cuando ellos prueban algunos tipos de salsa notan que ellos coinciden en el nivel de picor de cada
salsa. Debido a que John quiere ser experto en psicometría se da a la tarea de diseñar un estudio para medir el
nivel de acuerdo que John y Peter tienen por lo que compran diez tipos de salsa picante de manera aleatoria y de
forma independiente prueban cada salsa y hacen sus clasificaciones en las siguientes cuatro categorías:
Moderado (M), Picante (P), Muy Picante (MP) y Me Hace Sufrir (MHS). En la siguiente tabla se muestran las
clasificaciones que John y Peter hicieron.
Salsa no. John Peter
1 M M
2 M P
3 MHS MP
4 MP MHS
5 P MP
6 MP MP
7 P M
8 P P
9 MHS MP
10 M P

La siguiente tabla es la tabla de contingencia entre John y Peter y contiene los datos en una tabla.

Peter
M P MP MHS Total
M 1 2 0 0 3
P 1 1 1 0 3
John MP 0 0 1 1 2
MHS 0 0 2 0 2
Total 2 3 4 1 10

La siguiente tabla muestra las proporciones por categoría.

Peter
M P MP MHS Total
M 0.1 0.2 0.0 0.0 0.3
P 0.1 0.1 0.1 0.0 0.3
John MP 0.0 0.0 0.1 0.1 0.2
MHS 0.0 0.0 0.2 0.0 0.2
Total 0.2 0.3 0.4 0.1 1.0

Una vez hecho las tablas anteriores John calcula el valor de Kappa:


K=
1 −

= (0.1 + 0.1 + 0.1 + 0) = 0.3

= (0.3 ∗ 0.2) + (0.3 ∗ 0.3) + (0.2 ∗ 0.4) + (0.2 ∗ 0.1) = 0.25


0.3 − 0.25
K= = 0.067
1 − 0.25

John quedó confundido por el valor muy bajo de Kappa, pareciera que él y Peter coincidieron en la mayoría de
sus clasificaciones, sin embargo el valor de Kappa indica que el nivel de acuerdo entre ellos es muy malo.
John desistió en ser un experto en psicometría y decidió quedarse en México y abrir un restaurante.
Afortunadamente, un día un experto en psicometría visitó el restaurante de John y Peter y por casualidad John le
mostró el estudio que habían hecho en el pasado, él observó que los cálculos de Kappa eran correctos pero éste
no había sido el análisis más apropiado para ese estudio ya que el nivel de picante de las salsas puede ser
clasificado de acuerdo al nivel de picor, de tal manera que el desacuerdo en algunas categorías no afecta tanto
como el desacuerdo entre otras, por ejemplo, no hubo situaciones en las que Peter clasificara a una salsa como
“Moderado” y John la clasificara como “Me Hace Sufrir”, cuando ellos estuvieron en desacuerdo ellos sólo
estuvieron en desacuerdo por diferencia de un nivel o una categoría.
Entonces el experto en psicometría repitió el estudio pero ahora usando un análisis de correlación entre clases.
Primero convirtió las categorías en una escala numérica de la siguiente manera: Moderado = 1, Picoso = 2, Muy
Picoso = 3 y Me Hace Sufrir = 4. Luego, usando esta nueva clasificación generó la siguiente información.

Salsa no. John Peter Suma Suma 2


1 1 1 2 4
2 1 2 3 9
3 4 3 7 49
4 3 4 7 49
5 2 3 5 25
6 3 3 6 36
7 2 1 3 9
8 2 2 4 16
9 4 3 7 49
10 1 2 3 9
SUMA 23 24 47 255
SUMA 2 529 576 1105

Suma de todos las evaluaciones al cuadrado: 131


Promedio de todas las evaluaciones: 2.35
Suma * promedio (73 * 4.87): 110.45

Número de inspectores: 2
Número de salsas: 10
Total (no. de salsas * no. de inspectores): 20

Sumas de cuadrados: Grados de libertad (DF): Mínimos cuadrados: Componente:


Inspectores:
(1105/10) - 110.45 0.05 1 0.05 IMS
Entre salsas:
(255/2) - 110.45 17.05 9 1.89 BMS
Total:
(131 - 110.45) 20.55 19 1.08
Dentro salsas:
(20.55 - 17.05) 3.50 10 0.35 WMS
Error:
(20.55 - 17.05 - 0.05) 3.45 9 0.38 EMS

Cálculo de los grados de libertad:


DF Inspectores = número de inspectores - 1 = 1
DF Entre salsas = número de salsas - 1 = 9
DF Total = (no. inspectores * no. salsas) - 1 = 19
DF Dentro salsas = DF Total - DF Entre salsas = 10
DF Error = DF Inspectores * DF Entre salsas = 9

Con base en la información anterior el experto en psicometría y de acuerdo con las seis posibles situaciones llegó
a los siguientes resultados:

Situación 1:

− 1.89 − 0.35
ICC = = = 0.69
+ ( − 1) 1.89 + 1(0.35)

Situación 2:

− 1.89 − 0.35
ICC = = = 0.81
1.89

Situación 3:
− 1.89 − 0.35
ICC = = = 0.71
+ ( − 1) + ( − )/ 1.89 + 1(0.35) + 2(0.05 − 0.38)/ 10

Situación 4:

− 1.89 − 0.38
ICC = = = 0.81
+( − )/ 1.89 + (0.05 − 0.38)/ 10

Situación 5:

− 1.89 − 0.38
ICC = = = 0.67
+ ( − 1) 1.89 + (2 − 1)0.38

Situación 6:

− 1.89 − 0.38
ICC = = = 0.8
1.89

Como muestran los resultados la correlación entre clases genera un valor de 0.67 para las evaluaciones
individuales y de 0.8 para el promedio de las evaluaciones, aún cuando 0.67 no es muy alto es mucho mejor que
el 0.067 que John obtuvo con Kappa.
La razón por la que la correlación entre clases es un análisis del sistema de medición más apropiado es simple,
las evaluaciones de la correlación entre clases es cuantitativa contrario a las clasificaciones que usó John en el
estudio Kappa, para John el etiquetar una salsa como “Picosa” mientras que Peter la clasificaba como “Muy
Picosa” se trató de la misma manera que si John la clasificara una salsa como “Moderado” y Peter como “Me
Hace Sufrir”, de tal manera que todas las clasificaciones que fueron diferentes se trataron de la misma manera;
por el contrario, el método de correlación entre clases usa la información de manera relativa en cuanto a la
clasificación de lo picosos de las salsas y además este estudio es sensible a las diferencias entre los niveles de la
escala de las clasificaciones, es decir, no es la misma diferencia entre 1 y 2 que entre 1 y 4. Es mejor usar el
método de clasificación entre clases cuando los datos se pueden ordenar y cuando la percepción de la diferencia
entre dos valores consecutivos de la escala es muy poca.

Cálculo de Kappa
and ICC.xlsx

S-ar putea să vă placă și