Documente Academic
Documente Profesional
Documente Cultură
estadísticos descriptivos
Gráfica de caja
Interpretación
Datos asimétricos
1
La gráfica de caja con datos asimétricos hacia la derecha muestra
tiempos de espera. La mayoría de los tiempos de espera son
relativamente cortos y solo unos pocos son largos. La gráfica de
caja con datos asimétricos hacia la izquierda muestra datos de
tiempo de falla. Unos pocos elementos fallan inmediatamente y
muchos otros fallan posteriormente.
Valores atípicos
Los valores atípicos, que son valores de datos que están muy
distantes de otros valores de datos, pueden afectar
considerablemente los resultados de un análisis. Con frecuencia, es
fácil identificar los valores atípicos en una gráfica de caja.
3
Esta gráfica de dispersión muestra un posible valor atípico.
En algunos casos, se debe examinar más de un tipo de gráfica,
porque los valores atípicos que se observan claramente en una
gráfica pueden no ser tan obvios en otra gráfica. La gráfica de caja
y el histograma utilizan los mismos datos. El valor atípico es obvio
en la gráfica de caja, pero no tan obvio en el histograma.
4
Causa Acciones posibles
----------------------------------------------------------------------------------
Histograma
Un histograma divide los valores de la muestra en muchos
intervalos y representa la frecuencia de los valores de datos en cada
intervalo con una barra.
5
Interpretación
Utilice un histograma para evaluar la forma y dispersión de los
datos. Los histogramas funcionan mejor cuando el tamaño de la
muestra es mayor que 20.
Datos asimétricos
Usted puede utilizar un histograma de los datos con una curva
normal sobrepuesta para examinar la normalidad de los datos. Una
distribución normal es simétrica y tiene forma de campana, como lo
indica la curva. Comúnmente es difícil evaluar la normalidad con
muestras pequeñas. Una gráfica de probabilidad es la mejor opción
para determinar el ajuste de la distribución.
Ajuste adecuado
Ajuste deficiente
6
Valores atípicos
Los valores atípicos, que son valores de datos que están muy
distantes de otros valores de datos, pueden afectar
considerablemente los resultados de un análisis. Con frecuencia, es
fácil identificar los valores atípicos en una gráfica de caja.
Datos multimodales
Los datos multimodales tienen múltiples picos, también
denominados modas. Los datos multimodales suelen indicar que aún
no se han considerado variables importantes.
7
Simple Con grupos
Por ejemplo, un gerente de un banco recolecta datos de tiempos de
espera y crea un histograma simple. El histograma parece tener dos
picos. Después de una investigación más a fondo, el gerente
determina que el tiempo de espera de los clientes que están
cobrando un cheque es más corto que el tiempo de espera de los
clientes que están solicitando una hipoteca. El gerente agrega una
variable de grupo para la tarea que realizan los clientes y luego
crea un histograma con grupos.
Si usted tiene información adicional que le permita clasificar las
observaciones en grupos, puede crear una variable de grupo con
esta información. Luego, puede crear la gráfica con los grupos para
determinar si la variable de grupo explica los picos en los datos.
Gráfica de valores individuales
Una gráfica de valores individuales muestra los valores individuales
en la muestra. Cada círculo representa una observación. Una
gráfica de valores individuales es especialmente útil cuando usted
tiene relativamente pocas observaciones y cuando también necesita
evaluar el efecto de cada observación.
Interpretación
Utilice una gráfica de valores individuales para examinar la
dispersión de los datos y para identificar cualquier posible valor
8
atípico. Las gráficas de valores individuales funcionan mejor
cuando el tamaño de la muestra es menor que 50.
Datos asimétricos
Examine la dispersión de los datos para determinar si los datos
parecen ser asimétricos. Cuando los datos son asimétricos, la
mayoría de los datos se ubican en la parte superior o inferior de la
gráfica. Con frecuencia, es fácil detectar la asimetría con un
histograma o una gráfica de caja.
9
Valores atípicos
Los valores atípicos, que son valores de datos que están muy
distantes de otros valores de datos, pueden afectar
considerablemente los resultados de un análisis. Con frecuencia, es
fácil identificar los valores atípicos en una gráfica de caja.
10
Q1
Los cuartiles son los tres valores –el primer cuartil en 25% (Q1), el
segundo cuartil en 50% (Q2 o mediana) y el tercer cuartil en 75%
(Q3)– que dividen una muestra de datos ordenados en cuatro partes
iguales.
El primer cuartil es el percentil 25 e indica que 25% de los datos es
menor que o igual a este valor.
11
Interpretación
Utilice el rango intercuartil para describir la dispersión de los
datos. A medida que aumenta la dispersión de los datos, el IQR se
hace más grande.
Máximo
El máximo es el valor más grande de los datos.
En estos datos, el máximo es 19.
13 17 18 19 12 10 7 9 14
Interpretación
Utilice el máximo para identificar un posible valor atípico o error
de entrada de datos. Una de las maneras más sencillas de evaluar la
dispersión de los datos consiste en comparar el mínimo y el máximo.
Si el valor máximo es muy alto, incluso cuando considere el centro,
la dispersión y la forma de los datos, investigue la causa del valor
extremo.
Mediana
La mediana es el punto medio del conjunto de datos. El valor de este
punto medio es el punto en el cual la mitad de las observaciones
está por encima del valor y la otra mitad está por debajo del valor.
La mediana se determina jerarquizando las observaciones y
hallando la observación que ocupe el número [N + 1] / 2 en el
orden jerarquizado. Si el número de observaciones es par, entonces
la mediana es el valor promedio de las observaciones jerarquizadas
en los números N / 2 y [N / 2] + 1.
12
Para estos datos ordenados, la mediana es 13. Es decir, la mitad de
los valores es menor que o igual a 13 y la otra mitad de los valores
es mayor que o igual a 13. Si usted agrega otra observación igual a
20, la mediana es 13.5, que es el promedio entre la 5ta observación
(13) y la 6ta observación (14).
Interpretación
Tanto la mediana como la media miden la tendencia central. Sin
embargo, valores poco comunes, llamados valores atípicos, pueden
afectar a la mediana menos de lo que afectan a la media. Si los
datos son simétricos, la media y la mediana son similares.
Simétrica No simétrica
En la distribución simétrica, la media (línea azul) y la mediana
(línea naranja) son tan similares que no es fácil distinguir las dos
líneas. En cambio, la distribución no simétrica es asimétrica hacia
la derecha.
13
Mínimo
El mínimo es el valor más pequeño de los datos.
En estos datos, el mínimo es 7.
13 17 18 19 12 10 7 9 14
Interpretación
Utilice el mínimo para identificar un posible valor atípico o un
error de entrada de datos. Una de las maneras más sencillas de
evaluar la dispersión de los datos consiste en comparar el mínimo y
el máximo. Si el valor mínimo es muy bajo, incluso cuando
considere el centro, la dispersión y la forma de los datos, investigue
la causa del valor extremo.
Rango
El rango es la diferencia entre los valores más grande y más
pequeño de los datos. El rango representa el intervalo que contiene
todos los valores de los datos.
Interpretación
Utilice el rango para entender la cantidad de dispersión en los
datos. Un valor de rango grande indica mayor dispesión en los
datos. Un valor de rango pequeño indica que hay menos dispersión
en los datos. Puesto que el rango se calcula usando solo dos valores
de los datos, es más útil con conjuntos de datos pequeños.
Q3
Los cuartiles son los tres valores –el primer cuartil en 25% (Q1), el
segundo cuartil en 50% (Q2 o mediana) y el tercer cuartil en 75%
(Q3)– que dividen una muestra de datos ordenados en cuatro partes
iguales.
14
El tercer cuartil es el percentil 75 e indica que 75% de los datos es
menor que o igual a este valor.
15
Simétrica No simétrica
En la distribución simétrica, la media (línea azul) y la mediana
(línea naranja) son tan similares que no es fácil distinguir las dos
líneas. En cambio, la distribución no simétrica es asimétrica hacia
la derecha.
EE de la media
El error estándar de la media (EE de la media) estima la
variabilidad entre las medias de las muestras que usted obtendría si
tomara muestras repetidas de la misma población. Mientras que el
error estándar de la media estima la variabilidad entre las
muestras, la desviación estándar mide la variabilidad dentro de una
misma muestra.
Por ejemplo, usted tiene un tiempo de entrega medio de 3.80 días,
con una desviación estándar de 1.43 días, de una muestra aleatoria
de 312 tiempos de entrega. Estos números producen un error
estándar de la media de 0.08 días (1.43 dividido entre la raíz
cuadrada de 312). De haber tomado múltiples muestras aleatorias
del mismo tamaño y de la misma población, la desviación estándar
16
de esas medias diferentes de las muestras habría sido
aproximadamente 0.08 días.
Interpretación
Utilice el error estándar de la media para determinar el grado de
precisión con el que la media de la muestra estima la media de la
población.
Un valor del error estándar de la media más bajo indica una
estimación más precisa de la media de la población. Por lo general,
una desviación estándar más grande se traducirá en un mayor error
estándar de la media y una estimación menos precisa de la media de
la población. Un tamaño de muestra más grande dará como
resultado un menor error estándar de la media y una estimación
más precisa de la media de la población.
Minitab utiliza el error estándar de la media para calcular el
intervalo de confianza.
MediaRec
La media de los datos sin el 5% superior ni el 5% inferior de los
valores.
Utilice la media recortada para eliminar el impacto de los valores
muy grandes o muy pequeños sobre la media. Cuando los datos
contienen valores atípicos, la media recortada puede ser una mejor
medida de la tendencia central que la media.
NAcum
N acumulado es un total acumulado del número de observaciones en
categorías sucesivas. Por ejemplo, una escuela primaria registra el
número de estudiantes de primero a sexto grado. La
columna NAcum contiene el conteo acumulado de la población
estudiantil:
17
Nivel de grado Conteo NAcum Cálculo
1 49 49 49
2 58 107 49 + 58
3 52 159 49 + 58 + 52
4 60 219 49 + 58 + 52 + 60
5 48 267 49 + 58 + 52 + 60 + 48
6 55 322 49 + 58 + 52 + 60 + 48 + 55
N*
El número de valores faltantes en la muestra. El número de valores
faltantes se refiere a las celdas que contienen el símbolo de valor
faltante *.
En este ejemplo, 8 errores ocurrieron durante la recolección de
datos y se registraron como valores faltantes.
Conteo total N N*
149 141 8
18
N
El número de valores presentes en la muestra.
En este ejemplo, hay 141 observaciones registradas.
Conteo total N N*
149 141 8
Conteo total
El número total de observaciones en la columna. Utilícese para
representar la suma de N valores faltantes y N valores presentes.
En este ejemplo, hay 141 observaciones válidas y 8 valores
faltantes. El conteo total es 149.
Conteo total N N*
149 141 8
PctAcum
El porcentaje acumulado es la suma acumulada de los porcentajes
para cada grupo de la Por variable. En el siguiente ejemplo, la Por
variable tiene 4 grupos: Línea 1, Línea 2, Línea 3 y Línea 4.
19
Grupo (por variable) Porcentaje PctAcum
Línea 1 16 16
Línea 2 20 36
Línea 3 36 72
Línea 4 28 100
Porcentaje
El porcentaje de observaciones en cada grupo de la Por variable.
En el siguiente ejemplo, hay cuatro grupos: Línea 1, Línea 2, Línea
3 y Línea 4.
Línea 1 16
Línea 2 20
Línea 3 36
Línea 4 28
20
Curtosis
La curtosis indica la manera en que las colas de una distribución
difieren de la distribución normal.
Interpretación
Utilice la curtosis para lograr entender inicialmente las
características generales de la distribución de los datos.
21
Curtosis positiva
Una distribución que tiene un valor positivo de curtosis indica que
la distribución tiene colas más pesadas que la distribución normal.
Por ejemplo, los datos que siguen una distribución t tienen un valor
positivo de curtosis. La línea continua indica la distribución normal
y la línea de puntos indica una distribución que tiene un valor
positivo de curtosis.
Curtosis negativa
Una distribución con un valor negativo de curtosis indica que la
distribución tiene colas más livianas que la distribución normal. Por
ejemplo, los datos que siguen una distribución beta con el primer y
el segundo parámetro de forma iguales a 2 tienen un valor negativo
de curtosis. La línea continua indica la distribución normal y la
línea de puntos indica una distribución que tiene un valor negativo
de curtosis.
Asimetría
La asimetría es el grado en que los datos no son simétricos.
22
Interpretación
Utilice la asimetría como ayuda para lograr entender inicialmente
los datos.
Figura A Figura B
23
Distribuciones asimétricas positivas o hacia la derecha
Los datos con asimetría positiva o asimétricos hacia la derecha se
llaman así porque la "cola" de la distribución apunta hacia la
derecha y porque el valor de asimetría es mayor que 0 (es decir,
positivo). Los datos sobre salarios suelen ser asimétricos de esta
manera: muchos empleados de una empresa ganan relativamente
poco, mientras que cada vez menos personas ganan salarios muy
elevados.
24
datos de tasas de fallas suelen ser asimétricos a la izquierda.
Consideremos el caso de las bombillas: muy pocas se quemarán
inmediatamente, la gran mayoría dura un tiempo considerablemente
largo.
CoefVar
El coeficiente de variación (CoefVar) es una medida de dispersión
que describe la variación en los datos en relación con la media. El
coeficiente de variación se ajusta de manera que los valores estén
en una escala sin unidades. Gracias a este ajuste, usted puede
utilizar el coeficiente de variación en lugar de la desviación
estándar para comparar la variación de los datos que tienen
unidades diferentes o medias muy diferentes.
Interpretación
Mientras mayor sea el coeficiente de variación, mayor será la
dispersión en los datos.
Por ejemplo, usted es el inspector de control de calidad de una
planta embotelladora de leche que embotella el producto en
recipientes pequeños y grandes. Usted toma una muestra de cada
producto y observa que el volumen medio de los recipientes
pequeños es de una 1 taza, con una desviación estándar de 0.08
tazas, y el volumen medio de los recipientes grandes es de 1 galón
(16 tazas) con una desviación estándar de 0.4 tazas. Aunque la
desviación estándar del recipiente de un galón es cinco veces mayor
que la desviación estándar del recipiente pequeño, los coeficientes
de variación apoyan una conclusión diferente.
25
Recipiente grande Recipiente pequeño
CoefVar = 100 * 0.4 tazas / 16 tazas = 2.5 CoefVar = 100 * 0.08 tazas / 1 taza = 8
26
desviación estándar de la media, 95% de los valores se ubican a no
más de dos desviaciones estándar y 99.7% de los valores se ubican
a no más de tres desviaciones estándar.
La desviación estándar también se puede utilizar para establecer un
valor de referencia para estimar la variación general de un proceso.
Hospital 1 Hospital 2
Tiempos de egreso de un hospital
Los administradores dan seguimiento al tiempo de egreso de los
pacientes que son tratados en las áreas de urgencia de dos
hospitales. Aunque los tiempos de egreso promedio son
aproximadamente iguales (35 minutos), las desviaciones estándar
son significativamente diferentes. La desviación estándar del
hospital 1 es de aproximadamente 6. En promedio, el tiempo para
dar de alta a un paciente se desvía de la media (línea discontinua)
aproximadamente 6 minutos. La desviación estándar del hospital 2
es de aproximadamente 20. En promedio, el tiempo para dar de alta
a un paciente se desvía de la media (línea discontinua)
aproximadamente 20 minutos.
27
Varianza
La varianza mide qué tan dispersos están los datos alrededor de su
media. La varianza es igual a la desviación estándar elevada al
cuadrado.
Interpretación
Mientras mayor sea la varianza, mayor será la dispersión de los
datos.
Puesto que la varianza (σ2) es una cantidad elevada al cuadrado,
sus unidades también están elevadas al cuadrado, lo que puede
dificultar el uso de la varianza en la práctica. La desviación
estándar generalmente es más fácil de interpretar porque utiliza las
mismas unidades que los datos. Por ejemplo, una muestra del
tiempo de espera en una parada de autobuses puede tener una
media de 15 minutos y una varianza de 9 minutos2. Debido a que la
varianza no está en las mismas unidades que los datos, la varianza
suele mostrarse con su raíz cuadrada, la desviación estándar. Una
varianza de 9 minutos2 es equivalente a una desviación estándar de
3 minutos.
Moda
La moda es el valor que ocurre con más frecuencia en un conjunto
de observaciones. Minitab también muestra cuántos puntos de los
datos son iguales a la moda.
La media y la mediana requieren un cálculo, pero la moda se
determina contando el número de veces que cada valor ocurre en un
conjunto de datos.
Interpretación
La moda se puede utilizar con la media y la mediana para
proporcionar una caracterización general de la distribución de los
28
datos. La moda también se puede usar para identificar problemas
en los datos.
Por ejemplo, una distribución que tiene más de una moda puede
identificar que la muestra incluye datos de dos poblaciones. Si los
datos contienen dos modas, la distribución es bimodal. Si los datos
contienen más de dos modas, la distribución es multimodal.
Por ejemplo, un gerente de banco recolecta datos de tiempo de
espera de clientes que desean cobrar cheques y de clientes que
desean solicitar un préstamo hipotecario. Debido a que se trata de
dos servicios muy diferentes, los datos de tiempo de espera incluyen
dos modas. Los datos de cada servicio se deben recoger y analizar
por separado.
Unimodal
Solo hay una moda, 8, que ocurre con más frecuencia.
29
Bimodal
Hay dos modas, 4 y 16. Los datos parecen representar 2
poblaciones diferentes.
MSSD
La MSSD es la media de las diferencias sucesivas cuadráticas. La
MSSD es una estimación de la varianza. Un posible uso de la MSSD
es para probar si una secuencia de observaciones es aleatoria. En
control de calidad, un posible uso de la MSSD es para estimar la
varianza cuando el tamaño del subgrupo = 1.
Suma
La suma es el total de todos los valores de los datos. La suma
también se utiliza en cálculos estadísticos, como por ejemplo la
media y la desviación estándar.
Suma de los cuadrados
La suma de los cuadrados no corregida se calcula elevando al
cuadrado cada uno de los valores de la columna y sumando luego
esos valores elevados al cuadrado. Por ejemplo, si la columna
contiene x1, x2, ... , xn, entonces la suma de los cuadrados calcula
30
(x12 + x22 + ... + xn2). A diferencia de la suma de los cuadrados
corregida, la suma de los cuadrados no corregida incluye el error.
Los valores de datos se elevan al cuadrado sin antes restar la
media.
31