Sunteți pe pagina 1din 33

ESTADÍSTICA CON MINITAB

SEMANA 03

Medidas de resumen y
diagrama de cajas

Docente: Mg. Halley Limaymanta Álvarez


https://orcid.org/0000-0002-8797-4275
Logro de la sesión

Al finalizar la sesión de clase el estudiante será


capaz de aplicar las medidas de resumen y
tomar decisiones, siendo riguroso en el cálculo.
MEDIDAS DE RESUMEN
MEDIDAS DE TENDENCIA CENTRAL (Media, mediana y moda)

MEDIDAS DE POSICIÓN (Cuartiles, deciles y percentiles)

MEDIDAS DE DISPERSIÓN (Rango, Rango Intercuartil-RIC, varianza,


desviación estándar y coeficiente de variación-CV)

MEDIDAS DE FORMA (Asimetría y curtosis)


MEDIDAS DE TENDENCIA CENTRAL
Producción diaria de atún
Local A Local B

ഥ𝑨 = 2500 unidades
𝒙 ഥ𝑩 = 2500 unidades
𝒙
Conservas de atún producidas diariamente según local de producción

Local A

Local B

Producción de atún
Observando el comportamiento de los datos, ¿en cuál de los dos locales, la
producción promedio (en unidades de atún) es más representativa?

Exacto, en el Local A, ya que los datos se encuentran más juntos


Medidas de Tendencia Central

Las medidas de tendencia central permiten resumir en un


valor a un conjunto de observaciones

Media Mediana Moda

Magnitud Posición Frecuencia

X 
x i El que se presenta con
n mayor frecuencia según
fi, hi o pi
Características

Media Mediana Moda

Fácil de Calcular Usa ordenación No siempre es


ascendente un único valor
(subjetiva)
Afectada por los No se ve
valores extremos afectada No se ve afectada
por los valores por los valores
Se calcula en extremos
variables extremos
Se calcula para Se calcula para
cuantitativas
variables cualquier tipo
cuantitativas y variable
para las
cualitativas de
escala ordinal.
MEDIDAS DE POSICIÓN
Medidas de posición
Estaturas de jugadores:

¿Cuál es la estatura mínima a partir del cual se encuentra el


20% de los jugadores con mayores estaturas?

20%

estatura mínima

¿Qué medida estadística debemos utilizar?


Percentiles

Los percentiles dividen un


conjunto de datos en
100 partes
porcentualmente iguales.

Dado un percentil Pk, el K% de los datos son menores o iguales al valor de Pk


y el otro (100-k)% superiores al valor de Pk
Cuartiles y Deciles

Cuartiles dividen un conjunto de


datos en 4 partes porcentualmente
iguales. Se denotan por Q1, Q2 , Q3.

Deciles dividen un conjunto de


datos en 10 partes
porcentualmente iguales. Se
denotan por D1, D2, ... , D8 , D9.
MEDIDAS DE DISPERSIÓN
Medidas de dispersión o variación
¡Observe las diferencias (heterogeneidad) en las estaturas de estos ingenieros!

Si agrupamos a los ingenieros cuyas estaturas estén más cercanas a su promedio

¿Qué medida de resumen debemos


utilizar para analizar la variación en
los datos?
¡tendremos estaturas
más homogéneas!
Medidas de dispersión o variación
Son aquellas que cuantifican que tan dispersos o concentrados se
encuentran los datos de una variable respecto de una medida de tendencia
central, esto es, indican cuán alejados están los datos de la variable del
valor que los representa y, por lo tanto permiten evaluar la confiabilidad de
ese valor central.

Si la medida de dispersión:

 tiene un valor pequeño, los datos están concentrados alrededor de la


medida de tendencia central.
 tiene un valor grande, los datos no están concentrados alrededor de la
medida de tendencia central.
Medidas de dispersión o variación

Rango: R Es la medida de dispersión más simple, usado


para pocos datos no agrupados.

R= Xmáximo- Xmínimo

Ejemplo1:
El jefe de control de calidad de la empresa industrial de termas eléctricas
Thermosol S.A. presenta en una muestra de 12 termas, el número de
defectos que presenta cada terma.

Calcule e interprete el valor del rango.


Solución:
El rango R= Vmáximo-Vmínimo=5-0=5, esto significa, que el rango o
amplitud para el número de defectos de las termas en la muestra de 12 es
de 5 defectos.
Medidas de dispersión o variación
Es una medida del grado de dispersión o variación de
Varianza los valores de una variable con respecto a su media o
promedio.
Las unidades en las que queda expresada la varianza
son unidades al cuadrado. Esta medida no tiene
interpretación.

Datos no agrupados Datos agrupados Datos agrupados


discretos continuos
Varianza N

 x   𝑁 ′
2
i σ𝑁 𝑥𝑖 − 𝜇 2𝑓 2
σ𝑖=1 𝑥𝑖 − 𝜇 2 𝑓𝑖
poblacional 2  i 1
𝜎2 =
𝑖=1 𝑖 𝜎 =
N 𝑁 𝑁

Varianza n

 x  x
2 𝑛 ′
𝑛 2 σ 𝑥 − 𝑥ҧ 2𝑓
muestral i σ𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑓𝑖 𝑖=1 𝑖 𝑖
s2  i 1 2
𝑆 = 𝑆2 =
n 1 𝑛−1 𝑛−1
Medidas de dispersión o variación
Es una medida de dispersión relativa libre
S de unidades y que siempre se expresa en
CV(X)  x100% porcentaje. Es útil para comparar la
X variabilidad de dos o más grupos de datos,
aunque ellos estén expresados en distintas
unidades de medida o cuando los
promedios de los conjuntos de datos a
comparar son diferentes.

GrupoA
Datos de ingresos
(en dólares) ¿Qué grupo de datos es más homogéneo?

GrupoB ¿Qué grupo de datos es más heterogéneo?


Datos de pesos
(en kilogramos)
MEDIDAS DE FORMA
Asimetría

Simétrica o sesgo nulo

Asimétrica negativa o
sesgo izquierdo

Asimétrica positivo o
sesgo derecho
Curtosis
Mesocúrtica (B): Grado de
concentración normal

Leptocúrtica (A): Alto grado


de concentración

Platicúrtica (C): Reducido


grado de concentración
DIAGRAMA DE CAJAS
¿Cómo se pueden resumir los datos en un gráfico?

50% central de los datos


Valores
Extremos
(outliers)

P25 P50 P75

700 10000

Sueldos (nuevos soles)


Diagrama de cajas

Un diagrama de caja es una gráfica que describe la distribución de


un conjunto de datos tomando como referencia los valores de los
cuartiles como medida de posición y el valor del rango intercuartil
como medida de referencia de dispersión.

Diagrama de caja de la Resistencia

20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Resistencia
Diagramas de cajas

Permite:
Comparar las medianas de
dos o mas conjuntos de
datos.

Observar el tipo de
distribución de los datos
(simétrica o asimétrica).

Determinar la dispersión
en el 50% central de los
datos.

Identificar la presencia de
valores extremos (datos
atípicos)
Construcción de un diagrama de caja
1. Se calcula: Q1, Q2 , Q3 , RIC, 1,5RIC, Li, Ls y bigotes.
2. Se traza una línea de referencia horizontal o vertical (para la escala)
3. Se traza un rectángulo con los extremos en el primer y tercer cuartil y se traza
una recta vertical en la mediana.
4. Se dibujan los límites a 1,5 rango intercuartil de los cuartiles 1 y 3, Se
considera que los datos fuera de estos límites son atípicos. Li =Q1-(1,5)RIC;
Ls=Q3 +(1,5)RIC.
5. Las líneas antes y después de las cajas se llaman bigotes, se traza desde los
extremos de la caja hasta el mínimo y máximo dentro de los límites inferior y
superior.
6. Se marcan con un asterisco los valores fuera de los límites (valores atípicos).

bigote
Ejemplo

Se desea analizar el consumo de gas natural en los hogares de un


distrito limeño, el gasto mensual en este combustible, en nuevos
soles de 36 hogares se muestra a continuación.

20,6 21,2 21,8 23,5 24 24,3 24,5 24,6 24,6

24,6 24,8 24,9 25 25,2 25,4 26,3 27,1 27,3

27,5 28,3 28,4 28,6 29,3 29,4 29,5 29,5 29,5

29,6 30,4 30,4 30,9 31,5 32,4 32,5 32,7 37,6

Realice un diagrama de caja con esta información. Comente el


resultado.
Solución
Después de ordenar los datos:
1. Cálculos: Q1=24,60; Q2 = 27,40 Q3 = 29,575
RIC = 4,975 1,5RIC = 7,4625
LI = 24,60 – 7,4625 = 17,1375
LS = 29,575+7,4625 = 37,0375
2. Construcción de la escala:
Solución
Ejemplo
Dos modos que usan los empleados de una fábrica para
ir a trabajar diariamente son A y B. A continuación,
vemos unas muestras de tiempos en minutos de cada
modo:

Modo A 28 29 32 37 33 25 29 32 45 34
Modo B 29 31 33 32 34 30 31 32 35 33

Trace un diagrama de caja para cada modo y en base a


los resultados obtenidos, ¿Qué modo de trasporte
debe preferirse?, Explique sus razones.
Solución
Evaluación:

Afirmaciones V F
Con el RIC se analiza la dispersión de todos Verdadero
los datos.
Si las unidades de los datos son minutos, la Verdadero
varianza se expresa en minutos al cuadrado.
La Rango es afectado por valores muy Verdadero
grandes.
Si el CV(A)=20.4% y CV(B)=60.4%. ¿Quién es B
más variable?
La varianza muestral se define como la suma Falso
de las diferencias al cuadrado de cada valor
respecto a su media entre el numero de
datos.
Evaluación
Llene los espacios en blanco de tal manera que
la proposición resultante resulte verdadera
1. El índice de calidad mediano es Distribución del índice de calidad para productos fabricados en dos plantas
aproximadamente______________ en 200

ambas plantas.
2. El índice de calidad en la planta A presenta
150
distribución asimétrica_______________

Indice de calidad
mientras que el índice de calidad en la
planta B presenta distribución
100
asimétrica____________________
3. La variabilidad del índice de calidad en el
50% central es mayor en la planta ______ 50

que en la planta __________


4. El índice de calidad presenta valores
atípicos en la planta ______ mientras que 0
Planta A Planta B
el índice de calidad no presenta valores Fuente: Elaboración propia
atípicos en la planta _______
BIBLIOGRAFÍA
BÁSICA
o Montgomery, D. (2005). Probabilidad y estadística aplicada a la
ingeniería. Segunda edición. México, D.F.: Limusa Wiley.

o Córdova, M. (2009). Estadística descriptiva e Inferencial. Quinta


edición. Perú: MOSHERA S.R.L.

o Devore, J. (2008). Probabilidad y estadística para Ingeniería y Ciencias.


Séptima edición. México D.F.: Cengage Learning, Inc.

COMPLEMENTARIA

oMendenhall, W. (1997). Probabilidad y estadística para ingeniería y


ciencias. Cuarta edición. México, D.F. Prentice-Hall Hispanoamericana.
oPublicación digital INEI
http://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib1157/libro.pdf

S-ar putea să vă placă și