Documente Academic
Documente Profesional
Documente Cultură
Estadística Descriptiva
Unidimensional
3
4 Capítulo 1. Estadística Descriptiva Unidimensional
k
X
ni = n1 + ... + nk = N
i=1
1.2. Organización de los datos. Tablas de frecuencias. 5
ni
fi = ,
N
k
X
fi = 1
i=1
Observad que el cálculo de las frecuencias acumuladas sólo tiene sentido en variables numéri-
cas.
Sobre tres ejemplos vemos cómo construir la tabla de frecuencias.
Ejemplo 1.1: Supongamos que unas resistencias de cierto tipo son agrupadas en paquetes
de 50 unidades. Se seleccionaron 60 de esos paquetes y se contó el número de resistencias que
no cumplían con las especificaciones, resultando los siguientes datos:
2 1 2 4 0 1 3 2 0 5
3 3 1 3 2 4 7 0 2 3
0 4 2 1 3 1 1 3 4 1
2 3 2 2 8 4 5 1 3 1
5 0 2 3 2 1 0 6 4 2
1 6 0 3 3 3 6 1 2 3
xi ni fi Ni Fi
0 7 0.1167 7 0.1167
1 12 0.2 19 0.3167
2 13 0.2167 32 0.5334
3 14 0.2333 46 0.7667
4 6 0.1 52 0.8667
5 3 0.05 55 0.9167
6 3 0.05 58 0.9667
7 1 0.0167 59 0.9834
8 1 0.0167 60 1
N = 60 1
En la tabla se observa, por ejemplo, que tan sólo un 11.67 % de los paquetes no presentan
resistencias defectuosas, y que un elevado porcentaje de paquetes, concretamente el 86.67 %,
presentan como mucho cuatro resistencias defectuosas.
Ejemplo 1.2: Un artículo de la revista Transactions of the Institution of Chemical En-
gineers presenta datos de un experimento donde se investigó el efecto de varias variables de
un proceso sobre la oxidación en fase de vapor del naftaleno. A continuación se presenta una
muestra del porcentaje de conversión de moles de naftaleno a anhídrido maleico:
4.2 4.7 4.7 5.0 3.8 3.6 3.8 3.0 5.1 4.0
3.1 3.8 4.8 4.0 5.2 4.3 2.8 2.0 2.8 5.0
En cuanto a la amplitud, se suele tomar la misma en todos los intervalos. Una forma de
obtenerla es:
valor máximo de la variable-valor mínimo de la variable
Amplitud=
número de intervalos
Entonces, el valor máximo sería el extremo superior del último intervalo, y el valor mínimo
el extremo inferior del primer intervalo. Como normalmente los extremos inferiores se abren y
los superiores se cierran, en lugar de tomar exactamente el mínimo de la variable, se toma un
valor próximo inferior, ya que en otro caso el valor mínimo no podría incluirse en el primer
intervalo.
Nota: Hacer intervalos con la misma amplitud puede no ser una elección sensata si el con-
junto de datos contiene puntos extremos (raros en relación al resto). En tal caso se podrían
tomar intervalos más estrechos en la zona de más concentración y más amplios en la de menos
concentración.
En este ejemplo tenemos 20 observaciones, por lo que podemos tomar 4 intervalos. Si quiero
que el primer intervalo empiece en 1.5 y que el último termine en 5.5, tendrán una amplitud de
1.
% Moles ni fi Ni Fi
(1.5-2.5] 1 0.05 1 0.05
(2.5-3.5] 4 0.2 5 0.25
(3.5-4.5] 8 0.4 13 0.65
(4.5-5.5] 7 0.35 20 1
Al punto central de un intervalo se le llama marca de clase. La del primer intervalo es
1,5 + 2,5
2= .
2
Ejemplo 1.3: Se pregunta a un grupo de 20 alumnos de la asignatura de Métodos Estadís-
ticos, entre otras cosas, si hacen o no frecuentemente "botellón". Los resultados son:
sí sí no sí no no no sí no no
no sí sí sí sí sí no sí no sí
ni fi
sí 11 0.55
no 9 0.45
Cualitativas
• Diagrama de Pareto
• Diagrama de sectores
Cuantitativas
• Histograma
• Polígono de frecuencias
• Diagrama de puntos
Diagrama de barras
12
10
8
frecuencia
6
4
2
0
n s
Se ordenan las categorías de mayor a menor frecuencia y se dibujan los rectángulos corre-
spondientes. Es muy utilizado en controles de la calidad, donde cada clase representa un tipo
de disconformidad o problema de producción.
Se dibujan en un círculo sectores con áreas proporcionales a las frecuencias de cada una de
las categorías.
Diagrama de sectores
Hábito botellón
n
s
45,00%
55,00%
1.3.4. Histograma
Es igual que el diagrama de rectángulos, considerando ahora en el eje de abcisas los intervalos
y en el ordenadas las frecuencias (absolutas o relativas). Si los intervalos tienen la misma
amplitud, las frecuencias son proporcionales a las alturas de los rectángulos del histograma, ya
que el área se obtiene multiplicando la base por la altura. Por lo tanto, cada altura da idea de la
densidad o concentración de datos en esa zona: donde hay más altura, aparecen frecuentemente
valores de la variable, donde hay menos, los datos son escasos. Sin embargo, esto no ocurre si
las amplitudes no son iguales, por lo que, en tal caso, se representa la frecuencia dividida por
la amplitud.
La forma del histograma -como el diagrama de barras- refleja propiedades importantes de la
variable en cuestión. Cuando el histograma presenta un único máximo, la distribución se dice
unimodal, bimodal si presenta dos, y plurimodal si presenta más de dos. Si el histograma es
simétrico respecto de un valor central, la distribución se dice simétrica, en cuyo caso todos los
puntos equidistantes a tal valor central presentan la misma frecuencia. Si la cola de la derecha se
extiende más que la de la izquierda la distribución se dice asimétrica a la derecha o positiva, lo
cual indica que la variable toma más valores bajos que altos. Si la cola de la izquierda se extiende
más que la de la derecha, asimétrica a la izquierda o negativa, predominando los valores altos.
20 8
16
6
12
4
8
4 2
0 0
-1 1 3 5 7 9 11 1,5 2,5 3,5 4,5 5,5
Asimétrico a la derecha Asimétrico a la izquierda
0
0,82 1,02 1,22 1,42 1,62 1,82
Simétrico
Histograma
6
5
frecuencia
4
3
2
1
0
1,5 2,5 3,5 4,5 5,5
Porcentaje de conversión de moles de naftaleno
Polígono de frecuencias
6
5
4
3
2
1
0
1,5 2,5 3,5 4,5 5,5
Porcentaje de moles de conversión de naftaleno
Diagrama de puntos
0 2 4 6 8
Nº de resistencias defectuosas
La media
La mediana
La moda
La media
Supongamos que hemos medido la variable X sobre N individuos y tenemos los valores
x1 , x2 , ...., xN . La media aritmética, o simplemente media, se calcula como:
1.4. Descripción numérica de una variable 13
La media se mide en las mismas unidades que la variable, y tiene el inconveniente de verse
muy afectada por la presencia de datos que sean extremadamente grandes o pequeños (datos
atípicos).
Ejemplo 1.4: Cálculo de la media de los datos del ejemplo 1.1.
− 2 + 1 + 2 + 4 + ... + 6 + 1 + 2 + 3
x= = 2,53 resistencias defectuosas por caja.
60
xi ni ni xi
0 7 0
1 12 12
2 13 26
3 14 42
4 6 24
5 3 15
6 3 18
7 1 7
8 1 8
N = 60 152
Pk
− i=1 ni xi 152
x= = = 2,53
N 60
Ejemplo 1.5: Cálculo de la media de los datos del ejemplo 1.2
Si trabajamos con los datos sin tabular,
Si trabajamos con los datos tabulados, hemos de calcular las marcas de clase.
% Moles ni xi ni xi
(1.5-2.5] 1 2 2
(2.5-3.5] 4 3 12
(3.5-4.5] 8 4 32
(4.5-5.5] 7 5 35
20 81
− 81
x= = 4,05
20
Nótese que 4.05 no es la media real, es un valor aproximado, ya que se está suponiendo que
los datos son:
2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5.
En adelante, si es posible, siempre calcularemos las medidas a partir de los datos sin agrupar
en intervalos, para no perder precisión innecesariamente.
La mediana
Es el valor que divide al conjunto de observaciones ordenado de menor a mayor en dos partes
iguales, ocupa el lugar central. Deja por tanto al 50 % de las observaciones por debajo y al 50 %
por encima.
Mín 50 % Mediana 50 % Máx
- Si los datos están sin tabular : una vez ordenados de menor a mayor se toma el valor
central si el número de observaciones N es impar; si es par se toma la media de los dos
valores centrales.
- Si los datos están tabulados: si existe un valor con frecuencia relativa acumulada igual a
0.5, se toma como mediana la media de tal valor y el siguiente. En otro caso, se toma
aquel valor que supere por primera vez en frecuencia relativa acumulada 0.5.
1.4. Descripción numérica de una variable 15
2, 2,8, 2,8, 3, 3,1, 3,6, 3,8, 3,8, 3,8, 4, 4, 4,2, 4,3, 4,7, 4,7, 4,8, 5, 5, 5,1, 5,2
4+4
M ediana = =4
2
Interpretación: en el 50 % de los experimentos se obtiene un porcentaje de conversión de
moles inferior o igual a 4.
Nótese que en el primer 4 se obtiene una frecuencia relativa acumulada de 0.5.
Ejemplo 1.7: Cálculo de la mediana de los datos del ejemplo 1.1
xi ni Fi
0 7 0.1167
1 12 0.3167
2 13 0.5334
3 14 0.7667
4 6 0.8667
5 3 0.9167
6 3 0.9667
7 1 0.9834
8 1 1
N = 60
El valor 2 es la mediana, ya que presenta una frecuencia relativa acumulada de 0.5334,
inmediatamente superior a 0.5
Interpretación: El 50 % de los cajas presentan un número de resistencias defectuosas inferior
o igual a 2.
La moda
M oda = 3
Son medidas basadas en la ordenación de los datos. Dividen al conjunto de datos ordenado
en partes iguales. Según el número de partes, hablamos de:
Deciles: dividen al conjunto de datos en 10 partes iguales, cada una de las cuales engloba
un 10 % de datos. Hay por tanto 9 deciles, D1 , ..., D9.
Cuartiles: dividen al conjunto de datos en 4 partes iguales, cada una de las cuales engloba
un 25 % de datos. Hay por tanto 3 cuartiles, Q1 , Q2 , Q3.
Percentiles: dividen al conjunto de datos en 100 partes iguales, cada una de las cuales
engloba un 1 % de datos. Hay por tanto 99 percentiles, P1 , ..., P99.
Otra forma de calcularlos: el P25 es aquel valor que deja por debajo al 25 % de los datos,
que en este caso son 15 (25 % de 60). Análogamente, el P75 es el valor que deja 45 datos (75 %)
por debajo y 15 datos (25 %) por arriba.
Interpretación: El 25 % de los paquetes con menos resistencias defectuosas presentan como
mucho 1, y el 25 % de los paquetes con más resistencias defectuosas presentan como mínimo 3.
Ejemplo 1.11: Cálculo de los percentiles 25 y 75 de los datos del ejemplo 1.2
P25 = 3,35,
P75 = 4,75
Conjunto 1: 10,20,30,40,50
Conjunto 2: 10,30,30,30,50
Conjunto 3: 30,30,30,30,30
A la vista de estas medidas podríamos llegar a la conclusión equivocada de que los tres
conjuntos de datos son muy similares. Sin embargo, hay una clara diferencia entre los tres
conjuntos: en el primero, hay gran dispersión en los datos (datos poco parecidos), en el tercero
la concentración de los datos es total, y en el segundo se da una situación intermedia. Es por
esto por lo que es necesario recurrir a otras medidas, las medidas de dispersión, que sean capaces
Coeficiente de variación
R = M ax − M in
El rango de un conjunto de datos es muy fácil de calcular, pero ignora toda la información
contenida entre las observaciones más grande y más pequeña. Por ejemplo, las muestras 1,3,5,8,9
y 1,5,5,5,9 tienen el mismo rango igual a 8. Sin embargo, en la segunda muestra sólo existe
variabilidad en los valores extremos, mientras que en la primera los tres valores intermedios
cambian de manera considerable. Algunas veces, cuando el tamaño de la muestra es pequeño,
la pérdida de información no es muy seria. Por ejemplo, el rango se utiliza mucho en el control
de la calidad, donde se suelen utilizar muestras de tamaño 4 o 5. En general, lo que se desea
es tener una medida de variabilidad que dependa de todas las observaciones, más que de unas
cuantas.
Una medida menos sensible a los valores extremos es el rango intercuartílico, RI, definido
como la diferencia entre el tercer y primer cuartil,
RI = Q3 − Q1
La varianza y desviación típica miden la dispersión de los datos entorno a la media, y hacen
uso de todas las observaciones. Una forma intuitiva de medir la concentración de los datos
1.4. Descripción numérica de una variable 19
En general podríamos pensar que a mayor valor en la varianza o desviación típica, mayor
dispersión y menor concentración de los datos entorno a la media. En relación a esta idea, se
presenta el problema de que ambas medidas dependen de las unidades de medida (o dimensión)
de los datos. Por ejemplo, una misma muestra de alturas en centímetros y en metros da lugar a
varianzas distintas, mayor en el primer caso. Por lo tanto la varianza y desviación típica no nos
permiten cuantificar la variabilidad ni comparar la dispersión de variables medidas en unidades
distintas.
xi ni ni xi ni x2i
0 7 0 00
1 12 12 12
Pk
2 13 26 52 − i=1 ni xi 152
x= = = 2,53,
3 14 42 126 N 60
XN
4 6 24 96 x2i
−2 582
σ 2 = i=1 −x = − 2,532 = 3,3
5 3 15 75 N 60
√
6 3 18 108 σ = 3,3
7 1 7 49
8 1 8 64
N = 60 152 582
Coeficiente de variación
Como solución al problema de dependencia de las unidades de medida de las variables que
presentan la varianza y desviación típica, se crea una nueva medida adimensional (no depende
de las unidades de medida) conocida como coeficiente de variación, definido como el cociente
entre la desviación típica y la media (en valor absoluto),
σ
CV = ¯¯−¯¯
¯x¯
Mide la concentración relativa de los datos entorno a la media. Cuanto más próximo a cero
esté (vale 0 cuando σ = 0), menor dispersión habrá, y por lo tanto más representativa será la
media.
Ejemplo 1.14: Con un micrómetro se realizan mediciones del diámetro de un balero, que
tienen una media de 4.03 mm y una desviación típica de 0.012 mm; con otro micrómetro se
1.4. Descripción numérica de una variable 21
toman mediciones de la longitud de un tornillo, que tienen una media de 1.76 pulgadas y una
desviación típica de 0.0075 pulgadas. Los coeficientes de variación son:
0,012
CVbalero = = 0,003
4,03
0,0075
CVtornillo = = 0,004
1,76
En consecuencia, las mediciones realizadas con el primer micrómetro presentan una vari-
abilidad relativamente menor que las efectuadas con el segundo.
Ya vimos cómo a partir de una representación gráfica se pueden estudiar algunos rasgos
importantes de la variable; comentamos cómo hacernos una idea de la simetría o asimetría
de una variable según la forma del histograma. La simetría o asimetría también puede estudi-
arse con una medida numérica, el coeficiente de asimetría. Exiten varios coeficientes, el que a
continuación vemos se debe a Fisher y presenta la siguiente expresión:
PN − 3
i=1 (xi − x)
γ1 = ,
N σ3
y
Pk − Pk −
i=1 fi (xi − x)3 i=1 ni (xi − x)3
γ1 = =
σ3 N σ3
si los datos están tabulados.
Si un coeficiente de asimetría vale 0, la distribución es simétrica, si es mayor que 0, asimétrica
a la derecha o positiva, y si es menor que cero, asimétrica a la izquierda o negativa.
También podemos hacernos una idea acerca de la simetría o asimetría de una variable
comparando su media y mediana. Claramente, en variables simétricas la media, la mediana y
la moda (si es única) coinciden. Si la distribución es marcadamente asimétrica a la derecha,
su media será bastante mayor que la mediana, ya que aunque sean pocos los valores altos que
tome (cola de la derecha) , tirarán de la media hacia arriba, mientras que a la mediana según
comentamos no le afectan los valores extremos. Si la distribución es marcadamente asimétrica
a la izquierda, la media será bastante menor que la mediana.
En relación a la forma aparece también el término curtosis, que hace referencia al apun-
tamiento de la distribución. Por ejemplo, si una variable presenta un histograma muy apuntado
(alta frecuencia ) y estrecho, sus datos estarán muy concentrados.
1. Cambios de variable lineales: Supongamos que a, b, son dos números reales. Hacemos una
transformación en los datos de la forma yi = axi + b, i = 1, .., N, es decir, Y = aX + b.
Entonces,
− −
y = ax + b,
σ 2y = a2 σ2x ,
σy = |a| σ x ,
2. Variable tipificada: Tipificar una variable consiste en hacer una transformación lineal tal
que la nueva variable tenga media 0 y varianza 1. La transformación es
−
X−x
Z=
σx
3. Variable clasificada en grupos o estratos: Supongamos que tenemos N observaciones clasi-
−
ficadas en L grupos. El grupo i presenta un tamaño ni , una media xi , una varianza σ 2i ,
ni
y su peso en el total de la población es wi = . Entonces, la media total y la varianza
N
total (de las N observaciones) vienen dadas por:
L
X
− −
x = wi xi ,
i=1
L
X L
X − −
σ 2x = wi σ 2i + wi (xi − x)2
i=1 i=1
1.5. Ejercicios
1. Los ingenieros industriales realizan periódicamente un análisis de la medición del trabajo
con el fin de determinar el tiempo requerido para generar una unidad de producción. En
una planta de procesamiento se registró durante 20 días el número de horas-obrero totales
requeridas para realizar cierta tarea. Los datos recogidos son:
128 119 95 97
113 109 124 132
146 128 103 135
124 131 133 131
100 112 111 150
1.5. Ejercicios 23
b) Construye el histograma.
d) ¿Cuánto tiempo requieren como máximo el 25 % de los obreros más rápidos?. ¿Cuánto
tiempo requieren como mínimo el 25 % de los que más tiempo emplean?.
2. Describe las características de los cuatro histogramas siguientes, y razona cuál es la medida
de centralización y dispersión más adecuada para la distribución correspondiente.
8 40
6 30
4 20
2 10
0 0
0 1 2 3 4 5 6 -1 1 3 5 7 9 11
40
30
20
10
0
-2,5 -1,5 -0,5 0,5 1,5 2,5 3,5
Peso (g) 448 450 453 451 447 449 446 451 448 447
No Accidentes
No causan baja 498
Causan baja 152
650
7. En una liga de rugby femenino se contabilizaron y clasificaron las lesiones que tienen lugar
(A=rotura de menisco, B=rotura de ligamentos, C=rotura de tibia, D=rotura de rótula,
E=rotura de fémur). Los resultados son:
A B B A C A A D B A C
E B B A A C D C A C B
C C C A B B C A A B C
C A C B B D A B A C B
C C A B B A D E C A B
8. Se tienen dos proveedores en dos áreas geográficas diferentes. En la primera zona los
proveedores tienen una puntuación media de 6.23 con una desviación típica de 2.3. En
la segunda zona tienen una media de 5.2 con una desviación de 1.3. El proveedor de la
primera zona tiene una puntuación de 6.84 y el de la segunda tiene una puntuación de
6.31. ¿Cuál de los dos dos es mejor en relación a su zona?.