Documente Academic
Documente Profesional
Documente Cultură
PROBABILIDADES
Ing. Miguel Angel Sevillanos Dominguez
Medidas de Tendencia Central - Cuartil
𝑘 × (𝑛 + 1)
4
Donde: K: 1, 2, 3. Correspondiente al Primer, segundo y tercer
cuartil
Ejemplo:
Determine los cuartiles de los 13 datos ordenados
siguientes:
10 11 11 12 12 13 13 13 14 15 17 18 20
Q1 Q2 Q3
Tallo Hojas
3 5 2 3 7
8 6 2 4 5 6 8
9 7 0 0 1 1 2 5 7 8 8
15 8 2 2 3 3 4 5 6
8 9 0 1 2 4 6
3 10 1 2 2
Cuartil Posición Valor
Q1 0,25(32+1)=8,25 6,8+(7,0-6,8)*0,25=6,85
Q2 0,50(32+1)=16,5 7,8+(7,8-7,8)*0,50=7,80
Q3 0,75(32+1)=24,75 8,6+(9,0-8,6)*0,75=8,90
Calculo de los Cuartiles – Datos
Agrupados
El lugar o posición donde se encuentran los cuartiles para n datos
ordenados es:
𝑘 × (𝑛 + 1)
4
Donde: K: 1, 2, 3. Correspondiente al Primer, segundo y tercer
cuartil
𝑘(𝑛)
− 𝐹𝑘−1
4
𝑄𝑘 = 𝐿𝑘 + ×𝑐
𝑓𝑘
Como los cuartiles adquieren su mayor importancia cuando contamos
un número grande de datos y tenemos en cuenta que en estos casos
generalmente los datos son resumidos en una tabla de frecuencia. La
fórmula para el cálculo de los cuartiles cuando se trata de datos
agrupados es la siguiente:
k= 1,2,3
Donde:
Lk = Límite real inferior de la clase del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del
cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k
Hallar el tercer cuartil
Intervalo Xi fi fr fa fra
De Clase
5.2- 6.1 5,65 3 0,094 3 0,094
6.1 - 7.0 6,55 5 0,156 8 0,250
7.0- 7.9 7,45 9 0,281 17 0,531
7.9- 8.8 8,35 7 0,219 24 0,750
8.8- 9.7 9,25 5 0,156 29 0,906
9.7-10.6 10,15 3 0,094 32 1,000
TOTAL 32 1,000
𝐾(𝑛+1)
Se ubica la posición del cuartil: = 24,75
4
24 − 17
𝑄3 = 7,9 + × 0,9 = 8,8
7
El 75% de los datos serán menores a 8,8 y el 25% de los datos
serán superiores
Deciles
Los deciles son los nueve valores que dividen la
serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%,
al 20%... y al 90% de los datos.
𝑘 × (𝑛 + 1) Cuando n es impar
10
Siendo n: Cantidad de elementos
k: Numero del decil
Ejemplo
Los datos que se relacionan a continuación son un
grupo de presiones arteriales sistólicas medidas en
mm de Hg correspondientes a un grupo de pacientes:
120, 160, 150, 110, 170, 130, 125, 140, 125, 145
𝑘 × (𝑛 + 1)
100
Siendo n: Cantidad de elementos
k: Numero del percentil
El valor del Percentil 50 es igual al de la Mediana.
Ejemplo
Los datos que se relacionan a continuación son un
grupo de presiones arteriales sistólicas medidas en
mm de Hg correspondientes a un grupo de pacientes:
120, 160, 150, 110, 170, 130, 125, 140, 125, 145
DM = 2,25
Desviación media para datos
Agrupados
Si X1, X2,.., XK se presentan con frecuencias f1, f2,.., fK
respectivamente, la desviación media puede
expresarse como
σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖 − 𝑋ത
𝐷𝑀 =
𝑁
donde 𝑁 = σ𝑘𝑗=1 𝑓𝑗 = σ 𝑓 . Esta fórmula es útil para
𝑗
datos agrupados, donde las Xj representan las
marcas de clase y las fj las correspondientes
frecuencias de clase.
Desviación media para datos
Agrupados
En ocasiones, la desviación media se define en
términos de las desviaciones absolutas respecto de la
mediana o de otro promedio, y no respecto de la
media. Una propiedad interesante de la suma
σ𝑁𝑗=1 𝑋𝑗 − 𝑎 es que es mínima cuando a es la
mediana (es decir, la desviación media absoluta con
respecto de la mediana es un mínimo).
Obsérvese que sería más apropiado emplear el
término desviación media absoluta en vez de
desviación media.
x¡ f¡ Xj * f¡ |Xj - 𝑋ത | |Xj - 𝑋ത |*f¡
[10, 15) 12,5 3 37,5 9,286 27,858
[15, 20) 17,5 5 87,5 4,286 21,43
[20, 25) 22,5 7 157,5 0,714 4,998
[25, 30) 27,5 4 110 5,714 22,856
[30, 35) 32,5 2 65 10,174 21,428
21 457,5 98,57
457,5
𝑋ത = = 21,786
21
98,57
𝐷𝑀 = = 𝟒, 𝟔𝟗
21
Varianza y Desviación estandar
Al igual que la desviación media, está basada en un
valor promedio de las desviaciones respecto a la
media.
En este caso, en vez de tomar valores absolutos de las
desviaciones, para evitar así que se compensen
desviaciones positivas y negativas, se usan los
cuadrados de las desviaciones. Esto hace además que
los datos con desviaciones grandes influyan mucho en
el resultado final.
Varianza para datos sin Agrupar
𝑋1 − 𝑋ത + 𝑋𝑛 − 𝑋ത 2 +. . + 𝑋𝑛 − 𝑋ത
2 2
𝜎2 =
𝑁
𝑛 ത 2
2
σ 𝑋
𝑖=1 𝑖 − 𝑋
𝜎 =
𝑁
𝜎 2 = 15
Varianza para datos Agrupados
La variancia de los valores: (X1, X2, …, Xk) que
ocurren con las frecuencias (f1, f2, …, fk) es:
𝑛 2 𝑛 2
2
σ (𝑋
𝑖=1 𝑖 − 𝜇) × 𝑓𝑖 σ 𝑖=1 𝑖 × 𝑓𝑖 )
(𝑋
𝜎 = = − 𝜇2
𝑁 𝑁
Donde:
σ2 : Varianza de la población
Xi : Marca de clase de la clase i
fi : frecuencia de la clase i
µ : Media de la Población
N : Número total de elementos de la
población
Desviación estándar para datos
Agrupados
σ𝑛𝑖=1(𝑋𝑖2 × 𝑓𝑖 )
𝜎= − 𝜇2
𝑁
Donde:
σ : Desviación estándar de la población
Xi : Marca de clase de la clase i
fi : frecuencia de la clase i
µ : Media de la Población
N : Número total de elementos de la
población
Varianza y Desviación Estándar
muestral
Para calcular la varianza y la desviación estándar
muestral se utilizan las mismas fórmulas que las
ഥ y N con (n-1).
poblacionales, sustituyendo µ con 𝑿
σ con S
Ejemplo: Calcular la varianza de la
distribución de la tabla.
X¡ f¡ Xi * f¡ X¡2 * f¡
[10, 20) 15 1 15 225
[20, 30) 25 8 200 5000
[30,40) 35 10 350 12250
[40, 50) 45 9 405 18225
[50, 60 55 8 440 24200
[60,70) 65 4 260 16900
[70, 80) 75 2 150 11250
42 1820 88050
1820
𝑋ത = = 43,33
42
88050
𝜎2 = − 43,332 = 𝟐𝟏𝟖, 𝟗𝟒
42
Propiedades de la varianza
La varianza será siempre un valor positivo o cero, en
el caso de que las puntuaciones sean iguales.
Si a todos los valores de la variable se
les suma un número la varianza no varía.
Si todos los valores de la variable se multiplican por
un número la varianza queda multiplicada por
el cuadrado de dicho número.
Propiedades de la Varianza
Si tenemos varias distribuciones con la misma media y
conocemos sus respectivas varianzas se puede
calcular la varianza total.
Si todas las muestras tienen el mismo tamaño:
2 2 2
2
𝜎 1 + 𝜎 2 + ⋯ + 𝜎𝑛
𝜎 =
𝑛
Si las muestras tienen distinto tamaño:
2 2 2
2
𝑘 𝜎
1 1 + 𝑘 𝜎
2 2 + ⋯ + 𝑘 𝜎
𝑛 𝑛
𝜎 =
𝑘1 + 𝑘2 + ⋯ + 𝑘𝑛
Aplicación de la desviación
estándar poblacional
La desviación estándar nos permite determinar, con un
buen grado de precisión, dónde están localizados los
valores de una distribución de frecuencias con
relación a la media.
Para curvas cualesquiera, el teorema de Chebyshev
asegura que al menos el 75% de los valores caen
dentro de ± 2σ (2 desviaciones estándar) a partir
de la media µ , y al menos el 89% de los valores
caen dentro de ± 3σ .
Se puede medir con más precisión el porcentaje de
observaciones que caen dentro de un rango
específico de curvas simétricas con forma de
campana (regla empírica):
1. Aproximadamente 68% de las observaciones cae
dentro de ± 1σ
2. Aproximadamente 95% de las observaciones cae
dentro de ± 2σ
3. Aproximadamente 99% de las observaciones cae
dentro de ± 3σ
En el gráfico interpretamos el 0 como µ, y los números
como unidades de σ . Por ejemplo, 1 es µ+σ ; -1 es;
µ+σ; 2 es µ+2σ ; etc.
Coeficiente de Variación
La desviación estándar es una medida absoluta de la
dispersión que expresa la variación en las mismas
unidades que los datos originales. Pero no puede ser
la única base para la comparación de dos
distribuciones. Por ejemplo si tenemos una desviación
estándar de 10 y una media de 5, los valores varían
en una cantidad que es el doble de la media. Si por
otro lado tenemos una desviación estándar de 10 con
una media de 5000, la variación respecto a la media
es insignificante.
Coeficiente de Variación
Lo que necesitamos es una medida relativa que nos
proporcione una estimación de la magnitud de la
desviación respecto de la magnitud de la media.
El coeficiente de variación es una medida relativa de
dispersión que expresa a la desviación estándar
como un porcentaje de la media.
𝜎
𝐶𝑉 = × 100% En la población
𝜇
𝑆
𝐶𝑉 = × 100% En la muestra
𝑋ത
Ejemplo
Se pretende comparar el desempeño en ventas de 3
vendedores. Los resultados siguientes dan los
promedios de puntajes obtenidos en los cinco años
pasados por la concreción de los objetivos
A 88 68 89 92 103
B 76 88 90 86 79
C 104 88 118 88 123
Solución
12,67
𝑋ത𝐴 = 88 𝑆𝐴 = 12,67 𝐶𝑉 = × 100% = 14,4%
88
6,02
𝑋ത𝐵 = 83,8 𝑆𝐵 = 6,02 𝐶𝑉 = × 100% = 7,18%
83,8
16,35
ത
𝑋𝐶 = 104,2 𝑆𝐶 = 16,35 𝐶𝑉 = × 100% = 15,69%
104,2
Vemos que el vendedor C tiene la mayor variabilidad,
mientras que el B tiene la menor. El desempeño de C
parece ser mejor si analizamos la media, pero hay que
tener en cuenta que también tiene la mayor
variabilidad en la concreción de los objetivos.
Amplitud o Rango
Una evaluación rápida de la dispersión de los datos se puede
realizar calculando el recorrido(también llamado rango), o
diferencia entre el valor máximo y mínimo que toma la variable
estadística. Con el fin de eliminar la excesiva influencia de los
valores extremos en el recorrido, se define el recorrido
intercuartílico como la diferencia entre el tercer y primer cuartil
𝑅1 = 𝑄3ൗ − 𝑄1ൗ
4 4
Está claro que este recorrido nos dará entonces el rango que
ocupan el 50 % central de los datos. En ocasiones se utiliza el
recorrido semi intercuartílico, o mitad del recorrido intercuartílico
𝑄3ൗ − 𝑄1ൗ
4 4
𝑅𝑆𝐼 =
2
El rango es fácil de entender y de encontrar, pero
su utilidad como medida de dispersión es limitada.
Como sólo toma en cuenta el valor más alto y el
valor más bajo ignora la naturaleza de la variación
entre todas las demás observaciones, y se ve muy
influido por los valores extremos.
Debido a que considera sólo dos valores tiene
muchas posibilidades de cambiar drásticamente de
una muestra a otra en una población dada.
Las distribuciones de extremo abierto no tienen
rango.
Sesgo
Las curvas que representan un conjunto de datos
pueden ser simétricas o sesgadas. Las curvas
simétricas tienen una forma tal que una línea vertical
que pase por el punto más alto de la curva, divide al
área de ésta en dos partes iguales. Si los valores se
concentran en un extremo se dice sesgada. Una curva
tiene sesgo positivo cuando los valores van
disminuyendo lentamente hacia el extremo derecho
de la escala y sesgo negativo en caso contrario.
Sesgo - Asimetria
El sesgo es una medida de la asimetría de la curva.
En general es un valor que va de -3 a 3. Una curva
simétrica toma el valor 0.
En las distribuciones sesgadas, la media tiende a
encontrarse del mismo lado que la cola más larga
opuesto al de la moda y que la cola más larga. Por
lo tanto, una medida de la simetría (o sesgo) se
obtiene mediante la diferencia: media – moda. Esta
medida se puede hacer adimensional dividiendo
entre una medida de dispersión, como la desviación
estándar, lo que conduce a la definición:
𝑚𝑒𝑑𝑖𝑎 − 𝑚𝑜𝑑𝑎 𝑋ത − 𝑀𝑜
𝑆𝑒𝑠𝑔𝑜 = =
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑆
Medidas de Asimetría
Indice de simetría de Pearson:
𝑋ത − 𝑀𝑜
𝐴𝑠 =
𝜎
Indice de simetría de Fisher:
1 σ𝑛𝑖=1 𝑋𝑖 − 𝑋ത 3 𝑓𝑖
𝑔1 = ×
𝑁 𝜎3
Si la distribución es simétrica, ambos índices son iguales
a 0; si es asimétrica a la derecha, ambos son positivos;
y si es asimétrica a la izquierda, ambos índices son
negativos.
Curtosis
La curtosis indica qué tan puntiaguda es una
distribución; esto por lo regular es en relación con la
distribución normal.
A una distribución que tiene un pico relativamente
alto se le llama leptocúrtica, en tanto que si es
relativamente aplastada se dice platicúrtica. Una
distribución normal, que no es ni puntiaguda ni muy
aplastada se llama mesocúrtica.
En una medida de la curtosis se emplea el cuarto
momento respecto de la media, expresada en forma
adimensional, esta medida se encuentra dada por:
Miden la mayor o menor concentración de
datos alrededor de la media. Se suele
medir con el coeficiente de curtosis:
𝑛
1 σ𝑖=1 𝑋𝑖 − 𝑋ത 4 𝑓𝑖
𝑔2 = × 4
−3
𝑁 𝜎
Si este coeficiente es nulo, la distribución se dice
normal (similar a la distribución normal de Gauss) y
recibe el nombre de mesocúrtica.
Si el coeficiente es positivo, la distribución se llama
leptocúrtica, más puntiaguda que la anterior. Hay una
mayor concentración de los datos en torno a la
media.
Si el coeficiente es negativo, la distribución se llama
platicúrtica y hay una menor concentración de datos
en torno a la media. sería más achatada que la
primera.