Sunteți pe pagina 1din 43

Estadística Descriptiva y Probabilidades

Unidad:
Video
Medidas de dispersión, de
Imagen posición y de forma
docent
e
Logro
Al finalizar la unidad, el estudiante calcula e interpreta las
medidas de dispersión, de posición (cuantiles) y las medidas de
forma (asimetría y curtosis) para datos agrupados y no
agrupados.
Importancia
Es importante conocer e interpretar la variabilidad de los datos,
correspondientes a una variable de estudio. Así como también,
identificar que porcentaje de datos dentro de una distribución
de frecuencias son menores o mayores a un valor de dato
específico. Y finalmente, conocer la forma de la distribución de
los datos.
Contenido general

• Medidas de dispersión
• Medidas de posición
• Medidas de forma
Tema: Medidas de dispersión
Medidas de dispersión
Son cantidades que miden el grado en que los datos numéricos tienden a
extenderse alrededor de un valor medio.
Medidas de dispersión
La importancia que tienen es porque proporcionan más información que permite
juzgar la confiabilidad de las medidas de tendencia central. Si los datos están muy
dispersos, las medidas de tendencia central son menos representativas de los
datos que cuando están más agrupadas alrededor de la media.
Rango o recorrido de la
variable
PRINCIPALES MEDIDAS
Varianza
DE DISPERSIÓN

Desviación estándar

Coeficiente de variación
Medidas de dispersión
Definiciones de Estadígrafos
Varianza: (S2)
Es el promedio aritmético de las desviaciones estándar respecto a su media elevadas al cuadrado.
Desviación estándar: (S)
Representa el grado de dispersión de los valores de una variable, con respecto a su media.
Coeficiente de variación: (CV)
Indica el porcentaje de variabilidad de los datos respecto a la media:

CV Dispersión
0 ≤ CV < 20% BAJA
20% ≤ CV < 50% MEDIA
50% ≤ CV < 100% ALTA
Medidas de dispersión
Rango o recorrido de la variable: Es la diferencia entre el valor máximo y el
valor mínimo de la variable para un conjunto de datos.

Sea la variable representada por X:

Rango (R) = X max – X min

Donde:
Xmax: valor máximo de la variable
Xmin: valor mínimo de la variable
Medidas de dispersión
Varianza: Se define como la media aritmética del cuadrado de las desviaciones de
las observaciones con respecto a su media.
Para datos no agrupados: Para datos agrupados:
Medidas de dispersión
Desviación estándar: Se define como la raíz cuadrada de la varianza.

Desviación estándar poblacional:

Desviación estándar muestral:


Medidas de dispersión
Coeficiente de variación: Se define como el cociente entre la desviación
estándar y la media. Permite comparar dos a más conjuntos de datos.

Coeficiente de variación poblacional:

Coeficiente de variación muestral:

En general consideraremos lo siguiente:

CV < 10% -> Implica DATOS HOMOGENEOS


10% ≤ CV ≤ 30% -> Implica DATOS VARIABLES
CV > 30% -> Implica DATOS HETEROGENEOS
Medidas de dispersión
PROPIEDAD 1
Si todos los valores observados son iguales a b (donde b es una constante)
entonces

PROPIEDAD 2
Si a cada valor de las observaciones se le suma (o resta) una constante, la
varianza del nuevo conjunto transformado e será la misma que la varianza de las
observaciones iniciales, es decir:

PROPIEDAD 3
Si a cada valor de las observaciones se le multiplica por una constante
diferente de cero, la varianza del nuevo conjunto transformado es la varianza del
conjunto original multiplicado por la constante elevado al cuadrado.
Tema: Medidas de posición
Medidas de posición
La medidas de posición corresponden a los valores Deciles (Dk)
de la variable que dividen a un conjunto de datos Los deciles son nueve valores que dividen al
ordenados en intervalos que contienen el mismo conjunto de datos en diez partes iguales.
número de observaciones. También se les conoce
con el nombre de cuantiles.

Cuartiles (Qk)
Los cuartiles son tres valores que dividen al
conjunto de datos en cuatro partes iguales. Percentiles (Pk)
Los percentiles son novena y nueve valores que
dividen al conjunto de datos en cien partes iguales.

P5 P50 P80 P99


Medidas de posición
0% 25% 50% 75% 100%

Q1 Q2 Q3

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

D1 D2 D3 D4 D5 D6 D7 D8 D9

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

P5 P20 P50 P75 P90 P99

Equivalencias:
✓ Q2 = D5 = P50 = Me
✓ Q3 = P75
✓ D7 = P70
Cálculo de percentiles para datos no agrupados (Pk)
Procedimiento a seguir:

1. Ordenar los datos en 2. Calcular la posición del 3. Ubicar el percentil buscado


forma ascendente percentil k-ésimo mediante la en la posición calculada si éste
siguiente expresión: es un número entero, de lo
contrario dicho valor se calcula
Posición = k (n + 1) en forma proporcional en base a
100 la siguiente fórmula:
Pk = Li + parte decimal x (Ld – Li)

Donde:

Pk: Percentil k-ésimo.


Li: Valor del dato ubicado en la posición con el valor de k aproximado a entero.
Ld: Valor del dato superior o inmediato a Li
Cálculo de percentiles para datos no agrupados (Pk)
Caso: Duración de una batería
Un fabricante de componentes electrónicos se interesa en determinar el tiempo
de vida útil de cierto tipo de batería. Se presenta a continuación una muestra de
24 horas de vida registradas:

134 122 122 125 126 172 131 180


134 120 136 161 140 140 140 145
146 153 155 159 139 162 128 132

¿Cuál es la valor a partir del cuál se encuentra el 30% superior de los tiempos en
horas de vida útil de las baterías?
Cálculo de percentiles para datos no agrupados (Pk)
Caso: Duración de una batería
Solución:
1. Ordenando los datos en forma ascendente
120 122 122 125 126 128 131 132
134 134 136 139 140 140 140 145
146 153 155 159 161 162 172 180

2. Cálculo de la posición del percentil 70:

Posición = 70 (24+1) Posición = 17.5


100
Cálculo de percentiles para datos no agrupados (Pk)
Caso: Duración de una batería
El valor de 17.5 se encuentra entre las posiciones 17 y 18 de los datos ordenados en forma ascendente:
X17 = 146, entonces: Li = 146
X18 = 153, entonces: Ld = 153
120 122 122 125 126 128 131 132
134 134 136 139 140 140 140 145
146 153 155 159 161 162 172 180

3. Cálculo de P70:

Pk = Li + parte decimal x (Ld – Li)


P70 = 146 + 0.5 x (153 – 146)

P70 = 149.5 horas

Interpretación: El 70% de los tiempos de vida útil


registrados son menores a 149.5 horas.
Tema: Medidas de posición para datos
agrupados
Cálculo de percentiles para datos agrupados (Pk)

Procedimiento a seguir:

1. Calcular la posición del percentil k-ésimo mediante la siguiente expresión:

Posición = k n
100

2. Ubicar la posición calculada en los valores de la frecuencia


acumulada Fi.
Cálculo de percentiles para datos agrupados (Pk)
3. El percentil estará ubicado en el intervalo que tenga un
 kn 
valor de frecuencia acumulada correspondiente al mínimo  100 - Fi-1 
valor que es mayor o igual a la posición calculada. Una vez P =L +c 
k i  f 
identificado el intervalo se calcula el percentil usando la i
 
siguiente fórmula:

Donde:
Pk: Percentil k-ésimo.
Li: Límite inferior del intervalo donde se encuentra el valor del percentil Pk.
c: Amplitud de la clase
k: Valor k-ésimo
Fi-1: Frecuencia acumulada.
fi: Frecuencia absoluta del intervalo donde se encuentra el valor del percentil Pk.
Cálculo de percentiles para datos agrupados (Pk)
Caso: Aplicativos en Android
La empresa SYSTEM S.A.C. se dedica al desarrollo de aplicativos desarrollados en ANDROID para dispositivos
móviles. A la empresa le interesa desarrollar aplicaciones de calidad que tengan el menor tamaño en MB posible
para que los usuarios puedan hacer las descarga más rápidamente en sus dispositivos móviles. A continuación
se presentan los tamaños registrados en MB de 40 aplicaciones desarrolladas:
Tamaño del aplicativo (MB) N° de aplicativos
[0; 10> 8
[10; 20> 12
[20; 30> 7
[30; 40> 10
[40; 50] 3
Total 40
El área de calidad de software de la empresa indicó que si el promedio
del tamaño registrado de las aplicaciones desarrolladas pertenece al
45% inferior de los datos, se le dará un bono a los programadores a fin
de mes. ¿Cuál es la decisión final que tomará el gerente de la
empresa?
Cálculo de percentiles para datos agrupados (Pk)
Caso: Aplicativos en Android
Solución:
1. Calculo de la marca de clase y de la media:
Tamaño del aplicativo N° de aplicativos Marca de clase Frecuencia acumulada
fi . Xi
(MB) (fi) (Xi) (Fi)
[0; 10> 8 5 8 40
[10; 20> 12 15 20 180
[20; 30> 7 25 27 175
[30; 40> 10 35 37 350
[40; 50] 3 45 40 135
Total 40 880

X = 880/40 = 22 MB
Cálculo de percentiles para datos agrupados (Pk)
Caso: Aplicativos en Android
Solución:
2. Cálculo de la posición del percentil:
Tamaño del aplicativo N° de aplicativos Marca de clase Frecuencia acumulada
fi . Xi
(MB) (fi) (Xi) (Fi)
[0; 10> 8 5 8 40
[10; 20> 12 15 20 180
[20; 30> 7 25 27 175
[30; 40> 10 35 37 350
[40; 50] 3 45 40 135
Total 40 880
Para el 45% superior de los datos corresponde k = 45.

Posición = k n = 45 (40) = 18
100 100
Cálculo de percentiles para datos agrupados (Pk)
Caso: Aplicativos en Android
Ubicamos la posición calculada (Posición = 18) en la columna de frecuencias acumuladas (Fi).

Tamaño del aplicativo N° de aplicativos Marca de clase Frecuencia acumulada fi . Xi


(MB) (fi) (Xi) (Fi)
[0; 10> 8 5 Fi-1 = 8 40
[10; 20> fi = 12 15 Fi = 20 180
[20; 30> 7 25 27 175
[30; 40> 10 35 37 350
[40; 50] 3 45 40 135
Total 40 880
Cálculo de percentiles para datos agrupados (Pk)
Caso: Aplicativos en Android
 kn 
 100 - Fi-1 
3. Calculo del valor del percentil P45: P =L +c 
k i  f 
i
 

Reemplazando los valores:

P45 = 10 + 10 x (45 x 40 / 100 - 8) P45 = 18.3 MB


12

Conclusión: Como el valor de la media ( X = 22 MB) es mayor que el


valor de P45 = 18.3 MB, no se entregará el bono a los programadores a
fin de mes; teniendo en cuenta las indicaciones del área de calidad del
software de la empresa.
Cálculo de cuartiles (Qi) y deciles (Di) para
datos agrupados
Procedimiento a seguir:

1. A diferencia del calculo del percentil, la posición se calcula:

Posición = k n
Cuartil: 4

Posición = k n
Decil: 10

2. Ubicar la posición calculada en los valores de la frecuencia


acumulada Fi. (Se sigue el mismo procedimiento que el percentil)
Cálculo de cuartiles (Qk) y deciles (Dk) para
datos agrupados
3. El cuantil a calcular estará ubicado en el intervalo  kn 
 100 - F
asociado a la frecuencia acumulada correspondiente 4 i-1 
al mínimo valor que es mayor o igual a la posición Cuartil:
P
Qkk = L
i
+ c  
 f 
calculada. Una vez identificado el intervalo se i
calcula el cuantil usando las siguientes fórmulas,  
según sea el caso:

 kn 
 100 - F
10 i-1 
Decil: P
Dkk = L
i
+ c  
 f 
 i 
 
Tema: Medidas de forma
Asimetría
• Son medidas que permiten conocer la forma que tiene la curva que representa al conjunto de datos. Nos
brindan información sobre la dirección de la dispersión de los datos.
• Si esta dispersión tiende hacia el lado derecho, diremos que la curva tiene asimetría positiva, en caso
contrario diremos que tiene asimetría negativa.
• Si las dispersiones de la curva son iguales diremos que la curva es simétrica.
Coeficiente de asimetría de Pearson (Ak)

(x - Me)
A =3
k s
: media muestral
Me: mediana
S: desviación estándar

Si Ak < 0, la distribución tiene asimetría negativa.


Si Ak = 0, la distribución es simétrica.
Si Ak > 0, la distribución tiene asimetría positiva.
Coeficiente de asimetría de Pearson (Ak)
Caso: Componente electrónico
Se realiza un estudio sobre el tiempo de vida útil de un componente electrónico. A continuación se presenta
la tabla de datos agrupados por intervalos para una muestra de 40 tiempos en horas de vida útil de los
componentes electrónicos en estudio:
Tiempo de vida útil (Horas) N° de componentes (fi)
[500; 700> 6
[700; 900> 12
[900; 1100> 10
[1100; 1300> 8
[1300; 1500] 4
Total 40

Calcular e interpretar el coeficiente de asimetría correspondiente a los


tiempos en horas de vida útil de la muestra de 40 componentes
electrónicos.
Coeficiente de asimetría de Pearson (Ak)
Caso: Componente electrónico
Solución:
1. Completando la tabla de frecuencias:
Tiempo de vida útil N° de Marca de clase Frecuencia
f i . Xi fi . (Xi - )2
(Horas) componentes (fi) (Xi) acumulada (Fi)
[500; 700> 6 600 6 9600 821400
[700; 900> 12 800 18 10000 346800
[900; 1100> 10 1000 28 9600 9000
[1100; 1300> 8 1200 36 6000 423200
[1300; 1500] 4 1500 40 9600 1123600
Total 40 38800 2724000

2. Cálculo de las medidas estadísticas: Nota: Para el Cálculo de


Media ( ) = 38800/40 = 970 la mediana (Me), se
Mediana (Me) = 900+200x(20-18)/10 = 940 debe considerar la
Varianza (S2) = 2724000/(40-1) = 69846.15 posición n/2 = 40/2 = 20
Desviación estándar (S) = 69846.15 1/2 = 264.28
Coeficiente de asimetría de Pearson (Ak)
Caso: Componente electrónico
3. Reemplazando en la fórmula de Asimetría:

(x - Me) Ak = 3 x (970 – 940) / 264.28


A =3
k s Ak = 0.341

4. Interpretación: La distribución de los datos presenta una asimetría positiva.


Curtosis
Estas medidas nos brindan información sobre el grado de deformación vertical de una
distribución de frecuencias en comparación con la curva normal que le corresponde.

Tipos de distribuciones según su grado de curtosis:

Distribución Distribución Distribución


Platicúrtica Mesocúrtica Leptocúrtica
• Si el grado de • Si el grado de • Si el grado de
apuntamiento es menor apuntamiento es igual apuntamiento es mayor
que el de la distribución que el de la distribución que el de la distribución
normal. normal. normal.
Coeficiente de curtosis

a) Si Ku < 0.263, la distribución es Platicúrtica.


(P75 - P25 )
Ku =
2(P90 - P10 )

P10, P25, P75, P90: percentiles b) Si Ku = 0.263, la distribución es Mesocúrtica.

c) Si Ku > 0.263, la distribución es Leptocúrtica.


Coeficiente de curtosis
Caso: Casa prefabricada
La resistencia es una característica importante de los materiales utilizados en casas prefabricadas. Cada uno de
los 50 elementos de placa prefabricados se sometieron a prueba de esfuerzo severo y se registró el ancho
máximo (mm) de las grietas resultantes. Los datos registrados para la muestra en estudio fue la siguiente:
Ancho máximo de la grieta (mm) N° de elementos de placa (fi)
[0.4; 0.5> 6
[0.5; 0.6> 14
[0.6; 0.7> 10
[0.7; 0.8> 9
[0.8; 0.9] 4
[0.9; 1] 7
Total 50

Calcular e interpretar el coeficiente de asimetría correspondiente a los


anchos máximos (mm) de las grietas resultantes para la muestra de 50
elementos de placa prefabricados.
Coeficiente de curtosis
Caso: Casa prefabricada
Solución:
1. Completando la tabla de frecuencias:
Ancho máximo de la N° de elementos de Frecuencia acumulada
grieta (mm) placa (fi) (Fi)
[0.4; 0.5> 6 6
[0.5; 0.6> 14 20
[0.6; 0.7> 10 30
[0.7; 0.8> 9 39
[0.8; 0.9] 4 43
[0.9; 1] 7 50
Total 50

2. Cálculo de las medidas de posición:


Percentil Posición Fórmula Valor
P75 37.5 = 0.7+0.1x(37.5-30)/9 0.78
P25 12.5 = 0.5+0.1x(12.5-6)/14 0.55
P90 45 = 0.9+0.1x(45-43)/7 0.93
P10 5 = 0.4+0.1x(5-0)/6 0.48
Coeficiente de curtosis
Caso: Casa prefabricada
3. Reemplazando en la fórmula de curtosis:
(P75 - P25 )
Percentil Valor Ku =
P75 0.78 2(P90 - P10 )
P25 0.55
P90 0.93
Ku = 0.255556
P10 0.48

4. Interpretación: Los datos presentan una distribución PLATICÚRTICA.


Conclusiones
• Las medidas de dispersión permiten conocer la
variabilidad de los datos.

• Los cuantiles son medidas de posición que dividen a un


conjunto de datos ordenados en partes iguales.

• La asimetría mide el grado de deformación horizontal de


una distribución de frecuencias para un conjunto de
datos.

• La curtosis mide el grado de deformación vertical de una


distribución de frecuencias para un conjunto de datos.
Gracias
Docente: Antonio Alejandro Gamero Paredes

S-ar putea să vă placă și