Documente Academic
Documente Profesional
Documente Cultură
Octubre 2017
1 Estadı́stica Descriptiva
Definiciones básicas
Gráficos Estadı́sticos
Medidas descriptivas
Datos
Información proveniente de observaciones, conteos, medidas o respuestas.
Población (Universo)
Conjunto finito o infinito de todos los elementos que se desea estudiar.
Muestra
Subconjunto representativo de una población.
Parámetro
Medición numérica de una caracterı́stica de la población.
Estadı́stico
Medición numérica de una caracterı́stica de la muestra.
Ejemplo: En Ecuador, el 85.5% de las personas tienen una instalación para
lavarse las manos con agua y jabón dentro de la vivienda. (Encuesta EN-
EMDU, diciembre 2016)
Tipos de Datos
Cualitativos (Categóricos): Atributos, etiquetas o cualquier entrada
no numérica (i.e. La nacionalidad de los jugadores de fútbol del Manch-
ester United).
Cuantitativos: Medidas numéricas o conteos.
Discretos: Datos que toman números finitos o contables (i.e. Número
de panes que compra una familia en la tienda del barrio).
Continuos: Infinitos posibles valores que corresponden a alguna escala
continua sin interrupciones o saltos (i.e. La cantidad de gasolina a la
semana que utiliza un auto 4x4 medido en galones).
Niveles de Medida
Nominal: Nombres, etiquetas o categorı́as. No existe esquema de
orden (i.e. Colores de automóviles).
Ordinal: Cualitativas o cuantitativas. Siguen un orden determinado.
Las diferencias entre datos carecen de significado (i.e. Tamaño de un
objeto).
Intervalo: Similar a ordinal. Las diferencia entre datos tiene signifi-
cado. No tiene punto de partida natural (i.e. Temperatura, tiempo)
Razón: Similar a intervalo pero con punto de partida natural 0. Las
diferencias y proporciones tienen significado (i.e. Peso, precios)
1 Estadı́stica Descriptiva
Definiciones básicas
Gráficos Estadı́sticos
Medidas descriptivas
Ejemplo:
59-114 ||||| 5
115-170 |||||||| 8
171-226 |||||| 6
227-282 ||||| 5
283-338 || 2
339-394 | 1
395-450 ||| 3
P
i fi = 30
Cálculos adicionales
Frecuencia Relativa: proporción de datos en cada clase.
Frecuencia de clase i-ésima fi
FR = # datos = n
fi
Precios Frecuencia (fi ) MC FR n
5
59-114 5 86.5 30
= 0.17
8
115-170 8 142.5 30
= 0.27
6
171-226 6 198.5 30
= 0.20
5
227-282 5 254.5 30
= 0.17
2
283-338 2 310.5 30
= 0.07
1
339-394 1 366.5 30
= 0.03
3
395-450 3 422.5 30
= 0.10
P P fi
i fi = 30 i n ≈1
fi
Precios Frecuencia (fi ) MC FR n
FA
Histograma de Frecuencias
Gráfico de barras que representa la distribución de frecuencias de un
conjunto de datos cuantitativos.
Caracterı́sticas:
Eje horizontal es cuantitativo y representa los valores de los datos.
Eje vertical representa frecuencias (absolutas o relativas).
Barras se dibujan sin espacios entre ellas.
Cada barra empieza y termina en la frontera de clase.
El eje horizontal puede contener etiquetas de las fronteras de clase o
de las marcas de clase.
8
Precios fi MC FR FA
Frecuencia
171-226 6 198.5 0.20 19
227-282 5 254.5 0.17 24
283-338 2 310.5 0.07 26 3
0
Interpretación: Más de la mitad de los disposi-
58.5 114.5 170.5 226.5 282.5 338.5 394.5 450.5
tivos tienen precios inferiores a los $226.5
Precios
0.27
Precios fi MC FR FA
Frecuencia relativa
0.17
171-226 6 198.5 0.20 19
227-282 5 254.5 0.17 24
283-338 2 310.5 0.07 26 0.10
0.00
Interpretación: 64% de los dispositivos tienen
58.5 114.5 170.5 226.5 282.5 338.5 394.5 450.5
precios inferiores a los $226.5
Precios
8
Precios fi MC FR FA
Frecuencia
171-226 6 198.5 0.20 19
227-282 5 254.5 0.17 24
283-338 2 310.5 0.07 26 3
0
Interpretación: 8 dispositivos tienen un precio de
86.5 142.5 198.5 254.5 310.5 366.5 422.5
alrededor de $142.5
Precios
0.27
Precios fi MC FR FA
Frecuencia relativa
0.17
171-226 6 198.5 0.20 19
227-282 5 254.5 0.17 24
283-338 2 310.5 0.07 26 0.10
0.00
Interpretación: El 3% de los dispositivos tiene
86.5 142.5 198.5 254.5 310.5 366.5 422.5
un precio de alrededor de $366.5
Precios
Polı́gono de Frecuencias
Gráfico de lı́nea que muestra el cambio en las frecuencias de manera
continua.
Caracterı́sticas:
Eje horizontal cuantitativo.
Etiquetas de marcas de clase (puntos medios) sobre el eje horizontal.
Eje vertical representa frecuencias (absolutas o relativas).
Marcas de clase conectadas por segmentos lineales.
La gráfica inicia y termina sobre el eje horizontal.
8
Precios fi MC FR FA
Frecuencia
171-226 6 198.5 0.20 19
227-282 5 254.5 0.17 24
283-338 2 310.5 0.07 26 3
0
Interpretación: La frecuencia de dispositivos
86.5 142.5 254.5 366.5
GPS incrementa hasta $142.5 y luego decrece.
Precios
Caracterı́sticas:
Eje horizontal cuantitativo.
Etiquetas de fronteras de clase sobre el eje horizontal.
Eje vertical representa frecuencias acumulativas (absolutas o relativas).
La gráfica inicia en la frontera inferior de la primera clase (frecuencia
acumulativa igual a 0) y termina en la frontera superior de la última
clase (frecuencia acumulativa es igual al número de datos).
30
Precios fi MC FR FA 27
26
24
59-114 5 86.5 0.17 5
Frecuencia acumulativa
115-170 8 142.5 0.27 13
19
171-226 6 198.5 0.20 19
227-282 5 254.5 0.17 24
13
283-338 2 310.5 0.07 26
339-394 1 366.5 0.03 27
395-450 3 422.5 0.10 30 5
0
Interpretación: 24 dispositivos tienen un precio
58.5 114.5 170.5 226.5 282.5 338.5 394.5 450.5
inferior a $282.5
Precios
fi
Precios Frecuencia (fi ) MC FR n
FA FRA
1.00
Precios fi MC FR FA FRA 0.91
0.88
0.81
0.00
Interpretación: 81% de los dispositivos tienen un
58.5 114.5 170.5 226.5 282.5 338.5 394.5 450.5
precio inferior a $282.5
Precios
Pastel
Cı́rculo dividido en sectores que representan categorı́as.
Caracterı́sticas:
Presenta datos cualitativos como porcentajes de un total.
El área de cada sector es proporcional a la frecuencia de cada categorı́a
Precios fi MC FR FA
115−170
59-114 5 86.5 0.17 5 27%
339−394
3%
283−338
Interpretación: El 27% de dispositivos 227−282 7%
tienen un precio entre $115 y $170. 17%
Tipo fi FR
1 Estadı́stica Descriptiva
Definiciones básicas
Gráficos Estadı́sticos
Medidas descriptivas
Medidas descriptivas
Valores numéricos que permiten medir y describir diferentes caracterı́sticas
de un conjunto de datos.
Clasificación
1 Medidas de Tendencia Central
2 Medidas de Dispersión
3 Medidas de Posición
4 Medidas de Forma
30
1 X 90 + 130 + · · · + 150 6304
x̄ = xi = = = 210.13 dólares
30 30 30
i=1
Caracterı́sticas:
Sensible a observaciones extremas.
Ejemplo: Calcular la media x̄ de la siguiente muestra.
6
1X 9.23
x̄ = xi = = 1.538
6 6
i=1
Mediana
Valor que está en el medio de un conjunto de datos ordenados.
x n+1
si n = 2k + 1 (impar)
2
x
e= h i
1
2 x n
+x
n
si n = 2k (par)
2 2
+1
Estadı́sticos de orden
El estadı́stico de orden k es igual al k-ésimo valor más pequeño de un
conjunto de datos.
5, 7, 1, 3, 6
Caracterı́sticas:
Utiliza máximo 2 valores del conjunto de datos para el cálculo.
Ejemplo: Calcular la mediana x e de la siguiente muestra.
Precio de 30 dispositivos GPS en dólares
90 130 400 200 350 70 325 250 150 250
275 270 150 130 59 200 160 450 300 130
220 100 200 400 200 250 95 180 170 150
Moda
Valor que ocurre con mayor frecuencia en un conjunto de datos. Se denota
con la letra M .
Rango medio
Valor que se encuentra a medio camino entre el mı́nimo y el máximo del
conjunto de datos.
x(1) + x(n)
Rango medio =
2
Toma solamente el mı́nimo y el máximo para el cálculo ⇒
extremadamente sensible a valores extremos.
~
x = 200 x = 210.13
M = 200 rango medio = 254.5
6
5
Frecuencia
Precios
Medidas de dispersión
Valor numérico que muestra la variabilidad de una distribución.
Clasificación:
Rango
Varianza
Desviación estándar
Coeficiente de Variación
Rango
Diferencia entre el valor máximo y el valor mı́nimo de un conjunto de
datos.
Varianza
Promedio del cuadrado de las desviaciones respecto a la media de un
conjunto de datos.
Desviación estándar
Medida de variación de los datos respecto a la media. Se calcula como la
raı́z cuadrada de la varianza.
Desviación estándar
Medida de variación de los datos respecto a la media. Se calcula como la
raı́z cuadrada de la varianza.
Pn 2
Pn 2 i xi x2i
n i=1 xi − ( i=1 xi )
s2 = 1 x1 x21
n(n − 1)
2 x2 x22
.. .. ..
s P
n ni=1 x2i − ( ni=1 xi )2
P
. . .
s=
n(n − 1) n xn x2n
Pn Pn
Totales i=1 xi i=1 x2i
CV poblacional CV muestral
σ s
CVp = × 100% CVm = × 100%
µ x̄
Cuantiles
Valores numéricos que dividen al conjunto de datos ordenados en partes
iguales.
Clasificación:
Mediana: x
e ⇒ 2 partes iguales (50%).
Cuartiles: Q1 , Q2 y Q3 ⇒ 4 partes iguales (25%).
Quintiles: Qt1 , Qt2 , Qt3 y Qt4 ⇒ 5 partes iguales (20%).
Deciles: D1 , D2 , . . . , D9 ⇒ 10 partes iguales (10%).
Percentiles: P1 , P2 , . . . , P9 9 ⇒ 100 partes iguales (1%).
De percentil a valor:
Dado un percentil p, deseamos conocer qué valor lo representa.
Algorı́tmo de cálculo: 1
1
Algoritmo predeterminado para el cálculo de cuantiles en el software R.
Eduardo Marı́n Nicolalde (ESPE) Estadı́stica Descriptiva y Probabilidad Octubre 2017 59 / 68
3. Medidas de Posición: Percentil a valor
El percentil p es igual a:
p = x(j) + (h − j) x(j+1) − x(j)
= 250 + (22.75 − 22) x(23) − x(22)
= 250 + [(0.75) (270 − 250)]
= 265
Al menos 75% de los datos son menores a 265. El Q3 divide al conjunto de
datos en dos partes: 75% inicial y 25% final.
Eduardo Marı́n Nicolalde (ESPE) Estadı́stica Descriptiva y Probabilidad Octubre 2017 62 / 68
3. Medidas de Forma
Medidas de forma
Proporcionan información acerca de la forma de la distribución.
Clasificación:
Coeficiente de asimetrı́a
Curtosis
Coeficiente de asimetrı́a
Determina el grado de asimetrı́a de la distribución.
Interpretación:
Si γ1 > 0 asimetrı́a positiva.
Si γ1 < 0 asimetrı́a negativa.
Si γ1 = 0 simétrica.
2
Fórmula de cálculo utilizada por el paquete ”PerformanceAnalytics” del software R y por Excel.
Eduardo Marı́n Nicolalde (ESPE) Estadı́stica Descriptiva y Probabilidad Octubre 2017 64 / 68
3. Medidas de Forma: Coeficiente de asimetrı́a
Grado de asimetrı́a:
Si (γ1 < −1) o (γ1 > 1) altamente asimétrico.
Si (−1 ≤ γ1 < −0.5) o (0.5 < γ1 ≤ 1) asimetrı́a moderada.
Si (−0.5 ≤ γ1 ≤ 0.5) aproximadamente simétrica.
Curtosis
Determina el grado de apuntalamiento de la distribución.