Estadistica Descriptiva

Estadística Descriptiva
2018-II
1-2
Tipos de Datos
Dato
Cualitativo Cuantitativo
(Categórico) (Numérico)
Ejemplos:
◼ Genero Discreto Continuo
◼ Estado civil
◼ Partido político Ejemplos: Ejemplos:
◼ Color de ojos
(Categorías definidas) ◼ Número de hijos ◼ Peso
◼ Defectos por hora ◼ Voltaje
(Valores contados) (Medidas de
carácterísticas)
Población y muestra
❑ Población: Conjunto
bien definido de N-
entes, cuyas
*características nos
proponemos a
Muestra investigar
Población
❑ Muestra:
subconjunto de la
población
La información obtenida
de la muestra nos permite
inferir las propiedades o
características de toda la
Unidad de investigación
Elementos de la población población, con errores
objetivo a los que se les Observación: medibles y acotables
efectúa las medidas bajo Cada un de los
análisis elementos incluidos
en la muestra
Caracterización de muestras
 Si representa por X una característica de interés de una población
Objetivo, a una muestra de tamaño n de esta Población, se la
representa por,
𝑥1 , 𝑥2 , … , 𝑥𝑛
Es valido representar esta muestra por un vector X en 𝑅𝑛 de la
siguiente forma:
𝑋 𝑇 = (𝑥1 , 𝑥1 , … 𝑥𝑛 )
Donde 𝑋 𝑇 representa el vector transpuesto de X.

Datos e información
Procesamiento
de los datos
Dato Información
Tabulación Conjunto de datos
Mediciones no de datos procesados que
procesadas Gráficos nos permiten tomar
- Numéricas Medidas decisiones
- Categóricas razonables
Obtención de información a partir de
datos de una muestra
 Tenemos una muestra de tamaño n
Que es lo que nosotros necesitamos hacer para que pase

ha ser material estadísticamente útil?
Graficar los datos Calcular a partir de

Tabular los datos ordenados utilizando muestras
Ordenar los datos
ordenados el concepto de caracteristicas de la
Frecuencia Relativa poblacion
Actividad de Clase
Obtención de una muestra

Estadísticos de Orden
 Dada una muestra X de tamaño n, al Primer estadístico de Orden lo
denotamos por 𝑋(1) , y lo definimos como el mínimo valor que constituye la
muestra, esto es
𝑋(1) = 𝑚𝑖𝑛 𝑥1 , 𝑥2 , … , 𝑥𝑛
 El estadístico de orden n se lo denota como
𝑋(𝑛) = 𝑚𝑎𝑥 𝑥1 , 𝑥2 , … , 𝑥𝑛
 Eestadístico de orden dos, tres y así pasando por el i-ésimo orden, llegamos
al de orden (n-1) y de orden n, esto significa:
𝑋(1) ≤ 𝑋 2 ≤𝑋 3 … 𝑋(𝑛−1) ≤ 𝑋(𝑛)

Regla de Sturges
 1) Calcule el Rango (R).- También se llama recorrido o amplitud total. Es la diferencia
entre el valor mayor y el menor de los datos.
 2) Seleccione el Número de Intervalos de Clase (ni).- No debe ser menor de 5 y

mayor de 12, ya que un número mayor o menor de clases podría oscurecer
el comportamiento de los datos. Para calcular el número de intervalos se aplica la
regla de Sturges:
Siendo n el tamaño de la muestra.
 Calcule el Ancho del Intervalo (i).- Se obtiene dividiendo el Rango para el número
de intervalos
 Cuando el valor de i no es exacto, se debe redondear al valor superior
más cercano. Esto altera el valor de rango por lo que es necesario
efectuar un ajuste así:
Procesamiento de los datos
b) Tabulación de los datos: Clase y Marca de Clase
No. de Clase Clase Marca de Frecuencia Frecuencia Frecuencia Frecuencia

clase Absoluta Relativa Absoluta Relativa
Acumulada Acumulada
1 [𝑎1 , 𝑎2 ) (𝑎1 + 𝑎2 )/2 𝑓1 𝑓1 /n 𝐹1 𝐹1 /n

2 [𝑎2 , 𝑎3 ) (𝑎2 + 𝑎3 )/2 𝑓2 𝑓2 /n 𝐹2 = 𝑓1 +𝑓2 𝐹2 /n
3
,
k [𝑎𝑘 , 𝑎𝑘+1 ) (𝑎𝑘 + 𝑎𝑘+1 )/2 𝑓𝑘 𝑓𝑘 /n 𝐹𝑘 = 𝐹𝑘
=1
𝑓1 +𝑓2+…+𝑓𝑛 n
1-13
b) Tabulación de los datos
Como se definen las clases o intervalos

Condiciones
Exhaustivos
Mutuamente excluyentes
Igual longitud
Gráficos
 Histograma de Frecuencias
 Polígono de Frecuencias
 Grafico de la Ojiva
 Grafico de los cuartiles a partir de la Ojiva.
c) Gráficos
Histogramas
Polígono de frecuencias
Ojiva: Distribución de
frecuencias acumulada
Cuantiles y Medidas de
tendencia central y
dispersión
Medidas de Resumen
Describiendo Numéricamente los Datos
Medidas de tendencia Central Medidas de Posición Variación/ Medidas de dispersión

Rango
Media Percentiles
Rango
Mediana Cuartiles Intercuartílico
Moda Deciles Varianza
Media Ponderada Desviación
Estándar
Media Cortada de una
muestra Coeficiente de
Variación
Actividad de Clase
 Muestreo Sistemático
 Intervalo de la muestra=5
 Característica de interés: Número de hermanos
Medidas de tendencia Central
Media Mediana Moda Media Ponderada

n Punto medio Punto de mayor frecuencia
 xi M W =  wi xi
x= i =1
n Condiciones
w
N
x i i =1
= i =1
N 0  wi  1
𝑇𝛼 = Media aritmética del 1 − 𝛼 100% de los datos ordenados,

𝛼
Media Cortada suprimiendo en una muestra ordenada 2 100% de datos de la “parte
𝛼
superior y 100% de la “parte inferior” de la muestra. Usualmente 𝛼 = 0,10
2
Mediana
Para obtener la mediana, ordenar los n valores (datos) de

menor a mayor. El conjunto de datos ordenados es
llamado arreglo ordenado de datos
Encontrar el valor en la ubicación i = (1/2)n
La ima ubicación es el Punto de la Mediana
Si i no es un entero, redondear hacia arriba
Si i es un entero, la mediana es el promedio de los valores en las
ubicaciones “i ” e “i + 1”
3-21
Media Ponderada
 Usado cuando los valores son agrupados por frecuencia o

importancia relativa
Media Ponderada de Días para Culminar

Ejemplo: Muestra de 26
proyectos de reparación
Días para Frecuencia XW = w x
i i
=
(4  5) + (12  6) + (8  7) + (2  8)
Culminar
w i 4 + 12 + 8 + 2
5 4 164
6 12 = = 6.31 días
26
7 8
8 2
3-22
Medidas de Posición - Cuantiles
Son números que dividen al grupo de datos ordenados, en grupos de
aproximadamente igual cantidad de datos con el propósito de resaltar su ubicación
 El pmo percentil en un arreglo ordenado de n valores es el valor en

la ubicación ima, donde
Si i no es un entero,
Índice de
redondear hacia arriba
Ubicación p
del
Percentil
i= (n) Si i es un entero, considerar
100 el promedio del imo y del
(i+1)mo valor.
Percentiles→ dividimos los dados en 100 partes

Cuartiles → dividimos los datos en 4 partes
Deciles→ dividimos los datos en 10 partes

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
% % % % % % % % % % % % % % % % % % % % % % % % % % %
Percentiles
P1 P2 P99
Los cuartiles dividen a los datos ordenados en cuatro grupos iguales:
25% 25% 25% 25%

Cuartiles
Q1 Q2 Q3
Primer Cuartil = es un valor Q1 de la muestra, tal que, no más del 25% por ciento
de las observaciones ordenadas toman valores menores o iguales a Q1
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
Deciles
D1 D2 D3 D4 D5 D6 D7 D8 D9
Percentiles
Los cuartiles dividen a los datos ordenados en cuatro grupos iguales:
25% 25% 25% 25%

Cuartiles Q1 Q2 Q3
Notar que el segundo cuartil (el 50mo percentil), Q2, es la mediana
IQR (rango intercuartílico) = Q3 – Q1
Deciles
Diagrama de Caja
* *
Valores “Valor más pequeño” “Valor más grande”
Atípicos (Límite Inferior) Q1 Q2 Q3
(Límite Superior)
El límite inferior es El límite superior es

Q1 – 1.5 (Q3 – Q1) Q3 + 1.5 (Q3 – Q1)
◼ Dibujar una caja desde Q1 a Q3

◼ Trazar una línea vertical en la mediana
◼ Trazar líneas (bigotes) hacia el valor más pequeño y más grande (dentro de los
límites calculados)
3-26
◼ Identificar los valores atípicos fuera de los límites calculados
Detención de valores atípicos, datos
aberrantes, datos extremos
❑ 𝒔𝒊 𝒆𝒔 𝒖𝒏 𝒗𝒂𝒍𝒐𝒓 𝑴𝒆𝒏𝒐𝒓 𝑎𝑙 max 𝑋 1 , 𝑄1 − 1,5𝑅𝐼
❑ 𝒔𝒊 𝒆𝒔 𝒖𝒏 𝒗𝒂𝒍𝒐𝒓 𝑴𝑨𝒀𝑶𝑹 𝑎𝑙 m𝑖𝑛 𝑋 𝑛 , 𝑄3 + 1,5𝑅𝐼

Variaciones
Misma media pero diferentes
desviaciones estándar:
Datos A
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 3.338
Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.9258
Datos C
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.57
3-28
Variación
Rango Varianza Desviación Coeficiente de

Estándar Variación
R = X (n ) − X (1) Varianza
Poblacional s
N
Desviación
Estándar V = 100
x
Rango  i
(x − μ) 2 Poblacional
Intercuartílico σ2 = i=1
σ = σ2
N
RI = Q(3) − Q(1) Varianza
Muestral Desviación
Estándar
n Muestral
En este capitulo solo que se  i
(x − x ) 2
s = s2
indique lo contrario se s2 = i =1
trabajara en base a muestras n -1
Variación
 Las medidas de variación dan información sobre la dispersión o variabilidad de los

datos
 Valor pequeño
 Menos variación
 Valor grande
 Más variación
Mismo centro,
diferente variación
3-30
Medidas de tendencia
central y dispersión para
datos agrupados
Medidas y desviación para datos agrupados
K
Media
Y i fi Varianza de
la muestra
K
 i
(Y − y ) 2
fi
y= i =1
s2 = i =1
n n -1
Yi = i-ésima marca de
clase
Covarianza
 En probabilidad y estadística, la covarianza es un valor que indica el
grado de variación conjunta de dos variables aleatorias respecto a sus
medias.
 Cuando los valores altos de una de las variables suelen
mayoritariamente corresponderse con los valores altos de la otra, y lo
mismo se verifica para los pequeños valores de una con los de la otra, se
corrobora que tienden a mostrar similar comportamiento lo que se
refleja en un valor positivo de la covarianza.
 Por el contrario, cuando a los mayores valores de una variable suelen
corresponder en general los menores de la otra, expresando un
comportamiento opuesto, la covarianza es negativa.
 El signo de la covarianza, por lo tanto, expresa la tendencia en la
relación lineal entre las variables.
Cálculo de la Covarianza
X= # de Y=# materias
años en la aprobadas
estudiando
su carrera
en la ESPOL
(Hacer un
corte hasta
el semestre
anterior)
Correlación
Covarianza entre X e Y
𝑐𝑜𝑣(𝑥,𝑦) 𝑆𝑥𝑦
C𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑋 𝑦 𝑌 = 𝑟𝑥𝑦 = =
𝑠𝑥 𝑠𝑦 𝑠𝑥 𝑠𝑦
 ( x − x )( y − y ) Desviación
r= n −1 típica de X
multiplicada
 ( x − x ) 2
 ( y − y ) 2
por la
desviación
n −1 n −1 típica de Y
rxy =
 ( x − x )( y − y ) Indicador de relaciones lineales entre dos
[ ( x − x ) ][ ( y − y )
2 2
] variables X y Y de una misma muestra
Mide la “Fortaleza” de la relación lineal
Características de r
No tiene unidad de medida.

Varía entre -1 y 1.
La cercanía a -1 indica fuerte relación lineal negativa.
La cercanía a 1 indica fuerte relación lineal positiva.
La cercanía a 0 indica débil relación lineal.
+1 ó -1 son correlaciones perfectas donde todos los

datos (puntos) caen sobre una línea recta.
14-36
Gráficos de Dispersión: Ejemplo
No hay relación
Relaciones fuertes
y
y
x
x
y
y
x
x
Matrices de datos,
covarianzas
** Revisar el apartado de vectores de medias y Matriz de varianzas y
covarianzas pg 40-43
MATRIZ DE VARIANZAS Y COVARIANZAS
MATRIZ DE CORRELACIÓN
Es una representación ordenada de los coeficientes de correlación de cada
variable con otra variable y consigo misma
𝑟11 = 𝑟22 = 1
Resumen de datos Cualitativos
Distribución de Frecuencias

Estadistica Descriptiva

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Estadistica Descriptiva

Încărcat de

Drepturi de autor:

Formate disponibile

Estadística Descriptiva

Donde 𝑋 𝑇 representa el vector transpuesto de X.

Que es lo que nosotros necesitamos hacer para que pase

Graficar los datos Calcular a partir de

Obtención de una muestra

𝑋(1) ≤ 𝑋 2 ≤𝑋 3 … 𝑋(𝑛−1) ≤ 𝑋(𝑛)

 2) Seleccione el Número de Intervalos de Clase (ni).- No debe ser menor de 5 y

Siendo n el tamaño de la muestra.

No. de Clase Clase Marca de Frecuencia Frecuencia Frecuencia Frecuencia

1 [𝑎1 , 𝑎2 ) (𝑎1 + 𝑎2 )/2 𝑓1 𝑓1 /n 𝐹1 𝐹1 /n

Como se definen las clases o intervalos

Describiendo Numéricamente los Datos

Medidas de tendencia Central Medidas de Posición Variación/ Medidas de dispersión

Media Mediana Moda Media Ponderada

𝑇𝛼 = Media aritmética del 1 − 𝛼 100% de los datos ordenados,

Para obtener la mediana, ordenar los n valores (datos) de

 Usado cuando los valores son agrupados por frecuencia o

Media Ponderada de Días para Culminar

 El pmo percentil en un arreglo ordenado de n valores es el valor en

Percentiles→ dividimos los dados en 100 partes

Deciles→ dividimos los datos en 10 partes

Los cuartiles dividen a los datos ordenados en cuatro grupos iguales:

25% 25% 25% 25%

25% 25% 25% 25%

El límite inferior es El límite superior es

◼ Dibujar una caja desde Q1 a Q3

❑ 𝒔𝒊 𝒆𝒔 𝒖𝒏 𝒗𝒂𝒍𝒐𝒓 𝑴𝒆𝒏𝒐𝒓 𝑎𝑙 max 𝑋 1 , 𝑄1 − 1,5𝑅𝐼

❑ 𝒔𝒊 𝒆𝒔 𝒖𝒏 𝒗𝒂𝒍𝒐𝒓 𝑴𝑨𝒀𝑶𝑹 𝑎𝑙 m𝑖𝑛 𝑋 𝑛 , 𝑄3 + 1,5𝑅𝐼

Rango Varianza Desviación Coeficiente de

 Las medidas de variación dan información sobre la dispersión o variabilidad de los

No tiene unidad de medida.

+1 ó -1 son correlaciones perfectas donde todos los

S-ar putea să vă placă și