Sunteți pe pagina 1din 37

Estadística Descriptiva

2018-II
1-2
Tipos de Datos

Dato

Cualitativo Cuantitativo
(Categórico) (Numérico)

Ejemplos:
◼ Genero Discreto Continuo
◼ Estado civil
◼ Partido político Ejemplos: Ejemplos:
◼ Color de ojos
(Categorías definidas) ◼ Número de hijos ◼ Peso
◼ Defectos por hora ◼ Voltaje
(Valores contados) (Medidas de
carácterísticas)
Población y muestra
❑ Población: Conjunto
bien definido de N-
entes, cuyas
*características nos
proponemos a
Muestra investigar
Población

❑ Muestra:
subconjunto de la
población

La información obtenida
de la muestra nos permite
inferir las propiedades o
características de toda la
Unidad de investigación
Elementos de la población población, con errores
objetivo a los que se les Observación: medibles y acotables
efectúa las medidas bajo Cada un de los
análisis elementos incluidos
en la muestra
Caracterización de muestras
 Si representa por X una característica de interés de una población
Objetivo, a una muestra de tamaño n de esta Población, se la
representa por,
𝑥1 , 𝑥2 , … , 𝑥𝑛
Es valido representar esta muestra por un vector X en 𝑅𝑛 de la
siguiente forma:
𝑋 𝑇 = (𝑥1 , 𝑥1 , … 𝑥𝑛 )

Donde 𝑋 𝑇 representa el vector transpuesto de X.


Datos e información

Procesamiento
de los datos

Dato Información
Tabulación Conjunto de datos
Mediciones no de datos procesados que
procesadas Gráficos nos permiten tomar
- Numéricas Medidas decisiones
- Categóricas razonables
Obtención de información a partir de
datos de una muestra
 Tenemos una muestra de tamaño n

Que es lo que nosotros necesitamos hacer para que pase


ha ser material estadísticamente útil?

Graficar los datos Calcular a partir de


Tabular los datos ordenados utilizando muestras
Ordenar los datos
ordenados el concepto de caracteristicas de la
Frecuencia Relativa poblacion
Actividad de Clase

Obtención de una muestra


Estadísticos de Orden
 Dada una muestra X de tamaño n, al Primer estadístico de Orden lo
denotamos por 𝑋(1) , y lo definimos como el mínimo valor que constituye la
muestra, esto es
𝑋(1) = 𝑚𝑖𝑛 𝑥1 , 𝑥2 , … , 𝑥𝑛
 El estadístico de orden n se lo denota como

𝑋(𝑛) = 𝑚𝑎𝑥 𝑥1 , 𝑥2 , … , 𝑥𝑛

 Eestadístico de orden dos, tres y así pasando por el i-ésimo orden, llegamos
al de orden (n-1) y de orden n, esto significa:

𝑋(1) ≤ 𝑋 2 ≤𝑋 3 … 𝑋(𝑛−1) ≤ 𝑋(𝑛)


Regla de Sturges
 1) Calcule el Rango (R).- También se llama recorrido o amplitud total. Es la diferencia
entre el valor mayor y el menor de los datos.

 2) Seleccione el Número de Intervalos de Clase (ni).- No debe ser menor de 5 y


mayor de 12, ya que un número mayor o menor de clases podría oscurecer
el comportamiento de los datos. Para calcular el número de intervalos se aplica la
regla de Sturges:

Siendo n el tamaño de la muestra.

 Calcule el Ancho del Intervalo (i).- Se obtiene dividiendo el Rango para el número
de intervalos
 Cuando el valor de i no es exacto, se debe redondear al valor superior
más cercano. Esto altera el valor de rango por lo que es necesario
efectuar un ajuste así:
Procesamiento de los datos
b) Tabulación de los datos: Clase y Marca de Clase

No. de Clase Clase Marca de Frecuencia Frecuencia Frecuencia Frecuencia


clase Absoluta Relativa Absoluta Relativa
Acumulada Acumulada

1 [𝑎1 , 𝑎2 ) (𝑎1 + 𝑎2 )/2 𝑓1 𝑓1 /n 𝐹1 𝐹1 /n


2 [𝑎2 , 𝑎3 ) (𝑎2 + 𝑎3 )/2 𝑓2 𝑓2 /n 𝐹2 = 𝑓1 +𝑓2 𝐹2 /n
3
,
k [𝑎𝑘 , 𝑎𝑘+1 ) (𝑎𝑘 + 𝑎𝑘+1 )/2 𝑓𝑘 𝑓𝑘 /n 𝐹𝑘 = 𝐹𝑘
=1
𝑓1 +𝑓2+…+𝑓𝑛 n

1-13
Procesamiento de los datos
b) Tabulación de los datos

Como se definen las clases o intervalos


Condiciones
Exhaustivos
Mutuamente excluyentes

Igual longitud
Gráficos
 Histograma de Frecuencias
 Polígono de Frecuencias
 Grafico de la Ojiva
 Grafico de los cuartiles a partir de la Ojiva.
Procesamiento de los datos
c) Gráficos

Histogramas
Polígono de frecuencias

Ojiva: Distribución de
frecuencias acumulada
Cuantiles y Medidas de
tendencia central y
dispersión
Medidas de Resumen

Describiendo Numéricamente los Datos

Medidas de tendencia Central Medidas de Posición Variación/ Medidas de dispersión


Rango
Media Percentiles
Rango
Mediana Cuartiles Intercuartílico
Moda Deciles Varianza
Media Ponderada Desviación
Estándar
Media Cortada de una
muestra Coeficiente de
Variación
Actividad de Clase
 Muestreo Sistemático
 Intervalo de la muestra=5
 Característica de interés: Número de hermanos
Medidas de tendencia Central

Media Mediana Moda Media Ponderada


n Punto medio Punto de mayor frecuencia
 xi M W =  wi xi
x= i =1
n Condiciones
w
N

x i i =1
= i =1
N 0  wi  1

𝑇𝛼 = Media aritmética del 1 − 𝛼 100% de los datos ordenados,


𝛼
Media Cortada suprimiendo en una muestra ordenada 2 100% de datos de la “parte
𝛼
superior y 100% de la “parte inferior” de la muestra. Usualmente 𝛼 = 0,10
2
Mediana

Para obtener la mediana, ordenar los n valores (datos) de


menor a mayor. El conjunto de datos ordenados es
llamado arreglo ordenado de datos
Encontrar el valor en la ubicación i = (1/2)n
La ima ubicación es el Punto de la Mediana
Si i no es un entero, redondear hacia arriba
Si i es un entero, la mediana es el promedio de los valores en las
ubicaciones “i ” e “i + 1”

3-21
Media Ponderada

 Usado cuando los valores son agrupados por frecuencia o


importancia relativa

Media Ponderada de Días para Culminar


Ejemplo: Muestra de 26
proyectos de reparación
Días para Frecuencia XW = w x
i i
=
(4  5) + (12  6) + (8  7) + (2  8)
Culminar
w i 4 + 12 + 8 + 2
5 4 164
6 12 = = 6.31 días
26
7 8
8 2
3-22
Medidas de Posición - Cuantiles
Son números que dividen al grupo de datos ordenados, en grupos de
aproximadamente igual cantidad de datos con el propósito de resaltar su ubicación

 El pmo percentil en un arreglo ordenado de n valores es el valor en


la ubicación ima, donde
Si i no es un entero,
Índice de
redondear hacia arriba
Ubicación p
del
Percentil
i= (n) Si i es un entero, considerar
100 el promedio del imo y del
(i+1)mo valor.

Percentiles→ dividimos los dados en 100 partes


Cuartiles → dividimos los datos en 4 partes

Deciles→ dividimos los datos en 10 partes


Medidas de Posición - Cuantiles
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
% % % % % % % % % % % % % % % % % % % % % % % % % % %
Percentiles
P1 P2 P99

Los cuartiles dividen a los datos ordenados en cuatro grupos iguales:

25% 25% 25% 25%


Cuartiles
Q1 Q2 Q3
Primer Cuartil = es un valor Q1 de la muestra, tal que, no más del 25% por ciento
de las observaciones ordenadas toman valores menores o iguales a Q1

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
Deciles
D1 D2 D3 D4 D5 D6 D7 D8 D9
Medidas de Posición - Cuantiles

Percentiles
Los cuartiles dividen a los datos ordenados en cuatro grupos iguales:

25% 25% 25% 25%


Cuartiles Q1 Q2 Q3
Notar que el segundo cuartil (el 50mo percentil), Q2, es la mediana
IQR (rango intercuartílico) = Q3 – Q1

Deciles
Diagrama de Caja

* *
Valores “Valor más pequeño” “Valor más grande”
Atípicos (Límite Inferior) Q1 Q2 Q3
(Límite Superior)

El límite inferior es El límite superior es


Q1 – 1.5 (Q3 – Q1) Q3 + 1.5 (Q3 – Q1)

◼ Dibujar una caja desde Q1 a Q3


◼ Trazar una línea vertical en la mediana
◼ Trazar líneas (bigotes) hacia el valor más pequeño y más grande (dentro de los
límites calculados)
3-26
◼ Identificar los valores atípicos fuera de los límites calculados
Detención de valores atípicos, datos
aberrantes, datos extremos

❑ 𝒔𝒊 𝒆𝒔 𝒖𝒏 𝒗𝒂𝒍𝒐𝒓 𝑴𝒆𝒏𝒐𝒓 𝑎𝑙 max 𝑋 1 , 𝑄1 − 1,5𝑅𝐼

❑ 𝒔𝒊 𝒆𝒔 𝒖𝒏 𝒗𝒂𝒍𝒐𝒓 𝑴𝑨𝒀𝑶𝑹 𝑎𝑙 m𝑖𝑛 𝑋 𝑛 , 𝑄3 + 1,5𝑅𝐼


Variaciones
Misma media pero diferentes
desviaciones estándar:
Datos A
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 3.338

Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.9258
Datos C
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.57
3-28
Variación

Rango Varianza Desviación Coeficiente de


Estándar Variación
R = X (n ) − X (1) Varianza
Poblacional s
N
Desviación
Estándar V = 100
x
Rango  i
(x − μ) 2 Poblacional

Intercuartílico σ2 = i=1
σ = σ2
N
RI = Q(3) − Q(1) Varianza
Muestral Desviación
Estándar
n Muestral
En este capitulo solo que se  i
(x − x ) 2

s = s2
indique lo contrario se s2 = i =1
trabajara en base a muestras n -1
Variación

 Las medidas de variación dan información sobre la dispersión o variabilidad de los


datos

 Valor pequeño
 Menos variación
 Valor grande
 Más variación

Mismo centro,
diferente variación
3-30
Medidas de tendencia
central y dispersión para
datos agrupados
Medidas y desviación para datos agrupados

K
Media
Y i fi Varianza de
la muestra
K

 i
(Y − y ) 2
fi
y= i =1
s2 = i =1

n n -1
Yi = i-ésima marca de
clase
Covarianza
 En probabilidad y estadística, la covarianza es un valor que indica el
grado de variación conjunta de dos variables aleatorias respecto a sus
medias.
 Cuando los valores altos de una de las variables suelen
mayoritariamente corresponderse con los valores altos de la otra, y lo
mismo se verifica para los pequeños valores de una con los de la otra, se
corrobora que tienden a mostrar similar comportamiento lo que se
refleja en un valor positivo de la covarianza.
 Por el contrario, cuando a los mayores valores de una variable suelen
corresponder en general los menores de la otra, expresando un
comportamiento opuesto, la covarianza es negativa.
 El signo de la covarianza, por lo tanto, expresa la tendencia en la
relación lineal entre las variables.
Cálculo de la Covarianza
X= # de Y=# materias
años en la aprobadas
estudiando
su carrera
en la ESPOL
(Hacer un
corte hasta
el semestre
anterior)
Correlación
Covarianza entre X e Y
𝑐𝑜𝑣(𝑥,𝑦) 𝑆𝑥𝑦
C𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑋 𝑦 𝑌 = 𝑟𝑥𝑦 = =
𝑠𝑥 𝑠𝑦 𝑠𝑥 𝑠𝑦

 ( x − x )( y − y ) Desviación

r= n −1 típica de X
multiplicada
 ( x − x ) 2
 ( y − y ) 2
por la
desviación
n −1 n −1 típica de Y

rxy =
 ( x − x )( y − y ) Indicador de relaciones lineales entre dos
[ ( x − x ) ][ ( y − y )
2 2
] variables X y Y de una misma muestra
Mide la “Fortaleza” de la relación lineal
Características de r

No tiene unidad de medida.


Varía entre -1 y 1.
La cercanía a -1 indica fuerte relación lineal negativa.
La cercanía a 1 indica fuerte relación lineal positiva.
La cercanía a 0 indica débil relación lineal.

+1 ó -1 son correlaciones perfectas donde todos los


datos (puntos) caen sobre una línea recta.
14-36
Gráficos de Dispersión: Ejemplo
No hay relación
Relaciones fuertes
y
y

x
x
y
y

x
x
Matrices de datos,
covarianzas
** Revisar el apartado de vectores de medias y Matriz de varianzas y
covarianzas pg 40-43
MATRIZ DE VARIANZAS Y COVARIANZAS

MATRIZ DE CORRELACIÓN
Es una representación ordenada de los coeficientes de correlación de cada
variable con otra variable y consigo misma

𝑟11 = 𝑟22 = 1
Resumen de datos Cualitativos

Distribución de Frecuencias

S-ar putea să vă placă și