Documente Academic
Documente Profesional
Documente Cultură
Delia Ortega L.
Estadística, Msc
delia.ortega00@usc.edu.co
Estadística – Definición
Área del conocimiento encargada del desarrollo de procedimientos para
la adecuada recolección, almacenamiento y procesamiento e
interpretación de datos, generando información valida que minimice el
riesgo de error en la toma de decisiones.
Decisiones
Que variables se midieron?
Escala de Medición?
Instrumento de Medición? ¿Cual es la validez de
Cual fue la Población? la información?
Tipo de Muestreo?
Tema 1. Validez y
Confiabilidad
Algunos Errores Comunes.
VALIDEZ ...
. Validez Externa
VALIDEZ INTERNA
Ejemplo 2:
Se intenta medir la distancia entre dos objetos a través de un instrumento cuyo
diseño consta de un resorte sobre el cual se han marcado unidades de
distancia (cms).
http://www.cdi.gob.mx/albergues/medicion_peso_talla.pdf
EJEMPLOS
Definición de Pobreza:
Se concibe como la carencia, escasez o falta de los bienes más
elementales como por ejemplo alimentos, vivienda, educación o
asistencia sanitaria (salud) y agua potable. Así como los medios de
obtenerlo (por ejemplo por falta de empleo, nivel de ingresos muy
bajo o carencia de estos).
Efecto:
Es claro, el problema es de
representatividad.
¿ Que es representatividad?
¿De que depende la representatividad?
Muestreo: Tamaños de muestra
5. Establecer
ESTADÍSTICA Hipótesis
6. Determinar la
población objeto de
9. Presentar 8. Análisis 7. Planeación y
estudio y la
Resultados de Datos Recolección de Datos
estrategia de
muestreo
“Por ejemplo, un estudio puede demostrar que existe una relación directa entre
el tamaño del pie de un niño y su dominio de la lectura”
Variable de Confusión
Condición física, edad, raza.
¡Algunos Ejemplos Remotos!
✓ Las estadísticas muestran que casi todos los accidentes de
circulación se producen entre vehículos que ruedan a velocidad
moderada. Muy pocos ocurren a más de 150 Km. por hora.
¿Significa esto que resulta más seguro conducir a gran
velocidad?
300
100
0 1 2 3 4 5 6 7 8 9
Consumo de vino
Dato Información
Representación numérica o
“Integración de datos, contextos y
Estadística
categórica de una medición factores asociados, de forma tal
que se genera el suficiente
criterio para tomar una decisión
adecuada”
Muestreo Aleatorio
Ejemplo:
Ejemplo:
TEORIA DE LA PROBABILIDAD
Deducción de Leyes
Preguntas a resolver
Para este tipo de análisis no existe una receta, existen herramientas, cuya
implementación dependerá de la tipología de variables de análisis y de la
necesidad de síntesis de la información.
Variables y sus Escalas de Medición
Se consideran generalmente cuatro escalas de medición para dos grupos
de variables:
V. Cualitativas 1. Escala Nominal: No puede establecer un orden jerárquico entre las
opciones de respuesta
Color de Ojos ( Verde, Azul, Gris, Negro, Café).
2. Escala Ordinal: Existe un ordenamiento natural de las opciones de
respuesta
Calificación de un servicio (Excelente, Bueno, Regular, Malo)
Cualitativas Cuantitativas
Se clasifican en
Continuas Discretas
Intervalo
Razón Temperatura
Peso
(Continuas)
Nominales
•Edad (Grupos)
Una variable
Ordinales •Peso (Normal,
cuantitativa, se
puede agrupar
sobrepeso)
en categorías y
tratarse como
una variable
cualitativa •Edad (Años)
Intervalo / Razón
ordinal ó incluso •Peso (kg)
una nominal
Recodificación 2
A una variable
Ejemplos
cualitativa,
NO se le puede Nominales
asignar valores •Edad (Grupos)
como una •Peso (Normal,
variable cuantitativa Ordinales
sobrepeso)
Intervalo / Razón
Herramientas para la Descripción de Datos
Resúmenes gráficos Indicadores Cuantitativos
{Si;Si;Si;NO;NO;NO;Si;Si;NO;Si;Si;Si;Si;Si;Si;Si;Si;Si;Si;Si;Si;Si;NO;Si;Si;Si;NO;NO;NO;Si;NO;Si;NO;NO;NO;Si;Si;NO;Si;NO}
•Tablas de Frecuencia
X # casos %
Fuma (Si) 26 65%
No Fuma (No) 14 35%
Total 40 100%
No Fuma; 35%
Fuma; 65%
Consumo de Cigarrillos en Jovenes entre los 15 y 20 años
en la Ciudad de Cali
70%
60% 65%
50%
%
30% 35%
20%
10%
0%
Fuma No Fuma
Características con muchas opciones de respuesta
Porque no es posible
utilizar un grafico de
pastel?
100%
90%
80%
Casos
5000 70%
4500 60%
4000 N = 10949 50%
3500 40%
3000 30%
2500 129 casos sin dato del lugar de
20%
2000 levantamiento
10%
1500
0%
1000
500 2002 2003 2004 2005 2006 2007
0
ho V H
T B D lu
d PI C
ga
r
VL SR
L R S O Arma de Fuego Arma Blanca Otras Sin dato
c H
U C JP SJ sa
H H
C
lu FC N M C IS C
he H H H C H
M
el de tro
rd tro
O
ga en
Lu C
N = 10949
2000
1500
1000
500
es te
s
le
s es ne
s do go
n ar o v r ba in
Lu M rc ue ie a m
M
ie J V S Do
Hombres Mujeres
Año
Casos Población Tasas Casos Población Tasas
2002 1885 951831 198,0 134 1063982 12,6
2003 1972 960976 205,2 142 1074500 13,2
2004 2019 970209 208,1 146 1085123 13,5
2005 1471 979530 150,2 115 1095850 10,5
2006 1451 988941 146,7 94 1106683 8,5
2007 1421 998443 142,3 99 1117624 8,9
250
Razón de Riesgo por genero ( 2002 – 2007)
“El riesgo de asesinato es en promedio 15, 73 veces más alto para los
hombres que para las mujeres”
Mediciones Indexadas en el Tiempo (Datos Longitudinales)
Tabla 1. Homicidios en América - 2006
Ciudad Homicidios Población Tasa*
Bogotá 1380 7.328.754 18.8
Cali 1520 2.458.730 62.0
Medellín 709 2.116.416 33.5
Nueva York 597 8.143.197 7.3
Washington 169 550.521 30.7
0
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
OTROS GRAFICOS UTILES
Pictogramas : Su objetivo es generar impacto en la transmisión de información
Sanos Enfermos
22 22
22
<1
1 - 40
40- 60
60 - 80
80 - 100
> 100
Fuente: Análisis Espacial de los Homicidios en la Ciudad de Cali. Cisalva. Trabajo de Grado en Estadística
Tabulación y Representación grafica de
datos cuantitativos
DISTRIBUCIÓN DE FRECUENCIAS
1 6 Si 7 4 Si 13 4 Si 19 5 Si 25 6 Si
2 2 No 8 4 Si 14 5 Si 20 5 Si 26 5 Si
3 4 No 9 4 No 15 2 No 21 2 No 27 5 No
4 5 Si 10 4 Si 16 3 Si 22 4 Si 28 5 Si
5 5 Si 11 3 No 17 5 Si 23 6 Si 29 5 Si
6 5 Si 12 4 Si 18 2 No 24 3 Si 30 5 Si
Distribución de frecuencias
(Datos Puntuales)
TABLA DE FRECUENCIA DEL NUMERO DE HABITANTES
POR VIVIENDA
xi ni fi Ni Fi
Valor observado Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa
Absoluta Relativa Acumulada Acumulada
2 4 0.133 4 0.133
3 3 0.1 7 0.233
4 8 0.267 15 0.5
5 12 0.4 27 0.9
6 3 0.1 30 1.0
Total 30 1.0
Frecuencia Absoluta (ni)
Se puede comenzar a organizar la información escribiendo los
valores que toma la variable y haciendo un conteo para determinar
el número de veces que aparece cada dato.
xi Conteo ni
(Valor observado) (Frecuencia absoluta)
6 4 4 5 6
2 |||| 4
2 4 5 5 5
3 ||| 4 4 2 2 5
4 ||||| ||| 5 4 3 4 5
5 3 5 6 5
5 ||||| ||||| ||
5 4 2 3 5
6 |||
Total
Frecuencia Absoluta (ni)
Se puede comenzar a organizar la información escribiendo los
valores que toma la variable y haciendo un conteo para determinar
el número de veces que aparece cada dato.
xi Conteo ni
(Valor observado) (Frecuencia absoluta)
2 |||| 4 La frecuencia absoluta del dato
xi se representa por medio de ni.
3 ||| 3
4 ||||| ||| 8
5 ||||| ||||| || 12 Ej: el dato x3=4 aparece 8 veces
en la muestra, por tanto n3=8.
6 ||| 3
Total 30
Frecuencia Relativa (fi)
La frecuencia absoluta también puede expresarse como una
fracción o porcentaje, surgiendo lo que se denomina frecuencia
relativa (fi).
ni
fi xi ni fi
n
2 4
Ejemplo:
3 3
n3 8
f3 0.267 4 8
n 30 5 12
6 3
30
Frecuencia Relativa (fi)
La frecuencia absoluta también puede expresarse como una
fracción o porcentaje, surgiendo lo que se denomina frecuencia
relativa (fi).
ni
fi xi ni fi
n
2 4 0.133
Ejemplo:
3 3 0.1
n3 8
f3 0.267 4 8 0.267
n 30 5 12 0.4
N i n1 n2 ... ni
FRECUENCIA RELATIVA ACUMULADA (Fi)
Fracción o porcentaje de la frecuencia absoluta
acumulada hasta xi.
Ni
Fi f1 f 2 f i
n
Frecuencias Acumuladas
xi ni fi Ni Fi
En el ejemplo: 2 4 0.133 4 0.133
N3 n1 n2 n3 3 3 0.1 7 0.233
4 8 0.267 15 0.5
N3 4 3 8 15
5 12 0.4 27 0.9
6 3 0.1 30 1.0
N3 15
F3 0.50 30 1.0
n 30
Indica que el 50% de los datos son iguales o inferiores a 4, es decir que de acuerdo con
la muestra, el 50% de las viviendas tienen 4 o menos habitantes.
Distribución de frecuencias
(Variable Discreta)
TABLA DE FRECUENCIA DEL NUMERO DE HABITANTES
POR VIVIENDA
xi ni fi Ni Fi
Valor observado Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa
Absoluta Relativa Acumulada Acumulada
2 4 0.133 4 0.133
3 3 0.1 7 0.233
4 8 0.267 15 0.5
5 12 0.4 27 0.9
6 3 0.1 30 1.0
Total 30 1.0
Propiedades y Relaciones
Si se toma una muestra de n datos, de los cuales hay m distintos, que
ordenados en forma creciente son x1, x2, …, xm, entonces:
j
5. N j ni La frecuencia absoluta acumulada es igual a la suma de las
i 1 frecuencias absolutas.
Propiedades y Relaciones
j
8. F j f i La frecuencia relativa acumulada es igual a la suma de las
i 1 frecuencias relativas.
xi ni fi Ni Fi Ej: N ( x 4) 15
2 4 0.133 4 0.133
0 si x 2
3 3 0.1 7 0.233 4 si x 2
4 8 0.267 15 0.5
7 si x 3
5 12 0.4 27 0.9 N ( x)
15 si x 4
6 3 0.1 30 1.0 27 si x 5
Total 30 1.0
30 si x 6
Función Empírica de Distribución
Acumulada, F(x)
F(x)= “fracción (o porcentaje) de los datos que son menores o
iguales que x”
xi ni fi Ni Fi Ej: F( x 4) 0.50
2 4 0.133 4 0.133
0 si x2
3 3 0.1 7 0.233 0.133 si x2
4 8 0.267 15 0.5
0.233 si x3
5 12 0.4 27 0.9 F ( x)
0.5 0 si x4
6 3 0.1 30 1.0
0.90 si x5
Total 30 1.0
1 si x6
Representación gráfica
Cuando se trate de frecuencias absolutas o de frecuencias relativas,
se realizará la representación por medio del llamado diagrama de
frecuencias (absolutas o relativas)
xi ni fi 12
12
6 3 0.1 2
30 1.0 0
2 3 4 5 6
Numero de habitantes por vivienda
Representación gráfica
Cuando se trate de frecuencias absolutas o de frecuencias relativas,
se realizará la representación por medio del llamado diagrama de
frecuencias (absolutas o relativas)
xi ni fi 0,4
0,4
4 8 0.267 0,2
0,133
5 12 0.4 0,1 0,1
0,1
6 3 0.1
30 1.0 0
2 3 4 5 6
Numero de habitantes por vivienda
Variable Cualitativa
TABLA DE FRECUENCIA DE LA EXISTENCIA DE PERSONAS
MENORES DE EDAD POR VIVIENDA
Frecuencia Frecuencia
Valor observado Absoluta Relativa
Si 22 0.733
No 8 0.267
Total 30 1.0 Viviendas con habitantes
menores de edad
27%
Si
73% No
Tabla Bivariada
TABLA DE FRECUENCIA DEL NUMERO DE HABITANTES Y EXISTENCIA
DE PERSONAS MENORES DE EDAD POR VIVIENDA
Numero de Viviendas
2 4 4 8 Existencia
6 de Menores
3 1 2 3 6
No
4
4 2 6 8 4 3 Si
2 2
5 1 11 12 2 1 1
6 3 3 0
2 3 4 5 6
Total 8 22 30 Habitantes por Vivienda
4, 3, 0, 2, 2, 0, 2, 2, 1, 2, 1, 1, 3, 4, 5,
2, 2, 0, 2, 0, 3, 1, 1, 3, 3 0, 3, 4, 1, 3
Intervalos de x´i
ni fi Ni Fi
Clase Marca de clase
Total 50 1.0
Pasos para construir una distribución de
Datos Agrupados
m=6
R
C C = 4200 / 6 C = 700
m
Pasos para construir una distribución de
Datos Agrupados
4. Construir cada una de las m clases:
L0 800
L0 Min Clase Intervalos de xi
L1 800 700 1500 Clase Marca de
Calase
L1 L0 C L2 1500 700 2200 1 [800-1500]
6 (4300-5000]
Pasos para construir una distribución de
Datos Agrupados
4. Construir cada una de las m clases:
L0 800
L0 Min Clase Intervalos de x´i
L1 800 700 1500 Clase Marca de
Calase
L1 L0 C L2 1500 700 2200 1 [800-1500] 1150
6 (4300-5000] 4650
5. Calcular la marca de clase (x’i):
Li 1 Li
x'i Determina el punto medio de cada clase
2
Pasos para construir una distribución de
Datos Agrupados
6. Determinar la frecuencia asociada con cada intervalo, deben
contarse los datos que pertenecen a cada uno.
Intervalos de
Clase x´i ni fi Ni Fi
Clase
1 [800-1500] 1150 6 37
0.12familias6presentaron
0.12 un
ingreso inferior a 3600 miles
2 (1500-2200] 1850 8 0.16 de14pesos. 0.28
3 (2200-2900] 2550 10 0.20 24 0.48
fi
F x Fi 1 x Li 1
C
f a, b F b F a
Que porcentaje de datos se encuentra entre 1600 y 2500?
Intervalos de
Clase x´i ni fi Ni Fi
Clase
1 [800-1500] 1150 6 0.12 6 0.12
a=1600 2 (1500-2200] 1850 8 0.16 14 0.28
b=2500 3 (2200-2900] 2550 10 0.20 24 0.48
4 (2900-3600] 3250 13 0.26 37 0.74
5 (3600-4300] 3950 9 0.18 46 0.92
6 (4300-5000] 4650 4 0.08 50 1.0
Total 50 1.0
Que porcentaje de datos se encuentra entre 1600 y 2500?
Intervalos de
Clase x´i ni fi Ni Fi
Clase
1 [800-1500] 1150 6 0.12 6 0.12
a=1600 2 (1500-2200] 1850 8 0.16 14 0.28
b=2500 3 (2200-2900] 2550 10 0.20 24 0.48
4 (2900-3600] 3250 13 0.26 37 0.74
5 (3600-4300] 3950 9 0.18 46 0.92
6 (4300-5000] 4650 4 0.08 50 1.0
Total 50 1.0
i Intervalos x´i ni fi
1 [800-1500] 1150 6 0.12
Total 50 1.0
Representación gráfica
Cuando se trate de frecuencias absolutas o relativas acumuladas, se debe
calcular su función de distribución (F(x)) y representarla por medio del
grafico llamado Ojiva.
0 para x 800
0.12
0 x 800 para 800 x 1500
700
0.16
0.12 x 1500 para 1500 x 2200
700
0.20
0.28 x 2200 para 2200 x 2900
700
F ( x)
0.48 0.26 x 2900 para 2900 x 3600
700
0.18
0.74 x 3600 para 3600 x 4300
716.7
0.08
0.92 x 4300 para 4300 x 5000
700
1 para x 5000
Representación gráfica
Ojiva
EJERCICIO
Una entidad encargada del control de contaminación de cierto rio, lleva
registros sobre el oxigeno disuelto, expresada en mg/l; los datos se presentan a
continuación:
5 6 6 7 7 7 8 8 9 10 5 6 6 7 7 7 8 8 9 20
En una distribución simétrica, media, mediana y moda deben ser muy similares.
1. Rango:
R = Máximo - Mínimo
x X i
DM i 1
n
INDICADORES DE DISPERSION
3. Varianza:
i
( x X ) 2
S2 i 1
n 1
S S2
COEFICIENTE DE VARIACIÓN
(Variabilidad Relativa)
S
CV *100%
x
P10 = D1, P20 = D2, P30 = D3, ..., P50= Me, ..., P90= D9, P100= D10
P *(n 1)
XP
100
Según el paso anterior el P25 esta entre el tercero y cuarto puesto, que les
corresponde a los siguientes valores:
Q1
El segundo cuartil divide los datos en 2 partes iguales (percentil 50), por lo
cual, se calcula la posición 50 de los datos:
50*(14 1)
X 50 7.5
100
Cuartiles de una distribución
Q1
El segundo cuartil divide los datos en 2 partes iguales (percentil 50), por lo
cual, se calcula la posición 50 de los datos:
Q1 Q2
El segundo cuartil divide los datos en 2 partes iguales (percentil 50), por lo
cual, se calcula la posición 50 de los datos:
Q1 Q2 Q3
El tercer cuartil corresponde al percentil 75, por lo cual, se calcula la posición
75 de los datos:
15
10
5
0
1 2 3 4 5
30
25
20
frecuencia
15
10
5
0
50 55 60 65 70 75 80 85
10
5
0
Entre el cuartil 1º y 3º
20
15 Percentiles 25 y 75
frecuencia
10
5
0
0.08
0.06
densidad
0.04
0.02
Mín. P25 P50 P75 Máx.
0.00
40 45 50 55 60 65
0.02
Mín. Máx.
CS=P75 +1.5RIQ
0.00
130,00
120,00
6 25,00
110,00
5 20,00
100,00
15,00 90,00
4
80,00
10,00
3
No Tratados Tratados
No Tratados Tratados Tratamiento
No Tratados Tratados Tratamiento
Tratamiento
15 21 18 16 18 21 19 15 14 18 17 20 18 15 16
Calcule e interprete:
i
( x X ) 3
CA i 1
ns 3
CA = 0 distribución simétrica
CA < 0 (distribución asimétrica negativa)
CA > 0 (distribución asimétrica positiva)
Análisis Exploratorio de Datos
29.61 27.99 30.17 30.97 28.93 27.27 28.24 29.50 27.89 30.23 27.68 28.48
28.89 29.28 29.84 27.86 27.51 29.16 29.16 28.23 28.55 29.28 28.74 28.24
26.92 28.17 27.81 28.31 29.87 28.66 29.24 28.27 29.14 27.26 29.68 28.51
29.56 29.37 27.07 28.91 28.24 29.66 27.82 27.72 28.74 28.80 28.47 29.50
27.97 28.46
6
C.A 0,19 0,30
4
%(>LES) 0% 0%
2 %(<LEI) 46% 0%
0
27 28 29 30 31
Peso
12 30
Datos
10
29
Frecuencia
8 28,5
28
6
4 27
0
26,4 27,2 28,0 28,8 29,6 30,4 31,2 32,0
Peso Post
Versión Post
Situación 3.
Dx contaminación
Una entidad encargada del control de contaminación, sospecha que cierta industria
que deposita sus efluentes sobre el curso de un rio lo viene contaminando. Con el
objetivo de verificar su hipótesis ha decidido tomar 30 mediciones consecutivas
(diarias) en puntos de muestreo ubicados antes y después del efluente (de forma
apareada, según tiempo de retención)
1. Hipótesis?
2. Estructura de Datos?
Situación 4.
El peso de los embutidos
Las especificaciones del peso son 220 ± 10 gr, y últimamente se han detectado ciertos
problemas al respecto. Cual seria el diagnostico de la situación?