Sunteți pe pagina 1din 126

ESTADÍSTICA 2

Delia Ortega L.
Estadística, Msc
delia.ortega00@usc.edu.co
Estadística – Definición
Área del conocimiento encargada del desarrollo de procedimientos para
la adecuada recolección, almacenamiento y procesamiento e
interpretación de datos, generando información valida que minimice el
riesgo de error en la toma de decisiones.

En su desarrollo histórico la estadística ha aportado en diferentes


campos:

➢ Conteo de Poblaciones, Nacimientos, muertes. Siglo XVII.


➢ Cuantificación de probabilidades de éxito en los juegos de Azar. Siglo XVIII.
➢ Optimización de la Producción Agrícola. Siglo XIX.
➢ Herramienta de apoyo en el desarrollo científico y tecnológico en todas las
áreas del conocimiento.
Relación Estadística – Ingeniería - Economía
En la actualidad, todo proceso investigativo del tipo observacional o
experimental, se enfrenta al proceso de generación de datos, cuyo
procesamiento requiere del manejo adecuado de técnicas estadísticas.

Ensayo Error Ingeniería – Estadística -Informática


Antes de Continuar…
Concepto equivocado

Datos Estadística Información

Decisiones
Que variables se midieron?
Escala de Medición?
Instrumento de Medición? ¿Cual es la validez de
Cual fue la Población? la información?
Tipo de Muestreo?
Tema 1. Validez y
Confiabilidad
Algunos Errores Comunes.
VALIDEZ ...

Grado de valor que se


confiere a la Información

La validez es de dos tipos


. Validez Interna

. Validez Externa
VALIDEZ INTERNA

Grado en que la medición refleja la


situación que se pretende medir

¿ El instrumento de Medición es Adecuado... ?


¿ La Medición está bien tomada... ?
¿ La Medición es Confiable, Repetible... ?
EJEMPLOS
Ejemplo 1:
Un Psicólogo se encuentra interesado en medir el nivel de inteligencia de un
grupo de alumnos de secundaria. Para ello hace uso de 10 tarjetas con figuras
geométricas, de las cuales enseña 4 a cada uno de los estudiantes. Luego de
10 minutos pide a los estudiantes que organicen las figuras en el mismo orden
en el que le fueron enseñadas.

Ejemplo 2:
Se intenta medir la distancia entre dos objetos a través de un instrumento cuyo
diseño consta de un resorte sobre el cual se han marcado unidades de
distancia (cms).

¿Será posible encontrar alguna técnica estadística que convierta


estos datos en información confiable?
EJEMPLOS
Medición de Estatura

“La variabilidad del instrumento de medición atenta contra


la confiabilidad de los resultados”
Estandarización-
Protocolos

http://www.cdi.gob.mx/albergues/medicion_peso_talla.pdf
EJEMPLOS
Definición de Pobreza:
Se concibe como la carencia, escasez o falta de los bienes más
elementales como por ejemplo alimentos, vivienda, educación o
asistencia sanitaria (salud) y agua potable. Así como los medios de
obtenerlo (por ejemplo por falta de empleo, nivel de ingresos muy
bajo o carencia de estos).

Definición Económica de Pobreza:


Para la grandes entidades económicas se define como pobre a aquel
individuo que sobrevive con menos de un dólar diario.
Sesgo de Medición
Las mediciones son inexactas (no miden correctamente lo que se
supone que deben medir)

Efecto:

✓ Las posibles relaciones existentes se enmascaran


✓ Se perciben relaciones inexistentes
VALIDEZ EXTERNA

Grado en que la medición puede


generalizarse a otras situaciones no
medidas
¿ La medición puede extrapolarse... ?

Si un estudio no tiene validez interna, no puede tener validez


externa

“Depende en gran medida de la conformación de la Muestra”


Ejemplo
La secretaria de salud municipal ha diseñado un estudio para
valorar el estado de nutrición en los niños de la ciudad de Cali y la
presencia de infecciones intestinales, para ello ha venido visitando
diferentes instituciones educativas privadas valorando estas dos
condiciones en sus niños. Asuma que la validez interna de los datos
está garantizada. Cual es su opinión al respecto?

Es claro, el problema es de
representatividad.
¿ Que es representatividad?
¿De que depende la representatividad?
Muestreo: Tamaños de muestra

Cuchara para catar la sopa


con invitados

Cuchara para catar la sopa


a diario

Olla para la sopa a diario

Olla para la sopa con invitados

“El tamaño de muestra no es proporcional al tamaño de la población”


Muestreo: Tamaños de muestra
Tamaño de la Márgen de error
población ±1% ±2% ±3% ±4% ±5% ± 10 %

500 475 414 340 273 217 81


1.000
1.500
906
1.297
706
923
516
624
375
429
278
306
88
90
En la determinación del
2.000
2.500
1.655
1.984
1.091
1.225
696
748
462
484
322
333
92
92
tamaño de muestra
3.000 2.286 1.334 787 500 341 93
intervienen 3 aspectos
3.500
4.000
2.565
2.824
1.424
1.500
818
842
512
522
346
350
93
94
fundamentales:
4.500 3.064 1.566 863 530 354 94
5.000 3.288 1.622 879 536 357 94

6.000 3.693 1.715 906 546 361 95


7.000
8.000
4.049
4.364
1.788
1.847
926
942
553
558
364
367
95
95
1. Variabilidad de la
9.000
10.000
4.646
4.899
1.895
1.936
954
964
563
566
368
370
95
95
Característica a medir
15.000
20.000
5.855
6.488
2.070
2.144
996
1.013
577
583
375
377
95
96
2. Nivel de Confianza Deseado
25.000 6.939 2.191 1.023 586 378 96
50.000
100.000
8.057
8.762
2.291
2.345
1.045
1.056
593
597
381
383
96
96
3. Máximo Error Deseado
500.000 9.423 2.390 1.065 600 384 96
1.000.000 9.513 2.395 1.066 600 384 96
1.500.000 9.543 2.397 1.066 600 384 96
2.000.000 9.558 2.398 1.067 600 384 96
50.000.000 9.602 2.401 1.067 600 384 96
Concepto Ideal…
1. Concepción de 2. Planteamiento 3. Construcción de 4. Definir el Tipo de
la Idea de del Problema un Marco Teórico Investigación
Investigación

5. Establecer
ESTADÍSTICA Hipótesis

6. Determinar la
población objeto de
9. Presentar 8. Análisis 7. Planeación y
estudio y la
Resultados de Datos Recolección de Datos
estrategia de
muestreo

“La estadística juega un papel esencial en este proceso”


¡El problema no termina con los
resultados!
“Antes de entregar resultados apresurados, estos deben validarse en su
contexto y realizar una valoración de los Factores de Confusión”

“Por ejemplo, un estudio puede demostrar que existe una relación directa entre
el tamaño del pie de un niño y su dominio de la lectura”

Estadísticamente está relación existe, pero en la realidad representa


causalidad?
En la práctica es muy común encontrar relaciones estadísticas donde no
existen relaciones reales
¡El problema no termina con los
resultados!
En la práctica es muy común encontrar relaciones estadísticas donde no existen
relaciones reales.

Problemas de Validez en el Factores de Confusión.


Estudio Un factor que no se ha tenido
en cuenta en el estudio, no ha
sido medido y puede generar
alteraciones de las relaciones
reales.
Exposición Consumo de + Enfermedad
Café Cancer de Pulmon
+ +
Variable de Confusión
Consumo de Cigarrillos

Actividad Sexual Enfermedad Coronaria


-
+

Variable de Confusión
Condición física, edad, raza.
¡Algunos Ejemplos Remotos!
✓ Las estadísticas muestran que casi todos los accidentes de
circulación se producen entre vehículos que ruedan a velocidad
moderada. Muy pocos ocurren a más de 150 Km. por hora.
¿Significa esto que resulta más seguro conducir a gran
velocidad?

✓ En 1984 murieron en España muchas más personas por


accidente de tráfico que en 1960. ¿Basta esto para afirmar que
era más peligroso viajar en 1984 que en 1960?
¡Algunos Ejemplos Reales!
En combate, ¿Tienen menos riesgo las
“soldadas” que los soldados?
El vino es sano. (Titular)
El vino es bueno para el corazón

300

Muertes enf. cardiaca


200

100

0 1 2 3 4 5 6 7 8 9
Consumo de vino

¿Puede decirse que el consumo de vino


disminuye el riesgo de muerte ...?
¿Reducir los agentes de transito
reduce también la accidentalidad?
Objetivo de la Estadística

Dato Información

Representación numérica o
“Integración de datos, contextos y
Estadística
categórica de una medición factores asociados, de forma tal
que se genera el suficiente
criterio para tomar una decisión
adecuada”

“El objetivo de la estadística se centra en brindar apoyo en la


transformación de datos en información ”
Estadística y su problema Básico
Población (N) Muestra (n)

Muestreo Aleatorio

Parámetro  Inferencia Estimador ˆ


 X
2 S2
P pˆ
Primeras Definiciones

POBLACIÓN: Conjunto de Elementos de interés en una investigación.

1. El numero de elementos pueden ser finitos o infinitos

2.No debe asociarse exclusivamente con población humana

MUESTRA: Subconjuntos de elementos obtenidos desde la población


de interés

UNIDAD MUESTRAL: Elemento sobre el cual se accede a los elementos de la


muestra
Ejemplos
PARAMETRO: Característica medible sobre la población.

Ejemplo:

• Edad promedio de los habitantes de Cali

• Tiempo promedio de estancia de los pacientes en sala de


recuperación del HUV

ESTIMADOR: Característica medible sobre la muestra

Ejemplo:

•Edad promedio de una muestra de los habitantes de Cali


•Tiempo promedio de estancia de una muestra de los pacientes en
sala de recuperación del HUV
Fases del Análisis Estadístico
El estudio de la estadística se divide en dos categorías:

1. ESTADISTICA DESCRIPTIVA: Métodos para organizar, resumir y presentar datos de


manera informativa. Su fin es únicamente exploratorio y se limita a describir lo
observado en una población o muestra.

TEORIA DE LA PROBABILIDAD
Deducción de Leyes

2. ESTADISTICA INFERENCIAL: Proceso inductivo que permite inferir a toda la población


características observadas en un muestra
Tema 2. Análisis Exploratorio de Datos
Explorando los datos

“Llegará el día en el que el pensamiento estadístico será una condición


tan necesaria para la convivencia eficiente como la capacidad de leer y
escribir” — H.G. Wells
Antes de Continuar…….
Todo estudio basado en datos, sin importar su alcance, debe superar la fase
inicial del análisis exploratorio.

“Tabular, graficar, resumir, para identificar patrones y comportamientos regulares


y presencia de irregularidades en los datos”

Preguntas a resolver

•Existen patrones de comportamiento regular en los datos?


•Se presentan datos atípicos? Que hacer con ellos?
•Como se relacionan las variables de análisis?
•Existen diferencias en el comportamiento de la variable entre grupos de
análisis?
Es un paso necesario, que consume tiempo, y que en ocasiones es descuidado
por los analistas
Análisis Exploratorio
Proporciona un conjunto de herramientas que intentan descubrir patrones de
comportamiento en los datos en un ambiente de variabilidad e incertidumbre.

No siempre se requiere aplicar todas las herramientas exploratorias, cada una


presenta una utilidad de acuerdo a la necesidad y al propósito de la
investigación.

Hipótesis --------------------------------> Herramientas


(Objetivo) (Plan de Exploración)
Antes de Continuar…….
El Análisis Exploratorio de datos no es una rutina, es una actividad individual en
la cual el analista escoge su ruta.

Para este tipo de análisis no existe una receta, existen herramientas, cuya
implementación dependerá de la tipología de variables de análisis y de la
necesidad de síntesis de la información.
Variables y sus Escalas de Medición
Se consideran generalmente cuatro escalas de medición para dos grupos
de variables:
V. Cualitativas 1. Escala Nominal: No puede establecer un orden jerárquico entre las
opciones de respuesta
Color de Ojos ( Verde, Azul, Gris, Negro, Café).
2. Escala Ordinal: Existe un ordenamiento natural de las opciones de
respuesta
Calificación de un servicio (Excelente, Bueno, Regular, Malo)

3. Escala de Intervalo: El valor 0 es un valor arbitrario, no implica la no


V. Cuantitativas

presencia de una característica


Temperatura = 0º C → ¿No hay temperatura?
4. Escala de Razón: El valor 0 refleja ausencia de la característica.
Altura = 0 mts
Variables y sus Escalas de Medición
TIPOS DE VARIABLES

Cualitativas Cuantitativas

Se clasifican en

Continuas Discretas

Escala de Medición Escala de Medición

Nominal Ordinal Intervalo Razón


Ejercicio de Escalas de Medición

▪ Raza (Blanco, Mestizo, Afrodescendiente)


▪ Salario
▪ Rango salarial
▪ Cargo en la empresa (directivo, técnico..)
▪ Ocupación
▪ Grado de satisfacción producto
▪ Número de autos por hogar
▪ Coeficiente de inteligencia (0 a 200 puntos)
Relación entre variables
Dicotómicas = 2 Categorías
Sexo Variables
Cualitativas
Politómicas = 3 + Categorías
(Categorías)
Estado civil Nominales

Escala Likert: Ordinales


Acuerdo - Desacuerdo Numero de hijos
Discretas

Intervalo
Razón Temperatura
Peso
(Continuas)

Una variable es una característica observable que varía entre los


diferentes individuos de una población.
Recodificación 1
Recodificación… Ejemplos
Categorización…

Nominales

•Edad (Grupos)
Una variable
Ordinales •Peso (Normal,
cuantitativa, se
puede agrupar
sobrepeso)
en categorías y
tratarse como
una variable
cualitativa •Edad (Años)
Intervalo / Razón
ordinal ó incluso •Peso (kg)
una nominal
Recodificación 2

A una variable
Ejemplos
cualitativa,

NO se le puede Nominales
asignar valores •Edad (Grupos)
como una •Peso (Normal,
variable cuantitativa Ordinales
sobrepeso)

Intervalo / Razón
Herramientas para la Descripción de Datos
Resúmenes gráficos Indicadores Cuantitativos

Gráficos de Barras Tendencia Central:


Promedio
Gráficos de Pastel
Mediana
Histogramas Moda
Dispersión:
Diagramas de Cajas y Alambres
Varianza
Gráficos Temporales Desviación
Coeficiente de Variación
Gráficos Espaciales
Posición:
Diagramas de Dispersión Percentiles
Deciles
Cuantiles
La idea es generar una combinación Forma:
adecuada de gráficos, tablas e
Asimetría
indicadores, que contribuyan a resumir la
información
Curtosis
Tabulación y Representación grafica de
datos cualitativos
Tabulación y Representación Grafica de Variables
Cualitativas
Un estudio quiere valorar la realidad actual respecto al consumo de cigarrillos en
jóvenes con edades comprendidas entre los 15 y 20 años. Para ello ha tomado
una muestra aleatoria de 40 jóvenes a los cuales les indaga acerca de su consumo
de cigarrillos, los resultados son lo siguientes:

{Si;Si;Si;NO;NO;NO;Si;Si;NO;Si;Si;Si;Si;Si;Si;Si;Si;Si;Si;Si;Si;Si;NO;Si;Si;Si;NO;NO;NO;Si;NO;Si;NO;NO;NO;Si;Si;NO;Si;NO}

Muestra Bruta = Datos

Que puede decir usted acerca de los resultados obtenidos?


Representación de Datos Cualitativos

•Tablas de Frecuencia
X # casos %
Fuma (Si) 26 65%
No Fuma (No) 14 35%
Total 40 100%

•Gráficos de Pastel (Pocas categorías de respuesta con alguna de ellas dominante)


Consumo de Cigarrillos en Jovenes entre los 15 y 20 años
en la Ciudad de Cali

No Fuma; 35%

Fuma; 65%
Consumo de Cigarrillos en Jovenes entre los 15 y 20 años
en la Ciudad de Cali

70%

60% 65%

50%

•Gráficos de Barra (El número de categorías no importa) 40%

%
30% 35%

20%

10%

0%
Fuma No Fuma
Características con muchas opciones de respuesta

Buscando la fuente de una Intoxicación grupal:


Consumió alguno de los siguientes alimentos?

Porque no es posible
utilizar un grafico de
pastel?

Es suficiente para pensar que la culpa es del Pollo o de la Carne?


Tipo de Arma? - Destino?

2002 2003 2004 2005 2006 2007


Arma de Fuego 85,90% 88,34% 88,03% 85,12% 86,22% 84,27%
Arma Blanca 10,94% 9,11% 8,60% 11,66% 9,59% 12,90%

Otras 3,07% 2,41% 3,00% 3,09% 3,93% 2,83%

Sin dato 0,10% 0,14% 0,37% 0,13% 0,26% 0,00%

Tipode Armas en Homicidios 2002 -2007

100%
90%
80%
Casos
5000 70%
4500 60%
4000 N = 10949 50%
3500 40%
3000 30%
2500 129 casos sin dato del lugar de
20%
2000 levantamiento
10%
1500
0%
1000
500 2002 2003 2004 2005 2006 2007
0

ho V H
T B D lu
d PI C
ga
r
VL SR
L R S O Arma de Fuego Arma Blanca Otras Sin dato
c H
U C JP SJ sa
H H
C
lu FC N M C IS C
he H H H C H
M
el de tro
rd tro
O
ga en
Lu C

“El 54,6 % de los levantamientos se realizan en la Red de


Salud
ElaboradoPública,
por: Instituto36% en el lugar
Cisalva/Universidad del de los hechos”
Valle.
Diferencias por Edad – Genero?

2002 2003 2004


Tasa (x 100 mil hab)
600
Tasa (x 100 mil hab) N= 2164
Tasa (x 100 mil hab) 500 500
500  N= 2114
 

400 
N= 2022 400
   400
    14 Casos sin dato en la
300  300 24 Casos sin dato en la 300  edad
12 Casos sin dato en la
 edad
200    200 edad  
200
  
 
  
  100 100
100  
            
              0                0
   
  
0   
4 9 4 9 4 9 4 9 4 9 4 4 9 4 9 4 9 4 9 4 9 4 9 4 5 4 9 4 19 24 29 34 39 44 49 54 59 64 5
0- 5-
4 9 5 0- 5-
0- 5- -1 5-1 0-2 5-2 0-3 5-3 0-4 5-4 0-5 5-5 0-6 >6 -1 5-1 0-2 5-2 0-3 5-3 0-4 5-4 0-5 5-5 0-6 >6 -1 - - - - - - - - - - >6
10 1 2 2 3 3 4 4 5 5 6 10 1 2 2 3 3 4 4 5 5 6 10 15 20 25 30 35 40 45 50 55 60
Grupo de edad Grupo de edad Grupo de edad
Hombres Mujeres Hombres Mujeres
Hombres Mujeres

2005 2006 2007

Tasa (x 100 mil hab) Tasa (x 100 mil hab)


400 350
350
Tasa (x 100 mil hab) 
  N= 1585  300  N= 1519
300  N= 1544
300 
250   250 
  14 Casos sin dato en la 200 15 Casos sin dato en la

200 20 Casos sin dato en la  edad
200 edad  edad 150
  150
 
   100 
100  
100
  
50  
 
50     
               
 
        
0  
 
           0 
 
  0
4 9 4 9 4 9 4 9 4 9 4 9 4 5
4 9 4 9 4 9 4 9 4 9 4 9 4 5 0-
4
5-
9
-1
4
-1
9
-2
4
-2
9
-3
4
-3
9
-4
4
-4
9
-5
4
-5
9
-6
4
>6
5 0- 5- -1 -1 -2 -2 -3 -3 -4 -4 -5 -5 -6 >6
0- 5- -1 5-1 0-2 5-2 0-3 5-3 0-4 5-4 0-5 5-5 0-6 >6 10 15 20 25 30 35 40 45 50 55 60 10 15 20 25 30 35 40 45 50 55 60
10 1 2 2 3 3 4 4 5 5 6
Grupo de edad Grupo de edad
Grupo de edad
Hombres Mujeres Hombres Mujeres
Hombres Mujeres
Día de Ocurrencia?

Homicidios por día de ocurrencia (2002 – 2007)


Casos
2500

N = 10949
2000

1500

1000

500

es te
s
le
s es ne
s do go
n ar o v r ba in
Lu M rc ue ie a m
M
ie J V S Do

Elaborado por: Instituto Cisalva/Universidad del Valle.


Día 2002 2003 2004 2005 2006 2007
Lunes 12% 14% 11% 12% 13% 14%
Martes 12% 11% 13% 11% 14% 13%
Miércoles 12% 11% 11% 13% 12% 13%
Jueves 13% 12% 13% 12% 11% 10%
Viernes 12% 13% 14% 14% 11% 14%
Sábado 16% 15% 17% 17% 16% 13%
Domingo 23% 24% 21% 21% 23% 23%
Total 100% 100% 100% 100% 100% 100%
Tasas de Homicidios por Genero (2002 -2007)

Hombres Mujeres
Año
Casos Población Tasas Casos Población Tasas
2002 1885 951831 198,0 134 1063982 12,6
2003 1972 960976 205,2 142 1074500 13,2
2004 2019 970209 208,1 146 1085123 13,5
2005 1471 979530 150,2 115 1095850 10,5
2006 1451 988941 146,7 94 1106683 8,5
2007 1421 998443 142,3 99 1117624 8,9

250
Razón de Riesgo por genero ( 2002 – 2007)

Tasa de Homicidios (100.000 Hab)


Razón de tasas 200

Año (Masc/Fem) 150


2002 15,741 Hombres
2003 15,559 100 Mujeres
2004 15,459
50
2005 14,291
2006 17,322 0
2007 15,989 2002 2003 2004 2005 2006 2007

“El riesgo de asesinato es en promedio 15, 73 veces más alto para los
hombres que para las mujeres”
Mediciones Indexadas en el Tiempo (Datos Longitudinales)
Tabla 1. Homicidios en América - 2006
Ciudad Homicidios Población Tasa*
Bogotá 1380 7.328.754 18.8
Cali 1520 2.458.730 62.0
Medellín 709 2.116.416 33.5
Nueva York 597 8.143.197 7.3
Washington 169 550.521 30.7

Tasa x 100.000 Hab Sao Paulo 3365 10.927.985 30.8


140
120 Buenos Aires 226 3.018.302 7.5
Cali
120 108
101 101 Colombia *Homicidios por cada 100.000 habitantes
100
94 90 93 89 91 91
81 82
80
65 62 60 Grafico de Linea:
Evolución de la característica en el tiempo
60
63 65 67
40 57 59 53 53
42 38 37
20 35

0
1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007
OTROS GRAFICOS UTILES
Pictogramas : Su objetivo es generar impacto en la transmisión de información

Población por provincias

Sanos Enfermos

Altura e Índice de Masa Corporal


,

Cartogramas : Representación grafica de una variable asociada a una ubicación espacial

2002 2004 2006


6
6
6
Norte Norte
Norte
2
5 2
4 5 2
5
4
4
7
7
1 7
8 1
3 8 1
3 8
3
9
12 9
21 12 9
21 12
13 21
11 14 13
20 11 14 13
19 10 20 11 14
19 10 20
19 10
16 16
15 15 16
15
17 17
18 18 17
18

22 22
22

<1
1 - 40
40- 60
60 - 80
80 - 100
> 100

Fuente: Análisis Espacial de los Homicidios en la Ciudad de Cali. Cisalva. Trabajo de Grado en Estadística
Tabulación y Representación grafica de
datos cuantitativos
DISTRIBUCIÓN DE FRECUENCIAS

La distribución de frecuencias es un método para


organizar y resumir datos. Bajo este método los datos
que componen una serie se clasifican y ordenan,
indicándose el número de veces en que se repite cada
valor.

Caso 1: Datos Puntuales

Caso 2: Datos Agrupados


Ejemplo

Supongamos que se desea realizar un estudio en la comuna X de


Cali para averiguar el numero de habitantes por vivienda y si
habitan personas menores de edad, esto con el fin de implementar
servicios de trabajo social en esa comunidad. Por razones de
tiempo y costo se desea que la investigación no sea exhaustiva, es
decir, no se encuestara en su totalidad las viviendas de esa
comuna, sino que se seleccionara una muestra de tamaño 30 para
poder extraer otro tipo de información a la hora de realizar el
estudio.

Los resultados se muestran a continuación:


Ejemplo
Numero de Habitantes y Existencia de personas menores
de edad por Vivienda

1 6 Si 7 4 Si 13 4 Si 19 5 Si 25 6 Si
2 2 No 8 4 Si 14 5 Si 20 5 Si 26 5 Si
3 4 No 9 4 No 15 2 No 21 2 No 27 5 No
4 5 Si 10 4 Si 16 3 Si 22 4 Si 28 5 Si
5 5 Si 11 3 No 17 5 Si 23 6 Si 29 5 Si
6 5 Si 12 4 Si 18 2 No 24 3 Si 30 5 Si
Distribución de frecuencias
(Datos Puntuales)
TABLA DE FRECUENCIA DEL NUMERO DE HABITANTES
POR VIVIENDA

xi ni fi Ni Fi
Valor observado Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa
Absoluta Relativa Acumulada Acumulada

2 4 0.133 4 0.133
3 3 0.1 7 0.233
4 8 0.267 15 0.5
5 12 0.4 27 0.9
6 3 0.1 30 1.0
Total 30 1.0
Frecuencia Absoluta (ni)
Se puede comenzar a organizar la información escribiendo los
valores que toma la variable y haciendo un conteo para determinar
el número de veces que aparece cada dato.

xi Conteo ni
(Valor observado) (Frecuencia absoluta)
6 4 4 5 6
2 |||| 4
2 4 5 5 5
3 ||| 4 4 2 2 5
4 ||||| ||| 5 4 3 4 5
5 3 5 6 5
5 ||||| ||||| ||
5 4 2 3 5
6 |||
Total
Frecuencia Absoluta (ni)
Se puede comenzar a organizar la información escribiendo los
valores que toma la variable y haciendo un conteo para determinar
el número de veces que aparece cada dato.

xi Conteo ni
(Valor observado) (Frecuencia absoluta)
2 |||| 4 La frecuencia absoluta del dato
xi se representa por medio de ni.
3 ||| 3
4 ||||| ||| 8
5 ||||| ||||| || 12 Ej: el dato x3=4 aparece 8 veces
en la muestra, por tanto n3=8.
6 ||| 3
Total 30
Frecuencia Relativa (fi)
La frecuencia absoluta también puede expresarse como una
fracción o porcentaje, surgiendo lo que se denomina frecuencia
relativa (fi).
ni
fi  xi ni fi
n
2 4
Ejemplo:
3 3
n3 8
f3    0.267 4 8

n 30 5 12
6 3
30
Frecuencia Relativa (fi)
La frecuencia absoluta también puede expresarse como una
fracción o porcentaje, surgiendo lo que se denomina frecuencia
relativa (fi).
ni
fi  xi ni fi
n
2 4 0.133
Ejemplo:
3 3 0.1
n3 8
f3    0.267 4 8 0.267

n 30 5 12 0.4

Lo que indica que el dato x3=4 representa 6 3 0.1


el 26.7% de toda la muestra, es decir, que 30 1.0
de acuerdo a la muestra, el 26.7% de las
viviendas tienen 4 habitantes.
Frecuencias Acumuladas

FRECUENCIA ABSOLUTA ACUMULADA (Ni)


Número de datos que son menores o iguales a xi.

N i  n1  n2  ...  ni
FRECUENCIA RELATIVA ACUMULADA (Fi)
Fracción o porcentaje de la frecuencia absoluta
acumulada hasta xi.

Ni
Fi   f1  f 2      f i
n
Frecuencias Acumuladas
xi ni fi Ni Fi
En el ejemplo: 2 4 0.133 4 0.133

N3  n1  n2  n3 3 3 0.1 7 0.233
4 8 0.267 15 0.5
N3  4  3  8  15
5 12 0.4 27 0.9
6 3 0.1 30 1.0
N3 15
F3    0.50 30 1.0
n 30

Indica que de acuerdo con la muestra, 15 viviendas tienen 4 o menos habitantes.

Indica que el 50% de los datos son iguales o inferiores a 4, es decir que de acuerdo con
la muestra, el 50% de las viviendas tienen 4 o menos habitantes.
Distribución de frecuencias
(Variable Discreta)
TABLA DE FRECUENCIA DEL NUMERO DE HABITANTES
POR VIVIENDA

xi ni fi Ni Fi
Valor observado Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa
Absoluta Relativa Acumulada Acumulada

2 4 0.133 4 0.133
3 3 0.1 7 0.233
4 8 0.267 15 0.5
5 12 0.4 27 0.9
6 3 0.1 30 1.0
Total 30 1.0
Propiedades y Relaciones
Si se toma una muestra de n datos, de los cuales hay m distintos, que
ordenados en forma creciente son x1, x2, …, xm, entonces:

1. 0  ni  n Las frecuencias absolutas son siempre valores enteros.


m
2. n  n
i 1
i La suma de las frecuencias absolutas es igual a n.

3. 0  f i  1 Las frecuencias relativas son siempre valores fraccionarios.


m
4. f
i 1
i 1 La suma de las frecuencias relativas es igual a 1.

j
5. N j   ni La frecuencia absoluta acumulada es igual a la suma de las
i 1 frecuencias absolutas.
Propiedades y Relaciones

6. N m  n El ultimo valor de las frecuencias absolutas acumuladas


es igual a n.

Cada frecuencia absoluta acumulada


7. n1  N1  N 2  ...  N m  n es inferior a la siguiente.

j
8. F j   f i La frecuencia relativa acumulada es igual a la suma de las
i 1 frecuencias relativas.

9. f1  F1  F2  ...  Fm  1 Cada frecuencia relativa acumulada


es inferior a la siguiente.
Función de Distribución N(x)
Las frecuencias acumuladas pueden definirse como funciones sobre
todos los números reales.
N(x)= “número de datos que son menores o iguales a x”
Para el ejemplo, la distribución de N(x) es:

xi ni fi Ni Fi Ej: N ( x  4)  15
2 4 0.133 4 0.133
0 si x  2
3 3 0.1 7 0.233 4 si x  2

4 8 0.267 15 0.5
7 si x  3
5 12 0.4 27 0.9 N ( x)  
15 si x  4
6 3 0.1 30 1.0 27 si x  5
Total 30 1.0 
30 si x  6
Función Empírica de Distribución
Acumulada, F(x)
F(x)= “fracción (o porcentaje) de los datos que son menores o
iguales que x”

Para el ejemplo, la distribución de F(x) es:

xi ni fi Ni Fi Ej: F( x  4)  0.50
2 4 0.133 4 0.133
0 si x2
3 3 0.1 7 0.233 0.133 si x2
4 8 0.267 15 0.5 
0.233 si x3
5 12 0.4 27 0.9 F ( x)  
0.5 0 si x4
6 3 0.1 30 1.0
0.90 si x5
Total 30 1.0 
1 si x6
Representación gráfica
Cuando se trate de frecuencias absolutas o de frecuencias relativas,
se realizará la representación por medio del llamado diagrama de
frecuencias (absolutas o relativas)

xi ni fi 12
12

Frecuencia Absoluta (ni)


2 4 0.133
10
8
3 3 0.1 8
4 8 0.267 6
4
5 12 0.4 4 3 3

6 3 0.1 2

30 1.0 0
2 3 4 5 6
Numero de habitantes por vivienda
Representación gráfica
Cuando se trate de frecuencias absolutas o de frecuencias relativas,
se realizará la representación por medio del llamado diagrama de
frecuencias (absolutas o relativas)

xi ni fi 0,4
0,4

Frecuencia Relativa (fi)


2 4 0.133
3 3 0.1 0,3 0,267

4 8 0.267 0,2
0,133
5 12 0.4 0,1 0,1
0,1
6 3 0.1
30 1.0 0
2 3 4 5 6
Numero de habitantes por vivienda
Variable Cualitativa
TABLA DE FRECUENCIA DE LA EXISTENCIA DE PERSONAS
MENORES DE EDAD POR VIVIENDA
Frecuencia Frecuencia
Valor observado Absoluta Relativa

Si 22 0.733
No 8 0.267
Total 30 1.0 Viviendas con habitantes
menores de edad

27%
Si
73% No
Tabla Bivariada
TABLA DE FRECUENCIA DEL NUMERO DE HABITANTES Y EXISTENCIA
DE PERSONAS MENORES DE EDAD POR VIVIENDA

Numero de Personas Menores


de Edad 12 11
Habitantes Total
por Vivienda No Si 10

Numero de Viviendas
2 4 4 8 Existencia
6 de Menores
3 1 2 3 6
No
4
4 2 6 8 4 3 Si
2 2
5 1 11 12 2 1 1

6 3 3 0
2 3 4 5 6
Total 8 22 30 Habitantes por Vivienda

Existen 4 viviendas de 2 habitantes que no


tienen personas menores de edad.
EJERCICIO
En una población del Cauca se tomo una muestra de 30 familias para observar
el numero de personas menores de 12 años con el propósito de estimar
algunos indicadores sobre demanda potencial escolar. Esta arrojó los
siguientes resultados:

4, 3, 0, 2, 2, 0, 2, 2, 1, 2, 1, 1, 3, 4, 5,
2, 2, 0, 2, 0, 3, 1, 1, 3, 3 0, 3, 4, 1, 3

a) Cual es la población?, b) Cual es la muestra?, c) Cual es la variable?, d) Es


cualitativa o cuantitativa?, e) De que tipo es la variable?, f) Que clase de
escala se ha utilizado en la medición de la variable?, g) Construya la
distribución de frecuencias absoluta y relativa. h) Construya la distribución de
frecuencias acumuladas. i) Realice un diagrama de barras y de pastel.
Caso 2: Datos Agrupados
Suponga que se tiene la siguiente información de la
duración en horas de cierto dispositivo electrónico.

“Seguramente todos los datos sean distintos y la tabla


de frecuencia no resumiría en nada la información”
¿Qué se puede hacer?

Solución Agrupar la información


Caso 2: Datos Agrupados

A continuación se presenta información de la variable ingreso


familiar mensual (miles de pesos) en 50 familias de una población:

5000 2550 1910 3100 2930


4600 2350 3810 3920 2000
3050 2940 1190 2410 850
3920 3520 3320 870 2390
3510 2720 800 3190 3150
3170 1850 3830 2560 3690
3860 1980 1770 840 2510
2450 1370 2910 3960 4110
2120 3790 2820 4810 2380
2040 1540 3500 4850 3119
Distribución de frecuencias
(Datos Agrupados)
TABLA DE FRECUENCIA DEL INGRESO FAMILIAR MENSUAL
(miles de pesos)

Intervalos de x´i
ni fi Ni Fi
Clase Marca de clase

[800-1500] 1150 6 0.12 6 0.12

(1500-2200] 1850 8 0.16 14 0.28

(2200-2900] 2550 10 0.20 24 0.48

(2900-3600] 3250 13 0.26 37 0.74

(3600-4300] 3950 9 0.18 46 0.92

(4300-5000] 4650 4 0.08 50 1.0

Total 50 1.0
Pasos para construir una distribución de
Datos Agrupados

m=6

Rango  Max( xi )  Min( xi ) R = 5000 – 800


R = 4200

R
C C = 4200 / 6 C = 700
m
Pasos para construir una distribución de
Datos Agrupados
4. Construir cada una de las m clases:
L0  800
L0  Min Clase Intervalos de xi
L1  800  700  1500 Clase Marca de
Calase
L1  L0  C L2  1500  700  2200 1 [800-1500]

L2  L1  C L3  2200  700  2900 2 (1500-2200]

 L4  2900  700  3600 3 (2200-2900]

Lm  Lm 1  C L5  3600  700  4300


4 (2900-3600]

L6  4300  700  5000 5 (3600-4300]

6 (4300-5000]
Pasos para construir una distribución de
Datos Agrupados
4. Construir cada una de las m clases:
L0  800
L0  Min Clase Intervalos de x´i
L1  800  700  1500 Clase Marca de
Calase
L1  L0  C L2  1500  700  2200 1 [800-1500] 1150

L2  L1  C L3  2200  700  2900 2 (1500-2200] 1850

 L4  2900  700  3600 3 (2200-2900] 2550

Lm  Lm 1  C L5  3600  700  4300


4 (2900-3600] 3250

L6  4300  700  5000 5 (3600-4300] 3950

6 (4300-5000] 4650
5. Calcular la marca de clase (x’i):
Li 1  Li
x'i  Determina el punto medio de cada clase
2
Pasos para construir una distribución de
Datos Agrupados
6. Determinar la frecuencia asociada con cada intervalo, deben
contarse los datos que pertenecen a cada uno.

Clase Intervalos de x´i ni fi Ni Fi


Clase 5100 2550 1910 3100 2930
1 [800-1500] 1150 6 4600 2350 3810 3920 2000
3050 2940 1190 2410 850
2 (1500-2200] 1850
3920 3520 3320 870 2390
3 (2200-2900] 2550 3510 2720 800 3190 3150
3170 1850 3830 2560 3690
4 (2900-3600] 3250 3860 1980 1770 840 2510
5 (3600-4300] 3950 2450 1370 2910 3960 4110
2120 3790 2820 4810 2380
6 (4300-5000] 4650 2040 1540 3500 4850 3119
Total
Distribución de frecuencias
(Datos Agrupados)
TABLA DE FRECUENCIA DEL INGRESO FAMILIAR MENSUAL
(miles de pesos)

Intervalos de
Clase x´i ni fi Ni Fi
Clase
1 [800-1500] 1150 6 37
0.12familias6presentaron
0.12 un
ingreso inferior a 3600 miles
2 (1500-2200] 1850 8 0.16 de14pesos. 0.28
3 (2200-2900] 2550 10 0.20 24 0.48

4 (2900-3600] 3250 13 0.26 37 0.74

5 (3600-4300] 3950 9 0.18 46 0.92

6 (4300-5000] 4650 4 0.08 50 1.0


El 18% de las familias presentaron
ingresos entre 3600 Total
y 4300 miles50de 1.0
pesos.
Se puede calcular en forma aproximada el porcentaje de datos que hay en
un intervalo cualquiera?

¿Cuál es el porcentaje de datos que son iguales o


inferiores a x ?

fi
F  x   Fi 1   x  Li 1 
C

¿Qué porcentaje de datos se encuentran entre a y b?

f  a, b   F  b   F  a 
Que porcentaje de datos se encuentra entre 1600 y 2500?

Intervalos de
Clase x´i ni fi Ni Fi
Clase
1 [800-1500] 1150 6 0.12 6 0.12
a=1600 2 (1500-2200] 1850 8 0.16 14 0.28
b=2500 3 (2200-2900] 2550 10 0.20 24 0.48
4 (2900-3600] 3250 13 0.26 37 0.74
5 (3600-4300] 3950 9 0.18 46 0.92
6 (4300-5000] 4650 4 0.08 50 1.0
Total 50 1.0
Que porcentaje de datos se encuentra entre 1600 y 2500?

Intervalos de
Clase x´i ni fi Ni Fi
Clase
1 [800-1500] 1150 6 0.12 6 0.12
a=1600 2 (1500-2200] 1850 8 0.16 14 0.28
b=2500 3 (2200-2900] 2550 10 0.20 24 0.48
4 (2900-3600] 3250 13 0.26 37 0.74
5 (3600-4300] 3950 9 0.18 46 0.92
6 (4300-5000] 4650 4 0.08 50 1.0
Total 50 1.0

f 1600, 2500   F  2500   F 1600 


 0.3657  0.1428
 0.2229  22.3%
Representación gráfica

Cuando se trate de frecuencias absolutas o relativas, se realizará la


representación por medio del llamado Histograma de frecuencias.

i Intervalos x´i ni fi
1 [800-1500] 1150 6 0.12

2 (1500-2200] 1850 8 0.16

3 (2200-2900] 2550 10 0.20

4 (2900-3600] 3250 13 0.26

5 (3600-4300] 3950 9 0.18

6 (4300-5000] 4650 4 0.08

Total 50 1.0
Representación gráfica
Cuando se trate de frecuencias absolutas o relativas acumuladas, se debe
calcular su función de distribución (F(x)) y representarla por medio del
grafico llamado Ojiva.
0 para x  800
 0.12
0   x  800  para 800  x  1500
 700
 0.16
0.12   x  1500  para 1500  x  2200
 700
 0.20
0.28   x  2200  para 2200  x  2900
700
F ( x)  
0.48  0.26  x  2900  para 2900  x  3600
 700
 0.18
0.74   x  3600  para 3600  x  4300
 716.7
 0.08
0.92   x  4300  para 4300  x  5000
 700
1 para x  5000
Representación gráfica
Ojiva
EJERCICIO
Una entidad encargada del control de contaminación de cierto rio, lleva
registros sobre el oxigeno disuelto, expresada en mg/l; los datos se presentan a
continuación:

2,6 4 2,8 1,9 3,5


3,6 3,2 1,8 4,5 1,6
3,1 2,5 4,2 1,2 3,2
2,6 1,7 3,5 2,2 4,4
2,7 0,3 2,4 2,2 1,4
3,9 3,1 2,2 3 0,7
2,4 2,6 3,4 2,1 2,8
2,7 1,3 3,7 1,8 3,3
2,5 4,3 0,8 2,9 0,5
2,3 1,5 2,3 3,8 2,3

1. Construya un cuadro de frecuencias completo.


2. Grafique el Histograma.
Medidas Resumen.
“En ocasiones la evaluación grafica puede ser una fuente de error por
percepción, los indicadores contribuyen a corroborar lo observado”

“Generalmente las decisiones se toman fundamentadas en indicadores resumen”


Medidas de Tendencia Central
“Calculo numérico capaz de resumir en un valor rasgos importantes en el
comportamiento de un conjunto de datos, tal como su centramiento. De tal manera que
con base en ellos sea posible ejecutar acciones o tomar decisiones”

Var Nominal Var Ordinal Var Cuantitativas (razón, intervalo)

Moda Moda Moda


Mediana Mediana
Promedio (Media o Media Aritmética)

¿Cual Indicador es el Adecuado?


Medidas de Tendencia Central
Moda: Dato de mayor frecuencia en los resultados observados

Mediana: Dato que supera al 50% de los datos

Media: Valor central del conjunto de datos

EJ: Calcule los indicadores de tendencia para el siguiente conjunto de datos

5 6 6 7 7 7 8 8 9 10 5 6 6 7 7 7 8 8 9 20

En una distribución simétrica, media, mediana y moda deben ser muy similares.

Escoger cualquiera de los


tres es indiferente?, Cual es
mejor?
INDICADORES DE DISPERSION

Por que se estudia la dispersión?

•Pregunta: ¿Un Guía turístico le dice a


usted que cierto río tiene una profundidad
promedio de 1.40 mts, con está
información cruzaría usted el río?

➢ Los Indicadores de Tendencias central no trabajan solos, deben apoyarse con


alguna medida de dispersión

➢ Un Índice de dispersión pequeño, indica baja variabilidad, por ende el valor


de tendencia central será mas confiable.

➢ Un índice de dispersión grande, indica gran variabilidad, esto implica que el


Indicador de tendencia central sea poco confiable
INDICADORES DE DISPERSION

1. Rango:
R = Máximo - Mínimo

“El rango es una medida insuficiente ya que solo tiene en


cuenta 2 de los n valores muestrales”

2. Desviación Media: Cantidad promedio en que los


valores observados difieren de su media
n

x X i
DM  i 1
n
INDICADORES DE DISPERSION
3. Varianza:

 i
( x  X ) 2

S2  i 1
n 1

4. Desviación Estándar: Cantidad promedio en que los valores


observados difieren de su media

S  S2
COEFICIENTE DE VARIACIÓN
(Variabilidad Relativa)

S
CV  *100%
x

✓ Elimina los problemas de la escala de medida, permitiendo comparar entre variables


diferentes.

✓ Su cercanía a 0 implica homogeneidad de la característica, valores altos corresponden a


características heterogéneas.

No debe usarse cuando la variable presenta valores negativos o en escalas de intervalos


Ejemplo
(Comparación de Poblaciones)

Cual grupo presenta mayor variabilidad?


Descriptivos Grupo de tratados Grupo no Tratados
para helicobacteri
Promedio (Talla) 140 120
Desviación 13 12
Numero de individuos 150 300
Indicadores de Posición
Permiten hacerse una idea acerca de la forma de la distribución una variable y su
dispersión. En ocasiones sirven como criterio de selección.

Cuartiles: Dividen la distribución en cuatro partes porcentualmente iguales, Q1, Q2, Q3

Q1= Valor que es superior al 25% de las observaciones


Q2= Valor que es superior al 50% de las observaciones
Q3 = Valor que es superior al 75% de las observaciones

Deciles: Dividen la distribución en 10 partes porcentualmente iguales, d1, d2, d3,…..d9,


d10.
Indicadores de Posición
Se define el Percentil de orden a como un valor de la variable por
debajo del cual se encuentra una frecuencia acumulada del a%.

Casos particulares son los deciles, cuartiles, Mediana…


Indicadores de Posición

Percentiles: Deciles: Cuartiles:


P1, P2, P3, …, P100 D1, D2, D3, …D9, D10 Q1, Q2, Q3

Nótese que tanto lo deciles como los cuartiles se pueden representar en


función de los percentiles:

P25 = Q1 P50 = Q2= Me P75 = Q3

P10 = D1, P20 = D2, P30 = D3, ..., P50= Me, ..., P90= D9, P100= D10

”La representación grafica de los Cuartiles es el diagrama de cajas y


alambres”
INDICADORES DE POSICIÓN
Calculo del p-ésimo percentil:
Paso1: Ordene los datos de manera ascendente.
Paso 2: Se ubica la posición del percentil que se desea hallar.

P *(n  1)
XP 
100

Donde P es el percentil de interés y n es la cantidad de


observaciones.
Paso 3:
a) Si Xp no es entero se interpola un valor a partir de las dos
posiciones encontradas.
b) Si Xp es entero el valor del percentil corresponde a la posición
encontrada.
Cuartiles de una distribución
Los siguientes datos corresponden a las edades de 14 personas seleccionadas al
azar entre cierta clase de empleados de la población objetivo de estudio: 25, 38,
29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.

¿Cómo determino los cuartiles?

• Ordenar los datos de menor a mayor

Q1=P25= Valor que es superior al 25% de las observaciones


Q2=P50= Valor que es superior al 50% de las observaciones
Q3 =P75= Valor que es superior al 75% de las observaciones
Cuartiles de una distribución

• Calculo del primer cuartil

El primer cuartil corresponde al percentil 25, por lo cual, se calcula la posición


25 de los datos:
25*(14  1)
X 25   3.75
100
Cuartiles de una distribución

• Calculo del primer cuartil

Según el paso anterior el P25 esta entre el tercero y cuarto puesto, que les
corresponde a los siguientes valores:

En la cuarta posición le corresponde 29


En la tercera posición le corresponde 26
La diferencia entre estos valores es 3

Multiplicamos esa diferencia (3) por la parte decimal de la posición Xp:


3*0.75=2.25

Concluimos que P25 = Valor de la tercera posición mas el producto:

P25  Q1  26  2.25  28.25


Cuartiles de una distribución

• Calculo del segundo cuartil (Mediana)

Q1
El segundo cuartil divide los datos en 2 partes iguales (percentil 50), por lo
cual, se calcula la posición 50 de los datos:

50*(14  1)
X 50   7.5
100
Cuartiles de una distribución

• Calculo del segundo cuartil (Mediana)

Q1
El segundo cuartil divide los datos en 2 partes iguales (percentil 50), por lo
cual, se calcula la posición 50 de los datos:

50*(14  1) Diferencia por parte decimal:


X 50   7.5
100 (34  33) *0.5  0.5
Cuartiles de una distribución

• Calculo del segundo cuartil (Mediana)

Q1 Q2
El segundo cuartil divide los datos en 2 partes iguales (percentil 50), por lo
cual, se calcula la posición 50 de los datos:

50*(14  1) Diferencia por parte decimal:


X 50   7.5
100 (34  33) *0.5  0.5

P50  Q2  Me  33  0.5  33.5


Cuartiles de una distribución

• Calculo del tercer cuartil

Q1 Q2 Q3
El tercer cuartil corresponde al percentil 75, por lo cual, se calcula la posición
75 de los datos:

75*(14  1) Diferencia por parte decimal:


X 75   11.25
100 (45  42) *0.25  0.75

P75  Q3  42  0.75  42.75


Ejemplos
• El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se
considera “demasiado bajo”?

Percentil 5 del peso


25
20
frecuencia

15
10
5
0

1 2 3 4 5

Peso al nacer (Kg) de 100 niños


Ejemplos
¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75 o tercer cuartil

Percentil 75 del peso

30
25
20
frecuencia

15
10
5
0

50 55 60 65 70 75 80 85

Peso (Kg) de 100 deportistas


Ejemplos
El colesterol se distribuye simétricamente en la población.
Supongamos que se consideran patológicos los valores extremos. El 90% de los
individuos son normales ¿Entre qué valores se encuentran los individuos
normales?
Percentiles 5 y 95
20
15
frecuencia

10
5
0

180 200 220 240 260

Colesterol en 100 personas


Ejemplos
¿Entre qué valores se encuentran la mitad de los individuos “más normales”
de una población?

Entre el cuartil 1º y 3º

20
15 Percentiles 25 y 75
frecuencia

10
5
0

150 160 170 180 190

Altura (cm) en 100 varones


GRAFICOS BOXPLOT
Diagrama de cajas de Tukey: Resumen en 5 números

0.08
0.06
densidad

0.04
0.02
Mín. P25 P50 P75 Máx.

0.00
40 45 50 55 60 65

Velocidad (Km/h) de 200 vehículos en ciudad

“El grafico Boxplot es útil en la descripción general de un conjunto de datos. Ilustra la


forma de la distribución, su centramiento, da una idea de la variabilidad e identifica
valores atípicos”

Diagrama de cajas de Tukey: Resumen en 5 números


Datos Atípicos
0.04
0.03
densidad

0.02

P25 P50 P75


0.01

Mín. Máx.

CS=P75 +1.5RIQ
0.00

CI=P25 -1.5RIQ 80 90 100 110 120 130 140

Velocidad (Km/h) de 200 vehículos en autovía


Grafico Boxplot en la Comparación de Poblaciones
Ejemplo: El Registro Poblacional de Cáncer viene adelantando una investigación sobre la
influencia que tiene la presencia de Helicobacter Pilory sobre la velocidad de crecimiento de un
conjunto de niños habitantes del departamento de Nariño. Para ello se dispone de dos
poblaciones; en una de ellas se ofrece tratamiento continuo contra la Helicobacter Pilory ,
mientras que en la otra no se suministra este tratamiento. Inicialmente surge la pregunta, los
grupos eran comparables al inicio del estudio?

Edad Peso Talla


8
35,00 140,00
Edad del niño al inicio del estudio

130,00

Peso del niño al inicio del estudio

Talla del niño al inicio del estudio


7 30,00

120,00

6 25,00

110,00

5 20,00
100,00

15,00 90,00
4

80,00
10,00
3
No Tratados Tratados
No Tratados Tratados Tratamiento
No Tratados Tratados Tratamiento
Tratamiento

Cual de las variables, en que grupo, presenta mayor indicio de asimetría?


En que casos existen puntos atípicos?
Evolución de una Población a través de Gráficos Boxplot

Que opina acerca de la velocidad de crecimiento de los dos conjuntos de niños?


Ejercicio
Una muestra de 15 estudiantes de una carrera de ingeniería mostró
los siguientes créditos matriculados durante el periodo final de su
ultimo año de escuela:

15 21 18 16 18 21 19 15 14 18 17 20 18 15 16

Calcule e interprete:

a. La media, mediana y moda.


b. La varianza y el coeficiente de variación.
c. El percentil 25, 50 y 75.
d. Grafique el Diagrama de caja (Boxplot).
Coeficiente de Asimetría
Una variable es asimétrica cuando la mayoría de sus datos se encuentran acumulados
sobre un lado de su promedio.

La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la


distribución.
La media tiende a desplazarse hacia las valores extremos (colas).
Las discrepancias entre las medidas de centralización son indicación de asimetría.
Como identificar la Asimetría?
1. En una distribución simétrica el promedio, mediana y moda deben estar muy
cercanos, una diferencia importante entre estos valores son indicio de asimetría
2. El histograma de frecuencia y el Boxplot hacen evidente la presencia de asimetría
3. Coeficiente de asimetría:
n

 i
( x  X ) 3

CA  i 1
ns 3

CA = 0 distribución simétrica
CA < 0 (distribución asimétrica negativa)
CA > 0 (distribución asimétrica positiva)
Análisis Exploratorio de Datos

Enfrentado las situaciones


Situación 1
Durante 30 semanas se ha registrado la demanda (Toneladas) de un producto :
Semana Lunes Martes Miércoles Jueves Viernes Sabado Domingo
1 10,90 10,58 11,78 10,71 12,35 12,95 7,24
2 8,60 11,97 12,63 10,84 14,90 11,89 8,83
3 7,91 8,73 9,12 13,23 12,52 13,94 9,48
4 9,50 9,34 9,79 10,38 14,17 14,05 6,05
5 9,15 10,91 11,77 11,03 13,02 12,35 8,00
6 8,21 7,81 10,15 10,56 13,83 12,63 8,93
7 7,62 9,00 12,13 11,42 13,46 13,03 5,65
8 9,80 9,98 11,99 12,00 13,39 14,24 5,86
9 10,00 8,55 10,89 10,08 13,12 12,72 7,58
10 9,67 8,58 13,13 12,16 14,07 11,93 7,99
11 10,37 9,72 11,76 10,76 12,70 12,38 6,06
12 8,57 11,30 8,87 11,94 13,38 12,51 6,58
13 9,15 10,54 10,67 10,09 12,44 14,82 5,88
14 9,31 10,61 10,39 10,92 13,34 12,37 6,23 Se solicita analizar la demanda del
15 9,76 10,48 10,50 13,45 12,95 13,25 8,34
16 10,42 8,53 12,96 9,04 12,32 13,20 5,79 producto para tomar decisiones en
17
18
9,66
12,59
8,68
8,88
11,59
11,66
10,63
11,01
13,29
12,78
14,43
13,91
4,38
6,10
cuanto a su producción. Que
19 10,72 11,10 10,33 12,77 12,44 13,88 5,33 conclusiones se pueden obtener a
20 12,31 8,71 11,22 13,68 13,19 13,12 3,94
21 8,42 9,27 10,69 10,63 13,20 11,71 8,39 partir de estos datos?
22 9,21 10,31 11,23 10,21 13,07 12,61 6,67
23 10,73 10,42 12,19 11,40 11,84 13,30 9,74
24 9,70 9,82 10,14 10,51 13,40 13,33 8,47
25 10,35 12,19 10,65 11,33 12,11 11,61 5,94
26 7,79 9,49 12,70 9,21 12,80 14,15 6,17
27 10,01 9,75 12,61 11,61 12,88 13,81 5,81
28 10,30 10,93 12,61 11,42 13,85 13,19 4,39
29 8,35 11,89 10,58 10,69 12,62 13,02 6,15
30 9,27 9,65 9,65 11,17 14,03 12,76 7,84
Situación 2.
La Fabrica de Chocolates.
Una fabrica de chocolates tiene indicios que el peso de las barras que produce,
presenta una variabilidad más alta que la deseada, el peso nominal es de 30 gramos
con una holgura de 1,5 gramos en ambos sentidos
Para diagnosticar el estado del proceso de fabricación se toma una muestra aleatoria de
50 unidades, cuando el proceso se encuentra en condiciones regulares de operación.

29.61 27.99 30.17 30.97 28.93 27.27 28.24 29.50 27.89 30.23 27.68 28.48
28.89 29.28 29.84 27.86 27.51 29.16 29.16 28.23 28.55 29.28 28.74 28.24
26.92 28.17 27.81 28.31 29.87 28.66 29.24 28.27 29.14 27.26 29.68 28.51
29.56 29.37 27.07 28.91 28.24 29.66 27.82 27.72 28.74 28.80 28.47 29.50
27.97 28.46

Construcción del Plan de Análisis

1. Cual es la intención del estudio?


2. Existen Hipótesis de investigación?
3. Cual seria el comportamiento esperado bajo el cumplimiento de la Hipótesis?
4. Cuales son los indicadores apropiados para diagnósticar la Hipótesis?
Situación 1. Validación de la intervención
La Fabrica de Chocolates.
Luego de ubicar la posibilidad de intervención, esta es aplicada al proceso productivo
(Estandarización de la densidad de producto), obteniendo una corrida de producción
con los siguientes resultados

30,73 29,67 28,95 30,15 30,28 29,62 29,25 31,17


28,97 30,28 30,52 29,52 30,15 29,14 30,79 29,40
28,94 29,80 30,46 30,78 31,16 30,54 29,34 29,92
29,95 30,26 29,97 29,56 29,73 29,76 29,69 29,98
29,15 30,20 29,95 31,18 29,88 29,79 29,76 30,00

Con estos resultados, a nivel exploratorio, puede usted valorar la efectividad de la


intervención?
Situación 1. Resultados Finales
Histogram of Peso
Indicador Pre Post
28,5 31,5
12
Promedio 28,67 29,96
10
Desviación 0,88 0,60
8
C.V 3,08% 2,01%
Frequency

6
C.A 0,19 0,30
4
%(>LES) 0% 0%
2 %(<LEI) 46% 0%
0
27 28 29 30 31
Peso

Evaluación del Cambio en el Proceso


32
Histograma de Peso Post
31,5
28,5 31,5
31
14

12 30

Datos
10
29
Frecuencia

8 28,5

28
6

4 27

2 Peso Pre Peso Post

0
26,4 27,2 28,0 28,8 29,6 30,4 31,2 32,0
Peso Post
Versión Post
Situación 3.
Dx contaminación

Una entidad encargada del control de contaminación, sospecha que cierta industria
que deposita sus efluentes sobre el curso de un rio lo viene contaminando. Con el
objetivo de verificar su hipótesis ha decidido tomar 30 mediciones consecutivas
(diarias) en puntos de muestreo ubicados antes y después del efluente (de forma
apareada, según tiempo de retención)

El Oxígeno Disuelto (OD) es la cantidad de oxígeno que está disuelta en el agua. Es un


indicador de cuan contaminada está el agua o de lo bien que puede dar soporte esta
agua a la vida vegetal y animal. Generalmente, un nivel más alto de oxígeno disuelto
indica agua de mejor calidad. Si los niveles de oxígeno disuelto son demasiado bajos,
algunos peces y otros organismos no pueden sobrevivir.
Situación 3 – Los Datos
Día OD (Antes) OD (Desp) Día OD (Antes) OD (Desp)
1 7,36 4,89 16 6,90 4,41
2 9,61 6,90 17 8,00 6,84
3 7,69 5,75 18 6,79 5,01
4 8,09 5,81 19 7,46 5,44
5 7,92 5,81 20 7,80 5,96
6 9,38 6,78 21 8,80 6,09
7 7,63 6,02 22 7,61 5,89
8 6,42 3,85 23 8,75 6,59
9 10,60 8,21 24 8,63 7,21
10 9,13 7,59 25 9,38 7,44
11 7,31 5,82 26 9,59 7,29
12 9,19 7,08 27 7,82 6,00
13 8,18 6,27 28 7,80 5,80
14 8,35 5,51 29 8,85 6,81
15 7,06 4,92 30 7,82 6,90

1. Hipótesis?
2. Estructura de Datos?
Situación 4.
El peso de los embutidos

La tabla de datos que figura a continuación corresponde a una muestra, tomada


aleatoriamente durante 20 días del peso en gramos de cierto embutido que puede ser
elaborado por dos máquinas distintas (1 y 2), que a su vez son atendidas según
programación de producción por dos operarios (A y B).

Las especificaciones del peso son 220 ± 10 gr, y últimamente se han detectado ciertos
problemas al respecto. Cual seria el diagnostico de la situación?

S-ar putea să vă placă și