Documente Academic
Documente Profesional
Documente Cultură
El Análisis Exploratorio de Datos es una técnica alternativa del método tradicional anterior
de usar Las Tablas de distribuciones de frecuencias y sus respectivas gráficas. Esta técnica
permite realizar un análisis descriptivo que revela la presencia de datos discordantes o
atípicos.
Es aquel dato que es completamente diferente a los demás y que puede ocurrir por un error en
el registro o que realmente su comportamiento ha sido diferente a los demás.
Antes de dar el método para hallar datos discordantes o atípicos, el cual se llama Diagrama
de caja, donde se usan los cuartiles para datos no agrupados y el rango intercuartílico, se dará
otro método de presentación de datos que resume en sí mismo una Tabla de distribución de
frecuencias y un Histograma y recibe el nombre de Diagrama de tallos y hojas.
Es el tipo de tabla usado en el análisis exploratorio de datos, que a su vez sirve de gráfico,
muy parecido al Histograma de frecuencias simples utilizada en el Método tradicional; por lo
que sirve, a su vez, para observar la forma de la distribución de los datos así como de su
asimetría.
2º) Cada dato se separa en dos partes: Tallos y Hojas, donde cada hoja se forma con el
último dígito, y cada tallo con los dígitos anteriores al último.
3º) Cada tallo se ordena de menor a mayor en una línea horizontal, y encima de cada tallo se
escriben las respectivas hojas de cada tallo hasta completar todos los datos, y deben
también de estar ordenados de menor a mayor.
Ejemplo 1
Los siguientes datos representan las bolsas de viaje de 20 turistas (en decenas de dólares):
850 865 866 870 868 890 895 880 870 875 884 885 885 896 895 884 875
1
Construya un diagrama de tallos y hojas, y haga su comentario sobre la distribución.
Solución
2º) Como los datos son de tres cifras, entonces, los dos primeros dígitos forman el tallo y el
tercer dígito la hoja.
3º) Se construye el diagrama presentando los datos ordenados, tal como se muestran a
continuación:
5
5
5 4 6
8 5 4 5
0 6 0 0 5
0 5 0 0 0 5
85 86 87 88 89 90
4º) En este diagrama, se observa que se trata de una Distribución asimétrica negativa o
sesgada a la izquierda.
Ejemplo 2
Los siguientes datos representan las edades de 40 trabajadores:
30 36 43 34 21 28 32 18 26 48 30 18 35 24 31 27 25 31 34
22 23 29 24 30 30 21 23 21 24 33 31 34 31 27 28 25 28 30
34 27
Construya un diagrama de tallos y hojas adecuado, y haga su comentario sobre la distribución.
Solución
2
2º) Como los datos son de dos cifras, entonces, el primer dígito formará el tallo y el
segundo dígito la hoja.
Tallo Hojas
1 8 8
2 1 8 6 4 7 5 2 3 9 4 1 3 1 4 7 8 5 8 7
3 0 6 4 2 0 5 1 1 4 0 0 3 1 4 1 0 4
4 3 8
4º) Se observa que es más conveniente hacer un resumen de los cinco números, tal como se
muestra a continuación:
9 2
4 8 1
4 8 1
4 8 1
3 7 1
3 7 0
2 7 0
1 6 0
8 1 5 0 6
8 1 5 0 5 3 8
1 2 2 3 3 4 4
4º) En este diagrama, se observa también que se trata de una Distribución asimétrica
negativa o sesgada a la izquierda.
3
CÁLCULO DE LOS CUARTILES PARA DATOS NO AGRUPADOS
Para calcular los tres cuartiles (Q1, Q2, y Q3) para datos cuantitativos no agrupados, se debe
usar el siguiente procedimiento, recordando que el segundo cuartil es la mediana. Estos
valores se utilizarán, como se indicó anteriormente, para graficar los Diagramas de Caja.
2º) Si el número de datos es impar, el segundo cuartil Q2 o mediana Me es el valor que está
situado exactamente a la mitad de los datos.
2º) Si el número de datos es impar, el tercer cuartil Q3 es el valor que está situado en la tres
cuartas partes del conjunto de los datos ordenados.
3º) Si el número de datos es par, el tercer cuartil Q3 es la media aritmética de los dos valores
que están en la tres cuarta parte de los datos ordenados.
Ejemplo 3
Solución
4
2º) Segundo Cuartil o Mediana (Q2 o Me):
𝐧 𝟐𝟎 𝟖𝟖𝟎 + 𝟖𝟖𝟎
Como 𝟐 = = 𝟏𝟎 turistas, entonces: Q2 = Me = = 880 decenas de dólares.
𝟐 𝟐
𝟖𝟖𝟓 + 𝟖𝟗𝟎
Q3 = = 887.5 decenas de dólares.
𝟐
RANGO INTERCUARTÍLICO
Está definido como la diferencia entre el tercer y el primer cuartil y se representa por el
símbolo RI o bien por RIC; es decir: RIC = Q3 – Q1.
Este rango intercuartílico contiene el 50% de los datos que están ubicados alrededor de la
parte central del conjunto de datos.
DIAGRAMA DE CAJA
Li = Q1 – 1.5 (RIC)
Ls = Q3 + 1.5 (RIC)
NOTA.- Todo dato que se ubique fuera de estos límites es un dato discordante o atípico.
5
PROCEDIMIENTO PARA CONSTRUIR EL DIAGRAMA DE CAJA
1) Se dibuja un rectángulo en la parte superior de la recta real si esta recta real es horizontal
o bien se dibuja un rectángulo a la derecha de la recta real si esta real es vertical. Por lo
general, se prefiere dibujar el de la recta horizontal.
2) En el rectángulo horizontal se traza una vertical en el lugar que corresponde a la
Mediana o Segundo Cuartil.
3) Se traza una línea horizontal entrecortada por el centro del rectángulo sin cortarlo por
dentro, sólo exteriormente, hasta donde están ubicados los límites del Diagrama de Caja.
4) Finalmente, siempre y cuando sea posible de hacerse, se ubican los valores del conjunto
de datos que están afuera de los límites del Diagrama de caja; estos valores vienen a ser
los Datos discordantes o atípicos que deben ser marcados con asteriscos (*), los cuales
deben de analizarse, ya sea para verificar si se ha cometido algún error en sus registros o
bien para analizar las causas que los han originado. Si no hay datos discordantes o
atípicos, se deben mostrar los valores máximo y mínimo respectivamente.
Ejemplo 4
Tomando el conjunto de datos del Ejemplo 1 anterior y sus respectivos valores de los tres
cuartiles, se puede obtener el siguiente diagrama de caja, donde los límites inferior y superior
son, respectivamente:
Li = Q1 – 1.5 (RIC) = Q1 – 1.5 (Q3 – Q1) = 869 – 1.5 (887.5 – 869) ≅ 841.25
Ls = Q3 + 1.5 (RIC) = Q3 + 1.5 (Q3 – Q1) = 887.5 + 1.5 (887.5 – 869) ≅ 915.25
Li = 841.25 Q1 Me Q3 Ls = 915.25
xmín xmáx
En este diagrama de caja se observa que los valores máximo y mínimo del conjunto de datos
se encuentran dentro de los límites. Luego, no hay valores discordantes o atípicos. Así mismo,
se puede confirmar, como se ha dicho anteriormente, que la distribución es asimétrica
negativa o sesgada a la izquierda.
6
VENTAJAS Y DESVENTAJAS DEL ANÁLISIS EXPLORATORIO DE DATOS
De todo lo anteriormente dicho, una ventaja de esta forma de analizar los datos con respecto a
la distribución de frecuencias es que, además de ser al mismo tiempo una tabla y un
histograma, no se pierde la identidad de cada una de las observaciones; es decir, se puede ver
los valores máximo, mínimo y el dato o los datos más frecuentes (la moda o las modas de la
distribución). Un diagrama de tallos y hojas simula una tabla de distribución de frecuencias
pero con mayor información puesto que se conserva la identidad de la información y el
diagrama de caja es muy adecuado para comparar distribuciones de diferentes muestras.
PRÁCTICA DIRIGIDA Nº 4
1. Los siguientes datos representan los gastos (en miles de soles) de 28 turistas limeños en
su visita al Cuzco y Puno:
15 18 23 30 35 42 45 30 28 32 25 45 55 60 22 28 30 45 35 45 55
60 38 35 40 35 30 25
Construya el diagrama de caja, interpretando los resultados.
2. Los siguientes datos representan los totales de cuentas por cobrar (en miles de soles) de 30
clientes que compran a crédito a una gran compañía:
25 30 28 36 38 40 35 30 25 28 28 35 45 40 35 30 30 25 30 30 35
45 40 30 35 30 54 32 42 46
Construya el diagrama de caja, interpretando los resultados.
3. Los siguientes datos representan los años de antigüedad de los autos de los
administrativos y profesores de la Universidad:
Autos de los administrativos: 2 3 4 10 6 7 5 6 2 1 1 3 2 4 8 5
Autos de los profesores: 2 1 5 2 3 4 2 1 1 3 2 2 6 2 1 3 7
Construya los diagramas de caja para cada muestra en un mismo plano, interpretando los
resultados y haciendo las respectivas comparaciones.
4. La siguiente información corresponde a las notas del curso de Estadística Descriptiva de
tres secciones:
Sección A: 10 8 12 11 13 12 8 10 8 12 11 13 12 8 10 11
Sección B: 10 11 12 13 14 13 14 12 10 11 12 13 14 13 14 12
Sección C: 11 10 13 16 18 10 15 16 19 20 18 17 15 13 12 14
Construya los diagramas de caja para cada muestra en un mismo plano, interpretando los
resultados y haciendo las respectivas comparaciones.
7
En los ejercicios 5-8, conteste las siguientes preguntas:
a) Identifique la población, la muestra, la unidad estadística y la variable y su tipo.
b) Construya el diagrama de caja, interpretando los resultados.
5. Los siguientes datos representan los días utilizados por 16 turistas para visitar el Callejón
de Huaylas y el Callejón de Conchucos en el Departamento de Ancash:
5 18 20 22 25 24 26 28 27 25 22 24 15 16 18 50
187 168 169 120 121 123 132 133 134 135 135 132 142 141 143 144
145 146 148 150 150 151 152 152 155 156 158 160 160 161 162 163
164 166 170 171 172 177 173 174 178 180 181 186 185 190 194 158
201 156 158 217
7. Los siguientes datos representan los sueldos por hora dictada (en soles) de 16 profesores
de una academia pre-universitaria:
30 20 15 22 25 24 26 28 27 25 22 24 13 16 18 30
8. El tiempo que 30 operarios demoraron en ejecutar una tarea fue registrado en minutos,
obteniéndose los siguientes resultados:
7.0 9.0 11.4 7.2 10.2 13.5 16.0 14.0 14.5 8.0 9.1 9.4 13.1 8.5
10.4 15.5 12.0 11.0 11.2 9.6 9.2 9.5 15.6 8.4 10.8 13.0 12.5 12.4
10.5 7.8