Sunteți pe pagina 1din 8

UNIVERSIDAD CATÓLICA SEDES SAPIENTIAE

ESTADÍSTICA APLICADA TEMA Nº 4

ANÁLISIS EXPLORATORIO DE DATOS


Profesor: Tito Navarro Guerrero

El Análisis Exploratorio de Datos es una técnica alternativa del método tradicional anterior
de usar Las Tablas de distribuciones de frecuencias y sus respectivas gráficas. Esta técnica
permite realizar un análisis descriptivo que revela la presencia de datos discordantes o
atípicos.

DATO DISCORDANTE O ATÍPICO

Es aquel dato que es completamente diferente a los demás y que puede ocurrir por un error en
el registro o que realmente su comportamiento ha sido diferente a los demás.

Antes de dar el método para hallar datos discordantes o atípicos, el cual se llama Diagrama
de caja, donde se usan los cuartiles para datos no agrupados y el rango intercuartílico, se dará
otro método de presentación de datos que resume en sí mismo una Tabla de distribución de
frecuencias y un Histograma y recibe el nombre de Diagrama de tallos y hojas.

DIAGRAMA DE TALLOS Y HOJAS

Es el tipo de tabla usado en el análisis exploratorio de datos, que a su vez sirve de gráfico,
muy parecido al Histograma de frecuencias simples utilizada en el Método tradicional; por lo
que sirve, a su vez, para observar la forma de la distribución de los datos así como de su
asimetría.

Para la presentación de esta tabla se procede de la siguiente manera:

1º) Se ubican los valores máximo y mínimo de los datos.

2º) Cada dato se separa en dos partes: Tallos y Hojas, donde cada hoja se forma con el
último dígito, y cada tallo con los dígitos anteriores al último.

3º) Cada tallo se ordena de menor a mayor en una línea horizontal, y encima de cada tallo se
escriben las respectivas hojas de cada tallo hasta completar todos los datos, y deben
también de estar ordenados de menor a mayor.

Este procedimiento se ilustre con el siguiente ejemplo:

Ejemplo 1

Los siguientes datos representan las bolsas de viaje de 20 turistas (en decenas de dólares):

850 865 866 870 868 890 895 880 870 875 884 885 885 896 895 884 875

905 880 850

1
Construya un diagrama de tallos y hojas, y haga su comentario sobre la distribución.

Solución

1º) xmín = 850 ∧ xmáx = 905

2º) Como los datos son de tres cifras, entonces, los dos primeros dígitos forman el tallo y el
tercer dígito la hoja.

3º) Se construye el diagrama presentando los datos ordenados, tal como se muestran a
continuación:

5
5
5 4 6
8 5 4 5
0 6 0 0 5
0 5 0 0 0 5
85 86 87 88 89 90
4º) En este diagrama, se observa que se trata de una Distribución asimétrica negativa o
sesgada a la izquierda.

OBSERVACIÓN: (RESUMEN DE LOS CINCO NÚMEROS)


Cuando el número de hojas es muy grande en la mayoría de los tallos o hay muy pocos tallos,
digamos cuatro o menos, es conveniente sub-dividir todo y cada uno de los tallos en dos,
donde en el primero se anotan los cinco primeros dígitos (0, 1, 2, 3, 4) como sus hojas, y en el
segundo los otros cinco dígitos (5, 6, 7, 8, 9) como sus respectivas hojas, tal como se muestra
en el siguiente ejemplo:

Ejemplo 2
Los siguientes datos representan las edades de 40 trabajadores:

30 36 43 34 21 28 32 18 26 48 30 18 35 24 31 27 25 31 34
22 23 29 24 30 30 21 23 21 24 33 31 34 31 27 28 25 28 30
34 27
Construya un diagrama de tallos y hojas adecuado, y haga su comentario sobre la distribución.

Solución

1º) xmín = 18 ∧ xmáx = 48

2
2º) Como los datos son de dos cifras, entonces, el primer dígito formará el tallo y el
segundo dígito la hoja.

3º) Se construye el diagrama, presentando la siguiente configuración:

Tallo Hojas

1 8 8

2 1 8 6 4 7 5 2 3 9 4 1 3 1 4 7 8 5 8 7

3 0 6 4 2 0 5 1 1 4 0 0 3 1 4 1 0 4

4 3 8

4º) Se observa que es más conveniente hacer un resumen de los cinco números, tal como se
muestra a continuación:

9 2

4 8 1

4 8 1

4 8 1

3 7 1
3 7 0
2 7 0
1 6 0
8 1 5 0 6
8 1 5 0 5 3 8
1 2 2 3 3 4 4
4º) En este diagrama, se observa también que se trata de una Distribución asimétrica
negativa o sesgada a la izquierda.

3
CÁLCULO DE LOS CUARTILES PARA DATOS NO AGRUPADOS
Para calcular los tres cuartiles (Q1, Q2, y Q3) para datos cuantitativos no agrupados, se debe
usar el siguiente procedimiento, recordando que el segundo cuartil es la mediana. Estos
valores se utilizarán, como se indicó anteriormente, para graficar los Diagramas de Caja.

Procedimiento para calcular el primer cuartil Q1 (datos cuantitativos no agrupados)

1º) Se ordenan los datos en forma creciente o decreciente.


2º) Si el número de datos es impar, el primer cuartil Q1 es el valor que está situado en la
cuarta parte del conjunto de los datos ordenados.
3º) Si el número de datos es par, el primer cuartil Q1 es la media aritmética de los dos
valores que están en la cuarta parte de los datos ordenados.

Procedimiento para calcular el segundo cuartil Q2 o mediana Me (datos cuantitativos no


agrupados)

1º) Se ordenan los datos en forma creciente o decreciente.

2º) Si el número de datos es impar, el segundo cuartil Q2 o mediana Me es el valor que está
situado exactamente a la mitad de los datos.

3º) Si el número de datos es par, el segundo cuartil Q2 o mediana Me es la media aritmética


de los dos valores que están a la mitad del conjunto de datos ordenados.

Procedimiento para calcular el tercer cuartil Q3 (datos cuantitativos no agrupados)

1º) Se ordenan los datos en forma creciente o decreciente.

2º) Si el número de datos es impar, el tercer cuartil Q3 es el valor que está situado en la tres
cuartas partes del conjunto de los datos ordenados.

3º) Si el número de datos es par, el tercer cuartil Q3 es la media aritmética de los dos valores
que están en la tres cuarta parte de los datos ordenados.

Ejemplo 3

Calcular los cuartiles del ejemplo 1.

Solución

En ese ejemplo, el tamaño de la muestra es 20 (n = 20). Luego, se usará la media aritmética


de los dos datos contiguos para obtener el cuartil respectivo; es decir:

1º) Primer Cuartil (Q1):


𝐧 𝟐𝟎 𝟖𝟔𝟖 + 𝟖𝟕𝟎
Como = = 𝟓 turistas, entonces: Q1 = = 869 decenas de dólares.
𝟒 𝟒 𝟐

4
2º) Segundo Cuartil o Mediana (Q2 o Me):
𝐧 𝟐𝟎 𝟖𝟖𝟎 + 𝟖𝟖𝟎
Como 𝟐 = = 𝟏𝟎 turistas, entonces: Q2 = Me = = 880 decenas de dólares.
𝟐 𝟐

3º) Tercer Cuartil (Q3):


𝟑𝐧 𝟑(𝟐𝟎)
Como = = 𝟏𝟓 turistas, entonces:
𝟒 𝟒

𝟖𝟖𝟓 + 𝟖𝟗𝟎
Q3 = = 887.5 decenas de dólares.
𝟐

RANGO INTERCUARTÍLICO

Está definido como la diferencia entre el tercer y el primer cuartil y se representa por el
símbolo RI o bien por RIC; es decir: RIC = Q3 – Q1.

Este rango intercuartílico contiene el 50% de los datos que están ubicados alrededor de la
parte central del conjunto de datos.

DIAGRAMA DE CAJA

Es un rectángulo que se grafica en forma horizontal o bien en forma vertical, donde se


representan los tres cuartiles, el valor mínimo y el valor máximo de los datos o bien los datos
atípicos o discordantes, así como los límites superior e inferior del diagrama, los cuales son
calculado a partir del rango intercuartílico.

LÍMITE INFERIOR DEL DIAGRAMA DE CAJA

Se representa por el símbolo Li, y se calcula de la siguiente manera:

Li = Q1 – 1.5 (RIC)

donde Q1 es el primer cuartil.

LÍMITE SUPERIOR DEL DIAGRAMA DE CAJA

Se representa por el símbolo Ls, y se calcula de la siguiente manera:

Ls = Q3 + 1.5 (RIC)

donde Q3 es el primer cuartil.

NOTA.- Todo dato que se ubique fuera de estos límites es un dato discordante o atípico.

5
PROCEDIMIENTO PARA CONSTRUIR EL DIAGRAMA DE CAJA

Para construir el diagrama de caja para un conjunto de datos, se procede de la siguiente


manera:

1) Se dibuja un rectángulo en la parte superior de la recta real si esta recta real es horizontal
o bien se dibuja un rectángulo a la derecha de la recta real si esta real es vertical. Por lo
general, se prefiere dibujar el de la recta horizontal.
2) En el rectángulo horizontal se traza una vertical en el lugar que corresponde a la
Mediana o Segundo Cuartil.
3) Se traza una línea horizontal entrecortada por el centro del rectángulo sin cortarlo por
dentro, sólo exteriormente, hasta donde están ubicados los límites del Diagrama de Caja.
4) Finalmente, siempre y cuando sea posible de hacerse, se ubican los valores del conjunto
de datos que están afuera de los límites del Diagrama de caja; estos valores vienen a ser
los Datos discordantes o atípicos que deben ser marcados con asteriscos (*), los cuales
deben de analizarse, ya sea para verificar si se ha cometido algún error en sus registros o
bien para analizar las causas que los han originado. Si no hay datos discordantes o
atípicos, se deben mostrar los valores máximo y mínimo respectivamente.

Ejemplo 4

Tomando el conjunto de datos del Ejemplo 1 anterior y sus respectivos valores de los tres
cuartiles, se puede obtener el siguiente diagrama de caja, donde los límites inferior y superior
son, respectivamente:

Li = Q1 – 1.5 (RIC) = Q1 – 1.5 (Q3 – Q1) = 869 – 1.5 (887.5 – 869) ≅ 841.25

Ls = Q3 + 1.5 (RIC) = Q3 + 1.5 (Q3 – Q1) = 887.5 + 1.5 (887.5 – 869) ≅ 915.25

Li = 841.25 Q1 Me Q3 Ls = 915.25

xmín xmáx

840 850 860 870 880 890 900 910 920

Q1 = 869 Me = 880 Q3 = 887.5

En este diagrama de caja se observa que los valores máximo y mínimo del conjunto de datos
se encuentran dentro de los límites. Luego, no hay valores discordantes o atípicos. Así mismo,
se puede confirmar, como se ha dicho anteriormente, que la distribución es asimétrica
negativa o sesgada a la izquierda.

6
VENTAJAS Y DESVENTAJAS DEL ANÁLISIS EXPLORATORIO DE DATOS

De todo lo anteriormente dicho, una ventaja de esta forma de analizar los datos con respecto a
la distribución de frecuencias es que, además de ser al mismo tiempo una tabla y un
histograma, no se pierde la identidad de cada una de las observaciones; es decir, se puede ver
los valores máximo, mínimo y el dato o los datos más frecuentes (la moda o las modas de la
distribución). Un diagrama de tallos y hojas simula una tabla de distribución de frecuencias
pero con mayor información puesto que se conserva la identidad de la información y el
diagrama de caja es muy adecuado para comparar distribuciones de diferentes muestras.

La desventaja sería que, sin la ayuda de un programa computacional, es demasiado laborioso


en el caso en que los datos formen un grupo numeroso de valores, ya que hay que hacer varios
cálculos (los cuartiles y los límites del diagrama).

PRÁCTICA DIRIGIDA Nº 4

1. Los siguientes datos representan los gastos (en miles de soles) de 28 turistas limeños en
su visita al Cuzco y Puno:
15 18 23 30 35 42 45 30 28 32 25 45 55 60 22 28 30 45 35 45 55
60 38 35 40 35 30 25
Construya el diagrama de caja, interpretando los resultados.

2. Los siguientes datos representan los totales de cuentas por cobrar (en miles de soles) de 30
clientes que compran a crédito a una gran compañía:
25 30 28 36 38 40 35 30 25 28 28 35 45 40 35 30 30 25 30 30 35
45 40 30 35 30 54 32 42 46
Construya el diagrama de caja, interpretando los resultados.

3. Los siguientes datos representan los años de antigüedad de los autos de los
administrativos y profesores de la Universidad:
Autos de los administrativos: 2 3 4 10 6 7 5 6 2 1 1 3 2 4 8 5
Autos de los profesores: 2 1 5 2 3 4 2 1 1 3 2 2 6 2 1 3 7
Construya los diagramas de caja para cada muestra en un mismo plano, interpretando los
resultados y haciendo las respectivas comparaciones.
4. La siguiente información corresponde a las notas del curso de Estadística Descriptiva de
tres secciones:
Sección A: 10 8 12 11 13 12 8 10 8 12 11 13 12 8 10 11
Sección B: 10 11 12 13 14 13 14 12 10 11 12 13 14 13 14 12
Sección C: 11 10 13 16 18 10 15 16 19 20 18 17 15 13 12 14

Construya los diagramas de caja para cada muestra en un mismo plano, interpretando los
resultados y haciendo las respectivas comparaciones.

7
En los ejercicios 5-8, conteste las siguientes preguntas:
a) Identifique la población, la muestra, la unidad estadística y la variable y su tipo.
b) Construya el diagrama de caja, interpretando los resultados.

5. Los siguientes datos representan los días utilizados por 16 turistas para visitar el Callejón
de Huaylas y el Callejón de Conchucos en el Departamento de Ancash:

5 18 20 22 25 24 26 28 27 25 22 24 15 16 18 50

6. Se ha tomado el ingreso semanal (en soles) de 52 practicantes de contabilidad, los cuales


se muestran a continuación:

187 168 169 120 121 123 132 133 134 135 135 132 142 141 143 144
145 146 148 150 150 151 152 152 155 156 158 160 160 161 162 163
164 166 170 171 172 177 173 174 178 180 181 186 185 190 194 158
201 156 158 217

7. Los siguientes datos representan los sueldos por hora dictada (en soles) de 16 profesores
de una academia pre-universitaria:

30 20 15 22 25 24 26 28 27 25 22 24 13 16 18 30

8. El tiempo que 30 operarios demoraron en ejecutar una tarea fue registrado en minutos,
obteniéndose los siguientes resultados:
7.0 9.0 11.4 7.2 10.2 13.5 16.0 14.0 14.5 8.0 9.1 9.4 13.1 8.5
10.4 15.5 12.0 11.0 11.2 9.6 9.2 9.5 15.6 8.4 10.8 13.0 12.5 12.4
10.5 7.8

S-ar putea să vă placă și