Sunteți pe pagina 1din 17

Capítulo 3:

3. Análisis gráfico de datos unidimensionales


Hemos visto que la tabla estadística resume los datos que disponemos de una población, de
forma que puede analizar de una manera más sistemática y resumida. Para darnos cuenta
rápidamente de las características de la población resulta más fácil el uso de gráficos y
diagramas.
Un gráfico estadístico es la represntación visual de los datos, que tiene las siguientes carac-
terísticas:

Terndencia : si los datos se comportan en términos de un modelo matemático conocido.

Centralidad: es la concentración central de los datos en la distribución.

Dispersión: distribución de los datos respecto a la concentración.

Asimetría: es el alargamiento de la distribución de los datos a un extremo, respecto


de la concentración.

Conglomerados: es el fraccionamiento de la distribución de los datos.

Datos atípicos: aquellos que estan distantes de la mayoría de datos.

3.1. Gráfico de datos no agrupados


3.1.1. Diagrama circular

Es el área del círculo dividida en porciones circulares. Cada sector circular se obtiene por la
expresión:

fi
αi = ∗ 3600 = hi ∗ 3600 ; i = 1, 2, ..., k.
n

3.1.2. Diagrama de barras

Es un gráfico en el plano, de las categorias o valores de la variable, que generan un conjunto


de barras a altura igual a la frecuencia ( absoluta o relativa) que le corresponde.

14
3.2. Gráfico de datos agrupados
3.2.1. Histograma

Es un gráfico en el plano, que consiste en una serie de rectángulos de base las clases y altura
las frecuencias (absolutas o relativas).

3.2.2. Polígono de frecuencias

Es un gráfico en el plano, que representa una linea generada por las marca de clases y las
frecuencias (absolutas o relativas) correspondientes.Hay que tener encuenta que para cerrar
el polígono de frecuencias,se agregan dos marcas de clases con frecuencias nulas: una anterior
a la primera marca de clases y la otra posterior a la última marca de clases.

3.2.3. Ojiva o gráfico de frecuencias acumuladas

Es un gráfico en el plano, que se genera por los límites superiores de clases y las frecuencias
acumuladas (absolutas o relativas) correspondientes. El gráfico de frecuencias acumuladas,
inicia en el límite inferior de la primera clase.

Ejemplo 3 :

Para los datos relacionados con el total de hijos por familia en cierta localidad (ejemplo 1),
construya un diagrama circular y un diagrama de barras.

Solución:

La tabla de datos asociadas es la siguiente:

Hijos f lias f lias( %) f lias acum. f lias acum.( %)


0 11 27.5 11 27.5
1 8 20 19 47.5
2 9 22.5 28 70
3 7 17.5 35 87.5
4 4 10 39 97.5
5 1 2.5 40 100
T otal 40 100 ∼ ∼

Gráfico circular

15
Se observa que el 22.5 % de las familias tiene 2 hijos es lo más común que se presenta en la
distribución, mietras que lo menos común es un 2.5 % de las familias que son aquellas que
tienen 5 hijos.

Diagrama de barras.

En este gráfico observamos el análisis anterior, agregando que los datos siguen una tendencia
decreciente, su concentración se encuentra de 0,1 o 2 hijos, son poco dispersos , se presenta
una cierta asimetria hacia la derecha, no hay conglomerados y tampoco datos atípicos en la
distribución.

Ejemplo 4 :

Para los datos relacionados con el tiempo de espera en minutospara separar una cita médica
general en una EPS (ejemplo 2), construya un histograma, un polígono de frecuencias y una
ojiva.

16
Solución :

La tabla de datos relativos a esta distribución es:


T (min) U suario U s.( %) U s. acum. U s. acum.( %) T. medio(min)
[6 , 9] 11 18.33 11 18.33 7.5
(9 , 12] 16 26.67 27 45 10.5
(12 , 15] 14 23.33 41 68.33 13.5
(15 , 18] 9 15 50 83.33 16.5
(18 , 21] 7 11.67 57 95 19.5
(21 , 24] 3 5 60 100 22.5
T otal 60 100 ∼ ∼ ∼

Histograma.

Poligono de frecuencuencias.

17
Ojiva o diagrama de frecuencias acumuladas

3.3. Ejercicios
1. En una farmacia se realiza seguimiento de la Hipertensión Arterial de algunos pacientes.
Se dispone de 30 mediciones de la tensión arterial sistólica (TAS) realizadas en el día de hoy,
las cuales se muestran a continuación:

173 165 141 158 158 156 150 154 162 158 151 166 147 152 166 152 161 168 173 174
168 159 168 135 138 168 162 176 159 152 161 167 143 154 160 180 172 158 161 163
158 171 164 167 168 171 165 158 161 168 158 163 170 165 172 163 159 162 168 164

a) Construir la tabla de distribución de frecuencias de los datos e interpretarlos.


b) Representar las distribuciones anteriores mediante histogramas, polígonos de frecuencias
y una ojiva. Interprete los datos.
2. Las siguientes medidas corresponden a las alturas en metros de 50 niños y niñas.

1.56 1.59 1.63 1.62 1.65 1.61 1.59 1.51 1.62 1.62 1.53 1.49 1.57 1.54 1.53 1.59 1.58
1.57 1.47 1.64 1.55 1.59 1.53 1.56 1.53 1.47 1.57 1.60 1.54 1.56 1.50 1.62 1.59 1.62
1.54 1.68 1.52 1.62 1.59 1.49 1.65 1.53 1.59 1.56 1.54 1.58 1.52 1.63 1.56 1.62

a) Construir la tabla de distribución de frecuencias de los datos e interpretarlos.


b) Representar las distribuciones anteriores mediante histogramas, polígonos de frecuencias
y una ojiva. Interprete los datos.
3. A continuación se dan los resultados obtenidos con una muestra de 50 universitarios. la
caractererística es el tiempo de reacción ante un estímulo auditivo:

18
0,110 0,110 0,126 0,112 0,117 0,113 0,135 0,107 0,122 0,113 0,098 0,122 0,105 0,103
0,119 0,100 0,117 0,113 0,124 0,118 0,132 0,108 0,115 0,120 0,107 0,123 0,109 0,117
0,111 0,112 0,101 0,112 0,111 0,119 0,103 0,100 0,108 0,120 0,099 0,102 0,129 0,115
0,121 0,130 0,134 0,118 0,106 0,128 0,094 0,1114

a) Construir la tabla de distribución de frecuencias de los datos e interpretarlos.


b) Representar las distribuciones anteriores mediante histogramas, polígonos de frecuencias
y una ojiva. Interprete los datos.

19
Capítulo 4
4. Medidas resumen
Son valores que caracterizan la distribución de datos provenientes de una polblación o una
muestra.

4.1. Medidadas de tendencia central


Son aquellas que localizamos hacia el centro de la distribución de datos y representan pro-
medios de los datos.

4.1.1. Media aritmética (X)

Sean x1 ,x2 ,..., xk valores de una variable X con freecuencias absolutas f1 ,f2 ,..., fk de una
muestra o población de tamaño n (k ≤ n). La media aritmetica X se define como sigue:

k
P
xi f i
x1 f1 + x2 f2 + ... + xk fk
X= = i=1
n n

Comentario:

En datos agrupados en clases o intervalos de clases, los xi (i = 1, 2, .., k) , representan


marcas de clase.

La media aritmética X , representa el promedio de los datos o centro de gravedad de


los datos.

La media aritmética es sensible a datos extremos, por lo que deja de ser un promedio
representativo en estos casos.

Propiedades de la media aritmética

1. Sea a ∈ R ( constante) : ā = a
2. Sea a ∈ R ( constante) y X una variable estadística :

20
a±X =a±X

aX = aX

3. Sean a, b ∈ R (constantes) y X , Y variables estadísticas: aX ± bY = aX ± bY


4.(Media de subpoblaciones).
Sean x1 ,x2 ,..., xk subpoblaciones, que particionan la población X , con medias x1 ,x2 ,..., xk
de tamaños n1 ,n2 ,..., nk tales que n1 + n2 + ... + nk = n , (k ≤ n) es el tamaño de la
población.Entonces, la media poblacional X viene dada por:

n1 x̄1 + n2 x̄2 + ... + nk x̄k


X=
n

4.1.2. La mediana (X M o Me )

Es el valor central de los datos ordenados.

En datos no agrupados, la mediana se obtiene por la expresión:

Xn + X( n +1)

 (2)

2
n par

Me = 2
X n+1 n impar


( )
2

Donde X(.) representa los valores ordenados de la variable X.

En datos agrupados, la mediana se calcula por la expresión:


n
+ Fi−1
Me = Li + ( 2 )∗A
fi

Donde:
Li : límite inferior de la clase con la mediana.
Fi−1 : frecuencia acumulada antes de la clase con la mediana.
fi : fecuencia absoluta de la clase con la mediana.
A : amplitud de la clase con la mediana.
n : tamaña de la muestra.

21
4.1.3. La Moda (X o o Mo )

Es el valor o valores más frecuentes en la distribución de datos.


Una distribución de datos puede o no tener moda. No hay moda, cuando los valores de la
distribución de datos tienen igual freecuencia.
Cuando hay moda, una distribución de datos puede ser:
a) Unimodal : si hay una moda.
b) Bimodal : si existe dos modas.
c) Polimodal o multimodal : si hay tres o más modas.
En datos no agrupados, la moda si existe, se determina por simple inspección de la
tabla de frecuencias mirando el valor o valores más frecuentes.
En datos agrupados, la moda, si existe, se determina por la expresión:
∆1
Mo = Li + ( )∗A
∆1 + ∆2
Donde:
Li : límite inferior de la clase modal.
∆1 = fi − fi−1 : diferencia de la frecuencia absoluta modal y la frecuencia absoluta anterior.
∆2 = fi − fi+1 : diferencia de la frecuencia absoluta modal y la frecuencia absoluta posterior.
A : aplitud de la clase con la moda.

Ejemplo :

1. Quince pacientes que vinieron de diferentes lugares, realizaron una visita a un Departa-
mento Sanitario. Los pacientes recorrieron las distancias indicadas en la tabla siguiente.
P aciente Distancia(km) P aciente Distancia(km) P aciente Distancia(km)
1 15 6 13 11 3
2 9 7 12 12 15
3 11 8 6 13 12
4 3 9 13 14 15
5 12 10 7 15 5
Se pide calcular:
(a) La media de las distancias recorridas por los pacientes
(b) La mediana de las distancias recorridas.
(c) La distancia recorrida más frecuente.

22
Solución:

La tabla de frecuencias asociada a los datos es la siguiete:

Distancia(km) P acientes % pacientes P acientesacumulados


3 2 13 2
5 1 7 1
6 1 7 4
7 1 7 5
9 1 7 6
11 1 7 7
12 3 30 10
13 2 13 12
15 3 20 15
T otal 15 100 ∼

(a) Media de las distancias recorridas por los pacientes.

k
P
xi f i
x1 f1 + x2 f2 + ... + xk fk
X= = i=1
n n

3 ∗ 2 + 5 ∗ 1 + 6 ∗ 1 + 7 ∗ 1 + 9 ∗ 1 + 11 ∗ 1 + 12 ∗ 3 + 13 ∗ 2 + 15 ∗ 3 151
X= = = 10, 07
15 15
Los pacientes recorren en promedio 10, 07km .
(b) La mediana de las distancias recorridas.
El número de pacientes n = 15, es un número impar. Por tanto, la mediana está dada por:

M e = X( 15+1 ) = X(8) = 12
2

La distancia central recorrida por los pacientes es de 12km .


(c) La distancia recorrida más frecuente.
Mirando la tabla de frecuencias, las distancias más frecuentes son: 12km y 13km. Se trata
de una distribución bimodal.

4.2. Medidas de posición


Son puntos que dividen la distribución ordenada de datos en partes iguales.

23
4.2.1. Cuartiles (Qk ): k = 1, 2, 3.

Son tres puntos que franccionan la distribucuón total de datos ordenados en cuatro partes
iguales.

En datos no agrupados, los cuartiles se obtienen con la expresión:



X
 (J nk

 si nk
4

/Z
 +1K)
4
Qk =  X nk + X nk
 (4) ( +1)
 4
si nk ∈Z
2 4

k = 1, 2, 3
Donde J.K es la parte entera de un número real.

En datos agrupados,los cuartiles se calcula por la expresión:


nk
+ Fi−1
Qk = Li + ( 4
)∗A
fi
k = 1, 2, 3
Donde:
Li : límite inferior de la clase con el cuartil k = 1, 2, 3.
Fi−1 : frecuencia absoluta acumulada antes de la clase que contien el cuartil k = 1, 2, 3.
fi : frecuencia absoluta de la clase con el cuartil k = 1, 2, 3.
A: amplitud de la clase con el cuartil k = 1, 2, 3.

Ejemplo :

4.2.2. Percentiles (Pk ): k = 1, 2, ..., 99.

Son noventa y nueve puntos que divide la distribución total ordenada de datos, en cien partes
iguales.

En datos no agrupados, los percentiles se obtienen con la expresión:



nk

X nk
 (J 100
si 100 ∈
/Z
 +1K)
Pk =  X nk + X nk
( ) ( +1) nk
100 100
si 100 ∈Z


2

24
k = 1, 2, ..., 99.
Donde J.K es la parte entera de un numero real.

En datos no agrupados, los percentiles se obtienen con la expresión:


nk
+ Fi−1
Pk = Li + ( 100 )∗A
fi

k = 1, 2, ..., 99.
Donde:
Li : límite inferior de la clase con el cuartil k = 1, 2, ..., 99.
Fi−1 : frecuencia absoluta acumulada antes de la clase que contien el cuartil k = 1, 2, ..., 99.
fi : frecuencia absoluta de la clase con el cuartil k = 1, 2, ..., 99.
A: amplitud de la clase con el cuartil k = 1, 2, ..., 99.

Ejemplo :

4.3. Medidas de dispersión


Son aquellas que representan la variabilidad de datos en una distrubución, con respecto a un
promedio. Además, nos dan información de la representatividad de la medida de tendencia
central que se compara.

4.3.1. Rango (R)

Es la longitud total o desviación total de los datos en la distribución y se nota R. El rango


se calcula por la expresión :

R = Xmax − Xmin

Xmin : dato de menor magnitud y Xmax : dato de mayor magnitud.


En algunas ocasiones,para evitar la influencia de los valores extremos de una distribución de
datos de una cierta varible X, se usan otros rangos como los siguientes:

Rango intercuartil : Q = Q3 − Q1
Rango interpercentil : P = P99 − P1

25
4.3.2. Desviación media (D.M.)

Es el promedio de desviaciones absolutas con respecto a la media aritmética X . La desviación


media se obtiene por la expresión:

1 Xn
D.M. = | xi − X | .fi
n i=1

4.3.3. Varianza y desviación típica (S 2 y S)

Sean x1 ,x2 ,..., xk valores de una variable X con freecuencias absolutas f1 ,f2 ,..., fk de una
muestra o población de tamaño n (k ≤ n). La varianza S 2 , se define como:

1 Xn
S2 = (xi − X)2 .fi
n i=1

la raiz cuadrada positiva de la varianza se denomina DESVIACIÓN TÍPICA O DESVIA-


CIÓN ESTÁNDAR.
v
√ u1 X
u n
S= S2 = t (xi − X)2 .fi
n i=1

Comentario :

Para interpretación de los datos la desviación típica es más usada que la varianza, pues
la desviación típica tiene la misma dimensión que la de los datos.

Una expresión alterna que se obtiene de la definición de varianza es:

1 Xk
S2 = xi fi − (X)2
n i=1

Cuando el tamaño de muestra es pequeño (n ≤ 30), para determinar la dispersión de


los datos respecto a la media X, se usa la CUASIVARIANZA, que se define como:

1 P n
S∗2 = (xi − X)2 .fi
n − 1 i=1

26
Propiedades de la varianza (S 2 )

1. Sea a ∈ R ( constante) : S[a]


2
=0.
2. Sea a ∈ R ( constante) y X una variable estadística :

2
S[X±a] = S[X]
2

2
S[aX] = a2 S[X]
2

3. Sea X una variable estadística : S[X]


2
= X 2 − (X)2
4. (Varianza de subpoblaciones):
Sean x1 ,x2 ,..., xk subpoblaciones, que particionan la población X , con medias x1 ,x2 ,..., xk y
varianzas s21 ,s22 ,..., s2k de tamaños n1 ,n2 ,..., nk ; tales que n1 + n2 + ... + nk = n , (k ≤ n) es
el tamaño de la población.Entonces, la varianza poblacional S 2 viene dada por:

n1 s21 + n2 s22 + ... + nk s2k n1 (x̄1 − X) + n2 (x̄2 − X) + ... + nk (x̄k − X)


S2 = +
n n
n1 x̄1 + n2 x̄2 + ... + nk x̄k
Donde : X = .
n

Ejemplo:

4.3.4. Variable típificada (Zi )

Usando la media X y la desviación típica S , de una variable X podemos definir una nueva
variable Z llamada variable estandarizada o tipificada.

X −X
Z=
S
En particular, si la variable X toma valores x1 ,x2 ,..., xk , entonces los valores de la variable
tipificada se obtienen así:

xi − X
Zi = i = 1, 2, ..., k.
S

Esta nueva variable adimensional denominada variable tipificada, mide la desviación de los
valores de la variable con respecto a la media, en téerminos de desviaciones trípicas.
Es útil para comparar distribuciones de la misma o diferente dimensión.

27
Ejemplo:

4.3.5. Coeficiente de variación (C.V.)

Es una medida de dispersión relativa que mide la homogeneidad o heterogeneidad de los


datos en la muestra o en la población.
El coeficiente de variación (C.V.), se determina por la expresión:

30 %

<
 datos homogéneos
S 
C.V. = ∗ 100 % = (30 % , 50 %] datos medianamente homogéneos
X 
> 50 %


datos heterogéneos

Comentario:

El coeficiente de variación (C.V.), nos permite comparar dispersiones de dos distribu-


ciones expresadas en unidades diferentes.
El Coeficiente devariación (C.V.), establece la representatividad de la media como me-
dida de tendencia central.

Ejemplo:

4.4. Medidas de forma


Nos dan a conocer la forma como se distribuyen los datos en la población o muestra.

4.4.1. Asimetria

4.4.2. Coeficientes para determinar asimetría

4.4.3. Curtosis o apuntamiento

4.4.4. Coeficientes para calcular apuntamiento o curtosis

Ejemplo:

4.5. Ejercicios
1. A 45 enfermos de una clínica se les aplicó un anestésico para que durmieran. La tabla
siguiente reportada por una enfermera muestran los resultados en horas. Se pide calcular lo
siguiente:

28
(a) Construye una tabla de datos agrupados.
(b) Determine las medidadas de tendencia central e interprete el resultado.
(c) Halle las medidadas de dispersión e interprete el resultado.
Tabla reportada por la enfermera:

7 10 12 4 8 7 3 8 5 12 11 3 8 1 1 13 10 4 4 5 5 8 7 7 3 2 3 8 13 1 7 17 3 4 5 5
3 1 17 10 4 7 7 11 8

2. En el hospital región se practicaron 100 exámenes de niveles de glucosa a igual número de


niños. Los resultados encontrados se reportaron en la tabla siguiente. Se pide:
(a) Construye una tabla de datos agrupados.
(b) Determine las medidadas de tendencia central e interprete el resultado.
(c) Halle las medidadas de dispersión e interprete el resultado.

56 61 57 77 62 75 63 55 64 60 60 57 61 57 67 62 69 67 68 59 65 72 65 61 68 73
65 62 75 80 66 61 69 76 72 57 75 68 81 64 69 64 66 65 65 76 65 58 65 64 68 71
72 58 73 55 73 79 81 56 65 60 65 80 66 80 68 55 66 71 72 73 73 75 75 74 66 68
73 65 73 74 68 59 69 55 67 65 67 63 67 56 67 62 65 75 62 63 63 59

3. La siguiente tabla representa el número de infartos de miocardio por da que se


atendieron en un servicio especializado durante 30 das:

Inf artos 0 1 2 3 4 5 6
Dı́as 2 3 8 11 2 3 1

(a) Calcular la media, varianza, desviacion tpica y coeciente de variacion de los datos ante-
riores.
(b) Calcular la mediana y el rango intercuartlico.
4. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla a niños. El nivel
de proteccion estandar obtenido por antiguas vacunas es de 1µg/ml un mes después de la
inmunizacion. Se han obtenido estos datos del nivel de protección de la nueva vacuna al
transcurrir un mes: (Basado en un informe del Journal of Family Practice, enero 1990).

29
12,5 13,5 13 13,5 13 12,5 13,5 14 13,5 13 13 14 14,5 13 12 13,5 13,5 12,5 12,5 12,5

(a) Calcula la media, mediana, desviacion tpica y rango intercuartlico.


(b) ¿Qué proporcion de datos son inferiores o iguales a 13?
5. Un estudio consistió en anotar el número de palabras leídas en 15 segundos por un grupo
de 120 sujetos disléxicos y 120 individuos normales. Teniendo en cuenta los resultados de la
tabla:

P alabras leı́das Disléxicos Disléxicos(nD ) N ormales (nN )


25 o menos 56 1
26 24 9
27 16 21
28 12 29
29 10 28
30 o más 2 32
T otal 120 120

Calcule:
(a) Las medias aritméticas de ambos grupos.
(b) Las medianas de ambos grupos.
(c) El porcentaje de sujetos disléxicos que superaron la mediana de los normales.
(d) El porcentaje de disléxicos más frecuentes en ambos grupos.
(d) Represente gráficamente el total de disléxicos e interprete.
(e) Represente gráficamente el total de no disléxicos e interprete

30

S-ar putea să vă placă și