Documente Academic
Documente Profesional
Documente Cultură
GRFICA
La naturaleza numrica de las variables cuantitativas permite un tratamiento estadstico ms elaborado que con las variables cualitativas.
Con
las
variables
cuantitativas
pueden
realizarse
En este tema estudiaremos la distribucin de frecuencias y su representacin grfica (como hemos hecho para las variables cualitativas en el Tema 1) y en los siguientes temas veremos otras formas de describir una variable cuantitativa.
A) Variables Discretas
La distribucin de frecuencias para las variables discretas es semejante a lo que hemos visto para el caso de las variables cualitativas, ya que las categoras en que se agrupan los datos vienen dadas de forma natural por los valores que toma la variable.
Ejemplo 1: Cien familias se han clasificado segn el nmero de hijos, resultando los siguientes datos:
N de Hijos N de familias
0 11
1 13
2 20
3 25
4 14
5 10
6 4
7 2
8 1
N=100; k=9
Frecuencias absolutas:
Frecuencias relativas:
f1 = f4 = f7 =
f2 = f5 = f8 =
f3 = f6 = f9 =
Distribucin de frecuencias:
Categoras 0 1 2 3 4 5 6 7 8
ni 11 13 20 25 14 10 4 2 1 N=100
La categora ms numerosa es la de familias con 3 hijos y la menos frecuente es la de familias con 8 hijos
Frecuencias absolutas ni
30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8
En general, las clases vienen ordenadas de forma natural de menor a mayor por lo que tiene sentido definir la distribucin de frecuencias acumulada.
de frecuencias
acumulada hay que sumar a la frecuencia de cada clase (absoluta o relativa) la de las clases anteriores.
La informacin sobre los datos que proporcionan la distribucin de frecuencias y la distribucin de frecuencias acumulada es equivalente. Cada una puede obtenerse a partir de la otra.
Ejemplo: N de hijos
Frecuencias Frecuencias absolutas acumuladas Frecuencias relativas Frecuencias relativas acumuladas
Categoras
absolutas
0 1 2 3 4 5 6 7 8
ni 11 13 20 25 14 10 4 2 1 N=100
Ni 11 24 44 69 83 93 97 99 100
La distribucin de frecuencias acumulada nos permite conocer la proporcin (o el nmero) de observaciones por debajo de cierto valor, entre dos valores o por encima de una cantidad.
Ejemplo: N de hijos
Frecuencias relativas Fi
Ejercicio 3.2 de Pea y Romo Los siguientes datos corresponden al nmero de bibliotecarios en las bibliotecas pblicas de las diferentes provincias espaolas:
4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12
(a)
(b)
Obtener
representar
la
distribucin
de
10
Bibliotecario s
Frecuencias absolutas
Frecuencias relativas
1 2 3 4 5 6 7 8 10 12 15 16
ni 3 7 9 10 6 4 4 2 1 2 1 1
Ni 3 10 19 29 35 39 43 45 46 48 49 50
fi 0,06 0,14 0,18 0,2 0,12 0,08 0,08 0,04 0,02 0,04 0,02 0,02
Fi 0,06 0,2 0,38 0,58 0,7 0,78 0,86 0,9 0,92 0,96 0,98 1
11
Frecuencias relativas: fi
0.25 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 8 10 12 15 16
12
- La
proporcin
de
provincias
con
ms
de
(62%) tiene 4
=0,2+0,12+0,08+0,08+0,04+0,02+0,04+0,02+0,02
13
B) Variables Continuas
El anlisis de la distribucin de frecuencias de las variables cuantitativas continuas es ms complejo que el de las variables cualitativas o discretas.
Las categoras o clases no vienen dadas de forma natural sino que deben elegirse.
Tendremos que dividir el recorrido (o conjunto de posibles valores de la variable) en intervalos que no se solapen.
El resto de los elementos y conceptos de la distribucin de frecuencias de una variable continua es equivalente a lo visto en las cualitativas y discretas.
14
Ejemplo: La variable GTINE representa el gasto total. Los datos correspondientes a 75 hogares son:
81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431 276.273 662.803 493.728 308.787 254.420 172.928 142.678 510.223 158.829 278.854 168.620 176.204 179.108 113.074 876.161 64.425 112.352 255.465 321.307 434.375 707.444 90.460 89.498 466.862 87.112 309.829 247.425 427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488 156.772 531.099 475.760 316.500 279.586 48.586 96.670 256.548 514.330 161.595 228.368 638.366 442.162 65.060 160.580 197.390 152.077 228.808 76.920 255.196 241.986 417.103 752.436 352.708 259.472 225.388 174.341 308.705 455.125 122.696 479.791
- Tomando intervalos o clases iguales y de tamao 100.000 pesetas, vamos a calcular la distribucin de frecuencias. - Por ejemplo, el primer intervalo ser:
15
Gasto
(en miles de ptas.)
Frecuencias absolutas
Frecuencias relativas
ni 10 22 17 8 10 3 2 2 1 N=75
Ni 10 32 49 57 67 70 72 74 75
16
17
1) El Histograma El histograma es un grfico que representa las frecuencias mediante reas. Sobre cada clase (o rango de valores) se dibuja un rectngulo cuyo rea representa la frecuencia (absoluta o relativa) de esa clase.
Cuando las clases (o intervalos) en que dividimos los datos son de distinta longitud el eje vertical no tiene sentido. Como la frecuencia es el rea de cada rectngulo, si dibujamos rectngulos con distinta base su mayor o menor altura no nos da informacin.
18
Cuando las clases (o intervalos) son de la misma longitud, las frecuencias son proporcionales a las alturas de los rectngulos. La altura nos informa sobre la densidad o concentracin de datos en ese intervalo: - donde los rectngulos son ms altos hay ms datos de la variable - donde los rectngulos son ms bajos los datos de la variable son ms escasos Ejemplo: GTINE (distribucin frecuencias pag.16)
Histograma de GTINE
30 25 20 15 10 5 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)
GTINE
19
Los rectngulos se dibujan contiguos (a diferencia del diagrama de barras o de Pareto) para transmitir la idea de variable continua.
La
forma
del
histograma
es
la
misma
si
representamos frecuencias absolutas o relativas, slo cambia la escala del eje vertical. Ejemplo: GTINE
GTINE
20
La forma del histograma s que depende de: - anchura de las clases o tamao de los intervalos - eleccin del punto donde empieza la primera clase Ejemplo: GTINE
Histograma de GTINE Frecuencias relativas (%)
18 15 12 9 6 3 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)
GTINE
- Empezar con pocas clases y ver (en el histograma) si con ms clases tenemos ms informacin (ver Figura 3.6 de Pea y Romo de la variable NOTAS)
21
N N =
(En el ejemplo de
7 5 = 8 ,6 9 )
Por
qu
nos
preocupa
tanto
la
forma
del
El histograma (al igual que el diagrama de barras) nos muestran caractersticas de una variable que pueden apreciarse visualmente:
- Se puede ver si la distribucin es simtrica alrededor de un eje central o si es asimtrica Ejemplo: GTINE es asimtrica a la derecha (ver pag. 19) NOTAS es simtrica alrededor del 5 (ver Figura 3.6 de Pea y Romo)
22
- Se puede ver si presenta un solo mximo o pico o moda y es, por tanto, unimodal o si presenta varias modas
- Algunas de las formas ms frecuentes de histogramas son (ver Figura 3.8 de Pea y Romo): o Unimodal simtrico: se suele dar en variables en las que hay una gran cantidad de observaciones con valores intermedios y algunos valores en ambos extremos (notas, peso, altura) o Unimodal asimtrico a la derecha: se da en variables que tienen una gran cantidad de observaciones pequeas o intermedias y algunos datos grandes (gasto, ingreso) o Unimodal asimtrico a la izquierda: variables con muchas observaciones de valor alto o intermedio (esperanza de vida en los distintos pases)
23
o Bimodal simtrico: suele aparecer cuando los datos son de 2 grupos heterogneos y conviene estudiarlos por separado (un objeto que se hiciera en dos tamaos distintos en cantidades iguales)
El
histograma
se
puede
emplear
tambin
para o
representar relativas)
frecuencias
acumuladas
(absolutas
Ejemplo: GTINE
24
Histograma de GTINE
100 80
F (%)
GTINE
25
2) El polgono de frecuencias El polgono de frecuencias es una representacin grfica de las frecuencias equivalente al histograma. Se obtiene a partir del histograma uniendo los centros de la base superior de sus rectngulos. Ejemplo: GTINE
Histograma de GTINE
30 25 20 15 10 5 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)
GTINE
GTINE
26
Se puede obtener para frecuencias acumuladas a partir del histograma de frecuencias acumuladas. La diferencia fundamental entre el histograma y el polgono es que ste proporciona una representacin ms suavizada de la distribucin de frecuencias.
3) El diagrama de tallos y hojas Nos permite obtener simultneamente la distribucin de frecuencias de la variable y su representacin grfica.
Para construirlo hay que separar en cada dato el ltimo dgito de la derecha (la hoja) del resto de las cifras (el tallo).
Los tallos aparecen a la izquierda de una lnea vertical y a la derecha de cada uno anotamos las cifras finales (hojas) de todos los datos de cada clase.
27
Ejemplo: Se tienen datos del rendimiento anual (en %) de unas acciones a lo largo de 30 aos: -3 3 21 25 17 17 -2 53 31 4 -3 -2 -1 -0 0 1 2 3 4 5 -13 -10 20 41 21 6 15 -22
10 15 -1 26 10
-14 -35 -1 28 18
-13 11 5 2 4 3 3 0 0 1 1 3
3 2 4 0 1
3 1 6 1 1
0 1 5 5 5 8 7 6 7 8
Al igual que el histograma o el polgono, el diagrama nos proporciona una impresin visual del nmero de observaciones de cada clase.
28
Tiene la ventaja de que al darnos un mayor detalle nos permite recuperar los datos, lo que no puede hacerse con el histograma o el polgono.
Con conjuntos de datos muy grandes puede no resultar informativo porque las clases tengan demasiados datos, aunque siempre se pueden subdividir
En el ejemplo en lugar de poner los valores de 10 en 10, podemos cogerlos de 5 en 5, es decir, cada lnea podemos dividirla en 2 (en vez de 10 a 19, hacer de 10 a 14 y de 15 a 19).
29
Ejemplo: GTINE
Stem-and-Leaf Display for GTINE: unit = 10000,0 represents 120000,0 1|2
10 32 (17) 26 18 8 5 3 1
La columna situada a la izquierda nos da las frecuencias absolutas acumuladas de arriba hacia abajo y de abajo hacia arriba hasta llegar al valor entre parntesis que es frecuencia de la clase que contiene el dato central.
30
Ejercicio 3.6 (Pea y Romo) Los datos de la variable G4 (Tabla 2.1) miden el gasto en menaje de 75 hogares: a,b) Construir la distribucin de frecuencias y representarla con un histograma.
Frequency Tabulation for G4
-------------------------------------------------------Lower Upper Class Limit Limit ci ni fi Ni Fi -------------------------------------------------------at or below 0 6 0,0800 6 0,0800 1 0 14000 7000 40 0,5333 46 0,6133 2 14000 28000 21000 9 0,1200 55 0,7333 3 28000 42000 35000 8 0,1067 63 0,8400 4 42000 56000 49000 6 0,0800 69 0,9200 5 56000 70000 63000 2 0,0267 71 0,9467 6 70000 84000 77000 1 0,0133 72 0,9600 7 84000 98000 91000 1 0,0133 73 0,9733 8 98000 112000 105000 1 0,0133 74 0,9867 9 112000 126000 119000 1 0,0133 75 1,0000
Histogram for G4
80
percentage
60 40 20 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 (X 10000)
G4
31
Histogram for G4
100 80 60 40 20 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 (X 10000)
percentage
G4
c) Marque en el histograma la proporcin de valores de G4 menores que 40.000 pesetas Qu porcentaje de las observaciones suponen esos datos? Algo ms del 80% (el 84%)
---------------------------------------------------Lower Upper Class Limit Limit ci ni fi Ni Fi ---------------------------------------------------at or below 0 6 0,0800 6 0,0800 1 0 10000 5000 32 0,4267 38 0,5067 2 10000 20000 15000 13 0,1733 51 0,6800 3 20000 30000 25000 7 0,0933 58 0,7733 4 30000 40000 35000 5 0,0667 63 0,8400 5 40000 50000 45000 2 0,0267 65 0,8667 6 50000 60000 55000 5 0,0667 70 0,9333 7 60000 70000 65000 1 0,0133 71 0,9467 8 70000 80000 75000 1 0,0133 72 0,9600 9 80000 90000 85000 0 0,0000 72 0,9600 10 90000 100000 95000 1 0,0133 73 0,9733 11 100000 110000 105000 1 0,0133 74 0,9867 12 110000 120000 115000 0 0,0000 74 0,9867 13 120000 130000 125000 1 0,0133 75 1,0000
32
Histograma de G4
60 50 40 30 20 10 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 (X 10000)
G4
Histograma de G4
100 80
F (%)
60 40 20 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 (X 10000)
G4
33
e) Marcar en el histograma el rea correspondiente a las observaciones entre 50.000 y 70.000 pesetas. Qu proporcin representan? Cmo obtendra a partir de las frecuencias acumuladas esa proporcin?
Son el 8% (0,08=0,0667+0,0133=0,9467-0,8667)
El 4% (0,04=1-0,96=0,0133x3)
Es asimtrica a la derecha
34
Stem-and-Leaf Display for G4: unit = 1000,0 1|2 = 12000,0 (38) 37 24 17 12 10 5 0|00000000000011122222333344456667888889 1|0001233356689 2|0444889 3|33355 4|69 5|02249 6|7 HI|79828,0 91068,0 104452,0 120444,0
Datos de G4: 780 4296 3044 52016 13128 2392 8536 35800 4000 0 28432 16856 50800 6188 8544 24441 33012 28999 16440 360 2268 0 10764 0 0 1960 91068 24000 35136 46000 2144 3524 104452 2480 1528 19516 0 0 18191 3172 13936 8300 8660 4524 6256 10346 11820 20468 33496 192 9000 29856 24685 3848 54228 120444 67379 10048 288 216 8099 7620 5428 15360 2028 33220 12212 52768 49896 6752 840 79828 59280 1692 13782
35
La variable TMUN (Tabla 2.1) expresa el tamao del municipio: 1 menos de 2000 habitantes, 2 entre 2000 y 10000, 3 entre 10000 y 50000 y 4 capitales de provincia o con ms de 50000.
TMUN 1 2 3 4
ni 4 9 14 48
Ni 4 13 27 75
i=1
ni = N = 75
i=1
fi = 1
36
Histograma de TMUN
80 60 40 20 0 0 1 2 3 4
TMUN
37