Sunteți pe pagina 1din 37

TEMA 2: DESCRIPCIN DE VARIABLES CUANTITATIVAS: DISTRIBUCIN DE FRECUENCIAS Y REPRESENTACIN

GRFICA

La naturaleza numrica de las variables cuantitativas permite un tratamiento estadstico ms elaborado que con las variables cualitativas.

Con

las

variables

cuantitativas

pueden

realizarse

operaciones matemticas, lo que permite una descripcin ms precisa y completa.

En este tema estudiaremos la distribucin de frecuencias y su representacin grfica (como hemos hecho para las variables cualitativas en el Tema 1) y en los siguientes temas veremos otras formas de describir una variable cuantitativa.

A) Variables Discretas

La distribucin de frecuencias para las variables discretas es semejante a lo que hemos visto para el caso de las variables cualitativas, ya que las categoras en que se agrupan los datos vienen dadas de forma natural por los valores que toma la variable.

Ejemplo 1: Cien familias se han clasificado segn el nmero de hijos, resultando los siguientes datos:

N de Hijos N de familias

0 11

1 13

2 20

3 25

4 14

5 10

6 4

7 2

8 1

N=100; k=9

Frecuencias absolutas:

n1=11; n2=13; n3=20; n4=25; n5=14; n6=10; n7=4; n8=2; n9=1

Frecuencias relativas:

f1 = f4 = f7 =

11 = 0 ,1 1 ; 100 25 = 0 ,2 5 ; 100 4 = 0 ,0 4 ; 100

f2 = f5 = f8 =

13 = 0 ,1 3 ; 100 14 = 0 ,1 4 ; 100 2 = 0 ,0 2 ; 100

f3 = f6 = f9 =

20 = 0 ,2 100 10 = 0 ,1 100 1 = 0 ,0 1 100

Distribucin de frecuencias:

Categoras 0 1 2 3 4 5 6 7 8

ni 11 13 20 25 14 10 4 2 1 N=100

fi 0,11 0,13 0,2 0,25 0,14 0,1 0,04 0,02 0,01 1

La categora ms numerosa es la de familias con 3 hijos y la menos frecuente es la de familias con 8 hijos

Diagrama de barras Frecuencias relativas fi


0.30 0.25 0.20 0.15 0.10 0.05 0.00 0 1 2 3 4 5 6 7 8

Frecuencias absolutas ni
30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8

En general, las clases vienen ordenadas de forma natural de menor a mayor por lo que tiene sentido definir la distribucin de frecuencias acumulada.

Para construir la distribucin

de frecuencias

acumulada hay que sumar a la frecuencia de cada clase (absoluta o relativa) la de las clases anteriores.

Los valores de la distribucin de frecuencias acumulada no decrecen.

La informacin sobre los datos que proporcionan la distribucin de frecuencias y la distribucin de frecuencias acumulada es equivalente. Cada una puede obtenerse a partir de la otra.

Ejemplo: N de hijos
Frecuencias Frecuencias absolutas acumuladas Frecuencias relativas Frecuencias relativas acumuladas

Categoras

absolutas

0 1 2 3 4 5 6 7 8

ni 11 13 20 25 14 10 4 2 1 N=100

Ni 11 24 44 69 83 93 97 99 100

fi 0,11 0,13 0,2 0,25 0,14 0,1 0,04 0,02 0,01 1

Fi 0,11 0,24 0,44 0,69 0,83 0,93 0,97 0,99 1

El ltimo valor de la distribucin de frecuencias absolutas acumuladas coincide con N.

El ltimo valor de la distribucin de frecuencias relativas acumuladas es 1 (salvo error de redondeo).

La distribucin de frecuencias acumulada nos permite conocer la proporcin (o el nmero) de observaciones por debajo de cierto valor, entre dos valores o por encima de una cantidad.

Ejemplo: N de hijos

- Qu proporcin de familias tiene menos de 2 hijos? 0,24

- Cuntas familias tienen menos de 4 hijos? 69

- Qu proporcin de familias tiene ms de 6 hijos? 0,03=1-0,97=0,01+0,02

- Qu proporcin de familias tiene ms de 3 hijos pero menos de 7? 0,28=0,14+0,1+0,04=0,97-0,69

Representacin grfica de la distribucin de frecuencias acumulada

Frecuencias relativas Fi

1.0 0.8 0.6 0.4 0.2 0.0 0 1 2 3 4 5 6 7 8

Ejercicio 3.2 de Pea y Romo Los siguientes datos corresponden al nmero de bibliotecarios en las bibliotecas pblicas de las diferentes provincias espaolas:

4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12

(a)

Hallar la distribucin de frecuencias relativas y representarla mediante un diagrama de barras

(b)

Obtener

representar

la

distribucin

de

frecuencias relativas acumuladas (c) Qu proporcin de provincias tiene ms de 7 bibliotecarios?

10

Bibliotecario s

Frecuencias absolutas

Frecuencias absolutas acumuladas

Frecuencias relativas

Frecuencias relativas acumuladas

1 2 3 4 5 6 7 8 10 12 15 16

ni 3 7 9 10 6 4 4 2 1 2 1 1

Ni 3 10 19 29 35 39 43 45 46 48 49 50

fi 0,06 0,14 0,18 0,2 0,12 0,08 0,08 0,04 0,02 0,04 0,02 0,02

Fi 0,06 0,2 0,38 0,58 0,7 0,78 0,86 0,9 0,92 0,96 0,98 1

11

Frecuencias relativas: fi
0.25 0.20 0.15 0.10 0.05 0.00 1 2 3 4 5 6 7 8 10 12 15 16

Frecuencias relativas acumuladas: Fi


1.0 0.8 0.6 0.4 0.2 0.0 1 2 3 4 5 6 7 8 10 12 15 16

12

- La

proporcin

de

provincias

con

ms

de

bibliotecarios es de 0,14 0,14=1-0,86=0,04+0,02+0,04+0,02+0,02

- La mayora de las provincias bibliotecarios o ms: 0,62=1-0,38=

(62%) tiene 4

=0,2+0,12+0,08+0,08+0,04+0,02+0,04+0,02+0,02

- 4 es la clase ms frecuente con una frecuencia relativa de 0,2

- Ms de la mitad de las provincias espaolas (F4=0,58) tiene menos de 5 bibliotecarios

- La proporcin de provincias espaolas que tienen entre 5 y 7 bibliotecarios es de 0,28 0,28=0,12+0,08+0,08=0,86-0,58

13

B) Variables Continuas

El anlisis de la distribucin de frecuencias de las variables cuantitativas continuas es ms complejo que el de las variables cualitativas o discretas.

Las categoras o clases no vienen dadas de forma natural sino que deben elegirse.

Tendremos que dividir el recorrido (o conjunto de posibles valores de la variable) en intervalos que no se solapen.

El punto central de cada intervalo se llama marca de clase (ci).

El resto de los elementos y conceptos de la distribucin de frecuencias de una variable continua es equivalente a lo visto en las cualitativas y discretas.

14

Ejemplo: La variable GTINE representa el gasto total. Los datos correspondientes a 75 hogares son:

81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431 276.273 662.803 493.728 308.787 254.420 172.928 142.678 510.223 158.829 278.854 168.620 176.204 179.108 113.074 876.161 64.425 112.352 255.465 321.307 434.375 707.444 90.460 89.498 466.862 87.112 309.829 247.425 427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488 156.772 531.099 475.760 316.500 279.586 48.586 96.670 256.548 514.330 161.595 228.368 638.366 442.162 65.060 160.580 197.390 152.077 228.808 76.920 255.196 241.986 417.103 752.436 352.708 259.472 225.388 174.341 308.705 455.125 122.696 479.791

- Tomando intervalos o clases iguales y de tamao 100.000 pesetas, vamos a calcular la distribucin de frecuencias. - Por ejemplo, el primer intervalo ser:

0<GTINE100.000 y la marca de clase c1=50.000. - El nmero de intervalos o clases ser k=9.

15

Gasto Total (GTINE G)

Gasto
(en miles de ptas.)

Frecuencias absolutas

Frecuencias absolutas acumuladas

Frecuencias relativas

Frecuencias relativas acumuladas

0<G100 100<G200 200<G300 300<G400 400<G500 500<G600 600<G700 700<G800 800<G900

ni 10 22 17 8 10 3 2 2 1 N=75

Ni 10 32 49 57 67 70 72 74 75

fi 0,13 0,29 0,23 0,11 0,13 0,04 0,03 0,03 0,01 1

Fi 0,13 0,42 0,65 0,76 0,89 0,93 0,96 0,99 1

16

- La proporcin de familias que gasta 200.000 pesetas o menos es de 0,42.

- La proporcin de familias que gasta ms de 600.000 pesetas es 0,07=1-0,93=0,03+0,03+0,01.

- La proporcin de familias que gasta ms de 100.000 pero no ms de 300.000 es 0,52=0,29+0,23=0,65-0,13

17

Representacin grfica de la distribucin de frecuencias

1) El Histograma El histograma es un grfico que representa las frecuencias mediante reas. Sobre cada clase (o rango de valores) se dibuja un rectngulo cuyo rea representa la frecuencia (absoluta o relativa) de esa clase.

Cuando las clases (o intervalos) en que dividimos los datos son de distinta longitud el eje vertical no tiene sentido. Como la frecuencia es el rea de cada rectngulo, si dibujamos rectngulos con distinta base su mayor o menor altura no nos da informacin.

(Ver Ejemplo de GTINE en Figura 3.4 de Pea y Romo)

18

Cuando las clases (o intervalos) son de la misma longitud, las frecuencias son proporcionales a las alturas de los rectngulos. La altura nos informa sobre la densidad o concentracin de datos en ese intervalo: - donde los rectngulos son ms altos hay ms datos de la variable - donde los rectngulos son ms bajos los datos de la variable son ms escasos Ejemplo: GTINE (distribucin frecuencias pag.16)
Histograma de GTINE
30 25 20 15 10 5 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)

Frecuencias relativas (%)

GTINE

19

Los rectngulos se dibujan contiguos (a diferencia del diagrama de barras o de Pareto) para transmitir la idea de variable continua.

La

forma

del

histograma

es

la

misma

si

representamos frecuencias absolutas o relativas, slo cambia la escala del eje vertical. Ejemplo: GTINE

Histograma de GTINE Frecuencias absolutas


24 20 16 12 8 4 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)

GTINE

20

Comparar con el histograma de frecuencias relativas de la pgina anterior.

La forma del histograma s que depende de: - anchura de las clases o tamao de los intervalos - eleccin del punto donde empieza la primera clase Ejemplo: GTINE
Histograma de GTINE Frecuencias relativas (%)
18 15 12 9 6 3 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)

GTINE

Cmo elegimos los intervalos (o el nmero de clases)?

- Empezar con pocas clases y ver (en el histograma) si con ms clases tenemos ms informacin (ver Figura 3.6 de Pea y Romo de la variable NOTAS)

21

- Si tenemos N observaciones elegir el nmero de clases


igual al entero ms prximo a GTINE como N=75 entonces

N N =

(En el ejemplo de

7 5 = 8 ,6 9 )

Por

qu

nos

preocupa

tanto

la

forma

del

histograma? Porque la forma del histograma refleja propiedades importantes de la variable.

El histograma (al igual que el diagrama de barras) nos muestran caractersticas de una variable que pueden apreciarse visualmente:

- Se puede ver si la distribucin es simtrica alrededor de un eje central o si es asimtrica Ejemplo: GTINE es asimtrica a la derecha (ver pag. 19) NOTAS es simtrica alrededor del 5 (ver Figura 3.6 de Pea y Romo)

22

- Se puede ver si presenta un solo mximo o pico o moda y es, por tanto, unimodal o si presenta varias modas

- Algunas de las formas ms frecuentes de histogramas son (ver Figura 3.8 de Pea y Romo): o Unimodal simtrico: se suele dar en variables en las que hay una gran cantidad de observaciones con valores intermedios y algunos valores en ambos extremos (notas, peso, altura) o Unimodal asimtrico a la derecha: se da en variables que tienen una gran cantidad de observaciones pequeas o intermedias y algunos datos grandes (gasto, ingreso) o Unimodal asimtrico a la izquierda: variables con muchas observaciones de valor alto o intermedio (esperanza de vida en los distintos pases)

23

o Bimodal simtrico: suele aparecer cuando los datos son de 2 grupos heterogneos y conviene estudiarlos por separado (un objeto que se hiciera en dos tamaos distintos en cantidades iguales)

El

histograma

se

puede

emplear

tambin

para o

representar relativas)

frecuencias

acumuladas

(absolutas

Ejemplo: GTINE

24

Histograma de GTINE
100 80

F (%)

60 40 20 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)

GTINE

25

2) El polgono de frecuencias El polgono de frecuencias es una representacin grfica de las frecuencias equivalente al histograma. Se obtiene a partir del histograma uniendo los centros de la base superior de sus rectngulos. Ejemplo: GTINE
Histograma de GTINE
30 25 20 15 10 5 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)

Frecuencias relativas (%)

GTINE

Frecuencias relativas (%)

Polgono de frecuencias de GTINE


30 25 20 15 10 5 0 0 0,2 0,4 0,6 0,8 1 (X 1,E6)

GTINE

26

Se puede obtener para frecuencias acumuladas a partir del histograma de frecuencias acumuladas. La diferencia fundamental entre el histograma y el polgono es que ste proporciona una representacin ms suavizada de la distribucin de frecuencias.

3) El diagrama de tallos y hojas Nos permite obtener simultneamente la distribucin de frecuencias de la variable y su representacin grfica.

Para construirlo hay que separar en cada dato el ltimo dgito de la derecha (la hoja) del resto de las cifras (el tallo).

Los tallos aparecen a la izquierda de una lnea vertical y a la derecha de cada uno anotamos las cifras finales (hojas) de todos los datos de cada clase.

27

Ejemplo: Se tienen datos del rendimiento anual (en %) de unas acciones a lo largo de 30 aos: -3 3 21 25 17 17 -2 53 31 4 -3 -2 -1 -0 0 1 2 3 4 5 -13 -10 20 41 21 6 15 -22

10 15 -1 26 10

-14 -35 -1 28 18

-13 11 5 2 4 3 3 0 0 1 1 3

3 2 4 0 1

3 1 6 1 1

0 1 5 5 5 8 7 6 7 8

Al igual que el histograma o el polgono, el diagrama nos proporciona una impresin visual del nmero de observaciones de cada clase.

28

Tiene la ventaja de que al darnos un mayor detalle nos permite recuperar los datos, lo que no puede hacerse con el histograma o el polgono.

Con conjuntos de datos muy grandes puede no resultar informativo porque las clases tengan demasiados datos, aunque siempre se pueden subdividir

En el ejemplo en lugar de poner los valores de 10 en 10, podemos cogerlos de 5 en 5, es decir, cada lnea podemos dividirla en 2 (en vez de 10 a 19, hacer de 10 a 14 y de 15 a 19).

29

Ejemplo: GTINE
Stem-and-Leaf Display for GTINE: unit = 10000,0 represents 120000,0 1|2

10 32 (17) 26 18 8 5 3 1

0|4566788899 1|0011123445556667777799 2|22224455555577778 3|00000125 4|1234556779 5|113 6|36 7|05 8|7

La columna situada a la izquierda nos da las frecuencias absolutas acumuladas de arriba hacia abajo y de abajo hacia arriba hasta llegar al valor entre parntesis que es frecuencia de la clase que contiene el dato central.

30

Ejercicio 3.6 (Pea y Romo) Los datos de la variable G4 (Tabla 2.1) miden el gasto en menaje de 75 hogares: a,b) Construir la distribucin de frecuencias y representarla con un histograma.
Frequency Tabulation for G4
-------------------------------------------------------Lower Upper Class Limit Limit ci ni fi Ni Fi -------------------------------------------------------at or below 0 6 0,0800 6 0,0800 1 0 14000 7000 40 0,5333 46 0,6133 2 14000 28000 21000 9 0,1200 55 0,7333 3 28000 42000 35000 8 0,1067 63 0,8400 4 42000 56000 49000 6 0,0800 69 0,9200 5 56000 70000 63000 2 0,0267 71 0,9467 6 70000 84000 77000 1 0,0133 72 0,9600 7 84000 98000 91000 1 0,0133 73 0,9733 8 98000 112000 105000 1 0,0133 74 0,9867 9 112000 126000 119000 1 0,0133 75 1,0000

Histogram for G4
80

percentage

60 40 20 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 (X 10000)

G4

31

Histogram for G4
100 80 60 40 20 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 (X 10000)

percentage

G4

c) Marque en el histograma la proporcin de valores de G4 menores que 40.000 pesetas Qu porcentaje de las observaciones suponen esos datos? Algo ms del 80% (el 84%)
---------------------------------------------------Lower Upper Class Limit Limit ci ni fi Ni Fi ---------------------------------------------------at or below 0 6 0,0800 6 0,0800 1 0 10000 5000 32 0,4267 38 0,5067 2 10000 20000 15000 13 0,1733 51 0,6800 3 20000 30000 25000 7 0,0933 58 0,7733 4 30000 40000 35000 5 0,0667 63 0,8400 5 40000 50000 45000 2 0,0267 65 0,8667 6 50000 60000 55000 5 0,0667 70 0,9333 7 60000 70000 65000 1 0,0133 71 0,9467 8 70000 80000 75000 1 0,0133 72 0,9600 9 80000 90000 85000 0 0,0000 72 0,9600 10 90000 100000 95000 1 0,0133 73 0,9733 11 100000 110000 105000 1 0,0133 74 0,9867 12 110000 120000 115000 0 0,0000 74 0,9867 13 120000 130000 125000 1 0,0133 75 1,0000

32

frecuencias relativas (%)

Histograma de G4
60 50 40 30 20 10 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 (X 10000)

G4

Histograma de G4
100 80

F (%)

60 40 20 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 (X 10000)

G4

33

e) Marcar en el histograma el rea correspondiente a las observaciones entre 50.000 y 70.000 pesetas. Qu proporcin representan? Cmo obtendra a partir de las frecuencias acumuladas esa proporcin?

Son el 8% (0,08=0,0667+0,0133=0,9467-0,8667)

f) Qu porcentaje de hogares tiene un gasto en menaje superior a 80.000 pesetas?

El 4% (0,04=1-0,96=0,0133x3)

g) Cmo es la distribucin de G4?

Es asimtrica a la derecha

h) Dibuje el diagrama de tallos y hojas

34

Stem-and-Leaf Display for G4: unit = 1000,0 1|2 = 12000,0 (38) 37 24 17 12 10 5 0|00000000000011122222333344456667888889 1|0001233356689 2|0444889 3|33355 4|69 5|02249 6|7 HI|79828,0 91068,0 104452,0 120444,0

Datos de G4: 780 4296 3044 52016 13128 2392 8536 35800 4000 0 28432 16856 50800 6188 8544 24441 33012 28999 16440 360 2268 0 10764 0 0 1960 91068 24000 35136 46000 2144 3524 104452 2480 1528 19516 0 0 18191 3172 13936 8300 8660 4524 6256 10346 11820 20468 33496 192 9000 29856 24685 3848 54228 120444 67379 10048 288 216 8099 7620 5428 15360 2028 33220 12212 52768 49896 6752 840 79828 59280 1692 13782

35

Ejercicio 3.14 (Pea y Romo)

La variable TMUN (Tabla 2.1) expresa el tamao del municipio: 1 menos de 2000 habitantes, 2 entre 2000 y 10000, 3 entre 10000 y 50000 y 4 capitales de provincia o con ms de 50000.

a, b) Obtener la distribucin de frecuencias absolutas, relativas y acumuladas.

TMUN 1 2 3 4

ni 4 9 14 48

Ni 4 13 27 75

fi 0,0533 0,12 0,1867 0,64

Fi 0,0533 0,1733 0,36 1

i=1

ni = N = 75

i=1

fi = 1

36

c) Dibujar el histograma de la distribucin

frecuencias relativas (%)

Histograma de TMUN
80 60 40 20 0 0 1 2 3 4

TMUN

d) Qu tipo de simetra o asimetra presenta? Asimetra a la izquierda Datos de TMUN: 4 4 4 4 4 4 2 4 4 4 4 3 3 4 1 4 4 3 4 2 3 4 3 4 3 4 2 4 4 1 2 3 4 2 4 4 2 4 4 4 4 4 2 4 4 3 4 4 4 3 4 3 4 4 3 4 4 4 2 1 4 3 1 3 4 4 2 4 3 4 4 4 4 4 4

37

S-ar putea să vă placă și