Sunteți pe pagina 1din 24

LA ESTADSTICA COMO CIENCIA

La Estadstica actual es la unin de dos disciplinas independientes que confluyen a finales del siglo XIX: CLCULO DE PROBABILIDADES (XVII): Teora matemtica de los juegos de azar. ESTADSTICA O CIENCIA DE ESTADO: Se ocupaba de la recogida y descripcin de los datos La Estadstica actual estudia cmo obtener conclusiones de la investigacin emprica mediante el uso de modelos matemticos. BLOQUES: 1.- ESTADSTICA DESCRIPTIVA 2.- CLCULO DE PROBABILIDADES
1

3.- INFERENCIA ESTADSTICA

CAMPOS DE APLICACIN DE LA ESTADSTICA


Cualquier campo donde se produzcan fenmenos aleatorios (existe incertidumbre): Informtica: diseo optimo de sistemas informticos, gestin de redes, anlisis de algoritmos, ... Ingeniera: control de calidad en procesos de fabricacin, fiabilidad de de componentes y sistemas, prediccin y control de procesos, codificacin de seales Fsica: teora cintica de los gases,.. Sociologa: estudio conjunto de variables, test, tratamiento de encuestas,... Economa: prediccin de variables, toma de decisiones,...
2

TEMA 1: ESTADSTICA DESCRIPTIVA


1.1 CONCEPTOS GENERALES. 1.2 DISTRIBUCIN O TABLA DE FRECUENCIAS. 1.3 REPRESENTACIONES GRFICAS. 1.4 MEDIDAS DE TENDENCIA CENTRAL. 1.5 MEDIDAS DE DISPERSIN. 1.6 MEDIDAS DE ASIMETRA O DE FORMA.

PRCTICAS
1. ESTADSTICA DESCRIPTIVA.

1.1 CONCEPTOS GENERALES


ESTADSTICA DESCRIPTIVA: Tcnicas que tratan de describir conjuntos de datos resumiendo la informacin que stos proporcionan utilizando como herramientas: TABLAS DE FRECUENCIAS GRFICOS MEDIDAS NUMRICAS: * POSICIN O CENTRALIZACIN * DISPERSIN * FORMA O ASIMETRA

CONCEPTOS FUNDAMENTALES
POBLACIN: conjunto de elementos o individuos de los que interesa estudiar alguna caracterstica. VARIABLE : Es la caracterstica que se desea estudiar. Puede ser cualitativas, cuando sus valores indican cualidad y no son numricos, o cuantitativas, cuando sus valores son numricos. Las variables cuantitativas tambin se llaman variables estadsticas. MUESTRA: subconjunto finito de una poblacin. RAZONES PARA ESTUDIAR UNA MUESTRA: coste, tiempo, personal cualificado, procesos destructivos,...
LA ESTADSTICA SIEMPRE TRABAJA CON MUESTRAS,

es decir, con un conjunto de datos x1, x2 ,..., xn que vienen del estudio de una caracterstica o variable X.
5

EJEMPLO
POBLACIN: Estudiantes de la EUI MUESTRA: Alumnos de este grupo VARIABLES CUALITATIVAS: Sexo, color de pelo, grado de satisfaccin ante el funcionamiento de una instalacin de la EUI,... VARIABLES CUANTITATIVAS: Edad, n de llamadas de mvil en un da, tiempo empleado en cada llamada, salario que se cobra mensualmente, n de conexiones diarias a Internet...
6

1.2 DISTRIBUCIN DE FRECUENCIAS


Para estudiar una variable X se parte de una muestra de tamao n, x1, x2 ,..., xn, entre los que suponemos que aparecen como valores distintos x1, x2 ,..., xk . FRECUENCIA ABSOLUTA DE xi: Es el nmero, ni , de veces k que se repite xi. n =n

i =1

FRECUENCIA RELATIVA DE xi: es el cociente entre la k frecuencia absoluta y n. n fi = i , fi = 1 n i =1 FRECUENCIA ABSOLUTA(RELATIVA) ACUMULADA DE xi. Si llamamos x*1, x*2 ,..., x*k a los valores ordenados de menor a mayor (slo sentido variables cuantitativas o estadsticas):

Ni = Fi =

n
j =1

Frecuencia absoluta acumulada de x*i Frecuencia relativa acumulada de x*i


7

Ni n

PROPIEDADES DE FRECUENCIAS
La suma de las frecuencias absolutas es el nmero de k datos. n =n

i =1

La suma de las frecuencias relativas es 1. Si la frecuencia relativa de un dato se multiplica por 100, tenemos el porcentaje que ese dato representa del total. k ni fi = , fi = 1 n i =1 La frecuencia absoluta acumulada del ltimo dato coincide i con el nmero de datos. Ni = nj ,Nk = n

j =1

La frecuencia relativa acumulada del ltimo dato es 1. Si la frecuencia relativa acumulada de un dato se multiplica por 100, tenemos el porcentaje que ese dato y todos los menores representan sobre el total. F = N i , F = 1 i k n

Se llama TABLA O DISTRIBUCIN DE FRECUENCIAS al conjunto de valores DISTINTOS que toma la variable acompaados de sus respectivas frecuencias. Tiene sentido para variables cuantitativas y para variables cualitativas (en este caso, slo las frecuencias absolutas y relativas) EJEMPLO: Nmero de accesos de un procesador a un determinado mdulo de memoria en una hora. Se toma una muestra de tamao 14: 1,2,4,8,2,1,4,4,8,3,2,2,7,3. xi ni fi Ni Fi
1 2 3 4 7 8 2 4 2 3 1 2 0.143 0.286 0.143 0.214 0.071 0.143 2 6 8 11 12 14 0.143 0.429 0.572 0.786 0.857 1
9

OTRAS TABLAS DE FRECUENCIAS


D istribucin del motivo de compra de telfono mvil (1999)
C aracterstica
Estar localizado L lamar a mi familia H ablar con mis clientes Slo en caso de emergencia Charlar co n los amigos Enviar mensajes por pantalla

Frecuencia
47 25 12 11 3 2

Frec. relativa
047 025 012 011 003 002

Total

100

Distribucin de frecuencias de la variable: n de llamadas recibidas en una centralita en perodos de un minuto


xi
0 1 2 3 4 5 6

Frecuencia
40 26 14 6 3 0 1

Frec. relativa
044 029 016 007 003 000 001

Total

90

10

Las tablas de frecuencia son tiles para resumir la informacin de una variable cuando se tiene una muestra con pocos valores distintos (orientativo, a lo sumo 20). Si el nmero de valores distintos de la muestra es grande (mayor que 20), se agrupan los datos en intervalos para construir la tabla de frecuencias. Llamaremos a estas ltimas VARIABLES AGRUPADAS. Al resto nos referiremos como VARIABLES NO AGRUPADAS o sin agrupar.
11

Para el caso en que haya que agrupar los datos en intervalos, existen mtodos exhaustivos para ello. En la asignatura usaremos la agrupacin en intervalos que proporciona Statgraphics, teniendo en cuenta que: Permite elegir el nmero de intervalos y el extremo
inferior y superior de los mismos. Una regla usual para el nmero de intervalos es elegir un entero cercano a 1 + 3.3log10(n). Statgraphics slo realiza agrupaciones en intervalos de la misma amplitud, aunque se debe de procurar que no queden intervalos con muy pocos datos ni con demasiados. Esto no siempre se consigue si los intervalos en que se agrupan los datos son de la misma amplitud.

12

EJEMPLO POBLACIN: hogares madrileos. MUESTRA: 40 familias madrileas. VARIABLE O CARACTERSTICA: Consumo mensual de leche, en litros.
10.1 40 10 42.8 20.1 58 20 30 60.3 58 10 40 20.1 10 20 80.2 40.3 20 85 72 67.4 40 60 20 21 10 43 42.7 80 10 21.4 59.8 10 20 22 103.3 20 20 22 20.1

Tenemos 22 valores distintos: vamos a agrupar en intervalos. Mnimo = 10, mximo = 103.3; 1 + 3.3log10(40) = 6.29 6. Conviene trabajar con intervalos fciles, por ejemplo, que 13 tengan extremos enteros.

La tabla de frecuencias con Statgraphics para el ejemplo anterior quedara (se han elegido 6 intervalos, extremo inferior 9 y superior 105):
Frequency Tabulation for Leche -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 9,0 0 0,0000 0 0,0000 1 9,0 25,0 17,0 21 0,5250 21 0,5250 2 25,0 41,0 33,0 5 0,1250 26 0,6500 3 41,0 57,0 49,0 3 0,0750 29 0,7250 4 57,0 73,0 65,0 7 0,1750 36 0,9000 5 73,0 89,0 81,0 3 0,0750 39 0,9750 6 89,0 105,0 97,0 1 0,0250 40 1,0000 above 105,0 0 0,0000 40 1,0000 -------------------------------------------------------------------------------Mean = 36,54 Standard deviation = 24,9728

Como puede observarse el primer intervalo contienen ms del 30% (12) y el ltimo menos del 5% (2) de los datos.

14

1.3 REPRESENTACIONES GRFICAS


Diagrama de barras Histograma Diagrama de caja o box-plot

15

DIAGRAMA DE BARRAS
Se realiza cuando el nmero de datos distintos es

pequeo (menos de 20 con Statgraphics). Sobre cada valor de los datos se levanta una barra cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas.

16

NMERO DE LLAMADAS Frecuencia xi


0 1 2 3 4 5 6 40 26 14 6 3 0 1

Total

90

Nmero de llamadas
40

frecuencias

30 20 10 0 0 1 2 3 4 5 6
17

El diagrama de barras que proporciona Statgraphics para esta variable es:


N de llamadas
40

frecuencias

30 20 10 0 0 1 2 3 4 6

Observemos que realmente no levanta barras, sino rectngulos separados. Se pueden representar las frecuencias absolutas o los porcentajes de cada dato (relativas*100).
18

HISTOGRAMA
Es una representacin que se usa cuando hay muchos

datos distintos (ms de 20 con Statgraphics) y, por tanto, hay que agrupar los datos en intervalos. Solo haremos los histogramas que proporciona Statgraphics, con intervalos de la misma amplitud. En este caso, cada intervalo se representa mediante un rectngulo cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas.
19

Frequency Tabulation for Leche -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 9,0 0 0,0000 0 0,0000 1 9,0 25,0 17,0 21 0,5250 21 0,5250 2 25,0 41,0 33,0 5 0,1250 26 0,6500 3 41,0 57,0 49,0 3 0,0750 29 0,7250 4 57,0 73,0 65,0 7 0,1750 36 0,9000 5 73,0 89,0 81,0 3 0,0750 39 0,9750 6 89,0 105,0 97,0 1 0,0250 40 1,0000 above 105,0 0 0,0000 40 1,0000 -------------------------------------------------------------------------------Mean = 36,54 Standard deviation = 24,9728 Histogram

Histograma para Consumo mensual de leche con Statgraphics

Histograma para Consumo mensual de leche con Statgraphics


24 20

frequency

16 12 8 4 0 0 20 40 60 80 100 120

Leche

20

10

1.4 MEDIDAS DE TENDENCIA CENTRAL O MEDIDAS DE CENTRALIZACIN O POSICIN


Tienen sentido solamente para variables cuantitativas

(valores numricos) Son valores en torno a los cuales se agrupa la variable (VALORES CENTRALES). Las principales son: Moda Media aritmtica Mediana Cuantiles

21

MODA
Es el dato con mayor frecuencia absoluta (el que ms se repite). Puede haber ms de una moda o no haber moda (si todos los datos tienen frecuencia 1) Ejemplo: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 (muestra tamao 15) xi
2 3 4 5 6 7 8 2 2 3 1 3 2 2
22

ni Este ejemplo tiene dos modas: 4 y 6

11

MEDIA ARITMTICA
x=

xi
i =1

, x=

x n
j =1 j

= xj f j
j =1

La media es la suma de todos los valores de la variable dividido entre el nmero total de datos (primera frmula). Si se dispone de las frecuencias absolutas (relativas) de los datos, la media se puede calcular usando la segunda (tercera) expresin de la media donde x1 ,..., x k representan los valores distintos de la variable. Todas las medidas que estudiemos tienen esta dos versiones.

23

Con los datos anteriores: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 (muestra tamao 15), se tiene:

xi
2 3 4 5 6 7 8 2 2 3 1 3 2 2

ni
x=

2 + 2 + 3+ 3+ 4 + 4 + 4 + 5+ 6 + 6 + 6 + 7 + 7 + 8+ 8 =5 15

x=

2 2 + 3 2 + 4 3 + 5 + 6 3 + 7 2 + 8 2 =5 15
24

12

MEDIANA
Es un valor tal que, ordenados de menor a mayor los datos, el 50% es menor o igual que l y el 50% mayor o igual que l. Se denota como Me. Con los datos del ejemplo anterior: 2233444 5 6667788

En este caso hay un valor central porque el nmero de datos es impar. En el caso de tener un nmero par de datos, la mediana es la semisuma de los dos datos centrales (en este caso no tiene porqu ser uno de los datos) Si aadimos a los datos anteriores el valor 8, la mediana es 5.5, que no es uno de los datos.

25

COMPARACIN MEDIA-MEDIANA
La media contiene ms informacin porque usa los valores de todos los datos. La mediana es ms robusta frente a los cambios en los datos, es decir, es menos sensible a cambios en los datos. Ejemplo: si a los datos anteriores 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8, le aadimos el dato 34, tenemos: Nueva media: = 6.8 (antes era 5)

Nueva mediana: Me = 5.5 (antes era 5) La media es ms sencilla de calcular y se presta mejor a los clculos algebraicos. Deben calcularse ambas pues proporcionan informacin complementaria.

26

13

CUANTILES
CUANTIL DE ORDEN , 0<<1, C: Es un valor tal que, ordenados DE MENOR A MAYOR los datos, el 100% es menor o igual que l y el resto es mayor o igual que l. Los ms usuales son: CUARTILES Q1, Q2, Q3 , que corresponden a los cuantiles con = 0.25, 0.5,0.75. La mediana es el segundo cuartil. PERCENTILES P1,...,P99 con = 0.01,...,0.99 Ejemplo: Q1 es un valor tal que el 25% de los datos es menor o igual que l y el resto, mayor o igual que l. P18 es un valor tal que el 18% de los datos es menor o igual que l y el resto mayor o igual que l. El clculo de cuantiles es anlogo al de la mediana. Calcularemos a mano los cuartiles y el resto se calcularn con Statgraphics. 27

CLCULO DE CUANTILES
Se ordenan los datos de menor a mayor.

Se determina el valor n, donde n es el numero de datos y el orden del cuantil que queremos calcular. * Si n no es entero, se redondea al siguiente entero y el dato que ocupe ese lugar es el cuantil buscado. * Si n = k es entero el cuantil buscado es la media entre los datos que ocupan la posicin k y la k+1. El resultado no tiene porqu coincidir con uno de los datos. Haremos este clculo a mano en el caso de los cuartiles.
28

14

Ejemplo: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 en este ejemplo n=15 La mediana ser: Me = C0.5, es decir n=15*0.5 = 7.5, luego la mediana ocupa el lugar 8, x8 =Me=5. Encontrar un valor tal que el 25% de los datos sea menor o igual que l: sera el primer cuartil Q1, es decir, n = 15*0.25 = 3.75. El primer cuartil sera el valor que ocupa la posicin 4, Q1 = 3. Esto significa que el 25% de los datos son menores o iguales que 3 y el otro 75% son mayores o iguales que 3. Ejemplo: 2,2,3,5,7,8,9,9 en este ejemplo n=8 Encontrar un valor tal que el 25% de los datos sea mayor o igual que l: sera el tercer cuartil Q3, es decir, n = 8*0.75 = 6. El tercer cuartil sera la media entre el valor que ocupa la posicin 6 y la 7, es decir, Q3 = 8.5. Esto significa que el 75% de los datos son menores o iguales que 8.5 y el otro 25% son mayores o iguales que 8.5.
29

DIAGRAMA DE CAJA (BOX-PLOT)


Se construye slo para variables cuantitativas. Pasos a seguir: Con los datos ordenados se obtienen los tres cuartiles Se dibuja un rectngulo cuyos extremos son Q1 y Q3 y se indica la posicin de la mediana mediante una lnea. Tambin se indica la media. Se calculan los lmites de admisin ( los valores que queden fuera se consideran atpicos, o sea, diferentes del resto)

LI = Q 1 1 '5 ( Q 3 Q 1 )

LS = Q 3 + 1 '5 ( Q 3 Q 1 )
Se dibuja una lnea desde cada extremo del rectngulo hasta el valor ms alejado no atpico. Se marcan todos los datos considerados como atpicos (los que quedan fuera de los lmites de admisin).
30

15

DIAGRAMA DE CAJA (BOX-PLOT)


Media Dato menor no atpico Mediana Dato mayor no atpico

Box-and-Whisker Plot

Dato atpico
150 160 170 180 190 200

Altura

Dato atpico
Q1

Q3

31

EJEMPLO
Con los datos del ejemplo anterior, 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8, dibujamos el box-plot: Mediana: 5 Primer cuartil: Q1 =3 Tercer cuartil: Q3 = 7 LI = 3-1.5*4 = -3, LS = 7+1.5*4 = 13 Se consideran normales los datos en el intervalo (-3,13), lo que nos indica que en este caso no hay datos atpicos.
32

16

Diagrama de caja o Box-plot

No hay datos atpicos. Se observa simetra en el grfico. Statgraphics s realiza este tipo de grficos.
33

1.5 MEDIDAS DE DISPERSIN


Se calculan solamente para variables cuantitativas Las medidas de dispersin completan la informacin que dan las medidas de centralizacin e indican si stas son ms o menos representativas del conjunto de datos. A menor valor de la medida, menor dispersin en el conjunto de datos. Las ms importantes son: Rango o recorrido Recorrido intercuartlico Varianza y Desviacin tpica Coeficiente de variacin

34

17

NECESIDAD DE MEDIDAS DE DISPERSIN


Las medidas de centralizacin proporcionan una informacin incompleta del conjunto de datos. Ejemplo: sean X e Y las notas de dos grupos de cuarenta alumnos, con distribuciones de frecuencias:
xi 0 10 ni 20 20

yi 4.5 5 5.5

ni 3 34 3

Para ambas variables la media es 5, pero en el segundo caso 5 es un valor ms representativo de los datos que en el primero.

Intuitivamente los datos de X estn MS DISPERSOS (ms separados) que los de Y, entre ellos y respecto de la media.

35

RANGO O RECORRIDO Y RECORRIDO INTERCUARTLICO


El rango o recorrido y el recorrido intercuartlico miden la amplitud de los datos. Se definen como: RANGO O RECORRIDO: R = xmayor xmenor RECORRIDO INTERCUARTLICO: RQ = Q3 - Q1

En el ejemplo de las notas de las dos clases X e Y, se observa que X es ms dispersa que Y al calcular R y RQ : RX = 10 0 = 10 y RQX = 10 0 = 10 RY = 5.5 4.5 = 1 y RQY = 5 - 5 = 0
36

18

VARIANZA Y DESVIACIN TPICA


Ambas son medidas de dispersin asociadas a la media. Miden, entonces, la representatividad de la media en el conjunto de datos. VARIANZA:

VX =

2 1 n 1 k 2 = x x xj x) nj ( i ) ( n i=1 n j =1

Representa una especie de distancia media de los datos a la media aritmtica. A mayor varianza, mayor distancia de los datos a la media y por tanto, menor representatividad de la media. La varianza siempre es mayor o igual que 0 y est medida en unidades al cuadrado. DESVIACIN TPICA: Dt X = unidades que los datos

VX

medida en las mismas


37

En el ejemplo de las notas de los dos grupos de cuarenta alumnos, con distribuciones de frecuencias:
xi 0 10 ni 20 20

yi 4.5 5 5.5

ni 3 34 3

1 2 2 05) 20+(105) 20 = 25, DtX = 5, ( 40 1 2 2 2 VY = ( 4.55) 3+( 55) 34+( 5.55) 3 = 0.0375, DtY = 0.19 40 VX =
Para ambas variables la media es 5, pero en el segundo caso 5 es un valor ms representativo de los datos que en el primero como se puede observar al calcular la varianza. 38

19

Statgraphics NO calcula la varianza ni la desviacin tpica para un conjunto de datos si no una variante de estas medidas que son, respectivamente, la cuasivarianza y la cuasidesviacin tpica. Ms adelante veremos el motivo de este hecho. De momento, las usaremos indistintamente
2 1 n 1 k 2 2 = = s x x xj x) nj ( ) ( i CUASIVARIANZA: n-1 i =1 n-1 j=1

CUASIDESVIACIN TPICA: s = s 2

39

COEFICIENTE DE VARIACIN DE PEARSON


La varianza NO sirve como medida si lo que se quiere es comparar, de entre varios conjuntos de datos, cual es el ms disperso respecto de la media salvo si todos los conjuntos de datos tiene la misma media (ejemplo de las notas). COEFICIENTE DE VARIACIN DE PEARSON: C V X = (asociado a la media) Este coeficiente es adimensional y elimina la influencia de la de la magnitud y unidades de medida de los datos. Multiplicado por 100 se interpreta como un porcentaje.

DtX x

40

20

Ejemplo de cmo la varianza NO sirve para comparar la dispersin de dos conjuntos de datos cuando la media es diferente:
Se tienen datos del peso de varios lagartos (X) y del peso de una poblacin de tiburones (Y), en Kg. yi ni xi ni Para X: media = 0.473, V = 0.026, 400 3 0.4 3 CV = 0.34 403 4 0.45 4 Para Y: media = 404, V= 9.846, 405 4 0.5 6 CV = 0.0076 410 2 0.55 2 La varianza de Y es mayor que la de X pero est influenciado por la magnitud de los datos y por las unidades de medida. No podemos comparar la dispersin de los datos con la varianza 41 porque las medias son distintas.

1.6 COEFICIENTE DE ASIMETRA DE FISHER


C AFX = 1 n

i =1

( xi x )3

( D t X )3

1 n

i =1

( xi x )3 ni ( D t X )3

Si al calcular este valor con nuestros datos sucede que: CAF > 0, la distribucin es asimtrica a la derecha. CAF = 0, la distribucin es simtrica. CAF < 0, la distribucin es asimtrica a la izquierda.

CAF>0, Asimtrica a la derecha

CAF=0, Simtrica

CAF<0, Asimtrica a la izquierda

42

21

Con los datos: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 (la media era 5), calculamos el coeficiente de asimetra de Fisher. El numerador es:

( 2 5 ) 3 2 + ( 3 5 ) 3 2 + ( 4 5 )3 3 1 k 1 3 3 = 0, ( xi x ) ni = 15 + ( 5 5) 1 + n i =1 ( 6 5 )3 3 + ( 7 5 )3 2 + ( 8 5 )3 2 CAF = 0 Diagrama de barras


3 2,5

frecuencia

2 1,5 1 0,5 0 2 3 4 5 6 7 8
43

EJEMPLO
Vamos a realizar un estudio descriptivo de la variable PIBpc del archivo Mundo_2001.sf3 que representa la renta per cpita de 158 paises del mundo en dlares en el ao 2001. Los valores de las principales medidas son:
Count = 158 Average = 7802,85 Median = 4200,0 Mode = Variance = 7,35481E7 Standard deviation = 8576,02 Minimum = 500,0 Maximum = 36300,0 Range = 35800,0 Lower quartile = 1700,0 Upper quartile = 9400,0 Interquartile range = 7700,0 Skewness = 1,43409 Coeff. of variation = 109,909%

44

22

Son 158 datos de una variable cuantitativa. Para realizar la tabla de frecuencias hay que agrupar en intervalos. La tabla de frecuencias que se obtiene con Statgraphics:
Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below -2000,0 0 0,0000 0 0,0000 1 -2000,0 3555,56 777,778 71 0,4494 71 0,4494 2 3555,56 9111,11 6333,33 46 0,2911 117 0,7405 3 9111,11 14666,7 11888,9 11 0,0696 128 0,8101 4 14666,7 20222,2 17444,4 9 0,0570 137 0,8671 5 20222,2 25777,8 23000,0 9 0,0570 146 0,9241 6 25777,8 31333,3 28555,6 11 0,0696 157 0,9937 7 31333,3 36888,9 34111,1 1 0,0063 158 1,0000 8 36888,9 42444,4 39666,7 0 0,0000 158 1,0000 9 42444,4 48000,0 45222,2 0 0,0000 158 1,0000 above 48000,0 0 0,0000 158 1,0000 -------------------------------------------------------------------------------45

Los histogramas, en trminos de frecuencias absolutas y relativas


Histogram
80

frequency

60 40 20 0 -2 8 18 28 38 48

PIBpc Histogram
60

58 (X 1000)

Hay ms de 20 valores distintos por lo que el grfico adecuado es el histograma.

percentage

50 40 30 20 10 0 0 1 2 3 4 5 (X 10000)

PIBpc

El primero es el que da por defecto Statgraphics. En el segundo se han ajustado el mnimo, mximo y nmero de intervalos. 46

23

El box-plot indica que los pases ricos son considerados como atpicos (diferentes del resto) (PIBpc superior a 20000 dlares):
Box-and-Whisker Plot

PIBpc

4 (X 10000)

47

24

S-ar putea să vă placă și