Documente Academic
Documente Profesional
Documente Cultură
La Estadstica actual es la unin de dos disciplinas independientes que confluyen a finales del siglo XIX: CLCULO DE PROBABILIDADES (XVII): Teora matemtica de los juegos de azar. ESTADSTICA O CIENCIA DE ESTADO: Se ocupaba de la recogida y descripcin de los datos La Estadstica actual estudia cmo obtener conclusiones de la investigacin emprica mediante el uso de modelos matemticos. BLOQUES: 1.- ESTADSTICA DESCRIPTIVA 2.- CLCULO DE PROBABILIDADES
1
PRCTICAS
1. ESTADSTICA DESCRIPTIVA.
CONCEPTOS FUNDAMENTALES
POBLACIN: conjunto de elementos o individuos de los que interesa estudiar alguna caracterstica. VARIABLE : Es la caracterstica que se desea estudiar. Puede ser cualitativas, cuando sus valores indican cualidad y no son numricos, o cuantitativas, cuando sus valores son numricos. Las variables cuantitativas tambin se llaman variables estadsticas. MUESTRA: subconjunto finito de una poblacin. RAZONES PARA ESTUDIAR UNA MUESTRA: coste, tiempo, personal cualificado, procesos destructivos,...
LA ESTADSTICA SIEMPRE TRABAJA CON MUESTRAS,
es decir, con un conjunto de datos x1, x2 ,..., xn que vienen del estudio de una caracterstica o variable X.
5
EJEMPLO
POBLACIN: Estudiantes de la EUI MUESTRA: Alumnos de este grupo VARIABLES CUALITATIVAS: Sexo, color de pelo, grado de satisfaccin ante el funcionamiento de una instalacin de la EUI,... VARIABLES CUANTITATIVAS: Edad, n de llamadas de mvil en un da, tiempo empleado en cada llamada, salario que se cobra mensualmente, n de conexiones diarias a Internet...
6
i =1
FRECUENCIA RELATIVA DE xi: es el cociente entre la k frecuencia absoluta y n. n fi = i , fi = 1 n i =1 FRECUENCIA ABSOLUTA(RELATIVA) ACUMULADA DE xi. Si llamamos x*1, x*2 ,..., x*k a los valores ordenados de menor a mayor (slo sentido variables cuantitativas o estadsticas):
Ni = Fi =
n
j =1
Ni n
PROPIEDADES DE FRECUENCIAS
La suma de las frecuencias absolutas es el nmero de k datos. n =n
i =1
La suma de las frecuencias relativas es 1. Si la frecuencia relativa de un dato se multiplica por 100, tenemos el porcentaje que ese dato representa del total. k ni fi = , fi = 1 n i =1 La frecuencia absoluta acumulada del ltimo dato coincide i con el nmero de datos. Ni = nj ,Nk = n
j =1
La frecuencia relativa acumulada del ltimo dato es 1. Si la frecuencia relativa acumulada de un dato se multiplica por 100, tenemos el porcentaje que ese dato y todos los menores representan sobre el total. F = N i , F = 1 i k n
Se llama TABLA O DISTRIBUCIN DE FRECUENCIAS al conjunto de valores DISTINTOS que toma la variable acompaados de sus respectivas frecuencias. Tiene sentido para variables cuantitativas y para variables cualitativas (en este caso, slo las frecuencias absolutas y relativas) EJEMPLO: Nmero de accesos de un procesador a un determinado mdulo de memoria en una hora. Se toma una muestra de tamao 14: 1,2,4,8,2,1,4,4,8,3,2,2,7,3. xi ni fi Ni Fi
1 2 3 4 7 8 2 4 2 3 1 2 0.143 0.286 0.143 0.214 0.071 0.143 2 6 8 11 12 14 0.143 0.429 0.572 0.786 0.857 1
9
Frecuencia
47 25 12 11 3 2
Frec. relativa
047 025 012 011 003 002
Total
100
Frecuencia
40 26 14 6 3 0 1
Frec. relativa
044 029 016 007 003 000 001
Total
90
10
Las tablas de frecuencia son tiles para resumir la informacin de una variable cuando se tiene una muestra con pocos valores distintos (orientativo, a lo sumo 20). Si el nmero de valores distintos de la muestra es grande (mayor que 20), se agrupan los datos en intervalos para construir la tabla de frecuencias. Llamaremos a estas ltimas VARIABLES AGRUPADAS. Al resto nos referiremos como VARIABLES NO AGRUPADAS o sin agrupar.
11
Para el caso en que haya que agrupar los datos en intervalos, existen mtodos exhaustivos para ello. En la asignatura usaremos la agrupacin en intervalos que proporciona Statgraphics, teniendo en cuenta que: Permite elegir el nmero de intervalos y el extremo
inferior y superior de los mismos. Una regla usual para el nmero de intervalos es elegir un entero cercano a 1 + 3.3log10(n). Statgraphics slo realiza agrupaciones en intervalos de la misma amplitud, aunque se debe de procurar que no queden intervalos con muy pocos datos ni con demasiados. Esto no siempre se consigue si los intervalos en que se agrupan los datos son de la misma amplitud.
12
EJEMPLO POBLACIN: hogares madrileos. MUESTRA: 40 familias madrileas. VARIABLE O CARACTERSTICA: Consumo mensual de leche, en litros.
10.1 40 10 42.8 20.1 58 20 30 60.3 58 10 40 20.1 10 20 80.2 40.3 20 85 72 67.4 40 60 20 21 10 43 42.7 80 10 21.4 59.8 10 20 22 103.3 20 20 22 20.1
Tenemos 22 valores distintos: vamos a agrupar en intervalos. Mnimo = 10, mximo = 103.3; 1 + 3.3log10(40) = 6.29 6. Conviene trabajar con intervalos fciles, por ejemplo, que 13 tengan extremos enteros.
La tabla de frecuencias con Statgraphics para el ejemplo anterior quedara (se han elegido 6 intervalos, extremo inferior 9 y superior 105):
Frequency Tabulation for Leche -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 9,0 0 0,0000 0 0,0000 1 9,0 25,0 17,0 21 0,5250 21 0,5250 2 25,0 41,0 33,0 5 0,1250 26 0,6500 3 41,0 57,0 49,0 3 0,0750 29 0,7250 4 57,0 73,0 65,0 7 0,1750 36 0,9000 5 73,0 89,0 81,0 3 0,0750 39 0,9750 6 89,0 105,0 97,0 1 0,0250 40 1,0000 above 105,0 0 0,0000 40 1,0000 -------------------------------------------------------------------------------Mean = 36,54 Standard deviation = 24,9728
Como puede observarse el primer intervalo contienen ms del 30% (12) y el ltimo menos del 5% (2) de los datos.
14
15
DIAGRAMA DE BARRAS
Se realiza cuando el nmero de datos distintos es
pequeo (menos de 20 con Statgraphics). Sobre cada valor de los datos se levanta una barra cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas.
16
Total
90
Nmero de llamadas
40
frecuencias
30 20 10 0 0 1 2 3 4 5 6
17
frecuencias
30 20 10 0 0 1 2 3 4 6
Observemos que realmente no levanta barras, sino rectngulos separados. Se pueden representar las frecuencias absolutas o los porcentajes de cada dato (relativas*100).
18
HISTOGRAMA
Es una representacin que se usa cuando hay muchos
datos distintos (ms de 20 con Statgraphics) y, por tanto, hay que agrupar los datos en intervalos. Solo haremos los histogramas que proporciona Statgraphics, con intervalos de la misma amplitud. En este caso, cada intervalo se representa mediante un rectngulo cuya altura es igual o proporcional a su frecuencia. Se pueden representar las frecuencias absolutas o relativas.
19
Frequency Tabulation for Leche -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 9,0 0 0,0000 0 0,0000 1 9,0 25,0 17,0 21 0,5250 21 0,5250 2 25,0 41,0 33,0 5 0,1250 26 0,6500 3 41,0 57,0 49,0 3 0,0750 29 0,7250 4 57,0 73,0 65,0 7 0,1750 36 0,9000 5 73,0 89,0 81,0 3 0,0750 39 0,9750 6 89,0 105,0 97,0 1 0,0250 40 1,0000 above 105,0 0 0,0000 40 1,0000 -------------------------------------------------------------------------------Mean = 36,54 Standard deviation = 24,9728 Histogram
frequency
16 12 8 4 0 0 20 40 60 80 100 120
Leche
20
10
(valores numricos) Son valores en torno a los cuales se agrupa la variable (VALORES CENTRALES). Las principales son: Moda Media aritmtica Mediana Cuantiles
21
MODA
Es el dato con mayor frecuencia absoluta (el que ms se repite). Puede haber ms de una moda o no haber moda (si todos los datos tienen frecuencia 1) Ejemplo: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 (muestra tamao 15) xi
2 3 4 5 6 7 8 2 2 3 1 3 2 2
22
11
MEDIA ARITMTICA
x=
xi
i =1
, x=
x n
j =1 j
= xj f j
j =1
La media es la suma de todos los valores de la variable dividido entre el nmero total de datos (primera frmula). Si se dispone de las frecuencias absolutas (relativas) de los datos, la media se puede calcular usando la segunda (tercera) expresin de la media donde x1 ,..., x k representan los valores distintos de la variable. Todas las medidas que estudiemos tienen esta dos versiones.
23
xi
2 3 4 5 6 7 8 2 2 3 1 3 2 2
ni
x=
2 + 2 + 3+ 3+ 4 + 4 + 4 + 5+ 6 + 6 + 6 + 7 + 7 + 8+ 8 =5 15
x=
2 2 + 3 2 + 4 3 + 5 + 6 3 + 7 2 + 8 2 =5 15
24
12
MEDIANA
Es un valor tal que, ordenados de menor a mayor los datos, el 50% es menor o igual que l y el 50% mayor o igual que l. Se denota como Me. Con los datos del ejemplo anterior: 2233444 5 6667788
En este caso hay un valor central porque el nmero de datos es impar. En el caso de tener un nmero par de datos, la mediana es la semisuma de los dos datos centrales (en este caso no tiene porqu ser uno de los datos) Si aadimos a los datos anteriores el valor 8, la mediana es 5.5, que no es uno de los datos.
25
COMPARACIN MEDIA-MEDIANA
La media contiene ms informacin porque usa los valores de todos los datos. La mediana es ms robusta frente a los cambios en los datos, es decir, es menos sensible a cambios en los datos. Ejemplo: si a los datos anteriores 2 2 3 3 4 4 4 5 6 6 6 7 7 8 8, le aadimos el dato 34, tenemos: Nueva media: = 6.8 (antes era 5)
Nueva mediana: Me = 5.5 (antes era 5) La media es ms sencilla de calcular y se presta mejor a los clculos algebraicos. Deben calcularse ambas pues proporcionan informacin complementaria.
26
13
CUANTILES
CUANTIL DE ORDEN , 0<<1, C: Es un valor tal que, ordenados DE MENOR A MAYOR los datos, el 100% es menor o igual que l y el resto es mayor o igual que l. Los ms usuales son: CUARTILES Q1, Q2, Q3 , que corresponden a los cuantiles con = 0.25, 0.5,0.75. La mediana es el segundo cuartil. PERCENTILES P1,...,P99 con = 0.01,...,0.99 Ejemplo: Q1 es un valor tal que el 25% de los datos es menor o igual que l y el resto, mayor o igual que l. P18 es un valor tal que el 18% de los datos es menor o igual que l y el resto mayor o igual que l. El clculo de cuantiles es anlogo al de la mediana. Calcularemos a mano los cuartiles y el resto se calcularn con Statgraphics. 27
CLCULO DE CUANTILES
Se ordenan los datos de menor a mayor.
Se determina el valor n, donde n es el numero de datos y el orden del cuantil que queremos calcular. * Si n no es entero, se redondea al siguiente entero y el dato que ocupe ese lugar es el cuantil buscado. * Si n = k es entero el cuantil buscado es la media entre los datos que ocupan la posicin k y la k+1. El resultado no tiene porqu coincidir con uno de los datos. Haremos este clculo a mano en el caso de los cuartiles.
28
14
Ejemplo: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 en este ejemplo n=15 La mediana ser: Me = C0.5, es decir n=15*0.5 = 7.5, luego la mediana ocupa el lugar 8, x8 =Me=5. Encontrar un valor tal que el 25% de los datos sea menor o igual que l: sera el primer cuartil Q1, es decir, n = 15*0.25 = 3.75. El primer cuartil sera el valor que ocupa la posicin 4, Q1 = 3. Esto significa que el 25% de los datos son menores o iguales que 3 y el otro 75% son mayores o iguales que 3. Ejemplo: 2,2,3,5,7,8,9,9 en este ejemplo n=8 Encontrar un valor tal que el 25% de los datos sea mayor o igual que l: sera el tercer cuartil Q3, es decir, n = 8*0.75 = 6. El tercer cuartil sera la media entre el valor que ocupa la posicin 6 y la 7, es decir, Q3 = 8.5. Esto significa que el 75% de los datos son menores o iguales que 8.5 y el otro 25% son mayores o iguales que 8.5.
29
LI = Q 1 1 '5 ( Q 3 Q 1 )
LS = Q 3 + 1 '5 ( Q 3 Q 1 )
Se dibuja una lnea desde cada extremo del rectngulo hasta el valor ms alejado no atpico. Se marcan todos los datos considerados como atpicos (los que quedan fuera de los lmites de admisin).
30
15
Box-and-Whisker Plot
Dato atpico
150 160 170 180 190 200
Altura
Dato atpico
Q1
Q3
31
EJEMPLO
Con los datos del ejemplo anterior, 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8, dibujamos el box-plot: Mediana: 5 Primer cuartil: Q1 =3 Tercer cuartil: Q3 = 7 LI = 3-1.5*4 = -3, LS = 7+1.5*4 = 13 Se consideran normales los datos en el intervalo (-3,13), lo que nos indica que en este caso no hay datos atpicos.
32
16
No hay datos atpicos. Se observa simetra en el grfico. Statgraphics s realiza este tipo de grficos.
33
34
17
yi 4.5 5 5.5
ni 3 34 3
Para ambas variables la media es 5, pero en el segundo caso 5 es un valor ms representativo de los datos que en el primero.
Intuitivamente los datos de X estn MS DISPERSOS (ms separados) que los de Y, entre ellos y respecto de la media.
35
En el ejemplo de las notas de las dos clases X e Y, se observa que X es ms dispersa que Y al calcular R y RQ : RX = 10 0 = 10 y RQX = 10 0 = 10 RY = 5.5 4.5 = 1 y RQY = 5 - 5 = 0
36
18
VX =
2 1 n 1 k 2 = x x xj x) nj ( i ) ( n i=1 n j =1
Representa una especie de distancia media de los datos a la media aritmtica. A mayor varianza, mayor distancia de los datos a la media y por tanto, menor representatividad de la media. La varianza siempre es mayor o igual que 0 y est medida en unidades al cuadrado. DESVIACIN TPICA: Dt X = unidades que los datos
VX
En el ejemplo de las notas de los dos grupos de cuarenta alumnos, con distribuciones de frecuencias:
xi 0 10 ni 20 20
yi 4.5 5 5.5
ni 3 34 3
1 2 2 05) 20+(105) 20 = 25, DtX = 5, ( 40 1 2 2 2 VY = ( 4.55) 3+( 55) 34+( 5.55) 3 = 0.0375, DtY = 0.19 40 VX =
Para ambas variables la media es 5, pero en el segundo caso 5 es un valor ms representativo de los datos que en el primero como se puede observar al calcular la varianza. 38
19
Statgraphics NO calcula la varianza ni la desviacin tpica para un conjunto de datos si no una variante de estas medidas que son, respectivamente, la cuasivarianza y la cuasidesviacin tpica. Ms adelante veremos el motivo de este hecho. De momento, las usaremos indistintamente
2 1 n 1 k 2 2 = = s x x xj x) nj ( ) ( i CUASIVARIANZA: n-1 i =1 n-1 j=1
CUASIDESVIACIN TPICA: s = s 2
39
DtX x
40
20
Ejemplo de cmo la varianza NO sirve para comparar la dispersin de dos conjuntos de datos cuando la media es diferente:
Se tienen datos del peso de varios lagartos (X) y del peso de una poblacin de tiburones (Y), en Kg. yi ni xi ni Para X: media = 0.473, V = 0.026, 400 3 0.4 3 CV = 0.34 403 4 0.45 4 Para Y: media = 404, V= 9.846, 405 4 0.5 6 CV = 0.0076 410 2 0.55 2 La varianza de Y es mayor que la de X pero est influenciado por la magnitud de los datos y por las unidades de medida. No podemos comparar la dispersin de los datos con la varianza 41 porque las medias son distintas.
i =1
( xi x )3
( D t X )3
1 n
i =1
( xi x )3 ni ( D t X )3
Si al calcular este valor con nuestros datos sucede que: CAF > 0, la distribucin es asimtrica a la derecha. CAF = 0, la distribucin es simtrica. CAF < 0, la distribucin es asimtrica a la izquierda.
CAF=0, Simtrica
42
21
Con los datos: 2,2,3,3,4,4,4,5,6,6,6,7,7,8,8 (la media era 5), calculamos el coeficiente de asimetra de Fisher. El numerador es:
frecuencia
2 1,5 1 0,5 0 2 3 4 5 6 7 8
43
EJEMPLO
Vamos a realizar un estudio descriptivo de la variable PIBpc del archivo Mundo_2001.sf3 que representa la renta per cpita de 158 paises del mundo en dlares en el ao 2001. Los valores de las principales medidas son:
Count = 158 Average = 7802,85 Median = 4200,0 Mode = Variance = 7,35481E7 Standard deviation = 8576,02 Minimum = 500,0 Maximum = 36300,0 Range = 35800,0 Lower quartile = 1700,0 Upper quartile = 9400,0 Interquartile range = 7700,0 Skewness = 1,43409 Coeff. of variation = 109,909%
44
22
Son 158 datos de una variable cuantitativa. Para realizar la tabla de frecuencias hay que agrupar en intervalos. La tabla de frecuencias que se obtiene con Statgraphics:
Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below -2000,0 0 0,0000 0 0,0000 1 -2000,0 3555,56 777,778 71 0,4494 71 0,4494 2 3555,56 9111,11 6333,33 46 0,2911 117 0,7405 3 9111,11 14666,7 11888,9 11 0,0696 128 0,8101 4 14666,7 20222,2 17444,4 9 0,0570 137 0,8671 5 20222,2 25777,8 23000,0 9 0,0570 146 0,9241 6 25777,8 31333,3 28555,6 11 0,0696 157 0,9937 7 31333,3 36888,9 34111,1 1 0,0063 158 1,0000 8 36888,9 42444,4 39666,7 0 0,0000 158 1,0000 9 42444,4 48000,0 45222,2 0 0,0000 158 1,0000 above 48000,0 0 0,0000 158 1,0000 -------------------------------------------------------------------------------45
frequency
60 40 20 0 -2 8 18 28 38 48
PIBpc Histogram
60
58 (X 1000)
percentage
50 40 30 20 10 0 0 1 2 3 4 5 (X 10000)
PIBpc
El primero es el que da por defecto Statgraphics. En el segundo se han ajustado el mnimo, mximo y nmero de intervalos. 46
23
El box-plot indica que los pases ricos son considerados como atpicos (diferentes del resto) (PIBpc superior a 20000 dlares):
Box-and-Whisker Plot
PIBpc
4 (X 10000)
47
24