Documente Academic
Documente Profesional
Documente Cultură
Probabilidad y Estadstica
Estadstica Descriptiva
UNIDAD 2: ESTADSTICA DESCRIPTIVA 2.1 Definicin y Elementos La estadstica descriptiva son los procedimientos empleados para organizar, describir y presentar los datos en una forma cmoda, til y que se pueda comunicar para su anlisis. Estableciendo los estadsticos que estimen los parmetros que definen una poblacin. 2.2 Distribucin de frecuencias Es una ordenacin o arreglo de datos en clases o categoras que muestran, para cada una de ellas, el nmero de elementos que contiene o frecuencia. 2.2.1. Frecuencias y Clases Frecuencia: Es el nmero de veces que se repite un dato en un conjunto de datos, o en un intervalo determinado. Existen varios tipos de frecuencias, estas son: Frecuencia absoluta Frecuencia absoluta acumulada Frecuencia relativa Frecuencia relativa acumulada Clase: La clase es un intervalo dentro del cual se encuentra un conjunto de datos. Sus valores extremos se llaman Lmites de Clase. El nmero de clases se denota por la letra k. 2.2.2 Distribucin de datos No agrupados Distribucin de Frecuencias de una Variable Cualitativa (Atributo). Poblacin de Costa Rica de ms de 14 aos segn su estado civil, 1995 Estado Civil Soltero Casado Viudo Divorciado Unin Libre Poblacin (miles) 750 1800 150 500 525
11
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Distribucin de Frecuencias de una Variable Cuantitativa (Discreta). Nmero de hijos por familia de Barrio Ass de Cartago, 1999 # de hijos 0 1 2 3 4 5 6 7 y mas Total # de familias 30 150 275 200 75 25 10 5 770
Para el anlisis de datos Discretos, se presenta el siguiente caso con datos del # de hermanos(as) de varios grupos del curso de Anlisis Estadstico en el ao 2008 en ITCR. Cuadro 2.1 Datos del # de hermanos (as) de Varios grupos de Anlisis Estadstico en el 2009: 3 4 1 2 2 3 2 1 4 1 1 5 1 2 1 4 4 3 4 1 0 3 1 1 2 1 5 0 0 4 2 1 2 3 2 2 5 2 2 4 3 1 0 2 1 2 2 3 2 2 2 2 3 1 1 2 2 2 4 6 1 0 3 3 5 3 11 3 2 1 3 1 3 2 2 5 2 2 7 2
Informacin como esta se puede clasificarla en Clases (k), para variables discretas como en el siguiente ejemplo:
12
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Cuadro 2.2 Distribucin del # de hermanos (as) de un grupo de Anlisis Estadstico, 2008: Clase 0 1 2 3 4 5 6 Frecuencia Absoluta 4 6 9 1 2 4 1 Frec. Absoluta Acumulada Mas 4 10 19 20 22 26 27 Frecuencia Relativa 0.148 0.222 0.333 0.037 0.074 0.148 0.037 Frec. Relativa Acumulada Mas 0.148 0.370 0.703 0.740 0.814 0.962 1.000
2.2.3 Distribucin de datos Agrupados Distribucin de Frecuencias de una Variable Cuantitativa (Continua). Extensin en hectreas de las fincas de la provincia de Cartago Extensin 0 - 99,9 100 - 199,99 200 - 299,99 300 - 399,99 400 - 499,99 500 - 599,99 600 - 999,99 1000 y mas Total # de fincas 2750 1500 750 550 350 250 125 50 6325
13
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Extension
Procedimiento para disear las Clases k de una distribucin de frecuencias de una Variable Continua. 1. Recolecte los datos(n). 49 43 46 45 42 35 51 51 60 59 52 36 53 74 67 46 46 40 55 50 53 43 40 32 37 62 41 51 68 47 70 57 54 47 66 48 56 60 49 43
3. Calcule el rango, restando al dato mayor, el dato menor. R = (Xi max Xi min) R = (74 32) = 42 4. Calcule el numero de clases k = 1 + 3,3 Log(n), donde n es el tamao de la muestra, es conveniente que est entre 5 y 20 clases. k = 1 + 3,3 Log(40) k = 6,29 redondeado al entero mayor inmediato k = 7
14
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
5. Calcule el intervalo de clase i = R/k El valor de i debe ser redondeado (ir) siempre hacia arriba y a la misma cantidad de decimales que tienen los datos. i = 42/7 i=6
ir = 7
6. Calcular el rango propuesto Rp = ir * k
Rp = 7 * 7 = 49
7. Calcular la diferencia d = Rp R. Este valor debe tener en su ltima cifra un nmero impar, si no es as se debe probar con otro numero de clase k d = 49 42 d=7 8. Calcular la mitad de la diferencia md = d/2 md = 7/2 md = 3,5 9. Fijar los lmites reales de clase (Li, Ls) tomando el valor menor Xi min y restarle la diferencia media, esto es el lmite inferior Li. Li1 = Xi min - md Li1 = 32 3,5 Li1 = 28,5 A este se le suma el intervalo i para obtener el lmite superior Ls, Ls1 = Li1 + i Ls1 = 28,5 + 7 Ls1 = 35,5 Y as hasta completar el total de las k clases. Li2= Ls1 y Ls2 = Li2 + i 10. Cuadro de frecuencias para datos agrupados:
15
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Cuadro de frecuencias para datos agrupados Clases k 1 2 3 4 5 6 7 Li 28,5 35,5 42,5 49,5 56,5 63,5 70,5 Limites Ls 35,5 42,5 49,5 56,5 63,5 70,5 77,5 P. Medio Xm 32 39 46 53 60 67 74 Frec. Simple Absoluta 2 6 12 10 5 4 1 40 Relativa 0,050 0,150 0,300 0,250 0,125 0,100 0,025 1,000 Frec. Acumulada Absoluta 2 8 20 30 35 39 40 Relativa 0,050 0,200 0,500 0,750 0,875 0,975 1,000
Caso I: Se toman doce grupos de cinco unidades de una maquina llenadora de latas de pasta de tomate y se pesan, originando los datos que se presentan en el cuadro siguiente:
Caracterstica : Peso
7 8 9 10 11 12
16
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Cuadro de frecuencias para datos agrupados Clases Li Ls P. Medio Xm Frec. Simple Absoluta Relativa Frec. Acumulada Absoluta Relativa
Caso II: Construir una distribucin de frecuencias de datos agrupados en Minitab: Ejemplo: Los siguientes datos se refieren a los pesos en kilogramos de 40 estudiantes de un colegio, y se presentan en el orden en que fueron pesados los alumnos: 49 43 46 45 42 35 51 41 60 59 52 36 53 74 67 46 46 40 55 50 53 43 40 32 37 62 41 51 68 47 70 57 54 47 66 48 56 60 49 43
A continuacin se resuelve mediante el Programa Minitab; primero se ingresan los 40 datos en una sola Columna C1 y se le puede poner un nombre a esta PESO (kg):
17
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
18
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
De esta forma aparece la siguiente pantalla en la que hay que seleccionar la Variables en nuestro caso PESO(Kg)
Se puede hacer Clic al Botn Statistics y selecconar las estadsticas que requieran.
Se puede tambin hacer Clic al botn Graphs y seleccionar el grafico que se requiera
19
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Al finalizar la pantalla se muestra el siguiente reporte: Minitab Project Report Descriptive Statistics: Peso (Kg) Total Peso (Kg) 40 50,35 10,13 32,00 49,00 N for Mode Mode 3 74,00 43. 46
Y el siguiente Grafico:
Histogram (with Normal Curve) of Peso (Kg)
10
Mean StDev N 50,35 10,13 40
Frequency
36
48 Peso (Kg)
60
72
20
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
En el cual se muestra a los 40 estudiantes con una distribucin normal, con una Media de 50.35 kilogramos y una desviacin estndar de 10.13 kilogramos. Para modificar las Clases haga doble Click sobre el grafico, en la ventana Edit Bars ingrese a la pestaa Binning y modifique la cantidad de Clases en la opcin Number of intervals, como se muestra a continuacin.
2.2.4 Grficos de Frecuencias Histograma: Un histograma es un grafico de barras verticales continuas, en donde se representan los limites reales de clase en el eje x y la frecuencia absoluta o relativa en el eje y. La escala del eje x debe graduarse de tal manera que todas las barras sean de igual tamao, mientras que la escala del eje y, debe graduarse con base en la frecuencia relativa o absoluta ms grande.
Histograma
Frecuencia Absoluta 15 10 5 0 0 28,5 35,5 42,5 49,5 56,5 63,5 70,5 77,5 2 6 12 10 5 4 1 Absoluta
21
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Poligono
Poligono
12 12
Frecuencia Absoluta
10 6 2 0
4 1
Absoluta
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 1 2 3 4 5 6 Frec. Relativa Acumulada Mas Frec. Relativa Acumulada Menos
22
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Grafico Pareto
30 25 20 15 10 5 0 0 1 2 Series1 3 4 Series2 5 6
Diagrama de Puntos Datos: Emision Emision en Altitud en Altitud Baja Alta 1,5 7,59 1,48 2,06 2,98 8,86 1,4 8,67 3,12 5,61 0,25 6,28 6,75 4,04 5,3 4,4 9,3 9,52 6,96 1,5 7,21
23
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
-0,0
1,4
2,8
4,2 Data
5,6
7,0
8,4
9,8
Caja
Boxplot of Emision en Altitud Baja. Emision en Altitud Alta
10
Data
4 2 0 Emision en Altitud Baja Emision en Altitud Alta
24
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Stem-and-leaf of Duracion N = 36 Leaf Unit = 1,0 N* = 2 1 3 6 12 12 14 18 18 12 4 4 4 5 5 6 6 7 7 8 8 2 59 011 556678 89 0123 556666 00012244 5666
2.3 Anlisis de Datos En el anlisis e interpretacin de los datos estadsticos correspondientes a variables continuas y discretas, resulta muy valioso disponer de Elementos descriptivos que den informacin acerca de tres aspectos: 1. La FORMA o patrn de distribucin de los datos (Distribucin de frecuencias). 2. La POSICION de la distribucin, o sea, alrededor de que valor se tienden a concentrar los datos (Valores centrales) 3. La DISPERSION de los datos alrededor de los valores centrales o promedios (Variabilidad)
25
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
2.3.1 Medidas de tendencia central en datos Sin Agrupar Las medidas de tendencia central o de posicin en un conjunto de datos le proporcionan al analista alguna medida cuantitativa de dnde est el centro de los datos de una muestra. Veamos algunas medidas de tendencia central: a. Moda Es el valor que ms se repite;
Ejemplo: 14, 15, 17, 17, 21, 21, 21, 21, 33, 36, 40 b. Media Aritmtica Simple Influida por valores extremos
La Mo = 21
Ejemplo: [20, 20, 22, 20, 30, 25, 25, 18, 20, 18, 22, 36] entonces c. Media Aritmtica Ponderada
26
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
d. Mediana No influida por valores extremos, Si n es Impar entonces la mediana es el valor de Ejemplo: [6, 8, 8, 10, 12, 19, 23] entonces n= 4 La Me = 10 y del valor de
Ejemplo: [3, 4, 4, 5, 16, 19, 25, 30] y entonces n= 4 y 5, La Me= (5+16)/2 = 10,5
e. Otros Promedios (Quartiles, percentiles) Los Quartiles nos muestra cada cuarta parte y los percentiles cada porcentaje segn corresponda. 2.3.2 Medidas de variabilidad en datos Sin Agrupar Las medidas de posicin en una muestra no proporcionan un resumen apropiado de la naturaleza de un conjunto de datos. Por ejemplo el Ingreso Promedio Mensual de cada familia es 95000 pero es irreal sin su variabilidad. Por ello es importante el anlisis de la dispersin que nos indique cuan heterogneos son los datos, cuando es 0 el conjunto es homogneo; entre ms homogneos sean los datos ms fidelidad y confianza. Entre ms heterogneos sean los datos ms desconfianza, es decir entre mayor variabilidad menor confianza en la tendencia de medida central que representa los datos. GRADOS DE VARIABILIDAD: Se ha denominado al grado de variabilidad al dato tendencia central a concentrarse o dispersarse de una medida de tendencia central. B: {5,5,5,5,5} ---> (X = 5) , ( dispersin = 0) A: {2,3,5,7,8} ---> (X = 5) , ( dispersin = 2.5)
27
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
En otras palabras a menor variabilidad mayor confianza... veamos algunas medidas de dispersin,
Ej: sea A : {2,3,6,5,5,7}= => R = 7-2 = 5 Desventaja: No toma en cuenta todos las observaciones del conjunto de datos. El recorrido se puede ver afectado por el nmero de observaciones tanto que estas sean desiguales en magnitud y sobre todo si constituyen valores extremos. A partir de las medidas de recorrido que se tengan para varios conjuntos no es posible calcular la medida general de dispersin. AR=5 B R = 100 C R = 15
Ventaja: Se usa en casos Recorrido es facil de calcular en cuyo caso es ventajoso en el sentido de poco tiempo. Control de calidad en la utilizacin de muestras pequeas de igual tamao. b. Desviacin Media
c. Varianza y Covarianza
28
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
d. Desviacin estndar
e. Coeficiente de variacin
Cuando los datos son Pocos se ordenan por magnitud y se puede determinar la forma de la distribucin; con el valor mayor menos el valor menor se puede determinar la amplitud que muestra la variabilidad de los datos. Adems la existencia de concentraciones alrededor de algn valor, nos determinan la posicin. Sin embargo, cuando los datos son numerosos, resulta insuficiente lo anterior y para poder realizar anlisis o sacar conclusiones se agrupan los datos en Distribuciones de Frecuencias.
2.3.3 Medidas de tendencia central en datos Agrupados a. Moda En una Distribucin de Frecuencias la clase modal se encuentra en la clase que tenga la frecuencia mayor;
Li = Lmite inferior real de la clase modal d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior i = Intervalo de la clase modal
29
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Peso en Libras Li Ls 29,5 34,5 34,5 39,5 39,5 44,5 44,5 49,5 49,5 54,5 54,5 59,5 59,5 64,5 64,5 69,5 69,5 74,5 TOTAL
N. de Alumnos fi 1 3 8 9 7 4 3 3 2 40
b. Media
Xm= Punto Medio de la clase fi = Frecuencia absoluta de cada clase n = Nmero total de observaciones o suma de las frecuencias absolutas Puntos Medios xi 32 37 42 47 52 57 62 67 72 N. de Alumnos fi 1 3 8 9 7 4 3 3 2 40
Peso en Libras Li Ls 29,5 34,5 34,5 39,5 39,5 44,5 44,5 49,5 49,5 54,5 54,5 59,5 59,5 64,5 64,5 69,5 69,5 74,5 TOTAL
30
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
c. Mediana En una Distribucin de Frecuencias la clase mediana se encuentra en la clase que contenga el 50% de frecuencia Acumulada;
Li = Lmite inferior real de la clase donde est la mediana n = Nmero total de observaciones o suma de las frecuencias absolutas Fa = Frecuencia absoluta Menos de de la clase anterior a la clase donde est la mediana fi = Frecuencia absoluta de la clase donde est la mediana i = Intervalo de la clase modal N. de Frecuencia Frecuencia Alumnos Acumulada Acumulada fi Fa Fr 1 1 0,025 3 4 0,100 8 120 0,300 9 21 0,525 7 28 0,700 4 32 0,800 3 35 0,875 3 38 0,950 2 40 1,000 40
Peso en Libras Li Ls 29,5 34,5 34,5 39,5 39,5 44,5 44,5 49,5 49,5 54,5 54,5 59,5 59,5 64,5 64,5 69,5 69,5 74,5 TOTAL
Una Mediana de 48,94 significa que no ms del 50% de los estudiantes pesan igual o ms del 48,94 y no menos del 50% de los estudiantes pesan igual o menos de 48,94 d. Percentil (m)
31
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
m Li n Fa
Porcentaje deseado Lmite inferior real de la clase donde est el percentil Nmero total de observaciones o suma de las frecuencias absolutas Frecuencia absoluta Menos de de la clase anterior a la clase donde est el percentil fi = Frecuencia absoluta de la clase donde est el percentil i = Intervalo de la clase modal
= = = =
2.3.4 Medidas de variabilidad en datos Agrupados a. Rango En una Distribucin de Frecuencias se calcula restando el lmite superior de la ltima clase al lmite inferior de la primera clase;
b. Varianza y Covarianza
Peso en Libras Li Ls 29,5 34,5 34,5 39,5 39,5 44,5 44,5 49,5 49,5 54,5 54,5 59,5 59,5 64,5 64,5 69,5 69,5 74,5 TOTAL
Puntos Medios xi 32 37 42 47 52 57 62 67 72
xi2 * fi 1024 4107 14112 19881 18928 12996 11532 13467 10368 106415
32
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
c. Desviacin estndar
d. Coeficiente de variacin
Ejemplo 1:
Ejemplo
Peso en Libras Li - Ls 29,5 - 34,5 34,5 - 39,5 39,5 - 44,5 44,5 - 49,5 49,5 - 54,5 54,5 - 59,5 59,5 - 64,5 64,5 - 69,5 69,5 - 74,5 TOTAL Puntos Medios xi 32 37 42 47 52 57 62 67 72 N. de Alumnos fi 1 3 8 9 7 4 3 3 2 40 Frecuencia Acumulada Fi 1 4 12 21 28 32 35 38 40 X 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5 74,5 79,5 fi 0 1 3 8 9 7 4 3 3 2 0 MENOS DE MAS DE Mo Me X 0 40 46.17 48,94 50,62 1 40 4 39 12 36 21 28 28 19 32 12 35 8 38 5 40 2 40 0
xi * fi 1024 4107 14112 19881 18928 12996 11532 13467 10368 106415
POLIGONO
10
OJIVAS
frecuencia
8 fi
45
Frecuencia Acumulada
6 4 2 0
29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5 74,5 79,5
40 35 30 25 20 15 10 5 0 MENOS DE MAS DE
Peso
29,5
34,5
39,5
44,5
49,5
54,5
59,5
64,5
69,5
74,5
Peso
33
elemaitre
79,5
Probabilidad y Estadstica
Estadstica Descriptiva
Ejemplo 2:
OJIVAS DE FRE CUENCIA 70 60 50 40 30 6 20 10 0 0 2 4 6 8 VALORES DE X 10 12 14 16 20 18 16 14
Poligono de Frecuencias
Menor Que
12 10 8
Mayor Que
4 2 0 0 2 4 6 8 10 12 14 16 18 Valores de X
K 1 2 3 4 5 6 7
Xk 1,9 3,7 5,5 7,3 9,1 10,9 12,7 14,5 16,3 63,7
nk 0 2 5 11 18 14 7 6 0 63
Nk 2 7 18 36 50 57 63
n-Nk 63 61 56 45 27 13 6
Ejemplo 3:
OJIVAS DE FRE CUENCIA 7 6 1,0000 0,9000 0,8000 0,7000 0,6000 0,5000 0,4000 0,3000 0,2000 0,1000 0,0000
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
Poligono de Frecuencias
Menor Que
Mayor Que
K 1 2 3 4 5 6 7
nk 0 1 2 3 5 6 2 1 0 20
Nk 1 3 6 11 17 19 20
n-Nk 20 19 17 14 9 3 1
XK * nK XK2 * nK 14,5 49 103,5 222,5 327 139 89,5 0 945,00 210,25 1200,5 3570,75 9901,25 17821,5 9660,5 8010,25 50375
34
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
TAREA 1 Los siguientes datos se refieren a las mediciones sobre el peso de un artculo de una lnea de produccin y se presentan en el orden en que fueron pesados: 85 109 114 121 127 131 92 109 114 121 127 132 96 110 114 122 127 133 97 110 115 122 127 134 97 111 116 122 128 134 97 111 116 122 128 134 100 111 116 122 128 134 101 111 117 123 128 135 101 111 117 123 128 136 102 112 118 123 128 137 102 112 118 123 130 137 103 112 119 123 130 137 103 113 119 124 130 144 105 113 120 124 130 148 106 113 120 124 130 149 106 113 120 125 130 107 113 120 125 131 108 113 121 125 131 108 114 121 126 131 Hacer un anlisis de datos que contemple lo siguiente: (40pts) a) Calcular la Media, Mediana, Moda, Desviacin Estndar, el Coeficiente de Variacin y la Varianza en datos sin Agrupar. b) Hacer la Distribucin de frecuencia para datos agrupados c) Hacer el Histograma d) Calcular la Media, Mediana, Moda, Desviacin Estndar, el Coeficiente de Variacin y la Varianza en datos Agrupados. 2. Hacer b, c y d en MiniTab (40pts) El Histograma debe ser de 8 clases 3. Hacer tres conclusiones de anlisis estadstico, sobre el conjunto de datos resuelto en el punto 1 o 2. (20pts)
35
elemaitre
Probabilidad y Estadstica
Estadstica Descriptiva
Resumen de Formulas de Datos Sin Agrupar Medidas de tendencia central Moda Media Aritmtica Simple Media Aritmtica Ponderada Mediana Medidas de variabilidad Rango Desviacin Media Varianza y Covarianza Desviacin estndar Coeficiente de variacin Resumen de Formulas de Datos Agrupados Medidas de tendencia central Moda Media Mediana Impar Par y
Percentil
Coeficiente de variacin
36
elemaitre