Sunteți pe pagina 1din 41

ESTADSTICA

DESCRIPTIVA

QU ES LA ESTADSTICA?, QU HACE?
Estadstica, por una parte significa series de valores numricos; por ejemplo, los sueldos de los empleados de la empresa, notas de selectividad de los alumnos que entran a la universidad. Por otro lado, la estadstica, es la rama de las matemticas que organiza, analiza e interpreta una gran cantidad de datos.

Los mtodos estadsticos se aplican a cualquier rea del comportamiento humano, donde los datos numricos son el resultado de un proceso de toma de decisin
Para esto usa representaciones de los datos

Grficos
Indicadores numricos que permiten resumir la informacin

TABLAS DE FRECUENCIA

Una de las primeras cosas que normalmente se hace con una serie grande de datos numricos es formar algn tipo de tabla de frecuencias, donde la tabla muestra el nmero de veces que ocurre un suceso individual o el nmero de sucesos que entran en un intervalo dado. Estas distribuciones de frecuencias se pueden representar utilizando unas grficas denominadas histogramas

Ejemplo Un edificio tiene 45 apartamentos con el siguiente nmero de inquilinos: 2 1 3 5 2 2 2 1 4 2 6 2 4 3 1

2
3

4
1

3
5

1
2

4
4

4
1

2
3

4
2

4
4

2
4

2
2

3
5

1
1

4 2
3 4

para formar una tabla de frecuencias, se observa que los nicos nmeros que aparecen en la serie son 1, 2, 3, 4, 5 y 6, por lo que la primer columna se indican los nmeros que aparecen y en una segunda columna la frecuencia de cada nmero

Nmero de personas 1 2 3 4

Frecuencia 8 14 7 12

Observe que la suma de frecuencias es la totalidad de datos

5
6

3
1

La distribucin de frecuencias de la tabla anterior se puede representar grficamente por un histograma


Frecuencia

HISTOGRAMA
16 14 12

Un histograma es simplemente un diagrama de barras donde la altura de cada barra indica el nmero de veces que el nmero dado aparece en la serie

10 8 6 4 2 0 1 2 3 4 5 6

No. de inquilinos

Otra manera de representar los datos con sus respectiva frecuencia es por medio del polgono de frecuencia, en el que se grafica los datos de frecuencia contra el nmero personas en cada vivienda, y despus se unen los puntos, esto es:

POLGONO DE FRECUENCIAS
16 14 12 10 8 6 4 2 0 1 2 3 4 5 6

Frecuencia

No. de inquilinos

Y otra de las formas principales de representar los datos es de manera circular

CIRCULAR

1
6

2 3

Actividad
Los siguientes veinte datos representan las edades de un grupo de trabajadores del hospital CIUDAD SALUD

33

35

33

34

34

37

36

35

32

34

32

35

35

36

34

33

35

34

35

35

a) Construir la distribucin de frecuencia y de frecuencia acumulada b) Representar los datos en un histograma c) Representar los datos en un polgono de frecuencia y circular

De Tendencia Central

Son aquellas que describen el centro o el punto medio de un conjunto de datos

MEDIDAS DE LOS DATOS

De Dispersin

Son aquellas que describen la extensin de un conjunto de datos

Medidas de tendencia central: Se les llama medidas de tendencia central a la media aritmtica, la mediana, la media geomtrica, la moda, etc. debido a que al observar la distribucin de los datos, estas tienden a estar localizadas generalmente en su parte central. A continuacin definiremos algunas medidas de tendencia central y la forma de calcular su valor. Media aritmtica ( ). Tambin se le conoce como promedio ya que es el promedio de las lecturas o mediciones individuales que se tienen en la muestra, se determina con la frmula siguiente: n

x i 1 n
donde: = media aritmtica x
_

x i = dato i n = nmero de datos en la muestra

Ejemplos: 1.Se han tomado como muestra las medidas de seis cables usados en un arns para lavadora, las cuales son; 15.2 cm, 15.0, 15.1, 15.2, 15.1 y 15.0, determine su media aritmtica. Solucin:

15.2 15.0 15.1 15.2 15.1 15.0 x 15.1cm 6

Se toman varias muestras de cierto tipo de queso y se determina la cantidad de protena por cada 100 gramos de queso, encontrndose lo siguiente: 26.5 gramos, 24.8, 25.3, 30.5, 21.4, determine la cantidad promedio de protena encontrada en la muestra por cada 100 gramos de queso que se elabora. Solucin

26.5 24.8 25.3 30.5 21.4 25.7 grs 5

1.Se hacen varias lecturas de una muestra que contiene cobre, las lecturas se hacen en un espectrofotmetro de absorcin atmica y son la siguientes: 12.3%, 12.28, 12.27, 12.3, 12.24, 15.01, determine la concentracin promedio de Cu en la muestra. Solucin:
_

12.3 12.28 12.27 12.3 12.24 15.01 76.4 x 12.73% Cu 6 6

Si observamos las lecturas del espectrofotmetro nos damos cuenta que el valor de 15.01% es un valor diferente al de las lecturas anteriores, por lo que se descarta el valor ya que se considera un valor atpico, es decir un valor que es debido a circunstancias especiales, en este caso puede ser que se deba al hecho de que se est descalibrando el aparato de absorcin atmica o simplemente que se ha equivocado el operador del aparato al tomar la lectura, por lo que la media se debe calcular con las primeras cinco lecturas; como se muestra a continuacin:

12.3 12.28 12.27 12.3 12.24 61.39 x 12.278% Cu 5 5


_

y esta sera la media correcta

Suponiendo que los datos se organizan en una tabla de frecuencias; siendo k la cantidad de los distintos valores x1, x2, x3,.xk, que suceden con sus frecuencias f1, f2, f3,.fk respectivas. As, el producto f1 x1 nos da la suma de las x1, el producto f2 x2 nos da la suma de las x2, y as sucesivamente De igual forma, se tiene que:

f1 + f2 + f3 + f4 +.fk = n

que es el nmero total de datos A partir de lo anterior la frmula 1 se puede expresar tambin as

i 1 k

f f

xi
2
i

i 1

Determinar la cantidad promedio de personas por apartamento del primer ejemplo Nmero de Frecuencia personas Solucin Los datos son

1
2 3 4

8
14 7 12

5 que sustituyendo se tiene 6

3 1

i 1 k

f f

xi
i

i 1

8 * 1 14 * 2 7 * 3 12 * 4 3 * 5 1 * 6 8 14 7 12 3 1

126 2.8 45

Esto indica que hay un promedio de 2.8 personas viviendo en cada apartamento

Media aritmtica ponderada ( x w ): Esta media se usa cuando el peso que tiene cada uno de los datos de la muestra es diferente, se calcula de la siguiente manera:
k

xw

i1 k

wi xi
3

i1

wi

donde:

x w = media ponderada x i = dato i w i = peso del dato i

En cierta investigacin en Servicios Escolares del Instituto Tecnolgico de Tapachula se encontraron las materias que Blas Francisco Rojas Gonzlez llev en el primer semestre de Ingeniera Industrial, el nmero de crditos y la calificacin obtenida; MATERIA
Metodologa de la investigacin

NMERO CREDITOS
8

CALIFICACIN
90.5

Matemticas I
Programacin Qumica Dibujo Economa

10
8 10 4 8

100.0
81.0 78.0 100.0 84.0

Determine la calificacin promedio que obtuvo Blas en su primer semestre S comparamos este promedio con el que se obtiene usando simplemente la media aritmtica, que es un 88.91, nos damos cuenta de que este ltimo es mayor, por no tomar en cuenta el peso o nmero de crditos que aporta cada materia a la carrera que se estudia, el promedio de esta persona es menor al de la media aritmtica debido a que obtiene una calificacin baja en Qumica que es una de las materias que aporta ms crditos

~
Mediana ( ). La mediana es aquel valor que se encuentra en la parte central de los datos que se tienen en la muestra una vez que estos han sido ordenados segn su valor o magnitud. Para calcular la mediana se presentan dos casos: a) Cuando el nmero de datos en la muestra es impar.- En este caso despus de ordenar los datos de la muestra en cuanto a su magnitud, es decir de mayor a menor valor o de menor a mayor valor, se procede a localizar aquel dato que se encuentra justo en el centro de los datos o en la parte central de los mismos, el valor de este dato ser el que d valor a la mediana. b) Cuando el nmero de datos en la muestra es par.- En este caso despus de ordenar los datos en cuanto a su magnitud, observamos que en la parte central de los datos no se encuentra dato alguno, en este caso, la mediana tomar el valor del promedio de dos datos; el que se encuentra antes de la parte central y el que se encuentra despus de la parte central. Es imprescindible para calcular el valor de la mediana el que primero se ordenen los datos en cuanto a su magnitud, ya que de no hacerlo, se incurrira en un grave error.

Los siguientes datos son las mediciones obtenidas de un circuito utilizado en un arns de lavadora; se toman como muestra siete circuitos y sus mediciones son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5 cm.. Determinar la mediana de estos datos Solucin:

Ordenando los datos de menor a mayor valor;


11.2, 11.2, 11.2, 11.3 11.3, 11.4, 11.5, 11.5

Se observa que el dato 11.3 es el que queda en la parte central, por lo que este es el que dar valor a la mediana
Finalmente

x = 11.3 cm.

Ejemplo:
Los siguientes datos son las mediciones obtenidas de un circuito utilizado en un arns de lavadora; se toman como muestra seis circuitos y sus mediciones son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4 cm.. Determinar la mediana de estos datos Solucin: Ordenando los datos de menor a mayor valor; 11.2, 11.2, 11.2, 11.3, 11.4, 11.5 Se observa que en la parte central de los datos no hay dato alguno por lo que la mediana se determina con el promedio de los datos centrales,

Finalmente

~
Xmed =

11.3 11.2 11.25cm 2

Moda ( ): La moda se define como aquel valor o valores que ms se repiten o que tienen mayor frecuencia entre los datos que se han obtenido en una muestra, la muestra de una poblacin nos genera la distribucin de los datos una vez que estos se han graficado y en esta grfica es posible observar la moda o modas de la misma, es por esto que una distribucin de datos puede ser amodal (carece de moda), unimodal (tiene una sola moda), bimodal (tiene dos modas) o polimodal (tiene ms de dos modas). Ejemplos:

Determine la moda de los datos que se muestran a continuacin, se refieren a la estatura de un grupo de jvenes; 1.60m, 1.65, 1.70, 1.71, 1.70, 1.70, 1.70, 1.71, 1.70, 1.93, 1.87, 1.85 Solucin:
Estatura Frecuencia

1.60
1.65 1.70 1.71 1.85 1.87 1.93

1
1 5 2 1 1 1

La tabla muestra la distribucin de frecuencias de los datos o el nmero de veces que estos se repiten, la mayor frecuencia que es 5 corresponde a una estatura de 1.70 m, por lo que esta sera la moda.
finalmente

= 1.70 m

PROBLEMA * Determine la moda de los siguientes datos que se refieren a la edad de alumnos de primer semestre del tecnolgico de Chihuahua, 18 aos, 17, 19, 21, 19, 18, 22, 22, 18, 18, 17, 19, 19, 19, 18, 20, 21, 20, 18, 18, 19, 18,19, 22, 35

El resultado indica que se trata de una distribucin de datos bimodal

* De enlistarse los nombres de los presidentes de la Repblica, en los diferentes sexenios, desde el Gral. Lzaro Crdenas, quin de ellos representa la moda?

Media geomtrica ( G ): Es la raz en ensima del producto de los valores de


los n elementos de la muestra, es usada cuando los valores de los datos de la muestra no son lineales, es decir que su valor depende de varios factores a la vez, se determina de la siguiente forma:

x1 * x2 * ...* xn

donde:

G = media ponderada x i = dato i n = nmero de datos en la muestra

* Las siguientes temperaturas han sido tomadas de un proceso para fabricar queso chihuahua, 21.4 o C, 23.1, 20.2, 19.7, 21.0, determine la temperatura promedio de este proceso Solucin:

G=

21 .4 x 23 .1x 20 .2 x19 .7 x 21 .0 5 4131070 .852

= 21. 048 oC

* Las siguientes temperaturas han sido tomadas de un proceso qumico, 13.4 o C, 12.8, 11.9, 13.6, determine la temperatura promedio de este proceso.

Media armnica ( H ): La media armnica se define como el recproco del


promedio de los recprocos de cada uno de los datos que se tienen en la muestra, y se determina de la siguiente manera:

1 1 / n 1 / xi
i 1 n

1 / xi
i 1

EJEMPLO

Determine la media armnica de los siguientes datos, 3.1, 2.8, 2.84, 3.05, 3.09

5 H 1 / 3.1 1 / 2.8 1 / 2.84 1 / 3.05 1 / 3.09


5 5 2.9703 0.3226 0.3571 0.3521 0.3279 0.3236 1.6833

Medidas de Dispersin: Cuando se tiene una muestra de datos obtenida de una poblacin cualquiera, es importante determinar sus medidas de tendencia central as como tambin es bsico el determinar que tan dispersos estn los datos en la muestra, por lo que se hace necesario determinar el rango, la varianza, la desviacin estndar, etc., ya que una excesiva variabilidad o dispersin en los datos indica la inestabilidad del proceso en anlisis en la mayora de los casos. Rango o recorrido: El rango es la diferencia entre el valor mayor y el valor menor encontrados en la muestra, tambin se le denomina recorrido ya que nos dice entre que valores hace su recorrido la variable de inters; y se determina de la siguiente manera:

R = VM Vm
Donde:

R = rango o recorrido VM = valor mayor en la muestra Vm = valor menor en la muestra

Ejemplo
* Se han tomado como muestras las mediciones de la resistencia a la tensin de la soldadura usada para unir dos cables, estas son: 78.5kg, 82.4, 87.3, 78.0, 90.0, 86.5, 77.9, 92.4, 75.9, determine el rango o recorrido.

Solucin:
VM = 92.4 kg Vm = 75.9 kg

R = VM Vm = 92.4 75.9 = 16.5 kg

* Se toman las mediciones de la cantidad de grasa de la leche en gramos por cada 100 ml de leche que entra a un proceso de pasteurizacin, a continuacin se enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61, 16.33, determine el rango o recorrido de la cantidad de grasa de la leche. Solucin: VM = 17.61 kg Vm = 12.76 kg

R = VM Vm = 17.1 12.76 = 4.85 gr

_
Desviacin absoluta media ( ): Esta medida de dispersin nos representa la diferencia absoluta promedio que existe entre cada dato que se encuentra en la muestra y la media de los datos y se determina de la siguiente manera:
n

d
Donde:

xi x
i 1

x = dato i _i = media aritmtica de la muestra

n = nmero de datos en la muestra

Ejemplo: Determine la desviacin absoluta media de los siguientes datos que son las concentraciones de plomo de algunas muestras, las que a continuacin se enumeran: 18gr, 12, 21, 19, 16, 20, 22

Solucin
Para determinar la desviacin absoluta media o promedio, lo primero que hay que hacer es calcular la media aritmtica de los datos de la muestra, la que es 128/7 =18.286, luego se procede a calcular el promedio de las diferencias absolutas entre cada dato y la media calculada.
_

d
d
_

18 18.286 12 18.286 ..... 20 18.286 22 18.286 7

0.286 6.286 2.714 0.714 2.286 1.714 3.714 17.714 2.5305 gr 7 7

La interpretacin de este resultado sera que el grado de alejamiento absoluto promedio de los datos con respecto a su media es de 2.5305 gramos

Actividad.
La siguiente serie de datos representa la edad de diez personas tomadas al azar en la puerta de un supermercado en Tapachula:

38

35

29

38

35

40

36

33

34

31

Determinar de estos datos los siguientes parmetros a) Media aritmtica

b) Mediana
c) Moda d) Media geomtrica e) Media armnica f) Rango g) Desviacin absoluta media

Varianza ( s2 ): Esta medida de dispersin nos representa el promedio de las diferencias elevadas al cuadrado entre cada dato que se encuentra en la muestra y la media aritmtica de los datos y se determina de la siguiente manera:
n

s2

x
i 1

n 1

Donde: x = dato i _ i = media aritmtica de la muestra

n = nmero de datos en la muestra

Desviacin estndar ( s ): Es la desviacin o diferencia promedio que existe entre cada dato de la muestra y la media aritmtica de la muestra, y se determina de la siguiente manera:
n

s2

x
i 1

n 1

Actividad
Los siguientes datos es la cantidad de glucosa en miligramos encontrada en muestras de sangre de algunos pacientes: 14.2, 12.1, 15.6, 18.1, 14.3. Determine su varianza y desviacin estndar

Coeficiente de variacin de Pearson ( C. V. ): Es la relacin geomtrica que existe entre la desviacin estndar y la media aritmtica de la muestra. Esto es:

C. V.

s x

Actividad
Los siguientes datos es la cantidad de glucosa en miligramos encontrada en muestras de sangre de algunos pacientes: 14.2, 12.1, 15.6, 18.1, 14.3. Determine su varianza, desviacin estndar y coeficiente de variacin.

TRATAMIENTO PARA DATOS AGRUPADOS


Cuando se dispone de un gran nmero de datos, es til distribuirlos en clases o categoras con el fin de simplificar su presentacin. Estas nos ayudan a tener una idea rpida del tipo de datos y su comportamiento. Una vez que los datos se han agrupado en clases, se llama frecuencia de clase al nmero de datos que pertenecen a cada categora.

Estatura (cm) (clases)

No. de personas (Frecuencia)

150 - 154 155 - 159

2 8 12 15 10 8 5

Ejemplo: La siguiente tabla corresponde a las estaturas de un conjunto de 60 personas

160 - 164 165 - 169 170- 174 175 - 179 180 - 184

Intervalos de clase: Un smbolo que define una clase tal como 155 159 se conoce como intervalo de clase. Los nmeros extremos 155 y 159 se llaman lmites de clases Lmites reales de clases: El intervalo de clase 155 159, tericamente abarca desde 154.5 hasta 159.5 centmetros. Estos nmeros son llamados lmites reales de clase y a veces se usan para representar a la clase Tamao o ancho de un intervalo de clase: Es la diferencia entre los lmites reales de clase y se denota por c. As en el intervalo mencionado c = 159.5 - 154.5 = 5 cm Marcas de clase: Es el punto medio de un intervalo de clase; as en el intervalo mencionado, la marca de clase es (155 + 159) /2 = 157 Para anlisis matemticos posteriores, todas las observaciones pertenecientes a a un intervalo de clase dado se suponen coincidentes con la marca de clase

RECOMENDACIONES PARA FORMAR UNA DISTRIBUCIN DE FRECUENCIAS


a) Rara vez se utilizan menos de 6 mas de 15 clases.

b)

Las clases deben abarcar a todos los datos

c)

Cada dato debe pertenecer a una nica clase

d)

Siempre que se posible los intervalos de clase sern del mismo ancho

Pasos para agrupar datos


1. Determinar el rango o recorrido de los datos, donde Rango = Valor mayor valor menor 2. Establecer el nmero de clases (k) en que se van a agrupar los datos, tomando como base para esto la siguiente tabla Tamao de muestra Menos de 50 Nmero de clases 5a7 3. Determinar el tamao o ancho ( c ) del intervalo de clase para agrupar

50 a 99
100 a 250 250 o ms

6 a 10
7 a 12 10 a 20

Rango k

4. Formar clases y agrupar datos. Para esto, se pone como lmite inferior de la primera clase un valor un poco menor encontrado en la muestra y posteriormente se le suma c, obteniendo de esta forma el lmite superior de la primera clase, luego se procede a obtener los lmites de la clase siguiente y as sucesivamente

Ejemplo Suponiendo que las temperaturas (en grados Fahrenheit) medidas a las 6:00 P.M. durante un perodo de 35 das son las siguientes: 72 78 86 93 106 107 98 82 81 77 87 82

91

95

92
94

83
86

76
81

78
77

73
73

81
76

86
80

92
88

93
91

84

107 99

para formar la tabla de frecuencias, se proponen 5 clases con intervalo de ancho de 7 Obsrvese nuevamente que la suma de frecuencias es la totalidad de datos. Como as tambin la marca de cada una de las clases.

Clases

Frecuencia

Marca 73.5 81.5 89.5

70 - 77
78 - 85 86 - 93 94 - 101

7
10 11 4

97.5
105.5

102 - 109

Por lo que el histograma para el caso anterior sera

Como as tambin el polgono de frecuencias

Complementando la tabla con el lmite real de clase y la frecuencia acumulada

Clases

L. R. C.
69.5 77.5 77.5 85.5

Marca 73.5 81.5

Frecuencia 7 10 11 4 3

Frecuencia Acumulada 7 17 28 32 35

70 - 77
78 - 85

86 - 93 94 - 101
102 - 109

85.5 93.5 93.5 101.5


101.5 109.5

89.5
97.5 105.5

Actividad
Los siguientes datos representan el nmero de minutos que ocuparon sus asientos 100 estudiantes en la biblioteca del Instituto Tecnolgico de Tapachula, el da 21 de Mayo de 2008 29 67 39 23 66 24 37 45 58 34 51 37 45 26 41 55 27 96 22 43 73 48 37 63 19 31 38 68 22 35 31 48 35 82 28 35 44 40 41 34 15 58 34 56 45 27 54 46 62 29 51 31 56 43 39 35 23 28 45 48 47 31 34 47 30 54 49 34 53 51 82 41 26 35 67 73 30 16 52 35 46 41 56 37 51 33 92 70 63 72 35 62 28 38 61 33 49 59 36 45 generando 9 clases de ancho de 10, determinar a) Construir la distribucin de frecuencia y de frecuencia acumulada b) Representar los datos en un histograma c) Representar los datos en un polgono de frecuencia

S-ar putea să vă placă și