Sunteți pe pagina 1din 34

Lic.

Vicente Sánchez y Ramírez


Estadística Descriptiva

1. ESTADÍSTICA DESCRIPTIVA

1.1 Introducción.

La palabra Statistik proviene de la palabra italiana statista que significa estadista.


Los primeros que introdujeron el término de estadística a Inglaterra fue el Dr. E.A.W.
Zimmerman. Su uso fue popularizado por Sir John Sinclair en su obra Statistical
Account of Scotland 1791-1799 (Informe estadístico sobre Escocia 1791-1799).

Estadística la podemos definir como la ciencia que se encarga de recolectar,


organizar, analizar e interpretar datos numéricos con el propósito de auxiliar en una
toma de decisiones más efectiva.

La estadística se divide en dos ramas descriptiva e inferencial; la estadística


descriptiva se encarga de recolectar, organizar, analizar, resumir y presentar datos de
manera conveniente, útil y comprensible. La estadística inferencial realiza inferencias
a partir de los estimadores de la muestra sobre los parámetros de la población.

La definición anterior nos presenta nuevos conceptos tales como: población,


muestra, estimador y parámetro, para entenderla mejor definamos cada uno de
éstos. Población es un conjunto de elementos con una característica común
observable, muestra subconjunto de la población, donde cada uno de los elementos
que la componen tuvo la misma probabilidad de salir elegido, parámetro es una
característica numérica que identifica a una población dada y estimador o
estadístico es un valor obtenido de la muestra que permite hacer predicciones sobre
los parámetros de una población,

¿En dónde se aplica la estadística? Sería prolijo describir todas las actividades
donde entra en juego la estadística como herramienta de investigación, creo que
sería más fácil encontrar donde no es aplicable. En la medida que se logra un
incremento en el conocimiento científico se van encontrando nuevas aplicaciones de
le ciencia estadística. Sin embargo, y a manera de ilustración mencionaremos
algunos de los usos de la estadística en alguno de sus campos.

 Establecimiento de normas de calidad de productos agrícolas e industriales.


 Encuestas de opinión.
 Estudios de mercado.
 Necesidades de los servicios de las ciudades.
 Contaminación ambiental.
 Inventarios agrícolas, ganaderos, forestales e industriales.
 Estimación de cosechas.
 Control estadístico de procesos.
 Prevalencia o incidencia de alguna plaga o enfermedad.
 Mejoras de calidad de los equipos.
 Disminución de costos de producción.
 Reducción de niveles de contaminación en procesos industriales, etc.

1
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

El tema contempla el estudio de: medidas de tendencia central, de dispersión y de


posición tanto para datos agrupados como no agrupados; representaciones gráficas,
y empleo del software Minitab y Excel en el análisis de estadística descriptiva.

1.2 Medidas de tendencia central en datos no agrupados.

Estas medidas son llamadas de tendencia central porque su valor por lo general se
encuentra en el centro de los datos que se analizan, si éstos son ordenados de
menor a mayor.

1.2.1 Media aritmética.

Si las observaciones de una muestra aleatoria de tamaño n son: x1, x2,...,xn, entonces
la media de la muestra se simboliza por.
n

_ x  x  ...  x n x i
x 1 2  i 1

n n
Donde:
 = letra griega que simboliza suma.
xi = valor de la variable aleatoria.
n = número de observaciones.

Ejemplo. Sea una muestra de seis estudiantes donde la variable en estudio son
los años de edad de cada uno de ellos.

x1 x2 x3 x4 x5 x6
19 23 21 24 20 18

_
19  23  21  24  20  18 125
x   20.83
6 6

Lo que significa que la edad promedio de los alumnos es de 20.8 años.

La media aritmética es un punto potencial que equilibra todos los puntos ubicados a
uno y otro lado de ella; o sea representa el valor promedio de todas las
observaciones de la muestra.

La media aritmética es muy sensible a las mediciones extremas, cuando estas


medidas no están equilibradas en ambos lados de la misma, por ejemplo.

x1 x2 x3 x4 x5
9 11 20 19 150

2
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

_
209
x  41.8
5

Como puede apreciarse el valor 41.8 cae fuera del grupo de observaciones, cuando
esto suceda es recomendable verificar si el valor atípico que aparece en los datos es
correcto (150), una observación atípica es un valor que es inusual en relación con el
resto de los datos. Si el valor es correcto, la medida de tendencia central
recomendada para analizar la información es la mediana.

La media aritmética se puede comparar con el punto de apoyo en el juego de sube


baja, por ejemplo, sea una muestra de seis niños donde la variable aleatoria son los
años de edad de cada uno de ellos. Puede observarse que seis es el valor que
equilibra a los datos.

x1 x2 x3 x4 x5 x6
4 2 6 2 7 15

2
2 4 7 15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 0 0 0 0 0 0 0

Así como hay la media de la muestra también existe la media poblacional y se


denota por la letra griega  (miu) y se define por:

X i
 i 1
N

Donde:
 = letra griega que simboliza suma.
Xi = variable que se esta estudiando.
N = total de elementos que componen la población.

Puede observarse que para definir los parámetros de la población se utilizan letras
mayúsculas o griegas, mientras que para definir los estimadores de la muestra se
emplean letras minúsculas o números.

1.2.2 Mediana ( M ).

Es la medida de tendencia central que divide la muestra en dos mitades iguales, o


sea, es el estadístico que se ubica exactamente a la mitad de los datos, el 50% de la
información se encuentra a la izquierda y el otro 50% a la derecha.

3
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor más pequeño y xn el valor más grande. Entonces la mediana
queda definida por:

a. Si el número de observaciones es impar, la mediana es el valor de en medio.


b. Si el número de observaciones es par, la mediana es el promedio de las dos
observaciones de en medio.

Ejemplo. Sea la variable en estudio el número de hijos en siete familias.

9 5 8 2 0 1 5 n es impar

Primero ordenamos los datos de menor a mayor y posteriormente obtenemos la


mediana.

x1 x2 x3 x4 x5 x6 x7
0 1 2 5 5 8 9

Mediana = 5 hijos por familia.

Lo anterior nos indica que el 50% de las familias tienen hasta cinco hijos y el 50%
restante tienen cinco hijos o más.

Si obtenemos la media x  4.28 y la mediana M = 5, ambas cantidades brindan una


medida razonable de tendencia central (porque se ubican al centro de los datos).

La mediana tiene la ventaja sobre la media aritmética porque no se afecta


considerablemente por valores atípicos, por ejemplo:

23 17 36 01 49 33 2520

Ordenando los valores tenemos:

01 17 23 33 36 49 2520

Aquí la mediana es M = 33 y la media aritmética es x  382.7 , queda claro que la


media no nos dice mucho de la tendencia central de la mayor parte de los datos
cuando alguno de ellos se sale del rango de valores, cuando esto sucede es
recomendable utilizar para el análisis a la mediana en lugar de la media aritmética.

Veamos otro ejemplo donde n es par.

4 3 7 9 5 3

Ordenado:
x1 x2 x3 x4 x5 x6
3 3 4 5 7 9
4
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

45
M   4.5
2

1.2.3 Moda ( Mo ).

De todas las medidas de tendencia central, la moda es la más fácil de determinar ya


que se obtiene por inspección visual y no por cómputo, o sea es la observación que
ocurre con mayor frecuencia.

Ejemplo, sea la variable aleatoria las calificaciones finales obtenidas en una muestra
de 10 alumnos en la materia de probabilidad.

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
91 87 99 86 91 79 93 82 91 86

Noventa y uno es la moda ya que ocurre tres veces, lo que significa que el 30% de
los estudiantes obtuvieron de calificación 91 puntos.

Hay ocasiones en que se encuentran dos modas, en este caso se dice que tiene una
distribución bimodal, ejemplo:

1 7 3 6 3 2 4 6

Aquí la moda puede ser 3 y 6. Cuando se tenga más de una moda se dice que se
trata de una distribución multimodal.

1.2.4 Media ponderada.

La fórmula matemática que simboliza a esta medida de tendencia central es:

_ w x i i
xw  i 1
n

w
i 1
i

Donde:
xi = valor de la variable aleatoria.
wi = número de observaciones de la variable aleatoria.

Ejemplo. Un turista carga gasolina en 4 estaciones y paga en cada una 14.70, 13.90,
12.95 y 13.80 pesos por litro, si cargó 15 litros en la primer gasolinera, 20 en la
segunda, 15 en la tercera y 10 en la cuarta. ¿Cuál es el costo promedio por litro?

xi = precio de la gasolina.
Wi = número de litros en cada gasolinera.

5
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

_
1514.70  2013.90  1512.95  1013.80 830.75
xw    13.846
60 60

Lo que significa que el costo promedio por litro de gasolina es de $ 13.85 pesos.

1.2.5 Comparación de la media, mediana y moda.

Considérese la negociación de un contrato colectivo de trabajo en el que el punto


más importante a discutir es el incremento salarial, en donde participa el líder
sindical, la parte patronal y la Junta de Conciliación y Arbitraje, para la negociación
de dicho punto se obtuvo una muestra con los siguientes sueldos:

5,400 10,800 10,800 17,700 22,400 27,600

La parte patronal decide no dar el incremento salarial, en función de que el sueldo


promedio de los empleados es alto, siendo este de:
_
94700
x  15783.33
6

El líder sindical argumenta que esto es falso ya que la muestra es muy pequeña y
además están mezclados los sueldos de los empleados de base con los de
confianza, ya que sueldos de 17,700 en adelante corresponden a empleados de
confianza. Por lo tanto el sueldo promedio de los empleados de base es el que más
se repite, o sea la moda, la cual es Mo = 10,800.

Un honesto tribunal recomendaría como medida de discusión para el incremento


salarial a la mediana, que es la medida de tendencia central más acertada para este
tipo de casos.
10800  17700
M   14250
2

Como puede apreciarse, las medidas de tendencia central son utilizadas en función
del comportamiento de los datos, en este ejemplo se observa un valor atípico
(27,600) por lo que la medida de tendencia central más recomendable para el
análisis es la mediana.

1.3 Medidas de dispersión en datos no agrupados.

Es por todo conocido que un número por sí mismo carece de significado, solo lo
adquiere cuando se compara con otros números o estadísticos.

Si conocemos la media de una distribución de una variable dada, podemos


determinar cuando una calificación es mayor ó menor que dicha media pero ¿cuánto
es mayor o cuánto es menor?

Para describir una distribución en forma más completa es necesario una información
adicional que acompañe a la media, la mediana o la moda.
6
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

Esta información adicional debe de indicar el grado de dispersión de los valores de la


variable aleatoria alrededor de su promedio, para comprenderlo mejor veamos el
siguiente ejemplo numérico.

Considere la resistencia al rompimiento en libras por pulgada cuadrada (psi) de doce


botellas de vidrio de un litro, tomadas de dos lotes de producción.

Muestra 1 230 250 245 258 265 240


Muestra 2 190 228 305 240 265 260

La media de ambas muestras es igual a 248 psi, sin embargo la dispersión de los
datos de la muestra dos es mayor a la de la muestra uno, como puede apreciarse en
el siguiente gráfico.

x x x x x x
* * * ** * Muestra 1 = *

180 200 220 240  260 280 300 320 Muestra 2 = x

x = 248

En base a la dispersión de los datos de cada lote de la gráfica anterior, queda


demostrado que las medidas de tendencia central no proporcionan suficiente
información para describir adecuadamente la distribución de una población, para que
esto suceda deben ser acompañadas de una medida de dispersión, siendo por lo
general la varianza.

1.3.1 Rango.

Es una medida de variabilidad que indica la distancia en la escala de calificaciones.


Es la más sencilla y directa en las medidas de dispersión, se obtiene restando al dato
mayor el dato menor y sumándole uno.

El rango es poco usado por su notoria inestabilidad, si existe en la distribución alguna


calificación extrema, la dispersión de las calificaciones parecería más grande. Si
hiciéramos caso omiso de esa distribución extrema, podríamos encontrar que la
distribución es por el contrario más compacta Ejemplo:

4 1 3 9 8 11 13 7 29

Rango = (29 - 1) + 1 = 29

Si quitamos el 29 el nuevo rango será: (13 - 1) + 1 = 13 lo que nos indica que los
datos están más compactos.

7
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

Dentro de los mayores defectos que tiene el rango son:

a) No permite hacer una interpretación precisa de una calificación dentro de la


distribución.

b) No puede hacerse intervenir en ninguna de las relaciones matemáticas,


“importantes” en la inferencia estadística.

Su interpretación será: entre más grande sea el rango mayor será la dispersión de
las calificaciones.

1.3.2 Desviación media (D. M.).

Consiste en restar a cada una de las calificaciones su media y ésta diferencia se


suma pero en valor absoluto, dividiéndose posteriormente entre n.

Ejemplo.

x1 x2 x3 x4 x5
8 10 5 4 3
_
30
La media aritmética es x 6
5

xi  x =  2   4   -1   -2   -3 
5

x
i 1
i  x  12

12
Por lo tanto la desviación media será igual a D.M .   2.4
5
Su interpretación será: tanto mayor sea la desviación media, tanto mayor es la
dispersión de las calificaciones.

La desviación media por sí sola tiene muy poco uso, si la estudiamos es debido a:

a) Está estrechamente relacionada con la varianza y la desviación estándar.

b) La desviación media es en cierta forma base para estimar errores en la predicción.

Dentro de sus mayores defectos están los mismos que los del rango.

1.3.3 Varianza y desviación estándar.

La medida de dispersión más utilizada dentro del análisis estadístico es conocida


como varianza. Sí x1, x2,...,xn son las observaciones de una muestra de tamaño n, el
algoritmo matemático que define la varianza es:

8
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

  x  x
n
2
i
S2  i 1

n 1
Dicha fórmula aplicando las leyes del álgebra podemos redefinirla como:

2
n
 n 
 x i
  xi 
2

S 
2 i 1
  i 1 
n  1 n n  1

Para ver como la varianza de la muestra mide la dispersión de los datos, tomemos
los valores de la muestra dos, de la resistencia al rompimiento en libras por pulgadas
de las botellas.

x x x x x x

180 200 220 240 260 280 300 320

x = 248

La gráfica muestra las desviaciones de xi  x , si sumamos estas desviaciones dará


como resultado cero, para evitar esto cambiamos las desviaciones negativas a no
negativas elevándolas al cuadrado, en consecuencia si las desviaciones son
pequeñas, hay una relativamente pequeña variabilidad en los datos, pero si las
desviaciones son grandes, la variabilidad es relativamente grande, por lo que la
varianza penalizará mucho las desviaciones grandes.

La varianza nos sirve para medir la variabilidad de los datos en una población, o sea
nos permite conocer la homogeneidad o heterogeneidad de los datos que se están
estudiando.

Ejemplo, obtengamos la varianza para la muestra uno y dos del rompimiento en


libras por pulgada cuadrada de los dos lotes de botellas.

Muestra 1 Muestra 2
n1 = 6 n2 = 6
 x1 = 1,488  x2 = 1,488
x 2
1= x 2
=
2

369,814 376,534
x1 = 248 x2 = 248

9
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

369,814 1488 2 376,534 1488 2


 158 psi   1,502 psi 
2 2 2 2
S1   S2  
6 1 6 6  1 6 1 6 6  1

Al comparar estas dos varianzas vemos que la muestra uno tiene menor variabilidad
que la muestra dos, o sea que los datos están más “apiladitos” alrededor de su
promedio, dicho en otras palabras los datos de la muestra uno son más
homogéneos. Una varianza igual a cero significa que los valores de la variable
aleatoria son iguales.

Debido a que S2 se expresa en el cuadrado de las unidades originales, no es fácil


interpretarlas, para resolver este “problema de dimensionalidad”, trabajamos con la
raíz cuadrada (positiva) de la varianza la cual llamaremos desviación estándar; esto
brinda una medida de dispersión expresada en las mismas unidades de la variable
con la que estamos trabajando.

Las desviaciones estándar de las muestras uno y dos de la resistencia al


rompimiento de las botellas son:

2 2
S1  S1  158  12.57 psi S 2  S 2  1,502  38.75 psi

La interpretación de la varianza y de la desviación estándar será: entre más cercanos


se encuentren estos valores del cero, puede significar que los datos están más
agrupados alrededor de su promedio (existe poca variabilidad). Pero aquí se
recomienda tener cuidado cuando se trabaje con valores pequeños, ya que el
resultado de S2 y S puede ser engañoso, en este caso se recomienda la utilización
del coeficiente de variación para su interpretación, el cual veremos a continuación.

De igual forma que para la muestra hay una varianza, existe una medida de
variabilidad para la población, la cual se denota con la letra griega  2, su cálculo es:

2
N N
N 
 X    Xi  Xi 
2 2
i
 
2 i 1
 i 1   i 1 2 
N N N

1.3.4 Coeficiente de variación.

Existe otra medida de dispersión que se conoce como coeficiente de variación su


forma más frecuente de encontrarlo es:

S
CV  (100)
x

La interpretación del coeficiente de variación es similar al de la varianza, con la


ventaja de que éste varia por lo general de 0 a 100%, entre más pequeño sea,
significa que la población es más homogénea, o sea que la varianza es más

10
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

pequeña. Y entre más cercano esté el CV al 100% significa que la población es más
heterogénea.

En los ejemplos que nos ocupan los coeficientes de variación son:

12.57 38.75
CV1  (100)  5.1% CV2  (100)  15.6%
248 248

Puede observarse que hay menor variabilidad en cuanto a resistencia se refiere en la


muestra uno, por lo que podemos decir que este lote tiene más calidad.

El coeficiente de variación además de indicarnos si una varianza es chica o grande,


nos sirve también para comparar poblaciones en donde se analiza diferente
variable, por ejemplo considere las siguientes dos poblaciones:

1. Un tirador realiza tres disparos a un 2. El lanzamiento de tres cohetes a la


blanco y se mide la desviación en mm. luna que tiene que alunizar en un
de donde pegó el disparo al blanco, determinado lugar, la desviación en Km.
siendo estos: son:

Disparo Desviación Lanzamientos Desviación


1 5 mm. 1 11 Km.
2 3 mm. 2 23 Km.
3 7 mm. 3 17 Km.

Calculemos ahora la media, varianza y desviación estándar para ambas poblaciones.

1 = 5 mm. 2 = 17 Km.
21 = 2.67 mm2. 22 = 24 Km2.
1 = 1.63 mm. 2 = 4.9 Km.

Hasta aquí podríamos suponer que la población uno parece tener menor variabilidad
en sus datos que la población dos.

Obtengamos ahora los coeficientes de variación.

1.63 4.9
CV1  100  32.6% CV2  100  28.8%
5 17

Aquí podemos afirmar que la variabilidad de la población uno es ligeramente mayor


que la de la población dos, o sea hay un mayor alejamiento de los disparos con
relación a su media en comparación con la población dos. Aun cuando solo en un
3.8% la población uno es más variable que la población dos.

11
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

1.4 Medidas de posición en datos no agrupados.

Estas medidas nos indican el lugar o posición en que se ubica la variable aleatoria;
conociéndose éstas posiciones por lo general como percentiles, deciles, cuartiles,
etc.

1.4.1 Percentiles

Un percentil es un valor x, donde por lo menos p por ciento de las observaciones


tienen un valor menor o igual a este valor x, y donde (100 – p) por ciento de las
observaciones tienen un valor mayor o igual a x.

Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor más pequeño y x n el valor más grande. Entonces un percentil
puede calcularse de la siguiente manera:

i  n( p ) Donde p es el percentil buscado.

Si el valor de i no es entero redondearlo al primer entero mayor que i, el cual indicará


la posición del percentil p.

Si el valor de i es entero, el percentil p es el promedio de los valores en las


posiciones i e i + 1.

Ejemplo. Sea la variable en estudio el número de hijos en seis familias.

5 8 2 0 1 5

Primero ordenamos los datos de menor a mayor.

x1 x2 x3 x4 x5 x6
0 1 2 5 5 8

El decil 25 o primer cuartil será i  6(0.25)  1.5 . Como i no es entero se redondea a


2. Por lo tanto el percentil 25 es el valor que ocupa la posición dos, o sea uno.

El percentil 50, segundo cuartil o mediana es i  6(0.50)  3 . Como i es entero el


percentil 50 es el promedio de los valores que están en las posiciones 3 y 4 o sea
(2+5)/2 = 3.5.

El percentil 75 o tercer cuartil es i  6(0.75)  4.5 . Como i no es entero se redondea


a cinco, por lo que el tercer cuartil es el penúltimo número o sea cinco.

1.4 Organización de poblaciones (datos agrupados).

1.4.1 Distribución de frecuencias.

Cuando se tiene un gran número de datos lo más conveniente es organizarlos y


presentarlos de tal manera que facilite su interpretación.
12
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

Una de las primeras formas de organizarlos es mediante la presentación de una


tabla de frecuencias, lo cual nos permite saber fácilmente que porcentaje de la
población presenta las características que nos interesan.

Para ilustrar el método, tomemos como ejemplo la resistencia al rompimiento en


libras por pulgada cuadrada (psi) de 72 botellas de vidrio no retornable de refresco
de un litro.

265 197 343 280 265 200 221 265 261


205 286 317 242 254 235 176 262 248
263 274 242 260 281 246 248 271 260
307 243 258 321 294 328 263 245 274
220 231 276 228 223 296 231 301 337
268 267 300 250 260 276 334 280 250
260 281 208 299 308 264 280 274 278
234 265 187 258 235 269 265 253 254

Como es obvio estas cantidades no tienen “ni pies ni cabeza” a menos que las
organicemos de un modo sistemático. Las razones para ordenarlos en una tabla de
frecuencias son:

a) Es antieconómico e impráctico tratar con un número de casos distribuidos en


muchos puntajes.

b) Algunos puntos tienen asociada una frecuencia tan baja o inclusive cero, que no
se justifica para mantenerlas como unidades distintas o separadas.

Como factor negativo tenemos, al agrupar los puntajes se pierde inevitablemente


parte de la información. Esto se puede medio resolver, agrupando los datos en la
forma más correcta de acuerdo a la experiencia que se tenga con la información. De
aquí la pregunta obligada ¿cuántos intervalos se deben de utilizar en una tabla de
frecuencias? La respuesta es difícil...

Algunos autores que estudian el comportamiento indican que pueden ser de 10 a


20 intervalos de clase. Otros dedicados a trabajos agrícolas citan de 5 a 25
intervalos. Autores que escriben sobre ingeniería indican de 5 a 20 intervalos de
clase y los que investigan sobre administración recomiendan de 5 a 15.

Como puede observarse no existe una regla definida para determinar el número de
intervalos, ya que solo la experiencia del investigador es la que lo decide. Sin
embargo como apoyo a los alumnos que inician en este tema, podemos citar estas
dos formas.

La primera es la regla de Sturgess, la cual obtiene el número de intervalos de la


siguiente manera k = 1 + 3.3 (Log. n), donde n es el total de observaciones. La
segunda es la obtenida en la práctica que a menudo funciona bien, y es tomar como
13
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

número de intervalos (k) la raíz cuadrada del número de observaciones,


ajustando este valor entre 5 y 15, cinco o seis intervalos bastan para resumirlos.
Estas dos alternativas más la experiencia del investigador en el manejo de la variable
a estudiar, lo llevará a determinar el número adecuado de intervalos de clase.

El empleo de estas dos formas para la obtención del número de intervalos no debe
considerarse como una verdad absoluta, ya que si al obtener las frecuencias en cada
uno de los intervalos en el trabajo que realicemos, encontramos que algunas son
muy bajas o incluso ceros, estos intervalos no tienen sentido tenerlos. Por lo que se
recomienda reducir el número de intervalos e iniciar nuevamente con los cálculos
desde el principio.

Para iniciar con nuestro ejemplo, tenemos el caso práctico donde n = 72, por lo tanto
el número de intervalos a tomar será k = 72 = 8.48 8.

Los pasos a seguir para la elaboración de la tabla de frecuencia son:

1. Obtención del rango. Se obtiene restando al dato mayor de los datos el dato
menor y sumando uno.

Rango = (343 - 176) + 1 = 168

Nota. Cuando los valores de la variable que se está analizando sean menores que
uno, o sean muy parecidos entre sí, se recomienda no sumarle uno al rango.

2. Obtención del tamaño del intervalo de clase. Para esto se divide el rango entre el
número de intervalos, si el resultado es fraccionario redondee al número entero
más cercano.

168  8 = 21

3. Cálculo de los intervalos de clase:

1er intervalo. Límite inferior = dato menor = 176

Límite superior = dato menor + (tamaño del intervalo - 1)


= 176 + 20 = 196

2o intervalo. Límite inferior = entero consecutivo al límite superior del


primer intervalo = 197.
Límite superior = límite inferior del segundo intervalo +
(Tamaño del intervalo - 1)
= 197 + 20 = 217.

Para los demás intervalos se sigue el mismo procedimiento.

176 196 260 280


197 217 281 301
218 238 302 322

14
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

239 259 323 343

4. Obtención de las frecuencias de la clase. A cada intervalo se le asigna el


número de datos que caen en cada uno de ellos.

176 196 !!
197 217 !!!!
218 238 !!!!! !!!!
239 259 !!!!! !!!!! !!!!
260 280 !!!!! !!!!! !!!!! !!!!! !!!!! !!
281 301 !!!!! !!!
302 322 !!!!
323 343 !!!!

Nota. Si algunas de las frecuencias de clase son muy bajas o incluso ceros, se
recomienda reducir el número de intervalos e iniciar nuevamente con los
cálculos desde el principio.

5. Obtención de los límites reales de clase. En cada intervalo de clase se le resta


media unidad al límite inferior y se le suma media unidad al límite superior, para
evitar que un dato caiga en más de un intervalo.

Nota. Si los datos son pequeños, muy parecidos, o el límite inferior del primer
intervalo inicia con cero, no obtenga los límites reales de clase.

6. Cálculo del punto medio o marca de clase. Se obtiene de sumar los límites
reales de cada intervalo y dividirlos entre dos.

7. Obtención de la frecuencia relativa de clase. Se obtiene de dividir la frecuencia


de cada intervalo entre la suma de todas las frecuencias.

8. Obtención de la frecuencia acumulada. A la frecuencia del primer intervalo se le


suma la frecuencia del segundo, a esta suma acumulada se le suma la frecuencia
del tercer intervalo y así sucesivamente.

9. Obtención de la frecuencia relativa acumulada. Es similar al punto ocho pero con


la frecuencia relativa.

RESISTENCIA AL ROMPIMIENTO DE 72 BOTELLAS DE VIDRIO

Intervalo Frecuencia Marca de clase Frecuencia Frecuencia Frecuencia


de de clase ( o punto medio relativa acumulada relativa
clase fi ) ( xi ) acumulada
175.5 - 196.5 2 186 0.03 2 0.03
196.5 - 217.5 4 207 0.06 6 0.09
217.5 - 238.5 9 228 0.12 15 0.21
238.5 - 259.5 14 249 0.19 29 0.40
259.5 - 280.5 27 270 0.37 56 0.77
15
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

280.5 - 301.5 8 291 0.11 64 0.88


301.5 - 322.5 4 312 0.06 68 0.94
322.5 - 343.5 4 333 0.06 72 1.00

Total 72 1.00

Con los valores de esta tabla ya podemos obtener información que anteriormente no
podíamos, tales como:

¿Cuántas botellas tienen una resistencia menor a 217.5 psi? R= 4 + 2 = 6

¿Qué porcentaje de las botellas tienen resistencia mayor a 301.5 psi?


R= (4 + 4) / 72 = 0.111  11.1%

¿Cuántas botellas tienen una resistencia entre 238.5 y 280.5? R = 14 botellas.

¿Si se toma una botella al azar, cuál es la probabilidad de que su resistencia sea
mayor a 280.5 psi? R = 16 / 72 = 0.222.

Suponiendo que en la bodega de donde se tomo la muestra hay 500,000 botellas


¿cuántas de ellas tendrán una resistencia mayor a 259.5 psi? R = Según la muestra
el 59.72 %. Por lo tanto 500,000 x 0.5972 es igual a 298,600.

1.4.2 Medidas de tendencia central en datos agrupados.

La medida de tendencia central más utilizada es la media aritmética, la cual se


define como:
k

x f i i
x i 1
n
Donde:
xi = punto medio o marca de clase.
fi = frecuencia de clase .
n = número de observaciones.
i = 1,2..., k intervalos.

En el ejemplo que nos ocupa la media aritmética es:

186(2)  207(4)      333(4) 18936


x   263.00
72 72

Significa que en promedio, una botella tiene una resistencia de 263 libras por
pulgada cuadrada.

Moda. El algoritmo matemático que la define es:

16
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

 d1 
Mo  L    w Donde:
 d1  d 2  L = límite inferior del
intervalo donde se encuentra la moda.
d1 = diferencia (sin consideración de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo precedente.
d2 = diferencia (sin consideración de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo siguiente.
w = tamaño del intervalo de clase.

En nuestro ejemplo lo primero que debemos saber es en qué intervalo se


encuentra la moda, recordemos que ésta se localiza en el intervalo que tiene la
mayor frecuencia, o sea el quinto intervalo.

En el ejemplo que estamos analizando su estimación será:

 13 
Mo  259.5    21  268.03
13  19 

Significa que la mayor parte de las botellas tiene una resistencia de 268.03 psi.
También podríamos decir que aproximadamente el 37% de las botellas tiene una
resistencia de 268.03 psi.

Mediana. Su cálculo lo obtenemos por:

 n 1 
 2 S
M  L w
 f 
 

Donde: L = límite inferior del intervalo donde se encuentra la mediana.


n = número de observaciones.
S = suma acumulada de las frecuencias, hasta antes del intervalo donde se
encuentra la mediana.
f = frecuencia del intervalo en donde se localiza la mediana.
w = tamaño de intervalo de clase.

Para encontrar su valor en la tabla de frecuencias, lo primero que tenemos que hacer
es localizar el intervalo donde se encuentra la mediana. Ésta se localiza exactamente
a la mitad de los datos, en nuestro caso está en el quinto intervalo, ya que ahí se
encuentra del 41 al 77% de la información, su estimador se obtiene por:

 72  1 
 2  29 
M  259.5    21  265.33
 27 
 

Lo anterior significa que el 50% de las botellas tienen una resistencia hasta de
265.33 psi y el 50% restantes tienen una resistencia de 265.33 o más.

17
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

1.4.3 Medidas de dispersión en datos agrupados.

La varianza y desviación estándar son las medidas de dispersión más empleadas


en estadística inferencial. La fórmula matemática que defina a la varianza de la
muestra es:

2
k k  k 
x i  x fi
2
x i
2 
fi   xi f i 

 
2 i 1 i 1 i 1
S  
n 1 n 1 n n  1

En el ejemplo que venimos analizando la varianza de la muestra será:

186 2 (2)  207 2 (4)      3332 (4)  186(2)  207(4)      333(4) 2


S2  
72  1 72(72  1)

5055138 189362
S2    1055.92
71 5112

Y la desviación estándar se define por:

S  S 2  1055.92  32.49

El coeficiente de variación en base a los estimadores obtenidos es:

S 100 32.49100
C.V .    12.35%
x 263

La interpretación de S2 y S podemos obtenerla mediante el cálculo del CV que por lo


general varía del 0 al 100%. En nuestro caso es de 12.35%, lo que nos indica que
hay poca variación, o sea que la resistencia en psi de las botellas no se encuentran
tan dispersa alrededor del promedio (263), o lo que es lo mismo, la varianza es
chica.

1.4.4 Medidas de posición en datos agrupados.

Otras medidas importante que podemos obtener de la tabla de frecuencias son los
percentiles. El algoritmo matemático para su cálculo se expresa de la siguiente
manera:

d 
Di  L    w
f

Donde:
L = límite inferior del intervalo donde se encuentra el percentil buscado.

18
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

d = diferencia (sin considerar signo) que se necesita para alcanzar el rango


del percentil buscado, tomado de la columna de frecuencias
acumuladas.
f = frecuencia de clase del intervalo donde se encuentra el percentil.
w = tamaño del intervalo de clase.

Ejemplo. ¿Qué valor representa el 10% de la resistencia de las botellas? El décimo


percentil (D10) es la observación con rango (%) (n) + 0.5, que en nuestro caso es
(0.10) (72) + 0.5 = 7.7, o sea que el décimo percentil está entre la observación que
ocupa el séptimo y el octavo lugar en la tabla de frecuencias.

Lo primero que debe hacerse es localizar el intervalo donde se encuentra el percentil


D10, para ello utilizamos la columna de frecuencia relativa acumulada, en ella
podemos observar que en el tercer intervalo se encuentra del 10 al 21% de los datos.

En la columna de frecuencia acumulada localizamos el intervalo donde puede


encontrarse el rango del percentil, en nuestro caso 7.7 se ubica en el tercer
intervalo, ya que ahí esta del séptimo al quinceavo dato. El valor de d se obtiene por
la diferencia de 7.7 menos 6 que es 1.7

Por lo tanto la estimación del percentil diez o el primer decil se obtiene por:

1.7 
D10  217.5    21  221.47
 9 

Lo que significa que el 10% de las botellas tienen una resistencia menor o igual a
221.47 psi. O lo que es lo mismo, el 90% de las botellas tienen una resistencia mayor
o igual a 221.47 psi.

Ejemplo. ¿Qué valor representa el primer cuartil?

Su rango es 0.25 72  0.5  18.5  la estimación del primer cuartil es:

3.5
D25  238.5  (21)  243.75
14

Ejemplo. Obtengamos el segundo cuartil.

El rango del segundo cuartil es: 0.5 72   0.5  36.5  su valor estimado será:

7.5
D50  259.5  (21)  265.33
27

Cuyo valor debe ser idéntico al obtenido en la mediana, lo cual sirve para verificar si
su cálculo fue bien realizado.

Ejemplo. ¿Cuál será el valor en resistencia que representa el percentil 75?


19
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

25.5
0.75 72   0.5  54.5  D75  259.5  ( 21)  279.33
27

Significa que le 75% de las botellas tienen una resistencia hasta de 279.33, mientras
que el 25% restante tienen una resistencia mayor o igual a 279.33 psi.

1.5 Representaciones gráficas.

1.5.1 Histograma.

La información de la tabla de frecuencias puede ser trasladada a un gráfico, como un


histograma, un polígono de frecuencias o un polígono de frecuencias acumuladas los
cuales permiten lograr una apreciación más fácil de la información.

¿Qué es un histograma? Es una gráfica de barras adyacentes, que muestra en el


eje horizontal las marcas de clase y en el eje vertical las frecuencias de clase, donde
la altura de cada rectángulo es proporcional a la frecuencia de clase que representa.

¿Por qué son utilizados los histogramas?

a) Para resumir datos y describir la historia respecto a un proceso.

b) Es mejor que tratar de obtener información de una lista de números.

c) A menudo la forma del histograma puede proveer pistas acerca de un proceso,


para saber si está bajo control o fuera de control.

d) Nos indica gráficamente si los datos se distribuyen de manera normal (tienen


forma de campana).

A continuación se presenta el histograma, donde la base de cada rectángulo


representa el punto medio o marca de clase, y la altura está dada por la frecuencia
de la clase o número de observaciones que cae dentro de cada intervalo.

Con el fin de evitar que un gráfico sea mal interpretado, se recomienda la realización
de gráficas mediante la regla de los tres cuartos de altura. Dicha regla consiste en
que el eje de la ordenada (y) debe medir tres cuartas partes de lo que mide el eje de
la abscisa (x). Por ejemplo si el eje x mide 20 centímetros de longitud, el eje y debe
medir 15 cm.

La gráfica siguiente presenta el histograma de nuestros datos, en él podemos


apreciar que a la mitad de la gráfica se encuentra más o menos el 263, que es la
resistencia promedio de las botellas (media aritmética). Así mismo podemos apreciar
que la mayor parte de la resistencia de las botellas está en 270 (moda), y de igual
manera la mediana tiene un valor un poco menor a 270.

Si unimos los centros de la parte superior de cada rectángulo obtenemos una nueva
gráfica que se llama polígono de frecuencias, podemos ver que la figura que tiene
20
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

el histograma y la que tendría el polígono es el de una campana, lo anterior nos


indica que los datos se distribuyen de manera normal.

El histograma visto como histograma no nos dice mucho, para ver su aplicación
tomemos como ejemplo una máquina despachadora de refrescos en vaso, donde
sirve un promedio de  = 355 ml. y sus límites de calidad son: LIC = 350 y LSC =
360 ml. Si tomamos una muestra de n vasos y realizamos su histograma, éste puede
presentar las siguientes figuras:

EN CONTROL Y ES CAPAZ

Modelo ideal, los


datos quedan dentro
de los límites.

21
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

EN CONTROL CON CAPACIDAD SI SE ENFOCA ADECUADAMENTE

Histograma fuera de límites, hay


que corregirlo. (La máquina está
dando de menos y de más).

EN CONTROL NO CAPAZ

1.5.2 Polígono de frecuencias acumuladas.

Otro tipo de gráfico es el polígono de frecuencias acumuladas, que nos presenta


de una manera eficiente la distribución de frecuencias acumuladas. Este se
construye graficando sobre el eje de las x los límites de clase y sobre el eje de las y
su frecuencia acumulada; los puntos así determinados se unen mediante segmentos
de recta.

RESISTENCIA AL ROMPIMIENTO DE 72 BOTELLAS DE VIDRIO

22
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

F F
r r
e e
c c
u u
e e
n n
c c
i i
a a

175.5 196.5 217.5 238.5 259.5 280.5 301.5 322.5 343.5

La interpretación para este gráfico es: en la parte izquierda se leen los datos de la
muestra, así para cualquier punto considerado en el eje y (ordenada) nos
proporciona un número de elementos que son menores o iguales al eje de la x
(abscisa); así podemos observar que 29 botellas tienen una resistencia menor o
igual a 259.5 psi.

Si vemos el eje derecho del gráfico encontramos la frecuencia relativa acumulada, y


obtiene la misma interpretación pero ahora de manera generalizada para toda la
población. Ahí podemos ver que el 77% de las botellas tienen una resistencia menor
o igual 280.5 psi. O lo que es lo mismo el 23% de las botellas tienen una resistencia
mayor a 280.5 psi.

Con las frecuencias relativas acumuladas de este polígono como variable


dependiente y los límites de clase como variable independiente, se puede calcular
una ecuación que se ajuste a los puntos del modelo, la cual nos sirve para hacer
predicciones. La gráfica sugiere que se puede ajustar una ecuación de primer grado
de la forma y = a + bx a los valores observados.

Así la ecuación que mejor describe la relación entre los límites de clase y la
frecuencia relativa acumulada es: yˆ  1.354  7.607 x , con la cual ya podemos
hacer predicciones para la frecuencia relativa acumulada en función de los valores
de x, dentro del rango 175.5 a 343.5.

1.5.3 Gráfica de caja.

Una gráfica de caja es una representación gráfica, que por lo general nos describe
de manera simultánea varias características de la muestra con la que estamos
trabajando, tales como: centro de los datos, la dispersión, la desviación de la simetría
y valores que caen inusualmente lejos del grueso de los datos.

Es utilizada para describir visualmente la distribución de los datos, permitiendo


detectar rápidamente cualquier sesgo de ellos. Así mismo nos sirve para ver si hay
algunos valores atípicos en el conjunto de valores.

Un valor atípico puede surgir por: trasponerse dígitos cuando se registra una
medición, realizar una mala lectura en un instrumento, mal funcionamiento de una
23
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

pieza de equipo o por otras causas. Estos valores atípicos pueden traer como
consecuencia la obtención de estimadores con cierto sesgo.

Pasos para la elaboración de una gráfica de caja:

1. Obtenga la mediana, primer cuartil ( D25 ) y tercer cuartil ( D75 ).

2. Obtenga el rango intercuartílico RIC  D75  D25

3. Obtención de los límites inferior y superior:

Límite inferior = D25 - 1.5 (RIC)


Límite superior = D75 + 1.5 (RIC)

4. Trace una línea horizontal representando la escala de medición.

5. Forme una caja arriba de la recta horizontal con los extremos derecho e izquierdo
en D25 y D75 .

6. Trace una recta vertical a través de la caja en la ubicación de la mediana.

La gráfica de caja proporciona el rango del conjunto de los datos empleando


“bigotes” (líneas que se extienden desde cada extremo de la caja), para indicar el
valor más pequeño y el más grande (excluyendo los valores atípicos) en la caja.

Los datos que queden fuera de los límites inferior y superior se consideran valores
atípicos y se marcan en la gráfica con un asterisco y los valores atípicos extremos se
marcan con un círculo.

Si la mediana está cerca de la mitad de la caja, la distribución es regularmente


simétrica (tiene forma de campana), o sea que los datos se distribuyen normalmente.

Si la mediana está a la izquierda del centro, la distribución está sesgada a la


derecha.

Si la mediana está a la derecha del centro, la distribución está sesgada a la


izquierda.

Para mostrar como se realiza una gráfica de caja, tomemos el ejemplo la resistencia
al rompimiento en libras por pulgada cuadrada (psi) de las 72 botellas de vidrio visto
con anterioridad.

Mediana = D50  265.33


Primer cuartil = D25  243.75
Tercer cuartil = D75  279.33
Rango intercuartílico RIC = 279.33 – 243.75 = 35.58
Límite inferior = 243.75 - 1.5 (35.58) = 190.13
24
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

Límite superior = 279.33 + 1.5 (35.58) = 332.70

La gráfica de caja que se muestra se obtuvo con el software Minitab, el cual la


presenta de manera vertical pero la interpretación es la misma. Los valores atípicos
aparecen marcados con un asterisco (*) y fueron 176, 187, 337 y 343. Mientras que
los valores menor y mayor dentro de los bordes internos son 197 y 334. Estos son
los valores que forman los bigotes (ver cuadro de datos en la página 13).

Gráfica de caja de C2
360

320

280
C2

240

200

La gráfica nos indica que la distribución de las resistencias de las botellas es


bastante simétrica alrededor del valor central, ya que tanto los bigotes izquierdo y
derecho como las longitudes de las cajas izquierda y derecha alrededor de la
mediana son aproximadamente iguales. Así mismo observamos que hay dos valores
atípicos en cada extremo de los datos, lo cual nos lleva a investigar el por qué de
ellos.

Apéndice 1.1 Uso de Minitab en estadística descriptiva.

1. Obtención de medidas de tendencia central, de dispersión, de posición y


gráficas en datos no agrupados.

Para ilustrar la manera de como Minitab es utilizado para obtener medidas de


tendencia central, de dispersión, de posición y gráficas en datos no agrupados, se
muestra el siguiente ejemplo.

1. Concentre los valores de la variable aleatoria que desea analizar en la hoja de


cálculo, como se indica a continuación.

C1

25
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

1 8
2 4
3 12
4 2
5 14
6 10
7 6
8 16
9 18
10 10
11 14
12 8
13 16

2. Seleccione el menú Estadísticas.

3. Elegir Estadísticas básicas.

4. Hacer clic en Mostrar Estadísticas descriptivas.

5. Cuando aparezca el cuadro de diálogo Mostrar estadísticas descriptivas.


Ingresar C1 en el cuadro Variables.
Hacer clic en Estadísticas.

6. Cuando aparezca el cuadro de diálogo Estadísticas Descriptivas-Estadísticas.


Hacer clic en las medidas de tendencia central, de dispersión o de posición que
desee.
Hacer clic en Aceptar.
Hacer clic en Gráficas.

7. Cuando aparezca el cuadro de diálogo Mostrar estadísticas descriptivas-


gráficas.
Hacer clic en las gráficas que desee.
Hacer clic en Aceptar.
Hacer clic en Aceptar.

1.1 Obtención de un percentil en particular.

Ejemplo. Sea una muestra de la resistencia al rompimiento en libras por pulgada


cuadrada (psi) de diez botellas de vidrio de un litro, tomados de un lote de
producción, del cual deseamos obtener el percentil 75.

230 250 245 258 265 240 255 248 252 260

Concentre los valores de la variable aleatoria que desea analizar en la hoja de


cálculo de Minitab, como se indica a continuación.

C1
26
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

1 230
2 250
3 245
4 258
5 265
6 240
7 255
8 248
9 252
10 260

1. Seleccione el menú Calc.

2. Hacer clic en Calculadora.

3. Cuando aparezca el cuadro de diálogo Calculadora.


Ingresar P75 en el cuadro Almacenar resultados en variable.
Hacer clic en � del cuadro Todas las funciones.
Localizar el menú Estadísticas y dar clic.
Localizar el menú Percentil y dar clic.
Hacer clic en el cuadro Seleccionar.
En el cuadro de Expresión, borrar número y poner C1 y borrar probabilidad y
poner 0.75
Hacer clic en Aceptar.

Minitab en el primer renglón de la columna C2 pondrá 258.5 que es el percentil 75 o


tercer cuartil.

2. Obtención de intervalos de clase, tabla de frecuencias e histograma en datos


agrupados.

Para ilustrar la manera de como Minitab es utilizado para elaborar los intervalos de
clase, la tabla de frecuencias y el histograma correspondiente con datos agrupados,
utilizaremos el ejemplo de la resistencia en psi. de las 72 las botellas de vidrio.

2.1 Intervalos de clase.

1. Concentre los valores de la variable aleatoria que desea analizar en la hoja de


cálculo, como se indica a continuación.

C1
1 265
2 205
3 263
4 307
. .
. .
27
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

. .
69 337
70 250
71 278
72 254

2. Seleccione el menú Estadísticas.

3. Elegir Estadísticas básicas.

4. Hacer clic en Mostrar Estadísticas descriptivas.

5. Cuando aparezca el cuadro de diálogo Mostrar estadísticas descriptivas.


Ingresar C1 en el cuadro Variables.
Hacer clic en Estadísticas.

6. Cuando aparezca el cuadro de diálogo Estadísticas Descriptivas-Estadísticas.


Hacer clic en: mínimo, máximo y rango.
Hacer clic en Aceptar.
Hacer clic en Aceptar.

Minitab le proporciona lo siguiente: Mínimo 176, máximo 343 y rango 167. Ahora
empleando la regla de Sturges o la regla práctica, obtenga de manera manual el
número de intervalos y el tamaño de ellos de la siguiente manera.

El número de intervalos por la regla práctica k  72  8.48 que es semejante a 8 y


el tamaño del intervalo será 167 / 8 = 20.88 que es semejante a 21.

El límite inferior del primer intervalo es el mínimo valor encontrado en los datos que
es 176 y el límite superior del primer intervalo será 176 + (tamaño del intervalo – 1), o
sea 176 + 20 = 196.

El límite inferior del segundo intervalo, es el entero consecutivo al límite superior del
primer intervalo o sea 197 y el límite superior del 2º intervalo es 197 + (tamaño del
intervalo – 1), o sea 197 + 20 = 217. Y así sucesivamente para los otros seis
intervalos. Por lo que los intervalos de clase son:

176 – 196
197 – 217
218 – 238
239 – 259
260 – 280
281 – 301
302 – 322
323 – 343

Observe que el máximo valor 343 va a quedar en el último intervalo de clase.

2.2 Obtención de la tabla de frecuencias.


28
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

Con los datos concentrados en la hoja de cálculo, como aparecen en el punto 1


anterior, procedemos de la siguiente manera:

1. Seleccione el menú Datos.

2. Elegir Codificar.

3. Hacer clic en Numérico a numérico.

4. Cuando aparezca el cuadro de diálogo Código-numérico a numérico.


Ingresar C1 en el cuadro Codificar datos en columnas.
Capturar C2 en el cuadro Guardar datos codificados en columnas.
Capturar 176:196 en el primer renglón de Valores originales.
Capturar 1 en el primer renglón de Nuevo.
Capturar 197:217 en el segundo renglón de Valores originales.
Capturar 2 en el segundo renglón de Nuevo.
Capturar 218:238 en el tercer renglón de Valores originales.
Capturar 3 en el tercer renglón de Nuevo.
Capturar 239:259 en el cuarto renglón de Valores originales.
Capturar 4 en el cuarto renglón de Nuevo.
Capturar 260:280 en el quinto renglón de Valores originales.
Capturar 5 en el quinto renglón de Nuevo.
Capturar 281:301 en el sexto renglón de Valores originales.
Capturar 6 en el sexto renglón de Nuevo.
Capturar 302:322 en el séptimo renglón de Valores originales.
Capturar 7 en el séptimo renglón de Nuevo.
Capturar 323:343 en el octavo renglón de Valores originales.
Capturar 8 en el octavo renglón de Nuevo.
Hacer clic en Aceptar.

Minitab le muestra en la columna C2 de la hoja de cálculo el intervalo en que se


encuentra cada una de las variables.

5. Seleccione el menú Estadísticas.

6. Elegir Tablas.

7. Hacer clic en Cuenta de variables individuales.

8. Cuando aparezca el cuadro de diálogo Cuenta de variables individuales.


Ingresar C2 en el cuadro Variables.
Hacer clic en Conteos, Porcentajes, Conteos acumulados y Porcentajes
acumulados.
Hacer clic en Aceptar.

Minitab le muestra para cada número de intervalo: frecuencia de clase, frecuencia


acumulada, frecuencia relativa y frecuencia relativa acumulada, las cuales puede
concentrar en su tabla de frecuencias. No olvidar de poner en la tabla, los intervalos
de clase y los puntos medios o marcas de clase.
29
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

2.3 Elaboración del histograma de los datos.

Continuando con el ejemplo de la resistencia de las botellas en psi.

1. Seleccione el menú Gráfica.

2. Hacer clic Histograma.

3. Cuando aparezca el cuadro de diálogo Histograma.


Hacer clic en Simple.
Hacer clic en Aceptar.

4. Cuando aparezca el cuadro de diálogo Histograma simple.


Ingresar C2 en el cuadro Variables de gráficas.
Hacer clic en Etiquetas.

5. Cuando aparezca el cuadro de diálogo Histograma etiquetas.


Capturar RESISTENCIA DE LAS BOTELLAS EN psi. En el cuadro de Título.
Hacer clic en Aceptar.
Hacer clic en Aceptar.

3. Obtención de un diagrama de caja.

Para ilustrar la forma de cómo Minitab es utilizado para obtener un diagrama de caja,
tomemos el ejemplo de la resistencia al rompimiento en psi. de 72 botellas de vidrio
no retornable (página 13). Para generar los estimadores correspondientes siga los
pasos siguientes:

1. Concentre la resistencia de las botellas en la columna C1 de la hoja de cálculo de


Minitab, como se muestra a continuación.

C1
1 265
2 205
3 263
4 307
5 220
6 268
7 260
8 234
9 197
. .
. .
. .
71 278
72 254

30
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

2. Seleccione el menú Estadísticas.


Elegir Estadísticas básicas.
Hacer clic en Mostrar estadísticas descriptivas.

3. Cuando aparezca el cuadro de diálogo Mostrar estadísticas descriptivas.


Ingresar C1 en el cuadro de Variables.
Hacer clic en Aceptar.

Hasta aquí Minitab le presenta: tamaño de muestra, media, error estándar de la


media, desviación estándar, valor mínimo, primer cuartil, mediana, tercer cuartil y
valor máximo. Para generar el diagrama de caja realice lo siguiente:

4. Seleccione el menú Gráfica.


Elegir Gráfica de caja.

5. Cuando aparezca el cuadro de diálogo Gráficas de caja.


Elegir Simple.
Hacer clic en Aceptar.

6. Cuando aparezca el cuadro de diálogo Gráfica de caja - Una Y, Simple.


Ingresar C1 en el cuadro de Variables de gráficas.
Hacer clic en Aceptar.

4. Obtención de una gráfica de puntos.

Utilizaremos los mismos datos de la resistencia al rompimiento en psi. de las botellas


de vidrio, empleados en el ejemplo de diagrama de caja.

1. capturar los 72 datos como lo indica el punto 1 del ejemplo anterior.

2. Seleccionar el menú Gráficas.

3. Cuando aparezca el cuadro de diálogo Gráfica de puntos.


Seleccione Simple.
Hacer clic en Aceptar.

4. Cuando aparezca el cuadro de diálogo Gráfica de puntos-Una Y, Simple.


Ingrese C1 en el cuadro Variables de gráfica.
Hacer clic en Aceptar.

5. Obtención de un diagrama de tallo y hojas.

Utilizaremos los mismos datos de la resistencia al rompimiento en psi. de las botellas


de vidrio, empleados en el ejemplo de diagrama de caja.

1. capturar los 72 datos como lo indica el punto 1 del ejemplo de diagrama de caja.

2. Seleccione el menú Gráficas.


31
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

Seleccionar Tallo y Hoja.

3. Cuando aparezca el cuadro de diálogo Tallo y Hoja.


Ingrese C1 en el cuadro Variables de Gráficas.
Hacer clic en Aceptar.

Apéndice 1.2 Uso de Excel en estadística descriptiva.

1. Obtención de las frecuencias de clase en datos no agrupados

Para ilustrar la forma de cómo Excel es utilizado para obtener una distribución de
frecuencias con datos cuantitativos, tomaremos el ejemplo de la resistencia al
rompimiento en psi. de 72 botellas de vidrio no retornable (página 13).

1. Concentre la resistencia de las botellas, los intervalos de confianza y los límites


superiores en la hoja de cálculo, como se indica el cuadro de la hoja siguiente.

2. Seleccione las celdas E2:E9

A B C D E
1 Resistencia Resistencia Limite Frecuencia
Superior
2 265 176-196 196
3 205 197-217 217
4 263 218-238 238
5 307 239-259 259
6 220 260-280 280
7 268 281-301 301
8 260 302-322 322
9 234 323-343 343
10 197
. .
. .
. .
72 278
73 254

4. Hacer clic en Insertar función (fx )

5. Cuando aparezca el cuadro de diálogo Insertar función.


En la ventana O seleccionar una categoría seleccione Estadísticas.
En la ventana Seleccionar una función seleccione Frecuencia.
Hacer clic en Aceptar.

6. Cuando aparezca el cuadro de diálogo Argumentos de función.


En el cuadro de Datos seleccione las celdas A2:A73
En el cuadro de Grupos seleccione las celdas D2:D9
Pulsar las teclas SHIFT y CTRL al mismo tiempo (mayúsculas) así como ENTER

32
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

Los valores de las frecuencias de clase aparecerán en las celdas E2:E9 de la


siguiente manera: 2, 4, 9, 14, 27, 8, 4, 4.

2. Elaboración de un histograma.

Para ilustrar el empleo de Excel como herramienta en la elaboración de un


histograma, tomemos el ejemplo de la resistencia al rompimiento de las botellas de
vidrio (página 15).

1. Concentre las frecuencias de clase y los puntos medios en la hoja de cálculo,


como aparece indicado en el cuadro siguiente.

2. En la barra de herramientas seleccione el menú colgante Insertar

3. En la barra de herramientas seleccione el menú Columna.

4. Hacer clic en Columna 2D.

A B
1 2 186
2 4 207
3 9 228
4 14 249
5 27 270
6 8 291
7 4 312
8 4 333

5. Hacer clic derecho dentro del cuadro que aparece en blanco en la pantalla.
Hacer clic en Seleccionar datos.

6. Cuando aparezca el cuadro de diálogo Seleccionar origen de datos.


Haga clic en el Agregar.
Digitar RESISTENCIA DE LAS BOTELLAS EN psi en el cuadro Nombre de la
serie.
En el cuadro Valores de la serie borrar ={1}.
Seleccionar A1:A8 (frecuencias de clase).
Hacer clic en Aceptar.

7. Cuando aparezca el cuadro de diálogo Seleccionar origen de datos.


En el cuadro etiqueta del eje horizontal (categoría).
Seleccionar Editar.
Seleccionar B1:B8 (marcas de clase).
Hacer clic en Aceptar.
Hacer clic en Aceptar.

33
Lic. Vicente Sánchez y Ramírez
Estadística Descriptiva

8. En la barra de herramientas en Diseño de gráfico.


Dar clic en más ( ) y seleccionar la gráfica número ocho.
Digitar Marcas de clase en la parte horizontal Título de eje.
Digitar Frecuencias de clase en la parte vertical Título de eje.

En los cuadros de diálogo, Excel tiene otras posibilidades más que usted puede
aprovechar seleccionando las opciones que desee.

34

S-ar putea să vă placă și