Sunteți pe pagina 1din 30

Lic.

Vicente Snchez y Ramrez


Estadstica Descriptiva
1. ESTADSTICA DESCRIPTIVA
1.1 Introduccin.
La palabra Statistik proviene de la palabra italiana statista que significa estadista.
Los primeros que introdujeron el trmino de estadstica a Inglaterra fue el Dr. E.A.W.
Zimmerman. Su uso fue popularizado por Sir John Sinclair en su obra Statistical
Account of Scotland 1791-1799 (Informe estadstico sobre Escocia 1791-1799).
Estadstica la podemos definir como la ciencia que se encarga de recolectar,
organizar, analizar e interpretar datos numricos con el propsito de auxiliar en una
toma de decisiones ms efectiva.
La estadstica se divide en dos ramas descriptiva e inferencial; la estadstica
descriptiva se encarga de recolectar, organizar, analizar, resumir y presentar datos
de manera conveniente, til y comprensible. La estadstica inferencial realiza
inferencias a partir de los estimadores de la muestra sobre los parmetros de la
poblacin.
La definicin anterior nos presenta nuevos conceptos tales como: poblacin,
muestra, estimador y parmetro, para entenderla mejor definamos cada uno de
stos. Poblacin es un conjunto de elementos con una caracterstica comn
observable, muestra subconjunto de la poblacin, donde cada uno de los elementos
que la componen tuvo la misma probabilidad de salir elegido, parmetro es una
caracterstica numrica que identifica a una poblacin dada y estimador o
estadstico es un valor obtenido de la muestra que permite hacer predicciones sobre
los parmetros de una poblacin,
En dnde se aplica la estadstica? Sera prolijo describir todas las actividades
donde entra en juego la estadstica como herramienta de investigacin, creo que
sera ms fcil encontrar donde no es aplicable. En la medida que se logra un
incremento en el conocimiento cientfico se van encontrando nuevas aplicaciones de
le ciencia estadstica. Sin embargo, y a manera de ilustracin mencionaremos
algunos de los usos de la estadstica en alguno de sus campos.
Establecimiento de normas de calidad de productos agrcolas e industriales.
Encuestas de opinin.
Estudios de mercado.
Necesidades de los servicios de las ciudades.
Contaminacin ambiental.
Inventarios agrcolas, ganaderos, forestales e industriales.
Estimacin de cosechas.
Control estadstico de procesos.
Prevalencia o incidencia de alguna plaga o enfermedad.
Mejoras de calidad de los equipos.
Disminucin de costos de produccin.
Reduccin de niveles de contaminacin en procesos industriales, etc.
1
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
El tema contempla el estudio de: medidas de tendencia central, de dispersin y de
posicin tanto para datos agrupado como no agrupados; representaciones grficas,
grficas de caja y empleo del software Minitab y Excel en el anlisis de estadstica
descriptiva.
1.2 Medidas de tendencia central en datos no agrupados.
Estas medidas son llamadas de tendencia central porque su valor por lo general se
encuentra en el centro de los datos que se analizan, si stos son ordenados de
menor a mayor.
1.2.1 Media aritmtica.
Si las observaciones de una muestra aleatoria de tamao n son: x1, x2,...,xn, entonces
la media de la muestra se simboliza por.
n
x
n
x x x
x
n
i
i
n

+ + +

1 2 1
_
...
Donde:
= letra griega que simboliza suma.
xi = valor de la variable aleatoria.
n = nmero de observaciones.
Ejemplo. Sea una muestra de seis estudiantes donde la variable en estudio son
los aos de edad de cada uno de ellos.
1
x
2
x
3
x
4
x
5
x
6
x
19 23 21 24 20 18
83 . 20
6
125
6
18 20 24 21 23 19
_

+ + + + +
x
Lo que significa que la edad promedio de los alumnos es de 20.8 aos.
La media aritmtica es un punto potencial que equilibra todos los puntos ubicados a
uno y otro lado de ella; o sea representa el valor promedio de todas las
observaciones de la muestra.
La media aritmtica es muy sensible a las mediciones extremas, cuando estas
medidas no estn equilibradas en ambos lados de la misma, por ejemplo.
x1 x2 x3 x4 x5
9 11 20 19 150
2
1 2 3
0
4 5 6 7
0
8
0
9 10 11
0
12
0
13
0
14
0
15
0
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
8 . 41
5
209
_
x
Como puede apreciarse el valor 41.8 cae fuera del grupo de observaciones, cuando
esto suceda es recomendable verificar si el valor atpico que aparece en los datos es
correcto (150), una observacin atpica es un valor que es inusual en relacin con el
resto de los datos. Si el valor es correcto, la medida de tendencia central
recomendada para analizar la informacin es la mediana.
La media aritmtica se puede comparar con el punto de apoyo en el juego de sube
baja, por ejemplo, sea una muestra de seis nios donde la variable aleatoria son los
aos de edad de cada uno de ellos. Puede observarse que seis es el valor que
equilibra a los datos.
1
x
2
x
3
x
4
x
5
x
6
x
4 2 6 2 7 15

As como hay la media de la muestra tambin existe la media poblacional y se
denota por la letra griega (miu) y se define por:
N
X
N
i
i

Donde:
= letra griega que simboliza suma.
Xi = variable que se esta estudiando.
N = total de elementos que componen la poblacin.

Puede observarse que para definir los parmetros de la poblacin se utilizan letras
maysculas o griegas, mientras que para definir los estimadores de la muestra se
emplean letras minsculas o nmeros.
1.2.2 Mediana ( M ).
Es la medida de tendencia central que divide la muestra en dos mitades iguales, o
sea, es el estadstico que se ubica exactamente a la mitad de los datos, el 50% de la
informacin se encuentra a la izquierda y el otro 50% a la derecha.
3
2 4
2
7 15
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y xn el valor ms grande. Entonces la mediana
queda definida por:
a. Si el nmero de observaciones es impar, la mediana es el valor de en medio.
b. Si el nmero de observaciones es par, la mediana es el promedio de las dos
observaciones de en medio.

Ejemplo. Sea la variable en estudio el nmero de hijos en siete familias.
9 5 8 2 0 1 5 n es impar
Primero ordenamos los datos de menor a mayor y posteriormente obtenemos la
mediana.
1
x
2
x
3
x
4
x
5
x
6
x
7
x
0 1 2 5 5 8 9
Mediana = 5 hijos por familia.
Lo anterior nos indica que el 50% de las familias tienen hasta cinco hijos y el 50%
restante tienen cinco hijos o ms.
Si obtenemos la media 28 . 4 x y la mediana M = 5, ambas cantidades brindan una
medida razonable de tendencia central (porque se ubican al centro de los datos).
La mediana tiene la ventaja sobre la media aritmtica porque no se afecta
considerablemente por valores atpicos, por ejemplo:
23 17 36 01 49 33 2520
Ordenando los valores tenemos:
01 17 23 33 36 49 2520
Aqu la mediana es M = 33 y la media aritmtica es 7 . 382 x , queda claro que la
media no nos dice mucho de la tendencia central de la mayor parte de los datos
cuando alguno de ellos se sale del rango de valores, cuando esto sucede es
recomendable utilizar para el anlisis a la mediana en lugar de la media aritmtica.
Veamos otro ejemplo donde n es par.
4 3 7 9 5 3
Ordenado:
1
x
2
x
3
x
4
x
5
x
6
x
3 3 4 5 7 9
4
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
5 . 4
2
5 4

+
M
1.2.3 Moda ( Mo ).
De todas las medidas de tendencia central, la moda es la ms fcil de determinar ya
que se obtiene por inspeccin visual y no por cmputo, o sea es la observacin que
ocurre con mayor frecuencia.
Ejemplo, sea la variable aleatoria las calificaciones finales obtenidas en una muestra
de 10 alumnos en la materia de probabilidad.
1
x
2
x
3
x
4
x
5
x
6
x
7
x
8
x
9
x
10
x
91 87 99 86 91 79 93 82 91 86
Noventa y uno es la moda ya que ocurre tres veces, lo que significa que el 30% de
los estudiantes obtuvieron de calificacin 91 puntos.
Hay ocasiones en que se encuentran dos modas, en este caso se dice que tiene una
distribucin bimodal, ejemplo:
1 7 3 6 3 2 4 6
Aqu la moda puede ser 3 y 6. Cuando se tenga ms de una moda se dice que se
trata de una distribucin multimodal.
1.2.4 Media ponderada.
La frmula matemtica que simboliza a esta medida de tendencia central es:

n
i
i
i
n
i
i
w
w
x w
x
1
1
_
Donde:
xi = valor de la variable aleatoria.
wi = nmero de observaciones de la variable aleatoria.
Ejemplo. Un turista carga gasolina en 4 estaciones y paga en cada una 9.70, 9.90,
10.15 y 9.80 pesos por litro, si carg 15 litros en la primer gasolinera, 20 en la
segunda, 15 en la tercera y 10 en la cuarta. Cul es el costo promedio por litro?
i
x
= precio de la gasolina.
i
W
= nmero de litros en cada gasolinera.
5
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
( ) ( ) ( ) ( )
896 . 9
60
75 . 593
60
80 . 9 10 15 . 10 15 90 . 9 20 70 . 9 15
_

+ + +
w x
Lo que significa que el costo promedio por litro de gasolina es de $ 9.90 pesos.
1.2.5 Comparacin de la media, mediana y moda.
Considrese la negociacin de un contrato colectivo de trabajo en el que el punto
ms importante a discutir es el incremento salarial, en donde participa el lder
sindical, la parte patronal y la Junta de Conciliacin y Arbitraje, para la negociacin
de dicho punto se obtuvo una muestra con los siguientes sueldos:
2,700 5,400 5,400 8,700 11,400 18,600
La parte patronal decide no dar el incremento salarial, en funcin de que el sueldo
promedio de los empleados es alto, siendo este:
8700
6
52200
_
x

El lder sindical argumenta que esto es falso ya que la muestra es muy pequea y
adems estn mezclados los sueldos de los empleados de base con los de
confianza, ya que sueldos de 8,700 en adelante corresponden a empleados de
confianza. Por lo tanto el sueldo promedio de los empleados de base es el que ms
se repite, o sea la moda, la cual es Mo = 5,400.
Un honesto tribunal recomendara como medida de discusin para el incremento
salarial a la mediana, que es la medida de tendencia central ms acertada para este
tipo de casos.
7050
2
8700 5400

+
M
Como puede apreciarse, las medidas de tendencia central son utilizadas en funcin
del comportamiento de los datos, en este ejemplo se observa un valor atpico
(18,600) por lo que la medida de tendencia central ms recomendable para el
anlisis es la mediana.
1.3 Medidas de dispersin en datos no agrupados.
Es por todo conocido que un nmero por s mismo carece de significado, solo lo
adquiere cuando se compara con otros nmeros o estadsticos.
Si conocemos la media de una distribucin de una variable dada, podemos
determinar cuando una calificacin es mayor menor que dicha media pero cunto
es mayor o cunto es menor?
Para describir una distribucin en forma ms completa es necesario una informacin
adicional que acompae a la media, la mediana o la moda.
6
Muestra 1 = *
Muestra 2 = x
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Esta informacin adicional debe de indicar el grado de dispersin de los valores de la
variable aleatoria alrededor de su promedio, para comprenderlo mejor veamos el
siguiente ejemplo numrico.
Considere la resistencia al rompimiento en libras por pulgada cuadrada (psi) de doce
botellas de vidrio de un litro, tomadas de dos lotes de produccin.
Muestra 1 230 250 245 258 265 240
Muestra 2 190 228 305 240 265 260
La media de ambas muestras es igual a 248 psi, sin embargo la dispersin de los
datos de la muestra dos es mayor a la de la muestra uno, como puede apreciarse en
el siguiente grfico.
x x x x x x
* * * * * *
180 200 220 240 260 280 300 320

x = 248
En base a la dispersin de los datos de cada lote de la grfica anterior, queda
demostrado que las medidas de tendencia central no proporcionan suficiente
informacin para describir adecuadamente la distribucin de una poblacin, para que
esto suceda deben ser acompaadas de una medida de dispersin, siendo por lo
general la varianza.
1.3.1 Rango.
Es una medida de variabilidad que indica la distancia en la escala de calificaciones.
Es la ms sencilla y directa en las medidas de dispersin, se obtiene restando al dato
mayor el dato menor y sumndole uno.
El rango es poco usado por su notoria inestabilidad, si existe en la distribucin alguna
calificacin extrema, la dispersin de las calificaciones parecera ms grande. Si
hiciramos caso omiso de esa distribucin extrema, podramos encontrar que la
distribucin es por el contrario ms compacta Ejemplo:
4 1 3 9 8 11 13 7 29
Rango = (29 - 1) + 1 = 29
Si quitamos el 29 el nuevo rango ser: (13 - 1) + 1 = 13 lo que nos indica que los
datos estn ms compactos.
7
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Dentro de los mayores defectos que tiene el rango son:
a) No permite hacer una interpretacin precisa de una calificacin dentro de la
distribucin.
b) No puede hacerse intervenir en ninguna de las relaciones matemticas,
importantes en la inferencia estadstica.

Su interpretacin ser: entre ms grande sea el rango mayor ser la dispersin de
las calificaciones.
1.3.2 Desviacin media (D. M.).
Consiste en restar a cada una de las calificaciones su media y sta diferencia se
suma pero en valor absoluto, dividindose posteriormente entre n.
Ejemplo.


La media aritmtica es
6
5
30
_
x


x x
i

= ( 2 ( ( 4 ( ( -1 ( ( -2 ( ( -3 (


12
5
1

i
i
x x

Por lo tanto la desviacin media ser igual a
4 . 2
5
12
. . M D
Su interpretacin ser: tanto mayor sea la desviacin media, tanto mayor es la
dispersin de las calificaciones.
La desviacin media por s sola tiene muy poco uso, si la estudiamos es debido a:
a) Est estrechamente relacionada con la varianza y la desviacin estndar.
b) La desviacin media es en cierta forma base para estimar errores en la prediccin.
Dentro de sus mayores defectos estn los mismos que los del rango.
1.3.3 Varianza y desviacin estndar.
La medida de dispersin ms utilizada dentro del anlisis estadstico es conocida
como varianza. S x1, x2,...,xn son las observaciones de una muestra de tamao n, el
algoritmo matemtico que define la varianza es:
1
x
2
x
3
x
4
x
5
x
8 10 5 4 3
8
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
( )
1
1
2
2

n
x x
S
n
i
i

Dicha frmula aplicando las leyes del lgebra podemos redefinirla como:
( )
2
1 1
2
2
1 1

,
_



n n
x
n
x
S
n
i
i
n
i
i
Para ver como la varianza de la muestra mide la dispersin de los datos, tomemos
los valores de la muestra dos, de la resistencia al rompimiento en libras por pulgadas
de las botellas.
x x x x x x
180 200 220 240 260 280 300 320
x = 248
La grfica muestra las desviaciones de
x x
i

, si sumamos estas desviaciones dar
como resultado cero, para evitar esto cambiamos las desviaciones negativas a no
negativas elevndolas al cuadrado, en consecuencia si las desviaciones son
pequeas, hay una relativamente pequea variabilidad en los datos, pero si las
desviaciones son grandes, la variabilidad es relativamente grande, por lo que la
varianza penalizar mucho las desviaciones grandes.
La varianza nos sirve para medir la variabilidad de los datos en una poblacin, o sea
nos permite conocer la homogeneidad o heterogeneidad de los datos que se estn
estudiando.
Ejemplo, obtengamos la varianza para la muestra uno y dos del rompimiento en
libras por pulgada cuadrada de los dos lotes de botellas.
Muestra 1 Muestra 2
n1 = 6 n2 = 6
1
x
= 1,488 2
x
= 1,488

2
1
x
=
369,814

2
2
x
=
376,534

1
x
= 248
2
x
= 248
9
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva

( )
( )
2
2
2
1
158
1 6 6
1488
1 6
814 , 369
psi S


( )
( )
2
2
2
2
502 , 1
1 6 6
1488
1 6
534 , 376
psi S


Al comparar estas dos varianzas vemos que la muestra uno tiene menor variabilidad
que la muestra dos, o sea que los datos estn ms apiladitos alrededor de su
promedio, dicho en otras palabras los datos de la muestra uno son ms
homogneos. Una varianza igual a cero significa que los valores de la variable
aleatoria son iguales.
Debido a que S
2
se expresa en el cuadrado de las unidades originales, no es fcil
interpretarlas, para resolver este problema de dimensionalidad, trabajamos con la
raz cuadrada (positiva) de la varianza la cual llamaremos desviacin estndar; esto
brinda una medida de dispersin expresada en las mismas unidades de la variable
con la que estamos trabajando.
Las desviaciones estndar de las muestras uno y dos de la resistencia al
rompimiento de las botellas son:
psi S S 57 . 12 158
2
1 1
psi S S 75 . 38 502 , 1
2
2 2

La interpretacin de la varianza y de la desviacin estndar ser: entre ms cercanos
se encuentren estos valores del cero, puede significar que los datos estn ms
agrupados alrededor de su promedio (existe poca variabilidad). Pero aqu se
recomienda tener cuidado cuando se trabaje con valores pequeos, ya que el
resultado de S
2
y S puede ser engaoso, en este caso se recomienda la utilizacin
del coeficiente de variacin para su interpretacin, el cual veremos a continuacin.
De igual forma que para la muestra hay una varianza, existe una medida de
variabilidad para la poblacin, la cual se denota con la letra griega
2
, su clculo es:
( )
2
2
1
1
2
1
2
2
N
X
N
X
N
X
N
i
i
N
i
i
N
i
i

,
_


1.3.4 Coeficiente de variacin.
Existe otra medida de dispersin que se conoce como coeficiente de variacin su
forma ms frecuente de encontrarlo es:
) 100 (
x
S
CV
La interpretacin del coeficiente de variacin es similar al de la varianza, con la
ventaja de que ste varia por lo general de 0 a 100%, entre ms pequeo sea,
significa que la poblacin es ms homognea, o sea que la varianza es ms
10
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
pequea. Y entre ms cercano est el CV al 100% significa que la poblacin es ms
heterognea.
En los ejemplos que nos ocupan los coeficientes de variacin son:
% 1 . 5 ) 100 (
248
57 . 12
1
CV

% 6 . 15 ) 100 (
248
75 . 38
2
CV
Puede observarse que hay menor variabilidad en cuanto a resistencia se refiere en la
muestra uno, por lo que podemos decir que este lote tiene ms calidad.
El coeficiente de variacin adems de indicarnos si una varianza es chica o grande,
nos sirve tambin para comparar poblaciones en donde se analiza diferente
variable, por ejemplo considere las siguientes dos poblaciones:
1. Un tirador realiza tres disparos a un
blanco y se mide la desviacin en mm.
de donde peg el disparo al blanco,
siendo estos:
2. El lanzamiento de tres cohetes a la
luna que tiene que alunizar en un
determinado lugar, la desviacin en Km.
son:
Disparo Desviacin Lanzamientos Desviacin
1
2
3
5 mm.
3 mm.
7 mm.
1
2
3
11 Km.
23 Km.
17 Km.
Calculemos ahora la media, varianza y desviacin estndar para ambas poblaciones.
1 = 5 mm.

2
1 = 2.67 mm
2
.
1 = 1.63 mm.
2 = 17 Km.
2
2
= 24 Km
2
.
2 = 4.9 Km.
Hasta aqu podramos suponer que la poblacin uno parece tener menor variabilidad
en sus datos que la poblacin dos.
Obtengamos ahora los coeficientes de variacin.
( ) % 6 . 32 100
5
63 . 1
1
CV ( ) % 8 . 28 100
17
9 . 4
2
CV
Aqu podemos afirmar que la variabilidad de la poblacin uno es ligeramente mayor
que la de la poblacin dos, o sea hay un mayor alejamiento de los disparos con
relacin a su media en comparacin con la poblacin dos. Aun cuando solo en un
3.8% la poblacin uno es ms variable que la poblacin dos.
11
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1.3.5 Percentiles
Un percentil es un valor x, donde por lo menos p por ciento de las observaciones
tienen un valor menor o igual a este valor x, y donde (100 p) por ciento de las
observaciones tienen un valor mayor o igual a x.
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y xn el valor ms grande. Entonces un percentil
puede calcularse de la siguiente manera:
) ( p n i
Donde p es el percentil buscado.
Si el valor de i no es entero redondearlo al primer entero mayor que i, el cual indicar
la posicin del percentil p.
Si el valor de i es entero, el percentil p es el promedio de los valores en las
posiciones i e i + 1.
Ejemplo. Sea la variable en estudio el nmero de hijos en seis familias.
5 8 2 0 1 5
Primero ordenamos los datos de menor a mayor.
1
x
2
x
3
x
4
x
5
x
6
x
0 1 2 5 5 8
El decil 25 o primer cuartil ser
5 . 1 ) 25 . 0 ( 6 i
que redondeado es 2. Por lo tanto
el percentil 25 es uno.
El percentil 50, segundo cuartil o mediana es
3 ) 50 . 0 ( 6 i
. Como i es entero el
percentil 50 es el promedio de los valores que estn en las posiciones 3 y 4 o sea
(2+5)/2 = 3.5.
El percentil 75 o tercer cuartil es
5 . 4 ) 75 . 0 ( 6 i
. Como i no es entero se redondea
a cinco, por lo que el tercer cuartil es el penltimo nmero o sea cinco.
1.4 Organizacin de poblaciones (datos agrupados).
1.4.1 Distribucin de frecuencias.
Cuando se tiene un gran nmero de datos lo ms conveniente es organizarlos y
presentarlos de tal manera que facilite su interpretacin.
Una de las primeras formas de organizarlos es mediante la presentacin de una
tabla de frecuencias, lo cual nos permite saber fcilmente que porcentaje de la
poblacin presenta las caractersticas que nos interesan.
12
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Para ilustrar el mtodo, tomemos como ejemplo la resistencia al rompimiento en
libras por pulgada cuadrada (psi) de 72 botellas de vidrio no retornable de refresco
de un litro.
265
205
263
307
220
268
260
234
197
286
274
243
231
267
281
265
343
317
242
258
276
300
208
187
280
242
260
321
228
250
299
258
265
254
281
294
223
260
308
235
200
235
246
328
296
276
264
269
221
176
248
263
231
334
280
265
265
262
271
245
301
280
274
253
261
248
260
274
337
250
278
254
Como es obvio estas cantidades no tienen ni pies ni cabeza a menos que las
organicemos de un modo sistemtico. Las razones para ordenarlos en una tabla de
frecuencias son:
a) Es antieconmico e imprctico tratar con un nmero de casos distribuidos en
muchos puntajes.
b) Algunos puntos tienen asociada una frecuencia tan baja o inclusive cero, que no
se justifica para mantenerlas como unidades distintas o separadas.
Como factor negativo tenemos, al agrupar los puntajes se pierde inevitablemente
parte de la informacin. Esto se puede medio resolver, agrupando los datos en la
forma ms correcta de acuerdo a la experiencia que se tenga con la informacin. De
aqu la pregunta obligada cuntos intervalos se deben de utilizar en una tabla de
frecuencias? La respuesta es difcil...
Algunos autores que estudian el comportamiento indican que pueden ser de 10 a
20 intervalos de clase. Otros dedicados a trabajos agrcolas citan de 5 a 25
intervalos. Autores que escriben sobre ingeniera indican de 5 a 20 intervalos de
clase y los que investigan sobre administracin recomiendan de 5 a 15.
Como puede observarse no existe una regla definida para determinar el nmero de
intervalos, ya que solo la experiencia del investigador es la que lo decide. Sin
embargo como apoyo a los alumnos que inician en este tema, podemos citar estas
dos formas.
La primera es la regla de Sturgess, la cual obtiene el nmero de intervalos de la
siguiente manera k = 1 + 3.3 (Log. n), donde n es el total de observaciones. La
segunda es la obtenida en la prctica que a menudo funciona bien, y es tomar como
nmero de intervalos (k) la raz cuadrada del nmero de observaciones,
ajustando este valor entre 5 y 15, cinco o seis intervalos bastan para resumirlos.
Estas dos alternativas ms la experiencia del investigador en el manejo de la variable
a estudiar, lo llevar a determinar el nmero adecuado de intervalos de clase.
13
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
El empleo de estas dos formas para la obtencin del nmero de intervalos no debe
considerarse como una verdad absoluta, ya que si al obtener las frecuencias en cada
uno de los intervalos en el trabajo que realicemos, encontramos que algunas son
muy bajas o incluso ceros, estos intervalos no tienen sentido tenerlos. Por lo que se
recomienda reducir el nmero de intervalos e iniciar nuevamente con los clculos
desde el principio.
Para iniciar con nuestro ejemplo, tenemos el caso prctico donde n = 72, por lo tanto
el nmero de intervalos a tomar ser k = 72 = 8.48 8.
Los pasos a seguir para la elaboracin de la tabla de frecuencia son:
1. Obtencin del rango. Se obtiene restando al dato mayor de los datos el dato
menor y sumando uno.
Rango = (343 - 176) + 1 = 168
Nota. Cuando los valores de la variable que se est analizando sean menores que
uno, o sean muy parecidos entre s, se recomienda no sumarle uno al rango.
2. Obtencin del tamao del intervalo de clase. Para esto se divide el rango entre el
nmero de intervalos, si el resultado es fraccionario redondee al nmero entero
ms cercano.
168 8 = 21
3. Clculo de los intervalos de clase:
1
er
intervalo. Lmite inferior = dato menor = 176

Lmite superior = dato menor + (tamao del intervalo - 1)
= 176 + 20 = 196
2
o
intervalo. Lmite inferior = entero consecutivo al lmite superior del
primer intervalo = 197.
Lmite superior = lmite inferior del segundo intervalo +
(Tamao del intervalo - 1)
= 197 + 20 = 217.
Para los dems intervalos se sigue el mismo procedimiento.
176 196 260 280
197 217 281 301
218 238 302 322
239 259 323 343
4. Obtencin de las frecuencias de la clase. A cada intervalo se le asigna el
nmero de datos que caen en cada uno de ellos.
14
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
176 196 !!
197 217 !!!!
218 238 !!!!! !!!!
239 259 !!!!! !!!!! !!!!
260 280 !!!!! !!!!! !!!!! !!!!! !!!!! !!
281 301 !!!!! !!!
302 322 !!!!
323 343 !!!!
5. Obtencin de los lmites reales de clase. En cada intervalo de clase se le resta
media unidad al lmite inferior y se le suma media unidad al lmite superior, para
evitar que un dato caiga en ms de un intervalo.
Nota. Si los datos son pequeos y ms an con decimales no obtenga los lmites
reales de clase.
6. Clculo del punto medio o marca de clase. Se obtiene de sumar los lmites
reales de cada intervalo y dividirlos entre dos.
7. Obtencin de la frecuencia relativa de clase. Se obtiene de dividir la frecuencia
de cada intervalo entre la suma de todas las frecuencias.
8. Obtencin de la frecuencia acumulada. A la frecuencia del primer intervalo se le
suma la frecuencia del segundo, a esta suma acumulada se le suma la frecuencia
del tercer intervalo y as sucesivamente.
9. Obtencin de la frecuencia relativa acumulada. Es similar al punto ocho pero con
la frecuencia relativa.
RESISTENCIA AL ROMPIMIENTO DE 72 BOTELLAS DE VIDRIO
Intervalo
de
clase
Frecuencia
de clase (
i
F
)
Marca de clase
o punto medio
( i
X
)
Frecuencia
relativa
Frecuencia
acumulada
Frecuencia
relativa
acumulada
175.5 - 196.5
196.5 - 217.5
217.5 - 238.5
238.5 - 259.5
2
4
9
14
186
207
228
249
0.03
0.06
0.12
0.19
2
6
15
29
0.03
0.09
0.21
0.40
15
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
259.5 - 280.5
280.5 - 301.5
301.5 - 322.5
322.5 - 343.5
Total
27
8
4
4
72
270
291
312
333
0.37
0.11
0.06
0.06
1.00
56
64
68
72
0.77
0.88
0.94
1.00
Con los valores de esta tabla ya podemos obtener informacin que anteriormente no
podamos, tales como:
Cuntas botellas tienen una resistencia menor a 217.5 psi? R= 4 + 2 = 6

Qu porcentaje de las botellas tienen resistencia mayor a 301.5 psi?
R= (4 + 4) / 72 = 0.111 11.1%
Cuntas botellas tienen una resistencia entre 238.5 y 280.5? R = 14 botellas.
Si se toma una botella al azar, cul es la probabilidad de que su resistencia sea
mayor a 280.5 psi? R = 16 / 72 = 0.222.
Suponiendo que en la bodega de donde se tomo la muestra hay 500,000 botellas
cuntas de ellas tendrn una resistencia mayor a 259.5 psi? R = Segn la muestra
el 59.72 %. Por lo tanto 500,000 x 0.5972 es igual a 298,600.
1.4.2 Medidas de tendencia central en datos agrupados.
La medida de tendencia central ms utilizada es la media aritmtica, la cual se
define como:
n
f x
x
k
i
i i

1
Donde:
xi = punto medio o marca de clase.
fi = frecuencia de clase .
n = nmero de observaciones.
i = 1,2..., k intervalos.
En el ejemplo que nos ocupa la media aritmtica es:
00 . 263
72
18936
72
) 4 ( 333 ) 4 ( 207 ) 2 ( 186

+ + +
x
Significa que en promedio, una botella tiene una resistencia de 263 libras por
pulgada cuadrada.
Moda. El algoritmo matemtico que la define es:
16
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Donde:
L = lmite inferior del
intervalo donde se encuentra la moda.
d1 = diferencia (sin consideracin de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo precedente.
d2 = diferencia (sin consideracin de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo siguiente.
w = tamao del intervalo de clase.
En nuestro ejemplo lo primero que debemos saber es en qu intervalo se
encuentra la moda, recordemos que sta se localiza en el intervalo que tiene la
mayor frecuencia, o sea el quinto intervalo.
En el ejemplo que estamos analizando su estimacin ser:

03 . 268 21
19 13
13
5 . 259
1
]
1

+
+ Mo
Significa que la mayor parte de las botellas tiene una resistencia de 268.03 psi.
Tambin podramos decir que aproximadamente el 37% de las botellas tiene una
resistencia de 268.03 psi.
Mediana. Su clculo lo obtenemos por:
w
f
S
n
L M
1
1
1
1
]
1

+
+
2
1
Donde: L = lmite inferior del intervalo donde se encuentra la mediana.
n = nmero de observaciones.
S = suma acumulada de las frecuencias, hasta antes del intervalo donde se
encuentra la mediana.
f = frecuencia del intervalo en donde se localiza la mediana.
w = tamao de intervalo de clase.
Para encontrar su valor en la tabla de frecuencias, lo primero que tenemos que hacer
es localizar el intervalo donde se encuentra la mediana. sta se localiza exactamente
a la mitad de los datos, en nuestro caso est en el quinto intervalo, ya que ah se
encuentra del 41 al 77% de la informacin, su estimador se obtiene por:
33 . 265 21
27
29
2
1 72
5 . 259
1
1
1
1
]
1

+
+ M
Lo anterior significa que el 50% de las botellas tienen una resistencia hasta de
265.33 psi y el 50% restantes tienen una resistencia de 265.33 o ms.
17
w
d d
d
L Mo
1
]
1

+
+
2 1
1
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1.4.3 Medidas de dispersin en datos agrupados.
La varianza y desviacin estndar son las medidas de dispersin ms empleadas
en estadstica inferencial. La frmula matemtica que defina a la varianza de la
muestra es:
( )
( ) 1 1 1
2
1
1
2
1
2
2

,
_


n n
f x
n
f x
n
f x x
S
k
i
i i
k
i
i i
k
i
i i
En el ejemplo que venimos analizando la varianza de la muestra ser:
{ }
) 1 72 ( 72
) 4 ( 333 ) 4 ( 207 ) 2 ( 186
1 72
) 4 ( 333 ) 4 ( 207 ) 2 ( 186
2 2 2 2
2

+ + +

+ + +
S
92 . 1055
5112
18936
71
5055138
2
2
S
Y la desviacin estndar se define por:
49 . 32 92 . 1055
2
S S
El coeficiente de variacin en base a los estimadores obtenidos es:
( ) ( )
% 35 . 12
263
100 49 . 32 100
. .
x
S
V C
La interpretacin de S
2
y S podemos obtenerla mediante el clculo del CV que por lo
general vara del 0 al 100%. En nuestro caso es de 12.35%, lo que nos indica que
hay poca variacin, o sea que la resistencia en psi de las botellas no se encuentran
tan dispersa alrededor del promedio (263), o lo que es lo mismo, la varianza es
chica.
1.4.4 Medidas de posicin en datos agrupados.
Otras medidas importante que podemos obtener de la tabla de frecuencias son los
percentiles. El algoritmo matemtico para su clculo se expresa de la siguiente
manera:
w
f
d
L D
i 1
]
1

+

Donde:
L = lmite inferior del intervalo donde se encuentra el percentil buscado.
18
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
d = diferencia (sin considerar signo) que se necesita para alcanzar el rango
del percentil buscado, tomado de la columna de frecuencias
acumuladas.
f = frecuencia de clase del intervalo donde se encuentra el percentil.
w = tamao del intervalo de clase.
Ejemplo. Qu valor representa el 10% de la resistencia de las botellas? El dcimo
percentil (D10) es la observacin con rango (%) (n) + 0.5, que en nuestro caso es
(0.10) (72) + 0.5 = 7.7, o sea que el dcimo percentil est entre la observacin que
ocupa el sptimo y el octavo lugar en la tabla de frecuencias.
Lo primero que debe hacerse es localizar el intervalo donde se encuentra el percentil
D10, para ello utilizamos la columna de frecuencia relativa acumulada, en ella
podemos observar que en el tercer intervalo se encuentra del 10 al 21% de los datos.
En la columna de frecuencia acumulada localizamos el intervalo donde puede
encontrarse el rango del percentil, en nuestro caso 7.7 se ubica en el tercer
intervalo, ya que ah esta del sptimo al quinceavo dato. El valor de d se obtiene por
la diferencia de 7.7 menos 6 que es 1.7
Por lo tanto la estimacin del percentil diez o el primer decil se obtiene por:
47 . 221 21
9
7 . 1
5 . 217
10

1
]
1

+ D
Lo que significa que el 10% de las botellas tienen una resistencia menor o igual a
221.47 psi. O lo que es lo mismo, el 90% de las botellas tienen una resistencia mayor
o igual a 221.47 psi.
Ejemplo. Qu valor representa el primer cuartil?
Su rango es
( ) + 5 . 18 5 . 0 72 25 . 0
la estimacin del primer cuartil es:
75 . 243 ) 21 (
14
5 . 3
5 . 238
25
+ D
Ejemplo. Obtengamos el segundo cuartil.
El rango del segundo cuartil es:
( ) + 5 . 36 5 . 0 72 5 . 0
su valor estimado ser:
33 . 265 ) 21 (
27
5 . 7
5 . 259
50
+ D
Cuyo valor debe ser idntico al obtenido en la mediana, lo cual sirve para verificar si
su clculo fue bien realizado.
Ejemplo. Cul ser el valor en resistencia que representa el percentil 75?
19
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
( ) + 5 . 54 5 . 0 72 75 . 0

33 . 279 ) 21 (
27
5 . 25
5 . 259
75
+ D
Significa que le 75% de las botellas tienen una resistencia hasta de 279.33, mientras
que el 25% restante tienen una resistencia mayor o igual a 279.33 psi.

1.5 Representaciones grficas.
1.5.1 Histograma.
La informacin de la tabla de frecuencias puede ser trasladada a un grfico, como un
histograma, un polgono de frecuencias o un polgono de frecuencias acumuladas los
cuales permiten lograr una apreciacin ms fcil de la informacin.
Qu es un histograma? Es una grfica de barras adyacentes, que muestra en el
eje horizontal las marcas de clase y en el eje vertical las frecuencias de clase, donde
la altura de cada rectngulo es proporcional a la frecuencia de clase que representa.
Por qu son utilizados los histogramas?
a) Para resumir datos y describir la historia respecto a un proceso.
b) Es mejor que tratar de obtener informacin de una lista de nmeros.
c) A menudo la forma del histograma puede proveer pistas acerca de un proceso,
para saber si est bajo control o fuera de control.
d) Nos indica grficamente si los datos se distribuyen de manera normal (tienen
forma de campana).
A continuacin se presenta el histograma, donde la base de cada rectngulo
representa el punto medio o marca de clase, y la altura est dada por la frecuencia
de la clase o nmero de observaciones que cae dentro de cada intervalo.
Con el fin de evitar que un grfico sea mal interpretado, se recomienda la realizacin
de grficas mediante la regla de los tres cuartos de altura. Dicha regla consiste en
que el eje de la ordenada (y) debe medir tres cuartas partes de lo que mide el eje de
la abscisa (x). Por ejemplo si el eje x mide 20 centmetros de longitud, el eje y debe
medir 15 cm.
La grfica siguiente presenta el histograma de nuestros datos, en l podemos
apreciar que a la mitad de la grfica se encuentra ms o menos el 263, que es la
resistencia promedio de las botellas (media aritmtica). As mismo podemos apreciar
que la mayor parte de la resistencia de las botellas est en 270 (moda), y de igual
manera la mediana tiene un valor un poco menor a 270.
Si unimos los centros de la parte superior de cada rectngulo obtenemos una nueva
grfica que se llama polgono de frecuencias, podemos ver que la figura que tiene
20
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
el histograma y la que tendra el polgono es el de una campana, lo anterior nos
indica que los datos se distribuyen de manera normal.
Histograma de la resistencia de las
botellas
0
5
10
15
20
25
30
186 207 228 249 270 291 312 333
Resistencia de las botellas en psi.
F
r
e
c
u
e
n
c
i
a
s
El histograma visto como histograma no nos dice mucho, para ver su aplicacin
tomemos como ejemplo una mquina despachadora de refrescos en vaso, donde
sirve un promedio de = 355 ml. y sus lmites de calidad son: LIC = 350 y LSC =
360 ml. Si tomamos una muestra de n vasos y realizamos su histograma, ste puede
presentar las siguientes figuras:
EN CONTROL Y ES CAPAZ
21
Modelo ideal, los
datos quedan dentro
de los lmites.
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
EN CONTROL CON CAPACIDAD SI SE ENFOCA ADECUADAMENTE
EN CONTROL NO CAPAZ
1.5.2 Polgono de frecuencias acumuladas.
Otro tipo de grfico es el polgono de frecuencias acumuladas, que nos presenta
de una manera eficiente la distribucin de frecuencias acumuladas. Este se
construye graficando sobre el eje de las x los lmites de clase y sobre el eje de las y
su frecuencia acumulada; los puntos as determinados se unen mediante segmentos
de recta.
RESISTENCIA AL ROMPIMIENTO DE 72 BOTELLAS DE VIDRIO
22
Histograma fuera de lmites, hay
que corregirlo. (La mquina est
dando de menos y de ms).
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
La interpretacin para este grfico es: en la parte izquierda se leen los datos de la
muestra, as para cualquier punto considerado en el eje y (ordenada) nos
proporciona un nmero de elementos que son menores o iguales al eje de la x
(abscisa); as podemos observar que 29 botellas tienen una resistencia menor o
igual a 259.5 psi.
Si vemos el eje derecho del grfico encontramos la frecuencia relativa acumulada, y
obtiene la misma interpretacin pero ahora de manera generalizada para toda la
poblacin. Ah podemos ver que el 77% de las botellas tienen una resistencia menor
o igual 280.5 psi. O lo que es lo mismo el 23% de las botellas tienen una resistencia
mayor a 280.5 psi.
Con las frecuencias relativas acumuladas de este polgono como variable
dependiente y los lmites de clase como variable independiente, se puede calcular
una ecuacin que se ajuste a los puntos del modelo, la cual nos sirve para hacer
predicciones. La grfica sugiere que se puede ajustar una ecuacin de primer grado
de la forma y = a + bx a los valores observados.
As la ecuacin que mejor describe la relacin entre los lmites de clase y la
frecuencia relativa acumulada es:
x y 607 . 7 354 . 1 +
, con la cual ya podemos
hacer predicciones para la frecuencia relativa acumulada en funcin de los valores
de x, dentro del rango 175.5 a 343.5.
1.5.3 Grfica de caja.
Una grfica de caja es una representacin grfica, que por lo general nos describe
de manera simultnea varias caractersticas de la muestra con la que estamos
trabajando, tales como: centro de los datos, la dispersin, la desviacin de la simetra
y valores que caen inusualmente lejos del grueso de los datos.

Es utilizada para describir visualmente la distribucin de los datos, permitiendo
detectar rpidamente cualquier sesgo de ellos. As mismo nos sirve para ver si hay
algunos valores atpicos en el conjunto de valores.
Un valor atpico puede surgir por: trasponerse dgitos cuando se registra una
medicin, realizar una mala lectura en un instrumento, mal funcionamiento de una
23
175.5 196.5 217.5 238.5 259.5 280.5 301.5 322.5 343.5
F
r
e
c
u
e
n
c
i
a
F
r
e
c
u
e
n
c
i
a
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
pieza de equipo o por otras causas. Estos valores atpicos pueden traer como
consecuencia la obtencin de estimadores con cierto sesgo.
Pasos para la elaboracin de una grfica de caja:
1. Obtenga la mediana, primer cuartil ( 25
D
) y tercer cuartil ( 75
D
).
2. Obtenga el rango intercuartlico 25 75
D D RIC
3. Obtencin de los lmites inferior y superior:
Lmite inferior = 25
D
- 1.5 (RIC)
Lmite superior = 75
D
+ 1.5 (RIC)

4. Trace una lnea horizontal representando la escala de medicin.
5. Forme una caja arriba de la recta horizontal con los extremos derecho e izquierdo
en 25
D
y 75
D
.
6. Trace una recta vertical a travs de la caja en la ubicacin de la mediana.
La grfica de caja proporciona el rango del conjunto de los datos empleando
bigotes (lneas que se extienden desde cada extremo de la caja), para indicar el
valor ms pequeo y el ms grande (excluyendo los valores atpicos) en la caja.
Los datos que queden fuera de los lmites inferior y superior se consideran valores
atpicos y se marcan en la grfica con un asterisco y los valores atpicos extremos se
marcan con un crculo.
Si la mediana est cerca de la mitad de la caja, la distribucin es regularmente
simtrica (tiene forma de campana), o sea que los datos se distribuyen normalmente.
Si la mediana est a la izquierda del centro, la distribucin est sesgada a la
derecha.
Si la mediana est a la derecha del centro, la distribucin est sesgada a la
izquierda.
Para mostrar como se realiza una grfica de caja, tomemos el ejemplo la resistencia
al rompimiento en libras por pulgada cuadrada (psi) de las 72 botellas de vidrio visto
con anterioridad.
Mediana =
33 . 265
50
D

Primer cuartil =
75 . 243
25
D
Tercer cuartil =
33 . 279
75
D

Rango intercuartlico RIC = 279.33 243.75 = 35.58
Lmite inferior = 243.75 - 1.5 (35.58) = 190.13
24
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Lmite superior = 279.33 + 1.5 (35.58) = 332.70
La grfica de caja que se muestra se obtuvo con el software Minitab, el cual la
presenta de manera vertical pero la interpretacin es la misma. Los valores atpicos
aparecen marcados con un asterisco (*) y fueron 176, 187, 337 y 343. Mientras que
los valores menor y mayor dentro de los bordes internos son 197 y 334. Estos son
los valores que forman los bigotes (ver cuadro de datos en la pgina 13).

360
320
280
240
200
C
2
Grfica de caja de C2

La grfica nos indica que la distribucin de las resistencias de las botellas es
bastante simtrica alrededor del valor central, ya que tanto los bigotes izquierdo y
derecho como las longitudes de las cajas izquierda y derecha alrededor de la
mediana son aproximadamente iguales. As mismo observamos que hay dos valores
atpicos en cada extremo de los datos, lo cual nos lleva a investigar el por qu de
ellos.
Apndice 1.1 Uso de Minitab en estadstica descriptiva.
Obtencin de medidas de tendencia central, de dispersin, de posicin y
grficas.
Para ilustrar la manera de como Minitab es utilizado para obtener medidas de
tendencia central, de dispersin, de posicin y grficas en datos no agrupados, se
muestra el siguiente ejemplo.
1. Concentre los valores de la variable aleatoria que desea analizar en la hoja de
clculo, como se indica a continuacin.
C1
1 8
2 4
25
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
3 12
4 2
5 14
6 10
7 6
8 16
9 18
10 10
11 14
12 8
13 16
2. Seleccione el men Estadsticas.
3. Elegir Estadsticas bsicas.
4. Hacer clic en Mostrar Estadsticas descriptivas.
5. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas.
Ingresar C1 en el cuadro Variables.
Hacer clic en Estadsticas.
6. Cuando aparezca el cuadro de dilogo Estadsticas Descriptivas-Estadsticas.
Hacer clic en las medidas de tendencia central, de dispersin o de posicin que
desee.
Hacer clic en Aceptar.
Hacer clic en Grficas.
7. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas-
grficas.
Hacer clic en las grficas que desee.
Hacer clic en Aceptar.
Hacer clic en Aceptar.
Obtencin de un diagrama de caja.
Para ilustrar la forma de cmo Minitab es utilizado para obtener un diagrama de caja,
tomemos el ejemplo de la resistencia al rompimiento en psi. de 72 botellas de vidrio
no retornable (pgina 13). Para generar los estadsticos descriptivos siga los pasos
siguientes:
1. Concentre la resistencia de las botellas en la columna C1 de la hoja de clculo de
Minitab, como se muestra a continuacin.
C1
1 265
2 205
3 263
26
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
4 307
5 220
6 268
7 260
8 234
9 197
. .
. .
. .
71 278
72 254
2. Seleccione el men Estadsticas.
Elegir Estadsticas bsicas.
Hacer clic en Mostrar estadsticas descriptivas.
3. Cuando aparezca el cuadro de dilogo Mostrar estadsticas descriptivas.
Ingresar C1 en el cuadro de Variables.
Hacer clic en Aceptar.
Hasta aqu Minitab le presenta: tamao de muestra, media, error estndar de la
media, desviacin estndar, valor mnimo, primer cuartil, mediana, tercer cuartil y
valor mximo. Para generar el diagrama de caja realice lo siguiente:
1. Seleccione el men Grfica.
Elegir Grfica de caja.
2. Cuando aparezca el cuadro de dilogo Grficas de caja.
Elegir Simple.
Hacer clic en Aceptar.

3. Cuando aparezca el cuadro de dilogo Grfica de caja - Una Y, Simple.
Ingresar C1 en el cuadro de Variables de grficas.
Hacer clic en Aceptar.
Obtencin de una grfica de puntos.
Utilizaremos los mismos datos de la resistencia al rompimiento en psi. de las botellas
de vidrio, empleados en el ejemplo de diagrama de caja.
1. capturar los 72 datos como lo indica el punto 1 del ejemplo anterior.

2. Seleccionar el men Grficas.
3. Cuando aparezca el cuadro de dilogo Grfica de puntos.
Seleccione Simple.
Hacer clic en Aceptar.
27
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
4. Cuando aparezca el cuadro de dilogo Grfica de puntos-Una Y, Simple.
Ingrese C1 en el cuadro Variables de grfica.
Hacer clic en Aceptar.
Obtencin de un diagrama de tallo y hojas.
Utilizaremos los mismos datos de la resistencia al rompimiento en psi. de las botellas
de vidrio, empleados en el ejemplo de diagrama de caja.
1. capturar los 72 datos como lo indica el punto 1 del ejemplo de diagrama de caja.
2. Seleccione el men Grficas.
Seleccionar Tallo y Hoja.
3. Cuando aparezca el cuadro de dilogo Tallo y Hoja.
Ingrese C1 en el cuadro Variables de Grficas.
Hacer clic en Aceptar.
Apndice 1.2 Uso de Excel en estadstica descriptiva.
Obtencin de las frecuencias de clase
Para ilustrar la forma de cmo Excel es utilizado para obtener una distribucin de
frecuencias con datos cuantitativos, tomaremos el ejemplo de la resistencia al
rompimiento en psi. de 72 botellas de vidrio no retornable (pgina 13).
1. Concentre la resistencia de las botellas, los intervalos de confianza y los lmites
superiores en la hoja de clculo como se indica a continuacin.
A B C D E
1 Resistencia Resistencia Limite
Superior
Frecuencia
2 265 176-196 196
3 205 197-217 217
4 263 218-238 238
5 307 239-259 259
6 220 260-280 280
7 268 281-301 301
8 260 302-322 322
9 234 323-343 343
10 197
. .
. .
. .
72 278
28
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
73 254
2. Seleccione las celdas E2:E9
3. Seleccione el men Insertar.
4. Hacer clic en Funcin.
5. Cuando aparezca el cuadro de dilogo Insertar funcin.
En la ventana O seleccionar una categora seleccione Estadsticas.
En la ventana Seleccionar una funcin seleccione Frecuencia.
Hacer clic en Aceptar.
6. Cuando aparezca el cuadro de dilogo Argumentos de funcin.
En el cuadro de Datos seleccione las celdas A2:A73
En el cuadro de Grupos seleccione las celdas D2:D9
Pulsar las teclas SHIFT y CTRL al mismo tiempo (maysculas) as como ENTER
Los valores de las frecuencias de clase aparecern en las celdas E2:E9 de la
siguiente manera: 2, 4, 9, 14, 27, 8, 4, 4.
Elaboracin de un histograma.
Para ilustrar el empleo de Excel como herramienta en la elaboracin de un
histograma, tomemos el ejemplo de la resistencia al rompimiento de las botellas de
vidrio (pgina 15); siga los siguientes pasos:
1. Concentre las frecuencias de clase y los puntos medios como aparece indicado en
la hoja de clculo.
A B
1 2 186
2 4 207
3 9 228
4 14 249
5 27 270
6 8 291
7 4 312
8 4 333
2. Seleccione las celdas A1:A8
3. Seleccione el icono Asistente para grficos de la barra de herramientas.
29
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
4. Cuando aparezca el cuadro de dilogo Asistente para grficos-paso 1 de 4: tipo
de grfico.
Hacer clic en Columna.
Hacer clic en Siguiente.
5. Cuando aparezca el cuadro de dilogo Asistente para grficos-paso 2 de 4:
datos de origen.
Seleccionar la pestaa Serie.
Haga clic en el cuadro Rtulo de ejes de categora (X):
Seleccione las celdas B1:B8
Hacer clic en Siguiente.
6. Cuando aparezca el cuadro de dilogo Asistente para grficos-paso 3 de 4:
opciones de grfico.
Seleccionar la pestaa Ttulos.
Digitar Histograma de la resistencia de las botellas en el cuadro Ttulo de grfico.
Digitar Resistencia de las botellas en psi. en el cuadro Eje de categoras (X).
Digitar Frecuencia en el cuadro Eje de valores (Y).
Seleccionar la pestaa Leyenda.
Quitar la paloma (marca de verificacin) que aparece en el cuadro Mostrar
leyenda.
Hacer clic en Siguiente.

7. Cuando aparezca el cuadro de dilogo Asistente para grficos-paso 4 de 4:
ubicacin del grfico.
Hacer clic en Como objeto en.
Hacer clic en Finalizar.
8. Cuando aparezca la grfica proceda de la siguiente manera.
Dar doble clic en cualquiera de las columnas de la grfica.
9. Cuando aparezca el cuadro de dilogo Formato de serie de datos.
Seleccionar la pestaa Opciones.
Digitar 0 en el cuadro Ancho del rango.
Hacer clic en Aceptar.
En los cuadros de dilogo, Excel tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.
30

S-ar putea să vă placă și