Sunteți pe pagina 1din 48

ESTADÍSTICA

Clase04.04.12

1
DIAGRAMA DE TALLOS Y HOJAS

sea x1 , x2 , x3 .............x, n Un conjunto de datos, tal que

xi tenga al menos dos dígitos

Una forma rápida de obtener una representación


visual del conjunto de datos es construir un
diagrama de tallos y hojas. Este diagrama es
usado cuando hay un número no muy pequeño de
datos.

2
La siguiente tabla representa el porcentaje de algodón
en un material utilizado para la fabricación de camisas
para caballeros.

porcentaje de algodón

33.1 35.3 34.2 33.6 33.6 33.1 37.6 33.6

34.5 34.7 33.4 32.5 35.4 34.6 37.3 34.1

35.6 35.0 34.7 34.1 34.6 35.9 34.6 34.7


36.3 35.4 34.6 35.1 33.8 34.7 35.5 35.7
35.1 36.2 35.2 36.8 37.1 33.6 32.8 36.8
34.7 36.8 35.0 37.9 34.0 32.9 32.1 34.3
33.6 35.1 34.9 36.4 34.1 33.5 34.5 32.7 n  64
32.6 33.6 33.8 34.2 34.6 34.7 35.8 37.8
tallo hojas

32 5891 76

33 1661 6486 6568

34 2576 1716 6767 7039 1526 7

35 3460 9415 7120 18

36 3288 84

37 6319 8

4
tallo hojas
6
32 1567 89
12
33 1145 6666 6688
21
34 0111 2235 5666 6677 7777 9
14 35 0011 1234 4567 89
6 36 2348 88
5 37 1368 9
Los siguientes son los pasos para construir un diagrama
de tallos y hojas:

1.- Seleccionar uno o más dígitos iniciales para los


valores de tallo. El dígito(s) final(es) se
convierte (n) en hojas. Para facilitar la
determinación de la forma de la distribución de
los datos se necesitan al menos 5 tallos. Hacer
una lista de valores de tallo en una columna
vertical.

2.- Registrar las hojas por cada observación junto


al valor correspondiente del tallo.

3.- Indicar las unidades para tallos y hojas en


algún lugar del diagrama.
6
Los diagramas de tallos y hojas nos dan una idea de la localización
de los datos y de la forma de la distribución. Esta técnica
funciona bien para los conjuntos de datos que no tienen una
dispersión muy grande.

Tallos Hojas
1 32 1
Una variación 6 32 56789
interesante 9 33 114
18 33 566666688
25 34 0111223
(14) 34 55666667777779
25 35 001112344
16 35 56789
11 36 234
8 36 888
5 37 13
3 37 689
http://www.estadisticaparatodos.es/taller/graficas/cajas.html
El diagrama "tallo y hojas" (Stem-and-Leaf
Diagram) permite obtener simultáneamente una
distribución de frecuencias de la variable y su
representación gráfica. Para construirlo basta
separar en cada dato el último dígito de la derecha
(que constituye la hoja) del bloque de cifras
restantes (que formará el tallo).
Esta representación de los datos es semejante a la
de un histograma pero además de ser fáciles de
elaborar, presentan más información que estos.

Ejemplos
Horarios de trenes
Edad de 20 personas
Comparar dos distribuciones
9
Basándome en un articulo de Juan C. Dürsteler en InfoVis.net,
tomamos como ejemplo un horario de trenes confeccionado a
partir de un díptico de la línea Castelldefels-Barcelona/Sants
recogido en la estación de Renfe. Originalmente el horario ocupa
una tabla de 10 filas y 9 columnas más una columna "viuda" con
el tren de las 22:38. Un total de 91 campos con formato hh.mm
cada uno, 455 caracteres.

5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38
6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20 6.18
7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32 6.37 8.02
9.32 12.02 14.02 15.37 17.20 19.02 20.37 6.48 8.05
9.37 12.07 14.07 15.50 17.32 19.07 20.50 6.55 8.20 10.02
12.32 14.20 16.02 17.37 19.20 21.02 7.02 8.24 10.07 12.37
14.32 16.07 17.50 19.32 21.07 7.07 8.32 10.32 13.02 14.37
16.20 18.02 19.37 21.20 7.20 8.37 10.37 13.07 14.50 16.32
18.07 19.50 21.32 7.25 8.51 11.02 13.20 15.02 16.37 18.20
20.02 21.37
En el diagrama Stem & Leaf
05 | 03
se representa la hora a la
06 | 02 18 37 48 55
izquierda de la barra de
07 | 02 07 20 25 32 37 50
separación | y los minutos de
08 | 02 05 20 24 32 37 51
la salida de cada tren a la
09 | 02 07 24 32 37
derecha. La frecuencia de
10 | 02 07 32 37
los trenes se deduce
11 | 02 07 32 37
fácilmente de la longitud de
12 | 02 07 32 37
las filas y es, además, muy
13 | 02 07 20 32 37 50
fácil ver en que minutos de
14 | 02 07 20 32 37 50
cada hora pasan típicamente
15 | 02 07 20 32 37 50
los mismos.
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38
Por otra parte, dado que a algunas horas se repite
exactamente el horario de los trenes se puede
reducir aún más el tamaño del gráfico, sin perder
información y ganando en claridad.
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 11 12 | 02 07 32 37
13 14 15 16 17 18 19 20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38
Al final tenemos 59 campos de 2 dígitos, 118 caracteres más los separadores,
es decir 4 veces menos dígitos que con el horario original, menos espacio y
más claridad.
Esto nos da idea de que una disposición apropiada de los datos puede ser
doblemente informativa y que la representación gráfica puede contribuir
enormemente a la percepción de patrones y a la comprensión de la
naturaleza de los fenómenos.
Edad de 20 personas
Supongamos la siguiente distribución de frecuencias

36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40

que representan la edad de un colectivo de N = 20 personas y que vamos a


representar mediante un diagrama de Tallos y Hojas.

Comenzamos seleccionando los tallos que en nuestro caso son las cifras de
decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.
A continuación efectuamos un recuento y vamos «añadiendo» cada hoja
a su tallo

13
Por último reordenamos las hojas y hemos terminado el
diagrama
Comparar dos distribuciones
Podemos comparar, mediante estos diagramas, dos
distribuciones.

Supongamos una segunda distribución

35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
De ella podemos elaborar sus diagrama de Tallos y
Hojas y compararla con la anterior.
HISTOGRAMA

El histograma puede ser:


Es una técnica gráfica de frecuencias absolutas,
utilizada para de frecuencias relativas,
presentar gran de frecuencias absolutas
cantidad de datos acumuladas y de
frecuencias relativas
acumuladas

El histograma de frecuencias es una representación


visual de los datos en donde se evidencian
fundamentalmente tres características: forma,
acumulación o tendencia posicional y dispersión o
variabilidad.
16
El histograma (de frecuencias) en si es una
sucesión de rectángulos construidos sobre un
sistema de coordenadas de la siguiente manera:

Las bases de los rectángulos se localizan en el eje


horizontal. La longitud de la base es igual al
ancho del intervalo.

Las alturas de los rectángulos se registran sobre


el eje vertical y corresponden a las frecuencias
de los intervalos.

Las áreas de los rectángulos son proporcionales a


las frecuencias de las clases.
POLÍGONO DE FRECUENCIA

Se construye sobre el sistema de coordenadas


cartesianas, al colocar sobre cada marca de clase
un punto a una altura igual a la frecuencia asociada
a esa clase; luego se unen dichos puntos por
segmentos de recta.
La Ojiva es un polígono que se obtiene de unir por
segmentos de recta los puntos situados a una
altura igual a la frecuencia acumulada a partir de
la marca de clase como se hace con el polígono de
frecuencia.
TABLA DE FRECUENCIAS

Una tabla de frecuencias es un arreglo tabular de


las frecuencias con que ocurre cada característica
en que se han dividido los datos.

Un intervalo de clase, es cada uno de los rangos de


valores en que se ha decidido agrupar parcialmente
los datos con el propósito de hacer un resumen de
ellos.

El número de mediciones que quedan dentro del


intervalo se llama frecuencia del intervalo y se
denota por f.i La diferencia entre el extremo mayor
y el extremo menor del intervalo se llama longitud o
ancho del intervalo.
22
La marca de clase, es el punto medio del
intervalo de la clase, se denota por mi Su valor
es obtenido al promediar los extremos del
intervalo.
La frecuencia absoluta acumulada de la clase i, es
el número resultante de sumar la frecuencia de la
clase i con la frecuencia de las clases
antecedentes y se denota Fi

La frecuencia relativa de la clase i es el cociente


entre la frecuencia de la clase i y el número de
datos total, se denota por h.
i

La frecuencia acumulada relativa, de la clase i es


el cociente entre la frecuencia acumulada de la
clase i y el número de observaciones, se denota
por H i
La construcción de una tabla de frecuencias para datos
cuantitativos presenta como su punto de mayor importancia
la determinación del número de intervalos (clases) que la
conformarán.
Este número depende de la cantidad y de la naturaleza de los
datos a resumir y del propósito que se busca con el
resumen.
Pautas para la construcción de una tabla de frecuencias.

1. El número de intervalos debe escogerse de acuerdo con el


número de datos.

2.Una vez escogido el número de intervalos, se determina la


longitud que deben tener los intervalos, dividiendo el rango
en el número de clases o intervalos. rango/Número de
clases.

3.El primer intervalo debe contener el menor de los datos y el


último el mayor.
UNA SITUACIÓN INTERESANTE

Un problema de interés para la División de Economía Comercial


(DEC) del Departamento de Trabajo de cierto gobierno. Cada
año, la DEC monitorea la empresas que fracasan y clasifica
cada fracaso en una de las seis siguientes categorías:
(1)falta de experiencia en la línea de producción,
(2) falta de experiencia gerencial,
(3) experiencia desequilibrada,
(4) incompetencia,
(5) otras causas (como negligencia, fraude y desastres
naturales) y
(6) causas desconocidas.
Estas informaciones se basan en las opiniones de acreedores
informados y los informes de la DEC. En fechas recientes, la
DEC determinó la causa de 1463 fracasos de empresas
varias. Los fracasos se muestran en la siguiente tabla.
Distribución de frecuencias de los fracasos de empresas

Frecuencia Proporción
Causas subyacentes Frecuencia
relativa Acumulat.
Incompetencia 698 0.477 0.477
Experiencia desequilibrada 314 0.215 0.692
Falta de experiencia
236 0.161 0.853
gerencial
Falta de experiencia de
111 0.076 0.929
línea
Causa desconocida 83 0.057 0.986
Otras causas 21 0.014 1.000
TOTALES 1463 1.000
Diagrama de Pareto

Los diagramas de Pareto son una importante herramienta


en los procesos de mejoramiento de la calidad.
Alfredo Pareto, un economista italiano en la era 1848-
1923, encontró que la riqueza se encuentra en pocas
personas.
Esta observación le llevó a formular el principio de Pareto
" Un pequeño segmento de la población es dueño de la
mayoría de las riquezas".
Este principio aplica al mejoramiento de la calidad.
En las organizaciones de manufactura o servicios, por
ejemplo el problema de áreas o tipos de defectos siguen
de distribuciones similares.

28
En las organizaciones de manufactura o
servicios, por ejemplo el problema de áreas o
tipos de defectos siguen de distribuciones
similares.
De todos los problemas que ocurren, solamente
unos pocos son realmente frecuentes, los otros
raramente ocurren.
Así, agrupando las áreas de esos problemas en
dos categorías, ellas son denominadas como la
poco vital y la muy trivial.
El principio de Pareto también imparte soporte
para la regla de80 20
, que dice que el 80% de los
problemas (inconformidad o defectos) son
ocasionados por el 20% de las causas.
Los diagramas de Pareto ayudan a identificar rápidamente las
áreas críticas (aquellas que causan más problemas) que
merecen inmediata atención.

La identificación de esos problemas, y su resolución, puede


llevar a un sustancial mejoramiento en la calidad.

Los diagramas de Pareto arreglan los problemas en orden de


importancia, la "importancia", por ejemplo, puede referirse al
impacto financiero de un problema o el número relativo de
ocurrencia del problema.
Los pasos para construir un diagrama de Pareto son:

Paso 1: Determine la categorización del sistema de datos, es


decir, por tipo de problema, tipo de inconformidad (crítica, grave,
menor), o cualquier otra que también veamos apropiada.

Paso 2:Determine como será juzgada la importancia relativa. Esto


es, si se debería basar sobre valores monetarios o la frecuencia
de ocurrencia.

Paso 3:Establezca el rango de las categorías de la más importante


a la menos importante.

Paso 4:Calcule la frecuencia acumulativa de las categorías de los


datos en el orden seleccionado.

Paso 5:Dibuje un gráfico de barras, mostrando la importancia


relativa de cada problema en orden descendente. Identificando lo
poco vital que merece inmediata atención.
DIAGRAMA DE CAJAS

Los diagramas de tallo y hoja y los histogramas


proporcionan impresiones más bien generales acerca
de un conjunto de datos, mientras que la media y la
desviación estándar se concentra en un solo aspecto
de la información.

En años recientes, un resumen gráfico llamado


Diagrama de Bloque se ha empleado de manera
satisfactoria para describir varias de las más
destacadas características de un conjunto de datos.

32
DIAGRAMA DE CAJAS

Estas características Debido a que incluso un


incluyen: centro, solo punto inusual puede
dispersión, naturaleza afectar de manera
y magnitud de drástica el valor de
cualquier desviación de algunas medidas
la simetría e numéricas (como la
identificación de media y la desviación
"puntos inusuales"; es estándar), un diagrama
decir, observaciones de bloque está basado
que están en medidas que son
desafortunadamente "resistentes" a la
lejos del cuerpo presencia de unos
principal de los datos. cuantos puntos
inusuales.-
Un diagrama de bloque se puede construir mediante la siguiente
secuencia de pasos:

1.Dibujar y marcar un eje de medida horizontal.

2.Construir un rectángulo cuyo borde izquierdo está arriba del primer


cuartil y cuyo borde derecho esta arriba del tercer cuartil .

3.Dibujar un segmento de recta vertical dentro del bloque o caja


arriba de la mediana.

4.Prolongar rectas desde cada extremo del bloque o de la caja hasta


las observaciones más lejanas que estén todavía a menos de 1.5
veces el rango intercuartílico de los bordes correspondientes.

5.Dibujar un círculo vacío para identificar cada observación que caiga


entre 1.5 y 3.0 veces el rango intercuartílico a partir del borde del
rectángulo; éstos se llaman puntos inusuales suaves.

6.Dibujar un círculo relleno para identificar cada observación que


caiga a más de del borde más cercano; éstos se llaman puntos
inusuales extremos.
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son
una presentación visual que describe varias características
importantes, al mismo tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores


mínimo y máximo de los datos,

Construimos una caja rectangular, donde los lados más largos


muestran el recorrido intercuartílico.
Este rectángulo está dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relación con los
cuartiles primero y tercero (recordemos que el segundo cuartil
coincide con la mediana).

Esta caja se ubica a escala sobre un segmento que tiene como


extremos los valores mínimo y máximo de la variable. Las líneas
que sobresalen de la caja se llaman bigotes.
El bigote de la izquierda representa al colectivo de ( Xmín, Q1)

La primera parte de la caja a (Q1, Q2),

La segunda parte de la caja a (Q2, Q3)

El bigote de la derecha viene dado por (Q3, Xmáx).


Veamos alguna información que nos da el diagrama

La parte izquierda de la caja es mayor que la de la derecha; ello quiere


decir que los valores comprendidas entre el 25% y el 50% de la población
está más dispersa que entre el 50% y el 75%.

El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha;


por ello el 25% de los valores menores están más concentrados que el
25% de los valores mayores.

El rango intercuartílico = Q3 - Q1 = indica que el 50% de los valores está


comprendido entre Q1 y Q3

Intente obtener más información (¡Utilice la mediana!)

38
Tomemos la edad de 20 personas

36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40

Ordenemos estos valores

20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

Cálculo de Cuartiles
n  20

n Q1 
24  25  24.5
5
4 2

n Q2  me 
33  34  33.5
2  10 2
4

n Q3 
39  39
 39
3  15
4 2
La parte izquierda de la caja es mayor que la de la derecha;
ello quiere decir que las edades comprendidas entre el 25% y
el 50% de la población está más dispersa que entre el 50% y
el 75%.

El bigote de la izquierda (Xmím, Q1) es más corto que el de la


derecha; por ello el 25% de los más jóvenes están más
concentrados que el 25% de los mayores.

El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50%


de la población está comprendido en 14,5 años.
Comparación distribución de edades

Comparamos, mediante estos diagramas, dos distribuciones


de edades.

36 25 37 24 39 20 36 45 31 31 35 38 32 28 30 29 27 19 48 40
39 24 29 23 41 40 33 24 34 40 39 24 24 34 26 41 29 48 28 22
DATOS PARA DOS VARIABLES .-

Descripción de datos para dos variables

En muchos casos industriales se requiere conocer


la relación de dos variables ya sean categóricas o
cuantitativas, caso en el cual es necesario primero
presentar un análisis descriptivo de la información,
para lo cual es recomendable inicialmente realizar
gráficos como el diagrama de dispersión o los
diagramas de barras.

42
En las distribuciones bidimensionales a cada
individuo le corresponden los valores de dos
variables, las representamos por el par (xi, yi).

Si representamos cada par de valores como las


coordenadas de un punto, el conjunto de todos
ellos se llama nube de puntos o diagrama de
dispersión.
Las notas de 12 alumnos de una clase en Matemáticas y Física
son las siguientes:

M 2 3 4 4 5 6 6 7 7 8 9 10
F 1 3 2 4 4 4 6 4 6 7 9 10

15
notas fisica

10
Serie1
5

0
0 5 10 15
notas matematicas
Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo
mejor posible

S-ar putea să vă placă și