Documente Academic
Documente Profesional
Documente Cultură
http://www.estadisticaparatodos.es/software/software_otros.html
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener
simultneamente una distribucin de frecuencias de la variable y su representacin
grfica. Para construirlo basta separar en cada dato el ltimo dgito de la derecha (que
constituye la hoja) del bloque de cifras restantes (que formar el tallo).
Esta representacin de los datos es semejante a la de un histograma pero adems de ser
fciles de elaborar, presentan ms informacin que estos.
Ejemplos
Horarios de trenes
Edad de 20 personas
Comparar dos distribuciones
Horarios de trenes
Basndome en un articulo de Juan C. Drsteler en InfoVis.net, tomamos como ejemplo
un horario de trenes confeccionado a partir de un dptico de la lnea CastelldefelsBarcelona/Sants recogido en la estacin de Renfe. Originalmente el horario ocupa una
tabla de 10 filas y 9 columnas ms una columna "viuda" con el tren de las 22:38. Un
total de 91 campos con formato hh.mm cada uno, 455 caracteres.
Dptico original Trayecto Castelldefels -> Barcelona-Sants
5.03
7.32
9.02
11.07
13.32
15.07
16.50
18.32
20.07
6.02
6.18
6.37
6.48
6.55
7.02
7.07
7.20
7.25
7.37
7.50
8.02
8.05
8.20
8.24
8.32
8.37
8.51
9.07
9.24
9.32
9.37
10.02
10.07
10.32
10.37
11.02
11.32
11.37
12.02
12.07
12.32
12.37
13.02
13.07
13.20
13.37
13.50
14.02
14.07
14.20
14.32
14.37
14.50
15.02
15.20
15.32
15.37
15.50
16.02
16.07
16.20
16.32
16.37
17.02
17.07
17.20
17.32
17.37
17.50
18.02
18.07
18.20
18.37
18.50
19.02
19.07
19.20
19.32
19.37
19.50
20.02
20.20
20.32
20.37
20.50
21.02
21.07
21.20
21.32
21.37
22.38
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
02
02
02
02
02
02
02
02
02
02
02
02
02
02
02
38
07
05
07
07
07
07
07
07
07
07
07
07
07
07
07
20
20
24
32
32
32
20
20
20
20
20
20
20
20
20
25
24
32
37
37
37
32
32
32
32
32
32
32
32
32
32 37 50
32 37 51
37
37
37
37
37
37
37
37
37
37
50
50
50
50
50
50
50
50
Por otra parte, dado que a algunas horas se repite exactamente el horario de los
trenes se puede reducir an ms el tamao del grfico, sin perder informacin y
ganando en claridad.
Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido
05
06
07
08
09
10 11 12
13 14 15 16 17 18 19 20
21
22
|
|
|
|
|
|
|
|
|
03
02
02
02
02
02
02
02
38
18
07
05
07
07
07
07
37
20
20
24
32
20
20
48
25
24
32
37
32
32
55
32 37 50
32 37 51
37
37 50
37
Edad de 20 personas
Supongamos la siguiente distribucin de frecuencias
36
25
37
24
39
20
36
45
31
31
39
24
29
23
41
40
33
24
34
40
38
32
28
30
29
27
19
48
40
39
24
24
34
26
41
29
48
28
22
De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.
DIAGRAMA DE CAJA
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentacin
visual que describe varias caractersticas importantes, al mismo tiempo, tales como la
dispersin y simetra.
Para su realizacin se representan los tres cuartiles y los valores mnimo y mximo de
los datos, sobre un rectngulo, alineado horizontal o verticalmente.
Construccin:
Comparar distribuciones
Diagrama de Caja a travs de Excel
Construccin:
Una grfica de este tipo consiste en una caja rectangular, donde los lados ms largos
muestran el recorrido intercuartlico. Este rectngulo est dividido por un segmento
vertical que indica donde se posiciona la mediana y por lo tanto su relacin con los
cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores
mnimo y mximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes.
Estos bigotes tienen tienen un lmite de prolongacin, de modo que cualquier dato o
caso que no se encuentre dentro de este rango es marcado e identificado
individualmente
Ejemplo distribucin de edades
25
37
24
39
20
36
45
31
31
39
24
29
23
41
40
33
24
34
40
40
20 23 24
41 45
24
24
25
29
31
31
33
34
36
36
37
39
39
Calculo de Cuartiles
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribucin.
Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmtica de dicho valor
y el siguiente:
Q1=(24 + 25) / 2 = 24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribucin, es el valor de la
variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ;
la mediana es la media aritmtica de dicho valor y el siguiente:
me= Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribucin.
En nuestro caso, como 3N / 4 = 15, resulta
Q2=(39 + 39) / 2 = 39
Dibujar la Caja y los Bigotes
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que
las edades comprendidas entre el 25% y el 50% de la poblacin est ms
dispersa que entre el 50% y el 75%.
El bigote de la izquierda (Xmm, Q1) es ms corto que el de la derecha; por ello
el 25% de los ms jvenes estn ms concentrados que el 25% de los mayores.
El rango intercuartlico = Q3 - Q1 = 14,5; es decir, el 50% de la poblacin est
comprendido en 14,5 aos.
Comparar distribuciones
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o ms conjuntos
de datos.
38
32
28
30
29
27
19
48
40
39
24
24
34
26
41
29
48
28
22
Un corredor entrena para una determinada carrera y se toman los tiempos que necesita
para recorrer los 100m, durante 10 das consecutivos (cada da se toman varios tiempos
y se calculan mediana, cuartiles, valores mnimo y mximo)
Observamos que el desplazamiento de las grficas de caja hacia la izquierda indica que
el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la
misma distancia, siendo la diferencia entre el mximo y el mnimo menor, como as
tambin la diferencia intercuartlica.
Comentarios: No hay datos muy atpicos, es decir que no hay equipo que se haya
destacado por arriba o por abajo del resto de los equipos. Hay ms diferencia de puntos
entre el primer y el ltimo clasificado para la liga 02/03 que en la liga anterior. Los
quipos del tercer cuarto de la clasificacin estn ms apelotonados en la liga 02/03.
Asimetra
Curtosis o apuntamiento
Hasta ahora, hemos estado analizando y estudiando la dispersin de una
distribucin, pero parece evidente que necesitamos conocer ms sobre el
comportamiento de una distribucin. En esta parte, analizaremos las medidas
de forma, en el sentido de histograma o representacin de datos, es decir, que
informacin nos aporta segn la forma que tengan la disposicin de datos
Las medidas de forma de una distribucin se pueden clasificar en dos grandes
grupos o bloques: medidas de asimetra y medidas de curtosis.
2.5.1. Medidas de asimetra o sesgo : Coeficiente de asimetra de Fisher
Cuando al trazar una vertical, en el diagrama de barras o histograma, de una
variable, segn sea esta discreta o continua, por el valor de la media, esta
vertical, se transforma en eje de simetra, decimos que la distribucin es
simtrica. En caso contrario, dicha distribucin ser asimtrica o diremos que
presenta asimetra.
El coeficiente de asimetra ms preciso es el de Fisher, que se define por:
Segn sea el valor de g1, diremos que la distribucin es asimtrica a derechas
o positiva, a izquierdas o negativa, o simtrica, o sea:
2.5.2. Medidas de apuntamiento o curtosis: coeficiente de curtosis de
Fisher
Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene
una distribucin; para determinarlo, emplearemos el coeficiente de curtosis de
Fisher.
- Si existe simetra, entonces g1 = 0, y Me X = ; si adems la distribucin es
unimodal, tambin podemos afirmar que:
2.6. Medidas de concentracin
Las medidas de concentracin tratan de poner de relieve el mayor o menor
grado de igualdad en el reparto del total de los valores de la variable, son por
tanto indicadores del grado de distribucin de la variable
Para este fin, estn concebidos los estudios sobre concentracin
Denominamos concentracin a la mayor o menor equidad en el reparto de la
suma total de los valores de la variable considerada (renta, salarios, etc.)
Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre
los dos extremos: 1.- Concentracin mxima, cuando uno solo percibe el total y
los dems nada, en este caso, nos encontraremos ante un reparto no
equitativo: x1 = x2 = x3 = = xn-1 = 0 y xn.
3.3.1.Independencia
Cuando no se da ningn tipo de relacin entre 2 variables o atributos, diremos
que son independientes
Dos variables X e Y, son independientes entre si, cuando una de ellas no
influye en la distribucin de la otra condicionada por el valor que adopte la
primera. Por el contrario existir dependencia cuando los valores de una
distribucin condicionan a los de la otra
Dada dos variables estadsticas X e Y, la condicin necesaria y suficiente para
que sean independientes es:
Propiedades:
1) Si X es independiente de Y, las distribuciones condicionadas de X/Yj son
idnticas a la distribucin marginal de X
2) Si X es independiente de Y, Y es independiente de X
3) Si X e Y son 2 variables estadsticamente independientes, su covarianza es
cero. La recproca de esta propiedad no es cierta, es decir, la covarianza de 2
variables puede tomar valor cero, y no ser independientes
3.3.2.Dependencia funcional
( existe una relacin matemtica exacta entre ambas variables ) El carcter X
depende del carcter Y, si a cada modalidad yj de Y corresponde una nica
modalidad posible de X. Por lo tanto cualquiera que sea j, la frecuencia
absoluta nij vale cero salvo para un valor de i correspondiente a una columna j
tal que nij = n.j Cada columna de la tabla de frecuencias tendr, por
consiguiente, un nico trmino distinto de cero. Si a cada modalidad xi de X
corresponde una nica modalidad posible de Y, ser Y dependiente de X. La
dependencia de X respecto de Y no implica que Y dependa de X
Para que la dependencia sea recproca, los caracteres X e Y deben presentar
el mismo nmero de modalidades ( debe ser n=m) y en cada fila como en cada
columna de la tabla debe haber uno y solo un trmino diferente de cero
Sea X el salario de un empleado e Y la antigedad del mismo en la empresa
Dependencia funcional recproca: X depende de Y e Y depende de X
Y depende de X pero X no depende de Y
3.3.3.Dependencia estadstica
( existe una relacin aproximada )
Existen caracteres que ni son independientes, ni se da entre ellos una relacin
de dependencia funcional, pero si se percibe una cierta relacin de
dependencia entre ambos; se trata de una dependencia estadstica