Documente Academic
Documente Profesional
Documente Cultură
IA DEL SOFTWARE
Introducci
on
ESTAD
ISTICA
TEMA 1(A)
DESCRIPCION
DE DATOS UNIVARIANTES
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
Sonia Hern
andez Alonso
Departamento de Inform
atica y Estadstica (URJC)
Estadstica descriptiva
0
0
0
3
1
1
0
5
5
5
1
6
4
4
1
0
0
1
1
2
1
3
5
5
0
1
0
2
2
3
2
2
2
1
0
0
1
0
1
1
0
1
1
3
2
2
1
0
2
3
3
1
2
4
0
3
1
3
2
1
0
1
1
5
2
3
2
6
4
5
2
0
1
2
0
1
3
2
2
0
4
0
2
1
2
4
3
1
3
0
5
5
2
4
1
4
3
1
3
0
3
1
2
1
3
1
1
1
3
4
2
1
2
2
0
6
2
4
4
2
2
2
4
1
4
1
3
1
3
0
1
3
1
2
1
0
0
2
1
5
Esquema
Descripci
on de variables categ
oricas
Descripci
on de variables cuantitativas:
Distribuci
on de frecuencias en variables discretas
Distribuci
on de frecuencias en variables continuas
Resumen num
erico de los datos:
Descripci
on de variables categ
oricas
Medidas de centralizaci
on
Medidas de posici
on
Medidas de dispersi
on
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
Distribuci
on de frecuencias
La distribuci
on de frecuencias es la descripci
on del conjunto de
clases con sus correspondientes frecuencias.
Para presentar de forma ordenada la distribuci
on de frecuencias se
utilizan tablas de frecuencias, cuya estructura general es la siguiente:
Modalidades
c1
...
cj
...
ck
Frec. Absolutas
n1
...
nj
...
nk
Frec. Relativas
f1 = nn1
...
n
fj = nj
...
fk = nnk
Total:
F. absoluta (ni)
6
4
5
9
3
1
2
30
F. relativa (fi)
0.2000
0.1333
0.1667
0.3000
0.1000
0.0333
0.0667
1
La distribuci
on de frecuencias tambi
en puede visualizarse mediante
gr
aficos.
Representaciones gr
aficas para var cualitativas
Habitualmente resulta m
as inmediato visualizar la distribuci
on de frecuencias de una variable represent
andolos gr
aficamente.
ni 0, fi 0, para i = 1, ...k.
Los gr
aficos m
as utilizados para representar la distribuci
on de las variables cualitativas son:
nj = n1 + n2 + . . . + nk = n.
j=1
j=1
fj = f1 + . . . f k =
Diagramas de sectores
Pictogramas
Cartogramas
Diagramas de barras
n1
n
n + . . . + nk
n
+ ... + k = 1
= = 1.
n
n
n
n
Diagramas de barras
0.20
0.15
frecuencias relativas
6
4
frecuencias absolutas
0.00
0.05
El aspecto del gr
afico es el mismo si se usan frecuencias absolutas o
frecuencias relativas. S
olo cambia la escala.
0.10
0.25
10
0.30
Agro
Fores
Indus
Miner
RESIDUOS
Muni
Radia
Sani
Agro
Fores
Indus
Miner
Muni
Radia
RESIDUOS
2011: ni
4
4
6
8
4
2
4
32
2011: fi
0.1250
0.1250
0.1875
0.2500
0.1250
0.0625
0.1250
1
2012: ni
6
4
5
9
3
1
2
30
2012: fi
0.2000
0.1333
0.1667
0.3000
0.1000
0.0333
0.0667
1
El siguiente gr
afico representa los datos de la tabla anterior:
Sani
Diagramas de barras 3D
En ocasiones los diagramas de barras aparecen representados en tres
dimensiones, como en el siguiente ejemplo sobre consumo de drogas:
Opciones gr
aficas de los diagramas de sectores
Los diagramas de sectores pueden hacerse m
as vistosos dibuj
andolos
en tres dimensiones y/o separando sus sectores para resaltar algunas
caractersticas.
Ejemplos:
No permiten identificar el n
umero total de observaciones.
Cuando las frecuencias de las modalidades son similares, es difcil
identificar las diferencias entre ellas en los diagramas de sectores, ya
que el ojo humano no evalua con los angulos con la misma facilidad
que las alturas.
Otros
Ejemplo (continuaci
on)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Resultado electoral
Democratas
En este gr
afico es difcil identificar cu
al ha sido el partido ganador.
Otros
Republicanos
En este gr
afico s permite conocer la clasificaci
on electoral.
NS/NC
9%
22 %
24 %
60
opini
on
desfavorable
21 %
15 %
16 %
50
opini
on
favorable
70 %
63 %
60 %
GOP Candidates
10
20
30
40
Candidat@
Sara Palin
Mike Huckabee
Mitt Romney
70
Huckabee
Pictogramas
Los pictogramas expresan con dibujos alusivos al tema de estudio las
frecuencias de las modalidades de la variable.
El escalamiento de los dibujos debe ser proporcional a la frecuencia
que representa.
Este tipo de gr
aficos se utilizan frecuentemente en los medios de comunicaci
on.
Ejemplo: pictogramas
Palin
Romney
Ejemplo: pictogramas
Cartogramas
En la prensa gr
afica aparecen a menudo cartogramas, que representan
los datos datos sobre una base geogr
afica, normalmente un mapa.
La densidad de datos en cada zona se indica mediante sombreados,
rayados, colores, etc.
Ejemplo: cartogramas
La moda
Por su naturaleza, las variables cualitativas no permiten un an
alisis
num
erico.
Como resumen descriptivo de una variable categ
orica puede usarse
la moda o clase modal, que es el dato o clase con mayor frecuencia.
La moda es el dato m
as representativo por ser el m
as frecuente.
La moda no es siempre
unica, ya que puede existir m
as de una clase
con la m
axima frecuencia.
Ejemplo: Para los datos sobre los residuos almacenados en el vertedero en el a
no 2012 la moda es residuos mineros.
Variables cuantitativas
El caracter num
erico de las variables cuantitativas permite un tratamiento estadstico m
as elaborado.
Con ellas pueden realizarse operaciones matem
aticas que permiten una
descripci
on m
as precisa y completa.
Descripci
on de variables cuantitativas
Distribuci
on de frecuencias para variables discretas
Para las variables discretas, las clases en las que se agrupan los datos
vienen definidas y separadas de forma natural por los valores que toma
la variable, x1, . . . , xk .
Distribuci
on de frecuencias
para variables discretas
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
Ejemplo: descripci
on de una variable discreta
La lista siguiente recoge el n
umero de huevos de todos los nidos de
nand
0
0
0
3
1
1
0
5
5
5
1
6
4
4
1
0
0
1
1
2
1
3
5
5
0
1
0
2
2
3
2
2
2
1
0
0
1
0
1
1
0
1
1
3
2
2
1
0
2
3
3
1
2
4
0
3
1
3
2
1
0
1
1
5
2
3
2
6
4
5
2
0
1
2
0
1
3
2
2
0
4
0
2
1
2
4
3
1
3
0
5
5
2
4
1
4
3
1
3
0
3
1
2
1
3
1
1
1
3
4
2
1
2
2
0
6
2
4
4
2
2
2
4
1
4
1
3
1
3
0
1
3
1
2
1
0
0
2
1
5
La poblaci
on y la variable de inter
es son, respectivamente, nidos de
nand
Ejemplo (continuaci
on)
El dominio (o rango, o recorrido) de X es {0, 1, 2, 3, 4, 5, 6}. Contando
cuantas veces aparece cada uno de los valores del dominio, se obtienen
las frecuencias absolutas de cada modalidad.
La distribuci
on de X puede resumirse en una tabla de frecuencias:
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
i
!
nj
j=1
= n1 + n2 + . . . + ni
= Ni1 + ni
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Esto nos indica, por ejemplo, que hay un total de 121 nidos con 3
huevos de
nand
u o menos.
Ni
n
n1 + n2 + . . . + ni
n
= f1 + f2 + . . . + fi
=
i
!
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
fj
j=1
Las frecuencias relativas acumuladas se calculan dividiendo las frecuencias relativas absolutas entre el n
umero total de datos, o bien sumando
las frecuencias relativas de todos los valores menores o iguales a cada
xi .
Distribuci
on de frecuencias en variables discretas
En general, la distribuci
on de frecuencias de una variable discreta
est
a formada por el conjunto de clases y sus frecuencias correspondientes.
F. Abs.
x1
...
n1
...
xj
...
nj
...
xk
nk
Total
F. Rel.
n
f1 = 1
... n
nj
fj =
... n
n
fk = k
n
1
F. Abs. Acum.
Nj = n 1 + . . . + n j
...
F. Rel. Acum
N
F1 = 1 = f1
n
...
Nj
Fj =
= fj
n
...
Nk = n
Fk = 1
N1 = n 1
...
k
!
nj = n1 + n2 + . . . + nk = n.
j=1
j=1
fj = f1 + . . . f k =
n
n + . . . + nk
n
n1
+ ... + k = 1
= = 1.
n
n
n
n
Las frecuencias acumuladas (absolutas o relativas) son no decrecientes, esto es, satisfacen
Ni Ni+1 y Fi Fi+1, para i = 1, . . . , k 1.
Observaci
on: Las frecuencias acumuladas (tanto absolutas como relativas) s
olo se calculan sobre variables cuantitativas. No tiene sentido
hacerlo para las variables categ
oricas.
Representaci
on gr
afica de variables discretas
La distribuci
on de frecuencias de una variable discreta puede representarse mediante diagramas de barras, que transmiten una una idea
visual inmediata sobre las principales caractersticas de los datos.
Ejemplo: La representaci
on gr
afica del n
umero de huevos de
nand
u de
los nidos de Talampaya es la siguiente:
0.35
0.20
0.15
0.00
0.05
0.10
frecuencias relativas
0.25
0.30
50
40
30
20
10
0
frecuencias absolutas
Distribuci
on de frecuencias
numero de huevos
numero de huevos
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
Distribuci
on de frecuencias para variables continuas
Distribuci
on de frecuencias para variables continuas
El an
alisis de las variables cuantitativas continuas es m
as complejo que
el de las discretas.
Ejemplo: distribuci
on de variables continuas
La siguiente tabla resume los pesos registrados para los ejemplares de
lobo ib
erico de un zool
ogico, expresados en kilos:
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60, 65]
Total
ci
42.5
47.5
52.5
57.5
62.5
ni
3
2
7
3
6
21
fi
0.1428
0.0952
0.3333
0.1428
0.2857
1
Ni
3
5
12
15
21
Fi
0.1428
0.2381
0.5714
0.7143
1
Clase
[l0, l1]
...
(lj1, lj ]
...
(lk1, lk ]
Total
M clase
c1
...
cj
...
ck
F Abs
n1
...
nj
...
nk
n
F Rel
f1 = n1/n
...
fj = nj /n
...
fk = nk /n
1
F Abs Ac
N1 = n 1
...
Nj = Nj1 + nj
...
Nk = n
F Rel Ac
F1 = f1
...
Fj = Nj /n
...
Fk = 1
Representaci
on gr
afica de variables continuas
Para visualizar gr
aficamente la distribuci
on de variables continuas se
areas.
utilizan histogramas, que representan las frecuencias mediante
Un histograma se construye a partir de la tabla estadstica, mediante
area de cada
rect
angulos cuyas bases equivalen a los intervalos. El
rect
angulo es proporcional a la frecuencia (absoluta o relativa) de la
clase.
A diferencia del diagrama de barras, los rect
angulos verticales se representan contiguos para reflejar la idea de que la variable es continua.
Esto incluye la posibilidad de que el histograma tenga clases vacias
(es decir, con altura 0).
Ejemplo: histograma
Elecci
on del n
umero de clases o intervalos
Pero lo m
as habitual es que se disponga de la lista completa de observaciones de la variable continua. En tales casos, para realizar un
an
alisis estadstico deben agruparse estos valores en intervalos. Para
ello hay que elegir el numero de intervalos (k).
El n
umero de intervalos debe ser tal que refleje la informaci
on m
as
relevante sobre la variable.
frecuencia absoluta
40
45
50
55
60
65
Ejemplo: elecci
on del no de clases (continuaci
on)
Ejemplo: elecci
on del n
umero de clases
Los siguientes histogramas, que representan las notas en estadstica
de l@s alumn@s de un curso de Ingeniera, ilustran esta idea:
Notas de Estadistica
Notas de Estadistica
10
350
300
0
6
notas
Notas de Estadistica
Notas de Estadistica
10
20
Frequency
200
0
30
80
60
40
10
20
10
notas
Frequency
Frequency
6
notas
100
50
40
150
50
50
250
100
Frequency
200
150
100
Frequency
250
150
300
350
Notas de Estadistica
6
notas
10
6
notas
10
Ejemplo: elecci
on del no de clases (continuaci
on)
El segundo histograma, con 10 clases, refleja perfectamente la distribuci
on de las notas:
Ejemplo: elecci
on del no de clases (continuaci
on)
El tercer gr
afico, con 20 intervalos, es m
as confuso que el anterior.
Notas de Estadistica
60
40
Frequency
20
100
50
Frequency
150
80
Notas de Estadistica
10
notas
0
10
No obstante este gr
afico puede resultar
util, por ejemplo, para un
profesor que quiera decidir a partir de qu
e nota poner sobresalientes.
notas
Ejemplo: elecci
on del no de clases (continuaci
on)
El u
ltimo de los histogramas, tiene 50 clases.
Notas de Estadistica
30
40
Aunque la informaci
on gr
afica es mucho m
as fiable a la hora de fijar
el n
umero de intervalos, existen distintas reglas empricas para elegir
el n
umero de intervalos.
20
Una de las m
as utilizadas es la regla de Sturges, que consiste en elegir
el n
umero de clases, k, de la forma siguiente:
si n no es muy grande,
n
k
10
Frequency
Elecci
on del n
umero de clases (continuaci
on)
10
notas
En este gr
afico se observan muchos picos poco relevantes que no
permiten apreciar lo m
as importante de la distribuci
on de las notas.
Elecci
on del n
umero de clases (continuaci
on)
Seg
un la regla de Sturges, por ejemplo,
6
2
0
40
No obstante, en muchas ocasiones, como en la del ejemplo de las notas de estadstica, hay elecciones mucho m
as adecuadas, que pueden
determinarse utilizando el sentido com
un y ayud
andose de representaciones gr
aficas.
frecuencia absoluta
6
4
frecuencia absoluta
as
trabajar con k = 1000000 = 1000 intervalos, por lo que es m
razonable elegir k = 1 + 3.3 log(1000000) 21 clases.
Histograma
10
Histograma
45
50
55
60
65
35
40
45
50
55
60
65
70
Patrones de distribuci
on m
as comunes
Gr
afico: distribuci
on unimodal sim
etrica
Distribucin unimodal simtrica
2000
La forma del histograma refleja muchas propiedades de la variable estadstica a la que se refiere: simetra, n
umero de modas, apuntamiento,
etc.
1000
Bimodal sim
etrico (por ejemplo peso en poblaciones mixtas, o pesos
medidos en kilos y en libras)
Frequency
Unimodal sim
etrico (por ejemplo peso o altura)
1500
Los patrones m
as frecuentes de histogramas son
Unimodal asim
etrico a la izquierda (por ejemplo esperanza de vida
por pases)
500
Unimodal asim
etrico a la derecha (por ejemplo ingresos o gastos)
30
40
50
x
60
70
Gr
afico: distribuci
on bimodal sim
etrica
Gr
afico: distribuci
on asim
etrica hacia la derecha
3000
2500
Frequency
2000
1500
500
500
1000
Frequency
3500
30
40
50
60
70
80
90
100
15
20
Gr
afico: distribuci
on asim
etrica hacia la izquierda
2500
Diagramas de puntos
Cuando se tienen pocos datos de una variable continua, puede ser
util
representarlos mediante un simple diagrama de puntos.
500
1000
1500
2000
Frequency
10
50
55
60
65
x
70
Otros gr
aficos para variables cuantitativas
Ejemplo: pictogramas
Ejemplo: pictogramas
Ejemplo: cartogramas
Ejemplo: cartogramas
Resumen num
erico de conjuntos de observaciones
Si los datos son cuantitativos, es conveniente complementar la informaci
on visual proporcionada por el an
alisis gr
afico con algunas medidas
num
ericas que proporcionen una idea sobre el centro de los datos, la
concentraci
on de
estos y otros rasgos de la distribuci
on.
Resumen num
erico de los datos
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
La utilizaci
on de estos estadsticos permite formarse una idea bastante
fidedigna del comportamiento de un conjunto de grande de datos a
partir de unas pocas medidas que concentran mucha informaci
on.
Medidas de centralizaci
on
La descripci
on m
as elemental de un conjunto de datos consiste en
especificar su centro.
El concepto de centro se puede definir de diferentes formas.
Vamos a analizar los siguientes estadsticos de centralizaci
on:
Medidas de centralizaci
on
Media
Mediana
Moda
Media recortada
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
Media
N
umero medio de huevos en Talampaya
x=
n
1 !
xi
n i=1
es decir
x + + xn
x= 1
n
x
=
0
0
0
3
1
1
0
5
5
5
1
6
4
4
1
0
0
1
1
2
1
3
5
5
0
1
0
2
2
3
2
2
2
1
0
0
1
0
1
1
0
1
1
3
2
2
1
0
2
3
3
1
2
4
0
3
1
3
2
1
0
1
1
5
2
3
2
6
4
5
2
0
1
2
0
1
3
2
2
0
4
0
2
1
2
4
3
1
3
0
5
5
2
4
1
4
3
1
3
0
3
1
2
1
3
1
1
1
3
4
2
1
2
2
0
6
2
4
4
2
2
2
4
1
4
1
3
1
3
0
1
3
1
2
1
0
0
2
1
5
0 + 0 + 1 + 1 + 2 + 0 + 3 + 0 + 2 + 4 + 5 + ...... + 4 + 2 + 0 + 5
150
ni
n1
.
.
.
nk
fi
f1
.
.
.
fk
y usar la f
ormula
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
el n
umero medio de huevos de
nand
u por nido es
x=
k
1 !
n i=1
x n + + xk n k
,
xi n i = 1 1
n
o bien la f
ormula equivalente,
x=
k
!
i=1
x i f i = x1 f 1 + + xk f k .
ci
c1
.
.
.
ck
ni
n1
.
.
.
nk
podemos usar la f
ormula aproximada
x
k
c n + + ck n k
1 !
ci n i = 1 1
,
n i=1
n
o bien la f
ormula equivalente,
x
k
!
i=1
c i f i = c1 f 1 + + c k f k .
0 26 + 1 42 + 2 32 + .... + 6 4
= 2.027
150
que tambi
en puede calcularse como
x=
k
c n + + ck n k
1 !
,
ci n i = 1 1
n i=1
n
ci
42.5
47.5
52.5
57.5
62.5
ni
3
2
7
3
6
21
fi
0.1428
0.0952
0.3333
0.1428
0.2857
1
Ni
3
5
12
15
21
Fi
0.1428
0.2381
0.5714
0.7143
1
k
42.5 3 + x 2 + . . . . . . + 62.5 6
1 !
ci n i =
= 54.1667 kg
n i=1
20
Linealidad de la media
Si a todas las observaciones de una variable se les suma una misma
cantidad, la media de los nuevos datos es la media de las observaciones
originales m
as esa cantidad, es decir,
x + b = x + b.
Ejemplo: El sueldo medio de los trabajadores de cierta reserva natural
es de 1655 euros por mes. Si el gobierno decide aumentar en 44 euros
el salario de todos sus empleados, cu
al ser
a el sueldo medio de los
on: 1699 euros)
trabajadores a partir de ese momento? (Soluci
Si se multiplican todas las observaciones por una misma cantidad, la
media de los nuevos datos queda multiplicada por la misma cantidad,
esto es
ax = a x.
Ejemplo: En una muestra de 20 plantas, el peso medio ha resultado
ser 2.3 kilos. Cu
al ser
a la media de los pesos medidos en gramos de
estas mismas plantas? (Soluci
on: 2300 gramos)
Inconvenientes de la media
Y = a + bX,
entonces la media de Y es
y = a + bx.
Es decir, la media es un operador lineal.
Ejemplo: En cierta localidad, la temperatura media durante el mes
de agosto ha sido de 14 oC. Cu
al ser
a la temperatura media en la
localidad durante el mismo periodo si
esta se mide en oF?
Soluci
on: 57.2 oF.
Mediana
Muestra ordenada
Para calcular la mediana, en primer lugar hay que ordenar los datos de
menor a mayor.
Dado un conjunto de datos, x1, x2 , xn, suele utilizarse la notaci
on
x(1), x(2), , x(n),
para designar las mismas observaciones ordenadas de mayor menor.
Es decir, x(1) es el dato m
as peque
no, x(2) es el siguiente, y as hasta
x(n) que es la observaci
on m
axima.
C
alculo de la mediana
Observemos que
Definici
on de la mediana
La mediana de un conjunto de datos, x1, x2, . . . , xn, se define como
Cuando el n
umero de observaciones es una cantidad impar, uno de
los datos est
a exactamente en el centro: la observaci
on que ocupa
la posici
on (n + 1)/2. Este n
umero central es la mediana.
Ejemplo: Para los datos
6, 12, 14, 20, 45
la mediana es 14.
Cuando la cantidad de datos es par, hay dos observaciones centrales: las observaciones que est
an en las posiciones n/2 y n/2 + 1. En
este caso se toma como mediana el promedio o semi-suma de las
dos observaciones centrales.
Ejemplo: Para los datos
6, 12, 14, 20, 45, 61
la mediana es el promedio de 14 y 20, es decir, 17.
M edx =
x( n ) + x( n +1)
2
2
si n es impar
si n es par
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Propiedades de la mediana
ci
42.5
47.5
52.5
57.5
62.5
ni
3
2
7
3
6
21
fi
0.1428
0.0952
0.3333
0.1428
0.2857
1
Ni
3
5
12
15
21
Fi
0.1428
0.2381
0.5714
0.7143
1
Comparaci
on de media y mediana
Las observaciones atpicas tienen un efecto mucho menor en la mediana que en la media, ya que la mediana no depende de los valores
que toma la variable, sino del orden de las mismas. Se dice por ello
que la mediana es una medida de centralizaci
on robusta.
Ejemplo: vamos a comparar las medias y medianas de los siguientes
conjuntos de datos:
X 2, 5, 7, 8, 13
Y 2, 5, 77, 8, 13
Si la distribuci
on es sim
etrica alrededor del centro, x M edx
Si la distribuci
on es asim
etrica a la derecha, x >> M edx
Si la distribuci
on es asim
etrica a la izquierda, x << M edx
Media-mediana: distribuci
on sim
etrica
Cuando la distribuci
on es bastante sim
etrica, media y mediana toman
valores muy pr
oximos entre s:
Si la distribuci
on fuese perfectamente sim
etrica, la media y la mediana
coincidiran exactamente.
Moda
La moda es el valor de la variable que se repite con mayor frecuencia.
Es una medida de centralizaci
on muy f
acil de calcular.
La moda no es siempre
unica, ya que puede existir m
as de un valor
con la m
axima frecuencia.
La moda es una medida informativa tanto en variables categ
oricas
como para en cuantitativas discretas.
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Media recortada
ci
42.5
47.5
52.5
57.5
62.5
ni
3
2
7
3
6
21
fi
0.1428
0.0952
0.3333
0.1428
0.2857
1
Ni
3
5
12
15
21
Fi
0.1428
0.2381
0.5714
0.7143
1
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Percentiles
La media, mediana y moda son medidas de la posici
on central de los
datos, pero hay otras posiciones que pueden ser de inter
es al analizar
la distribuci
on. De manera gen
erica a tales observaciones se les da el
nombre de cuantiles.
Medidas de posici
on
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
Ejemplo: percentiles
Para la distribuci
on del n
umero de huevos en Talampaya,
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Cuartiles
Cuartiles (continuaci
on)
Qu
e informaci
on proporcionan los cuartiles? Supongamos por ejemplo
se est
a analizando la longitud de las hojas de una planta, y que sus
cuartiles son Q1 = 10 cm, Q2 = 13 cm, y Q3 = 30 cm.
Con esto sabemos por ejemplo que una hoja de 8 cm est
a entre el
25 % de las m
as peque
nas. Una de 15 cm est
a entre la mitad m
as
grande pero por lo menos un 25 % de las hojas son mayores que ella.
Una hoja de 32 cm est
a entre el 25 % de las m
as grandes.
Ejemplo: cuartiles
Para la distribuci
on del n
umero de huevos en Talampaya,
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Medidas de dispersi
on
se tiene que
Q1 = 1,
Q2 = 2,
Q3 = 3.
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
Por qu
e es importante medir la dispersi
on?
Una vez localizado el centro de los datos es importante analizar si las
observaciones est
an muy concentradas alrededor de ese centro o si por
el contrario est
an alejadas de
el.
Imaginemos por ejemplo dos bancos de pira
nas, A y B. Las longitudes
de las pira
nas del banco A son 11, 7, 10, 13 y 9 cm, y las del banco
B, 8, 17, 3, 10 y 12 cm. Aunque en ambos bancos tanto la media
como la mediana son 10 cm, las pira
nas del banco A tienen longitudes
mucho m
as concentradas en torno a 10 que las del banco B:
Estadsticos de dispersi
on
Las medidas de dispersi
on proporcionan informaci
on sobre del grado
de separaci
on de las observaciones alrededor su centro.
Analizaremos las siguientes medidas de dispersi
on:
Amplitud o rango.
Varianza y desviaci
on tpica.
Cuasi-varianza y cuasi desviaci
on tpica.
Recorrido intercuartlico.
Coeficiente de variaci
on.
Varianza y desviaci
on tpica
La forma m
as elemental de evaluar la dispersi
on de un conjunto de
observaciones consiste en calcular la amplitud de su dominio, es
decir la diferencia entre el mayor y el menor de los datos.
Dado un conjunto de datos, x1, , xn, definimos su amplitud, o recorrido o rango como
Ax = m
aximo(x1, x2, . . . , xn) mnimo(x1, x2, . . . , xn) = x(n) x(1)
Ejemplo: Para los datos sobre el n
umero de huevos de los nidos de
Talampaya el rango o amplitud es
A = x(150) x(1) = 6 0 = 6 huevos.
El rango tiene la ventaja de que es f
acil de calcular y sus unidades
son las mismas que las de las observaciones originales.
Su principal inconveniente es su enorme falta de robustez.
n
1 !
(xi x)2
n i=1
Varianza y desviaci
on tpica (continuaci
on)
Una f
ormula equivalente para la varianza es la siguiente
n
1 !
x2 x2
n i=1 i
s2
x =
n
1 !
(3 7)2 + (5 7)2 + . . . + (10 7)2
= 5 a
nos2,
(xi x)2 =
n i=1
6
o bien mediante la f
ormula equivalente
s2
x =
n
32 + 62 + 72 + 72 + 92 + 102
1 !
2
72 = 5449 = 5 a
nos2,
x2
i x =
n i=1
6
s2
x =
5 = 2.236 a
nos.
sx = + s2
x
sx 0.
La varianza s
olamente toma el valor 0 en los casos en los que todas las
observaciones son iguales. Lo mismo le ocurre a la desviaci
on tpica.
Si Y es una transformaci
on lineal de X, esto es, si
Y = aX + b,
Luego
2
2
s2
x = 6.68 2.027 = 2.57 huevos ,
sx =
La varianza y la desviaci
on tpica no son medidas robustas, ya que
se ven muy infuenciadas por las observaciones atpicas.
Aplicaci
on de x
y sx: tipificaci
on de variables
Tipificaci
on de variables (continuaci
on)
Cuando se quieren comparar observaciones de una variable que pertenecen a dos poblaciones distintas, puede ocurrir que la media y la
varianza de dichas poblaciones sean muy diferentes.
Ejemplo: tipificaci
on de variables
Un individuo que acaba de hacerse unos an
alisis de sangre tiene un
nivel de glucosa de 125 mg/dl y un nivel de colesterol de 247 mg/dl.
Para las personas de su edad, el nivel medio de glucosa es 80 mg/dl,
con una desviaci
on tpica de 30 mg/dl, mientras que el nivel medio de
colesterol es de 190 mg/dl con una varianza de 3249(mg/dl)2. Cu
al
de los dos niveles resulta m
as preocupante en este individuo?
Soluci
on: El valor tipificado del nivel de glucosa del individuo es
125 g
125 80
=
= 1.5.
sg
30
Esto indica que su nivel de glucosa est
a 1.5 desviaciones tpicas por
encima de la media de su grupo de edad.
zg =
Puesto que zg > zc, concluimos que problema de azucar de este individuo es m
as severo que el de colesterol.
x x
xn x
x x
, z2 = 2
, . . . , zn =
.
z1 = 1
sx
sx
sx
Los nuevos datos, z1, z2, . . . , zn, reciben el nombre de datos tipificados,
y expresan el n
umero de desviaciones tpicas que cada observaci
on
on relativa de datos
dista de la media. Esto permite comparar la posici
procedentes de diferentes distribuciones.
n
1 !
(xi x)2 .
n 1 i=1
Observamos que la
unica diferencia con la varianza es que la suma de
cuadrados de las desviaciones a la media se divide por n 1 en lugar
de por n.
El inter
es de la cuasi-varianza radica en que, cuando se quiere estimar
la varianza de una variable en una poblaci
on a partir de las observaciones de una muestra peque
na, la cuasi-varianza presenta ciertas
propiedades que la hacen m
as adecuada que la varianza. Cuando n es
2
grande la diferencia entre s2
acticamente imperceptible.
x y Sx es pr
(
Rango intercuartlico
Diagramas de caja
La caja contiene la mitad central de los datos, y cada una de las otras
dos cuartas partes queda a uno de los lados de la caja.
Q1 1.5 RI
Q3 + 1.5 RI
Despu
es se traza un bigote desde cada lado de la caja al dato m
as
extremo que est
e dentro de las barreras.
Las observaciones que quedan fuera de las barreras pueden considerarse datos atpicos, y se dibujan como puntos aislados.
barrera inferior:
barrera superior:
Q1 1.5 RI = 122 30 = 92
100
120
140
160
180
200
Diagrama de caja
100
120
140
160
180
200
Ejemplo (continuaci
on)
fijos
portatiles
El gr
afico de la transparencia siguiente representa los tiempos de compilaci
on resultantes medidos en horas.
20
Ejemplo (continuaci
on)
Mirando estos diagramas, podemos responder a cuestiones como las
siguientes:
1. El ordenador que menos tarda en compilar el programa, es un fijo
o un portatil?
40
60
80
Ejemplo (continuaci
on)
A partir de los diagramas de caja, es f
acil dar las siguientes respuestas:
1. El gr
afico muestra que el tiempo mnimo de compilaci
on (inferior
a 20 horas) corresponde a un ordenador portatil.
2. Cu
al es la proporci
on de ordenadores port
atiles que complilan el
programa en menos de 60 segundos?
3. Qu
e proporci
on de ordenadores fijos tardan en compilar el programa entre 15 y 80 segundos?
En consecuencia, la proporci
on de port
atiles de esta empresa que
compilan el programa en menos de 60 horas es 0.25.
4. Qu
e proporci
on de port
atiles tardan en compilar un tiempo inferior
al del m
as lento de los ordenadores fijos?
Luego la proporci
on de ordenadores fijos tardan en compilar el programa entre 15 y 80 horas es 0.75.
Ejemplo (continuaci
on)
4. El m
as lento de los ordenadores fijos tarda 90 horas en complilar
el programa. Por otra parte 90 minutos es el tercer cuartil para los
tiempo de compilaci
on de los port
atiles.
Por consiguiente la proporci
on de port
atiles tardan en compilar un
tiempo inferior al del m
as lento de los ordenadores fijos es 0.75.
Coeficiente de variaci
on
Qu
e tiene m
as variabilidad: la altura de las jirafas o la de los ratones?
Las medidas de dispersi
on que hemos visto hasta ahora dependen de
las unidades en las que se mida la variable y de su magnitud.
Pero, evidentemente, no es lo mismo una desviaci
on tpica de 30 cm
en las alturas de las jirafas que en las de los ratones.
Para poder comparar la dispersi
on de variables que est
an medidas en
unidades diferentes, o que toman valores de magnitudes muy distintas,
es preciso contar con una medida de variabilidad que no dependa de
las unidades ni del tama
no de los datos.
Las unidades de la media y de la desviaci
on tpica son las mismas
que las de los datos. Una manera natural de construir una medida de
variabilidad que no dependa de las unidades ni de la magnitud de los
datos es calcular el cociente
sx
CVx =
,
|x|
sx
,
|x|
on y puede interpretarse
recibe el nombre de coeficiente de variaci
como la proporci
on o tanto por uno de variabilidad.
El coeficiente de variaci
on es invariante ante cambios de escala: si
multiplicamos los datos por una constante a, entonces
CVax =
|a|sx
sx
sax
=
=
= CVx
|ax|
|a||x|
|x|
El coeficiente de variaci
on sirve para comparar las variabilidades de dos
conjuntos de datos con unidades o magnitudes diferentes, mientras
que si deseamos comparar dos elementos pertenecientes cada uno a
uno de esos conjuntos, debemos usar los valores tipificados.
3249
sc
57
CVc =
=
=
= 0.3
c
190
190
Datos atpicos
Los datos atpicos requieren una atenci
on especial. Es importante identificarlos y decidir c
omo tratarlos, ya que pueden tener una fuerte
infuencia en las conclusiones del an
alisis.
En algunos casos el outlier aparece como consecuencia de un acontecimiento extraordinario. En este caso, el ese dato atpico no es representativo y puede ser eliminado del an
alisis.
Otras veces la observaci
on atpica es simplemente consecuencia de un
error en la recogida o la transcipci
on de los datos. Debe evitarse que
este tipo de outliers influyan en el an
alisis.
Tambi
en hay observaciones an
omalas para las que no parece haber
explicaci
on. Estos datos pueden aportar informaci
on relevante sobre
el comportamiento de la variable, y conviene tratar de averiguar su por
qu
e.
Datos ausentes
Es frecuente encontrarse con que los valores de la variable son desconocidos para algunas de las unidades experimentales.
Por ejemplo, podra ocurrir que algunos de los nidos de Talampaya
fuesen inaccesibles y no se pudiese registrar el n
umero de huevos que
tienen.
Evidentemente, la validez de un estudio se ve afectada por la reducci
on
del n
umero total de casos.
Por ejemplo, es posible que los nidos inaccesibles sean precisamente
los que tienen m
as huevos, porque los n
and
ues que han decidido anidar
en lugares m
as difciles sean los que tienen m
as huevos que proteger.
El tratamiento de los posibles datos perdidos es tambi
en parte importante de un an
alisis descriptivo.
30
80
Millones de toneladas
40
35
20
30
20
35
25
40
45
50
Millones de toneladas
45
2003
2004
2005
2006
2007
Ao
20
25
Millones de toneladas
2003
2004
2005
2006
2007
2008
2009
2010
Ao
C
omo enfrentarse a un conjunto de datos?
Finalmente, hay que tener en cuenta que
Para extraer la m
axima informaci
on de un conjunto de datos deben
combinarse las t
ecnicas gr
aficas y num
ericas.
Es muy importante tener en mente la variable que se est
a midiendo
y el objetivo que se persigue.
En el an
alisis de datos no existen recetas universales validas para
todas las muestras y poblaciones: cada conjunto de observaciones
es un mundo diferente con sus propias particularidades. Por ello hay
que dejar que los datos hablen.
60
Por ejemplo, representar observaciones temporales mediante un histograma o un diagrama de barras tiene muy poca utilidad. Deben
representarse en un diagrama de serie temporal, como el siguiente:
La elecci
on de la escala influye mucho en la percepci
on que transmite
un gr
afico temporal. Por ejemplo, los dos gr
aficos siguientes representan los mismos datos sobre consumo de petr
oleo:
40
50
Datos temporales
2008
2009
2010
2003
2004
2005
2006
2007
2008
2009
2010
Ao
Bibliografa
Ross, S.M. (2007) Introducci
on a la Estadstica. Reverte
Captulos 2 y 3.
Pe
na, D. (2001) Fundamentos de Estadstica. Alianza Editorial
Captulo 2.
Montgomery, D.C. et al (2012) Engineering Statistics. Wiley
Captulos 1 y 2.
Grima, P. (2010) La certeza absoluta y otras ficciones. Los secretos
de la estadstica. RBA
Captulo 1.