Sunteți pe pagina 1din 37

GRADO EN INGENIER

IA DEL SOFTWARE

Introducci
on

ESTAD
ISTICA

TEMA 1(A)

DESCRIPCION
DE DATOS UNIVARIANTES

Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Sonia Hern
andez Alonso
Departamento de Inform
atica y Estadstica (URJC)

Buscando patrones en los datos

Estadstica descriptiva

Una forma razonable de buscar hip


otesis que permitan explicar alg
un
fen
omeno de la naturaleza es recolectar datos y buscar en ellos patrones de comportamiento.
Pero cuando nos limitamos a observar un listado de datos, suele resultar difcil identificar ning
un patr
on. Por ejemplo, la lista siguiente
recoge el n
umero de huevos de todos los nidos de
nand
u encontrados
en el Parque Nacional de Talampaya (Argentina):
0
2
1
2
1
1
3
6
4
5

0
0
0
3
1
1
0
5
5
5

1
6
4
4
1
0
0
1
1
2

1
3
5
5
0
1
0
2
2
3

2
2
2
1
0
0
1
0
1
1

0
1
1
3
2
2
1
0
2
3

3
1
2
4
0
3
1
3
2
1

0
1
1
5
2
3
2
6
4
5

2
0
1
2
0
1
3
2
2
0

4
0
2
1
2
4
3
1
3
0

5
5
2
4
1
4
3
1
3
0

3
1
2
1
3
1
1
1
3
4

2
1
2
2
0
6
2
4
4
2

2
2
4
1
4
1
3
1
3
0

1
3
1
2
1
0
0
2
1
5

El listado anterior contiene toda la informaci


on que nos interesa sobre
el n
umero de huevos de
nand
u en Talampaya, pero el simple examen
de los datos uno detr
as de otro no es suficiente para identificar las
caractersticas m
as relevantes del conjunto.
Este ejemplo ilustra el hecho de que, para poder indentificar patrones
de comportamiento, es preciso ordenar y resumir las observaciones.
La estadstica descriptiva es la exploraci
on de conjuntos de datos mediante t
ecnicas gr
aficas y num
ericas con el fin extraer la
informaci
on m
as relevante.
En este tema analizaremos m
etodos para describir conjuntos de observaciones a fin de poder descubrir sus car
actersticas principales.
El an
alisis es diferente dependiendo de que la variable sea cualitativa o
cuantitativa, y en este u
ltimo caso dependiendo de que sea discreta o
continua.

Esquema
Descripci
on de variables categ
oricas
Descripci
on de variables cuantitativas:

Distribuci
on de frecuencias en variables discretas
Distribuci
on de frecuencias en variables continuas
Resumen num
erico de los datos:

Descripci
on de variables categ
oricas

Medidas de centralizaci
on
Medidas de posici
on
Medidas de dispersi
on

Otros aspectos a tener en cuenta

Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Modalidades de una variable cualitativa


Recordemos que las variables categ
oricas o cualitativas son aquellas
cuyos posibles valores o modalidades son atributos o categoras, es
decir, no son n
umeros.
Consideremos una poblaci
on de n individuos u objetos, y una variable
estadstica categ
orica C con k valores, clases o modalidades,
c1, ...., ck
Estas modalidades deben de estar bien definidas; esto supone que
han de ser exhaustivas y excluyentes, es decir, todas las unidades
experimentales deben pertenecer a una categoria y s
olo a una de ellas.

Frecuencias absolutas y relativas


Podemos considerar las siguientes magnitudes:

La frecuencia absoluta de la modalidad ci, que denotaremos por


ni, es el n
umero total de observaciones en esta modalidad.
La frecuencia relativa de la clase ci, que denotaremos por fi, es
el cociente entre la frecuencia absoluta de dicha clase y el n
umero
total de observaciones, es decir,
n
fi = i .
n
fi es la proporci
on (o tanto por uno) de observaciones que est
an
en la clase ci. Multiplicado por 100 representa el porcentaje o tanto
por ciento ( %) de la poblaci
on que pertenece a esa clase.
Las frecuencias relativas permiten comparar conjuntos de datos
con distinto numero de observaciones.

Distribuci
on de frecuencias

Ejemplo: tabla de frecuencias

La distribuci
on de frecuencias es la descripci
on del conjunto de
clases con sus correspondientes frecuencias.
Para presentar de forma ordenada la distribuci
on de frecuencias se
utilizan tablas de frecuencias, cuya estructura general es la siguiente:
Modalidades
c1
...
cj
...
ck

Frec. Absolutas
n1
...
nj
...
nk

Frec. Relativas
f1 = nn1
...
n
fj = nj
...
fk = nnk

Total:

La siguiente tabla de frecuencias resume el tipo de residuos al que


corresponden los lotes almacenados en un vertedero en el a
no 2012:
Modalidad
Agropecuarios
Forestales
Industriales
Mineros
Municipales
Radiactivos
Sanitarios
Total

F. absoluta (ni)
6
4
5
9
3
1
2
30

F. relativa (fi)
0.2000
0.1333
0.1667
0.3000
0.1000
0.0333
0.0667
1

La distribuci
on de frecuencias tambi
en puede visualizarse mediante
gr
aficos.

Propiedades de las frecuencias

Representaciones gr
aficas para var cualitativas

Las frecuencias, tanto absolutas como relativas, son n


umeros no negativos, es decir,

Habitualmente resulta m
as inmediato visualizar la distribuci
on de frecuencias de una variable represent
andolos gr
aficamente.

ni 0, fi 0, para i = 1, ...k.

Los gr
aficos m
as utilizados para representar la distribuci
on de las variables cualitativas son:

Puesto que las modalidades son exhaustivas y excluyentes, la suma de


las frecuencias absolutas de todas las modalidades es el n
umero
total de observaciones, esto es,
k
!

nj = n1 + n2 + . . . + nk = n.

j=1

j=1

fj = f1 + . . . f k =

Diagramas de sectores
Pictogramas
Cartogramas

La suma de las frecuencias relativas de todas las modalidades


es 1, o sea,
k
!

Diagramas de barras

n1
n
n + . . . + nk
n
+ ... + k = 1
= = 1.
n
n
n
n

Diagramas de barras

Ejemplo: diagrama de barras

Los diagramas de barras permiten visualizar de manera sencilla la


distribuci
on de frecuencias de una variable categ
orica.

Para los datos sobre el tipo de residuos, los diagramas de barras de


frecuencias absolutas y relativas son, respectivamente,

Para ello se representan


Diagrama de barras (frecuencias relativas)

0.20
0.15

frecuencias relativas

6
4

frecuencias absolutas

0.00

0.05

El aspecto del gr
afico es el mismo si se usan frecuencias absolutas o
frecuencias relativas. S
olo cambia la escala.

en el de ordenadas (eje Y ) las frecuencias (absolutas o relativas).

0.10

en el eje de abscisas (eje X) las modalidades

0.25

10

0.30

Diagrama de barras (frecuencias absolutas)

Agro

Fores

Indus

Miner

RESIDUOS

Muni

Radia

Sani

Agro

Fores

Indus

Miner

Muni

Radia

RESIDUOS

Observamos que los dos gr


aficos s
olo difieren en la escala.

Diagramas de barras comparativos

Ejemplo: diagrama de barras comparativo

Los diagramas de barras permiten tambi


en comparar la distribuci
on
de frecuencias en varias poblaciones.
Ejemplo: La siguiente tabla de frecuencias resume el tipo de residuos
al que corresponden a lotes almacenados en el vertedero durante los
a
nos 2011 y 2012:
Modalidad
Agropecuarios
Forestales
Industriales
Mineros
Municipales
Radiactivos
Sanitarios
Total

2011: ni
4
4
6
8
4
2
4
32

2011: fi
0.1250
0.1250
0.1875
0.2500
0.1250
0.0625
0.1250
1

2012: ni
6
4
5
9
3
1
2
30

2012: fi
0.2000
0.1333
0.1667
0.3000
0.1000
0.0333
0.0667
1

El siguiente gr
afico representa los datos de la tabla anterior:

Sani

Diagramas de barras 3D
En ocasiones los diagramas de barras aparecen representados en tres
dimensiones, como en el siguiente ejemplo sobre consumo de drogas:

Diagramas de sectores (tartas)


Los diagramas de sectores (piecharts) constituyen otra herramienta
gr
afica para visualizar la distribuci
on de frecuencias de una variable
categ
orica.
Para construirlo:

Se divide un crculo en sectores proporcionales a las frecuencias


(absolutas o relativas) de cada clase.
El arco de cada porci
on, ai, se calcula usando una regla de tres:
n 3600,
360 ni
ni ai =
n

Los habitual, no obstante, es que para construirlo se utilice alg


un
paquete estadstico, como por ejemplo R.

Ejemplo: diagrama de sectores


El diagrama de sectores correspondiente a los datos sobre el tipo de
residuos en 2012 es

Opciones gr
aficas de los diagramas de sectores
Los diagramas de sectores pueden hacerse m
as vistosos dibuj
andolos
en tres dimensiones y/o separando sus sectores para resaltar algunas
caractersticas.
Ejemplos:

Los diagramas tridimensionales son m


as espectaculares, pero menos
claros. Esto es algo que ocurre con los gr
aficos en general, no s
olo
con los de sectores.

Inconvenientes de los diagramas de sectores


Los diagramas de sectores son bastante populares. Por ejemplo, es
muy habitual que los resultados electorales se ilustren con este tipo de
gr
aficos.

Ejemplo: inconvenientes diagramas sectores


El siguiente diagrama de sectores representa los resultados de unas
elecciones:
Resultado electoral

Sin embargo, estos diagramas de tarta presentan muchas limitaciones:


Democratas

No permiten identificar el n
umero total de observaciones.
Cuando las frecuencias de las modalidades son similares, es difcil
identificar las diferencias entre ellas en los diagramas de sectores, ya
que el ojo humano no evalua con los angulos con la misma facilidad
que las alturas.

Otros

Cuando la variable tiene m


as de 5 o 6 clases, el diagrama resultante
es difcil de interpretar.
Republicanos

Por todo ello es m


as informativo (y casi siempre preferible) utilizar
diagramas de barras.
Los diagramas de sectores no deben utilizarse nunca para representar
variables num
ericas.

Ejemplo (continuaci
on)

Inconvenientes diagramas sectores (continuaci


on)

El diagrama de barras siguiente representa los mismos datos:

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Resultado electoral

Democratas

En este gr
afico es difcil identificar cu
al ha sido el partido ganador.

Otros

Republicanos

En este gr
afico s permite conocer la clasificaci
on electoral.

Antes de emplear uno de estos gr


aficos es muy importante cerciorarse
de que lo que se va a representar es un todo a repartir entre varias
modalidades. De lo contrario se pueden cometer errores como el de
la cadena Fox, que en noviembre de 2009 public
o el siguiente gr
afico:

Inconvenientes diagramas sectores (continuaci


on)

NS/NC
9%
22 %
24 %

60

opini
on
desfavorable
21 %
15 %
16 %

50

opini
on
favorable
70 %
63 %
60 %

GOP Candidates

10

20

Sin embargo, lo que que transmiti


o, fue que un total del 193 % del
electorado (!!) apoyaba a estos tres candidatos republicanos.

30

40

Candidat@
Sara Palin
Mike Huckabee
Mitt Romney

Lo adecuado habra sido utlizar un diagrama de barras:

70

El diagrama anterior pretenda ilustrar el resultado de la siguiente encuesta electoral:

Inconvenientes diagramas sectores (continuaci


on)

Huckabee

Pictogramas
Los pictogramas expresan con dibujos alusivos al tema de estudio las
frecuencias de las modalidades de la variable.
El escalamiento de los dibujos debe ser proporcional a la frecuencia
que representa.
Este tipo de gr
aficos se utilizan frecuentemente en los medios de comunicaci
on.

Ejemplo: pictogramas

Palin

Romney

Ejemplo: pictogramas

Cartogramas
En la prensa gr
afica aparecen a menudo cartogramas, que representan
los datos datos sobre una base geogr
afica, normalmente un mapa.
La densidad de datos en cada zona se indica mediante sombreados,
rayados, colores, etc.

Ejemplo: cartogramas

La moda
Por su naturaleza, las variables cualitativas no permiten un an
alisis
num
erico.
Como resumen descriptivo de una variable categ
orica puede usarse
la moda o clase modal, que es el dato o clase con mayor frecuencia.
La moda es el dato m
as representativo por ser el m
as frecuente.
La moda no es siempre
unica, ya que puede existir m
as de una clase
con la m
axima frecuencia.
Ejemplo: Para los datos sobre los residuos almacenados en el vertedero en el a
no 2012 la moda es residuos mineros.

Variables cuantitativas
El caracter num
erico de las variables cuantitativas permite un tratamiento estadstico m
as elaborado.
Con ellas pueden realizarse operaciones matem
aticas que permiten una
descripci
on m
as precisa y completa.

Descripci
on de variables cuantitativas

El tratamiento es diferente seg


un la variable sea continua o discreta.
Recordemos que:

Las variables discretas son aquellas cuyos posibles valores son


una cantidad numerable, y no admiten un valor intermedio entre
dos cualquiera de sus valores (por ejemplo el n
umero de huevos de
un nido).
Las variables continuas pueden tomar cualquiera de los valores de
un intervalo real (admiten cualquier cantidad de cifras decimales),
y por consiguiente el cardinal de su dominio es una cantidad no
numerable (por ejemplo el peso o la longitud de un lobo ib
erico).
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Distribuci
on de frecuencias para variables discretas
Para las variables discretas, las clases en las que se agrupan los datos
vienen definidas y separadas de forma natural por los valores que toma
la variable, x1, . . . , xk .

Distribuci
on de frecuencias
para variables discretas

Por ello la noci


on de distribuci
on de frecuencias es semejante al de las
variables categ
oricas.
Sin embargo, a diferencia de lo que ocurre con los datos cualitativos,
las clases vienen ordenadas de forma natural de menor a mayor.
Esto permite introducir la idea de distribuciones acumuladas.
La frecuencia absoluta de cada valor xi, que denotaremos por ni, es
el numero de observaciones que toman dicho valor.

Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Ejemplo: descripci
on de una variable discreta
La lista siguiente recoge el n
umero de huevos de todos los nidos de
nand

u encontrados en el Parque Nacional de Talampaya:


0
2
1
2
1
1
3
6
4
5

0
0
0
3
1
1
0
5
5
5

1
6
4
4
1
0
0
1
1
2

1
3
5
5
0
1
0
2
2
3

2
2
2
1
0
0
1
0
1
1

0
1
1
3
2
2
1
0
2
3

3
1
2
4
0
3
1
3
2
1

0
1
1
5
2
3
2
6
4
5

2
0
1
2
0
1
3
2
2
0

4
0
2
1
2
4
3
1
3
0

5
5
2
4
1
4
3
1
3
0

3
1
2
1
3
1
1
1
3
4

2
1
2
2
0
6
2
4
4
2

2
2
4
1
4
1
3
1
3
0

1
3
1
2
1
0
0
2
1
5

La poblaci
on y la variable de inter
es son, respectivamente, nidos de
nand

ues que viven en Talampaya y X = n


umero de huevos.
Este listado de datos contiene toda la informaci
on que nos interesa.
Pero si nos limitamos a observar estos n
umeros, resultar
a difcil obtener
una idea de las caractersticas de los datos.

Frecuencias relativas para variables discretas


La frecuencia relativa del valor xi, que denotaremos por fi, es el
cociente entre la frecuencia absoluta de dicho valor y el n
umero total
de observaciones, es decir,
n
fi = i .
n
La frecuencia relativa fi indica la proporci
on (o tanto por uno) de observaciones que toman el valor xi. Al multiplicar fi por 100 obtenemos
el porcentaje o tanto por ciento ( %) de la poblaci
on con valor xi.
Las frecuencias relativas permiten comparar las frecuencias en conjuntos de datos con distinto numero de observaciones.

Ejemplo (continuaci
on)
El dominio (o rango, o recorrido) de X es {0, 1, 2, 3, 4, 5, 6}. Contando
cuantas veces aparece cada uno de los valores del dominio, se obtienen
las frecuencias absolutas de cada modalidad.
La distribuci
on de X puede resumirse en una tabla de frecuencias:
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

La tabla permite observar, por ejemplo, que lo m


as frecuente es encontrar nidos con 1
unico huevo.

Ejemplo: frecuencias relativas en variables discretas


Para los datos sobre el n
umero de huevos de los nidos de Talampaya, el
total de observaciones es n = 150. Dividiendo las frecuencias absolutas
por esta cantidad se obtienen las frecuencias relativas de cada valor
de X:
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

Se observa, por ejemplo, que el 28 % de los nidos tienen 1 s


olo huevo.

Frecuencias acumuladas para variables discretas


La frecuencia absoluta acumulada, que denotaremos por Ni, es el
numero de elementos de la poblaci
on con valor menor o igual a xi:
Ni =

i
!

nj

j=1

= n1 + n2 + . . . + ni
= Ni1 + ni

Ejemplo: frecuencias acumuladas para v discretas


Siguiendo con el caso del n
umero de huevos de
nand
u por nido, las
frecuencias absolutas acumuladas son:
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

Ni
26
68
100
121
135
146
150

Esto nos indica, por ejemplo, que hay un total de 121 nidos con 3
huevos de
nand
u o menos.

Frecuencias relativas acumuladas para v discretas


La frecuencia relativa acumulada, Fi, es el tanto por uno de los
elementos de la poblaci
on que toman un valor de la variable menor o
igual que xi:
Fi =
=

Ni
n
n1 + n2 + . . . + ni
n

= f1 + f2 + . . . + fi
=

i
!

Ejemplo: frecuencias relativas acumuladas


Para el caso del n
umero de huevos de
nand
u por nido en Talampaya,
la tabla de frecuencias completa es
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

Ni
26
68
100
121
135
146
150

Fi
0.173
0.453
0.667
0.807
0.900
0.973
1

fj

j=1

Las frecuencias relativas acumuladas se calculan dividiendo las frecuencias relativas absolutas entre el n
umero total de datos, o bien sumando
las frecuencias relativas de todos los valores menores o iguales a cada
xi .

Se observa, por ejemplo, que el 66.7 % de los nidos de


nand
u tienen
2 huevos o menos.

Distribuci
on de frecuencias en variables discretas
En general, la distribuci
on de frecuencias de una variable discreta
est
a formada por el conjunto de clases y sus frecuencias correspondientes.

Propiedades de las frecuencias


Las frecuencias son cantidades no negativas, es decir, verifican
ni 0, fi 0, Ni 0, Fi 0, para i = 1, . . . , k.
La suma de todas las frecuencias absolutas es n:

Se puede presentar de forma ordenada en una tabla estadstica:


Valor

F. Abs.

x1
...

n1
...

xj
...

nj
...

xk

nk

Total

F. Rel.
n
f1 = 1
... n
nj
fj =
... n
n
fk = k
n
1

F. Abs. Acum.

Nj = n 1 + . . . + n j
...

F. Rel. Acum
N
F1 = 1 = f1
n
...
Nj
Fj =
= fj
n
...

Nk = n

Fk = 1

N1 = n 1
...

k
!

nj = n1 + n2 + . . . + nk = n.

j=1

La suma de las frecuencias relativas de todos los valores es 1:


k
!

j=1

fj = f1 + . . . f k =

n
n + . . . + nk
n
n1
+ ... + k = 1
= = 1.
n
n
n
n

Las frecuencias acumuladas (absolutas o relativas) son no decrecientes, esto es, satisfacen
Ni Ni+1 y Fi Fi+1, para i = 1, . . . , k 1.

Observaci
on: Las frecuencias acumuladas (tanto absolutas como relativas) s
olo se calculan sobre variables cuantitativas. No tiene sentido
hacerlo para las variables categ
oricas.

La frecuencia absoluta acumulada de la


ultima clase es Nk = n.
La frecuencia relativa acumulada de la
ultima clase es Fk = 1.

Representaci
on gr
afica de variables discretas
La distribuci
on de frecuencias de una variable discreta puede representarse mediante diagramas de barras, que transmiten una una idea
visual inmediata sobre las principales caractersticas de los datos.
Ejemplo: La representaci
on gr
afica del n
umero de huevos de
nand
u de
los nidos de Talampaya es la siguiente:
0.35

para variables continuas

0.20
0.15
0.00

0.05

0.10

frecuencias relativas

0.25

0.30

50
40
30
20
10
0

frecuencias absolutas

Distribuci
on de frecuencias

numero de huevos

numero de huevos

Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Distribuci
on de frecuencias para variables continuas

Distribuci
on de frecuencias para variables continuas

El an
alisis de las variables cuantitativas continuas es m
as complejo que
el de las discretas.

Una vez hecha esta divisi


on en clases se definen las mismas frecuencias
que para las variables discretas.

Las categoras ya no vienen dadas de forma natural por la variable,


sino que tienen que elegirse.

En el caso continuo, la forma de la tabla estadstica de frecuencias es


la siguiente:

El primer paso es dividir el dominio de la variable en clases o intervalos


que no se solapen y cubran todo el rango.
Al punto central de cada uno de estos intervalos lo llamaremos marca
de clase, y lo denotaremos por ci.

Ejemplo: distribuci
on de variables continuas
La siguiente tabla resume los pesos registrados para los ejemplares de
lobo ib
erico de un zool
ogico, expresados en kilos:
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60, 65]
Total

ci
42.5
47.5
52.5
57.5
62.5

ni
3
2
7
3
6
21

fi
0.1428
0.0952
0.3333
0.1428
0.2857
1

Ni
3
5
12
15
21

Fi
0.1428
0.2381
0.5714
0.7143
1

Clase
[l0, l1]
...
(lj1, lj ]
...
(lk1, lk ]
Total

M clase
c1
...
cj
...
ck

F Abs
n1
...
nj
...
nk
n

F Rel
f1 = n1/n
...
fj = nj /n
...
fk = nk /n
1

F Abs Ac
N1 = n 1
...
Nj = Nj1 + nj
...
Nk = n

F Rel Ac
F1 = f1
...
Fj = Nj /n
...
Fk = 1

Representaci
on gr
afica de variables continuas
Para visualizar gr
aficamente la distribuci
on de variables continuas se
areas.
utilizan histogramas, que representan las frecuencias mediante
Un histograma se construye a partir de la tabla estadstica, mediante
area de cada
rect
angulos cuyas bases equivalen a los intervalos. El
rect
angulo es proporcional a la frecuencia (absoluta o relativa) de la
clase.
A diferencia del diagrama de barras, los rect
angulos verticales se representan contiguos para reflejar la idea de que la variable es continua.
Esto incluye la posibilidad de que el histograma tenga clases vacias
(es decir, con altura 0).

Ejemplo: histograma

Elecci
on del n
umero de clases o intervalos

El siguiente histograma representa los pesos de los lobos ib


ericos de
la tabla anterior:
Histograma

Pero lo m
as habitual es que se disponga de la lista completa de observaciones de la variable continua. En tales casos, para realizar un
an
alisis estadstico deben agruparse estos valores en intervalos. Para
ello hay que elegir el numero de intervalos (k).

El n
umero de intervalos debe ser tal que refleje la informaci
on m
as
relevante sobre la variable.

Si se toman muy pocas clases, se pierde precisi


on.
2

frecuencia absoluta

En algunas ocasiones la informaci


on sobre una variable continua se
proporciona ya resumida en una tabla de frecuencias con clases o
intervalos fijados por qui
en recogi
o los datos.

Si se toman demasiadas clases, se pierde visi


on sobre las caractersticas de la variable.

40

45

50

55

60

65

peso lobo ibrico

Ejemplo: elecci
on del no de clases (continuaci
on)

Ejemplo: elecci
on del n
umero de clases
Los siguientes histogramas, que representan las notas en estadstica
de l@s alumn@s de un curso de Ingeniera, ilustran esta idea:
Notas de Estadistica

Notas de Estadistica

10

350
300
0

6
notas

Notas de Estadistica

Notas de Estadistica

10

20

Frequency

200
0

30

80
60
40

10

20

10

notas

Frequency

Frequency

6
notas

100

50

40

150

50

50

250

100

Frequency

200
150
100

Frequency

250

150

300

350

Notas de Estadistica

En el primero de los histogramas se ha divido el rango de las notas


(que va de 0 a 10) en cinco intervalos:

6
notas

10

6
notas

10

Obviamente 5 clases no son suficientes, ya que ni siquiera permite


saber cu
antos alumnos han aprobado y cu
antos han suspendido.

Ejemplo: elecci
on del no de clases (continuaci
on)
El segundo histograma, con 10 clases, refleja perfectamente la distribuci
on de las notas:

Ejemplo: elecci
on del no de clases (continuaci
on)
El tercer gr
afico, con 20 intervalos, es m
as confuso que el anterior.
Notas de Estadistica

60
40

Frequency

20

100

50

Frequency

150

80

Notas de Estadistica

10

notas
0

10

No obstante este gr
afico puede resultar
util, por ejemplo, para un
profesor que quiera decidir a partir de qu
e nota poner sobresalientes.

notas

Ejemplo: elecci
on del no de clases (continuaci
on)
El u
ltimo de los histogramas, tiene 50 clases.

Es recomendable ayudarse de histogramas para elegir un n


umero de
clases que resulte apropiado.

Notas de Estadistica

30

40

Aunque la informaci
on gr
afica es mucho m
as fiable a la hora de fijar
el n
umero de intervalos, existen distintas reglas empricas para elegir
el n
umero de intervalos.

20

Una de las m
as utilizadas es la regla de Sturges, que consiste en elegir
el n
umero de clases, k, de la forma siguiente:

si n no es muy grande,
n
k

1 + 3.3 log(n) si n es muy grande.

10

Frequency

Elecci
on del n
umero de clases (continuaci
on)

10

notas

En este gr
afico se observan muchos picos poco relevantes que no
permiten apreciar lo m
as importante de la distribuci
on de las notas.

Elecci
on del n
umero de clases (continuaci
on)
Seg
un la regla de Sturges, por ejemplo,

En las comparaciones, la escala es importante


Estos dos histogramas paracen a simple vista bastante diferentes:

6
2
0

40

No obstante, en muchas ocasiones, como en la del ejemplo de las notas de estadstica, hay elecciones mucho m
as adecuadas, que pueden
determinarse utilizando el sentido com
un y ayud
andose de representaciones gr
aficas.

frecuencia absoluta

6
4

frecuencia absoluta

La regla de Sturges es la que est


a implementada por defecto para
determinar el n
umero de clases en la mayor parte de los paquetes
estadsticos, incluyendo R.

Sin embargo, si tenemos n = 1000000, resultar


a casi imposible

as
trabajar con k = 1000000 = 1000 intervalos, por lo que es m
razonable elegir k = 1 + 3.3 log(1000000) 21 clases.

Histograma
10

Histograma

si el numero de observaciones es n = 100, agruparemos las obser


vaciones en k = 100 = 10 intervalos.

45

50

55

60

65

35

40

45

peso lobo ibrico

50

55

60

65

70

peso lobo ibrico

Sin embargo, ambos representan el mismo conjunto de datos: los pesos


de los lobos ib
ericos del zoo. Adem
as ambos histogramas tienen 5
intervalos. Tienen distinto aspecto porque las escalas son diferentes.
Para poder comparar varios gr
aficos, deben tener la misma escala.

Patrones de distribuci
on m
as comunes

Gr
afico: distribuci
on unimodal sim
etrica
Distribucin unimodal simtrica
2000

La forma del histograma refleja muchas propiedades de la variable estadstica a la que se refiere: simetra, n
umero de modas, apuntamiento,
etc.

1000

Bimodal sim
etrico (por ejemplo peso en poblaciones mixtas, o pesos
medidos en kilos y en libras)

Frequency

Unimodal sim
etrico (por ejemplo peso o altura)

1500

Los patrones m
as frecuentes de histogramas son

Unimodal asim
etrico a la izquierda (por ejemplo esperanza de vida
por pases)

500

Unimodal asim
etrico a la derecha (por ejemplo ingresos o gastos)

30

40

50
x

60

70

Gr
afico: distribuci
on bimodal sim
etrica

Gr
afico: distribuci
on asim
etrica hacia la derecha

3000
2500

Frequency

2000
1500

500

500

1000

Frequency

1000 1500 2000 2500 3000 3500

Distribucin asimtrica a la derecha

3500

Distribucin bimodal simtrica

30

40

50

60

70

80

90

100

15

20

Gr
afico: distribuci
on asim
etrica hacia la izquierda

2500

Distribucin asimtrica a la izquierda

Diagramas de puntos
Cuando se tienen pocos datos de una variable continua, puede ser
util
representarlos mediante un simple diagrama de puntos.

500

1000

1500

2000

Supongamos por ejemplo que las longitudes de las pira


nas de un banco
de peces son 8, 17, 3, 10 y 12 cm. Estos datos pueden representarse
mediante el siguiente diagrama de puntos:

Frequency

10

50

55

60

65
x

70

Otros gr
aficos para variables cuantitativas

Ejemplo: pictogramas

Los datos cuantitativos tambi


en pueden representarse mediante otros
diagramas, como pictogramas o cartogramas.
Las posibilidades de representaci
on gr
afica dependen del tipo de variable que se est
e analizando.
Uno de los objetivos es que los gr
aficos faciliten la interpretaci
on de
los datos.
En las siguientes p
aginas aparecen ejemplos de pictogramas y cartogramas para variables num
ericas.

Ejemplo: pictogramas

Ejemplo: cartogramas

Ejemplo: cartogramas

Variables discretas que se asemejan a continuas


Cuando la variable que se est
a analizando es discreta pero tiene un
rango muy amplio (es decir, toma muchos valores distintos) es conveniente agrupar los datos del mismo modo que para las variables
continuas.
Un ejemplo de esta situaci
on es la edad de una poblaci
on heterog
enea
expresada en a
nos.
En tales casos, el histograma es un gr
afico m
as adecuado para representar la variable que el diagrama de barras.

Resumen num
erico de conjuntos de observaciones
Si los datos son cuantitativos, es conveniente complementar la informaci
on visual proporcionada por el an
alisis gr
afico con algunas medidas
num
ericas que proporcionen una idea sobre el centro de los datos, la
concentraci
on de
estos y otros rasgos de la distribuci
on.

Resumen num
erico de los datos

Estas medidas num


ericas que se calculan a partir de los datos y resumen parte de su comportamiento, reciben el nombre de estadsticos.
Vamos a analizar estadsticos que resumen num
ericamente las siguientes caractersticas de una distribuci
on:

la tendencia central de los datos (medidas de centralizaci


on),
los datos que ocupan ciertas posiciones (medidas de posici
on),
la variabilidad con respecto al centro (medidas de dispersi
on).

Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

La utilizaci
on de estos estadsticos permite formarse una idea bastante
fidedigna del comportamiento de un conjunto de grande de datos a
partir de unas pocas medidas que concentran mucha informaci
on.

Medidas de centralizaci
on
La descripci
on m
as elemental de un conjunto de datos consiste en
especificar su centro.
El concepto de centro se puede definir de diferentes formas.
Vamos a analizar los siguientes estadsticos de centralizaci
on:

Medidas de centralizaci
on

Media
Mediana
Moda
Media recortada

Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Media

N
umero medio de huevos en Talampaya

La idea de media aritm


etica o promedio formaliza el concepto intuitivo de punto de equilibrio o centro de gravedad de los datos.

Para calcular la media del n


umero de huevos en Talampaya
0
2
1
2
1
1
3
6
4
5

Dado un conjunto de observaciones, x1, . . . . . . , xn, su media, que deumero


notaremos por x, es la suma de todos los datos dividida por el n
total de datos.
La definici
on formal de media es

x=

n
1 !
xi
n i=1

es decir
x + + xn
x= 1
n

x
=

0
0
0
3
1
1
0
5
5
5

1
6
4
4
1
0
0
1
1
2

1
3
5
5
0
1
0
2
2
3

2
2
2
1
0
0
1
0
1
1

0
1
1
3
2
2
1
0
2
3

3
1
2
4
0
3
1
3
2
1

0
1
1
5
2
3
2
6
4
5

2
0
1
2
0
1
3
2
2
0

4
0
2
1
2
4
3
1
3
0

5
5
2
4
1
4
3
1
3
0

3
1
2
1
3
1
1
1
3
4

2
1
2
2
0
6
2
4
4
2

2
2
4
1
4
1
3
1
3
0

1
3
1
2
1
0
0
2
1
5

0 + 0 + 1 + 1 + 2 + 0 + 3 + 0 + 2 + 4 + 5 + ...... + 4 + 2 + 0 + 5
150

Hay una forma menos tediosa de calcularla?

Media de una variable discreta

Ejemplo: media de una variable discreta

Cuando los datos son discretos y las observaciones se repiten, podemos


disponerlos en una tabla de frecuencias,
X
x1
.
.
.
xk

ni
n1
.
.
.
nk

Para el ejemplo de los nidos de Talampaya,


xi
0
1
2
3
4
5
6
Total

fi
f1
.
.
.
fk

y usar la f
ormula

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

Ni
26
68
100
121
135
146
150

Fi
0.173
0.453
0.667
0.807
0.900
0.973
1

el n
umero medio de huevos de
nand
u por nido es
x=

k
1 !

n i=1

x n + + xk n k
,
xi n i = 1 1
n

o bien la f
ormula equivalente,
x=

k
!

i=1

x i f i = x1 f 1 + + xk f k .

Media de una variable continua


Si los datos son continuos y no disponemos de sus valores originales,
sino s
olo de una tabla de frecuencias por intervalos del tipo
Intervalos
[lo, l1]
.
.
.
[lk1, lk]

ci
c1
.
.
.
ck

ni
n1
.
.
.
nk

podemos usar la f
ormula aproximada
x

k
c n + + ck n k
1 !
ci n i = 1 1
,
n i=1
n

o bien la f
ormula equivalente,
x

k
!

i=1

c i f i = c1 f 1 + + c k f k .

0 26 + 1 42 + 2 32 + .... + 6 4
= 2.027
150
que tambi
en puede calcularse como
x=

x = 0 0.173 + 1 0.280 + 2 0.213 + .... + 6 0.027 = 2.027


Por tanto, en promedio, los nidos tienen 2.027 huevos. Obs
ervese
que
este no es uno de los valores posibles de la variable.

Media de una variable continua (continuaci


on)
La f
ormula aproximada
x

k
c n + + ck n k
1 !
,
ci n i = 1 1
n i=1
n

sustituye cada dato (desconocido) por la marca de clase (o punto


central) del intervalo al que pertenece.
La media obtenida usando esta f
ormula es una aproximaci
on que,
en general, no coincide con la verdadera media de los datos, aunque
ser
a un n
umero cercano al promedio si los intervalos no son excesivamente amplios.
Al aumentar la amplitud de las clases se pierde precisi
on.

Ejemplo: media de una variable continua


Vamos a calcular la media aproximada de los pesos de los lobos ib
ericos
resumidos en la tabla siguiente;
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60, 65]
Total

ci
42.5
47.5
52.5
57.5
62.5

ni
3
2
7
3
6
21

fi
0.1428
0.0952
0.3333
0.1428
0.2857
1

Ni
3
5
12
15
21

Fi
0.1428
0.2381
0.5714
0.7143
1

Puesto que los datos est


an agrupados, usaremos las marcas de clase
(ci) para calcular una aproximaci
on a la media:
x

k
42.5 3 + x 2 + . . . . . . + 62.5 6
1 !
ci n i =
= 54.1667 kg
n i=1
20

Linealidad de la media (continuaci


on)

Linealidad de la media
Si a todas las observaciones de una variable se les suma una misma
cantidad, la media de los nuevos datos es la media de las observaciones
originales m
as esa cantidad, es decir,
x + b = x + b.
Ejemplo: El sueldo medio de los trabajadores de cierta reserva natural
es de 1655 euros por mes. Si el gobierno decide aumentar en 44 euros
el salario de todos sus empleados, cu
al ser
a el sueldo medio de los
on: 1699 euros)
trabajadores a partir de ese momento? (Soluci
Si se multiplican todas las observaciones por una misma cantidad, la
media de los nuevos datos queda multiplicada por la misma cantidad,
esto es
ax = a x.
Ejemplo: En una muestra de 20 plantas, el peso medio ha resultado
ser 2.3 kilos. Cu
al ser
a la media de los pesos medidos en gramos de
estas mismas plantas? (Soluci
on: 2300 gramos)

Inconvenientes de la media

Juntando las dos propiedades anteriores, deducimos que, si Y es una


transformaci
on lineal de X, esto es, si

La media es muy sensible a la presencia de valores atpicos (tambien


llamados outliers).

Y = a + bX,

Puesto que todas las observaciones intervienen en su c


alculo, cuando
hay alguna observaci
on extrema la media se desplace en esa direcci
on.

entonces la media de Y es
y = a + bx.
Es decir, la media es un operador lineal.
Ejemplo: En cierta localidad, la temperatura media durante el mes
de agosto ha sido de 14 oC. Cu
al ser
a la temperatura media en la
localidad durante el mismo periodo si
esta se mide en oF?
Soluci
on: 57.2 oF.

Se dice por ello que la media no es robusta.


Esta falta robustez provoca paradojas como esta: por muy extra
no
que pueda parecer, la gran mayora de las personas tiene un n
umero
de piernas superior a la media...
En las distribuciones muy asim
etricas, no es recomendable usar la
media como medida central.
Para variables discretas el valor de la media puede no pertenecer al
conjunto de valores posibles de la variable.

Mediana

Muestra ordenada

La mediana es una medida de centralizaci


on que divide en dos mitades
(dos grupos con la misma cantidad de elementos) el conjunto de datos
ordenados de menor a mayor.
Es decir, la mediana es un punto que deja el 50 % de las observaciones por debajo de
el y el otros 50 % por encima de s:

Para calcular la mediana, en primer lugar hay que ordenar los datos de
menor a mayor.
Dado un conjunto de datos, x1, x2 , xn, suele utilizarse la notaci
on
x(1), x(2), , x(n),
para designar las mismas observaciones ordenadas de mayor menor.
Es decir, x(1) es el dato m
as peque
no, x(2) es el siguiente, y as hasta
x(n) que es la observaci
on m
axima.

Si queremos saber, por ejemplo, si una persona est


a entre las m
as altas
o entre las m
as bajas, debemos comparar su altura con la mediana de
su poblaci
on, y no con la media.

C
alculo de la mediana
Observemos que

Definici
on de la mediana
La mediana de un conjunto de datos, x1, x2, . . . , xn, se define como

Cuando el n
umero de observaciones es una cantidad impar, uno de
los datos est
a exactamente en el centro: la observaci
on que ocupa
la posici
on (n + 1)/2. Este n
umero central es la mediana.
Ejemplo: Para los datos
6, 12, 14, 20, 45
la mediana es 14.

Cuando la cantidad de datos es par, hay dos observaciones centrales: las observaciones que est
an en las posiciones n/2 y n/2 + 1. En
este caso se toma como mediana el promedio o semi-suma de las
dos observaciones centrales.
Ejemplo: Para los datos
6, 12, 14, 20, 45, 61
la mediana es el promedio de 14 y 20, es decir, 17.

M edx =

x& n+1 ',

x( n ) + x( n +1)

2
2

si n es impar

si n es par

Ejemplo: mediana de datos discretos


Retomemos los datos sobre n
umero de huevos de
nand
u en los nidos
de Talampaya:
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

Ni
26
68
100
121
135
146
150

Fi
0.173
0.453
0.667
0.807
0.900
0.973
1

Observamos que la mediana de estos datos es 2 huevos, ya que 2


es el primer valor con una frecuencia relativa acumulada mayor o igual
que 0.5.

Propiedades de la mediana

Cuando no se dispone del conjunto de las observaciones, sino s


olo
de una tabla estadstica con datos agrupados en clases, no se puede
determinar la mediana con exactitud.
En estos casos, lo que s puede asegurarse es que la mediana est
a en el
primero de los intervalos con una frecuencia relativa acumulada igual
o mayor que 0.5. Existen f
ormulas aproximadas, basadas en interpolaci
on, para calcular la mediana en estos casos.
Ejemplo: La mediana de pesos de los lobos ib
ericos est
a en el intervalo (50, 55], que es el primero que verifica Fi 0.5:
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60 ,65]

ci
42.5
47.5
52.5
57.5
62.5

ni
3
2
7
3
6
21

fi
0.1428
0.0952
0.3333
0.1428
0.2857
1

Ni
3
5
12
15
21

Fi
0.1428
0.2381
0.5714
0.7143
1

Comparaci
on de media y mediana

Las observaciones atpicas tienen un efecto mucho menor en la mediana que en la media, ya que la mediana no depende de los valores
que toma la variable, sino del orden de las mismas. Se dice por ello
que la mediana es una medida de centralizaci
on robusta.
Ejemplo: vamos a comparar las medias y medianas de los siguientes
conjuntos de datos:
X 2, 5, 7, 8, 13

Mediana de datos agrupados

Y 2, 5, 77, 8, 13

La muestra Y puede ser el resultado de un simple error al teclear los


datos de X. Las medias de X e Y son muy diferentes: x = 7, y = 21;
sin embargo sus medianas apenas difieren: M edx = 7, M edy = 8.
Cuando la distribuci
on es asim
etrica, la mediana es m
as apropiada
como medida de posici
on central que la media.
Las propiedades matem
aticas de la mediana son m
as complicadas que
las de la media, y por eso en inferencia estadstica es m
as frecuente
utilizar la media.

Es preferible resumir el centro de una distribuci


on usando tanto la
media como la mediana.
La comparaci
on entre ellas, adem
as, aporta informaci
on sobre la forma
de la distribuci
on, ya que en general:

Si la distribuci
on es sim
etrica alrededor del centro, x M edx
Si la distribuci
on es asim
etrica a la derecha, x >> M edx
Si la distribuci
on es asim
etrica a la izquierda, x << M edx

Media-mediana: distribuci
on sim
etrica
Cuando la distribuci
on es bastante sim
etrica, media y mediana toman
valores muy pr
oximos entre s:

Media-mediana: asimetra a la derecha


Si la distribuci
on es asim
etrica hacia la derecha, hay una peque
na
proporci
on de datos que son mucho mayores que la mayora.
Estos datos tiran de la media hacia arriba, provocando que
esta sea
considerablemente mayor que el valor de la mediana:

Si la distribuci
on fuese perfectamente sim
etrica, la media y la mediana
coincidiran exactamente.

Media-mediana: asimetra a la izquierda


Las distribuciones asim
etricas hacia la izquierda tienen una peque
na
proporci
on de datos mucho menores que la mayora que tiran hacia
abajo de la media.
Por ello, en estos casos la media es bastante menor la mediana:

Moda
La moda es el valor de la variable que se repite con mayor frecuencia.
Es una medida de centralizaci
on muy f
acil de calcular.
La moda no es siempre
unica, ya que puede existir m
as de un valor
con la m
axima frecuencia.
La moda es una medida informativa tanto en variables categ
oricas
como para en cuantitativas discretas.

Ejemplo: moda de una variable discreta


Para los datos sobre n
umero de huevos de
nand
u por nido, la moda
es 1 huevo:
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

Ni
26
68
100
121
135
146
150

Fi
0.173
0.453
0.667
0.807
0.900
0.973
1

Habamos visto que el centro de gravedad (la media) es 2.027 huevos,


y la mediana (el valor central) es 2. La moda aporta informaci
on
as frecuente en Talampaya en encontrar
complementaria: lo m
nidos de
nand
u con 1 huevo.

Media recortada

Clase modal de una variable continua


En el caso de las variables continuas la moda no aporta ninguna
informaci
on, ya que lo habitual es que no existan datos repetidos
(y todos los valores sean modas) o que si se repiten sea debido al
redondeo (en cuyo caso la moda no es relevante).
Para variables continuas lo que s tiene inter
es es el intervalo o clase
as alta.
modal, es decir, el intervalo de frecuencia m
Ejemplo:
(50,55]:

para los pesos de los lobos ib


ericos, la clase modal es
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60 ,65]
Total

ci
42.5
47.5
52.5
57.5
62.5

ni
3
2
7
3
6
21

fi
0.1428
0.0952
0.3333
0.1428
0.2857
1

Ni
3
5
12
15
21

Fi
0.1428
0.2381
0.5714
0.7143
1

Ejemplo: media recortada

Una forma de mejorar la falta de robustez de la media consiste en


moderar el efecto de los datos atpicos en el c
alculo de la media.
La media recortada al por ciento es la media de los datos que quedan
despu
es de eliminar el por ciento de las observaciones m
as grandes
y el por ciento de las m
as peque
nas.
Por ejemplo, la media recortada al 10 % en un conjunto de 50 datos
vendr
a dada por
45
1 !
x
40 i=6 (i)

Consideremos de nuevo los datos sobre el n


umero de huevos de
nand
u de
los nidos del Parque Nacional Talampaya:
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

Ni
26
68
100
121
135
146
150

Fi
0.173
0.453
0.667
0.807
0.900
0.973
1

La media recortada al al 20 % para estos datos es


!
1 120
x = 1.8 huevos.
90 i=31 (i)

Percentiles
La media, mediana y moda son medidas de la posici
on central de los
datos, pero hay otras posiciones que pueden ser de inter
es al analizar
la distribuci
on. De manera gen
erica a tales observaciones se les da el
nombre de cuantiles.

Medidas de posici
on

Los percentiles dividen en conjunto de observaciones en 100 partes


del mismo tama
no.
El percentil de orden k, que denotaremos por Pk , es la observaci
on
que deja por debajo de s el k % de los datos.
Por ejemplo, si la altura de una persona est
a en el percentil 80, significa
que el 80 % de las personas miden menos que ella. O lo que es lo
mismo, que el 20 % son m
as altas que ella.
Para calcular Pk se toma la primera observaci
on con una frecuencia
relativa acumulada mayor o igual que k/100.

Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Ejemplo: percentiles

Algunas utilidades de los percentiles

Para la distribuci
on del n
umero de huevos en Talampaya,
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

se tiene, por ejemplo, que


P10 = 0,
P20 = 1,
P90 = 4,
P99 = 6.

Ni
26
68
100
121
135
146
150

Fi
0.173
0.453
0.667
0.807
0.900
0.973
1

Normalmente las personas que tienen hijos suelen estar familiarizas


con los percentiles, ya que los pediatras les indican los percentiles de
la altura, el peso u otras magnitudes del ni
no.
Por ejemplo, si la altura de un ni
no est
a en el percentil 69, sus padres
saben que el 69 % de los ni
nos de su edad miden menos que
el.
La OMS publica tablas de referencia para cada segmento de edad. Las
referencias son distintas para ni
nos y ni
nas.
Tambi
en se usan los percentiles para medir los resultados de los tests
de inteligencia. Si una persona est
a en el percentil 85 significa que
s
olo el 15 % de la poblaci
on le supera en esa habilidad.

Cuartiles

Cuartiles (continuaci
on)

Los cuartiles son los percentiles de orden 25, 50 y 75:

El primer cuartil, que denotaremos por Q1, es la observaci


on que
deja por debajo de s el 25 % de los datos (Q1 = P25).
on
El segundo cuartil, que denotaremos por Q2, es la observaci
que deja por debajo de s el 50 % de los datos, es decir, la mediana
(Q1 = P50 = M ed).

Por ejemplo, los cuartiles del conjunto de datos


114, 125, 114, 124, 142, 152, 133, 113, 127, 135, 122, 127, 185, 134, 147.
son Q1 = 122, Q2 = 130, y Q3 = 142, como se aprecia en el siquiente
esquema:

El tercer cuartil, que denotaremos por Q3, es la observaci


on que
deja por debajo de s el 75 % de los datos (Q3 = P75).
Q1, Q2 y Q3 dividen el conjunto de datos ordenados en 4 subconjuntos
con la misma cantidad de observaciones.

Qu
e informaci
on proporcionan los cuartiles? Supongamos por ejemplo
se est
a analizando la longitud de las hojas de una planta, y que sus
cuartiles son Q1 = 10 cm, Q2 = 13 cm, y Q3 = 30 cm.
Con esto sabemos por ejemplo que una hoja de 8 cm est
a entre el
25 % de las m
as peque
nas. Una de 15 cm est
a entre la mitad m
as
grande pero por lo menos un 25 % de las hojas son mayores que ella.
Una hoja de 32 cm est
a entre el 25 % de las m
as grandes.

Ejemplo: cuartiles
Para la distribuci
on del n
umero de huevos en Talampaya,
xi
0
1
2
3
4
5
6
Total

ni
26
42
32
21
14
11
4
150

fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1

Ni
26
68
100
121
135
146
150

Fi
0.173
0.453
0.667
0.807
0.900
0.973
1

Medidas de dispersi
on

se tiene que
Q1 = 1,
Q2 = 2,
Q3 = 3.

Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Por qu
e es importante medir la dispersi
on?
Una vez localizado el centro de los datos es importante analizar si las
observaciones est
an muy concentradas alrededor de ese centro o si por
el contrario est
an alejadas de
el.
Imaginemos por ejemplo dos bancos de pira
nas, A y B. Las longitudes
de las pira
nas del banco A son 11, 7, 10, 13 y 9 cm, y las del banco
B, 8, 17, 3, 10 y 12 cm. Aunque en ambos bancos tanto la media
como la mediana son 10 cm, las pira
nas del banco A tienen longitudes
mucho m
as concentradas en torno a 10 que las del banco B:

Estadsticos de dispersi
on
Las medidas de dispersi
on proporcionan informaci
on sobre del grado
de separaci
on de las observaciones alrededor su centro.
Analizaremos las siguientes medidas de dispersi
on:

Amplitud o rango.
Varianza y desviaci
on tpica.
Cuasi-varianza y cuasi desviaci
on tpica.
Recorrido intercuartlico.
Coeficiente de variaci
on.

Por ello, la longitud central de 10 cm es mucho m


as representativa del
conjunto de pira
nas del banco A que de las del banco B.

Las medidas de dispersi


on son siempre no negativas. Cuando los datos
no presentan ninguna variabilidad (es decir, cuando son todos iguales)
toman el valor 0, y cuanto m
as separadas est
en las observaciones,
mayor ser
a su valor.

Este ejemplo sugiere que es conveniente contar con estadsticos que


midan c
omo de cercanos o de alejados est
an los datos.

Amplitud, recorrido o rango

Varianza y desviaci
on tpica

La forma m
as elemental de evaluar la dispersi
on de un conjunto de
observaciones consiste en calcular la amplitud de su dominio, es
decir la diferencia entre el mayor y el menor de los datos.

Una manera natural de medir la dispersi


on alrededor del centro consiste
en promediar las distancias de cada una de las observaciones a
la media.

Dado un conjunto de datos, x1, , xn, definimos su amplitud, o recorrido o rango como

Como tales distancias, no podemos tomar las diferencias entre las


observaciones y la media (xi x), ya que estas son unas positivas y
otras negativas, y al hacer la media se compensan entre s.

Ax = m
aximo(x1, x2, . . . , xn) mnimo(x1, x2, . . . , xn) = x(n) x(1)
Ejemplo: Para los datos sobre el n
umero de huevos de los nidos de
Talampaya el rango o amplitud es
A = x(150) x(1) = 6 0 = 6 huevos.
El rango tiene la ventaja de que es f
acil de calcular y sus unidades
son las mismas que las de las observaciones originales.
Su principal inconveniente es su enorme falta de robustez.

Para evitar este problema, lo que se hace es tomar los cuadrados de


estas diferencias. De este modo los signos no se compensan unos
con otros.
Formalmente, dado un conjunto de datos, x1, , xn, definimos su
varianza, s2
x , como la media de los cuadrados de las diferencias entre
las observaciones y su media, es decir,
s2
x =

n
1 !
(xi x)2
n i=1

Varianza y desviaci
on tpica (continuaci
on)
Una f
ormula equivalente para la varianza es la siguiente
n
1 !
x2 x2
n i=1 i

s2
x =

Es decir, la varianza es la media de los cuadrados de las observaormula


ciones menos el cuadrado de su media. Con esta segunda f
resulta m
as sencillo realizar los c
alculos.
Las unidades de la varianza son el cuadrado de las unidades
de las observaciones. Por ejemplo, si las observaciones se miden en
metros, la varianza vendr
a dada en metros2.
Para obtener una medida de dispersi
on con las mismas unidades que
las observaciones basta con tomar la raz cuadrada de la varianza. La
desviaci
on tpica es la raz cuadrada positiva de la varianza, es decir

Ejemplo: varianza y desviaci


on tpica
Consideremos las edades 3, 6, 7, 7, 9 y 10 a
nos.
Para hallar la varianza de estas observaciones, el primer paso es calcular
su media:
3 + 6 + 7 + 7 + 9 + 10
x=
= 7 a
nos.
6
Podemos calcular la varianza como
s2
x =

n
1 !
(3 7)2 + (5 7)2 + . . . + (10 7)2
= 5 a
nos2,
(xi x)2 =
n i=1
6

o bien mediante la f
ormula equivalente
s2
x =

n
32 + 62 + 72 + 72 + 92 + 102
1 !
2
72 = 5449 = 5 a
nos2,
x2
i x =
n i=1
6

Por tanto, la desviaci


on tpica es sx =

s2
x =

5 = 2.236 a
nos.

sx = + s2
x

Ejemplo: varianza y desviaci


on tpica
Consideremos una vez m
as el n
umero de huevos de los 150 nidos.
Para estos datos se tiene que
n
1 !
xi = 2.027,
x=
150 i=1
n
1 !
x2 = 6.68,
150 i=1 i

Propiedades de la varianza y la desviaci


on tpica
La varianza y la desviaci
on tpica son siempre n
umeros no negativos,
es decir,
s2
x 0,

sx 0.

La varianza s
olamente toma el valor 0 en los casos en los que todas las
observaciones son iguales. Lo mismo le ocurre a la desviaci
on tpica.
Si Y es una transformaci
on lineal de X, esto es, si
Y = aX + b,

Luego
2
2
s2
x = 6.68 2.027 = 2.57 huevos ,

sx =

2.5794 = 1.6 huevos.

entonces la varianza y la desviaci


on de Y son
2
2 2
s2
y = sax+b = a sx ,

sy = sax+b = |a| sx.

La varianza y la desviaci
on tpica no son medidas robustas, ya que
se ven muy infuenciadas por las observaciones atpicas.

Aplicaci
on de x
y sx: tipificaci
on de variables

Tipificaci
on de variables (continuaci
on)

Cuando se quieren comparar observaciones de una variable que pertenecen a dos poblaciones distintas, puede ocurrir que la media y la
varianza de dichas poblaciones sean muy diferentes.

Tipificar o estandarizar las observaciones de una variable consiste en


aplicarles una transformaci
on lineal de tal manera que el conjunto de
datos transformados tenga media 0 y varianza 1.

En estos casos, comparar las observaciones directamente puede llevar


a conclusiones err
oneas.

Dada una variable X y un conjunto de observaciones, x1, x2, . . . , xn, los


datos tipificados se construyen restando a cada observaci
on la media
y dividiendo esta diferencia por la desviaci
on tpica, es decir,

Por ejemplo, si se quiere comparar el nivel de colesterol de una persona


con el de glucosa, no tiene mucho sentido hacerlo directamente, ya
que los niveles de colesterol son, como conjunto, bastante mayores
que los de glucosa.
Para solventar este problema, se pueden transformar los datos de cada
una de las poblaciones para llevarlos a una escala donde sean comparables.

Ejemplo: tipificaci
on de variables
Un individuo que acaba de hacerse unos an
alisis de sangre tiene un
nivel de glucosa de 125 mg/dl y un nivel de colesterol de 247 mg/dl.
Para las personas de su edad, el nivel medio de glucosa es 80 mg/dl,
con una desviaci
on tpica de 30 mg/dl, mientras que el nivel medio de
colesterol es de 190 mg/dl con una varianza de 3249(mg/dl)2. Cu
al
de los dos niveles resulta m
as preocupante en este individuo?
Soluci
on: El valor tipificado del nivel de glucosa del individuo es
125 g
125 80
=
= 1.5.
sg
30
Esto indica que su nivel de glucosa est
a 1.5 desviaciones tpicas por
encima de la media de su grupo de edad.
zg =

Por otra parte, el valor tipificado de su de colesterol en sangre es


247 c
247 190
247 190
=
= 1,
=
sc
57
3249
luego est
a 1 desviaci
on por encima de la media de su grupo.
zc =

Puesto que zg > zc, concluimos que problema de azucar de este individuo es m
as severo que el de colesterol.

x x
xn x
x x
, z2 = 2
, . . . , zn =
.
z1 = 1
sx
sx
sx
Los nuevos datos, z1, z2, . . . , zn, reciben el nombre de datos tipificados,
y expresan el n
umero de desviaciones tpicas que cada observaci
on
on relativa de datos
dista de la media. Esto permite comparar la posici
procedentes de diferentes distribuciones.

Cuasi-varianza y cuasi desviaci


on tpica
La cuasi-varianza es una medida de dispersi
on estrechamente relacionada con la varianza. Su definici
on es
Sx2 =

n
1 !
(xi x)2 .
n 1 i=1

Observamos que la
unica diferencia con la varianza es que la suma de
cuadrados de las desviaciones a la media se divide por n 1 en lugar
de por n.
El inter
es de la cuasi-varianza radica en que, cuando se quiere estimar
la varianza de una variable en una poblaci
on a partir de las observaciones de una muestra peque
na, la cuasi-varianza presenta ciertas
propiedades que la hacen m
as adecuada que la varianza. Cuando n es
2
grande la diferencia entre s2
acticamente imperceptible.
x y Sx es pr
(

La raz cuadrada de la cuasi-varianza, Sx = + Sx2, recibe el nombre


de cuasi-desviaci
on tpica.

Rango intercuartlico

Diagramas de caja

El rango intercuartlico, o recorrido intercuartlico, es la diferencia


entre el tercer y el primer cuartil, esto es,
RIx = Q3 Q1.

El diagrama de caja (box-plot) es un gr


afico basado en los cuartiles.
Contiene informaci
on sobre la simetra de la distribuci
on y adem
as nos
permitir
a formalizar la idea de dato atpico.

Este valor indica la distancia que separa a las dos observaciones


que limitan la mitad central de los datos.

Para construir el diagrama de caja, se construye un rect


angulo (o caja)
cuyos lados verticales pasan por el primer y tercer cuartil, con una lnea
vertical a la altura de la mediana.

El rango intercuartlico es una medida de dispersi


on robusta, ya que
en su c
alculo no intervienen las observaciones m
as extremas.

La caja contiene la mitad central de los datos, y cada una de las otras
dos cuartas partes queda a uno de los lados de la caja.

Ejemplo: Para los datos sobre el n


umero de huevos en Talampaya
teniamos que Q1 = 1 y Q3 = 3; por tanto su rango intercuartlico es
RI = 3 1 = 2 huevos.
A partir del rango intercuartlico de un conjunto de datos de puede
construir un diagrama de caja para representarlos gr
aficamente.

Diagramas de caja (continuaci


on)
A continuaci
on se traza una barrera vertical imaginaria a la izquierda
de Q1 a distancia 1.5RI,
barrera inferior:

Q1 1.5 RI

y otra barrera imaginaria a la derecha de Q3 tambi


en a distancia
1.5RI,
barrera superior:

Ejemplo: diagrama de caja


Vamos a construir un diagrama de caja para los datos
114, 125, 114, 124, 142, 152, 133, 113, 127, 135, 122, 127, 185, 134, 147.
Los cuartiles de esta muestras son Q1 = 122, Q2 = 130, Q3 = 142, ya
que

Q3 + 1.5 RI

Despu
es se traza un bigote desde cada lado de la caja al dato m
as
extremo que est
e dentro de las barreras.
Las observaciones que quedan fuera de las barreras pueden considerarse datos atpicos, y se dibujan como puntos aislados.

Por tanto el rango intercuartlico es RI = 142 122 = 20

Ejemplo: diagrama de caja (continuaci


on)
Multiplicando el rango intercuartlico por 1.5,

Ejemplo: diagrama de caja (continuaci


on)
Con todo esto se obtiene el siguiente diagrama de caja:
Diagrama de caja

1.5 RI = 1.5 20 = 30,


determinamos que las barreras del diagrama son

barrera inferior:

barrera superior:

Q1 1.5 RI = 122 30 = 92

Q3 + 1.5 RI = 142 + 30 = 172

Puesto que no hay ning


un dato inferior a 92, el bigote de la izquierda
va hasta 113, que es la observaci
on m
as peque
na.
S hay un dato superior a 172: el 185, que se dibujar
a fuera de la caja
como un punto aislado. El bigote de la derecha llegar
a hasta 152, que
es la mayor de las observaciones que no exceden la barrera.

Ejemplo: diagrama de caja (continuaci


on)
El diagrama de caja tambi
en puede representarse verticalmente:

100

120

140

160

180

200

Diagrama de caja

100

120

140

160

180

200

Utilidad de los diagramas de caja


Los diagramas de caja son muy utiles para explorar los datos, ya que
proporcionan informaci
on visual sobre c
omo se distribuyen los datos,
sobre su simetra y sobre sus posibles datos atpicos.
Adem
as, son una herramienta muy
util para comparar conjuntos de
datos, como puede apreciarse en el siguiente ejemplo.

Ejemplo: utilidad de los diagramas de caja

Ejemplo (continuaci
on)

Con el fin de evaluar el tiempo de compilaci


on de dicho programa, lo
han puesto a correr en todos todos los ordenadores de su laboratorio,
tanto en los fijos como en los port
atiles.

fijos

Un equipo de ingenieros del software ha desarrollado un sofisticado


programa inform
atico.

portatiles

El gr
afico de la transparencia siguiente representa los tiempos de compilaci
on resultantes medidos en horas.

20

Ejemplo (continuaci
on)
Mirando estos diagramas, podemos responder a cuestiones como las
siguientes:
1. El ordenador que menos tarda en compilar el programa, es un fijo
o un portatil?

40

60

80

Ejemplo (continuaci
on)
A partir de los diagramas de caja, es f
acil dar las siguientes respuestas:
1. El gr
afico muestra que el tiempo mnimo de compilaci
on (inferior
a 20 horas) corresponde a un ordenador portatil.

2. Cu
al es la proporci
on de ordenadores port
atiles que complilan el
programa en menos de 60 segundos?

2. En el diagrama de caja se puede apreciar que 60 horas es el primer


cuartil del tiempo de compilaci
on para el grupo de ordenadores
port
atiles (Q1 = 60).

3. Qu
e proporci
on de ordenadores fijos tardan en compilar el programa entre 15 y 80 segundos?

En consecuencia, la proporci
on de port
atiles de esta empresa que
compilan el programa en menos de 60 horas es 0.25.

4. Qu
e proporci
on de port
atiles tardan en compilar un tiempo inferior
al del m
as lento de los ordenadores fijos?

3. En el diagrama de caja podemos ver que todos los ordenadores fijos


tardan m
as de 15 horas en compilar el programa, y que 80 horas
es el tercer cuartil del tiempo de compilaci
on para los ordenadores
fijos (Q3 = 80).

5. El tiempo medio de compilaci


on de los ordenadores port
atiles, es
menor que 80 segundos, exactamente 80, o mayor que 80?

Luego la proporci
on de ordenadores fijos tardan en compilar el programa entre 15 y 80 horas es 0.75.

Ejemplo (continuaci
on)
4. El m
as lento de los ordenadores fijos tarda 90 horas en complilar
el programa. Por otra parte 90 minutos es el tercer cuartil para los
tiempo de compilaci
on de los port
atiles.
Por consiguiente la proporci
on de port
atiles tardan en compilar un
tiempo inferior al del m
as lento de los ordenadores fijos es 0.75.

Otras utilidades de los box-plots


Los diagramas de caja tambi
en resultan
utiles para analizar la evoluci
on
de una variable a lo largo del tiempo. Por ejemplo, el gr
afico siguiente
permite comparar la concentraci
on de oxgeno disuelto en el agua de
un ro a lo largo de los 12 meses de un a
no:

5. La mediana de los tiempos de compilaci


on es 80 horas. El diagrama de caja evidencia que la distribuci
on de los tiempos es muy
asim
etrica a la izquierda, y que hay dos datos atpicos a la izquierda.
En consecuencia el tiempo medio de compilaci
on de los ordenadores
port
atiles ser
a sensiblemente inferior a 80 horas.

Coeficiente de variaci
on
Qu
e tiene m
as variabilidad: la altura de las jirafas o la de los ratones?
Las medidas de dispersi
on que hemos visto hasta ahora dependen de
las unidades en las que se mida la variable y de su magnitud.
Pero, evidentemente, no es lo mismo una desviaci
on tpica de 30 cm
en las alturas de las jirafas que en las de los ratones.
Para poder comparar la dispersi
on de variables que est
an medidas en
unidades diferentes, o que toman valores de magnitudes muy distintas,
es preciso contar con una medida de variabilidad que no dependa de
las unidades ni del tama
no de los datos.
Las unidades de la media y de la desviaci
on tpica son las mismas
que las de los datos. Una manera natural de construir una medida de
variabilidad que no dependa de las unidades ni de la magnitud de los
datos es calcular el cociente
sx
CVx =
,
|x|

Observaciones sobre el coeficiente de variaci


on
El cociente
CVx =

sx
,
|x|

on y puede interpretarse
recibe el nombre de coeficiente de variaci
como la proporci
on o tanto por uno de variabilidad.
El coeficiente de variaci
on es invariante ante cambios de escala: si
multiplicamos los datos por una constante a, entonces
CVax =

|a|sx
sx
sax
=
=
= CVx
|ax|
|a||x|
|x|

El coeficiente de variaci
on sirve para comparar las variabilidades de dos
conjuntos de datos con unidades o magnitudes diferentes, mientras
que si deseamos comparar dos elementos pertenecientes cada uno a
uno de esos conjuntos, debemos usar los valores tipificados.

Ejemplo: coeficiente de variaci


on
Un m
edico desea determinar si la variabilidad de los niveles de glucosa
en sangre de los individuos de cierto grupo de edad es mayor o menor
que la de los niveles colesterol. La distribuci
on del nivel de glucosa
en ese grupo de edad tiene una media de 80 mg/dl y una desviaci
on
tpica de 30 mg/dl, mientras que el nivel medio de colesterol es de
190 mg/dl con una varianza de 3249(mg/dl)2.
Los coeficientes de variaci
on son:
sg
30
CVg =
=
= 0.375
g
80

3249
sc
57
CVc =
=
=
= 0.3
c
190
190

Otros aspectos a tener en cuenta


en la descripci
on de datos univariantes

Por tanto, en este grupo de edad, los niveles de glucosa presentan


mayor dispersi
on que los de colesterol, o lo que es lo mismo, los niveles
de colesterol est
an m
as concentrados que los de glucosa.
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)

Datos atpicos
Los datos atpicos requieren una atenci
on especial. Es importante identificarlos y decidir c
omo tratarlos, ya que pueden tener una fuerte
infuencia en las conclusiones del an
alisis.
En algunos casos el outlier aparece como consecuencia de un acontecimiento extraordinario. En este caso, el ese dato atpico no es representativo y puede ser eliminado del an
alisis.
Otras veces la observaci
on atpica es simplemente consecuencia de un
error en la recogida o la transcipci
on de los datos. Debe evitarse que
este tipo de outliers influyan en el an
alisis.
Tambi
en hay observaciones an
omalas para las que no parece haber
explicaci
on. Estos datos pueden aportar informaci
on relevante sobre
el comportamiento de la variable, y conviene tratar de averiguar su por
qu
e.

Datos ausentes
Es frecuente encontrarse con que los valores de la variable son desconocidos para algunas de las unidades experimentales.
Por ejemplo, podra ocurrir que algunos de los nidos de Talampaya
fuesen inaccesibles y no se pudiese registrar el n
umero de huevos que
tienen.
Evidentemente, la validez de un estudio se ve afectada por la reducci
on
del n
umero total de casos.
Por ejemplo, es posible que los nidos inaccesibles sean precisamente
los que tienen m
as huevos, porque los n
and
ues que han decidido anidar
en lugares m
as difciles sean los que tienen m
as huevos que proteger.
El tratamiento de los posibles datos perdidos es tambi
en parte importante de un an
alisis descriptivo.

Datos temporales (continuaci


on)

30

80
Millones de toneladas

40
35

20

30

20

35

25

40

45

50

Millones de toneladas

45

consumo de petrleo en China

2003

2004

2005

2006

2007

Ao

20

25

Millones de toneladas

consumo de petrleo en China


100

consumo de petrleo en China

2003

2004

2005

2006

2007

2008

2009

2010

Ao

C
omo enfrentarse a un conjunto de datos?
Finalmente, hay que tener en cuenta que

Para extraer la m
axima informaci
on de un conjunto de datos deben
combinarse las t
ecnicas gr
aficas y num
ericas.
Es muy importante tener en mente la variable que se est
a midiendo
y el objetivo que se persigue.
En el an
alisis de datos no existen recetas universales validas para
todas las muestras y poblaciones: cada conjunto de observaciones
es un mundo diferente con sus propias particularidades. Por ello hay
que dejar que los datos hablen.

60

Por ejemplo, representar observaciones temporales mediante un histograma o un diagrama de barras tiene muy poca utilidad. Deben
representarse en un diagrama de serie temporal, como el siguiente:

La elecci
on de la escala influye mucho en la percepci
on que transmite
un gr
afico temporal. Por ejemplo, los dos gr
aficos siguientes representan los mismos datos sobre consumo de petr
oleo:

40

Cuando se quiere tener en cuenta el orden de los datos, el an


alisis
descriptivo requiere herramientas especficas.

50

Datos temporales

2008

2009

2010

2003

2004

2005

2006

2007

2008

2009

2010

Ao

Los estadsticos de centralizaci


on, posici
on o dispersi
on son poco informativos para datos temporales. Por ejemplo, el n
umero de medio de
ballenas avistadas por a
no no es un buen resumen de su evoluci
on.

Bibliografa
Ross, S.M. (2007) Introducci
on a la Estadstica. Reverte
Captulos 2 y 3.
Pe
na, D. (2001) Fundamentos de Estadstica. Alianza Editorial
Captulo 2.
Montgomery, D.C. et al (2012) Engineering Statistics. Wiley
Captulos 1 y 2.
Grima, P. (2010) La certeza absoluta y otras ficciones. Los secretos
de la estadstica. RBA
Captulo 1.

S-ar putea să vă placă și