Tema 1 (Estadistica)

GRADO EN INGENIER
IA DEL SOFTWARE
Introducci
on
ESTAD
ISTICA
TEMA 1(A)
DESCRIPCION
DE DATOS UNIVARIANTES
Sonia Hern
andez Alonso
Estadstica-Ingeniera del Software (URJC)
Sonia Hern
andez Alonso
Departamento de Inform
atica y Estadstica (URJC)
Buscando patrones en los datos
Estadstica descriptiva
Una forma razonable de buscar hip

otesis que permitan explicar alg
un
fen
omeno de la naturaleza es recolectar datos y buscar en ellos patrones de comportamiento.
Pero cuando nos limitamos a observar un listado de datos, suele resultar difcil identificar ning
un patr
on. Por ejemplo, la lista siguiente
recoge el n
umero de huevos de todos los nidos de
nand
u encontrados
en el Parque Nacional de Talampaya (Argentina):
0
2
1
2
1
1
3
6
4
5
0
0
0
3
1
1
0
5
5
5
1
6
4
4
1
0
0
1
1
2
1
3
5
5
0
1
0
2
2
3
2
2
2
1
0
0
1
0
1
1
0
1
1
3
2
2
1
0
2
3
3
1
2
4
0
3
1
3
2
1
0
1
1
5
2
3
2
6
4
5
2
0
1
2
0
1
3
2
2
0
4
0
2
1
2
4
3
1
3
0
5
5
2
4
1
4
3
1
3
0
3
1
2
1
3
1
1
1
3
4
2
1
2
2
0
6
2
4
4
2
2
2
4
1
4
1
3
1
3
0
1
3
1
2
1
0
0
2
1
5
El listado anterior contiene toda la informaci

on que nos interesa sobre
el n
umero de huevos de
nand
u en Talampaya, pero el simple examen
de los datos uno detr
as de otro no es suficiente para identificar las
caractersticas m
as relevantes del conjunto.
Este ejemplo ilustra el hecho de que, para poder indentificar patrones
de comportamiento, es preciso ordenar y resumir las observaciones.
La estadstica descriptiva es la exploraci
on de conjuntos de datos mediante t
ecnicas gr
aficas y num
ericas con el fin extraer la
informaci
on m
as relevante.
En este tema analizaremos m
etodos para describir conjuntos de observaciones a fin de poder descubrir sus car
actersticas principales.
El an
alisis es diferente dependiendo de que la variable sea cualitativa o
cuantitativa, y en este u
ltimo caso dependiendo de que sea discreta o
continua.
Esquema
Descripci
on de variables categ
oricas
Descripci
on de variables cuantitativas:
Distribuci
on de frecuencias en variables discretas
Distribuci
on de frecuencias en variables continuas
Resumen num
erico de los datos:
Descripci
on de variables categ
oricas
Medidas de centralizaci
on
Medidas de posici
on
Medidas de dispersi
on
Otros aspectos a tener en cuenta
Sonia Hern
andez Alonso
Modalidades de una variable cualitativa

Recordemos que las variables categ
oricas o cualitativas son aquellas
cuyos posibles valores o modalidades son atributos o categoras, es
decir, no son n
umeros.
Consideremos una poblaci
on de n individuos u objetos, y una variable
estadstica categ
orica C con k valores, clases o modalidades,
c1, ...., ck
Estas modalidades deben de estar bien definidas; esto supone que
han de ser exhaustivas y excluyentes, es decir, todas las unidades
experimentales deben pertenecer a una categoria y s
olo a una de ellas.
Frecuencias absolutas y relativas

Podemos considerar las siguientes magnitudes:
La frecuencia absoluta de la modalidad ci, que denotaremos por

ni, es el n
umero total de observaciones en esta modalidad.
La frecuencia relativa de la clase ci, que denotaremos por fi, es
el cociente entre la frecuencia absoluta de dicha clase y el n
umero
total de observaciones, es decir,
n
fi = i .
n
fi es la proporci
on (o tanto por uno) de observaciones que est
an
en la clase ci. Multiplicado por 100 representa el porcentaje o tanto
por ciento ( %) de la poblaci
on que pertenece a esa clase.
Las frecuencias relativas permiten comparar conjuntos de datos
con distinto numero de observaciones.
Distribuci
on de frecuencias
Ejemplo: tabla de frecuencias
La distribuci
on de frecuencias es la descripci
on del conjunto de
clases con sus correspondientes frecuencias.
Para presentar de forma ordenada la distribuci
on de frecuencias se
utilizan tablas de frecuencias, cuya estructura general es la siguiente:
Modalidades
c1
...
cj
...
ck
Frec. Absolutas
n1
...
nj
...
nk
Frec. Relativas
f1 = nn1
...
n
fj = nj
...
fk = nnk
Total:
La siguiente tabla de frecuencias resume el tipo de residuos al que

corresponden los lotes almacenados en un vertedero en el a
no 2012:
Modalidad
Agropecuarios
Forestales
Industriales
Mineros
Municipales
Radiactivos
Sanitarios
Total
F. absoluta (ni)
6
4
5
9
3
1
2
30
F. relativa (fi)
0.2000
0.1333
0.1667
0.3000
0.1000
0.0333
0.0667
1
La distribuci
on de frecuencias tambi
en puede visualizarse mediante
gr
aficos.
Propiedades de las frecuencias
Representaciones gr
aficas para var cualitativas
Las frecuencias, tanto absolutas como relativas, son n

umeros no negativos, es decir,
Habitualmente resulta m
as inmediato visualizar la distribuci
on de frecuencias de una variable represent
andolos gr
aficamente.
ni 0, fi 0, para i = 1, ...k.
Los gr
aficos m
as utilizados para representar la distribuci
on de las variables cualitativas son:
Puesto que las modalidades son exhaustivas y excluyentes, la suma de

las frecuencias absolutas de todas las modalidades es el n
umero
total de observaciones, esto es,
k
!
nj = n1 + n2 + . . . + nk = n.
j=1
j=1
fj = f1 + . . . f k =
Diagramas de sectores
Pictogramas
Cartogramas
La suma de las frecuencias relativas de todas las modalidades

es 1, o sea,
k
!
Diagramas de barras
n1
n
n + . . . + nk
n
+ ... + k = 1
= = 1.
n
n
n
n
Diagramas de barras
Ejemplo: diagrama de barras
Los diagramas de barras permiten visualizar de manera sencilla la

distribuci
on de frecuencias de una variable categ
orica.
Para los datos sobre el tipo de residuos, los diagramas de barras de

frecuencias absolutas y relativas son, respectivamente,
Para ello se representan

Diagrama de barras (frecuencias relativas)
0.20
0.15
frecuencias relativas
6
4
frecuencias absolutas
0.00
0.05
El aspecto del gr
afico es el mismo si se usan frecuencias absolutas o
frecuencias relativas. S
olo cambia la escala.
en el de ordenadas (eje Y ) las frecuencias (absolutas o relativas).
0.10
en el eje de abscisas (eje X) las modalidades
0.25
10
0.30
Diagrama de barras (frecuencias absolutas)
Agro
Fores
Indus
Miner
RESIDUOS
Muni
Radia
Sani
Agro
Fores
Indus
Miner
Muni
Radia
RESIDUOS
Observamos que los dos gr

aficos s
olo difieren en la escala.
Diagramas de barras comparativos
Ejemplo: diagrama de barras comparativo
Los diagramas de barras permiten tambi

en comparar la distribuci
on
de frecuencias en varias poblaciones.
Ejemplo: La siguiente tabla de frecuencias resume el tipo de residuos
al que corresponden a lotes almacenados en el vertedero durante los
a
nos 2011 y 2012:
Modalidad
Agropecuarios
Forestales
Industriales
Mineros
Municipales
Radiactivos
Sanitarios
Total
2011: ni
4
4
6
8
4
2
4
32
2011: fi
0.1250
0.1250
0.1875
0.2500
0.1250
0.0625
0.1250
1
2012: ni
6
4
5
9
3
1
2
30
2012: fi
0.2000
0.1333
0.1667
0.3000
0.1000
0.0333
0.0667
1
El siguiente gr
afico representa los datos de la tabla anterior:
Sani
Diagramas de barras 3D
En ocasiones los diagramas de barras aparecen representados en tres
dimensiones, como en el siguiente ejemplo sobre consumo de drogas:
Diagramas de sectores (tartas)

Los diagramas de sectores (piecharts) constituyen otra herramienta
gr
afica para visualizar la distribuci
on de frecuencias de una variable
categ
orica.
Para construirlo:
Se divide un crculo en sectores proporcionales a las frecuencias

(absolutas o relativas) de cada clase.
El arco de cada porci
on, ai, se calcula usando una regla de tres:
n 3600,
360 ni
ni ai =
n
Los habitual, no obstante, es que para construirlo se utilice alg

un
paquete estadstico, como por ejemplo R.
Ejemplo: diagrama de sectores

El diagrama de sectores correspondiente a los datos sobre el tipo de
residuos en 2012 es
Opciones gr
aficas de los diagramas de sectores
Los diagramas de sectores pueden hacerse m
as vistosos dibuj
andolos
en tres dimensiones y/o separando sus sectores para resaltar algunas
caractersticas.
Ejemplos:
Los diagramas tridimensionales son m

as espectaculares, pero menos
claros. Esto es algo que ocurre con los gr
aficos en general, no s
olo
con los de sectores.
Inconvenientes de los diagramas de sectores

Los diagramas de sectores son bastante populares. Por ejemplo, es
muy habitual que los resultados electorales se ilustren con este tipo de
gr
aficos.
Ejemplo: inconvenientes diagramas sectores

El siguiente diagrama de sectores representa los resultados de unas
elecciones:
Resultado electoral
Sin embargo, estos diagramas de tarta presentan muchas limitaciones:

Democratas
No permiten identificar el n
umero total de observaciones.
Cuando las frecuencias de las modalidades son similares, es difcil
identificar las diferencias entre ellas en los diagramas de sectores, ya
que el ojo humano no evalua con los angulos con la misma facilidad
que las alturas.
Otros
Cuando la variable tiene m

as de 5 o 6 clases, el diagrama resultante
es difcil de interpretar.
Republicanos
Por todo ello es m

as informativo (y casi siempre preferible) utilizar
diagramas de barras.
Los diagramas de sectores no deben utilizarse nunca para representar
variables num
ericas.
Ejemplo (continuaci
on)
Inconvenientes diagramas sectores (continuaci

on)
El diagrama de barras siguiente representa los mismos datos:
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Resultado electoral
Democratas
En este gr
afico es difcil identificar cu
al ha sido el partido ganador.
Otros
Republicanos
En este gr
afico s permite conocer la clasificaci
on electoral.
Antes de emplear uno de estos gr

aficos es muy importante cerciorarse
de que lo que se va a representar es un todo a repartir entre varias
modalidades. De lo contrario se pueden cometer errores como el de
la cadena Fox, que en noviembre de 2009 public
o el siguiente gr
afico:

on)
NS/NC
9%
22 %
24 %
60
opini
on
desfavorable
21 %
15 %
16 %
50
opini
on
favorable
70 %
63 %
60 %
GOP Candidates
10
20
Sin embargo, lo que que transmiti

o, fue que un total del 193 % del
electorado (!!) apoyaba a estos tres candidatos republicanos.
30
40
Candidat@
Sara Palin
Mike Huckabee
Mitt Romney
Lo adecuado habra sido utlizar un diagrama de barras:
70
El diagrama anterior pretenda ilustrar el resultado de la siguiente encuesta electoral:

on)
Huckabee
Pictogramas
Los pictogramas expresan con dibujos alusivos al tema de estudio las
frecuencias de las modalidades de la variable.
El escalamiento de los dibujos debe ser proporcional a la frecuencia
que representa.
Este tipo de gr
aficos se utilizan frecuentemente en los medios de comunicaci
on.
Ejemplo: pictogramas
Palin
Romney
Cartogramas
En la prensa gr
afica aparecen a menudo cartogramas, que representan
los datos datos sobre una base geogr
afica, normalmente un mapa.
La densidad de datos en cada zona se indica mediante sombreados,
rayados, colores, etc.
Ejemplo: cartogramas
La moda
Por su naturaleza, las variables cualitativas no permiten un an
alisis
num
erico.
Como resumen descriptivo de una variable categ
orica puede usarse
la moda o clase modal, que es el dato o clase con mayor frecuencia.
La moda es el dato m
as representativo por ser el m
as frecuente.
La moda no es siempre
unica, ya que puede existir m
as de una clase
con la m
axima frecuencia.
Ejemplo: Para los datos sobre los residuos almacenados en el vertedero en el a
no 2012 la moda es residuos mineros.
Variables cuantitativas
El caracter num
erico de las variables cuantitativas permite un tratamiento estadstico m
as elaborado.
Con ellas pueden realizarse operaciones matem
aticas que permiten una
descripci
on m
as precisa y completa.
Descripci
on de variables cuantitativas
El tratamiento es diferente seg

un la variable sea continua o discreta.
Recordemos que:
Las variables discretas son aquellas cuyos posibles valores son

una cantidad numerable, y no admiten un valor intermedio entre
dos cualquiera de sus valores (por ejemplo el n
umero de huevos de
un nido).
Las variables continuas pueden tomar cualquiera de los valores de
un intervalo real (admiten cualquier cantidad de cifras decimales),
y por consiguiente el cardinal de su dominio es una cantidad no
numerable (por ejemplo el peso o la longitud de un lobo ib
erico).
Sonia Hern
andez Alonso
Distribuci
on de frecuencias para variables discretas
Para las variables discretas, las clases en las que se agrupan los datos
vienen definidas y separadas de forma natural por los valores que toma
la variable, x1, . . . , xk .
Distribuci
on de frecuencias
para variables discretas
Por ello la noci

on de distribuci
on de frecuencias es semejante al de las
variables categ
oricas.
Sin embargo, a diferencia de lo que ocurre con los datos cualitativos,
las clases vienen ordenadas de forma natural de menor a mayor.
Esto permite introducir la idea de distribuciones acumuladas.
La frecuencia absoluta de cada valor xi, que denotaremos por ni, es
el numero de observaciones que toman dicho valor.
Sonia Hern
andez Alonso
Ejemplo: descripci
on de una variable discreta
La lista siguiente recoge el n
umero de huevos de todos los nidos de
nand
u encontrados en el Parque Nacional de Talampaya:

0
2
1
2
1
1
3
6
4
5
0
0
0
3
1
1
0
5
5
5
1
6
4
4
1
0
0
1
1
2
1
3
5
5
0
1
0
2
2
3
2
2
2
1
0
0
1
0
1
1
0
1
1
3
2
2
1
0
2
3
3
1
2
4
0
3
1
3
2
1
0
1
1
5
2
3
2
6
4
5
2
0
1
2
0
1
3
2
2
0
4
0
2
1
2
4
3
1
3
0
5
5
2
4
1
4
3
1
3
0
3
1
2
1
3
1
1
1
3
4
2
1
2
2
0
6
2
4
4
2
2
2
4
1
4
1
3
1
3
0
1
3
1
2
1
0
0
2
1
5
La poblaci
on y la variable de inter
es son, respectivamente, nidos de
nand
ues que viven en Talampaya y X = n

umero de huevos.
Este listado de datos contiene toda la informaci
on que nos interesa.
Pero si nos limitamos a observar estos n
umeros, resultar
a difcil obtener
una idea de las caractersticas de los datos.
Frecuencias relativas para variables discretas

La frecuencia relativa del valor xi, que denotaremos por fi, es el
cociente entre la frecuencia absoluta de dicho valor y el n
umero total
de observaciones, es decir,
n
fi = i .
n
La frecuencia relativa fi indica la proporci
on (o tanto por uno) de observaciones que toman el valor xi. Al multiplicar fi por 100 obtenemos
el porcentaje o tanto por ciento ( %) de la poblaci
on con valor xi.
Las frecuencias relativas permiten comparar las frecuencias en conjuntos de datos con distinto numero de observaciones.
Ejemplo (continuaci
on)
El dominio (o rango, o recorrido) de X es {0, 1, 2, 3, 4, 5, 6}. Contando
cuantas veces aparece cada uno de los valores del dominio, se obtienen
las frecuencias absolutas de cada modalidad.
La distribuci
on de X puede resumirse en una tabla de frecuencias:
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
La tabla permite observar, por ejemplo, que lo m

as frecuente es encontrar nidos con 1
unico huevo.
Ejemplo: frecuencias relativas en variables discretas

Para los datos sobre el n
umero de huevos de los nidos de Talampaya, el
total de observaciones es n = 150. Dividiendo las frecuencias absolutas
por esta cantidad se obtienen las frecuencias relativas de cada valor
de X:
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Se observa, por ejemplo, que el 28 % de los nidos tienen 1 s

olo huevo.
Frecuencias acumuladas para variables discretas

La frecuencia absoluta acumulada, que denotaremos por Ni, es el
numero de elementos de la poblaci
on con valor menor o igual a xi:
Ni =
i
!
nj
j=1
= n1 + n2 + . . . + ni
= Ni1 + ni
Ejemplo: frecuencias acumuladas para v discretas

Siguiendo con el caso del n
umero de huevos de
nand
u por nido, las
frecuencias absolutas acumuladas son:
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Esto nos indica, por ejemplo, que hay un total de 121 nidos con 3
huevos de
nand
u o menos.
Frecuencias relativas acumuladas para v discretas

La frecuencia relativa acumulada, Fi, es el tanto por uno de los
elementos de la poblaci
on que toman un valor de la variable menor o
igual que xi:
Fi =
=
Ni
n
n1 + n2 + . . . + ni
n
= f1 + f2 + . . . + fi
=
i
!
Ejemplo: frecuencias relativas acumuladas

Para el caso del n
umero de huevos de
nand
u por nido en Talampaya,
la tabla de frecuencias completa es
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
fj
j=1
Las frecuencias relativas acumuladas se calculan dividiendo las frecuencias relativas absolutas entre el n
umero total de datos, o bien sumando
las frecuencias relativas de todos los valores menores o iguales a cada
xi .
Se observa, por ejemplo, que el 66.7 % de los nidos de

nand
u tienen
2 huevos o menos.
Distribuci
on de frecuencias en variables discretas
En general, la distribuci
on de frecuencias de una variable discreta
est
a formada por el conjunto de clases y sus frecuencias correspondientes.
Propiedades de las frecuencias

Las frecuencias son cantidades no negativas, es decir, verifican
ni 0, fi 0, Ni 0, Fi 0, para i = 1, . . . , k.
La suma de todas las frecuencias absolutas es n:
Se puede presentar de forma ordenada en una tabla estadstica:

Valor
F. Abs.
x1
...
n1
...
xj
...
nj
...
xk
nk
Total
F. Rel.
n
f1 = 1
... n
nj
fj =
... n
n
fk = k
n
1
F. Abs. Acum.
Nj = n 1 + . . . + n j
...
F. Rel. Acum
N
F1 = 1 = f1
n
...
Nj
Fj =
= fj
n
...
Nk = n
Fk = 1
N1 = n 1
...
k
!
nj = n1 + n2 + . . . + nk = n.
j=1
La suma de las frecuencias relativas de todos los valores es 1:

k
!
j=1
fj = f1 + . . . f k =
n
n + . . . + nk
n
n1
+ ... + k = 1
= = 1.
n
n
n
n
Las frecuencias acumuladas (absolutas o relativas) son no decrecientes, esto es, satisfacen
Ni Ni+1 y Fi Fi+1, para i = 1, . . . , k 1.
Observaci
on: Las frecuencias acumuladas (tanto absolutas como relativas) s
olo se calculan sobre variables cuantitativas. No tiene sentido
hacerlo para las variables categ
oricas.
La frecuencia absoluta acumulada de la

ultima clase es Nk = n.
La frecuencia relativa acumulada de la
ultima clase es Fk = 1.
Representaci
on gr
afica de variables discretas
La distribuci
on de frecuencias de una variable discreta puede representarse mediante diagramas de barras, que transmiten una una idea
visual inmediata sobre las principales caractersticas de los datos.
Ejemplo: La representaci
on gr
afica del n
umero de huevos de
nand
u de
los nidos de Talampaya es la siguiente:
0.35
para variables continuas
0.20
0.15
0.00
0.05
0.10
frecuencias relativas
0.25
0.30
50
40
30
20
10
0
frecuencias absolutas
Distribuci
on de frecuencias
numero de huevos
numero de huevos
Sonia Hern
andez Alonso
Distribuci
on de frecuencias para variables continuas
Distribuci
on de frecuencias para variables continuas
El an
alisis de las variables cuantitativas continuas es m
as complejo que
el de las discretas.
Una vez hecha esta divisi

on en clases se definen las mismas frecuencias
que para las variables discretas.
Las categoras ya no vienen dadas de forma natural por la variable,

sino que tienen que elegirse.
En el caso continuo, la forma de la tabla estadstica de frecuencias es

la siguiente:
El primer paso es dividir el dominio de la variable en clases o intervalos

que no se solapen y cubran todo el rango.
Al punto central de cada uno de estos intervalos lo llamaremos marca
de clase, y lo denotaremos por ci.
Ejemplo: distribuci
on de variables continuas
La siguiente tabla resume los pesos registrados para los ejemplares de
lobo ib
erico de un zool
ogico, expresados en kilos:
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60, 65]
Total
ci
42.5
47.5
52.5
57.5
62.5
ni
3
2
7
3
6
21
fi
0.1428
0.0952
0.3333
0.1428
0.2857
1
Ni
3
5
12
15
21
Fi
0.1428
0.2381
0.5714
0.7143
1
Clase
[l0, l1]
...
(lj1, lj ]
...
(lk1, lk ]
Total
M clase
c1
...
cj
...
ck
F Abs
n1
...
nj
...
nk
n
F Rel
f1 = n1/n
...
fj = nj /n
...
fk = nk /n
1
F Abs Ac
N1 = n 1
...
Nj = Nj1 + nj
...
Nk = n
F Rel Ac
F1 = f1
...
Fj = Nj /n
...
Fk = 1
Representaci
on gr
afica de variables continuas
Para visualizar gr
aficamente la distribuci
on de variables continuas se
areas.
utilizan histogramas, que representan las frecuencias mediante
Un histograma se construye a partir de la tabla estadstica, mediante
area de cada
rect
angulos cuyas bases equivalen a los intervalos. El
rect
angulo es proporcional a la frecuencia (absoluta o relativa) de la
clase.
A diferencia del diagrama de barras, los rect
angulos verticales se representan contiguos para reflejar la idea de que la variable es continua.
Esto incluye la posibilidad de que el histograma tenga clases vacias
(es decir, con altura 0).
Ejemplo: histograma
Elecci
on del n
umero de clases o intervalos
El siguiente histograma representa los pesos de los lobos ib

ericos de
la tabla anterior:
Histograma
Pero lo m
as habitual es que se disponga de la lista completa de observaciones de la variable continua. En tales casos, para realizar un
an
alisis estadstico deben agruparse estos valores en intervalos. Para
ello hay que elegir el numero de intervalos (k).
El n
umero de intervalos debe ser tal que refleje la informaci
on m
as
relevante sobre la variable.
Si se toman muy pocas clases, se pierde precisi

on.
2
frecuencia absoluta
En algunas ocasiones la informaci

on sobre una variable continua se
proporciona ya resumida en una tabla de frecuencias con clases o
intervalos fijados por qui
en recogi
o los datos.
Si se toman demasiadas clases, se pierde visi

on sobre las caractersticas de la variable.
40
45
50
55
60
65
peso lobo ibrico
Ejemplo: elecci
on del no de clases (continuaci
on)
Ejemplo: elecci
on del n
umero de clases
Los siguientes histogramas, que representan las notas en estadstica
de l@s alumn@s de un curso de Ingeniera, ilustran esta idea:
Notas de Estadistica
10
350
300
0
6
notas
10
20
Frequency
200
0
30
80
60
40
10
20
10
notas
Frequency
Frequency
6
notas
100
50
40
150
50
50
250
100
Frequency
200
150
100
Frequency
250
150
300
350
En el primero de los histogramas se ha divido el rango de las notas

(que va de 0 a 10) en cinco intervalos:
6
notas
10
6
notas
10
Obviamente 5 clases no son suficientes, ya que ni siquiera permite

saber cu
antos alumnos han aprobado y cu
antos han suspendido.
Ejemplo: elecci
on)
El segundo histograma, con 10 clases, refleja perfectamente la distribuci
on de las notas:
Ejemplo: elecci
on)
El tercer gr
afico, con 20 intervalos, es m
as confuso que el anterior.
60
40
Frequency
20
100
50
Frequency
150
80
10
notas
0
10
No obstante este gr
afico puede resultar
util, por ejemplo, para un
profesor que quiera decidir a partir de qu
e nota poner sobresalientes.
notas
Ejemplo: elecci
on)
El u
ltimo de los histogramas, tiene 50 clases.
Es recomendable ayudarse de histogramas para elegir un n

umero de
clases que resulte apropiado.
30
40
Aunque la informaci
on gr
afica es mucho m
as fiable a la hora de fijar
el n
umero de intervalos, existen distintas reglas empricas para elegir
el n
umero de intervalos.
20
Una de las m
as utilizadas es la regla de Sturges, que consiste en elegir
el n
umero de clases, k, de la forma siguiente:

si n no es muy grande,
n
k
1 + 3.3 log(n) si n es muy grande.
10
Frequency
Elecci
on del n
umero de clases (continuaci
on)
10
notas
En este gr
afico se observan muchos picos poco relevantes que no
permiten apreciar lo m
as importante de la distribuci
on de las notas.
Elecci
on del n
umero de clases (continuaci
on)
Seg
un la regla de Sturges, por ejemplo,
En las comparaciones, la escala es importante

Estos dos histogramas paracen a simple vista bastante diferentes:
6
2
0
40
No obstante, en muchas ocasiones, como en la del ejemplo de las notas de estadstica, hay elecciones mucho m
as adecuadas, que pueden
determinarse utilizando el sentido com
un y ayud
andose de representaciones gr
aficas.
frecuencia absoluta
6
4
frecuencia absoluta
La regla de Sturges es la que est

a implementada por defecto para
determinar el n
umero de clases en la mayor parte de los paquetes
estadsticos, incluyendo R.
Sin embargo, si tenemos n = 1000000, resultar

a casi imposible
as
trabajar con k = 1000000 = 1000 intervalos, por lo que es m
razonable elegir k = 1 + 3.3 log(1000000) 21 clases.
Histograma
10
Histograma
si el numero de observaciones es n = 100, agruparemos las obser

vaciones en k = 100 = 10 intervalos.
45
50
55
60
65
35
40
45
peso lobo ibrico
50
55
60
65
70
peso lobo ibrico
Sin embargo, ambos representan el mismo conjunto de datos: los pesos

de los lobos ib
ericos del zoo. Adem
as ambos histogramas tienen 5
intervalos. Tienen distinto aspecto porque las escalas son diferentes.
Para poder comparar varios gr
aficos, deben tener la misma escala.
Patrones de distribuci
on m
as comunes
Gr
afico: distribuci
on unimodal sim
etrica
Distribucin unimodal simtrica
2000
La forma del histograma refleja muchas propiedades de la variable estadstica a la que se refiere: simetra, n
umero de modas, apuntamiento,
etc.
1000
Bimodal sim
etrico (por ejemplo peso en poblaciones mixtas, o pesos
medidos en kilos y en libras)
Frequency
Unimodal sim
etrico (por ejemplo peso o altura)
1500
Los patrones m
as frecuentes de histogramas son
Unimodal asim
etrico a la izquierda (por ejemplo esperanza de vida
por pases)
500
Unimodal asim
etrico a la derecha (por ejemplo ingresos o gastos)
30
40
50
x
60
70
Gr
afico: distribuci
on bimodal sim
etrica
Gr
afico: distribuci
on asim
etrica hacia la derecha
3000
2500
Frequency
2000
1500
500
500
1000
Frequency
1000 1500 2000 2500 3000 3500
Distribucin asimtrica a la derecha
3500
Distribucin bimodal simtrica
30
40
50
60
70
80
90
100
15
20
Gr
afico: distribuci
on asim
etrica hacia la izquierda
2500
Distribucin asimtrica a la izquierda
Diagramas de puntos
Cuando se tienen pocos datos de una variable continua, puede ser
util
representarlos mediante un simple diagrama de puntos.
500
1000
1500
2000
Supongamos por ejemplo que las longitudes de las pira

nas de un banco
de peces son 8, 17, 3, 10 y 12 cm. Estos datos pueden representarse
mediante el siguiente diagrama de puntos:
Frequency
10
50
55
60
65
x
70
Otros gr
aficos para variables cuantitativas
Los datos cuantitativos tambi

en pueden representarse mediante otros
diagramas, como pictogramas o cartogramas.
Las posibilidades de representaci
on gr
afica dependen del tipo de variable que se est
e analizando.
Uno de los objetivos es que los gr
aficos faciliten la interpretaci
on de
los datos.
En las siguientes p
aginas aparecen ejemplos de pictogramas y cartogramas para variables num
ericas.
Variables discretas que se asemejan a continuas

Cuando la variable que se est
a analizando es discreta pero tiene un
rango muy amplio (es decir, toma muchos valores distintos) es conveniente agrupar los datos del mismo modo que para las variables
continuas.
Un ejemplo de esta situaci
on es la edad de una poblaci
on heterog
enea
expresada en a
nos.
En tales casos, el histograma es un gr
afico m
as adecuado para representar la variable que el diagrama de barras.
Resumen num
erico de conjuntos de observaciones
Si los datos son cuantitativos, es conveniente complementar la informaci
on visual proporcionada por el an
alisis gr
afico con algunas medidas
num
ericas que proporcionen una idea sobre el centro de los datos, la
concentraci
on de
estos y otros rasgos de la distribuci
on.
Resumen num
erico de los datos
Estas medidas num

ericas que se calculan a partir de los datos y resumen parte de su comportamiento, reciben el nombre de estadsticos.
Vamos a analizar estadsticos que resumen num
ericamente las siguientes caractersticas de una distribuci
on:
la tendencia central de los datos (medidas de centralizaci

on),
los datos que ocupan ciertas posiciones (medidas de posici
on),
la variabilidad con respecto al centro (medidas de dispersi
on).
Sonia Hern
andez Alonso
La utilizaci
on de estos estadsticos permite formarse una idea bastante
fidedigna del comportamiento de un conjunto de grande de datos a
partir de unas pocas medidas que concentran mucha informaci
on.
on
La descripci
on m
as elemental de un conjunto de datos consiste en
especificar su centro.
El concepto de centro se puede definir de diferentes formas.
Vamos a analizar los siguientes estadsticos de centralizaci
on:
on
Media
Mediana
Moda
Media recortada
Sonia Hern
andez Alonso
Media
N
umero medio de huevos en Talampaya
La idea de media aritm

etica o promedio formaliza el concepto intuitivo de punto de equilibrio o centro de gravedad de los datos.
Para calcular la media del n

umero de huevos en Talampaya
0
2
1
2
1
1
3
6
4
5
Dado un conjunto de observaciones, x1, . . . . . . , xn, su media, que deumero

notaremos por x, es la suma de todos los datos dividida por el n
total de datos.
La definici
on formal de media es
x=
n
1 !
xi
n i=1
es decir
x + + xn
x= 1
n
x
=
0
0
0
3
1
1
0
5
5
5
1
6
4
4
1
0
0
1
1
2
1
3
5
5
0
1
0
2
2
3
2
2
2
1
0
0
1
0
1
1
0
1
1
3
2
2
1
0
2
3
3
1
2
4
0
3
1
3
2
1
0
1
1
5
2
3
2
6
4
5
2
0
1
2
0
1
3
2
2
0
4
0
2
1
2
4
3
1
3
0
5
5
2
4
1
4
3
1
3
0
3
1
2
1
3
1
1
1
3
4
2
1
2
2
0
6
2
4
4
2
2
2
4
1
4
1
3
1
3
0
1
3
1
2
1
0
0
2
1
5
0 + 0 + 1 + 1 + 2 + 0 + 3 + 0 + 2 + 4 + 5 + ...... + 4 + 2 + 0 + 5
150
Hay una forma menos tediosa de calcularla?
Media de una variable discreta
Ejemplo: media de una variable discreta
Cuando los datos son discretos y las observaciones se repiten, podemos

disponerlos en una tabla de frecuencias,
X
x1
.
.
.
xk
ni
n1
.
.
.
nk
Para el ejemplo de los nidos de Talampaya,

xi
0
1
2
3
4
5
6
Total
fi
f1
.
.
.
fk
y usar la f
ormula
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
el n
umero medio de huevos de
nand
u por nido es
x=
k
1 !
n i=1
x n + + xk n k
,
xi n i = 1 1
n
o bien la f
ormula equivalente,
x=
k
!
i=1
x i f i = x1 f 1 + + xk f k .
Media de una variable continua

Si los datos son continuos y no disponemos de sus valores originales,
sino s
olo de una tabla de frecuencias por intervalos del tipo
Intervalos
[lo, l1]
.
.
.
[lk1, lk]
ci
c1
.
.
.
ck
ni
n1
.
.
.
nk
podemos usar la f
ormula aproximada
x
k
c n + + ck n k
1 !
ci n i = 1 1
,
n i=1
n
o bien la f
ormula equivalente,
x
k
!
i=1
c i f i = c1 f 1 + + c k f k .
0 26 + 1 42 + 2 32 + .... + 6 4
= 2.027
150
que tambi
en puede calcularse como
x=
x = 0 0.173 + 1 0.280 + 2 0.213 + .... + 6 0.027 = 2.027

Por tanto, en promedio, los nidos tienen 2.027 huevos. Obs
ervese
que
este no es uno de los valores posibles de la variable.
Media de una variable continua (continuaci

on)
La f
ormula aproximada
x
k
c n + + ck n k
1 !
,
ci n i = 1 1
n i=1
n
sustituye cada dato (desconocido) por la marca de clase (o punto

central) del intervalo al que pertenece.
La media obtenida usando esta f
ormula es una aproximaci
on que,
en general, no coincide con la verdadera media de los datos, aunque
ser
a un n
umero cercano al promedio si los intervalos no son excesivamente amplios.
Al aumentar la amplitud de las clases se pierde precisi
on.
Ejemplo: media de una variable continua

Vamos a calcular la media aproximada de los pesos de los lobos ib
ericos
resumidos en la tabla siguiente;
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60, 65]
Total
ci
42.5
47.5
52.5
57.5
62.5
ni
3
2
7
3
6
21
fi
0.1428
0.0952
0.3333
0.1428
0.2857
1
Ni
3
5
12
15
21
Fi
0.1428
0.2381
0.5714
0.7143
1
Puesto que los datos est

an agrupados, usaremos las marcas de clase
(ci) para calcular una aproximaci
on a la media:
x
k
42.5 3 + x 2 + . . . . . . + 62.5 6
1 !
ci n i =
= 54.1667 kg
n i=1
20
Linealidad de la media (continuaci

on)
Linealidad de la media
Si a todas las observaciones de una variable se les suma una misma
cantidad, la media de los nuevos datos es la media de las observaciones
originales m
as esa cantidad, es decir,
x + b = x + b.
Ejemplo: El sueldo medio de los trabajadores de cierta reserva natural
es de 1655 euros por mes. Si el gobierno decide aumentar en 44 euros
el salario de todos sus empleados, cu
al ser
a el sueldo medio de los
on: 1699 euros)
trabajadores a partir de ese momento? (Soluci
Si se multiplican todas las observaciones por una misma cantidad, la
media de los nuevos datos queda multiplicada por la misma cantidad,
esto es
ax = a x.
Ejemplo: En una muestra de 20 plantas, el peso medio ha resultado
ser 2.3 kilos. Cu
al ser
a la media de los pesos medidos en gramos de
estas mismas plantas? (Soluci
on: 2300 gramos)
Inconvenientes de la media
Juntando las dos propiedades anteriores, deducimos que, si Y es una

transformaci
on lineal de X, esto es, si
La media es muy sensible a la presencia de valores atpicos (tambien

llamados outliers).
Y = a + bX,
Puesto que todas las observaciones intervienen en su c

alculo, cuando
hay alguna observaci
on extrema la media se desplace en esa direcci
on.
entonces la media de Y es
y = a + bx.
Es decir, la media es un operador lineal.
Ejemplo: En cierta localidad, la temperatura media durante el mes
de agosto ha sido de 14 oC. Cu
al ser
a la temperatura media en la
localidad durante el mismo periodo si
esta se mide en oF?
Soluci
on: 57.2 oF.
Se dice por ello que la media no es robusta.

Esta falta robustez provoca paradojas como esta: por muy extra
no
que pueda parecer, la gran mayora de las personas tiene un n
umero
de piernas superior a la media...
En las distribuciones muy asim
etricas, no es recomendable usar la
media como medida central.
Para variables discretas el valor de la media puede no pertenecer al
conjunto de valores posibles de la variable.
Mediana
Muestra ordenada
La mediana es una medida de centralizaci

on que divide en dos mitades
(dos grupos con la misma cantidad de elementos) el conjunto de datos
ordenados de menor a mayor.
Es decir, la mediana es un punto que deja el 50 % de las observaciones por debajo de
el y el otros 50 % por encima de s:
Para calcular la mediana, en primer lugar hay que ordenar los datos de
menor a mayor.
Dado un conjunto de datos, x1, x2 , xn, suele utilizarse la notaci
on
x(1), x(2), , x(n),
para designar las mismas observaciones ordenadas de mayor menor.
Es decir, x(1) es el dato m
as peque
no, x(2) es el siguiente, y as hasta
x(n) que es la observaci
on m
axima.
Si queremos saber, por ejemplo, si una persona est

a entre las m
as altas
o entre las m
as bajas, debemos comparar su altura con la mediana de
su poblaci
on, y no con la media.
C
alculo de la mediana
Observemos que
Definici
on de la mediana
La mediana de un conjunto de datos, x1, x2, . . . , xn, se define como
Cuando el n
umero de observaciones es una cantidad impar, uno de
los datos est
a exactamente en el centro: la observaci
on que ocupa
la posici
on (n + 1)/2. Este n
umero central es la mediana.
Ejemplo: Para los datos
6, 12, 14, 20, 45
la mediana es 14.
Cuando la cantidad de datos es par, hay dos observaciones centrales: las observaciones que est
an en las posiciones n/2 y n/2 + 1. En
este caso se toma como mediana el promedio o semi-suma de las
dos observaciones centrales.
Ejemplo: Para los datos
6, 12, 14, 20, 45, 61
la mediana es el promedio de 14 y 20, es decir, 17.
M edx =
x& n+1 ',
x( n ) + x( n +1)
2
2
si n es impar
si n es par
Ejemplo: mediana de datos discretos

Retomemos los datos sobre n
umero de huevos de
nand
u en los nidos
de Talampaya:
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Observamos que la mediana de estos datos es 2 huevos, ya que 2

es el primer valor con una frecuencia relativa acumulada mayor o igual
que 0.5.
Propiedades de la mediana
Cuando no se dispone del conjunto de las observaciones, sino s

olo
de una tabla estadstica con datos agrupados en clases, no se puede
determinar la mediana con exactitud.
En estos casos, lo que s puede asegurarse es que la mediana est
a en el
primero de los intervalos con una frecuencia relativa acumulada igual
o mayor que 0.5. Existen f
ormulas aproximadas, basadas en interpolaci
on, para calcular la mediana en estos casos.
Ejemplo: La mediana de pesos de los lobos ib
ericos est
a en el intervalo (50, 55], que es el primero que verifica Fi 0.5:
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60 ,65]
ci
42.5
47.5
52.5
57.5
62.5
ni
3
2
7
3
6
21
fi
0.1428
0.0952
0.3333
0.1428
0.2857
1
Ni
3
5
12
15
21
Fi
0.1428
0.2381
0.5714
0.7143
1
Comparaci
on de media y mediana
Las observaciones atpicas tienen un efecto mucho menor en la mediana que en la media, ya que la mediana no depende de los valores
que toma la variable, sino del orden de las mismas. Se dice por ello
que la mediana es una medida de centralizaci
on robusta.
Ejemplo: vamos a comparar las medias y medianas de los siguientes
conjuntos de datos:
X 2, 5, 7, 8, 13
Mediana de datos agrupados
Y 2, 5, 77, 8, 13
La muestra Y puede ser el resultado de un simple error al teclear los

datos de X. Las medias de X e Y son muy diferentes: x = 7, y = 21;
sin embargo sus medianas apenas difieren: M edx = 7, M edy = 8.
Cuando la distribuci
on es asim
etrica, la mediana es m
as apropiada
como medida de posici
on central que la media.
Las propiedades matem
aticas de la mediana son m
as complicadas que
las de la media, y por eso en inferencia estadstica es m
as frecuente
utilizar la media.
Es preferible resumir el centro de una distribuci

on usando tanto la
media como la mediana.
La comparaci
on entre ellas, adem
as, aporta informaci
on sobre la forma
de la distribuci
on, ya que en general:
Si la distribuci
on es sim
etrica alrededor del centro, x M edx
Si la distribuci
on es asim
etrica a la derecha, x >> M edx
Si la distribuci
on es asim
etrica a la izquierda, x << M edx
Media-mediana: distribuci
on sim
etrica
Cuando la distribuci
on es bastante sim
etrica, media y mediana toman
valores muy pr
oximos entre s:
Media-mediana: asimetra a la derecha

Si la distribuci
on es asim
etrica hacia la derecha, hay una peque
na
proporci
on de datos que son mucho mayores que la mayora.
Estos datos tiran de la media hacia arriba, provocando que
esta sea
considerablemente mayor que el valor de la mediana:
Si la distribuci
on fuese perfectamente sim
etrica, la media y la mediana
coincidiran exactamente.
Media-mediana: asimetra a la izquierda

Las distribuciones asim
etricas hacia la izquierda tienen una peque
na
proporci
on de datos mucho menores que la mayora que tiran hacia
abajo de la media.
Por ello, en estos casos la media es bastante menor la mediana:
Moda
La moda es el valor de la variable que se repite con mayor frecuencia.
Es una medida de centralizaci
on muy f
acil de calcular.
La moda no es siempre
unica, ya que puede existir m
as de un valor
con la m
axima frecuencia.
La moda es una medida informativa tanto en variables categ
oricas
como para en cuantitativas discretas.
Ejemplo: moda de una variable discreta

Para los datos sobre n
umero de huevos de
nand
u por nido, la moda
es 1 huevo:
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Habamos visto que el centro de gravedad (la media) es 2.027 huevos,

y la mediana (el valor central) es 2. La moda aporta informaci
on
as frecuente en Talampaya en encontrar
complementaria: lo m
nidos de
nand
u con 1 huevo.
Media recortada
Clase modal de una variable continua

En el caso de las variables continuas la moda no aporta ninguna
informaci
on, ya que lo habitual es que no existan datos repetidos
(y todos los valores sean modas) o que si se repiten sea debido al
redondeo (en cuyo caso la moda no es relevante).
Para variables continuas lo que s tiene inter
es es el intervalo o clase
as alta.
modal, es decir, el intervalo de frecuencia m
Ejemplo:
(50,55]:
para los pesos de los lobos ib

ericos, la clase modal es
Intervalo
[40, 45]
(45, 50]
(50, 55]
(55, 60]
(60 ,65]
Total
ci
42.5
47.5
52.5
57.5
62.5
ni
3
2
7
3
6
21
fi
0.1428
0.0952
0.3333
0.1428
0.2857
1
Ni
3
5
12
15
21
Fi
0.1428
0.2381
0.5714
0.7143
1
Ejemplo: media recortada
Una forma de mejorar la falta de robustez de la media consiste en

moderar el efecto de los datos atpicos en el c
alculo de la media.
La media recortada al por ciento es la media de los datos que quedan
despu
es de eliminar el por ciento de las observaciones m
as grandes
y el por ciento de las m
as peque
nas.
Por ejemplo, la media recortada al 10 % en un conjunto de 50 datos
vendr
a dada por
45
1 !
x
40 i=6 (i)
Consideremos de nuevo los datos sobre el n

umero de huevos de
nand
u de
los nidos del Parque Nacional Talampaya:
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
La media recortada al al 20 % para estos datos es

!
1 120
x = 1.8 huevos.
90 i=31 (i)
Percentiles
La media, mediana y moda son medidas de la posici
on central de los
datos, pero hay otras posiciones que pueden ser de inter
es al analizar
la distribuci
on. De manera gen
erica a tales observaciones se les da el
nombre de cuantiles.
Medidas de posici
on
Los percentiles dividen en conjunto de observaciones en 100 partes

del mismo tama
no.
El percentil de orden k, que denotaremos por Pk , es la observaci
on
que deja por debajo de s el k % de los datos.
Por ejemplo, si la altura de una persona est
a en el percentil 80, significa
que el 80 % de las personas miden menos que ella. O lo que es lo
mismo, que el 20 % son m
as altas que ella.
Para calcular Pk se toma la primera observaci
on con una frecuencia
relativa acumulada mayor o igual que k/100.
Sonia Hern
andez Alonso
Ejemplo: percentiles
Algunas utilidades de los percentiles
Para la distribuci
on del n
umero de huevos en Talampaya,
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
se tiene, por ejemplo, que

P10 = 0,
P20 = 1,
P90 = 4,
P99 = 6.
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Normalmente las personas que tienen hijos suelen estar familiarizas

con los percentiles, ya que los pediatras les indican los percentiles de
la altura, el peso u otras magnitudes del ni
no.
Por ejemplo, si la altura de un ni
no est
a en el percentil 69, sus padres
saben que el 69 % de los ni
nos de su edad miden menos que
el.
La OMS publica tablas de referencia para cada segmento de edad. Las
referencias son distintas para ni
nos y ni
nas.
Tambi
en se usan los percentiles para medir los resultados de los tests
de inteligencia. Si una persona est
a en el percentil 85 significa que
s
olo el 15 % de la poblaci
on le supera en esa habilidad.
Cuartiles
Cuartiles (continuaci
on)
Los cuartiles son los percentiles de orden 25, 50 y 75:
El primer cuartil, que denotaremos por Q1, es la observaci

on que
deja por debajo de s el 25 % de los datos (Q1 = P25).
on
El segundo cuartil, que denotaremos por Q2, es la observaci
que deja por debajo de s el 50 % de los datos, es decir, la mediana
(Q1 = P50 = M ed).
Por ejemplo, los cuartiles del conjunto de datos

114, 125, 114, 124, 142, 152, 133, 113, 127, 135, 122, 127, 185, 134, 147.
son Q1 = 122, Q2 = 130, y Q3 = 142, como se aprecia en el siquiente
esquema:
El tercer cuartil, que denotaremos por Q3, es la observaci

on que
deja por debajo de s el 75 % de los datos (Q3 = P75).
Q1, Q2 y Q3 dividen el conjunto de datos ordenados en 4 subconjuntos
con la misma cantidad de observaciones.
Qu
e informaci
on proporcionan los cuartiles? Supongamos por ejemplo
se est
a analizando la longitud de las hojas de una planta, y que sus
cuartiles son Q1 = 10 cm, Q2 = 13 cm, y Q3 = 30 cm.
Con esto sabemos por ejemplo que una hoja de 8 cm est
a entre el
25 % de las m
as peque
nas. Una de 15 cm est
a entre la mitad m
as
grande pero por lo menos un 25 % de las hojas son mayores que ella.
Una hoja de 32 cm est
a entre el 25 % de las m
as grandes.
Ejemplo: cuartiles
Para la distribuci
on del n
umero de huevos en Talampaya,
xi
0
1
2
3
4
5
6
Total
ni
26
42
32
21
14
11
4
150
fi
0.173
0.280
0.213
0.140
0.093
0.073
0.027
1
Ni
26
68
100
121
135
146
150
Fi
0.173
0.453
0.667
0.807
0.900
0.973
1
Medidas de dispersi
on
se tiene que
Q1 = 1,
Q2 = 2,
Q3 = 3.
Sonia Hern
andez Alonso
Por qu
e es importante medir la dispersi
on?
Una vez localizado el centro de los datos es importante analizar si las
observaciones est
an muy concentradas alrededor de ese centro o si por
el contrario est
an alejadas de
el.
Imaginemos por ejemplo dos bancos de pira
nas, A y B. Las longitudes
de las pira
nas del banco A son 11, 7, 10, 13 y 9 cm, y las del banco
B, 8, 17, 3, 10 y 12 cm. Aunque en ambos bancos tanto la media
como la mediana son 10 cm, las pira
nas del banco A tienen longitudes
mucho m
as concentradas en torno a 10 que las del banco B:
Estadsticos de dispersi
on
Las medidas de dispersi
on proporcionan informaci
on sobre del grado
de separaci
on de las observaciones alrededor su centro.
Analizaremos las siguientes medidas de dispersi
on:
Amplitud o rango.
Varianza y desviaci
on tpica.
Cuasi-varianza y cuasi desviaci
on tpica.
Recorrido intercuartlico.
Coeficiente de variaci
on.
Por ello, la longitud central de 10 cm es mucho m

as representativa del
conjunto de pira
nas del banco A que de las del banco B.

on son siempre no negativas. Cuando los datos
no presentan ninguna variabilidad (es decir, cuando son todos iguales)
toman el valor 0, y cuanto m
as separadas est
en las observaciones,
mayor ser
a su valor.
Este ejemplo sugiere que es conveniente contar con estadsticos que

midan c
omo de cercanos o de alejados est
an los datos.
Amplitud, recorrido o rango
Varianza y desviaci
on tpica
La forma m
as elemental de evaluar la dispersi
on de un conjunto de
observaciones consiste en calcular la amplitud de su dominio, es
decir la diferencia entre el mayor y el menor de los datos.
Una manera natural de medir la dispersi

on alrededor del centro consiste
en promediar las distancias de cada una de las observaciones a
la media.
Dado un conjunto de datos, x1, , xn, definimos su amplitud, o recorrido o rango como
Como tales distancias, no podemos tomar las diferencias entre las

observaciones y la media (xi x), ya que estas son unas positivas y
otras negativas, y al hacer la media se compensan entre s.
Ax = m
aximo(x1, x2, . . . , xn) mnimo(x1, x2, . . . , xn) = x(n) x(1)
Ejemplo: Para los datos sobre el n
umero de huevos de los nidos de
Talampaya el rango o amplitud es
A = x(150) x(1) = 6 0 = 6 huevos.
El rango tiene la ventaja de que es f
acil de calcular y sus unidades
son las mismas que las de las observaciones originales.
Su principal inconveniente es su enorme falta de robustez.
Para evitar este problema, lo que se hace es tomar los cuadrados de

estas diferencias. De este modo los signos no se compensan unos
con otros.
Formalmente, dado un conjunto de datos, x1, , xn, definimos su
varianza, s2
x , como la media de los cuadrados de las diferencias entre
las observaciones y su media, es decir,
s2
x =
n
1 !
(xi x)2
n i=1
Varianza y desviaci
on tpica (continuaci
on)
Una f
ormula equivalente para la varianza es la siguiente
n
1 !
x2 x2
n i=1 i
s2
x =
Es decir, la varianza es la media de los cuadrados de las observaormula

ciones menos el cuadrado de su media. Con esta segunda f
resulta m
as sencillo realizar los c
alculos.
Las unidades de la varianza son el cuadrado de las unidades
de las observaciones. Por ejemplo, si las observaciones se miden en
metros, la varianza vendr
a dada en metros2.
Para obtener una medida de dispersi
on con las mismas unidades que
las observaciones basta con tomar la raz cuadrada de la varianza. La
desviaci
on tpica es la raz cuadrada positiva de la varianza, es decir
Ejemplo: varianza y desviaci

on tpica
Consideremos las edades 3, 6, 7, 7, 9 y 10 a
nos.
Para hallar la varianza de estas observaciones, el primer paso es calcular
su media:
3 + 6 + 7 + 7 + 9 + 10
x=
= 7 a
nos.
6
Podemos calcular la varianza como
s2
x =
n
1 !
(3 7)2 + (5 7)2 + . . . + (10 7)2
= 5 a
nos2,
(xi x)2 =
n i=1
6
o bien mediante la f
ormula equivalente
s2
x =
n
32 + 62 + 72 + 72 + 92 + 102
1 !
2
72 = 5449 = 5 a
nos2,
x2
i x =
n i=1
6
Por tanto, la desviaci

on tpica es sx =
s2
x =
5 = 2.236 a
nos.
sx = + s2
x
Ejemplo: varianza y desviaci

on tpica
Consideremos una vez m
as el n
umero de huevos de los 150 nidos.
Para estos datos se tiene que
n
1 !
xi = 2.027,
x=
150 i=1
n
1 !
x2 = 6.68,
150 i=1 i
Propiedades de la varianza y la desviaci

on tpica
La varianza y la desviaci
on tpica son siempre n
umeros no negativos,
es decir,
s2
x 0,
sx 0.
La varianza s
olamente toma el valor 0 en los casos en los que todas las
observaciones son iguales. Lo mismo le ocurre a la desviaci
on tpica.
Si Y es una transformaci
on lineal de X, esto es, si
Y = aX + b,
Luego
2
2
s2
x = 6.68 2.027 = 2.57 huevos ,
sx =
2.5794 = 1.6 huevos.
entonces la varianza y la desviaci

on de Y son
2
2 2
s2
y = sax+b = a sx ,
sy = sax+b = |a| sx.
La varianza y la desviaci
on tpica no son medidas robustas, ya que
se ven muy infuenciadas por las observaciones atpicas.
Aplicaci
on de x
y sx: tipificaci
on de variables
Tipificaci
on de variables (continuaci
on)
Cuando se quieren comparar observaciones de una variable que pertenecen a dos poblaciones distintas, puede ocurrir que la media y la
varianza de dichas poblaciones sean muy diferentes.
Tipificar o estandarizar las observaciones de una variable consiste en

aplicarles una transformaci
on lineal de tal manera que el conjunto de
datos transformados tenga media 0 y varianza 1.
En estos casos, comparar las observaciones directamente puede llevar

a conclusiones err
oneas.
Dada una variable X y un conjunto de observaciones, x1, x2, . . . , xn, los

datos tipificados se construyen restando a cada observaci
on la media
y dividiendo esta diferencia por la desviaci
on tpica, es decir,
Por ejemplo, si se quiere comparar el nivel de colesterol de una persona

con el de glucosa, no tiene mucho sentido hacerlo directamente, ya
que los niveles de colesterol son, como conjunto, bastante mayores
que los de glucosa.
Para solventar este problema, se pueden transformar los datos de cada
una de las poblaciones para llevarlos a una escala donde sean comparables.
Ejemplo: tipificaci
on de variables
Un individuo que acaba de hacerse unos an
alisis de sangre tiene un
nivel de glucosa de 125 mg/dl y un nivel de colesterol de 247 mg/dl.
Para las personas de su edad, el nivel medio de glucosa es 80 mg/dl,
con una desviaci
on tpica de 30 mg/dl, mientras que el nivel medio de
colesterol es de 190 mg/dl con una varianza de 3249(mg/dl)2. Cu
al
de los dos niveles resulta m
as preocupante en este individuo?
Soluci
on: El valor tipificado del nivel de glucosa del individuo es
125 g
125 80
=
= 1.5.
sg
30
Esto indica que su nivel de glucosa est
a 1.5 desviaciones tpicas por
encima de la media de su grupo de edad.
zg =
Por otra parte, el valor tipificado de su de colesterol en sangre es

247 c
247 190
247 190
=
= 1,
=
sc
57
3249
luego est
a 1 desviaci
on por encima de la media de su grupo.
zc =
Puesto que zg > zc, concluimos que problema de azucar de este individuo es m
as severo que el de colesterol.
x x
xn x
x x
, z2 = 2
, . . . , zn =
.
z1 = 1
sx
sx
sx
Los nuevos datos, z1, z2, . . . , zn, reciben el nombre de datos tipificados,
y expresan el n
umero de desviaciones tpicas que cada observaci
on
on relativa de datos
dista de la media. Esto permite comparar la posici
procedentes de diferentes distribuciones.
Cuasi-varianza y cuasi desviaci

on tpica
La cuasi-varianza es una medida de dispersi
on estrechamente relacionada con la varianza. Su definici
on es
Sx2 =
n
1 !
(xi x)2 .
n 1 i=1
Observamos que la
unica diferencia con la varianza es que la suma de
cuadrados de las desviaciones a la media se divide por n 1 en lugar
de por n.
El inter
es de la cuasi-varianza radica en que, cuando se quiere estimar
la varianza de una variable en una poblaci
on a partir de las observaciones de una muestra peque
na, la cuasi-varianza presenta ciertas
propiedades que la hacen m
as adecuada que la varianza. Cuando n es
2
grande la diferencia entre s2
acticamente imperceptible.
x y Sx es pr
(
La raz cuadrada de la cuasi-varianza, Sx = + Sx2, recibe el nombre

de cuasi-desviaci
on tpica.
Rango intercuartlico
Diagramas de caja
El rango intercuartlico, o recorrido intercuartlico, es la diferencia

entre el tercer y el primer cuartil, esto es,
RIx = Q3 Q1.
El diagrama de caja (box-plot) es un gr

afico basado en los cuartiles.
Contiene informaci
on sobre la simetra de la distribuci
on y adem
as nos
permitir
a formalizar la idea de dato atpico.
Este valor indica la distancia que separa a las dos observaciones

que limitan la mitad central de los datos.
Para construir el diagrama de caja, se construye un rect

angulo (o caja)
cuyos lados verticales pasan por el primer y tercer cuartil, con una lnea
vertical a la altura de la mediana.
El rango intercuartlico es una medida de dispersi

on robusta, ya que
en su c
alculo no intervienen las observaciones m
as extremas.
La caja contiene la mitad central de los datos, y cada una de las otras
dos cuartas partes queda a uno de los lados de la caja.
Ejemplo: Para los datos sobre el n

umero de huevos en Talampaya
teniamos que Q1 = 1 y Q3 = 3; por tanto su rango intercuartlico es
RI = 3 1 = 2 huevos.
A partir del rango intercuartlico de un conjunto de datos de puede
construir un diagrama de caja para representarlos gr
aficamente.
Diagramas de caja (continuaci

on)
A continuaci
on se traza una barrera vertical imaginaria a la izquierda
de Q1 a distancia 1.5RI,
barrera inferior:
Q1 1.5 RI
y otra barrera imaginaria a la derecha de Q3 tambi

en a distancia
1.5RI,
barrera superior:
Ejemplo: diagrama de caja

Vamos a construir un diagrama de caja para los datos
114, 125, 114, 124, 142, 152, 133, 113, 127, 135, 122, 127, 185, 134, 147.
Los cuartiles de esta muestras son Q1 = 122, Q2 = 130, Q3 = 142, ya
que
Q3 + 1.5 RI
Despu
es se traza un bigote desde cada lado de la caja al dato m
as
extremo que est
e dentro de las barreras.
Las observaciones que quedan fuera de las barreras pueden considerarse datos atpicos, y se dibujan como puntos aislados.
Por tanto el rango intercuartlico es RI = 142 122 = 20
Ejemplo: diagrama de caja (continuaci

on)
Multiplicando el rango intercuartlico por 1.5,

on)
Con todo esto se obtiene el siguiente diagrama de caja:
Diagrama de caja
1.5 RI = 1.5 20 = 30,

determinamos que las barreras del diagrama son
barrera inferior:
barrera superior:
Q1 1.5 RI = 122 30 = 92
Q3 + 1.5 RI = 142 + 30 = 172
Puesto que no hay ning

un dato inferior a 92, el bigote de la izquierda
va hasta 113, que es la observaci
on m
as peque
na.
S hay un dato superior a 172: el 185, que se dibujar
a fuera de la caja
como un punto aislado. El bigote de la derecha llegar
a hasta 152, que
es la mayor de las observaciones que no exceden la barrera.

on)
El diagrama de caja tambi
en puede representarse verticalmente:
100
120
140
160
180
200
Diagrama de caja
100
120
140
160
180
200
Utilidad de los diagramas de caja

Los diagramas de caja son muy utiles para explorar los datos, ya que
proporcionan informaci
on visual sobre c
omo se distribuyen los datos,
sobre su simetra y sobre sus posibles datos atpicos.
Adem
as, son una herramienta muy
util para comparar conjuntos de
datos, como puede apreciarse en el siguiente ejemplo.
Ejemplo: utilidad de los diagramas de caja
Ejemplo (continuaci
on)
Con el fin de evaluar el tiempo de compilaci

on de dicho programa, lo
han puesto a correr en todos todos los ordenadores de su laboratorio,
tanto en los fijos como en los port
atiles.
fijos
Un equipo de ingenieros del software ha desarrollado un sofisticado

programa inform
atico.
portatiles
El gr
afico de la transparencia siguiente representa los tiempos de compilaci
on resultantes medidos en horas.
20
Ejemplo (continuaci
on)
Mirando estos diagramas, podemos responder a cuestiones como las
siguientes:
1. El ordenador que menos tarda en compilar el programa, es un fijo
o un portatil?
40
60
80
Ejemplo (continuaci
on)
A partir de los diagramas de caja, es f
acil dar las siguientes respuestas:
1. El gr
afico muestra que el tiempo mnimo de compilaci
on (inferior
a 20 horas) corresponde a un ordenador portatil.
2. Cu
al es la proporci
on de ordenadores port
atiles que complilan el
programa en menos de 60 segundos?
2. En el diagrama de caja se puede apreciar que 60 horas es el primer

cuartil del tiempo de compilaci
on para el grupo de ordenadores
port
atiles (Q1 = 60).
3. Qu
e proporci
on de ordenadores fijos tardan en compilar el programa entre 15 y 80 segundos?
En consecuencia, la proporci
on de port
atiles de esta empresa que
compilan el programa en menos de 60 horas es 0.25.
4. Qu
e proporci
on de port
atiles tardan en compilar un tiempo inferior
al del m
as lento de los ordenadores fijos?
3. En el diagrama de caja podemos ver que todos los ordenadores fijos

tardan m
as de 15 horas en compilar el programa, y que 80 horas
es el tercer cuartil del tiempo de compilaci
on para los ordenadores
fijos (Q3 = 80).
5. El tiempo medio de compilaci

on de los ordenadores port
atiles, es
menor que 80 segundos, exactamente 80, o mayor que 80?
Luego la proporci
on de ordenadores fijos tardan en compilar el programa entre 15 y 80 horas es 0.75.
Ejemplo (continuaci
on)
4. El m
as lento de los ordenadores fijos tarda 90 horas en complilar
el programa. Por otra parte 90 minutos es el tercer cuartil para los
tiempo de compilaci
on de los port
atiles.
Por consiguiente la proporci
on de port
atiles tardan en compilar un
tiempo inferior al del m
as lento de los ordenadores fijos es 0.75.
Otras utilidades de los box-plots

Los diagramas de caja tambi
en resultan
utiles para analizar la evoluci
on
de una variable a lo largo del tiempo. Por ejemplo, el gr
afico siguiente
permite comparar la concentraci
on de oxgeno disuelto en el agua de
un ro a lo largo de los 12 meses de un a
no:
5. La mediana de los tiempos de compilaci

on es 80 horas. El diagrama de caja evidencia que la distribuci
on de los tiempos es muy
asim
etrica a la izquierda, y que hay dos datos atpicos a la izquierda.
En consecuencia el tiempo medio de compilaci
on de los ordenadores
port
atiles ser
a sensiblemente inferior a 80 horas.
Coeficiente de variaci
on
Qu
e tiene m
as variabilidad: la altura de las jirafas o la de los ratones?
on que hemos visto hasta ahora dependen de
las unidades en las que se mida la variable y de su magnitud.
Pero, evidentemente, no es lo mismo una desviaci
on tpica de 30 cm
en las alturas de las jirafas que en las de los ratones.
Para poder comparar la dispersi
on de variables que est
an medidas en
unidades diferentes, o que toman valores de magnitudes muy distintas,
es preciso contar con una medida de variabilidad que no dependa de
las unidades ni del tama
no de los datos.
Las unidades de la media y de la desviaci
on tpica son las mismas
que las de los datos. Una manera natural de construir una medida de
variabilidad que no dependa de las unidades ni de la magnitud de los
datos es calcular el cociente
sx
CVx =
,
|x|
Observaciones sobre el coeficiente de variaci

on
El cociente
CVx =
sx
,
|x|
on y puede interpretarse
recibe el nombre de coeficiente de variaci
como la proporci
on o tanto por uno de variabilidad.
El coeficiente de variaci
on es invariante ante cambios de escala: si
multiplicamos los datos por una constante a, entonces
CVax =
|a|sx
sx
sax
=
=
= CVx
|ax|
|a||x|
|x|
El coeficiente de variaci
on sirve para comparar las variabilidades de dos
conjuntos de datos con unidades o magnitudes diferentes, mientras
que si deseamos comparar dos elementos pertenecientes cada uno a
uno de esos conjuntos, debemos usar los valores tipificados.
Ejemplo: coeficiente de variaci

on
Un m
edico desea determinar si la variabilidad de los niveles de glucosa
en sangre de los individuos de cierto grupo de edad es mayor o menor
que la de los niveles colesterol. La distribuci
on del nivel de glucosa
en ese grupo de edad tiene una media de 80 mg/dl y una desviaci
on
tpica de 30 mg/dl, mientras que el nivel medio de colesterol es de
190 mg/dl con una varianza de 3249(mg/dl)2.
Los coeficientes de variaci
on son:
sg
30
CVg =
=
= 0.375
g
80
3249
sc
57
CVc =
=
=
= 0.3
c
190
190
Otros aspectos a tener en cuenta

en la descripci
on de datos univariantes
Por tanto, en este grupo de edad, los niveles de glucosa presentan

mayor dispersi
on que los de colesterol, o lo que es lo mismo, los niveles
de colesterol est
an m
as concentrados que los de glucosa.
Sonia Hern
andez Alonso
Datos atpicos
Los datos atpicos requieren una atenci
on especial. Es importante identificarlos y decidir c
omo tratarlos, ya que pueden tener una fuerte
infuencia en las conclusiones del an
alisis.
En algunos casos el outlier aparece como consecuencia de un acontecimiento extraordinario. En este caso, el ese dato atpico no es representativo y puede ser eliminado del an
alisis.
Otras veces la observaci
on atpica es simplemente consecuencia de un
error en la recogida o la transcipci
on de los datos. Debe evitarse que
este tipo de outliers influyan en el an
alisis.
Tambi
en hay observaciones an
omalas para las que no parece haber
explicaci
on. Estos datos pueden aportar informaci
on relevante sobre
el comportamiento de la variable, y conviene tratar de averiguar su por
qu
e.
Datos ausentes
Es frecuente encontrarse con que los valores de la variable son desconocidos para algunas de las unidades experimentales.
Por ejemplo, podra ocurrir que algunos de los nidos de Talampaya
fuesen inaccesibles y no se pudiese registrar el n
umero de huevos que
tienen.
Evidentemente, la validez de un estudio se ve afectada por la reducci
on
del n
umero total de casos.
Por ejemplo, es posible que los nidos inaccesibles sean precisamente
los que tienen m
as huevos, porque los n
and
ues que han decidido anidar
en lugares m
as difciles sean los que tienen m
as huevos que proteger.
El tratamiento de los posibles datos perdidos es tambi
en parte importante de un an
alisis descriptivo.
Datos temporales (continuaci

on)
30
80
Millones de toneladas
40
35
20
30
20
35
25
40
45
50
45
consumo de petrleo en China
2003
2004
2005
2006
2007
Ao
20
25

100
2003
2004
2005
2006
2007
2008
2009
2010
Ao
C
omo enfrentarse a un conjunto de datos?
Finalmente, hay que tener en cuenta que
Para extraer la m
axima informaci
on de un conjunto de datos deben
combinarse las t
ecnicas gr
aficas y num
ericas.
Es muy importante tener en mente la variable que se est
a midiendo
y el objetivo que se persigue.
En el an
alisis de datos no existen recetas universales validas para
todas las muestras y poblaciones: cada conjunto de observaciones
es un mundo diferente con sus propias particularidades. Por ello hay
que dejar que los datos hablen.
60
Por ejemplo, representar observaciones temporales mediante un histograma o un diagrama de barras tiene muy poca utilidad. Deben
representarse en un diagrama de serie temporal, como el siguiente:
La elecci
on de la escala influye mucho en la percepci
on que transmite
un gr
afico temporal. Por ejemplo, los dos gr
aficos siguientes representan los mismos datos sobre consumo de petr
oleo:
40
Cuando se quiere tener en cuenta el orden de los datos, el an

alisis
descriptivo requiere herramientas especficas.
50
Datos temporales
2008
2009
2010
2003
2004
2005
2006
2007
2008
2009
2010
Ao
Los estadsticos de centralizaci

on, posici
on o dispersi
on son poco informativos para datos temporales. Por ejemplo, el n
umero de medio de
ballenas avistadas por a
no no es un buen resumen de su evoluci
on.
Bibliografa
Ross, S.M. (2007) Introducci
on a la Estadstica. Reverte
Captulos 2 y 3.
Pe
na, D. (2001) Fundamentos de Estadstica. Alianza Editorial
Captulo 2.
Montgomery, D.C. et al (2012) Engineering Statistics. Wiley
Captulos 1 y 2.
Grima, P. (2010) La certeza absoluta y otras ficciones. Los secretos
de la estadstica. RBA
Captulo 1.

Tema 1 (Estadistica)

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tema 1 (Estadistica)

Încărcat de

Drepturi de autor:

Formate disponibile

GRADO EN INGENIER

Buscando patrones en los datos

Una forma razonable de buscar hip

El listado anterior contiene toda la informaci

Otros aspectos a tener en cuenta

Modalidades de una variable cualitativa

Frecuencias absolutas y relativas

La frecuencia absoluta de la modalidad ci, que denotaremos por

Ejemplo: tabla de frecuencias

La siguiente tabla de frecuencias resume el tipo de residuos al que

Propiedades de las frecuencias

Las frecuencias, tanto absolutas como relativas, son n

Puesto que las modalidades son exhaustivas y excluyentes, la suma de

La suma de las frecuencias relativas de todas las modalidades

Ejemplo: diagrama de barras

Los diagramas de barras permiten visualizar de manera sencilla la

Para los datos sobre el tipo de residuos, los diagramas de barras de

Para ello se representan

en el de ordenadas (eje Y ) las frecuencias (absolutas o relativas).

en el eje de abscisas (eje X) las modalidades

Diagrama de barras (frecuencias absolutas)

Observamos que los dos gr

Diagramas de barras comparativos

Ejemplo: diagrama de barras comparativo

Los diagramas de barras permiten tambi

Diagramas de sectores (tartas)

Se divide un crculo en sectores proporcionales a las frecuencias

Los habitual, no obstante, es que para construirlo se utilice alg

Ejemplo: diagrama de sectores

Los diagramas tridimensionales son m

Inconvenientes de los diagramas de sectores

Ejemplo: inconvenientes diagramas sectores

Sin embargo, estos diagramas de tarta presentan muchas limitaciones:

Cuando la variable tiene m

Por todo ello es m

Inconvenientes diagramas sectores (continuaci

El diagrama de barras siguiente representa los mismos datos:

Antes de emplear uno de estos gr

Inconvenientes diagramas sectores (continuaci

Sin embargo, lo que que transmiti

Lo adecuado habra sido utlizar un diagrama de barras:

El diagrama anterior pretenda ilustrar el resultado de la siguiente encuesta electoral:

Inconvenientes diagramas sectores (continuaci

El tratamiento es diferente seg

Las variables discretas son aquellas cuyos posibles valores son

Por ello la noci

u encontrados en el Parque Nacional de Talampaya:

ues que viven en Talampaya y X = n

Frecuencias relativas para variables discretas

La tabla permite observar, por ejemplo, que lo m

Ejemplo: frecuencias relativas en variables discretas

Se observa, por ejemplo, que el 28 % de los nidos tienen 1 s

Frecuencias acumuladas para variables discretas

Ejemplo: frecuencias acumuladas para v discretas

Frecuencias relativas acumuladas para v discretas

Ejemplo: frecuencias relativas acumuladas

Se observa, por ejemplo, que el 66.7 % de los nidos de

Propiedades de las frecuencias

Se puede presentar de forma ordenada en una tabla estadstica:

La suma de las frecuencias relativas de todos los valores es 1:

La frecuencia absoluta acumulada de la

para variables continuas

Una vez hecha esta divisi

Las categoras ya no vienen dadas de forma natural por la variable,